Skip to main content
Global

1.R: Amostragem e dados (revisão)

  • Page ID
    186558
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    1.1 Definições de estatística, probabilidade e termos-chave

    A teoria matemática da estatística é mais fácil de aprender quando você conhece o idioma. Este módulo apresenta termos importantes que serão usados em todo o texto.

    1.2 Dados, amostragem e variação nos dados e amostragem

    Os dados são itens individuais de informação provenientes de uma população ou amostra. Os dados podem ser classificados como qualitativos (categóricos), quantitativos contínuos ou quantitativos discretos.

    Como não é prático medir toda a população em um estudo, os pesquisadores usam amostras para representar a população. Uma amostra aleatória é um grupo representativo da população escolhida usando um método que dá a cada indivíduo da população uma chance igual de ser incluído na amostra. Os métodos de amostragem aleatória incluem amostragem aleatória simples, amostragem estratificada, amostragem por conglomerados e amostragem sistemática. A amostragem por conveniência é um método não aleatório de escolher uma amostra que geralmente produz dados tendenciosos.

    Amostras que contêm indivíduos diferentes resultam em dados diferentes. Isso é verdade mesmo quando as amostras são bem escolhidas e representativas da população. Quando selecionadas corretamente, amostras maiores modelam a população mais de perto do que amostras menores. Há muitos problemas potenciais diferentes que podem afetar a confiabilidade de uma amostra. Os dados estatísticos precisam ser analisados criticamente, não simplesmente aceitos.

    1.3 Níveis de medição

    Alguns cálculos geram números artificialmente precisos. Não é necessário reportar um valor com oito casas decimais quando as medidas que geraram esse valor foram precisas apenas até o décimo mais próximo. Arredonde sua resposta final para uma casa decimal a mais do que estava presente nos dados originais. Isso significa que, se você tiver dados medidos até o décimo mais próximo de uma unidade, reporte a estatística final para o centésimo mais próximo.

    Além de arredondar suas respostas, você pode medir seus dados usando os quatro níveis de medição a seguir.

    • Nível de escala nominal: dados que não podem ser solicitados nem usados em cálculos
    • Nível de escala ordinal: dados que podem ser ordenados; as diferenças não podem ser medidas
    • Nível de escala de intervalo: dados com uma ordem definida, mas sem ponto de partida; as diferenças podem ser medidas, mas não existe uma proporção.
    • Nível de escala da razão: dados com um ponto de partida que pode ser ordenado; as diferenças têm significado e as proporções podem ser calculadas.

    Ao organizar os dados, é importante saber quantas vezes um valor aparece. Quantos estudantes de estatística estudam cinco horas ou mais para um exame? Qual porcentagem das famílias do nosso quarteirão tem dois animais de estimação? Frequência, frequência relativa e frequência relativa cumulativa são medidas que respondem a perguntas como essas.

    1.4 Design experimental e ética

    Um estudo mal elaborado não produzirá dados confiáveis. Há certos componentes principais que devem ser incluídos em cada experimento. Para eliminar variáveis ocultas, os indivíduos devem ser designados aleatoriamente para diferentes grupos de tratamento. Um dos grupos deve atuar como um grupo controle, demonstrando o que acontece quando o tratamento ativo não é aplicado. Os participantes do grupo de controle recebem um tratamento com placebo que se parece exatamente com os tratamentos ativos, mas não pode influenciar a variável de resposta. Para preservar a integridade do placebo, tanto os pesquisadores quanto os sujeitos podem ficar cegos. Quando um estudo é elaborado adequadamente, a única diferença entre os grupos de tratamento é aquela imposta pelo pesquisador. Portanto, quando os grupos respondem de forma diferente a tratamentos diferentes, a diferença deve ser devida à influência da variável explicativa.

    “Um problema de ética surge quando você está considerando uma ação que beneficia você ou alguma causa que você apoia, prejudica ou reduz benefícios a outras pessoas e viola alguma regra.” (Andrew Gelman, “Dados abertos e métodos abertos”, Ética e estatística, http://www.stat.columbia.edu/~gelman...nceEthics1.pdf (acessado em 1º de maio de 2013).) Violações éticas nas estatísticas nem sempre são fáceis de detectar. Associações profissionais e agências federais publicam diretrizes para uma conduta adequada. É importante que você aprenda os procedimentos estatísticos básicos para poder reconhecer a análise de dados adequada.