1.2: Dados, amostragem e variação nos dados e amostragem

Last updated
Save as PDF

Page ID: 186550

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Os dados podem vir de uma população ou de uma amostra. Letras minúsculas como$x$ ou$y$ geralmente são usadas para representar valores de dados. A maioria dos dados pode ser colocada nas seguintes categorias:

Qualitativo
quantitativo

Os dados qualitativos são o resultado da categorização ou descrição dos atributos de uma população. Os dados qualitativos também costumam ser chamados de dados categóricos. A cor do cabelo, o tipo sanguíneo, a etnia, o carro que a pessoa dirige e a rua em que vive são exemplos de dados qualitativos (categóricos). Os dados qualitativos (categóricos) geralmente são descritos por palavras ou letras. Por exemplo, a cor do cabelo pode ser preto, marrom escuro, marrom claro, loiro, cinza ou vermelho. O tipo sanguíneo pode ser AB+, O- ou B+. Os pesquisadores geralmente preferem usar dados quantitativos em vez de dados qualitativos (categóricos) porque eles se prestam mais facilmente à análise matemática. Por exemplo, não faz sentido encontrar uma cor de cabelo ou tipo sanguíneo comum.

Os dados quantitativos são sempre números. Os dados quantitativos são o resultado da contagem ou medição de atributos de uma população. Quantidade de dinheiro, pulsação, peso, número de pessoas que moram em sua cidade e número de estudantes que fazem estatísticas são exemplos de dados quantitativos. Os dados quantitativos podem ser discretos ou contínuos.

Todos os dados resultantes da contagem são chamados de dados discretos quantitativos. Esses dados assumem apenas determinados valores numéricos. Se você contar o número de chamadas telefônicas que recebe em cada dia da semana, poderá obter valores como zero, um, dois ou três.

Dados que não são compostos apenas de números contados, mas que podem incluir frações, decimais ou números irracionais, são chamados de dados quantitativos contínuos. Os dados contínuos geralmente são resultados de medições como comprimentos, pesos ou tempos. Uma lista das durações em minutos para todas as chamadas telefônicas que você faz em uma semana, com números como 2,4, 7,5 ou 11,0, seriam dados quantitativos contínuos.

Exemplo$\PageIndex{1}$: DATA SAMPLE OF QUANTITATIVE DISCRETE DATA

Os dados são o número de livros que os alunos carregam em suas mochilas. Você faz uma amostra de cinco estudantes. Dois estudantes carregam três livros, um aluno carrega quatro livros, um aluno carrega dois livros e um aluno carrega um livro. Os números de livros (três, quatro, dois e um) são os dados quantitativos discretos.

Exercício$\PageIndex{1}$

Os dados são o número de máquinas em uma academia. Você experimenta cinco academias. Uma academia tem 12 máquinas, uma academia tem 15 máquinas, uma academia tem dez máquinas, uma academia tem 22 máquinas e a outra academia tem 20 máquinas. Que tipo de dados são esses?

Exemplo$\PageIndex{2}$: DATA SAMPLE OF QUANTITATIVE CONTINUOUS DATA

Os dados são os pesos das mochilas com livros. Você faz uma amostra dos mesmos cinco alunos. Os pesos (em libras) de suas mochilas são 6,2, 7, 6,8, 9,1, 4,3. Observe que mochilas com três livros podem ter pesos diferentes. Os pesos são dados quantitativos contínuos.

Exercício$\PageIndex{2}$

Os dados são as áreas dos gramados em pés quadrados. Você experimenta cinco casas. As áreas dos gramados são 144 pés quadrados, 160 pés quadrados, 190 pés quadrados, 180 pés quadrados e 210 pés quadrados. Que tipo de dados são esses?

Exemplo$\PageIndex{3}$

Você vai ao supermercado e compra três latas de sopa (19 onças), bisque de tomate, 14,1 onças de lentilha e 19 onças de casamento italiano), dois pacotes de nozes (nozes e amendoim), quatro tipos diferentes de vegetais (brócolis, couve-flor, espinafre e cenoura) e duas sobremesas (16 onças de sorvete de pistache e 32 onças (biscoitos de chocolate).

Nomeie conjuntos de dados que sejam quantitativos discretos, quantitativos contínuos e qualitativos (categóricos).

Resposta

Uma solução possível:

As três latas de sopa, dois pacotes de nozes, quatro tipos de vegetais e duas sobremesas são dados quantitativos discretos porque você os conta.
Os pesos das sopas (19 onças, 14,1 onças, 19 onças) são dados quantitativos contínuos porque você mede os pesos com a maior precisão possível.
Os tipos de sopas, nozes, vegetais e sobremesas são dados qualitativos (categóricos) porque são categóricos.

Tente identificar conjuntos de dados adicionais neste exemplo.

Exemplo$\PageIndex{4}$

Os dados são as cores das mochilas. Novamente, você faz uma amostra dos mesmos cinco alunos. Um aluno tem uma mochila vermelha, dois alunos têm mochilas pretas, um aluno tem uma mochila verde e um aluno tem uma mochila cinza. As cores vermelho, preto, preto, verde e cinza são dados qualitativos (categóricos).

Exercício$\PageIndex{4}$

Os dados são as cores das casas. Você experimenta cinco casas. As cores das casas são branco, amarelo, branco, vermelho e branco. Que tipo de dados são esses?

Você pode coletar dados como números e relatá-los categoricamente. Por exemplo, as pontuações do questionário para cada aluno são registradas ao longo do semestre. No final do período, as pontuações do questionário são relatadas como A, B, C, D ou F

Exemplo$\PageIndex{5}$

Trabalhe de forma colaborativa para determinar o tipo de dados correto (quantitativo ou qualitativo). Indique se os dados quantitativos são contínuos ou discretos. Dica: dados discretos geralmente começam com as palavras “o número de”.

o número de pares de sapatos que você possui
o tipo de carro que você dirige
a distância da sua casa até o supermercado mais próximo
o número de aulas que você faz por ano escolar
o tipo de calculadora que você usa
pesos de lutadores de sumô
número de respostas corretas em um questionário
Pontuações de QI (isso pode causar alguma discussão.)

Resposta: Os itens a, d e g são quantitativos discretos; os itens c, f e h são quantitativos contínuos; os itens b e e são qualitativos ou categóricos.

Exercício$\PageIndex{5}$

Determine o tipo de dados correto (quantitativo ou qualitativo) para o número de carros em um estacionamento. Indique se os dados quantitativos são contínuos ou discretos.

Exemplo$\PageIndex{6}$

Uma professora de estatística coleta informações sobre a classificação de seus alunos como calouros, alunos do segundo ano, juniores ou seniores. Os dados que ela coleta estão resumidos no gráfico circular Figura 1.2. Que tipo de dados esse gráfico mostra?

Este é um gráfico circular que mostra a classificação por turma dos estudantes de estatística. O gráfico tem 4 seções denominadas Freshman, Sophomore, Junior, Senior. Uma pergunta é feita abaixo do gráfico circular: que tipo de dados esse gráfico mostra?

Resposta: Este gráfico circular mostra os alunos em cada ano, que são dados qualitativos (ou categóricos).

Exercício$\PageIndex{6}$

O registrador da State University mantém registros do número de horas de crédito que os alunos concluem a cada semestre. Os dados que ele coleta estão resumidos no histograma. Os limites da classe são de 10 a menos de 13, 13 a menos de 16, 16 a menos de 19, 19 a menos de 22 e 22 a menos de 25.

Esse histograma consiste em 5 barras com o eixo x marcado em intervalos de 3 de 10 a 25 e o eixo y em incrementos de 100 de 0 a 800. A altura das barras mostra o número de alunos em cada intervalo. — Figura 1.3

Que tipo de dados esse gráfico mostra?

Debate de dados qualitativos

Abaixo estão as tabelas que comparam o número de estudantes de meio período e período integral no De Anza College e no Foothill College matriculados no trimestre da primavera de 2010. As tabelas exibem contagens (frequências) e porcentagens ou proporções (frequências relativas). As colunas de porcentagem facilitam a comparação das mesmas categorias nas faculdades. A exibição de porcentagens junto com os números geralmente é útil, mas é particularmente importante ao comparar conjuntos de dados que não têm os mesmos totais, como o total de matrículas para ambas as faculdades neste exemplo. Observe como a porcentagem de estudantes de meio período no Foothill College é muito maior em comparação com a De Anza College.

Tabela$\PageIndex{1}$: Período de outono de 2007 (dia do censo)
Faculdade De Anza			Faculdade Foothill
	Número	Porcentagem		Número	Porcentagem
Em tempo integral	9.200	40,9%	Em tempo integral	4.059	28,6%
Tempo parcial	13.296	59,1%	Tempo parcial	10.124	71,4%
Total	22.496	100%	Total	14.183	100%

As tabelas são uma boa forma de organizar e exibir dados. Mas os gráficos podem ser ainda mais úteis para entender os dados. Não há regras rígidas sobre quais gráficos usar. Dois gráficos usados para exibir dados qualitativos (categóricos) são gráficos circulares e gráficos de barras.

Em um gráfico circular, as categorias de dados são representadas por fatias em um círculo e são proporcionais em tamanho à porcentagem de indivíduos em cada categoria.
Em um gráfico de barras, o comprimento da barra para cada categoria é proporcional ao número ou porcentagem de indivíduos em cada categoria. As barras podem ser verticais ou horizontais.
Um gráfico de Pareto consiste em barras que são classificadas em ordem pelo tamanho da categoria (da maior para a menor).

Veja a Figura 1.5 e determine qual gráfico (pizza ou barra) você acha que exibe melhor as comparações.

É uma boa ideia examinar uma variedade de gráficos para ver qual é o mais útil na exibição dos dados. Podemos fazer escolhas diferentes do que consideramos o “melhor” gráfico, dependendo dos dados e do contexto. Nossa escolha também depende da finalidade para a qual estamos usando os dados.

Figura 1.5

Porcentagens que somam mais (ou menos) de 100%

Às vezes, as porcentagens somam mais de 100% (ou menos de 100%). No gráfico, as porcentagens somam mais de 100% porque os alunos podem estar em mais de uma categoria. Um gráfico de barras é apropriado para comparar o tamanho relativo das categorias. Um gráfico circular não pode ser usado. Também não poderia ser usado se as porcentagens fossem menores que 100%.

Tabela$\PageIndex{2}$: De Anza College, primavera de 2010
Característica/categoria	Porcentagem
Estudantes em tempo integral	40,9%
Estudantes que pretendem se transferir para uma instituição educacional de 4 anos	48,6%
Estudantes com menos de 25 anos	61,0%
TOTAL	150,5%

Omitindo categorias/dados ausentes

A tabela mostra a etnia dos estudantes, mas falta a categoria “Outro/Desconhecido”. Esta categoria contém pessoas que não acharam que se encaixavam em nenhuma das categorias de etnia ou se recusaram a responder. Observe que as frequências não somam o número total de alunos. Nessa situação, crie um gráfico de barras e não um gráfico circular.

Tabela$\PageIndex{3}$: Etnia dos estudantes do De Anza College, semestre de outono de 2007 (Dia do Censo)
	Frequência	Porcentagem
asiáticos	8.794	36,1%
Preto	1.412	5,8%
Filipino	1.298	5,3%
Hispânica	4.180	17,1%
Nativo americano	146	0,6%
Ilhéu do Pacífico	236	1,0%
Branco	5.978	24,5%
TOTAL	22.044 de 24.382	90,4% de 100%

O gráfico a seguir é o mesmo do gráfico anterior, mas o percentual “Outro/Desconhecido” (9,6%) foi incluído. A categoria “Outro/Desconhecido” é grande em comparação com algumas das outras categorias (nativos americanos, 0,6%, habitantes das ilhas do Pacífico 1,0%). É importante saber isso quando pensamos sobre o que os dados estão nos dizendo.

Esse gráfico de barras específico na Figura 1.9 é um gráfico de Pareto. O gráfico de Pareto tem as barras classificadas da maior para a menor e é mais fácil de ler e interpretar.

Gráficos circulares: sem dados ausentes

Os gráficos circulares a seguir têm a categoria “Outro/Desconhecido” incluída (já que as porcentagens devem chegar a 100%). O gráfico na Figura 1.10.

Figura$\PageIndex{5}$: Cole a legenda aqui

Amostragem

A coleta de informações sobre uma população inteira geralmente custa muito ou é praticamente impossível. Em vez disso, usamos uma amostra da população. Uma amostra deve ter as mesmas características da população que está representando. A maioria dos estatísticos usa vários métodos de amostragem aleatória na tentativa de atingir esse objetivo. Esta seção descreverá alguns dos métodos mais comuns. Existem vários métodos diferentes de amostragem aleatória. Em cada forma de amostragem aleatória, cada membro de uma população inicialmente tem uma chance igual de ser selecionado para a amostra. Cada método tem prós e contras. O método mais fácil de descrever é chamado de amostra aleatória simples. Qualquer grupo de n indivíduos tem a mesma probabilidade de ser escolhido como qualquer outro grupo de$n$ indivíduos se a técnica simples de amostragem aleatória for usada. Em outras palavras, cada amostra do mesmo tamanho tem a mesma chance de ser selecionada.

Além da amostragem aleatória simples, existem outras formas de amostragem que envolvem um processo casual para obter a amostra. Outros métodos de amostragem aleatória bem conhecidos são a amostra estratificada, a amostra por conglomerado e a amostra sistemática.

Para escolher uma amostra estratificada, divida a população em grupos chamados estratos e, em seguida, pegue um número proporcional de cada estrato. Por exemplo, você pode estratificar (agrupar) sua população universitária por departamento e, em seguida, escolher uma amostra aleatória simples proporcional de cada estrato (cada departamento) para obter uma amostra aleatória estratificada. Para escolher uma amostra aleatória simples de cada departamento, numere cada membro do primeiro departamento, numere cada membro do segundo departamento e faça o mesmo com os demais departamentos. Em seguida, use uma amostragem aleatória simples para escolher números proporcionais do primeiro departamento e faça o mesmo para cada um dos demais departamentos. Esses números retirados do primeiro departamento, retirados do segundo departamento e assim por diante representam os membros que compõem a amostra estratificada.

Para escolher uma amostra de agrupamento, divida a população em agrupamentos (grupos) e, em seguida, selecione aleatoriamente alguns dos agrupamentos. Todos os membros desses clusters estão na amostra do cluster. Por exemplo, se você amostrar aleatoriamente quatro departamentos da sua população universitária, os quatro departamentos compõem a amostra do cluster. Divida o corpo docente da faculdade por departamento. Os departamentos são os clusters. Numere cada departamento e escolha quatro números diferentes usando uma amostragem aleatória simples. Todos os membros dos quatro departamentos com esses números são a amostra do cluster.

Para escolher uma amostra sistemática, selecione aleatoriamente um ponto de partida e$n^{th}$ pegue todos os dados de uma lista da população. Por exemplo, suponha que você precise fazer uma pesquisa por telefone. Sua lista telefônica contém 20.000 anúncios de residências. Você deve escolher 400 nomes para a amostra. Numere a população de 1 a 20.000 e, em seguida, use uma amostra aleatória simples para escolher um número que represente o primeiro nome na amostra. Depois, escolha cada quinquagésimo nome até que você tenha um total de 400 nomes (talvez seja necessário voltar ao início da sua lista telefônica). A amostragem sistemática é frequentemente escolhida por ser um método simples.

Um tipo de amostragem que não é aleatória é a amostragem por conveniência. A amostragem de conveniência envolve o uso de resultados que estão prontamente disponíveis. Por exemplo, uma loja de software de computador conduz um estudo de marketing entrevistando clientes em potencial que por acaso estão na loja navegando pelo software disponível. Os resultados da amostragem por conveniência podem ser muito bons em alguns casos e altamente tendenciosos (favorecem certos resultados) em outros.

Os dados de amostragem devem ser feitos com muito cuidado. Coletar dados de forma descuidada pode ter resultados devastadores. Pesquisas enviadas por correio para famílias e depois devolvidas podem ser muito tendenciosas (elas podem favorecer um determinado grupo). É melhor para a pessoa que está conduzindo a pesquisa selecionar os respondentes da amostra.

A verdadeira amostragem aleatória é feita com substituição. Ou seja, quando um membro é escolhido, esse membro volta à população e, portanto, pode ser escolhido mais de uma vez. No entanto, por razões práticas, na maioria das populações, a amostragem aleatória simples é feita sem reposição. As pesquisas geralmente são feitas sem substituição. Ou seja, um membro da população só pode ser escolhido uma vez. A maioria das amostras é retirada de grandes populações e a amostra tende a ser pequena em comparação com a população. Como esse é o caso, a amostragem sem reposição é aproximadamente a mesma que a amostragem com reposição porque a chance de escolher o mesmo indivíduo mais de uma vez com a substituição é muito baixa.

Em uma população universitária de 10.000 pessoas, suponha que você queira escolher aleatoriamente uma amostra de 1.000 para uma pesquisa. Para qualquer amostra específica de 1.000, se você estiver amostrando com reposição,

a chance de escolher a primeira pessoa é de 1.000 em 10.000 (0,1000);
a chance de escolher uma segunda pessoa diferente para esta amostra é de 999 em 10.000 (0,0999);
a chance de escolher a mesma pessoa novamente é de 1 em 10.000 (muito baixa).

Se você estiver amostrando sem substituição,

a chance de escolher a primeira pessoa para qualquer amostra específica é de 1000 em 10.000 (0,1000);
a chance de escolher uma segunda pessoa diferente é de 999 de 9.999 (0,0999);
você não substitui a primeira pessoa antes de escolher a próxima pessoa.

Compare as frações 999/10.000 e 999/9.999. Para maior precisão, leve as respostas decimais para quatro casas decimais. Para quatro casas decimais, esses números são equivalentes (0,0999).

A amostragem sem reposição em vez da amostragem com substituição só se torna um problema matemático quando a população é pequena. Por exemplo, se a população for de 25 pessoas, a amostra for de dez e você estiver fazendo uma amostragem substituindo qualquer amostra específica, a chance de escolher a primeira pessoa é de dez em 25 e a chance de escolher uma segunda pessoa diferente é de nove em 25 (você substitui a primeira pessoa).

Se você fizer uma amostra sem reposição, a chance de escolher a primeira pessoa é de dez em 25, e a chance de escolher a segunda pessoa (que é diferente) é de nove em 24 (você não substitui a primeira pessoa).

Compare as frações 9/25 e 9/24. Até quatro casas decimais, 9/25 = 0,3600 e 9/24 = 0,3750. Com quatro casas decimais, esses números não são equivalentes.

Ao analisar dados, é importante estar ciente dos erros de amostragem e dos erros de não amostragem. O processo real de amostragem causa erros de amostragem. Por exemplo, a amostra pode não ser grande o suficiente. Fatores não relacionados ao processo de amostragem causam erros de não amostragem. Um dispositivo de contagem defeituoso pode causar um erro de não amostragem.

Na realidade, uma amostra nunca será exatamente representativa da população, então sempre haverá algum erro de amostragem. Como regra geral, quanto maior a amostra, menor o erro de amostragem.

Nas estatísticas, um viés de amostragem é criado quando uma amostra é coletada de uma população e alguns membros da população não têm tanta probabilidade de serem escolhidos quanto outros (lembre-se de que cada membro da população deve ter a mesma probabilidade de ser escolhido). Quando ocorre um viés de amostragem, pode haver conclusões incorretas sobre a população que está sendo estudada.

Avaliação crítica

Precisamos avaliar criticamente os estudos estatísticos sobre os quais lemos e analisá-los antes de aceitar os resultados dos estudos. Os problemas comuns que você deve conhecer incluem

Problemas com amostras: Uma amostra deve ser representativa da população. Uma amostra que não é representativa da população é tendenciosa. Amostras tendenciosas que não são representativas da população fornecem resultados imprecisos e inválidos.
Amostras autoselecionadas: as respostas somente de pessoas que optam por responder, como pesquisas telefônicas, geralmente não são confiáveis.
Problemas com o tamanho da amostra: amostras muito pequenas podem não ser confiáveis. Amostras maiores são melhores, se possível. Em algumas situações, ter amostras pequenas é inevitável e ainda pode ser usado para tirar conclusões. Exemplos: testes de colisão em carros ou exames médicos para doenças raras
Influência indevida: coletar dados ou fazer perguntas de uma forma que influencie a resposta
Não resposta ou recusa do sujeito em participar: As respostas coletadas podem não ser mais representativas da população. Muitas vezes, pessoas com opiniões positivas ou negativas fortes podem responder pesquisas, o que pode afetar os resultados.
Causalidade: Uma relação entre duas variáveis não significa que uma faça com que a outra ocorra. Eles podem estar relacionados (correlacionados) por causa de seu relacionamento por meio de uma variável diferente.
Estudos autofinanciados ou de interesse próprio: um estudo realizado por uma pessoa ou organização para apoiar sua reivindicação. O estudo é imparcial? Leia o estudo com atenção para avaliar o trabalho. Não assuma automaticamente que o estudo é bom, mas também não assuma automaticamente que o estudo é ruim. Avalie seus méritos e o trabalho realizado.
Uso enganoso de dados: gráficos exibidos incorretamente, dados incompletos ou falta de contexto
Confusão: quando os efeitos de vários fatores em uma resposta não podem ser separados. A confusão torna difícil ou impossível tirar conclusões válidas sobre o efeito de cada fator.

Exemplo$\PageIndex{7}$

Um estudo é feito para determinar a mensalidade média que os estudantes de graduação do estado de San Jose pagam por semestre. Cada aluno nas amostras a seguir é questionado sobre quanto ele pagou pelo semestre de outono. Qual é o tipo de amostragem em cada caso?

Uma amostra de 100 estudantes universitários do estado de San Jose é obtida organizando os nomes dos alunos por classificação (calouro, segundo ano, júnior ou sênior) e, em seguida, selecionando 25 alunos de cada um.
Um gerador de números aleatórios é usado para selecionar um aluno da lista alfabética de todos os estudantes de graduação no semestre de outono. Começando com esse aluno, cada 50º aluno é escolhido até que 75 alunos sejam incluídos na amostra.
Um método completamente aleatório é usado para selecionar 75 alunos. Cada estudante de graduação no semestre de outono tem a mesma probabilidade de ser escolhido em qualquer estágio do processo de amostragem.
Os anos do primeiro, segundo ano, júnior e sênior são numerados um, dois, três e quatro, respectivamente. Um gerador de números aleatórios é usado para escolher dois desses anos. Todos os estudantes desses dois anos estão na amostra.
Um assistente administrativo é convidado a ficar em frente à biblioteca em uma quarta-feira e perguntar aos primeiros 100 estudantes de graduação que ele encontre o que eles pagaram pela mensalidade no semestre de outono. Esses 100 estudantes são a amostra.

Resposta: a. estratificado; b. sistemático; c. aleatório simples; d. agrupamento; e. conveniência

Exemplo$\PageIndex{8}$

Determine o tipo de amostragem usada (aleatória simples, estratificada, sistemática, agrupada ou de conveniência).

Um treinador de futebol seleciona seis jogadores de um grupo de meninos de oito a dez anos, sete jogadores de um grupo de meninos de 11 a 12 anos e três jogadores de um grupo de meninos de 13 a 14 anos para formar um time de futebol recreativo.
Um pesquisador entrevista todo o pessoal de recursos humanos em cinco empresas diferentes de alta tecnologia.
Um pesquisador educacional do ensino médio entrevista 50 professoras do ensino médio e 50 professores do sexo masculino do ensino médio.
Um pesquisador médico entrevista cada três pacientes com câncer de uma lista de pacientes com câncer em um hospital local.
Um conselheiro do ensino médio usa um computador para gerar 50 números aleatórios e, em seguida, escolhe os alunos cujos nomes correspondem aos números.
Um aluno entrevista colegas de classe em sua aula de álgebra para determinar quantos pares de jeans um aluno possui, em média.

Resposta

a. estratificado; b. agrupamento; c. estratificado; d. sistemático; e. aleatório simples; f.conveniência

Se examinássemos duas amostras representando a mesma população, mesmo se usássemos métodos de amostragem aleatória para as amostras, elas não seriam exatamente as mesmas. Assim como há variação nos dados, há variação nas amostras. À medida que você se acostuma com a amostragem, a variabilidade começará a parecer natural.

Exemplo$\PageIndex{8}$

Suponha que o ABC College tenha 10.000 estudantes em tempo parcial (a população). Estamos interessados na quantia média de dinheiro que um estudante de meio período gasta em livros no outono. Perguntar a todos os 10.000 alunos é uma tarefa quase impossível.

Suponha que coletemos duas amostras diferentes.

Primeiro, usamos amostragem de conveniência e entrevistamos dez alunos de uma aula de química orgânica do primeiro semestre. Muitos desses alunos estão fazendo cálculo no primeiro semestre, além da aula de química orgânica. A quantia de dinheiro que eles gastam em livros é a seguinte:

$128; $87; $173; $116; $130; $204; $147; $189; $93; $153

A segunda amostra é coletada usando uma lista de idosos que fazem aulas de educação física e cada quinto idoso da lista, totalizando dez idosos. Eles gastam:

$50; $40; $36; $15; $50; $100; $40; $53; $22; $22

É improvável que algum aluno esteja nas duas amostras.

a. Você acha que qualquer uma dessas amostras é representativa (ou é característica) de toda a população estudantil de 10.000 estudantes em tempo parcial?

Resposta: a. Não. A primeira amostra provavelmente consiste em estudantes com orientação científica. Além do curso de química, alguns deles também estão fazendo cálculo de primeiro semestre. Os livros para essas aulas tendem a ser caros. A maioria desses estudantes está, mais do que provavelmente, pagando mais do que a média de um estudante de meio período por seus livros. A segunda amostra é um grupo de idosos que estão, mais do que provavelmente, fazendo cursos de saúde e interesse. A quantidade de dinheiro que eles gastam em livros é provavelmente muito menor do que a média de um estudante de meio período. Ambas as amostras são tendenciosas. Além disso, em ambos os casos, nem todos os alunos têm a chance de estar em qualquer uma das amostras.

b. Como essas amostras não são representativas de toda a população, é sensato usar os resultados para descrever toda a população?

Resposta

Solução 1.13

b. Não. Para essas amostras, cada membro da população não teve a mesma chance de ser escolhido.

Agora, suponha que pegamos uma terceira amostra. Escolhemos dez estudantes diferentes de meio período das disciplinas de química, matemática, inglês, psicologia, sociologia, história, enfermagem, educação física, arte e desenvolvimento na primeira infância. (Assumimos que essas são as únicas disciplinas nas quais estudantes de meio período no ABC College estão matriculados e que um número igual de estudantes de meio período está matriculado em cada uma das disciplinas.) Cada aluno é escolhido usando uma amostragem aleatória simples. Usando uma calculadora, números aleatórios são gerados e um aluno de uma disciplina específica é selecionado se tiver um número correspondente. Os estudantes gastam as seguintes quantias:

$180; $50; $150; $85; $260; $75; $180; $200; $200; $150

c. A amostra é tendenciosa?

Resposta

Solução 1.13

c. A amostra é imparcial, mas uma amostra maior seria recomendada para aumentar a probabilidade de que a amostra seja quase representativa da população. No entanto, para uma técnica de amostragem tendenciosa, mesmo uma amostra grande corre o risco de não ser representativa da população.

Os alunos geralmente perguntam se é “bom o suficiente” coletar uma amostra, em vez de pesquisar toda a população. Se a pesquisa for bem feita, a resposta é sim.

Exercício$\PageIndex{8}$

Uma estação de rádio local tem uma base de fãs de 20.000 ouvintes. A emissora quer saber se seu público prefere mais músicas ou mais programas de entrevistas. Perguntar a todos os 20.000 ouvintes é uma tarefa quase impossível.

A estação usa amostras de conveniência e pesquisa as primeiras 200 pessoas que encontram em um dos eventos de concertos musicais da estação. 24 pessoas disseram que prefeririam mais talk shows e 176 pessoas disseram que prefeririam mais música.

Você acha que essa amostra é representativa (ou é característica) de toda a população de 20.000 ouvintes?

Variação nos dados

A variação está presente em qualquer conjunto de dados. Por exemplo, latas de bebida de 16 onças podem conter mais ou menos de 16 onças de líquido. Em um estudo, oito latas de 16 onças foram medidas e produziram a seguinte quantidade (em onças) de bebida:

15,8; 16,1; 15,2; 14,8; 15,8; 15,9; 16,0; 15,5

As medidas da quantidade de bebida em uma lata de 16 onças podem variar porque pessoas diferentes fazem as medições ou porque a quantidade exata, 16 onças de líquido, não foi colocada nas latas. Os fabricantes realizam testes regularmente para determinar se a quantidade de bebida em uma lata de 16 onças está dentro da faixa desejada.

Esteja ciente de que, à medida que você coleta dados, eles podem variar um pouco dos dados que outra pessoa está usando para o mesmo propósito. Isso é completamente natural. No entanto, se dois ou mais de vocês estiverem coletando os mesmos dados e obtiverem resultados muito diferentes, é hora de você e os outros reavaliarem seus métodos de coleta de dados e sua precisão.

Variação nas amostras

Foi mencionado anteriormente que duas ou mais amostras da mesma população, coletadas aleatoriamente e com quase as mesmas características da população, provavelmente serão diferentes umas das outras. Suponha que Doreen e Jung decidam estudar a quantidade média de tempo que os estudantes dormem na faculdade todas as noites. Doreen e Jung coletam amostras de 500 estudantes. Doreen usa amostragem sistemática e Jung usa amostragem por conglomerados. A amostra de Doreen será diferente da amostra de Jung. Mesmo que Doreen e Jung usassem o mesmo método de amostragem, com toda a probabilidade suas amostras seriam diferentes. No entanto, nenhum deles estaria errado.

Pense no que contribui para tornar as amostras de Doreen e Jung diferentes.

Se Doreen e Jung coletarem amostras maiores (ou seja, o número de valores de dados aumenta), seus resultados de amostra (a quantidade média de tempo que um aluno dorme) podem estar mais próximos da média real da população. Mesmo assim, suas amostras seriam, com toda a probabilidade, diferentes umas das outras. Essa variabilidade nas amostras não pode ser enfatizada o suficiente.

Tamanho de uma amostra

O tamanho de uma amostra (geralmente chamado de número de observações, geralmente dado o símbolo n) é importante. Os exemplos que você viu neste livro até agora foram pequenos. Amostras de apenas algumas centenas de observações, ou até menores, são suficientes para muitos propósitos. Na pesquisa, amostras que são de 1.200 a 1.500 observações são consideradas grandes o suficiente e boas o suficiente se a pesquisa for aleatória e bem feita. Posteriormente, descobriremos que amostras ainda menores fornecerão resultados muito bons. Você aprenderá o porquê ao estudar os intervalos de confiança.

Esteja ciente de que muitas amostras grandes são tendenciosas. Por exemplo, pesquisas telefônicas são invariavelmente tendenciosas, porque as pessoas optam por responder ou não.