11.4: Teste de Independência
- Page ID
- 189960
Os testes de independência envolvem o uso de uma tabela de contingência de valores observados (dados).
A estatística de teste para um teste de independência é semelhante à de um teste de adequação:
\[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\]
onde:
- \(O =\)valores observados
- \(E =\)valores esperados
- \(i =\)o número de linhas na tabela
- \(j =\)o número de colunas na tabela
Existem\(i \cdot j\) termos do formulário\(\frac{(O-E)^{2}}{E}\).
O valor esperado para cada célula precisa ser pelo menos cinco para que você possa usar esse teste.
Um teste de independência determina se dois fatores são independentes ou não. Você encontrou pela primeira vez o termo independência em Tópicos de Probabilidade. Como revisão, considere o exemplo a seguir.
Exemplo\(\PageIndex{1}\)
Suponha\(A =\) uma violação de velocidade no último ano e\(B =\) um usuário de telefone celular enquanto dirige. Se\(A\) e\(B\) são independentes, então\(P(A \text{ AND } B) = P(A)P(B)\). \(A \text{ AND } B\)é o caso de um motorista ter sofrido uma infração por excesso de velocidade no ano passado e também ter usado um telefone celular enquanto dirigia. Suponha, em um estudo com motoristas que sofreram violações de velocidade no último ano e que usaram telefone celular enquanto dirigiam, que 755 pessoas tenham sido pesquisadas. Dos 755, 70 tiveram uma violação de velocidade e 685 não; 305 usaram telefones celulares enquanto dirigiam e 450 não.
Deixe\(y =\) o número esperado de motoristas que usaram um telefone celular enquanto dirigiam e sofreram violações por excesso de velocidade.
Se\(A\) e\(B\) forem independentes, então\(P(A \text{ AND } B) = P(A)P(B)\). Por substituição,
\[\frac{y}{755} = \left(\frac{70}{755}\right)\left(\frac{305}{755}\right) \nonumber\]
Resolver para\(y\):
\[y = \frac{(70)(305)}{755} = 28.3 \nonumber\]
Espera-se que cerca de 28 pessoas da amostra usem telefones celulares enquanto dirigem e recebam violações por excesso de velocidade.
Em um teste de independência, declaramos as hipóteses nulas e alternativas em palavras. Como a tabela de contingência consiste em dois fatores, a hipótese nula afirma que os fatores são independentes e a hipótese alternativa afirma que eles não são independentes (dependentes). Se fizermos um teste de independência usando o exemplo, a hipótese nula é:
\(H_{0}\): Ser usuário de telefone celular enquanto dirige e recebe uma violação de velocidade são eventos independentes.
Se a hipótese nula fosse verdadeira, esperaríamos que cerca de 28 pessoas usassem telefones celulares enquanto dirigem e recebessem uma violação por excesso de velocidade.
O teste de independência é sempre de cauda direita devido ao cálculo da estatística do teste. Se os valores esperados e observados não estiverem próximos, a estatística de teste é muito grande e fica na extremidade direita da curva qui-quadrada, pois está em um ajuste adequado.
O número de graus de liberdade para o teste de independência é:
\[df = (\text{number of columns} - 1)(\text{number of rows} - 1) \nonumber\]
A fórmula a seguir calcula o número esperado (\(E\)):
\[E = \frac{\text{(row total)(column total)}}{\text{total number surveyed}} \nonumber\]
Exercício\(\PageIndex{1}\)
Uma amostra de 300 estudantes é coletada. Dos estudantes pesquisados, 50 eram estudantes de música, enquanto 250 não. Noventa e sete estavam no quadro de honra, enquanto 203 não estavam. Se assumirmos que ser estudante de música e estar no quadro de honra são eventos independentes, qual é o número esperado de estudantes de música que também estão no quadro de honra?
- Responda
-
Espera-se que cerca de 16 estudantes sejam estudantes de música e estejam no quadro de honra.
Exemplo\(\PageIndex{2}\)
Em um grupo de voluntários, adultos com 21 anos ou mais se voluntariam de uma a nove horas por semana para passar tempo com um idoso com deficiência. O programa recruta entre estudantes de faculdades comunitárias, estudantes universitários de quatro anos e não estudantes. Na tabela\(\PageIndex{1}\) está uma amostra dos voluntários adultos e o número de horas que eles são voluntários por semana.
Tipo de voluntário | 1—3 horas | 4—6 horas | 7—9 horas | Total da linha |
---|---|---|---|---|
Estudantes de faculdades comunitárias | 111 | 96 | 48 | 255 |
Estudantes universitários de quatro anos | 96 | 133 | 61 | 290 |
Não estudantes | 91 | 150 | 53 | 294 |
Total da coluna | 298 | 379 | 162 | 839 |
O número de horas de voluntariado é independente do tipo de voluntário?
Responda
A tabela observada e a pergunta ao final do problema: “O número de horas de voluntariado é independente do tipo de voluntário?” Eu digo que isso é um teste de independência. Os dois fatores são o número de horas oferecidas como voluntário e o tipo de voluntário. Esse teste é sempre com cauda direita.
- \(H_{0}\): O número de horas oferecidas como voluntário é independente do tipo de voluntário.
- \(H_{a}\): O número de horas oferecidas como voluntário depende do tipo de voluntário.
Os resultados esperados estão na Tabela\(\PageIndex{2}\).
Tipo de voluntário | 1-3 horas | 4-6 horas | 7-9 horas |
---|---|---|---|
Estudantes de faculdades comunitárias | 90,57 | 115,19 | 49,24 |
Estudantes universitários de quatro anos | 103,00 | 131,00 | 56,00 |
Não estudantes | 104,42 | 132,81 | 56,77 |
Por exemplo, o cálculo da frequência esperada para a célula superior esquerda é
\[E = \frac{(\text{row total})(\text{column total})}{\text{total number surveyed}} = \frac{(255)(298)}{839} = 90.57 \nonumber\]
Calcule a estatística do teste:\(\chi^{2} = 12.99\) (calculadora ou computador)
Distribuição para o teste:\(\chi^{2}_{4}\)
\[df = (3 \text{ columns} – 1)(3 \text{ rows} – 1) = (2)(2) = 4 \nonumber\]
Gráfico:
Declaração de probabilidade:\(p\text{-value} = P(\chi^{2} > 12.99) = 0.0113\)
Compare\(\alpha\) e o\(p\text{-value}\): Como não\(\alpha\) é dado, suponha\(\alpha = 0.05\). \(p\text{-value} = 0.0113\). \(\alpha > p\text{-value}\).
Tome uma decisão: desde então\(\alpha > p\text{-value}\), rejeite\(H_{0}\). Isso significa que os fatores não são independentes.
Conclusão: Em um nível de significância de 5%, a partir dos dados, há evidências suficientes para concluir que o número de horas de voluntariado e o tipo de voluntário dependem um do outro.
Para o exemplo da Tabela, se houvesse outro tipo de voluntário, adolescentes, quais seriam os graus de liberdade?
USANDO A CALCULADORA TI-83, 83+, 84, 84+
Pressione a tecla MATRX
e flecha até EDITAR
. Pressione 1: [A]
. Pressione 3 ENTER 3 ENTER
. Insira os valores da tabela por linha em Tabela. Pressione ENTER
após cada um. Pressione o 2º QUIT
. Pressione STAT
e flecha até TESTS
. Seta para baixo até C:˚ 2-test
. Pressione ENTER
. Você deve ver Observado: [A] e Esperado: [B]
. Se necessário, use as teclas de seta para mover o cursor após Observado:
e pressione 2ª MATRX
. Pressione 1: [A]
para selecionar a matriz A. Não é necessário inserir os valores esperados. A matriz listada após Esperado:
pode estar em branco. Seta para baixo para calcular
. Pressione ENTER
. A estatística do teste é 12,9909 e o valor p = 0,0113. Faça o procedimento uma segunda vez, mas use a seta para baixo até Desenhar
em vez de calcular
.
Exercício\(\PageIndex{2}\)
O Bureau of Labor Statistics reúne dados sobre empregos nos Estados Unidos. Uma amostra é coletada para calcular o número de cidadãos dos EUA trabalhando em um dos vários setores da indústria ao longo do tempo. A tabela\(\PageIndex{3}\) mostra os resultados:
Setor da indústria | 2000 | 2010 | 2020 | Total |
---|---|---|---|---|
Salário e salário não agrícolas | 13.243 | 13.044 | 15.018 | 41.305 |
Produção de bens, excluindo a agricultura | 2.457 | 1.771 | 1.950 | 6.178 |
Prestação de serviços | 10.786 | 1.273 | 13.068 | 35.127 |
Agricultura, silvicultura, pesca e caça | 240 | 214 | 201 | 655 |
Trabalhador autônomo não agrícola e trabalhador familiar não remunerado | 931 | 894 | 972 | 2.797 |
Empregos com salários e salários secundários na agricultura e nas indústrias domésticas privadas | 14 | 11 | 11 | 36 |
Empregos secundários como trabalhador familiar autônomo ou não remunerado | 196 | 144 | 152 | 492 |
Total | 27.867 | 27.351 | 31.372 | 86.590 |
Queremos saber se a mudança no número de empregos é independente da mudança em anos. Declare as hipóteses nulas e alternativas e os graus de liberdade.
Responda
- \(H_{0}\): O número de empregos é independente do ano.
- \(H_{a}\): O número de empregos depende do ano.
Pressione a tecla MATRX
e flecha até EDITAR
. Pressione 1: [A]
. Pressione 3 ENTER 3 ENTER
. Insira os valores da tabela por linha. Pressione ENTER
após cada um. Pressione o 2º QUIT
. Pressione STAT
e flecha até TESTS
. Seta para baixo até c:\(\chi^{2}\) -TEST. Pressione ENTER
. Você deve ver Observado: [A] e Esperado: [B]
. Seta para baixo para calcular
. Pressione ENTER
. A estatística do teste é 227,73 e\(p\text{-value} = 5.90E - 42 = 0\) a. Faça o procedimento uma segunda vez, mas use a seta para baixo até Desenhar
em vez de calcular
.
Exemplo\(\PageIndex{3}\)
O De Anza College está interessado na relação entre o nível de ansiedade e a necessidade de ter sucesso na escola. Uma amostra aleatória de 400 estudantes fez um teste que mediu o nível de ansiedade e a necessidade de sucesso na escola. A tabela mostra os resultados. O De Anza College quer saber se o nível de ansiedade e a necessidade de ter sucesso na escola são eventos independentes.
Necessidade de sucesso na escola | Alta ansiedade |
MED-High Ansiedade |
Ansiedade média |
Med-Low Ansiedade |
Baixa ansiedade |
Total da linha |
---|---|---|---|---|---|---|
Alta necessidade | 35 | 42 | 53 | 15 | 10 | 155 |
Média necessidade | 18 | 48 | 63 | 33 | 31 | 193 |
Baixa necessidade | 4 | 5 | 11 | 15 | 17 | 52 |
Total da coluna | 57 | 95 | 127 | 63 | 58 | 400 |
- Espera-se que muitos alunos com alto nível de ansiedade tenham uma grande necessidade de sucesso na escola?
- Se as duas variáveis forem independentes, quantos alunos você espera que tenham uma baixa necessidade de sucesso na escola e um baixo nível de ansiedade?
- \(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} =\)________
- O número esperado de estudantes que têm um nível de ansiedade médio-baixo e uma baixa necessidade de sucesso na escola é de cerca de ________.
Solução
a. O total da coluna para um alto nível de ansiedade é 57. O total de linhas de alta necessidade de sucesso na escola é 155. O tamanho da amostra ou total pesquisado é 400.
\[E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = \frac{155 \cdot 57}{400} = 22.09\]
O número esperado de estudantes com alto nível de ansiedade e alta necessidade de sucesso na escola é de cerca de 22.
b. O total da coluna para um nível de ansiedade médico-baixo é 63. O total de linhas para uma baixa necessidade de sucesso na escola é 52. O tamanho da amostra ou total pesquisado é 400.
c.\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = 8.19\)
d. 8
Exercício\(\PageIndex{3}\)
Consulte as informações na Nota. Quantos empregos na prestação de serviços devem existir em 2020? Quantos empregos salariais e salariais não agrícolas devem existir em 2020?
Responda
12.727, 14.965
Referências
- DiCamilo, Mark, Mervin Field, “A maioria dos californianos vê uma ligação direta entre obesidade e refrigerantes açucarados. Dois em cada três eleitores apoiam a tributação de bebidas adoçadas com açúcar se os lucros estiverem vinculados à melhoria dos programas de nutrição escolar e atividade física.” The Field Poll, lançado em 14 de fevereiro de 2013. Disponível on-line em field.com/fieldpollonline/sub... rs/Rls2436.pdf (acessado em 24 de maio de 2013).
- Harris Interactive, “Sabor favorito de sorvete”. Disponível on-line em http://www.statisticbrain.com/favori...r-of-ice-cream (acessado em 24 de maio de 2013)
- “Lista de empreendedores on-line mais jovens”. Disponível on-line em http://www.statisticbrain.com/younge...repreneur-list (acessado em 24 de maio de 2013).
Revisão
Para avaliar se dois fatores são independentes ou não, você pode aplicar o teste de independência que usa a distribuição qui-quadrado. A hipótese nula para esse teste afirma que os dois fatores são independentes. O teste compara os valores observados com os valores esperados. O teste é de cauda direita. Cada observação ou categoria de célula deve ter um valor esperado de pelo menos 5.
Revisão da fórmula
Teste de Independência
- O número de graus de liberdade é igual\((\text{number of columns - 1})(\text{number of rows - 1})\) a.
- A estatística de teste é\(\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\) onde os valores\(O =\) observados,\(i =\) os valores\(E =\) esperados, o número de linhas na tabela e\(j =\) o número de colunas na tabela.
- Se a hipótese nula for verdadeira, o número esperado\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}}\).
Determine o teste apropriado a ser usado nos próximos três exercícios.
Exercício\(\PageIndex{4}\)
Uma empresa farmacêutica está interessada na relação entre idade e apresentação dos sintomas de uma infecção viral comum. Uma amostra aleatória é coletada de 500 pessoas com a infecção em diferentes faixas etárias.
Responda
um teste de independência
Exercício\(\PageIndex{5}\)
O dono de um time de beisebol está interessado na relação entre os salários dos jogadores e a porcentagem de vitórias do time. Ele coleta uma amostra aleatória de 100 jogadores de diferentes organizações.
Exercício\(\PageIndex{6}\)
Um corredor de maratona está interessado na relação entre a marca de calçados que os corredores usam e seus tempos de corrida. Ela coleta uma amostra aleatória de 50 corredores e registra seus tempos de corrida, bem como a marca de sapatos que estavam usando.
Responda
um teste de independência
Use as informações a seguir para responder aos próximos sete exercícios: A Transit Railroads está interessada na relação entre a distância de viagem e a classe da passagem comprada. Uma amostra aleatória de 200 passageiros é coletada. A tabela\(\PageIndex{4}\) mostra os resultados. A ferrovia quer saber se a escolha do passageiro na classe da passagem é independente da distância que ele deve percorrer.
Distância de viagem | Terceira classe | Segunda classe | Primeira classe | Total |
---|---|---|---|---|
1—100 milhas | 21 | 14 | 6 | 41 |
101—200 milhas | 18 | 16 | 8 | 42 |
201—300 milhas | 16 | 17 | 15 | 48 |
301—400 milhas | 12 | 14 | 21 | 47 |
401—500 milhas | 6 | 6 | 10 | 22 |
Total | 73 | 67 | 60 | 200 |
Exercício\(\PageIndex{7}\)
Declare as hipóteses.
- \(H_{0}\): _______
- \(H_{a}\): _______
Exercício\(\PageIndex{8}\)
\(df =\)_______
Responda
8
Exercício\(\PageIndex{9}\)
Quantos passageiros devem viajar entre 201 e 300 milhas e comprar passagens de segunda classe?
Exercício\(\PageIndex{10}\)
Quantos passageiros devem viajar entre 401 e 500 milhas e comprar passagens de primeira classe?
Responda
6.6
Exercício\(\PageIndex{11}\)
O que é a estatística do teste?
Exercício\(\PageIndex{12}\)
O que é o\(p\text{-value}\)?
Responda
0,0435
Exercício\(\PageIndex{13}\)
O que você pode concluir com o nível de significância de 5%?
Use as informações a seguir para responder aos próximos oito exercícios: Um artigo no New England Journal of Medicine discutiu um estudo sobre fumantes na Califórnia e no Havaí. Em uma parte do relatório, a etnia autorrelatada e os níveis de tabagismo por dia foram fornecidos. Das pessoas que fumavam no máximo dez cigarros por dia, havia 9.886 afro-americanos, 2.745 nativos havaianos, 12.831 latinos, 8.378 nipo-americanos e 7.650 brancos. Das pessoas que fumavam de 11 a 20 cigarros por dia, havia 6.514 afro-americanos, 3.062 nativos havaianos, 4.932 latinos, 10.680 nipo-americanos e 9.877 brancos. Das pessoas que fumavam de 21 a 30 cigarros por dia, havia 1.671 afro-americanos, 1.419 nativos havaianos, 1.406 latinos, 4.715 nipo-americanos e 6.062 brancos. Das pessoas que fumavam pelo menos 31 cigarros por dia, havia 759 afro-americanos, 788 nativos havaianos, 800 latinos, 2.305 nipo-americanos e 3.970 brancos.
Exercício\(\PageIndex{14}\)
Complete a tabela.
Nível de tabagismo por dia | afro-americano | Nativo havaiano | Latino | Nipo-americanos | Branco | TOTAIS |
---|---|---|---|---|---|---|
1-10 | ||||||
11-20 | ||||||
21-30 | ||||||
31+ | ||||||
TOTAIS |
Responda
Nível de tabagismo por dia | afro-americano | Nativo havaiano | Latino | Nipo-americanos | Branco | Totais |
---|---|---|---|---|---|---|
1-10 | 9.886 | 2.745 | 12.831 | 8.378 | 7.650 | 41.490 |
11-20 | 6.514 | 3.062 | 4.932 | 10.680 | 9.877 | 35.065 |
21-30 | 1.671 | 1.419 | 1.406 | 4.715 | 6.062 | 15.273 |
31+ | 759 | 788 | 800 | 2.305 | 3.970 | 8.622 |
Totais | 18.830 | 8.014 | 19.969 | 26.078 | 27.559 | 10.0450 |
Exercício\(\PageIndex{15}\)
Declare as hipóteses.
- \(H_{0}\): _______
- \(H_{a}\): _______
Exercício\(\PageIndex{16}\)
Insira os valores esperados na Tabela. Arredonde para duas casas decimais.
Calcule os seguintes valores:
Responda
Nível de tabagismo por dia | afro-americano | Nativo havaiano | Latino | Nipo-americanos | Branco |
---|---|---|---|---|---|
1-10 | 777.57 | 3310.11 | 8248,02 | 10771,29 | 11383,01 |
11-20 | 6573,16 | 2797,52 | 6970,76 | 9103,29 | 9620,27 |
21-30 | 2863,02 | 1218,49 | 3036,20 | 3965,05 | 4190,23 |
31+ | 1616,25 | 687,87 | 1714,01 | 2238,37 | 2365,49 |
Exercício\(\PageIndex{17}\)
\(df =\)_______
Exercício\(\PageIndex{18}\)
\(\chi^{2} \text{test statistic} =\)______
Responda
10.301,8
Exercício\(\PageIndex{19}\)
\(p\text{-value} =\)______
Exercício\(\PageIndex{20}\)
É um teste de cauda direita, cauda esquerda ou bicaudal? Explique o porquê.
Responda
certo
Exercício\(\PageIndex{21}\)
Faça um gráfico da situação. Identifique e escale o eixo horizontal. Marque a média e teste a estatística. Sombra na região correspondente ao\(p\text{-value}\).
Declare a decisão e a conclusão (em uma frase completa) para os seguintes níveis preconcebidos de\(\alpha\).
Exercício\(\PageIndex{22}\)
\(\alpha = 0.05\)
- Decisão: ___________________
- Motivo da decisão: ___________________
- Conclusão (escreva em uma frase completa): ___________________
Responda
- Rejeite a hipótese nula.
- \(p\text{-value} < \alpha\)
- Há evidências suficientes para concluir que o nível de tabagismo depende do grupo étnico.
Exercício\(\PageIndex{23}\)
\(\alpha = 0.05\)
- Decisão: ___________________
- Motivo da decisão: ___________________
- Conclusão (escreva em uma frase completa): ___________________
Glossário
- Tabela de contingência
- uma tabela que exibe valores de amostra para dois fatores diferentes que podem ser dependentes ou contingentes um do outro; facilita a determinação de probabilidades condicionais.