11.4: Teste de Independência
- Page ID
- 186613
Os testes de independência envolvem o uso de uma tabela de contingência de valores observados (dados). A estatística de teste para um teste de independência é semelhante à de um teste de adequação:
\[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]
onde:
- \(O\)= valores observados
- \(E\)= valores esperados
- \(i\)= o número de linhas na tabela
- \(j\)= o número de colunas na tabela
Existem\(i \cdot j\) termos do formulário\(\frac{(O-E)^{2}}{E}\).
Um teste de independência determina se dois fatores são independentes ou não. Você encontrou pela primeira vez o termo independência na Tabela 3.1 anteriormente. Como uma revisão, considere o exemplo a seguir.
Nota
O valor esperado dentro de cada célula precisa ser pelo menos cinco para que você possa usar esse teste.
Exemplo 11.8
Suponha\(A\) = uma violação de velocidade no último ano e\(B\) = um usuário de telefone celular enquanto dirige. Se\(A\) e\(B\) for independente,\(P(A \cap B)=P(A) P(B) . A \cap B\) é o caso de um motorista ter sofrido uma infração por excesso de velocidade no ano passado e também usar um telefone celular enquanto dirigia. Suponha, em um estudo com motoristas que sofreram violações de velocidade no último ano e que usaram telefone celular enquanto dirigiam, que 755 pessoas tenham sido pesquisadas. Dos 755, 70 tiveram uma violação de velocidade e 685 não; 305 usaram telefones celulares enquanto dirigiam e 450 não.
Seja y = número esperado de motoristas que usaram um telefone celular enquanto dirigiam e receberam violações por excesso de velocidade.
Se\(A\) e\(B\) forem independentes, então\(P(A \cap B)=P(A) P(B)\). Por substituição,
\[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]
Resolver para\(y\):\(y=\frac{(70)(305)}{755}=28.3\)
Espera-se que cerca de 28 pessoas da amostra usem telefones celulares enquanto dirigem e recebam violações por excesso de velocidade.
Em um teste de independência, declaramos as hipóteses nulas e alternativas em palavras. Como a tabela de contingência consiste em dois fatores, a hipótese nula afirma que os fatores são independentes e a hipótese alternativa afirma que eles não são independentes (dependentes). Se fizermos um teste de independência usando o exemplo, a hipótese nula é:
\(H_0\): Ser usuário de telefone celular enquanto dirige e recebe uma violação de velocidade são eventos independentes; em outras palavras, eles não têm efeito um sobre o outro.
Se a hipótese nula fosse verdadeira, esperaríamos que cerca de 28 pessoas usassem telefones celulares enquanto dirigem e recebessem uma violação por excesso de velocidade.
O teste de independência é sempre de cauda direita devido ao cálculo da estatística do teste. Se os valores esperados e observados não estiverem próximos, a estatística de teste é muito grande e fica na extremidade direita da curva qui-quadrada, pois está em um ajuste adequado.
O número de graus de liberdade para o teste de independência é:
\(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)
A fórmula a seguir calcula o número esperado (E):
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]
Exercício 11.8
Uma amostra de 300 estudantes é coletada. Dos estudantes pesquisados, 50 eram estudantes de música, enquanto 250 não. Noventa e sete dos 300 entrevistados estavam no quadro de honra, enquanto 203 não estavam. Se assumirmos que ser estudante de música e estar no quadro de honra são eventos independentes, qual é o número esperado de estudantes de música que também estão no quadro de honra?
Exemplo 11.9
Um grupo de voluntários oferece de uma a nove horas por semana com idosos com deficiência. O programa recruta entre estudantes de faculdades comunitárias, estudantes universitários de quatro anos e não estudantes. Na Tabela 11.14 está uma amostra dos voluntários adultos e o número de horas que eles são voluntários por semana.
Tipo de voluntário | 1—3 horas | 4—6 horas | 7—9 horas | Total da linha |
---|---|---|---|---|
Estudantes de faculdades comunitárias | 111 | 96 | 48 | 255 |
Estudantes universitários de quatro anos | 96 | 133 | 61 | 290 |
Não estudantes | 91 | 150 | 53 | 294 |
Total da coluna | 298 | 379 | 162 | 839 |
O número de horas de voluntariado é independente do tipo de voluntário?
- Resposta
-
Solução 11.9
A tabela observada e a pergunta ao final do problema: “O número de horas de voluntariado é independente do tipo de voluntário?” Eu digo que isso é um teste de independência. Os dois fatores são o número de horas oferecidas como voluntário e o tipo de voluntário. Esse teste é sempre com cauda direita.
\(H_0\): O número de horas de voluntariado é independente do tipo de voluntário.
\(H_a\): O número de horas oferecidas como voluntário depende do tipo de voluntário.
Os resultados esperados estão na Tabela 11.15.
A tabela contém os valores esperados (E) (dados). Tipo de voluntário 1-3 horas 4-6 horas 7-9 horas Estudantes de faculdades comunitárias 90,57 115,19 49,24 Estudantes universitários de quatro anos 103,00 131,00 56,00 Não estudantes 104,42 132,81 56,77 Tabela 11.15 Número de horas trabalhadas por semana por tipo de voluntário (esperado) Por exemplo, o cálculo da frequência esperada para a célula superior esquerda é
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]
Calcule a estatística do teste:\(\chi^2 = 12.99\) (calculadora ou computador)
Distribuição para o teste:\(\chi_4^2\)
\(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)
Gráfico:
Figura 11.8
O gráfico do Qui-quadrado mostra a distribuição e marca o valor crítico com quatro graus de liberdade no nível de confiança de 95%\(\alpha = 0.05\), 9,488. O gráfico também marca a estatística\(\chi_{c}^{2}\) de teste calculada de 12,99. Comparando a estatística do teste com o valor crítico, como fizemos com todos os outros testes de hipóteses, chegamos à conclusão.
Tome uma decisão: como a estatística de teste calculada está na cauda, não podemos aceitar H 0. Isso significa que os fatores não são independentes.
Conclusão: Em um nível de significância de 5%, a partir dos dados, há evidências suficientes para concluir que o número de horas de voluntariado e o tipo de voluntário dependem um do outro.
Para o exemplo da Tabela 11.15, se houvesse outro tipo de voluntário, adolescentes, quais seriam os graus de liberdade?
Exercício 11.9
O Bureau of Labor Statistics reúne dados sobre empregos nos Estados Unidos. Uma amostra é coletada para calcular o número de cidadãos dos EUA trabalhando em um dos vários setores da indústria ao longo do tempo. A Tabela 11.16 mostra os resultados:
Setor industrial | 2000 | 2010 | 2020 | Total |
---|---|---|---|---|
Salário e salário não agrícolas | 13.243 | 13.044 | 15.018 | 41.305 |
Produção de bens, excluindo a agricultura | 2.457 | 1.771 | 1.950 | 6.178 |
Prestação de serviços | 10.786 | 1.273 | 13.068 | 35.127 |
Agricultura, silvicultura, pesca e caça | 240 | 214 | 201 | 655 |
Trabalhador autônomo não agrícola e trabalhador familiar não remunerado | 931 | 894 | 972 | 2.797 |
Empregos com salários e salários secundários na agricultura e nas indústrias domésticas privadas | 14 | 11 | 11 | 36 |
Empregos secundários como trabalhador familiar autônomo ou não remunerado | 196 | 144 | 152 | 492 |
Total | 27.867 | 27.351 | 31.372 | 86.590 |
Queremos saber se a mudança no número de empregos é independente da mudança em anos. Declare as hipóteses nulas e alternativas e os graus de liberdade.
Exemplo 11.10
O De Anza College está interessado na relação entre o nível de ansiedade e a necessidade de ter sucesso na escola. Uma amostra aleatória de 400 estudantes fez um teste que mediu o nível de ansiedade e a necessidade de sucesso na escola. A Tabela 11.17 mostra os resultados. O De Anza College quer saber se o nível de ansiedade e a necessidade de ter sucesso na escola são eventos independentes.
Necessidade de ter sucesso na escola | Alta ansiedade |
Ansiedade médico-alta |
Ansiedade média |
Ansiedade med-low |
Baixa ansiedade |
Total da linha |
---|---|---|---|---|---|---|
Alta necessidade | 35 | 42 | 53 | 15 | 10 | 155 |
Média necessidade | 18 | 48 | 63 | 33 | 31 | 193 |
Baixa necessidade | 4 | 5 | 11 | 15 | 17 | 52 |
Total da coluna | 57 | 95 | 127 | 63 | 58 | 400 |
a. Quantos estudantes de alto nível de ansiedade devem ter uma grande necessidade de sucesso na escola?
- Responda
-
Solução 11.10
a. O total da coluna para um alto nível de ansiedade é 57. O total de linhas de alta necessidade de sucesso na escola é 155. O tamanho da amostra ou total pesquisado é 400.
\[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]
O número esperado de estudantes com alto nível de ansiedade e alta necessidade de sucesso na escola é de cerca de 22.
b. Se as duas variáveis forem independentes, quantos estudantes você espera que tenham uma baixa necessidade de sucesso na escola e um baixo nível de ansiedade?
- Responda
-
Solução 11.10
b. O total da coluna para um nível de ansiedade médico-baixo é 63. O total de linhas para uma baixa necessidade de sucesso na escola é 52. O tamanho da amostra ou total pesquisado é 400.
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________
- Responda
-
Solução 11.10
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)
d. O número esperado de estudantes que têm um nível de ansiedade médio-baixo e uma baixa necessidade de sucesso na escola é de cerca de ________.
- Responda
-
Solução 11.10
d. 8