Skip to main content
Global

11.4: Teste de Independência

  • Page ID
    186613
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Os testes de independência envolvem o uso de uma tabela de contingência de valores observados (dados). A estatística de teste para um teste de independência é semelhante à de um teste de adequação:

    \[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]

    onde:

    • \(O\)= valores observados
    • \(E\)= valores esperados
    • \(i\)= o número de linhas na tabela
    • \(j\)= o número de colunas na tabela

    Existem\(i \cdot j\) termos do formulário\(\frac{(O-E)^{2}}{E}\).

    Um teste de independência determina se dois fatores são independentes ou não. Você encontrou pela primeira vez o termo independência na Tabela 3.1 anteriormente. Como uma revisão, considere o exemplo a seguir.

    Nota

    O valor esperado dentro de cada célula precisa ser pelo menos cinco para que você possa usar esse teste.

    Exemplo 11.8

    Suponha\(A\) = uma violação de velocidade no último ano e\(B\) = um usuário de telefone celular enquanto dirige. Se\(A\) e\(B\) for independente,\(P(A \cap B)=P(A) P(B) . A \cap B\) é o caso de um motorista ter sofrido uma infração por excesso de velocidade no ano passado e também usar um telefone celular enquanto dirigia. Suponha, em um estudo com motoristas que sofreram violações de velocidade no último ano e que usaram telefone celular enquanto dirigiam, que 755 pessoas tenham sido pesquisadas. Dos 755, 70 tiveram uma violação de velocidade e 685 não; 305 usaram telefones celulares enquanto dirigiam e 450 não.

    Seja y = número esperado de motoristas que usaram um telefone celular enquanto dirigiam e receberam violações por excesso de velocidade.

    Se\(A\) e\(B\) forem independentes, então\(P(A \cap B)=P(A) P(B)\). Por substituição,

    \[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]

    Resolver para\(y\):\(y=\frac{(70)(305)}{755}=28.3\)

    Espera-se que cerca de 28 pessoas da amostra usem telefones celulares enquanto dirigem e recebam violações por excesso de velocidade.

    Em um teste de independência, declaramos as hipóteses nulas e alternativas em palavras. Como a tabela de contingência consiste em dois fatores, a hipótese nula afirma que os fatores são independentes e a hipótese alternativa afirma que eles não são independentes (dependentes). Se fizermos um teste de independência usando o exemplo, a hipótese nula é:

    \(H_0\): Ser usuário de telefone celular enquanto dirige e recebe uma violação de velocidade são eventos independentes; em outras palavras, eles não têm efeito um sobre o outro.

    Se a hipótese nula fosse verdadeira, esperaríamos que cerca de 28 pessoas usassem telefones celulares enquanto dirigem e recebessem uma violação por excesso de velocidade.

    O teste de independência é sempre de cauda direita devido ao cálculo da estatística do teste. Se os valores esperados e observados não estiverem próximos, a estatística de teste é muito grande e fica na extremidade direita da curva qui-quadrada, pois está em um ajuste adequado.

    O número de graus de liberdade para o teste de independência é:

    \(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)

    A fórmula a seguir calcula o número esperado (E):

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]

    Exercício 11.8

    Uma amostra de 300 estudantes é coletada. Dos estudantes pesquisados, 50 eram estudantes de música, enquanto 250 não. Noventa e sete dos 300 entrevistados estavam no quadro de honra, enquanto 203 não estavam. Se assumirmos que ser estudante de música e estar no quadro de honra são eventos independentes, qual é o número esperado de estudantes de música que também estão no quadro de honra?

    Exemplo 11.9

    Um grupo de voluntários oferece de uma a nove horas por semana com idosos com deficiência. O programa recruta entre estudantes de faculdades comunitárias, estudantes universitários de quatro anos e não estudantes. Na Tabela 11.14 está uma amostra dos voluntários adultos e o número de horas que eles são voluntários por semana.

    A tabela contém valores (O) observados (dados).
    Tipo de voluntário 1—3 horas 4—6 horas 7—9 horas Total da linha
    Estudantes de faculdades comunitárias 111 96 48 255
    Estudantes universitários de quatro anos 96 133 61 290
    Não estudantes 91 150 53 294
    Total da coluna 298 379 162 839
    Tabela 11.14 Número de horas trabalhadas por semana por tipo de voluntário (observado)

    O número de horas de voluntariado é independente do tipo de voluntário?

    Resposta

    Solução 11.9

    A tabela observada e a pergunta ao final do problema: “O número de horas de voluntariado é independente do tipo de voluntário?” Eu digo que isso é um teste de independência. Os dois fatores são o número de horas oferecidas como voluntário e o tipo de voluntário. Esse teste é sempre com cauda direita.

    \(H_0\): O número de horas de voluntariado é independente do tipo de voluntário.

    \(H_a\): O número de horas oferecidas como voluntário depende do tipo de voluntário.

    Os resultados esperados estão na Tabela 11.15.

    A tabela contém os valores esperados (E) (dados).
    Tipo de voluntário 1-3 horas 4-6 horas 7-9 horas
    Estudantes de faculdades comunitárias 90,57 115,19 49,24
    Estudantes universitários de quatro anos 103,00 131,00 56,00
    Não estudantes 104,42 132,81 56,77
    Tabela 11.15 Número de horas trabalhadas por semana por tipo de voluntário (esperado)

    Por exemplo, o cálculo da frequência esperada para a célula superior esquerda é

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]

    Calcule a estatística do teste:\(\chi^2 = 12.99\) (calculadora ou computador)

    Distribuição para o teste:\(\chi_4^2\)

    \(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)

    Gráfico:

    Curva qui-quadrada não simétrica com valores de 0 e 12,99 no eixo x representando a estatística de teste do número de horas trabalhadas por voluntários de diferentes tipos. Uma linha vertical ascendente se estende de 12,99 até a curva e a área à direita dela é igual ao valor p.

    Figura 11.8

    O gráfico do Qui-quadrado mostra a distribuição e marca o valor crítico com quatro graus de liberdade no nível de confiança de 95%\(\alpha = 0.05\), 9,488. O gráfico também marca a estatística\(\chi_{c}^{2}\) de teste calculada de 12,99. Comparando a estatística do teste com o valor crítico, como fizemos com todos os outros testes de hipóteses, chegamos à conclusão.

    Tome uma decisão: como a estatística de teste calculada está na cauda, não podemos aceitar H 0. Isso significa que os fatores não são independentes.

    Conclusão: Em um nível de significância de 5%, a partir dos dados, há evidências suficientes para concluir que o número de horas de voluntariado e o tipo de voluntário dependem um do outro.

    Para o exemplo da Tabela 11.15, se houvesse outro tipo de voluntário, adolescentes, quais seriam os graus de liberdade?

    Exercício 11.9

    O Bureau of Labor Statistics reúne dados sobre empregos nos Estados Unidos. Uma amostra é coletada para calcular o número de cidadãos dos EUA trabalhando em um dos vários setores da indústria ao longo do tempo. A Tabela 11.16 mostra os resultados:

    Setor industrial 2000 2010 2020 Total
    Salário e salário não agrícolas 13.243 13.044 15.018 41.305
    Produção de bens, excluindo a agricultura 2.457 1.771 1.950 6.178
    Prestação de serviços 10.786 1.273 13.068 35.127
    Agricultura, silvicultura, pesca e caça 240 214 201 655
    Trabalhador autônomo não agrícola e trabalhador familiar não remunerado 931 894 972 2.797
    Empregos com salários e salários secundários na agricultura e nas indústrias domésticas privadas 14 11 11 36
    Empregos secundários como trabalhador familiar autônomo ou não remunerado 196 144 152 492
    Total 27.867 27.351 31.372 86.590
    Tabela 11.16

    Queremos saber se a mudança no número de empregos é independente da mudança em anos. Declare as hipóteses nulas e alternativas e os graus de liberdade.

    Exemplo 11.10

    O De Anza College está interessado na relação entre o nível de ansiedade e a necessidade de ter sucesso na escola. Uma amostra aleatória de 400 estudantes fez um teste que mediu o nível de ansiedade e a necessidade de sucesso na escola. A Tabela 11.17 mostra os resultados. O De Anza College quer saber se o nível de ansiedade e a necessidade de ter sucesso na escola são eventos independentes.

    Necessidade de ter sucesso na escola Alta
    ansiedade

    Ansiedade médico-alta

    Ansiedade média

    Ansiedade med-low
    Baixa
    ansiedade
    Total da linha
    Alta necessidade 35 42 53 15 10 155
    Média necessidade 18 48 63 33 31 193
    Baixa necessidade 4 5 11 15 17 52
    Total da coluna 57 95 127 63 58 400
    Tabela 11.17 Necessidade de sucesso na escola versus nível de ansiedade

    a. Quantos estudantes de alto nível de ansiedade devem ter uma grande necessidade de sucesso na escola?

    Responda

    Solução 11.10

    a. O total da coluna para um alto nível de ansiedade é 57. O total de linhas de alta necessidade de sucesso na escola é 155. O tamanho da amostra ou total pesquisado é 400.

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]

    O número esperado de estudantes com alto nível de ansiedade e alta necessidade de sucesso na escola é de cerca de 22.

    b. Se as duas variáveis forem independentes, quantos estudantes você espera que tenham uma baixa necessidade de sucesso na escola e um baixo nível de ansiedade?

    Responda

    Solução 11.10

    b. O total da coluna para um nível de ansiedade médico-baixo é 63. O total de linhas para uma baixa necessidade de sucesso na escola é 52. O tamanho da amostra ou total pesquisado é 400.

    c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________

    Responda

    Solução 11.10

    c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)

    d. O número esperado de estudantes que têm um nível de ansiedade médio-baixo e uma baixa necessidade de sucesso na escola é de cerca de ________.

    Responda

    Solução 11.10

    d. 8