Skip to main content
Global

11.4: Teste de Independência

  • Page ID
    189960
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Os testes de independência envolvem o uso de uma tabela de contingência de valores observados (dados).

    A estatística de teste para um teste de independência é semelhante à de um teste de adequação:

    \[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\]

    onde:

    • \(O =\)valores observados
    • \(E =\)valores esperados
    • \(i =\)o número de linhas na tabela
    • \(j =\)o número de colunas na tabela

    Existem\(i \cdot j\) termos do formulário\(\frac{(O-E)^{2}}{E}\).

    O valor esperado para cada célula precisa ser pelo menos cinco para que você possa usar esse teste.

    Um teste de independência determina se dois fatores são independentes ou não. Você encontrou pela primeira vez o termo independência em Tópicos de Probabilidade. Como revisão, considere o exemplo a seguir.

    Exemplo\(\PageIndex{1}\)

    Suponha\(A =\) uma violação de velocidade no último ano e\(B =\) um usuário de telefone celular enquanto dirige. Se\(A\) e\(B\) são independentes, então\(P(A \text{ AND } B) = P(A)P(B)\). \(A \text{ AND } B\)é o caso de um motorista ter sofrido uma infração por excesso de velocidade no ano passado e também ter usado um telefone celular enquanto dirigia. Suponha, em um estudo com motoristas que sofreram violações de velocidade no último ano e que usaram telefone celular enquanto dirigiam, que 755 pessoas tenham sido pesquisadas. Dos 755, 70 tiveram uma violação de velocidade e 685 não; 305 usaram telefones celulares enquanto dirigiam e 450 não.

    Deixe\(y =\) o número esperado de motoristas que usaram um telefone celular enquanto dirigiam e sofreram violações por excesso de velocidade.

    Se\(A\) e\(B\) forem independentes, então\(P(A \text{ AND } B) = P(A)P(B)\). Por substituição,

    \[\frac{y}{755} = \left(\frac{70}{755}\right)\left(\frac{305}{755}\right) \nonumber\]

    Resolver para\(y\):

    \[y = \frac{(70)(305)}{755} = 28.3 \nonumber\]

    Espera-se que cerca de 28 pessoas da amostra usem telefones celulares enquanto dirigem e recebam violações por excesso de velocidade.

    Em um teste de independência, declaramos as hipóteses nulas e alternativas em palavras. Como a tabela de contingência consiste em dois fatores, a hipótese nula afirma que os fatores são independentes e a hipótese alternativa afirma que eles não são independentes (dependentes). Se fizermos um teste de independência usando o exemplo, a hipótese nula é:

    \(H_{0}\): Ser usuário de telefone celular enquanto dirige e recebe uma violação de velocidade são eventos independentes.

    Se a hipótese nula fosse verdadeira, esperaríamos que cerca de 28 pessoas usassem telefones celulares enquanto dirigem e recebessem uma violação por excesso de velocidade.

    O teste de independência é sempre de cauda direita devido ao cálculo da estatística do teste. Se os valores esperados e observados não estiverem próximos, a estatística de teste é muito grande e fica na extremidade direita da curva qui-quadrada, pois está em um ajuste adequado.

    O número de graus de liberdade para o teste de independência é:

    \[df = (\text{number of columns} - 1)(\text{number of rows} - 1) \nonumber\]

    A fórmula a seguir calcula o número esperado (\(E\)):

    \[E = \frac{\text{(row total)(column total)}}{\text{total number surveyed}} \nonumber\]

    Exercício\(\PageIndex{1}\)

    Uma amostra de 300 estudantes é coletada. Dos estudantes pesquisados, 50 eram estudantes de música, enquanto 250 não. Noventa e sete estavam no quadro de honra, enquanto 203 não estavam. Se assumirmos que ser estudante de música e estar no quadro de honra são eventos independentes, qual é o número esperado de estudantes de música que também estão no quadro de honra?

    Responda

    Espera-se que cerca de 16 estudantes sejam estudantes de música e estejam no quadro de honra.

    Exemplo\(\PageIndex{2}\)

    Em um grupo de voluntários, adultos com 21 anos ou mais se voluntariam de uma a nove horas por semana para passar tempo com um idoso com deficiência. O programa recruta entre estudantes de faculdades comunitárias, estudantes universitários de quatro anos e não estudantes. Na tabela\(\PageIndex{1}\) está uma amostra dos voluntários adultos e o número de horas que eles são voluntários por semana.

    Tabela\(\PageIndex{1}\): Número de horas trabalhadas por semana por tipo de voluntário (observado). A tabela contém valores (O) observados (dados).
    Tipo de voluntário 1—3 horas 4—6 horas 7—9 horas Total da linha
    Estudantes de faculdades comunitárias 111 96 48 255
    Estudantes universitários de quatro anos 96 133 61 290
    Não estudantes 91 150 53 294
    Total da coluna 298 379 162 839

    O número de horas de voluntariado é independente do tipo de voluntário?

    Responda

    A tabela observada e a pergunta ao final do problema: “O número de horas de voluntariado é independente do tipo de voluntário?” Eu digo que isso é um teste de independência. Os dois fatores são o número de horas oferecidas como voluntário e o tipo de voluntário. Esse teste é sempre com cauda direita.

    • \(H_{0}\): O número de horas oferecidas como voluntário é independente do tipo de voluntário.
    • \(H_{a}\): O número de horas oferecidas como voluntário depende do tipo de voluntário.

    Os resultados esperados estão na Tabela\(\PageIndex{2}\).

    Tabela\(\PageIndex{2}\): Número de horas trabalhadas por semana por tipo de voluntário (esperado). A tabela contém valores esperados (\(E\)) (dados).
    Tipo de voluntário 1-3 horas 4-6 horas 7-9 horas
    Estudantes de faculdades comunitárias 90,57 115,19 49,24
    Estudantes universitários de quatro anos 103,00 131,00 56,00
    Não estudantes 104,42 132,81 56,77

    Por exemplo, o cálculo da frequência esperada para a célula superior esquerda é

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total number surveyed}} = \frac{(255)(298)}{839} = 90.57 \nonumber\]

    Calcule a estatística do teste:\(\chi^{2} = 12.99\) (calculadora ou computador)

    Distribuição para o teste:\(\chi^{2}_{4}\)

    \[df = (3 \text{ columns} – 1)(3 \text{ rows} – 1) = (2)(2) = 4 \nonumber\]

    Gráfico:

    Curva qui-quadrada não simétrica com valores de 0 e 12,99 no eixo x representando a estatística de teste do número de horas trabalhadas por voluntários de diferentes tipos. Uma linha vertical ascendente se estende de 12,99 até a curva e a área à direita dela é igual ao valor p.
    Figura\(\PageIndex{1}\).

    Declaração de probabilidade:\(p\text{-value} = P(\chi^{2} > 12.99) = 0.0113\)

    Compare\(\alpha\) e o\(p\text{-value}\): Como não\(\alpha\) é dado, suponha\(\alpha = 0.05\). \(p\text{-value} = 0.0113\). \(\alpha > p\text{-value}\).

    Tome uma decisão: desde então\(\alpha > p\text{-value}\), rejeite\(H_{0}\). Isso significa que os fatores não são independentes.

    Conclusão: Em um nível de significância de 5%, a partir dos dados, há evidências suficientes para concluir que o número de horas de voluntariado e o tipo de voluntário dependem um do outro.

    Para o exemplo da Tabela, se houvesse outro tipo de voluntário, adolescentes, quais seriam os graus de liberdade?

    USANDO A CALCULADORA TI-83, 83+, 84, 84+

    Pressione a tecla MATRX e flecha até EDITAR. Pressione 1: [A]. Pressione 3 ENTER 3 ENTER. Insira os valores da tabela por linha em Tabela. Pressione ENTER após cada um. Pressione o 2º QUIT. Pressione STAT e flecha até TESTS. Seta para baixo até C:˚ 2-test. Pressione ENTER. Você deve ver Observado: [A] e Esperado: [B]. Se necessário, use as teclas de seta para mover o cursor após Observado: e pressione 2ª MATRX. Pressione 1: [A] para selecionar a matriz A. Não é necessário inserir os valores esperados. A matriz listada após Esperado: pode estar em branco. Seta para baixo para calcular. Pressione ENTER. A estatística do teste é 12,9909 e o valor p = 0,0113. Faça o procedimento uma segunda vez, mas use a seta para baixo até Desenhar em vez de calcular.

    Exercício\(\PageIndex{2}\)

    O Bureau of Labor Statistics reúne dados sobre empregos nos Estados Unidos. Uma amostra é coletada para calcular o número de cidadãos dos EUA trabalhando em um dos vários setores da indústria ao longo do tempo. A tabela\(\PageIndex{3}\) mostra os resultados:

    Tabela\(\PageIndex{3}\)
    Setor da indústria 2000 2010 2020 Total
    Salário e salário não agrícolas 13.243 13.044 15.018 41.305
    Produção de bens, excluindo a agricultura 2.457 1.771 1.950 6.178
    Prestação de serviços 10.786 1.273 13.068 35.127
    Agricultura, silvicultura, pesca e caça 240 214 201 655
    Trabalhador autônomo não agrícola e trabalhador familiar não remunerado 931 894 972 2.797
    Empregos com salários e salários secundários na agricultura e nas indústrias domésticas privadas 14 11 11 36
    Empregos secundários como trabalhador familiar autônomo ou não remunerado 196 144 152 492
    Total 27.867 27.351 31.372 86.590

    Queremos saber se a mudança no número de empregos é independente da mudança em anos. Declare as hipóteses nulas e alternativas e os graus de liberdade.

    Responda

    • \(H_{0}\): O número de empregos é independente do ano.
    • \(H_{a}\): O número de empregos depende do ano.
    \(df = 12\)
    alt
    Figura\(\PageIndex{2}\).

    Pressione a tecla MATRX e flecha até EDITAR. Pressione 1: [A]. Pressione 3 ENTER 3 ENTER. Insira os valores da tabela por linha. Pressione ENTER após cada um. Pressione o 2º QUIT. Pressione STAT e flecha até TESTS. Seta para baixo até c:\(\chi^{2}\) -TEST. Pressione ENTER. Você deve ver Observado: [A] e Esperado: [B]. Seta para baixo para calcular. Pressione ENTER. A estatística do teste é 227,73 e\(p\text{-value} = 5.90E - 42 = 0\) a. Faça o procedimento uma segunda vez, mas use a seta para baixo até Desenhar em vez de calcular.

    Exemplo\(\PageIndex{3}\)

    O De Anza College está interessado na relação entre o nível de ansiedade e a necessidade de ter sucesso na escola. Uma amostra aleatória de 400 estudantes fez um teste que mediu o nível de ansiedade e a necessidade de sucesso na escola. A tabela mostra os resultados. O De Anza College quer saber se o nível de ansiedade e a necessidade de ter sucesso na escola são eventos independentes.

    Necessidade de sucesso na escola versus nível de ansiedade
    Necessidade de sucesso na escola Alta
    ansiedade
    MED-High
    Ansiedade

    Ansiedade média
    Med-Low
    Ansiedade
    Baixa
    ansiedade
    Total da linha
    Alta necessidade 35 42 53 15 10 155
    Média necessidade 18 48 63 33 31 193
    Baixa necessidade 4 5 11 15 17 52
    Total da coluna 57 95 127 63 58 400
    1. Espera-se que muitos alunos com alto nível de ansiedade tenham uma grande necessidade de sucesso na escola?
    2. Se as duas variáveis forem independentes, quantos alunos você espera que tenham uma baixa necessidade de sucesso na escola e um baixo nível de ansiedade?
    3. \(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} =\)________
    4. O número esperado de estudantes que têm um nível de ansiedade médio-baixo e uma baixa necessidade de sucesso na escola é de cerca de ________.

    Solução

    a. O total da coluna para um alto nível de ansiedade é 57. O total de linhas de alta necessidade de sucesso na escola é 155. O tamanho da amostra ou total pesquisado é 400.

    \[E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = \frac{155 \cdot 57}{400} = 22.09\]

    O número esperado de estudantes com alto nível de ansiedade e alta necessidade de sucesso na escola é de cerca de 22.

    b. O total da coluna para um nível de ansiedade médico-baixo é 63. O total de linhas para uma baixa necessidade de sucesso na escola é 52. O tamanho da amostra ou total pesquisado é 400.

    c.\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}} = 8.19\)

    d. 8

    Exercício\(\PageIndex{3}\)

    Consulte as informações na Nota. Quantos empregos na prestação de serviços devem existir em 2020? Quantos empregos salariais e salariais não agrícolas devem existir em 2020?

    Responda

    12.727, 14.965

    Referências

    1. DiCamilo, Mark, Mervin Field, “A maioria dos californianos vê uma ligação direta entre obesidade e refrigerantes açucarados. Dois em cada três eleitores apoiam a tributação de bebidas adoçadas com açúcar se os lucros estiverem vinculados à melhoria dos programas de nutrição escolar e atividade física.” The Field Poll, lançado em 14 de fevereiro de 2013. Disponível on-line em field.com/fieldpollonline/sub... rs/Rls2436.pdf (acessado em 24 de maio de 2013).
    2. Harris Interactive, “Sabor favorito de sorvete”. Disponível on-line em http://www.statisticbrain.com/favori...r-of-ice-cream (acessado em 24 de maio de 2013)
    3. “Lista de empreendedores on-line mais jovens”. Disponível on-line em http://www.statisticbrain.com/younge...repreneur-list (acessado em 24 de maio de 2013).

    Revisão

    Para avaliar se dois fatores são independentes ou não, você pode aplicar o teste de independência que usa a distribuição qui-quadrado. A hipótese nula para esse teste afirma que os dois fatores são independentes. O teste compara os valores observados com os valores esperados. O teste é de cauda direita. Cada observação ou categoria de célula deve ter um valor esperado de pelo menos 5.

    Revisão da fórmula

    Teste de Independência

    • O número de graus de liberdade é igual\((\text{number of columns - 1})(\text{number of rows - 1})\) a.
    • A estatística de teste é\(\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\) onde os valores\(O =\) observados,\(i =\) os valores\(E =\) esperados, o número de linhas na tabela e\(j =\) o número de colunas na tabela.
    • Se a hipótese nula for verdadeira, o número esperado\(E = \frac{(\text{row total})(\text{column total})}{\text{total surveyed}}\).

    Determine o teste apropriado a ser usado nos próximos três exercícios.

    Exercício\(\PageIndex{4}\)

    Uma empresa farmacêutica está interessada na relação entre idade e apresentação dos sintomas de uma infecção viral comum. Uma amostra aleatória é coletada de 500 pessoas com a infecção em diferentes faixas etárias.

    Responda

    um teste de independência

    Exercício\(\PageIndex{5}\)

    O dono de um time de beisebol está interessado na relação entre os salários dos jogadores e a porcentagem de vitórias do time. Ele coleta uma amostra aleatória de 100 jogadores de diferentes organizações.

    Exercício\(\PageIndex{6}\)

    Um corredor de maratona está interessado na relação entre a marca de calçados que os corredores usam e seus tempos de corrida. Ela coleta uma amostra aleatória de 50 corredores e registra seus tempos de corrida, bem como a marca de sapatos que estavam usando.

    Responda

    um teste de independência

    Use as informações a seguir para responder aos próximos sete exercícios: A Transit Railroads está interessada na relação entre a distância de viagem e a classe da passagem comprada. Uma amostra aleatória de 200 passageiros é coletada. A tabela\(\PageIndex{4}\) mostra os resultados. A ferrovia quer saber se a escolha do passageiro na classe da passagem é independente da distância que ele deve percorrer.

    Tabela\(\PageIndex{4}\)
    Distância de viagem Terceira classe Segunda classe Primeira classe Total
    1—100 milhas 21 14 6 41
    101—200 milhas 18 16 8 42
    201—300 milhas 16 17 15 48
    301—400 milhas 12 14 21 47
    401—500 milhas 6 6 10 22
    Total 73 67 60 200

    Exercício\(\PageIndex{7}\)

    Declare as hipóteses.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Exercício\(\PageIndex{8}\)

    \(df =\)_______

    Responda

    8

    Exercício\(\PageIndex{9}\)

    Quantos passageiros devem viajar entre 201 e 300 milhas e comprar passagens de segunda classe?

    Exercício\(\PageIndex{10}\)

    Quantos passageiros devem viajar entre 401 e 500 milhas e comprar passagens de primeira classe?

    Responda

    6.6

    Exercício\(\PageIndex{11}\)

    O que é a estatística do teste?

    Exercício\(\PageIndex{12}\)

    O que é o\(p\text{-value}\)?

    Responda

    0,0435

    Exercício\(\PageIndex{13}\)

    O que você pode concluir com o nível de significância de 5%?

    Use as informações a seguir para responder aos próximos oito exercícios: Um artigo no New England Journal of Medicine discutiu um estudo sobre fumantes na Califórnia e no Havaí. Em uma parte do relatório, a etnia autorrelatada e os níveis de tabagismo por dia foram fornecidos. Das pessoas que fumavam no máximo dez cigarros por dia, havia 9.886 afro-americanos, 2.745 nativos havaianos, 12.831 latinos, 8.378 nipo-americanos e 7.650 brancos. Das pessoas que fumavam de 11 a 20 cigarros por dia, havia 6.514 afro-americanos, 3.062 nativos havaianos, 4.932 latinos, 10.680 nipo-americanos e 9.877 brancos. Das pessoas que fumavam de 21 a 30 cigarros por dia, havia 1.671 afro-americanos, 1.419 nativos havaianos, 1.406 latinos, 4.715 nipo-americanos e 6.062 brancos. Das pessoas que fumavam pelo menos 31 cigarros por dia, havia 759 afro-americanos, 788 nativos havaianos, 800 latinos, 2.305 nipo-americanos e 3.970 brancos.

    Exercício\(\PageIndex{14}\)

    Complete a tabela.

    Tabela\(\PageIndex{5}\): Níveis de tabagismo por etnia (observados)
    Nível de tabagismo por dia afro-americano Nativo havaiano Latino Nipo-americanos Branco TOTAIS
    1-10
    11-20
    21-30
    31+
    TOTAIS

    Responda

    Tabela\(\PageIndex{5B}\)
    Nível de tabagismo por dia afro-americano Nativo havaiano Latino Nipo-americanos Branco Totais
    1-10 9.886 2.745 12.831 8.378 7.650 41.490
    11-20 6.514 3.062 4.932 10.680 9.877 35.065
    21-30 1.671 1.419 1.406 4.715 6.062 15.273
    31+ 759 788 800 2.305 3.970 8.622
    Totais 18.830 8.014 19.969 26.078 27.559 10.0450

    Exercício\(\PageIndex{15}\)

    Declare as hipóteses.

    • \(H_{0}\): _______
    • \(H_{a}\): _______

    Exercício\(\PageIndex{16}\)

    Insira os valores esperados na Tabela. Arredonde para duas casas decimais.

    Calcule os seguintes valores:

    Responda

    Tabela\(\PageIndex{6}\)
    Nível de tabagismo por dia afro-americano Nativo havaiano Latino Nipo-americanos Branco
    1-10 777.57 3310.11 8248,02 10771,29 11383,01
    11-20 6573,16 2797,52 6970,76 9103,29 9620,27
    21-30 2863,02 1218,49 3036,20 3965,05 4190,23
    31+ 1616,25 687,87 1714,01 2238,37 2365,49

    Exercício\(\PageIndex{17}\)

    \(df =\)_______

    Exercício\(\PageIndex{18}\)

    \(\chi^{2} \text{test statistic} =\)______

    Responda

    10.301,8

    Exercício\(\PageIndex{19}\)

    \(p\text{-value} =\)______

    Exercício\(\PageIndex{20}\)

    É um teste de cauda direita, cauda esquerda ou bicaudal? Explique o porquê.

    Responda

    certo

    Exercício\(\PageIndex{21}\)

    Faça um gráfico da situação. Identifique e escale o eixo horizontal. Marque a média e teste a estatística. Sombra na região correspondente ao\(p\text{-value}\).

    Gráfico em branco com eixos verticais e horizontais.
    Figura\(\PageIndex{3}\).

    Declare a decisão e a conclusão (em uma frase completa) para os seguintes níveis preconcebidos de\(\alpha\).

    Exercício\(\PageIndex{22}\)

    \(\alpha = 0.05\)

    1. Decisão: ___________________
    2. Motivo da decisão: ___________________
    3. Conclusão (escreva em uma frase completa): ___________________

    Responda

    1. Rejeite a hipótese nula.
    2. \(p\text{-value} < \alpha\)
    3. Há evidências suficientes para concluir que o nível de tabagismo depende do grupo étnico.

    Exercício\(\PageIndex{23}\)

    \(\alpha = 0.05\)

    1. Decisão: ___________________
    2. Motivo da decisão: ___________________
    3. Conclusão (escreva em uma frase completa): ___________________

    Glossário

    Tabela de contingência
    uma tabela que exibe valores de amostra para dois fatores diferentes que podem ser dependentes ou contingentes um do outro; facilita a determinação de probabilidades condicionais.