12.5: Testando a significância do coeficiente de correlação
- Page ID
- 190022
O coeficiente de correlação\(r\),, nos fala sobre a força e a direção da relação linear entre\(x\)\(y\) e. No entanto, a confiabilidade do modelo linear também depende da quantidade de pontos de dados observados na amostra. Precisamos analisar o valor do coeficiente de correlação\(r\) e o tamanho\(n\) da amostra juntos. Realizamos um teste de hipótese da “significância do coeficiente de correlação” para decidir se a relação linear nos dados da amostra é forte o suficiente para ser usada para modelar a relação na população.
Os dados da amostra são usados para calcular\(r\) o coeficiente de correlação da amostra. Se tivéssemos dados para toda a população, poderíamos encontrar o coeficiente de correlação populacional. Mas como temos apenas dados de amostra, não podemos calcular o coeficiente de correlação da população. O coeficiente de correlação da amostra\(r\),, é nossa estimativa do coeficiente de correlação populacional desconhecido.
- O símbolo do coeficiente de correlação populacional é\(\rho\) a letra grega “rho”.
- \(\rho =\)coeficiente de correlação populacional (desconhecido)
- \(r =\)coeficiente de correlação da amostra (conhecido; calculado a partir dos dados da amostra)
O teste de hipótese nos permite decidir se o valor do coeficiente de correlação da população\(\rho\) é “próximo de zero” ou “significativamente diferente de zero”. Decidimos isso com base no coeficiente de correlação da amostra\(r\) e no tamanho da amostra\(n\).
Se o teste concluir que o coeficiente de correlação é significativamente diferente de zero, dizemos que o coeficiente de correlação é “significativo”.
- Conclusão: Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero.
- O que a conclusão significa: Existe uma relação linear significativa entre\(x\)\(y\) e. Podemos usar a linha de regressão para modelar a relação linear entre\(x\) e\(y\) na população.
Se o teste concluir que o coeficiente de correlação não é significativamente diferente de zero (é próximo de zero), dizemos que o coeficiente de correlação “não é significativo”.
- Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação não é significativamente diferente de zero”.
- O que a conclusão significa: Não há uma relação linear significativa entre\(x\)\(y\) e. Portanto, NÃO PODEMOS usar a linha de regressão para modelar uma relação linear entre\(x\) e\(y\) na população.
OBSERVAÇÃO
- Se\(r\) for significativo e o gráfico de dispersão mostrar uma tendência linear, a linha pode ser usada para prever o valor de\(y\) para valores\(x\) que estão dentro do domínio dos\(x\) valores observados.
- Se não\(r\) for significativo OU se o gráfico de dispersão não mostrar uma tendência linear, a linha não deve ser usada para predição.
- Se\(r\) for significativo e se o gráfico de dispersão mostrar uma tendência linear, a linha pode NÃO ser apropriada ou confiável para predição FORA do domínio dos\(x\) valores observados nos dados.
REALIZANDO O TESTE DE HIPÓTESE
- Hipótese nula:\(H_{0}: \rho = 0\)
- Hipótese alternativa:\(H_{a}: \rho \neq 0\)
O QUE AS HIPÓTESES SIGNIFICAM EM PALAVRAS:
- Hipótese nula\(H_{0}\): O coeficiente de correlação da população NÃO É significativamente diferente de zero. NÃO HÁ uma relação linear significativa (correlação) entre\(x\) e\(y\) na população.
- Hipótese alternativa\(H_{a}\): O coeficiente de correlação populacional É significativamente DIFERENTE DE zero. EXISTE UMA RELAÇÃO LINEAR SIGNIFICATIVA (correlação) entre\(x\) e\(y\) na população.
TIRANDO UMA CONCLUSÃO: Existem dois métodos para tomar a decisão. Os dois métodos são equivalentes e dão o mesmo resultado.
- Método 1: Usando o\(p\text{-value}\)
- Método 2: Usando uma tabela de valores críticos
Neste capítulo deste livro didático, sempre usaremos um nível de significância de 5%,\(\alpha = 0.05\)
OBSERVAÇÃO
Usando o\(p\text{-value}\) método, você pode escolher qualquer nível de significância apropriado que desejar; você não está limitado a usar\(\alpha = 0.05\). Mas a tabela de valores críticos fornecida neste livro pressupõe que estamos usando um nível de significância de 5%,\(\alpha = 0.05\). (Se quiséssemos usar um nível de significância diferente de 5% com o método do valor crítico, precisaríamos de tabelas diferentes de valores críticos que não são fornecidas neste livro didático.)
MÉTODO 1: Usando a\(p\text{-value}\) para tomar uma decisão
Usando a CALCULADORA TI83, 83+, 84, 84+
Para calcular o\(p\text{-value}\) usando LinRegtTest:
Na tela de entrada LinRegtTest, no prompt de linha para\(\beta\) ou\(\rho\), destaque "\(\neq 0\)”
A tela de saída mostra o\(p\text{-value}\) na linha que diz "\(p =\)”.
(A maioria dos softwares estatísticos de computador pode calcular\(p\text{-value}\) o.)
Se o\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\)):
- Decisão: Rejeite a hipótese nula.
- Conclusão: “Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero”.
Se o NÃO\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\))
- Decisão: NÃO REJEITE a hipótese nula.
- Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação NÃO é significativamente diferente de zero”.
Notas de cálculo:
- Você usará a tecnologia para calcular\(p\text{-value}\) o. A seguir, são descritos os cálculos para calcular as estatísticas do teste e\(p\text{-value}\):
- O\(p\text{-value}\) é calculado usando uma\(t\) distribuição -com\(n - 2\) graus de liberdade.
- A fórmula para a estatística de teste é\(t = \frac{r\sqrt{n-2}}{\sqrt{1-r^{2}}}\). O valor da estatística de teste,\(t\), é mostrado na saída do computador ou da calculadora junto com\(p\text{-value}\) o. A estatística de teste\(t\) tem o mesmo sinal do coeficiente de correlação\(r\).
- A\(p\text{-value}\) é a área combinada em ambas as caudas.
Uma forma alternativa de calcular o\(p\text{-value}\) (\(p\)) dado pelo LinRegtTest é o comando 2*tcdf (abs (t) ,10^99, n-2) na 2ª DISTR.
EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL:\(p\text{-value}\) método
- Considere o exemplo do terceiro exame/exame final.
- A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados.
- A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?
\(H_{0}: \rho = 0\)
\(H_{a}: \rho \neq 0\)
\(\alpha = 0.05\)
- O\(p\text{-value}\) é 0,026 (do LinRegtTest em sua calculadora ou de um software de computador).
- O\(p\text{-value}\), 0,026, é menor que o nível de significância de\(\alpha = 0.05\).
- Decisão: Rejeitar a hipótese nula\(H_{0}\)
- Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.
Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.
MÉTODO 2: Usando uma tabela de valores críticos para tomar uma decisão
Os valores críticos de 95% da tabela de coeficientes de correlação da amostra podem ser usados para dar uma boa ideia se o valor computado de\(r\) é significativo ou não. Compare\(r\) com o valor crítico apropriado na tabela. Se não\(r\) estiver entre os valores críticos positivos e negativos, o coeficiente de correlação é significativo. Se\(r\) for significativo, talvez você queira usar a linha para previsão.
Exemplo\(\PageIndex{1}\)
Suponha que você tenha computado\(r = 0.801\) usando pontos\(n = 10\) de dados. \(df = n - 2 = 10 - 2 = 8\). Os valores críticos associados a\(df = 8\) são\(-0.632\)\(+0.632\) e. Se valor crítico\(r <\) negativo ou valor crítico\(r >\) positivo, então\(r\) é significativo. Como\(r = 0.801\) e\(0.801 > 0.632\),\(r\) é significativo e a linha pode ser usada para previsão. Se você visualizar este exemplo em uma reta numérica, isso o ajudará.
Exercício\(\PageIndex{1}\)
Para uma determinada linha de melhor ajuste, você calculou isso\(r = 0.6501\) usando pontos de\(n = 12\) dados e o valor crítico é 0,576. A linha pode ser usada para previsão? Por que ou por que não?
- Responda
-
Se o gráfico de dispersão parecer linear, então, sim, a linha pode ser usada para predição, devido\(r >\) ao valor crítico positivo.
Exemplo\(\PageIndex{2}\)
Suponha que você tenha computado\(r = –0.624\) com 14 pontos de dados. \(df = 14 – 2 = 12\). Os valores críticos são\(-0.532\)\(0.532\) e. Uma vez que\(-0.624 < -0.532\),\(r\) é significativo e a linha pode ser usada para previsão
Exercício\(\PageIndex{2}\)
Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0.5204\) usando pontos de\(n = 9\) dados, e o valor crítico é\(0.666\). A linha pode ser usada para previsão? Por que ou por que não?
- Responda
-
Não, a linha não pode ser usada para predição, devido\(r <\) ao valor crítico positivo.
Exemplo\(\PageIndex{3}\)
Suponha que você tenha computado\(r = 0.776\)\(n = 6\) e. \(df = 6 - 2 = 4\). Os valores críticos são\(-0.811\)\(0.811\) e. Uma vez que\(-0.811 < 0.776 < 0.811\), não\(r\) é significativo, e a linha não deve ser usada para previsão.
Exercício\(\PageIndex{3}\)
Para uma determinada linha de melhor ajuste, você calcula isso\(r = -0.7204\) usando pontos de\(n = 8\) dados, e o valor crítico é\(= 0.707\). A linha pode ser usada para previsão? Por que ou por que não?
- Responda
-
Sim, a linha pode ser usada para predição, devido\(r <\) ao valor crítico negativo.
EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL: método de valor crítico
Considere o exemplo do terceiro exame/exame final. A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados. A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?
- \(H_{0}: \rho = 0\)
- \(H_{a}: \rho \neq 0\)
- \(\alpha = 0.05\)
- Use a tabela "Valor crítico de 95%” para\(r\) com\(df = n - 2 = 11 - 2 = 9\).
- Os valores críticos são\(-0.602\) e\(+0.602\)
- Desde então\(0.6631 > 0.602\),\(r\) é significativo.
- Decisão: Rejeite a hipótese nula.
- Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.
Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.
Exemplo\(\PageIndex{4}\)
Suponha que você tenha computado os seguintes coeficientes de correlação. Usando a tabela no final do capítulo, determine se\(r\) é significativo e a linha de melhor ajuste associada a cada r pode ser usada para prever um\(y\) valor. Se isso ajudar, desenhe uma reta numérica.
- \(r = –0.567\)e o tamanho da amostra,\(n\), é\(19\). \(df = n - 2 = 17\)O. O valor crítico é\(-0.456\). \(-0.567 < -0.456\)então\(r\) é significativo.
- \(r = 0.708\)e o tamanho da amostra,\(n\), é\(9\). \(df = n - 2 = 7\)O. O valor crítico é\(0.666\). \(0.708 > 0.666\)então\(r\) é significativo.
- \(r = 0.134\)e o tamanho da amostra,\(n\), é\(14\). \(df = 14 - 2 = 12\)O. O valor crítico é\(0.532\). \(0.134\)está entre\(-0.532\) e\(0.532\), portanto, não\(r\) é significativo.
- \(r = 0\)e o tamanho da amostra,\(n\), é cinco. Não importa quais\(dfs\) sejam,\(r = 0\) está entre os dois valores críticos, então não\(r\) é significativo.
Exercício\(\PageIndex{4}\)
Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0\) usando pontos\(n = 100\) de dados. A linha pode ser usada para previsão? Por que ou por que não?
- Responda
-
Não, a linha não pode ser usada para predição, independentemente do tamanho da amostra.
Suposições ao testar a significância do coeficiente de correlação
Testar a significância do coeficiente de correlação exige que certas suposições sobre os dados sejam satisfeitas. A premissa desse teste é que os dados são uma amostra de pontos observados retirados de uma população maior. Não examinamos toda a população porque não é possível ou viável fazer isso. Estamos examinando a amostra para tirar uma conclusão sobre se a relação linear que vemos entre\(x\) e\(y\) nos dados da amostra fornece evidências fortes o suficiente para que possamos concluir que existe uma relação linear entre\(x\) e\(y\) na população.
A equação da linha de regressão que calculamos a partir dos dados da amostra fornece a linha de melhor ajuste para nossa amostra específica. Queremos usar essa linha de melhor ajuste para a amostra como uma estimativa da linha de melhor ajuste para a população. Examinar o gráfico de dispersão e testar a significância do coeficiente de correlação nos ajuda a determinar se é apropriado fazer isso.
As suposições subjacentes ao teste de significância são:
- Há uma relação linear na população que modela o valor médio de\(y\) para valores variáveis de\(x\). Em outras palavras, o valor esperado de\(y\) para cada valor específico está em uma linha reta na população. (Não sabemos a equação da linha para a população. Nossa linha de regressão da amostra é nossa melhor estimativa dessa linha na população.)
- Os\(y\) valores de qualquer\(x\) valor específico são normalmente distribuídos pela linha. Isso implica que há mais\(y\) valores espalhados mais perto da linha do que espalhados mais longe. A suposição (1) implica que essas distribuições normais estão centradas na linha: as médias dessas distribuições normais de\(y\) valores estão na linha.
- Os desvios padrão dos\(y\) valores da população em torno da linha são iguais para cada valor de\(x\). Em outras palavras, cada uma dessas distribuições normais de\(y\) valores tem a mesma forma e distribuição ao redor da linha.
- Os erros residuais são mutuamente independentes (sem padrão).
- Os dados são produzidos a partir de uma amostra aleatória bem projetada ou de um experimento aleatório.
Resumo
A regressão linear é um procedimento para ajustar uma linha reta do formulário\(\hat{y} = a + bx\) aos dados. As condições para regressão são:
- Linear Na população, existe uma relação linear que modela o valor médio de\(y\) para diferentes valores de\(x\).
- Independente Os resíduos são considerados independentes.
- Normal Os\(y\) valores são distribuídos normalmente para qualquer valor de\(x\).
- Variância igual O desvio padrão dos\(y\) valores é igual para cada\(x\) valor.
- Aleatório Os dados são produzidos a partir de uma amostra aleatória bem projetada ou experimento aleatório.
A inclinação\(b\) e a interceptação\(a\) da linha dos mínimos quadrados estimam a inclinação\(\beta\) e a interceptação\(\alpha\) da linha de regressão (verdadeira) da população. Para estimar o desvio padrão da população de\(y\)\(\sigma\),, use o desvio padrão dos resíduos,\(s\). \(s = \sqrt{\frac{SEE}{n-2}}\). A variável\(\rho\) (rho) é o coeficiente de correlação da população. Para testar o valor hipotético da\(H_{0}: \rho =\) hipótese nula, use um teste t de regressão linear. A hipótese nula mais comum é a\(H_{0}: \rho = 0\) que indica que não há relação linear entre\(x\) e\(y\) na população. A função de calculadora TI-83, 83+, 84, 84+ LinRegtTest pode realizar esse teste (STATS TESTS LinRegtTest).
Revisão da fórmula
Linha de mínimos quadrados ou linha de melhor ajuste:
\[\hat{y} = a + bx\]
onde
\[a = y\text{-intercept}\]
\[b = \text{slope}\]
Desvio padrão dos resíduos:
\[s = \sqrt{\frac{SSE}{n-2}}\]
onde
\[SSE = \text{sum of squared errors}\]
\[n = \text{the number of data points}\]