12.5: Testando a significância do coeficiente de correlação

Last updated
Save as PDF

Page ID: 190022

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

O coeficiente de correlação\(r\),, nos fala sobre a força e a direção da relação linear entre\(x\)\(y\) e. No entanto, a confiabilidade do modelo linear também depende da quantidade de pontos de dados observados na amostra. Precisamos analisar o valor do coeficiente de correlação\(r\) e o tamanho\(n\) da amostra juntos. Realizamos um teste de hipótese da “significância do coeficiente de correlação” para decidir se a relação linear nos dados da amostra é forte o suficiente para ser usada para modelar a relação na população.

Os dados da amostra são usados para calcular\(r\) o coeficiente de correlação da amostra. Se tivéssemos dados para toda a população, poderíamos encontrar o coeficiente de correlação populacional. Mas como temos apenas dados de amostra, não podemos calcular o coeficiente de correlação da população. O coeficiente de correlação da amostra\(r\),, é nossa estimativa do coeficiente de correlação populacional desconhecido.

O símbolo do coeficiente de correlação populacional é\(\rho\) a letra grega “rho”.
\(\rho =\)coeficiente de correlação populacional (desconhecido)
\(r =\)coeficiente de correlação da amostra (conhecido; calculado a partir dos dados da amostra)

O teste de hipótese nos permite decidir se o valor do coeficiente de correlação da população\(\rho\) é “próximo de zero” ou “significativamente diferente de zero”. Decidimos isso com base no coeficiente de correlação da amostra\(r\) e no tamanho da amostra\(n\).

Se o teste concluir que o coeficiente de correlação é significativamente diferente de zero, dizemos que o coeficiente de correlação é “significativo”.

Conclusão: Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero.
O que a conclusão significa: Existe uma relação linear significativa entre\(x\)\(y\) e. Podemos usar a linha de regressão para modelar a relação linear entre\(x\) e\(y\) na população.

Se o teste concluir que o coeficiente de correlação não é significativamente diferente de zero (é próximo de zero), dizemos que o coeficiente de correlação “não é significativo”.

Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação não é significativamente diferente de zero”.
O que a conclusão significa: Não há uma relação linear significativa entre\(x\)\(y\) e. Portanto, NÃO PODEMOS usar a linha de regressão para modelar uma relação linear entre\(x\) e\(y\) na população.

OBSERVAÇÃO

Se\(r\) for significativo e o gráfico de dispersão mostrar uma tendência linear, a linha pode ser usada para prever o valor de\(y\) para valores\(x\) que estão dentro do domínio dos\(x\) valores observados.
Se não\(r\) for significativo OU se o gráfico de dispersão não mostrar uma tendência linear, a linha não deve ser usada para predição.
Se\(r\) for significativo e se o gráfico de dispersão mostrar uma tendência linear, a linha pode NÃO ser apropriada ou confiável para predição FORA do domínio dos\(x\) valores observados nos dados.

REALIZANDO O TESTE DE HIPÓTESE

Hipótese nula:\(H_{0}: \rho = 0\)
Hipótese alternativa:\(H_{a}: \rho \neq 0\)

O QUE AS HIPÓTESES SIGNIFICAM EM PALAVRAS:

Hipótese nula\(H_{0}\): O coeficiente de correlação da população NÃO É significativamente diferente de zero. NÃO HÁ uma relação linear significativa (correlação) entre\(x\) e\(y\) na população.
Hipótese alternativa\(H_{a}\): O coeficiente de correlação populacional É significativamente DIFERENTE DE zero. EXISTE UMA RELAÇÃO LINEAR SIGNIFICATIVA (correlação) entre\(x\) e\(y\) na população.

TIRANDO UMA CONCLUSÃO: Existem dois métodos para tomar a decisão. Os dois métodos são equivalentes e dão o mesmo resultado.

Método 1: Usando o\(p\text{-value}\)
Método 2: Usando uma tabela de valores críticos

Neste capítulo deste livro didático, sempre usaremos um nível de significância de 5%,\(\alpha = 0.05\)

OBSERVAÇÃO

Usando o\(p\text{-value}\) método, você pode escolher qualquer nível de significância apropriado que desejar; você não está limitado a usar\(\alpha = 0.05\). Mas a tabela de valores críticos fornecida neste livro pressupõe que estamos usando um nível de significância de 5%,\(\alpha = 0.05\). (Se quiséssemos usar um nível de significância diferente de 5% com o método do valor crítico, precisaríamos de tabelas diferentes de valores críticos que não são fornecidas neste livro didático.)

MÉTODO 1: Usando a\(p\text{-value}\) para tomar uma decisão

Usando a CALCULADORA TI83, 83+, 84, 84+

Para calcular o\(p\text{-value}\) usando LinRegtTest:

Na tela de entrada LinRegtTest, no prompt de linha para\(\beta\) ou\(\rho\), destaque "\(\neq 0\)”

A tela de saída mostra o\(p\text{-value}\) na linha que diz "\(p =\)”.

(A maioria dos softwares estatísticos de computador pode calcular\(p\text{-value}\) o.)

Se o\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\)):

Decisão: Rejeite a hipótese nula.
Conclusão: “Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero”.

Se o NÃO\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\))

Decisão: NÃO REJEITE a hipótese nula.
Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação NÃO é significativamente diferente de zero”.

Notas de cálculo:

Você usará a tecnologia para calcular\(p\text{-value}\) o. A seguir, são descritos os cálculos para calcular as estatísticas do teste e\(p\text{-value}\):
O\(p\text{-value}\) é calculado usando uma\(t\) distribuição -com\(n - 2\) graus de liberdade.
A fórmula para a estatística de teste é\(t = \frac{r\sqrt{n-2}}{\sqrt{1-r^{2}}}\). O valor da estatística de teste,\(t\), é mostrado na saída do computador ou da calculadora junto com\(p\text{-value}\) o. A estatística de teste\(t\) tem o mesmo sinal do coeficiente de correlação\(r\).
A\(p\text{-value}\) é a área combinada em ambas as caudas.

Uma forma alternativa de calcular o\(p\text{-value}\) (\(p\)) dado pelo LinRegtTest é o comando 2*tcdf (abs (t) ,10^99, n-2) na 2ª DISTR.

EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL:\(p\text{-value}\) método

Considere o exemplo do terceiro exame/exame final.
A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados.
A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?

\(H_{0}: \rho = 0\)

\(H_{a}: \rho \neq 0\)

\(\alpha = 0.05\)

O\(p\text{-value}\) é 0,026 (do LinRegtTest em sua calculadora ou de um software de computador).
O\(p\text{-value}\), 0,026, é menor que o nível de significância de\(\alpha = 0.05\).
Decisão: Rejeitar a hipótese nula\(H_{0}\)
Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.

Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.

MÉTODO 2: Usando uma tabela de valores críticos para tomar uma decisão

Os valores críticos de 95% da tabela de coeficientes de correlação da amostra podem ser usados para dar uma boa ideia se o valor computado de\(r\) é significativo ou não. Compare\(r\) com o valor crítico apropriado na tabela. Se não\(r\) estiver entre os valores críticos positivos e negativos, o coeficiente de correlação é significativo. Se\(r\) for significativo, talvez você queira usar a linha para previsão.

Exemplo\(\PageIndex{1}\)

Suponha que você tenha computado\(r = 0.801\) usando pontos\(n = 10\) de dados. \(df = n - 2 = 10 - 2 = 8\). Os valores críticos associados a\(df = 8\) são\(-0.632\)\(+0.632\) e. Se valor crítico\(r <\) negativo ou valor crítico\(r >\) positivo, então\(r\) é significativo. Como\(r = 0.801\) e\(0.801 > 0.632\),\(r\) é significativo e a linha pode ser usada para previsão. Se você visualizar este exemplo em uma reta numérica, isso o ajudará.

Linha numérica horizontal com valores de -1, -0,632, 0, 0,632, 0,801 e 1. Uma linha tracejada acima dos valores -0,632, 0 e 0,632 indica valores não significativos. — Figura\(\PageIndex{1}\). \(r\)não é significativo entre\(-0.632\)\(+0.632\) e. \(r = 0.801 > +0.632\). Portanto,\(r\) é significativo.

Exercício\(\PageIndex{1}\)

Para uma determinada linha de melhor ajuste, você calculou isso\(r = 0.6501\) usando pontos de\(n = 12\) dados e o valor crítico é 0,576. A linha pode ser usada para previsão? Por que ou por que não?

Responda: Se o gráfico de dispersão parecer linear, então, sim, a linha pode ser usada para predição, devido\(r >\) ao valor crítico positivo.

Exemplo\(\PageIndex{2}\)

Suponha que você tenha computado\(r = –0.624\) com 14 pontos de dados. \(df = 14 – 2 = 12\). Os valores críticos são\(-0.532\)\(0.532\) e. Uma vez que\(-0.624 < -0.532\),\(r\) é significativo e a linha pode ser usada para previsão

Linha numérica horizontal com valores de -0,624, -0,532 e 0,532. — Figura\(\PageIndex{2}\). \(r = -0.624 - 0.532\). Portanto,\(r\) é significativo.

Exercício\(\PageIndex{2}\)

Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0.5204\) usando pontos de\(n = 9\) dados, e o valor crítico é\(0.666\). A linha pode ser usada para previsão? Por que ou por que não?

Responda: Não, a linha não pode ser usada para predição, devido\(r <\) ao valor crítico positivo.

Exemplo\(\PageIndex{3}\)

Suponha que você tenha computado\(r = 0.776\)\(n = 6\) e. \(df = 6 - 2 = 4\). Os valores críticos são\(-0.811\)\(0.811\) e. Uma vez que\(-0.811 < 0.776 < 0.811\), não\(r\) é significativo, e a linha não deve ser usada para previsão.

Linha numérica horizontal com valores -0,924, -0,532 e 0,532. — Figura\(\PageIndex{3}\). \(-0.811 < r = 0.776 < 0.811\). Portanto, não\(r\) é significativo.

Exercício\(\PageIndex{3}\)

Para uma determinada linha de melhor ajuste, você calcula isso\(r = -0.7204\) usando pontos de\(n = 8\) dados, e o valor crítico é\(= 0.707\). A linha pode ser usada para previsão? Por que ou por que não?

Responda: Sim, a linha pode ser usada para predição, devido\(r <\) ao valor crítico negativo.

EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL: método de valor crítico

Considere o exemplo do terceiro exame/exame final. A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados. A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?

\(H_{0}: \rho = 0\)
\(H_{a}: \rho \neq 0\)
\(\alpha = 0.05\)

Use a tabela "Valor crítico de 95%” para\(r\) com\(df = n - 2 = 11 - 2 = 9\).
Os valores críticos são\(-0.602\) e\(+0.602\)
Desde então\(0.6631 > 0.602\),\(r\) é significativo.
Decisão: Rejeite a hipótese nula.
Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.

Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.

Exemplo\(\PageIndex{4}\)

Suponha que você tenha computado os seguintes coeficientes de correlação. Usando a tabela no final do capítulo, determine se\(r\) é significativo e a linha de melhor ajuste associada a cada r pode ser usada para prever um\(y\) valor. Se isso ajudar, desenhe uma reta numérica.

\(r = –0.567\)e o tamanho da amostra,\(n\), é\(19\). \(df = n - 2 = 17\)O. O valor crítico é\(-0.456\). \(-0.567 < -0.456\)então\(r\) é significativo.
\(r = 0.708\)e o tamanho da amostra,\(n\), é\(9\). \(df = n - 2 = 7\)O. O valor crítico é\(0.666\). \(0.708 > 0.666\)então\(r\) é significativo.
\(r = 0.134\)e o tamanho da amostra,\(n\), é\(14\). \(df = 14 - 2 = 12\)O. O valor crítico é\(0.532\). \(0.134\)está entre\(-0.532\) e\(0.532\), portanto, não\(r\) é significativo.
\(r = 0\)e o tamanho da amostra,\(n\), é cinco. Não importa quais\(dfs\) sejam,\(r = 0\) está entre os dois valores críticos, então não\(r\) é significativo.

Exercício\(\PageIndex{4}\)

Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0\) usando pontos\(n = 100\) de dados. A linha pode ser usada para previsão? Por que ou por que não?

Responda: Não, a linha não pode ser usada para predição, independentemente do tamanho da amostra.

Suposições ao testar a significância do coeficiente de correlação

Testar a significância do coeficiente de correlação exige que certas suposições sobre os dados sejam satisfeitas. A premissa desse teste é que os dados são uma amostra de pontos observados retirados de uma população maior. Não examinamos toda a população porque não é possível ou viável fazer isso. Estamos examinando a amostra para tirar uma conclusão sobre se a relação linear que vemos entre\(x\) e\(y\) nos dados da amostra fornece evidências fortes o suficiente para que possamos concluir que existe uma relação linear entre\(x\) e\(y\) na população.

A equação da linha de regressão que calculamos a partir dos dados da amostra fornece a linha de melhor ajuste para nossa amostra específica. Queremos usar essa linha de melhor ajuste para a amostra como uma estimativa da linha de melhor ajuste para a população. Examinar o gráfico de dispersão e testar a significância do coeficiente de correlação nos ajuda a determinar se é apropriado fazer isso.

As suposições subjacentes ao teste de significância são:

Há uma relação linear na população que modela o valor médio de\(y\) para valores variáveis de\(x\). Em outras palavras, o valor esperado de\(y\) para cada valor específico está em uma linha reta na população. (Não sabemos a equação da linha para a população. Nossa linha de regressão da amostra é nossa melhor estimativa dessa linha na população.)
Os\(y\) valores de qualquer\(x\) valor específico são normalmente distribuídos pela linha. Isso implica que há mais\(y\) valores espalhados mais perto da linha do que espalhados mais longe. A suposição (1) implica que essas distribuições normais estão centradas na linha: as médias dessas distribuições normais de\(y\) valores estão na linha.
Os desvios padrão dos\(y\) valores da população em torno da linha são iguais para cada valor de\(x\). Em outras palavras, cada uma dessas distribuições normais de\(y\) valores tem a mesma forma e distribuição ao redor da linha.
Os erros residuais são mutuamente independentes (sem padrão).
Os dados são produzidos a partir de uma amostra aleatória bem projetada ou de um experimento aleatório.

O gráfico à esquerda mostra três conjuntos de pontos. Cada conjunto cai em uma linha vertical. Os pontos em cada conjunto são normalmente distribuídos ao longo da linha — eles são densamente compactados no meio e mais espalhados na parte superior e inferior. Uma linha de regressão inclinada para baixo passa pela média de cada conjunto. O gráfico à direita mostra a mesma linha de regressão traçada. Uma curva vertical normal é mostrada para cada linha. — Figura\(\PageIndex{4}\). Os\(y\) valores de cada\(x\) valor são normalmente distribuídos em torno da linha com o mesmo desvio padrão. Para cada\(x\) valor, a média dos\(y\) valores está na linha de regressão. Mais\(y\) valores estão perto da linha do que estão dispersos mais longe da linha.

Resumo

A regressão linear é um procedimento para ajustar uma linha reta do formulário\(\hat{y} = a + bx\) aos dados. As condições para regressão são:

Linear Na população, existe uma relação linear que modela o valor médio de\(y\) para diferentes valores de\(x\).
Independente Os resíduos são considerados independentes.
Normal Os\(y\) valores são distribuídos normalmente para qualquer valor de\(x\).
Variância igual O desvio padrão dos\(y\) valores é igual para cada\(x\) valor.
Aleatório Os dados são produzidos a partir de uma amostra aleatória bem projetada ou experimento aleatório.

A inclinação\(b\) e a interceptação\(a\) da linha dos mínimos quadrados estimam a inclinação\(\beta\) e a interceptação\(\alpha\) da linha de regressão (verdadeira) da população. Para estimar o desvio padrão da população de\(y\)\(\sigma\),, use o desvio padrão dos resíduos,\(s\). \(s = \sqrt{\frac{SEE}{n-2}}\). A variável\(\rho\) (rho) é o coeficiente de correlação da população. Para testar o valor hipotético da\(H_{0}: \rho =\) hipótese nula, use um teste t de regressão linear. A hipótese nula mais comum é a\(H_{0}: \rho = 0\) que indica que não há relação linear entre\(x\) e\(y\) na população. A função de calculadora TI-83, 83+, 84, 84+ LinRegtTest pode realizar esse teste (STATS TESTS LinRegtTest).

Revisão da fórmula

Linha de mínimos quadrados ou linha de melhor ajuste:

\[\hat{y} = a + bx\]

onde

\[a = y\text{-intercept}\]

\[b = \text{slope}\]

Desvio padrão dos resíduos:

\[s = \sqrt{\frac{SSE}{n-2}}\]

onde

\[SSE = \text{sum of squared errors}\]

\[n = \text{the number of data points}\]