Skip to main content
Global

12.5: Testando a significância do coeficiente de correlação

  • Page ID
    190022
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    O coeficiente de correlação\(r\),, nos fala sobre a força e a direção da relação linear entre\(x\)\(y\) e. No entanto, a confiabilidade do modelo linear também depende da quantidade de pontos de dados observados na amostra. Precisamos analisar o valor do coeficiente de correlação\(r\) e o tamanho\(n\) da amostra juntos. Realizamos um teste de hipótese da “significância do coeficiente de correlação” para decidir se a relação linear nos dados da amostra é forte o suficiente para ser usada para modelar a relação na população.

    Os dados da amostra são usados para calcular\(r\) o coeficiente de correlação da amostra. Se tivéssemos dados para toda a população, poderíamos encontrar o coeficiente de correlação populacional. Mas como temos apenas dados de amostra, não podemos calcular o coeficiente de correlação da população. O coeficiente de correlação da amostra\(r\),, é nossa estimativa do coeficiente de correlação populacional desconhecido.

    • O símbolo do coeficiente de correlação populacional é\(\rho\) a letra grega “rho”.
    • \(\rho =\)coeficiente de correlação populacional (desconhecido)
    • \(r =\)coeficiente de correlação da amostra (conhecido; calculado a partir dos dados da amostra)

    O teste de hipótese nos permite decidir se o valor do coeficiente de correlação da população\(\rho\) é “próximo de zero” ou “significativamente diferente de zero”. Decidimos isso com base no coeficiente de correlação da amostra\(r\) e no tamanho da amostra\(n\).

    Se o teste concluir que o coeficiente de correlação é significativamente diferente de zero, dizemos que o coeficiente de correlação é “significativo”.

    • Conclusão: Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero.
    • O que a conclusão significa: Existe uma relação linear significativa entre\(x\)\(y\) e. Podemos usar a linha de regressão para modelar a relação linear entre\(x\) e\(y\) na população.

    Se o teste concluir que o coeficiente de correlação não é significativamente diferente de zero (é próximo de zero), dizemos que o coeficiente de correlação “não é significativo”.

    • Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação não é significativamente diferente de zero”.
    • O que a conclusão significa: Não há uma relação linear significativa entre\(x\)\(y\) e. Portanto, NÃO PODEMOS usar a linha de regressão para modelar uma relação linear entre\(x\) e\(y\) na população.

    OBSERVAÇÃO

    • Se\(r\) for significativo e o gráfico de dispersão mostrar uma tendência linear, a linha pode ser usada para prever o valor de\(y\) para valores\(x\) que estão dentro do domínio dos\(x\) valores observados.
    • Se não\(r\) for significativo OU se o gráfico de dispersão não mostrar uma tendência linear, a linha não deve ser usada para predição.
    • Se\(r\) for significativo e se o gráfico de dispersão mostrar uma tendência linear, a linha pode NÃO ser apropriada ou confiável para predição FORA do domínio dos\(x\) valores observados nos dados.

    REALIZANDO O TESTE DE HIPÓTESE

    • Hipótese nula:\(H_{0}: \rho = 0\)
    • Hipótese alternativa:\(H_{a}: \rho \neq 0\)

    O QUE AS HIPÓTESES SIGNIFICAM EM PALAVRAS:

    • Hipótese nula\(H_{0}\): O coeficiente de correlação da população NÃO É significativamente diferente de zero. NÃO HÁ uma relação linear significativa (correlação) entre\(x\) e\(y\) na população.
    • Hipótese alternativa\(H_{a}\): O coeficiente de correlação populacional É significativamente DIFERENTE DE zero. EXISTE UMA RELAÇÃO LINEAR SIGNIFICATIVA (correlação) entre\(x\) e\(y\) na população.

    TIRANDO UMA CONCLUSÃO: Existem dois métodos para tomar a decisão. Os dois métodos são equivalentes e dão o mesmo resultado.

    • Método 1: Usando o\(p\text{-value}\)
    • Método 2: Usando uma tabela de valores críticos

    Neste capítulo deste livro didático, sempre usaremos um nível de significância de 5%,\(\alpha = 0.05\)

    OBSERVAÇÃO

    Usando o\(p\text{-value}\) método, você pode escolher qualquer nível de significância apropriado que desejar; você não está limitado a usar\(\alpha = 0.05\). Mas a tabela de valores críticos fornecida neste livro pressupõe que estamos usando um nível de significância de 5%,\(\alpha = 0.05\). (Se quiséssemos usar um nível de significância diferente de 5% com o método do valor crítico, precisaríamos de tabelas diferentes de valores críticos que não são fornecidas neste livro didático.)

    MÉTODO 1: Usando a\(p\text{-value}\) para tomar uma decisão

    Usando a CALCULADORA TI83, 83+, 84, 84+

    Para calcular o\(p\text{-value}\) usando LinRegtTest:

    Na tela de entrada LinRegtTest, no prompt de linha para\(\beta\) ou\(\rho\), destaque "\(\neq 0\)

    A tela de saída mostra o\(p\text{-value}\) na linha que diz "\(p =\)”.

    (A maioria dos softwares estatísticos de computador pode calcular\(p\text{-value}\) o.)

    Se o\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\)):

    • Decisão: Rejeite a hipótese nula.
    • Conclusão: “Há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação é significativamente diferente de zero”.

    Se o NÃO\(p\text{-value}\) for menor que o nível de significância (\(\alpha = 0.05\))

    • Decisão: NÃO REJEITE a hipótese nula.
    • Conclusão: “Não há evidências suficientes para concluir que existe uma relação linear significativa entre\(x\) e\(y\) porque o coeficiente de correlação NÃO é significativamente diferente de zero”.

    Notas de cálculo:

    • Você usará a tecnologia para calcular\(p\text{-value}\) o. A seguir, são descritos os cálculos para calcular as estatísticas do teste e\(p\text{-value}\):
    • O\(p\text{-value}\) é calculado usando uma\(t\) distribuição -com\(n - 2\) graus de liberdade.
    • A fórmula para a estatística de teste é\(t = \frac{r\sqrt{n-2}}{\sqrt{1-r^{2}}}\). O valor da estatística de teste,\(t\), é mostrado na saída do computador ou da calculadora junto com\(p\text{-value}\) o. A estatística de teste\(t\) tem o mesmo sinal do coeficiente de correlação\(r\).
    • A\(p\text{-value}\) é a área combinada em ambas as caudas.

    Uma forma alternativa de calcular o\(p\text{-value}\) (\(p\)) dado pelo LinRegtTest é o comando 2*tcdf (abs (t) ,10^99, n-2) na 2ª DISTR.

    EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL:\(p\text{-value}\) método

    • Considere o exemplo do terceiro exame/exame final.
    • A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados.
    • A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?

    \(H_{0}: \rho = 0\)

    \(H_{a}: \rho \neq 0\)

    \(\alpha = 0.05\)

    • O\(p\text{-value}\) é 0,026 (do LinRegtTest em sua calculadora ou de um software de computador).
    • O\(p\text{-value}\), 0,026, é menor que o nível de significância de\(\alpha = 0.05\).
    • Decisão: Rejeitar a hipótese nula\(H_{0}\)
    • Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.

    Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.

    MÉTODO 2: Usando uma tabela de valores críticos para tomar uma decisão

    Os valores críticos de 95% da tabela de coeficientes de correlação da amostra podem ser usados para dar uma boa ideia se o valor computado de\(r\) é significativo ou não. Compare\(r\) com o valor crítico apropriado na tabela. Se não\(r\) estiver entre os valores críticos positivos e negativos, o coeficiente de correlação é significativo. Se\(r\) for significativo, talvez você queira usar a linha para previsão.

    Exemplo\(\PageIndex{1}\)

    Suponha que você tenha computado\(r = 0.801\) usando pontos\(n = 10\) de dados. \(df = n - 2 = 10 - 2 = 8\). Os valores críticos associados a\(df = 8\) são\(-0.632\)\(+0.632\) e. Se valor crítico\(r <\) negativo ou valor crítico\(r >\) positivo, então\(r\) é significativo. Como\(r = 0.801\) e\(0.801 > 0.632\),\(r\) é significativo e a linha pode ser usada para previsão. Se você visualizar este exemplo em uma reta numérica, isso o ajudará.

    Linha numérica horizontal com valores de -1, -0,632, 0, 0,632, 0,801 e 1. Uma linha tracejada acima dos valores -0,632, 0 e 0,632 indica valores não significativos.
    Figura\(\PageIndex{1}\). \(r\)não é significativo entre\(-0.632\)\(+0.632\) e. \(r = 0.801 > +0.632\). Portanto,\(r\) é significativo.

    Exercício\(\PageIndex{1}\)

    Para uma determinada linha de melhor ajuste, você calculou isso\(r = 0.6501\) usando pontos de\(n = 12\) dados e o valor crítico é 0,576. A linha pode ser usada para previsão? Por que ou por que não?

    Responda

    Se o gráfico de dispersão parecer linear, então, sim, a linha pode ser usada para predição, devido\(r >\) ao valor crítico positivo.

    Exemplo\(\PageIndex{2}\)

    Suponha que você tenha computado\(r = –0.624\) com 14 pontos de dados. \(df = 14 – 2 = 12\). Os valores críticos são\(-0.532\)\(0.532\) e. Uma vez que\(-0.624 < -0.532\),\(r\) é significativo e a linha pode ser usada para previsão

    Linha numérica horizontal com valores de -0,624, -0,532 e 0,532.
    Figura\(\PageIndex{2}\). \(r = -0.624 - 0.532\). Portanto,\(r\) é significativo.

    Exercício\(\PageIndex{2}\)

    Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0.5204\) usando pontos de\(n = 9\) dados, e o valor crítico é\(0.666\). A linha pode ser usada para previsão? Por que ou por que não?

    Responda

    Não, a linha não pode ser usada para predição, devido\(r <\) ao valor crítico positivo.

    Exemplo\(\PageIndex{3}\)

    Suponha que você tenha computado\(r = 0.776\)\(n = 6\) e. \(df = 6 - 2 = 4\). Os valores críticos são\(-0.811\)\(0.811\) e. Uma vez que\(-0.811 < 0.776 < 0.811\), não\(r\) é significativo, e a linha não deve ser usada para previsão.

    Linha numérica horizontal com valores -0,924, -0,532 e 0,532.
    Figura\(\PageIndex{3}\). \(-0.811 < r = 0.776 < 0.811\). Portanto, não\(r\) é significativo.

    Exercício\(\PageIndex{3}\)

    Para uma determinada linha de melhor ajuste, você calcula isso\(r = -0.7204\) usando pontos de\(n = 8\) dados, e o valor crítico é\(= 0.707\). A linha pode ser usada para previsão? Por que ou por que não?

    Responda

    Sim, a linha pode ser usada para predição, devido\(r <\) ao valor crítico negativo.

    EXEMPLO DE TERCEIRO EXAME versus EXAME FINAL: método de valor crítico

    Considere o exemplo do terceiro exame/exame final. A linha de melhor ajuste é:\(\hat{y} = -173.51 + 4.83x\) com\(r = 0.6631\) e há pontos\(n = 11\) de dados. A linha de regressão pode ser usada para predição? Dada a pontuação do terceiro exame (\(x\)valor), podemos usar a linha para prever a pontuação final do exame (\(y\)valor previsto)?

    • \(H_{0}: \rho = 0\)
    • \(H_{a}: \rho \neq 0\)
    • \(\alpha = 0.05\)
    • Use a tabela "Valor crítico de 95%” para\(r\) com\(df = n - 2 = 11 - 2 = 9\).
    • Os valores críticos são\(-0.602\) e\(+0.602\)
    • Desde então\(0.6631 > 0.602\),\(r\) é significativo.
    • Decisão: Rejeite a hipótese nula.
    • Conclusão: Há evidências suficientes para concluir que há uma relação linear significativa entre a pontuação do terceiro exame (\(x\)) e a pontuação do exame final (\(y\)) porque o coeficiente de correlação é significativamente diferente de zero.

    Como\(r\) é significativo e o gráfico de dispersão mostra uma tendência linear, a linha de regressão pode ser usada para prever as notas do exame final.

    Exemplo\(\PageIndex{4}\)

    Suponha que você tenha computado os seguintes coeficientes de correlação. Usando a tabela no final do capítulo, determine se\(r\) é significativo e a linha de melhor ajuste associada a cada r pode ser usada para prever um\(y\) valor. Se isso ajudar, desenhe uma reta numérica.

    1. \(r = –0.567\)e o tamanho da amostra,\(n\), é\(19\). \(df = n - 2 = 17\)O. O valor crítico é\(-0.456\). \(-0.567 < -0.456\)então\(r\) é significativo.
    2. \(r = 0.708\)e o tamanho da amostra,\(n\), é\(9\). \(df = n - 2 = 7\)O. O valor crítico é\(0.666\). \(0.708 > 0.666\)então\(r\) é significativo.
    3. \(r = 0.134\)e o tamanho da amostra,\(n\), é\(14\). \(df = 14 - 2 = 12\)O. O valor crítico é\(0.532\). \(0.134\)está entre\(-0.532\) e\(0.532\), portanto, não\(r\) é significativo.
    4. \(r = 0\)e o tamanho da amostra,\(n\), é cinco. Não importa quais\(dfs\) sejam,\(r = 0\) está entre os dois valores críticos, então não\(r\) é significativo.

    Exercício\(\PageIndex{4}\)

    Para uma determinada linha de melhor ajuste, você calcula isso\(r = 0\) usando pontos\(n = 100\) de dados. A linha pode ser usada para previsão? Por que ou por que não?

    Responda

    Não, a linha não pode ser usada para predição, independentemente do tamanho da amostra.

    Suposições ao testar a significância do coeficiente de correlação

    Testar a significância do coeficiente de correlação exige que certas suposições sobre os dados sejam satisfeitas. A premissa desse teste é que os dados são uma amostra de pontos observados retirados de uma população maior. Não examinamos toda a população porque não é possível ou viável fazer isso. Estamos examinando a amostra para tirar uma conclusão sobre se a relação linear que vemos entre\(x\) e\(y\) nos dados da amostra fornece evidências fortes o suficiente para que possamos concluir que existe uma relação linear entre\(x\) e\(y\) na população.

    A equação da linha de regressão que calculamos a partir dos dados da amostra fornece a linha de melhor ajuste para nossa amostra específica. Queremos usar essa linha de melhor ajuste para a amostra como uma estimativa da linha de melhor ajuste para a população. Examinar o gráfico de dispersão e testar a significância do coeficiente de correlação nos ajuda a determinar se é apropriado fazer isso.

    As suposições subjacentes ao teste de significância são:

    • Há uma relação linear na população que modela o valor médio de\(y\) para valores variáveis de\(x\). Em outras palavras, o valor esperado de\(y\) para cada valor específico está em uma linha reta na população. (Não sabemos a equação da linha para a população. Nossa linha de regressão da amostra é nossa melhor estimativa dessa linha na população.)
    • Os\(y\) valores de qualquer\(x\) valor específico são normalmente distribuídos pela linha. Isso implica que há mais\(y\) valores espalhados mais perto da linha do que espalhados mais longe. A suposição (1) implica que essas distribuições normais estão centradas na linha: as médias dessas distribuições normais de\(y\) valores estão na linha.
    • Os desvios padrão dos\(y\) valores da população em torno da linha são iguais para cada valor de\(x\). Em outras palavras, cada uma dessas distribuições normais de\(y\) valores tem a mesma forma e distribuição ao redor da linha.
    • Os erros residuais são mutuamente independentes (sem padrão).
    • Os dados são produzidos a partir de uma amostra aleatória bem projetada ou de um experimento aleatório.
    O gráfico à esquerda mostra três conjuntos de pontos. Cada conjunto cai em uma linha vertical. Os pontos em cada conjunto são normalmente distribuídos ao longo da linha — eles são densamente compactados no meio e mais espalhados na parte superior e inferior. Uma linha de regressão inclinada para baixo passa pela média de cada conjunto. O gráfico à direita mostra a mesma linha de regressão traçada. Uma curva vertical normal é mostrada para cada linha.
    Figura\(\PageIndex{4}\). Os\(y\) valores de cada\(x\) valor são normalmente distribuídos em torno da linha com o mesmo desvio padrão. Para cada\(x\) valor, a média dos\(y\) valores está na linha de regressão. Mais\(y\) valores estão perto da linha do que estão dispersos mais longe da linha.

    Resumo

    A regressão linear é um procedimento para ajustar uma linha reta do formulário\(\hat{y} = a + bx\) aos dados. As condições para regressão são:

    • Linear Na população, existe uma relação linear que modela o valor médio de\(y\) para diferentes valores de\(x\).
    • Independente Os resíduos são considerados independentes.
    • Normal Os\(y\) valores são distribuídos normalmente para qualquer valor de\(x\).
    • Variância igual O desvio padrão dos\(y\) valores é igual para cada\(x\) valor.
    • Aleatório Os dados são produzidos a partir de uma amostra aleatória bem projetada ou experimento aleatório.

    A inclinação\(b\) e a interceptação\(a\) da linha dos mínimos quadrados estimam a inclinação\(\beta\) e a interceptação\(\alpha\) da linha de regressão (verdadeira) da população. Para estimar o desvio padrão da população de\(y\)\(\sigma\),, use o desvio padrão dos resíduos,\(s\). \(s = \sqrt{\frac{SEE}{n-2}}\). A variável\(\rho\) (rho) é o coeficiente de correlação da população. Para testar o valor hipotético da\(H_{0}: \rho =\) hipótese nula, use um teste t de regressão linear. A hipótese nula mais comum é a\(H_{0}: \rho = 0\) que indica que não há relação linear entre\(x\) e\(y\) na população. A função de calculadora TI-83, 83+, 84, 84+ LinRegtTest pode realizar esse teste (STATS TESTS LinRegtTest).

    Revisão da fórmula

    Linha de mínimos quadrados ou linha de melhor ajuste:

    \[\hat{y} = a + bx\]

    onde

    \[a = y\text{-intercept}\]

    \[b = \text{slope}\]

    Desvio padrão dos resíduos:

    \[s = \sqrt{\frac{SSE}{n-2}}\]

    onde

    \[SSE = \text{sum of squared errors}\]

    \[n = \text{the number of data points}\]