13.1: O coeficiente de correlação r
- Page ID
- 186871
Ao começarmos esta seção, notamos que o tipo de dados com os quais trabalharemos mudou. Talvez despercebidos, todos os dados que estamos usando são para uma única variável. Pode ser de duas amostras, mas ainda é uma variável univariada. O tipo de dado descrito nos exemplos acima e para qualquer modelo de causa e efeito é dado bivariado — “bi” para duas variáveis. Na realidade, os estatísticos usam dados multivariados, o que significa muitas variáveis.
Para nosso trabalho, podemos classificar os dados em três grandes categorias: dados de séries temporais, dados de seção transversal e dados em painel. Nós conhecemos os dois primeiros muito cedo. Os dados de séries temporais medem uma única unidade de observação; digamos, uma pessoa, uma empresa ou um país, com o passar do tempo. O que será medido serão pelo menos duas características, digamos, a renda da pessoa, a quantidade de um determinado bem que ela compra e o preço que pagou. Seriam três informações em um período de tempo, digamos 1985. Se seguíssemos essa pessoa ao longo do tempo, teríamos essas mesmas informações de 1985, 1986, 1987, etc. Isso constituiria um conjunto de dados de séries temporais. Se fizéssemos isso por 10 anos, teríamos 30 informações sobre os hábitos de consumo desse bem dessa pessoa na última década e saberíamos sua renda e o preço que pagaram.
Um segundo tipo de conjunto de dados é para dados de seção transversal. Aqui, a variação não é ao longo do tempo para uma única unidade de observação, mas entre unidades de observação durante um ponto no tempo. Por um determinado período de tempo, reuníamos o preço pago, o valor comprado e a renda de muitas pessoas individuais.
Um terceiro tipo de conjunto de dados são os dados do painel. Aqui, um painel de unidades de observação é seguido ao longo do tempo. Se tomarmos nosso exemplo acima, poderemos acompanhar 500 pessoas, a unidade de observação, ao longo do tempo, dez anos, e observar sua renda, preço pago e quantidade do bem comprado. Se tivéssemos 500 pessoas e dados por dez anos sobre preço, renda e quantidade comprada, teríamos 15.000 informações. Esses tipos de conjuntos de dados são muito caros de construir e manter. No entanto, eles fornecem uma quantidade enorme de informações que podem ser usadas para responder perguntas muito importantes. Como exemplo, qual é o efeito na taxa de participação da mulher na força de trabalho quanto à idade da família de origem, mãe e pai? Ou existem efeitos diferenciais nos resultados de saúde dependendo da idade em que a pessoa começou a fumar? Somente dados em painel podem dar respostas a essas e outras perguntas relacionadas, pois precisamos acompanhar várias pessoas ao longo do tempo. O trabalho que fazemos aqui, entretanto, não será totalmente apropriado para conjuntos de dados como esses.
Começando com um conjunto de dados com duas variáveis independentes, fazemos a pergunta: eles estão relacionados? Uma forma de responder visualmente a essa pergunta é criar um gráfico de dispersão dos dados. Não podíamos fazer isso antes, quando estávamos fazendo estatísticas descritivas, porque esses dados eram univariados. Agora temos dados bivariados para que possamos traçar em duas dimensões. Três dimensões são possíveis em um pedaço de papel plano, mas se tornam muito difíceis de conceituar totalmente. Obviamente, mais de três dimensões não podem ser representadas graficamente, embora as relações possam ser medidas matematicamente.
Para fornecer precisão matemática à medição do que vemos, usamos o coeficiente de correlação. A correlação nos diz algo sobre a co-movimentação de duas variáveis, mas nada sobre por que esse movimento ocorreu. Formalmente, a análise de correlação pressupõe que ambas as variáveis analisadas são variáveis independentes. Isso significa que nenhum causa o movimento no outro. Além disso, isso significa que nenhuma variável é dependente da outra ou, por falar nisso, de qualquer outra variável. Mesmo com essas limitações, a análise de correlação pode produzir alguns resultados interessantes.
O coeficiente de correlação, ρ (pronunciado rho), é a estatística matemática para uma população que nos fornece uma medida da força de uma relação linear entre as duas variáveis. Para uma amostra de dados, a estatística r, desenvolvida por Karl Pearson no início dos anos 1900, é uma estimativa da correlação da população e é definida matematicamente como:
\[r=\frac{\frac{1}{n-1} \Sigma\left(X_{1 i}-\overline{X}_{1}\right)\left(X_{2 i}-\overline{X}_{2}\right)}{s_{x_{1}} s_{x_{2}}}\nonumber\]
OU
\[r=\frac{\sum X_{1 i} X_{2 i}-n \overline{X}_{1}-\overline{X}_{2}}{\sqrt{\left(\Sigma X_{1 i}^{2}-n \overline{X}_{1}^{2}\right)\left(\Sigma X_{2 i}^{2}-n \overline{X}_{2}^{2}\right)}}\nonumber\]
onde\(sx_1\) e\(sx_2\) são os desvios padrão das duas variáveis independentes\(X_1\) e\(X_2\),\(\overline{X}_{1}\) e\(\overline{X}_{2}\) são as médias amostrais das duas variáveis,\(X_{1i}\) e e\(X_{2i}\) são as observações individuais de\(X_1\)\(X_2\) e. O coeficiente de correlação\(r\) varia em valor de -1 a 1. A segunda fórmula equivalente é frequentemente usada porque pode ser computacionalmente mais fácil. Por mais assustadoras que pareçam essas fórmulas, elas são na verdade apenas a razão da covariância entre as duas variáveis e o produto de seus dois desvios padrão. Ou seja, é uma medida de variâncias relativas.
Na prática, todas as análises de correlação e regressão serão fornecidas por meio de um software de computador projetado para esses propósitos. Qualquer coisa além de talvez meia dúzia de observações cria imensos problemas computacionais. Foi por esse fato que a correlação e, mais ainda, a regressão, não eram ferramentas de pesquisa amplamente usadas até o advento das “máquinas de computação”. Agora, o poder computacional necessário para analisar dados usando pacotes de regressão é considerado quase trivial em comparação com apenas uma década atrás.
Para visualizar qualquer relação linear que possa existir, revise o gráfico de um diagrama de dispersão dos dados padronizados. \(\PageIndex{2}\)A figura apresenta vários diagramas de dispersão e o valor calculado de r. Nos painéis (a) e (b) observe que os dados geralmente tendem juntos, (a) para cima e (b) para baixo. O painel (a) é um exemplo de correlação positiva e o painel (b) é um exemplo de correlação negativa ou relação. O sinal do coeficiente de correlação nos diz se a relação é positiva ou negativa (inversa). Se todos os valores de\(X_1\) e\(X_2\) estiverem em uma linha reta, o coeficiente de correlação será\(1\) ou\(-1\) dependendo se a linha tem uma inclinação positiva ou negativa e quanto mais próxima de uma ou negativa, mais forte será a relação entre as duas variáveis. MAS LEMBRE-SE SEMPRE DE QUE O COEFICIENTE DE CORRELAÇÃO NÃO NOS DIZ A INCLINAÇÃO.
Lembre-se de que tudo o que o coeficiente de correlação nos diz é se os dados estão ou não relacionados linearmente. No painel (d), as variáveis obviamente têm algum tipo de relação muito específica entre si, mas o coeficiente de correlação é zero, indicando que não existe relação linear.
Se você suspeitar de uma relação linear entre\(X_1\) e\(X_2\) então\(r\) pode medir a intensidade da relação linear.
O que o VALOR do nos\(r\) diz:
- O que o SIGNO de nos\(r\) diz
- “correlação não implica causalidade”.