Skip to main content
Global

13.4: A equação de regressão

  • Page ID
    186901
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    A análise de regressão é uma técnica estatística que pode testar a hipótese de que uma variável é dependente de uma ou mais outras variáveis. Além disso, a análise de regressão pode fornecer uma estimativa da magnitude do impacto de uma mudança em uma variável em outra. Esse último recurso, é claro, é muito importante para prever valores futuros.

    A análise de regressão é baseada em uma relação funcional entre variáveis e, além disso, assume que a relação é linear. Essa suposição de linearidade é necessária porque, na maioria das vezes, as propriedades estatísticas teóricas da estimativa não linear ainda não foram bem elaboradas pelos matemáticos e econometristas. Isso nos apresenta algumas dificuldades na análise econômica porque muitos de nossos modelos teóricos não são lineares. A curva de custo marginal, por exemplo, é decididamente não linear, assim como a função de custo total, se quisermos acreditar no efeito da especialização do trabalho e na Lei da Diminuição do Produto Marginal. Existem técnicas para superar algumas dessas dificuldades, a transformação exponencial e logarítmica dos dados, por exemplo, mas, no início, devemos reconhecer que a análise de regressão padrão de mínimos quadrados ordinários (OLS) sempre usará uma função linear para estimar o que pode ser não linear. relacionamento.

    O modelo geral de regressão linear pode ser definido pela equação:

    \[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

    onde\(\beta_0\) é o intercepto,\(\beta_i\) s são a inclinação entre\(Y\) e o apropriado\(X_i\), e\(\epsilon\) (pronunciado épsilon), é o termo de erro que captura erros na medição\(Y\) e o efeito sobre\(Y\) quaisquer variáveis ausentes na equação que contribuem para explicar as variações em\(Y\). Essa equação é a equação teórica da população e, portanto, usa letras gregas. A equação que vamos estimar terá os símbolos equivalentes romanos. Isso é paralelo à forma como acompanhamos os parâmetros da população e os parâmetros da amostra antes. O símbolo para a média da população era\(\mu\) e para a média da amostra\(\overline{X}\) e para a população, o desvio padrão era\(\sigma\) e para a amostra, o desvio padrão era\(s\). A equação que será estimada com uma amostra de dados para duas variáveis independentes será, portanto:

    \[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

    Como em nosso trabalho anterior com distribuições de probabilidade, esse modelo funciona somente se certas suposições forem válidas. Eles são que o\(Y\) é normalmente distribuído, os erros também são normalmente distribuídos com uma média de zero e um desvio padrão constante e que os termos de erro são independentes do tamanho\(X\) e independentes um do outro.

    Suposições do modelo de regressão de mínimos quadrados ordinários

    Cada uma dessas suposições precisa de um pouco mais de explicação. Se uma dessas suposições não for verdadeira, isso afetará a qualidade das estimativas. Algumas das falhas dessas suposições podem ser corrigidas, enquanto outras resultam em estimativas que simplesmente não fornecem nenhuma visão sobre as perguntas que o modelo está tentando responder ou, pior ainda, fornecem estimativas tendenciosas.

    1. As variáveis independentes,\(x_i\), são todas medidas sem erro e são números fixos que são independentes do termo de erro. Essa suposição está dizendo, de fato, que\(Y\) é determinístico, o resultado de um componente fixo “\(X\)” e um componente de erro aleatório “”\(\epsilon\).
    2. O termo de erro é uma variável aleatória com uma média de zero e uma variância constante. O significado disso é que as variâncias das variáveis independentes são independentes do valor da variável. Considere a relação entre a renda pessoal e a quantidade de um bem comprado como um exemplo de um caso em que a variação depende do valor da variável independente, renda. É plausível que, à medida que a renda aumenta, a variação em torno do valor comprado também aumente simplesmente por causa da flexibilidade proporcionada com níveis mais altos de renda. A suposição é de variância constante em relação à magnitude da variável independente chamada homocedasticidade. Se a suposição falhar, ela é chamada de heteroscedasticidade. A Figura 13.6 mostra o caso da homocedasticidade em que todas as três distribuições têm a mesma variância em torno do valor previsto,\(Y\) independentemente da magnitude de\(X\).
    3. Embora as variáveis independentes sejam todas valores fixos, elas são de uma distribuição de probabilidade que normalmente é distribuída. Isso pode ser visto na Figura 13.6 pela forma das distribuições colocadas na linha prevista no valor esperado do valor relevante de\(Y\).
    4. As variáveis independentes são independentes de\(Y\), mas também são consideradas independentes das outras\(X\) variáveis. O modelo é projetado para estimar os efeitos de variáveis independentes em alguma variável dependente de acordo com uma teoria proposta. O caso em que algumas ou mais das variáveis independentes estão correlacionadas não é incomum. Pode não haver relação de causa e efeito entre as variáveis independentes, mas, no entanto, elas se movem juntas. Veja o caso de uma curva de oferta simples em que a quantidade fornecida está teoricamente relacionada ao preço do produto e aos preços dos insumos. Pode haver vários insumos que, com o tempo, podem se mover juntos devido à pressão inflacionária geral. Os preços dos insumos, portanto, violarão essa suposição de análise de regressão. Essa condição é chamada de multicolinearidade, que será abordada em detalhes posteriormente.
    5. Os termos de erro não estão correlacionados entre si. Essa situação surge de um efeito em um termo de erro de outro termo de erro. Embora não seja exclusivamente um problema de séries temporais, é aqui que vemos esse caso com mais frequência. Uma\(X\) variável no período de tempo 1 tem um efeito sobre a\(Y\) variável, mas esse efeito tem um efeito no próximo período de tempo. Esse efeito dá origem a uma relação entre os termos de erro. Esse caso é chamado de autocorrelação, “autocorrelacionado”. Os termos de erro agora não são independentes uns dos outros, mas têm seu próprio efeito nos termos de erro subsequentes.

    A Figura 13.6 não mostra todas as suposições do modelo de regressão, mas ajuda a visualizar essas importantes.

    Figura 13.6

    Figura 13.7

    Essa é a forma geral mais frequentemente chamada de modelo de regressão múltipla. A chamada análise de regressão “simples” tem apenas uma variável independente (à direita) em vez de muitas variáveis independentes. A regressão simples é apenas um caso especial de regressão múltipla. Há algum valor em começar com uma regressão simples: é fácil representar graficamente em duas dimensões, difícil representar graficamente em três dimensões e impossível representar graficamente em mais de três dimensões. Consequentemente, nossos gráficos serão para o caso de regressão simples. A Figura 13.7 apresenta o problema de regressão na forma de um gráfico de dispersão do conjunto de dados, onde se supõe que\(Y\) seja dependente de uma única variável independente\(X\).

    Uma relação básica dos Princípios Macroeconômicos é a função de consumo. Essa relação teórica afirma que, à medida que a renda de uma pessoa aumenta, seu consumo aumenta, mas em uma quantidade menor do que o aumento da renda. Se\(Y\) for consumo e\(X\) renda na equação abaixo da Figura 13.7, o problema de regressão é, primeiro, estabelecer que essa relação existe e, segundo, determinar o impacto de uma mudança na renda no consumo de uma pessoa. O parâmetro\(\beta_1\) foi chamado de Propensão Marginal ao Consumo nos Princípios da Macroeconomia.

    Cada “ponto” na Figura 13.7 representa o consumo e a renda de diferentes indivíduos em algum momento. Isso foi chamado de dados transversais anteriormente; observações sobre variáveis em um ponto no tempo em diferentes pessoas ou outras unidades de medida. Essa análise geralmente é feita com dados de séries temporais, que seriam o consumo e a renda de um indivíduo ou país em diferentes momentos. Para problemas macroeconômicos, é comum usar dados agregados de séries temporais de um país inteiro. Para este conceito teórico específico, esses dados estão prontamente disponíveis no relatório anual do Conselho de Consultores Econômicos do Presidente.

    Figura 13.8. Às vezes, a análise de regressão é chamada de análise de “mínimos quadrados” porque o método para determinar qual linha melhor “se ajusta” aos dados é minimizar a soma dos resíduos quadrados de uma linha colocada nos dados.

    Figura 13.8 Equação
    da população: Equação\(\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon\)
    estimada:\(C=b_{0}+b_{1} \text{lncome}+e\)

    Esta figura mostra a relação assumida entre consumo e renda a partir da teoria macroeconômica. Aqui, os dados são plotados como um gráfico de dispersão e uma linha reta estimada foi desenhada. Neste gráfico, podemos ver um termo de erro,\(e_1\). Cada ponto de dados também tem um termo de erro. Novamente, o termo de erro é colocado na equação para capturar efeitos no consumo que não são causados por mudanças de renda. Esses outros efeitos podem ser a poupança ou a riqueza de uma pessoa, ou períodos de desemprego. Veremos como, ao minimizar a soma desses erros, podemos obter uma estimativa da inclinação e interceptação dessa linha.

    Considere o gráfico abaixo. A notação voltou a ser essa para o modelo mais geral, e não para o caso específico da função de consumo macroeconômico em nosso exemplo.

    Figura 13.9

    O\(\hat{\mathrm{y}}\) é lido como \(\bf y\)chapéu” e é o valor estimado de\(\bf y\). (Na Figura 13.8\(\hat{C}\) representa o valor estimado do consumo porque está na linha estimada.) É o valor\(y\) obtido usando a linha de regressão. \(\hat{\mathrm{y}}\)geralmente não é igual aos\(y\) dados.

    O termo\(y_{0}-\hat{y}_{0}=e_{0}\) é chamado de “erro” ou residual. Não é um erro no sentido de um erro. O termo de erro foi colocado na equação de estimativa para capturar variáveis ausentes e erros na medição que podem ter ocorrido nas variáveis dependentes. O valor absoluto de um resíduo mede a distância vertical entre o valor real de\(y\) e o valor estimado de\(y\). Em outras palavras, ele mede a distância vertical entre o ponto de dados real e o ponto previsto na linha, como pode ser visto no gráfico no ponto\(X_0\).

    Se o ponto de dados observado estiver acima da linha, o resíduo será positivo e a linha subestima o valor real dos dados para\(y\).

    Se o ponto de dados observado estiver abaixo da linha, o resíduo será negativo e a linha superestima o valor real dos dados para\(y\).

    No gráfico,\(y_{0}-\hat{y}_{0}=e_{0}\) é o resíduo do ponto mostrado. Aqui, o ponto está acima da linha e o resíduo é positivo. Para cada ponto de dados, os resíduos, ou erros, são calculados\(y_{i}-\hat{y}_{i}=e_{i}\) para saber\(i = 1, 2, 3, ..., n\) onde\(n\) está o tamanho da amostra. Cada um\(|e|\) é uma distância vertical.

    A soma dos erros ao quadrado é o termo obviamente chamado de Soma dos Erros Quadrados (SSE).

    Usando o cálculo, você pode determinar a linha reta que tem os valores dos parâmetros de\(b_0\) e\(b_1\) que minimiza o SSE. Ao reduzir o SSE ao mínimo, você determinou os pontos que estão na linha de melhor ajuste. Acontece que a linha de melhor ajuste tem a equação:

    \[\hat{y}=b_{0}+b_{1} x\nonumber\]

    onde\(b_{0}=\overline{y}-b_{1} \overline{x}\) e\(b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}\)

    As médias amostrais dos\(x\) valores e dos\(y\) valores são\(\overline{x}\) e\(\overline{y}\), respectivamente. A linha de melhor ajuste sempre passa pelo ponto (\(\overline{y}\),\(\overline{x}\)) chamado de pontos de médias.

    A inclinação também\(b\) pode ser escrita como:

    \[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

    onde\(s_y\) = o desvio padrão dos\(y\) valores e\(s_x\) = o desvio padrão dos\(x\) valores e\(r\) é o coeficiente de correlação entre\(x\)\(y\) e.

    Essas equações são chamadas de Equações Normais e vêm de outra descoberta matemática muito importante chamada Teorema de Gauss-Markov, sem a qual não poderíamos fazer análises de regressão. O Teorema de Gauss-Markov nos diz que as estimativas que obtemos usando o método de regressão de mínimos quadrados ordinários (OLS) resultarão em estimativas que têm algumas propriedades muito importantes. No Teorema de Gauss-Markov, foi provado que uma reta de pelo menos quadrados é AZUL, que é, B est, L linear, U imparcial, estimulador E. Melhor é a propriedade estatística de que um estimador é aquele com a variância mínima. Linear se refere à propriedade do tipo de linha que está sendo estimada. Um estimador imparcial é aquele cuja função de estimativa tem uma média esperada igual à média da população. (Você se lembrará de que o valor esperado de\(\mu_{\overline{x}}\) era igual à média da população\(\mu\) de acordo com o Teorema do Limite Central. Esse é exatamente o mesmo conceito aqui).

    Tanto Gauss quanto Markov eram gigantes no campo da matemática, e Gauss na física também, no século XVIII e início do século XIX. Eles mal se sobrepuseram cronologicamente e nunca na geografia, mas o trabalho de Markov sobre esse teorema foi amplamente baseado no trabalho anterior de Carl Gauss. O extenso valor aplicado desse teorema teve que esperar até meados do século passado.

    Usando o método OLS, agora podemos encontrar a estimativa da variância do erro, que é a variância dos erros quadrados, e 2. Às vezes, isso é chamado de erro padrão da estimativa. (Gramaticalmente, isso provavelmente é melhor dito como a estimativa da variância do erro) A fórmula para a estimativa da variância do erro é:

    \[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

    onde\(\hat{y}\) é o valor previsto de\(y\) e\(y\) é o valor observado e, portanto, o termo\(\left(y_{i}-\hat{y}_{i}\right)^{2}\) é o quadrado dos erros que devem ser minimizados para encontrar as estimativas dos parâmetros da linha de regressão. Na verdade, essa é apenas a variância dos termos de erro e segue nossa fórmula de variância regular. Uma observação importante é que aqui estamos dividindo por\((n−k)\), que são os graus de liberdade. Os graus de liberdade de uma equação de regressão serão o número de observações\(n\), reduzido pelo número de parâmetros estimados, que inclui o intercepto como parâmetro.

    A variância dos erros é fundamental para testar hipóteses para uma regressão. Isso nos diz o quão “apertada” é a dispersão sobre a linha. Como veremos em breve, quanto maior a dispersão ao redor da linha, ou seja, quanto maior a variância dos erros, menos provável que a variável independente hipotética tenha um efeito significativo na variável dependente. Resumindo, a teoria que está sendo testada provavelmente falhará se a variância do termo de erro for alta. Depois de refletir, isso não deve ser uma surpresa. Ao testarmos hipóteses sobre uma média, observamos que grandes variâncias reduziram a estatística de teste calculada e, portanto, falharam em atingir a cauda da distribuição. Nesses casos, as hipóteses nulas não puderam ser rejeitadas. Se não pudermos rejeitar a hipótese nula em um problema de regressão, devemos concluir que a variável independente hipotética não tem efeito sobre a variável dependente.

    Uma forma de visualizar esse conceito é desenhar dois gráficos de dispersão\(x\) e\(y\) dados ao longo de uma linha predeterminada. O primeiro terá pouca variação dos erros, o que significa que todos os pontos de dados se aproximarão da linha. Agora faça o mesmo, exceto que os pontos de dados terão uma grande estimativa da variância do erro, o que significa que os pontos de dados estão amplamente espalhados ao longo da linha. Claramente, a confiança sobre uma relação entre\(x\) e\(y\) é afetada por essa diferença entre a estimativa da variância do erro.

    Testando os parâmetros da linha

    Todo o objetivo da análise de regressão era testar a hipótese de que a variável dependente,\(Y\), era de fato dependente dos valores das variáveis independentes, conforme afirmado por alguma teoria fundamental, como o exemplo da função de consumo. Observando a equação estimada na Figura 13.8, vemos que isso equivale a determinar os valores de\(b_0\)\(b_1\) e. Observe que, novamente, estamos usando a convenção das letras gregas para os parâmetros da população e as letras romanas para suas estimativas.

    O resultado da análise de regressão fornecido pelo software de computador produzirá uma estimativa de\(b_0\) e\(b_1\), e qualquer outra\(b\) para outras variáveis independentes que foram incluídas na equação estimada. A questão é quão boas são essas estimativas? Para testar uma hipótese sobre qualquer estimativa, descobrimos que precisamos conhecer a distribuição amostral subjacente. Não deve surpreender, em seu estágio do curso, que a resposta seja a distribuição normal. Isso pode ser visto lembrando a suposição de que o termo de erro na população,\(\epsilon\), é normalmente distribuído. Se o termo de erro for normalmente distribuído e a variância das estimativas dos parâmetros da equação,\(b_0\) e\(b_1\), forem determinadas pela variância do termo de erro, segue-se que as variâncias das estimativas dos parâmetros também são normalmente distribuídas. E, de fato, esse é exatamente o caso.

    Podemos ver isso criando a estatística de teste para o teste de hipótese para o parâmetro de inclinação,\(\beta_1\) em nossa equação da função de consumo. Para testar se realmente depende ou\(Y\) não de\(X\), ou em nosso exemplo, que o consumo depende da renda, precisamos apenas testar a hipótese que\(\beta_1\) é igual a zero. Essa hipótese seria declarada formalmente como:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{a} : \beta_{1} \neq 0\nonumber\]

    Se não pudermos rejeitar a hipótese nula, devemos concluir que nossa teoria não tem validade. Se não pudermos rejeitar a hipótese nula de que\(b_1\),\(\beta_1 = 0\) então, o coeficiente de renda é zero e zero vezes qualquer coisa é zero. Portanto, o efeito da renda no consumo é zero. Não há relacionamento como nossa teoria sugeriu.

    Observe que configuramos a presunção, a hipótese nula, como “sem relacionamento”. Isso coloca o ônus da prova na hipótese alternativa. Em outras palavras, se quisermos validar nossa alegação de encontrar um relacionamento, devemos fazê-lo com um nível de significância maior que 90, 95 ou 99 por cento. O status quo é ignorância, não existe relacionamento e, para podermos afirmar que realmente adicionamos ao nosso corpo de conhecimento, devemos fazê-lo com uma probabilidade significativa de estarmos corretos. John Maynard Keynes acertou e, assim, nasceu a economia keynesiana a partir desse conceito básico em 1936.

    A estatística do teste para este teste vem diretamente do nosso velho amigo, a fórmula de padronização:

    \[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

    onde\(b_1\) é o valor estimado da inclinação da linha de regressão,\(\beta_1\) é o valor hipotético de beta, neste caso zero, e\(S_{b_1}\) é o desvio padrão da estimativa de\(b_1\). Nesse caso, estamos perguntando quantos desvios padrão é a inclinação estimada em relação à inclinação hipotética. Essa é exatamente a mesma pergunta que fizemos antes com relação a uma hipótese sobre uma média: quantos desvios padrão é a média estimada, a média amostral, da média hipotética?

    A estatística do teste é escrita como uma distribuição t de estudante, mas se o tamanho da amostra for maior o suficiente para que os graus de liberdade sejam maiores que 30, poderemos usar novamente a distribuição normal. Para ver por que podemos usar o t do aluno ou a distribuição normal\(S_{b_1}\), precisamos apenas examinar a fórmula para o desvio padrão da estimativa de\(b_1\):

    \[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

    \[\text{or}\nonumber\]

    \[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

    Onde\(S_e\) está a estimativa da variância do erro e\(S^2_x\) é a variância dos\(x\) valores do coeficiente da variável independente que está sendo testada.

    Vemos que\(S_e\) a estimativa da variância do erro faz parte do cálculo. Como a estimativa da variância do erro é baseada na suposição de normalidade dos termos de erro, podemos concluir que a distribuição amostral dos\(b\)'s, os coeficientes de nossa linha de regressão hipotética, também são normalmente distribuídos.

    Uma última nota diz respeito aos graus de liberdade da estatística de teste,\(ν=n-k\). Anteriormente, subtraímos 1 do tamanho da amostra para determinar os graus de liberdade no problema t de um aluno. Aqui devemos subtrair um grau de liberdade para cada parâmetro estimado na equação. Para o exemplo da função de consumo, perdemos 2 graus de liberdade, um para\(b_0\), o intercepto e outro para\(b_1\) a inclinação da função de consumo. Os graus de liberdade seriam\(n - k - 1\), onde k é o número de variáveis independentes e a extra é perdida por causa da interceptação. Se estivéssemos estimando uma equação com três variáveis independentes, perderíamos 4 graus de liberdade: três para as variáveis independentes e mais um para o intercepto.\(k\)

    A regra de decisão para aceitação ou rejeição da hipótese nula segue exatamente a mesma forma de todos os nossos testes de hipóteses anteriores. Ou seja, se o valor calculado de\(t\) (ou\(Z\)) cair nas pontas da distribuição, onde as caudas são definidas pelo\(\alpha\) nível de significância exigido no teste, não podemos aceitar a hipótese nula. Se, por outro lado, o valor calculado da estatística de teste estiver dentro da região crítica, não podemos rejeitar a hipótese nula.

    Se concluirmos que não podemos aceitar a hipótese nula, poderemos afirmar com\((1−\alpha)\) nível de confiança que a inclinação da reta é dada por\(b_1\). Essa é uma conclusão extremamente importante. A análise de regressão não só nos permite testar se existe uma relação de causa e efeito, mas também podemos determinar a magnitude dessa relação, se for constatada a existência de uma. É esse recurso da análise de regressão que a torna tão valiosa. Se puderem ser desenvolvidos modelos com validade estatística, poderemos então simular os efeitos das mudanças nas variáveis que podem estar sob nosso controle com algum grau de probabilidade, é claro. Por exemplo, se for demonstrado que a publicidade afeta as vendas, podemos determinar os efeitos da alteração do orçamento de publicidade e decidir se o aumento das vendas vale a pena a despesa adicional.

    Multicolinearidade

    Nossa discussão anterior indicou que, como todos os modelos estatísticos, o modelo de regressão OLS tem suposições importantes anexadas. Cada suposição, se violada, afeta a capacidade do modelo de fornecer estimativas úteis e significativas. O Teorema de Gauss-Markov nos garantiu que as estimativas do OLS são imparciais e com variação mínima, mas isso é verdade somente sob as suposições do modelo. Aqui, veremos os efeitos nas estimativas do OLS se as variáveis independentes estiverem correlacionadas. As outras suposições e os métodos para mitigar as dificuldades que elas apresentam se forem violadas são examinados nos cursos de econometria. Adotamos a multicolinearidade porque ela é frequentemente predominante nos modelos econômicos e muitas vezes leva a resultados frustrantes.

    O modelo OLS pressupõe que todas as variáveis independentes são independentes umas das outras. Essa suposição é fácil de testar para uma amostra específica de dados com coeficientes de correlação simples. A correlação, como muitas outras estatísticas, é uma questão de grau: pouco não é bom e muita coisa é terrível.

    O objetivo da técnica de regressão é descobrir os impactos independentes de cada um conjunto de variáveis independentes em alguma variável dependente hipotética. Se duas duas variáveis independentes estão inter-relacionadas, ou seja, correlacionadas, então não podemos isolar os efeitos\(Y\) de uma da outra. Em um caso extremo em que\(x_1\) há uma combinação linear de\(x_2\), correlação igual a um, ambas as variáveis se movem de forma idêntica com\(Y\). Nesse caso, é impossível determinar a variável que é a verdadeira causa do efeito em\(Y\). (Se as duas variáveis estivessem realmente perfeitamente correlacionadas, matematicamente nenhum resultado de regressão poderia realmente ser calculado.)

    As equações normais para os coeficientes mostram os efeitos da multicolinearidade nos coeficientes.

    \[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

    A correlação entre\(x_1\) e\(x_2\)\(r_{x_{1} x_{2}}^{2}\),, aparece no denominador da fórmula de estimativa para\(b_1\)\(b_2\) e. Se a suposição de independência for válida, esse termo é zero. Isso indica que não há efeito da correlação no coeficiente. Por outro lado, à medida que a correlação entre as duas variáveis independentes aumenta, o denominador diminui e, assim, a estimativa do coeficiente aumenta. A correlação tem o mesmo efeito em ambos os coeficientes dessas duas variáveis. Em essência, cada variável está “tomando” parte do efeito em Y que deve ser atribuído à variável colinear. Isso resulta em estimativas tendenciosas.

    A multicolinearidade tem um impacto adicional deletério nas estimativas do OLS. A correlação entre as duas variáveis independentes também aparece nas fórmulas para a estimativa da variância dos coeficientes.

    \[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    Aqui, novamente, vemos a correlação entre\(x_1\) e\(x_2\) no denominador das estimativas da variância dos coeficientes de ambas as variáveis. Se a correlação for zero, conforme assumido no modelo de regressão, a fórmula colapsa para a razão familiar da variância dos erros em relação à variância da variável independente relevante. Se, no entanto, as duas variáveis independentes estiverem correlacionadas, a variância da estimativa do coeficiente aumenta. Isso resulta em um\(t\) valor menor para o teste da hipótese do coeficiente. Em resumo, a multicolinearidade resulta na falha em rejeitar a hipótese nula de que a\(X\) variável não tem impacto\(Y\) quando, de fato,\(X\) tem um impacto estatisticamente significativo sobre\(Y\). Dito de outra forma, os grandes erros padrão do coeficiente estimado criado pela multicolinearidade sugerem insignificância estatística mesmo quando a relação hipotética é forte.

    Quão boa é a equação?

    Na última seção, nos preocupamos em testar a hipótese de que a variável dependente realmente dependia da variável ou variáveis independentes hipotéticas. Pode ser que encontremos uma variável independente que tenha algum efeito sobre a variável dependente, mas ela pode não ser a única e pode nem mesmo ser a mais importante. Lembre-se de que o termo de erro foi colocado no modelo para capturar os efeitos de qualquer variável independente ausente. Conclui-se que o termo de erro pode ser usado para fornecer uma medida da “qualidade do ajuste” da equação tomada como um todo ao explicar a variação da variável dependente,\(Y\).

    O coeficiente de correlação múltipla, também chamado de coeficiente de determinação múltipla ou coeficiente de determinação, é dado pela fórmula:

    \[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

    onde SSR é a soma de regressão dos quadrados, o desvio quadrado do valor previsto do valor médio\(y\) de\(y(\hat{y}-\overline{y})\), e SST é a soma total. A Figura 13.10 mostra como o desvio total da variável dependente, y, é dividido nessas duas partes.

    Figura 13.10

    A Figura 13.10 mostra a linha de regressão estimada e uma única observação,\(x_1\). A análise de regressão tenta explicar a variação dos dados sobre o valor médio da variável dependente,\(y\). A questão é: por que as observações de y variam do nível médio de\(y\)? O valor de y na observação\(x_1\) varia da média de\(y\) pela diferença\(\left(y_{i}-\overline{y}\right)\). A soma dessas diferenças ao quadrado é SST, a soma dos quadrados totais. O valor real de\(y\) at\(x_1\) se desvia do valor estimado\(\hat{y}\),, pela diferença entre o valor estimado e o valor real,\(\left(y_{i}-\hat{y}\right)\). Lembramos que esse é o termo de erro, e, e a soma desses erros é SSE, soma dos erros quadrados. O desvio do valor previsto de\(y\),\(\hat y\), do valor médio de\(y\) é\((\hat{y}-\overline{y})\) e é a regressão SSR, soma dos quadrados. É chamada de “regressão” porque é o desvio explicado pela regressão. (Às vezes, o SSR é chamado de SSM para a soma dos quadrados médios porque mede o desvio do valor médio da variável dependente, y, conforme mostrado no gráfico.).

    Como o SST = SSR + SSE, vemos que o coeficiente de correlação múltipla é a porcentagem da variância, ou desvio\(y\) de seu valor médio, que é explicado pela equação quando considerado como um todo. \(R^2\)variará entre zero e 1, com zero indicando que nenhuma variação em\(y\) foi explicada pela equação e um valor de 1 indicando que 100% da variação em\(y\) foi explicada pela equação. Para estudos de séries temporais, espere uma alta\(R^2\) e, para dados transversais, espere uma baixa\(R^2\).

    Embora uma alta\(R^2\) seja desejável, lembre-se de que são os testes da hipótese sobre a existência de uma relação entre um conjunto de variáveis independentes e uma variável dependente específica que foram o fator motivador no uso do modelo de regressão. É validar uma relação de causa e efeito desenvolvida por alguma teoria que é a verdadeira razão pela qual escolhemos a análise de regressão. Aumentar o número de variáveis independentes terá o efeito de aumentar\(R^2\). Para explicar esse efeito, a medida adequada do coeficiente de determinação é a\(\overline{R}^{2}\), ajustada para graus de liberdade, para evitar a adição irracional de variáveis independentes.

    Não há teste estatístico para o\(R^2\) e, portanto, pouco pode ser dito sobre o modelo usado\(R^2\) com nosso nível de confiança característico. Dois modelos que têm o mesmo tamanho de SSE, ou seja, a soma dos quadrados dos erros, podem ser muito diferentes\(R^2\) se os modelos concorrentes tiverem SST diferente, soma total dos desvios quadrados. A qualidade do ajuste dos dois modelos é a mesma; ambos têm a mesma soma dos quadrados inexplicáveis, erros ao quadrado, mas devido à maior soma total dos quadrados em um dos modelos, a\(R^2\) diferença é. Novamente, o valor real da regressão como ferramenta é examinar hipóteses desenvolvidas a partir de um modelo que prediz certas relações entre as variáveis. Esses são testes de hipóteses sobre os coeficientes do modelo e não um jogo de maximização\(R^2\).

    Outra forma de testar a qualidade geral do modelo geral é testar os coeficientes como um grupo e não de forma independente. Como essa é uma regressão múltipla (mais de um X), usamos o teste F para determinar se nossos coeficientes afetam coletivamente Y. A hipótese é:

    \(H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0\)

    \(H_a\): “pelo menos um dos não\(\beta_i\) é igual a 0"

    Se a hipótese nula não puder ser rejeitada, concluímos que nenhuma das variáveis independentes contribui para explicar a variação em\(Y\). Analisando a Figura 13.10, vemos que o SSR, a soma explicada dos quadrados, é uma medida de quanto da variação\(Y\) é explicada por todas as variáveis no modelo. SSE, a soma dos erros ao quadrado, mede o quanto é inexplicável. Conclui-se que a proporção desses dois pode nos fornecer um teste estatístico do modelo como um todo. Lembrando que a\(F\) distribuição é uma razão das distribuições do Qui quadrado e que as variâncias são distribuídas de acordo com o Qui Quadrado, e a soma dos erros ao quadrado e a soma dos quadrados são ambas variâncias, temos a estatística de teste para essa hipótese como:

    \[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

    onde\(n\) é o número de observações e\(k\) é o número de variáveis independentes. Pode-se mostrar que isso é equivalente a:

    \[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

    Figura 13.10 onde\(R^2\) está o coeficiente de determinação que também é uma medida da “bondade” do modelo.

    Como em todos os nossos testes de hipótese, chegamos a uma conclusão comparando a\(F\) estatística calculada com o valor crítico, dado nosso nível de confiança desejado. Se a estatística de teste calculada, uma\(F\) estatística nesse caso, estiver na cauda da distribuição, não podemos aceitar a hipótese nula. Por não sermos capazes de aceitar as hipóteses nulas, concluímos que essa especificação desse modelo tem validade, pois pelo menos um dos coeficientes estimados é significativamente diferente de zero.

    Uma forma alternativa de chegar a essa conclusão é usar a regra de comparação do valor p. O\(p\) valor -é a área na cauda, dada a\(F\) estatística calculada. Em essência, o computador está encontrando o\(F\) valor na tabela para nós. A saída de regressão computacional para a\(F\) estatística calculada é normalmente encontrada na seção da tabela ANOVA chamada “significância F”. Como ler a saída de uma regressão do Excel é apresentado abaixo. Essa é a probabilidade de NÃO aceitar uma hipótese nula falsa. Se essa probabilidade for menor do que nosso erro alfa predeterminado, a conclusão é que não podemos aceitar a hipótese nula.

    Variáveis fictícias

    Até agora, a análise da técnica de regressão do OLS pressupôs que as variáveis independentes nos modelos testados eram variáveis aleatórias contínuas. No entanto, não há restrições no modelo de regressão contra variáveis independentes que são binárias. Isso abre o modelo de regressão para testar hipóteses sobre variáveis categóricas como sexo, raça, região do país, antes de determinados dados, após uma determinada data e inúmeros outros. Essas variáveis categóricas assumem apenas dois valores, 1 e 0, sucesso ou fracasso, da distribuição binomial de probabilidade. A forma da equação se torna:

    \[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

    Figura 13.11

    onde\(x_2=0\). \(X_2\)é a variável fictícia e\(X_1\) é uma variável aleatória contínua. A constante,\(b_0\), é o intercepto y, o valor em que a linha cruza o\(y\) eixo y. Quando o valor de\(X_2 = 0\), a linha estimada cruza em\(b_0\). Quando o valor de\(X_2 = 1\) então, a linha estimada cruza em\(b_0 + b_2\). Na verdade, a variável fictícia faz com que a linha estimada mude para cima ou para baixo pelo tamanho do efeito da característica capturada pela variável fictícia. Observe que esta é uma simples mudança paralela e não afeta o impacto da outra variável independente;\(X_1\) .Esta variável é uma variável aleatória contínua e prevê valores diferentes de,\(y\) em valores diferentes,\(X_1\) mantendo constante a condição da variável fictícia.

    Um exemplo do uso de uma variável fictícia é o trabalho que estima o impacto do gênero nos salários. Há um corpo completo de literatura sobre esse tópico e variáveis fictícias são usadas extensivamente. Para este exemplo, os salários dos professores do ensino fundamental e médio de um determinado estado são examinados. Usar uma categoria de trabalho homogênea, professores e para um único estado reduz muitas das variações que afetam naturalmente os salários, como risco físico diferencial, custo de vida em um determinado estado e outras condições de trabalho. A equação de estimativa em sua forma mais simples especifica o salário em função de várias características do professor que a teoria econômica sugeriria que poderiam afetar o salário. Isso incluiria o nível de educação como uma medida de produtividade potencial, idade e/ou experiência para capturar o treinamento no trabalho, novamente como uma medida de produtividade. Como os dados são para professores empregados em distritos escolares públicos, em vez de trabalhadores de uma empresa com fins lucrativos, a receita média do distrito escolar por frequência média diária de estudantes é incluída como uma medida de capacidade de pagamento. Os resultados da análise de regressão usando dados de 24.916 professores da escola são apresentados abaixo.

    Variável Coeficientes de regressão (b) Erros padrão das estimativas
    para a função de ganhos do professor (sb)
    Interceptar 4269,9
    Sexo (masculino = 1) 632,38 13,39
    Total de anos de experiência 52,32 1,10
    Anos de experiência no distrito atual 29,97 1,52
    Educação 629.33 13,16
    Receita total por ADA 90,24 3,76
    \(\overline{R}^{2}\) .725
    \(n\) 24.916
    Tabela 13.1 Estimativa de rendimentos para professores do ensino fundamental e médio

    Os coeficientes para todas as variáveis independentes são significativamente diferentes de zero, conforme indicado pelos erros padrão. A divisão dos erros padrão de cada coeficiente resulta em um valor t maior que 1,96, que é o nível necessário para 95% de significância. A variável binária, nossa variável fictícia de interesse nesta análise, é o gênero, onde o homem recebe um valor de 1 e o feminino recebe um valor de 0. O coeficiente é significativamente diferente de zero com uma estatística t dramática de 47 desvios padrão. Portanto, não podemos aceitar a hipótese nula de que o coeficiente é igual a zero. Portanto, concluímos que há um prêmio pago por professores do sexo masculino de $632 após possuírem experiência constante, educação e a riqueza do distrito escolar em que o professor está empregado. É importante observar que esses dados são de algum tempo atrás e os $632 representam um prêmio salarial de seis por cento na época. Um gráfico desse exemplo de variáveis fictícias é apresentado abaixo.

    Figura 13.12

    Em duas dimensões, o salário é a variável dependente no eixo vertical e o total de anos de experiência foi escolhido para a variável independente contínua no eixo horizontal. Qualquer uma das outras variáveis independentes poderia ter sido escolhida para ilustrar o efeito da variável fictícia. A relação entre o total de anos de experiência tem uma inclinação de $52,32 por ano de experiência e a linha estimada tem um intercepto de $4.269 se a variável gênero for igual a zero, para mulheres. Se a variável gênero for igual a 1, para homens, o coeficiente para a variável gênero é adicionado ao intercepto e, portanto, a relação entre o total de anos de experiência e o salário é deslocada para cima paralelamente, conforme indicado no gráfico. Também estão marcados no gráfico vários pontos de referência. Uma professora com 10 anos de experiência recebe um salário de $4.792 apenas com base em sua experiência, mas isso ainda é $109 a menos do que um professor do sexo masculino com zero anos de experiência.

    Uma interação mais complexa entre uma variável fictícia e a variável dependente também pode ser estimada. Pode ser que a variável fictícia tenha mais do que um simples efeito de deslocamento na variável dependente, mas também interaja com uma ou mais das outras variáveis independentes contínuas. Embora não tenha sido testado no exemplo acima, pode-se hipotetizar que o impacto do gênero no salário não foi uma mudança única, mas também impactou o valor de anos adicionais de experiência sobre o salário. Ou seja, os salários das professoras foram descontados no início e, além disso, não cresceram na mesma proporção com o efeito da experiência que os dos professores do sexo masculino. Isso apareceria como uma inclinação diferente para a relação entre o total de anos de experiência para homens e mulheres. Nesse caso, as professoras não começariam apenas atrás de seus colegas do sexo masculino (conforme medido pela mudança na linha de regressão estimada), mas ficariam cada vez mais para trás à medida que o tempo e a experiência aumentassem.

    O gráfico abaixo mostra como essa hipótese pode ser testada com o uso de variáveis fictícias e uma variável de interação.

    Figura 13.13

    A equação de estimativa mostra como a inclinação de\(X_1\), a experiência contínua da variável aleatória, contém duas partes,\(b_1\)\(b_3\) e. Isso ocorre porque a nova variável\(X_2\)\(X_1\), chamada de variável de interação, foi criada para permitir um efeito na inclinação\(X_1\) das mudanças na\(X_2\) variável binária fictícia. Observe que quando a variável fictícia,\(X_2 = 0\) a variável de interação tem um valor de 0, mas quando\(X_2 = 1\) a variável de interação tem um valor de\(X_1\). O coeficiente\(b_3\) é uma estimativa da diferença no coeficiente de\(X_1\) quando\(X_2= 1\) comparado com quando\(X_2 = 0\). No exemplo dos salários dos professores, se houver um prêmio pago a professores do sexo masculino que afete a taxa de aumento dos salários por experiência própria, a taxa na qual os salários dos professores do sexo masculino aumentam seria\(b_1 + b_3\) e a taxa na qual os salários das professoras aumentam seria simples\(b_1\). Essa hipótese pode ser testada com a hipótese:

    \[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

    \[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

    Este é um\(t\) teste -usando a estatística de teste para o parâmetro\(\beta_3\). Se não pudermos aceitar a hipótese nula de que\(\beta_3=0\) concluímos que há uma diferença entre a taxa de aumento para o grupo para o qual o valor da variável binária está definido como 1, homens neste exemplo. Esta equação de estimativa pode ser combinada com a anterior. A Figura 13.13 é desenhada para este caso, com uma mudança na função de ganhos e uma diferença na inclinação da função em relação ao total de anos de experiência.

    Exemplo 13.5

    Uma amostra aleatória de 11 estudantes de estatística produziu os seguintes dados, onde x é a pontuação do terceiro exame em 80 e y é a pontuação final do exame de 200. Você pode prever a pontuação final do exame de um aluno selecionado aleatoriamente se souber a pontuação do terceiro exame?

    Tabela mostrando as pontuações do exame final com base nas notas do terceiro exame.
    \(x\)(nota do terceiro exame) \(y\)(nota final do exame)
    65 175
    67 133
    71 185
    71 163
    66 126
    75 198
    67 153
    70 163
    71 159
    69 151
    69 159
    Tabela 13.2
    Este é um gráfico de dispersão dos dados fornecidos. A pontuação do terceiro exame é plotada no eixo x e a pontuação final do exame é plotada no eixo y. Os pontos formam um padrão linear forte, positivo.

    Figura 13.14 Gráfico de dispersão mostrando as pontuações do exame final com base nas pontuações do terceiro exame.