Skip to main content
Global

13.11: Como usar o Microsoft Excel® para análise de regressão

  • Page ID
    186888
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Esta seção deste capítulo está aqui em reconhecimento de que o que estamos perguntando agora requer muito mais do que um cálculo rápido de uma proporção ou raiz quadrada. De fato, o uso da análise de regressão era quase inexistente antes de meados do século passado e não se tornou realmente uma ferramenta amplamente usada até talvez no final dos anos 1960 e início dos anos 1970. Mesmo assim, a capacidade computacional até mesmo das maiores máquinas IBM é ridícula para os padrões atuais. Nos primeiros dias, os programas eram desenvolvidos pelos pesquisadores e compartilhados. Não havia mercado para algo chamado “software” e certamente nada chamado “aplicativos”, um participante no mercado com apenas alguns anos de idade.

    Com o advento do computador pessoal e a explosão de um mercado vital de software, temos vários pacotes de regressão e análise estatística para escolher. Cada um tem seus méritos. Escolhemos o Microsoft Excel devido à ampla disponibilidade nos campi universitários e no mercado pós-universitário. O Stata é uma alternativa e tem características que serão importantes para um estudo econométrico mais avançado se você optar por seguir esse caminho. Existem pacotes ainda mais avançados, mas normalmente exigem que o analista faça uma quantidade significativa de programação para conduzir sua análise. O objetivo desta seção é demonstrar como usar o Excel para executar uma regressão e, em seguida, fazer isso com um exemplo de uma versão simples de uma curva de demanda.

    O primeiro passo para fazer uma regressão usando o Excel é carregar o programa em seu computador. Se você tiver o Excel, você tem o Analysis ToolPak, embora talvez não o tenha ativado. O programa consome uma quantidade significativa de espaço, portanto, não é carregado automaticamente.

    Para ativar o Analysis ToolPak, siga estas etapas:

    Clique em “Arquivo” > “Opções” > “Suplementos” para abrir um menu do complemento “ToolPaks”. Selecione “Analysis ToolPak” e clique em “GO” ao lado de “Gerenciar: complementos do Excel” na parte inferior da janela. Isso abrirá uma nova janela na qual você clica em “Ferramentas de análise” (verifique se há uma marca de seleção verde na caixa) e, em seguida, clique em “OK”. Agora, deve haver uma guia Análise no menu de dados. Essas etapas são apresentadas nas seguintes capturas de tela.

    Figura\(\PageIndex{17}\)

    Figura\(\PageIndex{18}\)

    Figura\(\PageIndex{19}\)

    Figura\(\PageIndex{20}\)

    Clique em “Dados” e depois em “Análise de dados” e, em seguida, clique em “Regressão” e “OK”. Parabéns, você chegou à janela de regressão. A janela solicita suas entradas. Clicar na caixa ao lado dos\(X\) intervalos\(Y\) e permitirá que você use o recurso de clicar e arrastar do Excel para selecionar seus intervalos de entrada. O Excel tem uma peculiaridade estranha: o recurso de clicar e soltar exige que as variáveis independentes, as\(X\) variáveis, estejam todas juntas, o que significa que elas formam uma única matriz. Se seus dados estiverem configurados com a\(Y\) variável entre duas colunas de\(X\) variáveis, o Excel não permitirá que você clique e arraste. Como exemplo, digamos que a coluna A e a coluna C sejam variáveis independentes e a coluna B seja a\(Y\) variável, a variável dependente. O Excel não permitirá que você clique e solte os intervalos de dados. A solução é mover a coluna com a\(Y\) variável para a coluna A e, em seguida, você pode clicar e arrastar. O mesmo problema surge novamente se você quiser executar a regressão com apenas algumas das\(X\) variáveis. Você precisará configurar a matriz para que todas as\(X\) variáveis que você deseja regredir estejam em uma matriz bem formada. Essas etapas são apresentadas nas seguintes cenas.

    Figura\(\PageIndex{21}\)

    Figura 13.22

    Depois de selecionar os dados para sua análise de regressão e informar ao Excel qual é a variável dependente (\(Y\)) e quais são os valores independentes, você tem várias opções quanto aos parâmetros e como a saída será exibida.\(X\) Consulte a figura de captura de tela na\(\PageIndex{22}\) seção “Entrada”. Se você marcar a caixa “rótulos”, o programa colocará a entrada na primeira coluna de cada variável como seu nome na saída. Você pode inserir um nome real, como preço ou renda em uma análise de demanda, na primeira linha da planilha do Excel para cada variável e ele será exibido na saída.

    O nível de significância também pode ser definido pelo analista. Isso não alterará a estatística t calculada, chamada t stat, mas alterará o valor p da estatística t calculada. Também alterará os limites dos intervalos de confiança dos coeficientes. Um intervalo de confiança de 95 por cento é sempre apresentado, mas com uma mudança nisso, você também obterá outros níveis de confiança para os intervalos.

    O Excel também permitirá que você suprima a interceptação. Isso força o programa de regressão a minimizar a soma residual dos quadrados sob a condição de que a linha estimada passe pela origem. Isso é feito nos casos em que não há significado no modelo em algum valor diferente de zero, zero no início da linha. Um exemplo é uma função de produção econômica que é uma relação entre o número de unidades de uma entrada, digamos horas de trabalho, e a produção. Não há significado de produção positiva com zero trabalhadores.

    Depois que os dados forem inseridos e as escolhas forem feitas, clique em OK e os resultados serão enviados para uma nova planilha separada por padrão. A saída do Excel é apresentada de uma forma típica de outros programas de pacotes de regressão. O primeiro bloco de informações fornece as estatísticas gerais da regressão: múltipla\(R\),\(R\) quadrada e o\(R\) quadrado ajustado para graus de liberdade, que é o que você deseja relatar. Você também obtém o erro padrão (da estimativa) e o número de observações na regressão.

    O segundo bloco de informações é intitulado ANOVA, que significa Análise de Variância. Nosso interesse nesta seção é a coluna marcada\(F\). Essa é a\(F\) estatística calculada para a hipótese nula de que todos os coeficientes são iguais a zero versus a alternativa de que pelo menos um dos coeficientes não é igual a zero. Este teste de hipótese foi apresentado em 13.4 em “Quão boa é a equação?” A próxima coluna fornece o valor p para esse teste sob o título “Significância F”. Se o valor p for menor que, digamos, 0,05 (a\(F\) estatística calculada está na cauda), podemos dizer com 90% de confiança que não podemos aceitar as hipóteses nulas de que todos os coeficientes são iguais a zero. Isso é bom: significa que pelo menos um dos coeficientes é significativamente diferente de zero, portanto, afeta o valor de\(Y\).

    O último bloco de informações contém os testes de hipóteses para o coeficiente individual. Os coeficientes estimados, o intercepto e as inclinações, são listados primeiro e, em seguida, cada erro padrão (do coeficiente estimado) seguido pela estatística t (estatística t de estudante calculada para a hipótese nula de que o coeficiente é igual a zero). Comparamos a estatística t e o valor crítico do t do aluno, dependendo dos graus de liberdade, e determinamos se temos evidências suficientes para rejeitar o nulo sobre o qual a variável não tem efeito\(Y\). Lembre-se de que configuramos a hipótese nula como status quo e nossa afirmação de que sabemos o que causou\(Y\) a mudança está na hipótese alternativa. Queremos rejeitar o status quo e substituir nossa versão do mundo, a hipótese alternativa. A próxima coluna contém os valores de p para esse teste de hipótese, seguidos pelo limite superior e inferior estimado do intervalo de confiança do parâmetro de inclinação estimado para vários níveis de confiança definidos por nós no início.

    Estimando a demanda por rosas

    Aqui está um exemplo de como usar o programa Excel para executar uma regressão para um caso específico: estimar a demanda por rosas. Estamos tentando estimar uma curva de demanda, que, pela teoria econômica, esperamos que certas variáveis afetem a quantidade de um bem que compramos. A relação entre o preço de um bem e a quantidade demandada é a curva de demanda. Além disso, temos a função de demanda que inclui outras variáveis relevantes: a renda de uma pessoa, o preço dos produtos substitutos e talvez outras variáveis, como a estação do ano ou o preço dos produtos complementares. A quantidade exigida será nossa\(Y\) variável, e o preço das rosas, o preço dos cravos e a renda serão nossas variáveis independentes, as\(X\) variáveis.

    Para todas essas variáveis, a teoria nos diz a relação esperada. Para o preço do bem em questão, rosas, a teoria prevê uma relação inversa, a curva de demanda inclinada negativamente. A teoria também prevê a relação entre a quantidade exigida de um bem, aqui rosas, e o preço de um substituto, os cravos neste exemplo. A teoria prevê que essa deve ser uma relação positiva ou direta; à medida que o preço do substituto cai, substituímos as rosas pelo substituto mais barato, os cravos. Uma redução no preço do substituto gera uma redução na demanda pelo bem que está sendo analisado, rosas aqui. A redução gera redução é uma relação positiva. Para bens normais, a teoria também prevê uma relação positiva; à medida que nossa renda aumenta, compramos mais do bem, rosas. Esperamos esses resultados porque isso é o que é previsto por cem anos de teoria e pesquisa econômica. Essencialmente, estamos testando essas hipóteses centenárias. Os dados coletados foram determinados pelo modelo que está sendo testado. Esse deve ser sempre o caso. Não se está fazendo estatísticas inferenciais jogando uma montanha de dados em um computador e pedindo à máquina uma teoria. Primeiro, a teoria segue o teste.

    Esses dados aqui são os preços médios nacionais e a renda é a renda pessoal per capita do país. A quantidade exigida é o total de vendas anuais nacionais de rosas. Esses são dados anuais de séries temporais; estamos acompanhando o aumento do mercado nos Estados Unidos de 1984-2017, 33 observações.

    Devido à forma peculiar como o Excel exige como os dados são inseridos no pacote de regressão, é melhor ter as variáveis independentes, o preço das rosas, o preço dos cravos e a renda lado a lado na planilha. Depois que seus dados são inseridos na planilha, é sempre bom examiná-los. Examine o intervalo, as médias e os desvios padrão. Use sua compreensão das estatísticas descritivas desde a primeira parte deste curso. Em grandes conjuntos de dados, você não poderá “escanear” os dados. O Analysis ToolPac facilita a obtenção do intervalo, da média, dos desvios padrão e de outros parâmetros das distribuições. Você também pode obter rapidamente as correlações entre as variáveis. Examine os valores atípicos. Revise a história. Aconteceu alguma coisa? Houve uma greve trabalhista, mudança nas taxas de importação, algo que torna essas observações incomuns? Não pegue os dados sem questionar. Pode ter ocorrido um erro de digitação em algum lugar, quem sabe sem avaliação.

    Vá para a janela de regressão, insira os dados e selecione o nível de confiança de 95% e clique em “OK”. Você pode incluir os rótulos no intervalo de entrada se tiver colocado um título na parte superior de cada coluna, mas não se esqueça de clicar na caixa “rótulos” na página principal de regressão se fizer isso.

    A saída da regressão deve aparecer automaticamente em uma nova planilha.

    Figura\(\PageIndex{23}\)

    Os primeiros resultados apresentados são o R-Square, uma medida da força da correlação entre\(Y\) e\(X_1\),\(X_2\), e\(X_3\) tomado como um grupo. Nosso quadrado R aqui de 0,699, ajustado para graus de liberdade, significa que 70% da variação em Y, demanda por rosas, pode ser explicada por variações em\(X_1\),\(X_2\), e\(X_3\), Preço das rosas, Preço dos cravos e Renda. Não há teste estatístico para determinar a “significância” de um\(R^2\). É claro que o mais alto\(R^2\) é o preferido, mas na verdade é o significado dos coeficientes que determinará o valor da teoria que está sendo testada e que se tornará parte de qualquer discussão política se for demonstrado que eles são significativamente diferentes de zero.

    Olhando para o terceiro painel de saída, podemos escrever a equação como:

    \[Y=b_{0}+b_{1} X_{1}+b_{2} X_{2}+b_{3} X_{3}+e\nonumber\]

    onde\(b_0\) está o intercepto,\(b_1\) é o coeficiente estimado sobre o preço das rosas, e b 2 é o coeficiente estimado sobre o preço dos cravos,\(b_3\) é o efeito estimado da renda e é o termo de erro. A equação é escrita em letras romanas indicando que esses são os valores estimados e não os parâmetros da população,\(\beta\)'s.

    Nossa equação estimada é:

    \[\text { Quantity of roses sold }=183,475-1.76 \text { Price of roses }+1.33 \text { Price of carnations }+3.03 \text { Income }\nonumber\]

    Primeiro, observamos que os sinais dos coeficientes são os esperados da teoria. A curva de demanda está inclinada para baixo com o sinal negativo do preço das rosas. Além disso, os sinais do preço dos cravos e dos coeficientes de renda são positivos, como seria de esperar da teoria econômica.

    A interpretação dos coeficientes pode nos dizer a magnitude do impacto de uma mudança em cada variável na demanda por rosas. É a capacidade de fazer isso que torna a análise de regressão uma ferramenta tão valiosa. Os coeficientes estimados nos dizem que um aumento no preço das rosas em um dólar levará a uma redução de 1,76 no número de rosas compradas. O preço dos cravos parece desempenhar um papel importante na demanda por rosas, pois vemos que aumentar o preço dos cravos em um dólar aumentaria a demanda por rosas em 1,33 unidades, já que os consumidores substituiriam os cravos agora mais caros. Da mesma forma, aumentar a renda per capita em um dólar levará a um aumento de 3,03 unidades nas rosas compradas.

    Esses resultados estão de acordo com as previsões da teoria econômica em relação às três variáveis incluídas nesta estimativa da demanda por rosas. É importante ter primeiro uma teoria que preveja a significância ou pelo menos a direção dos coeficientes. Sem uma teoria para testar, essa ferramenta de pesquisa não é muito mais útil do que os coeficientes de correlação que aprendemos anteriormente.

    No entanto, não podemos parar por aí. Precisamos primeiro verificar se nossos coeficientes são estatisticamente significativos a partir de zero. Estabelecemos uma hipótese de:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{\mathrm{a}} : \beta_{1} \neq 0\nonumber\]

    para todos os três coeficientes na regressão. Lembre-se de que não poderemos dizer definitivamente que nossa estimativa\(b_1\) é a população real real de\(\beta_1\), mas apenas que, com o\((1-\alpha) \%\) nível de confiança, não podemos rejeitar a hipótese nula de que nossa estimativa\(\beta_1\) é significativamente diferente de zero. O analista afirma que o preço das rosas causa um impacto na quantidade exigida. De fato, cada uma das variáveis incluídas tem um impacto na quantidade de rosas exigidas. A alegação está, portanto, nas hipóteses alternativas. Será necessária uma probabilidade muito grande, 0,95 neste caso, para derrubar a hipótese nula, o status quo, isso\(\beta = 0\). Em todos os testes de hipóteses de regressão, a afirmação está na alternativa e a alegação é que a teoria encontrou uma variável que tem um impacto significativo na\(Y\) variável.

    A estatística de teste para esta hipótese segue a fórmula de padronização familiar que conta o número de desvios padrão\(t\),, que o valor estimado do parâmetro\(b_1\),, está longe do valor hipotético\(\beta_0\),, que é zero neste caso:

    \[t_{c}=\frac{b_{1}-\beta_{0}}{S_{b_{1}}}\nonumber\]

    O computador calcula essa estatística de teste e a apresenta como “t stat”. Você pode encontrar esse valor à direita do erro padrão da estimativa do coeficiente. O erro padrão do coeficiente para\(b_1\) está\(S_{b_1}\) na fórmula. Para chegar a uma conclusão, comparamos essa estatística de teste com o valor crítico do aluno\(t\) em graus de liberdade\(n-3-1 =29\) e alfa = 0,025 (nível de significância de 5% para um teste bicaudal). Nossa\(t\) estatística para\(b_1\) é de aproximadamente 5,90, que é maior que 1,96 (o valor crítico que pesquisamos na tabela t), então não podemos aceitar nossas hipóteses nulas de nenhum efeito. Concluímos que o preço tem um efeito significativo porque o valor t calculado está na cauda. Realizamos o mesmo teste para b2 e b3. Para cada variável, descobrimos que não podemos aceitar a hipótese nula de nenhuma relação porque as estatísticas t calculadas estão na cauda para cada caso, ou seja, maiores que o valor crítico. Foi determinado que todas as variáveis dessa regressão têm um efeito significativo na demanda por rosas.

    Esses testes nos dizem se um coeficiente individual é significativamente diferente de zero, mas não abordam a qualidade geral do modelo. Vimos que o R quadrado ajustado para graus de liberdade indica que esse modelo com essas três variáveis explica 70% da variação na quantidade de rosas exigida. Também podemos realizar um segundo teste do modelo como um todo. Esse é o\(F\) teste apresentado na seção 13.4 deste capítulo. Como essa é uma regressão múltipla (mais de um X), usamos o\(F\) -test para determinar se nossos coeficientes afetam coletivamente\(Y\). A hipótese é:

    \[H_{0} : \beta_{1}=\beta_{2}=\ldots=\beta i=0\nonumber\]

    \[H_a: "\text{at least one of the} \beta_i \text{ is not equal to 0}"\nonumber\]

    Na seção ANOVA da saída, encontramos a\(F\) estatística calculada para essas hipóteses. Para este exemplo, a\(F\) estatística é 21,9. Novamente, comparar a\(F\) estatística calculada com o valor crítico, dado o nível de significância desejado e os graus de liberdade, nos permitirá chegar a uma conclusão.

    A melhor maneira de chegar a uma conclusão para esse teste estatístico é usar a regra de comparação do valor p. O valor p é a área na cauda, dada a\(F\) estatística calculada. Em essência, o computador está encontrando o\(F\) valor na tabela para nós e calculando o valor p. Na saída resumida em “significância F” está essa probabilidade. Neste exemplo, calcula-se que é 2,6\(X\) 10-5 ou 2,6 e, em seguida, movendo as cinco casas decimais para a esquerda. (.000026) Esse é um nível de probabilidade quase infinitesimal e certamente é menor do que nosso nível alfa de 0,05 para um nível de significância de 5%.

    Por não sermos capazes de aceitar as hipóteses nulas, concluímos que essa especificação desse modelo tem validade porque pelo menos um dos coeficientes estimados é significativamente diferente de zero. Como\(F\) -calculado é maior do que\(F\) -crítico, não podemos aceitar H0, o que significa que\(X_1\),\(X_2\)\(X_3\) juntos, tem um efeito significativo sobre\(Y\).

    O desenvolvimento de máquinas de computação e de softwares úteis para pesquisas acadêmicas e empresariais possibilitaram responder perguntas que, há poucos anos, nem sequer conseguíamos formular. Os dados estão disponíveis em formato eletrônico e podem ser transferidos para análise de formas e velocidades inimagináveis há uma década. A grande magnitude dos conjuntos de dados que hoje podem ser usados para pesquisa e análise nos dá uma qualidade de resultados maior do que nos dias anteriores. Mesmo com apenas uma planilha do Excel, podemos realizar pesquisas de alto nível. Esta seção fornece as ferramentas para conduzir algumas dessas pesquisas muito interessantes, com o único limite sendo sua imaginação.