Skip to main content
Global

13.6: Prevendo com uma equação de regressão

  • Page ID
    186885
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Um valor importante de uma equação de regressão estimada é sua capacidade de prever os efeitos\(Y\) de uma mudança em um ou mais valores das variáveis independentes. O valor disso é óbvio. Uma política cuidadosa não pode ser feita sem estimativas dos efeitos que podem resultar. De fato, é o desejo de resultados específicos que impulsiona a formação da maioria das políticas. Modelos de regressão podem ser, e têm sido, ajudas inestimáveis na formação de tais políticas.

    O teorema de Gauss-Markov nos garante que a estimativa pontual do impacto na variável dependente derivada ao colocar na equação os valores hipotéticos das variáveis independentes que se deseja simular resultará em uma estimativa da variável dependente que é variância mínima e imparcial. Isso quer dizer que dessa equação vem a melhor estimativa pontual imparcial de y dados os valores de\(x\).

    \[\hat{y}=b_{0}+b, X_{1 i}+\cdots+b_{k} X_{k i}\nonumber\]

    Lembre-se de que as estimativas de pontos não têm um determinado nível de probabilidade ou nível de confiança, porque os pontos não têm “largura” acima da qual há uma área a ser medida. Foi por isso que desenvolvemos intervalos de confiança para a média e a proporção mais cedo. A mesma preocupação surge aqui também. Na verdade, existem duas abordagens diferentes para a questão do desenvolvimento de estimativas de mudanças na variável independente, ou variáveis, na variável dependente. A primeira abordagem deseja medir o valor médio esperado de y a partir de uma mudança específica no valor de\(x\): esse valor específico implica o valor esperado. Aqui a questão é: qual é o impacto médio sobre\(y\) isso resultaria de vários experimentos hipotéticos\(y\) nesse valor específico de\(x\). Lembre-se de que há uma variação em torno do parâmetro estimado de\(x\) e, portanto, cada experimento resultará em uma estimativa um pouco diferente do valor previsto de\(y\).

    A segunda abordagem para estimar o efeito de um valor específico de x em y trata o evento como um único experimento: você escolhe x e o multiplica pelo coeficiente, o que fornece uma estimativa única de y. Porque essa abordagem age como se houvesse um único experimento, a variância que existe no parâmetro. a estimativa é maior do que a variância associada à abordagem do valor esperado.

    A conclusão é que temos duas maneiras diferentes de prever o efeito dos valores da (s) variável (s) independente (s) na variável dependente e, portanto, temos dois intervalos diferentes. Ambas são respostas corretas para a pergunta que está sendo feita, mas há duas perguntas diferentes. Para evitar confusão, o primeiro caso em que solicitamos o valor esperado da média da estimativa é chamado de intervalo de confiança\(y\), como chamamos esse conceito anteriormente. O segundo caso, em que solicitamos a estimativa do impacto na variável dependente y de um único experimento usando um valor de\(x\), é chamado de intervalo de predição. As estatísticas de teste para essas duas medidas de intervalo dentro das quais o valor estimado de\(y\) cairá são:

    \[\text { Confidence Interval for Expected Value of Mean Value of y for } \mathrm{x}=\mathrm{x}_{\mathrm{p}}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    \[\text { Prediction Interval for an Individual y for } x=x_{p}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{1+\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    Onde\(s_e\) é o desvio padrão do termo de erro e\(s_x\) é o desvio padrão da\(x\) variável.

    Os cálculos matemáticos dessas duas estatísticas de teste são complexos. Vários pacotes de software de regressão de computador fornecem programas dentro das funções de regressão da Figura\(\PageIndex{15}\).

    Figura 13.15 Intervalos de predição e confiança para a equação de regressão; nível de confiança de 95%.

    A figura\(\PageIndex{15}\) mostra visualmente a diferença que o desvio padrão faz no tamanho dos intervalos estimados. O intervalo de confiança, medindo o valor esperado da variável dependente, é menor do que o intervalo de predição para o mesmo nível de confiança. O método do valor esperado pressupõe que o experimento seja conduzido várias vezes, em vez de apenas uma vez, como no outro método. A lógica aqui é semelhante, embora não idêntica, à discutida ao desenvolver a relação entre o tamanho da amostra e o intervalo de confiança usando o Teorema do Limite Central. Lá, à medida que o número de experimentos aumentou, a distribuição diminuiu e o intervalo de confiança ficou mais estreito em torno do valor esperado da média.

    Também é importante observar que os intervalos em torno de uma estimativa pontual são altamente dependentes da faixa de dados usada para estimar a equação, independentemente de qual abordagem esteja sendo usada para predição. Lembre-se de que todas as equações de regressão passam pelo ponto das médias, ou seja, o valor médio\(y\) e os valores médios de todas as variáveis independentes na equação. Como o valor\(x\) escolhido para estimar o valor associado de\(y\) está mais distante do ponto de média, a largura do intervalo estimado em torno da Figura\(\PageIndex{16}\) mostra essa relação.

    Figura 13.16 Intervalo de confiança para um valor individual de\(x\),\(X_p\), com nível de confiança de 95%

    A figura\(\PageIndex{16}\) demonstra a preocupação com a qualidade do intervalo estimado, seja ele um intervalo de predição ou um intervalo de confiança. Como o valor escolhido para prever\(y\),\(X_p\) no gráfico, está mais distante do peso central dos dados\(\overline X\), vemos o intervalo se expandir em largura, mesmo mantendo constante o nível de confiança. Isso mostra que a precisão de qualquer estimativa diminuirá à medida que se tenta prever além do maior peso dos dados e, certamente, se degradará rapidamente para previsões além do alcance dos dados. Infelizmente, é exatamente aqui que a maioria das previsões é desejada. Eles podem ser feitos, mas a largura do intervalo de confiança pode ser tão grande que torna a previsão inútil. No entanto, somente o cálculo real e a aplicação específica podem determinar isso.

    Exemplo\(\PageIndex{6}\)

    Lembre-se do exemplo do terceiro exame/exame final.

    Encontramos a equação da linha mais adequada para a nota do exame final em função da nota do terceiro exame. Agora podemos usar a linha de regressão de mínimos quadrados para predição. Suponha que o coeficiente para\(X\) foi determinado como significativamente diferente de zero.

    Suponha que você queira estimar ou prever a pontuação média do exame final dos estudantes de estatística que receberam 73 no terceiro exame. As pontuações do exame (\(\bf x\)-valores) variam de 65 a 75. Como 73 está entre os valores de x 65 e 75, nos sentimos confortáveis\(x = 73\) em substituir a equação. Então:

    \[\hat{y}=-173.51+4.83(73)=179.08\nonumber\]

    Prevemos que os estudantes de estatística que obtiverem uma nota de 73 no terceiro exame obterão uma nota de 179,08 no exame final, em média.

    a. Qual seria a pontuação do exame final para um aluno que obteve 66 pontos no terceiro exame?

    Resposta

    Solução 13.6

    a. 145,27

    b. Qual seria a pontuação do exame final para um aluno que obteve 90 pontos no terceiro exame?

    Resposta

    Solução 13.6

    b. Os\(x\) valores nos dados estão entre 65 e 75. Noventa está fora do domínio dos\(x\) valores observados nos dados (variável independente), portanto, você não pode prever com segurança a pontuação final do exame para esse aluno. (Embora seja possível inserir 90 na equação\(x\) e calcular um\(y\) valor correspondente, o\(y\) valor obtido terá um intervalo de confiança que pode não ser significativo.)

    Para entender realmente o quão pouco confiável a previsão pode estar fora dos\(x\) valores observados nos dados, faça a substituição\(x = 90\) na equação.

    \(\hat{y}=-173.51+4.83(90)=261.19\)

    A pontuação do exame final está prevista em 261,19. A maior pontuação possível no exame final é 200.