Skip to main content
Global

13.6 : Prédiction à l'aide d'une équation de régression

  • Page ID
    191745
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    L'une des valeurs importantes d'une équation de régression estimée est sa capacité à prévoir les effets\(Y\) d'une modification d'une ou de plusieurs valeurs des variables indépendantes. La valeur de cette approche est évidente. Une politique prudente ne peut être élaborée sans une estimation des effets qui peuvent en résulter. En effet, c'est le désir d'obtenir des résultats particuliers qui sous-tend l'élaboration de la plupart des politiques. Les modèles de régression peuvent être, et ont été, des outils inestimables pour l'élaboration de telles politiques.

    Le théorème de Gauss-Markov nous assure que l'estimation ponctuelle de l'impact sur la variable dépendante dérivée en plaçant dans l'équation les valeurs hypothétiques des variables indépendantes que l'on souhaite simuler aboutira à une estimation de la variable dépendante qui est une variance minimale et non biaisée. C'est-à-dire que de cette équation provient la meilleure estimation ponctuelle non biaisée de y étant donné les valeurs de\(x\).

    \[\hat{y}=b_{0}+b, X_{1 i}+\cdots+b_{k} X_{k i}\nonumber\]

    N'oubliez pas que les estimations ponctuelles n'ont pas de niveau de probabilité ou de confiance particulier, car les points n'ont pas de « largeur » au-dessus de laquelle se trouve une zone à mesurer. C'est pourquoi nous avons développé des intervalles de confiance pour la moyenne et la proportion plus tôt. La même préoccupation se pose ici également. Il existe en fait deux approches différentes pour élaborer des estimations des variations de la variable indépendante, ou des variables, par rapport à la variable dépendante. La première approche vise à mesurer la valeur moyenne attendue de y à partir d'une variation spécifique de la valeur de\(x\) : cette valeur spécifique implique la valeur attendue. La question est la suivante : quel est l'impact moyen\(y\) qui résulterait de multiples expériences hypothétiques\(y\) sur cette valeur spécifique de\(x\). N'oubliez pas qu'il existe une variance autour du paramètre estimé de\(x\) et que chaque expérience aboutira donc à une estimation légèrement différente de la valeur prédite de\(y\).

    La deuxième approche, qui permet d'estimer l'effet d'une valeur spécifique de x sur y, traite l'événement comme une expérience unique : vous choisissez x et vous le multipliez par le coefficient, ce qui donne une estimation unique de y. Comme cette approche agit comme s'il y avait une seule expérience, la variance qui existe dans le paramètre l'estimation est supérieure à la variance associée à l'approche de la valeur attendue.

    La conclusion est que nous avons deux manières différentes de prédire l'effet des valeurs des variables indépendantes sur la variable dépendante et que nous avons donc deux intervalles différents. Les deux sont des réponses correctes à la question posée, mais il y a deux questions différentes. Pour éviter toute confusion, le premier cas où nous demandons la valeur attendue de la moyenne de l'estimation est appelé intervalle de confiance\(y\), comme nous l'avons déjà nommé. Le second cas, dans lequel nous demandons l'estimation de l'impact sur la variable dépendante y d'une seule expérience en utilisant une valeur de\(x\), est appelé intervalle de prédiction. Les statistiques de test pour ces deux mesures d'intervalle dans lesquelles se situe la valeur estimée de\(y\) will sont les suivantes :

    \[\text { Confidence Interval for Expected Value of Mean Value of y for } \mathrm{x}=\mathrm{x}_{\mathrm{p}}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    \[\text { Prediction Interval for an Individual y for } x=x_{p}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{1+\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    \(s_e\) est l'écart type du terme d'erreur et\(s_x\) l'écart type de la\(x\) variable.

    Les calculs mathématiques de ces deux statistiques de test sont complexes. Divers logiciels de régression informatique fournissent des programmes au sein des fonctions de régression de Figure\(\PageIndex{15}\).

    Figure 13.15 Prédiction et intervalles de confiance pour l'équation de régression ; niveau de confiance de 95 %.

    La figure\(\PageIndex{15}\) montre visuellement la différence que l'écart type fait dans la taille des intervalles estimés. L'intervalle de confiance, qui mesure la valeur attendue de la variable dépendante, est inférieur à l'intervalle de prédiction pour le même niveau de confiance. La méthode des valeurs attendues suppose que l'expérience est réalisée plusieurs fois plutôt qu'une seule fois comme dans l'autre méthode. La logique ici est similaire, mais pas identique, à celle discutée lors de l'élaboration de la relation entre la taille de l'échantillon et l'intervalle de confiance à l'aide du théorème de la limite centrale. À mesure que le nombre d'expériences augmentait, la distribution se rétrécissait et l'intervalle de confiance se resserrait autour de la valeur attendue de la moyenne.

    Il est également important de noter que les intervalles autour d'une estimation ponctuelle dépendent fortement de la gamme de données utilisées pour estimer l'équation, quelle que soit l'approche utilisée pour la prévision. N'oubliez pas que toutes les équations de régression passent par le point de moyenne, c'est-à-dire la valeur moyenne\(y\) et les valeurs moyennes de toutes les variables indépendantes de l'équation. Comme la valeur de\(x\) choisie pour estimer la valeur associée de\(y\) est plus éloignée du point de moyenne, la largeur de l'intervalle estimé autour de la figure\(\PageIndex{16}\) montre cette relation.

    Figure 13.16 Intervalle de confiance pour une valeur individuelle de\(x\),\(X_p\), à un niveau de confiance de 95 %

    La figure\(\PageIndex{16}\) montre les préoccupations relatives à la qualité de l'intervalle estimé, qu'il s'agisse d'un intervalle de prédiction ou d'un intervalle de confiance. Comme la valeur choisie pour prédire\(y\),\(X_p\) dans le graphique, est plus éloignée du poids central des données\(\overline X\), nous voyons l'intervalle s'étendre en largeur tout en maintenant un niveau de confiance constant. Cela montre que la précision de toute estimation diminuera à mesure que l'on essaie de prévoir au-delà de la plus grande pondération des données et qu'elle se dégradera très certainement rapidement pour les prévisions dépassant la plage des données. Malheureusement, c'est exactement là que la plupart des prévisions sont souhaitées. Elles peuvent être effectuées, mais la largeur de l'intervalle de confiance peut être suffisamment grande pour rendre la prédiction inutile. Toutefois, seuls le calcul réel et l'application particulière peuvent le déterminer.

    Exemple\(\PageIndex{6}\)

    Rappelez-vous l'exemple du troisième examen/de l'examen final.

    Nous avons trouvé l'équation de la courbe la mieux adaptée pour la note de l'examen final en fonction de la note du troisième examen. Nous pouvons désormais utiliser la droite de régression par les moindres carrés pour la prédiction. Supposons que le coefficient pour\(X\) a été déterminé comme étant significativement différent de zéro.

    Supposons que vous souhaitiez estimer ou prédire la note finale moyenne des étudiants en statistique qui ont obtenu 73 points au troisième examen. Les notes (\(\bf x\)valeurs) de l'examen vont de 65 à 75. Puisque 73 se situe entre les valeurs x 65 et 75, nous sommes à l'aise pour le remplacer\(x = 73\) dans l'équation. Ensuite :

    \[\hat{y}=-173.51+4.83(73)=179.08\nonumber\]

    Nous prévoyons que les étudiants en statistiques qui obtiennent la note de 73 au troisième examen obtiendront en moyenne 179,08 points à l'examen final.

    a. Quel sera, selon vous, la note finale d'un étudiant qui a obtenu 66 points au troisième examen ?

    Réponse

    Solution 13.6

    a. 145,27

    b. Quel sera, selon vous, la note finale à l'examen d'un étudiant qui a obtenu une note de 90 au troisième examen ?

    Réponse

    Solution 13.6

    b. Les\(x\) valeurs des données sont comprises entre 65 et 75. Ninety ne fait pas partie du domaine des\(x\) valeurs observées dans les données (variable indépendante), de sorte que vous ne pouvez pas prédire de manière fiable le score final de cet étudiant à l'examen. (Même s'il est possible de saisir 90 dans l'équation\(x\) et de calculer une\(y\) valeur correspondante, la\(y\) valeur que vous obtenez aura un intervalle de confiance qui peut ne pas être significatif.)

    Pour vraiment comprendre à quel point la prédiction peut être peu fiable en dehors des\(x\) valeurs observées dans les données, effectuez la substitution\(x = 90\) dans l'équation.

    \(\hat{y}=-173.51+4.83(90)=261.19\)

    Le score de l'examen final devrait être de 261,19. La note maximale que l'examen final peut atteindre est de 200.