Skip to main content
Global

13.6:使用回归方程进行预测

  • Page ID
    204950
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    估计回归方程的一个重要值是它能够预测自变量的一个或多个值的变化所产生的影响。\(Y\) 它的价值是显而易见的。 如果不估计可能产生的影响,就无法制定谨慎的政策。 事实上,对特定结果的渴望推动了大多数政策的形成。 回归模型可以而且已经成为制定此类政策的宝贵帮助。

    高斯-马尔科夫定理向我们保证,通过在方程中输入想要模拟的自变量的假设值而得出的对因变量的影响的点估计值将得出最小方差且无偏差的因变量的估计值。 也就是说,给定值为,这个方程可以得出 y 的最佳无偏点估计值\(x\)

    \[\hat{y}=b_{0}+b, X_{1 i}+\cdots+b_{k} X_{k i}\nonumber\]

    请记住,点估计值不具有特定的概率水平或置信度,因为点没有 “宽度”,高于该宽度就有需要测量的面积。 这就是我们之前为均值和比率制定置信区间的原因。 这里也出现了同样的担忧。 实际上,有两种不同的方法来计算因变量上自变量或变量的变化估计值的问题。 第一种方法希望通过以下值的特定变化来测量 y 的预期平均\(x\):这个特定值意味着预期值。 这里的问题是:在这个特定下进行\(y\)多次假设实验\(y\)会对此产生什么影响\(x\)。 请记住,围绕的估计参数存在差异\(x\),因此每个实验对的预测值的估计值都会略有不同\(y\)

    估计 x 的特定值对 y 的影响的第二种方法将事件视为单个实验:选择 x 并将其乘以系数,这样就可以得出 y 的单一估计值。因为这种方法的作用好像存在单个实验,所以参数中存在的方差估计值大于与预期值方法相关的方差。

    结论是,我们有两种不同的方法来预测自变量的值对因变量的影响,因此我们有两个不同的区间。 两者都是所问问题的正确答案,但有两个不同的问题。 为了避免混淆,我们要求估计均值的预期值的第一种情况称为置信区间\(y\),正如我们之前所说的那样。 第二种情况,即我们要求使用值来估计单个实验对因变量 y 的影响\(x\),这种情况称为预测间隔。 这两个区间测量的检验统计量是,其估计值\(y\)将落在内:

    \[\text { Confidence Interval for Expected Value of Mean Value of y for } \mathrm{x}=\mathrm{x}_{\mathrm{p}}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    \[\text { Prediction Interval for an Individual y for } x=x_{p}\nonumber\]

    \[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{1+\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

    其中,\(s_e\)是误差项的标准差,\(s_x\)\(x\)变量的标准差。

    这两个检验统计量的数学计算很复杂。 各种计算机回归软件包在 Figure 的回归函数中提供程序\(\PageIndex{15}\)

    图 13.15 回归方程的预测和置信区间;95% 置信水平。

    该图直观地\(\PageIndex{15}\)显示了标准差在估计间隔大小上产生的差异。 用于测量因变量的预期值的置信区间小于相同置信水平的预测区间。 预期值法假设实验是多次进行的,而不是像其他方法那样只进行一次。 这里的逻辑与使用中心极限定理确定样本数量和置信区间关系时所讨论的逻辑相似,尽管不完全相同。 在那里,随着实验数量的增加,分布变窄,置信区间在平均值的预期值附近变得更紧张。

    同样重要的是要注意,无论使用哪种方法进行预测,围绕点估计值的间隔都高度依赖于用于估计方程的数据范围。 请记住,所有回归方程都经过均值点,即方程中所有自变量的均值和平均值。\(y\) 由于\(x\)选择用于估计关联值的值距离平均点更远,\(y\)因此图周围的估计间隔的宽度\(\PageIndex{16}\)显示了这种关系。

    图 13.16 置信水平为 95% 的\(x\)单个值的置信区间\(X_p\)

    该图\(\PageIndex{16}\)显示了对估计区间质量的关注,无论它是预测区间还是置信区间。 由于\(X_p\)在图表中选择预测\(y\)的值离数据的中心权重更远,因此即使置信水平保持不变\(\overline X\),我们也会看到区间的宽度在扩大。 这表明,当人们试图预测超过最大数据权重时,任何估计的精度都会降低,而且对于超出数据范围的预测,肯定会迅速降低。 不幸的是,这正是大多数预测所需要的。 它们是可以生成的,但是置信区间的宽度可能太大,以至于预测变得毫无用处。 但是,只有实际计算和特定的应用程序才能确定这一点。

    示例\(\PageIndex{6}\)

    回想一下第三次考试/期末考试的例子

    我们发现最适合期末考试成绩的方程式与第三次考试成绩的函数关系。 现在,我们可以使用最小二乘回归线进行预测。 假设的系数\(X\)被确定为与零有显著差异。

    假设你想估计或预测统计学学生在第三次考试中获得 73 分的平均期末考试分数。 考试分数\(\bf x\)-值)介于 65 到 75 之间。 由于 73 介于 x 值 65 和 75 之间,因此我们可以轻松地\(x = 73\)将其替换为方程式。 然后:

    \[\hat{y}=-173.51+4.83(73)=179.08\nonumber\]

    我们预测,在第三次考试中获得73分的统计专业学生在期末考试中的平均成绩为179.08分。

    a. 你预测第三次考试得分 66 的学生的期末考试分数是多少?

    回答

    解决方案 13.6

    a. 145.27

    b. 你预测第三次考试得分 90 的学生的期末考试分数是多少?

    回答

    解决方案 13.6

    b. 数据中的\(x\)值介于 65 和 75 之间。 九十超出了数据中\(x\)观测值的范围(自变量),因此您无法可靠地预测该学生的期末考试分数。 (尽管可以在方程中输入 90\(x\) 并计算出相应的\(y\)值,但您得到的\(y\)值的置信区间可能没有意义。)

    要真正了解预测在数据中\(x\)观测到的值之外有多不可靠,请在方程中\(x = 90\)进行替换。

    \(\hat{y}=-173.51+4.83(90)=261.19\)

    期末考试分数预计为261.19。 期末考试的最大分数为 200。