Skip to main content
Global

13.4: 回归方程

  • Page ID
    204964
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    回归分析是一种统计技术,可以检验变量依赖于一个或多个其他变量的假设。 此外,回归分析可以估计一个变量的变化对另一个变量的影响程度。 当然,最后一个功能对于预测未来价值非常重要。

    回归分析基于变量之间的函数关系,此外,假设该关系是线性的。 这种线性度假设是必要的,因为在大多数情况下,数学家和计量经济学家尚未很好地计算出非线性估计的理论统计特性。 这给我们在经济分析中带来了一些困难,因为我们的许多理论模型都是非线性的。 例如,如果我们要相信劳动力专业化和边际产品递减定律的影响,边际成本曲线绝对是非线性的,总成本函数也是如此。 有一些方法可以克服其中一些困难,例如数据的指数变换和对数变换,但一开始我们必须认识到,标准普通最小二乘 (OLS) 回归分析将始终使用线性函数来估计可能是非线性的关系。

    一般线性回归模型可以用以下方程表示:

    \[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

    哪里\(\beta_0\)是截距,\(\beta_i\)'s 是介于\(Y\)和相应之间的斜率\(X_i\),而且\(\epsilon\)(发音为 epsilon)是误差项,用于捕捉方程中缺少的任何变量的测量误差\(Y\)和对\(Y\)方程中缺失的任何变量的影响有助于解释变体\(Y\)。 该方程是理论上的总体方程,因此使用希腊字母。 我们将估计的方程将使用罗马等效符号。 这与我们之前跟踪总体参数和样本参数的方式相似。 总体均值的符号为,样本均值的符号为\(\overline{X}\),总体标准差的符号为\(\sigma\),样本标准差的符号为\(s\)\(\mu\) 因此,使用两个自变量的数据样本估算的方程将为:

    \[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

    与我们之前的概率分布研究一样,该模型只有在某些假设成熟的情况下才起作用。 它们\(Y\)是正态分布,误差也是正态分布,均值为零,标准差恒定,误差项与大小无关\(X\)且彼此独立。

    普通最小二乘回归模型的假设

    这些假设中的每一个都需要更多的解释。 如果其中一个假设不成立,则会对估计值的质量产生影响。 这些假设的某些错误是可以修复的,而另一些则得出的估计值完全无法洞察模型想要回答的问题,或者更糟糕的是,给出了有偏见的估计。

    1. 自变量都是在无误差的情况下测量的,并且是与误差项无关的固定数字。\(x_i\) 这个假设实际上是说确定性的,\(Y\)是固定分量 “\(X\)” 和随机误差分量 “” 的结果\(\epsilon\)
    2. 误差项是一个随机变量,其平均值为零且方差恒定。 这意味着自变量的方差与变量的值无关。 以个人收入与购买商品数量之间的关系为例,说明方差取决于自变量收入的价值。 有道理的是,随着收入的增加,购买金额的差异也将增加,这仅仅是因为更高的收入水平提供了灵活性。 假设相对于称为 homoscedasticity 的自变量的大小恒定方差。 如果假设失败,则称为异方差性。 图 13.6 显示了 homoscedasticity 的案例,无论其幅度\(Y\)如何,所有三个分布在预测值周围都有相同的方差\(X\)
    3. 虽然自变量都是固定值,但它们来自正态分布的概率分布。 在图 13.6 中,这可以通过放置在预测线上的分布形状来看出,相关值的预期值\(Y\)
    4. 自变量独立于其他变量\(Y\),但也被假定为独立于其他\(X\)变量。 该模型旨在根据拟议的理论估计自变量对某些因变量的影响。 一些或多个自变量相互关联的情况并不少见。 自变量之间可能没有因果关系,但尽管如此,它们还是一起移动。 以简单的供应曲线为例,从理论上讲,供应量与产品价格和投入价格有关。 随着时间的推移,可能会有多种投入从总体通货膨胀压力中共同移动。 因此,投入价格将违反回归分析的这一假设。 这种情况称为多重共线性,稍后将详细讨论。
    5. 误差项彼此不相关。 这种情况源于另一个错误项对一个错误项的影响。 虽然不完全是时间序列问题,但我们最常看到的是这种情况。 时间段一中的\(X\)变量会对\(Y\)变量产生影响,但这种影响会在下一个时间段内生效。 这种效应产生了错误项之间的关系。 这种情况称为自相关,“自相关”。 错误项现在不相互独立,而是对后续错误项有自己的影响。

    图 13.6 并未显示回归模型的所有假设,但它有助于可视化这些重要的假设。

    图 13.6

    图 13.7

    这是最常被称为多元回归模型的通用形式。 所谓的 “简单” 回归分析只有一个独立(右边)变量,而不是许多自变量。 简单回归只是多元回归的一个特例。 从简单回归开始有一些价值:二维图表很容易,很难用三维绘图,而且不可能在三维以上的图表中绘制。 因此,我们的图表将适用于简单的回归案例。 图 13.7 以数据集的散点图形式显示了回归问题,其中假设回归问题依赖\(Y\)于单个自变量\(X\)

    宏观经济原理中的一个基本关系是消费函数。 这种理论关系表明,随着个人收入的增加,他们的消费也会增加,但幅度小于收入的增长。 如果在图 13.7 下方的方程中\(Y\)是消费和\(X\)收入,则回归问题首先是确定这种关系的存在,其次是确定收入变化对个人消费的影响。 该参数\(\beta_1\)被称为 “宏观经济学原理中的边际消费倾向”。

    图 13.7 中的每个 “点” 代表不同个人在某个时间点的消费和收入。 以前这被称为横截面数据;对不同人群或其他测量单位在某一时间点的变量进行观测。 这种分析通常使用时间序列数据来完成,这些数据将是一个人或一个国家在不同时间点的消费和收入。 对于宏观经济问题,通常使用整个国家的时间序列汇总数据。 对于这个特殊的理论概念,这些数据很容易在总统经济顾问委员会的年度报告中获得。

    图 13.8。 回归分析有时被称为 “最小二乘法” 分析,因为确定哪条线最好 “拟合” 数据的方法是最大限度地减少穿过数据的直线的残差平方和。

    图 13.8
    人口方程:\(\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon\)
    估计方程:\(C=b_{0}+b_{1} \text{lncome}+e\)

    这个数字显示了宏观经济理论中消费和收入之间的假定关系。 这里的数据绘制为散点图,并绘制了一条估计的直线。 从这张图中我们可以看到一个误差项\(e_1\)。 每个数据点也有一个错误项。 同样,将误差项放入方程式中,以反映不是由收入变化引起的对消费的影响。 此类其他影响可能是个人的储蓄或财富,或者是失业期。 我们将看看如何通过最大限度地减少这些误差的总和来估计这条线的斜率和截距。

    请看下面的图表。 对于更通用的模型,该表示法已恢复到该表示法,而不是我们示例中宏观经济消费函数的具体案例。

    图 13.9

    \(\hat{\mathrm{y}}\)\(\bf y\)帽子”,是的估计值\(\bf y\)。 (在图 13.8 中,\(\hat{C}\)表示消费的估计值,因为它在估计线上。) 它是使用回归线\(y\)获得的值。 \(\hat{\mathrm{y}}\)通常不等于\(y\)来自数据。

    该术语\(y_{0}-\hat{y}_{0}=e_{0}\)称为 “误差” 或残差。 从错误的意义上讲,这不是错误。 将误差项放入估计方程中,以捕获因变量中可能出现的缺失变量和测量误差。 残差的绝对值用于衡量实际值与的\(y\)估计值之间的垂直距离\(y\)。 换句话说,它测量的是实际数据点和线上预测点之间的垂直距离,如图表上所示\(X_0\)

    如果观测到的数据点位于线上方,则残差为正,该线低估了的实际数据值\(y\)

    如果观测到的数据点位于线下方,则残差为负,并且该线高估了实际数据值\(y\)

    在图中,\(y_{0}-\hat{y}_{0}=e_{0}\)是所示点的残差。 这里的点位于直线的上方,残差为正。 对于每个数据点,根据样本数量计算\(y_{i}-\hat{y}_{i}=e_{i}\)残差或误差。\(i = 1, 2, 3, ..., n\)\(n\) 每个距离都\(|e|\)是一个垂直距离。

    误差的平方和这个术语显然被称为误差平方和 (SSE)

    使用微积分,您可以确定参数值为\(b_0\)且最小化 SSE\(b_1\) 的直线。 当你将 SSE 设为最小值时,你已经确定了最适合线上的点。 事实证明,最佳拟合线有以下方程式:

    \[\hat{y}=b_{0}+b_{1} x\nonumber\]

    在哪里\(b_{0}=\overline{y}-b_{1} \overline{x}\)\(b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}\)

    值的样本均\(x\)\(\overline{x}\)值和\(y\)值分别为和。\(\overline{y}\) 最佳拟合线始终穿过称为均值点的点 (\(\overline{y}\),\(\overline{x}\))。

    斜率\(b\)也可以写成:

    \[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

    其中\(s_y\) =\(y\) 值的标准差,\(s_x\)=\(x\) 值的标准差,\(r\)\(x\)和之间的相关系数\(y\)

    这些方程被称为正态方程,来自另一个非常重要的数学发现,称为高斯-马尔科夫定理,没有它我们就无法进行回归分析。 高斯-马尔科夫定理告诉我们,使用普通最小二乘法 (OLS) 回归法得出的估计值将得出具有一些非常重要属性的估计值。 在高斯-马尔可夫定理中,证明最小二乘线是蓝色,即 B est、L inear、U nbiena d、E stimator。 最佳是统计属性,即估计器是具有最小方差的估计器。 线性是指被估计线类型的属性。 无偏估计器是指其估计函数的预期均值等于总体均值的估计值。 (你会记得,根据中心极限定理,的预期值等于总体均值。\(\mu_{\overline{x}}\)\(\mu\) 这里的概念完全相同)。

    在18世纪和19世纪初,高斯和马尔可夫都是数学领域的巨人,高也是物理学领域的巨人。 它们几乎没有按时间顺序重叠,在地理上也从未重叠,但是马尔可夫关于这个定理的研究在很大程度上基于卡尔·高斯早期的著作。 这个定理的广泛应用价值不得不等到上个世纪中叶。

    使用 OLS 方法,我们现在可以找到误差方差的估计值,即误差平方的方差 e 2。 这有时被称为估计值的标准误差。 (从语法上讲,最好将其称为误差方差的估计值)误差方差估计值的公式是:

    \[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

    其中\(\hat{y}\)是预测值\(y\)\(y\)是观测值,因此该项\(\left(y_{i}-\hat{y}_{i}\right)^{2}\)是计算回归线参数估计值时应最小化的误差平方。 这实际上只是误差项的方差,遵循我们的正则方差公式。 一个重要的注意事项是,这里我们除以\((n−k)\),即自由度。 回归方程的自由度将是观测值的数量\(n\),减去估计参数的数量,其中包括作为参数的截距。

    误差的方差是检验回归假设的基础。 它告诉我们分散线有多 “紧密”。 正如我们稍后将看到的那样,直线周围的离散越大,这意味着误差的方差越大,发现假设的自变量对因变量产生显著影响的可能性就越小。 简而言之,如果误差项的方差很大,则所测试的理论更有可能失败。 经过反思,这应该不足为奇。 当我们检验有关均值的假设时,我们观察到大方差会减少计算出的检验统计量,因此它未能达到分布的尾部。 在这些情况下,无法否定原假设。 如果我们无法否定回归问题中的原假设,则必须得出结论,假设的自变量对因变量没有影响。

    可视化这个概念的一种方法是沿着预定线绘制\(x\)\(y\)数据的两个散点图。 第一个数据点的误差很小,这意味着所有数据点都将靠近直线。 现在做同样的事情,除了数据点会有很大的误差方差估计值,这意味着数据点沿线广泛分散。 显然,\(x\)\(y\)之间关系的可信度是由误差方差估计值之间的差异影响的。

    测试线路的参数

    回归分析的全部目标是检验这样的假设,即因变量实际上依赖于某些基础理论(例如消耗函数示例)所断言的自变量的值。\(Y\) 查看图 13.8 下的估计方程,我们发现这等于确定\(b_0\)和的值\(b_1\)。 请注意,我们再次使用希腊字母的惯例作为人口参数,使用罗马字母的惯例进行估计。

    计算机软件提供的回归分析输出将生成\(b_0\)和的估计值\(b_1\),以及估计方程中包含的其他自变量的任何其他估计值。\(b\) 问题在于这些估计值有多好? 为了检验有关任何估计值的假设,我们发现我们需要知道潜在的抽样分布。 在他的课程阶段,答案将是正态分布也就不足为奇了。 记住总体中的误差项为正态分布的假设可以看出这一点。\(\epsilon\) 如果误差项为正态分布且方程参数估计值的方差由误差项的方差确定,则参数估计值的方差也是正态分布的。\(b_0\)\(b_1\) 实际上,情况就是这样。

    我们可以通过在消耗函数方程中为斜率参数的假设检验创建检验统计\(\beta_1\)量来看出这一点。 要检验消费是否\(Y\)确实依赖于收入\(X\),或者在我们的例子中,消费是否取决于收入,我们只需要检验\(\beta_1\)等于零的假设。 这个假设将正式陈述为:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{a} : \beta_{1} \neq 0\nonumber\]

    如果我们不能否定原假设,我们必须得出结论,我们的理论没有效力。 如果我们不能否定原假设,那\(\beta_1 = 0\)\(b_1\),收入系数为零,零乘以任何值都为零。 因此,收入对消费的影响为零。 正如我们的理论所暗示的那样,没有任何关系。

    请注意,我们已经将假设(原假设)设置为 “无关系”。 这使备选假设承担了举证责任。 换句话说,如果我们要证实我们关于寻找关系的主张,那么我们这样做的重要程度必须大于90%、95%或99%。 现状是无知,不存在任何关系,为了能够宣称我们实际上已经增加了我们的知识体系,我们必须在这样做时有很大的可能性是正确的。 约翰·梅纳德·凯恩斯说对了,因此在1936年诞生了凯恩斯主义经济学,从这个基本概念开始。

    这个测试的检验统计数据直接来自我们的老朋友标准化公式:

    \[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

    其中\(b_1\)是回归线斜率的估计值,\(\beta_1\)是 beta 的假设值,在本例中为零,\(S_{b_1}\)是估计值的标准差\(b_1\)。 在本例中,我们要问的是,估计的斜率与假设斜率相差有多少标准差。 这与我们之前提出的关于均值的假设的问题完全相同:估计均值(样本均值)与假设均值之间有多少标准差?

    检验统计量写成学生的 t 分布,但如果样本数量足够大,自由度大于 30,我们可以再次使用正态分布。 要了解为什么我们可以使用学生的 t 或正态分布\(S_{b_1}\),我们只需要看一下估计值的标准差公式\(b_1\)

    \[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

    \[\text{or}\nonumber\]

    \[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

    其中\(S_e\)是误差方差的估计\(x\)值,\(S^2_x\)是正在测试的自变量系数值的方差。

    我们看到\(S_e\)误差方差的估计是计算的一部分。 由于误差方差的估计是基于误差项的正态性假设,因此我们可以得出结论,即我们假设回归线的系数的抽样分布,也是正态分布的。\(b\)

    最后一个注意事项涉及检验统计量的自由度\(ν=n-k\)。 之前我们从样本数量中减去 1 以确定学生 t 问题中的自由度。 在这里,我们必须为方程中估计的每个参数减去一个自由度。 以消耗函数为例,我们失去 2 个自由度\(b_0\),一个用于截距,另一个用于\(b_1\)消耗函数的斜率。 自由度为\(n - k - 1\),其中 k 是自变量的数量,额外的自由度会因为截距而丢失。 如果我们估计一个包含三个自变量的方程,我们将失去 4 个自由度:三个用于自变量\(k\),另外一个自由度用于截距。

    接受或拒绝原假设的决策规则遵循与我们之前所有假设检验中的形式完全相同。 也就是说,如果\(t\)(或\(Z\))的计算值落入分布的尾部,其中尾部由\(\alpha\)检验中所需的显著性水平定义,则我们不能接受原假设。 另一方面,如果检验统计量的计算值在临界区域内,则我们无法否定原假设。

    如果我们得出结论认为我们不能接受原假设,那么我们就能够有\((1−\alpha)\)把握地说直线的斜率由下式给出\(b_1\)。 这是一个极其重要的结论。 回归分析不仅允许我们测试是否存在因果关系,如果发现存在因果关系,我们还可以确定该关系的大小。 正是回归分析的这一功能使其如此有价值。 当然,如果能够开发出具有统计有效性的模型,那么我们就能够在一定程度上概率地模拟可能在我们控制之下的变量变化的影响。 例如,如果事实证明广告会影响销售,我们可以确定更改广告预算的影响,并决定增加的销售额是否值得增加的开支。

    多重共线性

    我们之前的讨论表明,与所有统计模型一样,OLS 回归模型附有重要的假设。 如果违反每个假设,都会影响模型提供有用和有意义的估计值的能力。 高斯-马尔科夫定理向我们保证,OLS 估计值是无偏的,方差最小,但只有在模型的假设下才是正确的。 在这里,我们将研究自变量关联对 OLS 估计值的影响。 计量经济学课程研究了其他假设和在发现违规时减轻这些假设所带来的困难的方法。 我们之所以采用多重共线性,是因为它在经济模型中经常很普遍,而且往往会导致令人沮丧的结果。

    OLS 模型假设所有自变量相互独立。 这个假设很容易用简单的相关系数来测试特定数据样本。 与统计数据中的许多关联性一样,是一个程度问题:一点点不好,很多都很糟糕。

    回归技术的目标是弄清一组自变量中每个变量对某个假设因变量的独立影响。 如果两个 2 个自变量相互关联,即相关,那么我们就无法将一个自变量与另一个自变\(Y\)量的影响区分开来。 在极端情况下,如果\(x_1\)是线性组合\(x_2\),相关性等于 1,则两个变量的移动方式与相同\(Y\)。 在这种情况下,无法确定哪个变量是造成影响的真正原因\(Y\)。 (如果这两个变量实际上完全相关,那么从数学上讲,实际上无法计算出回归结果。)

    系数的正态方程显示了多重共线性对系数的影响。

    \[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

    \(x_1\)\(x_2\)\(r_{x_{1} x_{2}}^{2}\)、之间的相关性出现在和的估算公式的\(b_1\)分母中\(b_2\)。 如果独立性假设成立,则该术语为零。 这表明相关性对系数没有影响。 另一方面,随着两个自变量之间相关性的增加,分母会降低,因此系数的估计值也会增加。 关联对这两个变量的两个系数具有相同的影响。 本质上,每个变量 “接受” 了应归因于共线变量的 Y 的部分影响。 这会导致估计值有偏差。

    多重共线性对 OLS 估计值产生了进一步的有害影响。 两个自变量之间的相关性也显示在系数方差估计公式中。

    \[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    在这里,我们再次看到了两个变量系数的方差估计值分母之间\(x_1\)\(x_2\)之间的相关性。 如果回归模型中假设的相关性为零,则公式将折叠为熟悉的误差方差与相关自变量方差的比率。 但是,如果两个自变量相关,则系数估计值的方差会增加。 这会导致对系数假设进行检验时的\(t\)-value 变小。 简而言之,多重共线性导致无法否定原假设,即\(X\)变量对\(Y\)何时\(X\)确实具有统计学上的显著影响没有影响\(Y\)。 换句话说,多重共线性产生的估计系数的较大标准误差表明,即使假设的关系很强,统计学也微不足道。

    这个方程有多好?

    在最后一节中,我们关注的是检验因变量确实依赖于假设的一个或多个自变量的假设。 可能是我们找到了一个对因变量有一定影响的自变量,但它可能不是唯一的自变量,甚至可能不是最重要的变量。 请记住,在模型中放置误差项是为了捕捉任何缺失的自变量的影响。 因此,在解释因变量的变异时,可以使用误差项来衡量整体方程的 “拟合优度”\(Y\)

    多重相关系数,也称为多重确定系数或确定系数,由以下公式给出:

    \[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

    其中 SSR 是回归平方和,预测值与平均值\(y\)的平方偏差\(y(\hat{y}-\overline{y})\),SST 是总和图 13.10 显示了因变量 y 的总偏差如何分为这两个部分。

    图 13.10

    图 13.10 显示了估计的回归线和单个观测值\(x_1\)。 回归分析试图解释因变量平均值的数据变异\(y\)。 问题是,为什么 y 的观测值与的平均水平不同\(y\)? 观测时 y 的值与的平均值\(x_1\)之间存在差\(y\)\(\left(y_{i}-\overline{y}\right)\)。 这些差值的平方和是 SST,即总平方和。 \(y\)at 的实际值\(x_1\)与估计值的偏差是估计值和实际值之间的差值\(\left(y_{i}-\hat{y}\right)\)\(\hat{y}\) 我们记得这是误差项 e,这些误差的总和是 SSE,即误差的平方和。 的预测值与的平均值的\(y\)偏差\(y\)为 SSR(平方\((\hat{y}-\overline{y})\)和回归)。\(\hat y\) 它被称为 “回归”,因为它是回归所解释的偏差。 (有时,SSR 被称为 SSM 表示平方和均值,因为它测量的是与因变量 y 的平均值的偏差,如图所示。)

    由于 SST = SSR + SSE,我们可以看到多重相关系数是方差的百分比,或者与其平均值的偏差,这由方程作为一个整体来解释。\(y\) \(R^2\)将在零和 1 之间变化,零表示方程中\(y\)没有解释任何变异,值为 1 表示方程解释\(y\)了 100% 的变异。 对于时间序列研究,预计会出现高点,\(R^2\)而对于横截面数据,则预期为低点\(R^2\)

    虽然高\(R^2\)点是可取的,但请记住,使用回归模型的激励因素是检验关于一组自变量与特定因变量之间存在关系的假设。 它正在验证由某种理论形成的因果关系,这正是我们选择回归分析的真正原因。 增加自变量的数量将产生增加的效果\(R^2\)。 为了考虑这种影响,确定系数的正确度量是根据自由度进行调整\(\overline{R}^{2}\),以防止盲目添加自变量。

    没有统计检验,因此对于使用我们特有的置信水平的模型\(R^2\),几乎无话可说。\(R^2\) \(R^2\)如果竞争模型具有不同的 SST(总偏差总和),则两个具有相同大小 SSE(即误差平方和)的模型可能会有很大的不同。 这两个模型的拟合优度是相同的;它们的平方和相同,无法解释,误差平方,但由于其中一个模型的总平方和较大,因此\(R^2\)有所不同。 同样,回归作为一种工具的真正价值在于检查根据预测变量之间某些关系的模型得出的假设。 这些是对模型系数假设的检验,而不是最大化的游戏\(R^2\)

    测试整体模型总体质量的另一种方法是将系数作为一个组进行测试,而不是单独测试。 因为这是多元回归(多个 X),所以我们使用 F 检验来确定我们的系数是否共同影响 Y。假设是:

    \(H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0\)

    \(H_a\): “其中至少有一个不等于 0”\(\beta_i\)

    如果无法否定原假设,那么我们得出结论,没有一个自变量有助于解释中的变异\(Y\)。 回顾图 13.10,我们可以看到 SSR,即解释的平方和,用于衡量模型中的所有变\(Y\)量在多大程度上解释了中的变异。 SSE,即误差的平方和,衡量的是有多少误差是无法解释的。 因此,这两者的比率可以为我们提供对整个模型的统计检验。 请记住\(F\)分布是 Chi 平方分布的比率,方差是根据 Chi Squared 分布的,误差平方和和平方之和都是方差,因此我们对这个假设的检验统计量为:

    \[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

    其中\(n\)是观测值的数量,\(k\)是自变量的数量。 可以看出,这等同于:

    \[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

    图 13.10 其中\(R^2\)是确定系数,它也是衡量模型 “优点” 的指标。

    与所有假设检验一样,我们通过将计算出的\(F\)统计数据与给定所需置信度的临界值进行比较得出结论。 如果计算出的检验统计\(F\)量(在本例中为统计量)位于分布的尾部,则我们不能接受原假设。 由于无法接受零假设,我们得出结论,该模型的这种规范是有效的,因为至少有一个估计系数与零有显著差异。

    得出此结论的另一种方法是使用 p 值比较规则。 根据计算出的\(F\)统计数据,\(p\)-value 是尾部的面积。 从本质上讲,计算机是在为我们寻找表格中的\(F\)价值。 计算\(F\)统计量的计算机回归输出通常位于方差分析表中标有 “显著性 F” 的部分。 下面介绍如何读取 Excel 回归的输出。 这是不接受假原假设的概率。 如果这个概率小于我们预先确定的 alpha 误差,那么结论是我们不能接受原假设。

    虚拟变量

    到目前为止,对 OLS 回归技术的分析假设测试模型中的自变量是连续的随机变量。 但是,回归模型中对二进制自变量没有任何限制。 这打开了回归模型,用于检验有关类别变量的假设,例如性别、种族、国家的地区、特定数据之前、某个日期之后以及无数其他数据。 这些类别变量仅采用二项式概率分布中的两个值,即 1 和 0(成功或失败)。 方程的形式变为:

    \[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

    图 13.11

    哪里\(x_2=0\)\(X_2\)是虚拟变量,\(X_1\)是某种连续的随机变量。 常量是 y 截距\(b_0\),即直线与\(y\)-axis 交叉处的值。 当的值为时\(X_2 = 0\),估计的线在处交叉\(b_0\)。 当该值的\(X_2 = 1\)值与估计线交叉时\(b_0 + b_2\)。 实际上,虚拟变量会使估计线根据虚拟变量捕获的特征效果的大小向上或向下移动。 请注意,这是一个简单的平行移位,不会影响另一个自变量的影响;\(X_1\).该变量是一个连续的随机变量,它预测\(y\)\(X_1\)保持不变的不同值下虚拟变量的不同值。

    使用虚拟变量的一个例子是估算性别对工资的影响的工作。 关于这个话题有大量文献,虚拟变量被广泛使用。 在本例中,审查了特定州中小学教师的工资。 使用同质工作类别,学校教师和单一州可以减少许多自然影响工资的差异,例如差异的人身风险、特定州的生活成本和其他工作条件。 最简单的估算方程将工资指定为经济理论认为可能影响工资的各种教师特征的函数。 这将包括教育水平作为衡量潜在生产力、年龄和/或经验的衡量标准,以获得在职培训,同样作为生产力的衡量标准。 由于这些数据是针对在公立学区雇用的学校教师,而不是营利性公司的员工,因此将该学区学生平均每日出勤率的平均收入作为支付能力的衡量标准包括在内。 使用24,916名学校教师的数据进行回归分析的结果如下所示。

    变量 回归系数 (b) 教师收入函数估计值
    的标准误差 (sb)
    拦截 4269.9
    性别(男性 = 1) 632.38 13.39
    总经验年数 52.32 1.10
    在当前地区拥有多年的经验 29.97 1.52
    教育 629.33 13.16
    每个 ADA 的总收入 90.24 3.76
    \(\overline{R}^{2}\) .725
    \(n\) 24,916
    表 13.1 中小学教师的收入估算

    如标准误差所示,所有自变量的系数都与零有显著差异。 除以每个系数的标准误得出 t 值大于 1.96,这是显著性 95% 所需的水平。 二元变量是我们在本分析中感兴趣的虚拟变量,是性别,其中男性的值为 1,女性的值为 0。 系数与零有显著差异,t-统计量明显为 47 个标准差。 因此,我们不能接受系数等于零的原假设。 因此,我们得出结论,在拥有教师所在学区的持续经验、教育和财富之后,男教师的保费为632美元。 值得注意的是,这些数据来自前一段时间,632美元代表当时的6%的工资溢价。 这个虚拟变量示例的图表如下所示。

    图 13.12

    在二维中,工资是垂直轴上的因变量,水平轴上的连续自变量选择了总工作年限。 可以选择任何其他自变量来说明虚拟变量的效果。 总经验年限之间的关系为每年经验52.32美元,如果女性性别变量等于零,则估计线的截距为4,269美元。 如果性别变量等于1,则对于男性,则将性别变量的系数添加到截距中,因此总工作年限与工资之间的关系会平行向上移动,如图所示。 图表上还标有各种参考点。 具有10年经验的女学校教师仅根据其经验获得4,792美元的工资,但这仍然比经验为零的男教师少109美元。

    还可以估计虚拟变量和因变量之间更复杂的相互作用。 可能是虚拟变量对因变量具有的不仅仅是简单的移位效应,而且还与一个或多个其他连续自变量相互作用。 尽管在上面的例子中没有经过检验,但可以假设性别对薪资的影响不是一次性变动,而是会影响额外工作经验对薪资的价值。 也就是说,女学校教师的工资从一开始就被打折了,而且由于经验的影响,其增长速度与男教师的增长速度不同。 这将显示为男性总经验年限与女性总经验之间关系的斜率不同。 如果是这样,那么女性学校教师不仅会落后于男同事(以估计回归线的变化来衡量),而且会随着时间和经验的增加而越来越落后。

    下图显示了如何使用虚拟变量和交互变量来检验该假设。

    图 13.13

    估计方程显示了连续随机变量体验的\(X_1\)斜率如何包含两个部分,\(b_1\)\(b_3\)。 之所以出现这种情况\(X_2\)\(X_1\),是因为创建了名为交互变量的新变量,以允许二进制虚拟变量的变化对斜率产生影响。\(X_1\)\(X_2\) 请注意,当虚拟变量时\(X_2 = 1\)\(X_2 = 0\)交互变量的值为 0,但交互变量的值为\(X_1\)。 该系数\(b_3\)是对\(X_1\)何时\(X_2= 1\)与何时系数差异的估计值\(X_2 = 0\)。 以教师的工资为例,如果向男教师支付的奖金影响了经验所得工资的增长率,那么男教师工资的增长速度\(b_1 + b_3\)和女教师工资的增长速度就会很简单\(b_1\)。 这个假设可以用以下假设来检验:

    \[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

    \[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

    这是使用参数的\(t\)测试统计数据进行的-test\(\beta_3\)。 如果我们不能接受原假设,\(\beta_3=0\)我们得出的结论是,在本例中,二进制变量值设置为 1 的组的增长率存在差异,则为男性。 这个估算方程可以与我们之前的估算方程相结合图 13.13 是针对本例绘制的,收益函数发生了变化,函数的斜率相对于总经验年限有所不同。

    示例 13.5

    随机抽样的 11 名统计学生得出了以下数据,其中 x 是 80 分中的第三次考试分数,y 是 200 分中的期末考试分数。 如果你知道第三次考试分数,你能预测随机选择的学生的期末考试分数吗?

    该表显示了基于第三次考试分数的期末考试分数。
    \(x\)(第三次考试分数) \(y\)(期末考试分数)
    65 175
    67 133
    71 185
    71 163
    66 126
    75 198
    67 153
    70 163
    71 159
    69 151
    69 159
    表 13.2
    这是所提供数据的散点图。 第三次考试分数绘制在 x 轴上,期末考试分数绘制在 y 轴上。 这些点形成了强劲的、正向的线性模式。

    图 13.14 散点图显示了基于第三次考试分数的期末考试分数。