Skip to main content
Global

13.1: 相关系数 r

  • Page ID
    204937
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    在本节开始时,我们注意到我们将要处理的数据类型已经改变。 也许没有引起注意的是,我们一直在使用的所有数据都是针对单个变量的。 它可能来自两个样本,但它仍然是一个单变量变量。 以上示例中描述的数据类型以及任何因果模型的数据类型均为双变量数据,即 “bi” 表示两个变量。 实际上,统计学家使用多变量数据,这意味着许多变量。

    在我们的工作中,我们可以将数据分为三大类:时间序列数据、横截面数据和面板数据。 我们很早就遇到了前两个。 时间序列数据衡量的是单个观测单位;比如说,随着时间的推移,一个人、一个公司或一个国家。 衡量的是至少两个特征,比如个人的收入、他们购买的特定商品的数量和他们支付的价格。 这将是一段时间内的三条信息,比如说1985年。 如果我们跨时空跟踪那个人,我们将获得1985年、1986年、1987年等的相同信息。这将构成一个时间序列数据集。 如果我们这样做了10年,我们将获得30条关于这个人在过去十年中消费这种商品的习惯的信息,我们就会知道他们的收入和他们付出的代价。

    第二种类型的数据集用于横截面数据。 这里的变化不是单个观测单位的随时间变化,而是某一时间点内不同观测单位的变化。 在特定时期内,我们将收集许多人支付的价格、购买的金额和收入。

    第三种类型的数据集是面板数据。 在这里,一个由观察单位组成的小组是随着时间的推移而跟踪的。 如果我们从上面举例子,我们可以跟踪500个人,即观察单位,穿越时间,十年,观察他们的收入、支付的价格和购买的商品的数量。 如果我们有 500 个人和十年内有关价格、收入和购买数量的数据,我们将获得 15,000 条信息。 这些类型的数据集的构建和维护成本非常高。 但是,它们确实提供了大量信息,可用于回答非常重要的问题。 举个例子,作为原籍家庭、母亲和父亲、年龄,对女性的劳动力参与率有何影响? 还是根据一个人开始吸烟的年龄而对健康结果有不同的影响? 只有面板数据才能为这些问题和相关问题提供答案,因为我们必须跨时间关注多个人。 但是,我们在这里所做的工作并不完全适用于此类数据集。

    从一组包含两个自变量的数据开始,我们问一个问题:它们相关吗? 直观地回答这个问题的一种方法是创建数据的散点图。 以前我们在进行描述性统计时无法做到这一点,因为这些数据是单变量的。 现在我们有了双变量数据,因此我们可以绘制二维图。 在一张平的纸上可以有三个维度,但很难完全概念化。 当然,尽管关系可以通过数学方法进行测量,但无法绘制超过三个维度的图表。

    为了为测量我们所看到的内容提供数学精度,我们使用相关系数。 这种关联性告诉我们两个变量的共同运动,但没有告诉我们这种运动发生的原因。 形式上,关联分析假设正在分析的两个变量都是变量。 这意味着任何一个都不会导致对方的移动。 此外,这意味着两个变量都不依赖于另一个变量,或者就此而言,不依赖于任何其他变量。 即使有这些限制,关联分析也可以产生一些有趣的结果。

    相关系数(发音为 rho)是总体的数学统计量,它为我们提供了两个变量之间线性关系强度的度量。 对于数据样本,卡尔·皮尔森(Karl Pearson)在20世纪初开发的统计量r是总体相关性的估计值,在数学上定义为:

    \[r=\frac{\frac{1}{n-1} \Sigma\left(X_{1 i}-\overline{X}_{1}\right)\left(X_{2 i}-\overline{X}_{2}\right)}{s_{x_{1}} s_{x_{2}}}\nonumber\]

    要么

    \[r=\frac{\sum X_{1 i} X_{2 i}-n \overline{X}_{1}-\overline{X}_{2}}{\sqrt{\left(\Sigma X_{1 i}^{2}-n \overline{X}_{1}^{2}\right)\left(\Sigma X_{2 i}^{2}-n \overline{X}_{2}^{2}\right)}}\nonumber\]

    其中\(sx_1\)\(sx_2\)是两个自变量的标准差\(X_2\)\(X_1\)\(\overline{X}_{1}\)\(\overline{X}_{2}\)是两个变量的样本均值,和\(X_{2i}\)\(X_{1i}\)\(X_1\)和的单个观测值\(X_2\)。 相关系数的值\(r\)介于 -1 到 1 之间。 经常使用第二个等效公式,因为它在计算上可能更容易。 尽管这些公式看起来很可怕,但它们实际上只是两个变量之间协方差的比率及其两个标准差的乘积。 也就是说,它是相对方差的衡量标准。

    实际上,所有关联和回归分析都将通过专为这些目的设计的计算机软件提供。 任何超过六次观测都会产生巨大的计算问题。 正是由于这个事实,直到 “计算机” 问世之后,相关性,更重要的是回归才被广泛使用的研究工具。 现在,与十年前相比,使用回归包分析数据所需的计算能力几乎微不足道。

    要可视化可能存在的任何线性关系,请查看标准化数据的散点图。 图中\(\PageIndex{2}\)显示了几张散点图和 r 的计算值。在面板 (a) 和 (b) 中,请注意数据通常一起呈现趋势,即 (a) 向上和 (b) 向下。 面板 (a) 是正相关性的示例,面板 (b) 是负相关或关系的示例。 相关系数的符号告诉我们关系是正的还是负的(反向)。 如果\(X_1\)和的所有值\(X_2\)都在一条直线上,则相关系数将为\(1\)或,\(-1\)取决于该直线的斜率是正斜率还是负斜率,并且越接近一或负斜率,两个变量之间的关系就越强。 但请记住,相关系数并不能告诉我们斜率。

    \(\PageIndex{2}\)

    请记住,相关系数告诉我们的只是数据是否线性相关。 在面板 (d) 中,变量之间显然有某种类型的非常具体的关系,但相关系数为零,表示不存在线性关系。

    如果你怀疑\(X_1\)和之间存在线性关系,\(X_2\)那么\(r\)可以衡量线性关系的强度。

    的价值\(r\)告诉我们什么:

    • SIGN 的标志\(r\)告诉我们什么
      • “关联并不意味着因果关系。”