13.2：测试相关系数的显著性

Last updated
Save as PDF

Page ID: 204974

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

相关系数告诉我们和之间\(X_1\)线性关系的强度和方向\(X_2\)。\(r\)

样本数据用于计算\(r\)样本的相关系数。如果我们有整个人口的数据，我们就能找到总体相关系数。但是因为我们只有样本数据，所以我们无法计算总体相关系数。样本相关系数 r 是我们对未知总体相关系数的估计。

假设检验让我们决定总体相关系数\ rho 的值是 “接近零” 还是 “与零有显著差异”。我们根据样本相关系数\(r\)和样本数量来决定这一点\(n\)。
如果检验得出相关系数与零有显著差异的结论，则表示相关系数 “显著”。
- 假设在单词中的含义是什么
  - 得@@ 出结论有两种方法可以对假设做出决定。检验该假设的检验统计量是：
    \[t_{c}=\frac{r}{\sqrt{\left(1-r^{2}\right) /(n-2)}}\nonumber\]
    \[t_{c}=\frac{r \sqrt{n-2}}{\sqrt{1-r^{2}}}\nonumber\]
    其中第二个公式是检验统计量的等效形式，\(n\)是样本数量和自由度为\(n-2\)。这是一个\(t\)-statistic，其运行方式与其他\(t\)测试相同。计算\(t\)-value 并将其与\(t\)-table 中的临界值进行比较，以适当的自由度和您希望保持的置信度水平。如果计算出的值在尾部，则无法接受这两个自随机变量之间没有线性关系的原假设。如果计算出的\(t\)-value 不在尾部中，则无法否定两个变量之间没有线性关系的原假设。
    检验相关性的一种快速简写方法是样本数量和相关性之间的关系。如果：
    \[|r| \geq \frac{2}{\sqrt{n}}\nonumber\]
    那么这意味着两个变量之间的相关性表明存在线性关系，并且在大约0.05的显著性水平上具有统计学意义。如公式所示，样本数量与线性关系显著性所需的相关性之间存在反比关系。如果只有 10 个观测值，则显著性所需的相关性为 0.6325；对于 30 个观测值，显著性所需的相关性降至 0.3651；在 100 个观测值时，所需水平仅为 0.2000。
    关联可能有助于可视化数据，但不能恰当地用于 “解释” 两个变量之间的关系。也许没有哪个统计数据比相关系数更容易被滥用。引用健康状况与从居住地到眼睛颜色的所有事物之间的相关性，实际上暗示了因果关系。这根本无法用相关系数来实现。当然，相关系数与这种误解无关。分析师有责任使用旨在检验因果关系的统计数据，并且只有在他们打算提出此类主张时才报告这些结果。问题在于，通过这个更严格的测试很困难，所以懒惰和/或不道德的 “研究人员” 在无法合法陈述自己的理由时会依靠相关性。