Skip to main content
Library homepage
 
Global

13.2:测试相关系数的显著性

相关系数告诉我们和之间X1线性关系的强度和方向X2r

样本数据用于计算r样本的相关系数。 如果我们有整个人口的数据,我们就能找到总体相关系数。 但是因为我们只有样本数据,所以我们无法计算总体相关系数。 样本相关系数 r 是我们对未知总体相关系数的估计。

  • 假设检验让我们决定总体相关系数\ rho 的值是 “接近零” 还是 “与零有显著差异”。 我们根据样本相关系数r和样本数量来决定这一点n

    如果检验得出相关系数与零有显著差异的结论,则表示相关系数 “显著”。

    • 假设在单词中的含义是什么
      • 得@@ 出结论有两种方法可以对假设做出决定。 检验该假设的检验统计量是:

        tc=r(1r2)/(n2)

        tc=rn21r2

        其中第二个公式是检验统计量的等效形式,n是样本数量和自由度为n2。 这是一个t-statistic,其运行方式与其他t测试相同。 计算t-value 并将其与t-table 中的临界值进行比较,以适当的自由度和您希望保持的置信度水平。 如果计算出的值在尾部,则无法接受这两个自随机变量之间没有线性关系的原假设。 如果计算出的t-value 不在尾部中,则无法否定两个变量之间没有线性关系的原假设。

        检验相关性的一种快速简写方法是样本数量和相关性之间的关系。 如果:

        |r|2n

        那么这意味着两个变量之间的相关性表明存在线性关系,并且在大约0.05的显著性水平上具有统计学意义。 如公式所示,样本数量与线性关系显著性所需的相关性之间存在反比关系。 如果只有 10 个观测值,则显著性所需的相关性为 0.6325;对于 30 个观测值,显著性所需的相关性降至 0.3651;在 100 个观测值时,所需水平仅为 0.2000。

        关联可能有助于可视化数据,但不能恰当地用于 “解释” 两个变量之间的关系。 也许没有哪个统计数据比相关系数更容易被滥用。 引用健康状况与从居住地到眼睛颜色的所有事物之间的相关性,实际上暗示了因果关系。 这根本无法用相关系数来实现。 当然,相关系数与这种误解无关。 分析师有责任使用旨在检验因果关系的统计数据,并且只有在他们打算提出此类主张时才报告这些结果。 问题在于,通过这个更严格的测试很困难,所以懒惰和/或不道德的 “研究人员” 在无法合法陈述自己的理由时会依靠相关性。