Skip to main content
Global

8.2:总体标准差的置信区间未知、小样本案例

  • Page ID
    204279
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    实际上,我们很少知道总体标准差。 过去,当样本量很大时,这对统计学家来说并不构成问题。 他们使用样本标准差 s 作为估计值,\(\sigma\)并像以前一样继续计算具有足够接近结果的置信区间。 这就是我们在\(\PageIndex{4}\)上面的示例中所做的。 在置信区间的公式中\(s\),用标准差的点估计值代替了总体标准差。 在这种情况下,80个观测值远高于建议的30个观测值,以消除小样本中的任何偏差。 但是,当样本量很小时,统计人员遇到了问题。 样本量小会导致置信区间不准确。

    爱尔兰都柏林吉尼斯啤酒厂的威廉·戈塞特(1876—1937 年)遇到了这个问题。 他用啤酒花和大麦进行的实验产生的样本很少。 当他尝试计算置信区间时,仅替换\(\sigma\)为并不能产生准确的结果。\(s\) 他意识到自己无法使用正态分布进行计算;他发现实际分布取决于样本数量。 这个问题使他 “发现” 了所谓的学生的 t 分布。 这个名字源于戈塞特用笔名 “A Student” 写的事实。

    直到 1970 年代中期,一些统计学家对大样本量使用正态分布近似值,而对最多 30 个观测值的样本量使用学生的 t 分布。

    如果您\(n\)从具有均值\(\mu\)和未知总体标准差的总体中抽取一个规模的简单随机样本,\(\sigma\)然后计算 t 分数

    \[t=\frac{\overline{x}-\mu}{\left(\frac{s}{\sqrt{n}}\right)}\]

    然后 t 分数遵循学生的 t 分布和自由\(\bf{n – 1}\)。 t 分数与 z 分数的解释相同。 它以标准差单位测量\(\overline x\)距离其平均值\ mu 的距离。 对于每种样本数量\(n\),都有不同的学生的 t 分布。

    自由度来自样本标准差的计算\(\bf{s}\)\(\bf{n – 1}\) 请记住,当我们第一次计算样本标准差时,我们将偏差的平方和除以\(n – 1\),但我们使用\(n\)偏差(\(\overline x\)值)来计算\(\bf{s}\)。 因为偏差之和为零,所以一旦我们知道其他偏差,我们就可以找到最后的\(\bf{n – 1}\)偏差。 其他\(\bf{n – 1}\)偏差可以自由变化或变化。 我们将这个数字\(\bf{n – 1}\)称为自由度 (\(df\)),以识别在计算中丢失了一个自由度。 失去自由度的后果是 t 值增加,置信区间的宽度增加。

    学生 T 分布的属性

    • 学生 t 分布的图形与标准正态曲线类似,在无限自由度下它是正态分布。 你可以通过在无限自由度上读取底线以获得熟悉的置信度来证实这一点,例如,在第 0.05 列,95% 的置信度上,我们发现 t 值为 1.96,无限自由度。
    • 学生 t 分布的均值为零,分布在零左右对称,同样与标准正态分布类似。
    • 学生的 t 分布的尾部概率高于标准正态分布,因为 t 分布的散布大于标准正态的散布。 因此,与标准正态分布图相比,学生的 t 分布图在尾部会更厚,中心更短。
    • 学生 t 分布的确切形状取决于自由度。 随着自由度的增加,学生的 t 分布图变得更像标准正态分布图。
    • 假定单个观测值的基础总体为正态分布,总体均值未知\(mu\),总体标准差未知\(\sigma\)。 该假设来自中心极限定理,因为本例中的单个观测值是抽样分布的\(\overline x\) s。 基础人口的规模通常无关紧要,除非规模很小。 如果是正常的,那么假设就满足了,不需要讨论。

    学生 t 分布的概率表用于计算各种常用置信水平下的 t 值。 该表给出了对应于置信度(列)和自由度(行)的 t 分数。 使用 t 表时,请注意,有些表格的格式化为在列标题中显示置信度,而某些表中的列标题可能只在一条或两条尾部显示相应的区域。 请注意,表的底部将显示无限自由度的 t 值。 从数学上讲,随着自由度的增加,\(t\)分布接近标准正态分布。 通过查看相关的 alpha 列并读取最后一行的值,可以找到熟悉的 Z 值。

    学生的 t 表(表\(\PageIndex{6}\))给出了给定自由度和右尾概率的 t 分数。

    学生的 t 分布具有最理想的正态特性之一:它是对称的。 Student's t 分布的作用是分散水平轴,因此需要更多的标准差才能捕获相同数量的概率。 实际上,有无限数量的 Student's t 分布,每次调整样本数量对应一个分布。 随着样本数量的增加,学生的 t 分布变得越来越像正态分布。 当样本数量达到 30 时,通常用正态分布代替学生的 t,因为它们非常相似。 学生的 t 分布和正态分布之间的这种关系如图所示\(\PageIndex{8}\)

    \(\PageIndex{1}\)

    这是一个分布限制另一个分布的又一个例子,在本例中,正态分布是当学生 t 中的自由度接近无穷大时学生 t 的极限分布。 这个结论直接来自戈塞特先生对学生的 t 分布的推导。 他认识到问题在于观测值很少,也没有对总体标准差进行估计。 他正在用样本标准差代替并得到波动性结果。 因此,他创建了 Student's t 分布作为正态分布和 Chi 平方分布的比率。 Chi 平方分布本身就是两个方差的比率,在本例中为样本方差和未知总体方差。 因此,学生的 t 分布与正态分布相关,但其自由度来自于 Chi 平方分布的自由度。 代数解演示了这个结果。

    学生 t 分布的发展:

    1. \(t=\frac{z}{\sqrt{\frac{\chi^{2}}{v}}}\)

      其中\(Z\)是标准正态分布,\(X^2\)是具有自由\(v\)度的卡方分布。

    2. \(t=\frac{\frac{(\overline x-\mu)}{\sigma}}{\sqrt{\frac{\frac{s^{2}}{(n-1)}}{\frac{\sigma^{2}}{(n-1)}}}}\)

      通过替换,因此具有自由\(v = n − 1\)度的学生 t 是:

    3. \(t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\)

    在样本数量小于 30 且我们不知道总体标准差的情况下,重述均值置信区间的公式\(\sigma\)

    \[\overline{x}-t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    这里用总体标准差的点估计值代替\(s\)了总体标准差\(\sigma\)\(t_{\nu}\),和\(\alpha\)被替换了\(Z_{\alpha}\)。 将希腊字母\(\nu\)(发音为 nu)置于通用公式中,以表示存在许多学生\(t_{\nu}\)分布,每个样本量对应一个分布。 \(\nu\)是分布自由度的符号,取决于样本的大小。 df 通常用于缩写自由度。 对于此类问题,自由度为\(\nu = n-1\),其中\(n\)是样本数量。 要在学生 t 表中查找概率,我们必须知道问题中的自由度。

    示例\(\PageIndex{1}\)

    发现从道琼斯工业平均指数上市的10只工业股中随机选出的10只工业股的平均每股收益(EPS)\(\overline X = 1.85\)的标准差为\(s=0.395\)。 计算上列出的所有工业企业的平均 EPS 的 99% 置信区间\(DJIA\)

    \[\overline{x}-t_{v, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    回答

    为了帮助可视化计算置信区间的过程,我们绘制了问题的相应分布。 在本例中,这是学生的 t,因为我们不知道总体标准差,而且样本很小,小于 30。

    \(\PageIndex{2}\)

    要找到合适的 t 值,需要两条信息:所需的置信度以及自由度。 这个问题要求99%的信心水平。 在图表上显示了置信度 (\(1-\alpha\)) 在无阴影区域中的位置。 因此,尾巴各有 0.005 的概率\(\alpha/2\)。 此类问题的自由度为\(n-1= 9\)。 在学生的 t 表中,在标有 9 的行和标有 .005 的列中,是捕获 99% 概率的标准差数,即 3.2498。 然后将它们放在图表上,记住学生的值\(t\)是对称的,因此 t 值在均值的两边都是正负的。

    将这些值插入公式中会得出结果。 可以将这些值放在图表上,以查看样本均值的分布与学生\(\overline X\)的 t 分布之间的关系。

    \[\mu=\overline{X} \pm t_{\alpha / 2, \mathrm{df}=n-1} \frac{s}{\sqrt{n}}=1.851 \pm 3.2498 \frac{0.395}{\sqrt{10}}=1.8551 \pm 0.406\nonumber\]

    \[1.445 \leq \mu \leq 2.257\nonumber\]

    我们将正式结论陈述为:

    在99%的信心水平下,所有列出的行业的平均\(DJIA\)\(EPS\)从1.44美元到2.26美元不等。

    练习\(\PageIndex{2}\)

    你对催眠疗法进行研究,以确定它在增加受试者每晚的睡眠时数方面有多有效。 您可以测量 12 个受试者的睡眠时间,结果如下。 构建 95% 的置信区间,计算您从中获取数据的总体(假设为正态)的平均睡眠时数。

    8.2; 9.1; 7.7; 8.6; 6.9; 11.2; 10.1; 9.9; 8.9; 9.2; 7.5; 10.5