10.1：比较两个独立的总体均值

Last updated
Save as PDF

Page ID: 204669

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

两个独立总体均值的比较非常常见，它为检验两个组彼此不同的假设提供了一种方法。夜班的生产力是否低于白班，固定资产投资的回报率与普通股投资的回报率不同等等？两个样本均值之间的观测差异取决于均值和样本标准差。如果单个样本之间存在很大差异，则偶然会出现截然不同的平均值。测试统计数据必须考虑这一事实。比较两个独立总体均值与未知且可能不相等的总体标准差的\(t\)检验称为 Aspin-Welch-test。我们稍后将看到的自由度公式是由Aspin-Welch开发的。

当我们开发均值和比率的假设检验时，我们从中心极限定理开始。我们认识到，样本均值来自样本均值的分布，而样本比率来自样本比率的抽样分布。这使我们的样本参数、样本均值和样本比率变成了随机变量。对我们来说，重要的是要知道这些随机变量的来源。中心极限定理给了我们答案：正态分布。我们的\(Z\)\(t\)统计数据来自这个定理。这为我们提供了一个问题的解决方案，即如何测量样本均值来自具有特定假设值的均值或比率的分布的概率。在这两种情况下，问题都是：样本数据中的均值（或比例）来自具有我们感兴趣的假设值的总体分布的概率是多少？

现在我们感兴趣的是两个样本的均值是否相同。我们的问题没有改变：这两个样本是否来自相同的种群分布？为了解决这个问题，我们创建了一个新的随机变量。我们认识到，我们有两个样本均值，每组数据一个，因此我们有两个来自两个未知分布的随机变量。为了解决这个问题，我们创建了一个新的随机变量，样本之间的差值均值。这个新的随机变量也有分布，中心极限定理再次告诉我们，无论原始数据的基础分布如何，这个新分布都是正态分布。图表可能有助于理解这个概念。

图为两种数据分布，均值\(X_1\)和\(X_2\)标准差均值未知。第二个面板显示了新创建的随机变量 (\(\overline{X}_{1}-\overline{X}_{2}\)) 的采样分布。此分布是来自总体 1 的许多样本均值减去来自总体 2 的样本均值的理论分布。中心极限定理告诉我们，无论顶部面板中显示的实际总体数据的分布如何，样本均值差异的理论抽样分布都是正态分布。由于采样分布是正态分布，因此我们可以开发一个标准化公式，并根据底部面板中的标准正态分布（分\(Z\)布）计算概率。我们之前在第 7 章图中看到过同样的分析\(\PageIndex{2}\)。

与以前一样，中心极限定理为我们提供了抽样分布的标准差，此外，样本均值差分分布均值的预期值等于总体均值的差异。从数学上讲，可以这样说：

\[E\left(\mu_{\overline{x}_{1}}-\mu_{\overline{x}_{2}}\right)=\mu_{1}-\mu_{2}\nonumber\]

因为我们不知道总体标准差，所以我们使用独立样本的两个样本标准差来估算它们。对于假设检验，我们计算样本均值差值的估计标准差或标准差\(\overline{X}_{1}-\overline{X}_{2}\)。

\[\textbf{The standard error is:}\nonumber\]

\[\sqrt{\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}}\nonumber\]

我们记得，当我们没有总体方差时，用样本方差代替总体方差是我们在建立置信区间和检验统计量时使用的技术，用于在置信区间和置信区间中为单个均值进行假设检验使用一个样本进行假设检验。 检验统计量（t 分数）的计算方法如下：

\[t_{c}=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\delta_{0}}{\sqrt{\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}}}\nonumber\]

哪里：

\(s_1\)和\(s_2\)，样本标准差\(\sigma_2\)，分别是\(\sigma_1\)和的估计值
\(\sigma_1\)并且\(\sigma_2\)是未知的总体标准差。
\(\overline{x}_{1}\)和\(\overline{x}_{2}\)是样本均值。 \(\mu_1\)而且\(\mu_2\)是未知人口的意思。

自由度数 (df) 需要稍微复杂的计算。 \(df\)并不总是整数。上面的测试统计量由学生的\(t\)-分布近似计算，\(df\)如下所示：

自由度

\[df=\frac{\left(\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}\right)^{2}}{\left(\frac{1}{n_{1}-1}\right)\left(\frac{\left(s_{1}\right)^{2}}{n_{1}}\right)^{2}+\left(\frac{1}{n_{2}-1}\right)\left(\frac{\left(s_{2}\right)^{2}}{n_{2}}\right)^{2}}\nonumber\]

当两个样本数量\(n_1\)均\(n_2\)为 30 或更大时，Student's t 近似值非常好。如果每个样本的观测值超过 30 个，则自由度可以按以下公式计算\(n_1 + n_2 - 2\)。

抽样分布的格式（样本均值的差异）指定原假设和备择假设的格式为：

\[H_{0} : \mu_{1}-\mu_{2}=\delta_{0}\nonumber\]

\[H_{\mathrm{a}} : \mu_{1}-\mu_{2} \neq \delta_{0}\nonumber\]

哪里\(\delta_{0}\)是两个均值之间的假设差。如果问题仅仅是 “手段之间有什么区别吗？” 然后，\(\delta_{0} = 0\)原假设和备选假设变成：

\[H_{0} : \mu_{1}=\mu_{2}\nonumber\]

\[H_{\mathrm{a}} : \mu_{1} \neq \mu_{2}\nonumber\]

何时\(\delta_{0}\)可能不为零的一个例子是，两个组的比较需要特定的差异才能使决策有意义。想象一下，你正在进行资本投资。您正在考虑从当前模型的机器改为另一台机器。您可以通过机器生产产品的速度来衡量机器的生产率。更换旧型号的竞争者在产品吞吐量方面可能更快，但也更昂贵。第二台机器也可能有更多的维护成本、设置成本等。将设置原假设，这样新机器必须比旧机器好得足以支付速度和生产成本方面的额外成本。这种形式的原假设和备择假设表明了这种特殊假设检验的价值。在我们的大部分工作中，我们将检验简单的假设，询问两种分布均值之间是否存在差异。

示例\(\PageIndex{1}\) INDEPENDENT GROUPS

Kona Iki 公司生产椰奶。他们取出椰子，通过钻一个洞并将牛奶倒入大桶中进行加工来提取里面的牛奶。他们既有白班（称为B班）又有夜班（称为G班）来完成这部分过程。他们想知道白班和夜班在加工椰子方面是否同样有效。完成了一项研究，对 G 移位的 9 个移位和 B 移位的 16 个班次进行了抽样。表中列出了加工 100 磅椰子所需小时数的结果\(\PageIndex{1}\)。完成研究并收集数据，得出表中的数据\(\PageIndex{1}\)。

\ (\ pageIndex {1}\) “>

桌子\(\PageIndex{1}\)
	样本量	处理 100 磅椰子的平均小时数	样本标准差
G Shift	9	2	0.8660.866
B Shift	16	3.2	1.00

每次轮班处理 100 磅椰子的平均时间有差异吗？以 5% 的显著性水平进行测试。

回答

解决方案 10.1

总体标准差尚不清楚，不能假定它们彼此相等。 假设\(g\)是 G 移位的下标并\(b\)成为 B 移位的下标。那么，\(\mu_g\)是 G 偏移的总体均值，\(\mu_b\)是 B 偏移的总体均值。这是对两个独立组的检验，两个总体均值。

随机变量：\(\overline{X}_{g}-\overline{X}_{b}\)= G Shift 和 B Shift 处理椰子所需的样本平均时间差异。
\(\H_{0}: \mu_g = \mu_b\)\(\H_{0}: \mu_g – \mu_b = 0\)
\(H_a: \mu_g \neq \mu_b\)\(H_a: \mu_g – \mu_b \neq 0\)
“相同” 这个词告诉你\(\H_{0}\)有一个 “=”。由于没有其他词可以表示\(H_a\)，要么更快，要么更慢。这是一项双尾测试。

检验分布：使用 w h\(t_{df}\) ere\(df\) 是使用独立组的\(df\)公式计算的，上面有两个总体均值。使用计算器，大约\(df\)为 18.8462。

图表：

这是一条正态分布曲线，表示女孩和男孩整天参加体育运动的平均时间差异。均值等于零，并且在水平轴上标记值 -1.2、0 和 1.2。两条垂直线从 -1.2 和 1.2 延伸到曲线。 x = -1.2 左边的区域和 x = 1.2 右边的区域都经过阴影处理，以表示 p 值。每个区域的面积为 0.0028。

\[\mathrm{t}_{\mathrm{c}}=\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-\delta_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}=-3.01\nonumber\]

接下来，我们使用上方的自由度在\(t\)-table 上找到临界值。临界值 2.093 位于 .025 列中，也就是说\(\alpha/2\)，在 19 个自由度处找到。（惯例是四舍五入自由度以使结论更加保守。）接下来，我们计算检验统计量并将其标记在\(t\)分布图上。

做出决定：由于计算出的\(t\)-value在尾部，我们不能接受两组之间没有区别的原假设。手段是不同的。

该图包括样本均值差异的抽样分布，以显示 t 分布如何与抽样分布数据对齐。我们在顶部面板中看到，两个均值的计算差值为 -1.2，底部面板显示这是与均值的 3.01 个标准差。通常，我们不需要显示抽样分布图，可以依靠检验统计量的图（在本例中为 t 分布）来得出结论。

结论：在 5% 的显著性水平上，样本数据表明有足够的证据得出结论，G Shift 处理 100 磅椰子所需的平均小时数与 B Shift 不同（B Shift 的平均小时数大于 B Shift 的平均小时数G Shift 的小时数）。

注意

当样本数量之和大于样本数量的总和时，\(30\left(n_{1}+n_{2}>30\right)\)您可以使用正态分布来近似学生的样本数量\(t\)。

示例\(\PageIndex{2}\)

进行了一项研究，以确定A公司留用员工的时间是否比B公司长。据信A公司的留用时间高于B公司。该研究发现，在对A公司11名员工的抽样中，他们在公司的平均工作时间为四年，标准差为1.5年。对公司 B 的 9 名员工进行抽样调查发现，在该公司的平均工作时间为 3.5 年，标准差为 1 年。在 1% 的显著性水平上测试这个主张。

a. 这是两个均值还是两个比率的检验？

回答

解决方案 10.2

a. 两个意思是因为时间是一个连续的随机变量。

b. 总体标准差是已知还是未知？

回答

解决方案 10.2

b. 未知

c. 您使用哪个发行版进行测试？

回答

解决方案 10.2

c. 学生的\(t\)

d. 什么是随机变量？

回答

解决方案 10.2

d。\(\overline{X}_{A}-\overline{X}_{B}\)

e. 什么是原假设和备选假设？

回答

解决方案 10.2

e。

\(H_{0} : \mu_{A} \leq \mu_{B}\)
\(H_{a} : \mu_{A}>\mu_{B}\)

f. 这个测试是右尾、左尾还是双尾？

回答

解决方案 10.2

f. 右单尾试验

这是一条均值等于 0 的正态分布曲线。零点右侧靠近曲线尾部的一条垂直线从轴延伸到曲线。直线右侧曲线下方的区域有阴影。

g. 检验统计量的值是多少？

回答

解决方案 10.2

g。

\(t_{c}=\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-\delta_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}=0.89\)

h. 你能接受/拒绝原假设吗？

回答

解决方案 10.2

h. 无法否定两组之间没有区别的原假设。测试统计数据不在尾部。 t 分布的临界值为 2.764，自由度为 10。这个例子说明了用非常小的样本否定原假设是多么困难。临界值需要非常大的测试统计数据才能到达尾部。

一、结论：

回答

解决方案 10.2

i. 从样本数据来看，在1％的重要性水平上，没有足够的证据得出结论，A公司员工的留用时间平均长于B公司。

示例\(\PageIndex{3}\)

一个有趣的研究问题是不同类型的教学形式对学生成绩的影响（如果有的话）。为了调查这个问题，一个学生的成绩样本取自混合课堂，另一个样本取自标准讲座形式的课堂。两堂课都是同一科目。 35名混合学生的平均课程成绩百分比为74，标准差为16。参加标准讲座的40名学生的平均成绩为76％，标准差为9。以 5% 的比例进行测试，看看标准讲座课程和混合课之间的总体平均成绩是否存在显著差异。

回答

解决方案 10.3

首先，我们要指出，我们有两个小组，一个是混合班的学生，另一个是来自标准讲座形式班级的学生。我们还注意到，我们感兴趣的随机变量是学生的成绩，这是一个连续的随机变量。我们本可以用不同的方式提出研究问题，然后有一个二进制随机变量。例如，我们可以研究成绩不及格或成绩为A的学生的百分比。两者都是二进制的，因此是比率检验，而不是像这里那样的均值检验。最后，没有假设哪种格式可能导致更高的成绩，因此该假设被描述为双尾检验。

\(H_{0}: \mu_1 = \mu_2 \)
\(H_a: \mu_1 \neq \mu_2\)

与往常一样，我们不知道两个分布的总体方差，因此我们的检验统计量是：

\[t_{c}=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\delta_{0}}{\sqrt{\frac{s^{2}}{n_{1}}+\frac{s^{2}}{n_{2}}}}=\frac{(74-76)-0}{\sqrt{\frac{16^{2}}{35}+\frac{9^{2}}{40}}}=-0.65\nonumber\]

为了确定学生 t 的临界值，我们需要自由度。在这种情况下，我们使用:\(df = n_1 + n_2 - 2 = 35 + 40 -2 = 73\). 因此，它足够大，可以将其视为正态分布\(t_{\alpha /2} = 1.96\)。同样，我们一如既往地确定计算出的值是否在由临界值决定的尾部。在这种情况下，我们甚至不需要查找临界值：这两个平均等级的差值的计算值甚至没有一个标准差。当然不是在尾巴里。

结论：无法在处拒绝空值\(\bf{\alpha = 5\%}\)。因此，没有证据证明混合班和标准班的成绩不同。