Skip to main content
Global

9.3:假设检验所需的分布

  • Page ID
    205035
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    前面我们讨论了抽样分布。 特定分布与假设检验有关。我们将使用正态分布或学生分布对总体均值进行假设检验。\(t\) (请记住,在总体标准差未知且样本数量较小时使用学生\(t\)分布,其中小值被视为小于 30 个观测值。) 当我们可以假设分布为正态分布时,我们使用正态分布对总体比例进行检验。 如果样本比例\(p^{\prime}\)、乘以样本数量大于 5 且样本数量\(1-p^{\prime}\)乘以也大于 5,则我们认为这是正确的。 这与我们在制定总体比例置信区间公式时使用的经验法则相同。

    均值的假设检验

    回到标准化公式,我们可以推导出检验统计量,用于检验有关均值的假设。

    \[Z_{c}=\frac{\overline{x}-\mu_{0}}{\sigma / \sqrt{n}}\nonumber\]

    标准化公式无法按原样求解,因为我们没有\(\mu\),总体均值。 但是,如果我们在上面的公式中替换平均值的假设值,我们可以计算出一个\(Z\)值。\(\mu_0\) 这是均值假设检验的检验统计量,如图 9.3 所示。 我们将该\(Z\)值解释为样本均值为的样本\(\overline X\)可能来自总体均值\(Z_c\)为的分布的相关概率,我们将此\(Z\)值称为 “已计算” 值。\(H_0\) 图 9.3 和图 9.4 显示了此过程。

    图 9.3

    图 9.3 显示了三种可能的结果中的两种。 \(\overline X_1\)\(\overline X_3\)并且位于假设分布的尾部\(H_0\)。 请注意,顶部面板中的水平轴被标记为 “\(\overline X\)s”。这与采样分布的理论分布相同,中心极限定理告诉我们的是正态分布。\(\overline X\) 这就是为什么我们可以用这种形状画它的原因。 底部面板的水平轴带有标签\(Z\),是标准正态分布。 \(Z_{\frac{\alpha}{2}}\)\(-Z_{\frac{\alpha}{2}}\),称为临界值,在底部面板上标记为与分析师在检验中设置为显著性水平的概率相关的\(Z\)值(\(\alpha\))。 因此,两个面板尾部的概率是相同的。

    请注意,每个方程都\(\overline X\)有一个关联的\(Z_c\),称为计算公式\(Z\),它来自求解上述方程。 计算出的只不过\(Z\)假设均值与样本均值之间的标准差数。 如果样本均值与假设均值相差 “太多” 标准差,我们得出结论,鉴于我们预先设定的所需显著性水平,样本均值不可能来自假设均值的分布。 它可能来自\(H_0\),但被认为不太可能。 在图 9.3 中\(\overline X_3\)\(\overline X_1\)和都在分布的尾部。 鉴于所选的 alpha 水平,它们被认为与均值的假设值 “太远”。 如果这个样本实际上意味着它确实来自尾部\(H_0\),但来自尾部,那么我们就犯了一个 I 型错误:我们拒绝了一个好的空值。 我们唯一真正感到安慰的是,我们知道发生这种错误的可能性,\ alpha,并且我们可以控制错误的大小\(\alpha\)

    图 9.4 显示了样本均值位置的第三种可能性\(\overline x\)。 这里的样本均值在两个临界值之内。 也就是说,在原假设的概率范围内\((1-\alpha)\),我们无法否定原假设。

    图 9.4

    这为我们提供了检验双尾检验假设的决策规则:

    决策规则:双尾测试
    如果\(\left|\mathrm{Z}_{c}\right|<\mathrm{Z}_{\frac{\alpha}{2}}\):那么不要拒绝\(H_0\)
    如果\(\left|\mathrm{Z}_{c}\right|>\mathrm{Z}_{\frac{\alpha}{2}}\):那么拒绝\(H_0\)
    表 9.3

    无论我们要检验什么假设,或者我们使用什么公式进行检验,这条规则都将始终相同。 唯一的更改是将正在测试\(Z_c\)的参数的检验统计数据更改为相应的符号。 用另一种方式陈述决策规则:如果样本均值不太可能来自假设均值的分布,我们就不能接受原假设。 在这里,我们将 “不太可能” 定义为发生的概率小于 alpha。

    P 值方法

    如果原假设为真,则可以通过计算找到样本均值的概率来制定备选决策规则,该概率将使检验统计量大于从当前样本数据中找到的检验统计量。 在这里,“可能” 和 “不太可能” 的概念定义为抽取样本的概率,该样本的均值来自总体的假设均值大于或小于样本数据中发现的均值。 简而言之,\(p\)-value 方法将所需的显著性水平与\(p\)-value 进行比较,后者是从假设值得出比实际样本均值更远的样本均值的概率。\(\alpha\) 根据数据计算得出的较大\(p\)-value 表明我们不应否定原假设\(p\)-value 越小,结果的可能性越大,反对原假设的证据就越强。 如果证据强烈反对原假设,我们将予以拒绝。 比较计算出的检验统计数据的决策规则与临界值以及使用\(p\)-value之间的关系可以在图 9.5 中看出。\(Z_c\)\(Z_\alpha\)

    图 9.5

    在本示例中,检验统计量的计算值\(Z_c\)在标准正态分布的底部图表上,因为它是一个\(Z\)值。 在这种情况下,计算出的值在尾部,因此我们无法接受原假设,关联\(\overline X\)值太大了,无法相信它来自平均值为\ alpha 的分布。\(\mu_0\)

    如果我们使用\(p\)-value决策规则,我们需要再走一步。 我们需要在标准正态表中找到与计算出的检验统计量相关的概率\(Z_c\)。 然后,我们将其与所选置信度相关的\ alpha 进行比较。 在图 9.5 中,我们可以看到\(p\)-value 小于\ alpha,因此我们不能接受空值。 我们知道\(p\)-value 小于\ alpha,因为\(p\)-value 下的面积小于\(\alpha/ 2\)。 值得注意的是,两名从同一个群体中随机抽取的研究人员可能会从他们的样本中发现两个不同的\(p\)值。 之所以出现这种情况,是因为假设原假设是正确的,则\(p\)-value 是根据尾部超出样本均值的概率计算得出的。 因为样本均\(p\)值很可能会有所不同,因此会创建两个不同的-values。 尽管如此,关于原假设的结论应该有所不同,只有概率水平为\(\alpha\)

    如果使用\(\bf{p}\) - value和预先入为主的\ (\ bf {\ alpha}\)(“显著性等级”),这是一种系统化的方法,可以决定是不能接受还是不能拒绝原假设。 预设\(\alpha\)I 型错误的概率(当原假设为真时拒绝原假设)。 在问题开始时,它可能会也可能不会交给你。 无论如何,的价值\(\alpha\)是分析师的决定。 当您决定拒绝或不拒绝时\(H_0\),请执行以下操作:

    • 如果\(\alpha > p\)为-value,则无法接受\(H_0\)。 样本数据的结果意义重大。 有足够的证据可以得出结论,\(H_0\)这是错误的信念,备择假设哈,可能是正确的。
    • 如果\(\alpha \leq p\)为-value,则无法拒绝\(H_0\)。 样本数据的结果并不重要。 没有足够的证据得出结论,备择假设哈,可能是正确的。 在这种情况下,维持现状。
    • 当你 “无法拒绝\(H_0\)” 时,这并不意味着你应该相信\(H_0\)这是真的。 这只是意味着样本数据未能提供足够的证据,使人们对样本数据的真实性产生严重怀疑\(H_0\)。 请记住,空是现状,推翻现状的概率很高。 在讨论假设检验和科学方法时,这种偏向于原假设的偏见导致了 “现状暴政” 的说法。

    两种决策规则都会产生相同的决策,使用哪一个是优先考虑的问题。

    单尾和双尾测试

    图 9.3 图 9.5 的讨论基于图 9.3 中给出的原假设和备择假设。 之所以称之为双尾检验,是因为备择假设允许均值来自大于或小于原假设中假设均值的总体。 在本例中,备择假设的陈述可以看出这一点。\(\mu \neq 100\)

    可能是分析师并不担心该值与假设值相比 “太高” 或 “太低”。 如果是这样的话,它将变成单尾检验,所有的 alpha 概率都只放在一条尾巴上,而不是像上面的双尾检验\(\alpha /2\)那样分成两尾检验。 对索赔的任何检验都将是单尾测试。 例如,一家汽车制造商声称他们的 Model 17B 提供的汽油里程超过每加仑 25 英里。 原假设和备择假设是:

    • \(H_0: \mu \leq 25\)
    • \(H_a: \mu > 25\)

    该主张将在备选假设中提出。 假设检验中的举证责任由另一种方式承担。 这是因为,如果不拒绝无效的现状,就必须以90%或95%的意义来实现,这是无法维持的。 换句话说,我们只希望有5%或10%的概率犯第一类错误,拒绝一个好的空值;推翻现状。

    这是一个单尾检验,所有 alpha 概率都只放在一条尾巴上,而不是像上面的双尾检验\(\alpha /2\)那样分成两尾检验。

    图 9.6 显示了两种可能的案例以及产生它们的原假设和备择假设的形式。

    图 9.6

    其中\(\mu_0\)是总体均值的假设值。

    样本量 测试统计数据
    < 30
    \(\sigma\)未知)
    \(t_{c}=\frac{\overline{X}-\mu_{0}}{s / \sqrt{n}}\)
    < 30
    \(\sigma\)已知)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{\sigma / \sqrt{n}}\)
    > 30
    \(\sigma\)未知)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{s / \sqrt{n}}\)
    > 30
    \(\sigma\)已知)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{\sigma / \sqrt{n}}\)
    表 9.4 均值检验、变化样本量、总体标准差已知或未知的检验统计量

    样本数量对检验统计量的影响

    在制定样本均值的置信区间时,我们发现大多数情况下我们没有总体标准差\(\sigma\)。 如果样本数量小于 30,我们可以简单地用点估计值代替样本标准差\(s\),然后使用学生\(t\)的分布来纠正这种信息不足的情况。\(\sigma\)

    在检验假设时,我们面临着同样的问题,解决方案完全相同。 即:如果总体标准差未知,且样本数量小于 30,则在检验统计量的公式中替换\(s\)总体标准差的点估计值,\(\sigma\)然后使用学生的\(t\)分布。 除此替换以及将分布更改为图表上学生的 t\(Z\) 分布外,以上所有公式和数字均保持不变。 请记住,只有知道问题的正确自由度,才能计算学生的 t 分布。 在这种情况下,自由度是像以前一样使用置信区间计算的:\(df = (n-1)\)。 将计算出的 t 值与学生的 t 表中与测试所需的预设置信度相关的 t 值进行比较。\(t_{\alpha, df}\) 如果我们不知道\(\sigma\),但样本数量为 30 或更多,我们只需替\(s\)\(\sigma\)并使用正态分布即可。

    表 9.4 总结了这些规则。

    检验假设的系统方法

    假设检验的系统方法遵循以下步骤并按此顺序进行。 这个模板将适用于你将要检验的所有假设。

    • 设置原假设和备择假设。 这通常是该过程中最困难的部分。 这里回顾了所问的问题。 正在检验什么参数、均值、比例、均值差异等。这是单尾检验还是双尾检验? 请记住,如果有人提出索赔,那将永远是单尾测试。
    • 确定此特定案例所需的重要程度并确定临界值。 这些可以在相应的统计表中找到。 企业的典型信心水平为80、90、95、98和99。 但是,重要程度是一项政策决策,应基于犯下 I 类错误、拒绝正确空值的风险。 考虑一下 Type I 错误的后果。

      接下来,根据假设和样本数量,选择相应的检验统计量并找到相关的临界值:\(Z_\alpha\)\(t_\alpha\)、等等。绘制相关的概率分布并标记临界值总是很有帮助的。 务必将该图与假设相匹配,尤其是在它是单尾检验的情况下。

    • 取一个或多个样本并计算相关参数:样本均值、标准差或比例。 现在,使用步骤 2 中上述检验统计量的公式,使用您刚刚计算的参数计算此特定案例的检验统计量。
    • 比较计算出的检验统计量和临界值。 在图表上标记这些可以很好地直观地了解情况。 现在只有两种情况:
      1. 检验统计量在尾部:无法接受原值,该样本均值(比例)来自假设分布的概率太小,难以相信它是这些样本数据的真正来源。
      2. 检验统计量不在尾部:无法拒绝空值,样本数据与假设的总体参数兼容。
    • 得出结论。 最好用两种不同的方式来表达结论。 首先是正式的统计结论,例如 “显著性水平为 5% 时,我们不能接受总体均值等于 XX(测量单位)的原假设”。 结论的第二项陈述不太正式,它陈述了所需的行动或不采取行动。 如果正式结论如上所述,那么非正式的结论可能是:“机器坏了,我们需要将其关闭并要求维修”。

    所有测试的假设都将经历同样的过程。 唯一的变化是相关的公式,这些公式由回答原始问题所需的假设决定。