Skip to main content
Global

9.2:结果以及 I 类和 II 类错误

  • Page ID
    204992
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    当您进行假设检验时,有四种可能的结果,具体取决于原假设的实际真相(或虚假性)\(H_0\)以及是否拒绝的决定。 结果汇总在下表中:

    表 9.2
    \(\textbf{Statistical Decision}\) \(\bf{H_0} \textbf{ is actually...}\)
    \ (\ textbf {统计决策}\)” style= “vertical-align: middle;” > \ (\ bf {H_0}\ textbf {实际上是...}\)” style= “vertical-align: middle;” > T rue 假的
    \ (\ textbf {统计决策}\)” style= “vertical-align: middle;” > 无法接受\(H_0\) \ (\ bf {H_0}\ textbf {实际上是...}\)” style= “vertical-align: middle;” >Type I 错误 正确的结果
    \ (\ textbf {统计决策}\)” style= “vertical-align: middle;” > 无法拒绝\(H_0\) \ (\ bf {H_0}\ textbf {实际上是...}\)” style= “vertical-align: middle;” > 正确的结果 类型 II 错误

    表中的四种可能结果是:

    1. 当决定为\(\bf{H_0}\)\(\bf{H_0}\),决定不能拒绝(正确的决定)。
    2. \(\bf{H_0}\)如果\(\bf{H_0}\)是真的,则决定不可接受(错误的决定被称为 I 错误)。 这种情况被描述为 “拒绝一个好的空值”。 正如我们稍后将看到的那样,我们将通过设置发生此类错误的概率来防范这种错误。 目标是不要采取错误的行动。
    3. \(\bf{H_0}\)如果事实上是错误的,则不能拒绝\(\bf{H_0}\)该决定(错误的决定被称为 II 类错误)。 这被称为 “接受假空值”。 在这种情况下,你允许现状保持不变,而现状本应被推翻。 正如我们将看到的,原假设在与替代假设的竞争中具有优势。
    4. 如果决定是错误的(正确的决定),\(\bf{H_0}\)则该决定\(\bf{H_0}\)不可接受的。

    每个错误都以特定的概率发生。 希腊字母\(\alpha\)\(\beta\)代表概率。

    • \(\alpha\)= I 型错误的概率 =\(\bf{P}\)(I 型错误)= 当原假设为真时否定原假设的概率:拒绝一个好的原值。
    • \(\beta\)= II 型错误的概率 =\(\bf{P}\)(II 型错误)= 原假设为假时不否定原假设的概率。 (\(1 − \beta\)) 被称为 “测试之力”。

    \(\alpha\)并且\(\beta\)应该尽可能小,因为它们是错误的概率。

    统计数据允许我们设置出现 I 类错误的概率。 出现 I 类错误的概率为\(\alpha\)。 回想一下,最后一个单位的置信区间是通过选择一个名为\(Z_{\alpha}\)(或\(t_{\alpha}\))的值来设置的,而 alpha 值决定了估计值的置信水平,因为这是区间未能捕获真实均值(或比例参数\(p\))的概率。 这个 alpha 和那个 alpha 是一样的。

    查看 alpha 误差和置信度之间关系的最简单方法是使用下图。

    图 9.2

    图 9.2 的中心标有正态分布的采样分布\(H_0\)。 这是采样分布\(\overline X\),根据中心极限定理,它是正态分布。 中心的分布已标记\(H_0\),表示原假设的分布\(H_0\)\(\mu = 100\)。 这是正在测试的值。 图下方列出了原假设和备选假设的正式陈述。

    根据列为 Ha 的\(H_0\)备择假设,分布两侧的分布表示如果为假\(H_0\)则为真分布。 我们不知道哪个是真的,也永远不会知道。 实际上,如果 Ha 为真,则可以从无限数量的分布中提取数据,但是图 9.2 中只有两个分布代表所有其他分布。

    为了检验一个假设,我们从总体中抽取一个样本,然后确定它是否可能来自具有可接受显著性的假设分布。 此显著性级别是 alpha 误差,在图 9.2 中标记为\(H_0\)分布每条尾部的阴影区域。 (每个区域实际上都是\ alpha/2,因为分布是对称的,备择假设允许该值可能大于或小于假设值(称为双尾检验)。

    如果样本均值在分布的尾部标记为 “\(\overline{X}_{1}\)是”\(H_0\),则我们得出结论,它可能来自\(H_0\)分布的概率小于 alpha。 因此,我们指出:“原假设在 (\ alpha) 显著性水平下是不可接受的”。 事实可能是,这\(\overline{X}_{1}\)确实来自分\(H_0\)发,但来自尾巴。 如果是这样,那么我们就错误地拒绝了真正的原假设,并犯了 I 型错误。 统计数据所做的就是对我们所知道的和我们控制的东西进行估计,那就是我们犯错的概率\(\alpha\)

    我们还可以在图 9.2 中看到,样本均值实际上可能来自 Ha 分布,但在 alpha 水平设定的边界内。 这种情况被标记为\(\overline{X}_{2}\)。 有一种可能性\(\overline{X}_{2}\)实际上来自哈,但出现在两条尾巴\(H_0\)之间的范围内。 这个概率是 beta 错误,即接受假空值的概率。

    我们的问题是,我们只能设置 alpha 误差,因为存在无限数量的替代分布,均值可能不等于\(H_0\)。 因此,统计学家将举证责任置于备择假设上。 也就是说,除非原假设的概率大于 90、95 甚至 99%,否则我们不会否定原假设:举证责任在于备择假设。 这就是为什么我们早些时候称之为现状的暴政。

    举个例子,美国司法制度从被告被 “推定无罪” 的概念开始。 这是现状,也是原假设。 法官将告诉陪审团,除非证据表明被告有罪,否则 “合理怀疑”(在刑事案件中通常定义为95%的有罪确定性),否则他们无法认定被告有罪。 如果陪审团不能接受无效的、无罪的,那么就会采取行动,入狱。 举证责任始终在于备选假设。 (在民事案件中,陪审团只需要对不当行为有50%以上的确定性即可认定罪责,这被称为 “大量证据”)。

    上面的例子是针对均值的检验,但同样的逻辑适用于人们可能希望检验的所有统计参数的假设检验。

    以下是类型 I 和类型 II 错误的示例。

    示例 9.4

    假设原假设是:弗兰克的攀岩设备是安全的。\(H_0\)

    第一类错误:弗兰克认为他的攀岩设备可能不安全,而事实上它确实很安全。

    第二类错误:弗兰克认为他的攀岩设备可能是安全的,而实际上它并不安全。

    \(\bf{\alpha =}\)弗兰克可能认为自己的攀岩设备可能不安全,而事实上它确实很安全。 \(\bf{\beta =}\)弗兰克可能认为自己的攀岩设备可能是安全的,而事实上它并不安全。

    请注意,在这种情况下,后果最大的错误是 Type II 错误。 (如果弗兰克认为自己的攀岩装备是安全的,他会继续使用它。)

    这种情况被描述为 “接受假空值”。

    示例 9.5

    假设原假设是:车祸的受害者到达医院急诊室时还活着。\(H_0\) 这是现状,如果是真的,则无需采取任何行动。 如果无法接受原假设,则需要采取行动,医院将开始适当的程序。

    第一类错误:紧急救援人员认为受害者已经死亡,而受害者实际上还活着。 第二类错误:实际上,受害者已经死亡,紧急救援人员不知道受害者是否还活着。

    \(\bf{\alpha =}\)实际上,紧急救援人员认为受害者已经死亡的概率 = P(I 型错误)。 \(\bf{\beta =}\)实际上,受害者死亡时,紧急救援人员不知道受害者是否还活着的概率 = P(II 型错误)。

    后果更大的错误是 I 型错误。 (如果紧急救援人员认为受害者已经死亡,他们就不会治疗他。)

    练习 9.5

    假设原假设是:患者没有生病。\(H_0\) 哪种错误的后果更大,第一类还是第二类?

    示例 9.6

    Boy Genetic Labs声称能够增加怀孕导致男孩出生的可能性。 统计学家想检验这一说法。 假设原假设是:这是个男孩遗传实验室对性别结果没有影响。\(H_0\) 现状是这种说法是错误的。 举证责任始终由提出索赔的人承担,在本例中为遗传学实验室。

    I 型错误:当真原假设被拒绝时,就会产生这种错误。 在这种情况下,我们可以说,我们相信 It's a Boy Genetic Labs 会影响性别结果,而实际上它没有任何影响。 此错误发生的概率由希腊字母 alpha\ alpha 表示。

    II 型错误:当我们未能否定错误的原假设时,就会产生这种错误。 在上下文中,我们可以说,这是个男孩遗传实验室不会影响妊娠的性别结果,而事实上它确实如此。 此错误发生的概率由希腊字母 beta\ beta 表示。

    后果更大的错误是 I 型错误,因为情侣们会使用 It's a Boy Genetic Labs 产品,希望增加生孩子的机会。

    练习 9.6

    “赤潮” 是产毒藻类的花朵,这是一种叫做 dinoflagellates 的浮游生物中的几种不同的物种。 当天气和水况导致这些花朵时,生活在该地区的蛤蜊等贝类会产生危险水平的诱发麻痹的毒素。 在马萨诸塞州,海洋渔业司(DMF)通过定期对海岸线上的贝类进行采样来监测贝类中的毒素水平。 如果任何地区蛤蜊中的平均毒素含量超过每千克蛤肉含有 800 微克(微克)的毒素,则禁止在那里收获蛤蜊,直到开花结束且蛤蜊中的毒素水平消退。 在此上下文中描述类型I和II型错误,并说明哪个错误的后果更大。

    示例 9.7

    某种实验药物声称前列腺癌男性的治愈率至少为75%。 在上下文中描述类型 I 和类型 II 错误。 哪个错误更严重?

    I型:癌症患者认为该药物的治愈率低于75%,而实际上治愈率至少为75%。

    II型:癌症患者认为,当实验药物的治愈率低于75%时,其治愈率至少为75%。

    在这种情况下,Type II 错误包含更严重的后果。 如果患者认为该药物至少有75%的时间有效,这很可能会影响患者(和医生)选择是否使用该药物作为治疗方案。