11.3: 拟合优度测试
- Page ID
- 204563
在这种类型的假设检验中,您可以确定数据是否 “拟合” 特定分布。 例如,您可能会怀疑您的未知数据符合二项分布。 您可以使用卡方检验(这意味着假设检验的分布为卡方)来确定是否存在拟合。 该检验的空假设和备选假设可以用句子写成,也可以说成方程或不等式。
拟合优度检验的检验统计量为:
\[\sum_{k} \frac{(O-E)^{2}}{E}\nonumber\]
哪里:
- \(O\)= 观测值(数据)
- \(E\)= 预期值(来自理论)
- \(k\)= 不同数据单元格或类别的数量
观测值是数据值,而预期值是原假设为真时您期望得到的值。 表单有 n 个术语\(\frac{(O-E)^{2}}{E}\)。
自由度数为\(df\) =(类别数 — 1)。
拟合优度测试几乎总是右尾的。 如果观测值和相应的预期值彼此不接近,则检验统计量可能会变得非常大,并且将在卡方曲线的右尾中消失。
注意
要使用此测试,每个单元格内的预期值数必须至少为五个。
示例\(\PageIndex{4}\)
大学生缺勤数学课是数学教师最关心的问题,因为缺课似乎会增加辍学率。 假设进行了一项研究,以确定实际的学生缺勤率是否符合教师的看法。 根据表,教师预计将有100名学生缺课\(\PageIndex{1}\)。
\ (\ pageIndex {1}\) “>每学期缺勤人数 | 预期学生人数 |
---|---|
0—2 | 50 |
3—5 | 30 |
6—8 | 12 |
9—11 | 6 |
12+ | 2 |
然后对所有数学课程进行了随机调查,以确定某门课程的实际缺勤人数(观察到的)。 表中的图表\(\PageIndex{2}\)显示了该调查的结果。
\ (\ pageIndex {2}\) “>每学期缺勤人数 | 实际学生人数 |
---|---|
0—2 | 35 |
3—5 | 40 |
6—8 | 20 |
9—11 | 1 |
12+ | 4 |
确定进行拟合优度检验所需的零假设和备选假设。
\(\bf{H_a}\): 学生缺勤符合教师的看法。
备择假设与原假设相反。
\(\bf{H_a}\): 学生缺勤不符合教师的看法。
a. 你能否使用图表中显示的信息进行拟合优度测试?
b. 自由度数是多少 (\(df\))?
- 回答
-
解决方案 11.4
b. 每个新表格中有四个 “单元格” 或类别。
\(d f=\text { number of cells }-1=4-1=3\)
练习\(\PageIndex{4}\)
工厂经理需要了解有多少产品存在缺陷,以及生产了多少产品。 表中列出了预期缺陷的数量\(\PageIndex{5}\)。
\ (\ pageIndex {5}\) “>生产数量 | 号码有缺陷 |
---|---|
0—100 | 5 |
101—200 | 6 |
201—300 | 7 |
301—400 | 8 |
401—500 | 10 |
随机抽取样本以确定实际缺陷数。 表\(\PageIndex{6}\)显示了调查结果。
\ (\ pageIndex {6}\) “>生产数量 | 号码有缺陷 |
---|---|
0—100 | 5 |
101—200 | 7 |
201—300 | 8 |
301—400 | 9 |
401—500 | 11 |
陈述进行拟合优度检验所需的零假设和备选假设,并陈述自由度。
示例\(\PageIndex{5}\)
雇主想知道员工每周工作五天中哪几天缺勤。 大多数雇主都希望相信员工在一周内的缺勤率相同。 假设随机抽样的 60 名经理被问及他们在一周中的哪一天缺勤人数最多。 结果分布如表所示\(\PageIndex{7}\)。 对于员工群体而言,每周五天工作期间缺勤次数最多的天数是否相等? 以 5% 的显著性水平进行测试。
\ (\ pageIndex {7}\) 每周一天员工缺勤次数最多” >星期一 | 星期二 | 周三 | 星期四 | 星期五 | |
---|---|---|---|---|---|
缺勤人数 | 15 | 12 | 9 | 9 | 15 |
- 回答
-
解决方案 11.5
原假设和备选假设是:
- \(H_0\):缺席天数以相等的频率出现,也就是说,它们拟合均匀分布。
- \(H_a\): 缺席天数发生在频率不平等的情况下,也就是说,它们不符合均匀的分布。
如果缺勤天数以相等的频率出现,那么,在 60 天(样本中的总缺勤天数:\(15 + 12 + 9 + 9 + 15 = 60\))中,星期一将有 12 天缺席,星期二 12 天,星期三 12 天,星期四 12 天,星期五 12 天。 这些数字是预期的 (\(E\)) 值。 表中的值是观测值 (\(O\)) 或数据。
这次,手动计算\ chi2 检验统计量。 使用以下标题制作图表并填写各列:
- 预期 (\(E\)) 值\((12, 12, 12, 12, 12)\)
- 观测值 (\(O\))\((15, 12, 9, 9, 15)\)
- \((O – E)\)
- \((O – E)^2\)
- \(\frac{(O-E)^{2}}{E}\)
现在添加(求和)最后一列。 总和为三。 这是\(\chi^2\)测试统计数据。
计算出的检验统计量为 3,\(\chi^2\)分布在 4 个自由度处的临界值为 0.05 的置信水平为 9.48。 该值可在\(\chi^2\)表中自由度行 4 的 0.05 列中找到。
\(\text{The degrees of freedom are the number of cells }– 1 = 5 – 1 = 4\)
接下来,使用正确的标签和阴影完成如下图所示的图表。 (你应该遮住右尾巴。)
-
\[\bf{\chi}_{c}^{2}=\sum_{k} \frac{(O-E)^{2}}{E}=3\nonumber\]
决定不否定原假设,因为检验统计量的计算值不在分布的尾部。
结论:从样本数据来看,在显著性水平为5%的情况下,没有足够的证据得出结论,缺席天数不是在相同频率下发生的。
练习\(\PageIndex{5}\)
老师们想知道学生每周哪个晚上都在做大部分作业。 大多数老师认为学生在一周内做家庭作业是平等的。 假设一个随机抽样的56名学生被问及他们在一周中的哪个晚上做的作业最多。 结果分布如表所示\(\PageIndex{8}\)。
\ (\ pageIndex {8}\) “>星期日 | 星期一 | 星期二 | 周三 | 星期四 | 星期五 | 星期六 | |
---|---|---|---|---|---|---|---|
学生人数 | 11 | 8 | 10 | 7 | 10 | 5 | 5 |
从学生人数来看,完成大部分作业的学生的夜晚在一周内是否以相等的频率进行? 你应该使用哪种类型的假设检验?
示例\(\PageIndex{6}\)
一项研究表明,美国家庭拥有的电视机数量是分布的(这是美国家庭的给定分布情况),如表所示\(\PageIndex{9}\)。
\ (\ pageIndex {9}\) “>电视机数量 | 百分比 |
---|---|
0 | 10 |
1 | 16 |
2 | 55 |
3 | 11 |
4+ | 8 |
对美国西部遥远的600个家庭进行了随机抽样,得出了表中的数据\(\PageIndex{10}\)。
\ (\ pageIndex {10}\) “>电视机数量 | 频率 |
---|---|
总计 = 600 | |
0 | 66 |
1 | 119 |
2 | 340 |
3 | 60 |
4+ | 15 |
该表包含观测的 (\(O\)) 频率值。
在1%的显著性水平上,美国远西部家庭的 “电视数量” 分布似乎与整个美国人口的分布有所不同吗?
- 回答
-
解决方案 11.6
这个问题要求你测试美国西部的家庭分布是否符合美国家庭的分布。 这个测试总是右尾的。
第一张表包含预期的百分比。 要获得预期 (E) 频率,请将百分比乘以 600。 预期频率如表所示\(\PageIndex{11}\)。
\ (\ pageIndex {11}\) “>电视机数量 百分比 预期频率 0 10 (0.10) (600) = 60 1 16 (0.16) (600) = 96 2 55 (0.55) (600) = 330 3 11 (0.11) (600) = 66 3 岁以上 8 (0.08) (600) = 48 桌子\(\PageIndex{11}\) 因此,预期频率为 60、96、330、66 和 48。
\(H_0\):美国远西部家庭的 “电视数量” 分布与美国人口的 “电视数量” 分布相同。
\(H_a\):美国远西部家庭的 “电视数量” 分布与美国人口的 “电视数量” 分布不同。
测试分布:\(\chi_{4}^{2} \text { where } d f=(\text { the number of cells })-1=5-1=4\).
计算测试统计数据:\(\chi^2 = 29.65\)
图表:
卡方图显示了分布并以四个自由度标记临界值,置信度为 99%,α = .01,13.277。 该图还标记了计算出的 29.65 的 chi 平方检验统计量。 将检验统计量与临界值进行比较,就像我们在所有其他假设检验中所做的那样,得出结论。
做出决定:因为检验统计量位于分布的尾部,所以我们不能接受原假设。
这意味着你拒绝这样的信念,即远西各州的分布与整个美国人口的分布相同。
结论:从数据来看,在1%的显著性水平上,有足够的证据得出结论,美国西部的 “电视数量” 分布与整个人口的 “电视数量” 分布不同。
练习\(\PageIndex{6}\)
学生家中宠物数量的预期百分比是分布的(这是美国学生群体的给定分布),如表所示\(\PageIndex{12}\)。
\ (\ pageIndex {12}\) “>宠物数量 | 百分比 |
---|---|
0 | 18 |
1 | 25 |
2 | 30 |
3 | 18 |
4+ | 9 |
来自美国东部的 1,000 名学生随机抽样得出了表中的数据\(\PageIndex{13}\)。
\ (\ pageIndex {13}\) “>宠物数量 | 频率 |
---|---|
0 | 210 |
1 | 240 |
2 | 320 |
3 | 140 |
4+ | 90 |
在1%的显著性水平上,美国东部学生的 “宠物数量” 分布似乎与整个美国学生群体的分布有所不同吗?
示例\(\PageIndex{7}\)
假设你掷两枚硬币 100 次。 结果是\(20 HH, 27 HT, 30 TH\)、和\(23 TT\)。 这些硬币公平吗? 以 5% 的显著性水平进行测试。
- 回答
-
解决方案 11.7
这个问题可以设置为拟合优度问题。 翻转两枚精美硬币的样本空间为\(\{HH, HT, TH, TT\}\)。 在 100 次翻转中,你预计有 25 次\(HH, 25 HT, 25 TH\),而且\(25 TT\)。 这是二项式概率分布的预期分布。 问题是 “硬币公平吗?” 就像说:“硬币的分布是否\((20 HH, 27 HT, 30 TH, 23 TT)\)符合预期的分布?”
随机变量:让\(X\) = 两枚硬币一次翻转的头数。 X 取值 0、1、2。 (两枚硬币的翻转中有 0、1 或 2 个头。) 因此,细胞的数量为三个。 由于\(X\) = 头数,因此观测到的频率为 20(对于两个头)、57(对于一个头)和 23(对于零个头部或两个尾部)。 预期频率为 25(对于两个头)、50(对于一个头)和 25(对于零个头部或两个尾部)。 这个测试是右尾的。
\(\bf{H_0}\): 硬币很公平。
\(\bf{H_a}\): 这些硬币不公平。
测试分布:\(\chi_2^2\)哪里\(df = 3 – 1 = 2\)。
计算测试统计数据:\(\chi^2 = 2.14\).
图表:
卡方图显示了分布并以两个自由度标记临界值,置信度为 95%\(\alpha = 0.05\),即 5.991。 该图还标记了 2.14 的计算得出的\(\chi^2\)检验统计量。 将检验统计量与临界值进行比较,就像我们在所有其他假设检验中所做的那样,得出结论。
结论:没有足够的证据得出硬币不公平的结论:我们不能否认硬币公平的原假设。