11.4: 独立性考验
- Page ID
- 204597
独立性测试包括使用观测(数据)值的列联表。 独立性检验的检验统计量与拟合优度检验的检验统计量类似:
\[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]
哪里:
- \(O\)= 观测值
- \(E\)= 预期值
- \(i\)= 表中的行数
- \(j\)= 表中的列数
表格中有\(i \cdot j\)条款\(\frac{(O-E)^{2}}{E}\)。
独立性检验确定两个因素是否独立。 您在之前的表 3.1 中首次遇到了 “独立” 一词。 作为回顾,请考虑以下示例。
注意
要使用此测试,每个单元格内的预期值必须至少为五个。
示例 11.8
假设\(A\) = 去年的超速违规行为,\(B\)= 开车时使用手机。 如果\(A\)并且\(B\)是独立\(P(A \cap B)=P(A) P(B) . A \cap B\)的,那么去年驾驶员违反了超速行驶规定,并且在开车时还使用了手机。 假设在一项针对去年发生超速违规行为并在开车时使用手机的司机的研究中,对755人进行了调查。 在755辆车中,有70辆有超速违规行为,685辆没有;305辆在开车时使用手机,450辆没有。
假设 y = 驾驶时使用手机并收到超速违规行为的预计司机人数。
如果\(A\)和\(B\)是独立的,那么\(P(A \cap B)=P(A) P(B)\)。 通过替代,
\[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]
求解\(y\):\(y=\frac{(70)(305)}{755}=28.3\)
预计样本中约有28人在开车时使用手机,并收到超速违规行为。
在独立性检验中,我们用文字陈述原假设和备选假设。 由于列联表由两个因子组成,因此原假设表明这两个因子是独立的,而备择假设表明它们不是独立的(依存的)。 如果我们用这个例子做独立性检验,那么原假设是:
\(H_0\): 驾驶时使用手机和收到超速违规行为是独立的事件;换句话说,它们彼此之间没有影响。
如果原假设成立,我们预计大约有28人在开车时使用手机,并收到超速违规行为。
由于检验统计量的计算,独立性检验总是右尾的。 如果预期值和观测值不接近,则检验统计量非常大,并且在卡方曲线的右尾处出路,就像在拟合优度中一样。
独立性检验的自由度数为:
\(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)
以下公式计算预期数字 (E):
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]
练习 11.8
采集了 300 名学生的样本。 在接受调查的学生中,有50人是音乐系学生,而250人不是。 在300名受访者中,有97人进入了荣誉榜,而203人没有进入荣誉榜。 如果我们假设身为音乐系学生并进入荣誉榜是独立活动,那么预计同时进入荣誉榜的音乐学生人数是多少?
示例 11.9
志愿者团体每周为残疾老年人提供一到九个小时的服务。 该计划招募社区大学生、四年制大学生和非学生。 表 11.14 中列出了成人志愿者的样本以及他们每周志愿服务的小时数。
志愿者类型 | 1—3 小时 | 4—6 小时 | 7—9 小时 | 总行数 |
---|---|---|---|---|
社区大学生 | 111 | 96 | 48 | 255 |
四年制大学生 | 96 | 133 | 61 | 290 |
非学生 | 91 | 150 | 53 | 294 |
栏目总计 | 298 | 379 | 162 | 839 |
志愿服务的小时数是否与志愿者的类型无关?
- 回答
-
解决方案 11.9
观察表和问题结尾处的问题:“志愿者的小时数与志愿者的类型无关吗?” 告诉你这是对独立性的考验。 这两个因素是志愿者的小时数和志愿者的类型。 这个测试总是右尾的。
\(H_0\): 志愿者的时数与志愿者的类型无关。
\(H_a\): 志愿服务的小时数取决于志愿者的类型。
该表包含预期 (E) 值(数据)。 志愿者类型 1-3 个小时 4-6 个小时 7-9 个小时 社区大学生 90.57 115.19 49.24 四年制大学生 103.00 131.00 56.00 非学生 104.42 132.81 56.77 表 11.15 按志愿者类型分列的每周工作时数(预期) 例如,左上角单元格的预期频率的计算结果为
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]
计算测试统计量:\(\chi^2 = 12.99\)(计算器或计算机)
测试分布:\(\chi_4^2\)
\(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)
图表:
卡方图显示了分布并以四个自由度标记临界值,置信度为 95%\(\alpha = 0.05\),9.488。 该图还标记了计算得出的\(\chi_{c}^{2}\)检验统计量 12.99。 将检验统计量与临界值进行比较,就像我们在所有其他假设检验中所做的那样,得出结论。
做出决定:因为计算出的检验统计量在尾部,所以我们不能接受 H 0。 这意味着这些因素不是独立的。
结论:从数据来看,重要性为5%,有足够的证据得出结论,志愿者的时数和志愿者的类型相互依赖。
以表11.15中的例子为例,如果还有另一种类型的志愿者,即青少年,那么自由度会是多少?
练习 11.9
劳工统计局收集有关美国就业的数据。 抽取样本来计算一段时间内在多个行业之一工作的美国公民人数。 表 11.16 显示了结果:
行业板块 | 2000 | 2010 | 2020 | 总计 |
---|---|---|---|---|
非农业工资和薪水 | 13,243 | 13,044 | 15,018 | 41,305 |
商品生产,不包括农业 | 2,457 | 1,771 | 1,950 | 6,178 |
提供服务 | 10,786 | 11,273 | 13,068 | 35,127 |
农业、林业、渔业和狩猎 | 240 | 214 | 201 | 655 |
非农业自雇人士和无报酬家庭工人 | 931 | 894 | 972 | 2,797 |
农业和私营家庭行业的二级工资和薪金工作 | 14 | 11 | 11 | 36 |
自雇或无报酬家庭工人的次要工作 | 196 | 144 | 152 | 492 |
总计 | 27,867 | 27,351 | 31,372 | 86,590 |
我们想知道工作数量的变化是否与年份的变化无关。 陈述原假设和备选假设以及自由度。
示例 11.10
德安扎学院对焦虑程度与在学校取得成功的需求之间的关系感兴趣。 随机抽样的400名学生参加了一项测验,该测试测量了焦虑程度和在学校取得成功所需的条件。 表 11.17 显示了结果。 De Anza College 想知道焦虑程度和在学校取得成功的需求是否是独立活动。
需要在学校取得成功 | 高度 焦虑 |
中度 焦虑 |
中度 焦虑 |
中低 焦虑 |
低 焦虑 |
总行数 |
---|---|---|---|---|---|---|
需求量很高 | 35 | 42 | 53 | 15 | 10 | 155 |
中等需求 | 18 | 48 | 63 | 33 | 31 | 193 |
需求低 | 4 | 5 | 11 | 15 | 17 | 52 |
栏目总计 | 57 | 95 | 127 | 63 | 58 | 400 |
a. 预计有多少高度焦虑程度的学生迫切需要在学校取得成功?
- 回答
-
解决方案 11.10
a. 高度焦虑程度的列总数为 57。 需要在学校取得成功的总行数为155行。 调查的样本数量或总数为 400。
\[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]
预计焦虑程度高且迫切需要在学校取得成功的学生人数约为22人。
b. 如果这两个变量是独立的,那么你预计有多少学生在学校取得成功的需求很低,焦虑程度中低?
- 回答
-
解决方案 11.10
b. 中低焦虑水平的列总数为 63。 在学校取得成功的需求较低的总行数为52。 调查的样本数量或总数为 400。
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________
- 回答
-
解决方案 11.10
c。\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)
d. 焦虑程度中低且需要在学校取得成功的学生人数预计约为________。
- 回答
-
解决方案 11.10
d. 8