2.2:数据位置的测量
- Page ID
- 204712
常用的位置度量是四分位数和百分位数
四分位数是特殊的百分位数。 第一个四分位数与\(25^{th}\)百分位数相同,第三个四分位数与\(75^{th}\)百分位数相同。\(Q_1\)\(Q_3\) 中位数 M 既称为第二个四分位数,也称为第 50 个百分位数。
要计算四分位数和百分位数,数据必须从小到大排序。 四分位数将有序数据分成四分之一。 百分位数将有序数据分成百分之一。 在考试的\(90^{th}\)百分位数中分数并不一定意味着你在考试中获得了 90% 的分数。 这意味着 90% 的测试分数等于或小于您的分数,10% 的测试分数等于或大于您的测试分数。
百分位数对于比较值很有用。 出于这个原因,大学和学院广泛使用百分位数。 学院和大学使用百分位数的一个例子是使用 SAT 成绩来确定将用作录取系数的最低考试分数。 例如,假设杜克大学接受的SAT分数等于或高于\(75^{th}\)百分位数。 这意味着分数至少为1220。
百分位数主要用于人口非常多。 因此,如果你说 90% 的测试分数低于你的分数(且不等于或小于),那是可以接受的,因为删除一个特定的数据值并不重要。
中位数是衡量数据 “中心” 的数字。 你可以将中位数视为 “中间值”,但它实际上不一定是观测值之一。 它是一个将有序数据分成两半的数字。 一半的值等于或小于中位数,一半的值是相同或更大的数字。 例如,考虑以下数据。
\(1; 11.5; 6; 7.2; 4; 8; 9; 10; 6.8; 8.3; 2; 2; 10; 1\)
从小到大排序:
\(1; 1; 2; 2; 4; 6; 6.8; 7.2; 8; 8.3; 9; 10; 10; 11.5\)
由于有 14 个观测值,因此中位数介于第七个值 6.8 和第八个值 7.2 之间。 要找到中位数,请将两个值相加,然后除以二。
\[\frac{6.8+7.2}{2}=7\nonumber\]
中位数为七。 一半的值小于七,一半的值大于七。
四分位数是将数据分成季度的数字。 四分位数可能是也可能不是数据的一部分。 要找到四分位数,请先找到中位数或第二个四分位数。 第一个四分位数是数据下半部分的中间值,第三个四分位数是数据上半部分的中间值或中位数。\(Q_1\)\(Q_3\) 要想明白,请考虑相同的数据集:
1;1;2;2;4;6;6.8;7.2;8;8.3;9;10;10;11.5
中位数或第二个四分位数为七。 数据的下半部分是 1、1、2、2、4、6、6.8。 下半部分的中间值为二。
1; 1; 2; 2; 4; 6; 6.8
数字二是数据的一部分,是第一个四分位数。 整组值的四分之一等于或小于两个,四分之三的值大于两个。
数据的上半部分是 7.2、8、8.3、9、10、10、11.5。 上半部分的中间值为九。
第三个四分位\(Q_3\)数是九。 有序数据集的四分之三 (75%) 小于九。 有序数据集的四分之一 (25%) 大于九。 第三个四分位数是本示例中数据集的一部分。
四分位间距是一个数字,表示数据的中间一半或中间 50% 的分布。 它是第三四分位数 (\(Q_3\)) 和第一个四分位数 (\(Q_1\)) 之间的差。
\(IQR = Q_3 – Q_1\)
\(IQR\)可以帮助确定潜在的异常值。 如果某个值小于第一四分位数或大于\(\bf{(1.5)(IQR)\)第三四分位数,则怀疑该值是潜在的异常值。\(\bf{(1.5)(IQR)}\) 潜在的异常值总是需要进一步调查。
潜在异常值
潜在的异常值是与其他数据点明显不同的数据点。 这些特殊的数据点可能是错误或某种异常,也可能是理解数据的关键。
示例\(\PageIndex{14}\)
对于以下 13 个房地产价格,计算\(IQR\)并确定是否有任何价格是潜在的异常值。 价格以美元为单位。
\(389,950; 230,500; 158,000; 479,000; 639,000; 114,950; 5,500,000; 387,000; 659,000; 529,000; 575,000; 488,800; 1,095,000\)
- 回答
-
解决方案 2.14
将数据从小到大排序。
\(114,950; 158,000; 230,500; 387,000; 389,950; 479,000; 488,800; 529,000; 575,000; 639,000; 659,000; 1,095,000; 5,500,000\)
\(M = 488,800\)
\(Q_{1}=\frac{230,500+387,000}{2}=308,750\)
\(Q_{3}=\frac{639,000+659,000}{2}=649,000\)
\(IQR = 649,000 – 308,750 = 340,250\)
\((1.5)(IQR) = (1.5)(340,250) = 510,375\)
\(Q_1 – (1.5)(IQR) = 308,750 – 510,375 = –201,625\)
\(Q_3 + (1.5)(IQR) = 649,000 + 510,375 = 1,159,375\)
任何房价都不低于\(–201,625\)。 但是,\(5,500,000\)不止是\(1,159,375\)。 因此,\(5,500,000\)是一个潜在的异常值。
示例\(\PageIndex{15}\)
对于测试分数示例中的两个数据集,请查找以下内容:
- 四分位间距。 比较两个四分位间距。
- 任一集合中的任何异常值。
- 回答
-
解决方案 2.15
日间和晚间课程的五个数字摘要是
\ (\ pageIndex {21}\) “>最小值 \(Q_1\) 中位数 \(Q_3\) 最大 Day 32 \ (Q_1\)” class= “lt-stats-4548” >56 74.5 \ (Q_3\)” class= “lt-stats-4548” >82.5 99 晚上 25.5 \ (Q_1\)” class= “lt-stats-4548” >78 81 \ (Q_3\)” class= “lt-stats-4548” >89 98 桌子\(\PageIndex{21}\) a. 每日组为\(IQR\)\(Q_3 – Q_1 = 82.5 – 56 = 26.5\)
\(IQR\)晚间团体是\(Q_3 – Q_1 = 89 – 78 = 11\)
日间课的四分位间距(点差或变异性)大于夜间课堂\(IQR\)。 这表明日间课堂的课堂考试成绩会有更多差异。
b. 使用\(IQR\)乘以 1.5 规则找到日间分类异常值。 所以,- \(Q_1 - IQR(1.5) = 56 – 26.5(1.5) = 16.25\)
- \(Q_3 + IQR(1.5) = 82.5 + 26.5(1.5) = 122.25\)
由于日间课程的最小值和最大值大于\(16.25\)和小于\(122.25\),因此没有异常值。
夜班异常值的计算公式为:
- \(Q_1 – IQR (1.5) = 78 – 11(1.5) = 61.5\)
- \(Q_3 + IQR(1.5) = 89 + 11(1.5) = 105.5\)
对于本课程,任何低于的测试分数均\(61.5\)为异常值。 因此,\(45\)和的分数\(25.5\)是异常值。 由于没有任何测试分数大于 105.5,因此没有上限异常值。
示例\(\PageIndex{16}\)
五十名统计专业的学生被问及每个上课之夜有多少睡眠(四舍五入到最接近的小时)。 结果是:
\ (\ pageIndex {22}\) “>每个上课之夜的睡眠量(小时) | 频率 | 相对频率 | 累积相对频率 |
---|---|---|---|
4 | 2 | 0.04 | 0.04 |
5 | 5 | 0.10 | 0.14 |
6 | 7 | 0.14 | 0.28 |
7 | 12 | 0.24 | 0.52 |
8 | 14 | 0.28 | 0.80 |
9 | 7 | 0.14 | 0.94 |
10 | 3 | 0.06 | 1.00 |
找到第 28 个百分位数。 注意 “累积相对频率” 列中的 0.28。 50 个数据值中的 28% 是 14 个值。 有 14 个值比第 28 个百分位数少。 它们包括两个 4s、五个 5s 和七个 6s。 第 28 个百分位数介于最后六个和前七个百分位之间。 第 28 个百分位数为 6.5。
找出中位数。 再次查看 “累积相对频率” 列并找到 0.52。 中位数是第 50 个百分位数或第二个四分位数。50 的 50% 为 25。 有 25 个值比中位数少。 它们包括两个 4s、五个 5s、七个 6s 和 7 个中的 11 个。 中位数或第 50 个百分位数介于第 25 个或第 7 个值和第 26 个或第 7 个值之间。 中位数为七。
找到第三个四分位数。 第三个四分位数与\(75^{th}\)百分位数相同。 你可以 “盯着” 这个答案。 如果你查看 “累积相对频率” 列,你会发现0.52和0.80。 当你拥有所有四、五、六和七时,你就有 52% 的数据。 如果将所有 8 都包括在内,则拥有 80% 的数据。 那么,\(bf{75^{th}}\)百分位数必须是八。 另一种看待问题的方法是找出 50 中的 75%,即 37.5,四舍五入到 38。 第三个四分位数是第 38 个值,即八分位数。\(Q_3\) 你可以通过计算值来检查这个答案。 (第三四分位数以下有 37 个值,上面有 12 个值。)
练习\(\PageIndex{16}\)
四十名公交车司机被问及他们每天花多少小时运行路线(四舍五入到最接近的小时)。 找到第 65 个百分位数。
\ (\ pageIndex {23}\) “>在路径上花费的时间(小时) | 频率 | 相对频率 | 累积相对频率 |
---|---|---|---|
2 | 12 | 0.30 | 0.30 |
3 | 14 | 0.35 | 0.65 |
4 | 10 | 0.25 | 0.90 |
5 | 4 | 0.10 | 1.00 |
示例\(\PageIndex{17}\)
使用表格\(\PageIndex{22}\):
- 找到\(80^{th}\)百分位数。
- 找到\(90^{th}\)百分位数。
- 找到第一个四分位数。 第一个四分位数的另一个名字是什么?
- 回答
-
解决方案 2.17
使用频率表中的数据,我们有:
a.\(80^{th}\) 百分位数介于表中最后八个和前九个之间(介于\(40^{th}\)和\(41^{st}\)值之间)。 因此,我们需要取和值的平均\(41^{st}\)值。\(40^{th}\) \(80^{th}\)百分位数\(=\frac{8+9}{2}=8.5\)
b.\(90^{th}\) 百分位数将是\(45^{th}\)数据值(位置为\(0.90(50) = 45\)),第 45 个数据值为 9。
c.\(Q_1\) 也是第 25 个百分位数。 \(25^{th}\)百分位数位置计算:\(P_{25}=0.25(50)=12.5 \approx 13\)\(13^{th}\)数据值。 因此,\(25^{th}\)百分位数为六。
求出\(k\)第 2 个百分位数的公式
如果你做一点研究,你会发现几个计算\(k^{th}\)百分位数的公式。 这是其中之一。
\(k =\)\(k^{th}\)百分位数。 它可能是也可能不是数据的一部分。
\(i =\)索引(数据值的排名或位置)
\(n =\)数据点或观测值的总数
- 将数据从小到大排序。
- 计算\(i=\frac{k}{100}(n+1)\)
- 如果 i 是整数,则\(k^{th}\)百分位数是有序数据集中\(i^{th}\)位置的数据值。
- 如果 i 不是整数,则向上舍入 i 并将其向下四舍五入到最接近的整数。 对有序数据集中这两个位置的两个数据值求平均值。 在示例中这更容易理解。
示例\(\PageIndex{18}\)
列出了获得奥斯卡金像奖的最佳男主角的29个年龄,按从小到大的顺序排列。
\(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)
- 找到\(70^{th}\)百分位数。
- 找到\(83^{rd}\)百分位数。
- 回答
-
解决方案 2.18
1。
- \(k = 70\)
- \(i\)= 索引
- \(n = 29\)
-
2。
- \(k = 83^{rd}\)百分位数
- \(i\)= 索引
- \(n = 29\)
练习\(\PageIndex{18}\)
列出了获得奥斯卡金像奖的最佳男主角的29个年龄,按从小到大的顺序排列。
\(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)
计算第 20 个百分位数和第 55 个百分位数。
用于在数据集中查找值的百分位数的公式
- 将数据从小到大排序。
- \(x\)= 从数据列表底部向上计算的数据值的数量,但不包括要查找百分位数的数据值。
- \(y\)= 数据值的数量等于要查找百分位数的数据值。
- \(n\)= 数据总数。
- 计算\(\frac{x+0.5 y}{n}(100)\)。 然后四舍五入到最接近的整数。
示例\(\PageIndex{19}\)
列出了获得奥斯卡金像奖的最佳男主角的29个年龄,按从小到大的顺序排列。
\(18; 21; 22; 25; 26; 27; 29; 30; 31; 33; 36; 37; 41; 42; 47; 52; 55; 57; 58; 62; 64; 67; 69; 71; 72; 73; 74; 76; 77\)
- 找出 58 的百分位数。
- 找出 25 的百分位数。
- 回答
-
解决方案 2.19
1。 从列表底部算起,有 18 个数据值小于 58。 有一个值为 58。
\(x = 18\)而\(y=1 . \frac{x+0.5 y}{n}(100)=\frac{18+0.5(1)}{29}(100)=63.80\). 58 是\(64^{th}\)百分位数。
2。 从列表底部算起,有三个小于 25 的数据值。 有一个值为 25。\(x = 3\)和\(y=1 . \frac{x+0.5 y}{n}(100)=\frac{3+0.5(1)}{29}(100)=12.07\)。 二十五是\(12^{th}\)百分位数。
解释百分位数、四分位数和中位数
百分位数表示当数据按从小到大的数字顺序排序时数据值的相对地位。 数据值的百分比小于或等于第 p 个百分位数。 例如,15% 的数据值小于或等于第 15 个百分位数。
- 低百分位数始终对应于较低的数据值。
- 高百分位数始终对应于较高的数据值。
百分位数可能与关于其是 “好” 还是 “坏” 的价值判断相对应,也可能不对应。 对某个百分位数是 “好” 还是 “坏” 的解释取决于数据所适用情况的背景。 在某些情况下,较低的百分位数将被视为 “良好”;在其他情况下,较高的百分位数可能被视为 “良好”。 在许多情况下,没有适用的价值判断。
了解如何正确解释百分位数不仅在描述数据时很重要,而且在本文后面的章节中计算概率时也很重要。
注意
在给定数据的上下文中写出百分位数的解释时,句子应包含以下信息。
- 关于正在考虑的情况背景的信息
- 表示百分位数的数据值(变量的值)
- 数据值低于百分位数的个人或项目的百分比
- 数据值高于百分位数的个人或项目的百分比。
示例\(\PageIndex{20}\)
在定时数学考试中,完成考试所需时间的前四分位数为 35 分钟。 在这种情况下解释第一个四分位数。
- 回答
-
解决方案 2.20
25% 的学生在 35 分钟或更短的时间内完成了考试。 百分之七十五的学生在 35 分钟或更长时间内完成了考试。 低百分位数可以说是好的,因为更快地完成定时考试是可取的。 (如果你花了太长时间,你可能无法完成。)
示例\(\PageIndex{21}\)
在 20 个问题的数学测试中,正确答案数的第 70 个百分位数为 16。 在这种情况下解释第 70 个百分位数。
- 回答
-
解决方案 2.21
70% 的学生正确回答了 16 个或更少的问题。 百分之三十的学生正确回答了 16 个或更多问题。 较高的百分位数可以被认为是好的,因为正确回答更多问题是可取的。
练习\(\PageIndex{21}\)
在60分的书面作业中,获得的分数的\(80^{th}\)百分位数为49。 在这种情况下解释\(80^{th}\)百分位数。
示例\(\PageIndex{22}\)
在一所社区学院中,发现学生注册的学分单位的\(30^{th}\)百分比为七个单元。 在这种情况下解释\(30^{th}\)百分位数。
- 回答
-
解决方案 2.22
- 百分之三十的学生注册了七个或更少的学分单元。
- 70% 的学生注册了七个或更多学分单元。
- 在此示例中,不存在与较高或较低百分位数相关的 “好” 或 “坏” 值判断。 学生上社区学院的原因和需求各不相同,他们的课程负担因需求而异。
示例\(\PageIndex{23}\)
夏普中学正在申请一项补助金,该补助金将用于为健身房增加健身器材。 校长调查了15名匿名学生,以确定学生每天花多少分钟锻炼身体。 显示了 15 名匿名学生的结果。
0 分钟;40 分钟;60 分钟;30 分钟;60 分钟
10 分钟;45 分钟;30 分钟;300 分钟;90 分钟;
30 分钟;120 分钟;60 分钟;0 分钟;20 分钟
确定以下五个值。
- 最小值 = 0
- \(Q_1 = 20\)
- Med = 40
- \(Q_3 = 60\)
- Max = 300
如果你是校长,你有理由购买新的健身器材吗? 由于75%的学生每天锻炼60分钟或更短时间,并且由于\(IQR\)是40分钟\((60 – 20 = 40)\),因此我们知道接受调查的学生中有一半每天的锻炼时间在20分钟至60分钟之间。 这似乎是花在锻炼上的合理时间,因此委托人有理由购买新设备。
但是,校长需要小心。 值 300 似乎是一个潜在的异常值。
\(Q_3 + 1.5(IQR) = 60 + (1.5)(40) = 120\)。
值 300 大于 120,因此它是一个潜在的异常值。 如果我们删除它并计算这五个值,我们会得到以下值:
- 最小值 = 0
- \(Q_1 = 20\)
- \(Q_3 = 60\)
- Max = 120
我们还有75%的学生每天锻炼60分钟或更短的时间,还有一半的学生在20到60分钟之间锻炼