2.3:数据中心的衡量标准
- Page ID
- 204585
数据集的 “中心” 也是描述位置的一种方式。 数据 “中心” 的两个最常用的度量是平均值(平均值)和中位数。 要计算 50 个人的平均体重,请将 50 个权重相加,然后除以 50。 从技术上讲,这是算术平均值。 我们稍后将讨论几何平均值。 要找出 50 个人的中位权重,请对数据进行排序,然后找到将数据分成两个相等部分的数字,这意味着两边的观测值数量相等。 25人的体重低于这个体重,25人的体重比这个体重重。 当存在极值或异常值时,中位数通常是衡量中心的更好方法,因为它不受异常值的精确数值的影响。 均值是最常用的中心测量值。
注意
“平均值” 和 “平均值” 这两个词经常互换使用。 用一个词代替另一个词是常见的做法。 技术术语是 “算术平均值”,从技术上讲,“平均值” 是中心位置。 形式上,数学家将算术平均值称为分布的第一个时刻。 但是,在实践中,在非统计学家中,“平均值” 通常被视为 “算术平均值”。
当数据集中的每个值都不是唯一时,可以通过将每个不同值乘以其频率,然后将总和除以数据值总数来计算均值。 用于表示样本均值的字母是上面有条形的 x(发音为 “\(x\)bar”):\(\overline x\).
希腊字母\(\mu\)(发音为 “mew”)代表总体平均值。 要使样本均值成为总体均值的良好估计值,要求之一是采集的样本必须是真正随机的。
要了解两种计算均值的方法是相同的,请考虑样本:
1;1;1;2;3;4;4;4;4
\[\overline{x}=\frac{1+1+1+2+2+3+4+4+4+4+4}{11}=2.7\nonumber\]
\[\overline{x}=\frac{3(1)+2(2)+1(3)+5(4)}{11}=2.7\nonumber\]
在第二次计算中,频率为 3、2、1 和 5。
您可以使用表达式快速找到中位数的位置\(\frac{n+1}{2}\)。
字母\(n\)是样本中数据值的总数。 如果\(n\)是奇数,则中位数是排序数据的中间值(从小到大排序)。 如果\(n\)是偶数,则中位数等于在数据排序后将两个中间值相加并除以二。 例如,如果数据值的总数为 97,则\(\frac{n+1}{2}=\frac{97+1}{2}=49\)。 中位数是有序数据中的第 49 个值。 如果数据值的总数为 100,则\(\frac{n+1}{2}=\frac{100+1}{2}=50.5\)。 中位数出现在第 50 和第 51 个值的中间。 中位数的位置和中位数的值不相同。 大写字母\(M\)通常用于表示中位数。 下一个示例说明了中位数的位置和中位数的值。
示例 2.24
表明艾滋病患者服用新抗体药物后存活月数的艾滋病数据如下(最小到最大):
3;4;8;10;11;12;13;14;15;15;16;17;18;21;22;24;25;26;26;26;27;29;31;32;33;34;34;35; 37; 40; 44; 44; 47;
计算均值和中位数。
- 回答
-
解决方案 2.24
均值的计算公式为:
\(\overline{x}=\frac{[3+4+(8)(2)+10+11+12+13+14+(15)(2)+\ldots+35+37+40+(44)(2)+47]}{40}=23.6\)
要找到中位数\(M\),请先使用位置的公式。 位置是:
\(\frac{n+1}{2}=\frac{40+1}{2}=20.5\)
从最小值开始,中位数位于第 20 和第 21 个值(两个 24)之间:
\(3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;\)\(M=\frac{24+24}{2}=24\)
示例 2.25
假设在一个有50人的小镇上,一个人每年的收入为5,000,000美元,而另一个49人每人赚30,000美元。 哪个是衡量 “中心” 的更好方法:均值还是中位数?
- 回答
-
解决方案 2.25
\(\overline{x}=\frac{5,000,000+49(30,000)}{50}=129,400\)
\(M = 30,000\)
(有49个人的收入为3万美元,一个人的收入为500万美元。)
中位数比平均值更能衡量 “中心”,因为其中 49 个值为 30,000,一个为 5,000,000。 5,000,000 是一个异常值。 30,000 让我们更好地了解数据的中间位置。
衡量中心的另一个标准是模式。 模式是最常用的值。 数据集中可以有多种模式,只要这些值具有相同的频率并且该频率最高。 具有两种模式的数据集称为双模态。
示例 2.26
20 名学生的统计考试分数如下:
50; 53; 59; 59; 63; 63; 72; 72; 72; 72; 72; 76; 78; 81; 83; 84; 84; 84; 90; 93
找到模式。
- 回答
-
解决方案 2.26
最常见的分数是 72,出现五次。 模式 = 72。
示例 2.27
五个房地产考试分数分别为 430、430、480、480、495。 该数据集是双峰的,因为分数 430 和 480 各出现两次。
什么时候该模式是衡量 “中心” 的最佳方法? 以减肥计划为例,该计划在第一周宣传平均减肥为六磅。 该模式可能表明大多数人在第一周减掉了两磅,这使得该计划的吸引力降低了。
注意
该模式既可以计算定性数据,也可以计算定量数据。 例如,如果数据集为:红色、红色、红色、绿色、黄色、紫色、黑色、蓝色,则模式为红色。
计算分组频率表的算术平均值
当只有分组数据可用时,您不知道单个数据值(我们只知道间隔和间隔频率);因此,您无法计算数据集的精确均值。 我们必须做的是通过计算频率表的平均值来估计实际均值。 频率表是一种数据表示形式,其中显示了分组的数据以及相应的频率。 要计算分组频率表中的均值,我们可以应用均值的基本定义:mean =\(\frac{\text { data sum }}{\text { number of data values }}\) 我们只需要修改定义以适应频率表的限制即可。
由于我们不知道单个数据值,因此我们可以找到每个区间的中点。 中点是\(\frac{\text { lower boundary+upper boundary}}{2}\)。 现在,我们可以将均值定义修改为\(\textbf{Mean of Frequency Table}=\frac{\sum f m}{\sum f}\)其中 f = 区间频率,m = 区间的中点。
示例 2.28
显示了显示布朗特教授上次统计测试的频率表。 找出类均值的最佳估计值。
成绩间隔 | 学生人数 |
---|---|
50—56.5 | 1 |
56.5—62.5 | 0 |
62.5—68.5 | 4 |
68.5—74.5 | 4 |
74.5—80.5 | 2 |
80.5—86.5 | 3 |
86.5—92.5 | 4 |
92.5—98.5 | 1 |
- 回答
-
解决方案 2.28
找到所有间隔的中点成绩间隔 中点 50—56.5 53.25 56.5—62.5 59.5 62.5—68.5 65.5 68.5—74.5 71.5 74.5—80.5 77.5 80.5—86.5 83.5 86.5—92.5 89.5 92.5—98.5 95.5 表 2.25 - 计算每个间隔频率和中点的乘积之和。 \(\sum f m\)\(53.25(1)+59.5(0)+65.5(4)+71.5(4)+77.5(2)+83.5(3)+89.5(4)+95.5(1)=1460.25\)
- \(\mu=\frac{\sum f m}{\sum f}=\frac{1460.25}{19}=76.86\)
练习 2.28
Maris对玩电子游戏对记忆回忆的影响进行了研究。 作为研究的一部分,她整理了以下数据:
青少年在电子游戏上花费的时间 | 青少年人数 |
---|---|
0—3.5 | 3 |
3.5—7.5 | 7 |
7.5—11.5 | 12 |
11.5—15.5 | 7 |
15.5—19.5 | 9 |
玩电子游戏的平均小时数的最佳估计值是多少?