Skip to main content
Global

2.3:数据中心的衡量标准

  • Page ID
    204585
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    数据集的 “中心” 也是描述位置的一种方式。 数据 “中心” 的两个最常用的度量是平均值(平均值)和中位数。 要计算 50 个人的平均体重,请将 50 个权重相加,然后除以 50。 从技术上讲,这是算术平均值。 我们稍后将讨论几何平均值。 要找出 50 个人的中位权重,请对数据进行排序,然后找到将数据分成两个相等部分的数字,这意味着两边的观测值数量相等。 25人的体重低于这个体重,25人的体重比这个体重重。 当存在极值或异常值时,中位数通常是衡量中心的更好方法,因为它不受异常值的精确数值的影响。 均值是最常用的中心测量值。

    注意

    “平均值” 和 “平均值” 这两个词经常互换使用。 用一个词代替另一个词是常见的做法。 技术术语是 “算术平均值”,从技术上讲,“平均值” 是中心位置。 形式上,数学家将算术平均值称为分布的第一个时刻。 但是,在实践中,在非统计学家中,“平均值” 通常被视为 “算术平均值”。

    当数据集中的每个值都不是唯一时,可以通过将每个不同值乘以其频率,然后将总和除以数据值总数来计算均值。 用于表示样本均值的字母是上面有条形的 x(发音为 “\(x\)bar”):\(\overline x\).

    希腊字母\(\mu\)(发音为 “mew”)代表总体平均值。 要使样本均值成为总体值的良好估计值,要求之一是采集的样本必须是真正随机的。

    要了解两种计算均值的方法是相同的,请考虑样本:
    1;1;1;2;3;4;4;4;4

    \[\overline{x}=\frac{1+1+1+2+2+3+4+4+4+4+4}{11}=2.7\nonumber\]

    \[\overline{x}=\frac{3(1)+2(2)+1(3)+5(4)}{11}=2.7\nonumber\]

    在第二次计算中,频率为 3、2、1 和 5。

    您可以使用表达式快速找到中位数的位置\(\frac{n+1}{2}\)

    字母\(n\)是样本中数据值的总数。 如果\(n\)是奇数,则中位数是排序数据的中间值(从小到大排序)。 如果\(n\)是偶数,则中位数等于在数据排序后将两个中间值相加并除以二。 例如,如果数据值的总数为 97,则\(\frac{n+1}{2}=\frac{97+1}{2}=49\)。 中位数是有序数据中的第 49 个值。 如果数据值的总数为 100,则\(\frac{n+1}{2}=\frac{100+1}{2}=50.5\)。 中位数出现在第 50 和 51 值的中间。 中位数的位置和中位数的值相同。 大写字母\(M\)通常用于表示中位数。 下一个示例说明了中位数的位置和中位数的值。

    示例 2.24

    表明艾滋病患者服用新抗体药物后存活月数的艾滋病数据如下(最小到最大):
    3;4;8;10;11;12;13;14;15;15;16;17;18;21;22;24;25;26;26;26;27;29;31;32;33;34;34;35; 37; 40; 44; 44; 47;
    计算均值和中位数。

    回答

    解决方案 2.24

    均值的计算公式为:

    \(\overline{x}=\frac{[3+4+(8)(2)+10+11+12+13+14+(15)(2)+\ldots+35+37+40+(44)(2)+47]}{40}=23.6\)
    要找到中位数\(M\),请先使用位置的公式。 位置是:
    \(\frac{n+1}{2}=\frac{40+1}{2}=20.5\)
    从最小值开始,中位数位于第 20 和 21 个值(两个 24)之间:
    \(3; 4; 8; 8; 10; 11; 12; 13; 14; 15; 15; 16; 16; 17; 17; 18; 21; 22; 22; 24; 24; 25; 26; 26; 27; 27; 29; 29; 31; 32; 33; 33; 34; 34; 35; 37; 40; 44; 44; 47;\)

    \(M=\frac{24+24}{2}=24\)

    示例 2.25

    假设在一个有50人的小镇上,一个人每年的收入为5,000,000美元,而另一个49人每人赚30,000美元。 哪个是衡量 “中心” 的更好方法:均值还是中位数?

    回答

    解决方案 2.25

    \(\overline{x}=\frac{5,000,000+49(30,000)}{50}=129,400\)

    \(M = 30,000\)

    (有49个人的收入为3万美元,一个人的收入为500万美元。)

    中位数比平均值更能衡量 “中心”,因为其中 49 个值为 30,000,一个为 5,000,000。 5,000,000 是一个异常值。 30,000 让我们更好地了解数据的中间位置。

    衡量中心的另一个标准是模式。 模式是最常用的值。 数据集中可以有多种模式,只要这些值具有相同的频率并且该频率最高。 具有两种模式的数据集称为双模态。

    示例 2.26

    20 名学生的统计考试分数如下:

    50; 53; 59; 59; 63; 63; 72; 72; 72; 72; 72; 76; 78; 81; 83; 84; 84; 84; 90; 93

    找到模式。

    回答

    解决方案 2.26

    最常见的分数是 72,出现五次。 模式 = 72。

    示例 2.27

    五个房地产考试分数分别为 430、430、480、480、495。 该数据集是双峰的,因为分数 430 和 480 各出现两次。

    什么时候该模式是衡量 “中心” 的最佳方法? 以减肥计划为例,该计划在第一周宣传平均减肥为六磅。 该模式可能表明大多数人在第一周减掉了两磅,这使得该计划的吸引力降低了。

    注意

    该模式既可以计算定性数据,也可以计算定量数据。 例如,如果数据集为:红色、红色、红色、绿色、黄色、紫色、黑色、蓝色,则模式为红色。

    计算分组频率表的算术平均值

    当只有分组数据可用时,您不知道单个数据值(我们只知道间隔和间隔频率);因此,您无法计算数据集的精确均值。 我们必须做的是通过计算频率表的平均值来估计实际均值。 频率表是一种数据表示形式,其中显示了分组的数据以及相应的频率。 要计算分组频率表中的均值,我们可以应用均值的基本定义:mean =\(\frac{\text { data sum }}{\text { number of data values }}\) 我们只需要修改定义以适应频率表的限制即可。

    由于我们不知道单个数据值,因此我们可以找到每个区间的中点。 中点是\(\frac{\text { lower boundary+upper boundary}}{2}\)。 现在,我们可以将均值定义修改为\(\textbf{Mean of Frequency Table}=\frac{\sum f m}{\sum f}\)其中 f = 区间频率,m = 区间的中点。

    示例 2.28

    显示了显示布朗特教授上次统计测试的频率表。 找出类均值的最佳估计值。

    成绩间隔 学生人数
    50—56.5 1
    56.5—62.5 0
    62.5—68.5 4
    68.5—74.5 4
    74.5—80.5 2
    80.5—86.5 3
    86.5—92.5 4
    92.5—98.5 1
    表 2.24
    回答

    解决方案 2.28

    找到所有间隔的中点
    成绩间隔 中点
    50—56.5 53.25
    56.5—62.5 59.5
    62.5—68.5 65.5
    68.5—74.5 71.5
    74.5—80.5 77.5
    80.5—86.5 83.5
    86.5—92.5 89.5
    92.5—98.5 95.5
    表 2.25
    • 计算每个间隔频率和中点的乘积之和。 \(\sum f m\)\(53.25(1)+59.5(0)+65.5(4)+71.5(4)+77.5(2)+83.5(3)+89.5(4)+95.5(1)=1460.25\)
    • \(\mu=\frac{\sum f m}{\sum f}=\frac{1460.25}{19}=76.86\)

    练习 2.28

    Maris对玩电子游戏对记忆回忆的影响进行了研究。 作为研究的一部分,她整理了以下数据:

    青少年在电子游戏上花费的时间 青少年人数
    0—3.5 3
    3.5—7.5 7
    7.5—11.5 12
    11.5—15.5 7
    15.5—19.5 9
    表 2.26

    玩电子游戏的平均小时数的最佳估计值是多少?