2.7:数据传播的衡量标准
- Page ID
- 204586
任何数据集的一个重要特征是数据的变化。 在某些数据集中,数据值紧密地集中在平均值附近;在其他数据集中,数据值与平均值的分布范围更广。 最常见的变异度量(即散差)是标准差。 标准差是一个数字,用于衡量数据值与其平均值之间的距离。
标准差
- 提供数据集中总变异量的数值测量,以及
- 可用于确定特定数据值是接近还是远离平均值。
标准差用于衡量数据集中的总体变异
标准差始终为正或零。 当数据全部集中在接近平均值的地方,几乎没有变异或散布时,标准差很小。 当数据值与平均值的分散程度更大,表现出更多变异时,标准差就越大。
假设我们正在研究顾客在超市\(A\)和超市结账时排队等候的时间\(B\)。 两家超市的平均等待时间为五分钟。 在超市\(A\),等待时间的标准差为两分钟;在超市\(B\)。 等待时间的标准差为四分钟。
因为超市\(B\)的标准差更高,所以我们知道超市的等待时间差异更大\(B\)。 总体而言,超市的等待时间与平均等待时间\(B\)相比更为分散;超市的等待时间\(A\)更集中在平均水平附近。
计算标准差
如果\(x\)是一个数字,则 “\(x\)减去均值” 的差值称为其偏差。 在数据集中,偏差与数据集中的项目一样多。 偏差用于计算标准差。 如果数字属于总体,则以符号表示偏差为\(x – \mu\)。 对于样本数据,在符号中,偏差为\(x – \overline{x}\)。
计算标准差的过程取决于数字是整个总体还是来自样本的数据。 计算方法相似,但不完全相同。 因此,用于表示标准差的符号取决于它是根据总体还是样本计算得出的。 小写字母 s 表示样本标准差,希腊字母\(\sigma\)(西格玛,小写)表示总体标准差。 如果样本具有与总体相同的特征,则 s 应该是一个很好的估计值\(\sigma\)。
要计算标准差,我们需要先计算方差。 方差是偏差(样本\(x – \overline{x}\)值或总体\(x – \mu\)值)平方的平均值。 符号\(\sigma^2\)代表总体方差;总体标准差\(\sigma\)是总体方差的平方根。 符号\(s^2\)代表样本方差;样本标准差 s 是样本方差的平方根。 您可以将标准差视为偏差的特殊平均值。 形式上,方差是分布的第二个矩或围绕均值的第一个时刻。 请记住,均值是分布的第一个时刻。
如果这些数字来自对整个人口的人口普查而不是样本,则当我们计算偏差平方的平均值以找出方差时\(N\),我们将除以总体中的项目数。 如果数据来自样本而不是总体,则当我们计算偏差平方的平均值时,我们除以\(\bf{n – 1}\),比样本中的项目数少一。
样本标准差的公式
- \(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
- 对于样本标准差,分母为\(\bf{n – 1}\),即样本数量减去 1。
总体标准差的公式
- \(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
- 对于总体标准差,分母是\(N\)总体中的项目数。
在这些公式中,\(f\)表示值出现的频率。 例如,如果一个值出现一次,则\(f\)为 1。 如果一个值在数据集或总体中出现三次,\(f\)则为三次。 关于方差和标准差的两个重要观测值:偏差是从均值测量的,偏差是平方。 原则上,偏差可以从任何点进行测量,但是,我们的兴趣是从数据的中心重量进行测量,即观测值的 “正常” 值或最常见的值。 稍后我们将尝试测量观测值或样本均值的 “异常性”,因此我们需要从均值中进行测量。 第二个观察结果是,偏差是平方。 这有两件事,第一,它使偏差全部为正,其次,它改变了平均值和原始观测值的测量单位。 如果数据是权重,则均值以磅为单位测量,而方差以磅平方来测量。 使用标准差的原因之一是通过取方差的平方根来恢复到原始计量单位。 此外,当偏差为平方时,其值就会激增。 例如,当平方为 100 时,与均值的偏差为 10,但与均值的偏差 100 为 10,000。 它的作用是在计算方差时对异常值施加很大的权重。
样本中的变异类型
在尝试研究人群时,通常使用样本,这要么是为了方便,要么是因为无法访问整个人群。 变异性是用来描述这些结果中可能出现的差异的术语。 常见的变异类型包括:
- 观测或测量变异性
- 自然变异性
- 诱发变异性
- 样本变异性
以下是描述每种变异类型的一些示例。
示例 1:测量变异性
当用于测量的仪器或使用这些仪器的人之间存在差异时,就会出现测量差异。 如果我们通过让学生用秒表测量掉落时间来收集关于球从高处掉落需要多长时间的数据,那么如果使用的两个秒表是由不同的制造商制造的,我们可能会遇到测量差异:例如,一个秒表测量到最接近的秒,而另一个则测量到最接近的十分之一秒。 由于两个不同的人在收集数据,我们还可能会遇到测量差异。 他们在按下秒表上的按钮时的反应时间可能会有所不同;因此,结果将相应地有所不同。 结果的差异可能会受到测量变异性的影响。
示例 2:自然变异性
自然变异源于自然发生的差异,因为人口的成员彼此不同。 例如,如果我们有两种相同的玉米植物,并且我们将两种植物暴露在相同数量的水和阳光下,那么仅仅因为它们是两种不同的玉米植物,它们的生长速度可能仍然不同。 结果的差异可以用自然变异来解释。
示例 3:诱发变异性
诱导变异是自然变异的对应物;之所以发生这种情况,是因为我们人为诱导了变异元素(顾名思义,变异不是自然存在的):例如,我们将人分配到两个不同的组来研究记忆,而我们通过限制变异在一个组中诱发一个变量他们得到的睡眠量。 结果的差异可能会受到诱发变异性的影响。
示例 4:样本变异性
当从同一个群体中抽取多个随机样本时,就会出现样本变异性。 例如,如果我对从给定人群中随机选择的50人进行四次调查,结果的差异可能会受到样本变异性的影响。
示例\(\PageIndex{29}\)
在五年级的班级中,老师对学生的平均年龄和年龄的样本标准偏差感兴趣。 以下数据是\(n = 20\)五年级学生样本的年龄。 年龄四舍五入到最接近的半年:
9; 9.5; 9.5; 10; 10; 10; 10; 10.5; 10.5; 10.5; 10.5; 11; 11; 11; 11; 11.5; 11.5; 11.5;
\[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]
平均年龄为10.53岁,四舍五入到两位。
方差可以通过使用表格来计算。 然后通过取方差的平方根来计算标准差。 我们将在计算后解释表的各个部分\(s\)。
\ (\ pageIndex {28}\) “>数据 | 频率。 | 偏差 | 偏差 2 | (频率。) (偏差 2) |
---|---|---|---|---|
\(x\) | \(f\) | \((x - \overline{x})\) | \((x – \overline{x})^2\) | \((f)(x – \overline{x})^2\) |
9 | 1 | \(9 – 10.525 = –1.525\) | \((–1.525)^2 = 2.325625\) | \(1 \times 2.325625 = 2.325625\) |
9.5 | 2 | \(9.5 – 10.525 = –1.025\) | \((–1.025)2 = 1.050625\) | \(2 \times 1.050625 = 2.101250\) |
10 | 4 | \(10 – 10.525 = –0.525\) | \((–0.525)2 = 0.275625\) | \(4 \times 0.275625 = 1.1025\) |
10.5 | 4 | \(10.5 – 10.525 = –0.025\) | \((–0.025)2 = 0.000625\) | \(4 \times 0.000625 = 0.0025\) |
11 | 6 | \(11 – 10.525 = 0.475\) | \((0.475)2 = 0.225625\) | \(6 \times 0.225625 = 1.35375\) |
11.5 | 3 | \(11.5 – 10.525 = 0.975\) | \((0.975)2 = 0.950625\) | \(3 \times 0.950625 = 2.851875\) |
总数为 9.7375 |
样本方差\(s^2\)等于最后一列的总和 (9.7375) 除以数据值总数减去一\((20 – 1)\):
\(s^{2}=\frac{9.7375}{20-1}=0.5125\)
样本标准差 s 等于样本方差的平方根:
\(s=\sqrt{0.5125}=0.715891\),四舍五入到小数点后两位\(s = 0.72\)。
对表中所示标准差计算的解释
偏差显示了数据与均值之间的分散程度。 数据值 11.5 比数据值 11 更远离平均值,后者由偏差 0.97 和 0.47 表示。 当数据值大于均值时,会出现正偏差,而当数据值小于均值时,会出现负偏差。 数据值 9 的偏差为 —1.525。 如果将偏差相加,则总和始终为零。 (例如\(\PageIndex{29}\),存在\(n = 20\)偏差。) 因此,您不能简单地添加偏差来获得数据的点差。 通过计算偏差的平方,可以使它们成为正数,总和也将为正数。 因此,方差是偏差的平均平方。 通过对偏差进行平方,我们对远离均值的观测值施加了极大的惩罚;这些观测值在方差计算中会获得更大的权重。 稍后我们将看到,方差(标准差)在确定我们在推理统计中的结论方面起着至关重要的作用。 现在,我们可以从使用标准差作为 “不寻常” 的度量开始。 “你在考试中表现如何?” “太棒了! 比平均值高出两个标准差。” 我们将看到,这是一个非常好的考试成绩。
方差是平方度量,其单位与数据不同。 取平方根可以解决问题。 标准差以与数据相同的单位测量价差。
请注意,不是除以\(n = 20\),而是计算除以,\(n – 1 = 20 – 1 = 19\)因为数据是一个样本。 对于样本方差,我们除以样本数量减去一\((n – 1)\)。 为什么不除以\(n\)? 答案与总体方差有关。 样本方差是总体方差的估计值。 该估计值要求我们使用总体均值的估计值,而不是实际总体均值的估计值。 根据这些计算背后的理论数学,除以\((n – 1)\)可以更好地估计总体方差。
标准差\(s\)或\(\sigma\)为零或大于零。 参照价差描述数据称为 “变异性”。 数据的变异性取决于获得结果的方法;例如,通过测量或随机抽样。 当标准差为零时,没有点差;也就是说,所有数据值彼此相等。 当数据全部集中在接近平均值时,标准差较小;当数据值显示与均值的变异较大时,标准差较大。 当标准差大于零的手数时,数据值在平均值上会非常分散;异常值可能很大,\(s\)也可能\(\sigma\)很大。
示例\(\PageIndex{30}\)
使用苏珊·迪恩春季微积分预科课程中的以下数据(第一次考试成绩):
\(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)
- 创建包含数据、频率、相对频率和累积相对频率精确到小数点后三位的图表。
- 将以下内容计算到小数点后一位:
- 样本均值
- 样本标准差
- 中位数
- 第一个四分位数
- 第三个四分位数
- \(IQR\)
- 回答
-
解决方案 2.30
a. 参见表\(\PageIndex{29}\)
b。
- 样本均值 = 73.5
- 样本标准差 = 17.9
- 中位数 = 73
- 第一个四分位数 = 61
- 第三个四分位数 = 90
- \(IQR = 90 – 61 = 29\)
数据 | 频率 | 相对频率 | 累积相对频率 |
---|---|---|---|
33 | 1 | 0.032 | 0.032 |
42 | 1 | 0.032 | 0.064 |
49 | 2 | 0.065 | 0.129 |
53 | 1 | 0.032 | 0.161 |
55 | 2 | 0.065 | 0.226 |
61 | 1 | 0.032 | 0.258 |
63 | 1 | 0.032 | 0.29 |
67 | 1 | 0.032 | 0.322 |
68 | 2 | 0.065 | 0.387 |
69 | 2 | 0.065 | 0.452 |
72 | 1 | 0.032 | 0.484 |
73 | 1 | 0.032 | 0.516 |
74 | 1 | 0.032 | 0.548 |
78 | 1 | 0.032 | 0.580 |
80 | 1 | 0.032 | 0.612 |
83 | 1 | 0.032 | 0.644 |
88 | 3 | 0.097 | 0.741 |
90 | 1 | 0.032 | 0.773 |
92 | 1 | 0.032 | 0.805 |
94 | 4 | 0.129 | 0.934 |
96 | 1 | 0.032 | 0.966 |
100 | 1 | 0.032 | 0.998(为什么这个值不是 1? 答案:四舍五入) |
分组频率表的标准差
回想一下,对于分组数据,我们不知道单个数据值,因此我们无法精确地描述数据的典型值。 换句话说,我们找不到确切的均值、中位数或模式。 但是,我们可以通过使用以下公式求出分组数据的平均值来确定中心测量的最佳估计值:\(\text{ Mean of Frequency Table }=\frac{\sum \(f\)m} {\ sum f}\)
其中\(f=\)间隔频率和\(m\) = 区间中点。
就像我们找不到确切的均值一样,我们也找不到确切的标准差。 请记住,标准差用数字描述了数据值与平均值的预期偏差。 用简单的英语来说,标准差允许我们比较 “不寻常” 的单个数据与平均值的比较情况。
示例\(\PageIndex{31}\)
在表中找到数据的标准差\(\PageIndex{30}\)。
\ (\ pageIndex {30}\) “>班级 | 频率,\(f\) | 中点,\(m\) | \(f\cdot m\) | \(f(m−\bar{x})^2\) |
---|---|---|---|---|
0—2 | \ (f\)” class= “lt-stats-5332">1 | \ (m\)” class= “lt-stats-5332">1 | \ (f\ cdot m\)” class= “lt-stats-5332">\(1\cdot 1=1\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(1(1−6.88)^2=34.57\) |
3—5 | \ (f\)” class= “lt-stats-5332">6 | \ (m\)” class= “lt-stats-5332">4 | \ (f\ cdot m\)” class= “lt-stats-5332">\(6\cdot 4=24\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(6(4−6.88)^2=49.77\) |
6-8 | \ (f\)” class= “lt-stats-5332">10 | \ (m\)” class= “lt-stats-5332">7 | \ (f\ cdot m\)” class= “lt-stats-5332">\(10\cdot 7=70\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(10(7−6.88)^2=0.14\) |
9-11 | \ (f\)” class= “lt-stats-5332">7 | \ (m\)” class= “lt-stats-5332">10 | \ (f\ cdot m\)” class= “lt-stats-5332">\(7\cdot 10=70\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(7(10−6.88)^2=68.14\) |
12-14 | \ (f\)” class= “lt-stats-5332">0 | \ (m\)” class= “lt-stats-5332">13 | \ (f\ cdot m\)” class= “lt-stats-5332">\(0\cdot 13=0\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(0(13−6.88)^2=0\) |
\ (f\)” class= “lt-stats-5332">n = 24 | \ (m\)” class= “lt-stats-5332"> | \ (f\ cdot m\)” class= “lt-stats-5332">\(\bar{x}=16524=6.88\) | \ (f (m−\ bar {x}) ^2\)” class= “lt-stats-5332">\(s^2=152.6224−1=6.64\) |
对于这个数据集,我们有均值\(\bar{x} = 6.88\)和标准差\(s_x = 2.58\)。 这意味着随机选择的数据值预计将比平均值高 2.58 个单位。 如果我们看第一节课,就会发现班级中点等于一。 这差不多是平均值的三个标准差。 虽然计算标准差的公式并不复杂,
\[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]
其中\(s_x =\)样本标准差,\(\bar{x} =\)样本均值,计算很繁琐。 在进行计算时,通常最好使用技术。
比较来自不同数据集的值
在比较来自不同数据集的数据值时,标准差很有用。 如果数据集具有不同的均值和标准差,则直接比较数据值可能会产生误导。
- 对于每个数据值 x,计算该值与其平均值相差多少标准差。
- 使用公式:x = mean + (#of stDevs)(标准差);求解 #of stDevs。
- \(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
- 比较此计算的结果。
#of stDevs 通常被称为 “z 分数”;我们可以使用这个符号\(z\)。 在符号中,公式变为:
\ (\ pageIndex {31}\) “>示例 | \(x=\overline{x}+z s\) | \(z=\frac{x-\overline{x}}{s}\) |
人口 | \(x=\mu+z \sigma\) | \(z=\frac{x-\mu}{\sigma}\) |
示例\(\PageIndex{32}\)
来自不同高中的两个学生,约翰和阿里,想知道与他的学校相比,谁的GPA最高。 与他的学校相比,哪个学生的GPA最高?
\ (\ pageIndex {32}\) “>学生 | GPA | 学校的意思是 GPA | 学校标准差 |
---|---|---|---|
约翰 | 2.85 | 3.0 | 0.7 |
阿里 | 77 | 80 | 10 |
- 回答
-
解决方案 2.32
对于每个学生,确定他所在学校的 GPA 与平均值相差多少标准差 (#of stDevs)。 比较和解释答案时要仔细注意符号。
\(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)
对约翰来说\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)
对阿里来说,\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)
与学校相比,John 的 GPA 更好,因为他的 GPA 比学校的平均值低 0.21 个标准差,而阿里的 GPA 比学校的平均值低 0.3 个标准差。
约翰的 z 分数 —0.21 高于阿里的 z 分数 —0.3。 对于 GPA 来说,值越高越好,因此我们得出结论,与他的学校相比,John 的 GPA 更好。
练习\(\PageIndex{32}\)
在此处添加练习文本。
- 回答
-
两位来自不同队伍的游泳运动员 Angie 和 Beth 想知道与她的队伍相比,谁在 50 米自由泳中跑得最快。 与她的队伍相比,哪位游泳运动员的时间最快?
\ (\ pageIndex {33}\) “>游泳运动员 时间(秒) 球队平均时间 球队标准差 安吉 26.2 27.2 0.8 贝丝 27.3 30.1 1.4 桌子\(\PageIndex{33}\)
以下列表给出了一些事实,可以更深入地了解标准差告诉我们有关数据分布的内容。
对于任何数据集,无论数据的分布如何:
- 至少 75% 的数据位于平均值的两个标准差之内。
- 至少 89% 的数据位于平均值的三个标准差之内。
- 至少 95% 的数据位于平均值的 4.5 个标准差以内。
- 这就是所谓的切比雪夫法则。
对于具有正态分布的数据,我们稍后将对其进行详细研究:
- 大约 68% 的数据在平均值的一个标准差之内。
- 大约 95% 的数据位于平均值的两个标准差之内。
- 超过 99% 的数据位于平均值的三个标准差之内。
- 这就是所谓的经验法则。
- 请务必注意,该规则仅在数据分布形状为钟形且对称时适用。 在后面的章节中,我们将在研究 “正态” 或 “高斯” 概率分布时更多地了解这一点。
变异系数
除了对均值或标准差进行简单比较之外,比较分布的另一种有用方法是调整所测量数据尺度的差异。 很简单,均值较大的数据中的较大变异与均值较小的数据中的相同变异不同。 为了调整基础数据的规模,开发了变异系数(CV)。 从数学上讲:
\[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]
我们可以看到,它以平均值的百分比来衡量基础数据的变异性;数据集的中心权重。 该衡量标准可用于比较风险,在这种风险中,由于两个数据集的规模存在差异,因此需要进行调整。 实际上,比例已更改为通用尺度、百分比差异,并允许直接比较不同数据集的两个或多个变异幅度。