2.6:偏度与均值、中位数和模式
- Page ID
- 204607
考虑以下数据集。
4; 5; 6; 6; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8; 8; 8; 8; 9; 10
该数据集可以用以下直方图表示。 每个间隔的宽度为 1,每个值位于间隔的中间。
直方图显示数据的对称分布。 如果可以在直方图中的某个点绘制一条垂直线,使得垂直线左侧和右侧的形状是彼此的镜像图像,则分布是对称的。 这些数据的均值、中位数和模态各为七。 在完全对称的分布中,均值和中位数相同。 此示例有一个模式(单模态),该模式与均值和中位数相同。 在具有两种模式(双峰态)的对称分布中,这两种模式将不同于均值和中位数。
数据:4;5;6;6;6;7;7;7;7;7;7;8 的直方图不对称。 与左侧相比,右侧似乎 “被砍掉了”。 这种类型的分布称为向左倾斜,因为它是向左拉出的。 我们可以正式测量分布的偏度,就像我们可以用数学方法测量数据的中心权重或其一般的 “间距” 一样。 偏度的数学公式是:
\[a_{3}=\sum \frac{\left(x_{t}-\overline{x}\right)^{3}}{n s^{3}}.\nonumber\]
与零的偏差越大表示偏度越大。 如果偏度为负,则分布向左倾斜,如图所示\(\PageIndex{13}\)。
均值为 6.3,中位数为 6.5,模式为 7。 请注意,均值小于中位数,并且都小于模态。 均值和中位数都反映了偏差,但均值更能反映偏差。
数据:6;7;7;7;7;8;8;8;8;9;10 的直方图也不是对称的。 它向右倾斜。
均值为 7.7,中位数为 7.5,模式为 7。 在这三个统计量中,均值是最大的,而模态是最小的。 同样,均值最能反映偏差。
总而言之,通常,如果数据的分布向左倾斜,则均值小于中位数,中位数通常小于模态。 如果数据的分布向右倾斜,则该模式通常小于中位数,后者小于均值。
与均值、中位数和模态以及我们稍后将看到的方差一样,有一些数学公式可以精确测量数据分布的这些特征。 再次查看偏度公式,我们发现这是数据均值与单个观测值立方体之间的关系。
\[a_{3}=\sum \frac{\left(x_{i}-\overline{x}\right)^{3}}{n s^{3}}\nonumber\]
其中 ss 是数据的样本标准差\(\mathrm{X}_{i}\),\(\overline{x}\)是算术平均值,\(n\)是样本数量。
形式上,算术平均值被称为分布的第一个时刻。 我们将看到的第二个时刻是方差,偏度是第三个时刻。 方差测量数据与均值的平方差,偏度测量数据与均值的立方差。 虽然方差永远不能是负数,但偏度的度量可以是负数,这就是我们确定数据是否从右向左倾斜的方式。 正态分布的偏度为零,任何对称数据的偏度都应接近于零。 偏度的负值表示数据向左倾斜,而偏度的正值表示数据向右倾斜。 向左倾斜,我们的意思是左尾相对于右尾较长。 同样,向右倾斜意味着右尾相对于左尾较长。 偏度是分布在其均值周围的不对称程度的特征。 虽然平均值和标准差是维度量(这就是为什么我们要取方差的平方根),也就是说,其单位与测量量相同\(\mathrm{X}_{i}\),但偏度通常是以使其成为非维度的方式定义的。 它是一个纯数,仅表示分布的形状。 偏度的正值表示不对称尾部向更正向外延伸的分布\(X\),负值表示尾部向更负向外延伸的分布\(X\)。 测量偏度为零将表示分布对称。
当我们在后面的章节中讨论概率分布时,偏度和对称性变得很重要。