Skip to main content
Global

2.6:偏度与均值、中位数和模式

  • Page ID
    204607
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    考虑以下数据集。
    4; 5; 6; 6; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 8; 8; 8; 8; 8; 9; 10

    该数据集可以用以下直方图表示。 每个间隔的宽度为 1,每个值位于间隔的中间。

    此直方图与提供的数据相匹配。 它由 7 个相邻的条形组成,其中 x 轴的间隔为 1,从 4 到 10。 条形的高度在中间达到峰值,向右和向左对称地逐渐变细。

    2.11

    直方图显示数据的对称分布。 如果可以在直方图中的某个点绘制一条垂直线,使得垂直线左侧和右侧的形状是彼此的镜像图像,则分布是对称的。 这些数据的均值、中位数和模态各为七。 在完全对称的分布中,均值和中位数相同。 此示例有一个模式(单模态),该模式与均值和中位数相同。 在具有两种模式(双峰态)的对称分布中,这两种模式将不同于均值和中位数。

    数据:4;5;6;6;6;7;7;7;7;7;7;8 的直方图不对称。 与左侧相比,右侧似乎 “被砍掉了”。 这种类型的分布称为向左倾斜,因为它是向左拉出的。 我们可以正式测量分布的偏度,就像我们可以用数学方法测量数据的中心权重或其一般的 “间距” 一样。 偏度的数学公式是:

    \[a_{3}=\sum \frac{\left(x_{t}-\overline{x}\right)^{3}}{n s^{3}}.\nonumber\]

    与零的偏差越大表示偏度越大。 如果偏度为负,则分布向左倾斜,如图所示\(\PageIndex{13}\)

    此直方图与提供的数据相匹配。 它由 5 个相邻的条形组成,其中 x 轴的间隔为 1,从 4 到 8。 峰值在右边,柱的高度向左逐渐变细。

    2.12

    均值为 6.3,中位数为 6.5,模式为 7。 请注意,均值小于中位数,并且都小于模态。 均值和中位数都反映了偏差,但均值更能反映偏差。

    数据:6;7;7;7;7;8;8;8;8;9;10 的直方图也不是对称的。 它向右倾斜

    此直方图与提供的数据相匹配。 它由 5 个相邻的条形组成,其中 x 轴以 1 的间隔从 6 到 10 分开。 峰值在左边,柱的高度向右逐渐变细。

    2.13

    均值为 7.7,中位数为 7.5,模式为 7。 在这三个统计量中,均值是最大的,而模态是最小的。 同样,均值最能反映偏差。

    总而言之,通常,如果数据的分布向左倾斜,则均值小于中位数,中位数通常小于模态。 如果数据的分布向右倾斜,则该模式通常小于中位数,后者小于均值。

    与均值、中位数和模态以及我们稍后将看到的方差一样,有一些数学公式可以精确测量数据分布的这些特征。 再次查看偏度公式,我们发现这是数据均值与单个观测值立方体之间的关系。

    \[a_{3}=\sum \frac{\left(x_{i}-\overline{x}\right)^{3}}{n s^{3}}\nonumber\]

    其中 ss 是数据的样本标准差\(\mathrm{X}_{i}\)\(\overline{x}\)是算术平均值,\(n\)是样本数量。

    形式上,算术平均值被称为分布的第一个时刻。 我们将看到的第二个时刻是方差,偏度是第三个时刻。 方差测量数据与均值的平方差,偏度测量数据与均值的立方差。 虽然方差永远不能是负数,但偏度的度量可以是负数,这就是我们确定数据是否从右向左倾斜的方式。 正态分布的偏度为零,任何对称数据的偏度都应接近于零。 偏度的负值表示数据向左倾斜,而偏度的正值表示数据向右倾斜。 向左倾斜,我们的意思是左尾相对于右尾较长。 同样,向右倾斜意味着右尾相对于左尾较长。 偏度是分布在其均值周围的不对称程度的特征。 虽然平均值和标准差是维度量(这就是为什么我们要取方差的平方根),也就是说,其单位与测量量相同\(\mathrm{X}_{i}\),但偏度通常是以使其成为非维度的方式定义的。 它是一个纯数,仅表示分布的形状。 偏度的正值表示不对称尾部向更正向外延伸的分布\(X\),负值表示尾部向更负向外延伸的分布\(X\)。 测量偏度为零将表示分布对称。

    当我们在后面的章节中讨论概率分布时,偏度和对称性变得很重要。