Skip to main content
Global

7.1:样本均值的中心极限定理

  • Page ID
    204887
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    采样分布是理论分布。 它是通过\(n\)从人群中采集许多大小的样本而创建的。 然后,将每个样本均值视为对这种新分布(抽样分布)的单个观测值。 这种思维的天才之处在于,它认识到,当我们采样时,我们是在创建观测值,并且该观测值必须来自某个特定的分布。 中心极限定理回答了这样一个问题:样本的含义来自什么分布? 如果发现了这一点,那么我们可以像处理任何其他观测值一样处理样本均值,并计算出它可能采用的值的概率。 实际上,我们已经从只知道样本中的内容的统计世界转向了概率世界,在概率世界中,我们知道样本均值来自哪个分布以及该分布的参数。

    对人群进行抽样的原因显而易见。 检查每张发票以确定其有效性或检查每批发票以查看其中是否包含所有物品所花费的时间和费用可能远远超过账单或运送错误的成本。 对于某些产品,取样需要销毁它们,称为破坏性取样。 其中一个例子是测量金属承受远洋船舶部件的盐水腐蚀的能力。

    因此,抽样提出了一个重要的问题:究竟抽出了哪个样本。 即使样本是随机抽取的,理论上也有几乎无限数量的样本。 只有 100 个物品,就有超过 7500 万个大小为 5 的独特样本可供抽取。 如果样本中有六个,则可能的样本数量将增加到仅超过十亿。 那么,在7500万个可能的样本中,你得到了哪一个? 如果要抽样的物品存在差异,则样本中将存在差异。 人们可能会抽出一个 “不走运” 的样本,然后就人口得出非常错误的结论。 这种认识到,我们抽取的任何样本实际上都只是样本分布中的一个样本,这为我们提供了可能是最重要的唯一定理是统计学:中心极限定理。 没有中心极限定理,就不可能从简单概率论中进行推断统计。 中心极限定理以其最基本的形式指出,无论总体数据的潜在概率密度函数如何,总体样本均值的理论分布都将是正态分布。 从本质上讲,这意味着应将样本的均值视为从正态分布中得出的观测值。 中心极限定理只有在样本量 “足够大”(事实证明只有30个或更多的观测值)时才成立。

    图 7.2 以图形方式显示了这个非常重要的主张。

    图 7.2

    请注意,顶部面板中的水平轴已标记\(X\)。 这些是人口的个人观测结果。 这是总体值的未知分布。 这张图是故意用波浪形绘制的,以表明它到底有多奇怪并不重要。 请记住,我们永远不会知道这个分布是什么样子,也不会知道它的平均值或标准差。

    底部面板中的水平轴被标记为 “\(\overline{X}\)s”。这是理论分布,称为均值的抽样分布。 此分布上的每个观测值都是样本均值。 所有这些样本均值都是根据具有相同样本数量的单个样本计算得出的。 理论抽样分布包含本来可以从总体中提取的所有可能样本中的所有样本平均值。 当然,没有人会真正采集所有这些样本,但如果他们这样做了,他们的样子就是这样。 中心极限定理说它们将是正态分布。

    中心极限定理更进一步,告诉我们这个理论分布的平均值和标准差。

    表 7.1
    参数 人口分布 示例 的抽样分\(\overline{X}\)
    意思 \(\mu\) \(\overline{X}\) \ (\ overline {X}\)'s” style= “vertical-align: middle;” >\(\mu_{\overline{x}} \text { and } \mathrm{E}\left(\mu_{\overline{x}}\right)=\mu\)
    标准差 \(\sigma\) \(s\) \ (\ overline {X}\)'s” style= “vertical-align: middle;” >\(\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}\)

    中央极限定理的实际意义在于,现在我们可以计算得出样本均值的概率,\(\overline{X}\)就像我们在绘制特定观测值时所做的那样,当我们知道总体均值和标准差并且总体数据是\(X\)正态分布。 必须修改标准化公式,以确认抽样分布的均值和标准差(有时称为均值的标准差)与总体分布的均值和标准差不同,但在其他方面没有任何变化。 新的标准化公式是

    \[Z=\frac{\overline{X}-\mu_{\overline{X}}}{\sigma_{\overline{X}}}=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\nonumber\]

    请注意,\(\mu_{\overline{X}}\)在第一个公式中,在第二个版本\(\mu\)中已更改为 simply。 原因是从数学上可以证明的预期值等\(\mu_{\overline{X}}\)\(\mu\)。 上文表7.1对此进行了说明。 从数学上讲,该\(E(x)\)符号读取 “的预期值\(x\)”。 下一个单位将使用此公式来提供未知总体参数的估计值\(\mu\)