7.2: 使用中心极限定理

Last updated
Save as PDF

Page ID: 204916

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

中心极限定理的示例

大数定律

大数定律说，如果你从任何总体中采集越来越大的样本，那么抽样分布的均值\(\mu_{\overline x}\)往往越来越接近真实的总体均值\(\mu\)。根据中心极限定理，我们知道，\(n\)随着越来越大，样本均值遵循正态分布。 n 越大，采样分布的标准差越小。（请记住，抽样分布的标准差\(\overline X\)为\(\frac{\sigma}{\sqrt{n}}\)。）这意味着随着样本均值的\(n\)增加，样本均值\(\overline x\)必须更接近总体均值\(\mu\)。我们可以说\(\mu\)这是样本均值随着 n 变大而接近的值。中心极限定理说明了大数定律。

这个概念非常重要，在接下来的内容中起着至关重要的作用，值得进一步发展。事实上，有两个关键问题源于中心极限定理和大数定律对其的应用。这些是

无论总体观测值的基础分布如何，均值抽样分布的概率密度函数均为正态分布
随着用于计算抽样分布均值的样本大小的增加，抽样分布的标准差会降低。

按顺序处理这些。人口可能有任何分布，而来自人口的均值分布为正态分布，这似乎是违反直觉的。通过使用计算机，可以模拟实验，显示抽样分布随着样本数量的增加而变化的过程。这些模拟直观地显示了中心极限定理的数学证明结果。

以下是三个示例，说明了截然不同的总体分布以及随着样本数量的增加抽样分布向正态分布的演变。在这些情况下，顶部面板表示原始数据的直方图。这三个面板显示了不同样本数量下随机抽取的 1,000 个样本的直方图：\(n=10\)\(n= 25\)和\(n=50\)。随着样本数量的增加以及采集的样本数量保持不变，1,000 个样本均值的分布越来越接近代表正态分布的平滑线。

\(\PageIndex{3}\)该图代表的是单个观测值的正态分布，我们预计抽样分布将很快收缩到正态上。结果表明了这一点，并表明即使样本量很小，分布也接近正态分布。

数字\(\PageIndex{4}\)是一个均匀分布，有点令人惊讶，即使样本只有 10 个，它也很快接近正态分布。

图\(\PageIndex{5}\)为偏斜分布。最后一个可以是指数、几何或二项式，成功造成分布偏斜的可能性很小。对于偏斜分布，我们的直觉会说，这将需要更大的样本量才能移动到正态分布，事实上，这正是我们在模拟中观察到的。尽管如此，在样本数量为 50（不被视为非常大的样本）时，样本均值的分布已经非常明显地形成了正态分布的形状。

中心极限定理提供的不仅仅是证明均值的抽样分布是正态分布的证据。它还为我们提供了该分布的平均值和标准差。此外，如上所述，均值的预期值等于原始数据的总体平均值，这正是我们有兴趣从采集的样本中估计出来的。\(\mu_{\overline{x}}\) 我们已经将中心极限定理的这一结论插入到我们用于标准化从采样分布到标准正态分布的公式中。最后，中心极限定理还提供了抽样分布的标准差\(\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}\)，这对于必须计算新随机变量值的概率至关重要\(\overline x\)。

图中\(\PageIndex{6}\)显示了采样分布。均值已标记在的水平轴上，标准差已写在分布的右上方。\(\overline X\) 请注意，抽样分布的标准差等于总体的原始标准差除以样本数量。我们已经看到，随着样本数量的增加，采样分布越来越接近正态分布。在这种情况下，抽样分布的标准差会以另一种方式变化；标准差随着\(n\)增加而降低。在非常大的情况下\(n\)，抽样分布的标准差变得非常小，在无穷大时，它会折叠在总体均值之上。这就是预期值是总体均值的\(\mu_{\overline{x}}\)意思\(\mu\)。

在非极值\(n\)下，抽样分布的标准差与样本数量之间的这种关系在我们估计我们感兴趣的参数的能力中起着非常重要的作用。

图中\(\PageIndex{7}\)显示了三个采样分布。所做的唯一更改是用于获取每个分布的样本均值的样本数量。随着样本数量的增加（从 10 增加到 30 再到 50），相应抽样分布的标准差会减小，因为样本数量以抽样分布的标准差分母为单位。\(n\)

其含义非常重要。该图\(\PageIndex{8}\)显示了样本量对我们对估计值的信心的影响。这是来自同一总体的两个抽样分布。一个采样分布是使用大小为 10 的样本创建的，另一个使用大小为 50 的样本创建的。所有其他条件都不变，样本数量为 50 的抽样分布具有较小的标准差，这会导致图形越来越大。这样做的重要影响是，对于与均值相差一个标准差的概率相同，该分布所涵盖的可能值范围要比另一个分布少得多。每个分布在\(\overline X\)轴上标记一个标准差。这由两个箭头表示，每个分布正负一个标准差。如果真实均值与均值相差一个标准差的概率，则对于样本数量较小的抽样分布，可能的值范围要大得多。一个简单的问题是，你宁愿使用来自窄紧分布的样本均值还是平坦的宽分布作为总体均值的估计值？你的答案告诉我们为什么人们直观地总是从大样本中选择数据，而不是从小样本中选择数据。样本意味着他们得到的样本来自更紧凑的分布。这个概念将成为所谓的对下一个单位的信心水平的基础。