7.3: 比例的中心极限定理
- Page ID
- 204917
中心极限定理告诉我们,样本均值的点估计来自的正态分布。这种理论分布称为\(\overline x\)的抽样分布。我们现在研究我们想要\(\overline x\)的另一个重要参数的抽样分布\(\overline x\)用于估计;\(p\)来自二项式概率密度函数。
如果随机变量是离散的,例如分类数据,那么我们要估计的参数是总体比例。 当然,这是在任何一次随机抽奖中抽出成功的概率。 与刚才讨论的连续随机变量的案例不同,我们不知道的总体分布,\(X\)这里我们实际上知道了这些数据的潜在概率密度函数;它是二项式。 随机变量是\(X =\)成功次数,我们想知道的参数是\(p\),获得成功的概率,当然是总体中成功的比例。 有争议的问题是:样本比例是从什么分布\(p^{\prime}=\frac{x}{n}\)得出的? 样本数量\(X\)是\(n\),也是在该样本中发现的成功次数。 这是一个平行的问题,中央极限定理刚刚回答了这个问题:样本均值来自什么分布?\(\overline x\) 我们看到,一旦我们知道分布是正态分布,我们就能够为总体参数创建置信区间\(\mu\)。 稍后我们还将使用相同的信息来检验有关总体均值的假设。 我们希望现在能够为二项式概率密度函数中的总体参数\(p\) “” 制定置信区间。
为了找到样本比率来源的分布,我们需要像样本均值一样制定样本比率的抽样分布。 再想象一下,我们随机抽样比如说50个人,问他们是否支持新的学校债券发行。 由此我们可以找到一个样本比例\(p^{\prime}\),然后将其绘制在 “\(p\)s 的轴上。我们一次又一次地这样做,等等,直到我们得出了\(p\)'s 的理论分布。有些样本比率将显示出对债券发行的支持度很高,而另一些则显示出较低的支持度,因为随机抽样将反映人群中观点的变化。 我们所做的可以在图中看出\(\PageIndex{9}\)。 顶部面板是随机变量的每个可能值的概率总体分布\(X\)。 虽然我们不知道具体分布是什么样子\(p\),因为我们不知道人口参数,但我们知道它必须看起来像这样。 实际上,我们不知道该总体分布的平均值或标准差,这与之前分析总体分布时遇到\(X\)的困难相同。
该图将均值\(\PageIndex{9}\)放在总体概率的分布上,\(\mu=np\)但我们当然不知道总体均值,因为我们不知道总体成功概率\(p\)。 总体值分布之下是的\(p\)抽样分布。中心极限定理再次告诉我们,这种分布是正态分布的,就像的抽样分布一样。这个抽样分布还有一个均值,即\(\overline x\)\(p\)'s,还有一个标准差,\(\sigma_{p^{\prime}}\)。
重要的是,在分析样本均值分布时,中心极限定理告诉我们抽样分布中样本均值的预期值以及抽样分布的标准差。 中心极限定理再次为比率的抽样分布提供了这些信息。 答案是:
- 样本比率抽样分布均值的预期值是总体比例\(p\)。\(\mu_{p^{\prime}}\)
- 样本比率抽样分布的标准差\(\sigma_{p^{\prime}}\)等于总体标准差除以样本数量的平方根\(n\)。
这两个结论与我们在样本均值的抽样分布中发现的结论相同。 但是在这种情况下,由于二项分布的平均值和标准差都依赖于 pp,因此采样分布的标准差公式需要代数操作才能发挥作用。 我们将在下一章中讨论这个问题。 下面提供了中央极限定理得出的这些重要结论的证据。
\[E\left(p^{\prime}\right)=E\left(\frac{x}{n}\right)=\left(\frac{1}{n}\right) E(x)=\left(\frac{1}{n}\right) n p=p\nonumber\]
(的预期值只是二项分布的平均值\(X\),\(E(x)\)我们知道二项分布为 np。)
\[\sigma_{\mathrm{p}}^{2}=\operatorname{Var}\left(p^{\prime}\right)=\operatorname{Var}\left(\frac{x}{n}\right)=\frac{1}{n^{2}}(\operatorname{Var}(x))=\frac{1}{n^{2}}(n p(1-p))=\frac{p(1-p)}{n}\nonumber\]
因此,比率抽样分布的标准差为:
\[\sigma_{\mathrm{p}},=\sqrt{\frac{p(1-P)}{n}}\nonumber\]
\ (\ pageIndex {2}\) “>参数 | 人口分布 | 示例 | 的抽样分\(p\)布 |
---|---|---|---|
意思 | \(\mu = np\) | \(p^{\prime}=\frac{x}{n}\)\) | \ (p\)'s” class= “lt-stats-4585">\(p^{\prime} \text { and } E(p^{\prime})=p\) |
标准偏差 | \(\sigma=\sqrt{n p q}\) | \ (p\)'s” class= “lt-stats-4585">\(\sigma_{p^{\prime}}=\sqrt{\frac{p(1-p)}{n}}\) |
表\(\PageIndex{2}\)汇总了这些结果,并显示了总体、样本和抽样分布之间的关系。 请注意,在随机变量是连续变量的情况下,此表和表\(\PageIndex{1}\)之间的相似之处,我们正在制定均值的抽样分布。
回顾比率抽样分布标准差的公式,我们可以看到,随着比率的\(n\)增加,标准差会降低。 这与我们对均值抽样分布的标准差所做的观测值相同。 同样,随着样本数量的增加,发现其中\(p\)一个\(\mu\)或的点估计值来自分布越来越窄的分布。 我们得出的结论是,在给定的概率水平下,随着样本数量的增加\(n\),点估计值的起始范围会变小。 图中\(\PageIndex{8}\)显示了样本均值情况下的这个结果。 只需\(p^{\prime}\)替换\(\overline x\),我们就可以看到样本数量对样本比例估计的影响。