Skip to main content
Global

8.4:计算样本数量 n-连续和二进制随机变量

  • Page ID
    204335
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    连续随机变量

    通常我们无法控制数据集的样本量。 但是,如果我们能够设置样本量,就像我们正在进行调查的情况一样,那么知道提供最多信息应该有多大会很有帮助。 采样在时间和产品上都可能非常昂贵。 例如,简单的电话调查每项的费用约为30.00美元,有些抽样需要销毁产品。

    如果我们回到标准化公式来计算均值的抽样分布,我们可以看出 n 是可能的。如果我们这样做,则分母\((\overline{X}-\mu)\)中就有了分母。

    \[n=\frac{Z_{\alpha}^{2} \sigma^{2}}{(\overline{X}-\mu)^{2}}=\frac{Z_{\alpha}^{2} \sigma^{2}}{e^{2}}\nonumber\]

    因为我们还没有采集样本,所以我们不知道公式中的任何变量,只是我们可以像确定置信区间时一样设置\(Z_{\alpha}\)到我们想要的置信水平。 如果我们为\(\overline{X}\)\(\mu\)之间的差值设置预先确定的可接受误差或容差(在公式中称为 e),则我们在求解样本数量方面要走得更远\(n\)。 我们仍然不知道总体标准差,\(\sigma\)。 实际上,通常会进行预调查,这样可以对问卷进行微调,并给出可以使用的样本标准差。 在其他情况下,可以在公式\(\sigma\)中使用来自其他调查的先前信息。 虽然粗糙,但这种确定样本量的方法可能有助于显著降低成本。 收集的实际数据将决定对总体的推论,因此谨慎对待样本量是适当的,要求具有较高的置信度和较小的抽样误差。

    二进制随机变量

    在寻找分布均值时所做的操作也可以在抽样确定比率的总体参数\(p\)时完成。 操作比例的标准化公式可以得出:

    \[n=\frac{Z_{\alpha}^{2} \mathrm{pq}}{e^{2}}\nonumber\]

    其中\(e=\left(p^{\prime}-p\right)\),和是此应用程序可接受的采样误差或容差。 这将以百分点来衡量。

    在这种情况下,我们搜索的对象就是公式\(p\),当然是\(q\)因为\(q =1-p\)。 之所以出现这个结果,是因为二项分布是一个单参数分布。 如果我们知道\(p\),那么我们就知道了均值和标准差。 因此,\(p\)显示在抽样分布的标准差中,这是我们得到这个公式的地方。 如果谨慎行事,我们用 0.5 代替,\(p\)我们将抽出所需的最大样本量,以提供指定的置信水平\(Z \alpha\)和我们选择的容差。 之所以如此,是因为两个分数的所有组合加起来是一个,最大的倍数是当每个分数为 0.5 时。 如果没有关于人口参数的任何其他信息\(p\),这是常见的做法。 这可能会导致过度采样,但肯定不会导致抽样不足,因此,这是一种谨慎的方法。

    在考虑抽样成本时,这里显示的置信度与样本数量之间有一个有趣的权衡。 该表\(\PageIndex{1}\)显示了在不同置信水平和不同可接受误差或容差水平下的相应样本数量。

    \ (\ pageIndex {1}\) “>
    所需样本量 (90%) 所需样本量 (95%) 容差等级
    1691 2401 2%
    752 1067 3%
    271 384 5%
    68 96 10%
    桌子\(\PageIndex{1}\)

    \(q=0.5\)如上所述,该表旨在显示假设\(p= 0.5\)情况下不同置信度下所需的最大样本量。

    可接受的误差在表中称为容差,以实际比例的正负值进行测量。 例如,5%的可接受误差意味着如果发现样本比率为26%,则得出的结论是,如果采集的样本为271,则实际总体比例在21%和31%之间,置信度为90%。 同样,如果将可接受误差设置为 2%,则总体比例将介于 24% 到 28% 之间,置信度为 90%,但需要将样本数量从 271 增加到 1,691。 如果我们希望获得更高的置信度,则需要更大的样本量。 从 90% 的置信度移至正负 5% 容差的 95% 水平需要将样本数量从 271 更改为 384。 政治调查中经常报告的非常常见的样本量为384。 在调查结果中,人们经常说结果在 “准确性” 的正负5%水平上是好的。

    示例\(\PageIndex{9}\)

    假设一家移动电话公司想要确定当前在手机上使用短信的50岁以上客户的百分比。 公司应调查多少50岁以上的客户,以确信估计(样本)比例在50岁以上使用手机短信的客户的真实人口比例的三个百分点以内。

    回答

    解决方案 8.9

    从这个问题中,我们知道可接受的误差为 0.03(3% =0.03),\(z_{\frac{\alpha}{2}} Z_{0.05}=1.645\)因为置信水平为 90%。\(e\) 可接受的误差是实际总体比例 p 和我们预计从样本中获得的样本比率之间的差值。\(e\)

    但是,为了找到\(n\),我们需要知道估计的(样本)比例\(p^{\prime}\)。 记住这一点\(q^{\prime} = 1 – p^{\prime}\)。 但是,我们还不知道\(p^{\prime}\)。 由于我们乘以\(p^{\prime}\)\(q^{\prime}\)在一起,因此我们使它们都等于 0.5,因为\(p^{\prime}q^{\prime} = (0.5)(0.5) = 0.25\)得出尽可能大的乘积。 (尝试其他产品:\((0.6)(0.4) = 0.24; (0.3)(0.7) = 0.21; (0.2)(0.8) = 0.16\)依此类推)。 尽可能大的乘积会给我们最大的 n。这为我们提供了足够大的样本,因此我们可以 90% 确信自己在真实人口比例的三个百分点以内。 要计算样本数量 n,请使用公式进行替换。

    \(n=\frac{z^{2} p^{\prime} q^{\prime}}{e^{2}} \text { gives } n=\frac{1.645^{2}(0.5)(0.5)}{0.03^{2}}=751.7\)

    将答案四舍五入到下一个更高的值。 样本量应为752名50岁以上的手机客户,以便90%确信估计(样本)比例在所有50岁以上使用手机短信的客户的真实人口比例的三个百分点以内。

    练习\(\PageIndex{9}\)

    假设一家互联网营销公司想要确定当前在智能手机上点击广告的客户的百分比。 公司应该调查多少客户,才能确信估计比例在智能手机上点击广告的客户的真实人口比例的五个百分点以内?