10.4：比较两个独立的人口比例

Last updated
Save as PDF

Page ID: 204688

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

进行比较两个独立总体比率的假设检验时，应具备以下特征：

两个独立样本是独立的随机样本。
每个样本的成功次数至少为五个，失败次数至少为五个。
越来越多的文献指出，人口必须至少是样本规模的十倍甚至二十倍。这样可以防止对每个群体进行过度抽样并造成有偏见的结果。

比较两个比例，比如比较两个均值，很常见。如果两个估计比率不同，则可能是由于总体差异，也可能是由于抽样中的偶然性。假设检验可以帮助确定估计比率的差异是否反映了两个总体比率的差异。

与样本均值差异一样，我们为样本比率的差异构造了抽样分布：\(\left(p_{A}^{\prime}-p_{B}^{\prime}\right)\)其中\(p_{A}^{\prime}=X_{\frac{A}{n_{A}}}\)和\(p_{B}^{\prime}=X_{\frac{B}{n_{B}}}\)是两组相关数据的样本比例。 \(X_A\)和分别\(X_B\)是每个样本组中的成功次数，\(n_A\)和\(n_B\)是这两个组各自的样本数量。我们再来看中心人物\(\PageIndex{5}\)。

通常，原假设允许对特定值的差值进行检验\(\delta_{0}\)，就像我们对均值差异所做的那样。

\[H_{0} : p_{1}-p_{2}=\delta_{0}\nonumber\]

\[H_{1} : p_{1}-p_{2} \neq \delta_{0}\nonumber\]

但是，最常见的是检验两个比率是相同的。也就是说，

\[H_{0} : p_{\mathrm{A}}=p_{B}\nonumber\]

\[H_{a} : p_{\mathrm{A}} \neq p_{B}\nonumber\]

要进行测试，我们使用合并比例\(p_c\)。

\[\textbf{The pooled proportion is calculated as follows:}\nonumber\]

\[p_{c}=\frac{x_{A}+x_{B}}{n_{A}+n_{B}}\nonumber\]

\[\textbf{The test statistic (z-score) is:}\nonumber\]

\[Z_{c}=\frac{\left(p_{A}^{\prime}-p_{B}^{\prime}\right)-\delta_{0}}{\sqrt{p_{c}\left(1-p_{c}\right)\left(\frac{1}{n_{A}}+\frac{1}{n_{B}}\right)}}\nonumber\]

其中\(\delta_{0}\)是两个比率之间的假设差，p _c 是上述公式的合并方差。

示例\(\PageIndex{6}\)

一家银行最近收购了一家新分行，因此在这个新领域有客户。他们对新领域的违约率感兴趣。他们希望检验违约率与当前客户群不同的假设。他们对当前客户 A 区的 200 个文件进行了采样，发现有 20 个文件已违约。在B区，即新客户，另外200份文件样本显示有12份拖欠贷款。在10％的重要程度上，我们可以说违约率相同或不同吗？

回答

解决方案 10.6

这是对比例的检验。我们之所以知道这一点，是因为底层随机变量是二进制，无论是默认还是非默认。此外，我们知道这是对比例差异的检验，因为我们有两个样本组，即当前的客户群和新收购的客户群。让 A 和 B 成为这两个客户组的下标。那么 p _A 和 p _B 是我们要检验的两个总体比例。

随机变量：

\(P_{A}^{\prime}-P_{B}^{\prime}\)= 两组中违约客户比例的差异。

\(H_{0} : p_{A}=p_{B}\)

\(H_{a} : p_{A} \neq p_{B}\)

“有区别” 这个词告诉你这个测试是双尾的。

检验分布：由于这是对两个二项式总体比率的检验，因此分布是正态的：

\(p_{c}=\frac{x_{A}+x_{B}}{n_{A}+n_{B}}=\frac{20+12}{200+200}=0.08\)\(1-p_{c}=0.92\)

\(\left(p^{\prime} A-p^{\prime} B\right)=0.04\)遵循近似的正态分布。

A 组的估计比例：\(p^{\prime}_{A}=\frac{x_{A}}{n_{A}}=\frac{20}{200}=0.1\)

B 组的估计比例：\(p^{\prime}_{B}=\frac{x_{B}}{n_{B}}=\frac{12}{200}=0.06\)

两组之间的估计差异为:\(p_{A}^{\prime}-p_{B}^{\prime}=0.1-0.06=0.04\).

30 分钟后对药物 A 和 B 没有反应的成年患者百分比差异的正态分布曲线。均值等于零，并且在水平轴上标记值 -0.04、0 和 0.04。两条垂直线从 -0.04 和 0.04 延伸到曲线。 -0.04 左边的区域和 0.04 右边的区域各有阴影，表示 1/2（p 值）= 0.0702。

\[Z_{c}=\frac{\left(\mathrm{P}_{A}^{\prime}-\mathrm{P}_{B}^{\prime}\right)-\delta_{0}}{P_{c}\left(1-P_{c}\right)\left(\frac{1}{n_{A}}+\frac{1}{n_{B}}\right)}=0.54\nonumber\]

计算出的检验统计量为 .54，不在分布的尾部。

做出决定：由于计算检验统计数据不在分布的尾部，因此我们无法拒绝\(H_0\)。

结论：从样本数据来看，在显著性水平为1％的情况下，没有足够的证据得出结论，两组中违约的客户的比例存在差异。

练习\(\PageIndex{6}\)

正在测试两种类型的阀门，以确定压力公差是否存在差异。在 100 个 Valve A 的随机样本中，有 15 个破解在 4,500 psi 以下。在随机抽取的100个Valve B 样本中，有6个在4,500 psi以下破解。以 5% 的显著性水平进行测试。