Skip to main content
Global

8.0:置信区间简介

  • Page ID
    204302
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    假设你想确定你所在城镇一套两居室公寓的平均租金。 你可以看看报纸的分类栏目,写下列出的几笔租金,然后将它们平均在一起。 你本可以得到真实均值的点估计值。 如果你想确定在射篮时打篮的次数百分比,你可以计算你的射门次数,然后将其除以你尝试的射门次数。 在这种情况下,您将获得二项式概率密度函数\(p\)中参数的真实比率的点估计值。

    这是一张 M&Ms 堆积在一起的照片。 M&M 有红色、蓝色、绿色、黄色、橙色和棕色。
    Figure 你\(\PageIndex{1}\)有没有想过杂货店里袋子里的 M&Ms 的平均数量是多少? 您可以使用置信区间来回答此问题。 (来源:comedy_nose/flickr)

    我们使用样本数据对未知人口进行概括。 统计数据的这一部分称为推理统计样本数据帮助我们估算总体参数。 我们意识到,点估计值很可能不是总体参数的精确值,而是接近总体参数的精确值。 计算点估计值后,我们构建区间估计值,称为置信区间。 除了简单平均值或点估计值之外,统计数据为我们提供的是一个估计值,我们可以将准确概率附加到该估计值上,我们称之为置信水平。 我们以已知的概率水平进行推断。

    在本章中,您将学习构造和解释置信区间。 你还将学习一个新的分布,即 Student's-T,以及如何在这些间隔内使用它。 在本章中,请务必记住置信区间是一个随机变量。 它是固定的 population 参数。

    如果你在一家娱乐公司的营销部门工作,你可能会对消费者每月从 iTunes 下载的歌曲的平均数量感兴趣。 如果是这样,您可以进行调查并计算样本均值和样本标准差\(s\)\(\overline x\) 您可以使用\(\overline x\)来估计总体均值和\(s\)估计总体标准差。 样本均值是总体均值的点估计值\(\mu\)\(\overline x\) 样本标准差是总体标准差的点估计值\(\sigma\)\(s\)

    \(\overline x\)\(s\)都称为统计数据。

    置信区间是另一种类型的估计值,但它不是一个数字,而是数字间隔。 数字间隔是根据一组给定的样本数据计算得出的值范围。 置信区间可能包含未知的总体参数。

    假设,在 iTunes 示例中,我们不知道总体均值\(\mu\),但我们知道总体标准差为 100\(\sigma = 1\),样本数量为 100。 然后,根据中心极限定理,样本均值抽样分布的标准差为

    \[\frac{\sigma}{\sqrt{n}}=\frac{1}{\sqrt{100}}=0.1.\nonumber\]

    适用于正态分布的经验规则表明,在大约 95% 的样本中,样本均值将在总体均值\ mu 的两个标准差之内。\(\overline x\) 对于我们的 iTunes 示例,两个标准差是\((2)(0.1) = 0.2\)。 样本均\(\overline x\)值可能在 0.2 个单位以内\(\mu\)

    \(\overline x\)因为在 0.2 个单位以内(未知),\(\mu\)则可能在 0.2 个单位以内,概率\(\overline x\)为 95%。\(\mu\) 总体均\(\mu\)值包含在一个区间中,该区间的下部数是通过取样本均值减去两个标准差\((2)(0.1)\)来计算的,其上限值是通过取样本均值并将两个标准差相加来计算的。 换句话说\(\mu\)\(\overline{x}+0.2\)在所有样本的95%之间\(\overline{x}-0.2\)

    对于 iTunes 示例,假设样本产生了样本均值\(\overline{x}=2\)。 然后,如果概率为 95%,则未知总体均值介\(\mu\)

    \[\overline{x}-0.2=2-0.2=1.8 \text { and } \overline{x}+0.2=2+0.2=2.2 \nonumber\]

    我们说我们有95%的信心认为,未知人口平均每月从iTunes下载的歌曲数量在1.8到2.2之间。 95% 的置信区间为 (1.8, 2.2)。 请注意,我们使用经验法则谈到了95%的置信度。 两个标准差的经验规则仅为正态分布下概率的大约 95%。 确切地说,正态分布下的两个标准差实际上是概率的95.44%。 要计算确切的 95% 置信水平,我们将使用 1.96 个标准差。

    95% 的置信区间意味着两种可能性。 要么区间 (1.8、2.2) 包含真实均值\(\mu\),要么我们的样本生成的实际均值不在 0.2 个单位以内\(\mu\)\(\overline x\) 第二种可能性仅发生在所有样本的5%上(95%减去100%= 5%)。

    请记住,置信区间是为未知总体参数(如总体均值)创建的\(\mu\)

    对于均值的置信区间,公式为:

    \[\mu=\overline{X} \pm Z_{\alpha} \sigma / \sqrt{n}\nonumber\]

    或者用另一种方式写成:

    \[\overline{X}-Z_{\alpha} \sigma /_{\sqrt{n}} \leq \mu \leq \overline{X}+Z_{\alpha} \sigma / \sqrt{n}\nonumber\]

    样本均值在哪里\(\overline x\)\(Z_{\alpha}\)由分析师所需的置信水平决定,\(\sigma / \sqrt{n}\)是中心极限定理给我们的均值的抽样分布的标准差。