Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
Library homepage
 
Global

8.0:置信区间简介

假设你想确定你所在城镇一套两居室公寓的平均租金。 你可以看看报纸的分类栏目,写下列出的几笔租金,然后将它们平均在一起。 你本可以得到真实均值的点估计值。 如果你想确定在射篮时打篮的次数百分比,你可以计算你的射门次数,然后将其除以你尝试的射门次数。 在这种情况下,您将获得二项式概率密度函数p中参数的真实比率的点估计值。

这是一张 M&Ms 堆积在一起的照片。 M&M 有红色、蓝色、绿色、黄色、橙色和棕色。
Figure 你1有没有想过杂货店里袋子里的 M&Ms 的平均数量是多少? 您可以使用置信区间来回答此问题。 (来源:comedy_nose/flickr)

我们使用样本数据对未知人口进行概括。 统计数据的这一部分称为推理统计样本数据帮助我们估算总体参数。 我们意识到,点估计值很可能不是总体参数的精确值,而是接近总体参数的精确值。 计算点估计值后,我们构建区间估计值,称为置信区间。 除了简单平均值或点估计值之外,统计数据为我们提供的是一个估计值,我们可以将准确概率附加到该估计值上,我们称之为置信水平。 我们以已知的概率水平进行推断。

在本章中,您将学习构造和解释置信区间。 你还将学习一个新的分布,即 Student's-T,以及如何在这些间隔内使用它。 在本章中,请务必记住置信区间是一个随机变量。 它是固定的 population 参数。

如果你在一家娱乐公司的营销部门工作,你可能会对消费者每月从 iTunes 下载的歌曲的平均数量感兴趣。 如果是这样,您可以进行调查并计算样本均值和样本标准差s¯x 您可以使用¯x来估计总体均值和s估计总体标准差。 样本均值是总体均值的点估计值μ¯x 样本标准差是总体标准差的点估计值σs

¯xs都称为统计数据。

置信区间是另一种类型的估计值,但它不是一个数字,而是数字间隔。 数字间隔是根据一组给定的样本数据计算得出的值范围。 置信区间可能包含未知的总体参数。

假设,在 iTunes 示例中,我们不知道总体均值μ,但我们知道总体标准差为 100σ=1,样本数量为 100。 然后,根据中心极限定理,样本均值抽样分布的标准差为

σn=1100=0.1.

适用于正态分布的经验规则表明,在大约 95% 的样本中,样本均值将在总体均值\ mu 的两个标准差之内。¯x 对于我们的 iTunes 示例,两个标准差是(2)(0.1)=0.2。 样本均¯x值可能在 0.2 个单位以内μ

¯x因为在 0.2 个单位以内(未知),μ则可能在 0.2 个单位以内,概率¯x为 95%。μ 总体均μ值包含在一个区间中,该区间的下部数是通过取样本均值减去两个标准差(2)(0.1)来计算的,其上限值是通过取样本均值并将两个标准差相加来计算的。 换句话说μ¯x+0.2在所有样本的95%之间¯x0.2

对于 iTunes 示例,假设样本产生了样本均值¯x=2。 然后,如果概率为 95%,则未知总体均值介μ

¯x0.2=20.2=1.8 and ¯x+0.2=2+0.2=2.2

我们说我们有95%的信心认为,未知人口平均每月从iTunes下载的歌曲数量在1.8到2.2之间。 95% 的置信区间为 (1.8, 2.2)。 请注意,我们使用经验法则谈到了95%的置信度。 两个标准差的经验规则仅为正态分布下概率的大约 95%。 确切地说,正态分布下的两个标准差实际上是概率的95.44%。 要计算确切的 95% 置信水平,我们将使用 1.96 个标准差。

95% 的置信区间意味着两种可能性。 要么区间 (1.8、2.2) 包含真实均值μ,要么我们的样本生成的实际均值不在 0.2 个单位以内μ¯x 第二种可能性仅发生在所有样本的5%上(95%减去100%= 5%)。

请记住,置信区间是为未知总体参数(如总体均值)创建的μ

对于均值的置信区间,公式为:

μ=¯X±Zασ/n

或者用另一种方式写成:

¯XZασ/nμ¯X+Zασ/n

样本均值在哪里¯xZα由分析师所需的置信水平决定,σ/n是中心极限定理给我们的均值的抽样分布的标准差。