Skip to main content
Global

1.2:数据、采样以及数据和抽样中的变异

  • Page ID
    204441
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    数据可能来自总体或样本。 小写字母(如\(x\)或)\(y\)通常用于表示数据值。 大多数数据可以分为以下类别:

    • 定性
    • 量化

    定性数据是对人口的属性进行分类或描述的结果。 定性数据通常也称为分类数据。 头发的颜色、血型、种族、一个人驾驶的汽车以及一个人居住的街道都是定性(分类)数据的例子。 定性(分类)数据通常用文字或字母来描述。 例如,头发的颜色可能是黑色、深棕色、浅棕色、金色、灰色或红色。 血型可能是 AB+、O-或 B+。 与定性(分类)数据相比,研究人员通常更喜欢使用定量数据,因为它更容易进行数学分析。 例如,找一个普通的头发颜色或血型是没有意义的。

    定量数据始终是数字。 定量数据是数或测量人口属性的结果。 金额、脉搏率、体重、居住在你所在城镇的人数以及进行统计的学生人数都是定量数据的示例。 定量数据可以是离散的,也可以是连续的。

    所有计数结果的数据都称为定量离散数据。 这些数据仅采用特定的数值。 如果您计算一周中每天接到的电话数量,则可能会得到零、一、二或三等值。

    不仅由计数数字组成,而且可能包括分数、小数或非理性数的数据称为定量连续数据。 连续数据通常是长度、重量或时间等测量的结果。 你在一周内拨打的所有电话的时长(以分钟为单位)的列表,如2.4、7.5或11.0,将是定量连续数据。

    示例\(\PageIndex{1}\): DATA SAMPLE OF QUANTITATIVE DISCRETE DATA

    数据是学生在背包里携带的书的数量。 你抽取五个学生的样本。 两名学生携带三本书,一名学生携带四本书,一名学生携带两本书,一名学生携带一本书。 书的数量(三、四、二和一)是定量离散数据。

    练习\(\PageIndex{1}\)

    数据是健身房中的机器数量。 你在五个体育馆里抽样。 一个健身房有 12 台机器,一个健身房有 15 台机器,一个健身房有 10 台机器,一个健身房有 22 台机器,另一个健身房有 20 台机器。 这是什么类型的数据?

    示例\(\PageIndex{2}\): DATA SAMPLE OF QUANTITATIVE CONTINUOUS DATA

    数据是里面装有书的背包的重量。 你对同样的五个学生进行抽样。 他们背包的重量(以磅为单位)为 6.2、7、6.8、9.1、4.3。 请注意,装有三本书的背包可能有不同的重量。 权重是定量连续数据。

    练习\(\PageIndex{2}\)

    数据是以平方英尺为单位的草坪面积。 你对五栋房子进行采样。 草坪的面积为 144 平方英尺、160 平方英尺、190 平方英尺、180 平方英尺和 210 平方英尺。 这是什么类型的数据?

    示例\(\PageIndex{3}\)

    你去超市购买三罐汤(19 盎司)番茄浓汤、14.1 盎司小扁豆和 19 盎司意大利婚礼)、两包坚果(核桃和花生)、四种不同的蔬菜(西兰花、花椰菜、菠菜和胡萝卜)和两种甜点(16 盎司开心果冰淇淋和32 盎司巧克力曲奇)。

    命名定量离散、定量连续和定性(分类)的数据集。

    回答

    一种可能的解决方案:

    • 三罐汤、两包坚果、四种蔬菜和两种甜点都是定量离散数据,因为你算了它们。
    • 汤的重量(19 盎司、14.1 盎司、19 盎司)是连续定量数据,因为您可以尽可能精确地测量重量。
    • 汤、坚果、蔬菜和甜点的类型是定性(分类)数据,因为它们是分类数据。

    尝试在此示例中识别其他数据集。

    示例\(\PageIndex{4}\)

    数据是背包的颜色。 再说一遍,你对同样的五个学生进行抽样。 一个学生有一个红色的背包,两个学生有黑色背包,一个学生有一个绿色的背包,一个学生有一个灰色的背包。 红色、黑色、黑色、绿色和灰色是定性(分类)数据。

    练习\(\PageIndex{4}\)

    数据是房屋的颜色。 你对五栋房子进行采样。 房屋的颜色是白色、黄色、白色、红色和白色。 这是什么类型的数据?

    您可以以数字形式收集数据并按类别报告。 例如,每个学生的测验分数会在整个学期内记录下来。 在学期结束时,测验分数报告为 A、B、C、D 或 F

    示例\(\PageIndex{5}\)

    协作确定正确的数据类型(定量或定性)。 指明定量数据是连续的还是离散的。 提示:离散的数据通常以 “数目” 开头。

    1. 你拥有的鞋子的数量
    2. 你开的车的类型
    3. 从你家到最近的杂货店的距离
    4. 你每学年上课的数量
    5. 你使用的计算器类型
    6. 相扑选手的体重
    7. 测验中正确答案的数量
    8. 智商分数(这可能会引起一些讨论。)
    回答

    项目 a、d 和 g 是定量离散的;项目 c、f 和 h 是定量连续的;项目 b 和 e 是定性或类别的。

    练习\(\PageIndex{5}\)

    确定停车场汽车数量的正确数据类型(定量或定性)。 指明定量数据是连续的还是离散的。

    示例\(\PageIndex{6}\)

    统计学教授收集有关其学生分为新生、二年级学生、大三学生或大四学生的信息。 她收集的数据汇总在饼图图 1.2 中。 这张图显示了什么类型的数据?

    这是显示统计学学生的班级分类的饼图。 图表有 4 个部分,分别为 “新生”、“二年级”、“初中”、“高级”。 饼图下方问了一个问题:这个图表显示了什么类型的数据?

    图 1.2

    回答

    此饼图显示了每年的学生,即定性(或分类)数据

    练习\(\PageIndex{6}\)

    州立大学的注册人员记录了学生每学期完成的学分数。 他收集的数据汇总在直方图中。 类别界限为 10 至小于 13,13 至小于 16,16 至小于 19,19 至小于 22,22 至小于 25。

    此直方图由 5 个条形组成,其中 x 轴以 10-25 之间的间隔标记为 3,y 轴以 0-800 的增量以 100 为增量标记。 条形的高度显示每个间隔内的学生人数。
    图 1.3

    这张图显示了什么类型的数据?

    定性数据讨论

    下表比较了2010年春季德安扎学院和山麓学院的兼职和全日制学生入学人数。 表格显示计数(频率)和百分比或比例(相对频率)。 百分比列使比较大学中的相同类别变得更加容易。 显示百分比和数字通常很有用,但是在比较总数不相同的数据集时(例如本示例中两所大学的总入学人数),这一点尤其重要。 请注意,与德安扎学院相比,Foothill College 兼职学生的比例要高得多。

    \(\PageIndex{1}\):2007 年秋季学期(人口普查日)
    德安扎学院 山麓学院
    数字 百分比 数字 百分比
    全职 9,200 40.9% 全职 4,059 28.6%
    兼职 13,296 59.1% 兼职 10,124 71.4%
    总计 22,496 100% 总计 14,183 100%

    表格是组织和显示数据的好方法。 但是图表对理解数据可能更有帮助。 对于使用哪种图表,没有严格的规定。 用于显示定性(分类)数据的两个图形是饼图和条形图。

    • 饼图中,数据类别由圆形中的楔形表示,大小与每个类别中个体的百分比成正比。
    • 条形图中,每个类别的条形长度与每个类别中的个人数量或百分比成正比。 条形可以是垂直的,也可以是水平的。
    • 帕累托图由按类别大小(从大到小)排序的条形组成。

    查看图 1.5,确定您认为哪个图表(饼图或条形图)可以更好地显示比较结果。

    最好查看各种图表,看看哪个图表对显示数据最有帮助。 根据数据和上下文,我们可能会对我们认为是 “最佳” 的图表做出不同的选择。 我们的选择还取决于我们使用数据的目的。

    图 1.4a
    图 1.4B

    1.5

    相加大于(或小于)100% 的百分比

    有时百分比加起来大于 100%(或小于 100%)。 在图表中,百分比加起来超过 100%,因为学生可以属于多个类别。 条形图适用于比较类别的相对大小。 不能使用饼图。 如果百分比相加小于 100%,也不能使用。

    \(\PageIndex{2}\):德安扎学院 2010 年春季
    特征/类别 百分比
    全日制学生 40.9%
    打算转入四年制教育机构的学生 48.6%
    25 岁以下的学生 61.0%
    150.5%
    \(\PageIndex{2}\)

    省略类别/缺失数据

    该表显示学生的种族,但缺少 “其他/未知” 类别。 该类别包含认为自己不属于任何种族类别或拒绝回复的人。 请注意,频率加起来不等于学生总数。 在这种情况下,请创建条形图而不是饼图。

    \(\PageIndex{3}\):德安扎学院 2007 年秋季学期(人口普查日)学生的种族
    频率 百分比
    亚洲的 8,794 36.1%
    黑色 1,412 5.8%
    菲律宾人 1,298 5.3%
    西班牙裔 4,180 17.1%
    美洲原住民 146 0.6%
    太平洋岛民 236 1.0%
    白色 5,978 24.5%
    24,382 个中有 22,044 个 100% 中的 90.4%
    \(\PageIndex{3}\)

    下图与上一张图表相同,但已包含 “其他/未知” 百分比(9.6%)。 与其他一些类别(美洲原住民,0.6%,太平洋岛民1.0%)相比,“其他/未知” 类别很大。 当我们考虑数据告诉我们什么时,知道这一点很重要。

    图 1.9 中的这个特殊条形图是帕累托图。 帕累托图的条形从大到小排序,更易于阅读和解释。

    \(\PageIndex{4}\)其他/未知类别的条形图

    \(\PageIndex{4}\)带有按大小排序的条形的帕累托图

    饼图:无缺失数据

    以下饼图包含 “其他/未知” 类别(因为百分比之和必须等于 100%)。 图 1.10 中的图表。

    \(\PageIndex{5}\):在此处粘贴标题

    采样

    收集有关整个人口的信息通常花费太多或几乎是不可能的。 相反,我们使用人口样本。 样本应具有与其所代表的总体相同的特征。 大多数统计学家使用各种随机抽样方法来实现这一目标。 本节将介绍几种最常用的方法。 有几种不同的随机抽样方法。 在每种形式的随机抽样中,总体中的每个成员最初都有相等的机会被选入样本。 每种方法都有优点和缺点。 最简单的描述方法称为简单随机样本。 如果使用简单的随机抽样技术,则任何一组 n\(n\) 个体被选中的可能性与其他任何一组人相同。 换句话说,每个相同大小的样本被选中的机会相等。

    除了简单的随机抽样外,还有其他形式的抽样涉及获得样本的机会过程。 其他众所周知的随机抽样方法是分层样本、聚类样本和系统样本。

    要选择分层样本,请将总体分为称为阶层的组,然后从每个阶层中取出一个成比例的数字。 例如,您可以按部门对大学人口进行分层(分组),然后从每个阶层(每个系)中选择一个成比例的简单随机样本,以获得分层随机样本。 要从每个部门中选择一个简单的随机样本,请对第一个部门的每个成员进行编号,对第二个部门的每个成员进行编号,然后对其余部门进行同样的编号。 然后使用简单的随机抽样从第一个部门中选择成比例的数字,然后对其余每个部门进行同样的抽样。 从第一个部门中选出的数字,从第二个部门中挑选的数字,依此类推,代表组成分层样本的成员。

    要选择聚类样本,请将总体划分为聚类(组),然后随机选择一些聚类。 来自这些群集的所有成员都在集群样本中。 例如,如果您从大学人口中随机抽样四个系,则这四个系构成聚类样本。 按系划分你的大学教职员工。 部门就是集群。 对每个部门进行编号,然后使用简单的随机抽样选择四个不同的数字。 拥有这些数字的四个部门的所有成员均为集群样本。

    要选择系统样本,请随机选择一个起点,然后从人口列表中提取\(n^{th}\)每条数据。 例如,假设你必须进行电话调查。 您的电话簿包含 20,000 个住宅清单。 必须为样本选择 400 个名称。 对总体进行编号 1—20,000,然后使用简单的随机样本选取一个代表样本中名字的数字。 然后每五十个名字选择一次,直到你总共有 400 个名字(你可能需要回到电话列表的开头)。 之所以经常选择系统采样,是因为它是一种简单的方法。

    一种非随机抽样是便捷采样。 便捷采样涉及使用易于获得的结果。 例如,一家计算机软件商店通过采访碰巧在商店中浏览可用软件的潜在客户来进行营销研究。 在某些情况下,便利抽样的结果可能非常好,而在另一些情况下,则偏差很大(偏向于某些结果)。

    采样数据应非常谨慎。 不小心收集数据可能会造成毁灭性的后果。 邮寄给家庭然后退回的调查可能会有很大的偏见(它们可能偏向某个群体)。 进行调查的人最好选择样本受访者。

    真正的随机采样是通过替换完成的。 也就是说,一旦选出一个成员,该成员就会回到人口中,因此可能会被多次选中。 但是,出于实际原因,在大多数人群中,简单的随机抽样是在没有替代的情况下进行的。 调查通常无需替换。 也就是说,人口中的一个成员只能被选中一次。 大多数样本来自大量人群,与人群相比,样本往往很小。 既然如此,没有替换的抽样与替换的抽样大致相同,因为在替换的情况下多次挑选同一个人的机会非常低。

    在拥有 10,000 人的大学人口中,假设你想随机抽取 1,000 人的样本进行调查。 对于任何1,000的特定样本,如果您使用替代品进行抽样,

    • 选出第一人称的几率为 10,000 分中的 1,000 (0.1000);
    • 为该样本挑选另一个第二人称的几率为 10,000 分中的 999 (0.0999);
    • 再次选择同一个人的几率是万分之一(非常低)。

    如果您在没有替换的情况下进行采样,

    • 为任何特定样本挑选第一人称的几率为10,000分中的1000(0.1000);
    • 在9,999人中选出另一个第二人称的几率为999%(0.0999);
    • 在选择下一个人之前,你不会替换第一个人。

    比较 999/10,000 和 999/9,999 的分数。 为了准确起见,请将十进制答案移到小数点后四位。 对于四位小数,这些数字是等效的 (0.0999)。

    只有在人口较少的情况下,不进行替代的抽样而不是替换的抽样才会成为数学问题。 例如,如果总人口为 25 人,样本为 10 人,而您正在使用任何特定样本的替代品进行抽样,则选取第一人称的几率为 25 人中的 10 人,而选择另一个第二人称的几率为 25 人中的 9 人(您替换第一个人)。

    如果你在没有替换的情况下抽样,那么选出第一个人的几率是25分中的10个,然后选择第二个人(谁与众不同)的几率是24分之九(你不替换第一个人)。

    比较 9/25 和 9/24 的分数。 精确到小数点后四位,9/25 = 0.3600,9/24 = 0.3750。 到小数点后四位,这些数字是不等效的。

    分析数据时,务必注意采样误差和非采样误差。 实际的采样过程会导致采样错误。 例如,样本可能不够大。 与抽样过程无关的因素会导致非抽样误差。 有缺陷的计数设备可能导致非采样错误。

    实际上,样本永远无法完全代表总体,因此总会有一些抽样误差。 通常,样本越大,抽样误差越小。

    在统计学中,抽样偏差是在从总体中收集样本时产生的,而人口中某些成员被选中的可能性不如其他成员那么大(请记住,人口中每个成员被选中的可能性应该相同)。 当出现抽样偏差时,可能会对正在研究的人群得出错误的结论。

    批判性评估

    在接受研究结果之前,我们需要批判性地评估我们阅读的统计研究并对其进行分析。 需要注意的常见问题包括

    • 样本问题:样本必须代表总体。 不能代表总体的样本是有偏见的。 不代表总体的有偏见的样本给出的结果不准确且无效。
    • 自选样本:只有选择回复的人的回复(例如来电调查)通常不可靠。
    • 样本量问题:太小的样本可能不可靠。 如果可能的话,样品越大越好。 在某些情况下,拥有少量样本是不可避免的,仍然可以用来得出结论。 示例:汽车碰撞测试或罕见病的医学测试
    • 不当影响:以影响回应的方式收集数据或提问
    • 不回复或拒绝受试者参与:收集到的答复可能不再代表人群。 通常,持强烈正面或负面看法的人可能会回答调查,这可能会影响结果。
    • 因果关系:两个变量之间的关系并不意味着一个变量会导致另一个变量的发生。 它们可能是相关的(相关的),因为它们通过不同的变量相互关联。
    • 自筹资金或自身利益研究:个人或组织为支持其主张而进行的研究。 这项研究是否公正? 仔细阅读研究报告以评估工作。 不要自动假设研究是好的,但也不要自动假设研究不好。 根据其优点和已完成的工作对其进行评估。
    • 误导性使用数据:图表显示不正确、数据不完整或缺乏上下文
    • 混淆:当多个因子对响应的影响无法分离时。 混淆使得很难或不可能就每个因素的影响得出有效的结论。

    示例\(\PageIndex{7}\)

    进行了一项研究,以确定圣何塞州立大学本科生每学期支付的平均学费。 以下样本中的每个学生都会被问到他或她为秋季学期支付了多少学费。 每种情况下的抽样类型是什么?

    1. 抽取了 100 名圣何塞州立大学本科生的样本,方法是按分类(大一、二年级、大三或高年级)整理学生的姓名,然后从每人中选出 25 名学生。
    2. 随机数生成器用于从秋季学期所有本科生的字母顺序列表中选择一名学生。 从该学生开始,每选择第 50 名学生,直到样本中包含 75 名学生。
    3. 使用完全随机的方法来选择 75 名学生。 秋季学期的每位本科生在抽样过程的任何阶段被选中的概率都相同。
    4. 大一、二年级、大三和高年级分别编号为一、二、三和四。 使用随机数生成器来选择其中两年。 这两年中的所有学生都在样本中。
    5. 一位行政助理被要求在一个星期三站在图书馆前,询问他遇到的前 100 名本科生秋季学期他们支付了多少学费。 这 100 名学生就是样本。
    回答

    a. 分层;b. 系统化;c. 简单随机;d. 聚类;e. 便利

    示例\(\PageIndex{8}\)

    确定使用的抽样类型(简单随机、分层、系统抽样、聚类抽样或便利抽样)。

    1. 足球教练从一组8至10岁的男孩中选出六名球员,从一组11至12岁的男孩中选出七名球员,从一组13至14岁的男孩中选出三名球员组成休闲足球队。
    2. 一位民意调查员采访了五家不同高科技公司的所有人力资源人员。
    3. 一位高中教育研究人员采访了50名高中女教师和50名高中男教师。
    4. 医学研究人员会采访当地医院癌症患者名单中每三分之一的癌症患者。
    5. 高中辅导员使用计算机生成 50 个随机数,然后挑选姓名与数字对应的学生。
    6. 学生在代数课上采访同学,以确定学生平均拥有多少条牛仔裤。
    回答

    a. 分层;b. 聚类;c. 分层;d. 系统化;e. 简单随机;f.便利

    如果我们要检查代表相同总体的两个样本,即使我们对样本使用随机抽样方法,它们也不会完全相同。 就像数据存在差异一样,样本也有变化。 当你习惯了采样时,变异性将开始显得很自然。

    示例\(\PageIndex{8}\)

    假设 ABC 学院有 10,000 名兼职学生(人口)。 我们对兼职学生在秋季学期花在书本上的平均金额感兴趣。 询问所有 10,000 名学生几乎是不可能完成的任务。

    假设我们采集了两个不同的样本。

    首先,我们使用便利抽样调查第一学期有机化学课的十名学生。 除了有机化学课外,这些学生中有许多人还在学习第一学期的微积分。 他们在书上花费的金额如下:

    128 美元;87 美元;173 美元;116 美元;130 美元;204 美元;147 美元;189 美元;93 美元;153 美元

    第二个样本是使用参加体育课的老年人名单采集的,名单上每五分之一的老年人就选出,总共有十名老年人。 他们花了:

    50 美元;40 美元;36 美元;15 美元;50 美元;100 美元;40 美元;53 美元;22 美元

    两个样本中都不大可能有任何学生。

    a. 你认为这两个样本中的任何一个代表了整个 10,000 名兼职学生群体(或是其特征)吗?

    回答

    a. 不。 第一个样本可能由以科学为导向的学生组成。 除了化学课程外,他们中的一些人还学习第一学期的微积分。 这些课程的书往往很昂贵。 这些学生中的大多数很可能比普通的兼职学生支付更高的书费。 第二个样本是一组老年人,他们很可能正在参加健康和兴趣课程。 他们花在书本上的钱可能比普通的兼职学生少得多。 两个样本都有偏差。 此外,在这两种情况下,并非所有学生都有机会进入任一样本。

    b. 既然这些样本不能代表整个人群,那么用结果来描述整个人群是否明智?

    回答

    解决方案 1.13

    b. 不是。 对于这些样本,人群中的每个成员被选中的可能性不一样。

    现在,假设我们取第三个样本。 我们从化学、数学、英语、心理学、社会学、历史、护理、体育、艺术和幼儿发展等学科中选出十名不同的兼职学生。 (我们假设这些是ABC College招收兼职学生的唯一学科,并且每个学科的兼职学生入学人数相等。) 每个学生都是使用简单的随机抽样来选择的。 使用计算器生成随机数,如果特定学科的学生有相应的数字,则将其选中。 学生花费以下金额:

    180 美元;50 美元;150 美元;85 美元;260 美元;75 美元;180 美元;200 美元;200 美元;150 美元

    c. 样本有偏差吗?

    回答

    解决方案 1.13

    c. 样本没有偏差,但建议使用更大的样本,以增加样本接近于代表人口的可能性。 但是,对于有偏见的抽样技术,即使是较大的样本也存在无法代表总体的风险。

    学生经常问抽样是否 “足够好”,而不是调查整个人群。 如果调查做得好,答案是肯定的。

    练习\(\PageIndex{8}\)

    当地一家广播电台拥有20,000名听众的粉丝群。 该电台想知道它的观众是喜欢更多的音乐还是更多的脱口秀节目。 询问所有20,000名听众几乎是不可能完成的任务。

    该电台使用便利抽样调查他们在该电台的一场音乐会活动中遇到的前200人。24人表示他们更喜欢更多的脱口秀节目,176人表示他们更喜欢更多的音乐。

    你认为这个样本代表了整个 20,000 名听众群体(或是其特征)吗?

    数据变异

    任何一组数据中都存在@@ 变异。 例如,16 盎司的罐装饮料可能含有多于或少于 16 盎司的液体。 在一项研究中,测量了八罐 16 盎司的饮料,生产了以下量(以盎司为单位)的饮料:

    15.8;16.1;15.2;14.8;15.8;15.9;16.0;15.5

    16 盎司饮料量的测量值可能会有所不同,因为不同的人进行测量,或者因为罐装中没有放入 16 盎司液体的确切量。 制造商定期进行测试,以确定 16 盎司罐中的饮料量是否在所需范围内。

    请注意,在您获取数据时,您的数据可能与其他人出于相同目的获取的数据有所不同。 这是完全自然的。 但是,如果你们中的两个或两个以上正在获取相同的数据并得到非常不同的结果,那么现在是你和其他人重新评估你的数据采集方法和准确性的时候了。

    样本的变异

    前面有人提到,来自同一体的两个或更多样本,随机采集,具有接近相同的人群特征,可能会彼此不同。 假设 Doreen 和 Jung 都决定研究大学学生每晚的平均睡眠时间。 多琳和荣格分别采集了 500 名学生的样本。 Doreen 使用系统采样,Jung 使用聚类采样。 多琳的样本将与荣格的样本有所不同。 即使 Doreen 和 Jung 使用相同的抽样方法,他们的样本也很可能会有所不同。 但是,两者都不会错。

    想想是什么让 Doreen 和 Jung 的样本与众不同。

    如果 Doreen 和 Jung 采集了更大的样本(即数据值的数量增加),则他们的样本结果(学生的平均睡眠时间)可能更接近实际人口平均值。 但是,它们的样本很可能彼此不同。 样本的这种变异怎么强调都不为过。

    样本的大小

    样本的大小(通常称为观测次数,通常给定符号 n)很重要。 到目前为止,你在这本书中看到的例子很小。 仅有几百个观测值的样本,甚至更小的样本足以满足多种用途。 在民意调查中,如果调查是随机的,并且做得很好,则1,200到1,500个观测值之间的样本被认为足够大,足够好。 稍后我们会发现,即使样本量小得多,也会产生非常好的结果。 当您研究置信区间时,您将了解原因。

    请注意,许多大型样本都有偏差。 例如,来电调查总是有偏见的,因为人们选择是否回应。