Skip to main content
Global

1.1:统计、概率和关键术语的定义

  • Page ID
    204440
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    统计科学涉及数据的收集、分析、解释和呈现。 我们在日常生活中看到和使用数据。

    在本课程中,您将学习如何组织和汇总数据。 组织和汇总数据称为描述性统计。 汇总数据的两种方法是绘制图表和使用数字(例如,求平均值)。 在研究了概率和概率分布之后,您将使用形式化方法从 “好” 数据中得出结论。 正式方法称为推理统计。 统计推理使用概率来确定我们对结论的正确性有多大的信心。

    有效的数据解释(推理)基于良好的数据生成程序和对数据的周密检查。 你会遇到似乎太多的数学公式来解释数据。 统计的目标不是使用公式进行大量计算,而是要了解您的数据。 可以使用计算器或计算机进行计算。 理解必须来自你。 如果你能彻底掌握统计学的基础知识,你就可以对自己在生活中所做的决定更有信心。

    概率

    概率是一种用于研究随机性的数学工具。 它处理事件发生的几率(可能性)。 例如,如果你掷一枚公平的硬币四次,结果可能不是两个正面和两个反面。 但是,如果你将同一枚硬币掷出 4,000 次,结果将接近半正半尾。 任何一次投掷中头部的预期理论概率为\(\frac{1}{2}\)或 0.5。 尽管几次重复的结果尚不确定,但当重复次数多时,结果是规律的。 读到英国统计学家卡尔· 皮尔森(Karl Pearson)抛出一枚硬币24,000次,结果为12,012头,其中一位作者抛出一枚硬币2000次。 结果是 996 头。 分数等\(\frac{996}{2000}\)于 0.498,非常接近 0.5,即预期概率。

    概率理论始于对扑克等机会游戏的研究。 预测采用概率的形式。 为了预测发生地震、降雨的可能性,或者你在本课程中是否会得到 A,我们使用概率。 医生使用概率来确定疫苗接种导致疫苗接种本应预防的疾病的可能性。 股票经纪人使用概率来确定客户投资的回报率。 你可以利用概率来决定是否买彩票。 在统计学研究中,您将利用数学的力量通过概率计算来分析和解释您的数据。

    关键条款

    在统计学中,我们通常想研究人。 你可以将人口视为正在研究的人、事物或物体的集合。 为了研究人群,我们选择一个样本抽样的想法是从较大人口中选择一部分(或子集),然后研究该部分(样本)以获取有关人口的信息。 数据是从总体中抽样的结果。

    由于检查整个人群需要大量的时间和金钱,因此抽样是一种非常实用的技术。 如果你想计算学校的总体平均成绩,那么选择一个在校学生的样本是有意义的。 从样本中收集的数据将是学生的平均成绩。 在总统选举中,采集了1,000-2,000人的民意调查样本。 民意调查应该代表全国人民的观点。 罐装碳酸饮料的制造商抽取样品,以确定一个 16 盎司的罐装中是否包含 16 盎司的碳酸饮料。

    根据样本数据,我们可以计算出统计数据。 统计数据是表示样本属性的数字。 例如,如果我们将一个数学课视为所有数学课程总数的样本,那么学生在学期末在该数学课中获得的平均分数就是统计数据的示例。 统计量是对总体参数的估计值,在本例中为均值。 参数是整个人口的数值特征,可以通过统计数据进行估计。 由于我们将所有数学课视为总数,因此每个学生在所有数学课上获得的平均分数就是一个参数的示例。

    统计领域的主要问题之一是统计数据估计参数的准确性。 准确性实际上取决于样本代表总体的程度。 样本必须包含总体特征才能成为代表性样本。 我们对推理统计中的样本统计量和总体参数都感兴趣。 在后面的章节中,我们将使用样本统计数据来检验已建立的总体参数的有效性。

    变量或随机变量,通常用大写字母(如\(X\)和)表示\(Y\),是可以为总体中每个成员确定的特征或度量。 变量可以是数字变量或类别变量。 数值变量采用相同单位的值,例如以磅为单位的重量和以小时为单位的时间。 类别变量将人或事物归入一个类别。 如果我们让\(X\)等于一个数学学生在学期结束时获得的分数,则\(X\)是一个数值变量。 如果我们让一个人\(Y\)成为党派关系,那么一些例子\(Y\)包括共和党、民主党和独立党。 \(Y\)是一个类别变量。 我们可以用值做一些数学运算\(X\)(例如,计算获得的平均分数),但是用值进行数学运算是没有意义的\(Y\)(计算平均党派关系是没有意义的)。

    数据是变量的实际值。 它们可能是数字,也可能是单词。 基准是一个单一值。

    统计中经常出现的两个词是平均值比例。 如果您要在数学课上参加三次考试并获得86、75和92分的分数,则可以通过将三个考试分数相加然后除以三(您的平均分数为84.3到小数点后一位)来计算平均分数。 如果在你的数学课上,有 40 名学生,22 名是男生,18 名是女生,那么男生的比例是\(\frac{22}{40}\),女学生的比例是\(\frac{18}{40}\)。 后面的章节将更详细地讨论平均值和比例。

    注意

    平均值” 和 “平均值” 这两个词经常互换使用。 用一个词代替另一个词是常见的做法。 技术术语是 “算术平均值”,从技术上讲,“平均值” 是中心位置。 但是,在实践中,在非统计学家中,“平均值” 通常被视为 “算术平均值”。

    示例 1.1

    确定以下研究中的关键术语指的是什么。 我们想知道大学一年级学生在 ABC College 购买不包括书籍的学习用品的平均(平均)金额。 我们对学院的100名一年级学生进行了随机调查。 其中三名学生分别花费了150美元、200美元和225美元。

    回答

    解决方案 1.1

    人口都是本学期在ABC学院就读的一年级学生。

    本可能是所有在ABC College统计学入门课程某一部分就读的学生(尽管该样本可能不代表全部人群)。

    参数是本学期ABC学院一年级大学生花费的平均(平均)金额(不包括书本):人口平均值。

    统计数据是样本中大学一年级学生花费的平均(平均)金额(不包括书本)。

    变量可以是一名一年级学生花费的金额(不包括书本)。 Let\(X\) = 一名在 ABC 学院就读的一年级学生花费的金额(不包括书本)。

    数据是一年级学生花费的美元金额。 数据示例有 150 美元、200 美元和 225 美元。

    练习 1.1

    确定以下研究中的关键术语指的是什么。 我们想知道有孩子的家庭每年在诺尔学院花在校服上的平均(平均)金额。 我们随机调查了 100 个有孩子在校的家庭。 其中三个家庭分别花费了65美元、75美元和95美元。

    示例 1.2

    确定以下研究中的关键术语指的是什么。

    当地一所大学进行了一项研究,分析了去年毕业学生的平均累计GPA。 填写最能描述以下每项的短语的字母。

    1。 人口 ____ 2. 统计数据 ____ 3. 参数 ____ 4. 示例 ____ 5. 变量 ____ 6. 数据 ____

    1. 去年上过这所大学的所有学生
    2. 去年从学院毕业的一名学生的累计 GPA
    3. 3.65、2.80、1.50、3.90
    4. 一组去年从学院毕业的学生,随机挑选
    5. 去年从学院毕业的学生的平均累计 GPA
    6. 去年从学院毕业的所有学生
    7. 该研究中去年从学院毕业的学生的平均累计 GPA
    回答

    解决方案 1.2

    1. f; 2. g; 3. e; 4. d; 5. b; 6. c

    示例 1.3

    确定以下研究中的关键术语指的是什么。

    作为旨在测试汽车安全性的研究的一部分,美国国家运输安全委员会收集并审查了有关汽车碰撞对测试假人的影响的数据。 以下是他们使用的标准:

    汽车坠毁的速度 “驱动器”(即假人)的位置
    35 英里/小时 前排座椅
    表 1.1

    前排座位上装有假人的汽车以每小时 35 英里的速度撞到墙上。 我们想知道坐在驾驶员座位上的假人如果是真正的驾驶员会头部受伤的比例。 我们从75辆汽车的简单随机样本开始。

    回答

    解决方案 1.3

    人口都是前排座位上装有假人的汽车。

    本是 75 辆汽车,由一个简单的随机样本选出。

    参数是人群中头部受伤的驾驶员假人(如果他们是真实人物)的比例。

    统计数据是样本中头部受伤的司机假人(如果他们是真实人物)的比例。

    变量\(X\) = 头部会受伤的司机假人(如果他们是真实的人)的数量。

    数据要么是:是的,头部受伤,要么没有,没有。

    示例 1.4

    确定以下研究中的关键术语指的是什么。

    一家保险公司想确定所有医生中参与一项或多项医疗事故诉讼的比例。 该公司从专业名录中随机选择500名医生,并确定样本中参与医疗事故诉讼的人数。

    回答

    解决方案 1.4

    人口是专业名录中列出的全部医生。

    参数是人口中参与一起或多起医疗事故诉讼的医生的比例。

    本是从专业名录中随机选出的500名医生。

    统计数据是样本中参与一起或多起医疗事故诉讼的医生的比例。

    变量\(X\) = 参与一项或多项医疗事故诉讼的医生人数。

    数据要么是:是的,参与了一起或多起医疗事故诉讼,要么没有,没有。