Skip to main content
Global

1.R:抽样和数据(回顾)

  • Page ID
    204474
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    1.1 统计、概率和关键术语的定义

    当你知道统计学的数学理论时,统计学的数学理论更容易学习。 本模块介绍了将在整篇文章中使用的重要术语。

    1.2 数据、采样以及数据和抽样中的变异

    数据是来自总体或样本的单项信息。 数据可以分为定性(分类)、定量连续或定量离散数据。

    由于在研究中测量整个人群是不切实际的,因此研究人员使用样本来代表人群。 随机样本是从总体中选择的代表性群体,该方法使用一种方法使总体中的每个人都有同等的机会被纳入样本。 随机抽样方法包括简单随机抽样、分层抽样、聚类抽样和系统抽样。 便捷采样是一种非随机方法,用于选择通常会产生偏差数据的样本。

    包含不同个体的样本会产生不同的数据。 即使样本经过精心挑选并能代表人群,情况也是如此。 如果选择得当,较大的样本比较小的样本更接近于对总体的建模。 有许多不同的潜在问题会影响样品的可靠性。 统计数据需要进行批判性分析,而不仅仅是被接受。

    1.3 测量等级

    有些计算会生成人为精确的数字。 如果生成该值的测量值仅精确到最接近的十分之一,则无需将该值报告到小数点后八位。 将您的最终答案四舍五入到比原始数据中的小数点后多一位。 这意味着,如果您的数据测量到最接近的十分之一单位,则将最终统计数据报告到最接近的百分之一。

    除了四舍五入答案外,您还可以使用以下四个测量级别来衡量数据。

    • 标称刻度等级:无法订购也不能用于计算的数据
    • 序数尺度等级:可以排序的数据;差异无法测量
    • 间隔尺度等级:具有明确排序但没有起点的数据;差异可以测量,但没有比率之类的东西。
    • 比率等级:具有起点的数据可以排序;差异有意义,比率可以计算。

    在组织数据时,重要的是要知道一个值出现了多少次。 有多少统计专业的学生为考试学习了五个小时或更长时间? 我们街区的家庭中有多少百分比拥有两只宠物? 频率、相对频率和累积相对频率是回答此类问题的度量标准。

    1.4 实验设计与伦理

    设计不当的研究不会产生可靠的数据。 每个实验中都必须包含某些关键组件。 为了消除潜伏变量,必须将受试者随机分配到不同的治疗组。 其中一个组必须充当对照组,证明不应用积极治疗时会发生什么。 对照组的参与者接受安慰剂治疗,该治疗看起来与活性疗法完全相同,但不能影响反应变量。 为了保持安慰剂的完整性,研究人员和受试者都可能失明。 当研究设计得当时,治疗组之间的唯一区别是研究人员施加的区别。 因此,当群体对不同治疗的反应不同时,差异必须归因于解释变量的影响。

    “当你考虑采取对你有益的行动,或者某些行为导致你支持、伤害或减少对他人的好处,并且违反某些规则时,就会出现道德问题。” (安德鲁·盖尔曼,《开放数据与开放方法》,《伦理与统计》,http://www.stat.columbia.edu/~gelman...nceEthics1.pdf(2013年5月1日访问)。) 统计数据中的道德违规行为并不总是那么容易被发现。 专业协会和联邦机构发布了正确行为的指导方针。 学习基本的统计程序很重要,这样你才能识别正确的数据分析。