1.R：抽样和数据（回顾）

Last updated
Save as PDF

Page ID: 204474

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\dsum}{\displaystyle\sum\limits} \)

\( \newcommand{\dint}{\displaystyle\int\limits} \)

\( \newcommand{\dlim}{\displaystyle\lim\limits} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\(\newcommand{\longvect}{\overrightarrow}\)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

1.1 统计、概率和关键术语的定义

当你知道统计学的数学理论时，统计学的数学理论更容易学习。本模块介绍了将在整篇文章中使用的重要术语。

1.2 数据、采样以及数据和抽样中的变异

数据是来自总体或样本的单项信息。数据可以分为定性（分类）、定量连续或定量离散数据。

由于在研究中测量整个人群是不切实际的，因此研究人员使用样本来代表人群。随机样本是从总体中选择的代表性群体，该方法使用一种方法使总体中的每个人都有同等的机会被纳入样本。随机抽样方法包括简单随机抽样、分层抽样、聚类抽样和系统抽样。便捷采样是一种非随机方法，用于选择通常会产生偏差数据的样本。

包含不同个体的样本会产生不同的数据。即使样本经过精心挑选并能代表人群，情况也是如此。如果选择得当，较大的样本比较小的样本更接近于对总体的建模。有许多不同的潜在问题会影响样品的可靠性。统计数据需要进行批判性分析，而不仅仅是被接受。

1.3 测量等级

有些计算会生成人为精确的数字。如果生成该值的测量值仅精确到最接近的十分之一，则无需将该值报告到小数点后八位。将您的最终答案四舍五入到比原始数据中的小数点后多一位。这意味着，如果您的数据测量到最接近的十分之一单位，则将最终统计数据报告到最接近的百分之一。

除了四舍五入答案外，您还可以使用以下四个测量级别来衡量数据。

标称刻度等级：无法订购也不能用于计算的数据
序数尺度等级：可以排序的数据；差异无法测量
间隔尺度等级：具有明确排序但没有起点的数据；差异可以测量，但没有比率之类的东西。
比率等级：具有起点的数据可以排序；差异有意义，比率可以计算。

在组织数据时，重要的是要知道一个值出现了多少次。有多少统计专业的学生为考试学习了五个小时或更长时间？我们街区的家庭中有多少百分比拥有两只宠物？频率、相对频率和累积相对频率是回答此类问题的度量标准。

1.4 实验设计与伦理

设计不当的研究不会产生可靠的数据。每个实验中都必须包含某些关键组件。为了消除潜伏变量，必须将受试者随机分配到不同的治疗组。其中一个组必须充当对照组，证明不应用积极治疗时会发生什么。对照组的参与者接受安慰剂治疗，该治疗看起来与活性疗法完全相同，但不能影响反应变量。为了保持安慰剂的完整性，研究人员和受试者都可能失明。当研究设计得当时，治疗组之间的唯一区别是研究人员施加的区别。因此，当群体对不同治疗的反应不同时，差异必须归因于解释变量的影响。

“当你考虑采取对你有益的行动，或者某些行为导致你支持、伤害或减少对他人的好处，并且违反某些规则时，就会出现道德问题。” （安德鲁·盖尔曼，《开放数据与开放方法》，《伦理与统计》，http://www.stat.columbia.edu/~gelman...nceEthics1.pdf（2013年5月1日访问）。）统计数据中的道德违规行为并不总是那么容易被发现。专业协会和联邦机构发布了正确行为的指导方针。学习基本的统计程序很重要，这样你才能识别正确的数据分析。