3.2:汇总数据-描述性统计数据
- Page ID
- 173312
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)
你如何汇总数据?
数据以两种主要方式汇总:汇总计算和摘要可视化
计算:使用哪些类型的测量?
为了能够解释数据中的模式,必须首先对原始数据进行操作并将其总结为两类测量值:中心趋势测量和变异性测量。 这两类测量概括了科学探究的第一步,即描述性统计。
中心趋势的衡量标准(中心)— 提供有关数据如何围绕某个中间值聚类的信息。 生物学调查中最常使用两种中心测量方法:
- 平均值(平均值)-所有单个值的总和除以样本/总体中值的总数。 这是对称分布下最常用的中心测量方法,对异常值很敏感。
- 中位数-数据集按顺序排序(从高到低)排序时的中间值。 这通常在数据偏斜且能抵抗异常值时使用。
变异性(扩散)度量-描述数据的分布或分散程度。 生物学调查中使用两种主要的传播测量方法:
- 范围-量化最大和最小数据值之间的距离。
- 标准差-量化数据集平均值的变异或离差。 低标准差表示数据往往非常接近平均值;高标准差表示数据点分布在很大的值范围内。 此计算对异常值很敏感。
- 标准误差-量化来自多个数据集或原始数据集样本分布的均值变异。
可视化数据:如何使用表格和图表?
计算出所有所需的描述性统计数据后,通常会将它们直观地汇总为表格或图表。
表:
表是一组按列和行排列的数据值。 通常,这些列包含一个广泛的数据类别,而行包含另一个数据类别。 在每个大类中,都有子类别决定表由多少列和行组成。 表格用于收集和汇总数据。 但是,在大多数情况下,表格显示的是汇总数据,而不是原始数据。 尽管表格允许有序地显示汇总数据,但大多数人更喜欢将表格转换为功能更强大的数据可视化工具,即图表。
图表:
图表是一种显示可变量(通常是两个变量)之间关系的示意图,每个变量沿着一对轴中的一个以直角测量。 图表可能看起来像图表或绘图。 大多数图表使用条形、线条或圆的一部分来显示数据。 但是,有时会将图表叠加在地图顶部以显示地理位置,甚至还会以动画形式呈现交互性。
主要图表类型类别:
- Circle/Pie — 分为多个切片的圆形图表,用于说明数值比例。 在饼图中,每个切片的弧长(以及其中心角和面积)与其代表的量成正比。 虽然它因其与切成薄片的馅饼相似而得名,但它的呈现方式各不相同。
- 折线 — 一种将信息显示为一系列由直线段连接的称为 “标记” 的数据点的图表。 它是许多领域中常见的一种基本图表类型。 它与散点图类似,不同之处在于测量点是排序的(通常按其 x 轴值),并与直线段相连。 折线图通常用于可视化数据在不同时间间隔(时间序列)内的趋势,因此线条通常按时间顺序绘制。
- 散点图-是沿水平轴和垂直轴绘制两个变量的值的图形,生成的点的模式显示了任何关联预设。 数据显示为点的集合,每个点具有一个变量的值决定水平轴上的位置,另一个变量的值决定垂直轴上的位置。
- 条形图-用矩形条形显示分类数据的图表或图形,其高度或长度与它们所代表的值成正比。 条形图可以垂直或水平绘制。
- 直方图-是数值数据分布的近似表示。 要构造直方图,第一步是将值的范围 “分组”(或 “分组”),也就是说,将整个值范围分成一系列间隔,然后计算每个间隔中有多少值落入每个区间。 条柱通常被指定为变量的连续、非重叠间隔。 条柱(间隔)必须相邻(这意味着它们之间没有像条形图中的空格),并且通常(但不是必须)的大小相等。 如果箱子的大小相等,则在垃圾箱上方竖起一个矩形,其高度与频率(每个箱子中的病例数)成正比。
归因
Rachel Schleiger(CC-BY-NC)