3.2：汇总数据-描述性统计数据

Last updated

Nov 1, 2022
Page ID
173312
Save as PDF
- 3.1：掌握基础知识——基本的数学和统计术语和概念是什么？
- 3.3：将它们放在一起-推理统计和假设检验

Melissa Ha and Rachel Schleiger
Yuba College & Butte College via ASCCC Open Educational Resources Initiative

$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$

$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\id}{\mathrm{id}}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\kernel}{\mathrm{null}\,}$

$\newcommand{\range}{\mathrm{range}\,}$

$\newcommand{\RealPart}{\mathrm{Re}}$

$\newcommand{\ImaginaryPart}{\mathrm{Im}}$

$\newcommand{\Argument}{\mathrm{Arg}}$

$\newcommand{\norm}[1]{\| #1 \|}$

$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$\newcommand{\Span}{\mathrm{span}}$

$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

你如何汇总数据？

数据以两种主要方式汇总：汇总计算和摘要可视化

计算：使用哪些类型的测量？

为了能够解释数据中的模式，必须首先对原始数据进行操作并将其总结为两类测量值：中心趋势测量和变异性测量。这两类测量概括了科学探究的第一步，即描述性统计。

中心趋势的衡量标准（中心）— 提供有关数据如何围绕某个中间值聚类的信息。生物学调查中最常使用两种中心测量方法：

平均值（平均值）-所有单个值的总和除以样本/总体中值的总数。这是对称分布下最常用的中心测量方法，对异常值很敏感。
中位数-数据集按顺序排序（从高到低）排序时的中间值。这通常在数据偏斜且能抵抗异常值时使用。

变异性（扩散）度量-描述数据的分布或分散程度。生物学调查中使用两种主要的传播测量方法：

范围-量化最大和最小数据值之间的距离。
标准差-量化数据集平均值的变异或离差。低标准差表示数据往往非常接近平均值；高标准差表示数据点分布在很大的值范围内。此计算对异常值很敏感。
标准误差-量化来自多个数据集或原始数据集样本分布的均值变异。

可视化数据：如何使用表格和图表？

计算出所有所需的描述性统计数据后，通常会将它们直观地汇总为表格或图表。

表：

表是一组按列和行排列的数据值。通常，这些列包含一个广泛的数据类别，而行包含另一个数据类别。在每个大类中，都有子类别决定表由多少列和行组成。表格用于收集和汇总数据。但是，在大多数情况下，表格显示的是汇总数据，而不是原始数据。尽管表格允许有序地显示汇总数据，但大多数人更喜欢将表格转换为功能更强大的数据可视化工具，即图表。

图表：

图表是一种显示可变量（通常是两个变量）之间关系的示意图，每个变量沿着一对轴中的一个以直角测量。图表可能看起来像图表或绘图。大多数图表使用条形、线条或圆的一部分来显示数据。但是，有时会将图表叠加在地图顶部以显示地理位置，甚至还会以动画形式呈现交互性。

主要图表类型类别：

Circle/Pie — 分为多个切片的圆形图表，用于说明数值比例。在饼图中，每个切片的弧长（以及其中心角和面积）与其代表的量成正比。虽然它因其与切成薄片的馅饼相似而得名，但它的呈现方式各不相同。
折线 — 一种将信息显示为一系列由直线段连接的称为 “标记” 的数据点的图表。它是许多领域中常见的一种基本图表类型。它与散点图类似，不同之处在于测量点是排序的（通常按其 x 轴值），并与直线段相连。折线图通常用于可视化数据在不同时间间隔（时间序列）内的趋势，因此线条通常按时间顺序绘制。

圆形/饼图和折线图示例 — 图 $\PageIndex{a}$ ：圆形/饼形图（a.）和折线图（b.）的示例。图片由 Rachel Schleiger（CC-BY-NC）创作。

散点图-是沿水平轴和垂直轴绘制两个变量的值的图形，生成的点的模式显示了任何关联预设。数据显示为点的集合，每个点具有一个变量的值决定水平轴上的位置，另一个变量的值决定垂直轴上的位置。

图 $\PageIndex{b}$ ：散点图示例。图片由 Rachel Schleiger（CC-BY-NC）创作。

条形图-用矩形条形显示分类数据的图表或图形，其高度或长度与它们所代表的值成正比。条形图可以垂直或水平绘制。
直方图-是数值数据分布的近似表示。要构造直方图，第一步是将值的范围 “分组”（或 “分组”），也就是说，将整个值范围分成一系列间隔，然后计算每个间隔中有多少值落入每个区间。条柱通常被指定为变量的连续、非重叠间隔。条柱（间隔）必须相邻（这意味着它们之间没有像条形图中的空格），并且通常（但不是必须）的大小相等。如果箱子的大小相等，则在垃圾箱上方竖起一个矩形，其高度与频率（每个箱子中的病例数）成正比。

条形图和直方图示例 — 图 $\PageIndex{c}$ ：使用相同数据集的条形图 (a.) 和直方图 (b.) 的示例。图片由 Rachel Schleiger（CC-BY-NC）创作。

归因

Rachel Schleiger（CC-BY-NC）