Loading [MathJax]/jax/output/HTML-CSS/jax.js
Skip to main content
Library homepage
 
Global

2.R:描述性统计(综述)

2.1 显示数据

茎叶图是一种绘制数据和查看分布的方法。 在茎叶图中,一个类中的所有数据值都是可见的。 茎叶图的优势在于列出了所有值,这与直方图不同,直方图给出了数据值的类别。 折线图通常用于表示一组数据值,其中的量随时间而变化。 这些图表对于发现趋势很有用。 也就是说,在包括一段时间内的温度、销售额、就业、公司利润或成本在内的数据集中找到总体模式。 条形图是一种使用水平或垂直条来显示类别间比较的图表。 图表的一个轴显示正在比较的特定类别,另一个轴表示离散值。 有些条形图显示聚集在多个组中的条形图(分组条形图),而另一些条形图则显示分为子部分的条形以显示累积效应(堆叠条形图)。 使用分类数据时,条形图特别有用。

直方图是频率分布的图形版本。 该图由彼此相邻绘制的宽度相等的条形组成。 水平刻度表示定量数据值的类别,垂直刻度表示频率。 条形的高度对应于频率值。 直方图通常用于大型、连续的定量数据集。 在绘制具有重复数据点的大型数据集时,也可以使用频率多边形。 数据通常在 y 轴上,频率在 x 轴上绘制。 在查看一段时间内一个变量的大量数据时,时间序列图可能会很有用。

2.2 测量数据的位置

将按等级排序的数据集分成 100 个相等部分的值称为百分位数。 百分位数用于比较和解释数据。 例如,处于 50 个百分位的观测值将大于集合中其他观测值的 50%。 四分位数将数据划分为几个季度。 第一个四分位数 (Q1) 是 25 个百分位数,第二个四分位数(Q2或中位数)是 50 个百分位数,第三个四分位数(Q3)是 75 个百分位数。 四分位间距(或IQR)是中间百分之五十的数据值的范围。 通过减法得Q1Q3,使用以下两个表达式可以帮助确定异常值。IQR

  • Q3+IQR(1.5)
  • Q1IQR(1.5)

2.3 数据中心的衡量标准

可以计算均值和中位数以帮助您找到数据集的 “中心”。 均值是实际数据集的最佳估计值,但当数据集包含多个异常值或极值时,中位数是最佳测量值。 该模式将告诉您数据集中最常出现的基准(或数据)。 当您需要分析数据时,均值、中位数和模式非常有用,但是如果您的数据集包含缺少特定值的范围,则平均值似乎无法计算。 但是,如果将下边界与上边界相加,然后除以二得出每个区间的中点,则可以近似得出均值。 将每个中点乘以在相应范围内找到的值的数量。 将这些值的总和除以集合中的数据值总数。

2.6 偏度与均值、中位数和模式

观察数据的分布可以揭示很多有关均值、中位数和模式之间关系的信息。 有三种类型的分布。 右(或正)倾斜分布的形状类似于图11

2.7 衡量数据传播情况

标准差可以帮助您计算数据的散布。 如果要计算样本或总体的标准差,可以使用不同的方程。

  • 标准差允许我们用数值将单个数据或类别与数据集平均值进行比较。
  • s=(x¯x)2n1 or s=f(x¯x)2n1是计算样本标准差的公式。 要计算总体的标准差,我们将使用总体均值 μ 和公式σ=(xμ)2N or σ=f(xμ)2N