2.R:描述性统计(综述)
2.1 显示数据
茎叶图是一种绘制数据和查看分布的方法。 在茎叶图中,一个类中的所有数据值都是可见的。 茎叶图的优势在于列出了所有值,这与直方图不同,直方图给出了数据值的类别。 折线图通常用于表示一组数据值,其中的量随时间而变化。 这些图表对于发现趋势很有用。 也就是说,在包括一段时间内的温度、销售额、就业、公司利润或成本在内的数据集中找到总体模式。 条形图是一种使用水平或垂直条来显示类别间比较的图表。 图表的一个轴显示正在比较的特定类别,另一个轴表示离散值。 有些条形图显示聚集在多个组中的条形图(分组条形图),而另一些条形图则显示分为子部分的条形以显示累积效应(堆叠条形图)。 使用分类数据时,条形图特别有用。
直方图是频率分布的图形版本。 该图由彼此相邻绘制的宽度相等的条形组成。 水平刻度表示定量数据值的类别,垂直刻度表示频率。 条形的高度对应于频率值。 直方图通常用于大型、连续的定量数据集。 在绘制具有重复数据点的大型数据集时,也可以使用频率多边形。 数据通常在 y 轴上,频率在 x 轴上绘制。 在查看一段时间内一个变量的大量数据时,时间序列图可能会很有用。
2.2 测量数据的位置
将按等级排序的数据集分成 100 个相等部分的值称为百分位数。 百分位数用于比较和解释数据。 例如,处于第 50 个百分位的观测值将大于集合中其他观测值的 50%。 四分位数将数据划分为几个季度。 第一个四分位数 (Q1) 是第 25 个百分位数,第二个四分位数(Q2或中位数)是第 50 个百分位数,第三个四分位数(Q3)是第 75 个百分位数。 四分位间距(或IQR)是中间百分之五十的数据值的范围。 通过减法得Q1到Q3,使用以下两个表达式可以帮助确定异常值。IQR
- Q3+IQR(1.5)
- Q1–IQR(1.5)
2.3 数据中心的衡量标准
可以计算均值和中位数以帮助您找到数据集的 “中心”。 均值是实际数据集的最佳估计值,但当数据集包含多个异常值或极值时,中位数是最佳测量值。 该模式将告诉您数据集中最常出现的基准(或数据)。 当您需要分析数据时,均值、中位数和模式非常有用,但是如果您的数据集包含缺少特定值的范围,则平均值似乎无法计算。 但是,如果将下边界与上边界相加,然后除以二得出每个区间的中点,则可以近似得出均值。 将每个中点乘以在相应范围内找到的值的数量。 将这些值的总和除以集合中的数据值总数。
2.6 偏度与均值、中位数和模式
观察数据的分布可以揭示很多有关均值、中位数和模式之间关系的信息。 有三种类型的分布。 右(或正)倾斜分布的形状类似于图11。
2.7 衡量数据传播情况
标准差可以帮助您计算数据的散布。 如果要计算样本或总体的标准差,可以使用不同的方程。
- 标准差允许我们用数值将单个数据或类别与数据集平均值进行比较。
- s=√∑(x−¯x)2n−1 or s=√∑f(x−¯x)2n−1是计算样本标准差的公式。 要计算总体的标准差,我们将使用总体均值 μ 和公式σ=√∑(x−μ)2N or σ=√∑f(x−μ)2N。