Skip to main content
Global

2.1: 显示数据

  • Page ID
    204641
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    茎叶图(茎图)、折线图和条形图

    一个简单的图表,即茎叶图茎图,来自探索性数据分析领域。 当数据集很小时,这是一个不错的选择。 要创建图,请将每个数据观测值分为一根茎和一片叶子。 叶子由最后一个有效数字组成。 例如,23 的茎为二,叶子为三。 数字 432 的茎为 43,叶子为二。 同样,数字 5,432 的茎为 543,叶子为二。 十进制 9.3 的茎为九根,叶子为三。 将词干从小到大写成垂直线。 在茎的右侧画一条垂直线。 然后将叶子按递增顺序写在相应的茎旁边。

    示例\(\PageIndex{2}\).1

    在苏珊·迪恩的春季微积分预科课程中,第一次考试的分数如下(从小到大):

    33; 42; 49; 53; 55; 55; 61; 63; 67; 68; 69; 72; 73; 74; 78; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94; 94

    \ (\ pageIndex {1}\) 茎叶图 “>
    叶子
    3 3
    4 2 9 9
    5 3 5 5
    6 1 3 7 8 8 9 9
    7 2 3 4 8
    8 0 3 8 8 8
    9 0 2 4 4 4 4 6
    10 0
    \(\PageIndex{2}\) 1 茎叶图

    茎图显示,大多数分数在60年代、70年代、80年代和90年代下降。 在31个分数中,有8个或大约26%(831)(831)是90年代或100分,相当高的A分数。

    练习\(\PageIndex{2}\).1

    对于帕克城篮球队来说,最近30场比赛的比分如下(从小到大):

    32;32;33;34;38;40;42;42;43;44;46;47;48;48;48;48;48;49;50;51;52;52;53;54;56;57;57;60;61

    为数据构造干图。

    stemplot 是一种绘制数据图表的快速方法,可以准确显示数据。 你想寻找整体模式和任何异常值。 异常值是对与其余数据不匹配的数据的观测值。 它有时被称为极限值。 当您绘制异常值时,它似乎不符合图表的模式。 有些异常值是错误造成的(例如,写下 50 而不是 500),而另一些异常值可能表明发生了不寻常的事情。 解释异常值需要一些背景信息,因此我们稍后会更详细地介绍这些异常值。

    示例\(\PageIndex{2}\).2

    数据是从家到当地超市的距离(以千米为单位)。 使用数据创建干图:

    1.1;1.5;2.3;2.5;2.7;3.2;3.3;3.3;3.5;3.8;4.0;4.2;4.5;4.5;5.6;6.5;6.7;12.3

    数据似乎有集中的价值吗?

    注意

    叶子在小数点的右边。

    回答

    值 12.3 可能是一个异常值。 数值似乎集中在三千米和四千米处。

    \ (\ pageIndex {2}\) “>
    叶子
    1 1 5
    2 3 5 7
    3 2 3 3 5 8
    4 0 2 5 5 7 8
    5 5 6
    6 5 7
    7
    8
    9
    10
    11
    12 3
    \(\PageIndex{2}\) 2

    练习\(\PageIndex{2}\).2

    以下数据显示了校外统计专业学生从家到学院的距离(以英里为单位)。 使用数据创建干图并识别任何异常值:

    0.5;0.7;1.1;1.2;1.3;1.3;1.5;1.5;1.7;1.7;1.8;1.9;2.0;2.2;2.5;2.8;3.5;3.8;4.4;4.8;4.8;4.9;5.5;5.7;5.8;8.0

    示例\(\PageIndex{2}\).3

    并排的茎叶图允许在两列中比较两个数据集。 在茎叶并排图中,两组叶子共享同一个茎。 叶子在茎的左边和右边。 表\(\PageIndex{2}\) .4 和表\(\PageIndex{2}\) .5 显示了总统就职和去世时的年龄。 使用这些数据绘制并排的茎叶图。

    回答
    \ (\ pageIndex {3}\) “>
    就职典礼的年龄 死亡时代
    9 9 8 7 7 7 6 3 2 4 6 9
    8 7 7 7 7 6 6 6 5 5 5 5 4 4 4 4 4 4 4 2 1 1 1 1 0 5 3 6 6 7 7 8
    9 8 5 4 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8
    7 0 0 1 1 1 4 7 8 8 9
    8 0 1 3 5 8
    9 0 0 3 3
    \(\PageIndex{2}\) 3
    \ (\ pageIndex {4}\) 就职典礼上的总统年龄 “>
    主席 年龄 主席 年龄 主席 年龄
    华盛顿 57 林肯 52 胡佛 54
    J. Adams 61 A. 约翰逊 56 F. 罗斯福 51
    杰斐逊 57 格兰特 46 杜鲁门 60
    麦迪逊 57 海斯 54 艾森豪威尔 62
    梦露 58 加菲猫 49 肯尼迪 43
    J.Q. Adams 57 亚瑟 51 L. 约翰逊 55
    杰克逊 61 克利夫兰 47 尼克松 56
    范布伦 54 B. 哈里森 55 福特 61
    W. H. 哈里森 68 克利夫兰 55 卡特 52
    泰勒 51 麦金莱 54 里根 69
    波尔克 49 T. 罗斯福 42 G.H.W. Bush 64
    泰勒 64 塔夫脱 51 克林顿 47
    菲尔莫尔 50 威尔逊 56 G.W. Bush 54
    皮尔斯 48 哈丁 55 奥巴马 47
    布坎南 65 柯立芝 51 特朗普 70
    \(\PageIndex{2}\) 4. 就职典礼上的总统年龄
    \ (\ pageIndex {5}\) 总统死亡年龄 “>
    主席 年龄 主席 年龄 主席 年龄
    华盛顿 67 林肯 56 胡佛 90
    J. Adams 90 A. 约翰逊 66 F. 罗斯福 63
    杰斐逊 83 格兰特 63 杜鲁门 88
    麦迪逊 85 海斯 70 艾森豪威尔 78
    梦露 73 加菲猫 49 肯尼迪 46
    J.Q. Adams 80 亚瑟 56 L. 约翰逊 64
    杰克逊 78 克利夫兰 71 尼克松 81
    范布伦 79 B. 哈里森 67 福特 93
    W. H. 哈里森 68 克利夫兰 71 里根 93
    泰勒 71 麦金莱 58
    波尔克 53 T. 罗斯福 60
    泰勒 65 塔夫脱 72
    菲尔莫尔 74 威尔逊 67
    皮尔斯 64 哈丁 57
    布坎南 77 柯立芝 60
    \(\PageIndex{2}\) 5. 总统死亡年龄

    另一种对特定数据值有用的图表是折线图。 在示例中显示的特定折线图中\(\PageIndex{4}\)x (水平轴)由数据值组成,y (垂直轴)由频率点组成。 频率点使用线段连接。

    示例\(\PageIndex{2}\).4

    在一项调查中,有40位母亲被问及每周必须提醒青少年做多少次家务。 结果如表\(\PageIndex{2}\) .6 和图\(\PageIndex{2}\) .2 所示。

    \ (\ pageIndex {6}\) “>
    提醒青少年的次数 频率
    0 2
    1 5
    2 8
    3 14
    4 7
    5 4

    2.6

    折线图显示了需要提醒青少年在 x 轴上做家务和在 y 轴上做频率的次数。

    2.2

    练习\(\PageIndex{4}\)

    在一项调查中,有40人被问及他们每年有多少次将汽车送到商店进行维修。 结果如表所示\(\PageIndex{7}\)。 构造折线图。

    \ (\ pageIndex {7}\) “>
    在商店的次数 频率
    0 7
    1 10
    2 14
    3 9

    2.2.7

    条形图由彼此分开的条形组成。 条形可以是矩形,也可以是矩形方块(用于三维图),它们可以是垂直的也可以是水平的。 示例\(\PageIndex{5}\)中显示的条形图x 轴上表示年龄组,在 y 上表示比例。

    练习\(\PageIndex{1}\)

    在此处添加练习文本。

    回答

    解决方案 2.5

    这是与提供的数据相匹配的条形图。 x 轴显示年龄组,y 轴显示 Facebook 用户的百分比。
    \(\PageIndex{2}\) 3

    示例\(\PageIndex{5}\)

    截至2011年底,Facebook在美国拥有超过1.46亿用户。 表\(\PageIndex{2}\) .8 显示了三个年龄组、每个年龄组中的用户数量以及每个年龄组的用户比例(%)。 使用此数据构造条形图。

    \ (\ pageIndex {8}\) “>
    年龄组 Facebook 用户数量 Facebook 用户的比例(%)
    13—25 65,082,280 45%
    26—44 53,300,200 36%
    45—64 27,885,100 19%

    2.2.8

    解决方案

    练习\(\PageIndex{5}\)

    在此处添加练习文本。

    回答

    帕克城的人口由儿童、工作年龄的成年人和退休人员组成。 该表\(\PageIndex{9}\)显示了三个年龄组、城镇中每个年龄组的人数以及每个年龄组的人口比例(%)。 构造显示比例的条形图。

    \ (\ pageIndex {9}\) “>
    年龄组 人数 人口比例
    孩子们 67,059 19%
    工作年龄的成年人 152,198 43%
    退休人员 131,662 38%

    2.2.9

    示例\(\PageIndex{2}\).6

    \(\PageIndex{2}\) .10 中的各列包含:2011 年美国公立学校学生的种族或民族、该班高级分班考试人口的百分比以及学生总数的百分比。 创建条形图,在 x 轴上显示学生种族或民族(定性数据),y 轴上显示高级分班考生人口百分比。

    \ (\ pageIndex {10}\) “>
    种族/民族 AP 考生人群 学生总人数
    1 = 亚裔、亚裔美国人或太平洋岛民 10.3% 5.7%
    2 = 黑人或非裔美国人 9.0% 14.7%
    3 = 西班牙裔或拉丁裔 17.0% 17.6%
    4 = 美洲印第安人或阿拉斯加原住民 0.6% 1.1%
    5 = 白色 57.1% 59.2%
    6 = 未报告/其他 6.0% 1.7%

    2.2.10

    回答

    解决方案 2.6

    这是与提供的数据相匹配的条形图。 x 轴显示种族和民族,y 轴显示 AP 考生的百分比。
    \(\PageIndex{2}\) 4

    练习\(\PageIndex{2}\).6

    在此处添加练习文本。

    回答

    帕克城分为六个投票区。 该表显示了居住在每个选区的登记选民总人口的百分比以及居住在每个地区的总人口的百分比。 绘制条形图,显示按地区划分的登记选民人口。

    \ (\ pageIndex {11}\) “>
    已登记的选民人口 城市总人口
    1 15.5% 19.4%
    2 12.2% 15.6%
    3 9.8% 9.0%
    4 17.4% 18.5%
    5 22.8% 20.7%
    6 22.3% 16.8%
    \(\PageIndex{2}\) .11

    示例\(\PageIndex{2}\).7

    以下是一张双向表,显示了男性和女性拥有的宠物类型:

    \ (\ pageIndex {12}\) “>
    总计
    男士 4 2 2 8
    女人 4 6 2 12
    总计 8 8 4 20
    \(\PageIndex{2}\) .12

    根据这些数据,计算拥有每种宠物的男性亚群的条件分布。

    回答
    • 养狗的男人 = 4/8 = 0.5
    • 养猫的男人 = 2/8 = 0.25
    • 拥有鱼的人 = 2/8 = 0.25

    注意:所有条件分布的总和必须等于一。 在这种情况下,0.5 + 0.25 + 0.25 = 1;因此,解 “检查”。

    直方图、频率多边形和时间序列图

    在本书中所做的大部分工作中,您将使用直方图来显示数据。 直方图的一个优点是它可以轻松显示大型数据集。 经验法则是在数据集包含 100 个或更多值时使用直方图。

    直方图由连续(相邻)的框组成。 它既有水平轴,又有垂直轴。 水平轴用数据所代表的内容(例如,从家到学校的距离)进行标记。 垂直轴被标记为频率相对频率(或百分比频率或概率)。 无论使用哪个标签,图表的形状都将相同。 直方图(如茎图)可以给出数据的形状、中心和数据的散布。

    相对频率等于数据的观测值的频率除以样本中数据值的总数。 (请记住,频率定义为答案出现的次数。) 如果:

    • \(f\)= 频率
    • \(n\)= 数据值总数(或单个频率的总和),以及
    • \(RF\)= 相对频率,

    那么:

    \ [\ RF=\ frac {f} {n}\ nonumber]

    例如,如果在亚哈先生的40名学生的英语课上,有三名学生的分数从90%到100%不等,那么\(f = 3\)\(n = 40\)、和\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\) .7.5%的学生获得了90—100%的分数。90—100%是定量衡量标准。

    要构造直方图,首先要确定有多少条形间隔(也称为类)表示数据。 为了清晰起见,许多直方图由五到十五个条形或类组成。 需要选择柱形的数量。 为第一个间隔选择一个小于最小数据值的起点。 一个方便的起点是将较低的值计算到比小数位数最多的值多一位。 例如,如果小数位数最多的值为 6.1,这是最小的值,则方便的起点是 6.05(6.1 — 0.05 = 6.05)。 我们说 6.05 的精度更高。 如果小数位数最多的值为 2.23,最小值为 1.5,则方便的起点为 1.495(1.5 — 0.005 = 1.495)。 如果小数位数最多的值为 3.234,最小值为 1.0,则方便的起点为 0.9995(1.0 — 0.0005 = 0.9995)。 如果所有数据碰巧都是整数且最小值为二,则方便的起点是 1.5(2 — 0.5 = 1.5)。 此外,当起点和其他边界再增加一个小数位时,任何数据值都不会落在边界上。 接下来的两个示例详细介绍了如何使用连续数据构造直方图以及如何使用离散数据创建直方图。

    示例\(\PageIndex{2}\).8

    以下数据是100名男半职业足球运动员的身高(以英寸到最接近的半英寸为单位)。 高度是连续数据,因为高度是测量的。

    60; 60.5; 61; 61; 61.5 63.5; 6
    3.5 64; 64; 64; 64;
    64; 64.5; 64.5; 64.5; 64.5; 64.5; 64; 6
    6; 66; 66; 66; 66; 66; 66; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5 6.5;66.5;66.5;66.5;67;67;67;67;67;67;67;67;67;67;67;67;67;67;67.5;67.5;67.5;67.5;67.5;6
    8;69;69;69;69;69;69;69;69;69;69.5;69.5;69.5;70;7
    0;70.5;70.5;71;71;72;72.5;72;72.5;72;72.5;72;72.5;72;72.5;72;72.5;72;72.5;7
    2;72.5;72;72.5;72;72.5; 73; 73.5
    74

    最小数据值为 60。 由于小数位数最多的数据有一位小数(例如 61.5),因此我们希望起点有两位小数。 由于数字 0.5、0.05、0.005 等都是方便的数字,因此使用 0.05 并将其从最小值 60 中减去,以便于起点。

    60 — 0.05 = 59.95 这比(比如)61.5 精确到小数点后一位。 那么,起点是59.95。

    最大值为 74,因此 74 + 0.05 = 74.05 是结束值。

    接下来,计算每个条形或分类间隔的宽度。 要计算此宽度,请从终点值中减去起点,然后除以柱形数(必须选择所需的条形数)。 假设你选择了八个小节。

    \[\frac{74.05−59.95}{8}=1.76\non\nonumber\]

    注意

    我们将四舍五入到两个,并将每个柱线或类间隔设置为两个单位宽。 四舍五入为二是防止值落在边界上的一种方法。 四舍五入到下一个数字通常是必要的,即使这违反了标准的四舍五入规则。 在此示例中,使用 1.76 作为宽度也适用。 对于条形或类间隔的宽度,遵循的指导方针是,取数据值数的平方根,然后在必要时四舍五入到最接近的整数。 例如,如果有 150 个数据值,则取出 150 的平方根并四舍五入到 12 个条形或间隔。

    界限是:

    • 59.95
    • 59.95 + 2 = 61.95
    • 61.95 + 2 = 63.95
    • 63.95 + 2 = 65.95
    • 65.95 + 2 = 67.95
    • 67.95 + 2 = 69.95
    • 69.95 + 2 = 71.95
    • 71.95 + 2 = 73.95
    • 73.95 + 2 = 75.95

    60 到 61.5 英寸的高度间隔在 59.95—61.95 之间。 63.5 的高度在 61.95—63.95 的区间内。 64 到 64.5 的高度间隔为 63.95—65.95。 高度 66 到 67.5 的间隔在 65.95—67.95 之间。 68 到 69.5 的高度在 67.95—69.95 的区间内。 70 到 71 的高度在 69.95—71.95 的区间内。 72 到 73.5 的高度在 71.95—73.95 的区间内。 高度 74 的间隔为 73.95—75.95。

    以下直方图在 x 轴上显示高度,在 y 轴上显示相对频率。

    直方图由 8 个条形组成,y 轴从 0-0.4 增量为 0.05,x 轴间隔为 59.95-75.95。
    \(\PageIndex{2}\) 5

    练习\(\PageIndex{2}\).8

    以下数据是 50 名男学生的鞋码。 由于测量的是鞋码,因此尺码是连续数据。 构造直方图并计算每个条形或分类间隔的宽度。 假设你选择了六个小节。

    9; 9; 9.5; 9.5; 10; 10; 10; 10; 10; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5;
    11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5
    ; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 12; 12; 12; 12; 12.5; 12.5; 12.5; 12.5; 14

    示例\(\PageIndex{2}\).9

    为以下数据创建直方图:ABC College 50 名兼职大学生购买的图书数量。 图书数量是离散数据,因为书籍是计算在内的。

    1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1;
    2; 2; 2; 2; 2; 2; 2; 2; 2
    ; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4;
    4; 4; 4; 4; 4;
    5; 5; 5; 5; 5; 5;
    6

    十一个学生买了一本书。 十个学生买了两本书。 十六个学生买了三本书。 六个学生买了四本书。 五个学生买了五本书。 两个学生买了六本书。

    因为数据是整数,所以从 1(最小数据值)中减去 0.5,然后将 0.5 与 6(最大的数据值)相加。 然后起点为 0.5,结束值为 6.5。

    接下来,计算每个条形或分类间隔的宽度。 如果数据是离散的,并且没有太多不同的值,则将数据值置于条形或类间隔中间的宽度最为方便。 由于数据由数字 1、2、3、4、5、6 组成,起点为 0.5,因此宽度为 1 将 1 置于 0.5 到 1.5 间隔的中间,2 位于 1.5 到 2.5 间隔的中间,3 位于 2.5 到 3.5 间隔的中间,4 位于 _____ 间隔的中间__ 到 _______,从 _______ 到 _____ 的间隔中间的 5,以及从 _______ 到 _______ 的间隔中间的 _______。

    解决方案

    按如下方式计算柱的数量:

    \[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]

    其中 1 是条形的宽度。 因此,柱状数 = 6。

    以下直方图在 x 轴上显示书籍数量,在 y 轴上显示频率。

    直方图由 6 个条形组成,y 轴从 0-16 增量为 2,x 轴间隔为 1,从 0.5-6.5。
    \(\PageIndex{2}\) .6

    示例\(\PageIndex{2}\).10

    使用此数据集构造直方图。

    \ (\ pageIndex {13}\) “>
    我的同学在周末玩电子游戏的小时数
    9.95 10 2.25 16.75 0
    19.5 22.5 7.5 15 12.75
    5.5 11 10 20.75 17.5
    23 21.9 24 23.75 18
    20 15 22.9 18.8 20.5
    \(\PageIndex{2}\) .13
    回答

    解决方案 2.10

    这是与提供的数据相匹配的直方图。 x 轴由 5 个条形组成,间隔为 5,从 0 到 25。 y 轴以 0 到 10 的增量以 1 为增量标记。 x 轴显示周末玩电子游戏所花费的小时数,y 轴显示学生人数。
    \(\PageIndex{2}\) 7

    此数据集中的某些值位于类间隔的边界上。 如果值落在左边界,则按类间隔计算,但如果落在右边界,则不计入该值。 不同的研究人员可能以不同的方式为相同的数据设置直方图。 设置直方图的正确方法不止一种。

    频率多边形

    频率多边形类似于折线图,就像折线图使连续数据在视觉上易于解释一样,频率多边形也是如此。

    要构造频率多边形,首先检查数据,然后决定在 x 轴和 y 轴上使用的间隔数或类间隔。 选择适当的范围后,开始绘制数据点。 绘制完所有点后,绘制线段以连接它们。

    示例\(\PageIndex{2}\).11

    频率多边形是根据下面的频率表构造的。

    \ (\ pageIndex {14}\) “>
    下限 上限 频率 累积频率
    49.5 59.5 5 5
    59.5 69.5 10 15
    69.5 79.5 30 45
    79.5 89.5 40 85
    89.5 99.5 15 100
    \(\PageIndex{2}\) .14:微积分最终考试分数的频率分布
    频率多边形是根据下面的频率表构造的。
    \(\PageIndex{2}\) .8

    x 轴上的第一个标签是 44.5。 这表示从 39.5 延伸到 49.5 的间隔。 由于最低测试分数为 54.5,因此此间隔仅用于允许图表接触 x 轴。 标有 54.5 的点表示下一个间隔,或表中的第一个 “实际” 间隔,包含五个分数。 剩下的每个间隔都遵循此推理,点104.5表示从99.5到109.5的间隔。 同样,此间隔不包含任何数据,仅用于图形接触 x 轴。 从图表来看,我们说这种分布是偏斜的,因为图表的一侧不镜像另一面。

    练习\(\PageIndex{2}\).11

    构造表中所示的美国总统就职典礼年龄的频率多边形\(\PageIndex{15}\)

    \ (\ pageIndex {15}\) “>
    就职典礼的年龄 频率
    41.5—46.5 4
    46.5—51.5 11
    51.5—56.5 14
    56.5—61.5 9
    61.5—66.5 4
    66.5—71.5 2

    2.2.15

    频率多边形可用于比较分布。 这是通过叠加为不同数据集绘制的频率多边形来实现的。

    示例\(\PageIndex{2}\).12

    我们将构造一个叠加频率多边形,将 Example 中的分数\(\PageIndex{11}\)与学生的最终数值成绩进行比较。

    \ (\ pageIndex {16}\) “>
    下限 上限 频率 累积频率
    49.5 59.5 5 5
    59.5 69.5 10 15
    69.5 79.5 30 45
    79.5 89.5 40 85
    89.5 99.5 15 100
    \(\PageIndex{2}\) .16:微积分最终考试分数的频率分布
    \ (\ pageIndex {17}\) “>
    下限 上限 频率 累积频率
    49.5 59.5 10 10
    59.5 69.5 10 20
    69.5 79.5 30 50
    79.5 89.5 45 95
    89.5 99.5 5 100
    \(\PageIndex{2}\) .17:微积分期末成绩的频率分布
    这是一个与提供的数据相匹配的叠加频率多边形。 x 轴显示等级,y 轴显示频率。
    \(\PageIndex{2}\) 9

    构造时间序列图

    假设我们要研究一个区域整整一个月的温度范围。 每天中午我们都会记下温度并将其写在日志中。 利用这些数据可以进行各种统计研究。 我们可以找到当月的平均温度或中位温度。 我们可以构造一个直方图,显示温度达到一定值范围的天数。 但是,所有这些方法都忽略了我们收集的部分数据。

    我们可能需要考虑的数据的一个特征是时间特征。 由于每个日期都与当天的温度读数配对,因此我们不必将数据视为随机数据。 相反,我们可以使用给定的时间对数据施加时间顺序。 识别此顺序并显示随着月份进展而变化的温度的图表称为时间序列图。

    要构造时间序列图,我们必须查看配对数据集的两个部分。 我们从标准笛卡尔坐标系开始。 水平轴用于绘制日期或时间增量,垂直轴用于绘制我们正在测量的变量的值。 通过这样做,我们可以使图表上的每个点对应一个日期和一个测量的数量。 图表上的点通常按照它们出现的顺序通过直线相连。

    示例\(\PageIndex{2}\).13

    以下数据显示了十年来每月的年度消费者物价指数。 仅为年度消费者价格指数数据构建时间序列图。

    \ (\ pageIndex {18}\) “>
    一月 二月 破坏 四月 可能 六月 七月
    2003 181.7 183.1 184.2 183.8 183.5 183.7 183.9
    2004 185.2 186.2 187.4 188.0 189.1 189.7 189.4
    2005 190.7 191.8 193.3 194.6 194.4 194.5 195.4
    2006 198.3 198.7 199.8 201.5 202.5 202.9 203.5
    2007 202.416 203.499 205.352 206.686 207.949 208.352 208.299
    2008 211.080 211.693 213.528 214.823 216.632 218.815 219.964
    2009 211.143 212.193 212.709 213.240 213.856 215.693 215.351
    2010 216.687 216.741 217.631 218.009 218.178 217.965 218.011
    2011 220.223 221.309 223.467 224.906 225.964 225.722 225.922
    2012 226.665 227.663 229.392 230.085 229.815 229.478 229.104
    \(\PageIndex{2}\) .18
    \ (\ pageIndex {19}\) “>
    八月 九月 十月 十一月 十二月 每年
    2003 184.6 185.2 185.0 184.5 184.3 184.0
    2004 189.5 189.9 190.9 191.0 190.3 188.9
    2005 196.4 198.8 199.2 197.6 196.8 195.3
    2006 203.9 202.9 201.8 201.5 201.8 201.6
    2007 207.917 208.490 208.936 210.177 210.036 207.342
    2008 219.086 218.783 216.573 212.425 210.228 215.303
    2009 215.834 215.969 216.177 216.330 215.949 214.537
    2010 218.312 218.439 218.711 218.803 219.179 218.056
    2011 226.545 226.889 226.421 226.230 225.672 224.939
    2012 230.379 231.407 231.317 230.221 229.601 229.594
    \(\PageIndex{2}\) .19
    回答

    解决方案 2.13

    这是与提供的数据相匹配的时间序列图。 x 轴显示从 2003 年到 2012 年的年份,y 轴显示年度消费者价格指数。
    \(\PageIndex{2}\) .10

    练习\(\PageIndex{2}\).13

    下表是来自 www.worldbank.org 的数据集的一部分。 使用该表构建美国氧化碳排放量的时间序列图。

    \ (\ pageIndex {20}\) “>
    乌克兰 英国 美国
    2003 352,259 540,640 5,681,664
    2004 343,121 540,409 5,790,761
    2005 339,029 541,990 5,826,394
    2006 327,797 542,045 5,737,615
    2007 328,357 528,631 5,828,697
    2008 323,657 522,247 5,656,839
    2009 272,176 474,579 5,299,563
    \(\PageIndex{20}\)氧化碳排放量

    时间序列图的用途

    时间序列图是各种统计应用中的重要工具。 在很长一段时间内记录同一变量的值时,有时很难辨别任何趋势或模式。 但是,一旦以图形方式显示相同的数据点,某些功能就会跳出。 时间序列图使趋势易于发现。

    如何不对统计数据撒谎

    重要的是要记住,我们开发出各种数据呈现方法的原因是要深入了解观测结果所代表的主题。 我们想对数据有一个 “感觉”。 观测值是非常相似还是分布在各种值上,它们是聚集在光谱的一端还是均匀分布等等。 我们正在尝试获得数字数据的直观画面。 不久我们将开发出正式的数据数学测量方法,但我们的可视化图形呈现可以说明很多。 不幸的是,就视觉留下的印象而言,它也可以说出很多分散注意力、令人困惑和完全错误的东西。 许多年前,达雷尔·霍夫写了《如何用统计撒谎》一书。 它已经印刷了25多张,销量超过一百五十万份。 他的观点很苛刻,他举了许多旨在误导的实际例子。 他想让人们意识到这种欺骗行为,但也许更重要的是要进行教育,这样其他人就不会在无意中犯同样的错误。

    同样,目标是通过讲述数据故事的视觉效果来启发灵感。 饼图用于传达数据消息时存在许多常见问题。 太多的馅饼让读者不知所措。 可能有五到六个类别可以让人们了解每件作品的相对重要性。 毕竟这是饼图的目标,与其他子集相比,哪个子集最重要。 如果有比这更多的组成部分,那么也许替代方法会更好,或者也许有些可以合并为一个 “其他” 类别。 饼图无法显示随时间推移而发生的变化,尽管我们经常看到这种尝试过于频繁。 在联邦、州和城市财务文件中,通常呈现饼状图以显示管理机构可用于拨款的收入组成部分:所得税、销售税、机动车税等。 这本身就是有趣的信息,可以用饼图很好地完成。 将两年并排设置为时会出现错误。 由于总收入逐年变化,但馅饼的大小是固定的,因此没有提供任何真实的信息,也无法有意义地比较每块馅饼的相对大小。

    直方图对理解数据非常有帮助。 如果呈现得当,它们可以通过比较每个类别中的相对区域的简单视觉效果来快速直观地呈现不同类别的概率。 这里的错误,无论是否有目的,都是改变类别的宽度。 当然,这使得无法与其他类别进行比较。 它确实用扩展的宽度来修饰该类别的重要性,因为它的面积更大,这是不恰当的,因此在视觉上 “说” 该类别的出现概率更高。

    时间序列图可能是最被滥用的。 切勿在横跨页面的纵向或横向维度上发生部分变化的坐标轴上呈现随时间推移的某些变量的绘图。 也许时间框架从几年改为几个月。 也许这是为了节省空间,或者是因为早年没有月度数据。 无论哪种情况,这都会混淆呈现方式并破坏图表的任何值。 如果这样做不是为了故意混淆读者,那肯定是懒惰或草率的工作。

    改变轴的计量单位可以平滑掉落或突出跌落。 如果要显示较大的变化,则以小单位测量变量,即便士而不是数千美元。 当然,要继续欺诈,一定要确保轴不是从零开始,也不是从零开始。 如果它从零开始,则很明显轴已被操纵。

    也许你的客户担心你管理的投资组合的波动性。 呈现数据的一种简单方法是在时间序列图上使用较长的时间段。 使用月或更长时间,季度数据,而不是每日或每周数据。 如果这不能降低波动率,则将时间轴与回报率或投资组合估值轴分开。 如果你想表现出 “快速” 的显著增长,那就缩小时间轴。 任何正增长都将在视觉上显示 “高” 增长率。 请注意,如果增长为负数,那么这个技巧将表明投资组合正在以惊人的速度崩溃。

    同样,描述性统计的目标是传达讲述数据故事的有意义的视觉效果。 有目的的操纵在最坏的情况下是欺诈和不道德的,但即使在最好的情况下,犯下此类错误也会导致分析方面的混乱。