第3章如何用简单图表展现数据

引导案例

在日常生活中大家多多少少都会使用数据：在商务领域，每天的客户数量和销售额是最重要的数据；对学生来说，考试成绩的数据在升学问题上发挥重要作用；成年人会对每年的定期健康检查中血压和血液成分的数据很关心，生活中与数据没有关系的人是不存在的。

但是，光是浏览原始数据（单纯列举的数字）恐怕什么也弄不明白。确实，数据在一定意义上是体现“现实本身”的。但是，在“打眼一瞧什么也不明白”这一点上，“数据”也好，“现实”也罢，都有相同之处。比如，请浏览一下图3-1。

图3-1 80位女大学生身高（cm）数据

这是80位女大学生的身高数据（从石村贞夫的《话统计解析》中刊登的200个数据中抽取的最初80个）。

从这80个数据中能得到什么？

首先能确认“女大学生的身高各不相同，数据参差不齐”。

作为“日本成年女性”的一部分，这些女大学生的身高数值是多种多样的。这种“多种多样的数值”，用术语来说叫作“分布”。分布的产生，是决定数值背后的某种“不确定性”作用的结果，除此别无其他。不确定性的结构会产生参差不齐的身高数值。但是即使概括地说这些数据是“不确定的”，它们也有自己固有的“特征”和“特点”。这种固有的特征和特点叫作“分布特性”。

那么，这些身高数据固有的特征和特点是什么？对于熟悉数据解析的人来说，即使从列举的数值中也能抽取出很多的特征和特点。普通人则只能看到简单的数字罗列。

所以，从这些原始数据，也就是“原始的现实”中，抽取出分布的特征和特点的手法就很有必要。这就是统计的手法。

统计学使用的方法叫作“压缩”。所谓压缩，是指“将作为数据列举的大量数字，以一定的基准进行整理，只抽取有意义的信息”。大致来说有如下两种手法：

1）以图画捕捉其特征；

2）以一个数字来代表特征。其代表数字叫作“统计量”。

本章主要给大家介绍整理数据的手法。

第3章 如何用简单图表展现数据

引导案例

第3章如何用简单图表展现数据