
第3章 如何用简单图表展现数据
引导案例
在日常生活中大家多多少少都会使用数据:在商务领域,每天的客户数量和销售额是最重要的数据;对学生来说,考试成绩的数据在升学问题上发挥重要作用;成年人会对每年的定期健康检查中血压和血液成分的数据很关心,生活中与数据没有关系的人是不存在的。
但是,光是浏览原始数据(单纯列举的数字)恐怕什么也弄不明白。确实,数据在一定意义上是体现“现实本身”的。但是,在“打眼一瞧什么也不明白”这一点上,“数据”也好,“现实”也罢,都有相同之处。比如,请浏览一下图3-1。

图3-1 80位女大学生身高(cm)数据
这是80位女大学生的身高数据(从石村贞夫的《话统计解析》中刊登的200个数据中抽取的最初80个)。
从这80个数据中能得到什么?
首先能确认“女大学生的身高各不相同,数据参差不齐”。
作为“日本成年女性”的一部分,这些女大学生的身高数值是多种多样的。这种“多种多样的数值”,用术语来说叫作“分布”。分布的产生,是决定数值背后的某种“不确定性”作用的结果,除此别无其他。不确定性的结构会产生参差不齐的身高数值。但是即使概括地说这些数据是“不确定的”,它们也有自己固有的“特征”和“特点”。这种固有的特征和特点叫作“分布特性”。
那么,这些身高数据固有的特征和特点是什么?对于熟悉数据解析的人来说,即使从列举的数值中也能抽取出很多的特征和特点。普通人则只能看到简单的数字罗列。
所以,从这些原始数据,也就是“原始的现实”中,抽取出分布的特征和特点的手法就很有必要。这就是统计的手法。
统计学使用的方法叫作“压缩”。所谓压缩,是指“将作为数据列举的大量数字,以一定的基准进行整理,只抽取有意义的信息”。大致来说有如下两种手法:
1)以图画捕捉其特征;
2)以一个数字来代表特征。其代表数字叫作“统计量”。
本章主要给大家介绍整理数据的手法。