
2.2 统计数据的分组
统计分组是指根据统计研究的目的和客观现象存在的内在特点,按照一定的标志把被研究总体划分为若干个性质不同但又有联系的组。
统计分组实质上是在统计数据内部进行的定性分类(见图2-1),对“整体”而言是“分”,即将一个“大总体”划分成若干个“小总体”;对单位个体而言是“合”,即将性质相同的一个个单位个体合并到一个组中。

图2-1 统计分组示意图
通过分组,对数据进行进一步同质结合、异质分解,突出了组与组之间的差异性,组内的同质性。
2.2.1 统计分组的类型
1.按照分组标志的性质分为按品质标志分组和按数量标志分组
按品质标志分组,就是用反映属性差异的品质标志进行分组,将数据划分为若干性质不同的组成部分。例如,人口按性别、民族、文化程度、职业等分组,企业按行业、经济类型、所有制形式等分组,学生按专业分组等。表2-1就是按品质标志进行分组的。
表2-1 按品质标志进行的分组

按品质标志分组,组数一般较少,组与组之间的性质界限容易确定,所表现出来的差异性比较明确和稳定,如上述人口按性别分组,企业按所有制形式分组等。当然,如果涉及的组数较多,这类分组是很复杂的,组间的性质界限不易划分,如人口按职业分组等。在我国统计工作实践中,对重要品质标志分组编有标准的分类目录,如《工业部门分类目录》《主要商品分类目录》等,以统一全国的分类口径,便于各研究部门掌握和使用。
按数量标志分组,是指选择反映事物数量差异的数量标志进行分组,将数据划分为性质不同的若干组成部分。例如,学生按照分数、身高等分组,职工按照工资收入、年龄等分组,企业按照产能、资产规模等分组,股票按照市盈率、收盘价等分组。
按数量标志分组,主要有两种形式:单项式分组和组距式分组。单项式分组的特点是每个组的变量值是一个值且组数的多少由变量值决定。采用单项式分组的条件是离散型变量且变量值种类不多,如表2-2所示。
表2-2 某企业职工每日产量分组表


在连续性变量或离散型变量种类较多的情况下,采用组距式分组。组距式分组就是把数据按照数量标志分若干区间(见表2-3)。
表2-3 某地区企业按利润分组表


2.按分组标志的多少分为简单分组和复合分组
数据按一个标志进行分组称为简单分组;数据按两个或两个以上标志进行分组称为复合分组。表2-1、表2-2和表2-3就是简单分组方式;例如,将企业职工按性别和职称分别进行分组则是复合分组,如表2-4所示。
表2-4 企业职工复合分组表

2.2.2 统计分组的一些术语
1.全距
全距是组距式分组中最大值与最小值之差。确定全距,主要是确定数列中变量值的变动范围和变动幅度。存在开口组的数列,不能计算出准确的全距。
2.组数
组数是指将数据分成多少个组。在全距一定的情况下,组数的多少和组距的大小成反比关系,即组数少,则组距大;组数多,则组距小。如果组数太多,组距过小,会使分组资料烦琐、庞杂,难以体现数据的特征和分布规律;如果组数太少,组距过大,可能使不同质的个体分到同一个组中,从而失去分组意义,达不到正确反映客观事实的目的。所以,组数既不能太多,也不能太少,一般情况下,组数不少于5组不多于15组。实际运用中,可根据数据的多少以及特点来确定组数,以能充分体现现象的分布特征为宜。
3.组限
组限是指每组两端的数值,表示各组的数量界限,包括上组限和下组限。最大值称为上组限,最小值称为下组限。
组限分为重叠式组限和衔接式组限。在相邻两组中,小组的上组限与大组的下组限是同一个数值,即上下组限重叠,则是重叠式组限,常用于连续变量分组。在相邻两组中,小组的上组限与大组的下组限是两个相邻的整数,则称为衔接式组限。衔接式组限一般用在离散变量的分组。
4.开口组和闭口组
上、下组限都存在的组称为闭口组;只有上组限或者只有下组限的组称为开口组,开口组长用“以上”“以下”表示。
5.组距
组距是一组变量值的区间长度。
对于重叠式组限分组来说,组距=上组限-下组限;对于衔接式组限分组来说,组距=大邻组的下组限-本组的下组限。
开口组的组距则等于相邻组的组距。
各组的组距如果相等则是等距式分组,否则为不等距分组。
6.组中值
组中值是组内所有变量值的代表水平或平均水平。
对于重叠式组限分组来说,组中值=(上组限+下组限)÷2;对于衔接式组限分组来说,组中值=(本组下组限+大邻组下组限)÷2。
2.2.3 数量标志分组的编制
下面结合具体例子说明数量标志分组数列的编制过程。
【例子2-1】某班50名学生的统计基础课程期中测试成绩如下,进行组距式分组。

第一步:将原始资料按数值大小重新排列,查看变量值波动的范围,确定全距。上述资料重新排序后,得到如下:

该班考试成绩分布在43~100分,全距为57分。
第二步:确定分组形式。编制单项式分组还是组距式分组数列,主要取决于所研究变量的类型和变量的变动种类。对于连续型变量,只能编制组距式分组数列;对于离散型变量,则应该根据变量值的变异种类来确定。如果变量值种类少,则可进行单项式分组;如果变量值种类较多,则应进行组距式分组。在组距式分组中,有等距分组和非等距分组,采用哪种,主要取决于现象特点和研究目的。一般而言,为了分组比较,便于绘制统计图,一般采用等距式分组。在本例中,数据是离散型的,而且数值变化较多,应该采用组距式分组。
第三步:确定组距、组数。组距的大小和组数的多少互为制约,呈反比关系。从实际应用当中,组数在5~15,组距则尽可能取5或10的整数倍。根据实际情况,分数一般每10分为一个段落,组距可以定在10分。
第四步:确定组限。组限的确定一般考虑如下几点:第一,组限最好是整数;第二,第一组的下限应低于数据中的最小变量值,最末组上限不小于数据中的最大变量值,如果存在极端值,最好采用开口组;第三,进行组距式分组时,连续型变量只能采用“上下组限重叠”进行分组,离散型变量既可采用重叠式组限也可采用衔接式组限,为方便起见,一般采用重叠式组限。在本例中,组限可以是70、80、90等,采用上下组限重叠的组限。
第五步:编制分组(见表2-5)。
表2-5 某班50名学生统计基础期中测试成绩频数分布表

注意:采用组距式分组时,需要遵循“不重复不遗漏”的原则。“不重复”指一项数据只能分在其中一个组,不能在其他组中重复出现,归属唯一;“不遗漏”指组别能够穷尽,即确保在所分到全部组别中的每项数据都能分在其中的某一个组,不能遗漏,分组完整。