简述数据的四种计量尺度及其特点。
数据的四种计量尺度分别为集中趋势、 离散程度、 偏态和峰态, 其特点如下:
(1) 集中趋势
集中趋势是指一组数据向某一中心值靠拢的程度, 它反映了一组数据中心点的位置所在。 描述数据集中趋势采用的测度值, 根据数据类型的不同主要有众数、中位数和平均数。
①众数: 众数是一组数据中出现次数最多的变量值, 用M o 表示。 众数主要用于测度分类数据的集中趋势, 当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。 一般情况下, 只有在数据量较大的情况下, 众数才有意义。
②中位数: 中位数是一组数据排序后处于中间位置上的变量值, 用Me 表示。中位数将全部数据等分成两部分, 每部分包含50%的数据, 一部分数据比中位数大,另一部分则比中位数小。 中位数主要用于测度顺序数据的集中趋势, 当然也适用于测度数值型数据的集中趋势, 但不适用于分类数据。
③平均数: 平均数也称为均值, 它是一组数据相加后除以数据的个数得到的结果。 平均数是集中趋势的最主要测度值, 它主要适用于数值型数据, 而不适用于分类数据和顺序数据。
(2) 离散程度
数据的离散程度是数据分布的另一个重要特征, 它反映的是各变量值远离其中心值的程度。 数据的离散程度越大, 集中趋势的测度值对该组数据的代表性就越差; 离散程度越小, 其代表性就越好。 描述数据离散程度采用的测度值, 根据数据类型的不同主要有异众比率、 四分位差、 方差和标准差、 极差、 平均差等。
①异众比率, 用于测度分类数据的离散程度, 衡量众数对一组数据的代表程度;
②四分位差, 用于测量顺序数据的离散程度, 衡量中位数对一组数据的代表程度;
③方差和标准差, 用于测度数据离散程度的最常用测度值, 衡量均值对一组数据的代表程度;
④极差R: 一组数据的最大值与最小值之差;
⑤平均差Md : 各变量值与其平均数离差绝对值的平均数。
(3) 偏态
偏态是对数据分布对称性的测度。 测度偏态的统计量是偏态系数, 记作SK。
如果一组数据的分布是对称的, 则偏态系数等于0; 如果偏态系数明显不等于0, 表明分布是非对称的。 若偏态系数大于1或小于-1, 称为高度偏态分布; 若偏态系数在0.5~1或-1~-0.5之间, 被认为是中等偏态分布; 偏态系数越接近0, 偏斜程度就越低。 若一组数据的偏态系数大于0, 则这组数据是右偏的; 若一组数据的偏态系数小于0, 则这组数据是左偏的。
(4) 峰态
峰态是对数据分布平峰或尖峰程度的测度。 测度峰态的统计量是峰态系数,记作K。 峰态通常是与标准正态分布相比较而言的。 如果一组数据服从标准正态分布, 则峰态系数的值等于0; 当K>0时为尖峰分布, 数据的分布更集中; K<0时为扁平分布, 数据的分布越分散。