问答题 如何判别测量数据中是否有异常值?
【正确答案】
【答案解析】判别异常值常用的统计方法有三种:
(1)拉依达准则
又称3σ准则。当重复观测次数充分大的前提下(n>>10),设按贝塞尔公式计算出的实验标准偏差为s,若某个可疑值x d 与n个结果的平均值 的绝对值大于或等于3s时,判定x d 为异常值。即

(2)格拉布斯准则
设在一组重复观测结果x i 中,其残差v i 的绝对值|v i |最大者为可疑值x d ,在给定的置信概率为p=0.99或p=0.95,也就是显著性水平为α=1-p=0.01或0.05时,如果满足下式,可以判定x d 为异常值

式中:G(α,n)——与显著性水平α和重复观测次数n有关的格拉布斯临界值,见下表。
格拉布斯准则的临界值G(α,n)表
n α n α
0.05 0.01 0.05 0.01
3 1.153 1.155 17 2.475 2.785
4 1.463 1.492 18 2.504 2.821
5 1.672 1.749 19 2.532 2.854
6 1.822 1.944 20 2.557 2.884
7 1.938 2.097 21 2.580 2.912
8 2.032 2.221 22 2.603 2.939
9 2.110 2.323 23 2.624 2.963
10 2.176 2.410 24 2.644 2.987
11 2.234 2.485 25 2.663 3.009
12 2.285 2.550 30 2.745 3.103
13 2.331 2.607 35 2.811 3.178
14 2.371 2.659 40 2.866 3.240
15 2.409 2.705 45 2.914 3.292
16 2.443 2.747 50 2.956 3.336
(3)狄克逊准则
设所得的重复观测值按由小到大的规律排列为:x 1 ,x 2 ,…,x n 。其中的最大值为x n ,最小值为x 1 。按以下几种情况计算统计量γ ij
①在n=3~7情况下:

②在n=8~10情况下:

③在n=11~13情况下:

④n≥14情况下:

以上的 分别简化写成 。设D(α,n)为狄克逊检验的临界值,判定异常值的狄克逊准则为:
,γ ij >D(α,n),则x n 为异常值;
,则x 1 为异常值。否则没有异常值。
使用这一准则,可以多次剔除异常值,但每次只能剔除一个,并重新排序计算统计量 ,然后再进行下一个异常值的判断。狄克逊检验的临界值见下表。