在處理實驗數(shù)據(jù)的時候,我們常常會遇到個別數(shù)據(jù)偏離預(yù)期或大量統(tǒng)計數(shù)據(jù)結(jié)果的情況,如果我們把這些數(shù)據(jù)和正常數(shù)據(jù)放在一起進(jìn)行統(tǒng)計,可能會影響實驗結(jié)果的正確性,如果把這些數(shù)據(jù)簡單地剔除,又可能忽略了重要的實驗信息。這里重要的問題是如何判斷異常數(shù)據(jù),然后將其剔除。判斷和剔除異常數(shù)據(jù)是數(shù)據(jù)處理中的一項重要任務(wù),目前的一些方法還不是十分完善,有待進(jìn)一步研究和探索。
目前人們對異常數(shù)據(jù)的判別與剔除主要采用物理判別法和統(tǒng)計判別法兩種方法。
所謂物理判別法就是根據(jù)人們對客觀事物已有的認(rèn)識,判別由于外界干擾、人為誤差等原因造成實測數(shù)據(jù)偏離正常結(jié)果,在實驗過程中隨時判斷,隨時剔除。
統(tǒng)計判別法是給定一個置信概率,并確定一個置信限,凡超過此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常數(shù)據(jù)剔除。
第一節(jié) 拉依達(dá)準(zhǔn)則
如果實驗數(shù)據(jù)的總體x是服從正態(tài)分布的,則
式中,μ與σ分別表示正態(tài)總體的數(shù)學(xué)期望和標(biāo)準(zhǔn)差。此時,在實驗數(shù)據(jù)中出現(xiàn)大于μ+3σ或小于μ—3σ數(shù)據(jù)的概率是很小的。因此,根據(jù)上式對于大于μ+3σ或小于μ—3σ的實驗數(shù)據(jù)作為異常數(shù)據(jù),予以剔除。
具體計算方法如下:
對于實驗數(shù)據(jù)x1, x2, x3,……,xn,先計算其均值
(i=1,2,3,…n)
再計算殘差
則標(biāo)準(zhǔn)差
如果某個測量值的殘差滿足
則認(rèn)為xd為異常數(shù)據(jù),予以剔除。
拉依達(dá)準(zhǔn)則是最常用的異常數(shù)據(jù)判定與剔除準(zhǔn)則。
第二節(jié) 肖維勒準(zhǔn)則
如果某個測量值 的殘差滿足
則
xd被視為異常數(shù)據(jù),予以剔除。上式中,wn可查表得到。其中,殘差vd和標(biāo)準(zhǔn)差σ的計算方法同上。
第三節(jié) 格拉布斯準(zhǔn)則
對于服從正態(tài)分布的實驗數(shù)據(jù):
x1, x2, x3,……,xn,
將實驗數(shù)據(jù)按值的大小排成順序統(tǒng)計量:
x(1),≤x(2),≤ x(3),……≤x(n)
格拉布斯導(dǎo)出了
的分布。取置信度α,可得T0(n, α), 而
如果
則認(rèn)為xd為異常數(shù)據(jù),應(yīng)予剔除。
T0(n, α)的值可查表得到。
T0(n, α)值表
采用格拉布斯方法判定異常數(shù)據(jù)的過程如下:
1. 選定危險率α
α是一個較小的百分?jǐn)?shù),例如1%,2.5%,5%,它是采用格拉布斯方法判定異常數(shù)據(jù)出現(xiàn)誤判的幾率。
2. 計算T值
如果x(1)是可疑數(shù)據(jù),則令
如果x(n)是可疑數(shù)據(jù),則令
其中
3. 根據(jù)n及α,查表得到T0(n, α)值
4. 如果T≥T0(n, α),則所懷疑的數(shù)據(jù)是異常數(shù)據(jù),應(yīng)予剔除。如果T< T0(n, α),則所懷疑的數(shù)據(jù)不是異常數(shù)據(jù),不能剔除。
采用此法判異常數(shù)據(jù)產(chǎn)生誤判的幾率為α。
第四節(jié) 狄克遜準(zhǔn)則
狄克遜準(zhǔn)則是通過極差比判定和剔除異常數(shù)據(jù)。與一般比較簡單極差的方法不同,該準(zhǔn)則為了提高判斷效率,對不同的實驗量測定數(shù)應(yīng)用不同的極差比進(jìn)行計算。該準(zhǔn)則認(rèn)為異常數(shù)據(jù)應(yīng)該是最大數(shù)據(jù)和最小數(shù)據(jù),因此該其基本方法是將數(shù)據(jù)按大小排隊,檢驗最大數(shù)據(jù)和最小數(shù)據(jù)是否異常數(shù)據(jù)。具體做法如下:
將實驗數(shù)據(jù)xi按值的大小排成順序統(tǒng)計量
x(1),≤x(2),≤ x(3),……≤x(n)
按表1-3-1計算f0值,然后根據(jù)表1-3-1將f0與f(n,a)進(jìn)行比較,如果
f0 > f(n,a)
則判定該數(shù)據(jù)為異常數(shù)據(jù),予以剔除。
表1-3-1 狄克遜系數(shù)f(n,a)與f0的計算公式
第五節(jié) t檢驗準(zhǔn)則(羅馬諾夫斯基準(zhǔn)則)
t檢驗準(zhǔn)則與狄克遜準(zhǔn)則相似,也是檢驗最大實驗數(shù)據(jù)和最小實驗數(shù)據(jù)。首先將實驗數(shù)據(jù)按大小排列
x(1),≤x(2),≤ x(3),……≤x(n)
對最小數(shù)據(jù)和最大數(shù)據(jù)分別進(jìn)行檢驗,如果
或
則x(1)或x(n)是異常數(shù)據(jù),應(yīng)予剔除。
式中 及 分別為不包括x(1)及x(n)的均值和標(biāo)準(zhǔn)差。即
t檢驗中的K(n,α)可查表得到。
第六節(jié) 遺失數(shù)據(jù)的彌補(bǔ)
在一些情況下,每個實驗點都是經(jīng)過精心設(shè)計選擇的,此時每個實驗數(shù)據(jù)都是十分重要的。但是,如果不慎遺失了某些實驗數(shù)據(jù),或某些實驗操作失誤缺少了某些實驗數(shù)據(jù),該如何處理呢?當(dāng)然最好的辦法是補(bǔ)做這些實驗。但是,本節(jié)要介紹的是一種特殊情況——實驗數(shù)據(jù)遺失,而又無法補(bǔ)做實驗時的處理方法,也就是如何用數(shù)學(xué)的方法來彌補(bǔ)遺失的實驗數(shù)據(jù)。
這里方法主要有兩種:
一、當(dāng)實驗數(shù)據(jù)有重復(fù),并且每一批實驗至少有一個數(shù)據(jù)沒有遺失時,可以用未遺失的數(shù)據(jù)的平均值代替遺失的數(shù)據(jù)。
表1-3-2所示為一組實驗數(shù)據(jù),其中a和b為遺失的數(shù)據(jù),現(xiàn)在我們來彌補(bǔ)這兩個數(shù)據(jù):
表1-3-2 有重復(fù)實驗數(shù)據(jù)的彌補(bǔ)
=(1.5+2.4+3.5+3.3+2.2+2.1)/6=2.5
=(1.2+1.4+1.2+1.3+1.6+1.5)/6=1.37
這樣我們就得到了遺失數(shù)據(jù)的估計值。
二、如果沒有重復(fù) 數(shù)據(jù)得實驗,則用下法彌補(bǔ):
表1-3-3所示為一組實驗數(shù)據(jù),其中a和b為遺失的數(shù)據(jù)。與表1-3-2不同的是,這組數(shù)據(jù)沒有重復(fù)數(shù)據(jù)。現(xiàn)在我們來彌補(bǔ)這兩個數(shù)據(jù):
表1-3-3 沒有重復(fù)實驗數(shù)據(jù)的彌補(bǔ)
令
則總離差平方和
LT=3.52+2.32+2.02+a2+2.02+1.92+2.02+1.52+1.22+1.42+b2+0.32-c
組間離差平方和
LA=[7.82+(3.9+a)2+4.72+(1.7+b)2]/3 - c
LB=[(6.9+a)2+(5.8+b)2+5.42]/4 – c
剩余離差平方和
Le= LT- LA- LB
合理的a和b值應(yīng)使剩余離差平方和Le最小,因此,我們的任務(wù)是求得Le最小時的a、b值。為此。對Le求偏導(dǎo)數(shù),并令其等于零:
可求得:
a=2.95
b=0.53
聯(lián)系客服