離群數據來源與判斷
離群值按產生原因分為兩類 a)第一類離群值是總體固有變異性的極端表現,這類離群值與樣本中其余觀測值屬于同一總體; b)第二類離群值是由于試驗條件和試驗方法的偶然偏離所產生的結果,或產生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體。對離群值的判定通常可根據技術上或物理上的理由直接進行,例如當試驗者已經知道試驗偏離了規定的試驗方法,或測試儀器發生問題等。當上述理由不明確時,可用本標準規定的方法。 離群值的三種情形 本標準在下述不同情形下判斷樣本中的離群值: a)上側情形:根據實際情況或以往經驗,離群值都為高端值; b)下側情形:根據實際情況或以往經驗,離群值都為低端值; c)雙側情形:根據實際情況或以往經驗,離群值可為高端值,也可為低端值。 檢出離群值個數的上限 應規定在樣本中檢出離群值個數的上限(與樣本量相比應較小),當檢出離群值個數超過了這個上限時,對此樣本應作慎重的研究和處理。 單個離群值情形 a)依實際情況或以往經驗選定,選定適宜的離群值檢驗規則(格拉布斯檢驗、狄克遜檢驗等); b)確定適當的顯著性水平; c)根據顯著性水平及樣本量,確定檢驗的臨界值;d)由觀測值計算相應統計量的值,根據所得值與臨界值的比較結果作出判斷。 判定多個離群值的檢驗規則 在允許檢出離群值的個數大于1的情況下,重復使用檢驗規則進行檢驗。若沒有檢出離群值,則整個檢驗停止;若檢出離群值,當檢出的離群值總數超過上限時,檢驗停止,對此樣本應慎重處理,否則,采用相同的檢出水平和相同的規則,對除去已檢出的離群值后余下的觀測值繼續檢驗。 離群值處理 處理方式 處理離群值的方式有: a)保留離群值并用于后續數據處理; b)在找到實際原因時修正離群值,否則予以保留; c)剔除離群值,不追加觀測值; d)剔除離群值,并追加新的觀測值或用適宜的插補值代替。 格魯布斯檢驗方法: 在定量分析實驗中,實驗結束后,必須對分析數據進行處理,在一組分析數據中,往往有個別數據與其它數據相差較大,這種個別數據稱為可疑值。 對可疑值的處理,應首先回顧和檢查生產可疑值的實驗過程,有無可覺察到的技術上的異常原因。 當原因不明時,必須按一定的數理統計方法進行處理,決定是保留還是舍棄。 格魯布斯檢驗法效果比較好的方法。格魯布斯檢驗法的優點是在判斷可疑值取舍的過程中,將正態分布中的兩個最重要的參數—平均值和標準偏差引進來,故方法的準確性較高。方法計算的過程是這樣的: 1.實驗得出一組數據X1;X2;X3;X4……Xn,懷疑其中某個數據可疑(X可疑) 2.計算X1;X2;X3;X4……Xn 的平均數(X平均)標準偏差(S) 3.計算格魯布斯G計算=(X平均-X可疑)/S,取絕對值 4.查表求格魯布斯G查表 5.若G計算≥G查表,則可疑數據舍去,反之保留 處理規則 對檢出的離群值,應盡可能尋找其技術上和物理上的原因,作為處理離群值的依據。應根據實際問題的性質,權衡尋找和判定產生離群值的原因所需代價、正確判定離群值的得益及錯誤剔除正常觀測值的風險,以確定實施下述三個規則之一: a)若在技術上或物理上找到了產生離群值的原因,則應剔除或修正;若未找到產生它的物理上和技術上的原因,則不得剔除或進行修正。 b)若在技術上或物理上找到產生離群值的原因,則應剔除或修正;否則,保留歧離值,剔除或修正統計離群值;在重復使用同一檢驗規則檢驗多個離群值的情形,每次檢出離群值后,都要再檢驗它是否為統計離群值。 若某次檢出的離群值為統計離群值,則此離群值及在它前面檢出的離群值(含歧離值)都應被剔除或修正。 c)檢出的離群值(含歧離值)都應被剔除或進行修正。 備案 被剔除或修正的觀測值及其理由應予記錄,以備查詢。