史靜濤,周智海
(國家海洋技術中心,天津300112)
海洋站數(shù)據(jù)質量控制技術探討
史靜濤,周智海
(國家海洋技術中心,天津300112)
介紹了幾種常用的數(shù)據(jù)質量控制方法,并分析了這些方法的使用條件;初步分析了海洋站數(shù)據(jù)質量控制過程;針對海洋站數(shù)據(jù)特點,對某一海洋站某月逐時數(shù)據(jù)分別采用3δ檢驗法和格拉布斯檢驗法進行整體檢驗和分組檢驗,并采用曲線擬合手段表現(xiàn)質量控制結果。結果表明,對海洋站數(shù)據(jù)進行質量控制以后,數(shù)據(jù)質量得到了明顯提高,同時也顯示出對數(shù)據(jù)進行分組檢驗的必要性。
質量控制過程;3δ檢驗法;格拉布斯檢驗法;曲線擬合;分組檢驗
隨著國家對海洋環(huán)境的重視,人們也認識到海洋站數(shù)據(jù)質量提高的重要性,數(shù)據(jù)質量需要數(shù)據(jù)質量控制才能提高。目前,數(shù)據(jù)質量控制主要是實時數(shù)據(jù)質量控制和延時數(shù)據(jù)質量控制兩種。實時數(shù)據(jù)質量控制是延時數(shù)據(jù)質量控制的基礎,實時數(shù)據(jù)質量控制做得好就能減輕延時數(shù)據(jù)質量控制的工作。兩種數(shù)據(jù)質量控制所控制的數(shù)據(jù)有一定的差別,所以采取的數(shù)據(jù)質量控制方法也不同,然而這兩種數(shù)據(jù)質量控制過程基本上是一致的。
本文首先探討了常用的數(shù)據(jù)質量控制方法,其次針對海洋站以及其數(shù)據(jù)特點初步分析了其數(shù)據(jù)質量控制過程,最后通過案例來了解具體的海洋站數(shù)據(jù)質量控制過程。
數(shù)據(jù)質量控制方法的研究是數(shù)據(jù)質量控制的重點,控制方法的好壞直接影響到數(shù)據(jù)質量。目前,數(shù)據(jù)質量控制經(jīng)常用的方法有極值控制、萊茵達檢驗法、狄克遜檢驗法、格拉布斯檢驗法以及Cochran檢驗法等。
1.1 極值控制方法
極值控制方法是根據(jù)各種海洋環(huán)境要素的物理特性、統(tǒng)計經(jīng)驗給定各個要素的極大值和極小值。極值控制是普遍采用、簡單有效的方法,能夠有效地檢驗出極端異常的數(shù)據(jù)。然而極值控制方法不能很好地檢驗那些差異不是很大的異常數(shù)據(jù),這就需要更加精準的控制方法來控制。
1.2 3δ檢驗法[1]
3δ檢驗法又稱萊因達檢驗法。根據(jù)誤差理論,一般情況下隨機誤差δ服從正態(tài)分布。δ為標準差,一般是未知的,通常用貝塞爾公式算得S代替δ,以xˉ代替真值。
xi為觀測值,i=1,2,…,N
對某個觀測數(shù)據(jù) xi,若其殘差 vi滿足 vi=|xi-xˉ|>3S,i=1,2,…,N,則xi可疑,應該標記異常值。
1.3 狄克遜(Dixon)檢驗法[1-3]
狄克遜準則有一假定條件,那就是設定觀測數(shù)據(jù)總體是正態(tài)分布的,取1個樣本x1,x2,…,xn,將觀測數(shù)據(jù)按大小順序排列為x'1≤x'2≤x'3≤…≤x'n,檢驗高端值和低端值是否異常有如下4種方法:
以上的 r10,r'10,r11,r'11,r21,r'21,r22,r'22簡記為 rij和 r'ij。狄克遜導出了它們的概率密度函數(shù)。選定顯著性水平α,求得臨界值 D(α,n)。
若 rij>r'ij,rij>D(α,n)則判斷 x'n為異常值;若 rij<r'ij,r'ij>D(α,n)則判斷x'1為異常值;否則判斷沒有異常值。
狄克遜認為對不同的測量次數(shù)或不同的數(shù)據(jù)量,應選用不同的統(tǒng)計。狄克遜方法本身說明該方法適合數(shù)據(jù)量比較少的情況,對于數(shù)據(jù)量比較大的數(shù)據(jù)一般采用其他方法;而且這種方法公式比較多,判別過程相對比較繁瑣。
1.4 格拉布斯檢驗法[1-3](Grubbs)
格拉布斯準則是根據(jù)順序統(tǒng)計量的某種分布規(guī)律提出的一種判別標準。
設定一個正態(tài)獨立測量的樣本x1,x2,…,xn,對其中的一個可疑數(shù)據(jù)xi(它與ˉ的殘差絕對值最大),構造統(tǒng)計量為為樣本的平均值,S按公式(2)計算。 格拉布斯導出了它的理論分布。選定顯著性水平α,α通常取0.05或0.01,求得按下式意義的臨界值G(α,n)。
1.5 Cochran 檢驗法[1-3]
設有 L 組數(shù)據(jù),每組測定 n 次,標準差 S1,S2,…,SL都由公式(2)得到;
(a)將L個標準差按大小順序排列,最大值記為Smax;
如果n=2,即每組只有兩次測定時,各組內差值分別為R1,R2,…,RL,則要按如下公式計算 C:
(10)
(c)根據(jù)選定的顯著水平α、組數(shù)L、測定次數(shù)n確定臨界值 Cα;
(d)若 C>Cα,則判斷 Smax為異常值,其對應的那組數(shù)據(jù)異常或者當中存在異常值。
Cochran檢驗法檢驗完成以后還需要對有異常數(shù)據(jù)的那組數(shù)據(jù)采用其他的質量控制方法,所以這種方法適用于數(shù)據(jù)量比較大的數(shù)據(jù)。
根據(jù)海洋站觀測平臺的實際觀測,數(shù)據(jù)質量控制過程可以分為數(shù)據(jù)采集與傳送、數(shù)據(jù)轉化、根據(jù)采集到的數(shù)據(jù)特點對數(shù)據(jù)質量控制方法的選擇和處理,以及數(shù)據(jù)質量控制結果的顯示及存儲等。數(shù)據(jù)質量控制過程圖如圖1所示。
圖1 數(shù)據(jù)質量控制過程圖
2.1 數(shù)據(jù)采集與傳送
數(shù)據(jù)采集與傳送是數(shù)據(jù)質量控制的基礎,數(shù)據(jù)采集主要是讀取觀測儀器的實時數(shù)據(jù)或延時數(shù)據(jù)?,F(xiàn)在的數(shù)據(jù)采集一般是觀測儀器自動記錄觀測數(shù)據(jù),這樣可以消除部分人為造成的讀數(shù)誤差。數(shù)據(jù)傳送過程中可能會帶來部分的傳輸誤差,一般造成非碼錯誤,這就要求接收數(shù)據(jù)的時候應該對數(shù)據(jù)進行非碼檢驗,保證不必要數(shù)據(jù)的后期處理。
2.2 數(shù)據(jù)轉化
傳輸?shù)臄?shù)據(jù)往往不一定是我們所認知的數(shù)據(jù)形式或者數(shù)據(jù)量綱,這就要求對其進行數(shù)據(jù)轉換。轉換以后的數(shù)據(jù)才能更加清晰地反應當前海洋環(huán)境的狀況以及趨勢。
2.3 選擇適當?shù)臄?shù)據(jù)質量控制方法進行數(shù)據(jù)質量控制
選擇數(shù)據(jù)質量控制方法是海洋站數(shù)據(jù)質量控制過程中的核心。為了選擇合適的質量控制方法,首先必須對數(shù)據(jù)本身的特點進行分析,一般有數(shù)據(jù)正態(tài)性判斷、數(shù)據(jù)誤差正態(tài)性判斷以及數(shù)據(jù)量的大小,甚至數(shù)據(jù)分組處理等等。目前常用的數(shù)據(jù)質量控制方法有極值檢驗、一致性判斷、遞增性判斷、3δ方法檢驗、格拉布斯檢驗以及狄克遜檢驗等。
2.4數(shù)據(jù)質量控制結果顯示以及存儲
數(shù)據(jù)質量控制結果一般通過散點圖、擬合圖、點線圖等來分析當前海洋環(huán)境的狀況以及趨勢。數(shù)據(jù)質量控制的目的不單是為了顯示當前的海洋環(huán)境狀況,還要數(shù)據(jù)質量控制結果的存儲以達到通過數(shù)據(jù)積累了解海洋規(guī)律。
以上的4個階段是對實時數(shù)據(jù)質量控制過程的簡單概括,延時數(shù)據(jù)質量控制是在實時數(shù)據(jù)質量控制的基礎上進行的更加深入的數(shù)據(jù)處理過程,不過基本的數(shù)據(jù)質量控制過程只有上述的3,4兩個過程,因此這里不再詳細探討延時數(shù)據(jù)質量控制過程。
現(xiàn)以傳送過來的某一海洋站符合觀測規(guī)范格式的1個月的逐時表層海水溫度和表層海水鹽度數(shù)據(jù)文件為例。這類文件一般是每個月會產生1個文件報表,對該類文件的處理算是延時數(shù)據(jù)質量控制。
首先按照海濱觀測規(guī)范將數(shù)據(jù)文件轉化為實際認知的數(shù)據(jù)形式,并形成數(shù)據(jù)文件。
其次對數(shù)據(jù)進行質量控制。該文件數(shù)據(jù)量比較大,并且在忽略人為所造成的過失情況下認為數(shù)據(jù)是符合正態(tài)分布的。數(shù)據(jù)量不同,采用的方法往往也不同,同一數(shù)據(jù)在不同方法下判斷結果有時也不同,這時候應采用比較精確的方法得出的結論。對整個月的數(shù)據(jù)可以采用萊茵達檢驗法進行質量控制。為了提高數(shù)據(jù)的質量和對異常數(shù)據(jù)的剔除,我們對數(shù)據(jù)再采用按日分組進行處理。質量控制前的散點圖如圖2,從圖中能夠看出有些數(shù)據(jù)是偏離整體趨勢的。對整個月的數(shù)據(jù)采用萊茵達檢驗法后的散點圖如圖3,從圖中可以看出還是有些數(shù)據(jù)是偏離整體趨勢的,因此需要更精確的質量控制。按日分組采用Cochran檢驗法檢驗,然后對有異常數(shù)據(jù)的組用格拉布斯檢驗法檢驗后的散點圖如圖4,從圖中可以看出其中的表層海水溫度變化趨勢已經(jīng)很明顯。
最后采用曲線擬合表現(xiàn)整個月的表層海水溫度變化趨勢,這里采用最小二乘方法擬合[4]以后的曲線如圖5。
圖2 質量控制前表層海水溫度散點圖
圖3 整體處理后表層海水溫度散點圖
圖4 按日分組處理后表層海水溫度散點圖
圖5 表層海水溫度擬合曲線圖
對于表層海水鹽度可以重復上述處理過程這里不再詳細說明。
通過實例簡單討論了海洋站數(shù)據(jù)質量控制,其中還有很多的問題需要更加深入的探討。今后可以開展的研究可以總結為以下幾點:
(1)質量控制方法需要更加細致的探討,需要針對海洋數(shù)據(jù)本身的特點分析出適合特定數(shù)據(jù)的質量控制方法。
(2)質量控制最終結果處理的探討,不僅是簡單的曲線擬合,還需要更加精確的表現(xiàn)數(shù)據(jù)趨勢的手段。
(3)更加深入的質量控制研究,本文只簡單分析了海洋站數(shù)據(jù)質量控制。有待于今后采用更加深入的數(shù)據(jù)處理方法,比如回歸分析、判別分析等。
[1]劉振學,等.實驗設計與數(shù)據(jù)處理[M].北京:化學工業(yè)出版社,2004:29-33.
[2]于振凡,等.數(shù)據(jù)的統(tǒng)計處理和解釋(第二版)[M].北京:中國標準出版社,2006:165-180.
[3]國家質量技術監(jiān)督局.GB 17378.2.海洋監(jiān)測規(guī)范 第2部分:數(shù)據(jù)處理與分析質量控制[S].1998.
[4]蘇金明,等.MATLAB使用指南(上冊)[M].北京:電子工業(yè)出版社,2005:49-55.
Abstract:Several commonly used quality control methods are described.The conditions of these methods are described then.The data quality control process of marine stations is preliminarily analyzed.According to the characteristics of the ocean station data,an overall month data of a marine station by 3δ verify method are inspected and the data group is tested by group using Grubbs verify method.The quality control results are performed by means of curve fitting.It can be seen from the results that the data quality has been improved using the data quality control process which is introduced.
Key words:quality control process;3δ verify method;Grubbs verify method;curve fitting;packet inspection
Study on Technology of Ocean Station Data Quality Control
SHI Jing-tao,ZHOU Zhi-hai
(National Ocean Technology Center,Tianjin 300112,China)
P71
A
1003-2029(2011)01-0114-04
2010-05-28
國家“十一五”863計劃——海洋立體實時監(jiān)測信息服務技術系統(tǒng)資助項目(2006AA09A302)