雷發(fā)美,萬 艷,商少平,陳劍橋
(1.廈門大學(xué)海洋與地球?qū)W院,福建 廈門 361005;2.廈門大學(xué)海洋觀測技術(shù)研發(fā)中心,福建 廈門361005;3.福建省水產(chǎn)設(shè)計院,福建 福州 350003;4.福建省海洋預(yù)報臺,福建 福州 350003)
隨著國家對海洋的重視,我國的海洋開發(fā)和管理日益加強,海洋經(jīng)濟日益繁榮,極大地推動了海洋觀測系統(tǒng)的發(fā)展,也促進了海洋觀測儀器的技術(shù)革新及海洋觀測數(shù)據(jù)種類和數(shù)據(jù)量的快速增長。多源海洋觀測數(shù)據(jù)的融合和同化將成為準(zhǔn)確描述和預(yù)測近岸和開闊大洋的物理、生物、化學(xué)狀態(tài)的關(guān)鍵技術(shù),進而服務(wù)于科研和社會的多種應(yīng)用。在海洋環(huán)境預(yù)報、海洋工程建設(shè)、海洋災(zāi)害應(yīng)對、海洋權(quán)益保障等方面,海洋環(huán)境觀測資料提供了重要的基礎(chǔ)信息,是不可缺少的依據(jù),尤其是高質(zhì)量的監(jiān)測數(shù)據(jù)能夠科學(xué)地反映海洋環(huán)境,而這一切的前提是對多源數(shù)據(jù)的質(zhì)量有清晰明確的認識,即要求對各種海洋觀測系統(tǒng)和平臺所獲取的數(shù)據(jù)有簡便、可靠的質(zhì)量描述與控制。然而,在實際觀測過程中,數(shù)據(jù)采集、傳輸、保存、儀器故障、采樣地點的偶發(fā)事件等一系列因素都可能對觀測結(jié)果產(chǎn)生影響,導(dǎo)致數(shù)據(jù)出現(xiàn)異常。目前,對來源眾多、格式不一、數(shù)據(jù)量越來越大、時效性越來越高的多源觀測數(shù)據(jù),實行準(zhǔn)確有效的數(shù)據(jù)質(zhì)量評估和控制是海洋工作者面對的重大挑戰(zhàn)之一。海洋觀測數(shù)據(jù)的獲取更新、整合處理、管理應(yīng)用和共享服務(wù)等工作已經(jīng)成為社會各界共同關(guān)注的議題。
20世紀(jì)末開始,美國環(huán)境保護署(United States Environmental Protection Agency,EPA)建立了一系列標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量控制和質(zhì)量評估方法,即《數(shù)據(jù)質(zhì)量評估導(dǎo)則》[1-2],對環(huán)境監(jiān)測數(shù)據(jù)進行質(zhì)量評估[3]。美國海洋政策委員會(United States Commission on Ocean Policy)于2012—2016年完成實時海洋數(shù)據(jù)的質(zhì)量保證與質(zhì)量控制計劃,該計劃針對26個物理、化學(xué)和生物等方面核心要素的實時海洋觀測數(shù)據(jù)建立了標(biāo)準(zhǔn)化的質(zhì)控流程[4]。日本海洋學(xué)會(The Oceanographic Society of Japan)也將海洋數(shù)據(jù)質(zhì)量控制作為重要的工作內(nèi)容[5]。我國海洋監(jiān)測數(shù)據(jù)的質(zhì)量控制主要依據(jù)GB 4883—2008《數(shù)據(jù)的統(tǒng)計處理和解釋 正態(tài)樣本離群值的判斷和處理》[6]、GB/T 14914.6—2021《海洋觀測規(guī)范第6部分:數(shù)據(jù)處理與質(zhì)量控制》[7]、《海洋監(jiān)測質(zhì)量保證手冊》[8]和HY/T 0315—2021《海洋觀測延時資料質(zhì)量控制審核技術(shù)規(guī)范》[9]。
為了保證海洋監(jiān)測數(shù)據(jù)的代表性、完整性、精密性、準(zhǔn)確性和可比性(即“五性”),近年來國內(nèi)外都將數(shù)據(jù)質(zhì)量控制和評估作為海洋觀測的重要內(nèi)容來考慮,并陸續(xù)建立一系列標(biāo)準(zhǔn)化的質(zhì)量控制或評估流程和方法[10]。海洋監(jiān)測數(shù)據(jù)具有多源性、多態(tài)性、多樣性和區(qū)域性等特征,這就決定了對數(shù)據(jù)質(zhì)量的控制和評估不能一概而論,需要結(jié)合具體的觀測方式、觀測平臺和觀測區(qū)域等要素來綜合考慮。雖然在海洋數(shù)據(jù)質(zhì)控方面存在大量研究成果,但主要是圍繞質(zhì)控共性理論方法的探究[11],專門針對浮標(biāo)表層環(huán)境要素數(shù)據(jù)質(zhì)控流程和方法的研究較少[12]。本文主要研究海洋浮標(biāo)表層環(huán)境要素數(shù)據(jù)的質(zhì)控,并對質(zhì)控結(jié)果進行分析,以此來建立一種可靠且實用的數(shù)據(jù)質(zhì)量控制流程和方法,該方法流程清晰,簡潔實用,正常情況下不需人工干預(yù)就可以有效檢出異常數(shù)據(jù),質(zhì)控過程中采用誤差控制,可最大限度防止誤刪,并且質(zhì)控后對每個值進行質(zhì)量標(biāo)識,根據(jù)質(zhì)量標(biāo)識可以快速追蹤數(shù)據(jù)異常的原因,為最終獲得完整、準(zhǔn)確、質(zhì)量可靠的海洋觀測數(shù)據(jù)提供保障。
海洋浮標(biāo)包括大型海洋環(huán)境監(jiān)測浮標(biāo)和小型海洋環(huán)境監(jiān)測浮標(biāo),兩者觀測要素基本相同,數(shù)據(jù)格式也基本相同[13],主要包括剖面流速、剖面流向、有效波高、平均波高、最大波高、1/10大波波高、有效波周期、平均周期、最大波高周期、1/10大波周期、平均波向、波數(shù)(測波個數(shù))、平均風(fēng)速、平均風(fēng)向、最大風(fēng)速、氣溫、氣壓、能見度、相對濕度、表層水溫、電導(dǎo)率、表層鹽度等表層環(huán)境要素和溶解氧、溶解氧飽和度、葉綠素、濁度、pH等生化要素,另外,數(shù)據(jù)中還包括浮標(biāo)名稱或編號、時間、經(jīng)度、緯度、儀器狀態(tài)等信息。本文僅對大浮標(biāo)表層環(huán)境要素進行質(zhì)控,但不包括海流。
質(zhì)控流程一般分為計算機自動質(zhì)控和人工審核兩部分,其中計算機自動質(zhì)控部分包括數(shù)據(jù)前處理質(zhì)控、數(shù)理統(tǒng)計質(zhì)控、局地質(zhì)控和誤差控制等4個部分,人工審核包括剔除未自動識別出的異常值和恢復(fù)被誤刪的正確值。質(zhì)控過程中根據(jù)每步質(zhì)控結(jié)果對數(shù)據(jù)進行質(zhì)量標(biāo)識,標(biāo)識出正確數(shù)據(jù)、未評估數(shù)據(jù)、可疑數(shù)據(jù)、錯誤數(shù)據(jù)和缺失數(shù)據(jù)等。
1.2.1 前處理質(zhì)控
在浮標(biāo)表層環(huán)境要素數(shù)據(jù)記錄中,空白值一般為特殊符號或者缺省值,該值的存在嚴(yán)重影響數(shù)據(jù)的處理和后續(xù)質(zhì)控的進行,應(yīng)優(yōu)先剔除。在某些情況下,僅從數(shù)據(jù)本身很難判斷該值是否為需要的測量值,比如跑標(biāo),因此要從時間、地點和日志等多方面進行檢驗,基本屬性錯誤的數(shù)據(jù)直接剔除。若獲取的數(shù)據(jù)明顯超過該區(qū)域歷史觀測資料的范圍,也判定為錯誤值,直接剔除。因此,前處理質(zhì)控主要包括空白值檢驗、時間檢驗、位置檢驗、設(shè)備日志檢驗和閾值檢驗等。
(1)空白值檢驗
空白值檢驗包括空格和缺省填充值檢驗,海洋觀測資料一般是按照規(guī)定的格式進行記錄的,對缺測數(shù)據(jù)的填寫都有相應(yīng)的要求,一般用預(yù)先設(shè)置的值(明顯區(qū)別于正常值)進行填充。檢驗時,空格不處理,缺省值直接剔除。
(2)時間檢驗
時間檢驗包括時間范圍和時間連續(xù)性檢驗。數(shù)據(jù)的觀測時間應(yīng)在質(zhì)控數(shù)據(jù)的起止時間范圍內(nèi),觀測時間不合理的判定為異常值;依據(jù)數(shù)據(jù)的觀測頻率進行連續(xù)性判斷,刪除不在理論采樣時間點的數(shù)據(jù),同時補充缺失的理論采樣時間點的數(shù)據(jù)記錄,要素觀測值設(shè)置為空格。對于時間間隔不規(guī)律的觀測,不進行連續(xù)性檢驗。
(3)設(shè)備日志檢驗
根據(jù)設(shè)備的工作情況記錄,對儀器維護、故障等非正常運行期間的數(shù)據(jù),各要素觀測值直接剔除。
(4)位置檢驗
若浮標(biāo)位置信息缺失,一般問題不大(浮標(biāo)通常比較固定),將缺失經(jīng)緯度的觀測要素值標(biāo)識為可疑值,參與后續(xù)處理。若某一時刻浮標(biāo)位置明顯超出預(yù)先設(shè)定的范圍,該位置及其對應(yīng)的要素值均判定為異常值。若一段時間內(nèi)浮標(biāo)位置不斷變化,則可能發(fā)生移標(biāo)(跑標(biāo)或人為移動),位置變化過程中的所有數(shù)據(jù)判定為異常值,穩(wěn)定后數(shù)據(jù)保留。
(5)閾值檢驗
對監(jiān)測參數(shù)在該區(qū)域歷史觀測資料中的范圍進行統(tǒng)計,找出該監(jiān)測參數(shù)的取值變化范圍,指導(dǎo)參數(shù)閾值范圍的劃分,超出閾值范圍的數(shù)據(jù)判定為異常值,但要注意邊界值,比如波高和風(fēng)速記錄值為0的時候,有可能是正確值。
1.2.2 數(shù)理統(tǒng)計質(zhì)控
數(shù)理統(tǒng)計是以概率論為基礎(chǔ)研究大量隨機現(xiàn)象的統(tǒng)計規(guī)律性的一門數(shù)學(xué)學(xué)科[14]。數(shù)理統(tǒng)計檢測數(shù)據(jù)異常的方法一般具有普適性,應(yīng)用范圍廣泛,但需要滿足一定的數(shù)據(jù)量,且該數(shù)據(jù)具有隨機性,這樣才具有穩(wěn)定性和準(zhǔn)確性。對于浮標(biāo)數(shù)據(jù)來說,數(shù)據(jù)量一般不是問題,長時間觀測獲得了大量的數(shù)據(jù),在隨機性方面,基于成本考慮,一個變量同一時刻一般只有一個測量數(shù)據(jù),等到下一個時刻再次測量時,環(huán)境參數(shù)可能已經(jīng)發(fā)生了變化,無法對同一參數(shù)進行多次獨立重復(fù)測量,也就是說,隨著時間的推移,獲取的變量數(shù)據(jù)不是隨機的。為了使用數(shù)理統(tǒng)計理論,需要做一個假設(shè):在t時刻測得某個變量值,在時刻之前測n個數(shù)據(jù),在t時刻之后測m個數(shù)據(jù),把這些數(shù)據(jù)視為一個整體,看成是對同一個變量的多次測量,環(huán)境引起的變化視為隨機變化造成的,于是可以對該數(shù)據(jù)使用數(shù)理統(tǒng)計方法。基于該假設(shè),對浮標(biāo)數(shù)據(jù)進行質(zhì)控時,時間窗口的選擇尤為重要。
基于以上假設(shè),可以用數(shù)理統(tǒng)計的方法來檢驗數(shù)據(jù),數(shù)理檢驗的方法很多,各方法基本原理大同小異,但不同情形下采用的準(zhǔn)則有所不同[15]。選取數(shù)理檢驗方法時,遵循簡單易用并且大家都比較熟悉和公認的方法,同時參照國家標(biāo)準(zhǔn)[6]和行業(yè)標(biāo)準(zhǔn)[9],選擇幾種適當(dāng)?shù)姆椒▽Ω鞣N要素進行多次檢驗,防止漏檢。本次采用的數(shù)理統(tǒng)計質(zhì)控方法主要有萊特檢驗(三倍標(biāo)準(zhǔn)差)、奈爾檢驗、格拉布斯(Grubbs)檢驗、狄克遜(Dixon)檢驗、峰度檢驗等。
(1)萊特檢驗
萊特準(zhǔn)則是一種正態(tài)分布情況下判別異常值的方法,比較適用于樣本n>10的情況,具有普適性。σ為已知的總體標(biāo)準(zhǔn)差,為樣本均值,若第i個測量值xi對應(yīng)殘差的絕對值滿足式(1),則判定該測量值xi為異常值。
(2)奈爾檢驗
當(dāng)已知標(biāo)準(zhǔn)差時,使用雙側(cè)奈爾檢驗法,樣本量為3≤n≤100,該檢驗主要針對短時間內(nèi)高頻測量數(shù)據(jù),此時可以把儀器的精度當(dāng)作標(biāo)準(zhǔn)差來使用。
確定檢出水平α后,從國家標(biāo)準(zhǔn)[6]查表A.1得出臨界值R1-α/2(n),當(dāng)Rn>Rn′且Rn>R1-α/2(n)時,判定xn為可疑值;當(dāng)Rn′>Rn且Rn′>R1-α/2(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標(biāo)準(zhǔn)[6]查表A.1得出臨界值R1-α*/2(n),當(dāng)Rn>R1-α*/2(n)時,判定xn為異常值;當(dāng)Rn′>R1-α*/2(n)時,判定x1為異常值。
(3)Grubbs檢驗
未知標(biāo)準(zhǔn)差時,可以使用雙側(cè)Grubbs檢驗法,樣本量為3≤n≤100。
對樣本最大值計算統(tǒng)計量如下。
確定檢出水平α后,從國家標(biāo)準(zhǔn)[6]查表A.2得出臨界值G1-α/2(n),當(dāng)Gn>Gn′且Gn>G1-α/2(n)時,判定xn為可疑值;當(dāng)Gn′>Gn且Gn′>G1-α/2(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標(biāo)準(zhǔn)[6]查表A.2得出臨界值G1-α*/2(n),當(dāng)Gn>G1-α*/2(n)時,判定xn為異常值;當(dāng)Gn′>G1-α*/2(n)時,判定x1為異常值。
(4)Dixon檢驗
未知標(biāo)準(zhǔn)差時,可以使用雙側(cè)Dixon檢驗法,樣本量為3≤n≤100。
對樣本最大值xn和最小值x1計算統(tǒng)計量Dn和Dn′,計算公式見表1。
表1 Dixon檢驗統(tǒng)計量計算表
確定檢出水平α后,從國家標(biāo)準(zhǔn)[6]查表A.3′或C.2得出臨界值D1-α(n),當(dāng)Dn>Dn′且Dn>D1-α(n)時,判定xn為可疑值;當(dāng)Dn′>Dn且Dn′>D1-α(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標(biāo)準(zhǔn)[6]查表A.3′或C.2得出臨界值D1-α*(n),當(dāng)Dn>Dn′且Dn>D1-α*(n)時,判定xn為異常值;當(dāng)Dn′>Dn且Dn′>D1-α*(n)時,判定x1為異常值。
(5)峰度檢驗
分析樣本觀測值,發(fā)現(xiàn)樣本主體來自正態(tài)總體而極端值較明顯偏離樣本主體時,可以使用峰度檢驗法。峰度統(tǒng)計量公式如下。
確定檢出水平α后,從國家標(biāo)準(zhǔn)[6]查表A.5得出臨界值b1-(αn),當(dāng)bk>b1-(αn),判定離均值最遠的值為可疑值。對可疑值確定剔除水平α*,從國家標(biāo)準(zhǔn)[6]查表A.5得出臨界值b1-α(*n),當(dāng)bk>b1-α(*n)時,判定距離均值最遠的值為異常值。
1.2.3 局地質(zhì)控
浮標(biāo)觀測數(shù)據(jù)是多樣的,有些數(shù)據(jù)通過數(shù)理統(tǒng)計方法不能有效地檢出,比如短時間內(nèi)整體漂移或者長時間數(shù)值不變,因此,引入局地質(zhì)控檢驗[12],主要包括梯度檢驗、卡值檢驗(粘滯檢驗)、尖峰檢驗、濾波檢驗和關(guān)聯(lián)性檢驗等。
(1)梯度檢驗
梯度檢驗主要是針對短時間內(nèi)數(shù)據(jù)的整體漂移,該部分漂移值用數(shù)理檢測方法難以檢出,而使用梯度檢驗效果較好。對同一個站位某一要素的連續(xù)觀測數(shù)據(jù)計算梯度(即觀測要素的時間變化率),計算公式如下。
式中,t為觀測時間;ξ(t)為時刻的觀測值;gradξ(t)為梯度。
對梯度進行三倍標(biāo)準(zhǔn)差檢驗,在一個梯度數(shù)據(jù)序列中,如果兩個梯度數(shù)值都超出三倍標(biāo)準(zhǔn)差并且這兩個數(shù)據(jù)相隔時間較短,則認為該段數(shù)據(jù)出現(xiàn)了整體偏移,這兩個數(shù)值之間的整段數(shù)據(jù)判定為異常值,剔除后繼續(xù)對剩余數(shù)據(jù)檢驗,直到?jīng)]有異常數(shù)據(jù)檢出。
(2)卡值檢驗
觀測儀器靈敏度和精度足夠的情況下,海洋觀測要素受流體動力因素的影響,在一定時間或空間內(nèi)不會恒定不變,若恒定不變,則數(shù)據(jù)可能異常,需要進行卡值檢驗,具體方法如下。
找出某段時間中要素最大值xmax和最小值xmin,兩者之間的差值應(yīng)大于一定的值,否則該段數(shù)據(jù)判定為異常數(shù)據(jù)。
式中,H為卡值檢驗參數(shù),根據(jù)要素類型、觀測時間和區(qū)域等確定,通常取值接近0。
(3)尖峰檢驗
在數(shù)據(jù)量較少時,數(shù)理統(tǒng)計方法比較難以判斷是否為異常值,可以采用尖峰檢驗,計算公式如下。
式中,β是臨界系數(shù),根據(jù)不同的觀測要素進行設(shè)置,并且默認前一時刻值xn-1和后一時刻值xn+1均為正常數(shù)據(jù),大于臨界系數(shù)的判定為異常值。
(4)濾波檢驗
濾波方法有很多種,根據(jù)不同的變量可以采用不同的濾波方法,比如限幅濾波法、中位值濾波法、算術(shù)平均濾波法、遞推平均濾波法、中位值平均濾波法、限幅平均濾波法、一階滯后濾波法、加權(quán)遞推平均濾波法、消抖濾波法、限幅消抖濾波法、卡爾曼濾波等。每種濾波方法有各自的優(yōu)缺點,根據(jù)質(zhì)控變量數(shù)據(jù)本身的性質(zhì),選擇合適的濾波法,可獲得較好的效果,該方法主要用于海流檢驗。
(5)關(guān)聯(lián)性檢驗
根據(jù)觀測資料數(shù)據(jù)間的相互關(guān)系進行檢驗,例如電導(dǎo)率、鹽度和水溫之間的關(guān)聯(lián)性,這三個變量之間存在函數(shù)關(guān)系,水溫異常會導(dǎo)致電導(dǎo)率、鹽度異常,電導(dǎo)率的異常會導(dǎo)致鹽度異常等。風(fēng)、浪和流之間也有關(guān)聯(lián)性,風(fēng)速增大會導(dǎo)致波浪變高、流速變快等。當(dāng)風(fēng)速突然變大為確定事件時,例如臺風(fēng)天,對浪和流檢出的異常值要引起注意,很可能是正確值。
此外,由于矢量包括大小和方向,兩者分別進行質(zhì)控,若其中一個量為異常值,則判定該矢量為異常值,對質(zhì)控后的矢量再分解為東分量和北分量,若其中一個分量為異常值,則判定該矢量為異常值。
1.2.4 誤差控制
在數(shù)理統(tǒng)計質(zhì)控中,做了一個隨機的假設(shè),但事實上觀測數(shù)據(jù)并不是隨機的,因此基于該假設(shè)的計算結(jié)果無法保證準(zhǔn)確性,甚至有可能是錯誤的,需要進一步對結(jié)果進行檢驗,檢驗方法主要采用誤差控制法,把檢測結(jié)果與相鄰數(shù)據(jù)進行比較,超過誤差控制值的才判定為可疑值或者異常值,該檢驗可以有效防止因儀器本身誤差而造成的過度刪除。
式中,xE為xn前后時刻的相鄰值(也可以取平均值);Er為誤差控制值。Er可以分為理論誤差值和經(jīng)驗誤差值,理論誤差值是基于儀器自身精度來計算的,根據(jù)誤差傳播定律[16],兩次獨立測量的差值最大允許范圍為儀器精度的倍,即Er可取對應(yīng)儀器精度的倍;經(jīng)驗誤差值則是根據(jù)實際經(jīng)驗,認為一段時間內(nèi)差值要大于某一特定值(或者百分比)才算異常值,該值可以根據(jù)不同時間、不同地點、不同變量而設(shè)不同的值。一般來說,經(jīng)驗控制誤差值要大于理論控制誤差值。當(dāng)xn與xE差值不大于誤差控制值時,判定xn為正常數(shù)據(jù),不能剔除。誤差控制部分不單獨使用,在每個異常數(shù)據(jù)檢出后均進行誤差控制檢驗。
1.2.5 人工審核
由于數(shù)據(jù)的多樣性和環(huán)境變化復(fù)雜性,通過以上質(zhì)控步驟不能完全達到質(zhì)控要求,可能有部分錯誤數(shù)據(jù)沒被檢出,也有可能會誤刪部分正確數(shù)據(jù),比如過于稀疏的數(shù)據(jù)、臺風(fēng)過境的數(shù)據(jù)等,因此還需要進行人工審核。人工審核一般通過繪制可視化的圖形進行對比,觀察挑選出遺漏的錯誤數(shù)據(jù),同時恢復(fù)誤刪的正確數(shù)據(jù)。
1.2.6 質(zhì)量標(biāo)識
參照美國海洋政策委員會開展的實時海洋數(shù)據(jù)的質(zhì)量保證與質(zhì)量控制計劃[17],對各觀測要素質(zhì)控后分離出的數(shù)據(jù)進行質(zhì)量標(biāo)識,正確數(shù)據(jù)標(biāo)識為1,未評估數(shù)據(jù)標(biāo)識為2,可疑數(shù)據(jù)標(biāo)識為3,錯誤數(shù)據(jù)標(biāo)識為4,缺失數(shù)據(jù)標(biāo)識為9,在此基礎(chǔ)上,為了便于區(qū)分和追蹤質(zhì)控過程,對每種質(zhì)控檢驗方法也都給定相應(yīng)的編號,兩兩相互組合,詳細情況見表2,根據(jù)質(zhì)量標(biāo)識就可以快速了解可疑值和異常值的檢出原因。
表2 檢驗方法及質(zhì)量標(biāo)識
由于質(zhì)控是按固定流程進行的,異常值第一次檢出時就會被剔除并進行標(biāo)識,而可疑值會繼續(xù)保留參與質(zhì)控直到流程結(jié)束,所以異常值的標(biāo)識為第一種檢出異常值的方法,而可疑值的標(biāo)識為最后一種檢出可疑值的方法。比如質(zhì)控后某個異常值標(biāo)識為4.23,表示該值在Grubbs檢驗時未通過,判定為異常值,雖然該值在Dixon檢驗時也可能是異常值,但Grubbs檢驗在前面,該值已經(jīng)被判定為異常值,不參與后面的Dixon檢驗。同樣的,如果質(zhì)控后某個可疑值標(biāo)識為3.25,表示該值在峰度檢驗時判定為可疑值,當(dāng)然在Grubbs和Dixon檢驗時也可能是可疑值,但只保留最后一個檢驗出可疑值的方法。
1.2.7 質(zhì)控流程
根據(jù)浮標(biāo)數(shù)據(jù)的特點,采用了前處理質(zhì)控、數(shù)理統(tǒng)計質(zhì)控、局地質(zhì)控、誤差控制、人工審核及質(zhì)量標(biāo)識等步驟,其中誤差控制只有在數(shù)理統(tǒng)計和局地質(zhì)控未通過時才使用,質(zhì)量標(biāo)識在每個數(shù)據(jù)檢驗完成之后進行,整個質(zhì)控流程步驟見圖1。質(zhì)控時,不同要素質(zhì)控流程會有所不同,有些要素?zé)o法使用數(shù)理統(tǒng)計或者局地質(zhì)控。
圖1 質(zhì)控流程示意圖
本文使用的海洋浮標(biāo)數(shù)據(jù)來源于福建省海洋觀測網(wǎng)的海洋1~5號大浮標(biāo)和海峽1~2號大浮標(biāo)(該浮標(biāo)命名在行業(yè)標(biāo)準(zhǔn)[18]執(zhí)行之前,故未按標(biāo)準(zhǔn)命名),數(shù)據(jù)時間從2017/01/01 00∶00開始至2017/01/15 23∶50結(jié)束,采樣間隔均為10 min,各浮標(biāo)數(shù)據(jù)信息見表3。
采用以上質(zhì)控流程和方法,對海洋1號大浮標(biāo)數(shù)據(jù)按要素逐一進行質(zhì)控,時間窗口約為1 d(數(shù)理統(tǒng)計部分每次檢驗最大為100個數(shù)據(jù)),質(zhì)控參數(shù)的選取參考浮標(biāo)觀測的時間、地點、歷史資料等,控制誤差均設(shè)置為經(jīng)驗誤差,各要素閾值范圍和控制誤差見表4,其中波向、風(fēng)向、波數(shù)、能見度等幾個要素未進行數(shù)理統(tǒng)計檢驗,不設(shè)控制誤差。
表4 質(zhì)控參數(shù)設(shè)置
一般來說,前處理質(zhì)控對所有要素均適用,只是參數(shù)的選擇有所不同,但數(shù)理統(tǒng)計和局地質(zhì)控對不同要素質(zhì)控時應(yīng)當(dāng)選擇適當(dāng)?shù)臋z驗方法。比如能見度,在一段時間內(nèi)大部分數(shù)據(jù)為固定值,但也可能存在突然變化的情況,因此,不能使用數(shù)理統(tǒng)計質(zhì)控檢驗方法。矢量中的方向也要注意,由于方向取值范圍為0°~360°,但0°和360°是同一個方向,所以方向數(shù)值未做處理時,一般的異常值檢測方法都不適用。針對各要素的特點,以海洋1號大浮標(biāo)為例,海洋表層環(huán)境不同要素質(zhì)控方法的選取和異常數(shù)據(jù)檢出情況見表5,質(zhì)控前后對比見圖2至圖7(僅給出部分圖,無數(shù)據(jù)或者無效數(shù)據(jù)過多者略)。
圖2 海洋1號大浮標(biāo)有效波高和平均波高質(zhì)控前后對比圖
圖7 海洋1號大浮標(biāo)相對濕度和表層水溫質(zhì)控前后對比圖
表5 海洋1號大浮標(biāo)各質(zhì)控方法檢出異常值情況
從表5質(zhì)控結(jié)果來看,海洋1號浮標(biāo)理論記錄為2 160個,實際記錄為2 087個,缺失73個,波數(shù)和表層鹽度數(shù)據(jù)基本缺失。檢出的異常值中,閾值檢出占大部分,主要是因為空白部分數(shù)據(jù)記錄為0,這些空白值通過閾值檢出。平均波高和平均波向、平均風(fēng)速和平均風(fēng)向則通過關(guān)聯(lián)性檢出部分異常值,但需要注意的是,由于測量原理和儀器不同,該矢量可能不是嚴(yán)格意義上的關(guān)聯(lián)矢量(大小和方向分別測量),可根據(jù)需要選擇關(guān)聯(lián)性質(zhì)控。日至15日7個大型海洋浮標(biāo)各要素數(shù)據(jù)質(zhì)控統(tǒng)計結(jié)果見表6,該表中的異常值個數(shù)不含缺測數(shù)據(jù),空白值(包括空值和填充值)在異常值后面用括號單獨列出。
圖3 海洋1號大浮標(biāo)平均波向和最大波高質(zhì)控前后對比圖
圖4 海洋1號大浮標(biāo)1/10大波波高和平均風(fēng)速質(zhì)控前后對比圖
圖5 海洋1號大浮標(biāo)最大風(fēng)速和氣溫質(zhì)控前后對比圖
圖6 海洋1號大浮標(biāo)氣壓和能見度質(zhì)控前后對比圖
表6 各個大浮標(biāo)表層環(huán)境要素異常值個數(shù)統(tǒng)計
對7個海洋浮標(biāo)質(zhì)控檢出的異常值進行人工審核時,發(fā)現(xiàn)平均風(fēng)速誤刪較多,刪除標(biāo)識為4.34,表明是關(guān)聯(lián)性檢驗時刪除,進一步查詢原數(shù)據(jù),發(fā)現(xiàn)是浮標(biāo)數(shù)據(jù)記錄的問題,當(dāng)風(fēng)向為0°的時候記錄為空白,導(dǎo)致質(zhì)控時風(fēng)矢量被判為異常值。對于該異常值,風(fēng)速大小通過數(shù)理統(tǒng)計未出現(xiàn)明顯異常,但缺少對應(yīng)的風(fēng)向,可以根據(jù)需要是否保留使用。
一般來說,通過質(zhì)控處理后如果還有未被剔除的異常數(shù)據(jù),很容易通過作圖比較看出,但是如果有誤刪則比較難以發(fā)現(xiàn)。在引入誤差控制后,誤刪的可能性較小,從質(zhì)控結(jié)果來看,誤刪一般發(fā)生在極端天氣或者有效數(shù)據(jù)太少的情況下,另外有些臨界值也不容易判定是否為異常值。
以海洋1號大浮標(biāo)有效波高為例,實際數(shù)據(jù)記錄為2 087條,以個人經(jīng)驗判斷,原始數(shù)據(jù)圖8中紅線以下部分的數(shù)據(jù)都可能是異常值,共81個值。通過以上質(zhì)控檢出79個異常數(shù)據(jù)(表5),有2個數(shù)據(jù)未被判定為異常數(shù)據(jù),見圖8中A、B兩點。通過查看數(shù)據(jù)發(fā)現(xiàn),2017年1月2日21點40分(即A點)有效波高值為0.3 m,兩側(cè)鄰近值為0.7 m,其對應(yīng)的質(zhì)量標(biāo)識為3.25,表明該值被判定為可疑值;另一個出現(xiàn)在2017年1月7日23點10分(即B點)有效波高值為0.4 m,兩側(cè)鄰近值為0.7 m,其對應(yīng)的質(zhì)量標(biāo)識為1,表明該值判定為正確值。究其原因,在質(zhì)控過程中,把控制誤差設(shè)定為0.5 m[19],只要不超過控制誤差都判定為正確值,由于A、B點與兩端的差值均沒有超過控制誤差,所以不會被判定為異常值。因此,通過質(zhì)控后A點被判定為可疑值(數(shù)理統(tǒng)計判定),B點被判定為正確值。從圖8中也可以看出,A、B兩點與其他異常值所處的環(huán)境條件是不同的,這兩點處于波谷,環(huán)境的變化加上儀器測量的誤差,這個測量值可能是真實的,所以這個質(zhì)控結(jié)果是合理的。
圖8 海洋1號大浮標(biāo)有效波高原始數(shù)據(jù)圖
通過對7個浮標(biāo)各海洋表層環(huán)境要素質(zhì)控前后數(shù)據(jù)和圖形對比可以看出,該質(zhì)控流程和方法達到了預(yù)期的目標(biāo),異常值均被檢出并且剔除,沒有發(fā)現(xiàn)明顯異常?;谝陨腺|(zhì)控結(jié)果,采用該質(zhì)控流程和方法對小浮標(biāo)、漁排基、潮位站等同類型觀測站點獲取的海洋表層環(huán)境要素數(shù)據(jù)進行質(zhì)控,同樣可得到滿意的結(jié)果,但由于不同站點的觀測要素不完全相同,在輸入、輸出和前處理等方面要做出相應(yīng)的改變。
針對福建省海洋觀測網(wǎng)的7個海洋大浮標(biāo)表層環(huán)境要素數(shù)據(jù),通過前處理質(zhì)控、數(shù)理統(tǒng)計質(zhì)控和局地質(zhì)控后可以有效地檢出異常數(shù)據(jù),再通過人工審核對一些特殊數(shù)據(jù)進行處理,最后可根據(jù)數(shù)據(jù)的質(zhì)量標(biāo)識,追蹤數(shù)據(jù)質(zhì)量的判斷依據(jù)。本文對海洋浮標(biāo)表層環(huán)境要素數(shù)據(jù)質(zhì)控流程和方法的研究結(jié)論如下。
(1)前處理質(zhì)控很有必要,因為浮標(biāo)數(shù)據(jù)不可避免地會有空白值及儀器維護和故障等,這些值嚴(yán)重影響數(shù)理統(tǒng)計質(zhì)控。數(shù)理統(tǒng)計質(zhì)控是質(zhì)控的核心部分,可以有效地檢出異常數(shù)據(jù),使用多種數(shù)理統(tǒng)計方法檢驗,防止漏檢。
(2)誤差控制是質(zhì)控過程中的重要環(huán)節(jié),數(shù)理統(tǒng)計和局地質(zhì)控檢出的每個異常值都要進行誤差控制,能有效防止誤刪,人工審核為漏檢和誤刪做最后把關(guān)。
(3)質(zhì)控后對每個值進行質(zhì)量標(biāo)識,根據(jù)質(zhì)量標(biāo)識可以快速追蹤數(shù)據(jù)異常的原因,后期也可以按照質(zhì)量標(biāo)識根據(jù)實際需要使用數(shù)據(jù)。
(4)本文質(zhì)控流程和方法思路清晰,簡潔實用,由于在不同質(zhì)控環(huán)節(jié)使用多種質(zhì)控方法,一般情況下不需人工干預(yù),但是在特殊環(huán)境下,存在誤刪的可能。
(5)本文質(zhì)控是基于大型海洋浮標(biāo)表層環(huán)境要素延時資料提出的,但也適用于其他同類型海洋觀測平臺獲取的延時或?qū)崟r資料。