袁 偉 許駿寧 楊志勇 田功平 葉棟水
(1.福建省氣象信息中心,福建 福州 350001;2.福建省減災中心,福建 福州 350001;
3.海峽氣象開放實驗室,福建 廈門 361000)
區(qū)域自動站觀測資料往往因站點建設(shè)位置、數(shù)量多不易精細化管理等原因,數(shù)據(jù)質(zhì)量一定程度上難以保證,同時也鑒于目前技術(shù)手段的投入與限制等問題,一旦數(shù)據(jù)進入相關(guān)業(yè)務系統(tǒng),往往不易察覺,并帶來系列不良影響。本文圍繞區(qū)域自動站觀測數(shù)據(jù),研究實時業(yè)務中的質(zhì)量控制問題,期望在關(guān)鍵時候能夠阻止顯性錯誤,業(yè)務應用前對疑似錯誤提示告警,必要時對大概率異常值先行剔除。
此外,在結(jié)合業(yè)務需求的研究過程中,我們將隨機取一次包含降雨的天氣過程的區(qū)域自動站、雷達資料,用于對文中算法的學習與驗證,其中區(qū)域自動站資料5分鐘觀測頻率,資料窗口包含天氣過程頭尾共7天的數(shù)據(jù)量進行演算。
通常來說,觀測值與真值之間的誤差有系統(tǒng)誤差、測量誤差、環(huán)境誤差等[1],表達如下:
X(t)=X′(t)+E(t)
其中,X′(t)為真值,X(t)為觀測值,E(t)為觀測誤差,t為觀測時次。
立足區(qū)域自動站的觀測數(shù)據(jù),我們使用誤差來表述觀測值正常與否,觀測誤差的基本組成部分理解如下:系統(tǒng)誤差(記為:S(t))可理解為設(shè)備故障、接觸不良、通信中斷等情況代入的數(shù)據(jù)誤差;測量誤差(記為:R(t))可理解為測量設(shè)備因可能的老化、校正等情況引起的測量變動;環(huán)境誤差(記為:V(t))可理解為測試、人為性質(zhì)代入的數(shù)據(jù)誤差。為簡化分析,我們僅研究E(t)=S(t)+R(t)+V(t)誤差模型,忽略其他誤差源。對于不同的誤差來源,需采用相應的一些技術(shù)手段,本文將通過重構(gòu)或改造或利用一些分析方法,提出誤差抑制的相關(guān)性分析。值得關(guān)注的是,在較長序列的數(shù)據(jù)中,上述誤差可能會相互轉(zhuǎn)換,因此需要考慮不同計算法的混合應用。
根據(jù)誤差模型,應用歷史資料研究誤差分布,進而用于實時觀測的預測,也是一種研究思路。
此時根據(jù)原始觀測值與經(jīng)過人工訂正后的歷史資料,做相應研究,如差分、樣條函數(shù)、最小二乘擬合等相關(guān)性研究,挖掘誤差分布情況。
對于氣象觀測數(shù)據(jù)的質(zhì)量控制,結(jié)合觀測設(shè)備的類型和觀測對象,國內(nèi)外做了大量的算法研究[2-4],如氣候?qū)W界限值檢查、氣候極值檢查、空間一致性檢驗、時間一致性檢驗、統(tǒng)計分析等。本文的自動站數(shù)據(jù)質(zhì)量控制,綜合考慮實時業(yè)務中的時效性、準確性,除了結(jié)合這些成熟的技術(shù)外,還將根據(jù)具體的實時應用,改造或重構(gòu)計算法,來滿足現(xiàn)有業(yè)務的部分急需應用。
此外,考慮到業(yè)務實時應用,將采用更多的輕量級的質(zhì)控技術(shù),遴選若干種后,最后做綜合評分,如果質(zhì)控評估分值超大,則認為數(shù)據(jù)顯性異常,如果評估分值較大,則認為數(shù)據(jù)存疑。其他情況對數(shù)據(jù)放行。
根據(jù)觀測數(shù)據(jù)的統(tǒng)計分析,本文復合應用IQR、Z-Score、DBSCAN、LSM等方法進行平滑、濾波、外推研究,并根據(jù)其計算結(jié)果作為質(zhì)量控制的依據(jù)。
相鄰時次的觀測值之差,可以有效削弱系統(tǒng)誤差所帶來的影響,尤其是觀測對象本身變動有規(guī)律的情況下,差分結(jié)果跳變較大時,比較容易發(fā)現(xiàn)異常值,如氣溫、氣壓等要素。與此同時,當測量值出現(xiàn)不變或變動范圍很小時,需要改造差分算法,引入長序列穩(wěn)態(tài)判斷,即需要對長序列數(shù)據(jù)進行監(jiān)控,我們通過實時計算差分游程,來探測數(shù)據(jù)誤差的影響。
設(shè)觀測時次t1,t2,t3,...,tn,n為當前觀測,觀測值差分:DX(ti)=X(ti)-X(ti-1) ,則差分游程計算式如下:
其中α是游程標尺閾值,當α取0時,為嚴格的游程過程,容易描述長時序數(shù)據(jù)的穩(wěn)定性,當取α非零值,不同觀測要素下,適當取值,容易描述長時序數(shù)據(jù)的微變性。統(tǒng)計連續(xù)0態(tài)或連續(xù)1態(tài)的資料觀測時次的次數(shù),稱為穩(wěn)定周期。表1為實際數(shù)據(jù)在不同標尺下的游程穩(wěn)定性估測。
表1 游程穩(wěn)定周期評估
從表1可見,隨著α增大,穩(wěn)定周期由小逐漸變大,并開始趨于相對固定。在實際業(yè)務中,我們選取穩(wěn)定周期相對固定的最小α值作為差分游程技術(shù)的游程標尺閾值。
通過對區(qū)域自動站進行地理分析,從地理相似條件、距離、海拔等位置出發(fā),嘗試匹配出每個站的若干鄰近站,用于對當前站的觀測數(shù)據(jù)質(zhì)量進行研判。與此同時,本文嘗試引入雷達資料進行格點化,用于對某區(qū)域的自動站進行降水量輔助質(zhì)量控制判斷。綜合這些方式方法,構(gòu)建區(qū)域站鄰近判識技術(shù)。為找到最佳鄰近站,首先從地理相似條件出發(fā)進行篩選:
d={D[Fk(B,L,H),F(B,L,H)]}
其中F(B,L,H)為本站的GCCS地理坐標,F(xiàn)k(B,L,H)為除本站外的其他站GCCS地理坐標,D為判斷函數(shù),最簡單的一種方式是取歐氏距離,較復雜的方式可以考慮等緯度線、等溫線、等壓線等條件。d為篩選集合,在實際使用時,可取TOP5(例如,按歐氏距離由小到大排序后,取前5個)。通過計算,則每個站均能得到相應的鄰近站。
其次,針對每個站的鄰近站集,再通過歷史數(shù)據(jù)進行對比,找出其觀測要素相關(guān)性更好的站。要素相關(guān)性采用均方差計算(考慮到天氣過程的尺度問題,不同的觀測要素有不同的相關(guān)性屬性,需要設(shè)計更復雜的計算法,本文假設(shè)在同一尺度下進行各要素的相關(guān)性研究),取均方差最小的作為觀測一致性符合程度的判識依據(jù):
代入實際區(qū)域站相關(guān)信息運算后,并不能保證每個站都有理想的鄰近站。同時在實際運算過程中,該算法過程可以設(shè)置為動態(tài)學習過程,確保找到的鄰近站更能反映本站的一些特性,從而為本站數(shù)據(jù)質(zhì)控提供參考依據(jù)。
天氣過程的尺度選擇依據(jù),我們從某次天氣過程中的雷達回波演變過程,來粗略劃定一個區(qū)域,得到一個回波過程區(qū)域:經(jīng)度范圍[118.00,118.45],緯度范圍[26.75,27.25](按3小時演變,統(tǒng)計24小時的回波覆蓋區(qū)域)。
在這個區(qū)域內(nèi),再考慮測站的地理特性,并對選定的觀測站點進行遍歷計算,得到每一個參考站所屬的鄰近集。以F9742觀測站為例,得到相應的鄰近集如表2所示。
表2 TOP5鄰近集
針對每個參考站及其鄰近集,分析觀測要素的相關(guān)性(這里采用要素的均方差):
進一步鎖定一個時間段內(nèi)的最佳鄰近集,以此確定每個觀測站在實時業(yè)務中相當可靠的鄰近集。表3是部分鄰近判識的測算過程和最佳鄰近集選擇參考,統(tǒng)計表明歐式距離遠近能夠反映出部分相關(guān)性,距離越近相關(guān)性要強些,以F9742為例,對應最佳鄰近集的相關(guān)性計算結(jié)果如表3所示。
表3 最佳鄰近集
根據(jù)每個參考站的最佳鄰近集,可以采用大數(shù)判決、最小方差等方法,進行觀測預測,預測值可作為參考站的當前觀測值的質(zhì)量控制依據(jù)。整個計算過程平滑滾動,其結(jié)果將隨學習過程而作動態(tài)調(diào)整,便于實時業(yè)務的應用展開。
針對各種誤差所帶入的觀測要素,相關(guān)質(zhì)量控制技術(shù)在國內(nèi)外也做過大量的研究如空間一致性、時間一致性等均有不同程度的質(zhì)量控制效果。本文針對相關(guān)地區(qū)的區(qū)域站在特殊環(huán)境,設(shè)計較短時序的概率落點技術(shù),即統(tǒng)計分析較短時序下的觀測要素的相鄰觀測值相關(guān)性,構(gòu)建落點統(tǒng)計矩陣,獲取相應落點概率,以此作為判斷短時效內(nèi)觀測要素的變動范圍及質(zhì)控依據(jù)。
記ti時次的觀測值對應ti+1時次的觀測值為落點C[X(tk)],相同觀測值的相同落點計數(shù)加1,累積落點值∑X(tki),得到落點統(tǒng)計矩陣:
針對落地統(tǒng)計矩陣,到落點概率分布:
其中,p(ki)=∑X(tki)/(∑X(tk1)+…+∑X(tkn))。
當C[X(tk)]是ti時次的觀測值對應ti+2時次的觀測值時,稱為二階落點,并對應相應的二階落點矩陣和二階落點概率分布,依此類推,本文暫不贅述。
經(jīng)過一定時間的算法訓練后,落點概率分布將趨于穩(wěn)態(tài),學習時間越長,分布越穩(wěn)定,但同時落點也變得更加離散,擴大判斷范圍,不利于質(zhì)量控制應用。本文采用實際數(shù)據(jù)作為算法學習訓練依據(jù),不同的觀測要素存在相應的最佳時間窗口。
從上述雷達回波過程中選取一塊區(qū)域進行研究,以F9742對應的降水量要素落點進行研究,過程描述如圖1所示。
(a)8日降水落點
計算表明,降水在8~9日之間有切變,與實際天氣過程較吻合;氣溫變化穩(wěn)定,落點概率平穩(wěn),表明預測參考前一值(或前一天的當前時刻值)有一定意義;氣壓落點概率固定,后經(jīng)數(shù)據(jù)驗證為氣壓計輸出值長時段內(nèi)不改變。
融合上述幾種計算法,我們針對每個站,利用一定時序的數(shù)據(jù),預測下一個時次的數(shù)值,并結(jié)合實際值進行對比,觀測與預測對比如圖2所示。
圖2 觀測與預測對比過程(實際數(shù)據(jù)分析)
觀測值與動態(tài)預測值的相關(guān)系數(shù)為:
觀測值與動態(tài)預測值的均方差為:
圖3 觀測與預測對比過程(模擬異常值)
此時,觀測值與動態(tài)預測值的相關(guān)性系數(shù)為:Correl(X,Y)=0.293 ,觀測值與動態(tài)預測值的均方差為Stdev(X,Y)=7.01。這反映出相關(guān)性變低,兩者之間表現(xiàn)出背離。從圖3對比結(jié)果來看,預測值能夠較好符合實時觀測值,當出現(xiàn)顯性異常時,相關(guān)性背離加快,這在實時業(yè)務應用中具備了風險研判和數(shù)據(jù)質(zhì)量訂正依據(jù)。
自動站數(shù)據(jù)在災害性天氣監(jiān)測預警中應用最廣泛、最直接,其數(shù)據(jù)質(zhì)量對于預報分析和服務效果有直接影響。目前也有很多數(shù)據(jù)質(zhì)控平臺專門對數(shù)據(jù)進行研究與應用,且也已經(jīng)實現(xiàn)了快速質(zhì)控、人工疑誤處理等多種處理方式。然而在實際業(yè)務中,仍然存在各式各樣的要素冒“大數(shù)”的現(xiàn)象,如雨量、風速、溫度等。本文主要從實際業(yè)務出發(fā),業(yè)務數(shù)據(jù)入口之前通過一定的技術(shù)研究增加數(shù)據(jù)質(zhì)量防火墻或預警墻,并取得了一定的預期效果。本文所提的計算法還有不斷完善和改進的空間,需要繼續(xù)探索國內(nèi)外技術(shù),以期繼續(xù)豐富數(shù)據(jù)的質(zhì)量控制技術(shù)。