王立俊 江 益* 王 旭 賀永興 趙 冰
1(海南省氣象信息中心 海南 ???570203) 2(海南省南海氣象防災減災重點實驗室 海南 海口 570203)
近年來,氣象預報和服務已成為人們出行和工作的關注重點之一,而實時氣象觀測數(shù)據(jù)的好壞直接影響到氣象預報和服務的實效性和準確性,因此確保實時氣象觀測數(shù)據(jù)的高可用性,數(shù)據(jù)質量控制環(huán)節(jié)是至關重要的[1-2]。對此,中國氣象局與各省、市級氣象局一起設計、研發(fā)了國家級-省級-臺站三級質控的氣象資料業(yè)務系統(tǒng)(Meteorological Data Operation System,MDOS)[3],實現(xiàn)對各種類型的氣象原始觀測數(shù)據(jù)進行質控,以人機交互的形式審核質控后產(chǎn)生的疑誤數(shù)據(jù)[4]。
目前,MDOS僅使用界限值檢查等基本方法對小時能見度數(shù)據(jù)進行質量控制,且質量控制算法較為薄弱,許多疑誤數(shù)據(jù)被漏檢,致使值班人員的數(shù)據(jù)審核效率降低。
中國氣象局研發(fā)的氣象信息共享系統(tǒng)(China Integrated Meteorological Information Service System,CIMISS)是MDOS系統(tǒng)的數(shù)據(jù)來源,主要由五個功能系統(tǒng)組成,分別是收集與分發(fā)模塊CTS、數(shù)據(jù)加工處理模塊DPC、數(shù)據(jù)存儲管理模塊SOD、綜合業(yè)務監(jiān)控模塊MCP和數(shù)據(jù)共享服務模塊GDS,部署在國家和各省級節(jié)點,對各種氣象資料和產(chǎn)品進行收集、加工、存儲及服務,是氣象業(yè)務、服務和管理的核心基礎數(shù)據(jù)支撐平臺[5]。
針對上述問題,本文分析各臺站的歷年小時能見度數(shù)據(jù),總結出各臺站能見度要素與相對濕度、風速、降水等其他氣象要素之間的關聯(lián)性,引入時間一致性檢查、內部一致性檢查等多種方法,提出基于CIMISS的DBQC(Dual-Bound Quality Control)算法,算法多時次地雙重質控原始能見度數(shù)據(jù),能快速、準確地質控出能見度疑誤數(shù)據(jù),疑誤信息顯示在Web頁面供值班人員篩查。業(yè)務試用結果表明,系統(tǒng)能快速、準確地質控出更多的能見度疑誤數(shù)據(jù),提高數(shù)據(jù)審核人員篩查疑誤數(shù)據(jù)的效率。
針對不同類型的氣象數(shù)據(jù),國內外設計、研發(fā)了各種質量控制系統(tǒng),例如:在地面觀測業(yè)務中,北歐采用臺站級質控、入庫前實時質控、入庫后非實時質控和人工質控的方式對自動站數(shù)據(jù)進行質控[6];美國使用臺站-州-國家三級的質控方式對地面觀測數(shù)據(jù)進行質控[7];我國采用的氣象觀測數(shù)據(jù)質控方式是臺站級、省級和國家級三級質控[8]。
不同質控系統(tǒng)中使用的數(shù)據(jù)質量控制方法主要分為以下幾種檢查方法[9-13],分別是氣候界限值檢查、臺站極值檢查、內部一致性檢查、時間一致性檢查和空間一致性檢查。
1)氣候界限值檢查:通常是從氣候學的角度去判斷某個氣象要素的數(shù)值是否超過了不可能出現(xiàn)的氣象要素臨界值[8]。一般通過選擇極值上下界來判定氣象數(shù)據(jù)是否為疑誤數(shù)據(jù)。
2)臺站極值檢查:檢查原始觀測數(shù)據(jù)是否超出臺站已出現(xiàn)過的歷史極值,如果數(shù)值超過歷史極值,由觀測員分析站點歷史數(shù)據(jù),按照實際情況和工作經(jīng)驗判斷觀測數(shù)據(jù)的正確性[9]。
3)內部一致性檢查:不同氣象要素之間在同一時間內是否滿足一定的物理關系。若相應要素不符合這些關系,則至少有一個要素為錯誤數(shù)據(jù)[10]。
4)時間一致性檢查:在一定時間段內,氣象要素必須滿足規(guī)律性變化[11]。如小時紫外線有明顯的日變化,如果連續(xù)24小時無變化,則數(shù)據(jù)可能為疑誤或錯誤。
5)空間一致性檢查:氣象要素在空間上(相鄰臺站)滿足一定的連續(xù)性,常用方法有空間插值法、Madsen方法[12]、空間回歸檢查法[13]等。
本文設計的應用是基于CIMISS的接口服務研發(fā)的,CIMISS系統(tǒng)中數(shù)據(jù)流轉的流程如下:CTS實時收集臺站上傳至省級節(jié)點的各類氣象觀測數(shù)據(jù),對數(shù)據(jù)進行格式檢查,快速質控等操作后,分別分發(fā)至國家級和DPC;DPC實時對分發(fā)來的數(shù)據(jù)進行解碼入庫,并調用數(shù)據(jù)簡約處理流程負責入庫如地面、高空觀測類的結構化數(shù)據(jù),諸如雷達、衛(wèi)星云圖等非結構化數(shù)據(jù)由SOD上的處理流程負責入庫;MCP實時接收其他模塊發(fā)送的運行及告警信息,并監(jiān)控、預警各類觀測數(shù)據(jù);CIMISS系統(tǒng)采用MUSIC接口形式封裝數(shù)據(jù)庫數(shù)據(jù),對外提供數(shù)據(jù)讀取服務。
本文設計的應用采用SSH框架技術,以Browser/Server模式來跨平臺呈現(xiàn)能見度質控數(shù)據(jù)。SSH框架是由Struts 2、Spring和Hibernate組成的,屬于主流的輕量級J2EE軟件開發(fā)架構。采用該框架開發(fā)應用,能較好地對應用功能模塊分層、解耦,明確項目成員分工,加快開發(fā)進度,縮短開發(fā)周期,使應用具有良好的擴展性和維護性。其中:Struts 2是以Webwork為核心的邏輯控制器,采用攔截器機制來響應前端用戶提交的Web請求,將Servlet與業(yè)務邏輯控制器分離[14];Spring是屬于輕量級的Java Web框架,通過配置文件及事務管理機制,可靈活管理多種數(shù)據(jù)庫,提供多元化的業(yè)務邏輯[15];Hibernate采用O/R Mapping技術,通過配置XML文件或Annotation注解為Java對象和各類數(shù)據(jù)庫中的表結構建立一種或多種映射關系,操控對象即操作數(shù)據(jù)庫[16]。
目前,MDOS對能見度要素僅使用界限值檢查等簡單方法進行質控,使得許多疑誤數(shù)據(jù)被遺漏,降低數(shù)據(jù)審核值班人員篩查疑誤數(shù)據(jù)的效率。因此,分析、研究海南省各國家氣象觀測站的能見度要素與其他要素間的相關性,總結得到小時能見度變化預估值擬合公式,并引入時間一致性檢查、內部一致性檢查等方法,提出基于CIMISS的DBQC算法,算法通過多時次質控原始氣象觀測數(shù)據(jù),能快速、準確地質控出能見度疑誤數(shù)據(jù)。
與能見度變化直接相關的要素有降水量、天氣現(xiàn)象(輕霧、霧、霾),但由于臺站實現(xiàn)自動觀測后,天氣現(xiàn)象數(shù)據(jù)由能見度與相對濕度等相關氣象要素來判斷,因此不能通過天氣現(xiàn)象來判斷能見度要素是否存在疑誤,但相對濕度、風速這兩個要素與能見度存在一定的關聯(lián)性。
以部分國家氣象觀測站為例,選取2017年6月7日至2018年10月29日時間段,共計262 419條地面原始觀測數(shù)據(jù),分析能見度與相對濕度、風速這兩個要素的相關性,得出能見度與相對濕度、風速的相關系數(shù),如表1所示??梢钥闯霾糠峙_站能見度與相對濕度存在負相關,與風速存在正相關。
表1 部分臺站能見度與其他要素的相關系數(shù)
對小時能見度實際變化值ΔV與相對濕度變化值ΔP、風速變化值ΔW進行二元線性擬合,得出擬合公式:
Δy=-1 186.7-745.36×ΔP+217.34×ΔW
(1)
式中:Δy為小時能見度變化預估值。將預估值與實際變化值進行對比,可作為判斷能見度變化是否異常的參考。
此外,當能見度出現(xiàn)大幅度降低時,還可通過上一時次有無降水來判斷能見度是否出現(xiàn)疑誤:
(1)該時次有降水量,則能見度變化為正?,F(xiàn)象;
(2)該時次無降水量,則通過前后時次相對濕度和風速的變化來進行判斷。
根據(jù)對全省歷史小時能見度與最小能見度進行分析和對各類差值的統(tǒng)計,得出閾值Δ的0取值公式,如式(2)所示,當對比數(shù)值小于閾值Δ時,則該時次能見度為正確數(shù)值。
(2)
針對小時能見度質量控制存在的問題,分析海南本地能見度與其他氣象要素的相關性,引入時間一致性、內部一致性等檢查方法,重新設計小時能見度質量控制算法(DBQC算法)。其中對于能見度界限值的檢查,根據(jù)最新氣象觀測業(yè)務規(guī)定,小時能見度的數(shù)值均應在0~30 000米的范圍內。
算法思路分為兩個質量控制階段a和b,實現(xiàn)對能見度數(shù)據(jù)的雙重質控,及時、有效地質疑出符合要求的疑誤數(shù)據(jù)。其中:Δ為能見度閾值;V10i為10分鐘平均水平能見度;VMINi為最小水平能見度;Flag為數(shù)據(jù)疑誤標識;Δyi為小時能見度變化預估值;i為時次。
1)質量控制階段a的流程如圖1所示。遍歷當前時次各臺站的最小能見度,初始化閾值Δ,并對V10i和VMINi進行極值檢查和同氣象要素間的內部一致性檢查,用于初步篩查出滿足條件的疑誤數(shù)據(jù)。接著,比較當前時次能見度實際變化值ΔV與閾值Δ的大小:(1)若ΔV小于Δ,則該時次不滿足疑誤條件,屬于正常范圍的數(shù)值。(2)若ΔV大于Δ,需要判斷上一時次是否出現(xiàn)降水。若出現(xiàn)降水,則該時次能見度數(shù)據(jù)正確;若無降水,則需要計算VMINi與V10i-1的差值,并再與閾值Δ比較,若小于,則該時次能見度數(shù)據(jù)正確,反之,則由于式(2)的設定,數(shù)據(jù)被質疑為疑誤。
圖1 一階段質控流程a
2)質量控制階段b的流程如圖2所示。對階段a中產(chǎn)生的Flag為1的數(shù)據(jù)進行再質控,先遍歷這些數(shù)據(jù),依次初始化初始化閾值Δ,對VMINi進行極值檢查后,計算當前時次和上一時次V10的差值,并與Δ比較。若小于,數(shù)據(jù)為正確的;若大于等于,需判斷是否有降水。若有,數(shù)值未發(fā)生陡降,滿足同一要素的時間一致性檢查,數(shù)據(jù)為正確;若無,需要計算下一時次V10i+1和當前時次VMINi的差值絕對值,再與Δ比較。若大于等于,數(shù)據(jù)為正確;若小于,計算實際變化值ΔVi(V10i-V10i-1)與預估值Δyi的差值絕對值,與Δ作最終的比較,若小于,數(shù)據(jù)為正確,反之,為疑誤。
圖2 二階段質控流程b
使用Java編程語言來實現(xiàn)DBQC算法,系統(tǒng)參數(shù)如表2所示。
表2 系統(tǒng)參數(shù)表
算法處理的業(yè)務數(shù)據(jù)集為2019年1月至2019年5月期間的所有國家站逐小時數(shù)據(jù),調用CIMISS接口獲取該時間段原始數(shù)據(jù),預處理后入本地數(shù)據(jù)庫。
使用DBQC算法質控后的結果與MDOS系統(tǒng)快速質控后的結果進行對比,結果如表3所示。表3中的準確率表示從業(yè)務數(shù)據(jù)集中篩查出的能見度疑誤數(shù)據(jù),經(jīng)人為確認后是否為疑誤的概率。
表3 對比結果
由對比結果可知,使用DBQC算法質控原始觀測數(shù)據(jù)的能見度要素,比MDOS質控出更多的疑誤數(shù)據(jù)。這是因為MDOS僅使用界限值檢查等方法對小時能見度數(shù)據(jù)進行質量控制。而DBQC算法引入時間一致性和內部一致性檢查等方法,分析能見度與其他要素的關聯(lián)性,對數(shù)據(jù)進行多時次雙重質控,能較好地發(fā)現(xiàn)類似“低谷”數(shù)值的疑誤數(shù)據(jù)。因此,本文提出的DBQC算法能快速、準確地質控出更多的能見度疑誤數(shù)據(jù)。
為了讓值班人員能更好、更快地審核能見度疑誤數(shù)據(jù),在上述基礎上,根據(jù)實際的值班需求,分析、總結小時能見度實時質控的流程,使用基于Java EE的SSH框架,研發(fā)一個用于展示、搜索經(jīng)過DBQC算法質控后的小時能見度實時質控平臺。
整個質控流程如圖3所示,值班人員通過瀏覽器打開能見度監(jiān)控頁面后,后臺將自動調用小時能見度質控模塊:(1)數(shù)據(jù)入庫:后臺先從數(shù)據(jù)庫查詢最新的質控時次,若是第一次部署應用,數(shù)據(jù)庫為新庫,后臺根據(jù)應用服務器的系統(tǒng)時間,自動生成Music語句讀取接口,獲取相應時間段內的原始觀測數(shù)據(jù)來初始化數(shù)據(jù)庫,若非新的數(shù)據(jù)庫,后臺自動獲取數(shù)據(jù)庫中最新的質控時次,并生成Music語句讀取接口來獲取需要入庫的原始觀測數(shù)據(jù)。(2)數(shù)據(jù)質控:數(shù)據(jù)入庫后,后臺自動遍歷質控狀態(tài)碼為0(0為未質控過,1為完成一階段質控,2為完成二階段質控),疑誤碼為2(0為疑誤,1為正確,2為未判斷)的數(shù)據(jù),對這些數(shù)據(jù)進行一階段質控,篩選出部分疑誤數(shù)據(jù);一階段質控完成后,后臺再對一階段產(chǎn)生的疑誤數(shù)據(jù)進行質控。
圖3 實時小時能見度質控流程圖
前臺Web頁面如圖4所示,值班人員能實時看到最新的能見度質控結果,可查詢相關疑誤數(shù)據(jù)的相關時次數(shù)據(jù),便于查找疑誤數(shù)據(jù)出現(xiàn)的原因。
圖4 能見度質控展示頁面
MDOS中現(xiàn)有的能見度質控方法比較薄弱,會漏檢許多疑誤數(shù)據(jù),為提高能見度疑誤數(shù)據(jù)的質控效率,在分析海南能見度要素與其他氣象要素的相關性,引入時間一致性、內部一致性等檢查方法,本文提出DBQC算法。算法對能見度數(shù)據(jù)進行雙重質控,與現(xiàn)有MDOS的能見度質控效果相比,能有效地質控出更多的疑誤數(shù)據(jù)。在此基礎上,研發(fā)一個能見度質控監(jiān)控平臺,使值班人員能快速地篩查能見度疑誤數(shù)據(jù)。經(jīng)業(yè)務試用,各模塊運行穩(wěn)定,有效提高了數(shù)據(jù)審核人員的疑誤篩查效率。