廖榮偉 房小怡 劉懷玉 曹玉靜 張冬斌 朱玉周
(1.中國氣象科學(xué)研究院災(zāi)害天氣國家重點(diǎn)實(shí)驗(yàn)室,北京 100081;2.中國氣象局氣象干部培訓(xùn)學(xué)院,北京 100081;3.中國氣象局氣象發(fā)展與規(guī)劃院,北京 100081;4.國家氣象信息中心,北京 100081;5.河南省氣象服務(wù)中心,河南 鄭州 450003)
地面氣象觀測資料是了解天氣變化、探索天氣—?dú)夂蜓葑円?guī)律、開展科學(xué)研究和氣象服務(wù)的基礎(chǔ),是氣象觀測的重要資料之一[1]。隨著氣象觀測技術(shù)的進(jìn)步,氣象要素的觀測精度和時間頻率越來越高。隨著業(yè)務(wù)需求的拓展和網(wǎng)絡(luò)技術(shù)的發(fā)展,氣象觀測數(shù)據(jù)上傳頻率由1 h一次,提高到了1 m in一次甚至1 s多次,獲取氣象要素?cái)?shù)據(jù)的時效性快速提升。相對傳統(tǒng)觀測,高頻采樣(秒級)觀測數(shù)據(jù)能更精細(xì)地描述大氣的微物理過程,可為數(shù)值預(yù)報(bào)、氣候監(jiān)測、氣候變化等科研業(yè)務(wù)工作提供重要的基礎(chǔ)數(shù)據(jù)。但是,未經(jīng)處理的高頻采樣數(shù)據(jù)中會包含信號噪音引起的異常值以及錯誤數(shù)據(jù),需要進(jìn)行檢查修正,從而保證觀測資料最大可能的準(zhǔn)確,不影響站點(diǎn)觀測資料的代表性[2-3]。在站點(diǎn)觀測資料使用前,進(jìn)行質(zhì)量控制檢查,是提高觀測資料質(zhì)量,確保資料準(zhǔn)確性的關(guān)鍵環(huán)節(jié)[4]。
關(guān)于地面氣象觀測數(shù)據(jù)質(zhì)量控制技術(shù),國內(nèi)外進(jìn)行了較多的研究,質(zhì)量控制的方法主要包括氣候?qū)W界限值檢查[5-10]、區(qū)域界限值檢查[11-15]、時間一致性檢查[9,15]、內(nèi)部一致性檢查[6-11]、空間一致性檢查等[16-19]。質(zhì)量控制對象多為逐小時、逐日、逐月、逐年溫度、氣壓、濕度、風(fēng)向、風(fēng)速和降水等要素?cái)?shù)據(jù)。針對氣象高頻(分鐘級)觀測資料,國內(nèi)外學(xué)者進(jìn)行了大量研究。陳柏堃等[1]對分鐘觀測數(shù)據(jù)文件進(jìn)行了質(zhì)量控制探索;許沛華等[20]設(shè)計(jì)開發(fā)了分鐘降水?dāng)?shù)據(jù)預(yù)處理系統(tǒng);黃琳等[21]對分鐘資料進(jìn)行質(zhì)量控制;孫娟等[22]建立了梯度觀測數(shù)據(jù)質(zhì)量控制模型并對梯度數(shù)據(jù)進(jìn)行綜合質(zhì)量控制;吳書成等[23]利用降水的空間分布和時程方程以及降水與溫度、濕度的關(guān)聯(lián)特性,開展了針對不同類型降水?dāng)?shù)據(jù)的二次質(zhì)量控制;劉雨佳等[24]將自動站分鐘降水?dāng)?shù)據(jù)換算為小時降水?dāng)?shù)據(jù)后進(jìn)行質(zhì)量控制;Jimenez等[25]對伊比利亞半島東北部41個自動站10—30 m in的平均風(fēng)速風(fēng)向資料進(jìn)行了質(zhì)量控制。
目前在數(shù)據(jù)檢查中,廣泛使用界限值檢查方法進(jìn)行數(shù)據(jù)質(zhì)量控制,即在某一范圍內(nèi)查找超出該范圍的可疑值[2,10]。如王海軍等[2]采用基于日極值的小時界限值檢查算法進(jìn)行質(zhì)量控制,可較大幅度減少誤檢率;Hasu和Altonen[26]采用了日閾值算法進(jìn)行自動站氣象資料質(zhì)量控制;李雁等[27]計(jì)算了中國不同氣候區(qū)溫度和降水逐月閾值,為實(shí)時觀測數(shù)據(jù)質(zhì)量控制提供參考;王詠薇等[28]利用3倍方差作為閾值檢驗(yàn)標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制;李茂善等[29]、馬小紅等[30]、彭記永和張曉娟[31]用4倍標(biāo)準(zhǔn)差作為閾值剔除由于電子線路或電源不穩(wěn)定、人為操作等因素引起的通量觀測數(shù)據(jù)奇異值;Vicker和Mahrt[32]、張烺等[33]使用3.5倍標(biāo)準(zhǔn)差作為閾值去除通量觀測數(shù)據(jù)的野點(diǎn)。
以往有關(guān)氣象高頻觀測資料的質(zhì)量控制方法研究[34-36],多以小時及以上時間尺度資料研究為主[37-38],偏重于局部地區(qū)或某次大的天氣過程進(jìn)行數(shù)據(jù)綜合質(zhì)量控制。甚至有部分研究人員采用將高頻(分鐘)數(shù)據(jù)換算為小時數(shù)據(jù)后再進(jìn)行質(zhì)量控制[24],以減少質(zhì)量控制所耗費(fèi)的時間和運(yùn)算資源。由于高頻(秒級、分鐘級)觀測數(shù)據(jù)量較多,一段時間內(nèi)相鄰觀測數(shù)據(jù)的時間間隔短,采用傳統(tǒng)質(zhì)量控制方法直接進(jìn)行高頻數(shù)據(jù)質(zhì)控的限制條件較多,質(zhì)量控制流程的時間長,計(jì)算資源需求大。目前國內(nèi)外缺少直接針對氣象高頻(秒級)數(shù)據(jù)的質(zhì)量控制方法研究。因此,本文借鑒湍流通量數(shù)據(jù)的質(zhì)量控制技術(shù)思路[32-33],應(yīng)用一種基于百分位閾值法的質(zhì)量檢查算法,能夠?qū)π陆ǖ膯我桓哳l氣象站點(diǎn),特別是修建在偏遠(yuǎn)地區(qū),缺少人員管理、電力網(wǎng)絡(luò)保障有限的站點(diǎn)觀測資料進(jìn)行質(zhì)量檢查,以期及時識別突發(fā)的觀測端錯誤,提高數(shù)據(jù)質(zhì)量檢查的自動化水平,為氣象高頻數(shù)據(jù)質(zhì)量控制研究提供參考。
采用中國氣象局華云集團(tuán)提供的2016年4月30日至5月29日天津東麗空港試驗(yàn)站、沈陽試驗(yàn)站、天津東麗蘇莊子試驗(yàn)站秒級觀測試驗(yàn)數(shù)據(jù)(均為CAWS3000-JT自動站),數(shù)據(jù)要素包括溫度和氣壓。數(shù)據(jù)時間分辨率為2 s,每分鐘數(shù)據(jù)30個。觀測站及數(shù)據(jù)基本情況見表1。
本文設(shè)計(jì)的地面氣象高頻數(shù)據(jù)質(zhì)量檢查方法主要原理為:氣壓、溫度等氣象數(shù)據(jù)具有隨時間變化的規(guī)律,通過追蹤時間變化曲線,建立上下限閾值,以期通過氣象高頻數(shù)據(jù)在上下限閾值軌道中的變化狀況,發(fā)現(xiàn)數(shù)據(jù)可能存在的問題。對于超過上下限閾值的氣象數(shù)據(jù),可“標(biāo)記”為超限數(shù)據(jù)(第一類錯誤數(shù)據(jù)),一方面設(shè)置同步圖像顯示,方便查看“標(biāo)記”數(shù)據(jù)的位置和出現(xiàn)時刻,另一方面設(shè)置程序自動提醒,方便人工核查,及時處理突發(fā)的儀器問題,保障儀器觀測正常。經(jīng)過檢查的觀測數(shù)據(jù),后期仍需進(jìn)入資料綜合加工系統(tǒng),結(jié)合其他質(zhì)量控制步驟或結(jié)合其他氣象要素進(jìn)行質(zhì)量控制檢查,綜合判斷及給出質(zhì)量控制碼。本文設(shè)計(jì)的算法在計(jì)算界限值前,還需要引入兩條前提假設(shè):1)在給定區(qū)間范圍內(nèi)的秒級氣象數(shù)據(jù),能計(jì)算出他們的統(tǒng)計(jì)特征值(如平均值,標(biāo)準(zhǔn)差等);2)在給定區(qū)間范圍內(nèi)的秒級氣象數(shù)據(jù),需要隨時間保持緩慢的變化[26]。界限值計(jì)算方法為
式(1)—式(4)中,ximax,ximin為給定區(qū)間范圍內(nèi)數(shù)據(jù)的上下限閾值;σ為給定區(qū)間范圍內(nèi)數(shù)據(jù)的標(biāo)準(zhǔn)差;ˉx為給定區(qū)間范圍內(nèi)數(shù)據(jù)的平均值;a為比例系數(shù)(a=1,2,3,…,nn);nn為比例系數(shù)的值;p為給定的百分位值[39-40];n為給定區(qū)間范圍內(nèi)所有有效氣象要素的個數(shù),n個數(shù)據(jù)需重新按照升序排列x1,x2,…,xn;m為經(jīng)過式(4)計(jì)算得出的位置編號;xm,xn-m為經(jīng)過百分位排序后,所在m位置和n-m位置對應(yīng)的數(shù)據(jù)值。如果有900個值,那么第99.9個百分位上的值為排序后的x900(p=99.9234%)和x899(p=99.8123%)的線性插值。
表1 2016年沈陽、天津觀測試驗(yàn)站及溫度、壓力數(shù)據(jù)介紹Tab le 1 The tem perature and p ressure records at Shenyang and Tianjin stations in 2016 and their introductions
本文對百分位的選取,主要基于Houchi等[16]的研究成果,采用嚴(yán)格的百分位法取值范圍(p=0.1%,p=99.9%),以99.9%(0.1%)位置對應(yīng)的數(shù)據(jù)加(減)給定區(qū)間范圍內(nèi)的1倍標(biāo)準(zhǔn)差值,得到該區(qū)間內(nèi)的上(下)限閾值。同時設(shè)計(jì)滑動時間窗,自動更新界限值??紤]到本文設(shè)計(jì)算法中系數(shù)組合(給定區(qū)間和滑動窗口)會對計(jì)算閾值有影響,因此,著重測試滑動窗口為1 min和給定區(qū)間60 min(方案1)、滑動窗口為2 min和給定區(qū)間60 min(方案2)、滑動窗口為5 min和給定區(qū)間60 min(方案3)、滑動窗口為1m in和給定區(qū)間30 min(方案5)、滑動窗口為2 min和給定區(qū)間30 min(方案6)、滑動窗口為5 min和給定區(qū)間30 min(方案7)的系數(shù)組合方案的檢測效果(表2和圖1),其中30 min給定區(qū)間包含900個數(shù)據(jù),60min給定區(qū)間包含1800個數(shù)據(jù)。
需要指出的是,本文采用式(5)估計(jì)百分位值,不但計(jì)算方便,而且避免了對要素序列分布的任何假設(shè)。這種百分位值的估計(jì)方法與Gamma分布比較起來,結(jié)果幾乎相同[37-38]。本文主要針對2016年4月29日至5月30日的氣象高頻觀測試驗(yàn)數(shù)據(jù)進(jìn)行分析,所用資料均為當(dāng)年新建試驗(yàn)站觀測資料。文中所分析資料經(jīng)過人工數(shù)據(jù)完整性檢查和區(qū)域氣候極值檢查,未經(jīng)過傳統(tǒng)的綜合質(zhì)量控制方案檢查,故本研究只用于驗(yàn)證界限值算法設(shè)計(jì)的可行性,測試算法設(shè)計(jì)的運(yùn)行效率,以及測試算法中不同系數(shù)組合方案對秒級數(shù)據(jù)(本文考慮為“真值”)的檢測能力,分析算法中不同方案的誤檢率(標(biāo)記率)大小,探尋算法中的最優(yōu)系數(shù)組合方案,本文試驗(yàn)結(jié)果不代表站點(diǎn)的觀測質(zhì)量。此外,天津東麗空港及蘇莊子兩個試驗(yàn)站直線距離約10 km,觀測資料的時間序列具有相似性,可作為鄰近站分析觀測資料的質(zhì)量狀況。沈陽站為單一試驗(yàn)站,周邊無臨近站。天津站的觀測數(shù)據(jù)和沈陽站的觀測數(shù)據(jù)均為同一型號采集器采集,可作為獨(dú)立樣本,進(jìn)一步驗(yàn)證本研究算法的通用性。
為了比較本文設(shè)計(jì)算法中不同給定區(qū)間以及滑動窗口(方案1—3和方案5—7)的運(yùn)行效率,以標(biāo)記“真值”數(shù)據(jù)中的“異?!敝底鳛檎`檢參考,探尋標(biāo)記率最低的組合方案,同時采用文獻(xiàn)[32-33]使用的3.5倍標(biāo)準(zhǔn)差方法,在30 min(方案8)和60 min(方案4)給定區(qū)間進(jìn)行界限值檢測,對比結(jié)果如表2所示。從表2可知,8種方案中,以方案5的“標(biāo)記”數(shù)據(jù)率最低;方案1其次,“標(biāo)記”數(shù)據(jù)3個,“標(biāo)記”率0.007%;方案7“標(biāo)記”數(shù)據(jù)率最高,達(dá)到了2.007%。方案2、3、4、6的“標(biāo)記”率居中,分別為0.111%,1.199%,0.109%,0.120%,均大于給定的0.1%(或99.9%)(p=0.1%)統(tǒng)計(jì)預(yù)期值[26]。以上結(jié)果表明,上述方案2、3、4、6、7對高頻數(shù)據(jù)的檢查,數(shù)據(jù)標(biāo)記率(誤檢率)較高,均不能達(dá)到設(shè)定的統(tǒng)計(jì)預(yù)期效果。方案1、5、8的“標(biāo)記”率(誤檢率)均低于給定的0.1%(或99.9%)(p=0.1%)統(tǒng)計(jì)預(yù)期。其中方案8“標(biāo)記”率為三種中最高,為0.076%,標(biāo)記數(shù)據(jù)33個,方案1和方案5“標(biāo)記”率均較低。結(jié)合算法計(jì)算時效分析,方案1和方案5的計(jì)算時效明顯優(yōu)于方案8,即百分位閾值法的檢查效率優(yōu)于3.5倍標(biāo)準(zhǔn)差法。上述結(jié)果表明,對于高頻數(shù)據(jù)的質(zhì)量控制,百分位閾值法較3.5倍標(biāo)準(zhǔn)差法適用,數(shù)據(jù)的誤檢率較低。圖1a至圖1h為2016年5月23日天津東麗空港站溫度秒級數(shù)據(jù)界限值檢查時間變化,8種系數(shù)組合方案中,計(jì)算出的溫度閾值數(shù)據(jù)與觀測溫度數(shù)據(jù)大體保持同步變化,觀測數(shù)據(jù)能被較好地“限制”在上下界限值中。其中方案5(圖1e)的上下界限值在上升溫過程中,溫度變化曲線靠近界限值的上限,降溫過程中,溫度變化曲線靠近界限值的下限,方案8(圖1h)由于閾值更新頻率比方案5低,上下界限值會出現(xiàn)更多的彎折,這樣的彎折在溫度上升或下降過程中,容易出現(xiàn)數(shù)據(jù)超出界限值的情況,從而形成“標(biāo)記”數(shù)據(jù)(第一類錯誤數(shù)據(jù)),形成誤檢。接下來將采用方案1和方案5繼續(xù)對同一站點(diǎn)的氣壓要素進(jìn)行界限值檢查試驗(yàn)。
表2 2016年5月23日天津空港站溫度數(shù)據(jù)的界限值檢查試驗(yàn)Table 2 The results of the threshold test for tem perature data at Konggang station in Tianjin on M ay 23,2016
圖1 2016年5月23日天津空港站溫度數(shù)據(jù)采用方案1(a)、方案2(b)、方案3(c)、方案4(d)、方案5(e)、方案6(f)、方案7(g)、方案8(h)的界限值檢查時間變化Fig.1 The tem poral variations of threshold test results for tem perature data using Schem e 1(a),Scheme 2(b),Scheme 3(c),Scheme 4(d),Scheme 5(e),Scheme 6(f),Scheme 7(g),Scheme 8(h)at Konggang station in Tianjin on M ay 23,2016
采用上述溫度試驗(yàn)中得出的最優(yōu)系數(shù)組合方案(方案1和方案5),利用百分位閾值法對2016年5月23日東麗空港試驗(yàn)站的氣壓秒級觀測數(shù)據(jù)進(jìn)行界限值檢查試驗(yàn),結(jié)果如表3所示。2種方案中,以方案5的“標(biāo)記”數(shù)據(jù)率最低,方案1“標(biāo)記”數(shù)據(jù)2個,“標(biāo)記”率為0.006%。從東麗空港試驗(yàn)站氣壓數(shù)據(jù)的界限值檢查變化可知(圖2a和圖2b),計(jì)算的界限值數(shù)據(jù)與觀測數(shù)據(jù)同步變化,方案5的所有觀測數(shù)據(jù)均在界限值的上下限范圍內(nèi)變化,方案1存在2個“標(biāo)記”的數(shù)據(jù)在界限值范圍外。
綜合以上試驗(yàn)結(jié)果分析,利用百分位閾值法對溫度和氣壓高頻數(shù)據(jù)進(jìn)行界限值檢查,以系數(shù)組合方案5(每1 min滑動+30 min區(qū)間)標(biāo)記出的數(shù)據(jù)少,數(shù)據(jù)誤檢率低;同時,在30 min區(qū)間(30 min×30個/m in=900個數(shù)據(jù))內(nèi)進(jìn)行百分位法排序,也比在60 min區(qū)間(數(shù)據(jù)量60 min×30個/min=1800個數(shù)據(jù))內(nèi)進(jìn)行百分位法排序的計(jì)算效率高,計(jì)算機(jī)內(nèi)存負(fù)荷較小[26],在不考慮數(shù)據(jù)采集穩(wěn)定性的前提條件下,方案5數(shù)據(jù)檢查效果最好。由此可見,通過上述算法進(jìn)行新建觀測端的數(shù)據(jù)界限值檢查,有助于第一時間發(fā)現(xiàn)觀測端可能突發(fā)的問題(第一類錯誤數(shù)據(jù)),及時提醒人工調(diào)整觀測設(shè)備狀態(tài),為后續(xù)提升數(shù)據(jù)質(zhì)量的可靠性提供幫助[34]。
表3 2016年5月23日天津空港站氣壓數(shù)據(jù)的界限值檢查試驗(yàn)Table 3 The results of the threshold test for pressure data at Konggang station in Tianjin on May 23,2016
根據(jù)東麗空港站界限值檢查試驗(yàn)分析結(jié)果,繼續(xù)采用最優(yōu)的系數(shù)組合方案(方案1和方案5)的百分位閾值法對2016年5月23日天津東麗蘇莊子試驗(yàn)站的溫度和氣壓秒級觀測數(shù)據(jù)進(jìn)行界限值檢查試驗(yàn),氣象要素界限值檢查變化如圖3a至圖3d所示,統(tǒng)計(jì)分析結(jié)果如表4所示。
天津東麗蘇莊子試驗(yàn)站溫度和氣壓界限值檢查試驗(yàn)表明(表4),利用方案5對溫度秒級數(shù)據(jù)進(jìn)行界限值檢查,沒有出現(xiàn)標(biāo)記數(shù)據(jù),方案1“標(biāo)記”1個數(shù)據(jù),標(biāo)記率為0.002%;利用方案5和方案1對氣壓秒級數(shù)據(jù)進(jìn)行界限值檢查,均“標(biāo)記”1個數(shù)據(jù)。由圖3可知,計(jì)算的溫度和氣壓高頻數(shù)據(jù)界限值與觀測數(shù)據(jù)隨時間同步變化。方案5中所有觀測數(shù)據(jù)均在界限值上下限范圍內(nèi),而方案1則有1個“標(biāo)記”數(shù)據(jù)出現(xiàn)在的界限值范圍外。綜合分析溫度和氣壓界限值檢查結(jié)果,采用方案5的百分位閾值法,“標(biāo)記”率最低,對兩種氣象要素的檢查適用性較好,檢查效率也較高。
圖2 2016年5月23日天津空港站氣壓數(shù)據(jù)采用方案5(a)、方案1(b)的界限值檢查變化Fig.2 The tem poral variations of threshold test results for pressure data using Scheme 5(a)and Scheme 1(b)at Konggang station in Tianjin on M ay 23,2016
表4 2016年5月23日天津蘇莊子站溫度和氣壓數(shù)據(jù)界限值檢查試驗(yàn)Table 4 The results of the threshold test for pressure and temperature data at Suzhuangzi station in Tianjin on M ay 23,2016
根據(jù)前述試驗(yàn)結(jié)果,采用方案5的百分位閾值法對2016年4月30日至5月29日共30 d的天津東麗空港站溫度和氣壓秒級觀測數(shù)據(jù)進(jìn)行界限值檢查,并且在2016年4月30日至5月9日人為添加3個時次的錯誤數(shù)據(jù),以期測試本算法的檢測能力(第二類錯誤的檢查能力)。圖4a和圖4c分別為連續(xù)30日的溫度、氣壓數(shù)據(jù)界限值檢查變化,在30日的連續(xù)觀測數(shù)據(jù)序列中,用界限值序列減去原始值序列,沒有出現(xiàn)超越0值的數(shù)據(jù)即“標(biāo)記”數(shù)據(jù),因此沒有出現(xiàn)誤判的情況。圖4b和圖4d為連續(xù)10日的溫度和氣壓界限值檢查變化,從圖中可見,人為任意添加的3個“錯誤”數(shù)據(jù),均出現(xiàn)在了閾值序列外,表明采用本算法進(jìn)行質(zhì)量檢查,能有效識別出“錯誤”數(shù)據(jù)。因此,采用方案5的百分位閾值法能有效檢查出試驗(yàn)站觀測時的突發(fā)錯誤。為了進(jìn)一步驗(yàn)證本文算法對于不同地區(qū)試驗(yàn)站數(shù)據(jù)的檢測能力,對2016年4月30日至5月9日沈陽試驗(yàn)站的溫度數(shù)據(jù)進(jìn)行界限值檢查,同時人為添加1個時次的錯誤數(shù)據(jù)(圖5)。從圖5a可見,對多日連續(xù)溫度秒級數(shù)據(jù)進(jìn)行界限值檢查,沒有出現(xiàn)“標(biāo)記”數(shù)據(jù),即沒有出現(xiàn)誤判的情況。從圖5b可見,人為增加的一個“錯誤”數(shù)據(jù),出現(xiàn)在了閾值序列外,表明算法能有效識別出“錯誤”數(shù)據(jù)。
圖3 2016年5月23日天津蘇莊子站氣壓數(shù)據(jù)采用方案5(a)和方案1(b)、溫度數(shù)據(jù)采用方案5(c)和方案1(d)的界限值檢查變化Fig.3 The tem poral variations of threshold test results for pressure data using Scheme 5(a),Scheme 1(b),and for tem perature data using Scheme 5(c),Scheme 1(d)at Suzhuangzi station in Tianjin on M ay 23,2016
圖4 2016年4月30日至5月29日天津空港站溫度數(shù)據(jù)(a)和包含錯誤數(shù)據(jù)(b)、氣壓數(shù)據(jù)(c)和包含錯誤數(shù)據(jù)(d)的界限值檢查變化Fig.4 The tem poral variations of threshold test results for tem perature data(a),pressure data(c),and corresponding error data(b,d)at Konggang station in Tianjin from April 30 to M ay 29,2016
綜合上述分析表明,采用方案5的百分位閾值法檢查效率最優(yōu),計(jì)算機(jī)內(nèi)存負(fù)荷較小,漏檢率和誤檢率較低,對東麗空港、蘇莊子試驗(yàn)站的溫度和氣壓、沈陽試驗(yàn)站的溫度秒級數(shù)據(jù)可以進(jìn)行有效檢查,并有助于減少正確數(shù)據(jù)的誤判,及時發(fā)現(xiàn)觀測儀器端突發(fā)的問題,提升數(shù)據(jù)檢查的自動化水平。
圖5 2016年4月30日至5月9日沈陽站溫度數(shù)據(jù)(a)和包含錯誤數(shù)據(jù)(b)的界限值檢查變化Fig.5 The temporal variations of threshold test results for tem perature data(a)and its error data(b)at Shenyang station from April 30 to M ay 9,2016
(1)利用天津東麗空港試驗(yàn)站、蘇莊子試驗(yàn)站以及沈陽試驗(yàn)站的溫度、氣壓秒級數(shù)據(jù),應(yīng)用一種基于百分位閾值法的界限值檢查算法,通過對該算法中不同系數(shù)(給定區(qū)間和滑動窗口)組合方案的質(zhì)量檢查試驗(yàn),探尋到了最適合試驗(yàn)站秒級數(shù)據(jù)的系數(shù)組合方案(1 min滑動結(jié)合30 min時間區(qū)間),采用該方案的算法運(yùn)行效率較高,正確數(shù)據(jù)的誤檢率較低,且疑誤數(shù)據(jù)的檢測性能較高。
(2)該方法可應(yīng)用到無長年代歷史觀測資料的氣象站、缺乏臨近站資料的氣象站以及新建氣象站。也可應(yīng)用到修建在偏遠(yuǎn)地區(qū),缺少人員管理、電力網(wǎng)絡(luò)保障有限的氣象站。通過對秒級數(shù)據(jù)界限值的自動計(jì)算,數(shù)據(jù)質(zhì)量檢查自動化程度大為提高。
(3)針對特殊氣象站,觀測數(shù)據(jù)在采用界限值檢查算法前就已經(jīng)發(fā)生系統(tǒng)性數(shù)據(jù)偏差(或是溫度、氣壓傳感器性能下降造成),由于沒有臨近站資料對比或無法統(tǒng)計(jì)出有代表性的歷史極值進(jìn)行限制,會出現(xiàn)第二類錯誤數(shù)據(jù)不能檢出的情況,增加誤判率。因此,在開始采用本文算法檢查前,需要人工對檢測開始的前一段時間的觀測數(shù)據(jù)進(jìn)行標(biāo)定[26],以確定儀器觀測的待檢數(shù)據(jù)不存在系統(tǒng)性數(shù)據(jù)偏差(溫度、氣壓傳感器性能完好)。在實(shí)際應(yīng)用中,觀測端的高頻數(shù)據(jù)經(jīng)過本算法質(zhì)量檢查后,還需要進(jìn)入數(shù)據(jù)加工處理系統(tǒng),結(jié)合其他質(zhì)量控制方案綜合確定數(shù)據(jù)的質(zhì)量和附加質(zhì)量控制碼。因此,實(shí)際應(yīng)用中須結(jié)合多種方法一起使用[2]。