王志良 黃珊 陳海濤
摘 要:水文數據的完整性是水文水資源與水環(huán)境計算的重要基礎,水文觀測缺失數據的插補是水文數據整編的一個重要環(huán)節(jié)。為更好地解決水文觀測數據中斷、缺失問題,以黃河流域黑石關水文站流量觀測數據為例,對4種不同的時間序列插補方法(樣條插值法、Stineman內插法、加權滑動平均值法、卡爾曼濾波和狀態(tài)空間模型法)進行比較分析,并通過3項評估指標(平均絕對誤差、均方根誤差和平均百分比誤差)比較插值效果的優(yōu)劣。結果表明:加權滑動平均值法可較好地實現黑石關水文站流量缺失數據的插補,為后續(xù)黃河流域生態(tài)保護提供可靠的基礎數據。
關鍵詞:水文觀測數據;缺失數據;插補方法;時間序列;黃河
中圖分類號:P333.6;TV882.1 ? 文獻標志碼:A
doi:10.3969/j.issn.1000-1379.2020.07.004
Abstract:Ensuring the integrity of hydrological data is an important basis for the calculation of hydrological water resources and water environment. The interpolation of missing data in hydrological observations is an important part of the compilation of hydrological data. In order to better solve the problem of hydrological observation data interruption and missing, this paper used four different time series interpolation methods, which were spline interpolation, Stineman interpolation, weighted moving average method, Kalman filter and state model method for analysis and comparison and put forward the comparison of the performance of the interpolation effect through three evaluation indicators of average absolute error (MAE), root mean square error (RMSE) and average percentage error (MAPE) by taking the discharge data of Heishiguan Hydrological Station in the Yellow River basin as an example. The results show that the weighted moving average method can well implement the interpolation of missing data at the Heishiguan Hydrological Station, which provides reliable basic data support for subsequent ecological protection in the Yellow River basin.
Key words: hydrological observations; missing data; imputation method; time series; Yellow River
1 引 言
黨的十八大以來,習近平總書記多次實地考察黃河流域生態(tài)保護和發(fā)展情況,就重點區(qū)域生態(tài)保護建設提出要求,將黃河流域生態(tài)保護和高質量發(fā)展上升為重大國家戰(zhàn)略,意義深遠。由于黃河復雜難治,黃河流域生態(tài)保護和高質量發(fā)展重大國家戰(zhàn)略的實施涉及多學科的理論基礎和重大科技問題,有些理論和技術難題需要進一步攻克,有些需要綜合集成研究,有些需要多學科交叉融合[1],因此黃河數據的公開與完整性對進一步研究黃河流域生態(tài)保護和高質量發(fā)展的理論基礎和重大科技問題具有重要意義。水利部黃河水利委員會積極響應習近平總書記的號召,在黃河網上公開了近18 a的水情信息,為全社會多學科研究黃河提供了數據基礎。但研究中發(fā)現數據有缺失的情況,這些缺失的數據理應是水文觀測數據的重要組成部分,導致數據缺失的原因各種各樣,比如監(jiān)測器的波動和錯誤、斷電、計算機系統崩潰以及人為因素等。
從統計分析的角度看,數據缺失是測量誤差的一種形式,這種誤差使樣本量變少,可能導致樣本偏差或嚴重失真,從而使基于這些數據的分析結果產生偏差。目前,針對這個問題已有一些研究成果,合適的處理方法取決于缺失數據的模式與機制。概括地說,用于構建完整數據的方法可分為兩大類:單一插補方法和多重插補方法[2]。單一插補方法的主要優(yōu)點是可以直接應用完整數據方法的標準,創(chuàng)建插補所需的大量工作僅需執(zhí)行一次[3],比如張志萍等[4]采用“系列化處理”方法對大理河流域降水資料進行了插補展延;劉平等[5]在解決沿海潮位實測資料中低潮位缺失的問題時,采用了具有完整潮位過程的臨近站點資料對潮位缺失測站點進行潮位插補;Arroyo等[6]運用多元回歸技術和人工神經網絡模型,通過空氣質量信息包含的其他5個污染物變量估算出缺少的臭氧值;姜光輝等[7]用非線性模型插補水文資料;Nur等[8]根據評估指標,選擇“自上而下平均”的方法作為填補空氣污染物數據中缺失值的估算方法;杜蓓蓓等[9]基于《水文資料整編規(guī)范》(SL 247—2012)[10]選用改進的相關插補法構建了潮位插補數學模型,提高了水文數據整編的時效性。以上研究多采用單一方法進行缺失數據插補,缺少多種方法的對比。針對這一問題,從統計學角度出發(fā),以黑石關水文站流量觀測數據為例,選取4種水文數據時間序列插補方法,通過3項評估指標進行對比分析。
3 應用實例
3.1 數據來源
伊洛河是黃河三門峽以下最大支流,干流總長712 km,流域面積1.89萬km2。伊洛河黑石關水文站建于1934年7月,位于河南省鞏義市,集水面積1.86萬km2[15]。數據采用水利部黃河水利委員會官網中提供的2002—2018年黑石關水文站每天的流量數據。
3.2 數據分析與處理
流量數據共有6 209個值,其中398個缺失值,數據缺失率為6.41%。黑石關流量概況如圖1所示。由圖1可知,數據在2005年中旬至2006年年初有較長時間的連續(xù)中斷,最長連續(xù)缺失長度為362個值;流量在5月至10月較大,11月至4月相對較小;在2002—2018年的17 a中,2003年、2010年與2011年的日流量相對較大。
由表1數據概況中流量數據的四分位距、標準偏差、變異系數、偏度、峰度和圖1(c)、(f)可知,數據較為分散且不對稱,最大值和最小值兩極分化嚴重,數據分布嚴重偏斜。
3.3 插補效果比較
為了對比4種缺失數據插補方法的效果,對插補后的完整數據集使用軟件隨機生成缺失值,使其生成帶有部分缺失數據的非完整數據。插補后數據與原始數據對比,通過計算MAE、RMSE、MAPE判斷插補效果,結果見表3。4種插補方法均有良好的插補效果,其中樣條插值法與其他3種插補方法相比誤差值相對較大,MAE超過了1,而Stineman內插法、加權滑動平均值法和卡爾曼濾波與狀態(tài)空間模型法的MAE均小于1;Stineman內插法、加權滑動平均值法和卡爾曼濾波和狀態(tài)空間模型法的插補效果差別很小,加權滑動平均值法在3項性能指標的表現都稍好于Stineman內插法和卡爾曼濾波和狀態(tài)空間模型法。
圖3顯示了4種不同插值方法的時序圖,可以看出插補后的數據不再含有缺失值,4種插值方法中,樣條插值法和Stineman內插法的波動性較大,在Stineman內插法的插值中甚至出現了負值。加權滑動平均值法和卡爾曼濾波和狀態(tài)空間模型法的插補均良好地表現了數據的平緩趨勢,兩者插補效果相近,從表3中可以看到,加權滑動平均值法插補效果略優(yōu)于卡爾曼濾波和狀態(tài)空間模型法。
4 結 語
以黃河流域伊洛河水系黑石關水文站的流量數據為例,對比了4種時間序列缺失數據插補方法的效果,得出加權滑動平均值法對流量數據插補效果最優(yōu),平均百分比誤差小于0.3,均方誤差為1.1左右。數據插補為后期水文水資源信息化建設、提高水資源管理調配效率以及建模預測提供了良好的數據基礎。
缺失數據插補在水文學和環(huán)境學中都是一個非常有價值的研究課題,本文對很多問題還沒有進行更加深入的研究,例如非隨機確實機制下的缺失數據處理問題和多變量多因素缺失數據插補問題等。
參考文獻:
[1] 左其亭.黃河流域生態(tài)保護和高質量發(fā)展研究框架[J].人民黃河,2019,41(11):1-6,16.
[2] BONDI A, PLAIA A. Single Imputation Method of Missing Values in Environmental Pollution Data Sets [J]. AtmEn, 2006, 40(38): 7316-7330.
[3] LITTLE R, RUBIN D. Statistical Analysis with Missing Data, second ed.[M]Hoboken, NJ.: Wiley Interscience, 1987:10-17.
[4] 張志萍,冉大川,慕志龍.大理河流域降水資料插補方法探討[J].人民黃河,2006,28(12):26-27,78.
[5] 劉平,劉美華,吳海軍.南通沿海潮位資料插值方法研究[J].水資源開發(fā)與管理,2016,5(1):68-72.
[6] ARROYO A, HERRERO A, TRICIO V, et al. Neural Models for Imputation of Missing Ozone Data in Air-Quality Datasets[J]. Complexity, 2018(3):1-14.
[7] 姜光輝, 胡興林. 用非線性模型插補延長水文資料的方法探討:以東大河沙溝寺水文站為例[C]//中國水利學會2006學術年會暨2006年水文學術研討會論文集.北京:中國水利學會,2006:333-337.
[8] NUR A Z, NORAZIAN M N. Imputation Methods for Filling Missing Data in Urban Air Pollution Data for Malaysia[J]. Urbanism, Arhitectur. Construc
瘙 塅 ii,2018,9(2):159-166.
[9] 杜蓓蓓,王穎,許潔.水文資料自動整編中潮位插補方式研究[J].中國防汛抗旱,2019,29(2):40-44.
[10] 中華人民共和國水利部.水文資料整編規(guī)范:SL 247—2012[S].北京:中國水利水電出版社,2012:24-39.
[11] VILLIERS J. Mathematics of Approximation[M]. Paris: Atlantis Press, 2012:33-57.
[12] STINEMANMAN R W. A Consistently Well Behaved Method of Interpolation[J]. Creative Computing, 1980,6(7):54-57.
[13] DEMIRHAN H, RENWICK Z. Missing Value Imputation for Short to Mid-Term Horizontal Solar Irradiance Data[J]. Applied Energy, 2018, 225(9):998-1012.
[14] FUNG D S. Methods for the Estimation of Missing Values in Time Series[J].Theses Doctorates & Masters,2016(5):27-30.
[15] 陳少冰,孫雪嵐,董照,等.伊洛河入匯對黃河下游水沙關系的影響分析[J].中國農村水利水電,2017(6):58-64.
【責任編輯 張 帥】