趙然杭,甘 甜,逄曉騰,王興菊,茍偉娜,齊 真
(1.山東大學土建與水利學院,濟南250100;2.青島市供水事業(yè)發(fā)展中心,山東青島266071)
降雨是水文過程的重要環(huán)節(jié),能直接反映區(qū)域氣候變化及水文過程,降雨量變化直接關(guān)乎區(qū)域水資源開發(fā)利用乃至影響社會經(jīng)濟發(fā)展。近年來,由于氣候變化與人類活動的影響,生態(tài)問題嚴峻、洪旱災(zāi)害頻發(fā),充分挖掘降雨時間序列所含信息能更好揭示其自然規(guī)律,為水資源的規(guī)劃管理提供科學的指導,促進人與自然和諧共處。對降雨量數(shù)據(jù)準確預測能為防洪抗旱工作提供科學的建議,進而改善居民生活質(zhì)量,促進區(qū)域政治與經(jīng)濟的發(fā)展,是事關(guān)民生的大事。
數(shù)據(jù)挖掘是指從大量的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含其中的有用的信息和知識的過程[1]。國內(nèi)外學者對降雨時間序列數(shù)據(jù)挖掘進行了相關(guān)研究:李宜軒運用線性擬合的方法,綜合分析了桓臺縣1981-2018年的降水趨勢變化情況,結(jié)論與實際情況相符[2];衡彤等采用小波變換方法,對新安江流域黃山地區(qū)降水量時間序列的多時間尺度變化及突變特征進行了探討,研究分析了主汛期降水與年降水的主周期,兩者較為接近,結(jié)果合理[3];李平蘭等分析了1970-2015年會東縣的降水變化特征,采用了累積距平法與Mann-Kendall 法的突變點綜合判定方法,彌補了單個方法檢驗?zāi)芰Φ牟蛔悖?];Moravej等基于線性時間序列模型,利用ADF 函數(shù)、Mann-Kendall 檢驗,對伊朗West Azerbaijan 省的降雨時間序列進行了趨勢分析,模型結(jié)論準確且適用性較強[5]。
國內(nèi)外學者對降雨時間序列數(shù)據(jù)預測進行了相關(guān)研究:王曉鵬等應(yīng)用基于Box-Jenkins方法的時間序列分析技術(shù),針對青南高原的四個典型地區(qū)1961-2005年降水量序列,建立了自回歸滑動平均模型對未來降水量進行了預測,模型因能反復識別修改,適用于復雜情況的數(shù)據(jù)擬合與預測[6];賈海峰等提出了灰色-時序組合預測模型,能對年降雨量進行中長期預測,并以北京市大興縣黃村氣象站35年降雨量資料為例進行了驗證,模型能滿足精度要求,且對其他既具有擺動又有趨勢數(shù)據(jù)的模擬和預測同樣適用[7];高瑞華利用煙臺地區(qū)1981-2010年降水資料,建立了干旱的灰色預測GM(1,1)模型,對2010-2030年的干旱災(zāi)害進行了預測,模型通過了殘差與后驗差檢驗分析,在短期預測時精度能滿足要求,但不適用于長期預測[8];Kolachian 等采用分位數(shù)映射與平均貝葉斯模型,通過提高觀測值與集合預報平均值之間的相關(guān)系數(shù),對歐洲中心2020年各月份不同降水模式的若干氣象站的觀測降水序列進行了預報,結(jié)果較為準確[9]。
以上研究分別對降雨時間序列進行了數(shù)據(jù)挖掘或預測,沒有將數(shù)據(jù)挖掘與預測建立緊密聯(lián)系,而數(shù)據(jù)挖掘能為數(shù)據(jù)預測提供信息支撐,數(shù)據(jù)預測結(jié)果也能驗證挖掘的準確性,兩者相輔相成。由于降雨時間序列受趨勢、周期與突變等因素影響,復雜多變,需要在充分挖掘數(shù)據(jù)信息的基礎(chǔ)上,進行降雨時間序列的預測研究。因此開展基于時間序列分解的降雨數(shù)據(jù)挖掘與預測研究,為雨(洪)水資源管理工作提供決策技術(shù)支持。
降雨時間序列因受多種因素影響,存在著趨勢性、周期性、突變性等多種變化特征,將時間序列分解為趨勢項、周期項、突變項與隨機項并對各項進行分析與研究能更好揭示降雨量數(shù)據(jù)的變化規(guī)律。設(shè)X為時間序列,T為趨勢項、P為周期項、B為突變項、R為隨機項,則X可以表示為:
常見的趨勢項分析法包括:累積距平[10]、Mann-Kendall 趨勢分析[11]、Hurst 指數(shù)[12]、特征點[13],周期項分析法包括:小波分析[14],突變項分析法包括:Mann-Kendall 突變檢驗[15]、Pettitt 突變檢驗[16],隨機項檢驗法包括:自相關(guān)圖和單位根[17,18]。
提出了基于時間序列分解的降雨數(shù)據(jù)挖掘-預測模型(Data Mining And Forecasting model,DMAF 模型),不僅能挖掘出降雨時間序列的內(nèi)在信息,還能對其進行準確預測。
(1)數(shù)據(jù)挖掘方面:①數(shù)據(jù)分解:對于降雨時間序列X,采用特征點法分解其趨勢項T;小波分析法分解其周期項P;Mann-Kendall法、Pettitt法進行突變性分析,無特殊情況突變項B不予考慮;計算余項X-T-P-B得隨機項R。②數(shù)據(jù)挖掘:分別采用累積據(jù)平法、Mann-Kendall趨勢分析法、Hurst指數(shù)法、特征點法進行趨勢分析,采用小波分析法進行周期分析,采用Mann-Kendall 法、Pettitt 法進行突變性分析,采用自相關(guān)圖法、單位根法對隨機項進行檢驗。
(2)數(shù)據(jù)預測方面:利用線性延長方法將趨勢項T基于特征點法的末端直線進行延長得到Ty,利用Matlab 小波工具箱Extend 函數(shù)將周期項P進行延長得到Py,無特殊情況下不考慮突變項,采用NAR 神經(jīng)網(wǎng)絡(luò)法對隨機項進行預測。然后,將延長后的趨勢項Ty、周期項Py與預測所得隨機項Ry相加得預測結(jié)果,流程如圖1 所示。為提高預測精度,將NAR 神經(jīng)網(wǎng)絡(luò)經(jīng)遺傳算法進行優(yōu)化,其流程圖如圖2。
圖1 研究流程圖Fig.1 Research flow chart
圖2 基于遺傳算法的神經(jīng)網(wǎng)絡(luò)優(yōu)化流程圖Fig.2 Neural network optimization flow chart based on genetic algorithm
桓臺縣是淄博市下轄縣,位處魯中山區(qū)和魯北平原的結(jié)合地帶,人口50.15 萬,縣域面積498.25 km2,屬暖溫帶季風氣候[19]?;概_縣河網(wǎng)較為密布,烏河、東西豬龍河、孝婦河、澇滯河、小清河、預備河等10余條河流流經(jīng)縣內(nèi),但因處于魯山北麓山前洪沖積平原和黃泛平原迭交地帶,南受魯中山區(qū)洪水沖積,北受黃河泛濫淤淀,形成湖洼沼地,地形地貌復雜,降雨量預測難度大。加之季風氣候的影響,降雨年際及年內(nèi)分布不均,旱澇災(zāi)害頻發(fā),嚴重制約著當?shù)氐慕?jīng)濟發(fā)展。因此選取桓臺縣為研究區(qū)域,數(shù)據(jù)來源于桓臺縣水文站。
利用matlab 進行編程,以桓臺縣1979-2018年降雨數(shù)據(jù)為例,時間步長為月,將時間序列分解為趨勢項、周期項、突變項與隨機項進行數(shù)據(jù)挖掘。
(1)趨勢項:分別采用累積距平、Mann-Kendall、Hurst 指數(shù)等方法進行趨勢性分析,特征點法進行趨勢項提取。累積距平圖如圖3所示,Hurst指數(shù)圖如圖4所示,Mann-Kendall趨勢分析結(jié)果如表1所示。
由圖3可得,累積距平圖總體較為平穩(wěn),存在先降后升的趨勢,但不明顯。由表1 可得,數(shù)據(jù)總體呈現(xiàn)微弱上升趨勢,但趨勢不顯著。圖4 中,Hurst 指數(shù)為0.067 7,H值<0.5,表明該時間序列具有長期相關(guān)性,但未來總體趨勢與過去相反。
表1 Mann-Kendall 趨勢檢驗結(jié)果Tab.1 Mann Kendall trend test results
圖3 累積距平圖Fig.3 Cumulative anomaly
圖4 Hurst指數(shù)圖Fig.4 Hurst index
綜合分析可得,桓臺縣1979-2018年月降雨數(shù)據(jù)趨勢變化較為平穩(wěn),存在微弱上升趨勢,預測下一時段將呈現(xiàn)微弱下降趨勢。
以上為定性分析,現(xiàn)根據(jù)特征點法定量分解趨勢項。取閾值C=12,將雨量數(shù)據(jù)進行分段,分段后的特征點利用插值法首尾相連,結(jié)果如圖5所示。
圖5 特征點分段圖Fig.5 Feature point segmentation
由圖5可得,桓臺縣1979-2018年的月降雨量大致呈現(xiàn)5次豐枯交替現(xiàn)象,為便于直觀描述,將各特征點的取值前30%標注為high,中間40%標注為mid,后30%標注為low,如圖6所示。對各段斜率進行描述,斜率小于-1標注為驟減,-1~-0.1標注為下降,-0.1~0.1 標注為平穩(wěn),0.1~1 標注為增加,大于1 標注為激增。如圖7所示。
圖6 特征點取值描述圖Fig.6 Description of feature point value
圖7 各段斜率描述圖Fig.7 Slope description of each segment
經(jīng)計算插值法誤差為79.50,用回歸法連接后效果如圖8所示(圖8中紅色數(shù)字為各段回歸系數(shù))。
圖8 趨勢項分解圖Fig.8 Trend term decomposition
插值法更為直觀,便于描述序列變化情況?;貧w法誤差為53.53,明顯小于插值法,因此,選用回歸法的結(jié)果為時間序列的趨勢項。
(2)周期項:使用Matlab 中的小波工具箱得小波方差圖,如圖9所示。由圖9可以看出,桓臺縣1979-2018年月降雨量的第一主周期為19(月)。以第一主周期時間尺度繪制小波系數(shù)圖,如圖10所示。選取第一主周期小波系數(shù)為周期項。
圖9 小波方差圖Fig.9 Wavelet variance
圖10 第一主周期小波系數(shù)圖Fig.10 First principal period wavelet coefficients
(3)突變項:分別采用Mann-Kendall 法、Pettitt 法進行突變性檢驗,結(jié)果如圖11、表2所示:
由圖11 可得,1979年-2018年的月降雨量突變情況發(fā)生少。表2中,突變點檢驗結(jié)果不顯著,不能認為產(chǎn)生突變。為避免單個檢驗方法決策失誤,采用文獻[4]中突變點判別方法,認為在兩種判別方法中均為突變點的月份才發(fā)生顯著突變。綜合分析,認為1979-2018年月降雨不發(fā)生顯著突變情況,不進行突變項分解。
表2 Pettitt法檢驗結(jié)果Tab.2 Results of Pettitt method
圖11 Mann-Kendall突變檢驗圖Fig.11 Mann-Kendall mutation test
(4)隨機項:將時間序列減去趨勢項、周期項與突變項可得隨機項。若隨機項的自相關(guān)性較小且具有平穩(wěn)性,說明趨勢項、周期項、突變項信息被充分提取。利用Eviews 軟件對隨機項進行自相關(guān)(AC)、偏自相關(guān)(PAC)檢驗,結(jié)果如圖12所示。
圖12 自相關(guān)圖Fig.12 Autocorrelation diagram
由圖12得,AC值與PAC值始終圍繞零軸小范圍波動,進一步進行單位根檢驗,得P值 為0、AIC為10.418 02、SC為10.54212、LogL為-2 423.818。由自相關(guān)與單位根檢驗結(jié)果可知,隨機項不存在單位根,為平穩(wěn)時間序列。趨勢項、周期項、突變項信息已被較為充分提取。
2.3.1 隨機項預測
為便于驗證預測結(jié)果,以1979-2014年432 組月降雨量數(shù)據(jù)為率定數(shù)據(jù),2015-2016年月降雨量數(shù)據(jù)為驗證數(shù)據(jù),對2017-2018年月降雨數(shù)據(jù)進行預測。
隨機項預測分別采用NAR和NARX[20]神經(jīng)網(wǎng)絡(luò)預測法。
(1)NAR 神經(jīng)網(wǎng)絡(luò)預測:構(gòu)建經(jīng)遺傳算法優(yōu)化的NAR 神經(jīng)網(wǎng)絡(luò),經(jīng)率定,滯后階數(shù)取18,中間層個數(shù)取8,訓練集、測試集和驗證集比例取70∶15∶15。所構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的回歸系數(shù)圖、誤差圖、預測結(jié)果圖如圖13~15所示。
圖13 神經(jīng)網(wǎng)絡(luò)回歸系數(shù)圖Fig.13 Regression coefficient diagram of neural network
由圖13 知,神經(jīng)網(wǎng)絡(luò)模型回歸系數(shù)較高,總回歸系數(shù)0.793 26,訓練集回歸系數(shù)0.815 96。由圖14 知,誤差集中分布于0附近,多為小誤差,大誤差較少。
圖14 神經(jīng)網(wǎng)絡(luò)誤差圖Fig.14 Neural network error chart
(2)NARX 神經(jīng)網(wǎng)絡(luò)預測:為了驗證DMAF模型預測結(jié)果的合理性,采用NARX神經(jīng)網(wǎng)絡(luò)隨機項預測法,結(jié)果見圖16。
2.3.2 時間序列的總體預測
將圖15 和圖16 的預測結(jié)果,分別與所對應(yīng)的趨勢項和周期項相加,得到基于NAR 和NARX 神經(jīng)網(wǎng)絡(luò)的2017-2018年月降雨的預測結(jié)果,見圖17。其中,模型預測誤差16.79%,NARXANN預測誤差20.05%,直接預測誤差41.62%。
圖15 基于NAR神經(jīng)網(wǎng)絡(luò)隨機項預測結(jié)果圖Fig.15 Random term prediction result chart based on NAR neural network
圖16 基于NARX神經(jīng)網(wǎng)絡(luò)隨機項預測結(jié)果圖Fig.16 Random term prediction result chart based on NARX neural network
圖17 預測結(jié)果對比圖Fig.17 Comparison chart of prediction results
(1)時間序列挖掘:由圖3和表1可知,桓臺縣1979-2018年月降雨量數(shù)據(jù)有微弱的上升趨勢,此結(jié)論與文獻[2]相符。由圖3 可預測未來將呈微弱下降趨勢,由圖9 可知,其第一主周期是19(月),由圖11與表2可知,數(shù)據(jù)不存在明顯的突變情況。
(2)時間序列預測精度:由圖17 可知,與1979-2018年月降雨量的實測數(shù)據(jù)相比,基于NAR 和NARX 神經(jīng)網(wǎng)絡(luò)的預測誤差分別為16.79%和20.05%。利用NAR 神經(jīng)網(wǎng)絡(luò)直接預測法進行時間序列的總體預測(結(jié)果見圖17),預測結(jié)果誤差較大(為41.62%)。因此,上述3 種預測方法,基于NAR 神經(jīng)網(wǎng)絡(luò)隨機項預測方法獲得月降雨數(shù)據(jù)的精度最高。
(1)關(guān)于降雨時間序列的數(shù)據(jù)挖掘與預測的關(guān)系:降雨時間序列受趨勢、周期與突變等因素影響,復雜多變,數(shù)據(jù)挖掘能為數(shù)據(jù)預測提供信息支撐,數(shù)據(jù)預測結(jié)果也能驗證挖掘信息的準確性。而現(xiàn)有水文數(shù)據(jù)挖掘與預測方面的文獻[2-5],未見有基于水文數(shù)據(jù)挖掘的預測研究,即沒有建立數(shù)據(jù)挖掘與預測的緊密聯(lián)系,而是直接預測。創(chuàng)新性地提出了DMAF 模型,將降雨時間序列分解為趨勢項、周期項、突變項及隨機項,并對各項進行數(shù)據(jù)挖掘,同時建立NAR 神經(jīng)網(wǎng)絡(luò)模型對隨機項進行預測,再將預測結(jié)果與數(shù)據(jù)挖掘后的趨勢項、周期項、突變項相加得降雨時間序列預測結(jié)果,相較于直接預測法,結(jié)果更為準確。因此DMAF 模型能在充分挖掘降雨時間序列的基礎(chǔ)上,對其進行準確預測。
(2)關(guān)于利用DMAF 模型對降雨時間序列長短期預測問題:對研究區(qū)域的降雨時間序列進行分解后,利用線性延長方法將趨勢項T基于特征點法的末端直線進行延長得到Ty;利用Matlab 小波工具箱Extend 函數(shù)將周期項P進行延長得到Py;無特殊情況不考慮突變項;利用經(jīng)遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)預測隨機項得Ry;然后,將延長后的趨勢項Ty、周期項Py與神經(jīng)網(wǎng)絡(luò)預測所得隨機項Ry相加得預測結(jié)果。因降雨時間序列變化復雜,線性延長特征點法末端直線只能在短期滿足精度,DMAF模型適用于降雨時間序列的短期預測。
(3)關(guān)于利用DMAF 模型對降雨時間序列預測的步長問題:桓臺縣1979-2018年的480 組月降雨數(shù)據(jù),時間步長為月,若降雨數(shù)據(jù)能滿足一定的時間步長,研究提出的DMAF 模型還能對實時數(shù)據(jù)(30 min 或1 h 等步長)、周數(shù)據(jù)、年數(shù)據(jù)等進行挖掘及預測。
(4)DMAF模型對流域的選擇沒有嚴格要求,因不考慮流域溫度、下墊面條件、海陸位置、流域河流結(jié)構(gòu)等因素,不同流域水文數(shù)據(jù)均能采用本模型進行數(shù)據(jù)挖掘與預測。
(5)周期項由第一主周期小波系數(shù)確定,隨機項為原始數(shù)據(jù)減去趨勢項、周期項與突變項所得余項,兩者存在負值是合理的,單位為mm。
以桓臺縣1979-2018年月降雨量數(shù)據(jù)為例,構(gòu)建了DMAF模型進行數(shù)據(jù)挖掘與預測研究,主要結(jié)論如下。
(1)DMAF模型能在充分挖掘降雨時間序列的基礎(chǔ)上,對其進行準確預測,模型將時間序列分解為趨勢項、周期項、突變項與隨機項,相較直接預測準確度較高。桓臺縣1979-2018年月降雨量數(shù)據(jù)挖掘與預測的結(jié)果表明,數(shù)據(jù)有微弱的上升趨勢,預測未來將呈微弱下降趨勢,其第一主周期是19(月),數(shù)據(jù)不存在明顯的突變情況。對桓臺縣2018年月降雨數(shù)據(jù)進行預測,預測值與真實值較為接近,預測結(jié)果誤差較小,為16.79%。
(2)DMAF模型短期預測精度較高,不適宜長期預測。
(3)DMAF模型的推廣性較強,能對實時數(shù)據(jù)、周數(shù)據(jù)、月數(shù)據(jù)、年數(shù)據(jù)等進行挖掘與預測。
(4)DMAF模型的流域通用性較廣,對流域的選擇沒有嚴格要求,可適用于其他流域數(shù)據(jù)。 □