崔惠敏,薛惠鋒,王 磊,趙臣嘯
(1.西安理工大學,西安 710000; 2.中國航天系統(tǒng)科學與工程研究院,北京 100048)
國家“十三五”規(guī)劃綱要明確提出“實行最嚴格的水資源管理制度,以水定產(chǎn)、以水定城,建設節(jié)水型社會”等要求。水資源分布不均衡、配置機制不完善等問題制約著我國節(jié)水型社會的建設進程,面向決策支持的用水量預測研究是水資源優(yōu)化配置的數(shù)據(jù)支撐,是水資源應用研究的重要組成部分[1]?,F(xiàn)有文獻中存在許多用水量相關預測方法,適用于地區(qū)水資源合理配置。其中,短時間內(nèi)日用水量預測多用于供水系統(tǒng)的優(yōu)化調(diào)度和設備檢測管理,年度中長期用水量預測多用于對城市建設、生態(tài)保護提出決策建議。
國外研究者對于水資源趨勢預測分析更多的是對算法進行優(yōu)化。G-CHEN等[2]提出了一種多隨機森林模型,集成小波變換和隨機森林回歸(W-RFR)用于城市用水量的預測。使用離散小波變換(DWT)分解,并用隨機森林回歸(RFR)方法對每個子系列進行預測。LCP Velasco等[3]利用人工神經(jīng)網(wǎng)絡(ANN)分析城市用水決策數(shù)據(jù),使用Neuroph Studio進行數(shù)據(jù)準備、模型模擬和預測結(jié)果的測試。TMF Jr等[4]利用滯后的天氣狀況歷史數(shù)據(jù)和以前記錄的用水量來預測8個區(qū)域的需求量。國內(nèi)研究者在預測方面研究了相關因素對用水量的影響。李斌等[5]預測短期市區(qū)供水系統(tǒng)用水量,使用組合預測權(quán)重系數(shù)優(yōu)化指標,并對灰色-神經(jīng)網(wǎng)絡的二元組合進行求解。郭磊等[6]分析了總用水量與地區(qū)生產(chǎn)總值的負相關性,構(gòu)建了基于相關性分析結(jié)果,構(gòu)建了基于經(jīng)濟、人口為自變量的趨勢模型。景亞萍等[7]分析比較不同預測模型使用效果,構(gòu)建組合灰色神經(jīng)網(wǎng)絡預測模型,并運用馬爾科夫鏈進行修正,獲得高精確度的預測值。王開章等[8]運用灰色理論模型,通過精度檢驗,不斷進行模型修正,對水源地的水質(zhì)變化趨勢進行了預測分析。
綜上,現(xiàn)有水資源預測模型的算法包含許多智能算法,其中在選擇預測所用的影響因子時,論證不夠充分、合理,主要依賴于一些定性分析。統(tǒng)計指標涵蓋了多項影響因素,歷史數(shù)據(jù)反映出各因素對用水量指標產(chǎn)生的復雜影響。構(gòu)建完備、適合的指標模型,有利于分析影響用水量的關鍵因素,從而可以更全面、準確地預測用水量,為水資源管理決策提供完備、高效、準確的定量數(shù)據(jù)支撐。本文采用定性與定量相結(jié)合的方法[9],針對統(tǒng)計數(shù)據(jù),應用DEMATEL(Decision Making Trial and Evaluation Laboratory,決策試驗評估實驗室)方法作定性分析,應用皮爾遜相關系數(shù)作定量分析,對與用水量相關的指標進行分析篩選,利用BP神經(jīng)網(wǎng)絡3層結(jié)構(gòu)模型對年度用水量進行預測,為國家資源宏觀調(diào)控提供數(shù)據(jù)支撐。
皮爾遜相關系數(shù)PPCs(Pearson correlation coefficient)是由統(tǒng)計學家卡爾·皮爾遜在前人的基礎上改進得出的。皮爾遜相關系數(shù)用于定量地衡量變量間相關程度,標準值介于-1到1之間。針對2個變量之間的皮爾遜相關系數(shù),函數(shù)定義為變量協(xié)方差與標準差的商值,計算公式如下:
(1)
式中:R為相關系數(shù);X與Y分別表示2個用于比較的變量。
皮爾遜相關系數(shù)已經(jīng)應用于異常檢測、醫(yī)學信號相關度測量、光熱試驗影響分析等多種研究領域[10-12]。
1971年Bottele為研究解決現(xiàn)實世界里復雜問題,提出了DEMATEL方法論。該理論運用圖論以及矩陣工具進行系統(tǒng)要素分析,判斷要素間強弱的因果關系[13],充分利用專家的知識與經(jīng)驗來處理復雜的問題,通過篩選主要的影響因素,從而實現(xiàn)對系統(tǒng)結(jié)構(gòu)的簡化分析。方法實現(xiàn)需要進行以下步驟:
(1)確定不同因素間的關聯(lián)關系,構(gòu)建直接影響矩陣,并進行規(guī)范化處理。
(2)
(2)規(guī)范化直接影響矩陣G,計算系統(tǒng)影響因素指標間的綜合影響矩陣T。
(3)
T=G+G2+…+Gn
(4)
T=G(I-G)-1
(5)
一般情況下選擇公式(2)計算綜合影響矩陣,但當我們所需分析的指標數(shù)量足夠多時,我們也可以采用公式(3)進行近似計算。
(3)計算指標的影響度fi與被影響度ei。
(6)
(7)
(4)計算指標的中心度與原因度。中心度的計算方法是將影響度與被影響度相加。對于研究對象而言,獲得的中心度數(shù)值越大,影響力表現(xiàn)越大,反之則越小。原因度是將影響度與被影響度相減,當2者數(shù)值大于零時,則該因素為原因因子,反之則為結(jié)果因子。
mi=fi+ei
(8)
ni=fi-ei
(9)
BP神經(jīng)網(wǎng)絡是一種采用誤差反向傳播原理的前饋神經(jīng)網(wǎng)絡,學習方式是將輸入與輸出的映射轉(zhuǎn)變成一個非線性優(yōu)化的問題,使用梯度下降算法,多層迭代修正網(wǎng)絡結(jié)構(gòu)間的權(quán)重,從而使得預測值與實際值間相對誤差逐漸減少。網(wǎng)絡結(jié)構(gòu)由3層構(gòu)成,分別是輸入層、隱含層、輸出層。其網(wǎng)絡拓撲結(jié)構(gòu)見圖1。
圖1 BP神經(jīng)網(wǎng)絡拓撲圖
現(xiàn)有文獻在影響用水量指標分析上,普遍選取了人口、工業(yè)水平、人民生活水平以及社會經(jīng)濟水平、氣候變化等因素。《變化環(huán)境下城市用水量影響因子識別》一文[14]認為東莞市用水量影響因子涵蓋年末總?cè)丝?、GDP、農(nóng)業(yè)總產(chǎn)值、工業(yè)總產(chǎn)值、第三產(chǎn)業(yè)增加值、年平均氣溫、年降雨量、降雨量大于0.1 mm的天數(shù)和日照時數(shù)等?!睹庖哌M化算法和投影尋蹤耦合的水資源需求預測》[15]一文認為用水量與GDP、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值、有效耕地面積、實灌耕地面積、農(nóng)業(yè)用水系數(shù)、城鎮(zhèn)人口、農(nóng)村人口、城鎮(zhèn)供水利用系數(shù)、牲畜數(shù)量、水重復利用率、居民人均可支配收入等指標關聯(lián)性較高。王麗霞、任志遠、孔金玲等人[16]選取工業(yè)生產(chǎn)總值、農(nóng)業(yè)生產(chǎn)總值、人均GDP、城鎮(zhèn)人口數(shù)、農(nóng)村人口數(shù)、萬元工業(yè)產(chǎn)值用水量、萬元農(nóng)業(yè)產(chǎn)值用水量、人均日生活用水量、農(nóng)田有效灌溉面積、牲畜量、居民生活、農(nóng)業(yè)生產(chǎn)和工業(yè)生產(chǎn)總用水量等10個因子作為延河流域用水量預測的關鍵驅(qū)動因素。
本文在已有研究的基礎上,通過文獻整理與網(wǎng)絡調(diào)查歸納出廣東省地級市水資源統(tǒng)計數(shù)據(jù)在人口、經(jīng)濟、地理、水資源4個層面共28種影響因素,并用A1、A2、…、G27、G28分類表示,結(jié)果見表1。依據(jù)研究地區(qū)的特定屬性以及普遍認可的用水量預測的普適因子進行匯總。
表1 統(tǒng)計指標匯總
水資源受人口、經(jīng)濟、地理等多種因素影響。其中,既存在與用水量高度相關的指標,也存在關聯(lián)度較弱的指標。本文采用從定性到定量的綜合集成方法對指標進行篩選,構(gòu)建科學合理的與用水量關聯(lián)的指標體系。
2.2.1 數(shù)據(jù)來源
統(tǒng)計28個指標因素在廣州的原始數(shù)據(jù),為確保所有指標均有數(shù)據(jù),時間范圍劃定為2005-2016年。數(shù)據(jù)來源為廣州市統(tǒng)計局統(tǒng)計年鑒、廣州市水務局水資源公報。
2.2.2 定性分析篩選
用DEMATEL方法對指標進行定性分析,定量描述。
首先以5級量表法對不同指標間相關性進行打分,得出初始的直接影響矩陣。指標因素i對j的影響層級分為5級,強相關、較強相關、一般相關、較弱相關、無關,每層對應的分數(shù)分別是7、5、3、1、0,對屬于層級之間的關系,以2、4、6給予評分。在此次調(diào)查中,專家組由7名長期從事水資源研究工作的人員組成。其中包括2名國家水利部工作人員、3名省級水利廳工作人員、2名高校水資源專業(yè)教授。將打分表取平均值,對小數(shù)部分進行四舍五入,保留到整數(shù)位。根據(jù)公式(3)進行矩陣的規(guī)范化處理,根據(jù)公式(5)計算綜合影響矩陣。
根據(jù)得到的綜合影響矩陣,依照公式(6)、(7)分別計算指標間的影響度與被影響度,進而得出指標間關系的中心因子與原因因子。在笛卡爾坐標系中,依據(jù)因素指標的中心度與原因度標記出每個因素所處的位置,分析不同水資源指標在用水量預測中的重要性。由于主要考慮的是指標的影響程度,因此以中心度的值作為計算數(shù)據(jù)進行后續(xù)計算。
2.2.3 定量分析篩選
從指標的真實數(shù)據(jù)入手開展指標關聯(lián)分析,分析冗余性。運用皮爾遜相關系數(shù)計算匯總指標與用水量關聯(lián)程度并排序,從而篩選出高關聯(lián)度的指標作為預測的參考因素。
首先對數(shù)據(jù)進行無量綱化處理,每一個指標除以該列最大值。其次選擇用水量作為參考數(shù)據(jù),其余28項指標依次作為對比數(shù)據(jù),依照公式(1)計算皮爾遜相關系數(shù)。
考慮專家意見具有較強的隨機性,將定性分析得到的中心度和定量分析得到的相關系數(shù)分別以40%、60%比例加和,將計算結(jié)果按照從高到低的順序依次排列,結(jié)果見表2。計算取值范圍的中位數(shù),結(jié)果為0.815 5。選擇影響程度綜合排名高于0.815 5的指標因素作為預測時的考量信息。
表2 指標篩選結(jié)果
續(xù)表2 指標篩選結(jié)果
2.3.1 BP神經(jīng)網(wǎng)絡預測模型
(1)統(tǒng)計數(shù)據(jù)處理。為了體現(xiàn)趨勢動態(tài)變化過程,分析用水量變動特征,從而更好地進行預測,不直接采用歷年的直接統(tǒng)計數(shù)據(jù)作為考量信息,而是首先計算統(tǒng)計數(shù)據(jù)的同比變化率pi,作為預測模型的輸入量。
pi=(xi-xi-1)/xi
(10)
式中:xi為第i年用水量。
(2)歸一化處理。統(tǒng)計數(shù)據(jù)屬于不同的量級,應首先對原始的統(tǒng)計數(shù)據(jù)進行歸一化處理,選擇mapminmax歸一化函數(shù)分別對訓練集的輸入輸出矩陣、測試集的輸入輸出矩陣進行處理,將其數(shù)值歸一化到[-1,1]。
(3)網(wǎng)絡結(jié)構(gòu)設定。神經(jīng)網(wǎng)絡的結(jié)構(gòu)將直接影響網(wǎng)絡預測結(jié)果的準確性。網(wǎng)絡輸入層包含的14個節(jié)點分別對應于本文所提出的指標體系中的14個指標。輸出層共包含1個節(jié)點,輸出用水量預測值。
(4)結(jié)果評價。將預測出的同比變化率轉(zhuǎn)化為實際的用水量數(shù)據(jù),使用相對誤差和決定系數(shù)進行結(jié)果評價,相對誤差越小,精確度越高,決定系數(shù)越接近1,擬合效果越好。計算公式如下:
(11)
(12)
2.3.2 參照對比賦權(quán)指數(shù)平滑法
水資源統(tǒng)計數(shù)據(jù)具有時序性,在對時間序列數(shù)據(jù)進行預測時要充分考慮其時間價值。一般認為距離預測時間較近的數(shù)據(jù)擁有更高的時間價值。因此在預測分析時對各個時期的數(shù)據(jù)賦予不同的使用權(quán)重[18]。
假設當前時間為t,各觀測時間的用水量記為X1,X2,…,Xt,進行連續(xù)n個時期的時序記錄,下一時期將預測t+1階段的數(shù)值Xt+1,不同時段數(shù)據(jù)的時間價值權(quán)重依次表示為:
(13)
進行歸一化處理的結(jié)果:
(14)
預測計算公式:
(15)
(n≥2)
(1)BP神經(jīng)網(wǎng)絡預測模型。2005-2016年的統(tǒng)計數(shù)據(jù)包含12條信息,首先計算2006-2016年指標變化率pi,得出11條信息作為基本指標。將前一年的14項基本指標變化率作為輸入,當年的用水量變化率作為輸出,一共構(gòu)成11條樣本。選擇其中9條樣本作為訓練集,以整體樣本作為測試集。經(jīng)過多次調(diào)試,當隱含層的節(jié)點數(shù)為10時,模型預測效果最好。調(diào)用MATLAB工具箱,選擇節(jié)點數(shù)為14-10-1模型,設置相關參數(shù),迭代次數(shù)設置為50次,訓練目標為1e-8,學習率為0.01。將模型計算出的年度預測變化率轉(zhuǎn)化為用水量,并計算與實際用水量之間的相對誤差和決定系數(shù)。
(2)賦權(quán)指數(shù)平滑法。利用模型公式,代入用水量歷史數(shù)據(jù)進行計算,得到結(jié)果見表3。
比較BP神經(jīng)網(wǎng)絡預測方法與賦權(quán)指數(shù)平滑法在用水量預測上的準確度,作為預測結(jié)果的分析依據(jù)。
圖2為BP神經(jīng)網(wǎng)絡模型預測結(jié)果與實際值的比較,圖3為BP神經(jīng)網(wǎng)絡對訓練樣本的擬合效果,可以看出BP神經(jīng)網(wǎng)絡能很好地擬合用水量趨勢變化量。
已有文獻中通常基于指標原始數(shù)據(jù)對用水量進行預測,這種方法往往無法體現(xiàn)用水量動態(tài)變化趨勢,利用變化率預測能夠更好地體現(xiàn)這一狀態(tài),且用水量變化率包含多級小數(shù)位,對于誤差的逆向傳播提供了更高的精確度。本文以用水量年變化率pi與上年度用水量的乘積表征用水量預測值,能夠更好地滿足用水量預測的精度要求。
表3 預測結(jié)果分析
圖2 測試結(jié)果與實際值對比
圖3 BP神經(jīng)網(wǎng)絡對訓練樣本的擬合效果
表3是測試用水量預測結(jié)果對比。原始數(shù)據(jù)從2005年開始,計算后的同比變化率從2006年開始,分析前述評價指標,其中決定系數(shù)為0.942 6,相對誤差見表3,相對誤差為0.000 1~0.003 3,取得較高的準確度,說明神經(jīng)網(wǎng)絡的結(jié)構(gòu)模型適合用于多統(tǒng)計指標的以年為基本單元的中長期用水量預測。
依據(jù)相對誤差的比較,BP神經(jīng)網(wǎng)絡與賦權(quán)指數(shù)法2者的相對誤差在精確度上超過2個數(shù)量級,BP神經(jīng)網(wǎng)絡模型的優(yōu)勢格外顯著。賦權(quán)指數(shù)平滑法在試驗過程中,雖然給予時間序列數(shù)據(jù)以遞增的權(quán)重,但對于以年為單位的較大用水量數(shù)值,即使是個位數(shù)的變動對整體也有很大影響,單純數(shù)理上的加和缺乏科學性、合理性。
BP神經(jīng)網(wǎng)絡的合理應用離不開輸入層指標的設置,將影響用水量的指標通過定性與定量相結(jié)合的方法進行篩選。從篩選結(jié)果上看,影響用水量的主要指標集中在人口因素、經(jīng)濟因素上,地理因素雖然會對水資源產(chǎn)生影響,但因為其自身狀態(tài)的穩(wěn)定性,趨勢變化不明顯,對于用水量的預測參考價值低。另外,用水量數(shù)據(jù)出現(xiàn)連年下降的趨勢,降幅比例沒有明顯變動規(guī)律,但下降趨勢非常穩(wěn)定。本文分析研究了廣州市用水量統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)工業(yè)用水在用水總量中占據(jù)較大比重,而用水總量持續(xù)下降,反映出廣州市的水資源利用效率伴隨經(jīng)濟社會發(fā)展持續(xù)提高。
為保障資源的合理利用,采用準確、高效的預測方法對用水量進行預測至關重要。對于大量的歷史統(tǒng)計數(shù)據(jù),本文提出一種更全面、準確的基于PCCs-DEMATEL指標篩選的BP神經(jīng)網(wǎng)絡用水量預測模型。使用廣東省廣州市統(tǒng)計數(shù)據(jù)作為基礎數(shù)據(jù)進行實證研究,與傳統(tǒng)的、單一的基于時間序列的賦權(quán)指數(shù)平滑法進行比較分析,證實了本文提出的模型方法更具優(yōu)越性。本文提出的這種研究模型也可以應用到水資源其他關鍵指標的預測分析上,比如廢水指標中的入河廢污水量、廢污水排放量等,從而可以根據(jù)預測結(jié)果進行除污設備有效設置、突發(fā)事故預防等先決性工作指示。水資源相關指標的預測工作為國家實施最嚴格水資源管理制度提供了定性與定量相結(jié)合的、可靠的數(shù)據(jù)支撐。