(新疆塔里木河流域管理局,新疆 庫(kù)爾勒 841000)
河川徑流預(yù)測(cè)對(duì)于水庫(kù)合理調(diào)度、農(nóng)業(yè)防汛抗旱、區(qū)域水資源合理開發(fā)與優(yōu)化利用、區(qū)域社會(huì)經(jīng)濟(jì)規(guī)劃的制定具有重要意義。目前,國(guó)內(nèi)外學(xué)者常采用投影尋蹤回歸[1]、灰色理論[2]、神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)、最小二乘支持向量機(jī)[4-5]等單項(xiàng)預(yù)測(cè)方法對(duì)降水、廢水治理、地下水等領(lǐng)域的參數(shù)進(jìn)行預(yù)測(cè)。由于河川徑流變化影響因子眾多,且各因子之間相互關(guān)聯(lián)并呈現(xiàn)非線性變化,采用數(shù)學(xué)方法及傳統(tǒng)神經(jīng)網(wǎng)絡(luò)很難精準(zhǔn)預(yù)測(cè),且在進(jìn)行數(shù)據(jù)訓(xùn)練時(shí)存在局部收斂和計(jì)算效率差的問題。
近年來,隨著數(shù)據(jù)量的增加及計(jì)算機(jī)性能的提高,基于深度信念網(wǎng)絡(luò)(deep belief network,DBN)通過構(gòu)建非線性深層次的網(wǎng)絡(luò)結(jié)構(gòu),可提取數(shù)據(jù)高層特征并能準(zhǔn)確擬合復(fù)雜函數(shù),并且具有較強(qiáng)的數(shù)據(jù)預(yù)測(cè)能力和數(shù)據(jù)分類及識(shí)別能力。本文在前人研究的基礎(chǔ)上,基于粒子群算法(particle swarm optimization,PSO)優(yōu)化的多變量深度信念網(wǎng)絡(luò)(multi-variable deep belief network,MDBN)構(gòu)建河川徑流預(yù)測(cè)模型,為其高精度預(yù)測(cè)奠定了良好基礎(chǔ)。
1.1.1 深度信念網(wǎng)絡(luò)結(jié)構(gòu)
深度信念網(wǎng)絡(luò)(deep belief network,DBN)是深度研究中應(yīng)用較為廣泛的一種網(wǎng)絡(luò)結(jié)構(gòu),于2006年由Geoffery Hinton首次提出[6]。隨著數(shù)據(jù)量的增加和計(jì)算機(jī)性能的提高,DBN方法被廣泛應(yīng)用于人工智能領(lǐng)域。一個(gè)典型的DBN結(jié)構(gòu)相當(dāng)于一個(gè)高度復(fù)雜的有向無(wú)環(huán)圖,可分解為多個(gè)受限玻爾茲曼機(jī)(restricted boltzmann machine,RBM)。RBM作為DBN的基本組成單元,主要由兩層神經(jīng)元組成(其網(wǎng)絡(luò)結(jié)構(gòu)見圖1)。其中,用于訓(xùn)練數(shù)據(jù)輸入的可視層和特征提取的隱含層單元彼此之間互相連接,但同層內(nèi)的神經(jīng)元節(jié)點(diǎn)無(wú)連接,并且同層節(jié)點(diǎn)之間條件獨(dú)立,連接權(quán)重用矩陣W表示。當(dāng)隱含層結(jié)點(diǎn)數(shù)量達(dá)到一定值時(shí),可用此網(wǎng)絡(luò)模型表示任意離散分布。
圖1 RBM模型基本結(jié)構(gòu)
1.1.2 深度信念網(wǎng)絡(luò)訓(xùn)練與生成
DBN作為一種深度網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練過程主要包括無(wú)監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的反向傳播網(wǎng)絡(luò)的微調(diào)兩個(gè)步驟。在無(wú)監(jiān)督預(yù)訓(xùn)練階段,分別單獨(dú)訓(xùn)練每層RBM網(wǎng)絡(luò),為提取重要特征信息,以重構(gòu)誤差函數(shù)為目標(biāo)函數(shù),使單元特征向量映射于不同特征空間,進(jìn)而得到預(yù)訓(xùn)練網(wǎng)絡(luò)初始權(quán)重。然后,在微調(diào)階段,利用反向傳播對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行優(yōu)化。
粒子群算法(particle swarm optimization,PSO)的基本思想源于對(duì)鳥類群體覓食行為研究,而提出的一種全局隨機(jī)搜索算法,目前,已經(jīng)廣泛應(yīng)用在約束優(yōu)化和多目標(biāo)優(yōu)化等領(lǐng)域。在經(jīng)典PSO算法中,每個(gè)優(yōu)化問題的解被類比為搜索空間中的一只鳥,將其稱之為“粒子”。每個(gè)粒子代表解空間中的一個(gè)候選解,有一個(gè)初始化速度和位置,由適應(yīng)度函數(shù)計(jì)算粒子適應(yīng)值。每個(gè)粒子的速度決定它們?cè)诮饪臻g中搜索的方向和位置,且每個(gè)粒子都具有記憶功能,能夠記住搜索到的最佳位置。算法在每次迭代過程中,粒子會(huì)根據(jù)兩個(gè)極值:粒子本身當(dāng)前找到的最優(yōu)解和目前整個(gè)粒子群找到的全局最優(yōu)解,來更新自己的速度和位置進(jìn)行搜索,直至找到最優(yōu)解。
PSO優(yōu)化算法通過迭代搜索每個(gè)粒子的當(dāng)前最優(yōu)解,并利用適應(yīng)度值評(píng)價(jià)解的優(yōu)劣程度,從而確定全局最優(yōu)解。作為一種隨機(jī)搜索、并行優(yōu)化的算法,PSO算法具有簡(jiǎn)單易行、魯棒性好、收斂速度快等優(yōu)點(diǎn),能以較大概率找到全局最優(yōu)解。
預(yù)測(cè)模型構(gòu)建步驟如下:
a.收集與年徑流變化相關(guān)的氣象信息,包括年降水量、年蒸發(fā)量、年均氣溫、年日照時(shí)數(shù)與年均風(fēng)速等原始數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
b.利用PCA(principal component analysis)方法分析年徑流量與氣象變量之間的相互作用關(guān)系,根據(jù)各個(gè)變量的貢獻(xiàn)率篩選年徑流量預(yù)測(cè)的主影響因子。
c.利用小波閾值降噪方法通過正交試驗(yàn)確定各個(gè)變量的最佳小波降噪方案,對(duì)選取的主因子變量進(jìn)行降噪,得到最終的輔助變量數(shù)據(jù)樣本,并劃分為訓(xùn)練樣本集及測(cè)試樣本集。
d.構(gòu)建MDBN模型,采用試驗(yàn)方法對(duì)MDBN模型進(jìn)行初始化設(shè)置,選擇最優(yōu)設(shè)置結(jié)果,包括隱含層節(jié)點(diǎn)以及隱含層層數(shù)等。
e.利用PSO優(yōu)化算法對(duì)構(gòu)建好的MDBN網(wǎng)絡(luò)參數(shù)設(shè)定進(jìn)行優(yōu)化,得到最優(yōu)迭代次數(shù)和學(xué)習(xí)率組合。
f.將最優(yōu)網(wǎng)絡(luò)參數(shù)設(shè)置組合帶入MDBN預(yù)測(cè)模型,得到最終的年徑流量預(yù)測(cè)模型,將測(cè)試樣本輸入優(yōu)化后的預(yù)測(cè)模型,計(jì)算徑流量預(yù)測(cè)結(jié)果。
評(píng)價(jià)一個(gè)變量因子是否為關(guān)鍵影響因子的標(biāo)準(zhǔn)是其提供信息的能力,PCA方法可以確定每個(gè)變量的貢獻(xiàn)率,進(jìn)而對(duì)各個(gè)變量的作用關(guān)系進(jìn)行評(píng)價(jià),在保留原始數(shù)據(jù)主要特征前提下,對(duì)問題進(jìn)行定量分析,減少輸入數(shù)據(jù)維度。因此,本文采用PCA方法計(jì)算相關(guān)系數(shù)矩陣,分析數(shù)據(jù)間的線性關(guān)系從而對(duì)數(shù)據(jù)進(jìn)行篩選和壓縮,實(shí)現(xiàn)關(guān)鍵變量因子的選取。
由于徑流影響因素復(fù)雜,獲取的數(shù)據(jù)存在大量噪聲。消除數(shù)據(jù)噪聲是模型構(gòu)建的重要基礎(chǔ)。傳統(tǒng)降噪方法,例如傅里葉變換等,只能描述信號(hào)在頻率域中的變化,無(wú)法分辨出信號(hào)在時(shí)間軸上的瞬時(shí)變化。而小波降噪法對(duì)信號(hào)具有自適應(yīng)性,可以在去除噪聲的同時(shí)保留原始信號(hào)信息,具有優(yōu)越的局部化性能。
小波降噪法大致分為3類:小波閾值降噪方法、模極大值重構(gòu)法、空域相關(guān)濾波法,其中小波閾值降噪方法實(shí)現(xiàn)簡(jiǎn)單、計(jì)算量小、降噪效果良好,因此本文采用小波閾值降噪方法,實(shí)現(xiàn)模型輸入關(guān)鍵影響因子噪聲的去除,為預(yù)測(cè)模型構(gòu)建提供良好的數(shù)據(jù)基礎(chǔ)。
本文采用MDBN模型預(yù)測(cè)年徑流量,經(jīng)過主成分分析篩選所得關(guān)鍵影響因子作為訓(xùn)練樣本送入MDBN的可視層。當(dāng)對(duì)徑流量進(jìn)行預(yù)測(cè)時(shí),MDBN網(wǎng)絡(luò)結(jié)構(gòu)的隱藏層從高維復(fù)雜輸入數(shù)據(jù)提取相關(guān)特征,逐層激活強(qiáng)相關(guān)影響因子,將無(wú)關(guān)冗余信息弱化并抑制,使用非監(jiān)督貪婪逐層方法預(yù)訓(xùn)練模型獲得初始權(quán)重,最后采用對(duì)比散度(contrastive divergence,CD)算法逐層訓(xùn)練各個(gè)RBM。
開都河發(fā)源于新疆天山山脈中部的依連哈比爾尕山南坡,河源高山區(qū)終年積雪,有現(xiàn)代冰川840條。開都河流經(jīng)和靜縣、焉耆回族自治縣和博湖縣后注入全國(guó)最大的內(nèi)陸淡水湖——博斯騰湖,河流全長(zhǎng)560km,多年平均徑流量為35.18億m3。
開都河流域深居歐亞大陸腹地,遠(yuǎn)離海洋,呈現(xiàn)明顯的干旱大陸性氣候特征,流域多年平均降水量為47.3~75.0mm,集中于6—8月,多年平均蒸發(fā)量(20cm蒸發(fā)皿)1887~2777mm,夏季炎熱,冬季寒冷少雪,多年平均氣溫8.2℃,日照時(shí)數(shù)3105h。
本文以新疆開都河大山口水文站1956—2015年60年的實(shí)測(cè)資料為例,利用前述方法對(duì)河川年徑流量進(jìn)行預(yù)測(cè)研究。
本文使用收集到的開都河大山口水文站1956—2015年60年徑流數(shù)據(jù)及相關(guān)氣象數(shù)據(jù)(包括年降水量、年蒸發(fā)量、年均氣溫、年日照時(shí)數(shù)與年均風(fēng)速5個(gè)因素),首先對(duì)其進(jìn)行標(biāo)準(zhǔn)化和歸一化預(yù)處理,并利用PCA方法對(duì)5個(gè)氣象變量進(jìn)行相關(guān)性分析,計(jì)算得到特征值與累計(jì)貢獻(xiàn)率(見表1)。
表1 年徑流量相關(guān)氣象變量特征值與累計(jì)貢獻(xiàn)率
由表1可知,前3個(gè)主成分的累積貢獻(xiàn)率達(dá)到93.8%(其對(duì)應(yīng)的載荷矩陣見表2)。從載荷矩陣可以得出,年降水量對(duì)第1主成分貢獻(xiàn)大,年蒸發(fā)量對(duì)第2主成分貢獻(xiàn)大,年均氣溫對(duì)第3主成分貢獻(xiàn)大,年均風(fēng)速對(duì)第4主成分貢獻(xiàn)大,年日照時(shí)數(shù)對(duì)第5主成分貢獻(xiàn)大。因此,最終選擇年降水量、年蒸發(fā)量、年均氣溫3個(gè)因子為年徑流量主要影響因子。
表2 年徑流量相關(guān)氣象變量載荷矩陣
完成關(guān)鍵影響因子篩選后,利用小波閾值降噪方法對(duì)經(jīng)過標(biāo)準(zhǔn)化和歸一化處理后的3個(gè)氣象變量以及年徑流量數(shù)據(jù)進(jìn)行降噪處理。由于小波基、閾值選取方法以及閾值量化函數(shù)的選取都對(duì)小波閾值降噪效果有明顯影響,但迄今沒有具體的最優(yōu)參數(shù)選擇方法。因此,本文采用正交試驗(yàn)方法,選取最優(yōu)小波降噪方案對(duì)數(shù)據(jù)進(jìn)行降噪(結(jié)果見表3)。
將1956—2015年的開都河徑流及氣象數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中1956—2005年數(shù)據(jù)用于訓(xùn)練(共計(jì)50組),2006—2015年數(shù)據(jù)用于模型性能測(cè)試(共計(jì)10組)。
表3 各變量最優(yōu)小波降噪方案及結(jié)果
由于MDBN網(wǎng)絡(luò)參數(shù)(隱含層節(jié)點(diǎn)數(shù)及隱含層層數(shù))直接影響算法性能,當(dāng)隱含層層數(shù)設(shè)置為4、8、12,隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)為100、250、500、1000時(shí),均方根誤差RMSE達(dá)到極小值。然后,通過多次訓(xùn)練效果驗(yàn)證,得到訓(xùn)練及微調(diào)時(shí)的最佳網(wǎng)絡(luò)參數(shù):學(xué)習(xí)率為0.1,迭代次數(shù)為100。為了探索網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)對(duì)模型學(xué)習(xí)性能的影響,對(duì)隱含層層數(shù)與隱含層節(jié)點(diǎn)數(shù)進(jìn)行兩兩組合,選取RMSE值最小的MDBN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置。由表4可知,當(dāng)隱含層層數(shù)為12,隱含層節(jié)點(diǎn)數(shù)為500時(shí),網(wǎng)絡(luò)在測(cè)試集上的RMSE誤差達(dá)到最小,其值為0.01526。因此,得到MDBN最佳的網(wǎng)絡(luò)參數(shù)設(shè)置:輸入層節(jié)點(diǎn)數(shù)為3,輸出層的神經(jīng)元數(shù)為1(年徑流量),隱含層數(shù)為12,隱含層節(jié)點(diǎn)數(shù)為500,初始化學(xué)習(xí)率為0.1,初始化迭代次數(shù)為100。
表4 MDBN不同網(wǎng)絡(luò)參數(shù)下的RMSE值
為有效減少計(jì)算復(fù)雜性和提高預(yù)測(cè)性能,利用PSO優(yōu)化算法簡(jiǎn)單易行、收斂速度快、設(shè)置參數(shù)少的優(yōu)點(diǎn),將粒子群在MDBN的解空間追隨最優(yōu)粒子進(jìn)行全局搜索,進(jìn)而實(shí)現(xiàn)對(duì)MDBN網(wǎng)絡(luò)的優(yōu)化;并設(shè)定 PSO優(yōu)化算法初始種群規(guī)模為30,進(jìn)化代數(shù)為20,最小訓(xùn)練停止誤差為10-4,加速因子c1和c2均設(shè)置為1.5,學(xué)習(xí)率粒子的取值區(qū)間為[0,1],迭代次數(shù)粒子的取值區(qū)間為[10,2000]。
本文將PSO-MDBN與BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)預(yù)測(cè)方法進(jìn)行了對(duì)比,誤差評(píng)價(jià)體系采用均方根誤差(root mean square error,RMSE)、平均相對(duì)百分比誤差(mean absolute percentage error,MAPE)與平均絕對(duì)誤差(mean absolute error,MAE)。
將訓(xùn)練樣本集輸入已構(gòu)建的PSO-MDBN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后將測(cè)試樣本在已預(yù)訓(xùn)練的網(wǎng)絡(luò)中進(jìn)行比較分析,并與BPNN、DBN方法進(jìn)行對(duì)比(PSO-MDBN、傳統(tǒng)DBN、BPNN方法在預(yù)測(cè)樣本的具體誤差值見表5)。
表5 不同模型對(duì)年徑流量的預(yù)測(cè)性能對(duì)比
從表5可知,BPNN對(duì)年徑流量預(yù)測(cè)的MAPE值為13.9%,未經(jīng)PSO算法優(yōu)化的MDBN模型的 MAPE值為17.1%。然而,本文提出模型的MAPE值為6.2%,與2種傳統(tǒng)方法相比,其MAPE值分別降低了7.7%、10.9%。同時(shí),PSO-MDBN方法的RMSE和MAE值也明顯小于其他2種方法的誤差值。
計(jì)算結(jié)果表明,本文的構(gòu)建模型預(yù)測(cè)精度明顯優(yōu)于其他2種傳統(tǒng)方法,經(jīng)過粒子群算法優(yōu)化的MDBN模型,其不僅提高了網(wǎng)絡(luò)收斂速度,同時(shí)也提高了模型預(yù)測(cè)精度。
針對(duì)因河川徑流復(fù)雜多變,導(dǎo)致傳統(tǒng)方法難以準(zhǔn)確預(yù)測(cè)的問題,為提高預(yù)測(cè)精度,本文提出了一種基于PSO-MDBN的預(yù)測(cè)模型。為避免變量冗余導(dǎo)致計(jì)算效率下降的問題,利用 PCA和小波降噪方法進(jìn)行數(shù)據(jù)相關(guān)性分析并選取關(guān)鍵因子參數(shù)作為模型輸入?;贒BN網(wǎng)絡(luò)構(gòu)建多變量預(yù)測(cè)模型,并利用PSO算法尋找最優(yōu)網(wǎng)絡(luò)參數(shù),進(jìn)而提高模型預(yù)測(cè)精度及計(jì)算效率。研究結(jié)果表明,該模型實(shí)現(xiàn)了平均百分比誤差為6.2%的預(yù)測(cè)精度,與傳統(tǒng)BPNN、DBN方法進(jìn)行比較,其MAPE值分別降低了7.7%、10.9%。良好的預(yù)測(cè)效果充分證明了基于PSO-MDBN的徑流預(yù)測(cè)模型的有效性和實(shí)用性,及解決復(fù)雜、非線性問題的預(yù)測(cè)能力。