劉 麗
(遼寧省水利事務(wù)服務(wù)中心,遼寧 沈陽(yáng) 110003)
水文原始資料的完整性對(duì)水文水利計(jì)算起著不可或缺的重要作用,而對(duì)于洪峰流量觀測(cè)缺失部分的插補(bǔ)工作又是原始資料整編的一個(gè)關(guān)鍵環(huán)節(jié)。在實(shí)際觀測(cè)中,水文原始數(shù)據(jù)的缺失是一種比較常見(jiàn)的現(xiàn)象,導(dǎo)致原始數(shù)據(jù)缺測(cè)丟失的原因有很多,如觀測(cè)站的性質(zhì)變化、監(jiān)測(cè)器的錯(cuò)誤、斷電和人為因素等[1]。而數(shù)據(jù)的缺失將直接影響水文數(shù)據(jù)的一致性,進(jìn)而影響水資源量的統(tǒng)計(jì)與水利工程防洪標(biāo)準(zhǔn)的制定。方紅遠(yuǎn)等[2]將BP神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于蘇南寧溧山丘區(qū)的當(dāng)?shù)厮倪^(guò)程預(yù)測(cè),通過(guò)對(duì)預(yù)測(cè)值與實(shí)際值的對(duì)比發(fā)現(xiàn)擬合系數(shù)R2均超過(guò)0.90;蔣懿[3]基于BP神經(jīng)網(wǎng)絡(luò)原理建立了洪水反向演算模型,用于提高河道內(nèi)洪水反向演算結(jié)果的精度。劉平等[4]結(jié)合典型潮位站的潮位單位線形狀,利用臨近站點(diǎn)完整潮位資料對(duì)沿海潮位缺失低潮位的測(cè)站點(diǎn)實(shí)現(xiàn)了潮位資料的插補(bǔ)延長(zhǎng);張志萍等[5]對(duì)大理河流域降水缺失資料的插補(bǔ)延長(zhǎng)采用了“系列化處理”的計(jì)算方法;劉恒[6]基于BP神經(jīng)網(wǎng)絡(luò)原理建立了多因子洪水分類(lèi)模型,對(duì)洪水實(shí)現(xiàn)了在線分類(lèi)。水文數(shù)據(jù)的缺失問(wèn)題是水文計(jì)算的一個(gè)關(guān)鍵的基礎(chǔ)問(wèn)題,水文數(shù)據(jù)的插補(bǔ)還原精度則是目前亟需解決的一個(gè)難題。本文以南沙河千山水文站的缺失流量資料插補(bǔ)為例,對(duì)BP神經(jīng)網(wǎng)絡(luò)在水文數(shù)據(jù)插補(bǔ)中的應(yīng)用進(jìn)行探究。
南沙河為太子河支流,屬遼河水系,發(fā)源于遼寧省鞍山市千山風(fēng)景區(qū)廟爾臺(tái)村,經(jīng)過(guò)遼寧省鞍山市的陳家臺(tái)、立山和城昂堡村以及遼陽(yáng)市的劉二堡鎮(zhèn),至唐馬寨南坨子村流入太子河。南沙河集水面積為426km2,河道總長(zhǎng)為58km,流域內(nèi)植被茂盛,水量豐富,降水主要集中在6—9月[7]。
千山水文站位于遼寧省鞍山市千山風(fēng)景區(qū)廟爾臺(tái)村,建于1983年,控制流域面積為14.3km2,從1988年開(kāi)始有流量觀測(cè)資料,2016—2020年因水文站功能的改變而缺少觀測(cè)數(shù)據(jù)。溫泉水文站位于遼寧省鞍山市千山風(fēng)景區(qū)倪家臺(tái)村,處于千山水文站下游,設(shè)立于1984年,控制集水面積為45.3km2,水文觀測(cè)資料較完整。
人工神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行連接的網(wǎng)絡(luò)[8]。BP神經(jīng)網(wǎng)絡(luò)是基于人工神經(jīng)網(wǎng)絡(luò)而改進(jìn)的一種,也是所有人工神經(jīng)網(wǎng)絡(luò)中應(yīng)用范圍最廣的一種[9]。BP神經(jīng)網(wǎng)絡(luò)利用誤差逆?zhèn)鞑ニ惴▽?duì)多層前饋網(wǎng)絡(luò)進(jìn)行訓(xùn)練,核心是梯度下降,其權(quán)值的調(diào)整采用反向傳播,具有并行分步處理、非線性映射、通過(guò)訓(xùn)練進(jìn)行學(xué)習(xí)、強(qiáng)適應(yīng)和信息融合等多種特性,特別對(duì)復(fù)雜的、大規(guī)模的和多變量的系統(tǒng)具有相當(dāng)好的適用性。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是“輸入層—隱藏層—輸出層”的分層網(wǎng)絡(luò),其學(xué)習(xí)過(guò)程就是不斷調(diào)整網(wǎng)絡(luò)的連接權(quán),以獲得期望的輸出的過(guò)程。單隱層結(jié)構(gòu)是BP神經(jīng)網(wǎng)絡(luò)模型中最基本的結(jié)構(gòu)。當(dāng)所有神經(jīng)元的激活函數(shù)均采用S型函數(shù)時(shí),單隱層結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型就可以解決大部分判定類(lèi)型的問(wèn)題[10]。所以,選用單隱層結(jié)構(gòu)作為本次研究的BP神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu),見(jiàn)圖1。
圖1 單隱層BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)計(jì)算過(guò)程如下:
步驟一:選定網(wǎng)絡(luò)的神經(jīng)元節(jié)點(diǎn)個(gè)數(shù),對(duì)權(quán)值賦值。
步驟二:輸入訓(xùn)練集的樣本,并獲得實(shí)際值和理想值兩者之間的誤差。
步驟三:調(diào)整模型中節(jié)點(diǎn)的閾值以及連接權(quán)值。
步驟四:重新輸入樣本數(shù)據(jù),判斷已校正后的模型實(shí)際輸出結(jié)果與理想輸出結(jié)果兩者的誤差是否符合本次訓(xùn)練要求,如未符合,需返回步驟二繼續(xù)校正,直至符合訓(xùn)練要求[11]。
本次網(wǎng)絡(luò)模型搭建的激活函數(shù)選用sigmoid函數(shù),其把神經(jīng)元的輸入信號(hào)和輸出信號(hào)兩者之間的關(guān)系描述為在(0,1)內(nèi)的單調(diào)可微函數(shù),公式如下:
(1)
式中:β>0,通常β=1;x為輸入層的特征值。
兩個(gè)具有相似的降水條件、下墊面條件、地質(zhì)條件等的流域,其水文現(xiàn)象會(huì)具有較為類(lèi)似的發(fā)生、發(fā)展規(guī)律[12]。水文比擬法應(yīng)用的前提就是兩個(gè)流域間各種自然條件的相似性,如此才能將參證流域的水文觀測(cè)資料移置到設(shè)計(jì)流域。主要內(nèi)容是選擇恰當(dāng)?shù)膮⒆C流域,參證流域應(yīng)與待研究流域的水文條件和主要影響因素具有共同性,并且具有較長(zhǎng)的水文數(shù)據(jù)觀測(cè)系列。
洪峰流量是水利工程建設(shè)不可忽視的一個(gè)重要因素,根據(jù)洪水成因分析,洪水主要由集水面積內(nèi)的降雨形成,降雨量則是影響洪峰流量的重要因素,千山水文站集水面積較小,將該站的點(diǎn)降雨量認(rèn)作降雨量。同一流域不同水文站的洪峰流量變化有一定的相關(guān)性,因此,本次將千山水文站的降雨量與溫泉水文站的洪峰流量選作BP神經(jīng)網(wǎng)絡(luò)輸入層的兩個(gè)特征因素。模型的隱含層選用10個(gè)節(jié)點(diǎn),選用sigmoid函數(shù)作為激活函數(shù),千山水文站的洪峰流量作為輸出層的期望值。
將千山水文站與溫泉水文站1988—2007年共20年的水文數(shù)據(jù)作為訓(xùn)練集,用作模型擬合的數(shù)據(jù)樣本。將2008—2011年共4年的數(shù)據(jù)選作測(cè)試集,用來(lái)評(píng)估最終模型的泛化能力。將2012—2015年共4年的數(shù)據(jù)作為驗(yàn)證集,用于調(diào)整BP神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)以及對(duì)模型預(yù)測(cè)能力的初步評(píng)估。神經(jīng)網(wǎng)絡(luò)各層單元數(shù)見(jiàn)表1。
表1 神經(jīng)網(wǎng)絡(luò)各層單元數(shù)
均方誤差代表預(yù)測(cè)輸出和目標(biāo)輸出之差的期望值,該值越接近0越好,圖2為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程曲線,圖中橫坐標(biāo)表示模型訓(xùn)練迭代次數(shù),縱坐標(biāo)表征了模型的均方誤差值。圖中的綠色圓圈顯示了驗(yàn)證集在最佳均方誤差時(shí)網(wǎng)絡(luò)的迭代次數(shù)為8,均方誤差值為2.667。
圖2 BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程曲線
回歸值R代表預(yù)測(cè)輸出和目標(biāo)輸出之間的相關(guān)性,R的數(shù)值越接近1說(shuō)明預(yù)測(cè)和輸出數(shù)據(jù)之間的關(guān)系越密切,R的數(shù)值越接近0說(shuō)明預(yù)測(cè)值與輸出值兩者之間的關(guān)系隨機(jī)性越大。
圖3所示為訓(xùn)練集、驗(yàn)證集、測(cè)試集與總體模型的數(shù)據(jù)相關(guān)性關(guān)系,圖中橫坐標(biāo)表示目標(biāo)輸出,縱坐標(biāo)表示預(yù)測(cè)輸出和目標(biāo)輸出之間的擬合函數(shù)。圖中R值均大于0.9,說(shuō)明預(yù)測(cè)輸出與目標(biāo)輸出誤差較小,模型搭建合理。
圖3 訓(xùn)練集、驗(yàn)證集、測(cè)試集與總體模型的數(shù)據(jù)相關(guān)性關(guān)系
選取千山水文站豐枯相差較大的年份2010—2015年進(jìn)行流量結(jié)果驗(yàn)證對(duì)比。圖4為總模型估值與真實(shí)值的對(duì)比圖,橫坐標(biāo)為年份,縱坐標(biāo)為洪峰流量值。可以看出,總模型估值與真實(shí)值之間誤差較小,數(shù)值相近,具有一定合理性。該模型可以用來(lái)預(yù)測(cè)千山水文站2016—2020年的洪峰流量值。
圖4 總模型估值與真實(shí)值的對(duì)比
本節(jié)分別采用較為成熟的水文比擬法與3.1節(jié)中已經(jīng)搭建好的BP神經(jīng)網(wǎng)絡(luò)模型對(duì)千山水文站2016—2020年缺失的洪峰流量值進(jìn)行插補(bǔ)展延分析,對(duì)比結(jié)果見(jiàn)表2。其中水文比擬法中參證站選用的是溫泉水文站,溫泉水文站與千山水文站均處于南沙河流域,兩站相距3.4km,下墊面條件、降水條件、地質(zhì)條件等都極為相似,完全適合水文比擬法在兩站的應(yīng)用。由溫泉水文站2016—2020年洪峰流量值通過(guò)面積比法得到千山水文站洪峰流量值。對(duì)這兩種計(jì)算方法得到的結(jié)果列表比較,并通過(guò)差值百分比進(jìn)行分析。差值百分比計(jì)算公式為
表2 BP神經(jīng)網(wǎng)絡(luò)法與水文比擬法計(jì)算的洪峰流量對(duì)比分析
(2)
式中:Δ為差值百分比;QBP為BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算得到的洪峰流量,m3/s;Q比擬為水文比擬法計(jì)算得到的洪峰流量,m3/s。
從表2可以看出,BP神經(jīng)網(wǎng)絡(luò)模型與水文比擬法計(jì)算結(jié)果相差范圍為0.2~1m3/s,其中,以2020年的誤差值最小,為0.208m3/s;2016年的誤差值最大,為1m3/s。BP神經(jīng)網(wǎng)絡(luò)法與水文比擬法計(jì)算結(jié)果的差值百分比范圍為1%~16%,其中,以2020年的誤差值最小,為1.71%;2017年的誤差值最大,為15.41%。BP神經(jīng)網(wǎng)絡(luò)法與水文比擬法計(jì)算結(jié)果差值百分比超過(guò)10%出現(xiàn)在2017年,該年的洪峰流量值小于2m3/s,故差值百分比會(huì)相對(duì)被放大,但仍在合理范圍之內(nèi)。除2017年以外,其他年份差值百分比為1.5%~6.5%,說(shuō)明BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果較為合理。從表2可以看出,BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算的流量結(jié)果均大于水文比擬法計(jì)算的流量結(jié)果。千山水文站在溫泉水文站上游,千山水文站所處位置的比降大于溫泉水文站所處位置處的比降,所以千山水文站處的洪峰流量應(yīng)略大于由溫泉水文站數(shù)據(jù)通過(guò)水文比擬法得到的洪峰流量,所以無(wú)論是從數(shù)據(jù)合理性還是從工程安全考慮,在水文計(jì)算時(shí)采用BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算的洪峰值更有利于得到較為真實(shí)的水文數(shù)據(jù),更好地保護(hù)人民生命財(cái)產(chǎn)安全。
本文以千山水文站與溫泉水文站為例,通過(guò)采用BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算值與實(shí)際數(shù)值的測(cè)驗(yàn)對(duì)比,可以發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)模型能較好地插補(bǔ)出洪峰流量值,對(duì)千山水文站2016—2020年的水文數(shù)據(jù)插補(bǔ)分析發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)模型插補(bǔ)值相比于水文比擬法的插補(bǔ)值,差值百分比為1%~16%,BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算出的結(jié)果精度較高,從工程角度來(lái)看也偏安全,說(shuō)明BP神經(jīng)網(wǎng)絡(luò)模型在水文數(shù)據(jù)插補(bǔ)展延方面具有一定的應(yīng)用價(jià)值。目前僅對(duì)南沙河流域作了驗(yàn)證,其他地區(qū)的模型適應(yīng)度仍需要進(jìn)一步探究。