苑藝琳
(河北省石家莊水文勘測(cè)研究中心,河北 石家莊 050000)
水文預(yù)報(bào)需要對(duì)水域的實(shí)時(shí)狀況進(jìn)行全面、具體、長(zhǎng)期的持續(xù)監(jiān)測(cè),因此水文數(shù)據(jù)是水文工作中非常重要的因素,然而由于數(shù)據(jù)量過(guò)大、網(wǎng)絡(luò)事故、人為因素、硬件設(shè)施缺陷等問(wèn)題,水文數(shù)據(jù)缺失錯(cuò)漏問(wèn)題頻發(fā)。水文預(yù)報(bào)數(shù)據(jù)關(guān)乎整個(gè)系統(tǒng)的安全與穩(wěn)定,因此對(duì)水文預(yù)報(bào)缺失數(shù)據(jù)進(jìn)行補(bǔ)足修復(fù)是當(dāng)前研究的重點(diǎn)。然后,無(wú)論是采用經(jīng)典N(xiāo)yquist奈奎斯特采樣或是壓縮感知的采樣方式,時(shí)常會(huì)因?yàn)閭鞲衅鳌鬏斣O(shè)備、轉(zhuǎn)換設(shè)備等故障造成部分采集諧波信號(hào)丟失的問(wèn)題,或是在通信通道,如電力線載波,傳播過(guò)程中由于信道的干擾導(dǎo)致數(shù)據(jù)丟失的現(xiàn)象。文獻(xiàn)[1]基于DEM算法建立分布式水文模型,根據(jù)空間分布進(jìn)行驅(qū)動(dòng)水文數(shù)據(jù)修正,但該方法對(duì)誤差控制精準(zhǔn)度不高。文獻(xiàn)[2]采用生成對(duì)抗網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)相結(jié)合的方式結(jié)合構(gòu)建耦合模型,生成與缺失數(shù)據(jù)分布相一致的數(shù)據(jù)特征實(shí)現(xiàn)填充,但該方法的填充效果受水文監(jiān)測(cè)數(shù)據(jù)周期限制較大。
本文針對(duì)傳統(tǒng)方法的不足,提出了一種基于輸出不一致測(cè)度的水文預(yù)報(bào)缺失數(shù)據(jù)流關(guān)聯(lián)修復(fù)方法,通過(guò)輸出不一致測(cè)度提取特征矩陣,選用FSOM模糊聚類(lèi)算法進(jìn)行分層聚類(lèi),優(yōu)化聚類(lèi)收斂度,再映射回原始數(shù)據(jù)中完成缺失數(shù)據(jù)填補(bǔ)修復(fù),并通過(guò)實(shí)例分析驗(yàn)證該方法的修復(fù)效果。
對(duì)水文預(yù)報(bào)缺失數(shù)據(jù)進(jìn)行分析填補(bǔ),首先需要監(jiān)測(cè)采集各項(xiàng)水文特征數(shù)據(jù),采集到的原始的數(shù)據(jù)信息為單一維度信號(hào),通過(guò)分類(lèi)整理將相關(guān)聯(lián)的單一維度信號(hào)映射到多維灰度圖中[3-4]。映射模式如圖1所示。
圖1 映射模式
多維映射從單一維度信息中進(jìn)行單一采樣,采樣相鄰數(shù)據(jù)設(shè)為6~10個(gè),從數(shù)據(jù)之間的相關(guān)關(guān)系出發(fā)選擇多維映射策略,既要保留原始單一維度信號(hào)的特征屬性,又要在聚類(lèi)解析過(guò)程中能夠根據(jù)數(shù)據(jù)特征和相關(guān)關(guān)系實(shí)現(xiàn)缺失數(shù)據(jù)修復(fù)聚類(lèi)。根據(jù)水文預(yù)報(bào)數(shù)據(jù)分布規(guī)律,探索多維映射橫向和縱向的相關(guān)性規(guī)律。數(shù)據(jù)截?cái)嗳鐖D2所示。
圖2 數(shù)據(jù)截?cái)?/p>
對(duì)水文預(yù)報(bào)缺失數(shù)據(jù)進(jìn)行捕獲,將水文預(yù)報(bào)數(shù)據(jù)進(jìn)行整合,分析捕獲缺失數(shù)據(jù)位置,構(gòu)建訓(xùn)練模型,對(duì)原始數(shù)據(jù)進(jìn)行訓(xùn)練,提取數(shù)據(jù)特征[5-6]。通過(guò)判別器鑒別數(shù)據(jù)特征分布是否與原始數(shù)據(jù)分布相一致,如果結(jié)果總體一致則可以進(jìn)行缺失數(shù)據(jù)填補(bǔ)工作。
訓(xùn)練模型主要包括生成板塊和判別板塊,將水文預(yù)報(bào)原始數(shù)據(jù)集輸入到生成板塊中進(jìn)行映射,映射得到的多維灰度圖如圖3所示。
圖3 多維灰度圖
(1)
通過(guò)訓(xùn)練模型對(duì)水文數(shù)據(jù)的復(fù)位數(shù)值R和趨向數(shù)值Z進(jìn)行計(jì)算,引入多元序列的缺失變量θ,對(duì)水文預(yù)報(bào)缺失數(shù)據(jù)的隱藏單元進(jìn)行控制:
R(x)=δ(Wrxn+Vrxn-1+θ)Z(x)=δ(Wzxn+Vzxn-1+θ)
(2)
式中,δ—生成板塊引入的各單元之間的權(quán)重;W、V—模型各部分的復(fù)位參數(shù)和學(xué)習(xí)參數(shù)。通過(guò)數(shù)據(jù)映射得到灰度檢測(cè)結(jié)果,能夠分析缺失數(shù)據(jù)分布狀態(tài),通過(guò)對(duì)缺失數(shù)據(jù)的隱藏單元進(jìn)行控制,為后續(xù)修復(fù)數(shù)據(jù)結(jié)果的導(dǎo)入提供支持。
輸出不一致測(cè)度是根據(jù)分類(lèi)器的輸出標(biāo)簽進(jìn)行度量的,對(duì)分類(lèi)器fn和fm,設(shè)其輸出結(jié)果為0或1。用Dif(fnk,fmk)表示兩個(gè)分類(lèi)器輸出的差異,當(dāng)這兩個(gè)分類(lèi)器對(duì)第k個(gè)樣本的輸出相同時(shí),Dif(fnk,fmk)=0,否則等于1。此測(cè)度可由下式進(jìn)行計(jì)算:
(3)
式中,Diversitm,n與分類(lèi)器fn和fm之間的相異度成正比。以上測(cè)度是基于分類(lèi)器輸出結(jié)果的相異性來(lái)衡量的[7-8]。
(4)
顯然,Diversit是個(gè)對(duì)角線為0的對(duì)稱(chēng)矩陣,用select,表示第i個(gè)極限學(xué)習(xí)機(jī)與其它所有極限學(xué)習(xí)機(jī)的相異性[9-10],表達(dá)式為:
(5)
基于水文數(shù)據(jù)的相異性結(jié)果可以揭示不同地理區(qū)域的水文特征和差異。通過(guò)比較不同水文站點(diǎn)的數(shù)據(jù),可以了解不同地方的降水分布、徑流情況以及水文循環(huán)過(guò)程的差異[11-12]。因此基于水文數(shù)據(jù)相異性輸出結(jié)果提取出水文特征規(guī)律,以便真實(shí)地反應(yīng)水文數(shù)據(jù)的基本屬性。整合水文特征數(shù)據(jù)矩陣表達(dá)為:
(6)
式中,X—建立的水文數(shù)據(jù)矩陣;n—采集到的數(shù)據(jù)特征數(shù)量;xn—不同特征值對(duì)應(yīng)的特征向量[13-14]。
根據(jù)上述得到的水文特征數(shù)據(jù)矩陣,對(duì)水文預(yù)報(bào)數(shù)據(jù)進(jìn)行聚類(lèi)處理。通過(guò)聚類(lèi)分層將所有水文特征數(shù)據(jù)聚類(lèi)到對(duì)應(yīng)層次,每一層整合為一個(gè)數(shù)據(jù)集。根據(jù)數(shù)據(jù)神經(jīng)節(jié)點(diǎn)數(shù)量和隸屬矩陣約束條件,將對(duì)應(yīng)層次數(shù)據(jù)輸入到運(yùn)算程序中,再對(duì)最后得到的聚類(lèi)效果進(jìn)行優(yōu)化,實(shí)現(xiàn)對(duì)水文預(yù)報(bào)確實(shí)數(shù)據(jù)的修復(fù)工作。
通過(guò)競(jìng)爭(zhēng)學(xué)習(xí)原則對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,進(jìn)一步解決FSOM神經(jīng)網(wǎng)絡(luò)算法不收斂的缺陷。以拉格朗日乘數(shù)法優(yōu)化聚類(lèi)算法的目標(biāo)函數(shù),根據(jù)矩陣的遞減順序進(jìn)行迭代,引入水文數(shù)據(jù)與聚類(lèi)矩陣之間的隸屬矩陣作為約束條件:
(7)
式中,e—聚類(lèi)過(guò)程中產(chǎn)生的模糊指數(shù);Uin—聚類(lèi)過(guò)程的隸屬度,滿(mǎn)足該隸屬關(guān)系的條件下進(jìn)行聚類(lèi)優(yōu)化,隨著迭代次數(shù)呈現(xiàn)不同的波動(dòng)趨勢(shì),在拐點(diǎn)處能夠取得相應(yīng)的最小值,此時(shí)的聚類(lèi)算法具有良好的收斂性[15]。通過(guò)計(jì)算會(huì)得到多個(gè)相對(duì)最佳的聚類(lèi)數(shù)據(jù)特征值,而聚類(lèi)結(jié)果數(shù)量的大小與合理性將直接影響水文預(yù)報(bào)數(shù)據(jù)的修復(fù)效果,因此需要設(shè)定聚類(lèi)評(píng)價(jià)指標(biāo)對(duì)聚類(lèi)效果進(jìn)行評(píng)價(jià),防止聚類(lèi)過(guò)程中出現(xiàn)主觀性選擇。
分析水文預(yù)報(bào)數(shù)據(jù)的分布狀態(tài),取每個(gè)數(shù)據(jù)集中的最大值與最小值進(jìn)行觀察評(píng)估,其變化情況能夠直觀反映整個(gè)聚類(lèi)算法的運(yùn)算效果。如果數(shù)據(jù)變化的波動(dòng)不大,則說(shuō)明聚類(lèi)效果達(dá)到一個(gè)比較穩(wěn)定的狀態(tài),數(shù)據(jù)集之間保持良好的相關(guān)關(guān)系;如果數(shù)據(jù)波動(dòng)變化仍然較大,則說(shuō)明聚類(lèi)效果不穩(wěn)定,需要再次進(jìn)行約束,直至達(dá)到較好的收斂度。
根據(jù)水文預(yù)報(bào)數(shù)據(jù)的特征矩陣和聚類(lèi)運(yùn)算結(jié)果,對(duì)多維映射后的水文預(yù)報(bào)缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)修復(fù)?;谇拔乃龅木垲?lèi)分層策略,對(duì)每一層的數(shù)據(jù)特征矩陣進(jìn)行搜索檢查,查找缺失數(shù)據(jù)的序列位置和分層位置,確定缺失數(shù)據(jù)位置后,在其所在聚類(lèi)層次中按以下公式進(jìn)行修復(fù):
(8)
式中,α—缺失數(shù)據(jù)修復(fù)數(shù)值;a、b—缺失數(shù)據(jù)所在空間序列位置;z—缺失數(shù)據(jù)所在聚類(lèi)層次;v—所在層次的可用數(shù)據(jù)量。對(duì)修復(fù)后的數(shù)據(jù)進(jìn)行融合運(yùn)算,更新聚類(lèi)層級(jí)中的權(quán)重?cái)?shù)值,對(duì)缺失數(shù)據(jù)進(jìn)行加權(quán)運(yùn)算,得到單一維度映射層更準(zhǔn)確更貼切的修復(fù)數(shù)據(jù)。完成上述計(jì)算后,將修復(fù)數(shù)據(jù)結(jié)果導(dǎo)入對(duì)應(yīng)的多維映射層,按照多維映射規(guī)律將數(shù)據(jù)結(jié)果映射到單一維度映射層中,填補(bǔ)原來(lái)缺失數(shù)據(jù)位置,實(shí)現(xiàn)水文預(yù)報(bào)缺失數(shù)據(jù)修復(fù)。
為了盡量減少映射誤差,應(yīng)對(duì)數(shù)據(jù)平均絕對(duì)誤差、平均方根誤差以及信噪比等因素進(jìn)行計(jì)算,針對(duì)各個(gè)采樣數(shù)據(jù)點(diǎn)修復(fù)結(jié)果進(jìn)行降噪優(yōu)化。對(duì)于水文預(yù)報(bào)中出現(xiàn)數(shù)據(jù)連續(xù)丟失或隨機(jī)丟失的情況,可以在矩陣優(yōu)化中引入時(shí)間動(dòng)態(tài)分析對(duì)矩陣進(jìn)行分解,通過(guò)多元素分解回歸來(lái)適應(yīng)數(shù)據(jù)修復(fù),目標(biāo)函數(shù)如下:
(9)
為了驗(yàn)證本文提出的基于輸出不一致測(cè)度的水文預(yù)報(bào)缺失數(shù)據(jù)修復(fù)方法的實(shí)際應(yīng)用效果,進(jìn)行實(shí)例分析。在水資源信息中心中抽取部分水文觀測(cè)數(shù)據(jù)。該數(shù)據(jù)集應(yīng)包含多個(gè)水文站點(diǎn)的觀測(cè)數(shù)據(jù),同時(shí)存在一定比例的缺失數(shù)據(jù)。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用于模型的訓(xùn)練和參數(shù)調(diào)整,而測(cè)試集用于評(píng)估修復(fù)方法的實(shí)際應(yīng)用效果。并將修復(fù)率最為實(shí)例分析指標(biāo)進(jìn)行實(shí)驗(yàn)測(cè)試,表達(dá)式為:
R=(F/T)×100%
(10)
式中,F(xiàn)—已修復(fù)數(shù)據(jù)數(shù)量;T—總?cè)笔?shù)據(jù)數(shù)量。
基于上述環(huán)境設(shè)置,分別針對(duì)水文數(shù)據(jù)出現(xiàn)短暫地升高和降低時(shí)出現(xiàn)的異常進(jìn)行檢測(cè),通過(guò)修復(fù)判斷缺失數(shù)據(jù)。隨機(jī)缺失數(shù)據(jù)修復(fù)效果如圖4所示。
圖4 隨機(jī)缺失數(shù)據(jù)修復(fù)效果
根據(jù)圖4可知,本文提出的修復(fù)方法在面對(duì)隨機(jī)缺失數(shù)據(jù)時(shí),有極好的修復(fù)效果,能夠精準(zhǔn)地檢測(cè)出隨機(jī)缺失的數(shù)據(jù)所處位置,根據(jù)周邊數(shù)據(jù)信息完成數(shù)據(jù)修復(fù)。
根據(jù)圖4修復(fù)結(jié)果,得到本文提出的修復(fù)方法隨機(jī)數(shù)據(jù)修復(fù)率實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 隨機(jī)缺失數(shù)據(jù)修復(fù)率實(shí)驗(yàn)結(jié)果
根據(jù)表1可知,隨著數(shù)據(jù)量的增加,本文提出的修復(fù)方法修復(fù)率出現(xiàn)了下降,但是下降程度較小,在數(shù)據(jù)、圖像數(shù)據(jù)和跨緯數(shù)據(jù)上,本文提出的修復(fù)方法都展現(xiàn)出極好的修復(fù)效果,當(dāng)數(shù)據(jù)量在500GB時(shí),修復(fù)率仍然能夠達(dá)到97.28%以上。
觀察圖5可知,在面對(duì)連續(xù)缺失數(shù)據(jù)時(shí),本文提出的修復(fù)方法也能展示出較好的修復(fù)效果,通過(guò)FSOM神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)映射,根據(jù)映射結(jié)果實(shí)現(xiàn)數(shù)據(jù)修復(fù)。
圖5 連續(xù)缺失數(shù)據(jù)修復(fù)效果
根據(jù)上圖的修復(fù)效果,得到本文提出的修復(fù)方法連續(xù)數(shù)據(jù)修復(fù)率實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 連續(xù)缺失數(shù)據(jù)修復(fù)率實(shí)驗(yàn)結(jié)果
觀察表2可知,與隨機(jī)缺失數(shù)據(jù)相比,本文提出的方法連續(xù)數(shù)據(jù)修復(fù)效果相對(duì)較差,但是修復(fù)率仍然在97%以上,能夠?yàn)樗南嚓P(guān)工作提供較好的支持。
水文預(yù)報(bào)需要對(duì)水域的實(shí)時(shí)狀況進(jìn)行全面、具體、長(zhǎng)期的持續(xù)監(jiān)測(cè),因此水文數(shù)據(jù)是水文工作中非常重要的因素,然而由于數(shù)據(jù)量過(guò)大、網(wǎng)絡(luò)事故、人為因素、硬件設(shè)施缺陷等問(wèn)題,水文數(shù)據(jù)缺失錯(cuò)漏問(wèn)題頻發(fā)。為此,本文基于輸出不一致測(cè)度對(duì)水文預(yù)報(bào)缺失數(shù)據(jù)修復(fù)進(jìn)行了研究分析。實(shí)例分析表明,所提方法進(jìn)行隨機(jī)缺失數(shù)據(jù)修復(fù)后,修復(fù)率能夠達(dá)到97.28%以上。進(jìn)行連續(xù)缺失數(shù)據(jù)修復(fù)后,修復(fù)率在97%以上,表明所提方法具有良好的修復(fù)效果,能夠?yàn)樗念A(yù)報(bào)工作提供有效幫助。