張瑞辰,邊少鋒,劉雁春,李厚樸
海軍工程大學(xué),湖北 武漢 430033
受復(fù)雜海洋環(huán)境、系統(tǒng)噪聲和測(cè)量船噪聲等影響,獲取的測(cè)深數(shù)據(jù)有時(shí)會(huì)在某一區(qū)域產(chǎn)生大面積的異常值。這些異常值通常會(huì)被人為刪除,從而造成某一區(qū)域連續(xù)的數(shù)據(jù)缺失,嚴(yán)重影響測(cè)深數(shù)據(jù)對(duì)海底地形的準(zhǔn)確描述,不利于海底趨勢(shì)面的構(gòu)造。專家學(xué)者在水深測(cè)量領(lǐng)域做了很多研究[1-5],并通過(guò)加權(quán)平均值[6-7]、AR模型[8]、統(tǒng)計(jì)學(xué)原理[9-10]、中值濾波[11]、不確定度及Kalman濾波[12-14]等算法對(duì)海量的測(cè)深數(shù)據(jù)進(jìn)行處理,識(shí)別并剔除異常值。雖然現(xiàn)有算法已經(jīng)取得了較好的效果,但對(duì)于海量測(cè)深數(shù)據(jù)仍存在處理速度慢、適用性較差、復(fù)雜海床測(cè)深數(shù)據(jù)濾波性能欠佳、海岸線及島礁附近水域精度不高等不足。同時(shí),基于“平均”的原理,一些算法對(duì)于大面積異常值會(huì)處理為“偽海底高山”或“偽海底低谷”?;谏鲜銮闆r,本文提出了利用條件變分自編碼生成對(duì)抗網(wǎng)絡(luò)方法,檢測(cè)并消除偽地形數(shù)據(jù)。
近年來(lái),生成式對(duì)抗網(wǎng)絡(luò)(GAN)作為一種生成式建模方法被應(yīng)用于多個(gè)領(lǐng)域,許多學(xué)者做了大量的工作[15-20]。在生成式對(duì)抗網(wǎng)絡(luò)中,生成器和判別器為博弈雙方。生成器擬合數(shù)據(jù)的產(chǎn)生過(guò)程生成模擬樣本,優(yōu)化目標(biāo)為納什均衡[21],用于估測(cè)數(shù)據(jù)樣本的分布規(guī)律[22]。GAN目前已經(jīng)應(yīng)用于圖像識(shí)別、語(yǔ)音和語(yǔ)言處理、人工智能下棋等問(wèn)題的研究中。然而,GAN在海底地形數(shù)據(jù)處理領(lǐng)域的應(yīng)用目前還比較缺乏,雖然現(xiàn)有濾波算法等已經(jīng)有了較好的效果,但當(dāng)噪聲較為復(fù)雜,尤其是在產(chǎn)生大面積測(cè)深數(shù)據(jù)異常值的情況下并不能很好地重建海底地形趨勢(shì)面。本文結(jié)合條件變分自編碼和深度卷積生成對(duì)抗網(wǎng)絡(luò),建立條件變分自編碼生成對(duì)抗網(wǎng)絡(luò),利用該網(wǎng)絡(luò)模型的判別器提取海底地形的特征,對(duì)含有大面積偽地形的海底地形樣本數(shù)據(jù)進(jìn)行檢測(cè)與剔除。試驗(yàn)結(jié)果表明,本文方法能夠較為有效地檢測(cè)和剔除大面積異常值,并生成較為合理的海底趨勢(shì)面。
自編碼器(autoencoder)是一種以重構(gòu)輸入信號(hào)為目標(biāo)的神經(jīng)網(wǎng)絡(luò)。對(duì)于條件變分自編碼器而言,該網(wǎng)絡(luò)通過(guò)從編碼樣本分布pmodel(h)中采樣生成g(h),再?gòu)姆蟨model(x|g(h)=pmodel(x|h)的分布條件中取樣x,經(jīng)過(guò)重構(gòu)的解碼器r=m(h)構(gòu)成網(wǎng)絡(luò)。編碼器網(wǎng)絡(luò)為隨機(jī)映射m(h|x),解碼器網(wǎng)絡(luò)為隨機(jī)映射pmodel(x|h)。
對(duì)于條件變分自編碼器而言,該算法通過(guò)將x與樣本相關(guān)聯(lián)的變分下界γ(m)最大化對(duì)模型進(jìn)行訓(xùn)練,具體為式(1)所示
γ(m)=Eh~m(h|x)logpmodel(h,x)+H(m(h|x))=
Eh~m(h|x)logpmodel(x|h)-DKL(m(h|x)‖
pmodel(h))≤logpmodel(x)
(1)
式中,DKL為KL散度,可以用于衡量同一隨機(jī)變量的兩個(gè)單獨(dú)概率分布的差異。
本文采用的變分自編碼器加入標(biāo)簽項(xiàng)作為限制,即條件變分自編碼網(wǎng)絡(luò)。該網(wǎng)絡(luò)共包含4個(gè)全連接層,具體結(jié)構(gòu)如圖1所示。
圖1 標(biāo)簽限制的變分自編碼網(wǎng)絡(luò)(CVAE)結(jié)構(gòu)Fig.1 Label-restricted conditional variational autoencoder network structure
生成式對(duì)抗網(wǎng)絡(luò)是基于可微生成器網(wǎng)絡(luò)的另一種生成式建模[15-16]?;诓┺恼?game theory)場(chǎng)景,GAN的基本結(jié)構(gòu)為:生成器(generator network,G)直接產(chǎn)生樣本x=g(z;θ(g)),z為隨機(jī)編碼向量。其對(duì)手判別器(discriminator network,D)發(fā)出由d(x;θ(d)))給出的概率值,通過(guò)訓(xùn)練不斷提高區(qū)分從訓(xùn)練數(shù)據(jù)抽取的樣本和從生成器抽取的樣本的能力,指示x是真實(shí)訓(xùn)練樣本而不是從模型抽取的偽造樣本的概率。GAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 GAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Generative adversarial network structure
GAN的優(yōu)化問(wèn)題是一個(gè)極小極大博弈問(wèn)題,函數(shù)v(θ(g),θ(d))確定判別器的收益,生成器接收-v(θ(g),θ(d))作為它自己的收益。因此,在式(2)收斂
(2)
式中,v(θ(g),θ(d))=Ex~pdatalogd(x)+Ex~pmodellog(1-d(x) )。
基于深度卷積的GAN(DCGAN)[17],是將CNN卷積用于GAN模式的網(wǎng)絡(luò)里,生成器G通過(guò)反卷積的重構(gòu)技術(shù)來(lái)模擬原始數(shù)據(jù),而判別器D利用卷積技術(shù)學(xué)習(xí)海底地形數(shù)據(jù)的特征,進(jìn)而作出判斷。
綜合CVAE和DCGAN網(wǎng)絡(luò)的特點(diǎn),建立兩者相結(jié)合的模型——條件變分自編碼生成對(duì)抗網(wǎng)絡(luò)模型。在該模型中,編碼器對(duì)被破壞的原始圖像進(jìn)行編碼、降維;解碼器(也叫重構(gòu)器),通過(guò)重構(gòu)一部分輸入的特征來(lái)確定與樣本互信息的維度,從而找出主要特征,并作為輸入進(jìn)入生成器;生成器從標(biāo)準(zhǔn)高斯分布中隨機(jī)采樣作為輸入的生成模擬樣本,并將噪聲分成不可壓縮噪音z和可解釋性信息c;判別器用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)生成模擬數(shù)據(jù)與真實(shí)樣本數(shù)據(jù)進(jìn)行判別。加入條件變分自編碼網(wǎng)絡(luò)后,提高了從高維到低維映射的能力。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 條件變分自編碼生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Conditional variational autoencoder generative adversarial network
條件變分自編碼生成對(duì)抗網(wǎng)絡(luò)是根據(jù)有限的樣本信息在地形特征的復(fù)雜性和學(xué)習(xí)能力之間尋求平衡點(diǎn)。利用CVAE-GAN構(gòu)造海底趨勢(shì)面的效果主要取決于選區(qū)的訓(xùn)練樣本及優(yōu)化算法的選取是否真正反映海底地形的實(shí)際變化。
3.2.1 訓(xùn)練樣本的選取
由于淺水多波束測(cè)深系統(tǒng)或者深水多波束測(cè)深系統(tǒng)均以廣角度定向發(fā)射、多陣列信號(hào)接收處理的方式,獲得的海底水深數(shù)據(jù)具有海量性的特點(diǎn),因而要對(duì)測(cè)深數(shù)據(jù)進(jìn)行區(qū)域劃分。選擇的區(qū)域過(guò)大,導(dǎo)致包含的海底地形類型過(guò)多,樣本分布規(guī)律過(guò)于復(fù)雜;選擇的區(qū)域過(guò)小,無(wú)法學(xué)習(xí)到整體的地形變化趨勢(shì)。本文按照陡坡、海岸帶、島礁、海溝及碎石區(qū)5種不同的地形選取水深格網(wǎng)數(shù)據(jù)作為樣本,以人為添加異常值數(shù)據(jù)來(lái)模擬格網(wǎng)化的含有異常值的原始水深數(shù)據(jù);以未添加異常值的水深格網(wǎng)數(shù)據(jù)來(lái)模擬真實(shí)地形數(shù)據(jù)。共設(shè)置為6類(第0類到第5類),通過(guò)數(shù)據(jù)集增強(qiáng)方法,得到訓(xùn)練樣本每類包含1000個(gè)圖片,共6000張圖片。在測(cè)試樣本中,含有大面積連續(xù)異常值的格網(wǎng)水深數(shù)據(jù),每類包含1張圖片共6張,并對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
3.2.2 優(yōu)化算法的選取
除了高效地選取樣本,還必須選擇適合海底地形變化的優(yōu)化算法。針對(duì)不同特點(diǎn)的樣本數(shù)據(jù),不同的優(yōu)化算法,其收斂速度和快速找到收斂最快方向的能力不同。凸問(wèn)題優(yōu)化算法,如AdamGrad算法,縮放參數(shù)反比于其所有梯度歷史平方值總和的平方根[23]。非凸問(wèn)題優(yōu)化算法,如Adam算法[24],梯度積累為指數(shù)加權(quán)的的移動(dòng)平均,同時(shí)設(shè)置了偏置修正,更加穩(wěn)健。由于海底地形并不是凸問(wèn)題,故本文選擇Adam優(yōu)化算法。經(jīng)驗(yàn)表明,當(dāng)模型數(shù)據(jù)較為復(fù)雜時(shí),Adam算法的初始學(xué)習(xí)率設(shè)置為0.001,在Tensorflow系統(tǒng)體系中優(yōu)化效果最好。
3.2.3 模型訓(xùn)練過(guò)程
基于數(shù)據(jù)集增強(qiáng)的原理,將符合標(biāo)準(zhǔn)高斯分布的噪聲加入到訓(xùn)練樣本中,通過(guò)編碼器降維;通過(guò)KL散度求得訓(xùn)練樣本分布與標(biāo)準(zhǔn)高斯分布之間的對(duì)應(yīng)差距,并逐步縮小該差距,改變樣本的對(duì)應(yīng)分布;通過(guò)解碼器最終學(xué)習(xí)到樣本分布規(guī)律并生成模擬樣本,在此過(guò)程中,使用樣本標(biāo)簽作為限制。由條件變分自編碼網(wǎng)絡(luò)生成的擬真實(shí)樣本進(jìn)入生成器后,通過(guò)兩層使用ReLU作為激活函數(shù)的全連接層,生成(7,7,128)的三維張量,進(jìn)入卷積核4×4、步幅為2的反卷積函數(shù)層,經(jīng)過(guò)中間層三維張量(28,28,64)得到三維張量(28,28,1)的生成圖像樣本。進(jìn)入判別器,首先經(jīng)過(guò)兩層與生成器反卷積核成轉(zhuǎn)置關(guān)系的卷積層得到(7,7,128)的三維張量,使用LeakyReLU作為激活函數(shù)與生成器對(duì)抗,并通過(guò)兩層全連接層,分別得到兩個(gè)張量,將這兩個(gè)張量放入不同輸出層可用于判別真假樣本、進(jìn)行樣本分類以及得到隱含信息?;谛畔⒄摰南嚓P(guān)理論,網(wǎng)絡(luò)中的損失函數(shù)采用交叉熵(cross-entropy),最小化該交叉熵將執(zhí)行對(duì)分類器的最大似然估計(jì),結(jié)構(gòu)如圖4所示。
圖4 CVAE-GAN具體結(jié)構(gòu)Fig.4 Detailed CVAE-GAN structure
3.2.4 訓(xùn)練結(jié)果與分析
本文人為添加了大面積偽地形數(shù)據(jù),生成測(cè)試數(shù)據(jù)集,對(duì)偽地形進(jìn)行檢測(cè)和剔除,構(gòu)建了CVAE-GAN網(wǎng)絡(luò)模型進(jìn)行測(cè)試。試驗(yàn)環(huán)境為Intel(R) Core(TM) i7-8550U CPU @ 1.8 GHz處理器,8 GB原始運(yùn)行內(nèi)存(RAM),Tensorflow平臺(tái)。在Leaky ReLU中,模型的leak斜率為0.1。
本文采用仿真的水深格網(wǎng)數(shù)據(jù)進(jìn)行評(píng)估。該水深格網(wǎng)數(shù)據(jù)分辨率為5 m,每組數(shù)據(jù)代表的測(cè)區(qū)面積為19 600 m2,共包含陡坡、海岸帶、島礁、海溝及碎石區(qū)5個(gè)不同特征的地形構(gòu)造。每種地質(zhì)構(gòu)造的“大面積偽地形”數(shù)據(jù)約占測(cè)區(qū)總數(shù)據(jù)的3%~5%,具體特點(diǎn)為:①“陡坡”異常值出現(xiàn)于較平坦區(qū)域;②“海岸帶”異常值出現(xiàn)于海陸交界處;③“島礁1”異常值出現(xiàn)于較平坦區(qū)域;④“島礁2”異常值出現(xiàn)于島礁凸起處;⑤“海溝”異常值表現(xiàn)為大面積區(qū)域水深整體變深;⑥“碎石區(qū)”異常值表現(xiàn)為缺失大面積水深數(shù)據(jù),具體如圖5所示。
為了進(jìn)一步分析該模型在大面積異常值檢測(cè)方面的精度,分別繪制不同模型下的海底地形等深線圖和與真實(shí)水深值對(duì)比得到的誤差等值線圖,具體如圖6所示。
在生成對(duì)抗的過(guò)程中,經(jīng)過(guò)5次反復(fù)訓(xùn)練,共10 000次迭代。觀察生成圖像的演變過(guò)程,從圖5、圖6可以看出,含有大面積異常值的格網(wǎng)水深數(shù)據(jù),通過(guò)本文方法,逐步學(xué)習(xí)不同類型的地形特征,通過(guò)10 000次迭代,最終達(dá)到較好的異常值剔除效果。從圖5、圖6可以看出,不同的海底地形特征得到的海底趨勢(shì)面的準(zhǔn)確度不同,陡坡、海岸帶、島礁及海溝等具有明顯海底地形特征的區(qū)域生成的海底趨勢(shì)面精度更高,而碎石區(qū)等海底地形特征不明顯的區(qū)域生成效果會(huì)產(chǎn)生多余的噪聲。在圖5、圖6中,過(guò)程最后一張為結(jié)果圖,從中可以看出該方法具有較強(qiáng)的識(shí)別度,秩值更低,且與訓(xùn)練樣本保持著高度的相似,通過(guò)學(xué)習(xí)找到真實(shí)海底地形中更加明顯的特征規(guī)律。因此,CVAE-GAN網(wǎng)絡(luò)可以用于大面積偽地形數(shù)據(jù)的檢測(cè)與剔除。
圖5 各類海底微地形數(shù)據(jù)的大面積異常值檢測(cè)與剔除點(diǎn)集三維圖Fig.5 Training process in different types of sea bottom
模型在訓(xùn)練過(guò)程中的損失函數(shù)曲線如圖7所示。圖7(a)的橫坐標(biāo)為條件變分自編碼的迭代次數(shù),縱坐標(biāo)為代價(jià)函數(shù)值;圖7(b)、(c)中的橫坐標(biāo)分別為判別器與生成器的迭代次數(shù),縱坐標(biāo)為其損失函數(shù)??梢钥闯鰲l件變分自編碼模型的代價(jià)函數(shù),生成模型和判別模型的損失函數(shù)都在逐漸收斂,并存在著明顯的相互關(guān)系。隨著迭代的進(jìn)行,條件變分自編碼網(wǎng)絡(luò)的代價(jià)函數(shù)在逐漸下降,由最初值97.45下降至30.58;判別器的損失函數(shù)由最初值0.613 6下降至0.346 3;生成器的損失函數(shù)則逐漸上升,由最初值0.851 2上升至1.490,在對(duì)抗中此消彼長(zhǎng),共歷時(shí)35 min,迭代10 000次。通過(guò)條件變分自編碼網(wǎng)絡(luò)能夠改變測(cè)試樣本的概率分布,結(jié)合生成對(duì)抗網(wǎng)絡(luò),CVAE-GAN模型可以更好地使用學(xué)習(xí)到的訓(xùn)練樣本分布特征,有效提高了網(wǎng)絡(luò)的穩(wěn)定性和泛化能力。
本文將CVAE-GAN與其他兩種常用的測(cè)深數(shù)據(jù)異常值檢測(cè)方法(中值濾波法、趨勢(shì)面濾波法[1-2])對(duì)比。采用4種不同的評(píng)價(jià)指標(biāo)對(duì)異常值檢測(cè)與剔除效果進(jìn)行評(píng)定:① 梯度均方根誤差(DRMSE)——用不同方法得到的海底格網(wǎng)數(shù)據(jù)(生成數(shù)據(jù))的梯度求均方根誤差,具體如式(3)所示;② 最大梯度差(DMAX)——用生成數(shù)據(jù)的梯度與真實(shí)格網(wǎng)水深數(shù)據(jù)的梯度求差的最大值,具體如式(4)所示;③ 峰值信噪比(peak signal to noise ratio,PSNR),值越大,生成數(shù)據(jù)與真實(shí)格網(wǎng)水深數(shù)據(jù)越相似,具體如式(5)、式(6)所示;④ 結(jié)構(gòu)相似指數(shù)(structural similarity index,SSIM)——將生成數(shù)據(jù)的均值、梯度和結(jié)構(gòu)3種不同因素組合建模,值在-1至1之間,越接近于1,說(shuō)明生成數(shù)據(jù)與真實(shí)格網(wǎng)數(shù)據(jù)的結(jié)構(gòu)越相似,具體如式(7)—式(9)所示。
(圖中相關(guān)要素及數(shù)據(jù)均為虛構(gòu))圖6 等值線圖Fig.6 Contour map
圖7 數(shù)據(jù)集迭代過(guò)程中損失函數(shù)變化過(guò)程Fig.7 The loss function curves of the model
(3)
(4)
(5)
(6)
(7)
(8)
(9)
式中,Dreal為格網(wǎng)化的真實(shí)水深數(shù)據(jù)的梯度;Dresult為生成數(shù)據(jù)的梯度;p為每個(gè)采樣值所占的比特?cái)?shù);x為格網(wǎng)化的真實(shí)水深數(shù)據(jù);y為生成數(shù)據(jù);μx、μy為平均值;σx、σy為標(biāo)準(zhǔn)差;σxy為協(xié)方差;c1、c2用于維持該式的穩(wěn)定;m、n為矩陣的行數(shù)和列數(shù)。不同模型的“評(píng)價(jià)指標(biāo)”比較見(jiàn)表1。
從表1可以看出,當(dāng)海底地形測(cè)量出現(xiàn)大面積集中分布的異常值而不是隨機(jī)分布的較少量的異常值時(shí),本文方法的檢測(cè)與剔除效果比中值濾波法及趨勢(shì)面濾波法的效果好。根據(jù)表1,中值濾波在進(jìn)行異常值剔除過(guò)程中,由于異常值的數(shù)量多且集中的特點(diǎn),過(guò)度平滑了區(qū)域整體的海底地形,導(dǎo)致海底地形趨勢(shì)面的失真,使得梯度的均方根誤差較大,PSNR值較小,SSIM值距離1較遠(yuǎn);趨勢(shì)面濾波由于多項(xiàng)式擬合無(wú)法詳細(xì)表示復(fù)雜的地形,或者“過(guò)擬合”,將異常值也作為正常水深數(shù)據(jù),導(dǎo)致誤差較大。本文方法在除去大量連續(xù)異常值的過(guò)程中,能夠較好地保存其余的原始地形形態(tài),梯度的均方根誤差較小,PSNR值較大,SSIM值更接近于1。中值濾波的過(guò)度平滑導(dǎo)致海底地形坡度偏大或偏小,即容易出現(xiàn)海底“斷崖”等現(xiàn)象;趨勢(shì)面濾波受制于多項(xiàng)式擬合的局限性,對(duì)于有些復(fù)雜的海底地形無(wú)法擬合出合理的海底趨勢(shì)面;本文方法通過(guò)“變分”思想,學(xué)習(xí)訓(xùn)練樣本分布規(guī)律,對(duì)不同區(qū)域有不同的生成過(guò)程,不會(huì)“以偏概全”,從而能夠更好地剔除大量連續(xù)異常值。綜上所述,在檢測(cè)并剔除大面積“偽地形”方面,中值濾波法及趨勢(shì)面濾波法更易造成海底地形的失真,而本文方法的結(jié)果更加符合實(shí)際的海底趨勢(shì)面。
表1 不同模型的“評(píng)價(jià)指標(biāo)”比較
Tab.1 Comparison of “evaluation index”among differentmodels
檢測(cè)方法海底地形評(píng)價(jià)指標(biāo)DRMSEDMAXPSNRSSIM中值濾波法陡坡0.0050.33517.6420.347海岸帶0.0080.94010.1120.089島礁10.0040.4338.2000.216島礁20.0060.70115.2840.297海溝0.0030.25314.8710.341碎石區(qū)0.0130.83415.0200.060趨勢(shì)面濾波法陡坡0.0130.7489.7180.280海岸帶0.0100.87110.391-0.051島礁10.0060.6604.508-0.074島礁20.0090.77010.3500.217海溝0.0110.74111.4210.298碎石區(qū)0.0080.8669.6460.036本文方法陡坡0.0030.28023.9000.521海岸帶0.0020.25428.2380.805島礁10.0020.24517.1660.504島礁20.0020.25024.6950.776海溝0.0010.22322.4500.685碎石區(qū)0.0070.53312.5490.117
海洋測(cè)量受海洋環(huán)境的影響,在測(cè)深過(guò)程中易出現(xiàn)測(cè)深數(shù)據(jù)異常值。本文針對(duì)大面積異常值的檢測(cè)與剔除,構(gòu)建了條件變分自編碼生成對(duì)抗網(wǎng)絡(luò)模型,生成了與真實(shí)海底地形較為接近的海底趨勢(shì)面。通過(guò)與中值濾波法及趨勢(shì)面濾波法比較,本文提出的CVAE-GAN網(wǎng)絡(luò)在大面積連續(xù)異常值的檢測(cè)與剔除方面優(yōu)于中值濾波法及趨勢(shì)面濾波法,取得了較好的效果。但在碎石區(qū)的識(shí)別效果有待改進(jìn),因而本文方法更適合于海底地形特征明顯的區(qū)域。同時(shí),CVAE-GAN作為GAN的衍生模型,豐富了GAN模型在海洋測(cè)量數(shù)據(jù)處理領(lǐng)域的應(yīng)用。