陳 驍,舒藝沆,沈潤(rùn)杰*,黃奕欣,童鑫紅
(1.福建華電可門(mén)發(fā)電有限公司,福建福州 350000;2.同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
如今大多數(shù)深度學(xué)習(xí)任務(wù)都屬于有監(jiān)督學(xué)習(xí),需要大量的有標(biāo)簽數(shù)據(jù)指導(dǎo)模型訓(xùn)練。當(dāng)缺少數(shù)據(jù)時(shí),網(wǎng)絡(luò)模型無(wú)法學(xué)習(xí)足夠的非線性特征并且極易出現(xiàn)過(guò)擬合問(wèn)題,這種現(xiàn)象在數(shù)據(jù)集規(guī)模很小時(shí)尤為明顯。生成對(duì)抗網(wǎng)絡(luò)的出現(xiàn)給解決這一難題帶來(lái)新的思路,采用生成對(duì)抗網(wǎng)絡(luò)合成圖像,對(duì)小樣本圖像數(shù)據(jù)進(jìn)行增強(qiáng),能有效融合前景目標(biāo)和各種類型的背景,解決由于數(shù)據(jù)匱乏導(dǎo)致的神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題。合成數(shù)據(jù)和真實(shí)數(shù)據(jù)相比既有結(jié)構(gòu)上的相似性,同時(shí)又能呈現(xiàn)出上下文信息的多樣性;加入合成數(shù)據(jù)后,模型能夠更加穩(wěn)定地訓(xùn)練,進(jìn)一步提高對(duì)各種背景條件下退化圖像的學(xué)習(xí)能力。Li等人提出一種生成水下圖像數(shù)據(jù)集的模型WaterGAN[1],包含生成器G和判別器D兩部分,通過(guò)對(duì)抗訓(xùn)練的方式生成逼真的水下圖像。其中生成器G分為衰減、散射和暈渲三個(gè)部分,判別器D通過(guò)區(qū)分合成圖像和真實(shí)圖像指導(dǎo)生成器G的訓(xùn)練。Fabbri等人基于生成對(duì)抗網(wǎng)絡(luò)思想構(gòu)造模型UGANP[2],不需要將水下圖像的深度信息輸入到生成器,而是基于CycleGAN學(xué)習(xí)RGB圖像和水下退化圖像特征合成退化的水下圖像。本文針對(duì)高級(jí)視覺(jué)模型訓(xùn)練過(guò)程中水下圖像數(shù)據(jù)缺乏的問(wèn)題,基于Jaffe-McGlamery水下成像物理模型,構(gòu)造UWGAN網(wǎng)絡(luò),同時(shí)提出多目標(biāo)損失函數(shù)指導(dǎo)模型訓(xùn)練,該模型能夠合成豐富的水下退化圖像,實(shí)現(xiàn)對(duì)水下圖像數(shù)據(jù)集的增強(qiáng)。
經(jīng)典水下成像物理模型主要有Jaffe-McGlamery模型和蒙特卡洛方法[3]。在Jaffe模型的基礎(chǔ)上[4],McGlamery等人[5]建立了新的物理模型,根據(jù)Jaffe-McGlamery水下成像物理模型,光線通過(guò)三種路徑到達(dá)成像平面,成像結(jié)果實(shí)際上是三個(gè)分量的線性疊加,如圖1所示。其中模型分量分別如下所示。
圖1 Jaffe-McGlamery物理模型Fig.1 Jaffe-McGlamery physical model
(1)目標(biāo)物反射后直接被相機(jī)捕捉的分量稱為直接分量Ed。
(2)經(jīng)過(guò)目標(biāo)物表面反射后受微粒影響而發(fā)生小角度散射的分量稱為前向散射分量Ef。
(3)直接被水中的懸浮顆粒散射后被相機(jī)接收到的分量稱為后向散射分量Eb。
Jaffe-McGlamery模型可表示為
式(1)中,ET表示總的光強(qiáng)度值,Ed、Ef、Eb分別表示直接分量、前向散射分量和后向散射分量。每種分量在傳播過(guò)程中都會(huì)被水分子、溶解物或者懸浮顆粒等吸收,并且對(duì)不同波長(zhǎng)的光吸收程度不同。通過(guò)圖2(a)可以看出,紅、黃以及淺綠色光透射率低,而藍(lán)綠光具有較大的透射率,其中波長(zhǎng)為462~475 nm的藍(lán)光衰減程度最小。水的吸收使藍(lán)光的強(qiáng)度每米衰減約4%,其他波長(zhǎng)的光衰減程度更大,因此,通常情況下獲取的水下圖像都呈現(xiàn)藍(lán)綠色。水下成像過(guò)程中光強(qiáng)度值隨著傳播距離增加呈指數(shù)衰減,衰減過(guò)程可以由式(2)表示,即
圖2 光在水中的吸收和散射作用Fig.2 Absorption and scattering of light in water
水下成像過(guò)程中,散射作用對(duì)圖像退化的影響更大。如圖2(b)所示,根據(jù)Jaffe-McGlamery物理模型坐標(biāo)系,通過(guò)幾何光學(xué)理論可以計(jì)算出直接分量,根據(jù)數(shù)學(xué)推導(dǎo),直接分量可以表示為
其中,EI表示目標(biāo)物體表面(x',y')處的反射輻照度值,Rc表示點(diǎn)(x',y')到相機(jī)光心的距離,M(x',y')表示反射率,經(jīng)驗(yàn)值取M(x',y')∈(0.02,0.1),Tl、F和Fl分別表示相機(jī)參數(shù),角度θ表示反射光線與切向平面的夾角。前向散射分量可以由直接分量和點(diǎn)擴(kuò)散函數(shù)計(jì)算得到,如式(4)所示,其中g(shù)(x,y,Rc,G,c,B)表示點(diǎn)擴(kuò)散函數(shù)。
從目標(biāo)反射平面到相機(jī)接收平面,對(duì)近似的體積散射函數(shù)進(jìn)行體積元分析并積分,得到最終的后向散射分量,即
其中,Eb,d(x,y)表示后向散射的直接分量。在水下成像過(guò)程中,Jaffe等人在充分考慮各種限制條件后構(gòu)造了水下成像物理模型,根據(jù)物理模型就能推導(dǎo)出何種因素導(dǎo)致了水下圖像退化,具體為水體吸收部分光波導(dǎo)致色偏,以及水中懸浮顆粒散射導(dǎo)致成像模糊或大顆粒泥沙造成遮擋,因此,可以根據(jù)水下成像物理模型構(gòu)造生成對(duì)抗網(wǎng)絡(luò)合成退化的水下圖像。
1.2.1 UWGAN網(wǎng)絡(luò)結(jié)構(gòu)
整個(gè)UWGAN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 UWGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 UWGA network structure
網(wǎng)絡(luò)的核心模塊主要是生成器和判別器。輸入分別是RGB圖像I、對(duì)應(yīng)深度圖像D和隨機(jī)噪聲向量Z。合成圖像的過(guò)程主要分為兩個(gè)階段,第一階段是模擬水體對(duì)光的吸收造成的退化,記為G_1;第二階段是模擬水中懸浮物以及大顆粒泥沙對(duì)光的散射造成的圖像模糊,具體分為前向散射和后向散射,統(tǒng)一記為G_2。兩個(gè)階段的具體描述如下。
(1)G_1:水體對(duì)不同波長(zhǎng)的光的吸收造成圖像色偏。生成器的直接退化部分G_1模擬光在水中衰減,即
其中,Iair是輸入的RGB圖像或者通過(guò)水體傳播之前的初始輻照度,rc是目標(biāo)物體到相機(jī)光心的距離,η(λ)是網(wǎng)絡(luò)估算的與波長(zhǎng)λ有關(guān)的衰減系數(shù)。
將原始圖像離散為RGB三個(gè)顏色通道后,根據(jù)不同波長(zhǎng)λ學(xué)習(xí)不同的衰減系數(shù),符合水體對(duì)不同波長(zhǎng)光吸收程度不同的實(shí)際情況,同時(shí)也避免了模型在學(xué)習(xí)過(guò)程中各通道參數(shù)相互耦合。各通道衰減系數(shù)首先被初始化為一個(gè)隨機(jī)值,接著分別乘以由深度圖像表征的距離值后,再按照RGB的通道順序進(jìn)行拼接,最后和輸入的RGB圖像一起代入公式(6),得到顏色衰減后的結(jié)果G1,整個(gè)G_1的結(jié)構(gòu)可以由圖4(a)表示。
(2)G_2:水中懸浮顆粒和泥沙對(duì)光的散射造成圖像模糊。光在水中經(jīng)過(guò)懸浮顆粒的散射后會(huì)在水下圖像中產(chǎn)生霧化效果,導(dǎo)致無(wú)法清楚地識(shí)別目標(biāo)物體,退化過(guò)程可以通過(guò)式(7)表示,即
其中,β是取決于波長(zhǎng)的標(biāo)量參數(shù),這一階段通過(guò)淺卷積網(wǎng)絡(luò)計(jì)算散射系數(shù)。如圖4(b)所示,輸入深度圖像D和噪聲向量Z。噪聲向量Z經(jīng)過(guò)投影和整形后與深度圖像進(jìn)行拼接得到特征圖像F,再分別經(jīng)過(guò)三個(gè)殘差卷積模塊學(xué)習(xí)不同通道的散射系數(shù),每個(gè)卷積分支得到一個(gè)單通道特征圖像Si,按照RGB成像順序在通道維度上進(jìn)行拼接得到輸出特征圖像M2。最后將散射得到的模糊圖像M2和顏色退化圖像G1進(jìn)行相加,得到最終的合成水下退化圖像G2,如式(8)所示。
圖4 生成器結(jié)構(gòu)圖Fig.4 Generator structure
判別器是基于PatchGAN[6]實(shí)現(xiàn)的一個(gè)串行網(wǎng)絡(luò),整個(gè)結(jié)構(gòu)共包含5層,除了第一層和最后一層不使用BN歸一化,其余所有卷積層都遵循相同的基本設(shè)計(jì),即“卷積+BN+Leaky ReLU”,并且使用頻譜歸一化以限制判別器的Lipschitz常數(shù),穩(wěn)定判別器的訓(xùn)練。
1.2.2 UWGAN損失函數(shù)
整個(gè)UWGAN的損失函數(shù)分為四個(gè)部分,如圖5所示。
圖5 UWGAN損失函數(shù)Fig.5 UWGAN loss function
第一部分是帶約束條件的生成對(duì)抗損失,如式(9)所示,即
第二部分是指導(dǎo)退化風(fēng)格的生成對(duì)抗損失,具體形式是帶有softmax的交叉熵?fù)p失,如式(10)所示,即
第三部分是結(jié)構(gòu)一致性損失,保持內(nèi)容的一致性及輸入和輸出圖像之間的結(jié)構(gòu)相似性,通過(guò)比較生成圖像和目標(biāo)圖像的均值、方差和協(xié)方差,保證圖像風(fēng)格轉(zhuǎn)換后仍然保持上下文信息的一致性,具體如式(11)和式(12)所示,即第四部分是色彩一致性損失,如式(13)所示,即
總損失函數(shù)如式(14)所示,其中α,β和δ分別取值2,1,1,即
為了驗(yàn)證本文使用的生成對(duì)抗模型UWGAN能夠有效合成逼真的水下退化圖像,本實(shí)驗(yàn)使用經(jīng)典算法WaterGAN、UGAN-P和UWGAN進(jìn)行對(duì)比,并使用NYU Depth數(shù)據(jù)集,該數(shù)據(jù)集包含了利用kinect采集的1449張室內(nèi)場(chǎng)景RGB圖像和對(duì)應(yīng)的深度圖像,每張圖像的分辨率為640×480。部分合成圖像的對(duì)比結(jié)果如圖6所示。
圖6 合成圖像對(duì)比Fig.6 Comparison of synthetic images
由于單目相機(jī)進(jìn)行深度估計(jì)所固有的尺度模糊性,WaterGAN只能估計(jì)相對(duì)深度而不是絕對(duì)深度,因此合成的圖像整體亮度偏暗,并且圖像四周出現(xiàn)陰影和漸暈;UGAN-P基于CycleGAN的循環(huán)一致性損失合成退化圖像,能夠充分利用原始圖像和目標(biāo)圖像之間的像素差異,因此能夠很好地合成色偏圖像,而對(duì)于大顆粒懸浮物遮擋這類帶有高級(jí)語(yǔ)義信息的特征合成效果較差,甚至?xí)a(chǎn)生條紋狀的偽影;本文使用的UWGAN能夠較為準(zhǔn)確地估計(jì)圖像中前景和背景的深度信息,因此不僅能合成藍(lán)綠或者黃綠色偏圖像,還能有效模擬模糊現(xiàn)象,包括一些大顆粒泥沙造成的遮擋,合成的圖像在主觀視覺(jué)效果上更接近真實(shí)水下退化圖像。
本文通過(guò)分析水下成像物理模型,構(gòu)造生成對(duì)抗網(wǎng)絡(luò)UWGAN,在生成器中模擬吸收和散射作用,同時(shí)集成生成對(duì)抗損失、風(fēng)格損失、顏色損失和結(jié)構(gòu)一致性損失構(gòu)造多目標(biāo)損失函數(shù),實(shí)現(xiàn)端到端訓(xùn)練,將室內(nèi)RGB圖像轉(zhuǎn)換為指定樣式的水下圖像。實(shí)驗(yàn)結(jié)果表明,UWGAN保留了原始RGB圖像的前景紋理信息,同時(shí)有效融合了水下場(chǎng)景特征,為合成圖像實(shí)現(xiàn)數(shù)據(jù)集擴(kuò)充提供了新的思路,也為其他水下高級(jí)視覺(jué)任務(wù)提供了支持。