杜守慶,陳 明,王俊豪
(1 上海海洋大學(xué)信息學(xué)院,上海 201306;2 農(nóng)業(yè)農(nóng)村部漁業(yè)信息重點(diǎn)實(shí)驗(yàn)室,上海 201306)
復(fù)雜的水下成像環(huán)境和光照條件導(dǎo)致水下成像系統(tǒng)拍攝的圖像往往具有對(duì)比度低、紋理模糊、顏色失真、非均勻光照、可視范圍有限等質(zhì)量退化問(wèn)題,嚴(yán)重影響到基于視覺(jué)引導(dǎo)的水下目標(biāo)識(shí)別與跟蹤[1]、機(jī)器人水下作業(yè)[2]等任務(wù)的性能,需要通過(guò)水下圖像增強(qiáng)技術(shù)作為預(yù)處理手段來(lái)提升視覺(jué)質(zhì)量。
目前主流的水下圖像增強(qiáng)算法主要分為三類(lèi):基于非物理模型的方法[3-8]、基于物理模型的方法[9-15]和基于深度學(xué)習(xí)的方法[16-21]。Iqbal等[3]提出了基于直方圖拉伸的無(wú)監(jiān)督顏色校正方法(UCM),分別在RGB空間增強(qiáng)對(duì)比度和HSI空間校正顏色。Huang等[5]提出一種基于自適應(yīng)參數(shù)采集的相對(duì)全局直方圖拉伸算法(RGHS)校正圖像對(duì)比度和顏色?;诜俏锢砟P偷姆椒▽?duì)單張圖像建模,沒(méi)有深入考慮到水下圖像退化的根本原因,泛化性不強(qiáng)。Drews 等[10]提出基于藍(lán)綠通道的水下暗通道先驗(yàn)算法(UDCP)估計(jì)場(chǎng)景深度,減少紅色通道光衰減的影響。Peng 等[11]提出圖像模糊和光吸收算法(IBLA),該方法對(duì)模糊先驗(yàn)假設(shè)做進(jìn)一步的改善,提高了水下場(chǎng)景深度估計(jì)的準(zhǔn)確性?;谖锢砟P偷姆椒ㄒ蕾?lài)于對(duì)水下成像原理建模和嚴(yán)格的先驗(yàn)知識(shí),方法大多結(jié)構(gòu)復(fù)雜,算力消耗巨大,實(shí)時(shí)性不高。Islam 等[17]提出了一種基于條件對(duì)抗生成網(wǎng)絡(luò)的實(shí)時(shí)水下圖像增強(qiáng)模型(FGAN),該模型在大規(guī)模水下圖像數(shù)據(jù)集 EUVP 上通過(guò)對(duì)抗性訓(xùn)練來(lái)學(xué)習(xí)失真圖像到清晰圖像的端到端映射。Islam等[18]提出一種基于殘差結(jié)構(gòu)的超分辨率增強(qiáng)網(wǎng)絡(luò)(Deep SESR),該模型可以學(xué)習(xí)在2、3或4個(gè)更高空間分辨率下恢復(fù)水下圖像質(zhì)量。基于深度學(xué)習(xí)的方法由數(shù)據(jù)和模型雙驅(qū)動(dòng),在水下圖像增強(qiáng)領(lǐng)域取得了顯著的成果。但是此類(lèi)方法往往為了追求模型的精度,大多采用深度網(wǎng)絡(luò)結(jié)構(gòu),極大地限制了方法的實(shí)時(shí)性能;反之若追求模型的輕量級(jí),往往又在真實(shí)數(shù)據(jù)集上的表現(xiàn)不夠穩(wěn)定。
針對(duì)現(xiàn)有基于深度學(xué)習(xí)方法的局限性,本研究提出了一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)對(duì)水下圖像的實(shí)時(shí)感知增強(qiáng)。為了加強(qiáng)模型的圖像特征提取能力,設(shè)計(jì)了一個(gè)多尺度特征提取模塊實(shí)現(xiàn)多感受野范圍下的多層次特征信息的提取和融合。本研究在多項(xiàng)損失函數(shù)中加入梯度差損失項(xiàng),加強(qiáng)模型對(duì)水下圖像邊緣細(xì)節(jié)的學(xué)習(xí)能力。
給定源域X(失真圖像)和期望域Y(增強(qiáng)圖像),本研究的目標(biāo)是學(xué)習(xí)一個(gè)映射G:X->Y,以便執(zhí)行自動(dòng)水下圖像感知增強(qiáng)。本研究采用了一個(gè)基于多尺度特征提取的輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,通過(guò)多模態(tài)損失函數(shù)指導(dǎo)模型學(xué)習(xí)這種映射。
如圖1所示,本研究的執(zhí)行流程如下:為了實(shí)現(xiàn)快速推理,模型的輸入設(shè)置為256×256×3,通過(guò)一個(gè)優(yōu)化的特征提取模塊(MFE Module)生成256×256×32的多尺度特征圖,然后將該特征圖輸入到三個(gè)密集連接的卷積塊中。卷積塊是卷積層(Conv)、隨機(jī)失活層(Dropout)和LeakyReLU激活函數(shù)的串行化結(jié)構(gòu),首先對(duì)輸入的特征圖采用3×3的卷積,在卷積之后接入隨機(jī)失活層來(lái)避免高權(quán)重節(jié)點(diǎn)完全控制輸出結(jié)果,再引入LeakyReLU激活函數(shù)來(lái)加強(qiáng)模型的非線(xiàn)性能力。由于串行連接的網(wǎng)絡(luò)隨著深度疊加,容易導(dǎo)致高維權(quán)重矩陣大部分維度沒(méi)有有效信息,造成網(wǎng)絡(luò)退化。本研究將多尺度特征圖跳躍連接到每個(gè)卷積塊的輸出來(lái)打破結(jié)構(gòu)對(duì)稱(chēng)性,從而改善權(quán)重矩陣的表達(dá)能力。最后通過(guò)一個(gè)3×3的卷積層生成256×256×3的輸出圖像,該輸出圖像即為增強(qiáng)圖像。
圖1 模型框架
1.2.1 可分離殘差密集塊
受深度殘差密集網(wǎng)絡(luò)[22-24]的啟發(fā),使用其中的殘差密集塊(RDB)作為特征提取基本單元,其結(jié)構(gòu)如圖2所示。但是為了保持整體的輕量型結(jié)構(gòu),對(duì)RDB模塊進(jìn)行了簡(jiǎn)化改進(jìn),形成了可分離殘差密集塊(SRDB)作為特征提取模塊的基本單元,其結(jié)構(gòu)如圖3所示。
圖2 殘差密集塊
圖3 可分離殘差密集塊
改進(jìn)1是使用深度可分離卷積(DSC)[25]取代RDB模塊中的標(biāo)準(zhǔn)卷積層。本研究中的DSC首先使用3×3的深度逐通道卷積(D_Conv)得到每個(gè)通道的特征圖,然后使用批量歸一化(BN)和LeakyReLU激活函數(shù)加快網(wǎng)絡(luò)訓(xùn)練和收斂的速度,再使用1×1的卷積融合每個(gè)通道的特征形成完整的輸出。
改進(jìn)2是改變局部分層特征間的傳遞方式,僅將上一層的輸入特征傳遞給當(dāng)前層。由于SRDB本身僅使用三組卷積進(jìn)行特征提取,網(wǎng)絡(luò)層次較淺,而且也使用了殘差連接將SRDB模塊的輸入信息跳躍連接到模塊的輸出,所以并無(wú)多少語(yǔ)義信息損失,使用上一層的輸入特征傳遞是能夠滿(mǎn)足特征保留需求的。而且每一個(gè)局部分層特征都向后傳遞,會(huì)導(dǎo)致局部淺層特征對(duì)局部高層特征的提取產(chǎn)生抑制作用。
1.2.2 多尺度特征提取
單一的卷積層感受野固定,無(wú)法滿(mǎn)足不同大小的目標(biāo)物特征和不同語(yǔ)義信息的提取。圖像的不同層次特征包含不同的語(yǔ)義信息,一般淺層卷積提取圖像的細(xì)節(jié)和紋理信息,中層卷積一般提取的是圖像的部分輪廓信息,高層卷積提取圖像的整體結(jié)構(gòu)信息,對(duì)水下圖像恢復(fù)都有著重要作用。
為了充分利用原始圖像的特征,本研究參照文獻(xiàn)[26]中的MSRB模塊設(shè)計(jì)了一個(gè)多尺度特征提取模塊來(lái)提取不同尺度范圍下的不同層次的特征信息,結(jié)構(gòu)如圖4所示。
圖4 多尺度特征提取模塊
首先,3個(gè)并行分支分別使用不同大小卷積核(3×3,5×5,7×7)的標(biāo)準(zhǔn)卷積提取三種感受野范圍內(nèi)的淺層特征。然后,分別在每個(gè)分支使用4個(gè)密集連接的SRDB進(jìn)一步提取圖像的中高層語(yǔ)義信息,密集連接支持 SRDB 間的連續(xù)記憶,一個(gè) SRDB 的輸出可以直接影響下一個(gè)SRDB各層信息的傳遞,從而使?fàn)顟B(tài)連續(xù)傳遞。再將每一個(gè)SRDB的輸出特征作為分層特征進(jìn)行通道連接,自適應(yīng)地保留每一個(gè)分層特征圖的語(yǔ)義信息。最后通過(guò)1×1標(biāo)準(zhǔn)卷積調(diào)整通道數(shù),并用殘差連接融合淺層特征信息作為每一個(gè)分支的特征輸出。將3個(gè)不同分支輸出的特征圖進(jìn)行通道連接,接一個(gè)1×1標(biāo)準(zhǔn)卷積調(diào)整通道數(shù)作為多尺度特征提取模塊的輸出。
特征提取模塊每一個(gè)分支都是用標(biāo)準(zhǔn)卷積提取淺層特征,然后使用密集連接的SRDB模塊逐步擴(kuò)大感受野范圍,分層次提取原始圖像的中高層語(yǔ)義信息,最終融合淺層和中高層的語(yǔ)義信息使其具備豐富的上下文信息。3個(gè)尺度不同的并行分支是為了滿(mǎn)足不同大小的目標(biāo)物體特征提取,融合3個(gè)分支的特征得到不同尺度范圍下的多層次特征信息,具備更好的特征表達(dá)能力。
本研究使用一個(gè)多模態(tài)的損失函數(shù)約束模型的訓(xùn)練方向,使源域圖像X能夠?qū)W習(xí)到期望域圖像Y的紋理結(jié)構(gòu)、內(nèi)容感知和色彩感知,通過(guò)考慮生成圖像G(X)和期望域圖像Y之間的梯度差損失,使生成的圖像保持源圖像邊緣的銳度和細(xì)節(jié)信息。具體的損失函數(shù)如下所示:
1)全局相似性損失
現(xiàn)有的方法表明,在目標(biāo)函數(shù)中添加L1(L2)損失使G能夠?qū)W習(xí)從L1(L2)意義上的全局相似空間中采樣,由于L1損失不容易受噪聲影響,故使用L1損失來(lái)計(jì)算生成圖像和目標(biāo)圖像之間的像素級(jí)損失。L1損失項(xiàng)的數(shù)學(xué)表達(dá)如式(1)所示:
(1)
式中:Y為標(biāo)簽圖像;G(X)為生成圖像。
2)梯度差損失
為了保持原始圖像的細(xì)節(jié)信息,銳化圖像的邊緣,引入二階微分算子Laplace算子計(jì)算生成圖像G(X)和目標(biāo)圖像Y之間的梯度差損失。Laplace算子的數(shù)學(xué)表達(dá)如式(2)所示,梯度差損失項(xiàng)的數(shù)學(xué)表達(dá)如式(3)所示:
(2)
(3)
式中:?2(G(X))表示生成圖像G(X)在(x,y)處的梯度,?2(Y)表示目標(biāo)圖像Y在(x,y)的梯度。
3)內(nèi)容感知損失
為了鼓勵(lì)映射G能夠生成與標(biāo)簽圖像具有相似內(nèi)容(即特征表示)的增強(qiáng)圖像,受文獻(xiàn)[27]的啟發(fā),本研究將圖像內(nèi)容感知函數(shù)定義為由預(yù)訓(xùn)練的VGG19網(wǎng)絡(luò)的最后一層提取出來(lái)的高級(jí)特征。內(nèi)容感知損失項(xiàng)的數(shù)學(xué)表達(dá)如式(4)所示:
(4)
式中:φ(G(X))為生成圖像經(jīng)過(guò)VGG19網(wǎng)絡(luò)訓(xùn)練后的輸出,φ(Y)為目標(biāo)圖像經(jīng)過(guò)VGG19網(wǎng)絡(luò)的輸出。
4)總損失函數(shù)
總損失函數(shù)的數(shù)學(xué)表達(dá)如式(5)所示:
Ltotal=α×L1+β×Lcontent+γ×Lgd
(5)
式中:α,β,γ表示每一項(xiàng)損失所占比重,取α=0.6,β=0.3,γ=0.1。
2.1.1 數(shù)據(jù)集
為解決水下圖像退化域和期望域的成對(duì)訓(xùn)練數(shù)據(jù)問(wèn)題,本研究收集了EUVP數(shù)據(jù)集中的underwater_dark、underwater_imagenet和underwater_scenes中成對(duì)的水下圖像5 000張,這些圖像包含了大量的水下場(chǎng)景和豐富的水下內(nèi)容信息,能夠表示絕大多數(shù)的水下真實(shí)場(chǎng)景。另外為了保證模型的泛化性,選取了從人工養(yǎng)殖基地采集的大量河豚圖像中的300張具有代表性的圖片。將成對(duì)的水下圖像按照7∶2∶1的比例劃分為訓(xùn)練集和驗(yàn)證集和測(cè)試集A,并將選取的河豚圖像作為測(cè)試集B。這樣劃分?jǐn)?shù)據(jù)能夠充分驗(yàn)證模型在公開(kāi)數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的增強(qiáng)效果,保證模型的有效性和泛化性。
2.1.2 試驗(yàn)設(shè)置
本試驗(yàn)在Windows 10操作系統(tǒng)下,基于Pytorch1.7深度學(xué)習(xí)開(kāi)源框架實(shí)現(xiàn),編程語(yǔ)言為Python 3.6。計(jì)算機(jī)的配置如下:處理器為Intel(R)Core(TM)i7-9700 CPU@3.6GHz,GPU為NVIDIA GeForce RTX2080Ti,內(nèi)存64GB。本試驗(yàn)為了更好地訓(xùn)練模型,統(tǒng)一將圖像尺寸設(shè)定為256×256×3,并歸一化到[0,1]區(qū)間。模型在訓(xùn)練過(guò)程中采用Adam優(yōu)化器,學(xué)習(xí)率lr=0.000 2,批處理大小batch_size=16,迭代次數(shù)epoch=1 000。另外為了保證試驗(yàn)的公平性,所有基于深度學(xué)習(xí)的對(duì)比試驗(yàn)都是采用原文獻(xiàn)的參數(shù)設(shè)計(jì)以及本文相同的數(shù)據(jù)集訓(xùn)練和測(cè)試。
2.2.1 本研究與對(duì)比方法的對(duì)比分析
為了驗(yàn)證本研究的有效性與泛化性,通過(guò)大量的對(duì)比試驗(yàn),將本研究與基于非物理模型的典型方法(UCM[3],RGHS[5]),基于物理模型的典型方法(UDCP[10],IBLA[11]),基于深度學(xué)習(xí)驅(qū)動(dòng)的最新方法(FGAN[17],Deep SESR[18])從水下圖像感知增強(qiáng)角度進(jìn)行主觀(guān)和客觀(guān)的評(píng)價(jià),分析本研究與其他最新方法對(duì)比存在的優(yōu)勢(shì)與劣勢(shì);然后,從模型的處理速度出發(fā),分析本研究和對(duì)比方法的實(shí)時(shí)性能。
1)主觀(guān)評(píng)價(jià)
主觀(guān)評(píng)價(jià)是從人眼觀(guān)察角度來(lái)分析水下圖像感知增強(qiáng)的效果,6種水下圖像增強(qiáng)方法和本研究在測(cè)試集A、B上的主觀(guān)表現(xiàn)如圖5、圖6所示。
圖5 不同方法在測(cè)試集A上的結(jié)果
通過(guò)圖5、圖6可以發(fā)現(xiàn),UCM明顯增強(qiáng)了圖像的對(duì)比度,但是出現(xiàn)了色彩飽和現(xiàn)象,部分圖像呈現(xiàn)出偏紅色調(diào)。RGHS較好地改善了圖片的模糊問(wèn)題,提升了圖像的清晰度,但是在去除色偏問(wèn)題上表現(xiàn)不足,部分圖像還是呈現(xiàn)出明顯的藍(lán)綠色偏現(xiàn)象。UDCP處理后的圖像并沒(méi)有解決圖像的色偏問(wèn)題,甚至加深了圖像的色偏程度,相當(dāng)于引入了新的噪聲,而且圖像偏暗,整體的增強(qiáng)效果欠佳。IBLA增強(qiáng)后的圖像整體對(duì)比度和亮度都得到了改善,但是部分區(qū)域表現(xiàn)出過(guò)度增強(qiáng)的現(xiàn)象,圖像的色彩有不自然的趨勢(shì)。
圖6 不同方法在測(cè)試集B上的結(jié)果
基于深度學(xué)習(xí)的方法由模型和數(shù)據(jù)雙驅(qū)動(dòng),模型的泛化性往往比傳統(tǒng)方法更好。FGAN的處理效果較好,能夠有效去除圖像模糊和色偏現(xiàn)象。Deep SESR在測(cè)試集A上表現(xiàn)良好,但是在測(cè)試集B上出現(xiàn)圖像更加模糊的現(xiàn)象,顏色也趨向于不自然。本研究處理后的圖像去除了色偏和模糊現(xiàn)象,對(duì)比度和亮度得到提升,而且邊緣更加清晰,保留了更多的細(xì)節(jié)信息。
2)客觀(guān)評(píng)價(jià)
為了客觀(guān)評(píng)價(jià)和分析本研究方法的性能,選取兩種全參考圖像質(zhì)量評(píng)價(jià)指標(biāo):結(jié)構(gòu)相似性(SSIM)和峰值信噪比(PSNR)[28]以及兩種無(wú)參考圖像質(zhì)量評(píng)價(jià)指標(biāo):UIQM[29]和NIQE[30]對(duì)不同方法在測(cè)試集A、B上的增強(qiáng)效果進(jìn)行定量評(píng)價(jià)。
通常情況下,SSIM和PSNR越大,表明被評(píng)價(jià)圖像越接近標(biāo)簽圖像。UIQM 是水下圖像色度度量(UICM)、水下圖像清晰度度量(UISM)和水下圖像對(duì)比度度量(UIConM)的線(xiàn)性組合,其值和圖像的視覺(jué)質(zhì)量成正比。NIQE是用來(lái)衡量待測(cè)圖像和自然圖像提取的特征所構(gòu)建的多元分布上的差異,其值越小,表示待測(cè)圖像越接近自然圖像。
由于測(cè)試集A具有參考圖像,所以選取PSNR、SSIM、UIQM和NIQE來(lái)定量對(duì)比不同方法在測(cè)試集A上的表現(xiàn),其均值和方差結(jié)果如表1所示。從整體來(lái)看,基于深度學(xué)習(xí)的方法的表現(xiàn)要優(yōu)于傳統(tǒng)的方法,這和主觀(guān)的分析結(jié)果一致。其中本研究在PSNR和SSIM上的平均值得分最高,UIQM和NIQE平均值得分第二且方差較小,表明本研究在測(cè)試集A上增強(qiáng)的圖像更接近于自然圖像,且增強(qiáng)效果更加穩(wěn)定。
表1 不同方法在測(cè)試集A上的定量對(duì)比
由于測(cè)試集B沒(méi)有參考圖像,所以選取UIQM和NIQE來(lái)定量對(duì)比不同方法在測(cè)試集B上的表現(xiàn),其均值和方差結(jié)果如表2所示。
表2 不同方法在測(cè)試集B上的定量對(duì)比
通過(guò)表2發(fā)現(xiàn),本研究在UIQM和NIQE上的平均得分都是最高,充分說(shuō)明了本研究在測(cè)試集B上的表現(xiàn)要優(yōu)于列出的其他方法。
綜合表1和表2的分析結(jié)果得出,本研究不僅在公共數(shù)據(jù)集上取得了優(yōu)秀的表現(xiàn),而且在真實(shí)數(shù)據(jù)集上也取得了優(yōu)于其他方法的表現(xiàn),體現(xiàn)了本研究的有效性和泛化性。
2.2.2 處理速度對(duì)比
一個(gè)好的水下圖像增強(qiáng)模型追求的不僅僅是視覺(jué)感知的增強(qiáng),而且也要考慮到模型的處理速度,這將決定該模型是否能夠應(yīng)用到實(shí)時(shí)情景中。本研究用FPS(模型處理圖片的幀率)分析當(dāng)下幾種主流的水下圖像增強(qiáng)方法和本研究方法的實(shí)時(shí)性能。試驗(yàn)后得出UCM的FPS為0.64;RGHS的FPS為1.00;UDCP的FPS為0.42;IBLA的FPS為0.18;FGAN的FPS為5.56;Deep SESR的FPS為6.25;本研究的FPS為27.55。從結(jié)果來(lái)看,基于深度學(xué)習(xí)方法的FPS都要高于傳統(tǒng)方法,其中本研究方法排在第一,而且要明顯優(yōu)于其余幾種方法的處理速度,表明本研究方法的處理速度較快,具備良好的實(shí)時(shí)性能。
2.2.3 MFE模塊SRDB數(shù)量的對(duì)比分析
對(duì)MFE模塊中每個(gè)分支提取不同層次信息的特征提取單元SRDB的數(shù)量進(jìn)行了對(duì)比試驗(yàn),驗(yàn)證MFE模塊設(shè)計(jì)的合理性。為了統(tǒng)一衡量測(cè)試集A,B的客觀(guān)對(duì)比結(jié)果,選用UIQM和NIQE評(píng)價(jià)指標(biāo),其平均值結(jié)果如圖7所示。從圖7可以明顯看出,UIQM和NIQE得分在SRDB數(shù)量為4時(shí)基本達(dá)到了最優(yōu)情況,繼續(xù)堆疊SRDB的數(shù)量也不會(huì)對(duì)模型的性能產(chǎn)生明顯的提升,而且還會(huì)加深網(wǎng)絡(luò)結(jié)構(gòu),帶來(lái)更多的內(nèi)存和時(shí)間消耗,所以MFE模塊將SRDB的數(shù)量設(shè)計(jì)為4是合理的。
圖7 SRDB數(shù)量的對(duì)比試驗(yàn)結(jié)果
2.2.4 消融試驗(yàn)
1) SRDB改進(jìn)組件的消融試驗(yàn)
為了進(jìn)一步驗(yàn)證本研究對(duì)SRDB組件改進(jìn)的有效性,對(duì)改進(jìn)部分進(jìn)行消融試驗(yàn),設(shè)計(jì)以下試驗(yàn):(a)改進(jìn)1;(b)改進(jìn)2;(c)改進(jìn)1+改進(jìn)2;(d)原RDB結(jié)構(gòu)。其客觀(guān)評(píng)價(jià)指標(biāo)表現(xiàn)如表3所示。
表3 SRDB改進(jìn)組件消融試驗(yàn)的定量比較
從表3的定量比較結(jié)果來(lái)看,本研究對(duì)RDB模塊的改進(jìn)是不會(huì)對(duì)測(cè)試集水下圖像的質(zhì)量恢復(fù)產(chǎn)生太大的負(fù)面影響,甚至部分?jǐn)?shù)據(jù)產(chǎn)生了正向作用。經(jīng)過(guò)試驗(yàn)后得出(a)的FPS為21.82;(b)的FPS為19.43;(c)的FPS為27.55;(d)的FPS為16.70。由此可見(jiàn),本研究在不損害模型性能的基礎(chǔ)之上對(duì)RDB組件的輕量化優(yōu)化是合理有效的。
2) MFE模塊和梯度差損失項(xiàng)的消融試驗(yàn)
為了進(jìn)一步驗(yàn)證本研究在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)之上改進(jìn)的每個(gè)組件的有效性,對(duì)改進(jìn)部分進(jìn)行消融試驗(yàn)。消融試驗(yàn)設(shè)計(jì)以下內(nèi)容:(a)無(wú)MFE 模塊;(b)無(wú)梯度差損失項(xiàng);(c)本研究方法。消融試驗(yàn)的主觀(guān)表現(xiàn)如圖8所示,客觀(guān)評(píng)價(jià)指標(biāo)如表4所示。
圖8 消融試驗(yàn)主觀(guān)結(jié)果
表4 消融試驗(yàn)的客觀(guān)結(jié)果
圖8所示,MFE模塊能夠校正水下圖像的對(duì)比度和顏色,尤其是對(duì)TestB的顏色校正結(jié)果尤其明顯;梯度差損失項(xiàng)能夠加強(qiáng)水下圖像的邊緣細(xì)節(jié)保持能力,使得邊緣部分更加清晰。
表4所示,本研究改進(jìn)的模塊都能夠提升水下圖像的客觀(guān)質(zhì)量評(píng)價(jià)表現(xiàn),其中MFE模塊的提升效果尤其明顯。綜合主客觀(guān)表現(xiàn),證明本研究所提組件都能夠提升水下圖像復(fù)原的效果,表明本研究改進(jìn)部分的合理有效性。
2.2.5 應(yīng)用測(cè)試
圖像增強(qiáng)的目的是給后續(xù)高層應(yīng)用提供高質(zhì)量的輸入圖像,使得高階視覺(jué)任務(wù)更容易提取圖像特征信息。采用了Canny邊緣檢測(cè)和SURF特征點(diǎn)檢測(cè)與匹配來(lái)進(jìn)一步說(shuō)明本研究的增強(qiáng)效果,結(jié)果如圖9、圖10所示。圖像的邊緣是指圖像局部區(qū)域灰度強(qiáng)度變化最顯著的部分,屬于圖像中最直觀(guān)的結(jié)構(gòu)信息,良好的邊緣信息代表著更多的細(xì)節(jié)信息,其對(duì)高級(jí)語(yǔ)義信息的提取有著重要的影響。
圖9 Canny邊緣檢測(cè)
圖10 SURF特征點(diǎn)檢測(cè)與匹配
從圖9可以看出,經(jīng)過(guò)本研究增強(qiáng)后的水下圖像 提取的邊緣更加清晰,包含更多的細(xì)節(jié)信息,而且也沒(méi)有產(chǎn)生多余的噪聲。
SURF特征屬于尺度不變特征,且具備較高的計(jì)算效率,能夠很好地反映圖像的特征表達(dá)能力。為了體現(xiàn)其尺度不變性,將圖像經(jīng)過(guò)180°旋轉(zhuǎn),變換后的圖像置于特征點(diǎn)匹配圖像的右半部分。圖10第一幅對(duì)比圖像中,原圖的特征點(diǎn)匹配數(shù)量為120,增強(qiáng)后的圖像匹配的特征點(diǎn)數(shù)量為666;圖10第二幅對(duì)比圖像中,原圖的特征點(diǎn)匹配數(shù)量為107,增強(qiáng)后的圖像匹配的特征點(diǎn)數(shù)量為205。經(jīng)過(guò)SURF特征點(diǎn)的檢測(cè)與匹配結(jié)果來(lái)看,增強(qiáng)后的圖像能夠提取和匹配更多的特征點(diǎn),進(jìn)一步說(shuō)明本研究對(duì)圖像特征的增強(qiáng)效果。
綜合canny邊緣檢測(cè)和SURF特征點(diǎn)檢測(cè)和匹配的結(jié)果來(lái)看,本研究方法能夠有效增強(qiáng)圖像的細(xì)節(jié)特征,使其語(yǔ)義信息更加豐富,有利于高階視覺(jué)任務(wù)性能的提升。
針對(duì)水下圖像視覺(jué)質(zhì)量退化和現(xiàn)有基于深度學(xué)習(xí)方法的局限性,提出了一種基于多尺度特征提取的水下圖像增強(qiáng)模型,使用公共數(shù)據(jù)集EUVP和真實(shí)養(yǎng)殖環(huán)境下拍攝的河豚圖像構(gòu)造的大規(guī)模數(shù)據(jù)集來(lái)訓(xùn)練和驗(yàn)證模型的精度。多尺度特征提取模塊構(gòu)建基本特征提取單元SRDB,堆疊SRDB模塊并使用殘差密集連接組合分層特征信息,使用3個(gè)不同尺度的并行分支提取并融合不同感受野范圍下的多層次特征信息形成多尺度特征圖。模型在損失函數(shù)中加入梯度差損失項(xiàng),加強(qiáng)對(duì)水下圖像邊緣細(xì)節(jié)的學(xué)習(xí)能力。結(jié)果表明,本研究對(duì)比其他幾種主流算法在測(cè)試集上有更好的主客觀(guān)表現(xiàn),表明所提算法能有效提高圖像清晰度和對(duì)比度,校正圖像顏色,提升圖像視覺(jué)感知。本研究整體保持為一個(gè)輕量級(jí)模型,擁有優(yōu)秀的性能之外還保持了較高的處理速度,期望為實(shí)時(shí)水下圖像增強(qiáng)做出一些參考。
□