彭小紅,梁子祥,張 軍,陳榮發(fā)
廣東海洋大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,廣東 湛江524088
地球71%的面積都是海洋,海洋與地球上每個(gè)人的生活都息息相關(guān)。我國(guó)除了國(guó)土面積遼闊,更是擁有豐富的海洋資源,其中有6 500 多個(gè)島嶼,主要分布在渤海,黃海,東海,南海附近。我國(guó)是世界上海岸線最長(zhǎng)的國(guó)家之一,大陸海岸線長(zhǎng)約18 000 千米,島嶼海岸線長(zhǎng)達(dá)14 000 千米,海岸線的總長(zhǎng)度排在世界第四。200 海里的水域面積約有250 萬(wàn)平方千米,位居世界第十,這都是世界性的優(yōu)勢(shì)[1]。隨著國(guó)家實(shí)力的日益增強(qiáng),國(guó)際社會(huì)對(duì)海洋資源開(kāi)發(fā)的不斷重視,在未來(lái),各個(gè)國(guó)家之間對(duì)于海洋資源的競(jìng)爭(zhēng)必然會(huì)越來(lái)越激烈。目前,深度學(xué)習(xí)已廣泛應(yīng)用于水產(chǎn)養(yǎng)殖[2-4]、海洋資源勘測(cè)[5-7]以及海洋災(zāi)害防治[8-9]等領(lǐng)域,同時(shí)水下圖像是海洋信息的一個(gè)重要載體,海洋資源的信息可以通過(guò)圖像進(jìn)行展示,如何將深度學(xué)習(xí)技術(shù)應(yīng)用到水下圖像中,成為一個(gè)至關(guān)重要的問(wèn)題。
水下圖像的成像環(huán)境較陸地復(fù)雜,由于水中的浮游生物、懸浮顆粒以及光照條件差等因素的影響,水下圖像會(huì)呈現(xiàn)出對(duì)比度低、顏色失真、細(xì)節(jié)模糊等問(wèn)題[10],因此對(duì)水下檢測(cè)任務(wù)提出了嚴(yán)峻的挑戰(zhàn),如何對(duì)水下圖像進(jìn)行預(yù)處理成為了許多國(guó)內(nèi)外學(xué)者迫切需要解決的問(wèn)題。近些年,國(guó)內(nèi)外有許多的學(xué)者對(duì)水下圖像預(yù)處理做過(guò)大量的研究,克服了水下圖像預(yù)處理中的種種技術(shù)難題,為水下圖像預(yù)處理技術(shù)的發(fā)展做出了顯著的貢獻(xiàn)。有一些學(xué)者已經(jīng)對(duì)水下圖像預(yù)處理的相關(guān)技術(shù)進(jìn)行了總結(jié)和歸納。林明星等[11]介紹了水下成像模型,以及水下圖像預(yù)處理的兩種方法:水下圖像復(fù)原和水下圖像增強(qiáng),總結(jié)了這兩種方法的優(yōu)缺點(diǎn),并對(duì)水下圖像處理技術(shù)的發(fā)展進(jìn)行了展望。郭繼昌等[12]指出了水下圖像退化的原因,并總結(jié)了水下圖像增強(qiáng)和復(fù)原的相關(guān)算法,并通過(guò)實(shí)驗(yàn),對(duì)不同的算法之間進(jìn)行比較。近年來(lái),隨著深度學(xué)習(xí)研究的不斷發(fā)展,深度學(xué)習(xí)被越來(lái)越多的學(xué)者應(yīng)用到水下圖像預(yù)處理領(lǐng)域,推動(dòng)了水產(chǎn)養(yǎng)殖智能化,海洋資源勘測(cè)智能化以及海洋災(zāi)害防治智能化的發(fā)展。本文將重點(diǎn)介紹基于深度學(xué)習(xí)的水下圖像預(yù)處理方法。
本文第1 章主要介紹水下圖像成像的過(guò)程并對(duì)水下圖像預(yù)處理方法進(jìn)行分類(lèi)。第2 章將傳統(tǒng)的水下預(yù)處理方法分為基于非物理模型的增強(qiáng)方法和基于物理模型的復(fù)原方法,并對(duì)這兩類(lèi)方法進(jìn)行介紹。第3章主要闡述深度學(xué)習(xí)在水下圖像預(yù)處理方面的研究應(yīng)用進(jìn)展,大致可以分為結(jié)合物理模型的方法和非物理模型的方法[13]。第4章主要介紹了深度學(xué)習(xí)方法的改進(jìn)。第5章主要指出現(xiàn)有方法存在的問(wèn)題,并對(duì)未來(lái)研究發(fā)展進(jìn)行展望。
可見(jiàn)光具有選擇吸收性,可見(jiàn)光在水下傳播時(shí),其中波長(zhǎng)較長(zhǎng)的紅光部分相較于藍(lán)光和綠光被海水吸收的更多,因此水下拍攝出來(lái)的圖像總是呈藍(lán)綠色,這樣就造成了顏色失真。另一方面,水下圖像的成像環(huán)境十分復(fù)雜,水體中漂浮著許多懸浮顆粒以及充滿(mǎn)了大量的浮游生物,光線經(jīng)過(guò)懸浮顆粒的散射,進(jìn)入成像系統(tǒng),會(huì)使得圖像的邊緣細(xì)節(jié)模糊。根據(jù)Jaffe-McGlamery的水下模型[14],水下圖像的成像過(guò)程如圖1 所示。水下圖像可以分為三個(gè)分量的線性組合,即直接衰減分量、前向散射分量和后向散射分量。直接衰減分量是經(jīng)過(guò)目標(biāo)物體反射而沒(méi)有發(fā)生散射直接進(jìn)入相機(jī)的光;前向散射分量是經(jīng)過(guò)目標(biāo)物體反射,同時(shí)反射過(guò)程中由于水中懸浮顆粒的影響發(fā)生散射而進(jìn)入到相機(jī)的光;后向散射分量是由周?chē)h(huán)境反射,并且發(fā)生散射而進(jìn)入相機(jī)的光[15]。
圖1 水下成像過(guò)程
在真實(shí)的水下圖像拍攝過(guò)程中,通常相機(jī)與目標(biāo)物體的間隔距離比較小,所以常忽略前向散射分量造成的影響,因此,得出水下成像模型[8]:
其中,Ic(x,y)表示的是相機(jī)捕捉到的水下圖像;Jc(x,y)表示的是原始的清晰水下圖像;tc(x,y)表示的是水下光傳輸率;Bc表示的是水下環(huán)境反射的光。則Jc(x,y)tc(x,y)代表了直接衰減分量,Bc(1-tc(x,y))代表了后向散射分量,同時(shí),c∈{R,G,B} 代表了不同的顏色通道。
傳統(tǒng)的圖像預(yù)處理方法可以分為基于物理模型的復(fù)原方法和基于非物理模型的增強(qiáng)方法[16]。隨著深度學(xué)習(xí)的不斷發(fā)展,其在圖像預(yù)處理領(lǐng)域也發(fā)揮出了巨大的作用。根據(jù)是否與物理模型相結(jié)合,基于深度學(xué)習(xí)的水下圖像預(yù)處理劃分為兩類(lèi):一類(lèi)結(jié)合了物理模型,將成像模型和數(shù)據(jù)驅(qū)動(dòng)結(jié)合,實(shí)現(xiàn)了圖像的復(fù)原;一類(lèi)是沒(méi)有結(jié)合物理模型,僅僅依靠數(shù)據(jù)驅(qū)動(dòng)對(duì)圖像進(jìn)行恢復(fù)。按照所采用的模型不同,結(jié)合物理模型的方法又可以分為基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的方法和基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的方法。同樣的,非物理模型的方法也可以分為基于CNN 的方法和基于GAN的方法。如圖2是水下圖像預(yù)處理方法分類(lèi)圖。
圖2 水下圖像預(yù)處理方法分類(lèi)圖
基于物理模型的復(fù)原方法,需要考慮圖像退化的過(guò)程。該方法需要對(duì)水下圖像的退化過(guò)程進(jìn)行數(shù)學(xué)建模,并估計(jì)模型的參數(shù),即tc(x,y)和Bc,最后根據(jù)模型逆轉(zhuǎn)水下圖像的退化過(guò)程,得到清晰的水下圖像Jc(x,y)。將復(fù)原方法進(jìn)一步細(xì)分,又可以分為基于先驗(yàn)知識(shí)的方法、偏振成像方法和立體成像方法。基于先驗(yàn)知識(shí)的方法也被認(rèn)為是軟件的方法,該類(lèi)方法投資成本低,并且易于使用[16]。偏振成像方法和立體成像方法屬于硬件的方法,利用硬件設(shè)備對(duì)水下圖像進(jìn)行恢復(fù),所用的硬件設(shè)備是傳感器、偏振器和立體成像設(shè)備。
2.1.1 基于先驗(yàn)知識(shí)的方法
基于先驗(yàn)知識(shí)的方法主要有暗通道先驗(yàn)方法(Dark Channel Prior,DCP)以及DCP 算法的一些變體。DCP算法是一種基于Jaffe-McGlamery 模型的算法,由He等[17]人于2009年提出,該算法的目的在于準(zhǔn)確地估計(jì)傳輸圖(Transmission Map,TM)和背景光(Background Light,BL)。DCP 算法一經(jīng)提出便引起轟動(dòng),后續(xù)有許多研究人員在DCP 算法的基礎(chǔ)上進(jìn)行改進(jìn)[18-22]。除了DCP 算法,還有一些其他的算法被用于水下圖像的復(fù)原。Carlevaris 等[23]提出了最大強(qiáng)度先驗(yàn)(Maxmum Intensity Prior,MIP)算法;Peng 等[24]提出了模糊先驗(yàn)(Blurred Prior,BP)算法;Song 等[25]提出了水下光衰減先驗(yàn)(Underwater Light Attenuation Prior,ULAP)算法,這些算法都可以準(zhǔn)確地估計(jì)TM和BL。當(dāng)先驗(yàn)知識(shí)不準(zhǔn)確時(shí),基于先驗(yàn)知識(shí)的方法往往會(huì)導(dǎo)致較大的估計(jì)誤差。水下圖像缺乏可靠的先驗(yàn)知識(shí),已經(jīng)成為阻礙該方向研究的一大障礙。
2.1.2 偏振成像方法
偏振是指橫波的振動(dòng)矢量偏于某些方向的現(xiàn)象,是光的固有屬性,它能提供比顏色和光強(qiáng)分布更具有價(jià)值的信息。通過(guò)在同一水下場(chǎng)景的不同偏振狀態(tài)下收集偏振圖像,水下偏振成像技術(shù)可以準(zhǔn)確地估計(jì)偏振特征的反向散射光,因此在反相退化過(guò)程中,獲取背景散射光強(qiáng)度和透射系數(shù),提高圖像的清晰度。Schechner等[26]人首先使用偏振成像方法對(duì)水下圖像進(jìn)行處理,后人在其基礎(chǔ)上也做了大量相關(guān)的研究和改進(jìn)[27-32]。偏振成像方法可以在不計(jì)算環(huán)境參數(shù)或自然光的情況下恢復(fù)場(chǎng)景的結(jié)構(gòu)信息,提高圖像的可見(jiàn)性,但對(duì)水下運(yùn)動(dòng)物體進(jìn)行采集圖像信息時(shí),很難采集到相同的偏振圖像。
2.1.3 立體成像方法
立體成像技術(shù)是在海床上放置立體攝像機(jī)來(lái)捕捉圖像。近年來(lái),3D圖像技術(shù)發(fā)展迅速,但是使用立體圖像技術(shù)對(duì)水下圖像進(jìn)行處理的研究還較少。Roser 等人[33]于2014 提出了用于自主水下航行器(Autonom-ous Underwater Vehicle,AUV)的立體成像方法,主要是通過(guò)估計(jì)能見(jiàn)度系數(shù)來(lái)恢復(fù)水下圖像。Lee等人[34]提出了一種利用立體霧日?qǐng)D像提取去霧圖像的新方法,主要是通過(guò)計(jì)算散射系數(shù)和深度信息來(lái)估計(jì)水下圖像的TM。立體成像方法不需要先驗(yàn)知識(shí),也不需要在不同時(shí)間拍攝大量圖像,由于估計(jì)的視差層在遠(yuǎn)景物中表現(xiàn)為不連續(xù)現(xiàn)象,無(wú)法獲得自然景物的結(jié)構(gòu)信息。
三種復(fù)原方法其原理和屬性的不同,則其適用的場(chǎng)景也有所不同?;谙闰?yàn)知識(shí)的方法其成本低廉,算法簡(jiǎn)單,但是需要估計(jì)大量參數(shù),這些參數(shù)會(huì)隨場(chǎng)景的變化而變化,因此可以嵌入至小型嵌入式設(shè)備中用于水產(chǎn)養(yǎng)殖監(jiān)控。偏振成像方法和立體成像方法需要特殊的硬件設(shè)備,因此成本較高,由于偏振成像方法難以采集到運(yùn)動(dòng)物體的相同偏振圖像,可以用于海底生態(tài)環(huán)境或者珊瑚群的監(jiān)控。立體成像方法不需要在不同時(shí)間拍攝大量圖像,可用于海洋軍事領(lǐng)域[33]。
水下圖像的增強(qiáng)方法不考慮圖像的成像過(guò)程,也無(wú)需考慮成像模型的一系列參數(shù),直接運(yùn)用圖像處理的方法,通過(guò)主觀去調(diào)整圖像中的像素值,從而消除噪聲,改善邊緣模糊,加強(qiáng)目標(biāo)物體的特征,削弱不相干環(huán)境特征對(duì)目標(biāo)的影響。近年來(lái),研究人員提出了許多水下圖像的增強(qiáng)方法,如直方圖均衡化方法、顏色校正方法、基于融合的方法等。
2.2.1 直方圖均衡化方法
直方圖表示圖像的色調(diào)分布。直方圖均衡化是一種典型的圖像增強(qiáng)方法,常被用來(lái)解決低對(duì)比度問(wèn)題。Hummel[35]于1977年提出通過(guò)改變直方圖的分布來(lái)增強(qiáng)圖像,自此直方圖均衡化受到研究者廣泛關(guān)注。在其基礎(chǔ)上,Pizer 等[36]提出了自適應(yīng)直方圖均衡化(Adaptive Histogram Equalization,AHE);Kim 等[37]提出了局部直方圖均衡化(Local Histogram Equalization,LHE);Reza等[38]提出了對(duì)比度受限自適應(yīng)直方圖均衡化(Contrast Limited Adaptive Histogram Equalization,CLAHE),還有一些相關(guān)的演變算法[39-42]。直方圖均衡化方法雖然可以提高圖像的對(duì)比度,但是由于沒(méi)有考慮水下光學(xué)成像模型,會(huì)引入一些額外的噪聲。在需要提高對(duì)比度的場(chǎng)景下,可作為復(fù)原方法的后處理使用。
2.2.2 顏色校正方法
直方圖均衡化方法可以解決水下圖像對(duì)比度低的問(wèn)題,但是不能解決顏色失真的問(wèn)題,顏色校正方法中白平衡方法和Retinex 方法可以很好地解決該問(wèn)題。白平衡方法的目的是為了消除可見(jiàn)光在水下的選擇吸收性而引起的色移,常見(jiàn)的方法有MaxRGB[43]、灰度世界假設(shè)[44]、自動(dòng)白平衡[45]以及一些其他的方法[46-48]。Retinex 方法在1963 年就被提出,該方法模擬了人類(lèi)視覺(jué)的感知機(jī)制,通過(guò)對(duì)場(chǎng)景中光照的估計(jì),實(shí)現(xiàn)色彩的恒定。常見(jiàn)的方法有單尺度Retinex 算法(Single Scale Retinex,SSR)[49]、多尺度加權(quán)平均Retinex 算法(Multi-Scale Retinex,MSR)[50]、帶彩色恢復(fù)的多尺度Retinex算法(Multi-Scale Retinex with Color Restoration,MSRCR)[51]以及一些其他相關(guān)的方法[52-55]。
2.2.3 基于融合的方法
基于融合的方法采用融合策略將具有不同特征的圖像進(jìn)行融合。Ancuti 等[56]首先提出融合的方法對(duì)水下圖像和視頻進(jìn)行增強(qiáng),該方法可以很好地解決顏色失真的問(wèn)題和提高對(duì)比度。近年來(lái),有許多研究者在其基礎(chǔ)上做了大量的改進(jìn)[57-59]?;谌诤系姆椒ú捎枚喑叨热诤喜呗?,可以有效避免線性融合造成的暈影,從而增強(qiáng)圖像,但是該方法忽視了物理模型,在圖像的不同區(qū)域會(huì)造成過(guò)飽和的現(xiàn)象。
增強(qiáng)方法可以方便快速地提高水下圖像的視覺(jué)效果,但是由于沒(méi)有考慮物理模型,不能完全解決圖像的退化問(wèn)題,噪聲、顏色失真、暈影的問(wèn)題依舊存在。三種增強(qiáng)方法由于其原理不同,適用的場(chǎng)景也有所不同。直方圖均衡化方法常用在需要提高圖像對(duì)比度的場(chǎng)景,比如水下考古[60]。顏色校正方法可以很好地解決顏色失真的問(wèn)題,常被應(yīng)用在水下堤壩裂縫檢測(cè)[61]、河蟹[62]、海膽[63]等識(shí)別。基于融合的方法可以避免暈影的產(chǎn)生,常被應(yīng)用于水下機(jī)器人[64]以及海參[65]識(shí)別。
近些年來(lái),深度學(xué)習(xí)方面的研究取得重大進(jìn)展。由于深度學(xué)習(xí)強(qiáng)大的特征學(xué)習(xí)能力,常常被應(yīng)用于各類(lèi)視覺(jué)任務(wù)中,本章主要介紹基于深度學(xué)習(xí)的水下圖像預(yù)處理方法。根據(jù)是否與物理模型相結(jié)合,可以分為物理模型的深度學(xué)習(xí)方法和非物理模型的深度學(xué)習(xí)方法。
通常在特定的數(shù)據(jù)集中,基于深度學(xué)習(xí)的方法具有強(qiáng)大的學(xué)習(xí)能力,其性能優(yōu)于傳統(tǒng)的基于物理模型的方法。但是,當(dāng)測(cè)試圖像和訓(xùn)練圖像之間的域間隙較大時(shí),性能會(huì)降低。此外,部分網(wǎng)絡(luò)缺乏物理模型的約束,網(wǎng)絡(luò)會(huì)生成意外的偽像,這對(duì)圖像質(zhì)量和后續(xù)的視覺(jué)任務(wù)有害;另一方面,對(duì)于基于物理模型的方法,估計(jì)模型中的圖像衰減系數(shù)并非易事,其中神經(jīng)網(wǎng)絡(luò)可能是推斷參數(shù)和學(xué)習(xí)潛在相關(guān)因素的重要工具。因此,將這些方法結(jié)合起來(lái)將具有顯著的效果。
3.1.1 CNN與物理模型相結(jié)合的方法
CNN模型最早是由日本學(xué)者福島邦彥于1982年提出[66-67]。經(jīng)過(guò)多年的研究和發(fā)展,CNN模型逐漸發(fā)展成為深度學(xué)習(xí)的代表算法之一,常被應(yīng)用于各類(lèi)視覺(jué)任務(wù)之中。CNN 模型的主要結(jié)構(gòu)是輸入層、卷積層、池化層、全連接層和輸出層。在輸入層輸入數(shù)據(jù),通過(guò)卷積層和池化層提取數(shù)據(jù)中的特征,最后在輸出層對(duì)不同特征進(jìn)行分類(lèi)輸出,從而實(shí)現(xiàn)不同任務(wù)[68]。
CNN結(jié)合物理模型的方法也被稱(chēng)為基于CNN的復(fù)原方法。該方法主要是通過(guò)構(gòu)建CNN 模型并訓(xùn)練,在輸入層輸入一張水下圖像,輸出層輸出該水下圖像的TM和BL,將TM和BL代入至水下成像模型中,經(jīng)過(guò)反演得到真實(shí)清晰的水下圖像。主要流程如圖3所示。
圖3 基于CNN的復(fù)原方法
傳統(tǒng)的物理模型方法常常要基于一些先驗(yàn)知識(shí),這種方法估計(jì)出來(lái)的TM以及BL會(huì)受到人為主觀因素的干擾,并不是十分準(zhǔn)確。由CNN 網(wǎng)絡(luò)得出的TM 和BL具有更好的準(zhǔn)確性,因此可以反演出更清晰真實(shí)的水下圖像。為了解決水下圖像顏色失真和霧化問(wèn)題,Cao等人[69]提出了兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用以估計(jì)TM和BL,為了估計(jì)BL,采用了一個(gè)五層CNN,該網(wǎng)絡(luò)前三層是卷積層,具有5×5、5×5和3×3的篩選器大小,每個(gè)層具有2×2的池化層和規(guī)范化層,最后兩個(gè)圖層完全連接,并輸出BL。為了估計(jì)TM,提出了一個(gè)多比例架構(gòu),該架構(gòu)堆疊了兩個(gè)深度網(wǎng)絡(luò),分別是粗糙的全局網(wǎng)絡(luò)和精煉網(wǎng)絡(luò)。粗糙的全局網(wǎng)絡(luò)首先具有五個(gè)卷積層,前兩個(gè)卷積層具有2×2的池化層和規(guī)范化層,最后一個(gè)卷積層只有2×2的池化層。全局網(wǎng)絡(luò)的最后兩層是完全連接層,網(wǎng)絡(luò)的輸出與精煉網(wǎng)絡(luò)第一層的輸出進(jìn)行串聯(lián)。精煉網(wǎng)絡(luò)有三個(gè)卷積層和一個(gè)上采樣層,最后一個(gè)卷積層之前放置一個(gè)上采樣層,期望上采樣要素圖,網(wǎng)絡(luò)的最終輸出是預(yù)測(cè)的TM。Cai 等[70]人提出了一種端到端的去霧模型(Dispel Haze Networks,DehazeNet),該模型以模糊圖像作為輸入,輸出TM,并通過(guò)大氣模型對(duì)水下圖像進(jìn)行恢復(fù)。該模型采用了深層次的CNN 架構(gòu),并提出了一個(gè)新的非線性激活函數(shù),稱(chēng)為雙側(cè)校正線性單元(Bilateral Rectified Linear Unit,BReLU),以提高模型的收斂性。
結(jié)合殘差學(xué)習(xí),Hou等人[71]提出了水下殘差卷積神經(jīng)網(wǎng)絡(luò)模型(Underwater Residual Convolutional Neural Neworks,URCNN)用于水下圖像復(fù)原。該網(wǎng)絡(luò)將水下圖像復(fù)原任務(wù)分為了TM學(xué)習(xí)和場(chǎng)景殘差學(xué)習(xí),其模型結(jié)構(gòu)包括了用于TM 估計(jì)的數(shù)據(jù)驅(qū)動(dòng)殘差架構(gòu)和用于水下照明平衡的知識(shí)驅(qū)動(dòng)場(chǎng)景殘差公式。因此,該方法可以匯總先驗(yàn)知識(shí)和數(shù)據(jù)信息,推測(cè)出潛在的水下圖像分布。將先驗(yàn)知識(shí)和數(shù)據(jù)信息整合在一起,旨在學(xué)習(xí)精確的傳輸圖。在訓(xùn)練過(guò)程中,采用殘差學(xué)習(xí)策略的制定和批次規(guī)范化以提高學(xué)習(xí)效果。最后基于灰度世界假設(shè)和多尺度局部最大飽和度的特征,提出了一種有效的照明平衡解決方案來(lái)矯正圖像顏色?;贑NN 的復(fù)原方法考慮了圖像的退化過(guò)程,使得模型更具解釋性,但同時(shí)也受到物理模型的限制,其魯棒性和適應(yīng)性較差。
3.1.2 GAN與物理模型相結(jié)合的方法
GAN 被廣泛認(rèn)為是近年來(lái)最重要的想法之一[72]。在2016 年,Yann LeCun 甚至說(shuō)這是“近十年來(lái)機(jī)器學(xué)習(xí)中最有趣的想法”。GAN主要由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成:一個(gè)試圖生成看起來(lái)與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù)的生成器,另一個(gè)試圖從虛假數(shù)據(jù)中分辨出真實(shí)數(shù)據(jù)的判別器。生成器和判別器之間相互博弈,生成器不斷生成與訓(xùn)練數(shù)據(jù)相似的數(shù)據(jù)去“欺騙”判別器,判別器則判斷該數(shù)據(jù)的真假,如果無(wú)法欺騙判別器,則繼續(xù)訓(xùn)練生成器,直至判別器無(wú)法辨別數(shù)據(jù)的真假。
GAN與物理模型相結(jié)合的方法也被稱(chēng)為基于GAN的復(fù)原方法。該方法主要是將物理模型作為設(shè)計(jì)生成器的指導(dǎo),通過(guò)生成器合成水下圖像,并將合成的水下圖像送入判別器中進(jìn)行判斷,最終得到復(fù)原后的圖像,其主要流程如圖4所示。
圖4 基于GAN的復(fù)原方法
Li 等人[73]提出了一種基于學(xué)習(xí)的單目水下圖像顏色校正生成對(duì)抗模型(Water Generative Advsarial Networks,Water-GAN),該模型使用了兩階段策略來(lái)最終消除水下圖像中的顏色失真問(wèn)題,并應(yīng)用于水下巖石資源圖片的顏色處理。首先,WaterGAN將空中的RGB-D圖像和一組水下圖像樣本作為輸入,WaterGAN 的生成器具有三個(gè)主要階段,每個(gè)階段都是以水下圖像的物理形成過(guò)程進(jìn)行建模:衰減(G-I)、散射(G-II)、相機(jī)模型(G-III),此結(jié)構(gòu)的目的是確保生成的圖像與輸入的RGB-D圖像的基礎(chǔ)結(jié)構(gòu)相同。通過(guò)生成器生成相應(yīng)的合成水下圖像作為輸出。然后,將合成的水下圖像和水下圖像樣本都輸入到顏色校正網(wǎng)絡(luò)中對(duì)圖像色彩進(jìn)行恢復(fù)。Lu 等人[74]提出使用多尺度循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Multi-scale Cycle Generative Adversarial Networks,MCycleGAN)對(duì)水下圖像進(jìn)行復(fù)原。該方法是將DCP算法與循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Cycle Generative Adversarial Networks,CycleGAN)結(jié)合,首先通過(guò)DCP 算法得到圖像的TM,然后將TM送入到CycleGAN網(wǎng)絡(luò)中進(jìn)行多尺度計(jì)算,通過(guò)結(jié)構(gòu)相似性指標(biāo)度量值(Structural Similarity Index Measure,SSIM)損失可以使輸入與輸出的圖像的內(nèi)容與結(jié)構(gòu)相似,得到更清晰的水下圖像。
由于有條件信息,條件生成對(duì)抗網(wǎng)絡(luò)(conditional Generative Adversarial Networks,cGAN)[75]比原始GAN具有更好的穩(wěn)定性和更強(qiáng)大的表示能力,尤其是對(duì)于生成逼真圖像的圖像增強(qiáng)和恢復(fù)任務(wù)而言。在cGAN 模型框架基礎(chǔ)下,Liu 等人[76]提出了一種用于水下圖像復(fù)原的新型物理模型集成網(wǎng)絡(luò)框架,并對(duì)水下ImageNet數(shù)據(jù)集中的魚(yú)類(lèi)及潛水員圖片進(jìn)行了處理,證明了該方法在實(shí)際應(yīng)用中具有巨大發(fā)展前景。該框架基于Akkaynak-Treibitz物理模型[77]和最新的全局和局部特征融合網(wǎng)絡(luò)[78]進(jìn)行設(shè)計(jì),此網(wǎng)絡(luò)設(shè)計(jì)與當(dāng)前現(xiàn)有的網(wǎng)絡(luò)明顯不同,Akkaynak-Treibitz 物理圖像退化模型被認(rèn)為是設(shè)計(jì)生成器的指導(dǎo),通過(guò)生成器網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)圖像退化模型中的參數(shù)和系數(shù),以重建清晰的水下圖像,并將重建的水下圖像送入判別器中進(jìn)行判別,最終輸出清晰的水下圖像?;贕AN的復(fù)原方法可以很好地恢復(fù)圖像的顏色特征,解決顏色失真的問(wèn)題,但由于網(wǎng)絡(luò)體系結(jié)構(gòu)復(fù)雜,訓(xùn)練將耗費(fèi)大量時(shí)間,實(shí)際使用時(shí)受到一定的限制。
水下環(huán)境十分復(fù)雜,不同的水域其水下環(huán)境都有所不同,傳統(tǒng)的基于物理模型的方法對(duì)不同水域的適應(yīng)性極差。當(dāng)深度學(xué)習(xí)與物理模型相結(jié)合時(shí),會(huì)受到物理模型的約束,降低其適應(yīng)性,非物理模型的深度學(xué)習(xí)方法則在適應(yīng)性方面具有較好的表現(xiàn)。
3.2.1 非物理模型的CNN方法
非物理模型的CNN方法其主要核心是構(gòu)建深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架和損失函數(shù),通過(guò)CNN 模型的強(qiáng)大學(xué)習(xí)能力,將相機(jī)捕獲到的原始水下圖像送入到網(wǎng)絡(luò)模型中,在輸出層輸出真實(shí)清晰的水下圖像。這種方法不需要建立數(shù)學(xué)模型,擺脫了各種先驗(yàn)知識(shí)和前提條件的限制,通過(guò)CNN 模型直接學(xué)習(xí)原始水下圖像和真實(shí)水下圖像的直接映射關(guān)系。非物理模型的CNN方法也被稱(chēng)為基于CNN的增強(qiáng)方法,其流程如圖5所示。
圖5 基于CNN的增強(qiáng)方法
Sun 等人[79]提出了一個(gè)具有編碼器-解碼器結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(Encoder Decoder Alexnet,ED-Alex-net),ED-Alexnet 可以自發(fā)地學(xué)習(xí)低質(zhì)量水下圖像和高質(zhì)量水下圖像之間的映射規(guī)律,以端到端自適應(yīng)的方式實(shí)現(xiàn)圖像增強(qiáng),而不考慮物理環(huán)境。該模型是一個(gè)編碼解碼對(duì)稱(chēng)的網(wǎng)絡(luò),主要由兩個(gè)部分組成,分別是卷積層和去卷積層,卷積層作為編碼,而去卷積層作為解碼。在卷積層通過(guò)多對(duì)一的映射操作,過(guò)濾圖像的噪聲并保留了關(guān)鍵的特征,在去卷積層通過(guò)一對(duì)多的映射操作,恢復(fù)對(duì)應(yīng)卷積層缺失的細(xì)節(jié)。Wang等人[80]提出了一個(gè)基于CNN的水下圖像增強(qiáng)網(wǎng)絡(luò)(Underwater Image Enhancement Networks,UIE-Net)。UIE-Net網(wǎng)絡(luò)主要由兩個(gè)子網(wǎng)絡(luò)組成,分別是顏色校正子網(wǎng)絡(luò)(Color Correction Networks,CC-Net)和去霧子網(wǎng)絡(luò)(Haze Removal Networks,HR-Net),該網(wǎng)絡(luò)利用像素中斷策略顯著提高了網(wǎng)絡(luò)的收斂速度,通過(guò)統(tǒng)一訓(xùn)練的方式實(shí)現(xiàn)了水下圖像的顏色矯正和去霧。
一般情況下,很難獲取到清晰的水下圖像,為了使訓(xùn)練能正常進(jìn)行,通常采用合成的圖像,合成的圖像與真實(shí)圖像具有一定差別,所以此類(lèi)方法具有一定局限性。Yeh等人[81]提出了一種基于色相保留的深度學(xué)習(xí)框架,該框架包含用于水下圖像顏色恢復(fù)的三個(gè)卷積神經(jīng)網(wǎng)絡(luò)。首先,使用第一個(gè)CNN 網(wǎng)絡(luò)將輸入的水下圖像轉(zhuǎn)換為灰度圖像,再通過(guò)第二個(gè)CNN 網(wǎng)絡(luò)增強(qiáng)灰度水下圖像,然后通過(guò)第三個(gè)CNN 網(wǎng)絡(luò)對(duì)輸入的水下圖像進(jìn)行顏色校正,最后通過(guò)色相保留對(duì)三個(gè)CNN 網(wǎng)絡(luò)的輸出進(jìn)行融合,可以獲得色彩校正的圖像。用于水下圖像處理的CNN網(wǎng)絡(luò)其主要問(wèn)題在于水下訓(xùn)練圖像太少,并且缺少相應(yīng)的地面真實(shí)圖像,因此其使用CycleGAN來(lái)訓(xùn)練水下CNN網(wǎng)絡(luò),該方法將三個(gè)CycleGAN組合在一起,可以同時(shí)訓(xùn)練三個(gè)CNN 網(wǎng)絡(luò),以共享回歸狀態(tài),使得三個(gè)CNN 網(wǎng)絡(luò)互相支持,從而避免訓(xùn)練過(guò)擬合且沒(méi)有約束?;贑NN的增強(qiáng)方法的主要目標(biāo)是忠于原始圖像,由于其完全依賴(lài)訓(xùn)練數(shù)據(jù)的特點(diǎn),當(dāng)面對(duì)不同水域類(lèi)型或退化程度的圖像時(shí),性能會(huì)降低。
3.2.2 非物理模型的GAN方法
GAN 是一種數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練方式,如今常被應(yīng)用于圖片生成和風(fēng)格學(xué)習(xí)的任務(wù)中,在水下圖像預(yù)處理領(lǐng)域也有廣泛的應(yīng)用。非物理模型的GAN方法也被稱(chēng)為基于GAN的增強(qiáng)方法,其與基于GAN的復(fù)原方法的主要區(qū)別是生成器:基于GAN 的復(fù)原方法的生成器是由物理模型指導(dǎo)設(shè)計(jì)的,受到物理模型的限制,基于GAN的增強(qiáng)方法其生成器一般是編碼器-解碼器結(jié)構(gòu)。其流程圖如圖6所示。
圖6 基于GAN的增強(qiáng)方法
水下環(huán)境復(fù)雜,獲取水下成對(duì)的圖像需要耗費(fèi)大量的人力物力。Zhu 等人[82]基于端到端的思想,提出了CycleGAN 模型,該模型不需要配對(duì)數(shù)據(jù)即可進(jìn)行訓(xùn)練。對(duì)于水下圖像的增強(qiáng)任務(wù),經(jīng)過(guò)Fabbri等人[83]的實(shí)驗(yàn)驗(yàn)證,證明了CycleGAN在水下圖像的增強(qiáng)任務(wù)中是有效的,因此解決了模型需要成對(duì)數(shù)據(jù)訓(xùn)練的難題。近年來(lái),CycleGAN 已經(jīng)被廣泛地應(yīng)用于水下圖像預(yù)處理任務(wù)中。在CycleGAN 的基礎(chǔ)上,Han 等人[84]提出了一種端到端的螺旋生成對(duì)抗模型(Spiral Generative Adversarial Networks,Spiral-GAN),用于水下圖像增強(qiáng)任務(wù)以恢復(fù)水下圖像。該模型具有許多卷積-去卷積塊生成器,可以在原始的水下圖像中保留更多有意義的細(xì)節(jié)。同時(shí)還采用了由均方誤差和角度誤差組成的像素級(jí)損失函數(shù)來(lái)穩(wěn)定地訓(xùn)練模型,以克服過(guò)度曝光不足問(wèn)題和避免顏色失真。Liu等人[85]提出了一種基于深度殘差模型的水下圖像增強(qiáng)解決方法,與其他基于深度學(xué)習(xí)的增強(qiáng)方法不同,該方法專(zhuān)注于生成對(duì)抗網(wǎng)絡(luò)與弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)之間的合作,旨在建立更深的網(wǎng)絡(luò)并改善水下圖像增強(qiáng)的性能。首先采取Cycle-GAN 網(wǎng)絡(luò)生成大約4 000 張合成的水下圖像,作為水下圖像增強(qiáng)的訓(xùn)練集。其次,根據(jù)殘差學(xué)習(xí)的思想提出了水下殘差網(wǎng)絡(luò)(Underwater Residual networks,UResnet)用于水下圖像增強(qiáng),同時(shí)提出了邊緣差損失[86](Edge Difference Loss,EDL)以提高深度學(xué)習(xí)網(wǎng)絡(luò)的細(xì)節(jié)增強(qiáng)能力。Li 等人[87]根據(jù)圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)的最新研究進(jìn)展提出了一種弱監(jiān)督的顏色傳遞方法,以糾正顏色失真。該方法的目標(biāo)是學(xué)習(xí)源域(即水下)和目標(biāo)域(即空氣)之間的映射關(guān)系,模型包括了前向和后向兩個(gè)映射,以及兩個(gè)判別器。受CycleGAN 的啟發(fā),設(shè)計(jì)了一個(gè)多端損耗函數(shù),包括對(duì)抗性損耗、周期一致性損耗和結(jié)構(gòu)相似性指數(shù)測(cè)量損耗,這使得輸出的內(nèi)容和結(jié)構(gòu)與輸入相同,同時(shí)輸出圖像的顏色與陸地拍攝的圖像顏色相似。
cGAN 比原始的GAN 具有更強(qiáng)的表示能力,也被研究人員應(yīng)用于水下圖像的增強(qiáng)任務(wù)中。Yang 等人[88]提出了基于cGAN 的方法解決水下圖像增強(qiáng)問(wèn)題,該方法的cGAN 網(wǎng)絡(luò)由多尺度生成器和雙重判別器組成,多尺度生成器包括多尺度特征提取單元、特征細(xì)化單元和殘差圖估計(jì)單元,可以生成清晰的水下圖像。雙重判別器包括了兩個(gè)子判別器,子判別器的網(wǎng)絡(luò)結(jié)構(gòu)相同但權(quán)值不同,目的是使判別器能夠引導(dǎo)生成器生成全局語(yǔ)義級(jí)別和局部細(xì)節(jié)級(jí)別的真實(shí)圖像。在訓(xùn)練階段,將一批水下圖像輸入到多尺度生成器中可以輸出相應(yīng)的殘差圖,殘差圖添加至輸入的水下圖像后,可以獲得潛在的清晰圖像。將結(jié)果送至雙重判別器,然后判別器在不同的尺度下判斷生成的結(jié)果是真還是假。在推斷階段,通過(guò)多尺度生成器以端到端的方式增強(qiáng)輸入的水下圖像。基于GAN 的增強(qiáng)方法的主要目標(biāo)是提高圖像的感知質(zhì)量,但由于未考慮水下圖像退化過(guò)程,所以不能完全恢復(fù)圖像的一些物理特征,噪聲可能依舊存在。
傳統(tǒng)算法及深度學(xué)習(xí)算法比較見(jiàn)如表1所示。
表1 各種算法比較
深度學(xué)習(xí)方法為了提高水下圖像的恢復(fù)質(zhì)量,不斷增加模型深度,WaterGAN[73]可以很好地復(fù)原圖像,解決顏色失真問(wèn)題,但其網(wǎng)絡(luò)深度有42 層,模型結(jié)構(gòu)復(fù)雜。該類(lèi)方法在實(shí)驗(yàn)室取得了令人矚目的成績(jī),但在實(shí)際應(yīng)用中受到了一定的限制。小型嵌入式設(shè)備計(jì)算能力有限,但在實(shí)際應(yīng)用中更為廣泛,因此輕量化的深度學(xué)習(xí)方法也是研究的一大熱點(diǎn)之一。
結(jié)合物理模型,Li等人[89]提出了水下圖像增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)模型(Uderwater Convolutional Neural Neworks,UWCNN),該模型網(wǎng)絡(luò)深度有10層,同時(shí)采用塊結(jié)構(gòu)和殘差學(xué)習(xí)策略,可以有效地復(fù)原圖像。候岷君[90]提出了一種數(shù)據(jù)與先驗(yàn)聚合的傳輸網(wǎng)絡(luò)(Data-and-Prior-Aggregated Transmission Networks,DPAT-N),該網(wǎng)絡(luò)利用了特定領(lǐng)域知識(shí),從而獲得更準(zhǔn)確的TM,且該網(wǎng)絡(luò)深度只有6層,是一個(gè)輕量級(jí)的模型。
不結(jié)合物理模型,F(xiàn)u 等人[91]提出了全局-本地網(wǎng)絡(luò)(Global-Local Networks,GLNet),該模型網(wǎng)絡(luò)深度只有4層,與壓縮直方圖均衡化配合使用,可以有效地恢復(fù)水下圖像。Sun等人[92]提出了像素到像素網(wǎng)絡(luò)(Pixel to Pixel Networks,P2PNet),該模型網(wǎng)絡(luò)深度有6 層,并采用了編碼器-解碼器的體系結(jié)構(gòu)對(duì)水下圖像進(jìn)行增強(qiáng)。Fabbri等人[83]提出了一種水下生成對(duì)抗網(wǎng)絡(luò)(Underwater Generative Adversarial Networks,UGAN),該模型的網(wǎng)絡(luò)深度為9層,其生成器受CycleGAN啟發(fā)設(shè)計(jì),判別器是完全卷積的。Li 等[93]人提出了融合生成對(duì)抗網(wǎng)絡(luò)(Fusion Generative Adversarial Networks,F(xiàn)GAN),該模型的網(wǎng)絡(luò)深度有8 層,可以接受多個(gè)輸入,并將其通過(guò)同一個(gè)網(wǎng)絡(luò)的不同分支,其生成器是基本的塊結(jié)構(gòu),判別器由采用頻譜歸一化的卷積層組成。
輕量化算法比較如表2所示。
表2 輕量化算法比較
盡管現(xiàn)在深度學(xué)習(xí)的方法已經(jīng)取得了較好的成果,但在實(shí)際情況中,這些方法的適應(yīng)性和魯棒性仍有很大的欠缺。由先驗(yàn)驅(qū)動(dòng)的水下圖像增強(qiáng)模型需要特定的領(lǐng)域知識(shí),當(dāng)其假設(shè)在該場(chǎng)景不匹配時(shí),該方法可能會(huì)失效,另一方面,純數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法,其網(wǎng)絡(luò)的性能與訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量緊密相連,由于完全依靠數(shù)據(jù)驅(qū)動(dòng),當(dāng)訓(xùn)練圖像和測(cè)試圖像的域間隙較大時(shí),模型將在不同色偏,渾濁度的圖像上失敗。目前對(duì)深度學(xué)習(xí)方法魯棒性和適應(yīng)性改進(jìn)的研究比較少,主要有兩個(gè)改進(jìn)方向:一是通過(guò)改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu),使模型能夠適應(yīng)各種水下環(huán)境;二是采用覆蓋面更廣的訓(xùn)練集。
改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的方法主要有兩種方式,一種是采用編碼器-解碼器結(jié)構(gòu),利用編碼器學(xué)習(xí)與海水類(lèi)型無(wú)關(guān)的圖像特征,解碼器通過(guò)這些特征還原清晰的水下圖像。Chen 等人[94]提出了一種基于GAN 的復(fù)原方案(GANRecovery Scheme,GAN-RS),該方法的生成器采用了編碼器-解碼器結(jié)構(gòu),并開(kāi)發(fā)了一個(gè)包括對(duì)抗分支和批評(píng)分支的多分支判別器,以同時(shí)去除水下噪聲和保持圖像內(nèi)容,為了訓(xùn)練批評(píng)分支還提出了水下索引損失函數(shù)。除了對(duì)抗學(xué)習(xí),通過(guò)一種新穎的暗通道先驗(yàn)損失也促使了生成器產(chǎn)生更真實(shí)的圖像。張墨華[95]提出了一種判別式學(xué)習(xí)的水下圖像復(fù)原模型,稱(chēng)為URM_AEDN,該模型基于結(jié)合對(duì)抗學(xué)習(xí)的編碼器-解碼器網(wǎng)絡(luò),采用了監(jiān)督學(xué)習(xí)的方式。URM_AEDN 網(wǎng)絡(luò)由三部分組成:編碼器、解碼器、判別器。編碼器提取圖像特征,解碼器根據(jù)特征復(fù)原圖像,判別器判別海水類(lèi)型,編碼器與判別器互相博弈進(jìn)化,最終達(dá)到均衡。另一種是采用域自適應(yīng)機(jī)制,通過(guò)將測(cè)試的水下圖像和訓(xùn)練的數(shù)據(jù)集特征相結(jié)合,消除訓(xùn)練圖像和測(cè)試圖像之間的域間隙,提高模型的魯棒性和適應(yīng)性。Zhou 等人[96]提出了一種基于物理模型的反饋控制和域自適應(yīng)機(jī)制的魯棒對(duì)抗學(xué)習(xí)模型,該模型將物理模型和GAN 網(wǎng)絡(luò)結(jié)合。通過(guò)域自適應(yīng)機(jī)制消除測(cè)試圖像和訓(xùn)練圖像的域間隙,滿(mǎn)足魯棒性和適應(yīng)性的要求,再通過(guò)反饋控制控制GAN的訓(xùn)練,使得復(fù)原的圖像在物理上是正確的。域自適應(yīng)機(jī)制可以很好地提高模型魯棒性,但由于其復(fù)雜性,往往不滿(mǎn)足輕量化的要求,Zhou等人[96]提出的方法其網(wǎng)絡(luò)深度有29 層,在實(shí)際應(yīng)用中具有一定局限。編碼器-解碼器結(jié)構(gòu)不失為一種很好的選擇,既滿(mǎn)足魯棒性和適應(yīng)性的要求,又符合輕量化的要求,實(shí)際應(yīng)用中使用的較為廣泛。
采用覆蓋面更廣的訓(xùn)練集,模型可以學(xué)習(xí)不同類(lèi)型水域的特征,從而以提高模型的魯棒性和適應(yīng)性。Li等人[89]提出將水下成像模型與水下場(chǎng)景的光學(xué)特征相結(jié)合,合成涵蓋了不同水域類(lèi)型和退化水平的水下圖像退化數(shù)據(jù)集,通過(guò)該數(shù)據(jù)集訓(xùn)練輕量化模型UWCNN,通過(guò)在現(xiàn)實(shí)世界的水下圖像和視頻上進(jìn)行實(shí)驗(yàn)表明,該方法可以很好地推廣到不同水下場(chǎng)景。張墨華[95]通過(guò)水下圖像生成模型合成包含十種類(lèi)型的水下圖像數(shù)據(jù)集,并使用該數(shù)據(jù)集訓(xùn)練URM_AEDN模型,以提高模型魯棒性。想要獲取大量的不同水域類(lèi)型及退化水平的真實(shí)水下圖像十分困難,所以一般采用物理模型合成水下圖像,但合成的圖像和真實(shí)圖像往往具有一定差異,會(huì)對(duì)模型性能造成一定影響。
隨著國(guó)家對(duì)海洋資源的重視,水下圖像預(yù)處理技術(shù)在海洋資源開(kāi)發(fā),水產(chǎn)養(yǎng)殖以及海洋災(zāi)害防治領(lǐng)域顯得越發(fā)重要,受到國(guó)內(nèi)外許多學(xué)者的廣泛關(guān)注。深度學(xué)習(xí)經(jīng)過(guò)多年的研究發(fā)展,在水下圖像預(yù)處理領(lǐng)域中已經(jīng)取得巨大進(jìn)步,本文對(duì)現(xiàn)有基于深度學(xué)習(xí)的水下圖像預(yù)處理方法進(jìn)行了總結(jié)和歸納,并重點(diǎn)分析了這些方法的優(yōu)缺點(diǎn),還介紹了深度學(xué)習(xí)方法的相關(guān)改進(jìn)。深度學(xué)習(xí)雖然在水下圖像預(yù)處理領(lǐng)域中理論方面取得了巨大的進(jìn)步,但是在水產(chǎn)養(yǎng)殖,海洋資源開(kāi)發(fā)等實(shí)際應(yīng)用情況下,依舊存在一些問(wèn)題需要解決:
(1)提高水下圖像預(yù)處理方法的實(shí)時(shí)性?;谏疃葘W(xué)習(xí)的水下圖像預(yù)處理方法往往網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要耗費(fèi)大量的時(shí)間進(jìn)行計(jì)算,無(wú)法保證預(yù)處理的實(shí)時(shí)性,因此需要在保證預(yù)處理的效果的同時(shí)簡(jiǎn)化模型,設(shè)計(jì)一個(gè)高效的深度學(xué)習(xí)模型是未來(lái)的一大研究方向。
(2)提高水下圖像預(yù)處理方法的魯棒性和適應(yīng)性。水下環(huán)境復(fù)雜多變,現(xiàn)有的方法不具備很好的魯棒性和適應(yīng)性,大部分預(yù)處理方法僅對(duì)某一類(lèi)水下環(huán)境有效,無(wú)法對(duì)不同的水下環(huán)境做出自適應(yīng)的調(diào)整,因此如何提高水下圖像預(yù)處理方法的魯棒性和適應(yīng)性,還需要進(jìn)一步的研究。
(3)深度學(xué)習(xí)需要與物理模型進(jìn)行結(jié)合?,F(xiàn)在大部分深度學(xué)習(xí)的方法沒(méi)有結(jié)合物理模型,只是在視覺(jué)上對(duì)圖像進(jìn)行了增強(qiáng),不能很好地反應(yīng)真實(shí)水下環(huán)境。因此,深度學(xué)習(xí)需要和物理模型進(jìn)行結(jié)合,才能復(fù)原真實(shí)原始的水下圖像。深度學(xué)習(xí)與物理模型結(jié)合的方法,往往會(huì)受到物理模型的限制,因此如何設(shè)計(jì)一個(gè)合理的物理模型也是一大難題。
(4)建立預(yù)處理和識(shí)別一體化模型。水下圖像預(yù)處理的目的是提高水下目標(biāo)識(shí)別的準(zhǔn)確率,因此,將水下圖像預(yù)處理方法和水下目標(biāo)識(shí)別方法結(jié)合,滿(mǎn)足了實(shí)用性的要求。
(5)降低水下圖像預(yù)處理模型的復(fù)雜度?,F(xiàn)有的水下圖像預(yù)處理模型比較復(fù)雜,在水產(chǎn)養(yǎng)殖監(jiān)控和海洋資源勘探等情形下,往往要將復(fù)雜的模型載入一些小型的嵌入式設(shè)備,這些小型嵌入式設(shè)備的運(yùn)算處理能力較弱,因此無(wú)法裝載復(fù)雜度較高的模型。如何保證預(yù)處理效果的前提下,降低模型復(fù)雜度,是未來(lái)科研人員需要解決的一大難題。