曲海成,佟 暢,劉萬(wàn)軍
遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105
圖像中陰影區(qū)域的存在,是一件普遍的現(xiàn)象。但對(duì)于計(jì)算機(jī)的視覺系統(tǒng)來(lái)說(shuō),對(duì)陰影區(qū)域的區(qū)分卻是一件困難的事情,如圖像分割時(shí),陰影會(huì)導(dǎo)致分割區(qū)域判別不準(zhǔn)確,造成圖像分割的誤差;目標(biāo)跟蹤時(shí),陰影影響跟蹤框的圈定,造成目標(biāo)的丟失;智能監(jiān)控系統(tǒng)中,陰影會(huì)干擾監(jiān)控物的數(shù)量判斷、形狀、活動(dòng)范圍等。因此,對(duì)圖像中陰影進(jìn)行去除是十分必要的。
目前陰影去除算法可分為基于物理模型的方法、基于圖像自身特征的方法、基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法?;谖锢砟P偷姆椒ㄟM(jìn)行陰影去除,通過對(duì)陰影區(qū)域的環(huán)境特征進(jìn)行模型構(gòu)建來(lái)實(shí)現(xiàn),主要依靠環(huán)境特征,但環(huán)境特征所受的影響因素太多且實(shí)時(shí)變化,不好確定,如太陽(yáng)偏射角等。Yu[1]、Huang[2]和Finlayson[3]等人從物理模型出發(fā),進(jìn)行陰影去除,利用光源與障礙物的關(guān)系進(jìn)行建模,具有一定的可行性,但建模過程的計(jì)算量大,所需的計(jì)算參數(shù)精確度欠缺。基于圖像自身特征的方法,通過圖像自身的特征進(jìn)行陰影去除,如材質(zhì)、亮度等。但同一幅圖像中,不可能存在完全一樣的材質(zhì)、亮度等特征,因此此種方法存在固有的誤差。如Guo等人[4]提出區(qū)域匹配算法,通過尋找與陰影區(qū)域相同材質(zhì)的無(wú)陰影區(qū)域進(jìn)行恢復(fù),但對(duì)場(chǎng)景復(fù)雜圖片的陰影去除效果不好。Lin 等人[5]通過多尺度和形態(tài)學(xué)方法進(jìn)行陰影去除,有效縮減了漏檢率,但對(duì)光譜與陰影相近且形狀面積差異不大的地物,陰影去除出現(xiàn)困難。Fan 等人[6]利用圖片的紋理特征,設(shè)置紋理置信區(qū)間,能夠有效地去除復(fù)雜的投射陰影,但半影部分有少量殘留。Jiao[7]和Zhang等人[8]構(gòu)建陰影去除模型,具有便捷、高效的特點(diǎn),但需對(duì)圖片特定區(qū)域進(jìn)行處理。Wu等人[9]提出生成器結(jié)構(gòu)及多尺度圖像分解法,使復(fù)雜背景圖像的細(xì)節(jié)更加豐富、清晰,但只對(duì)特定數(shù)據(jù)有效,具有局限性?;跈C(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法,主要利用大規(guī)模的數(shù)據(jù)進(jìn)行模型網(wǎng)絡(luò)參數(shù)的調(diào)整,實(shí)現(xiàn)陰影的去除,但也存在陰影誤檢和暗區(qū)域陰影去除不完全的問題。如Sepideh[10]和Zhang[11]等人使用機(jī)器學(xué)習(xí)的方法,提高了陰影檢測(cè)與去除的時(shí)效性,但監(jiān)測(cè)效果有待提高。Hu[12]與Fan[13]等人利用深度網(wǎng)絡(luò)模型實(shí)現(xiàn)陰影去除,但面對(duì)復(fù)雜照明變化任務(wù)陰影去除效果還有待提高。Hu等人[14]提出方向感知與上下文分析的陰影檢測(cè)網(wǎng)絡(luò),通過聚集的空間上下文特征建立方向感知注意力機(jī)制,恢復(fù)陰影圖像,但仍存在可能將黑色的物體誤檢為陰影,或者漏掉一些不太明顯的陰影區(qū)域的問題。
無(wú)論是基于物理模型的方法、基于圖像自身特征的方法,還是基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,普遍存在兩個(gè)問題:一是存在陰影去除算法普適性較差的問題,只針對(duì)特定類型的圖像陰影去除效果好,非指定類型圖像陰影去除效果差;二是面對(duì)復(fù)雜的紋理或與陰影區(qū)域相似的暗區(qū)域的情況,圖像陰影去除效果不明顯。為了解決上述問題,本文基于生成對(duì)抗網(wǎng)絡(luò)的思想,利用注意力機(jī)制與多尺度特征融合的特點(diǎn),提出了注意力與多尺度融合的圖像陰影去除算法。該算法提升了不同類型圖片陰影去除的準(zhǔn)確率,解決了復(fù)雜的紋理或與陰影區(qū)域相似的暗區(qū)域陰影去除困難的問題。
本文主要工作總結(jié)如下:
(1)在生成網(wǎng)絡(luò)的注意力形成階段,運(yùn)用空洞卷積層構(gòu)造的殘差網(wǎng)絡(luò)進(jìn)行特征提取,增加網(wǎng)絡(luò)的感受野,提取的特征信息精確性更高,使編碼階段的輸入特征信息具有更本質(zhì)的全局特征,增強(qiáng)暗區(qū)域或紋理復(fù)雜區(qū)域的圖像陰影去除效果。
(2)在編碼過程中,引入多尺度的概念,把不同尺度的特征進(jìn)行融合,兼顧全局語(yǔ)義信息與局部特征,進(jìn)一步增加了對(duì)(1)中注意力機(jī)制的關(guān)注度,提高編碼器的質(zhì)量,使生成的圖像更具有騙過判別器的潛質(zhì),使網(wǎng)絡(luò)面對(duì)不同的場(chǎng)景,陰影去除依然可以具有較高的精確性。
(3)在判別網(wǎng)絡(luò)中,引入多重注意力機(jī)制,通過多個(gè)串聯(lián)的注意力機(jī)制進(jìn)行引導(dǎo),增加判別網(wǎng)絡(luò)對(duì)感興趣區(qū)域的關(guān)注度,減少關(guān)鍵特征信息的損失,提高判別網(wǎng)絡(luò)的鑒別能力,調(diào)整了判別網(wǎng)絡(luò)的步伐,使整個(gè)網(wǎng)絡(luò)對(duì)不同類別以及暗區(qū)域或紋理復(fù)雜區(qū)域的陰影去除,起到了積極的促進(jìn)作用。
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)是深度學(xué)習(xí)領(lǐng)域一項(xiàng)偉大的創(chuàng)新,該網(wǎng)絡(luò)基于博弈的思想進(jìn)行設(shè)計(jì)[15]。該網(wǎng)絡(luò)由生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)兩部分共同構(gòu)成,其核心思想是通過兩個(gè)子網(wǎng)各自的最優(yōu)變化,達(dá)到全局的最優(yōu)效果。生成器網(wǎng)絡(luò)的核心作用是通過一系列的網(wǎng)絡(luò)結(jié)構(gòu)生成可以騙過判別器網(wǎng)絡(luò)的數(shù)據(jù)。判別器網(wǎng)絡(luò)的核心作用是通過網(wǎng)絡(luò)設(shè)計(jì)可以不被生成器網(wǎng)絡(luò)生成的數(shù)據(jù)所騙過。生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)二者互相制約,共同成長(zhǎng),形成表現(xiàn)良好的網(wǎng)絡(luò)結(jié)構(gòu)[16]。生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)共同訓(xùn)練的過程如圖1所示。
圖1 生成器與判別器對(duì)抗圖Fig.1 Antagonism graph between generator and discriminator
生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程中,只受限于判別器網(wǎng)絡(luò)的鑒別能力,因此生成器網(wǎng)絡(luò)具有最大限度的“想象”空間,這也是本文選用GAN 作為圖像陰影去除的主框架的原因。
注意力機(jī)制核心思想是讓計(jì)算機(jī)可以擁有自己的感興趣區(qū)域,根據(jù)不同的應(yīng)用場(chǎng)景的需求,對(duì)目標(biāo)數(shù)據(jù)進(jìn)行加權(quán)變換。注意力機(jī)制讓計(jì)算機(jī)系統(tǒng)可以更多地關(guān)注自己感興趣區(qū)域,防止關(guān)鍵特征的丟失。
注意力在不同的應(yīng)用場(chǎng)景下或不同的表達(dá)方式下可分為多種不同類型。本文注意力機(jī)制屬于軟注意力機(jī)制,即形成的二維注意力圖的對(duì)應(yīng)權(quán)值在0~1 之間,越重要的特征分配的權(quán)值越大。注意力機(jī)制貫穿了本文的整個(gè)算法,在判別網(wǎng)絡(luò)中,為防止重點(diǎn)特征的分散,采取乘法注意力機(jī)制,引導(dǎo)網(wǎng)絡(luò)進(jìn)行判斷;在編碼階段,因需要長(zhǎng)期存儲(chǔ)提取圖像的關(guān)鍵特征,選取LSTM(long short-term memory)作為編碼階段注意力的核心單元。LSTM是一種特殊的RNN類型,可以學(xué)習(xí)長(zhǎng)期依賴信息,其由遺忘門、輸入門和輸出門組成,可表示為:
其中,ci表示整體的某一部分,et表示對(duì)應(yīng)ci在t時(shí)刻的注意力得分。
注意力機(jī)制在本文中的具體應(yīng)用如圖2所示。圖2為帶干擾的陰影圖像(下水井蓋與陰影區(qū)域在光譜特性上有相似之處,去除陰影過程中具有干擾性)及對(duì)應(yīng)的三幅熱力圖。其中圖2(a)為包含井蓋與陰影區(qū)域的圖像,陰影區(qū)域在整幅圖像的左邊,是由人舉擋板造成的。圖2(b)為第一次的注意力熱力圖,圖2(c)為第三次的注意力熱力圖,圖2(d)為第六次的注意力熱力圖。
圖2 生成注意力圖示例Fig.2 Example of generating attention map
注意力熱力圖中,紅色區(qū)域表示圖2(a)中的陰影區(qū)域,藍(lán)色部分為圖2(a)中非陰影區(qū)域,淺藍(lán)色為圖2(a)中地面顏色稍微深一些的部分。在圖2(b)到圖2(d)的過程中,淺藍(lán)色部分的區(qū)域逐漸與圖2(a)中較深色地磚部分的位置對(duì)應(yīng)。熱力圖對(duì)圖2(a)的理解在逐步增加,即對(duì)圖像色調(diào)變化捕捉敏感,對(duì)細(xì)節(jié)關(guān)注更為精細(xì)。在圖2(d)中紅色區(qū)域與圖2(a)中的陰影區(qū)域位置對(duì)應(yīng),可知該注意力機(jī)制對(duì)陰影區(qū)域位置的關(guān)注比較精準(zhǔn),注意力的引用有利于提高圖片編碼的質(zhì)量。
多尺度即對(duì)信號(hào)的不同粒度進(jìn)行采樣,通常在不同的尺度下可以觀察到不同的特征,從而完成不同的任務(wù)。通過少量卷積層,得到的特征分辨率高,包含更多位置、細(xì)節(jié)信息,但其所包含的語(yǔ)義信息少,噪聲多[17]。而通過大量的卷積層,得到的特征分辨率卻偏低,對(duì)細(xì)節(jié)的感知能力差。多尺度特征融合的提出就是為了能夠提取更為全面的信息,兼顧全局語(yǔ)義信息與局部細(xì)節(jié)信息[18]。為了兼顧圖片陰影區(qū)域的位置信息與細(xì)節(jié)特征,在編碼階段運(yùn)用多尺度特征融合進(jìn)行特征的抽取。
不同的尺度具有不同的感受野。圖3為3個(gè)不同尺度下的圖像對(duì)比圖,直觀地反映不同尺度的作用,其中圖4(a)為640×680,(b)為64×48,(c)為8×6。
圖3 不同尺度對(duì)比圖Fig.3 Comparison of different scales
特征融合的兩個(gè)經(jīng)典方法是concat 和add。concat是直接將兩個(gè)特征進(jìn)行連接[19]。兩個(gè)輸入特征x和y的維數(shù)若為p和q,輸出特征z的維數(shù)為p+q。add將這兩個(gè)特征向量組合成復(fù)向量,具體形式見公式(3),其中i 是虛數(shù)單位,本文算法融合時(shí)使用add 的方式進(jìn)行不同層次的特征融合,在不改變通道數(shù)的情況下,增加特征信息量。
本文多尺度特征融合采用串行的跳層連接結(jié)構(gòu)實(shí)現(xiàn)。串行的跳層連接結(jié)構(gòu)對(duì)圖像的邊界信息敏感[20]。在編碼器編碼的過程中,引入對(duì)反卷積層的鄰接卷積進(jìn)行串行的跳層連接,有助于加強(qiáng)編碼器編碼過程中對(duì)陰影邊界的關(guān)注,提高了無(wú)陰影圖像生成的質(zhì)量。
該算法是基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的框架下進(jìn)行的,而在生成對(duì)抗網(wǎng)絡(luò)中,需要優(yōu)化目標(biāo)函數(shù),來(lái)達(dá)到納什平衡[21]。GAN 網(wǎng)絡(luò)的目標(biāo)函數(shù)V(D,G)優(yōu)化過程表示為:
式中,G代表生成網(wǎng)絡(luò),D代表判別網(wǎng)絡(luò),pdata(x)代表真實(shí)分布,pn(z)代表噪聲分布。G(z)表示輸入的噪聲z映射成數(shù)據(jù)(生成圖片)。D(x)表示x來(lái)自于真實(shí)數(shù)據(jù)分布pdata(x)的概率。
在本文中,因注意力機(jī)制應(yīng)用形式的不同,有許多不同的連接方式,但每部分注意力機(jī)制的損失計(jì)算方式是相同的。注意力機(jī)制的損失函數(shù)La表示為:
損失的計(jì)算是通過比較每次生成的注意力圖(At)與對(duì)應(yīng)圖片陰影掩膜(M)(不提供陰影掩膜的數(shù)據(jù)集,用數(shù)據(jù)庫(kù)中的陰影圖像與非陰影圖像做差得出)之間的均方誤差(MSE)進(jìn)行的。超參數(shù)的選擇參考文獻(xiàn)[20-21],N取6,θ取0.8。
在生成器網(wǎng)絡(luò),編碼階段的損失函數(shù)Le表示為:
編碼階段損失(Le)由圖片的真實(shí)損失(Lr)和模型損失(Lm)兩部分構(gòu)成,其中Oi為編碼生成的圖片,F(xiàn)為真實(shí)圖片。
圖片的真實(shí)損失(Lr)通過計(jì)算編碼階段生成的無(wú)陰影圖片(Oi)與數(shù)據(jù)庫(kù)中真實(shí)的無(wú)陰影圖片(F)之間的均方誤差(MSE)而得到,參數(shù)β的取值參考文獻(xiàn)[22],分別取0.6,0.8,1.0,對(duì)應(yīng)編碼階段的三個(gè)不同的尺度,i對(duì)應(yīng)著編碼生成的無(wú)陰影圖像的次數(shù),每生成一次就需要計(jì)算一次。圖片的真實(shí)損失(Lr)表示為:
模型損失(Lm)為通過VGG 網(wǎng)絡(luò)編碼生成的圖片(Oi)與真實(shí)圖片(F)的損失的均方誤差,表示為:
為了解決圖像陰影去除算法中存在普適性差、復(fù)雜地物及暗區(qū)域陰影去除困難等問題,提出了注意力機(jī)制與多尺度特征融合相結(jié)合的圖像陰影去除算法。該算法運(yùn)用細(xì)節(jié)信息提取更精細(xì)的VGG-E作為該網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。整體思想基于GAN 網(wǎng)絡(luò)架構(gòu),分成生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)部分。其中生成器網(wǎng)絡(luò)包括注意力編碼和注意力判別網(wǎng)絡(luò),是為了生成無(wú)陰影的圖像。判別器網(wǎng)絡(luò)是為了判斷生成器網(wǎng)絡(luò)生成的無(wú)陰影圖像的質(zhì)量。
生成器網(wǎng)絡(luò)部分,對(duì)提取的特征進(jìn)行多尺度的注意力編碼,提高生成器網(wǎng)絡(luò)生成無(wú)陰影圖像的質(zhì)量,加速網(wǎng)絡(luò)的收斂。在判別器網(wǎng)絡(luò),運(yùn)用注意力機(jī)制,平衡生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)的步調(diào),加速網(wǎng)絡(luò)的收斂,實(shí)現(xiàn)良好的圖像陰影去除的效果。該算法整體框架如圖4所示。
圖4 注意力與多尺度融合算法整體框架圖Fig.4 Overall framework of attention and multi-scale fusion algorithm
CDD殘差塊模塊的提出是為了解決暗區(qū)域及紋理復(fù)雜地物陰影區(qū)域細(xì)節(jié)信息與輪廓邊界不能很好地兼顧的問題。
該模塊的設(shè)計(jì)運(yùn)用了普通卷積與空洞卷積組合的方式,結(jié)合了殘差網(wǎng)絡(luò)的設(shè)計(jì)思想。空洞卷積的應(yīng)用具有更大的感受野,包含更多的上下文信息(細(xì)節(jié)信息),但空洞卷積的使用也會(huì)造成特征信息連續(xù)性的欠缺,因此,設(shè)計(jì)不同的學(xué)習(xí)率以避免這一問題。圖5 中,第一層為普通卷積,相當(dāng)于學(xué)習(xí)率為1的空洞卷積。第二層的空洞卷積的學(xué)習(xí)率設(shè)為2,第三層的空洞卷積的學(xué)習(xí)率設(shè)為3。
為了避免高層語(yǔ)義信息提取時(shí)梯度消失的問題,借助了殘差網(wǎng)絡(luò)的思想,對(duì)上述網(wǎng)絡(luò)進(jìn)行設(shè)計(jì)。CDD 殘差塊的設(shè)計(jì)如圖5所示。
圖5 CCD殘差塊設(shè)計(jì)Fig.5 Design of CCD residual block
編碼器的輸入由陰影圖片與陰影圖片的注意力圖共同構(gòu)成。這是一個(gè)逐層遞進(jìn)的過程,每次形成的注意力圖重新與陰影圖片進(jìn)行下一次的特征提取,形成下一次的注意力圖,其具體結(jié)構(gòu)如圖6所示。
圖6 生成器注意力網(wǎng)絡(luò)Fig.6 Generator attention network
為了使網(wǎng)絡(luò)面對(duì)不同場(chǎng)景的圖像,陰影去除依然可以具有較高的精確性,在編碼器中運(yùn)用多尺度融合的思想,高層語(yǔ)言特征與底層細(xì)節(jié)信息的結(jié)合,使網(wǎng)絡(luò)面對(duì)不同類型的圖像,都具有較好的表現(xiàn)。該算法分別結(jié)合3種不同的尺度進(jìn)行特征融合,兼顧全局與局部的特征,提高注意力編碼器生成圖像的精確度。選取融合的層次為Conv_8、Conv_9、Conv_10,它們?yōu)榉淳矸e進(jìn)行還原圖像的臨接卷積層,分別代表特征圖尺寸為1、1/2、1/4時(shí)的特征。該實(shí)驗(yàn)編碼階段共由10個(gè)卷積層、4個(gè)空洞卷積層、2 個(gè)反卷積層以及3 個(gè)跳躍連接層組成。其中編碼階段的輸入為帶陰影的圖像與注意力圖,每層之間的激活函數(shù)為L(zhǎng)Relu,輸出結(jié)果為不帶陰影的圖片。Conv代表卷積層,Dia_conv代表空洞卷積層,Deconv代表反卷積層,且每個(gè)反卷積層包含一個(gè)avg_pool層。編碼器內(nèi)部卷積層的連接如圖7所示。
圖7 編碼器特征融合示意圖Fig.7 Encoder feature fusion diagram
注意力模型(attention)關(guān)注圖像的結(jié)構(gòu)特征,可以靈活地感知到全局與局部的聯(lián)系,提升網(wǎng)絡(luò)的感知能力,提高輸出的質(zhì)量,且不需要監(jiān)督[23]。注意力在判別網(wǎng)絡(luò)中的應(yīng)用,加強(qiáng)了判別網(wǎng)絡(luò)對(duì)生成器網(wǎng)絡(luò)的約束性,調(diào)整了判別網(wǎng)絡(luò)的步伐,使整個(gè)網(wǎng)絡(luò)對(duì)不同類別以及暗區(qū)域或紋理復(fù)雜區(qū)域的陰影去除,起到了積極的促進(jìn)作用。
判別網(wǎng)絡(luò)設(shè)計(jì)過程中,在每?jī)蓪又g,加入乘法注意力機(jī)制,目的是通過注意力機(jī)制過濾掉一些無(wú)關(guān)特征,防止重點(diǎn)內(nèi)容被分散,為后部分語(yǔ)義特征的提取提供基礎(chǔ)。乘法注意力機(jī)制是在加法注意力機(jī)制要求編碼與解碼的隱藏層長(zhǎng)度必須相同條件下的改進(jìn),具有更高的靈活性。判別網(wǎng)絡(luò)設(shè)計(jì)如圖8所示。
圖8中3層的注意力圖分別為第2、4、6層卷積特征的一個(gè)加強(qiáng),為防止多次卷積后特征分散,不利于后三層語(yǔ)義信息的提取。后三層stride取4,每層特征變?yōu)樵械?/4,便于提取最本質(zhì)、最抽象的特征信息。
圖8 判別器設(shè)計(jì)圖Fig.8 Discriminator design
實(shí)驗(yàn)環(huán)境為ubuntu16.10 系統(tǒng),GPU 加速卡型號(hào)為GeForce GTX 1080Ti。
數(shù)據(jù)集選取ISTD[24]和SRD[25]。ISTD數(shù)據(jù)集共1 870對(duì)陰影與非陰影數(shù)據(jù)對(duì),其中訓(xùn)練集1 330 對(duì),測(cè)試集540 對(duì)。SRD 數(shù)據(jù)集共3 088 對(duì)陰影與非陰影數(shù)據(jù)對(duì),其中訓(xùn)練集2 680對(duì),測(cè)試集408對(duì)。
實(shí)驗(yàn)的評(píng)價(jià)主要從視覺效果和當(dāng)前主流的衡量指標(biāo)(SSIM、PSNR 和RMSE)兩方面進(jìn)行評(píng)價(jià)。SSIM 結(jié)構(gòu)相似性基于圖像亮度、對(duì)比度和結(jié)構(gòu)進(jìn)行評(píng)價(jià),可表示為:
式(9)的值越接近1,兩圖片相似性越強(qiáng)。其中x、y代表要比較的兩張圖片,μx為x的均值,μy為y的均值,為x的方差為y的方差,σxy為x和y的協(xié)方差,c1=(k1l)2,c2=(k2l)2為兩個(gè)常數(shù),l為像素范圍,本次實(shí)驗(yàn)k1為0.01,k2為0.03。
PSNR 為峰值信噪比,單位是dB,數(shù)值越大表示效果越好。基于對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià)。不考慮人眼的視覺特性,會(huì)出現(xiàn)評(píng)價(jià)結(jié)果與人的主觀感覺不一致的情況,可表示為:
其中,m、n為圖像的長(zhǎng)與寬,I為真實(shí)圖像,k為生成圖像。
均方根誤差(RMSE)是一個(gè)中間的評(píng)價(jià)指標(biāo),很多評(píng)價(jià)指標(biāo)都是基于均方根誤差進(jìn)行的,是均方誤差(MSE)的開根號(hào)數(shù),均方根誤差計(jì)算陰影圖與非陰影圖像素級(jí)的誤差,可表示為:
生成器網(wǎng)絡(luò)與判別網(wǎng)絡(luò)具有不同的結(jié)構(gòu),因此生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)進(jìn)行了不同的學(xué)習(xí)率設(shè)置。其中生成器網(wǎng)絡(luò)學(xué)習(xí)率為0.002[26],判別器網(wǎng)絡(luò)學(xué)習(xí)率為0.001[26],且每進(jìn)行10 000次訓(xùn)練,學(xué)習(xí)率縮小10%。
實(shí)驗(yàn)在ISTD 數(shù)據(jù)集與SRD 數(shù)據(jù)集上選取不同場(chǎng)景且地物相對(duì)復(fù)雜或具有與陰影區(qū)域相近的暗區(qū)域的圖像進(jìn)行測(cè)試,經(jīng)過100 000次訓(xùn)練的網(wǎng)絡(luò),實(shí)驗(yàn)最佳結(jié)果SSIM可達(dá)到0.978,PSNR為32.23 dB,RMSE為6.23?,F(xiàn)隨機(jī)選取6幅測(cè)試圖片的值進(jìn)行展示,不同數(shù)據(jù)集效果對(duì)比見表1。
表1 不同數(shù)據(jù)集效果對(duì)比表Table 1 Effect comparison of different datasets
該算法分別在ISTD 和SRD 選取不同場(chǎng)景且地物相對(duì)復(fù)雜或具有與陰影區(qū)域相近的暗區(qū)域的3 幅圖片進(jìn)行展示,可見該算法對(duì)不同場(chǎng)景下圖像的陰影去除具有很好的表現(xiàn),對(duì)相對(duì)復(fù)雜地物、暗區(qū)域的陰影去除效果也表現(xiàn)良好。不同數(shù)據(jù)集實(shí)驗(yàn)效果如圖9所示。圖9共6 組圖片,前3 組為ISTD 數(shù)據(jù)集的測(cè)試圖片,后3 組為SRD 數(shù)據(jù)集的測(cè)試圖片,其中圖9(a)為帶陰影的圖片,圖9(b)為實(shí)驗(yàn)結(jié)果圖片,圖9(c)為數(shù)據(jù)集中給出的真實(shí)無(wú)陰影圖片。
圖9 不同數(shù)據(jù)集實(shí)驗(yàn)效果圖Fig.9 Experimental renderings of different datasets
為了驗(yàn)證多尺度融合、注意力機(jī)制、CDD殘差塊對(duì)該算法的影響,設(shè)計(jì)了逐步改進(jìn)實(shí)驗(yàn)。實(shí)驗(yàn)1為去除多尺度算法的實(shí)驗(yàn),實(shí)驗(yàn)2為去除CDD 殘差塊的實(shí)驗(yàn),實(shí)驗(yàn)3 為去除注意力機(jī)制的實(shí)驗(yàn),實(shí)驗(yàn)4 為所有模塊綜合的實(shí)驗(yàn)。逐步改進(jìn)實(shí)驗(yàn)的實(shí)驗(yàn)效果見表2。圖像為隨機(jī)選取的一幅圖像,逐步改進(jìn)實(shí)驗(yàn)視覺效果如圖10所示。
表2 逐步改進(jìn)實(shí)驗(yàn)效果比較Table 2 Effect comparison of gradually improving experiment
圖10 逐步改進(jìn)實(shí)驗(yàn)視覺效果圖Fig.10 Visual effect of gradually improving experiment
圖10(a)為帶陰影的原圖片,圖10(b)為實(shí)驗(yàn)1的測(cè)試效果圖,圖10(c)為實(shí)驗(yàn)2 的測(cè)試效果圖,圖10(d)為實(shí)驗(yàn)3 的測(cè)試效果圖,圖10(e)為實(shí)驗(yàn)4 的測(cè)試效果圖,圖10(f)為SRD數(shù)據(jù)集中給出的無(wú)陰影的真實(shí)圖像。
綜合表2與圖10的實(shí)驗(yàn)結(jié)果,多尺度特征融合可以明顯提高圖像陰影去除的質(zhì)量,無(wú)論從視覺角度還是測(cè)量指標(biāo)上,都有顯著提升,CDD殘差塊與注意力機(jī)制也在一定程度上,改善了該算法的陰影去除能力。因此,進(jìn)一步把三者結(jié)合,進(jìn)行實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)在視覺效果與圖像測(cè)試指標(biāo)上,都比其他組單獨(dú)實(shí)驗(yàn)效果要好,證明了三者結(jié)合為該算法陰影去除能力最強(qiáng)的組合。
為了證明算法的有效性,用該算法與參考文獻(xiàn)[9,14,24]進(jìn)行對(duì)比,視覺效果如圖11所示。其中圖11(a)為原始帶陰影圖像,圖11(b)為數(shù)據(jù)集中對(duì)應(yīng)無(wú)陰影圖片,圖11(c)為文獻(xiàn)[9]的結(jié)果,圖11(d)為文獻(xiàn)[14]的結(jié)果,圖11(e)為文獻(xiàn)[24]的結(jié)果,圖11(f)為本文算法。圖像測(cè)試指標(biāo)對(duì)比見表3所示。
圖11 算法視覺效果對(duì)比圖Fig.11 Visual effect comparison of algorithms
表3 算法測(cè)量指標(biāo)對(duì)比Table 3 Comparison of algorithm measurement indexes
本文針對(duì)圖像陰影去除算法中復(fù)雜地物或與陰影區(qū)域紋理相似的暗區(qū)域陰影去除不完全的問題,提出注意力與多尺度融合的圖像陰影去除算法。該算法的無(wú)陰影圖像是由生成器在注意力與多尺度融合的引導(dǎo)下,由判別器監(jiān)督而生成的最接近真實(shí)的無(wú)陰影圖像。利用新型的空洞殘差塊(CDD)進(jìn)行特征提取,在增大感受野的同時(shí)減少了計(jì)算量,加強(qiáng)了特征感知的強(qiáng)度。多尺度的特征融合,兼顧了全局語(yǔ)義與局部特征,增強(qiáng)了編碼器生成圖像的質(zhì)量。注意力機(jī)制的引入,調(diào)整了判別網(wǎng)絡(luò)的步伐,加強(qiáng)了網(wǎng)絡(luò)對(duì)全局與部分的把控。該算法無(wú)論從定量指標(biāo)還是視覺感受,都達(dá)到了較為理想的陰影去除效果。
該算法也可以遷移到其他同類型的監(jiān)督學(xué)習(xí)的應(yīng)用中,比如去雨、去馬賽克等。當(dāng)然該算法也存在一些不足之處,生成的圖像與原圖可能會(huì)存在一些細(xì)微誤差,特別是灰色背景的圖片,且對(duì)具有紅色信息的圖像,陰影去除效果較差。