張 浩,楊堅(jiān)華,李啟航,花海洋
(1.中國科學(xué)院光電信息處理重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽 110016;2.中國科學(xué)院沈陽自動(dòng)化研究所,遼寧 沈陽 110016;3.中國科學(xué)院機(jī)器人與智能制造創(chuàng)新研究院,遼寧 沈陽 110169;4.中國科學(xué)院大學(xué),北京 100049;5.西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)
隨著深度學(xué)習(xí)的快速發(fā)展,在紅外和可見光圖像融合應(yīng)用中已開展了廣泛應(yīng)用,由于深度學(xué)習(xí)在訓(xùn)練時(shí)需要大量成對(duì)的紅外和可見光圖像,而目前實(shí)際情況是可見光圖像較易獲取,而紅外數(shù)據(jù)集較少。因此,通過數(shù)據(jù)增強(qiáng)方法來擴(kuò)充成對(duì)數(shù)據(jù)集來實(shí)現(xiàn)紅外和可見光圖像融合是非常有必要的。
常用的數(shù)據(jù)增強(qiáng)算法包括傳統(tǒng)方法:幾何變換,色彩空間增強(qiáng)[1],核濾波器[2],混合圖像[3],隨機(jī)擦除[4];深度學(xué)習(xí)方法:特征空間增強(qiáng)[5],生成對(duì)抗網(wǎng)絡(luò)[6],元學(xué)習(xí)[7]。
其中幾何變換和色彩空間增強(qiáng)會(huì)損失圖像信息,影響圖像的標(biāo)簽;核濾波器和神經(jīng)網(wǎng)絡(luò)內(nèi)部機(jī)制非常相似,其作為網(wǎng)絡(luò)架構(gòu)的一層較好,而不是通過數(shù)據(jù)增強(qiáng)對(duì)數(shù)據(jù)集增廣;混合圖像方法很難去解釋其意義;隨機(jī)擦除的缺點(diǎn)是其并不是總保存標(biāo)簽進(jìn)行變換;特征空間擴(kuò)展的一個(gè)缺點(diǎn)是矢量數(shù)據(jù)很難解釋;元學(xué)習(xí)作為一個(gè)新概念沒有經(jīng)過大量實(shí)驗(yàn)的驗(yàn)證[8]。深度學(xué)習(xí)中的生成對(duì)抗網(wǎng)絡(luò)以其優(yōu)秀的計(jì)算速度和生成圖像的高質(zhì)量性備受關(guān)注,然而 pix2pix[9]網(wǎng)絡(luò)需要成對(duì)的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,Zhu J Y在2017年提出了循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)[10]由于其不需要成對(duì)的數(shù)據(jù)就可以進(jìn)行訓(xùn)練實(shí)現(xiàn)風(fēng)格遷移,為解決數(shù)據(jù)集稀缺問題提供了解決方案。
受循環(huán)一致性對(duì)抗網(wǎng)絡(luò)的啟發(fā),胡麟苗[11]運(yùn)用循環(huán)一致性對(duì)抗網(wǎng)進(jìn)行短波紅外-可見光人臉圖像翻譯,實(shí)現(xiàn)了紅外圖像與可見光圖像的相互轉(zhuǎn)化,然而其方法生成器性能極易飽和,針對(duì)于該問題,本文提出了一種紅外圖像數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò):雙鑒別器相對(duì)循環(huán)一致性對(duì)抗網(wǎng)絡(luò),這種增強(qiáng)只需要少量不成對(duì)的數(shù)據(jù)就可以訓(xùn)練出從可見光圖像到紅外圖像更高質(zhì)量的映射,實(shí)現(xiàn)紅外圖像數(shù)據(jù)增強(qiáng)。本文方法主要有兩個(gè)創(chuàng)新點(diǎn):第一,對(duì)于雙鑒別器循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)的生成器在不斷優(yōu)化過程中會(huì)脫離鑒別器水平而產(chǎn)生過度優(yōu)化的問題,加入了相對(duì)概率的思想,用鑒別器鑒別圖像相對(duì)真實(shí)概率取代絕對(duì)真實(shí)概率,解決生成器在不斷優(yōu)化過程中會(huì)脫離鑒別器水平而產(chǎn)生過度優(yōu)化的問題。第二,對(duì)于DDR-CycleGAN提出了Four-stage訓(xùn)練方法,相比于One-stage訓(xùn)練方法更大程度地提升了生成器性能。
CycleGAN 引入了循環(huán)一致性損失[10,12],從未配對(duì)的數(shù)據(jù)集中學(xué)習(xí)域間映射可以減少對(duì)配對(duì)數(shù)據(jù)的需求,學(xué)習(xí)的域間映射是一種風(fēng)格轉(zhuǎn)化,即為圖像到圖像的轉(zhuǎn)化,通過結(jié)合一個(gè)圖像的內(nèi)容和另一個(gè)圖像的風(fēng)格來生成新的圖像??梢姽鈭D像是依據(jù)物體反射率不同成像,紅外圖像主要是依據(jù)物體的溫度或者輻射率不同成像。可見光圖像的內(nèi)容是圖像的結(jié)構(gòu),紅外圖像的風(fēng)格是紅外輻射特征。本文主要是利用可見光圖像擴(kuò)充紅外圖像數(shù)據(jù)集,本質(zhì)上是結(jié)合可見光圖像的結(jié)構(gòu)和紅外圖像的紅外輻射特征實(shí)現(xiàn)可見光圖像到紅外圖像的風(fēng)格轉(zhuǎn)化[13]。
CycleGAN模型包含兩個(gè)生成器GX→Y(X→Y)和GY→X(Y→X)和兩個(gè)鑒別器DX和DY,鑒別器DX的作用是鑒別輸入的紅外圖像的真假,其損失函數(shù)為:
dxloss=[DX(realir)-label(realir)]+[DX(fakeir)-label(fakeir)]
(1)
其中,DX(a)為鑒別器對(duì)圖像a的鑒別結(jié)果;label(a)為圖像a的真實(shí)標(biāo)簽;鑒別器DY的作用是鑒別輸入的可見光圖像的真假,其損失函數(shù)為:
dyloss=[DY(realvi)-label(realvi)]+[DY(fakevi)-label(fakevi)]
(2)
在和鑒別器DY對(duì)抗過程中生成器GX→Y使紅外圖像吸收可見光圖像的風(fēng)格轉(zhuǎn)化為更真實(shí)的可見光圖像,在和DX對(duì)抗過程中生成器GY→X使可見光圖像吸收紅外圖像的風(fēng)格轉(zhuǎn)化為更真實(shí)的紅外圖像。為了規(guī)范生成對(duì)抗網(wǎng)絡(luò),使生成的圖像在獲得新風(fēng)格的同時(shí)不要失去原圖像的內(nèi)容,CycleGAN引進(jìn)了循環(huán)一致性損失。原理即為利用生成器GX→Y將紅外圖像轉(zhuǎn)化為可見光圖像之后還可以利用生成器GY→X將其轉(zhuǎn)化為原來的紅外圖像:X→GX→Y(X)→GY→X(GX→Y(X))≈X。
雙鑒別器的循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)原理如圖1所示,在 CycleGAN 的基礎(chǔ)上添加了兩個(gè)鑒別器DX2和DY2,其中DX2和DX1的結(jié)構(gòu)完全一樣,DY1和DY2的結(jié)構(gòu)完全一樣,但是他們的初始化不同。當(dāng)其中一個(gè)鑒別器達(dá)到收斂,在另一個(gè)鑒別器的作用下生成器仍不會(huì)停止學(xué)習(xí)[14-15]。雙鑒別器結(jié)構(gòu)有利于生成器得到充分訓(xùn)練,解決傳統(tǒng)對(duì)抗網(wǎng)絡(luò)的不穩(wěn)定的過早飽和問題。
圖1 DD-CycleGAN 原理圖Fig.1 The schematic diagram of DD-CycleGAN
在實(shí)際訓(xùn)練中,對(duì)于不同的鑒別器,其鑒別方式不同,即提取的特征不同,因此生成器需要學(xué)習(xí)利用不同的特征去干擾鑒別器,這也會(huì)使得生成器訓(xùn)練地更加全面,性能得到更大的提升??梢赃@樣理解,鑒別器是生成器的老師,生成器通過鑒別器學(xué)習(xí)特征,生成器訓(xùn)練流程如圖2所示,理想來說,只要鑒別器足夠多,生成器就可以學(xué)習(xí)所有特征進(jìn)而生成最逼真的圖像。
圖2 DD-CycleGAN 生成器訓(xùn)練流程圖Fig.2 The generator training diagram of DD-CycleGAN
雖然雙鑒別器會(huì)使得生成器得到充分訓(xùn)練,但也導(dǎo)致生成器出現(xiàn)了過度優(yōu)化的問題。鑒別器是為了區(qū)分真假圖片,生成器是為了生成讓鑒別器區(qū)分不開的假圖片。例如,當(dāng)鑒別器鑒別一個(gè)真圖片是真的概率是 0.9 時(shí),同時(shí)也鑒別假圖片真實(shí)的概率是 0.9,那么這時(shí)候就可以認(rèn)為鑒別器已經(jīng)區(qū)分不開真假圖片了,生成器效果已經(jīng)達(dá)到最優(yōu)了,但是根據(jù) CycleGAN 的損失函數(shù)來看,生成器在這時(shí)候還要繼續(xù)優(yōu)化其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)而生成接近于D(fake)=1 的圖片,這就出現(xiàn)了過度優(yōu)化的問題,D(fake)=1 的假圖片在鑒別器鑒別下已經(jīng)非常真實(shí),但是其已經(jīng)脫離了D(real)=0.9 的真實(shí)圖片,反而不真實(shí),圖3為在D(real)=0.9 時(shí)的相對(duì)概率圖,在欠優(yōu)化區(qū)域和過度優(yōu)化區(qū)域的生成圖片都是不真實(shí)的,因此為了基于鑒別器的能力水平來訓(xùn)練生成器,本文加入了相對(duì)真實(shí)概率的思想[17]。
圖3 D(real)=0.9相對(duì)概率Fig.3 D(real)=0.9 relative probability diagram
加入相對(duì)概率后的損失函數(shù)修改為:
dloss=E(real,fake)~(R,F)[f(D(real)-D(fake))]
(3)
其中,f是端到端的函數(shù);R是真實(shí)圖像的分布;F是生成圖像的分布,同理,生成器的損失函數(shù)修改為:
gloss=E(real,fake)~(R,F)[f(D(fake)-D(real))]+
losscycle-consistency
(4)
在相對(duì)概率思想的影響下,可以保證生成器生成和真圖像一樣真實(shí)的圖像,而不是脫離鑒別器的鑒別能力生成過度真實(shí)的偽真實(shí)圖片。最后,雙鑒別器相對(duì)循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)的生成器網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如圖4和表1,鑒別器網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如圖5和表2。
圖4 DDR-CycleGAN 生成器結(jié)構(gòu)圖Fig.4 The generator structure diagram of DDR-CycleGAN
表1 生成器的編解碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Encoder-decoder neural network structure of generator
圖5 DDR-CycleGAN 鑒別器結(jié)構(gòu)圖Fig.5 The discriminator structure diagram of DDR-CycleGAN
表2 鑒別器的二分類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Two-classification neural network structure of discriminator
在前面提到,在實(shí)際訓(xùn)練中,對(duì)于不同的鑒別器,其鑒別方式不同,即提取的特征不同,因此生成器需要學(xué)習(xí)利用不同的特征去干擾鑒別器,這也會(huì)使得生成器訓(xùn)練地更加全面,性能得到更大的提升。但是鑒別器在面對(duì)鑒別任務(wù)會(huì)趨向于提取最有利的鑒別特征,在隨機(jī)初始化的前提下,兩個(gè)鑒別器面臨相同的鑒別任務(wù),會(huì)趨向于提取同一類鑒別特征,進(jìn)而造成生成器性能在某一類特征上表現(xiàn)極佳,在其他特征上表現(xiàn)不好,為了促進(jìn)生成器性能全面提升,對(duì)此提出了Four-stage訓(xùn)練方法,如表3所示。
表3 Four-stage訓(xùn)練步驟Tab.3 Four-stage training steps
本文的實(shí)驗(yàn)基于 Python3.6 和 Tensorflow1.14 版本,在實(shí)驗(yàn)中,設(shè)置兩個(gè)鑒別器相同的權(quán)重,batchsize 設(shè)為 1,每 5000 步輸出一次圖像質(zhì)量評(píng)價(jià)結(jié)果,初始學(xué)習(xí)率為 0.0002,之后余弦退火衰減到0.00001。鑒別器損失函數(shù)為:
dloss=(D(real)-D(fake)-1)2+(D(fake)-D(real)+1)2
生成器損失函數(shù)為:
gloss=(D(real)-D(fake)+1)2+(D(fake)-D(real)-1)2+λ|real-Cycle|
圖像質(zhì)量評(píng)價(jià)指標(biāo)采用峰值信噪比(PSNR)和FID(Frechet Inception Distance score)兩個(gè)指標(biāo)。峰值信噪比是基于圖像像素灰度值進(jìn)行統(tǒng)計(jì)分析的衡量信號(hào)失真的指標(biāo):
(5)
(6)
FID由Heusel[18]等提出,其使用Inception v3模型的編碼層提取圖像特征,然后將真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布分別建模為均值為μr,μg,方差為Σr,Σg的高維高斯分布,通過計(jì)算真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的Frechet距離來表征兩個(gè)分布的差別:
(7)
FID具有良好的判別能力,是GAN的優(yōu)秀判別指標(biāo)。FID越小,說明生成的圖像特征分布與真實(shí)圖像特征分布越接近,生成器效果越好。
在FLIR數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,其共包含14000張圖像,其中10000張來自短視頻片段,另外4000張BONUS圖像來自一段140 s視頻。視頻以30 Hz幀率記錄,數(shù)據(jù)集序列以2 f/s或1 f/s速率采樣。
從圖6中可以看出,DD-CycleGAN方法隨著迭代次數(shù)增加,峰值信噪比先上升,在20000次時(shí)達(dá)到峰值59.5而后下降最終穩(wěn)定在58.74。而加入相對(duì)概率的思想后,DDR-CycleGAN(One-stage)方法隨著迭代次數(shù)的增加,峰值信噪比一直增加最終穩(wěn)定在61.87,并一直高于DD-CycleGAN方法的峰值信噪比水平。說明加入相對(duì)概率的損失函數(shù)后有效避免優(yōu)化過剩,也有利于避免圖像失真現(xiàn)象的出現(xiàn),提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性。
圖6 DD-CycleGAN 和DDR-CycleGAN(One-stage)峰值信噪比隨迭代次數(shù)增加的變化曲線Fig.6 The PSNR of DD-CycleGAN and DDR-CycleGAN (One-stage)with the increase of iteration times
DDR-CycleGAN(Four-stage)PSNR和FID隨迭代次數(shù)變化曲線如圖7所示,第一列分別為訓(xùn)練 5000次、200000 次、600000 次的輸出圖像。由圖像可知,隨著訓(xùn)練次數(shù)的增加,PSNR震蕩上升最后達(dá)到穩(wěn)定,穩(wěn)定時(shí)PSNR為61.04,相比DD-CycleGAN提升了3.92 %,FID一直減少最后達(dá)到穩(wěn)定,穩(wěn)定時(shí)FID為61.18,相比DD-CycleGAN降低了3.81 %。說明加入相對(duì)概率的損失函數(shù)后有效避免優(yōu)化過剩,也有利于避免圖像失真現(xiàn)象的出現(xiàn),提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性。
圖7 DDR-CycleGAN FID和PSNR隨迭代次數(shù)增加的變化曲線Fig.7 The FID and PSNR of DDR-CycleGAN with the increase of iteration times
如表4所示,本文方法生成圖像的峰值信噪比較高,而FID比較小,相比于雙鑒別器CycleGAN 在生成紅外圖像質(zhì)量上峰值信噪比提高了3.91 %,FID(Frechet Inception Distance score)降低了3.81 %,性能有著很大程度的提升,這代表著生成的紅外圖像與目標(biāo)圖像有著更高的相似度。
表4 訓(xùn)練結(jié)果評(píng)價(jià)指標(biāo)Tab.4 Evaluation index of training results
圖8展示了DD-CycleGAN、DDR-CycleGAN(One-stage)、DDR-CycleGAN(Four-stage)三種方法生成紅外圖像的比較,在圖中標(biāo)注的虛線框處可以明顯看出DDR-CycleGAN(One-stage)方法生成的紅外圖像相比于DD-CycleGAN更加接近于紅外圖像,但是其紋理特征和邊緣特征還原的較差,而DDR-CycleGAN(Four-stage)方法生成的紅外圖像全面還原了各種特征,圖片質(zhì)量最好。
圖8 FLIR數(shù)據(jù)集在不同方法下的測(cè)試結(jié)果Fig.8 Test results of FLIR data sets under different methods
為了測(cè)試本方法在實(shí)際場(chǎng)景的適用能力,選用了七組不同真實(shí)場(chǎng)景進(jìn)行了性能測(cè)試,結(jié)果如圖9所示。
圖9 真實(shí)場(chǎng)景在不同方法下的測(cè)試結(jié)果Fig.9 Test results of real scene under different methods
本文的方法應(yīng)用到真實(shí)場(chǎng)景中得到的結(jié)果見圖9,經(jīng)過對(duì)比三種方法的結(jié)果可以得到,DD-CycleGAN方法得到的紅外圖像雖然擺脫了可見光風(fēng)格,但是其紅外風(fēng)格已經(jīng)超越了真實(shí)的紅外風(fēng)格,看起來不真實(shí);DDR-CycleGAN(One-stage)相比于它們既擺脫了可見光風(fēng)格,又沒有不真實(shí)的紅外風(fēng)格,但是邊緣模糊;DDR-CycleGAN(Four-stage)方法不僅生成了較真實(shí)的紅外圖像,邊緣也比較清晰,證明了該方法的可行性。
本文提出了DDR-CycleGAN(Double Discriminator relative Cycle-Consistent Generative Adversarial Network),即雙鑒別器相對(duì)循環(huán)一致性對(duì)抗網(wǎng)絡(luò)進(jìn)行紅外數(shù)據(jù)增強(qiáng),有效地解決了科研過程中紅外圖像數(shù)據(jù)數(shù)量不充足的問題。本文方法主要有兩個(gè)貢獻(xiàn):第一,在雙鑒別器可能存在過度優(yōu)化的問題上利用相對(duì)真實(shí)概率的思想,保證了網(wǎng)絡(luò)性能不下降,確保了網(wǎng)絡(luò)的穩(wěn)定性。第二,對(duì)于DDR-CycleGAN,設(shè)計(jì)了Four-stage的訓(xùn)練方法,使得生成器可以更全面地學(xué)習(xí)特征,確保其性能全面提升。盡管該方法在紅外圖像數(shù)據(jù)增強(qiáng)方面取得了進(jìn)步,但是這項(xiàng)任務(wù)仍然具有巨大的挑戰(zhàn)性,接下來的工作將圍繞鑒別器數(shù)量與生成圖片質(zhì)量的關(guān)系展開研究,以增強(qiáng)實(shí)際復(fù)雜場(chǎng)景下的生成器性能,進(jìn)一步提高生成的紅外圖像質(zhì)量。