蔡 偉,姜 波,蔣昕昊,楊志勇
(火箭軍工程大學(xué) 兵器發(fā)射理論與技術(shù)國(guó)家重點(diǎn)學(xué)科實(shí)驗(yàn)室,陜西 西安 710025)
紅外成像技術(shù)利用紅外探測(cè)器獲取目標(biāo)與環(huán)境的熱輻射差異,通過光電轉(zhuǎn)換技術(shù)形成可觀測(cè)的紅外圖像,具有抗干擾能力強(qiáng)、探測(cè)距離遠(yuǎn)、可全天候工作等優(yōu)勢(shì),因此在軍事偵察、公共安防、醫(yī)療成像等方面發(fā)揮了重要作用。但在紅外成像技術(shù)的發(fā)展過程中,經(jīng)常需要豐富多樣的紅外圖像數(shù)據(jù)作為驗(yàn)證測(cè)試的樣本。同時(shí)基于深度學(xué)習(xí)的算法也必須使用大量的紅外數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,從而確保模型的訓(xùn)練效果。然而,在許多場(chǎng)景中,由于測(cè)試環(huán)境、搭載設(shè)備等客觀因素的限制,采用實(shí)拍紅外圖像的獲取方式是十分困難的,構(gòu)建大規(guī)模的紅外數(shù)據(jù)集成本極高。因此利用紅外圖像仿真技術(shù)生成高質(zhì)量的紅外數(shù)據(jù),不僅能夠有效地降低獲取紅外數(shù)據(jù)的成本,還可以生成很多自然環(huán)境以及外場(chǎng)試驗(yàn)難以獲得的紅外數(shù)據(jù),這些數(shù)據(jù)將為紅外相關(guān)設(shè)備在軍事、民用領(lǐng)域的應(yīng)用提供有力支撐。
Vega/VegaPrime,SE-Workbench,MuSES,DIRSIG 等傳統(tǒng)的紅外仿真技術(shù)[1-3]利用人工構(gòu)建的三維模型計(jì)算每個(gè)單位的熱輻射,模擬真實(shí)場(chǎng)景下的紅外數(shù)據(jù)。但這些方法的計(jì)算框架較為復(fù)雜,需要大氣溫度、相對(duì)濕度、風(fēng)速等諸多額外的環(huán)境信息。而利用圖像風(fēng)格遷移的方法將種類多樣的可見光圖像直接轉(zhuǎn)換為紅外圖像相比于傳統(tǒng)的紅外仿真方法更加快捷方便。近幾年,隨著深度學(xué)習(xí)技術(shù)的迅速崛起,生成對(duì)抗網(wǎng)絡(luò)在圖像生成和轉(zhuǎn)換、信息安全、視覺計(jì)算等領(lǐng)域展現(xiàn)出顯著的應(yīng)用價(jià)值[4-6]?;谏蓪?duì)抗網(wǎng)絡(luò)的圖像風(fēng)格遷移模型取得了巨大成功。Pix2pix[7]首次使用U-Net 作為生成器,PathGAN(Generative Adversarial Network)作為 判別器,實(shí)現(xiàn)了語(yǔ)義圖到真實(shí)場(chǎng)景圖、衛(wèi)星圖到地圖、日景圖到夜景圖的轉(zhuǎn)換,但Pix2pix 對(duì)訓(xùn)練樣本要求嚴(yán)格,必須使用成對(duì)圖像作為輸入。然而,針對(duì)圖像跨模態(tài)轉(zhuǎn)換問題,很難采集和建立充足的成對(duì)訓(xùn)練數(shù)據(jù),因此Pix2pix 在實(shí)際應(yīng)用中具有一定局限性。而CycleGAN,DiscoGAN,DualGAN等[8-10]方法利用一種循環(huán)一致性損失函數(shù)對(duì)非成對(duì)圖像進(jìn)行訓(xùn)練,實(shí)現(xiàn)了四季場(chǎng)景轉(zhuǎn)換、照片與藝術(shù)畫互轉(zhuǎn)。但基于循環(huán)一致性損失函數(shù)的方法通常要求圖像之間的雙向映射,這種限制嚴(yán)格的雙向映射對(duì)于模態(tài)差異較大的圖像轉(zhuǎn)換效果并不理想,尤其面對(duì)復(fù)雜場(chǎng)景的紅外圖像轉(zhuǎn)換時(shí)模型的性能受到極大影響。如圖1 所示,Cycle-GAN 在進(jìn)行可見光圖像到紅外圖像轉(zhuǎn)換時(shí),由于雙向映射的嚴(yán)格要求,反而造成了圖中紅色方框內(nèi)的生成結(jié)果失真(彩圖見期刊電子版)。因此,如何在非成對(duì)樣本訓(xùn)練的條件下高質(zhì)量的實(shí)現(xiàn)紅外圖像的轉(zhuǎn)換,對(duì)于紅外數(shù)據(jù)集的構(gòu)建具有重要的研究?jī)r(jià)值。
圖1 兩種紅外仿真算法生成圖像效果對(duì)比Fig.1 Comparison of image effects generated by two infrared simulation algorithms
基于以上分析,本文提出了一種使用非成對(duì)樣本進(jìn)行訓(xùn)練的可見光圖像到紅外圖像轉(zhuǎn)換的生成對(duì)抗網(wǎng)絡(luò)(Visible to Infrared Generative Adversarial Network,VTIGAN),有效實(shí)現(xiàn)了紅外圖像仿真生成。VTIGAN 相比于循環(huán)一致性損失的方法而言,并不要求模態(tài)間的雙向映射,而是引入多層對(duì)比損失和風(fēng)格相似性損失約束網(wǎng)絡(luò)訓(xùn)練,重點(diǎn)關(guān)注可見光圖像到紅外圖像的單向映射,因此不僅降低了網(wǎng)絡(luò)復(fù)雜度,紅外圖像的生成質(zhì)量也更高。本文的貢獻(xiàn)總結(jié)如下:
(1)針對(duì)可見光圖像到紅外圖像轉(zhuǎn)換時(shí)模態(tài)差異較大,現(xiàn)有算法使用非成對(duì)數(shù)據(jù)訓(xùn)練效果不佳的問題,本文提出了一種新穎的紅外圖像仿真生成算法VTIGAN,實(shí)現(xiàn)非成對(duì)訓(xùn)練樣本下可見光圖像到紅外圖像的轉(zhuǎn)換;
(2)在生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上引入多層對(duì)比損失、風(fēng)格相似性損失和同一性損失約束網(wǎng)絡(luò)模型的訓(xùn)練,在圖像轉(zhuǎn)換過程中最大程度保留輸入的可見光圖像語(yǔ)義內(nèi)容不變,同時(shí)生成逼真的紅外風(fēng)格特征;
(3)在公開的可見光-紅外數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),證明了VTIGAN 生成的紅外圖像在定量評(píng)價(jià)和視覺效果上的優(yōu)越性,相比于其他算法更加適合非成對(duì)訓(xùn)練樣本條件下可見光圖像到紅外圖像的轉(zhuǎn)換。
假設(shè)可 見光域 為χ?RH×W×C、紅外域 為γ?RH×W×C,給定非成對(duì)可見光圖像數(shù)據(jù)集和紅外圖像數(shù)據(jù)集分別為X={x∈χ},Y={y∈γ}。本文的目的是通過VTIGAN 學(xué)習(xí)一個(gè)映射G:X→Y,從而實(shí)現(xiàn)可見光圖像到紅外圖像的轉(zhuǎn)換。VTIGAN 包含一對(duì)生成器和判別器{G,DY},生成器G完成X→Y的映射,判別器DY負(fù)責(zé)確保轉(zhuǎn)換后的圖像屬于紅外域。生成器G由編碼器、轉(zhuǎn)換器、解碼器組成,分別表示為Genc,Gcon,Gdec,生成紅外圖像?的過程如式(1)所示:
在圖像轉(zhuǎn)換過程中,VTIGAN 從編碼器中提取輸入圖像的多層特征信息,并使用一個(gè)雙層MLP 網(wǎng)絡(luò)[11](HX和HY)將提取到的特征信息投影到共享的嵌入空間,從而計(jì)算輸入和輸出圖像間的多層對(duì)比損失。此外,VTIGAN 還引入了兩個(gè)輕量的特征映射網(wǎng)絡(luò){Hf,Hr},提取仿真紅外圖像和真實(shí)紅外圖像間的公共信息,并以此構(gòu)成風(fēng)格相似性損失。特征映射網(wǎng)絡(luò){Hf,Hr}依次由卷積層、ReLU 激活函數(shù)、平均池化層、雙層點(diǎn)卷積級(jí)聯(lián)而成。
圖2 顯示了VTIGAN 的整體網(wǎng)絡(luò)架構(gòu)。VTIGAN 主要結(jié)合了對(duì)抗損失、多層對(duì)比損失、風(fēng)格相似性損失以及同一性損失實(shí)現(xiàn)網(wǎng)絡(luò)模型的訓(xùn)練。下面將從網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩個(gè)方面詳細(xì)介紹本方法的具體原理。
圖2 VTIGAN 的基本框架Fig.2 Basic framework of VTIGAN
VTIGAN 利用卷積神經(jīng)網(wǎng)絡(luò)和transformer[12]的組合,構(gòu)建了 一種新 穎的生成器,主要由編碼器、轉(zhuǎn)換器、解碼器三部分組成。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of generator
2.1.1編碼器
編碼器主要利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,便于之后的轉(zhuǎn)換器進(jìn)行相應(yīng)的轉(zhuǎn)換。第1個(gè)卷積層采用64 個(gè)尺度為7×7 的卷積核提取特征,并加入3 個(gè)像素的填充保留特征圖的空間維度。接下來的兩個(gè)卷積層分別由128 和256個(gè)卷積核組成,所有卷積核尺度為3×3,步幅設(shè)置為2,填充設(shè)置為1。每個(gè)卷積層后面還包括一個(gè)批量歸一化層和Relu 激活函數(shù)。設(shè)T∈RH×W×C表示編碼器輸出的張量,則輸入尺寸為256×256×3 的可見光圖像,輸出T的尺寸為64×64×256。
2.1.2轉(zhuǎn)換器
轉(zhuǎn)換器利用transformer 架構(gòu)在潛在空間對(duì)深度特征進(jìn)行解糾纏并重新組合,實(shí)現(xiàn)可見光到紅外的風(fēng)格轉(zhuǎn)換。為方便后續(xù)的矩陣運(yùn)算,首先使用卷積投影模塊(conv_projection)將T映射為三組向量,這些向量稱為查詢向量Q、鍵向量K、值向量V。投影模塊主要由深度可分離卷積[13]構(gòu)成,其中特別的是生成Q的投影模塊使用步幅為1 的深度卷積,其他投影模塊的深度卷積步幅為2。設(shè)WQ,WK,WV分別為投影模塊的訓(xùn)練參數(shù),則三組向量的學(xué)習(xí)過程如式(2)所示:
其中:Depthwise(·) 表示深度可分離卷積,reshape(·) 表示矩 陣重組。向 量Q∈,K∈,V∈,sq=4 096,sk=sv=1 024,tq=tk=tv=256。
卷積投影模塊之后設(shè)置了一個(gè)自注意力模塊(Self-Attention)。在此模塊中,查詢向量Q、鍵向量K通過矩陣運(yùn)算對(duì)全局特征進(jìn)行解糾纏,并生成自注意力矩陣更新值向量V中的特征信息。此過程如式(3)所示:
其中:Θ∈R64×64×256,KT為鍵K的轉(zhuǎn)置,softmax(·)表示歸一化函數(shù),reshape(·)表示矩陣重組。
與常規(guī)的transformer 架構(gòu)不同,為進(jìn)一步降低計(jì)算量,本文使用雙層點(diǎn)卷積代替MLP 作為transformer 中的最后處理模塊。轉(zhuǎn)換器的最終輸出如式(4)所示:
其中:Γconv256和Γconv512分別表示卷積核數(shù)量為256和512 的卷積層,ΓGELU表示高斯誤差線性單元激活函數(shù),ΓBN為批量歸一化層。
2.1.3解碼器
解碼器的構(gòu)成與編碼器恰好相反,采用3層逐級(jí)連接的反卷積,將轉(zhuǎn)換器輸出的特征圖逐級(jí)還原為紅外圖像,完成整個(gè)生成過程。編碼器、轉(zhuǎn)換器、解碼器的結(jié)構(gòu)參數(shù)詳見表1。
表1 生成器內(nèi)部參數(shù)Tab.1 Generators internal parameters
在一般的生成對(duì)抗網(wǎng)絡(luò)中,判別器通常由多個(gè)卷積層構(gòu)成,最終輸出一個(gè)介于0~1 之間的標(biāo)量作為判定樣本真?zhèn)蔚母怕?。這種判別方式針對(duì)整張圖像進(jìn)行加權(quán)得出結(jié)果,無(wú)法關(guān)注到圖像的局部特征。由于可見光圖像與紅外圖像模式差異大,此種判別方法精度要求過低無(wú)法實(shí)現(xiàn)高質(zhì)量的圖像生成。因此,本文使用70×70 的PathGAN[6]作 為VTIGAN 的判別 器,具體結(jié) 構(gòu)如 圖4 所 示,其輸入 為256 pixel×256 pixel 的 圖像,輸出結(jié)果為30×30 的矩陣,每個(gè)矩陣元素代表輸入圖像中一個(gè)70×70 感受野的圖像補(bǔ)丁為真的概率,最終以全部矩陣元素的均值判定整張圖像的真假。這種補(bǔ)丁級(jí)判別器針對(duì)每一個(gè)圖像補(bǔ)丁精準(zhǔn)判別,重點(diǎn)關(guān)注了圖像局部特征的提取和表征,更加適合可見光到紅外這兩種模式差異較大的圖像轉(zhuǎn)換。
圖4 判別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of discriminator
2.3.1 對(duì)抗損失
在傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)中通常使用交叉熵?fù)p失函數(shù),這會(huì)導(dǎo)致生成的圖像雖然被判定為真實(shí)圖像,但實(shí)際仍遠(yuǎn)離判別器的決策邊界。由于此時(shí)交叉熵?fù)p失函數(shù)已經(jīng)擬合,生成器不會(huì)繼續(xù)進(jìn)行優(yōu)化,最終限制了生成的圖像質(zhì)量。通過理論分析和實(shí)際測(cè)試發(fā)現(xiàn)最小二乘損失函數(shù)可以對(duì)判定為真實(shí)樣本的圖像進(jìn)行懲罰,使距離決策邊界較遠(yuǎn)的樣本不斷靠近決策邊界,從而進(jìn)一步提高圖像轉(zhuǎn)換的效果。因此,VTIGAN 選擇最小二乘損失函數(shù)構(gòu)建對(duì)抗損失,其表達(dá)形式如式(5)~式(7)所示:
其中:y為真實(shí)紅外圖像為生成紅外圖像,)表示計(jì)算期望,D Y(·)表示判別器判定圖像為真的概率。
2.3.2 多層對(duì)比損失
圖像轉(zhuǎn)換過程中,要求輸入圖像和輸出圖像在對(duì)應(yīng)空間位置上應(yīng)具有相似的語(yǔ)義信息。因此VTIGAN 引入多層對(duì)比損失最大化輸入和輸出圖像對(duì)應(yīng)位置間的互信息。通過將可見光和紅外圖像對(duì)應(yīng)位置互信息的最大化,可以監(jiān)督生成網(wǎng)絡(luò)提取兩個(gè)對(duì)應(yīng)位置的共性部分(圖像轉(zhuǎn)換時(shí)應(yīng)該被保留的內(nèi)容),同時(shí)忽略其他位置上的特征對(duì)圖像轉(zhuǎn)換的影響,具體實(shí)現(xiàn)如下。
多層對(duì)比損失的目的是關(guān)聯(lián)查詢樣本和所對(duì)應(yīng)的正樣本,并排除數(shù)據(jù)中的其他負(fù)樣本。如圖2 所示(彩圖見期刊電子版),設(shè)定查詢樣本為生成的紅外圖像中隨機(jī)選取的綠色圖像框,正樣本則為可見光圖像中相同位置所對(duì)應(yīng)的藍(lán)色圖像框,而可見光圖像中除正樣本位置外隨機(jī)位置選取的紫色圖像框均為負(fù)樣本。首先將查詢樣本、正樣本和N 個(gè)負(fù)樣本映射為P維向量,分別表示為q∈RP,ν-∈RN×P,ν+∈RP,接著對(duì)P維向量進(jìn)行L2 正則化,此時(shí)可構(gòu)建一個(gè)(N+1)類的分類問題,并計(jì)算排除負(fù)樣本選出正樣本的概率。在數(shù)學(xué)上可使用交叉熵?fù)p失[13]表示為:
其中,δ為查詢樣本和其他樣本間的距離縮放因子。
VTIGAN 使用Genc和雙層MLP 的組合分別對(duì)可見光和紅外圖像進(jìn)行特征提取,同時(shí)為了更加精確的進(jìn)行特征表示,可見光和紅外圖像的特征提取網(wǎng)絡(luò)之間并不共享權(quán)重。以可見光圖像為例,選取Genc(x)中的L 層傳遞到MLP 中,將其投影為特征集合,如式(9)所示:
由上述公式可得到最終輸入與輸出圖像間的多層對(duì)比損失,如式(11)所示:
2.3.3 風(fēng)格相似性損失
在紅外圖像數(shù)據(jù)集Y={y∈γ}中,不同紅外圖像雖然語(yǔ)義內(nèi)容各不相同,但具有相似的紅外風(fēng)格特征。為了提高生成紅外圖像的真實(shí)性,VTIGAN 使用風(fēng)格相似性損失充分挖掘生成圖像和真實(shí)樣本之間的聯(lián)系,最大程度上實(shí)現(xiàn)紅外風(fēng)格特征的轉(zhuǎn)換。如圖1 所示,在網(wǎng)絡(luò)中首先使用編碼器Genc和雙層MLP 將生成的紅外圖像和真實(shí)紅外圖像轉(zhuǎn)換為兩組特征集合,接著利用兩個(gè)輕量的特征映射網(wǎng)絡(luò){Hf,Hr}將特征集合映射為64 維的風(fēng)格特征向量,此時(shí)利用風(fēng)格相似性損失度量二者之間距離,其形式化表達(dá)如式(12)所示:
通過在深層信息上約束生成圖像和真實(shí)圖像間風(fēng)格特征的相似,可以促使生成紅外圖像更加真實(shí),而不是簡(jiǎn)單的色彩疊加。
2.3.4 同一性損失
生成器以可見光圖像作為輸入,可以實(shí)現(xiàn)可見光圖像到紅外圖像的映射,然而若將紅外圖像作為輸入,理想的生成器將不進(jìn)行任何更改而直接輸出原始圖像。這種以紅外圖像直接作為輸入,得到的輸出圖像與輸入圖像之間的L1 損失被定義為同一性損失。其表達(dá)式如式(13)所示:
同一性損失的加入可以在訓(xùn)練過程中糾正生成器的偏差,激勵(lì)生成器生成更加真實(shí)的紅外圖像的特征。
2.3.5 總損失函數(shù)
上述各種損失函數(shù)都會(huì)對(duì)紅外仿真圖像生成效果產(chǎn)生影響,將各項(xiàng)損失進(jìn)行加權(quán),最終構(gòu)成VTIGAN 的整體損失函數(shù),如式(14)所示:
其中,λ是調(diào)整各項(xiàng)損失函數(shù)在訓(xùn)練中占比的權(quán)值。
本文算法的有效性檢驗(yàn)在Pytorch 深度學(xué)習(xí)開發(fā)框架下進(jìn)行,硬件平臺(tái)配置如表2 所示。
3.1.1 數(shù)據(jù)集制備
本文使用的數(shù)據(jù)集為艾睿光電紅外開源平臺(tái)提供的可見光-紅外數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容豐富,包含了車輛、建筑、植物等多種物體的可見光和紅外圖像,圖像尺寸均為256 pixel×256 pixel。為充分驗(yàn)證算法的有效性,本實(shí)驗(yàn)將該數(shù)據(jù)集劃分為交通場(chǎng)景和建筑場(chǎng)景兩大類,其中交通場(chǎng)景主要包含車輛和公路的可見光與紅外圖像,建筑場(chǎng)景主要包含水泥建筑、樹木、草坪等物體。兩類場(chǎng)景中均含有5 000 組圖像作為實(shí)驗(yàn)樣本,其中訓(xùn)練集包含可見光和紅外圖像各4 500 張,且訓(xùn)練過程中圖像均采用隨機(jī)輸入的方式,確保在非成對(duì)訓(xùn)練樣本條件下進(jìn)行訓(xùn)練。測(cè)試集則包含500 組配對(duì)的可見光和紅外圖像,其中500 張可見光圖像作為測(cè)試樣本,而與之對(duì)應(yīng)的500 張紅外圖像作為參考樣本對(duì)生成紅外圖像進(jìn)行定量評(píng)價(jià)。
3.1.2 評(píng)價(jià)指標(biāo)選取
為比較不同算法的圖像遷移效果,本文使用全參考評(píng)價(jià)方法定量分析生成紅外圖像質(zhì)量,主要選取以下三個(gè)指標(biāo):峰值信噪比(Peak Signalto-Noise Ratio,PSNR)、結(jié)構(gòu)相似度(Structure Similarity Index Measure,SSIM)和Frechét inception distance(FID)。
PSNR[15]作為使用最廣泛的全參考評(píng)價(jià)指標(biāo)之一,在圖像壓縮、超分辨率重建等領(lǐng)域發(fā)揮了重要作用。PSNR 基于對(duì)應(yīng)像素點(diǎn)間的均方誤差衡量生成圖像與參考圖像之間的差異,其值越大代表生成圖像失真越小,即生成圖像的質(zhì)量越高。PSNR 的形式化表達(dá)如式(15)所示:
其中:MSE表示參考圖像和生成圖像之間的均方誤差,MAXI為圖像中的最大像素值。
SSIM[16]用于計(jì)算生成圖像與參考圖像之間的相似性,取值范圍在0~1 之間,值越大圖像相似性越高。SSIM 用均值作為亮度的估計(jì),標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì),協(xié)方差作為結(jié)構(gòu)相似程度的度量,更加符合人類視覺提取圖像結(jié)構(gòu)信息的方式。假設(shè)參考圖像和生成圖像分別為x和y,其結(jié)構(gòu)相似性定義如下:
其中:l(x,y),c(x,y),s(x,y)分別x和y的亮度比較、對(duì)比度比較以及結(jié)構(gòu)比較,μx和μy分別為x和y的均值,σx和σy分別為x和y的標(biāo)準(zhǔn)差,σxy表示x和y的協(xié)方差,C1,C2,C3,α,β,γ均為常數(shù)。
FID[17]通過Inception 模型度量生成圖像與參考圖像在深度特征空間中的距離,具有較好的魯棒性,其分?jǐn)?shù)越低,說明生成圖像的質(zhì)量越高且多樣性豐富。FID 的形式化表達(dá)如式(18)所示:
其中:μr,μg分別為參考圖像和生成圖像的特征的均值,Σr,Σg分別為參考圖像和生成圖像的特征的協(xié)方差矩陣,Tr表示求矩陣對(duì)角線元素和的運(yùn)算。
3.1.3 實(shí)驗(yàn)參數(shù)設(shè)置
使用動(dòng)量為0.5 的自適應(yīng)矩估計(jì)優(yōu)化器(Adam)[18]對(duì)訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)損失進(jìn)行優(yōu)化,初始網(wǎng)絡(luò)參數(shù)隨機(jī)選自均值為0,方差為0.02的高斯分布。經(jīng)調(diào)試后,實(shí)驗(yàn)具體參數(shù)設(shè)置如表3 所示。
表3 實(shí)驗(yàn)參數(shù)設(shè)置Tab.3 Setting of experimental parameters
為了驗(yàn)證VTIGAN 算法在可見光到紅外圖像遷移任務(wù)上的優(yōu)良性能,本文將其與其他圖像遷移算法進(jìn)行了對(duì)比實(shí)驗(yàn)分析。主要對(duì)比網(wǎng)絡(luò)包含CycleGAN,DSMAP(Domain-Specific Mappings)[19],UGATIT(Unsupervised Generative Attentional networks)[20],GLANet(Global and Local Alignment Networks)[21],CUT(Contrastive Learning for Unpaired Image-to-Image Translation)[22]。為了充分對(duì)比不同算法之間的性能差異,本文從客觀定量分析和主觀視覺評(píng)價(jià)兩方面對(duì)圖像風(fēng)格遷移結(jié)果進(jìn)行了評(píng)價(jià)。
3.2.1 客觀定量分析
使用PSNR,SSIM 和FID 三個(gè)指標(biāo)對(duì)各模型的測(cè)試結(jié)果進(jìn)行定量分析,對(duì)比結(jié)果如表4所示。
表4 圖像評(píng)價(jià)指標(biāo)對(duì)比Tab.4 Comparison of image evaluation indexes
從不同方法的實(shí)驗(yàn)結(jié)果來看VTIGAN 在三項(xiàng)指標(biāo)的評(píng)價(jià)結(jié)果上達(dá)到了最優(yōu),相比于Cycle-GAN 在PSNR,SSIM 和FID 三個(gè)指標(biāo)上分別提升了16.8%,14.3%和35.0%,相比于排名第二的方法UGATIT 在PSNR、SSIM 和FID 三個(gè)指標(biāo)上分別提升了3.1%,2.8%和11.3%。從兩組不同場(chǎng)景實(shí)驗(yàn)的評(píng)價(jià)結(jié)果對(duì)比來看,由于交通場(chǎng)景相比于建筑場(chǎng)景復(fù)雜程度略低,因此在交通場(chǎng)景上的圖像生成結(jié)果均優(yōu)于建筑場(chǎng)景。但場(chǎng)景復(fù)雜度對(duì)不同方法的影響程度并不相同,從表4 中數(shù)據(jù)分析可以看出,VTIGAN 從交通場(chǎng)景到建筑場(chǎng)景三項(xiàng)圖像評(píng)價(jià)指標(biāo)下降幅度分別為5.3%,2.7%和7.9%,指標(biāo)下降幅度最小。而CycleGAN 的表現(xiàn)受場(chǎng)景復(fù)雜度的影響最大,在PSNR,SSIM 和FID 三個(gè)指標(biāo)上分別下降了11.1%,15.7% 和32.7%。從定量評(píng)價(jià)結(jié)果來看本文提出的VTIGAN 針對(duì)可見光圖像到紅外圖像的遷移取得了最優(yōu)的表現(xiàn),且該方法具有較好的魯棒性,對(duì)于復(fù)雜場(chǎng)景下的抗干擾能力更強(qiáng)。
3.2.2 主觀視覺評(píng)價(jià)
為了更加直觀比較各模型在可見光圖像到紅外圖像遷移任務(wù)上的性能差異,本節(jié)選取了水泥建筑、樹木、草坪、工地、交通車輛五類主要實(shí)例的紅外圖像生成結(jié)果直接進(jìn)行比對(duì),各方法具體實(shí)驗(yàn)結(jié)果示例如圖5 所示。
圖5 實(shí)驗(yàn)結(jié)果示例Fig.5 Example of experimental results
圖5 中第一列為測(cè)試時(shí)輸入的可見光圖像,第二列為真實(shí)的紅外參考樣本,后面依次排列的是不同方法的測(cè)試結(jié)果。從五類實(shí)例的生成效果來看,GLANet,CUT,CycleGAN 三種方法對(duì)于5 類實(shí)例的紅外特征生成均有明顯的錯(cuò)誤,例如水泥建筑的結(jié)果對(duì)比中CycleGAN 未能正確生成樓房的紅外特征,GLANet 和CUT 對(duì)于車輛的紅外信息均生成錯(cuò)誤。而DSMAP,UGATIT,VTIGAN 三種方法對(duì)于紅外特征均能正確的生成,但從圖像的逼真程度和清晰度來看VTIGAN 優(yōu)于DSMAP 和UGATIT。這些方法對(duì)于紅外圖像仿真均有一定的應(yīng)用價(jià)值,但也存在一些共性的不足,從圖5 中可以看出交通車輛的紅外圖像中遠(yuǎn)處行駛的兩輛車,由于目標(biāo)較小,六種方法均未正確生成其紅外特征,甚至直接造成了信息的缺失。總之,從主觀評(píng)價(jià)上來看,本文提出的VTIGAN 相比于其他方法生成圖像的紅外特征精確且清晰度和逼真度更優(yōu)。
本文聯(lián)合對(duì)抗損失、多層對(duì)比損失、風(fēng)格相似性損失、同一性損失四種損失函數(shù)對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。為驗(yàn)證各個(gè)損失函數(shù)的有效性,本節(jié)采取消融實(shí)驗(yàn)的方法測(cè)試多層對(duì)比損失、風(fēng)格相似性損失、同一性損失對(duì)算法性能的影響。實(shí)驗(yàn)結(jié)果如表5 所示,在本實(shí)驗(yàn)中依次去除多層對(duì)比損失、風(fēng)格相似性損失、同一性損失,并保留其他損失函數(shù)不變,從實(shí)驗(yàn)結(jié)果可知去除任意一項(xiàng)損失函數(shù)均導(dǎo)致算法性能的下降。其中,多層對(duì)比損失和風(fēng)格相似損失作為圖像遷移過程中的主要約束,去除后導(dǎo)致算法性能大幅下降,進(jìn)一步驗(yàn)證了本文算法的有效性。
可見光圖像遷移生成紅外圖像具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值。本文針對(duì)非成對(duì)數(shù)據(jù)條件下可見光圖像遷移生成紅外圖像的任務(wù)要求,提出了一種新穎的紅外圖像仿真算法VTIGAN。VTIGAN 以特征提取能力強(qiáng)大的transformer 架構(gòu)為基礎(chǔ)構(gòu)建了一種新的生成器,使用PathGAN 作為判別器對(duì)生成圖像進(jìn)行更精細(xì)化的鑒別,并聯(lián)合對(duì)抗損失、多層對(duì)比損失、風(fēng)格相似性損失、同一性損失四種損失函數(shù)對(duì)模型的訓(xùn)練加以約束,確保紅外圖像高質(zhì)量的生成。在可見光-紅外數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與目前主流的圖像遷移算法相比VTIGAN 在客觀定量分析和主觀視覺評(píng)價(jià)兩方面均取得明顯優(yōu)勢(shì),對(duì)于復(fù)雜場(chǎng)景下的抗干擾能力優(yōu)于基于循環(huán)一致性損失函數(shù)的方法,相比于CycleGAN 在PSNR,SSIM 和FID 三個(gè)指標(biāo)上分別提升了20.6%,23.2%和40.8%,能夠生成清晰度更高、紅外特征更準(zhǔn)確的紅外仿真圖像。在下一步的研究中將關(guān)注以下兩方面:(1)現(xiàn)有算法對(duì)于圖像中的小目標(biāo)轉(zhuǎn)換效果不佳,下一步研究可加強(qiáng)模型對(duì)小目標(biāo)紅外特征轉(zhuǎn)換的能力,以進(jìn)一步提高紅外仿真圖像的使用價(jià)值;(2)可見光-紅外數(shù)據(jù)集的種類和數(shù)量仍然較少,下一步可從大型數(shù)據(jù)集制備的角度來提高模型性能。