李 一,李 陽,苗 壯,王家寶,張 睿
(陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)
圖像融合是指利用特定算法將兩幅或多幅圖像融合成一幅新的圖像。圖像融合結(jié)果能利用兩幅(或多幅)圖像在時空上的相關(guān)性及信息上的互補性,對圖像內(nèi)容有更全面、更清晰的描述,從而更有利于人眼識別和機器處理。
針對不同應(yīng)用領(lǐng)域,圖像融合技術(shù)可分為醫(yī)學(xué)圖像融合[1,2]、多聚焦圖像融合[3,4]、遙感圖像融合[5]、多曝光圖像融合[6,7]和紅外與可見光圖像融合[8,9]等幾種類型。其中,紅外與可見光圖像融合是最常用的一種??梢姽鈭D像可以為機器視覺任務(wù)提供豐富的細(xì)節(jié)信息。但是,由于可見光圖像的采集容易受到照明不足、大霧天氣和障礙遮擋等的影響,導(dǎo)致可見光圖像可能無法獲取重要目標(biāo)的關(guān)鍵信息。與可見光圖像不同,紅外圖像采用熱輻射差異原理成像,能夠克服惡劣天氣和照明不足的影響,可根據(jù)熱輻射差異將目標(biāo)與背景進行有效區(qū)分。但是,紅外圖像的局限性在于它無法提供紋理細(xì)節(jié)信息。因此,單獨的可見光圖像或紅外圖像均不能提供足夠的信息用于機器視覺任務(wù)。
雖然紅外與可見光圖像融合具有廣泛的應(yīng)用,但現(xiàn)階段紅外與可見光圖像融合領(lǐng)域存在一個嚴(yán)重的問題:難以比較不同融合算法的性能。首先,該領(lǐng)域缺乏一個公認(rèn)的較大規(guī)模的紅外與可見光圖像融合數(shù)據(jù)集。因此,在圖像融合實驗中使用不同的圖像進行測試是很常見的,這使得紅外與可見光圖像融合領(lǐng)域很難直接比較不同算法的性能。其次,盡管存在多種開源融合算法,但缺少對多種算法在同一基準(zhǔn)下進行測評的統(tǒng)一框架。雖然一些算法的代碼已經(jīng)開源,例如CNN(Convolutional Neural Network)[10]和DLF[11],但大多數(shù)算法的接口和使用方式都是不同的。因此,在紅外與可見光圖像融合領(lǐng)域進行大規(guī)模性能評估既不方便又耗時。最后,該領(lǐng)域缺乏一個公認(rèn)的算法評價體系,盡管研究者們已經(jīng)提出了許多評價指標(biāo),但如何利用多種指標(biāo)評價融合效果仍是一個開放性問題。目前,不同算法通常各自選擇幾個指標(biāo)來評價算法自身融合效果,但由于指標(biāo)選擇的不同,紅外與可見光圖像融合領(lǐng)域很難客觀地比較不同算法的性能。為解決以上問題,Zhang等人[12]提出了紅外與可見光圖像融合領(lǐng)域第一個融合基準(zhǔn)——VIFB(Visible and Infrared Image Fusion Benchmark)。該基準(zhǔn)構(gòu)建了一個共包含21對紅外與可見光圖像的小規(guī)模數(shù)據(jù)集,并設(shè)計了一個包含13種指標(biāo)的評價體系來對20種融合算法進行測評。該基準(zhǔn)通過定性和定量的結(jié)果分析,確定了性能優(yōu)良的圖像融合算法,促進了紅外與可見光圖像融合研究領(lǐng)域的發(fā)展。但是,VIFB仍存在一些不足:首先,該基準(zhǔn)的數(shù)據(jù)集規(guī)模不夠大,僅包含了21對紅外與可見光圖像;其次,VIFB的評價指標(biāo)選取不夠均衡,它的13種評價指標(biāo)未能從4大類評價指標(biāo)[13](基于信息理論的評價指標(biāo)、基于圖像特征的評價指標(biāo)、基于結(jié)構(gòu)相似性的評價指標(biāo)和基于人類視覺感知的評價指標(biāo))中均勻選取,這導(dǎo)致了VIFB難以對各種融合算法進行均衡的客觀評價;最后,VIFB中基于深度學(xué)習(xí)的算法偏少,導(dǎo)致VIFB無法客觀判斷不同深度學(xué)習(xí)方法在圖像融合領(lǐng)域的效果。
為解決以上問題,本文在VIFB的基礎(chǔ)上,建立了一個紅外與可見光圖像融合基準(zhǔn)。
具體地,主要包括以下3個方面:
(1) 本文在VIFB的21對圖像的基礎(chǔ)上,增加了35對紅外與可見光圖像,構(gòu)建了一個包含56對紅外與可見光圖像的數(shù)據(jù)集,是目前紅外與可見光圖像融合領(lǐng)域規(guī)模最大的數(shù)據(jù)集。
(2) 本文在VIFB的20種融合算法的基礎(chǔ)上,增加了12種融合算法(其中7種是基于深度學(xué)習(xí)的算法),能夠客觀判斷不同深度學(xué)習(xí)方法在圖像融合領(lǐng)域的效果。本文將這些算法集成到一個框架中,通過這個框架可以很容易地運行算法和比較性能,而且新的融合算法也可以輕松地集成到這一框架中。
(3) 本文在VIFB的13種測評指標(biāo)的基礎(chǔ)上進行修正,構(gòu)建了一個包含16種指標(biāo)(每大類評價指標(biāo)中包含4種)的評價體系,該評價體系是本領(lǐng)域中均衡的多指標(biāo)評價體系。
紅外與可見光圖像融合領(lǐng)域中有多種融合算法。在深度學(xué)習(xí)方法引入圖像融合領(lǐng)域之前,傳統(tǒng)的紅外與可見光圖像融合算法可分為6類[14]:多尺度變換算法、稀疏表示算法、基于子空間的算法、基于顯著性的算法、混合模型算法和其他算法。
近年來,隨著深度學(xué)習(xí)技術(shù)迅速發(fā)展,紅外與可見光圖像融合領(lǐng)域出現(xiàn)了很多基于深度學(xué)習(xí)的融合算法[15 - 17]。與傳統(tǒng)融合算法相比,基于深度學(xué)習(xí)的融合算法具有很多優(yōu)勢。例如,基于深度學(xué)習(xí)的融合算法提取圖像特征的能力優(yōu)于傳統(tǒng)融合算法,深度學(xué)習(xí)可以學(xué)習(xí)融合策略中的自適應(yīng)權(quán)重。紅外與可見光圖像融合領(lǐng)域利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[3,5,8,18,19]、生成對抗網(wǎng)絡(luò)GAN(Generative Adversarial Networks)[20]、孿生網(wǎng)絡(luò)[10]、自編碼器[21]進行圖像融合都取得了較好的融合效果。
VIFB選取的20種融合算法中包含了CNN[10]、DLF[11]和ResNet[22]3種基于深度學(xué)習(xí)的融合算法。這是紅外與可見光圖像融合領(lǐng)域第一次同時對多種基于深度學(xué)習(xí)的融合算法進行測評。這3種融合算法分別將CNNs、VGG19和ResNet50網(wǎng)絡(luò)引入到圖像融合中。但是,VIFB并沒有對其他深度學(xué)習(xí)網(wǎng)絡(luò)進行測評。針對這個問題,本文利用文獻[23]中提出的基于SqueezeNet的輕量級圖像融合算法,將AlexNet[24]、DenseNet[25]、GoogLeNet[26]、MobileNet[27]、ShuffleNet[28]、SqueezeNet[29]和Xception[30]深度學(xué)習(xí)網(wǎng)絡(luò)融入該輕量級網(wǎng)絡(luò)中進行紅外與可見光圖像的融合。
盡管紅外與可見光圖像融合技術(shù)已發(fā)展多年,但是仍然缺乏一個較大規(guī)模的紅外與可見光圖像融合數(shù)據(jù)集。而在視覺跟蹤領(lǐng)域中,一些公認(rèn)的測評基準(zhǔn)(如OTB(Online object Tracking Benchmark)[31,32]和VOT(Visual Object Tracking)[33])中的數(shù)據(jù)集已經(jīng)被廣泛使用。
目前紅外與可見光圖像融合領(lǐng)域存在多個小規(guī)模的紅外與可見光圖像融合數(shù)據(jù)集,包括OSU[34]、TNO(https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029)、VLIRVDIF[35]和VIFB[12]。其中,OSU包含6對紅外與可見光圖像的視頻,TNO包含63對多光譜圖像、VLIRVDIF包含24對紅外與可見光圖像的視頻、VIFB包含21對紅外與可見光圖像,而本文的數(shù)據(jù)集包含56對紅外與可見光圖像,是目前本領(lǐng)域包含紅外與可見光圖像最多的數(shù)據(jù)集。這些數(shù)據(jù)集的主要信息詳見表1。表1給出了數(shù)據(jù)集的規(guī)模、數(shù)據(jù)集內(nèi)圖像的分辨率、數(shù)據(jù)集公布時間、數(shù)據(jù)集是否附帶融合結(jié)果和是否附帶算法框架等具體信息。從表1可以看出,除了VIFB和本文的數(shù)據(jù)集,其他數(shù)據(jù)集都缺乏配套融合算法框架和融合結(jié)果,難以用來判斷紅外與可見光圖像融合領(lǐng)域發(fā)展趨勢。但是,VIFB也存在一些問題:該數(shù)據(jù)集較小,導(dǎo)致實驗結(jié)果可信度不足。針對這一問題,本文在VIFB的21對圖像的基礎(chǔ)上,增加了35對紅外與可見光圖像,構(gòu)建了一個包含56對紅外與可見光圖像的數(shù)據(jù)集。
五色養(yǎng)生蔬菜湯,之所以在日本、韓國和中國臺灣等地流行。這是因為其配方、成分和制法在許多家庭主婦之間傳播,人人自己動手制作。簡言之,將五種顏色的蔬菜,混合在一起,共煮成湯。所謂五色,即綠、紅、黃、白、黑等色,即有5種不同蔬萊,綠色為白蘿卜葉,紅色為胡蘿卜,黃色為牛蒡,白色為白蘿卜,黑色為香菇,它們分別代表了金、木、水、火、土五行。據(jù)說,五色養(yǎng)生蔬菜湯,符合中醫(yī)學(xué)所說的五行調(diào)和對應(yīng)身體五臟六腑的原理,為人類健康的基本法。
紅外與可見光圖像融合領(lǐng)域缺少一個公認(rèn)的較大規(guī)模的數(shù)據(jù)集。VIFB構(gòu)建了一個包含21對紅外與可見光圖像的數(shù)據(jù)集。該數(shù)據(jù)集是從互聯(lián)網(wǎng)和融合跟蹤數(shù)據(jù)集[22,36,37]中收集得到的,是紅外與可見光圖像融合領(lǐng)域包含圖像較多的數(shù)據(jù)集。
本文在VIFB的基礎(chǔ)上構(gòu)建了一個更大規(guī)模的包含56對紅外與可見光圖像的數(shù)據(jù)集(https://github.com/solarlee/Extended-VIFB)。新增的圖像中,一部分是從FLIR Thermal Starters數(shù)據(jù)集(https://www.flir.cn/oem/adas/adas-dataset-form/)和KAIST數(shù)據(jù)集(https://soonminhwang.github.io/rgbt-ped-detection/data/)收集得到的,另一部分是在文獻[20]所提供的數(shù)據(jù)集中篩選得到的。本文所構(gòu)建的數(shù)據(jù)集中的圖像涵蓋了廣泛的場景和工作條件(如室內(nèi)、室外、低照明、遮擋和過度曝光等),并且該數(shù)據(jù)集中存在多種分辨率的圖像,例如320×240,630×460,512×184,452×332和650×512,這些都增加了該數(shù)據(jù)集的多樣性。
近年來,紅外與可見光圖像融合領(lǐng)域出現(xiàn)了多種紅外與可見光圖像融合算法。文獻[14]將融合算法分為7類,即多尺度變換算法、稀疏表示算法、基于深度學(xué)習(xí)的算法、基于子空間的算法、基于顯著性的算法、混合模型算法和其他算法。然而,只有部分算法提供了源代碼,且這些代碼有不同的輸入和輸出接口,需要不同的運行環(huán)境。這些因素使得研究者很難對不同融合算法進行性能比較。
Table 1 Details of some existing infrared and visible image fusion datasets and the proposed dataset
針對以上問題,VIFB從7類算法中選出20種融合算法構(gòu)建了一個算法框架,20種算法包括ADF[38]、CBF[39]、CNN、DLF、FPDE[40]、GFCE[41]、GFF[42]、GTF[8]、HMSD_GF[41]、Hybrid_MSD[43]、IFEVIP[44]、LatLRR[45]、MGFF[46]、MST_SR[47]、MSVD[48]、NSCT_SR[47]、ResNet、RP_SR[47]、TIF[49]和VSMWLS[50]。VIFB構(gòu)建的算法框架是紅外與可見光圖像融合領(lǐng)域第一個大規(guī)模融合算法的框架,該框架可以快速對多種融合算法進行測評,極大地促進了紅外與可見光圖像融合領(lǐng)域的發(fā)展。但是,VIFB的算法框架存在一個問題:基于深度學(xué)習(xí)的融合算法比較少。
本文在VIFB的基礎(chǔ)上新增了12種算法,其中AlexNet、DenseNet、GoogLeNet、MobileNet、ShuffleNet、SqueezeNet和Xception為基于深度學(xué)習(xí)的算法;CVT[47]、DTCWT[47]、MDLatLRR[51]、MST[52]和NSCT[53]為傳統(tǒng)算法。12種算法的細(xì)節(jié)信息如表2所示。
Table 2 Infrared and visible image fusion algorithms added in this paper
需要注意的是:許多算法最初都是被設(shè)計用來融合灰度圖像的。本文通過將RGB圖像的每個通道與相應(yīng)的紅外圖像通道融合,進而實現(xiàn)彩色圖像的融合。此外,本文構(gòu)建的算法框架繼續(xù)沿用了VIFB的Matlab框架接口,可以方便地將新的融合算法以及新的評價指標(biāo)加入該算法框架中,并將融合結(jié)果與已經(jīng)加入的算法的結(jié)果進行比較。
在圖像融合領(lǐng)域,存在多種評價融合圖像性能的指標(biāo)。文獻[13]將評價指標(biāo)分為4大類:基于信息理論的評價指標(biāo)、基于圖像特征的評價指標(biāo)、基于圖像結(jié)構(gòu)相似性的評價指標(biāo)和基于人類視覺感知的評價指標(biāo)。
紅外與可見光圖像融合領(lǐng)域每提出一種新的圖像融合算法,算法提出者都會選取幾種評價指標(biāo)來對該算法的融合結(jié)果進行測評,而不同算法選取的評價指標(biāo)一般都不同,這使得研究者很難客觀地比較不同融合算法的性能。針對這一問題,VIFB選取了13種評價指標(biāo),組成了一個多指標(biāo)評價體系對多種融合算法進行測評,該評價體系優(yōu)于之前所有的單一指標(biāo)評價體系,極大地促進了該領(lǐng)域的發(fā)展。但是,VIFB的評價體系仍存在一個問題:指標(biāo)選取不均衡。具體來說,在VIFB選取的13種評價指標(biāo)中,有4種基于信息理論的指標(biāo)、5種基于圖像特征的指標(biāo)、2種基于圖像結(jié)構(gòu)相似性的指標(biāo)和2種基于人類視覺感知的指標(biāo)。根據(jù)VIFB的測評結(jié)果,不同的融合算法的測評結(jié)果會偏向于某一類評價指標(biāo)。例如,NSCT_SR[47]算法在CE、EN和MI上獲得了最佳的值,這些都是基于信息理論的評價指標(biāo);LatLRR[45]算法在AG、EI和SF上性能最好,它們都是基于圖像特征的指標(biāo);DLF方法在RMSE、SSIM和PSNR上表現(xiàn)良好,RMSE和SSIM都是基于結(jié)構(gòu)相似性的指標(biāo)。也就是說某種融合算法會在某一大類評價指標(biāo)的大部分評價指標(biāo)上表現(xiàn)優(yōu)越。指標(biāo)選取的不均衡會導(dǎo)致VIFB不能客觀公平地對融合算法的性能進行測評。
因此,在基于圖像特征的評價指標(biāo)中,本文去除了紅外與可見光圖像融合領(lǐng)域不太常用的指標(biāo)EI;在基于結(jié)構(gòu)相似性的評價指標(biāo)中,本文新增了紅外與可見光圖像融合領(lǐng)域常用的指標(biāo)MS_SSIM[54]和MSE[55];在基于人類視覺感知的評價指標(biāo)中,本文新增了紅外與可見光圖像融合領(lǐng)域常用的指標(biāo)SCD[56]和CC[57]。本文構(gòu)建的是一個指標(biāo)選取更加均衡的評價體系,可更加客觀公平地對融合算法的性能進行測評。表3列出了本文選擇的所有評價指標(biāo)及其相應(yīng)的類別。此外,本文構(gòu)建的評價體系是開放的,在保持評價指標(biāo)選取的均衡性的條件下,可以繼續(xù)加入更多融合領(lǐng)域的評價指標(biāo)。更多關(guān)于評價指標(biāo)的內(nèi)容可參考文獻[13,14]。
表3中,“+”表示該指標(biāo)值越大,算法融合性能越好;“-”表示該指標(biāo)值越小,算法融合性能越好。
Table 3 Evaluation metrics implemented in this paper
本文所有實驗都是在配置為11th Gen Intel (R) Core (TM) i5-1135G7@2.40 GHz的計算機上進行的。關(guān)于基于深度學(xué)習(xí)的算法,本文選擇使用Matlab提供的預(yù)訓(xùn)練模型和參數(shù),沒有對這些模型進行重新訓(xùn)練。本文所有實驗都是在本文構(gòu)建的56對紅外與可見光圖像的基礎(chǔ)上進行的。
Figure 1 Qualitative performance comparison of the fusion results of 32 fusion algorithms on IR4 and VIS4圖1 32種融合算法在IR4和VIS4圖像上的融合結(jié)果定性性能對比
定性分析是通過人的視覺系統(tǒng)來測評圖像的質(zhì)量。本文選取1組紅外與可見光圖像對32種融合算法進行定性對比分析。該組圖像的融合對比結(jié)果如圖1所示。在該組圖像中,行人目標(biāo)周圍光照較強,因此在可見光圖像中不能清晰地看到該目標(biāo),而在紅外圖像中可以清晰地看到。從融合結(jié)果中可以看出:DTCWT、GFF、MGFF、MST、NSCT和TIF算法獲得的融合圖像在對比度和清晰度方面明顯優(yōu)于其他算法的融合圖像,并且保留了更多原始圖像中的細(xì)節(jié)。而CBF、CNN、GFCE、HMSD_GF、Hybrid_MSD、IFEVIP、LatLRR、MST_SR、NSCT_SR、RP_SR和VSMWLS獲得的融合圖像不能較好地保留行人目標(biāo)信息,融合效果較差。
將本文構(gòu)建的56對圖像作為數(shù)據(jù)集,使用16種評價指標(biāo)對32種融合算法進行測評,最后的結(jié)果取平均值。表4為基于信息理論和基于圖像結(jié)構(gòu)相似性的8種指標(biāo)對32種融合算法的測評結(jié)果。表5為基于圖像特征和基于人類視覺感知的8種指標(biāo)對32種融合算法的測評結(jié)果。
表4和表5中每個指標(biāo)的前三名分別被標(biāo)為加粗、單橫線和雙橫線。
綜合表4和表5可以看出,Xception以3個第一名、1個第二名和1個第三名取得性能最優(yōu);DLF以3個第一名緊隨其后;MST_SR和MobileNet以2個第一名、2個第二名和2個第三名并列性能第三。從以上結(jié)果可以看出,目前沒有一種融合算法可以在所有評價指標(biāo)中擊敗其他算法。此外,從表4和表5中還可以看出,盡管基于深度學(xué)習(xí)的融合算法在某些評價指標(biāo)上表現(xiàn)良好,但在另一些評價指標(biāo)上表現(xiàn)較差。而且,不同算法在不同類型的評價指標(biāo)中表現(xiàn)不同。具體來說,Xception算法在MSE、RMSE和MS_SSIM上獲得最佳值,這些都是基于結(jié)構(gòu)相似性的評價指標(biāo);DLF算法在RMSE、SSIM和PSNR上獲得了最佳值,其中,RMSE和SSIM是基于結(jié)構(gòu)相似性的評價指標(biāo),PSNR是基于信息理論的評價指標(biāo)。MST_SR算法在CE和QCB上取得了最佳值,這2個指標(biāo)是基于信息理論和基于人類視覺感知的指標(biāo)。導(dǎo)致以上現(xiàn)象的原因可能是,這些算法在設(shè)計過程中更關(guān)注某種特定的信息。這一現(xiàn)象進一步表明,圖像融合算法應(yīng)該使用多種指標(biāo)進行綜合測評。
Table 4 Average evaluation metric values based on information theory and structural similarity of all methods on 56 image pairs
Table 5 Average evaluation metric values based on image feature and human perception inspired of all methods on 56 image pairs
本文測評的32種算法的運行時間,結(jié)果如表6所示。從表6可以看出,圖像融合算法的運行時間差異較大。例如,在多尺度變換算法中,CBF的運行時間是GFF的20倍以上。此外,不同類別的算法運行時間差異也較大,例如IFEVIP算法屬于其他算法,運行時間只需要0.385 3 s;MDLatLRR算法屬于基于顯著性的算法,該算法運行時間是740.255 8 s,兩者相差近2 000倍。綜合來看,多尺度變換算法的運行速度最快,基于顯著性的算法和混合模型的算法速度最慢。
Table 6 Runtime of 32 algorithms (seconds per image pair)
本文構(gòu)建了一個較大規(guī)模的紅外與可見光圖像融合基準(zhǔn),其中包含56對紅外與可見光圖像,32種融合算法和16種評價指標(biāo)。與VIFB相比,本文構(gòu)建的基準(zhǔn)能夠更全面地評估紅外與可見光圖像融合領(lǐng)域算法的性能。通過本文構(gòu)建的基準(zhǔn),本文還進行了廣泛的實驗來評價融合算法的性能。根據(jù)本文的實驗結(jié)果可以得到以下結(jié)論:首先,與計算機視覺其他領(lǐng)域不同,在圖像融合領(lǐng)域,基于深度學(xué)習(xí)的圖像融合算法的性能目前并沒有表現(xiàn)出比非深度學(xué)習(xí)算法更佳的優(yōu)越性。然而,由于深度學(xué)習(xí)方法強大的表示能力,本文認(rèn)為基于深度學(xué)習(xí)的圖像融合算法將是未來一個重要的研究方向。其次,圖像融合算法在不同種類的定量評價指標(biāo)中可能具有不同的性能,因此需要利用多種指標(biāo)對圖像融合算法進行綜合評價。此外,定性評價可以作為定量評價的重要補充。最后,紅外與可見光圖像融合算法的運行速度仍有待提高,以便應(yīng)用于跟蹤和檢測等實時應(yīng)用。