亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        紅外與可見光圖像注意力生成對(duì)抗融合方法研究

        2022-02-23 06:59:06武圓圓王志社王君堯邵文禹陳彥林
        紅外技術(shù) 2022年2期
        關(guān)鍵詞:尺度紅外卷積

        武圓圓,王志社,王君堯,邵文禹,陳彥林

        〈圖像處理與仿真〉

        紅外與可見光圖像注意力生成對(duì)抗融合方法研究

        武圓圓,王志社,王君堯,邵文禹,陳彥林

        (太原科技大學(xué) 應(yīng)用科學(xué)學(xué)院,山西 太原 030024)

        目前,基于深度學(xué)習(xí)的融合方法依賴卷積核提取局部特征,而單尺度網(wǎng)絡(luò)、卷積核大小以及網(wǎng)絡(luò)深度的限制無法滿足圖像的多尺度與全局特性。為此,本文提出了紅外與可見光圖像注意力生成對(duì)抗融合方法。該方法采用編碼器和解碼器構(gòu)成的生成器以及兩個(gè)判別器。在編碼器中設(shè)計(jì)了多尺度模塊與通道自注意力機(jī)制,可以有效提取多尺度特征,并建立特征通道長(zhǎng)距離依賴關(guān)系,增強(qiáng)了多尺度特征的全局特性。此外,構(gòu)建了兩個(gè)判別器,以建立生成圖像與源圖像之間的對(duì)抗關(guān)系,保留更多細(xì)節(jié)信息。實(shí)驗(yàn)結(jié)果表明,本文方法在主客觀評(píng)價(jià)上都優(yōu)于其他典型方法。

        圖像融合;通道自注意力機(jī)制;深度學(xué)習(xí);生成對(duì)抗網(wǎng)絡(luò);紅外圖像;可見光圖像

        0 引言

        可見光圖像具有豐富的細(xì)節(jié)信息,易于判讀,但是其對(duì)良好的光照條件和天氣情況有較強(qiáng)的依賴性;紅外圖像反映目標(biāo)與背景的輻射特性,紅外輻射透過霾、霧及大氣的能力比可見光強(qiáng),它可以克服部分視覺上的障礙而探測(cè)到目標(biāo),具有較強(qiáng)的抗干擾能力,但目標(biāo)的結(jié)構(gòu)特征和紋理信息缺失。紅外與可見光圖像融合,使融合圖像既具有紅外圖像的輻射特性,又具有可見光圖像的結(jié)構(gòu)特征和紋理信息,有利于人眼的觀察和后續(xù)圖像處理,在遙感探測(cè)、醫(yī)療診斷、智能駕駛、安全監(jiān)控等方面具有廣泛應(yīng)用[1]。

        目前紅外與可見光圖像融合方法包括傳統(tǒng)融合方法與基于深度學(xué)習(xí)的融合方法[2-3]。傳統(tǒng)的融合方法包括:基于多尺度變換的融合方法[4]、基于稀疏表示的融合方法[5]、基于顯著性的融合方法[6]、基于混合模型的融合方法[7]等。其中,多尺度變換融合方法利用圖像變換模型對(duì)源圖像進(jìn)行分解,再利用特定的融合規(guī)則合并不同尺度的特征,重構(gòu)得到最終融合圖像。稀疏表示方法利用多尺度變換分析字典或在線學(xué)習(xí)構(gòu)造學(xué)習(xí)字典,其在一定程度上改進(jìn)了多尺度融合方法,提高了融合效果。顯著性方法可以很好地評(píng)判圖像重要信息,使保留顯著的圖像特征,通常包含兩種方式,即基于顯著區(qū)域提取的圖像融合和基于權(quán)重計(jì)算的圖像融合[8]?;旌夏P吐?lián)合多種模型的優(yōu)點(diǎn),克服單一模型缺陷,提高融合效果,常用的混合模型包括基于多尺度和稀疏方法的混合模型[7,9-10]、基于顯著性和多尺度的混合模型等[11]。目前這些傳統(tǒng)融合方法已經(jīng)取得了一定的成果,但此類方法通常采用固定的數(shù)學(xué)模型提取圖像特征,對(duì)模型敏感的特征才可以被有效提取。而不同源圖像成像特性不同,圖像特征復(fù)雜多變,固定的變換模型無法提取圖像全面的特征信息。此外融合過程計(jì)算復(fù)雜且需要根據(jù)先驗(yàn)知識(shí)確定分解方法和融合規(guī)則,具有較大的局限性。因此,基于深度學(xué)習(xí)的融合方法廣泛應(yīng)用于紅外與可見光圖像融合領(lǐng)域,該方法可以有效挖掘圖像復(fù)雜特征,克服了傳統(tǒng)算法缺乏學(xué)習(xí)特征能力的缺陷。其包括基于卷積神經(jīng)網(wǎng)絡(luò)的圖像融合與基于生成對(duì)抗網(wǎng)絡(luò)的圖像融合兩部分[12]。其中,Liu等[13]通過卷積神經(jīng)網(wǎng)絡(luò)獲取決策圖整合紅外圖像與可見光圖像的像素活動(dòng)信息,該方法不需要考慮融合規(guī)則的設(shè)計(jì)與權(quán)重分配問題,但其特征提取能力有限。Li等[14]利用卷積核自動(dòng)提取圖像復(fù)雜特征,克服了之前單一模型只能提取圖像敏感特征的局限性,但該方法是單輸入單輸出過程,故特征融合時(shí)需要設(shè)計(jì)復(fù)雜的融合規(guī)則或者使用現(xiàn)存的單一融合規(guī)則進(jìn)行特征合并,而無法實(shí)現(xiàn)端對(duì)端的過程。新近,一些學(xué)者利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了紅外與可見光圖像端到端的融合,并取得良好的效果[15-17]。但紅外與可見光圖像融合方法是多輸入單輸出的過程,它沒有標(biāo)準(zhǔn)的融合圖像監(jiān)督網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的過程,因此,生成對(duì)抗思想的引入,實(shí)現(xiàn)有監(jiān)督的圖像融合過程。生成對(duì)抗融合方法利用生成損失函數(shù)控制生成器保留源圖像的特征信息,再利用生成器與判別器之間的對(duì)抗損失使融合圖像獲取源圖像更多細(xì)節(jié)信息,提高融合質(zhì)量,如FusionGAN[18],首次將生成對(duì)抗思想引入圖像融合領(lǐng)域,獲得較好的融合效果,它利用卷積神經(jīng)網(wǎng)絡(luò)搭建端對(duì)端網(wǎng)絡(luò)的同時(shí),實(shí)現(xiàn)了源圖像對(duì)網(wǎng)絡(luò)學(xué)習(xí)的監(jiān)督。隨后,Ma等在FusionGAN的基礎(chǔ)上改進(jìn)網(wǎng)絡(luò),提出了ResNetGAN[19]與DDcGAN[20],并取得良好的融合效果。生成對(duì)抗融合方法以卷積神經(jīng)網(wǎng)絡(luò)為框架,通過其強(qiáng)特征提取能力與大數(shù)據(jù)驅(qū)動(dòng),極大地提高了融合質(zhì)量,其次通過源圖像與生成圖像的對(duì)抗,實(shí)現(xiàn)源圖像對(duì)學(xué)習(xí)參數(shù)的監(jiān)督。但是因卷積核大小以及網(wǎng)絡(luò)深度的限制,單一尺度深度特征表征空間信息能力有限;其次,卷積核所提取的特征依賴圖像某一位置相關(guān)性最強(qiáng)的局部區(qū)域,而沒有考慮特征圖通道之間的相關(guān)性。

        為了解決上述問題,提高圖像融合質(zhì)量,本文提出了紅外與可見光圖像注意力生成對(duì)抗融合方法。該方法將Res2Net[21]模塊引入編碼器中,作為卷積模塊,增加了網(wǎng)絡(luò)各層不同尺度的特征數(shù)量,提高了特征表示能力。其次,考慮到特征圖自身通道之間的相關(guān)關(guān)系,采用通道自注意力機(jī)制,增強(qiáng)不同尺度、不同通道特征之間的依賴性,克服了卷積的局限性。最后,利用公開數(shù)據(jù)集,對(duì)本文方法與一些典型方法進(jìn)行大量實(shí)驗(yàn),從主觀、客觀的角度分析融合結(jié)果,驗(yàn)證本文方法的融合性能。

        1 融合方法

        1.1 融合模型結(jié)構(gòu)

        本文所提網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)主要有兩個(gè)部分,編碼器(Encoder)和解碼器(Decoder)構(gòu)成的生成器以及兩個(gè)判別器。編碼器包含一個(gè)卷積層(C0),兩個(gè)多尺度殘差塊(Res2Net1, Res2Net2)與一個(gè)通道自注意力機(jī)制(channel-self-attention, CA),該編碼器在不影響網(wǎng)絡(luò)深度的情況下,增強(qiáng)輸出特征的多尺度表達(dá)能力,提高網(wǎng)絡(luò)性能,同時(shí)建立特征通道之間的聯(lián)系,增強(qiáng)了多尺度特征的全局特性;解碼器由4個(gè)卷積層(C1, C2, C3, C4)構(gòu)成,用于重構(gòu)融合圖像。生成器參數(shù)設(shè)置如表1所示。判別器包含4個(gè)卷積層(L1, L2, L3, L4)與一個(gè)全連接層(L5),其中紅外判別器與可見光判別器具有相同的結(jié)構(gòu)但不共享權(quán)重。在訓(xùn)練過程中,判別器提取圖像特征,通過計(jì)算特征間的Wasserstein距離,感知特征差異,以鑒別源圖像與生成圖像。此外通過生成器與判別器之間的對(duì)抗關(guān)系,保留更多源圖像細(xì)節(jié)。判別器參數(shù)設(shè)置如表2所示。

        1.2 Res2Net模塊

        為了提高卷積神經(jīng)網(wǎng)絡(luò)多尺度特征提取能力,Gao等[21]提出了Res2Net模塊,一種新穎的多尺度卷積網(wǎng)絡(luò)架構(gòu),其結(jié)構(gòu)如圖2所示,它將傳統(tǒng)的單一濾波器替換為一系列更小的濾波器組,該濾波器組以類似殘差分層的模式進(jìn)行連接,以增加不同尺度的特征數(shù)量。該模塊先將輸入特征圖分為幾組,每一組的輸入特征圖與先前組經(jīng)過濾波器生成的特征圖拼接在一起,并送入下一組卷積核進(jìn)行處理。以此類推,將所有的特征圖處理完畢。為了使不同尺度的信息融合得更好,Res2Net將拆分處理后的特征圖拼接在一起,并通過1×1卷積核進(jìn)行各尺度特征的信息融合。

        圖1 本文方法網(wǎng)絡(luò)結(jié)構(gòu)

        表1 生成器參數(shù)設(shè)置

        表2 判別器參數(shù)設(shè)置

        圖2 Res2Net結(jié)構(gòu)

        本文將Res2Net引入編碼器中,作為一個(gè)卷積模塊,提取圖像多尺度特征。此外,本文采用卷積層與LeakyReLU激活函數(shù),并去除其中的BN層。

        1.3 通道自注意力機(jī)制模塊

        式中:權(quán)重因子從0開始學(xué)習(xí)。

        圖3 通道自注意力結(jié)構(gòu)

        1.4 損失函數(shù)的設(shè)計(jì)

        生成器損失函數(shù)由兩部分組成,分別是生成對(duì)抗損失和語義損失,生成器損失函數(shù)如公式(3)所示:

        式中:第一項(xiàng)advers()表示生成器對(duì)抗損失;第二項(xiàng)content表示語義損失;表示平衡因子,用于平衡兩項(xiàng)損失,本文中=1。

        1)語義損失:語義損失促使生成器構(gòu)造與源圖像相似的數(shù)據(jù)分布。該損失主要有均方誤差損失和邊緣損失兩部分,如式(4)所示。其中均方誤差損失以圖像像素為單位進(jìn)行計(jì)算,分別估計(jì)融合圖像與紅外圖像、融合圖像與可見光圖像之間數(shù)據(jù)分布的相似度,可以盡可能地保留紅外圖像的目標(biāo)信息以及可見光圖像像素級(jí)別的細(xì)節(jié)信息,如式(5)所示。但是均方誤差容易造成融合圖像模糊現(xiàn)象。故引入紅外與可見光圖像邊緣損失,如式(6)所示,實(shí)現(xiàn)融合圖像的銳化,補(bǔ)償這一問題。其中,=5,vi=0.49,ir=0.51。

        午后的太陽偶爾也會(huì)唱著火辣辣的歌曲,不減夏日勢(shì)頭地炙烤著大地,但這些絲毫不影響我們做運(yùn)動(dòng)。同學(xué)們似乎變得比平時(shí)更認(rèn)真,個(gè)個(gè)頭頂著烈日,隨著激昂的音樂做起了廣播體操。倘若來一場(chǎng)秋雨,同學(xué)們就會(huì)聚集在室內(nèi)體育館活動(dòng)。瞧!那幾位女同學(xué)還在跳高難度的長(zhǎng)繩呢!還有幾位生龍活虎的男同學(xué)正在進(jìn)行如火如荼的羽毛球比賽。這一切,讓秋日的校園增添了勃勃生機(jī)!

        2)生成對(duì)抗損失:本文的網(wǎng)絡(luò)模型中,設(shè)計(jì)了兩個(gè)判別器,即紅外判別器ir與可見光判別器vi。。它們分別使融合圖像保留更多的紅外、可見光的細(xì)節(jié)信息,因此生成對(duì)抗損失包含兩部分,如式(7)所示:

        判別器損失函數(shù)用于訓(xùn)練判別器,使其可以有效鑒別生成圖像與源圖像,進(jìn)而與生成器形成對(duì)抗,如式(8)所示:

        1.5 數(shù)據(jù)集與參數(shù)設(shè)置

        在訓(xùn)練過程中,本文采用TNO的數(shù)據(jù)集,從TNO中選取49對(duì)不同場(chǎng)景的紅外與可見光圖像,由于49對(duì)圖像無法訓(xùn)練一個(gè)良好的模型,因此,對(duì)源圖像做預(yù)處理以擴(kuò)大訓(xùn)練集。本文將源圖像對(duì)做裁剪,裁剪大小為120×120,裁剪步長(zhǎng)為12,以獲取54594對(duì)紅外與可見光圖像,并將其歸一化為[-1,1],以加快計(jì)算速度,減少內(nèi)存占用。

        此外,本文從訓(xùn)練集中選取batchsize=18的圖像對(duì)。首先對(duì)紅外判別器與可見光判別器分別訓(xùn)練次;其次再對(duì)生成器訓(xùn)練一次,生成器與判別器均采用Adam優(yōu)化器。整個(gè)訓(xùn)練過程即重復(fù)上述過程次。在實(shí)驗(yàn)過程中的參數(shù)設(shè)置=2,=20。本文訓(xùn)練以及測(cè)試硬件平臺(tái)為NVIDIA GeForce RTX 3090 GPU,Intel(R)Core(TM) i9-10850K CPU;軟件環(huán)境為Windows10,Python3.7.10,Pytorch1.8.1。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)說明

        本文采用6個(gè)指標(biāo)對(duì)融合結(jié)果作客觀評(píng)價(jià)??陀^指標(biāo)包括信息熵(entropy, EN)、標(biāo)準(zhǔn)差(standard deviation, SD)、相關(guān)系數(shù)(correlation coefficient, CC)、相關(guān)差異和(the sum of the correlation differences,SCD)、結(jié)構(gòu)相似度(multi-scale structural similarity index measure,MS-SSIM)、融合保真度(the visual information fidelity for fusion,VIFF)。其中,EN反映融合圖像紋理信息的豐富程度,其熵值越大,則說明其保留了更豐富的源圖像信息;SD表示各像素灰度相對(duì)于灰度平均值的離散情況,值越大,則所融合的圖像對(duì)比度越高;CC描述融合圖像與源圖像的相似程度;SCD是表征圖像質(zhì)量的指標(biāo);MS-SSIM反映圖像間的亮度、對(duì)比度、結(jié)構(gòu)失真水平的差異性;VIFF反映視覺效果,其結(jié)果與主觀評(píng)價(jià)結(jié)果具有一致性,值越大,則所融合的圖像視覺效果越佳。

        2.2 消融實(shí)驗(yàn)

        為了驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)中不同模塊對(duì)融合結(jié)果的影響,本文對(duì)Res2Net模塊與通道注意力模塊分別進(jìn)行實(shí)驗(yàn),首先保留Res2Net模塊并去除通道自注意力模塊(記作No-CA);其次網(wǎng)絡(luò)使用普通卷積層代替Res2Net模塊,同時(shí)保留通道注意力模塊(記作No-Res2Net)。

        實(shí)驗(yàn)采用Roadscene數(shù)據(jù)集的105組紅外可見光圖像,分別對(duì)各類模型進(jìn)行實(shí)驗(yàn),客觀指標(biāo)評(píng)價(jià)如表3所示。由表3可知,本文模型的EN,SD,SCD,MS-SSIM,VIFF指標(biāo)最高,僅在CC指標(biāo)上略低于其他模型,表明Res2Net模塊可以有效提取多尺度特征,同時(shí)通道注意力機(jī)制有效建立了特征通道之間的遠(yuǎn)程依賴關(guān)系,增強(qiáng)了多尺度特征的全局特性,提高融合結(jié)果性能。相比于其他模型,本文模型融合的結(jié)果包含較豐富的源圖像信息,具有較高對(duì)比度以及較好的視覺效果。

        表3 消融實(shí)驗(yàn)的定量比較

        2.3 TNO數(shù)據(jù)集實(shí)驗(yàn)

        本文從TNO數(shù)據(jù)集中選取20組圖像定性定量分析融合結(jié)果,展示其中4組圖像并做主觀評(píng)價(jià)分析,分別包括“Nato_camp”、“helicopter”、“bench”以及”Movie_18”。

        第一組對(duì)“Nato_camp”圖像做融合,其圖像及融合結(jié)果如圖4所示,(a)中人影目標(biāo)突出,而背景模糊;(b)中可以觀察到樹木紋理,房檐色彩、邊緣以及圍欄,背景清晰,但無法觀察到人影;(c)(e)(g)(h)方法的融合結(jié)果紋理信息較好,但圖像目標(biāo)與背景區(qū)域?qū)Ρ榷炔桓?,?dǎo)致圖像一些紋理不易被觀察,如圍欄上的鐵絲;(d)方法的融合結(jié)果邊緣細(xì)節(jié)豐富,可以清晰的觀察到煙囪的形狀與圍欄邊緣等細(xì)節(jié);(f)的融合結(jié)果目標(biāo)對(duì)比度高,如人影,但背景紋理模糊,目標(biāo)邊緣信息丟失;本文方法增強(qiáng)了目標(biāo)與背景區(qū)域的對(duì)比度,比其它方法更容易觀察到圖像細(xì)節(jié),如樹木紋理、圍欄上的鐵絲以及房檐色彩分布與輪廓等,視覺效果良好。

        第二組對(duì)“helicopter”圖像做融合,其圖像及融合結(jié)果如圖5所示,在(c)(d)(e)(g)(h)方法融合圖像中,直升機(jī)邊緣以及雨水細(xì)節(jié)保存較好,但目標(biāo)與背景的對(duì)比度略低,不容易觀察天空中云的分布,此外,直升機(jī)發(fā)動(dòng)機(jī)亮度不高;(f)方法的融合結(jié)果保留雨水細(xì)節(jié)的同時(shí),提高發(fā)動(dòng)機(jī)亮度,螺旋槳轉(zhuǎn)動(dòng)細(xì)節(jié)清晰,但機(jī)身細(xì)節(jié)丟失;本文方法發(fā)動(dòng)機(jī)亮度略高于(c)(d)(e)(g)(h)方法,且不影響機(jī)身細(xì)節(jié),如窗戶、起落架等,同時(shí)雨水細(xì)節(jié)沒有丟失,又因?qū)Ρ榷容^高,容易捕捉到云的分布。

        圖4 “Nato_camp”實(shí)驗(yàn)結(jié)果

        第3組對(duì)“bench”圖像做融合,其圖像及融合結(jié)果如圖6所示,(c)(e)(g)(h)方法的融合結(jié)果存在“朦朧感”,背景對(duì)比度不高,長(zhǎng)凳目標(biāo)保留但不易觀察;(f)方法的融合圖像保留了人影的亮度,但其邊緣模糊,背景細(xì)節(jié)丟失,如長(zhǎng)凳以及背景色彩分布等。本文方法較好地保留了紅外與可見光的信息,如人影,水中倒影以及長(zhǎng)凳。

        圖5 “helicopter”實(shí)驗(yàn)結(jié)果

        圖6 “bench”實(shí)驗(yàn)結(jié)果

        第4組對(duì)“Movie_18”圖像做融合,其圖像及融合結(jié)果如圖7所示,(a)中可以觀察到明顯的人影、車子的輪廓、馬路欄桿以及路牌,遠(yuǎn)景目標(biāo)清晰,如樹木、圍墻,且房子對(duì)比度高,結(jié)構(gòu)鮮明,如房頂、墻面與門窗;(b)中房子邊緣較好,天空細(xì)節(jié)突出,但看不到人影以及遠(yuǎn)景樹木等;與其他融合方法相比,本文方法的融合結(jié)果目標(biāo)突出,如人影、車子、馬路欄桿以及遠(yuǎn)景樹木,此外邊緣細(xì)節(jié)清晰,如天空,房檐邊緣、色彩分布以及窗子開合等??傮w視覺效果良好。

        主觀評(píng)價(jià)是根據(jù)人類視覺系統(tǒng)評(píng)估融合圖像的質(zhì)量,但仍會(huì)存在一定的偏差,為了更全面地評(píng)估融合圖像的質(zhì)量,本文使用6個(gè)指標(biāo)對(duì)各方法融合結(jié)果進(jìn)行客觀評(píng)價(jià)。TNO數(shù)據(jù)集定量評(píng)價(jià)指標(biāo)如圖8所示,從圖中指標(biāo)來看,本文方法在EN,SD,CC,SCD,MS-SSIM,VIFF指標(biāo)中平均數(shù)值最高,表明本文融合結(jié)果相比于其他方法包含更豐富的源圖像信息,較高的對(duì)比度以及更好的視覺效果。

        圖7 “Movie_18”實(shí)驗(yàn)結(jié)果

        2.4 Roadscene數(shù)據(jù)集實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證本文方法融合性能,將從Roadscene數(shù)據(jù)集中選取20組圖像做定性定量分析,展示其中兩組圖像并做主觀評(píng)價(jià)分析,該兩組圖像分別命名為“example1”、“example2”。

        第一組與第二組分別對(duì)“example1”、“example2”圖像做融合,其圖像及融合結(jié)果如圖9、圖10所示,與之前TNO四組融合結(jié)果主觀評(píng)價(jià)一致,本文方法在不丟失紅外目標(biāo)的情況下,盡可能多地保留可見光的細(xì)節(jié)信息。此外,本文使用6個(gè)指標(biāo)對(duì)各方法融合結(jié)果做客觀評(píng)價(jià),Roadscene數(shù)據(jù)集定量評(píng)價(jià)指標(biāo)如圖11所示,從圖中指標(biāo)來看,相比于其他方法,本文方法在EN,SD,CC,SCD,MS-SSIM,VIFF指標(biāo)中平均數(shù)值最高,表明本文融合結(jié)果包含與源圖像更相似的結(jié)構(gòu),具有較高的對(duì)比度以及更符合人眼的視覺系統(tǒng),有利于人眼觀察。

        圖8 “TNO”數(shù)據(jù)集定量評(píng)價(jià)指標(biāo)

        圖9 “example 1”實(shí)驗(yàn)結(jié)果

        圖10 “example 2”實(shí)驗(yàn)結(jié)果

        為了進(jìn)一步評(píng)價(jià)本文方法與其他融合方法的時(shí)間效率,采用TNO、Roadscene數(shù)據(jù)集的紅外可見光圖像進(jìn)行實(shí)驗(yàn)。時(shí)間效率比較如表4所示,其中基于傳統(tǒng)融合方法CVT、ASR與WLS在CPU上運(yùn)行,基于深度學(xué)習(xí)融合方法DenseFuse、FusionGan與IFCNN在GPU上運(yùn)行。由表4可知,其計(jì)算效率僅次于IFCNN與DenseFuse,不同于它們的平均規(guī)則融合,本文融合方法利用多尺度模塊代替普通卷積層,同時(shí)與通道自注意力模塊級(jí)聯(lián),計(jì)算量較大。因此,與其他方法相比,所提方法具有較高計(jì)算效率同時(shí)能保持良好的融合效果。

        圖11 “Roadscene”數(shù)據(jù)集定量評(píng)價(jià)指標(biāo)

        表4 時(shí)間計(jì)算率比較

        3 結(jié)語

        本文提出了一種紅外與可見光圖像注意力生成對(duì)抗融合方法,該方法使用多尺度模塊代替?zhèn)鹘y(tǒng)卷積層,將傳統(tǒng)的單一濾波器替換為一系列更小的濾波器組,在不影響網(wǎng)絡(luò)深度的同時(shí)提高網(wǎng)絡(luò)的寬度,增加了網(wǎng)絡(luò)各層不同尺度的特征數(shù)量,增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力;其次,將通道自注意力機(jī)制引入編碼器中,增強(qiáng)不同尺度、不同通道特征之間的依賴性,克服了卷積的局限性;與其他典型融合結(jié)果相比,本文方法在主觀客觀上都有良好的融合效果。但同時(shí)本方法在目標(biāo)顯示上不是特別突出,背景紋理略帶虛影,且模塊帶來指標(biāo)提升較為微弱。因此優(yōu)化模型,最大限度提高多尺度模塊與自注意力機(jī)制模塊的作用;同時(shí)使融合結(jié)果保留清晰的可見光細(xì)節(jié)信息、突出目標(biāo)區(qū)域?qū)Ρ榷葘⑹窍乱浑A段研究的重點(diǎn)。

        [1] MA J, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.

        [2] LI S, KANG X, FANG L, et al. Pixel-level image fusion: a survey of the state of the art[J]., 2017, 33: 100-112.

        [3] LIU Y, CHEN X, WANG Z, et al. Deep learning for pixel-level image fusion: Recent advances and future prospects[J]., 2018, 42: 158-173.

        [4] LI S, YANG B, HU J. Performance comparison of different multi-resolution transforms for image fusion[J]., 2011, 12(2): 74-84.

        [5] ZHANG Q, LIU Y, Rick S Blum, et al. Sparse representation based multi-sensor image fusion for multi-focus and multi-modality images: a review[J]., 2018, 40: 57-75.

        [6] ZHANG Xiaoye, MA Yong, ZHANG Ying, et al. Infrared and visible image fusion via saliency analysis and local edge-preserving multi-scale decomposition[J]., 2017, 34(8): 1400-1410.

        [7] YU L, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015, 24: 147-164.

        [8] HAN J, Pauwels E J, P De Zeeuw. Fast saliency-aware multimodality image fusion[J]., 2013, 111: 70-80.

        [9] YIN Haitao. Sparse representation with learned multiscale dictionary for image fusion[J]., 2015, 148: 600-610.

        [10] WANG Zhishe, YANG Fengbao, PENG Zhihao, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]., 2015, 126(23): 4184-4190.

        [11] CUI G, FENG H, XU Z, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition[J]., 2015, 341: 199-209.

        [12] LI Q, LU L, LI Z, et al. Coupled GAN with relativistic discriminators for infrared and visible images fusion[J]., 2021, 21(6): 7458-7467.

        [13] LIU Y, CHEN X, CHENG J, et al. Infrared and visible image fusion with convolutional neural networks[J]., 2018, 16(3): 1850018.

        [14] LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J].:, 2019, 28(5): 2614-2523.

        [15] XU H, MA J, JIANG J, et al. U2Fusion: A unified unsupervised image fusion network[J]., 2020, 44(1): 502-518.

        [16] HOU R. VIF-Net: an unsupervised framework for infrared and visible image fusion[J]., 2020, 6: 640-651.

        [17] HUI L A, XJW A, JK B. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]., 2021, 73: 72-86.

        [18] MA J, WEI Y, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.

        [19] JM A, Pl A, WEI Y A, et al. Infrared and visible image fusion via detail preserving adversarial learning[J]., 2020, 54: 85-98.

        [20] MA J, XU H, JIANG J, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]., 2020, 29: 4980-4995.

        [21] GAO S, CHENG M M, ZHAO K, et al. Res2Net: A new multi-scale backbone architecture[J]., 2021, 43(2): 652-662.

        [22] FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//2019, 2020: DOI: 10.1109/cvpr. 2019.00326.

        [23] Nencini F, Garzelli A, Baronti S, et al. Alparone, remote sensing image fusion using the curvelet transform[J]., 2007, 8(2): 143-156.

        [24] LIU Y, WANG Z. Simultaneous image fusion and denoising with adaptive sparse representation[J]., 2014, 9(5): 347-357.

        [25] MA J, ZHOU Z, WANG B, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]., 2017, 82: 8-17.

        [26] YU Z A, YU L B, PENG S C, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]., 2020, 54: 99-118.

        Infrared and Visible Image Fusion Using Attention-Based Generative Adversarial Networks

        WU Yuanyuan,WANG Zhishe,WANG Junyao,SHAO Wenyu,CHEN Yanlin

        (School of Applied Science, Taiyuan University of Science and Technology, Taiyuan 030024, China)

        At present, deep learning-based fusion methods rely only on convolutional kernels to extract local features, but the limitations of single-scale networks, convolutional kernel size, and network depth cannot provide a sufficient number of multi-scale and global image characteristics. Therefore, here we propose an infrared and visible image fusion method using attention-based generative adversarial networks. This study uses a generator consisting of an encoder and decoder, and two discriminators. The multi-scale module and channel self-attention mechanism are designed in the encoder, which can effectively extract multi-scale features and establish the dependency between the long ranges of feature channels, thus enhancing the global characteristics of multi-scale features. In addition, two discriminators are constructed to establish an adversarial relationship between the fused image and the source images to preserve more detailed information. The experimental results demonstrate that the proposed method is superior to other typical methods in both subjective and objective evaluations.

        image fusion, channel self-attention mechanism, deep learning, generative adversarial networks, infrared image, visible image

        TP391.4

        A

        1001-8891(2022)02-0170-09

        2021-05-29;

        2021-07-20.

        武圓圓(1997-)女,碩士研究生,研究方向?yàn)楣鈱W(xué)測(cè)控技術(shù)與應(yīng)用。E-mail:yywu321@163.com。

        王志社(1982-)男,副教授,博士,研究方向?yàn)榧t外圖像處理、機(jī)器學(xué)習(xí)和信息融合。E-mail:wangzs@tyust.edu.cn。

        山西省面上自然基金項(xiàng)目(201901D111260);信息探測(cè)與處理山西省重點(diǎn)實(shí)驗(yàn)室開放研究基金(ISTP2020-4);太原科技大學(xué)博士啟動(dòng)基金(20162004)。

        猜你喜歡
        尺度紅外卷積
        網(wǎng)紅外賣
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        久久精品人人做人人爱爱| 成人性生交大片免费看r| 欧美不卡视频一区发布| 男女扒开双腿猛进入免费看污| A阿V天堂免费无码专区| 天堂精品人妻一卡二卡| 色综合久久中文字幕综合网| 超清精品丝袜国产自在线拍| 国产区福利| 国产精品污一区二区三区在线观看 | 美女被男人插得高潮的网站| 国产精品中文久久久久久久| 国内精品人妻无码久久久影院导航 | 亚洲欧美国产精品久久久| 亚洲三级香港三级久久| 丰满少妇人妻久久久久久| 久久人人爽人人爽人人av东京热| 97av在线播放| 国产不卡在线观看视频| 日韩欧美中文字幕公布| 亚洲产国偷v产偷v自拍色戒| 久久成人永久免费播放| 无码人妻丝袜在线视频| 丰满人妻被持续侵犯中出在线| 中文字幕在线亚洲精品| 久久欧美与黑人双交男男| 无遮挡很爽视频在线观看| 一区二区在线视频免费蜜桃| 内地老熟女老少配视频| 98色花堂国产精品首页| 女同中文字幕在线观看| www国产亚洲精品久久麻豆| 秋霞鲁丝片av无码| 亚洲精品综合在线影院| 精品人妻一区二区三区在线观看| 亚洲av日韩av无码污污网站| 成年女人永久免费看片| 看全色黄大色大片免费久久久 | 成年人一区二区三区在线观看视频 | 精品无人码麻豆乱码1区2区| 国产精品高潮呻吟av久久无吗|