亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Swin Transformer和混合特征聚合的紅外與可見光圖像融合方法

        2023-07-31 02:53:54李碧草盧佳熙劉洲峰李春雷
        紅外技術(shù) 2023年7期
        關(guān)鍵詞:編碼器尺度紅外

        李碧草,盧佳熙,劉洲峰,李春雷,張 潔

        基于Swin Transformer和混合特征聚合的紅外與可見光圖像融合方法

        李碧草1,2,盧佳熙1,劉洲峰1,李春雷1,張 潔1

        (1. 中原工學院 電子信息學院,河南 鄭州 450007;2. 鄭州大學 計算機與人工智能學院,河南 鄭州 450001)

        紅外與可見光圖像融合可以生成包含更多信息的圖像,比原始圖像更符合人類視覺感知也有利于下游任務的進行。傳統(tǒng)的基于信號處理的圖像融合方法存在泛化能力不強、處理復雜圖片融合性能下降等問題。深度學習有很強的特征提取能力,其生成的結(jié)果較好,但結(jié)果中存在紋理細節(jié)信息保存少、圖像模糊的問題。針對這一問題,文中提出一種基于多尺度Swin-transformer和注意力機制的紅外與可見光圖像融合網(wǎng)絡(luò)模型。Swin-transformer可以在多尺度視角下提取長距離語義信息,注意力機制可以將所提特征中的不重要特征弱化,保留主要信息。此外本文提出了一種新的混合特征聚合模塊,針對紅外和可見光圖像各自的特點分別設(shè)計了亮度增強模塊和細節(jié)保留模塊,有效保留更多的紋理細節(jié)和紅外目標信息。該融合方法包括編碼器、特征聚合和解碼器三部分。首先,將源圖像輸入編碼器,提取多尺度深度特征;然后,設(shè)計特征聚合融合每個尺度的深度特征;最后,采用基于嵌套連接的解碼器重構(gòu)融合后的圖像。在公開數(shù)據(jù)集上的實驗結(jié)果表明本文提出的方法對比其他先進的方法具有更好的融合性能。其中在客觀評價指標中EI、AG、QP、EN、SD指標達到最優(yōu)。從主觀感受上,所提紅外和可見光圖像融合方法能夠使結(jié)果中保留更多的邊緣細節(jié)。

        圖像融合;紅外和可見光圖像;Swin-transformer;特征聚合;注意力機制

        0 引言

        圖像融合是一種重要的圖像處理技術(shù)。旨在通過特定的特征提取和特征融合生成一幅包含源圖像互補信息的圖像。目前融合算法被廣泛應用于自動駕駛、視覺跟蹤和醫(yī)學圖像增強等領(lǐng)域。在圖像處理領(lǐng)域,紅外和可見光圖像的融合也是圖像融合的研究熱點,紅外圖像中包含熱輻射信息,但由于紅外成像傳感器的特性,采集的紅外圖像中紋理細節(jié)信息不明顯。而可見光圖像中包含大量細節(jié)紋理信息,但是沒有熱輻射信息,融合后的圖像包含二者的互補信息,有利于人類的視覺感知。

        現(xiàn)有的融合方法大致可分為兩類,傳統(tǒng)方法和基于深度學習的方法。常用的傳統(tǒng)融合方法包括:基于梯度轉(zhuǎn)移的圖像融合[1](gradient transfer fusion,GTF);基于顯著性檢測的圖像融合方法[2](Two-scale Image Fusion,TIF);基于各向異性擴散和Karhunen-Loeve變換[3]的融合方法(Anisotropic Diffusion Fusion,ADF);基于卷積稀疏表示[4](Convolutional Sparse Representation , CSR)的圖像融合方法;基于高斯濾波和雙邊濾波混合多尺度分解[5]的圖像融合方法等。這些方法雖然都取得了較好的結(jié)果,但都需要手工設(shè)計繁瑣的特征提取和融合規(guī)則,且泛化能力不強,當融合圖像復雜時融合性能下降。

        近年深度學習在圖像融合任務中有不錯的表現(xiàn)。研究學者們提出了很多相關(guān)模型。按網(wǎng)絡(luò)結(jié)構(gòu)來區(qū)分可以分為自編碼器和端到端兩種。Prabhakar等提出DeepFuse[6]融合方法,采用卷積神經(jīng)網(wǎng)絡(luò)來提取兩幅YCbCr圖像中Y通道的特征,然后將所提取的特征相加再經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)得到融合后的Y通道,Cb、Cr通道通過加權(quán)融合得到,最后將YCbCr圖像轉(zhuǎn)換成RGB圖像得到融合結(jié)果。Zhang等提出IFCNN[7](Image Fusion based onConvolutional Neural Network)是一種自編碼器結(jié)構(gòu)的網(wǎng)絡(luò)。該方法采用卷積神經(jīng)網(wǎng)絡(luò)分別提取兩幅源圖像的特征,之后通過一定的融合規(guī)則將所得到的特征融合,融合后的特征經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)重建出融合圖像。

        此外,研究者還提出端到端的深度學習融合框架,并取得不錯的效果。Xu等提出U2Fusion[8](Unified Unsupervised image Fusion Network)融合算法,通過特征提取和信息測量,自動估計特征對應源圖像的重要性,得到了較好的融合效果。Li 等提出RFN-Fuse[9](Residual Fusion Network)同樣是一種端到端的圖像融合方法,先用訓練好的編碼器提取圖像特征,然后輸入進融合網(wǎng)絡(luò)融合特征,再由解碼器重建圖像。Ma 等提出FusionGAN[10](Generative Adversarial Network),一種端到端的方法,將生成對抗網(wǎng)絡(luò)應用于圖像融合,通過構(gòu)建一個生成器和一個鑒別器使二者相互博弈,迫使生成器生成包含兩幅源圖像信息的融合圖像。Fu等提出PerceptionGAN[11](GAN consistent with perception)通過將可見光圖像連接到網(wǎng)絡(luò)中的不同深度,使融合結(jié)果更接近人類的視覺感知,但其結(jié)果中紅外圖像信息較少。此外,基于GAN的方法也有其他研究學者提出[12-14]。由于端到端方法存在生成結(jié)果模糊、細節(jié)保存較少、如果沒有很好的約束和大量的訓練數(shù)據(jù),融合性能并不佳等問題,本文采用自編碼器策略。

        以上方法忽略了編解碼過程中的特征通道注意力信息,并且長距離語義信息沒有被充分利用。因此本研究在網(wǎng)絡(luò)中應用注意力機制和Swin-Transformer來緩解這一問題。此外,現(xiàn)有的方法通常只考慮可見光圖像的背景信息和紅外圖像的目標亮度信息,而紅外圖像的背景亮度信息通常被忽略,導致紅外圖像中的部分背景信息細節(jié)丟失。充分利用紅外亮度信息會使背景更加清晰。紅外圖像的梯度信息也有助于生成更加清晰的圖像。因此,一個新的混合特征聚合被提出來融合特征,其中包含紅外亮度增強模塊和紋理細節(jié)增強模塊。紅外亮度增強模塊不僅可以增強紅外目標信息,還保留了紅外圖像中部分背景的亮度。細節(jié)保留模塊通過梯度算子提取特征圖的梯度邊緣信息。特征聚合中還加入了注意力機制來融合特征,能夠保留更多細節(jié)。本文提出一種新的融合方法,主要貢獻如下:

        1)提出一種注意力巢連接網(wǎng)絡(luò),充分利用多尺度分解和圖像重建過程中的注意力信息。

        2)在解碼器中采用Swin-transformer提取圖像特征的長距離依賴。增強模型特征提取能力。

        3)提出了一種新的混合紅外特征增強、紋理細節(jié)增強和注意力的特征聚合模塊??梢猿浞直A魜碜栽磮D像的亮度與細節(jié)信息。

        4)實驗結(jié)果表明,所提方法能夠更清晰地融合紅外和可見光圖像,融合結(jié)果中的紋理和細節(jié)信息更多。與現(xiàn)有的融合方法相比,本文提出的融合框架在公開數(shù)據(jù)集上的主觀視覺評價和客觀評價均表現(xiàn)出更好的融合性能。

        1 相關(guān)工作

        隨著深度學習被廣泛應用于圖像融合領(lǐng)域,很多基于深度學習的方法被提出。這些方法大致分為兩類,一是端到端的全神經(jīng)網(wǎng)絡(luò),二是深度學習與手工設(shè)計融合規(guī)則相結(jié)合的方法。本章首先介紹幾種經(jīng)典的深度學習圖像融合方法。

        注意力機制被廣泛應用于神經(jīng)網(wǎng)絡(luò)中。Hu等人從通道維度入手提出一種通道注意力機制[15],該機制可以對特征進行校正,校正后的特征可以保留有價值的特征,剔除沒價值的特征。Li等人提出CSpA-DN[16]網(wǎng)絡(luò)將自注意力機制與DenseNet[17]結(jié)合,該方法為端到端的融合方法,大致分為3個部分:編碼網(wǎng)絡(luò)、注意力網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),編碼網(wǎng)絡(luò)的目的是提取兩幅源圖像的特征,注意力網(wǎng)絡(luò)對特征進行校正,解碼網(wǎng)絡(luò)重建圖像。該網(wǎng)絡(luò)采用類似DenseNet設(shè)計具有密集短連接結(jié)構(gòu),可以很好地傳遞特征圖,減輕梯度消失,在一定程度上減少了參數(shù)量,并且在PET和MRI融合任務中取得了不錯的效果。Li 等提出了一種結(jié)合深度學習和手工設(shè)計融合規(guī)則的方法DenseFuse[18]。該方法采用兩階段的融合方法,首先訓練一個編碼和解碼網(wǎng)絡(luò),源圖像經(jīng)過編碼器提取特征,之后將所得特征相加,最后融合后的特征圖經(jīng)過解碼網(wǎng)絡(luò)重建得到融合圖像。這些方法都沒有充分利用特征圖的多尺度信息,并且融合策略相對簡單。

        其中具有多尺度結(jié)構(gòu)的模型在處理圖像任務時有不錯的表現(xiàn)。Zhou等人提出了Unet++[19],用于圖像分割。Unet++在不同尺度的Unet網(wǎng)絡(luò)上探索并且把這些不同尺度的Unet嵌套在一起并使用跳躍連接組合成一個新的巢連接網(wǎng)絡(luò)。Li等設(shè)計了NestFuse[20]網(wǎng)絡(luò)采用巢連接結(jié)構(gòu),包含一個下采樣和上采樣過程,能夠提取圖像的深度特征信息。首先,訓練一個提取多尺度信息的編碼網(wǎng)絡(luò)和一個對應的解碼網(wǎng)絡(luò),在訓練過程中沒有融合階段,只有編碼解碼過程。然后,使用設(shè)計的融合策略將編碼器提取的每個尺度的特征進行融合。最后,由解碼器重建圖像并取得了較好的效果。然而,在編解碼過程中,該方法并未考慮每個特征圖的重要程度。因此,本文提出一種基于注意力的巢連接網(wǎng)絡(luò)。由于注意力機制能夠?qū)μ卣鲌D進行篩選,將其引入融合模型,充分利用各尺度的通道注意力信息,增強融合性能。

        2 融合方法

        本章將詳細介紹基于注意力機制和巢網(wǎng)絡(luò)的融合模型,并介紹模型的細節(jié)以及特征聚合模塊。融合方法的總體框圖如圖1。

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文提出的融合方法主融合框架如圖1所示。其中EB為編碼器、FA為特征聚合、DB為解碼器。本節(jié)主要介紹編碼器、解碼器,特征聚合在2.2節(jié)中詳細介紹。

        現(xiàn)有的U型網(wǎng)絡(luò)存在相同尺度上卷積層不深導致特征未充分利用的問題,為了緩解這個問題,本文采用巢連接策略,在同一尺度之間增加卷積層,并使用跳躍連接,在不同尺度之間采用上采樣連接,來充分利用特征。由于卷積只關(guān)注局部的紋理特征沒有充分利用長程語義依賴,因此本研究在網(wǎng)絡(luò)中使用Swin-transformer來提取長距離依賴如圖1所示。Swin-transformer相比于傳統(tǒng)的Transformer有更低的計算量和更強的特征提取能力,其結(jié)構(gòu)如圖2所示。

        編碼器由4個卷積塊組成,如圖3(a)所示,其中Conv表示卷積層,用來提取圖像的淺層特征信息。在編碼器中,每個卷積塊都包括一個2×2的池化層,對特征圖進行下采樣。圖3(a)中EB代表一個卷積塊,其結(jié)構(gòu)如圖3(b)。

        圖1 本文融合方法的網(wǎng)絡(luò)結(jié)構(gòu)

        圖2 基于Swin transformer的解碼塊

        圖3 編碼器及編碼器中的卷積塊結(jié)構(gòu)

        在編碼階段,圖像先經(jīng)過一個輸出通道數(shù)為16的卷積層,再依次經(jīng)過EB10,輸出通道數(shù)為64,分辨率大小為224×224。EB20輸出通道數(shù)為112,分辨率為112×112。EB30輸出通道數(shù)為160,分辨率大小為56×56,EB40輸出通道數(shù)為208,分辨率大小為28×28。參數(shù)如表1所示。

        表1 編碼器和解碼器網(wǎng)絡(luò)參數(shù)

        編碼過程表達式如(1)~(4)所示:

        1=EB1(ATT(Conv()))(1)

        2=EB2(ATT(1))(2)

        3=EB3(ATT(2)) (3)

        4=EB4(ATT(3))(4)

        式中:,分別表示輸入圖像和多尺度特征;EB(×)表示多尺度特征提取函數(shù);表示多尺度層數(shù)∈1,2,3,4。表示各尺度所得特征圖。Conv(×)表示卷積層。

        巢連接網(wǎng)絡(luò)沒有篩選特征能力不能突出重要特征,為了提升網(wǎng)絡(luò)提取特征能力,本文在多尺度網(wǎng)絡(luò)結(jié)構(gòu)中加入注意力機制,為每個尺度的特征圖增加一個權(quán)重。本文采用的注意力計算方法如下。對每個特征圖取平均池化操作,將得到的結(jié)果組成一個特征向量。計算單個×特征圖對應的公式如(5)所示:

        式中:、為像素坐標;(×,×)為平均池化操作。對通道數(shù)為的特征圖按通道進行ATT(×)操作,得到1×維的特征向量。如圖2(b)中所示,使用線性層將所得特征向量的維度壓縮,經(jīng)過激活函數(shù),其目的是增加網(wǎng)絡(luò)的非線性,擬合通道之間的相關(guān)性。經(jīng)過第一個線形層后維度變?yōu)樵瓉淼?/,本文中=16。之后,再用線性層將特征向量擴展到與原特征圖的通道數(shù)相同的維度。所得特征向量經(jīng)過Sigmoid函數(shù)之后得到與特征圖通道數(shù)維數(shù)一致的權(quán)重向量,最后與原特征圖相乘。

        將圖像融合過程中部分特征圖可視化,如圖3所示,輸入為TNO數(shù)據(jù)集[21]中的可見光圖像。每對圖像的左右兩幅圖片分別為經(jīng)過注意力機制前后的特征圖??梢钥闯鲎⒁饬C制能夠?qū)⒛:奶卣魅趸?,這些特征對重建圖像紋理和細節(jié)的保留的重要性相對較小。圖4為解碼器中DB21卷積塊中特征圖可視化結(jié)果,可視化結(jié)果表明注意力機制能夠為各通道分配權(quán)重,突出重要信息。

        圖4 4對經(jīng)過注意力模塊前后的特征圖

        紅外和可見光圖像分別經(jīng)過編碼器后使用特征聚合FA得到融合特征:

        =FA(1,2)(6)

        式中:FA(×)為特征聚合模塊,具體如2.2節(jié)所示。12分別為輸入源圖像的多尺度特征,表示多尺度層數(shù)。將輸入到解碼器中得到最終的融合圖像。

        解碼階段網(wǎng)絡(luò)參數(shù)與編碼階段相對應。具體參數(shù)設(shè)置如表1所示。解碼器由6個DB卷積塊組成,如圖5所示,用于重建融合圖像,解碼器的4個輸入與編碼器4個卷積塊相對應。其中DB11和DB12由Swin-transformer塊組成如圖2(a)所示,每個Swin-transformer塊由7層不同尺度的Swin-transformer層組成,每個Swin-transformer層如圖2(b)所示。

        編碼階段和解碼階段的卷積塊不完全相同。解碼階段的卷積塊由兩個卷積層、一個池化層和一個注意力模塊組成,注意力模塊與圖2(b)中所示的結(jié)構(gòu)相同。如圖5所示。其中第二個卷積層的核大小為1×1,用來匹配維度。解碼階段沒有用于下采樣的池化層,其余卷積層保持不變。特征圖上采樣后拼接到同尺度特征中。

        2.2 特征聚合

        大多數(shù)特征融合都是基于加權(quán)平均算子生成一個加權(quán)圖來融合源圖像?;谶@一理論,權(quán)重圖的選擇成為一個關(guān)鍵問題。而現(xiàn)有的方法忽略了紅外圖像中的背景亮度信息及紅外圖像的梯度信息,為此在本研究中設(shè)計了紅外特征增強模塊保留更多紅外亮度信息,并且從兩幅源圖像中分別提取梯度信息,同時混合基于注意力機制[20]的特征聚合,達到保留更多細節(jié)的目的。如圖6所示。在網(wǎng)絡(luò)訓練完成后,測試時將特征聚合加入到網(wǎng)絡(luò)中,兩副原圖像經(jīng)過編碼器后得到多尺度特征12,通過1-norm和Soft-max算子計算得到的權(quán)重映射12權(quán)重圖由公式(7)表示:

        式中:||×||1表示1范數(shù);∈1,2。(,)表示多尺度深度特征(12)和權(quán)重圖(12)中對應的位置,每個位置表示深度特征中的一個維向量。(,)表示一個維的向量。

        圖5 解碼器網(wǎng)絡(luò)結(jié)構(gòu)

        Fig.5 Network structure of decoder

        圖6 特征聚合框架

        現(xiàn)有方法中特征聚合大都只考慮空間信息。然而,深度特征是三維張量。因此,特征聚合中不僅要考慮空間維度信息,還要考慮通道信息。通道注意力特征計算過程與空間注意力特征計算過程大致相同,如圖6。利用通道注意力模塊計算后的結(jié)果是一個一維向量,各個值為對應通道的權(quán)重。特征聚合輸入特征圖的權(quán)重向量12由公式(10)計算得出。

        式中:為輸入特征中的通道數(shù);(×)為全局池化。全局池化方法是通過每個通道的奇異值求和得到。奇異值往往對應著矩陣中隱含的重要信息,且重要性和奇異值大小正相關(guān)。

        然后,使用Soft-max函數(shù)計算得到最終的加權(quán)向量12如公式(11):

        在所提特征聚合中對兩幅圖像分別進行梯度特征提取得到梯度權(quán)重圖,如公式所示:

        式中:(×)代表Sobel函數(shù)用于提取特征圖的梯度特征。

        紅外特征增強模塊首先將紅外特征通過分割的方法分離出來,如公式:

        式中:seg(×)為閾值分割函數(shù),其閾值根據(jù)背景和紅外目標像素值的最大類間方差獲得。為平衡權(quán)重,在本文中設(shè)置為0.3。

        最終的注意力融合特征f由公式(16)計算得到。

        2.3 訓練階段

        所提方法采用了兩階段訓練策略。首先,訓練一個可以提取圖片深層特征的自動編碼器,和一個可以處理這些特征重建圖像的解碼器。訓練框架如圖7所示,其中和分別為輸入圖像和重建圖像。訓練數(shù)據(jù)集采用MS-COCO[22]數(shù)據(jù)集。

        圖7 訓練階段的網(wǎng)絡(luò)結(jié)構(gòu)

        訓練過程沒有融合階段,特征聚合不參與訓練。只需訓練解碼器和編碼器。在損失函數(shù)的約束下迫使網(wǎng)絡(luò)能夠重建出輸入圖像。在測試時編碼器要分別對兩幅源圖像進行編碼,再經(jīng)特征聚合后輸入到解碼器。

        在訓練階段,損失函數(shù)total定義如下:

        total=pixel+ssim(17)

        式中:pixel和ssim分別表示源圖像和融合后圖像之間的像素損失和結(jié)構(gòu)相似度損失。是平衡兩個損失的加權(quán)因子。在本文中取值為100。

        pixel由公式(18)得到:

        式中:和分別表示輸出圖像和輸入圖像。其中||×||F為F范數(shù)。損失函數(shù)可以最大程度地使輸出圖像像素更接近于輸入圖像。

        SSIM結(jié)構(gòu)相似度損失函數(shù)ssim由公式(19)得到。

        式中:I,O和I,O分別為輸入輸出圖像的均值和標準差。IO為協(xié)方差,1,2為常數(shù)。ssim越小兩幅圖像的結(jié)構(gòu)越相似。

        3 實驗結(jié)果

        本章中,首先介紹本文的實驗設(shè)置。然后介紹消融研究。在主觀評價方面與現(xiàn)有方法進行了比較,并利用多個質(zhì)量評價指標對融合性能進行了客觀評價。圖8展示了采用的21對紅外和可見光測試圖像的一部分。

        圖8 TNO數(shù)據(jù)集中的3對紅外和可見光圖像

        3.1 實驗設(shè)置

        選擇10種比較典型和先進的融合方法來評價融合性能,包括:GTF[1],TIF[2],ADF[3],F(xiàn)usionGAN[10],DenseFuse[18],vggML[23],RFN-Fuse[9],DeepFuse[6],CSF[24](Classification Saliency-Based Fusion),Dual-branch[25],這些方法實驗結(jié)果都由其公開代碼得到,其中參數(shù)設(shè)置與其論文所述相同。網(wǎng)絡(luò)訓練時epoch和batch大小分別為2和2。實驗平臺為:E5 2680 v4 CPU, NVIDIA GTX 1080Ti GPU,代碼實現(xiàn)使用PyTorch框架。

        利用以下幾個質(zhì)量指標對本文的融合方法和其他融合方法進行了定量比較。其中包括:邊緣強度(Edge Intensity,EI)[26],視覺保真度(Visual Fidelity,VIF)[27],平均梯度(Average Gradient,AG)[28],信息熵(Entropy,EN)[29],標準差(Standard Deviation,SD),離散余弦特征互信息(Discrete Cosine Feature Mutual Information,F(xiàn)MI_dct)[30],相位一致(Phase Consistent,QP)[31]。測試采用的是TNO[21]和MSRS數(shù)據(jù)集[32],分別取21對圖像??陀^評價結(jié)果從其中選取21對圖像進行測試,取21對圖像客觀結(jié)果的平均值進行對比。

        3.2 消融研究

        如2.1節(jié)所述,本研究在編解碼網(wǎng)絡(luò)中加入了注意力機制。分別對有注意力機制(Att)和沒有注意力機制以及Swin-transformer(Att+ST)進行了實驗,實驗結(jié)果如圖9,其中測試圖像是從TNO數(shù)據(jù)集中選取的部分圖像。左邊一列(a)是加上注意力之后的結(jié)果,中間一列(b)是加入Swin-transformer后的結(jié)果,右邊一列(c)是所提融合方法的結(jié)果??梢钥吹郊由献⒁饬C制之后圖像包含更多的紋理信息,背景中的植物細節(jié)更加清晰(如圖9中紅框所示)??陀^評價方面,兩個不同模型的融合結(jié)果評價指標如表2所示。

        圖9 消融前后融合結(jié)果對比

        表2 消融前后圖像評價指標平均值

        可以看出,加入的注意力機制對于客觀評價標準的提升非常明顯,各個評價標準都有不同程度地提升??陀^評價結(jié)果表明網(wǎng)絡(luò)中的注意力機制能夠使融合性能得以改善。21對圖片的客觀評價指標對比如表2所示??梢钥吹郊尤胱⒁饬骎IFF、MI、MS-SSIM三個指標有明顯提升。

        3.3 結(jié)果分析

        3.3.1 主觀評價

        現(xiàn)有融合方法和本文融合方法得到的TNO融合結(jié)果中選取的一對圖像,如圖10所示。從圖中可以看出FusionGAN融合結(jié)果雖然有一些顯著的紅外特征但是有些地方比較模糊,例如草叢與路面等部分紋理細節(jié)不明顯。VggML、DenseFuse、Dual-branch的融合結(jié)果中紅外信息不突出并且也存在模糊現(xiàn)象。GTF中丟失部分紅外目標信息,例如人物腳部部分。TIF融合結(jié)果較為清晰,但圖像中存在噪聲和信息融合不均衡現(xiàn)象。

        此外,還可以從圖10紅框標記的局部放大區(qū)域進行比較。所提方法在主觀評價方面比其他融合方法有更好的融合性能,融合結(jié)果中的亮度信息也更均衡。RFN-Fuse融合結(jié)果相對較好,但在細節(jié)紋理保存方面稍有欠缺。從放大區(qū)域可以看出所提方法能較清晰地顯示出道路上的條紋,保存更多的紋理細節(jié)信息。此外為了體現(xiàn)模型的泛化性能本文還在MSRS數(shù)據(jù)集上做了對比試驗如圖11所示。可以看出相比FusionGAN、RFN-Fuse所提方法的紅外信息和可見光信息更加平衡,融合結(jié)果中可以保留更多細節(jié)。

        3.3.2 客觀評價

        本文采用了客觀評價指標進行對比,實驗結(jié)果如表3所示。采用的評價指標有7種同3.1節(jié)所示指標。其中每個評價標準最好的結(jié)果用紅色字體表示。

        從表3可以看出本文方法有5個指標是最優(yōu)的,用紅色字體標出。視覺保真度高說明融合結(jié)果具有更高的視覺保真度。平均梯度、邊緣強度越高表明圖像質(zhì)量越高,也就更清晰。表4展示了MSRS數(shù)據(jù)集上的客觀評價結(jié)果可以看到所提方法的5個指標達到最好結(jié)果與在TNO數(shù)據(jù)集得出結(jié)果一致,說明所提方法的泛化性能較好。

        圖10 紅外和可見光圖像的融合結(jié)果

        表3 TNO數(shù)據(jù)集21對圖像評價指標平均值

        表4 MSRS數(shù)據(jù)集21對圖像評價指標平均值

        4 結(jié)語

        本文提出一種基于Swin-transformer和混合特征聚合的融合網(wǎng)絡(luò)并提出了一種新的混合特征聚合。將Swin-transformer與注意力機制引入到多尺度網(wǎng)絡(luò)中,充分利用長距離語義信息與通道注意力信息,解決基于卷積神經(jīng)網(wǎng)絡(luò)方法中細節(jié)丟失的問題。所提特征聚合將注意力與特征增強模塊混合,能夠保留更多背景細節(jié)信息。所提方法首先利用一個解碼器來提取特征圖的多尺度信息。再將各個尺度的特征用所提特征聚合進行融合,分別輸入到解碼器的對應接口進行解碼。由于在編解碼過程中使用了注意力機制,突出對結(jié)果有重要影響的通道,使得融合結(jié)果保留了更多細節(jié)和紋理特征。利用提出的網(wǎng)絡(luò)結(jié)構(gòu),可以在重構(gòu)過程中保留更多的顯著特征,提高圖像融合的性能。

        [1] MA J, CHEN C, LI C, et al. Infrared and visible image fusion via gradient transfer and total variation minimization [J]., 2016, 31: 100-109.

        [2] Bavirisetti D P, D Huli R. Two-scale image fusion of visible and infrared images using saliency detection [J]., 2016, 76: 52-64.

        [3] Bavirisetti D P, Dhuli R. Fusion of infrared and visible sensor images based on anisotropic diffusion and karhunen-loeve transform [J]., 2015, 16(1): 203-9.

        [4] LIU Y, CHEN X, WARD R K, et al. Image fusion with convolutional sparse representation [J]., 2016, 23(12): 1882-6.

        [5] ZHOU Z, WANG B, LI S, et al. Perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with Gaussian and bilateral filters [J]., 2016, 30: 15-26.

        [6] Prabhakar K R, Srikar V S, Babu R V. DeepFuse: a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C/OL]//(), 2017,https://arxiv.org/abs/1712.07384.

        [7] ZHANG Y, LIU Y, SUN P, et al. IFCNN: A general image fusion framework based on convolutional neural network [J]., 2020, 54: 99-118.

        [8] XU H, MA J, JIANG J, et al. U2Fusion: a unified unsupervised image fusion network [J]., 2020, 44(1): 502 - 18.

        [9] LI H, WU X J, KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images [J]., 2021, 73: 72-86.

        [10] MA J, YU W, LIANG P, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion [J]., 2019, 48: 11-26.

        [11] FU Y, WU X J, DURRANI T. Image fusion based on generative adversarial network consistent with perception [J]., 2021, 72: 110-25.

        [12] SONG A, DUAN H, PEI H, et al. Triple-discriminator generative adversarial network for infrared and visible image fusion [J]., 2022, 483: 183-94.

        [13] XUE W, HUAN XIN C, SHENG YI S, et al. MSFSA-GAN: multi-scale fusion self attention generative adversarial network for single image deraining [J]., 2022, 10: 34442-8.

        [14] ZHANG H, YUAN J, TIAN X, et al. GAN-FM: infrared and visible image fusion using gan with full-scale skip connection and dual markovian discriminators [J]., 2021, 7: 1134-47.

        [15] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks [J]., 2020, 42(8): 2011-23.

        [16] LI B, LIU Z, GAO S, et al. CSpA-DN: channel and spatial attention dense network for fusing PET and MRI images[C]//25th, 2021,DOI: 10.1109/ICPR48806.2021.9412543.

        [17] HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C/OL]//, 2017, https://arxiv.org/abs/1608.06993.

        [18] LI H, WU X. DenseFuse: a fusion approach to infrared and visible images[J]., 2019, 28(5): 2614-23.

        [19] ZHOU Z, Rahman Siddiquee M M, Tajbakhsh N, et al. UNet++: A Nested U-Net architecture for medical image segmentation[J/OL]., 2018,https://arxiv.org/abs/1807.10165.

        [20] LI H, WU X J, DURRANI T. NestFuse: an infrared and visible image fusion architecture based on nest connection and spatial/channel attention models [J]., 2020, 69(12): 9645-56.

        [21] TOET A. TNO Image Fusion Dataset[EB/OL]. 2014, https://doi.org/10.6084/m9.figshare.1008029.v2.

        [22] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[J/OL]., 2014, https://arxiv.org/abs/1405.0312.

        [23] LI H, WU X, KITTLER J. Infrared and visible image fusion using a deep learning framework[C]//(ICPR), 2018: 2705-2710, DOI: 10.1109/ICPR.2018.8546006.

        [24] XU H, ZHANG H, MA J. Classification saliency-based rule for visible and infrared image fusion [J]., 2021, 7: 824-36.

        [25] FU Y, WU X J. A dual-branch network for infrared and visible image fusion [J/OL].(ICPR), 2021, https://arxiv.org/abs/2101.09643.

        [26] Xydeas C S, Petrovic? V. Objective image fusion performance measure [J]., 2000, 36(4): 308-309.

        [27] HAN Y, CAI Y, CAO Y, et al. A new image fusion performance metric based on visual information fidelity [J]., 2013, 14(2): 127-135.

        [28] CUI G, FENG H, XU Z, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition [J]., 2015, 341: 199-209.

        [29] AARDT V, JAN. Assessment of image fusion procedures using entropy, image quality, and multispectral classification [J]., 2008, 2(1): 1-28.

        [30] Haghighat M, Razian M A. Fast-FMI: Non-reference image fusion metric[C]//(AICT), 2014: 1-3, DOI: 10.1109/ICAICT.2014.7036000.

        [31] ZHAO J, LAGANIERE R, LIU Z. Performance assessment of combinative pixel-level image fusion based on an absolute feature measurement[J]., 2006, 3(6): 1433-1447.

        [32] TANG L, YUAN J, ZHANG H, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]., 2022, 83-84: 79-92.

        Infrared and Visible Light Image Fusion Method Based on Swin Transformer and Hybrid Feature Aggregation

        LI Bicao1,2,LU Jiaxi1,LIU Zhoufeng1,LI Chunlei1,ZHANG Jie1

        (1.,,450007,;2.,,450001,)

        The fusion of infrared and visible light images can generate images containing more information in line with human visual perception compared with the original images, and is also beneficial for downstream tasks. Traditional image fusion methods based on signal processing have problems such as poor generalization ability and reduced performance of complex image fusion. Deep learning is capable of features extraction and provides good results. However, its results have problems such as reduced preservation of textural details and blurred images. To address these problems, this study proposes a fusion network model of infrared and visible light images based on the multiscale Swin Transformer and an attention mechanism. Swin Transformers can extract long-distance semantic information from a multiscale perspective, and the attention mechanism can weaken the insignificant features in the proposed features to retain the main information. In addition, this study proposes a new hybrid fusion strategy and designs brightness enhancement and detail retention modules according to the respective characteristics of the infrared and visible images to retain more textural details and infrared target information. The fusion method has three parts: the encoder, fusion strategy, and decoder. First, the source image was input into the encoder to extract multiscale depth features. Then, a fusion strategy was designed to fuse the depth features of each scale. Finally, the fused image was reconstructed using a decoder based on nested connections. The experimental results on public datasets show that the proposed method has a better fusion performance compared with other state-of-the-art methods. Among the objective evaluation indicators, EI, AG, QP, EN, and SD were optimal. From a subjective perspective, the proposed infrared and visible light image fusion method can preserve additional edge details in the results.

        image fusion, infrared and visible light images, Swin-transformer, feature aggregation, attention mechanism.

        TP391.41

        A

        1001-8891(2023)07-0721-11

        2022-07-30;

        2022-09-13.

        李碧草(1985-),男,博士,副教授,碩士生導師,主要研究方向為醫(yī)學圖像處理、模式識別。E-mail: lbc@zut.edu.cn。

        國家自然科學基金資助項目(61901537, 62072489);河南省留學人員科研擇優(yōu)項目資助經(jīng)費;中國博士后科學基金面上資助(2020M672274);中國紡織工業(yè)聯(lián)合會科技指導性計劃項目(2019059);中原工學院青年骨干教師培養(yǎng)計劃(2019XQG04);中原工學院學科青年碩導培育計劃(SD202207)。

        猜你喜歡
        編碼器尺度紅外
        網(wǎng)紅外賣
        閃亮的中國紅外『芯』
        金橋(2021年4期)2021-05-21 08:19:20
        財產(chǎn)的五大尺度和五重應對
        TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應用
        電子制作(2019年7期)2019-04-25 13:17:14
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        9
        国产大屁股喷水视频在线观看| 日本一区二区三区中文字幕视频| 亚洲中文字幕乱码免费看| 国产av精品一区二区三区久久| 亚洲 卡通 欧美 制服 中文| 色两性网欧美| 蜜桃一区二区三区自拍视频| 中国黄色一区二区三区四区| 美丽人妻在夫前被黑人| 99re6热在线精品视频播放6| 少妇一级aa一区二区三区片| 在线免费看91免费版.| 国产青榴视频在线观看| 久久国产A√无码专区亚洲| 日本高清一区二区三区视频| 国产亚洲精品视频一区二区三区| 无码精品人妻一区二区三区av | 久久久久国色av免费观看性色| 日日噜噜噜夜夜爽爽狠狠| 99色网站| 亚洲精品中文字幕一二三四| 亚洲av无码一区二区三区天堂古代| 四虎永久免费一级毛片| 中文字幕成人乱码亚洲| 亚洲精品国产av成人精品| 人人爽人人爽人人爽人人片av| 99久久超碰中文字幕伊人| 国产精品毛片毛片av一区二区| 免费无遮挡无码永久视频| 国产第19页精品| 国产成人自拍视频在线免费| 国产区女主播一区在线| 少妇性饥渴bbbbb搡bbbb| 亚洲AV无码未成人网站久久精品 | 领导边摸边吃奶边做爽在线观看| 国产精品午睡沙发系列| 国产香蕉一区二区三区| 国产精品成人亚洲一区| 亚洲一线二线三线写真| 精品国产1区2区3区AV| 国产一区二区三区视频在线观看|