張 炯,王麗芳,藺素珍,秦品樂,米 嘉,劉 陽
(中北大學(xué) 大數(shù)據(jù)學(xué)院 山西省生物醫(yī)學(xué)成像與影像大數(shù)據(jù)重點實驗室,太原 030051)
多模態(tài)醫(yī)學(xué)圖像融合有效地解決了單一模態(tài)成像對于人體組織器官信息的局限性,提高了醫(yī)學(xué)影像信息的利用效能。在當(dāng)今醫(yī)學(xué)領(lǐng)域,各種醫(yī)學(xué)圖像發(fā)揮著不可或缺的作用,為疾病的診斷和治療提供了極大的幫助[1]。由于成像機制的不同,不同模態(tài)的醫(yī)學(xué)圖像側(cè)重于不同類別的器官或組織信息[2],如CT 圖像對于骨骼、肝臟等器官成像效果較好,但在不同軟組織間的對比度表現(xiàn)較差,而MR 圖像包含較高分辨率的軟組織細(xì)節(jié)信息,可以較好地反映腦部和脊髓中的血液和代謝變化,但在空間分辨率方面不如CT 圖像。多模態(tài)醫(yī)學(xué)圖像融合技術(shù)通過綜合不同模態(tài)醫(yī)學(xué)圖像之間的互補與冗余信息,可幫助醫(yī)療工作人員實現(xiàn)更可靠、準(zhǔn)確的診斷與治療[3]。
現(xiàn)有的圖像融合方法可分為傳統(tǒng)融合方法和基于深度學(xué)習(xí)的融合方法。傳統(tǒng)融合方法在結(jié)果中通常無法有效保留源圖像中的一些關(guān)鍵信息,如:基于多尺度變換的融合方法[4]無法有效保留邊緣特征,在融合圖像中會產(chǎn)生光暈;基于稀疏表示的融合方法[5]在面對復(fù)雜的圖像時表示性能變差,容易在融合結(jié)果中產(chǎn)生偽影。根據(jù)訓(xùn)練方式的不同,基于深度學(xué)習(xí)的融合方法可進一步劃分為端到端和兩階段的方法:端到端的融合方法輸入一組預(yù)配準(zhǔn)圖像,通過設(shè)計合適的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)直接輸出融合圖像,如IFCNN[6]、U2Fusion[7],但由于缺乏配準(zhǔn)好的醫(yī)學(xué)圖像數(shù)據(jù)集,端到端的融合網(wǎng)絡(luò)在訓(xùn)練時容易過擬合,影響融合結(jié)果;兩階段的融合方法在第一階段先采用單張圖像的大型數(shù)據(jù)集訓(xùn)練一個基于編碼器-解碼器的圖像重建網(wǎng)絡(luò),在第二階段通過訓(xùn)練好的編碼器從成對的源圖像中提取特征映射,進行初步特征融合后輸入到解碼器中得到融合圖像,如DenseFuse[8]、SESFuse[9]。雖然兩階段的融合方法解決了缺乏成對數(shù)據(jù)集的問題,但訓(xùn)練過程中專注于圖像重建任務(wù),無法準(zhǔn)確提取融合所需要的顯著特征。此外,目前基于深度學(xué)習(xí)的融合方法多數(shù)采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),由于其有限的感受野,特征提取過程中主要關(guān)注圖像的局部信息,忽略了圖像中廣泛存在的非局部自相似性[10]。
相對于CNN 的局部信息建模,Transformer[11]由于其內(nèi)部的自注意力和多層感知器(Multi-Layer Perceptron,MLP)結(jié)構(gòu),更擅長于捕獲圖像中長距離視覺元素之間的關(guān)系,從而獲得全局特征表示。然而視覺Transformer 忽略了圖像的局部特征細(xì)節(jié),如邊緣、紋理,而且由于特殊的特征表示以及建模方法,導(dǎo)致其缺乏歸納偏差[12],需要利用大規(guī)模的訓(xùn)練數(shù)據(jù)才能獲得良好的結(jié)果。如何有效地同時提取局部特征和全局特征,對于更好地提取全面的圖像特征具有重要意義。DETR[13]首先使用CNN 來提取局部特征,然后將它們輸入到Transformer 轉(zhuǎn)換器中來學(xué)習(xí)全局特征,但是這種串行的結(jié)構(gòu)在局部建模時忽略了全局上下文[14],并不是最優(yōu)的選擇,而且局部與全局特征并不是獨立不相關(guān)的,在學(xué)習(xí)過程中需要一定的交互和引導(dǎo)。此外,由于Transformer 具有特殊的特征表現(xiàn)形式,目前的各種Transformer 網(wǎng)絡(luò)大多在單一尺度上進行[15],忽略了多尺度特征表示在計算機視覺各項任務(wù)中發(fā)揮的重要作用。
針對多模態(tài)醫(yī)學(xué)圖像融合中全局表征不足的問題,本文提出基于局部全局特征耦合和交叉尺度注意的多模態(tài)醫(yī)學(xué)圖像融合方法。設(shè)計一種結(jié)合CNN 和Transformer 優(yōu)點以及多尺度特征表示的編碼器特征提取網(wǎng)絡(luò),通過耦合圖像的局部和全局特征并使用交叉尺度注意模塊來獲取豐富的圖像特征表示。編碼器采用并行的CNN 和Transformer 雙分支網(wǎng)絡(luò)分別提取局部特征和全局特征,并分多階段使用特征耦合模塊,將CNN 提取到的局部細(xì)節(jié)特征嵌入Transformer 提取到的全局特征以有效結(jié)合雙分支特征。同時,為了更好地利用多尺度信息,在Transformer 分支中嵌入局部信息后引入交叉尺度注意模塊以交互當(dāng)前尺度與淺層尺度之間的語義信息。通過該編碼器對預(yù)配準(zhǔn)后的成對輸入圖像進行特征提取,使用融合規(guī)則對特征進行融合,并經(jīng)解碼器網(wǎng)絡(luò)進行特征重建得到融合圖像。
Transformer 最初是為了自然語言處理(Natural Language Processing,NLP)任務(wù)而設(shè)計的,由VASWANI 等[11]提出應(yīng)用于機器翻譯任務(wù),其采用多頭自注意力機制作為核心模塊,擅長處理序列數(shù)據(jù)的遠(yuǎn)程依賴關(guān)系,在自然語言處理領(lǐng)域得到了廣泛應(yīng)用[16-18]。給定一組序列數(shù)據(jù)X∈RN×D。其中:N表示序列的個數(shù);D表示序列的維度。自注意力機制的計算方式如式(1)所示:
其中:Wq、Wk和Wv表示需要訓(xùn)練的相應(yīng)權(quán)重矩陣;dk表示k的維度。通過查詢矩陣q和轉(zhuǎn)置后關(guān)鍵矩陣k相乘得到不同序列間的分?jǐn)?shù)值,經(jīng)過Softmax 函數(shù)歸一化后與值矩陣v相乘得到自注意力模塊的輸出。Transformer 中使用的多頭自注意力考慮了不同表示子空間的信息,將q、k、v進行多組投影后再各自進行自注意力計算,最后將結(jié)果組合到一起獲得更豐富的特征信息。
受Transformer 在NLP 任務(wù)中的啟發(fā),VIT[19]率先提出將圖像均分為16×16 離散不重疊的塊,并通過線性映射轉(zhuǎn)化為一維序列,成功地將Transformer拓展到了圖像分類任務(wù),從而使Transformer 發(fā)展為與CNN 相當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu),廣泛應(yīng)用于目標(biāo)檢測[20-22]、圖像分割[23-25]、圖像生成[26-27]等各種計算機視覺任務(wù)。
為解決CNN 網(wǎng)絡(luò)特征圖與Transformer 網(wǎng)絡(luò)中補丁序列維度不匹配的問題,文獻[28]提出將特征耦合單元用于CNN 和Transformer 雙分支網(wǎng)絡(luò)之間進行特征嵌入,在消除局部與全局信息語義差異的同時更好地結(jié)合了局部與全局特征。如圖1 所示,卷積網(wǎng)絡(luò)特征圖的維度為C×H×W,而Transformer 補丁序列的形狀為N×D,特征耦合單元先通過1×1 卷積來對齊通道維度,利用下采樣操作進行空間維度對齊,再通過線性映射將三維特征圖上的空間維度轉(zhuǎn)化為一維向量,得到轉(zhuǎn)換后的補丁序列,然后經(jīng)LayerNorm 歸一化層對齊特征值,最后將轉(zhuǎn)換后的補丁序列加入到Transformer 分支特征中。
圖1 特征耦合單元Fig.1 Feature coupling unit
為探究Transformer 網(wǎng)絡(luò)如何學(xué)習(xí)多尺度特征表示和交互,文獻[29]提出了交叉尺度注意來有效地聚合Transformer 網(wǎng)絡(luò)的多尺度特征,圖2 展示了交叉尺度注意用于大小2 種補丁尺度特征交互的詳細(xì)結(jié)構(gòu)。其中:表示大補丁尺度特征中用于圖像分類任務(wù)的類標(biāo)記補丁,是一個尺度的抽象全局特征表示。
圖2 交叉注意模塊Fig.2 Cross-attention module
首先通過fl(·)線性投影函數(shù)將的維度與小尺度補丁對齊得到,再與小補丁拼接到一起得到x's,然后在和x's之間執(zhí)行交叉注意。交叉注意力的公式可表示為:
與自注意力機制類似,式(2)中Wq、Wk和Wv均表示需要訓(xùn)練的參數(shù)矩陣,dk表示k的維度。交叉注意力與自注意力的區(qū)別在于交叉注意力需要2 個特征圖來生成q、k、v矩陣。最后將交叉注意的輸出通過反線性投影函數(shù)gl(·)恢復(fù)原尺寸大小并與大補丁拼接到一起作為交叉注意模塊的輸出。通過交叉注意模塊,可以在不同尺度之間交換信息,豐富當(dāng)前尺度的特征表示。
本文提出的多模態(tài)醫(yī)學(xué)圖像融合方法框架如圖3 所示,其由編碼器、融合規(guī)則模塊和解碼器組成。配準(zhǔn)好的醫(yī)學(xué)圖像ICT、IMR分別經(jīng)相同的編碼器提取特征得到fCT、fMR;融合規(guī)則模塊用來將不同圖像特征進行初步融合得到fm;最后輸入解碼器中重建得到融合圖像If。本文采用兩階段的融合方法,編碼器-解碼器的網(wǎng)絡(luò)參數(shù)是通過圖像重建任務(wù)來訓(xùn)練的,這種訓(xùn)練方式保證了足夠的數(shù)據(jù)集來更好地訓(xùn)練編解碼器。
圖3 基于編碼器-解碼器的多模態(tài)醫(yī)學(xué)圖像融合框架Fig.3 Encoder-decoder based multimodal medical image fusion framework
融合框架中編碼器-解碼器的詳細(xì)結(jié)構(gòu)以及訓(xùn)練過程如圖4 所示,輸入圖像經(jīng)過編碼器生成圖像的重要特征,然后利用解碼器網(wǎng)絡(luò)將這些特征重構(gòu),還原輸入圖像。
圖4 面向圖像重建任務(wù)的編碼器-解碼器網(wǎng)絡(luò)Fig.4 Encoder-decoder network for image reconstruction task
為獲取顯著的圖像特征,編碼器由CNN 和Transformer 兩個網(wǎng)絡(luò)分支、特征耦合模塊和交叉尺度注意模塊組成。本文將CNN 和Transformer 雙分支網(wǎng)絡(luò)劃分為3 個階段,每個階段提取得到輸入圖像Iin不同尺度的特征fi、ti(i=1,2,3)。在每個階段,都有一個特征耦合模塊將CNN 分支的特征fi轉(zhuǎn)換嵌入到 Transformer 的全局特征ti中,以豐富Transformer 特征中的局部細(xì)節(jié),得到更新后的Transformer 的3 個尺度特征xi(i=1,2,3)。由于存在多尺度特征利用不到位的問題,在每一階段經(jīng)過局部特征嵌入后引入交叉尺度注意模塊對特征xi與淺層特征(x1,x2,…,xi-1)進行跨尺度信息交互,得到最后的特征(i=1,2,3),因為x1為最初的尺度,所以=x1。最后將不同尺度特征經(jīng)過逆線性變換轉(zhuǎn)換特征形狀后,通過自適應(yīng)上采樣恢復(fù)成原圖像空間大小,再進行通道拼接作為編碼器最終提取的特征。
解碼器由3 個空間尺度大小不變的殘差卷積塊組成,將編碼器提取特征作為解碼器輸入,逐步重建原始圖像。
2.1.1 CNN 分支
卷積操作由于其有限的卷積核大小,在一層內(nèi)只能考慮與空間相關(guān)的特征信息,因此,在本文設(shè)計的編碼器中,通過CNN 分支提取輸入圖像的局部細(xì)節(jié)特征。CNN 分支基 于ResNet-18[30]網(wǎng) 絡(luò),采用如圖5 所示的殘差卷積塊(Conv Block)構(gòu)建而成。
圖5 殘差卷積塊Fig.5 Residual convolution block
輸入一幅訓(xùn)練圖像Iin∈RH×W×1,其中H、W、1 分別表示圖像高度、寬度和通道大小,原ResNet-18 網(wǎng)絡(luò)中包含5 個塊,每個塊將特征映射向下采樣2 倍,這是為了在深層特征中獲取圖像的全局上下文特征,但會丟失一定的局部信息且造成資源浪費。本文考慮到Transformer 的全局特征提取能力,刪除了最后一個塊,這不僅提供了一個較淺的模型,而且還保留了更豐富的局部信息。然后將剩下的結(jié)構(gòu)劃分為3 個階段,每一階段生成的特征圖大小分別表示為:
2.1.2 Transformer 分支
Transformer分支的作用是利用其內(nèi)部的多頭自注意力機制來提取輸入圖像的全局感知。為構(gòu)建與CNN分支對應(yīng)的多尺度網(wǎng)絡(luò),Transformer分支采用文獻[31]提出的漸進采樣策略來靈活調(diào)整每一階段的補丁序列大小。給定輸入圖像Iin∈RH×W×1,首先將其平均劃分為N個塊,其中,P表示每個圖像塊的大小。本文設(shè)置初始圖像塊大小為4×4,然后將每一塊經(jīng)過線性映射展平為一維向量,得到原始的補丁序列,其 中D0=16,再將補丁序列t0輸 入Transformer分支提取全局特征。圖6展示了Transformer分支每一階段的內(nèi)部結(jié)構(gòu),輸入一組補丁序列,首先通過補丁嵌入層來調(diào)整圖像塊P的大小,以控制當(dāng)前階段補丁序列的尺度大小,然后將補丁序列輸入到2 個Transformer Layer進行全局交互。Transformer Layer主要包括多頭自注意力機制和多層感知器兩部分,多頭自注意力機制對補丁序列進行兩兩交互,多層感知器用來進一步增強特征提取能力,再加上必要的歸一化層和殘差結(jié)構(gòu)便于訓(xùn)練。根據(jù)每一階段圖像塊大小P的調(diào)整,可以得到每一階段的全局特征序列大?。?,D1=16,D2=64,D3=256。為加強Transformer 分支中的局部信息,本文設(shè)計特征耦合模塊,在每一階段末尾將局部特征fi嵌入到補丁序列ti中。
圖6 Transformer 分支的內(nèi)部結(jié)構(gòu)Fig.6 Internal structure of Transformer branch
2.1.3 特征耦合模塊
特征耦合模塊通過連接嵌入的方式聚合了CNN 的局部特征和Transformer 的全局特征,由于CNN 編碼了空間位置信息,因此不需要像傳統(tǒng)Transformer 結(jié)構(gòu)一樣在特征輸入多頭自注意力模塊時加入位置編碼信息。不同于文獻[28]提出的特征耦合單元,本文在特征耦合模塊中引入空間注意力機制來將卷積特征圖轉(zhuǎn)換為補丁序列的形式,以凸顯像素層次上的重要空間位置特征。
特征耦合模塊的內(nèi)部結(jié)構(gòu)如圖7 所示,以第三階段為例,將CNN 分支第三階段輸出輸入一個空間注意力機制模塊。
圖7 特征耦合模塊Fig.7 Feature coupling module
2.1.4 交叉尺度注意模塊
本文通過將Transformer 應(yīng)用于特征提取網(wǎng)絡(luò),在每一階段進行特征全局交互,但受限于當(dāng)前尺度內(nèi)。為使信息能夠在多尺度之間傳播從而進行語義信息交融,受文獻[29,32]中交叉注意力在Transformer 多尺度特征應(yīng)用上的啟發(fā),本文設(shè)計了交叉尺度注意模塊。
圖8 以第三階段為例展示了交叉尺度注意模塊的細(xì)節(jié),輸入補丁序列x3∈RN3×D3表示當(dāng)前尺度的特征,x1∈RN1×D1、x2∈RN2×D2表示第三階段之前的淺層尺度特征。
圖8 交叉尺度注意模塊Fig.8 Cross-scale attention module
空間注意力機制首先通過Avgpool 層和Maxpool 層分別對輸入特征f3在通道域上進行池化操作后再拼接在一起,得到大小為的特征圖,再通過一個3×3 的卷積將其壓縮為單通道,然后通過Sigmoid 激活函數(shù)歸一化空間權(quán)重信息,得到空間注意力權(quán)重圖Ms,最后將輸入特征圖f3和權(quán)重圖Ms對應(yīng)元素相乘。為消除2 個分支之間特征的錯位,在f3經(jīng)過空間注意力模塊后,通過一個1×1 的卷積將通道降維到D3大小,再經(jīng)過線性映射模塊將每一通道內(nèi)元素展開為一維序列,得到與Transformer分支一致的補丁序列,然后通過一個LayerNorm 層對齊特征值,最后與t3經(jīng)過對應(yīng)元素相加得到耦合后的特征x3。第一、二階段經(jīng)過耦合后的特征x1、x2獲得方式與第一階段相同,特征耦合模塊的運算過程如式(3)、式(4)所示:
其中:δ(·)表示Sigmoid 激活函數(shù);C3×3和C1×1分別表示3×3 和1×1 大小卷積核的卷積層;[·]表示通道域串聯(lián)特征圖操作;Ms(·)表示注意權(quán)重圖;ρ(·)表示線性映射;Norm(·)表示歸一化層。
其中:ρ(·)表示線性映射;Avgpool(·)表示空間維度上的平均池化層;[·]表示通道域串聯(lián)特征圖操作;C1×1表示1×1 卷積;σ(·)表示反線性映射;CA(·)表示交叉注意力;Norm(·) 表示線性歸一化層;MLP(·)表示多層感知器。第二階段的跨尺度交互模塊得到特征x2*∈RN2×D2的方式與第三階段類似,變化在于淺層尺度特征僅有x1。
為得到更精確的重建輸入圖像,本文采用像素?fù)p失和結(jié)構(gòu)損失來訓(xùn)練編碼器-解碼器網(wǎng)絡(luò),損失函數(shù)如式(8)所示:
其中:Lpix、Lssim分別表示像素?fù)p失和結(jié)構(gòu)損失;λ用來表示加權(quán)組合。
Lpix通過對比2 幅圖像相同位置像素點值的差異來進行訓(xùn)練,計算公式如下:
其中:Iin表示輸入圖像;Iout表示輸出圖像;i、j分別表示圖像的像素點坐標(biāo)。
Lssim通過對比輸入圖像與輸出圖像的結(jié)構(gòu)相似度來進行梯度優(yōu)化,計算公式如下:
其中:SSIM 函數(shù)表示2 幅圖像的結(jié)構(gòu)相似度。
由于像素?fù)p失與結(jié)構(gòu)損失之間存在較大的差異值,因此使用λ來平衡兩者的權(quán)重。
本文的融合模塊采用文獻[8]中提出的L1-Norm融合規(guī)則,該規(guī)則可以根據(jù)特征圖中的區(qū)域能量,自適應(yīng)地突出和保留融合特征圖中的關(guān)鍵特征信息。L1-Norm 融合規(guī)則的計算步驟如下:
1)利用L1 范數(shù)計算出每個特征圖的初始活動水平Ci,計算過程如式(11)所示:
其中:M表示特 征圖f的通道數(shù);‖ · ‖1表示第一范數(shù)。
2)利用基于區(qū)域塊的平均算子,通過式(12)計算特征圖的最后活動水平Ci':
其中:r表示區(qū)域塊的大小,取值為1。
3)通過活動水平Ci' 計算每個原始特征圖的通道權(quán)重wi并進行融合,得到新的特征圖fm:
本文提出一種基于局部全局特征耦合與交叉尺度注意的多模態(tài)醫(yī)學(xué)圖像融合方法,設(shè)計一個具有局部全局和多尺度的圖像特征提取能力的編碼器網(wǎng)絡(luò),并基于該編碼器來提取醫(yī)學(xué)圖像特征用于融合。本文融合方法的整體流程如圖9 所示。
圖9 本文圖像融合方法流程Fig.9 Procedure of the proposed image fusion method
本文圖像融合方法分為訓(xùn)練階段和融合階段,具體過程如下:
1)訓(xùn)練階段
輸入單張醫(yī)學(xué)圖像(CT 或MR)
輸出原始輸入圖像
(1)構(gòu)建編碼器網(wǎng)絡(luò):根據(jù)殘差網(wǎng)絡(luò)ResNet-18 構(gòu)建CNN分支,利用VIT中的原始Transformer模塊和PVT中的漸進采樣策略搭建多尺度的Transformer網(wǎng)絡(luò)分支,將特征耦合模塊插入雙分支網(wǎng)絡(luò)的每一階段末,然后將交叉尺度注意模塊插入Transformer網(wǎng)絡(luò)中每一階段經(jīng)過特征耦合模塊嵌入局部特征后的位置。
(2)構(gòu)建解碼網(wǎng)絡(luò):根據(jù)基礎(chǔ)殘差卷積塊構(gòu)建解碼器網(wǎng)絡(luò),輸入原始圖像,將編碼器中的多尺度特征進行拼接作為解碼器的輸入。
(3)構(gòu)建編碼器-解碼器網(wǎng)絡(luò):根據(jù)像素?fù)p失和結(jié)構(gòu)損失訓(xùn)練編碼-解碼網(wǎng)絡(luò)權(quán)重
2)融合階段
輸入配準(zhǔn)好的成對醫(yī)學(xué)圖像(ICT,IMR)
輸出融合圖像If
(1)利用訓(xùn)練好的編碼器分別提取輸入圖像ICT、IMR的特征fCT、fMR。
(2)根據(jù)L1-Norm 融合規(guī)則得到fCT、fMR融合后的特征fm。
(3)將特征fm作為訓(xùn)練好的解碼器輸入,得到融合圖像If。
本文實驗的訓(xùn)練數(shù)據(jù)集來自于山西省生物醫(yī)學(xué)成像與影像大數(shù)據(jù)重點實驗室,包括10 000 幅腦部醫(yī)學(xué)圖像,其中腦部CT 圖像和MR 圖像各占一半。本文采用了翻轉(zhuǎn)、隨機旋轉(zhuǎn)2 種方法對數(shù)據(jù)集進行擴充,然后用擴充后的數(shù)據(jù)集來訓(xùn)練編碼器-解碼器網(wǎng)絡(luò),所有的圖像均為256×256 像素的灰度圖像。此外,從哈佛醫(yī)學(xué)院數(shù)據(jù)集中選取20 對經(jīng)過配準(zhǔn)后的CT、MR 圖像作為測試數(shù)據(jù)集來評估本文方法,并與其他不同類型的圖像融合方法進行比較。
在本文實驗中,編碼器-解碼器網(wǎng)絡(luò)采用NVIDIAGTX3090GPU 服務(wù)器進行訓(xùn)練,實驗環(huán)境為PyTorch 3.7.0,訓(xùn)練時Batchsize 設(shè)置為64,訓(xùn)練80 個epoch。選擇學(xué)習(xí)速率為1e-4 的Adam 優(yōu)化器,根據(jù)DenseFuse[8]的對比實驗結(jié)果,λ設(shè)置為1 000。
為驗證本文方法的性能,選取以下5 種先進的多模態(tài)醫(yī)學(xué)圖像融合方法進行對比,從定性與定量2 個方面評價本文方法的有效性。
1)傳統(tǒng)融合方法:基于局部拉普拉斯濾波域的圖像融合CBF[33],基于非下采樣脈沖變換域中的參數(shù)自適應(yīng)脈沖耦合神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像融合方法PAPCNN[34]。
2)基于深度學(xué)習(xí)的融合方法:基于卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像融合方法IFCNN,基于DenseNet 的圖像融合方法DenseFuse,基于GAN的圖像融合方法U2Fusion。
3.2.1 主觀評價
本文方法與上述5 種對比方法的融合結(jié)果圖如圖10 所示??梢钥闯觯篊BF 結(jié)果圖中對比度和清晰度較低,融合結(jié)果比較模糊,病灶部位輪廓顯示不清;PAPCNN 方法融合的圖像中有嚴(yán)重的偽影和噪聲,細(xì)節(jié)丟失嚴(yán)重,影響醫(yī)生對疾病信息的識別與分類;IFCNN 增強了邊緣和細(xì)節(jié)信息,但融合圖像未能保持適當(dāng)?shù)牧炼?,骨骼信息模糊;DenseFuse 融合方法雖然增強了對比度,但圖像亮度過高影響視覺效果,且包含一定的噪聲;U2Fusion 融合結(jié)果對比度較低,在腦梗和腦血管疾病中丟失了一定的紋理信息;相比之下,本文方法保留了最佳的紋理和軟組織細(xì)節(jié)信息,同時顯示了較好的對比度和骨骼信息,視覺效果最好,能夠方便醫(yī)生觀察。
圖10 融合效果對比Fig.10 Comparison of fusion effect
3.2.2 客觀評價
本文實驗采用測試數(shù)據(jù)集的20 組CT 和MR 圖像,利用對比的5 種融合方法以及本文方法生成融合圖像。為客觀地評價本文方法與5 種對比方法的優(yōu)劣,根據(jù)文獻[35]圖像融合基準(zhǔn),選取以下5 種指標(biāo)進行比較:基于信息論的評價指標(biāo)FMI,基于圖像特征的評價指標(biāo)空間頻率SF,邊緣信息傳遞因子QAB/F,基于圖像結(jié)構(gòu)相似度的評價指標(biāo)SSIM,基于人類感知啟發(fā)的指標(biāo)QCB。表1 列出了不同融合方法在不同客觀指標(biāo)上的平均值,其中加粗表示最優(yōu)值。由表1 可以看出,本文融合方法的指標(biāo)除SF 以外其余均為最高值。
表1 不同融合方法的客觀評價指標(biāo)均值Table 1 Mean value of objective evaluation index by different fusion methods
特征互信息指標(biāo)FMI 是對源圖像與融合圖像之間相互依賴性的度量,結(jié)果越高,表明融合圖像包含源圖像的信息越多;空間頻率SF 通過圖像灰度的變化率來表示融合圖像的清晰度;邊緣信息傳遞因子QAB/F通過梯度的度量來判斷融合圖像的邊緣信息;結(jié)構(gòu)相似度SSIM 的值反映了融合圖像保留原始圖像結(jié)構(gòu)的程度;QCB是綜合了圖像不同局部區(qū)域的對比度顯著性信息表示的全局質(zhì)量度量指標(biāo)。以上指標(biāo)均是值越大,表示融合效果越好。由此可見,本文融合方法性能總體優(yōu)于其他5 種對比方法。
針對于全局局部特征耦合以及交叉尺度注意模塊在特征提取方面的作用,設(shè)計兩種消融實驗方法來進行比對:
實驗方法1:在編碼器網(wǎng)絡(luò)中去除Transformer網(wǎng)絡(luò)分支和特征耦合模塊,僅采用CNN 分支和交叉尺度注意進行特征提取,用來驗證全局特征對圖像融合中的影響。
實驗方法2:在編碼器網(wǎng)絡(luò)中去除交叉尺度注意模塊,僅使用雙分支網(wǎng)絡(luò)來提取圖像的多尺度特征,用來驗證跨尺度特征交互對圖像融合的影響。
消融實驗?zāi)P团c本文方法在多組醫(yī)學(xué)圖像融合上的效果對比如圖11 所示,表2 列出了客觀評價指標(biāo)的平均值,其中加粗表示最優(yōu)值。可以明顯看到:實驗方法1 融合得到的圖像整體對比度較差,輪廓信息不明顯,且在腦梗和腦中風(fēng)疾病的融合圖像中丟失了一定的邊緣信息;實驗方法2 的融合圖像表現(xiàn)較好,但從表2 所示的客觀指標(biāo)結(jié)果來看,實驗方法2 不如完整的本文方法;從客觀指標(biāo)SSIM 和QCB來看,本文方法相對實驗方法1 具有較大的提升,這說明Transformer 網(wǎng)絡(luò)在圖像的結(jié)構(gòu)特征和全局特征提取上發(fā)揮了良好的作用。
表2 消融實驗客觀評價指標(biāo)均值Table 2 Mean value of objective evaluation index in ablation experiment
圖11 消融實驗結(jié)果比較Fig.11 Result comparison of ablation experiment
采用卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)醫(yī)學(xué)圖像融合方法存在全局特征提取能力不足的問題。對此,本文提出一種基于全局局部特征耦合和交叉尺度注意的多模態(tài)醫(yī)學(xué)圖像融合方法。利用特征耦合模塊結(jié)合CNN分支和Transformer 分支的互補特征,用來提取圖像的局部與全局信息,增強視覺表示能力,同時引入交叉尺度注意有效學(xué)習(xí)Transformer 多尺度特征。在此基礎(chǔ)上,利用提取圖像的全局、局部以及多尺度特征表示融合醫(yī)學(xué)圖像。實驗結(jié)果表明,Transformer 提取的全局特征在圖像融合中起到了良好的效果,融合圖像結(jié)構(gòu)清晰且紋理細(xì)節(jié)豐富。后續(xù)將針對Transformer 網(wǎng)絡(luò)本身存在的計算量大、訓(xùn)練數(shù)據(jù)需求量高、參數(shù)量多等問題進行改進,設(shè)計一種輕量級可有效結(jié)合CNN 與Transformer 的特征提取網(wǎng)絡(luò),并加入醫(yī)學(xué)圖像融合所需要的先驗知識來指導(dǎo)訓(xùn)練過程以降低網(wǎng)絡(luò)能耗,進一步提升融合圖像的質(zhì)量。