王麗芳,米嘉,秦品樂,藺素珍,高媛,劉陽
中北大學大數(shù)據(jù)學院山西省生物醫(yī)學成像與影像大數(shù)據(jù)重點實驗室,太原 030051
隨著現(xiàn)代醫(yī)學成像技術的發(fā)展,出現(xiàn)了不同模態(tài)的成像方式,單一模態(tài)的醫(yī)學圖像對于細節(jié)的表征具有局限性。針對單模態(tài)圖像的局限性,臨床上將多種模態(tài)的醫(yī)學圖像進行融合,可以在保留原始圖像特征的同時(Gai等,2019),彌補單模態(tài)醫(yī)學圖像的缺陷,展示豐富的細節(jié)信息(Veshki等,2021),利于醫(yī)生對疾病準確地診斷和治療。醫(yī)學圖像中含有大量能反映病灶情況(Nour等,2020)的深層特征和細節(jié)信息,然而這些深層特征卻難以捕捉,而且從單模態(tài)圖像提取特征后再融合,容易丟失融合圖像信息完整性(藺素珍和韓澤,2017),因此,利用當前模態(tài)和其他模態(tài)特征之間的關系來提取融合所需的深層特征(Mbilinyi和Schuldt,2020),對于多模態(tài)醫(yī)學圖像融合來說非常重要。
傳統(tǒng)的圖像融合方法很難表征融合圖像中病變區(qū)域的深層特征。例如,基于空間域的融合方法會引起融合圖像的光譜和空間失真(Maqsood和Javed,2020);基于變換域融合方法會使圖像具有塊效應(Yan等,2021)。深度學習在圖像融合領域發(fā)展迅速,卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)作為其重要分支,具有強大的提取特征能力(Jung等,2020;Zhang等,2020b;Nikolaev等,2021)。Liu等人(2017)利用卷積神經(jīng)網(wǎng)絡對聚焦區(qū)域進行分類后,生成多聚焦融合圖像。但存在融合圖像部分信息丟失的問題。Zhang等人(2020a)為避免信息丟失提出了全卷積神經(jīng)網(wǎng)絡的圖像融合框架(image fusion based on convolutional ceural cetwork,IFCNN),引入了級聯(lián)的邊界感知卷積網(wǎng)絡,但因其卷積核設置單一,導致了深層特征提取困難。Pan等人(2021)提出密集連接網(wǎng)絡結構(DenseNetFuse),編碼部分采用殘差密集連接的方式連接密集塊,但此結構僅能提取單一尺度上的特征。
生成對抗網(wǎng)絡(generative adversarial network,GAN)作為深度學習的另一分支,廣泛應用于圖像融合領域(Kurakin等,2018;Liu等,2018;Wang等,2021)。Ma等人(2019)提出基于GAN的紅外與可見光圖像融合框架FusionGAN(fusion generative adversarial network),通過紅外熱輻射信息和可見光紋理信息之間的博弈,突出了圖像關鍵信息。然而,F(xiàn)usionGAN僅有一個鑒別器,所以融合結果存在過于關注可見光圖像信息而紅外圖像信息部分丟失的問題。Ma等人(2020)為避免融合圖像對源圖像關注度分配不均,提出了基于雙鑒別器的生成對抗網(wǎng)絡框架DDcGAN(dual discriminator generation adversative network),利用雙鑒別器分別對兩幅源圖像訓練,但其損失函數(shù)僅計算了像素損失,不利于充分提取圖像的深層特征。Yang等人(2021)提出的GANFuse在DDcGAN的基礎上引入梯度損失,將兩種損失的加權求和作為損失函數(shù),進一步提升了融合性能。然而,上述方法對于圖像深層特征的提取及表征方面依然有所欠缺。
綜上,針對目前多模態(tài)醫(yī)學圖像融合方法深層特征提取能力不足,部分模態(tài)特征被忽略的問題,本文提出了基于改進的U-Net3+與跨模態(tài)注意力塊的雙鑒別器生成對抗網(wǎng)絡(U-Net3+ and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN),其生成器利用5層的U-Net3+實現(xiàn)了全尺度的特征提取,僅用很少的參數(shù)提取得到深層特征,提升了深層特征提取能力;跨模態(tài)注意力塊嵌入到U-Net3+的各層下采樣路徑上,將深層特征的提取擴展到不同模態(tài)之間,保留了各模態(tài)豐富的細節(jié)信息,有效防止關鍵信息被忽略。雙鑒別器將梯度損失引入到損失函數(shù)的計算中,提升了融合性能。訓練后,UC-DDGAN可生成包含豐富深層特征的融合圖像。
U-Net3+(Huang等,2020)是一種由U-Net(Ronneberger等,2015;Qin等,2020)和U-Net++(Zhou等,2018)改進得到的可以有效提取深層特征的網(wǎng)絡框架(Xiao等,2021;Xiong等,2021),其將特征提取的范圍擴展到全尺度,捕獲了全尺度下的粗細粒度語義。
Song等人(2021)針對雙模態(tài)圖像融合和配準時兩模態(tài)復合特征提取困難的問題,基于非局部注意力機制(Wang等,2017)提出了跨模態(tài)注意力機制。不同于非局部注意力機制只在單一圖像上計算自我注意力,跨模態(tài)注意力機制將注意力的計算擴展到了兩個模態(tài),保留了融合圖像信息的完整性,使更多的源圖像細節(jié)特征得到表征,跨模態(tài)注意力(cross-modal attention)機制原理如圖1所示。
圖1 跨模態(tài)注意力機制原理Fig.1 Principle of cross-modal attention mechanism
跨模態(tài)輸入特征圖C經(jīng)過線性映射函數(shù)θ(·)處理得到特征θ(C),主輸入特征圖P分別經(jīng)過線性映射φ(·)和g(·)處理得到特征φ(P)和g(P);轉置后的θ(C)和φ(P)進行矩陣點乘,得到兩輸入的特征相關性矩陣R,即P局部位置特征與C全局位置特征的關系矩陣;對R進行歸一化操作,得到0-1權重,用做跨模態(tài)注意力系數(shù);最后將跨模態(tài)注意力系數(shù)對應與特征矩陣g(P)進行矩陣點乘,得到跨模態(tài)注意力特征圖F。
DDcGAN針對不同分布的源圖像設置了兩個鑒別器,進行針對性鑒別,如圖2所示。
圖2 DDcGAN網(wǎng)絡結構Fig.2 DDcGAN network structure
DDcGAN包含一個生成器(G)和兩個鑒別器(D1、D2),生成器由編碼、融合和解碼3部分組成,其中編碼部分的任務是特征提取、融合,解碼部分的任務是特征融合;鑒別器的任務是分別鑒別對應源圖像,以此訓練生成器。DDcGAN的輸入是源圖像1和源圖像2,編碼部分首先采用包含3×3濾波器的卷積層提取同一尺度的粗糙特征,然后采用3個包含同一尺度卷積層的DenseBlock(Cai等,2021)來保留兩幅源圖像同一尺度的具體特征;融合部分利用注意力機制對提取到的兩幅特征圖進行融合,融合部分的輸出將作為解碼部分的輸入;解碼部分采用4個包含3×3濾波器的卷積層對拼接后的特征圖進行解碼。兩個鑒別器結構相同,先經(jīng)過卷積操作和激活函數(shù),再經(jīng)全連接層扁平化數(shù)據(jù)和激活函數(shù)tanh計算概率,得到鑒別結果。DDcGAN的訓練過程與GAN類似,生成器的性能在生成器和鑒別器的對抗中不斷提升。DDcGAN的特征融合部分采用注意力機制,可以保留更多兩模態(tài)關鍵信息,但其特征融合部分也存在僅可在單尺度上提取特征以及深層特征提取能力弱的問題。
UC-DDGAN包含一個生成器G和兩個鑒別器(Dc、Dm),網(wǎng)絡結構如圖3所示。生成器負責生成融合圖像,鑒別器用來區(qū)分源圖像和融合圖像。生成器生成融合圖像分兩階段進行:特征提取和特征融合。以CT(computed tomography)和MR(magnetic resonance imaging)的融合為例,特征提取部分提取CT與MR圖像的深層特征,特征融合部分融合提取到的深層特征,經(jīng)過通道降維和卷積操作后,生成融合圖像。在鑒別器區(qū)分源圖像和融合圖像時,將梯度損失引入到損失函數(shù)中,提升生成器生成圖像的性能。
鑒于GAN的生成器未提取到足夠多包含兩模態(tài)信息的深層細節(jié),UC-DDGAN引入了U-Net3+網(wǎng)絡和跨模態(tài)注意力塊進行深層特征提取。U-Net3+可以在單模態(tài)上對深層特征進行全尺度范圍的提取和融合;跨模態(tài)注意力塊可以根據(jù)當前模態(tài)圖像特征和待融合的另一模態(tài)圖像特征之間的相關性,生成具有兩模態(tài)信息的復合特征圖。
2.1.1 基于U-Net3+的深層特征提取
U-Net3+分為兩個階段:編碼階段和解碼階段,如圖4所示。編碼階段對輸入圖像進行4次逐層下采樣提取特征,解碼階段對各層解碼結果進行整合并上采樣,最后經(jīng)過1×1的卷積進行通道降維,完成特征提取,輸出特征圖。圖4中,同一虛線框中的兩個卷積模塊為同一層卷積模塊,其中前一個表示編碼器,后一個表示解碼器(Conv5既為編碼器又為解碼器),每一層編碼器和解碼器的結構都一樣,其參數(shù)設置與在ImageNet上訓練的ResNet50(He等,2016)一致。
圖3 UC-DDGAN網(wǎng)絡結構Fig.3 UC-DDGAN network structure
圖4 U-Net3+網(wǎng)絡結構Fig.4 U-Net3+ network structure
U-Net3+中的Conv4解碼器構建輸出特征圖的過程如圖5所示,其他尺度解碼器構建輸出特征圖的過程與其類似。
圖5 U-Net3+中Conv4解碼器輸出特征圖的構建過程Fig.5 Construction process of Conv4 in U-Net3+ decoder output feature map at all scales
(1)
式(1)表示當編碼器和解碼器來自同一尺度時(即Conv5,該層的編碼器也可作為解碼器使用),解碼器的輸出特征圖等于編碼器的輸入特征圖;當編碼器和解碼器來自不同尺度時,編碼器的輸出特征圖等于編碼器輸入特征圖的疊加,但這些特征圖在疊加前需要分別經(jīng)過上下采樣及卷積操作。i表示不同尺度的層數(shù),XEn表示經(jīng)過編碼器得到的特征圖,C(·)表示卷積運算,D(·)和U(·)分別表示下采樣和上采樣操作,H(·)表示通道疊加的函數(shù),[·]表示串聯(lián)操作,Scale表示特征圖的尺度。最后,Conv1的輸出特征圖再經(jīng)過64個1×1的濾波器進行通道降維,輸出全尺度特征圖。
2.1.2 基于跨模態(tài)注意力塊的特征相關性增強
UC-DDGAN的特征提取部分將跨模態(tài)注意力塊嵌入U-Net3+提取源圖像CT和MR的深層特征。生成器特征提取部分如圖6所示。
圖6 UC-DDGAN生成器內部結構Fig.6 UC-DDGAN generator internal structure
xi=Z([P(ci),C(mi)]),i≤4
(2)
yi=Z([P(mi),C(ci)]),i≤4
(3)
式中,ci、mi分別表示CT、MR路徑第i層編碼器的輸出特征,P(·)表示主模態(tài)輸入的運算函數(shù),C(·)表示跨模態(tài)輸入的運算函數(shù),Z(·)表示跨模態(tài)注意力塊內部先矩陣點乘再將對應元素逐個相乘的函數(shù),[,]表示串聯(lián)操作。
圖7 跨模態(tài)注意力塊在U-Net3+中的連接方式Fig.7 Cross-modal attention block connection in U-Net3+
跨模態(tài)注意力塊的內部結構如圖8所示。C、P分別表示跨模態(tài)路徑和主模態(tài)路徑輸入的特征圖(C∈RT×W×H×64、P∈RT×W×H×64),T、H和W分別表示特征圖的批量數(shù)、高度和寬度,64是特征圖通道數(shù)。首先,C、P經(jīng)過通道降維及線性變換函數(shù)θ(·)、φ(·)處理,得到θ(C)、φ(P)兩種特征表示(θ(C)∈RT×W×H×32、φ(P)∈RT×W×H×32),然后對θ(C)、φ(P)進行reshape操作,合并T、H和W維度(θ(C)∈RT×W×H×32、φ(P)∈RT×W×H×32)。再將θ(C)的轉置與φ(P)進行矩陣點乘,得到包含主模態(tài)各像素與跨模態(tài)各像素相關性的特征圖F(F∈RT×W×H×32),然后對F進行softmax操作,實現(xiàn)相關性的歸一化。P除了經(jīng)過線性變換函數(shù)θ(·)處理,還經(jīng)過線性變換g(·),得到特征表示g(P)∈RT×W×H×32),對得到的g(P)進行reshape操作,合并T、H以及W維度(g(P)∈RT×W×H×32)。F經(jīng)過歸一化操作后與合并T、H和W維度的g(P)進行矩陣點乘,得到Q∈RT×W×H×32,Q表示經(jīng)跨模態(tài)注意力機制調整后的殘差矩陣。然后Q經(jīng)過1×1×1卷積,恢復T、H和W維度,表示為Y∈RT×W×H×64。最后,Y與P做殘差運算,得到跨模態(tài)注意力塊的輸出Z∈RT×W×H×64。跨模態(tài)注意力塊得到的特征圖計算式為
(4)
式中,ci是跨模態(tài)輸入特征圖中i位置的特征,pj是主模態(tài)輸入特征圖中所有與ci有關的特征,j表示特征pj在跨模態(tài)輸入中的位置。θ(ci)、φ(pj)分別是ci、pj在經(jīng)過Embedded Gaussian(Benet等,2001)中的兩個嵌入權重變換Wθ、Wφ之后得到的特征圖,g(pj)是pj經(jīng)過線性變換得到的特征圖,f(·)是用于計算ci、pj相關性的函數(shù)。yi是累加了跨模態(tài)輸入中所有與主輸入i位置上特征相關的特征后得到的復合特征圖i位置的特征。
圖8 跨模態(tài)注意力塊內部結構Fig.8 Internal structure of cross-modal attention block
跨模態(tài)注意力塊嵌入U-Net3+構成UC-DDGAN生成器特征提取部分,可以增加CT圖像和MR圖像的信息交互,使CT圖像的骨骼信息和MR圖像的軟組織初步融合。該特征提取方式能促進特征學習、改善梯度流動和增加隱式深度監(jiān)督。各層編碼器、解碼器卷積參數(shù)如表1所示。
表1 U-Net3+各層編碼器、解碼器卷積參數(shù)Table 1 Convolution parameters of U-Net3+ encoders and decoders at each layer
特征融合分為融合和解碼兩部分,如圖9所示。融合部分由一個Concat層構成(Song等,2018),解碼部分由5個卷積模塊組成,該卷積模塊利用若干個3×3的濾波器來壓縮通道數(shù)(各層濾波器數(shù)如圖中n所示),通過批量歸一化層(batch normaligation,BN)來緩解梯度爆炸,ReLU激活函數(shù)加快訓練速度。特征提取部分得到尺寸為128×128×320的CT、MR深層特征圖,依次經(jīng)過Concat層拼接,再經(jīng)過濾波器分別為128、64、32、16、1這5個卷積模塊逐層進行通道降維,將尺寸為128×128×320的CT、MR深層特征圖壓縮成尺寸為128×128×1深層細節(jié)豐富且充分表征兩模態(tài)關鍵特征的融合圖像。
圖9 特征融合部分網(wǎng)絡結構Fig.9 Partial network structure of feature fusion
UC-DDGAN設計了具有相同網(wǎng)絡結構的兩個鑒別器,其結構如圖10所示。真實圖像與融合圖像依次經(jīng)過4個卷積模塊:由16個3×3的濾波器和ReLU激活函數(shù)層構成的第1層卷積模塊;32個3×3的濾波器、批量歸一化層、ReLU激活函數(shù)層構成的第2層卷積模塊;64個3×3的濾波器、批量歸一化層、ReLU激活函數(shù)層構成的第3層卷積模塊(步幅為2,填充為0);最后經(jīng)過全連接層(fully connected,FC)將數(shù)據(jù)扁平化,在最后一層,利用tanh激活函數(shù)作為評估器,得出輸入圖像是真實圖像的概率。
圖10 鑒別器網(wǎng)絡結構Fig.10 Discriminator network structure
UC-DDGAN是基于雙鑒別器的生成對抗網(wǎng)絡,因此要用損失函數(shù)分別優(yōu)化一個生成器、兩個鑒別器,通過對各部分損失加權來提升融合性能,保留更多源圖像特征。為進一步保留源圖像的深層特征,UC-DDGAN的損失函數(shù)在前人基礎上引入了梯度損失,并通過加權的方式將二者結合起來用于生成器的訓練。
UC-DDGAN的損失函數(shù)由生成器損失LG和兩個鑒別器損失LDc、LDm組成。生成器的損失函數(shù)LG由CT圖像的損失LC和MR圖像的損失LM加權相加,計算為
LG=LC+δLM
(5)
(6)
(7)
(8)
式中,Dc(|If-Ic|)代表Dc的正確率,因此在Dc(|If-Ic|)前面設置一個負號,表示減去判定正確的部分。
LG的第2項LM表示MR圖像的損失,定義與LC類似,計算式分別為
(9)
(10)
(11)
Dc和Dm的損失函數(shù)LDc、LDm計算式為
(12)
(13)
式中,Dc(|If-Im|)和Dm(|If-Ic|)分別代表Dc和Dm的錯誤率。因為鑒別器損失表示鑒別失敗的概率,所以LDc、LDm用Dc和Dm的錯誤率分別減去其正確率來表示。隨著G與Dc和Dm的對抗訓練不斷進行,G與Dc和Dm達到納什平衡(Ratliff等,2013),LDc、LDm和LG達到最優(yōu)值,訓練完成。
在訓練階段,利用訓練集數(shù)據(jù)分別對生成器G和鑒別器Dc、Dm進行對抗訓練。首先固定G訓練Dc、Dm,之后再固定Dc、Dm訓練G,接著循環(huán)訓練,來提高G生成融合圖像的能力以及Dc、Dm鑒別出G生成的圖像與真實CT、MR圖像差別的能力,直至G生成的圖像足以通過Dc、Dm的鑒別即可停止。此時,將測試集數(shù)據(jù)輸入到G中,得到最終融合結果。在測試階段,使用經(jīng)過訓練的生成器來生成融合圖像。UC-DDGAN算法的詳細訓練步驟為:
參數(shù)描述:IG、IDc和IDm分別表示訓練G、Dc和Dm的訓練次數(shù),Imax是訓練UC-DDGAN的最大次數(shù),在本實驗中,Imax=20;Lmax、Lmin和LGmax表示生成器訓練完成時的損失范圍;Lmax和Lmin用于G、Dc和Dm的對抗損失的優(yōu)化,LGmax用于G總體損失的優(yōu)化;
在實驗的第1批次中,Lmax=0.065,Lmin=0.055,LGmax=0.2;Dc和Dm的初始化參數(shù)為θDc和θDm,G的初始化參數(shù)為θG,在每次的訓練迭代中:
1)訓練鑒別器Dc和Dm。
s個CT圖像樣本{c1,…,cs}和s個MR圖像樣本{m1,…,ms};
生成器獲取到待生成數(shù)據(jù){G(c1,m1),…,G(cs,ms)};
在Adam優(yōu)化器優(yōu)化LDc(式(12))更新θDc;
在Adam優(yōu)化器優(yōu)化LDm(式(13))更新θDm;
如果LDc>Lmax并且LDm IDc=IDc+1; 如果LDm>Lmax并且LDc IDm=IDm+1。 2)訓練生成器G。 s個CT圖像樣本{c1,…,cs}和s個MR圖像樣本{m1、…、ms}; 生成器獲取到待生成數(shù)據(jù){G(c1,m1),…,G(cs,ms)}; 在SGD(stochastic gradient descent)優(yōu)化器優(yōu)化LG(式(5))的過程中更新θG; IG=IG+1; IG=IG+1; 如果LDc>Lmax并且LDm IG=IG+1。 實驗數(shù)據(jù)集來自美國哈佛醫(yī)學院(http:// www.med.harvard.edu)、山西省生物醫(yī)學成像與影像大數(shù)據(jù)重點實驗室。實驗從其開源的常見腦部疾病圖像數(shù)據(jù)集中選取了500對具有清晰腦部紋理、豐富細節(jié)特征的高質量CT和MR圖像作為數(shù)據(jù)集。數(shù)據(jù)集分為訓練集和測試集,其中包括400對用于網(wǎng)絡訓練的訓練集圖像和100對用于測試網(wǎng)絡泛化性能的測試集圖像。為避免因數(shù)據(jù)集較小而導致的網(wǎng)絡模型過擬合,采用Albumentations(Buslaev等,2020)對訓練集數(shù)據(jù)進行擴充,將MR和對應CT圖像調整到256×256像素,進行0°旋轉、90°旋轉、180°旋轉、270°旋轉、水平翻轉、垂直翻轉,再在上述6種變換的基礎上分別進行隨機亮度、彈性變換 2種操作,獲得6×2=12倍的數(shù)據(jù),即4 800對圖像進行訓練。 實驗的硬件平臺:CPU為i7-11700,內存16 GB;GPU為RTX 3060Ti 8 GB GDR6;軟件平臺:操作系統(tǒng)為64位的Windows10;環(huán)境框架為PyTorch;Python版本為3.6.0。 在訓練過程中,UC-DDGAN分別采用Adam優(yōu)化算法(Kingma和Ba,2017)和SGD(Cherry等,1998)促使鑒別損失和生成損失函數(shù)趨向最小來更新網(wǎng)絡的參數(shù)。本文網(wǎng)絡的參數(shù)設置為:初始學習率2E-4,動量參數(shù)為0.9,權重衰減為5E-2。為降低GPU顯存對訓練的影響,訓練采用mini-batch的方式進行(王麗芳 等,2020),batch-size設置為40,epoch設置為200,迭代次數(shù)為4 800/40×200=24 000次(訓練樣本數(shù)4 800,batch-size為40,epoch為200)。隨著迭代次數(shù)的增加,生成器損失LG和兩個鑒別器損失LDc、LDm的變化趨勢如圖11所示。圖11(a) 中,LG曲折下降后趨于平穩(wěn),在0.2附近小幅波動;圖11(b)(c)中,LDc,LDm整體緩慢上升后穩(wěn)定在0.06附近。此外,由圖11可以看出,LG和LDc,LDm無較大波動,說明UC-DDGAN在訓練過程中較為穩(wěn)定。 圖11 損失折線圖Fig.11 Loss line diagram((a) generator G loss;(b) discriminator Dc loss;(c) discriminator Dm loss) 為驗證UC-DDGAN的融合性能,實驗選取基于拉普拉斯金字塔(Laplasian pyramid,LAP)的方法(黃福升和藺素珍,2019)、基于脈沖耦合神經(jīng)網(wǎng)絡(pulse-coupled neural network,PCNN)的方法(Indhumathi等,2021)、基于卷積神經(jīng)網(wǎng)絡(CNN)的方法、基于融合生成對抗網(wǎng)絡(FusionGAN)的方法以及基于雙鑒別器生成對抗網(wǎng)絡(DDcGAN)的方法作為對比方法。 3.3.1 定性結果分析 首先對腦梗、腦中風、腦瘤和腦血管4種腦部疾病的圖像進行了定性比較實驗。融合結果的定性比較如圖12所示。圖中顯示LAP方法得到的融合結果邊緣模糊,不利于醫(yī)生觀察病灶輪廓;PCNN方法得到的融合結果亮度過低,損失掉大量細節(jié)信息;CNN方法得到的融合結果深層細節(jié)表征不夠,觀察不到其內部細節(jié);FusionGAN方法得到的融合結果過分關注MR模態(tài)的圖像,損失了CT圖像的骨骼信息;DDcGAN方法得到的融合結果邊緣不夠平滑;UC-DDGAN方法得到的腦梗疾病融合結果腦部溝壑清晰可見、腦中風疾病融合結果腦組織顏色層次分明、腦瘤疾病融合結果腦髓質及骨骼信息得以充分保留、腦血管疾病融合結果包含有腦葉的深層細節(jié)。綜上,UC-DDGAN的融合效果優(yōu)于其他5種用于對比的融合方法。 3.3.2 客觀評價指標及定量結果分析 為客觀地評價融合效果,實驗選取了5個客觀評價指標:空間頻率(spatial frequency,SF)、結構相似性(structural similarity,SSIM)、邊緣信息傳遞因子(edge information transfer factor,QAB/F)、相關系數(shù)(correlation coefficient,CC)以及差異相關性的和(the sum of the correlations of differences,SCD)評價UC-DDGAN在腦部醫(yī)學圖像數(shù)據(jù)集上的性能。 圖12 本文算法與5種對比算法在CT和MR圖像對上的定性比較結果圖Fig.12 Qualitative comparison results((a)CT resource images;(b) MR resource images; (c) LAP;(d)PCNN; (e) CNN; (f) FusionGAN; (g) DDcGAN;(h) UC-DDGAN(ours)) 其中,SF與融合圖像分辨率成正比,SF指標越高表明融合圖像細節(jié)表征越明顯;SSIM從圖像亮度、對比度和結構方面衡量融合圖像與CT/MR兩幅源圖像的相似性,SSIM值越大,圖像結構完整度越高;邊緣評價因子用于評價邊緣或梯度質量,QAB/F的值越大,融合圖像邊緣信息損失越?。籆C測量融合圖像與CT/MR兩幅源圖像之間的相關性,CC值為正且越大,表示融合圖像與兩幅源圖像的相關性越高;SCD利用另一源圖像和融合圖像之間的差異來描述當前源圖像在融合圖像中的信息,兩幅源圖像在融合圖像中的信息相加得到SCD值。SCD值為正且越大,表示融合圖像與源圖像A的相關性越高。SF、SSIM和QAB/F主要用于評價UC-DDGAN深層特征提取能力;CC、SCD主要用于評價UC-DDGAN保留兩模態(tài)信息的能力。實驗利用上述5個客觀評價指標測試了30對腦部CT和MR圖像,UC-DDGAN的表現(xiàn)均優(yōu)于對比的5種融合方法,UC-DDGAN及5種對比融合方法在SF、SSIM、QAB/F、CC和SCD的測試結果折線圖分別如圖13所示,其中紅色折線表示UC-DDGAN的客觀評價結果,評價結果平均值如表2所示。由表2可知,利用UC-DDGAN進行融合可以獲得各項指標的最大均值。 為了驗證UC-DDGAN中U-Net3+與跨模態(tài)注意力塊保留兩模態(tài)信息及提取深層特征的效果,進行了兩組消融實驗。 實驗1表示不添加U-Net3+和跨模態(tài)注意力塊的圖像融合網(wǎng)絡得到的結果,即DDcGAN;實驗2表示僅添加U-Net3+得到的結果;實驗3表示僅添加跨模態(tài)注意力塊得到的結果;實驗4表示損失函數(shù)中不引入梯度損失的UC-DDGAN效果。定性結果如圖14所示,對比實驗評價結果如表3所示。由表3可知,UC-DDGAN達到了保留兩模態(tài)信息且提取更多深度特征的目的。此外,本實驗還對損失函數(shù)中的梯度損失和像素損失的權重σ的參數(shù)進行了研究。UC-DDGAN的損失函數(shù)權重σ設置為 0.1。實驗5和實驗6的權重σ分別為0.3和0.5,定量結果如表4所示。 表5顯示,當權重σ設置為0.1時獲得的定量結果最優(yōu),因此,實驗權重σ設置為0.1是合理的。 圖13 UC-DDGAN及5種對比融合方法的定量結果Fig.13 Quantitative results of UC-DDGAN and five comparative fusion methods((a)SF;(b)SSIM; (c)QAB/F; (d)CC; (e)SCD) 表2 客觀評價指標平均值Table 2 Average value of objective evaluation indexes 本文提出基于U-Net3+與跨模態(tài)注意力塊的雙鑒別器生成對抗網(wǎng)絡(UC-DDGAN)的醫(yī)學圖像融合方法,解決了目前多模態(tài)醫(yī)學圖像融合方法深層特征提取能力不足、部分模態(tài)特征被忽略的問題。從實驗結果可知,UC-DDGAN在主觀視覺觀察和客觀指標評價方面都有較好的表現(xiàn),將UC-DDGAN應用于多模態(tài)醫(yī)學圖像融合,可以輔助醫(yī)生對病灶部位做出準確地診斷與治療。UC-DDGAN具有以下特點:1)利用U-Net3+網(wǎng)絡,提取到了圖像深層特征,其融合圖像病灶細節(jié)完整且深層特征豐富;2)利用跨模態(tài)注意力塊將深層特征的提取擴展到了不同模態(tài)之間,保留了各模態(tài)豐富的細節(jié)信息;3)雙鑒別器通過在損失函數(shù)中引入梯度損失,更好地訓練生成器生成融合圖像,保留更多源圖像特征。 圖14 UC-DDGAN消融實驗的定性比較結果Fig.14 Qualitative comparison results of UC-DDGAN ablation experiment((a)CT resource images;(b) MR resource images; (c)UC-DDGAN;(d) experiment 1;(e)experiment 2;(f)experiment 3;(g)experiment 4) 表3 對比實驗客觀評價指標Table 3 Objective evaluation indexes of compartive experiments 表4 不同權重對比實驗客觀評價指標Table 4 Objective evaluation indexes of compartive experiments with different weights 但本文算法也存在局限性,仍有較大提升空間,具體表現(xiàn)在:1)生成器網(wǎng)絡較為復雜,存在訓練時間長的問題,后續(xù)工作將致力于降低計算復雜度;2)本文所做改進主要針對的是特征提取部分,針對融合部分設計能夠保留兩模態(tài)信息的網(wǎng)絡模型是今后研究的重點。 下一步工作是改進融合部分網(wǎng)絡結構,提升模型泛化性,可用于其他圖像融合,例如紅外與可見光圖像融合。3 實驗結果與分析
3.1 數(shù)據(jù)集與實驗環(huán)境
3.2 訓練細節(jié)
3.3 對比實驗及分析
3.4 消融實驗
4 結 論