周 濤, 程倩茹*, 張祥祥, 李 琦, 陸惠玲
(1. 北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,寧夏 銀川 750021;2. 寧夏醫(yī)科大學(xué) 醫(yī)學(xué)信息工程學(xué)院,寧夏 銀川 750004;3. 北方民族大學(xué) 圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室,寧夏 銀川 750021)
不同模態(tài)的醫(yī)學(xué)圖像都有其優(yōu)點(diǎn)和局限性,例如,計(jì)算機(jī)斷層掃描(Computed Tomography,CT)圖像具有很高的空間分辨率和幾何特性[1],可以清晰地顯示密集的結(jié)構(gòu)信息,但軟組織的對(duì)比度相對(duì)較低[2],尤其是無(wú)法清楚表示軟組織和浸潤(rùn)性腫瘤的邊界[3];PET(Positron Emission Tomography)圖像對(duì)軟組織、器官、血管等顯示清晰,提供了功能信息,有利于確定病灶范圍,但其空間分辨率不如CT 圖像,對(duì)剛性的骨組織顯示差,并有一定的幾何失真[4]。在臨床實(shí)踐中,單模態(tài)的醫(yī)學(xué)圖像不能完全準(zhǔn)確反映病理組織的信息,醫(yī)生需要檢查同一部位的不同模態(tài)圖像來(lái)診斷病人的病情[5]。醫(yī)學(xué)圖像融合將多模態(tài)圖像中的典型信息和互補(bǔ)信息合并到一個(gè)圖像中,幫助醫(yī)生理解圖像內(nèi)容[6],融合的結(jié)果更有利于人類(lèi)的視覺(jué)感知或機(jī)器的自動(dòng)檢測(cè)[7],為醫(yī)生診斷和治療疾病開(kāi)辟了新的前景[8]。
自2014 年生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[9]提出以來(lái),由于其靈活性和優(yōu)異的性能,在成像領(lǐng)域得到了廣泛應(yīng)用,GAN 在圖像融合任務(wù)中有網(wǎng)絡(luò)靈活性強(qiáng)、對(duì)外部條件依賴(lài)性弱、能夠自主優(yōu)化融合圖像質(zhì)量等優(yōu)勢(shì)。按照網(wǎng)絡(luò)結(jié)構(gòu),基于GAN 的圖像融合方法可以分為三種:傳統(tǒng)GAN 的圖像融合方法,雙鑒別器GAN 的圖像融合方法,多生成器多鑒別器GAN 的圖像融合方法。Fusion GAN[10],F(xiàn)LGC-Fusion GAN[11]和文獻(xiàn)[12]都是基于傳統(tǒng)GAN 的圖像融合方法,將拼接后的源圖像作為生成器的輸入,并生成同時(shí)保留兩幅源圖像信息的融合圖像,但是這些方法將融合圖像與單個(gè)模態(tài)的源圖像作為鑒別器的輸入,導(dǎo)致融合結(jié)果更傾向于保留某一個(gè)模態(tài)的特征信息;D2WGAN[13],DDcGAN[14]和DFPGAN[15]是基于雙鑒別器GAN 的圖像融合方法,采用兩個(gè)獨(dú)立的鑒別器分別計(jì)算融合圖像與兩幅源圖像的結(jié)構(gòu)差異,這樣能夠使融合圖像更多地保留多源特征信息,但這些方法都以通道拼接的源圖像作為生成器網(wǎng)絡(luò)的輸入,以相同的方式對(duì)不同模態(tài)的圖像進(jìn)行處理,然而簡(jiǎn)單的拼接不能有效地利用多模態(tài)圖像的信息,網(wǎng)絡(luò)只能學(xué)習(xí)圖像語(yǔ)義層次之間的一種關(guān)系,從而限制了模型的性能;MGMDc-GAN[16]和RCGAN[17]是基于多生成器多鑒別器GAN 的圖像融合方法,這些模型中包含多組GAN,可以充分獲取不同模態(tài)源圖像中的信息,提高融合圖像的質(zhì)量,但由于多個(gè)GAN 的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量大,導(dǎo)致在訓(xùn)練過(guò)程中非常耗時(shí)。
多生成器多鑒別器GAN 充分地考慮了不同模態(tài)圖像的差異性與互補(bǔ)性,在圖像融合任務(wù)中取得了良好的效果,但還存在以下問(wèn)題:多生成器或多鑒別器之間的關(guān)聯(lián)性較弱,導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定;基于GAN 的圖像融合方法大多都以CNN 為基本結(jié)構(gòu),能夠有效提取圖像的局部細(xì)節(jié)特征,但關(guān)注圖像全局信息的能力不足;基于多生成器多鑒別器GAN 的圖像融合方法模態(tài)間特征的交互程度不夠,導(dǎo)致圖像融合不充分。針對(duì)上述問(wèn)題,本文提出了雙耦合交互式融合GAN(Dual-Coupled Interactive Fusion GAN,DCIF-GAN),用于多模態(tài)CT 和PET 圖像融合,主要貢獻(xiàn)如下:
(1) 提出跨模態(tài)耦合生成器,處理PET 圖像中的病灶目標(biāo)和CT 圖像中豐富的紋理特征,學(xué)習(xí)跨模態(tài)圖像之間的聯(lián)合分布;提出跨模態(tài)耦合鑒別器分別用于計(jì)算預(yù)融合圖像與CT 和PET圖像間的結(jié)構(gòu)差異,并使訓(xùn)練過(guò)程更加穩(wěn)定。
(2)設(shè)計(jì)耦合CNN-Transformer 特征提取模塊(Coupled CNN-Transformer Feature Extraction Module, CC-TFEM)和CNN-Transformer特征重構(gòu)模塊(CNN-Transformer Feature Reconstruction Module, C-TFRM),結(jié)合了Transformer 和CNN 的優(yōu)勢(shì),在挖掘源圖像中局部信息的同時(shí)也能學(xué)習(xí)特征之間的全局交互信息,實(shí)現(xiàn)更好的跨模態(tài)互補(bǔ)語(yǔ)義信息集成。
(3)提出基于Swin Transformer 的跨模態(tài)交互式融合模塊(Cross Model Intermodal Fusion Module, CMIFM),通過(guò)跨模態(tài)自注意力機(jī)制,可以進(jìn)一步整合不同模態(tài)圖像之間的全局交互信息。
CT 圖像和PET 圖像是一組多模態(tài)圖像,CT 圖像缺乏組織信息,不能很好地表現(xiàn)病灶,而PET 圖像缺乏紋理結(jié)構(gòu)細(xì)節(jié),不能體現(xiàn)病灶所在組織結(jié)構(gòu)中的位置,為了充分利用CT 圖像的解剖結(jié)構(gòu)和PET 圖像中的功能信息,本文提出了雙耦合交互式融合GAN,模型結(jié)構(gòu)如圖1 所示,該模型以雙生成器雙鑒別器的結(jié)構(gòu)來(lái)進(jìn)行一個(gè)兩團(tuán)隊(duì)的博弈游戲,每個(gè)團(tuán)隊(duì)分別包含一個(gè)生成器和一個(gè)鑒別器,分別為G1,D1和G2,D2。其中,生成器由基于耦合CNN-Transformer 的特征提取模塊(CC-TFEM)、跨模態(tài)與融合模塊(CMIFM)和基于聯(lián)合CNN-Transformer 的特征重構(gòu)模塊(C-TFRM)構(gòu)成,Liu 等人[18]提出的Co-GAN 證明,通過(guò)在生成器中強(qiáng)制執(zhí)行模塊間權(quán)值共享,能夠使網(wǎng)絡(luò)學(xué)習(xí)多域圖像間的聯(lián)合分布,受此啟發(fā),本文通過(guò)共享特征提取模塊的權(quán)值來(lái)實(shí)現(xiàn)生成器的“耦合”,從而使網(wǎng)絡(luò)能夠?qū)W習(xí)CT 與PET 圖像淺層紋理特征中的聯(lián)合分布,實(shí)現(xiàn)跨模態(tài)醫(yī)學(xué)圖像上下文語(yǔ)義信息的互補(bǔ);鑒別器由四個(gè)卷積塊和一個(gè)Linear 層構(gòu)成,鑒別器的“耦合”通過(guò)網(wǎng)絡(luò)最后幾層共享權(quán)值,此操作可以有效降低網(wǎng)絡(luò)的參數(shù)量[18]。
圖1 雙耦合交互融合GAN 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dual-coupled interactive fusion GAN overall network architecture
在雙耦合交互式融合GAN 中,第一生成器G1的目的是生成具有CT 圖像紋理信息的預(yù)融合圖像FCT,對(duì)應(yīng)的第一鑒別器D1的目的是計(jì)算FCT與源PET 圖像的相對(duì)偏移量并反饋,以增強(qiáng)FCT中的功能信息;第二生成器G2用于生成具有PET 圖像功能信息的預(yù)融合圖像FPET,第二鑒別器D2計(jì)算FPET與源CT 圖像的相對(duì)偏移量并反饋,以增強(qiáng)FPET中的紋理信息,隨著迭代次數(shù)的增加,兩個(gè)生成器都可以生成足以欺騙鑒別器的預(yù)融合圖像,生成的圖像分別會(huì)相對(duì)偏向于其中一幅源圖像,故將生成的兩幅預(yù)融合圖像進(jìn)行加權(quán)融合,得到最終的融合圖像IF。網(wǎng)絡(luò)的極大極小博弈可以表示為:
其中:G1和G2是生成網(wǎng)絡(luò)模型,D1和D2是鑒別網(wǎng)絡(luò)模型,ICT和IPET是源CT 和PET 圖像,G1(ICT)和G2(IPET)分別是兩個(gè)生成器生成的預(yù)融合圖像,E是期望輸出值。G1和G2的目的是最小化目標(biāo)函數(shù)(1),D1和D2的目的是最大化目標(biāo)函數(shù)(1),通過(guò)生成器和鑒別器的對(duì)抗,生成樣本的概率分布和兩個(gè)真實(shí)圖像分布之間的分歧變得更小。
由于CNN 良好的性能和強(qiáng)大的特征提取能力,已被廣泛應(yīng)用于基于GAN 的圖像融合任務(wù)中,CNN 能夠簡(jiǎn)單而有效地提取圖像的特征信息,但由于CNN 的感受野受卷積核大小的影響,主要關(guān)注圖像的局部特征信息,捕獲多模態(tài)醫(yī)學(xué)圖像的全局背景信息的能力較弱;Transformer將整個(gè)圖像轉(zhuǎn)換為一維向量組作為輸入,有效解決了CNN 感受野有限的弱點(diǎn),并通過(guò)使用自注意力來(lái)捕獲全局特征信息,彌補(bǔ)CNN 只能提取局部特征的缺陷,但由于全局特征信息的秩往往較低,降低了前景與背景之間的可辨別性,導(dǎo)致融合圖像病灶區(qū)域不明顯。因此,為了有效利用多模態(tài)醫(yī)學(xué)圖像中的局部和全局互補(bǔ)特征,提高模型的融合性能,本文以聯(lián)合CNN-Transformer為基本架構(gòu),提出了雙耦合交互式融合GAN。生成器網(wǎng)絡(luò)的結(jié)構(gòu)如圖2 所示,其中包含三個(gè)模塊:耦合CNN-Transformer 特征提取模塊(CCTFEM)、跨模態(tài)預(yù)融合模塊(CMIFM)和CNNTransformer 特征提取模塊(C-TFRM)。跨模態(tài)耦合生成器的作用是生成融合圖像,但是每個(gè)生成的圖像都偏向于一個(gè)特定的源圖像,這種有偏倚性的問(wèn)題將在隨后的耦合鑒別器中得到解決。
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 2 The generator network structure
2.2.1 耦合CNN-Transformer 特征提取模塊(CC-TFEM)
充分提取源圖像的特征信息是實(shí)現(xiàn)有效融合的關(guān)鍵,CNN 只能通過(guò)加深網(wǎng)絡(luò),逐漸擴(kuò)大接受域,從而捕捉到從細(xì)節(jié)到整體的特征信息,但與原始圖像特征相比,CNN 提取的特征更多地保留了淺層紋理信息,更有利于Transformer 的訓(xùn)練,故本文結(jié)合CNN 與Transformer 的結(jié)構(gòu),設(shè)計(jì)了耦合CNN-Transformer 特征提取模塊(CC-TFEM)。如圖3 所示,采用基于CNN 的淺層特征提取單元挖掘源圖像中的局部特征,以保留淺層紋理信息,基于Swin-Transformer 的深度特征提取單元挖掘淺層特征之間的全局交互信息,生成包含高級(jí)語(yǔ)義信息的深度特征,兩者的互補(bǔ)組合提高了特征提取的能力,并保留了更有效的信息。每個(gè)特征提取模塊中包含2 個(gè)卷積塊和4 個(gè)Swin Transformer 塊 (Swin Transformer Block, STB),其中每個(gè)卷積塊包含一個(gè)卷積層和一個(gè)Leaky ReLU 層,卷積核的大小設(shè)置為3×3,步長(zhǎng)設(shè)置為1。為了將兩生成器耦合在一起,需要共享特征提取模塊的權(quán)值,通過(guò)在生成器之間的權(quán)值共享,一方面有助于學(xué)習(xí)多模態(tài)圖像的聯(lián)合分布,另一方面可以減少參數(shù)量。特征提取模塊的步驟為:首先,通過(guò)淺層特征提取模塊HSE(?)提取源圖像ICT和IPET的淺層特征和,然后,通過(guò)深度特征提取模塊HDE(?)從和中提取深度特征,最后,將,輸入到跨模態(tài)預(yù)融合模塊(CMIFM)中進(jìn)行融合,這個(gè)過(guò)程可以表述為:
圖3 特征提取模塊Fig.3 Feature extraction module
Vision Transformer (ViT)[19]首次將Transformer[20]用于視覺(jué)任務(wù)中,Swin Transformer[21]是基于ViT 的標(biāo)準(zhǔn)多頭自注意力來(lái)實(shí)現(xiàn)的,與ViT不同,Swin Transformer 的局部注意力和窗口機(jī)制有效地降低了計(jì)算量。如圖3 右側(cè)所示,給定大小為H×W×C的特征F,W-MSA 首先通過(guò)將輸入劃分為不重疊的M×M局部窗口,將輸入特征FH×W×C重構(gòu)為,其中為窗口總數(shù)。接下來(lái),它對(duì)每個(gè)窗口分別執(zhí)行標(biāo)準(zhǔn)的自注意力操作。對(duì)于局部窗口特征X∈RM2×C,使用三個(gè)線性變換矩陣WQ∈RM2×d,WK∈RM2×d和WV∈RM2×d將其投影到Q,K和V中:
利用點(diǎn)積運(yùn)算對(duì)矩陣Q和矩陣K中每個(gè)元素進(jìn)行相似度匹配,然后用softmax 進(jìn)行歸一化,得到注意力權(quán)重。過(guò)程可以表述為:
其中:dk是鍵的維數(shù),B是可學(xué)習(xí)的相對(duì)位置編碼,為了使注意力機(jī)制能夠考慮不同的注意力分布,并使模型從不同的角度捕獲信息,多頭自注意力并行執(zhí)行h次注意函數(shù),并將每個(gè)注意力頭的結(jié)果連接起來(lái),在本文中,h設(shè)置為6。然后,通過(guò)由兩個(gè)多層感知器(Multi Layer Perceptron,MLP)層組成的前饋網(wǎng)絡(luò)(Feed Forward Network, FFN)來(lái)細(xì)化W-MSA 產(chǎn)生的特征向量,過(guò)程可以表述為:
其中:Zl-1和Zl分別表示Swin Transformer 的輸入和輸出向量,表示中間輸出向量。前饋網(wǎng)絡(luò)FFN(?)可以表述為:
其中,GELU 為高斯誤差線性單元,使網(wǎng)絡(luò)更快地收斂,提高了模型的泛化能力。
圖4 顯示了Swin Transformer 層計(jì)算注意力的滑動(dòng)窗口機(jī)制的示意圖。在第L層中,采用W-MSA 對(duì)圖像進(jìn)行計(jì)算,即一個(gè)規(guī)則的窗口劃分方案,并在每個(gè)窗口內(nèi)計(jì)算注意力,W-MSA 的弊端在于窗口之間的相互作用較弱,為了在不需要額外計(jì)算的情況下引入跨窗口交互,在下一層(第L+1 層)中,引入SW-MSA 模塊,SW-MSA的窗口配置不同于W-MSA 層,通過(guò)向左上方向循環(huán)移動(dòng),產(chǎn)生新的批窗口,在移動(dòng)之后,窗口可以由特征圖中的多個(gè)不相鄰的子窗口組成,同時(shí)保持新窗口作為W-MSA 中的常規(guī)分區(qū)進(jìn)行計(jì)算,因此,新窗口中的注意力計(jì)算跨越了第L 層中窗口的邊界,提供了它們之間的連接。在WMSA 和SW-MSA 中,當(dāng)在局部窗口內(nèi)進(jìn)行自注意力計(jì)算時(shí),在計(jì)算相似性中都包含了相對(duì)位置偏差。
圖4 Swin Transformer 中的滑動(dòng)窗口機(jī)制示意圖Fig.4 Diagram of sliding window mechanism in Swin Transformer
2.2.2 跨模態(tài)交互式融合模塊(CMIFM)
CC-TFEM 可以提取同一模態(tài)內(nèi)的全局交互信息,為了進(jìn)一步整合跨模態(tài)圖像之間的全局交互信息,本文提出了跨模態(tài)交互式融合模塊(CMIFM),其結(jié)構(gòu)如圖5 所示,CMIFM 的每個(gè)分支由4 個(gè)融合塊(FB)構(gòu)成,融合塊通過(guò)自注意力,將特征圖映射到查詢(xún)(Query)、鍵(Key)和值 (Value),并通過(guò)跨模態(tài)自注意力機(jī)制交換來(lái)自不同模態(tài)的鍵(Key)和值(Value)來(lái)實(shí)現(xiàn)全局特征信息融合。每個(gè)CMIFM 由基于滑動(dòng)窗口機(jī)制的多頭自注意力(W-MSA)、基于滑動(dòng)的W-MSA(SW-MSA)、由兩個(gè)多層感知器(MLP)層組成的前饋網(wǎng)絡(luò)(FFN)和層歸一化(LN)組成。
圖5 跨模態(tài)預(yù)融合模塊(CMIFM)Fig.5 Cross Modal Interactive Fusion Module
如果給定來(lái)自不同模態(tài)的兩個(gè)局部窗口特征X1和X2,則將跨模態(tài)融合單元的過(guò)程定義為:
對(duì)特征圖進(jìn)行模態(tài)內(nèi)和跨模態(tài)特征融合后,利用一個(gè)卷積層來(lái)對(duì)融合后的特征圖進(jìn)行降維,其過(guò)程可以表述為:
2.2.3 CNN-Transformer 特征重構(gòu)模塊(CTFRM)
在融合不同模態(tài)的互補(bǔ)信息后,本文采用了基于CNN-Transformer 的特征重構(gòu)模塊(CTFRM),將融合后的深度特征映射回圖像空間。由于淺層特征包含低頻信息,深層特征包含高頻信息,在重構(gòu)模塊中,采用一個(gè)長(zhǎng)跳躍連接,將低頻信息傳輸?shù)街貥?gòu)模塊,這樣CNN 提取的淺層特征得到充分利用。特征重構(gòu)的過(guò)程為:首先,采用兩個(gè)Swin Transformer 塊的深度特征重構(gòu)單元HDR(?),從全局的角度對(duì)融合的深度特征進(jìn)行細(xì)化,對(duì)淺層特征進(jìn)行恢復(fù);然后,為了充分利用深層特征的全局上下文來(lái)恢復(fù)融合的淺層特征,采用基于CNN 的圖像重構(gòu)模塊HSR(?),減少通道數(shù)量,融合圖像重構(gòu)模塊包含兩個(gè)卷積層,卷積核大小設(shè)置為為3×3,步長(zhǎng)設(shè)置為1,卷積層之后是Leaky ReLU 激活函數(shù);最后,生成預(yù)融合的圖像FCT和FPET。過(guò)程可以表述為:
2.2.4 損失函數(shù)
本文將第一生成器G1生成的預(yù)融合圖像更偏向于學(xué)習(xí)源CT 圖像的梯度信息。其損失函數(shù)可表述為:
其中:LG1表示生成器總損失,Φ(G1)表示對(duì)抗損失,Lcontent1表示第一生成器從源圖像到預(yù)融合圖像的內(nèi)容損失,α是控制源PET 圖像信息含量比例的元素。借助該損失函數(shù),第一個(gè)生成的預(yù)融合圖像可以在FCT的基礎(chǔ)上保留更多源PET 圖像的信息,對(duì)抗損失Φ(G1)和內(nèi)容損失Lconcent1可表述為:
其中:D1(IPET,F(xiàn)CT)是第一鑒別器的函數(shù),IPET是真實(shí)的源圖像,F(xiàn)CT表示G1得到的第一個(gè)生成的預(yù)融合圖像,Lint和Lssim表示強(qiáng)度損失函數(shù)和結(jié)構(gòu)相似度損失函數(shù),μ表示正則化參數(shù)。
同樣,第二生成器的損失函數(shù)設(shè)置為:
其中,Φ(G2)和Lconcent2可以表述為:
其中:D2(ICT,F(xiàn)PET)是第二個(gè)鑒別器的函數(shù),ICT是真實(shí)的源圖像,F(xiàn)PET是第二個(gè)生成器生成的圖像,第二個(gè)生成的預(yù)融合圖像可以在FPET的基礎(chǔ)上保留更多源CT 圖像信息。
在雙鑒別器模型中,不僅要考慮生成器和鑒別器之間的對(duì)抗關(guān)系,還要考慮兩個(gè)鑒別器之間的平衡,否則隨著訓(xùn)練的進(jìn)行,一個(gè)鑒別器的優(yōu)勢(shì)最終會(huì)導(dǎo)致另一個(gè)鑒別器的效率低下,為了更好地平衡兩個(gè)鑒別器,本文設(shè)計(jì)了跨模態(tài)耦合鑒別器,其結(jié)構(gòu)如圖6 所示。每個(gè)鑒別別器由四個(gè)卷積塊和一個(gè)線性層組成,卷積塊由一個(gè)卷積層、一個(gè)BN 層和一個(gè)Leaky ReLU 激活層組成,所有卷積核大小設(shè)置為3×3,步幅設(shè)置為2,四個(gè)卷積核個(gè)數(shù)分別設(shè)置為32,64,128 和256,最后一層線性層將特征圖轉(zhuǎn)換為一個(gè)輸出,表示融合圖像與相應(yīng)源圖像之間的相對(duì)距離。鑒別器中第三、第四卷積塊和線性層的共享權(quán)值,可以有效地減少網(wǎng)絡(luò)的參數(shù),且能夠使網(wǎng)絡(luò)更快收斂、訓(xùn)練過(guò)程更穩(wěn)定[18]。
圖6 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Discriminator network structure
耦合鑒別器的作用是通過(guò)損失函數(shù)使生成的圖像逼近另一幅源圖像,通過(guò)反向傳播,生成器與鑒別器反復(fù)博弈,生成的圖像可以在包含當(dāng)前源圖像特征的同時(shí),也一定程度上包含另一幅源圖像的特征。其中,對(duì)于第一生成器G1,將源CT 圖像作為損失函數(shù)的一部分來(lái)優(yōu)化結(jié)果,因此在第一鑒別器D1中,計(jì)算第一個(gè)預(yù)融合圖像FCT與源PET 圖像IPET的接近程度,以此來(lái)使FCT更逼近IPET,故本文將第一鑒別器D1的損失函數(shù)設(shè)為:
相同,第二個(gè)鑒別器D2的目的是通過(guò)損失函數(shù)使第二個(gè)預(yù)融合圖像FPET逼近源CT 圖像。因此,其損失函數(shù)可以表示為:
其中,L1和L2分別表示第一鑒別器和第二鑒別器的損失函數(shù)。兩個(gè)鑒別器的函數(shù)可以表示為:
其中:E是期望輸出值,C1(?)和C2(?)表示兩個(gè)鑒別器的非線性變換??缒B(tài)耦合鑒別器允許單個(gè)生成的圖像具有相反圖像的信息。但所得到的圖像仍有一定程度的偏置,因此將生成的兩幅圖像進(jìn)行平均,得到最終的融合結(jié)果F為:
由于這兩幅圖像FCT和FPET都是基于源圖像生成的有偏向性的與融合圖像,因此平均操作可以使最終得到的融合圖像既保留CT 圖像中的邊緣、紋理等結(jié)構(gòu)信息,又保留PET 圖像中的病灶等功能信息。
數(shù)據(jù)集:選用2018 年1 月-2020 年6 月在寧夏某三甲醫(yī)院核醫(yī)學(xué)進(jìn)行PET/CT 全身檢查的肺部腫瘤臨床患者,以1 000 組已配準(zhǔn)的肺部腫瘤PET 和CT 影像,圖像大小為:356 pixel×356 pixel。為了滿足模型的輸入條件,將原始RGB三通道圖像轉(zhuǎn)換為灰度圖像。本文將處理好的數(shù)據(jù)集按照6∶2∶2 比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,即訓(xùn)練集、驗(yàn)證集和測(cè)試集分別由600,200,200 對(duì)CT-PET 圖像。
硬件與軟件環(huán)境:Windows Server 2019 Datacenter 的64 位操作系統(tǒng),計(jì)算機(jī)內(nèi)存256 GB,顯卡NVIDIA TITAN Ⅴ,處理器Intel(R) Xeon(R) Gold 6154 CPU @ 3.00 GHz。Python 3.7 編程語(yǔ)言,Pytorch1.7.0 深度學(xué)習(xí)框架,CUDA 版本為11.1.106。學(xué)習(xí)率為1×10-4,為保障模型參數(shù)更新較快和在全局最優(yōu)特點(diǎn)進(jìn)行收斂,訓(xùn)練周期為1 000,批處理大小為4。
評(píng)價(jià)指標(biāo):選擇8 個(gè)評(píng)價(jià)指標(biāo)來(lái)對(duì)融合圖像進(jìn)行定量評(píng)價(jià),包括平均梯度(Average Gradient, AG)、空間頻率 (Spatial Frequency, SF)、結(jié)構(gòu)相似度 (Structural Similarity Index Measure,SSIM)、圖像標(biāo)準(zhǔn)差 (Standard Deviation, SD)、互信息 (Mutual Information, MI)、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、信息熵(Information Entropy, IE)和基于梯度的融合性能 (Edge based Similarity Measurement,QAB/F),這些評(píng)價(jià)指標(biāo)都與融合質(zhì)量正相關(guān)。
本節(jié)通過(guò)兩組實(shí)驗(yàn)來(lái)證明本文模型的有效性,第一組實(shí)驗(yàn)是對(duì)比實(shí)驗(yàn),將本文方法與醫(yī)學(xué)圖像領(lǐng)域的先進(jìn)方法進(jìn)行比較,本文選取了兩類(lèi)數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),分別是PET/CT 肺窗、PET/CT 縱膈窗;第二組實(shí)驗(yàn)是消融實(shí)驗(yàn),在基準(zhǔn)模型的基礎(chǔ)上,證明本文所提模塊的有效性。
為了驗(yàn)證該文模型的有效性,在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別為CT 肺窗和PET 圖像組與CT 縱膈窗和PET 圖像組,在CT 肺窗中,肺內(nèi)部氣管細(xì)節(jié)信息清晰,圖像灰度值較大,CT 縱膈窗中,縱膈信息清晰,圖像灰度值偏小。將該文方法與其他醫(yī)學(xué)圖像融合方法做比較,并從主客觀上分析融合結(jié)果。
本節(jié)選擇了4 種圖像融合方法在該文所提出的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。分別是方法1:基于單生成器單鑒別器GAN 的醫(yī)學(xué)圖像融合方法(Fusion GAN[10]);方法2:基于單生成器雙鑒別器GAN 的醫(yī)學(xué)圖像融合方法(DDcGAN[14]);方法3:基于多生成器多鑒別器GAN 的醫(yī)學(xué)圖像融合方法(MGMDcGAN[16]);方法4:分解方法采用LatLRR 和NSCT 的嵌套分解,低頻圖像采用平均梯度自適應(yīng)加權(quán)的融合規(guī)則,高頻圖像采用基于區(qū)域能量最大的融合規(guī)則(LatLRR+NSCT)。
3.2.1 實(shí)驗(yàn)一:PET/CT 肺窗
定性實(shí)驗(yàn):本節(jié)選取了5 組融合圖像來(lái)進(jìn)行定性實(shí)驗(yàn),圖7 提供了對(duì)比實(shí)驗(yàn)與本文模型在CT 肺窗和PET 圖像組實(shí)驗(yàn)中的可視化結(jié)果,方法1、方法2 和方法3 對(duì)肺部支氣管等細(xì)節(jié)信息不能較好地保留,雖然方法3 能凸顯病灶部位,但融合圖像對(duì)比度低,邊緣模糊,本文方法和方法4 在顯示肺部支氣管等細(xì)節(jié)部分清晰,但本文方法的病灶區(qū)域更凸顯。所以,本文方法較好得融合PET 圖像中的病灶信息和CT 影像中的肺部支氣管等信息。
圖7 對(duì)比實(shí)驗(yàn)一圖像融合結(jié)果Fig.7 Contrast experiment 1 qualitative comparison
定量實(shí)驗(yàn):表1 展示了本文方法與對(duì)比方法的定量實(shí)驗(yàn)數(shù)據(jù)比較,本文方法在大部分指標(biāo)中取得了最優(yōu)結(jié)果。具體來(lái)說(shuō),最高的SF 和IE 代表本文方法的融合圖像從源圖像中保留了更多的特征和邊緣信息,五組實(shí)驗(yàn)中,本文方法與其他方法中最優(yōu)的相比,SSIM 分別提高了1.16%,10.79%,15.03%,10.26% 和1.57%,數(shù)據(jù)顯示了本文方法在維護(hù)結(jié)構(gòu)信息方面的優(yōu)勢(shì),PSNR 分別提高了0.81%,6.62%,8.15%,0.86%和0.67%,代表本文方法在融合過(guò)程中的信息失真最小,本文方法通過(guò)充分集成源圖像中的全局相互作用,更加關(guān)注PET 圖像中的顯著病灶區(qū)域。
表1 對(duì)比實(shí)驗(yàn)一融合圖像指標(biāo)評(píng)價(jià)結(jié)果Tab.1 Comparison experiment 1 fusion image index evaluation results
3.2.2 實(shí)驗(yàn)二:PET/CT 縱膈窗
定性實(shí)驗(yàn):圖8 提供了對(duì)比實(shí)驗(yàn)與本文模型在CT 縱膈窗和PET 圖像組實(shí)驗(yàn)中的可視化結(jié)果,方法1 和本文方法均能較好保留CT 組織、骨骼對(duì)比度等信息,但方法1 在一定程度上削弱了功能信息,不能有效地表現(xiàn)病灶區(qū)域;方法2、方法3 和方法4 對(duì)組織輪廓的表現(xiàn)均不如本文方法清晰,雖然方法4 保留更多病灶信息,但是器官和骨骼等細(xì)節(jié)部分對(duì)比度低;本文方法不僅保留了CT 縱膈窗圖像的骨骼紋理信息,還更好地保留了PET 圖像的功能信息,證明本文方法可以通過(guò)跨模態(tài)交互自適應(yīng)地關(guān)注功能信息和紋理信息。
圖8 對(duì)比實(shí)驗(yàn)二圖像融合結(jié)果Fig.8 Contrast experiment 2 qualitative comparison
定量實(shí)驗(yàn):表2 展示了本文模型與對(duì)比方法的定量實(shí)驗(yàn)數(shù)據(jù)比較,如數(shù)據(jù)所呈現(xiàn)的,本文方法在大部分指標(biāo)中取得了最優(yōu)結(jié)果。具體來(lái)說(shuō),五組實(shí)驗(yàn)中,本文方法與其他方法中最優(yōu)的相比,AG 分別提高了0.27%,1.05%,3.14%,1.52%和0.85%,代表本文方法對(duì)源圖像梯度信息保留的更多;最高的SSIM 顯示了本文方法在維護(hù)結(jié)構(gòu)信息方面的優(yōu)勢(shì),最高的PSNR 代表本文方法在融合過(guò)程中的信息失真最小,在本實(shí)驗(yàn)中,SSIM 和QAB/F值略落后于方法4。
表2 對(duì)比實(shí)驗(yàn)二融合圖像指標(biāo)評(píng)價(jià)結(jié)果Tab.2 Comparison experiment 2 fusion image index evaluation results
本節(jié)在基于生成對(duì)抗網(wǎng)絡(luò)的圖像融合方法的基礎(chǔ)上,證明了本文提出的模塊的有效性,本節(jié)基準(zhǔn)網(wǎng)絡(luò)的構(gòu)建方法為:采用單生成器單鑒別器GAN(Network1)進(jìn)行圖像融合,生成器以CT和PET 拼接圖像作為輸入,生成器內(nèi)部采用五個(gè)卷積塊作為主干,鑒別器對(duì)融合圖像和CT 圖像進(jìn)行偏移量計(jì)算并回饋,以此為基準(zhǔn)網(wǎng)絡(luò),依次對(duì)本文提出的模塊進(jìn)行測(cè)試:跨模態(tài)耦合生成器和跨模態(tài)耦合鑒別器 (Network2)、耦合CNNTransformer 特征提取模塊 (CC-TFEM)(Network3)、跨模態(tài)特征融合模塊(CMIFM)(Network4),證明本文模型的有效性。其中,Network2 由兩個(gè)生成器和兩個(gè)鑒別器組成,每個(gè)生成器都和Network1 中的生成器結(jié)構(gòu)相同,并將前兩個(gè)卷積塊進(jìn)行耦合,鑒別器與本文模型的鑒別器結(jié)構(gòu)相同,并將第三、四個(gè)卷積塊和最后一個(gè)Linear 層進(jìn)行耦合;Network3 在Network2 的基礎(chǔ)上將前兩個(gè)卷積塊替換為CC-TFEM,后兩個(gè)卷積塊替換為C-TFRM,并將CC-TFEM 模塊進(jìn)行耦合,且在CC-TFEM 與C-TFRM 之間加入長(zhǎng)跳躍連接;Network4 在Network3 的基礎(chǔ)上,將中間卷積塊替換為CMIFM。
定性實(shí)驗(yàn):如圖9 所示,因單鑒別器僅對(duì)源CT 圖像和融合圖像進(jìn)行鑒別,所以Network1 得到的結(jié)果整體比較模糊,對(duì)PET 圖像中病灶的表現(xiàn)能力較差;Network2 對(duì)兩幅源圖像和融合圖像進(jìn)行鑒別,故病灶的表現(xiàn)能力有所提升,但整體依然比較模糊;Network3 加入CC-TFEM 模塊后,從指標(biāo)值可以看出融合圖像的亮度、對(duì)比度等有所提升,這說(shuō)明了CC-TFEM 可以充分提取圖像的全局深度特征信息,且跳躍連接使得淺層特征提取模塊中的紋理特征得到充分利用,該模塊可以更好地保留源圖像中重要的互補(bǔ)特征信息;CDIFM 模塊使得融合圖像具有更多的梯度信息,提升了融合圖像的質(zhì)量,與Network3的融合結(jié)果相比,CDIFM 使得融合結(jié)果更清晰地在突出病灶的同時(shí)反映圖像的紋理背景信息,Network4 源圖像的互補(bǔ)語(yǔ)義特征信息交互更充分。
圖9 消融實(shí)驗(yàn)定性比較Fig.9 Qualitative comparison of ablation experiments
定量實(shí)驗(yàn):表3 展示了消融實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)數(shù)據(jù),從數(shù)據(jù)結(jié)果中可以看出,本文所提出的模塊都能夠一定程度地提升融合的性能。具體來(lái)說(shuō),雙耦合生成對(duì)抗網(wǎng)絡(luò)相較于基準(zhǔn)網(wǎng)絡(luò)在除MI外都得到了一定程度的提升,Network4 與Network3 相比,SD 分別提升了 4.66%,11.45%,5.02%,3.87%和1.01%,SF 分別提升了8.76%,0.38%,10.49%,0.27% 和2.26%,說(shuō)明耦合生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)能夠有效且更多地保留源圖像特征信息;加入CC-TFEM 和CTFRM 后,除SSIM和SD外的指標(biāo)值都得到了提升,說(shuō)明該模塊可以有效地提取源圖像的局部和全局上下文特征;加入CMIFM 后,所有指標(biāo)都得到了提升,說(shuō)明CMIFM 可以有效地交互跨模態(tài)圖像之間的互補(bǔ)信息。
表3 消融實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)Tab.3 Evaluation index of ablation experimental results.
為解決跨模態(tài)醫(yī)學(xué)圖像融合不充分、病灶區(qū)域不明顯等問(wèn)題,本文提出了雙耦合交互式融合GAN,用于肺部腫瘤PET/CT 跨模態(tài)醫(yī)學(xué)圖像融合。本文模型以耦合生成器耦合鑒別器的結(jié)構(gòu)來(lái)進(jìn)行一個(gè)兩團(tuán)隊(duì)的博弈游戲,兩個(gè)生成器分別用于生成具有偏向性的預(yù)融合圖像,鑒別器迫使融合圖像包含更多源圖像的特征信息。在生成器中,首先,提出耦合CNN-Transformer 的特征提取模塊(CC-TFEM),在挖掘源圖像中的局部信息的同時(shí)也能學(xué)習(xí)特征之間的全局交互信息;然后,設(shè)計(jì)基于Swin Transformer 的跨模態(tài)交互式融合模塊(CMIFM),分別對(duì)同一模態(tài)和跨模態(tài)圖像進(jìn)行融合,在整合同一模態(tài)內(nèi)的全局交互信息的同時(shí)進(jìn)一步整合不同模態(tài)之間的全局交互信息;最后,通過(guò)CNNTransformer 特征重構(gòu)模塊(C-TFRM)對(duì)融合后的圖像進(jìn)行重構(gòu),生成兩幅“預(yù)融合”圖像。在耦合鑒別器的最后幾層共享權(quán)值,使訓(xùn)練過(guò)程更加穩(wěn)定。為了驗(yàn)證本文模型的有效性,在肺部腫瘤PET/CT 醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過(guò)與現(xiàn)有的醫(yī)學(xué)圖像融合模型的對(duì)比實(shí)驗(yàn),在平均梯度,空間頻率,結(jié)構(gòu)相似度,標(biāo)準(zhǔn)差,峰值信噪比,信息熵等上與其他四種方法中最優(yōu)方法相比,分別提高了 1.38%,0.39%,29.05%,30.23%,0.18%,4.63%,結(jié)果表明本文模型在絕大多數(shù)指標(biāo)數(shù)據(jù)上取得了最優(yōu)值,消融實(shí)驗(yàn)表明,本文所提模塊都能在一定程度上提升模型的效果,通過(guò)定性實(shí)驗(yàn)證明,本文模型得到的融合圖像符合人類(lèi)視覺(jué)感知,能夠較好地融合PET 圖像中的病灶信息和CT 圖像中的紋理信息,有助于醫(yī)生更快速、更精準(zhǔn)地定位肺部腫瘤在解剖結(jié)構(gòu)中的位置。