李帥先,譚桂梅,劉汝璇,唐奇伶
(中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074)
醫(yī)學(xué)圖像在臨床診斷中起著至關(guān)重要的作用,它為醫(yī)生提供了非侵入性的方法,幫助醫(yī)生觀察和分析病人體內(nèi)的內(nèi)部結(jié)構(gòu),更準(zhǔn)確地診斷疾?。?-3].然而,由于技術(shù)、設(shè)備、成本和患者安全等因素的限制,有時(shí)并不能獲得所需的醫(yī)學(xué)圖像[4].醫(yī)學(xué)圖像合成技術(shù)可以根據(jù)已有的圖像數(shù)據(jù),通過計(jì)算機(jī)算法和人工智能技術(shù)生成逼真的醫(yī)學(xué)圖像,有效地解決數(shù)據(jù)不足、成本高昂等問題.
在從核磁共振成像(Magnetic Resonance Imaging,MRI)的T1 加權(quán)圖像合成T2 加權(quán)圖像中,T1 加權(quán)腦圖像可以清晰地顯示灰質(zhì)和白質(zhì)組織,而T2加權(quán)腦圖像可以描繪皮層組織中的流體,兩種圖像組合可以幫助醫(yī)生更準(zhǔn)確地識別異常病變組織,更準(zhǔn)確地診斷疾病.在從MRI 的3T 圖像合成7T 圖像中,由于3T 圖像的空間分辨率受到限制,很難觀察到較小的大腦結(jié)構(gòu),如海馬體等.但是,7T 圖像可以提供更高質(zhì)量的圖像.由于7T 圖像的成本相對較高且不普及[5],但醫(yī)學(xué)圖像合成技術(shù)可以用來生成近似于7T的高質(zhì)量圖像,為醫(yī)生提供更準(zhǔn)確、全面的診斷依據(jù).
近年來,深度學(xué)習(xí)在醫(yī)學(xué)圖像合成領(lǐng)域取得了實(shí)質(zhì)性的突破[6-8].基于深度學(xué)習(xí)的圖像合成方法共享一個(gè)通用框架,該框架使用數(shù)據(jù)驅(qū)動(dòng)的方法進(jìn)行圖像強(qiáng)度映射.工作流程通常包括一個(gè)網(wǎng)絡(luò)訓(xùn)練階段,用于學(xué)習(xí)輸入與其目標(biāo)之間的映射,以及一個(gè)預(yù)測階段,用于從輸入中合成目標(biāo)圖像.相比于傳統(tǒng)的基于地圖集、字典學(xué)習(xí)等方法,基于深度學(xué)習(xí)的方法更具有普適性,可以更好地解決醫(yī)學(xué)圖像合成問題[9].
GAO 等[10]基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN),即編碼器-解碼器神經(jīng)網(wǎng)絡(luò)架構(gòu),以學(xué)習(xí)源圖像和目標(biāo)圖像之間的非線性映射,實(shí)現(xiàn)圖像合成.LI 等[11]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)從相應(yīng)的MRI 數(shù)據(jù)中估計(jì)缺失的正電子發(fā)射斷層掃描(PET)數(shù)據(jù).QU等[12]通過在UNet網(wǎng)絡(luò)中加入來自空間域和小波域的互補(bǔ)信息,實(shí)現(xiàn)了從3T MRI 合成7T MRI 圖像的任務(wù).CHARTSIAS 等[13]提出了一種用于MRI 圖像生成的網(wǎng)絡(luò)結(jié)構(gòu),能夠自動(dòng)用現(xiàn)有的模態(tài)圖像還原缺失的模態(tài)圖像.ZHANG 等[14]提出了一種雙域CNN 框架,該框架分別在空間域和頻域中使用兩個(gè)并行的CNN,通過傅里葉變換相互交互,從3TMRI合成7T MRI圖像.
基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)的醫(yī)學(xué)圖像合成是近年來備受關(guān)注的研究熱點(diǎn)之一[15-18].NIE 等[5]將GAN 結(jié)合自動(dòng)上下文模型和全卷積神經(jīng)網(wǎng)絡(luò),從MRI 圖像合成CT 圖像、3T MRI 合成7T MRI 圖像.WOLTERINK 等[19]使用GAN 將低劑量CT 圖像轉(zhuǎn)換為常規(guī)劑量CT 圖像.KAWAHARA 等[20]基于具有兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)的GAN 預(yù)測框架,實(shí)現(xiàn)T1 加權(quán)的MRI 圖像和T2 加權(quán)的MRI 圖像的相互生成.YANG 等[21]基于循環(huán)一致性生成對抗網(wǎng)絡(luò)(Cycle Consistent GAN,CycleGAN)模型用于非成對的MR 圖像到CT 圖像的合成.YANG 等[22]通過利用條件生成式對抗網(wǎng)絡(luò)(Conditional GAN,CGAN)的深度學(xué)習(xí)模型,實(shí)現(xiàn)T1加權(quán)和T2加權(quán)的MRI圖像的互轉(zhuǎn).
當(dāng)前利用卷積神經(jīng)網(wǎng)絡(luò)處理醫(yī)學(xué)圖像合成任務(wù)中,通常依靠堆疊大量卷積層來增加網(wǎng)絡(luò)的深度或?qū)挾龋愿玫財(cái)M合非線性關(guān)系.此外,一些網(wǎng)絡(luò)結(jié)構(gòu)如殘差結(jié)構(gòu)、U-Net 結(jié)構(gòu)也被廣泛應(yīng)用于醫(yī)學(xué)圖像合成,以提高性能和改善效果.然而,很少有工作專注于醫(yī)學(xué)圖像本身的特點(diǎn),缺乏對其特有特征的考慮,導(dǎo)致網(wǎng)絡(luò)在深層特征提取的能力和表征方面存在不足.
醫(yī)學(xué)圖像中存在大量特征相似性較高的圖像塊.圖1呈現(xiàn)了不同患者的7T MRI腦圖像(Sample1、Sample2、Sample3),其中相似的圖像塊可能在同一張切片內(nèi)不同位置之間(綠色框),或者在連續(xù)的切片中同一位置之間(紅色框).醫(yī)學(xué)圖像具有自相似性特點(diǎn),即重要的結(jié)構(gòu)和特征在不同空間位置上以相似的方式出現(xiàn).
圖1 7T MRI圖像在不同樣本下的內(nèi)部切片示例Fig.1 Internal slice examples of 7T MRI images in different samples
為此,本文提出了兩種注意力塊.首先,圖結(jié)構(gòu)方法可以模擬不同CT 切片之間的結(jié)構(gòu)連續(xù)性和相互作用[16].本文在圖像的連續(xù)切片下構(gòu)建了以圖像塊(patch)為單位的拓?fù)浣Y(jié)構(gòu),通過圖注意力捕捉醫(yī)學(xué)圖像連續(xù)切片的關(guān)聯(lián)性,使網(wǎng)絡(luò)在不同切片之間共享和傳遞信息,提高特征的學(xué)習(xí)能力.該方法通過圖注意力塊(Graph Attention Block,GAB)實(shí)現(xiàn).其次,本文同樣構(gòu)建以圖像塊為單位的全局塊注意力塊(Global Patch Attention Block,GPAB)來捕捉同切片下的非局部相似性,建立全局的相互關(guān)系,使網(wǎng)絡(luò)更好地理解同一切片中不同區(qū)域之間的關(guān)聯(lián)性,并通過設(shè)計(jì)一個(gè)并行的特征提取單元,該單元通過將GAB和GPAB結(jié)合,來進(jìn)行深度特征提取.
與自然語言序列中的位置信息類似,圖像中不同像素之間的位置關(guān)系也可以提供重要的上下文信息(黃色框、黃線),對這些位置關(guān)系進(jìn)行位置編碼可為網(wǎng)絡(luò)提供更多的語義信息.此外,在不同樣本下的相同位置的切片中(黃色框、紫線),也存在相似的空間結(jié)構(gòu)和位置關(guān)系,通過加入位置編碼使網(wǎng)絡(luò)進(jìn)一步提高對數(shù)據(jù)特征關(guān)系的理解和學(xué)習(xí)能力.
本文在GAN 框架下,提出了基于圖注意力塊和全局塊注意力塊的生成對抗網(wǎng)絡(luò)(Graph Attention Block and Global Patch Attention Block Generative Adversarial Networks,GGPA-GAN),在生成器加入GAB 和GPAB 以及二維位置編碼,豐富語義信息和提升特征表達(dá)能力,提高圖像合成的精確度.
為了更好地實(shí)現(xiàn)源圖像到目標(biāo)圖像的合成,本文使用生成對抗網(wǎng)絡(luò)作為框架進(jìn)行學(xué)習(xí).如圖2所示,GGPA-GAN由兩部分組成:生成器(G)和判別器(D).生成器由編碼器、深層特征提取單元和解碼器組成,目的在于生成與真實(shí)目標(biāo)圖像相似的合成目標(biāo)圖像.判別器由卷積神經(jīng)網(wǎng)絡(luò)和全連接層組成.判別器的任務(wù)是評估生成器生成的合成目標(biāo)圖像是否與真實(shí)目標(biāo)圖像足夠相似.在訓(xùn)練過程中,生成器會(huì)不斷優(yōu)化自己的參數(shù),最小化其生成的圖像與真實(shí)圖像之間的差異.同時(shí),由于判別器的存在,生成器也會(huì)受到來自判別器的反饋,不斷改進(jìn)自己的生成策略,以盡可能地欺騙判別器.通過這種對抗訓(xùn)練方式,生成器和判別器可以互相協(xié)作,不斷提高網(wǎng)絡(luò)的性能,最終生成高質(zhì)量的圖像.
圖2 GGPA-GAN的內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of GGPA-GAN
生成器可以分為3 個(gè)階段,第一個(gè)階段是編碼階段,編碼器通過逐層的卷積操作實(shí)現(xiàn)下采樣來捕捉圖像不同層次的特征.第二個(gè)階段是深層特征提取階段,通過由GAB 和GPAB 構(gòu)建的深層特征提取單元加強(qiáng)網(wǎng)絡(luò)對圖像特征的感知和提取.第三個(gè)階段是解碼階段,對各層特征圖進(jìn)行整合后使用解碼器實(shí)現(xiàn)上采樣,最后經(jīng)過1 × 1 的卷積進(jìn)行通道降維,完成輸出.這個(gè)階段是對前面階段提取的特征進(jìn)行重建和還原.生成器的結(jié)構(gòu)采用了逐層提取、加強(qiáng)感知能力、逐層重建的策略,通過多層次的處理來捕捉圖像的不同特征,以合成高質(zhì)量的圖像輸出.如圖3 所示為生成器網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu).
圖3 生成器網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of the generator network
1.1.1 編碼器與解碼器
圖4 為生成器網(wǎng)絡(luò)中的編碼器內(nèi)部結(jié)構(gòu),編碼器包括卷積層、激活層、池化層和位置編碼.在每個(gè)卷積層中,輸入圖像會(huì)與一組內(nèi)核進(jìn)行卷積運(yùn)算,每個(gè)內(nèi)核可以捕捉圖像的局部特征,使網(wǎng)絡(luò)能夠有效地學(xué)習(xí)圖像的特征表示.激活層使用整流線性單元(ReLU 激活函數(shù))為神經(jīng)網(wǎng)絡(luò)增加非線性運(yùn)算,其將負(fù)輸入替換為零,并保持正輸入不變.池化層使用最大化池化(MaxPool)用來提取特征圖中的最顯著的特征,并降低特征映射的維度.位置編碼可為網(wǎng)絡(luò)提供位置信息,該方法將在下文進(jìn)行介紹.此外,引入殘差連接可以使網(wǎng)絡(luò)更容易學(xué)習(xí)恒等映射,提高網(wǎng)絡(luò)性能和訓(xùn)練效率.該網(wǎng)絡(luò)使用三個(gè)卷積層(Conv1、Conv2 和Conv3)以增加網(wǎng)絡(luò)深度.其中,Conv1 和Conv2 是一個(gè)3 × 3 內(nèi)核大小、填充為1、步長為1 的卷積層.Conv2 的卷積核數(shù)量是Conv1 的兩倍,以使特征通道數(shù)增加.通過卷積核大小為2 ×2,步長為2 的MaxPool 使特征圖大小縮小一半.本文中,編碼器和解碼器具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和層數(shù),唯一區(qū)別在于解碼器將編碼器中的池化層替換為反卷積層,用于將低維特征圖恢復(fù)為高維特征圖.解碼器中的反卷積層使用的卷積核大小為2 × 2、步長為2.本文中的生成器網(wǎng)絡(luò)包含4個(gè)編碼器和4個(gè)解碼器.
圖4 生成器網(wǎng)絡(luò)中的編碼器內(nèi)部結(jié)構(gòu)Fig.4 Internal structure of the encoder in a generator network
1.1.2 深層特征提取單元
本文的深層特征提取單元位于圖3 藍(lán)色框區(qū)域.該單元將GAB 和GPAB 相結(jié)合,其中GAB 用于捕捉切片之間的相似性,而GPAB 用于捕捉切片內(nèi)不同圖像塊的相似性.同時(shí),通過引入殘差連接來保留圖像的細(xì)節(jié)信息.原始特征圖經(jīng)過這兩種塊并行處理后,再將它們的輸出進(jìn)行通道連接.最后,使用卷積核大小為1 × 1 的卷積操作,將通道數(shù)恢復(fù)為原始的通道數(shù).
判別器包括3 個(gè)卷積核大小依次為8 × 8,4 × 4,4 × 4的卷積層、批量歸一化層(BN)、ReLU 激活函數(shù)層,緊接著還有3個(gè)全連接層將數(shù)據(jù)扁平化,卷積層的卷積核數(shù)量依次為8、64、256,全連接層中輸出節(jié)點(diǎn)數(shù)為256、64和1.在最后一層,利用tanh 激活函數(shù)作為評估器,得出輸入圖像是真實(shí)圖像的概率.圖5為判別器網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu).
圖5 判別器網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)Fig.5 Internal structure of the discriminator network
對于醫(yī)學(xué)圖像合成,醫(yī)學(xué)圖像通常具有較高的空間分辨率和較復(fù)雜的結(jié)構(gòu).因此在醫(yī)學(xué)圖像合成中準(zhǔn)確地捕捉到這些空間位置信息對于合成圖像的質(zhì)量至關(guān)重要.位置編碼是一種將空間位置信息嵌入到特征表示中的方法,通過位置編碼學(xué)習(xí)到圖像中不同位置的特征和相對位置之間的關(guān)系,從而提高模型的空間感知能力.
如圖6 所示為本文的位置編碼內(nèi)部結(jié)構(gòu),H、W、D分別為特征圖的高度、寬度和通道數(shù).本文將Transformer 模型[23]中提出的1D 位置編碼技術(shù)調(diào)整為2D,公式如(1)~(4)所示:
圖6 二維位置編碼內(nèi)部結(jié)構(gòu)Fig.6 Internal structure of the two-dimensional position encoding
式中:x和y指定為水平和垂直位置坐標(biāo)值,即(x,y)為二維空間的一個(gè)坐標(biāo)點(diǎn);i,j是[0,D/4)中的整數(shù).位置編碼得到的位置信息圖具有與特征圖相同的大小和維度.位置編碼的每個(gè)維度都由特定頻率和相位的正弦信號組成,表示水平方向或垂直方向.本文使用的時(shí)間范圍從1到10000.不同的時(shí)間尺度等于D/4,對應(yīng)于不同的頻率.對于每個(gè)頻率,在水平/垂直方向上生成正弦/余弦信號.所有這些信號被串聯(lián)成D個(gè)維度,前一半維度為水平位置的編碼,后一半維度為垂直位置的編碼.最后將位置信息和特征圖相加,作為輸出.該位置編碼具有不向神經(jīng)網(wǎng)絡(luò)添加新的可訓(xùn)練參數(shù)的優(yōu)點(diǎn).
在圖注意力塊中,將圖像數(shù)據(jù)轉(zhuǎn)換成一張圖結(jié)構(gòu),將不同的圖像塊作為圖中的節(jié)點(diǎn),節(jié)點(diǎn)之間的關(guān)系構(gòu)成了圖中的邊.通過連接不同切片中相同坐標(biāo)位置的圖像塊起來,構(gòu)建出一張具有結(jié)構(gòu)連續(xù)性的圖.選取其中一切片內(nèi)的圖像塊作為中心節(jié)點(diǎn),將其相鄰兩個(gè)切片同坐標(biāo)位置的圖像塊作為鄰居節(jié)點(diǎn)與其關(guān)聯(lián).這些圖像塊間存在著不同細(xì)節(jié)的信息,導(dǎo)致它們之間存在差異.故在中心節(jié)點(diǎn)附近選取了若干個(gè)節(jié)點(diǎn)作為補(bǔ)充.這一點(diǎn)在于圖像的任何一個(gè)圖像塊并不是單獨(dú)存在,圖像塊會(huì)與周圍數(shù)個(gè)像素信息相關(guān)聯(lián),使中心節(jié)點(diǎn)與鄰居節(jié)點(diǎn)進(jìn)行相互交互的同時(shí),中心節(jié)點(diǎn)可以從周圍像素組中彌補(bǔ)缺失.
圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)既能充分結(jié)合局部特征又能保留整體的結(jié)構(gòu)信息[24-25].本文構(gòu)建以圖像塊作為節(jié)點(diǎn)的圖結(jié)構(gòu).其中圖像塊的大小為h×w,相鄰切片的同位置共有n1個(gè)圖像塊相連接,輸入維度為[h×w,n1].其中的中間切片的圖像塊與周圍相鄰的k個(gè)像素相連接,將k個(gè)元素重塑為一個(gè)矩陣,使輸入維度為[h×w,n2].最終,特征向量的總輸入維度為[h×w,n],其中,n=n1+n2.
以圖7為例,不同顏色的方塊代表著一個(gè)像素,圖中以2 × 2 個(gè)像素大小為一圖像塊,首先將相鄰三切片提取的三個(gè)圖像塊(3 × 2 × 2個(gè)像素)重塑為4 ×3 的矩陣,然后將與中間切片的圖像塊相關(guān)聯(lián)的12個(gè)像素重塑為4 × 3 的矩陣,將所有矩陣拼接后可得到4 × 6 大小的特征矩陣.特征矩陣的每一列可以被視為該圖的一個(gè)節(jié)點(diǎn),每對列之間相似性可以視為圖的一條邊.根據(jù)特征矩陣與構(gòu)建的拓?fù)浣Y(jié)構(gòu),得到鄰接矩陣,來描述圖中節(jié)點(diǎn)之間的連接關(guān)系.在鄰接矩陣中,如果節(jié)點(diǎn)i和節(jié)點(diǎn)j之間有連接,則鄰接矩陣的第i行第j列和第j行第i列的元素值為1,否則為0.最后,通過同時(shí)輸入鄰接矩陣和特征矩陣到GAT 層進(jìn)行計(jì)算,完成對圖數(shù)據(jù)的處理.對于特征圖X∈RH×W×C(H、W、C分別為特征圖的高度、寬度和通道數(shù)),圖像塊的大小為H/n×W/n,其中n為尺度因子,使圖像塊能夠與特征圖的尺寸相匹配.
圖7 圖注意力塊(GAB)的內(nèi)部結(jié)構(gòu)Fig.7 Internal structure of the Graph Attention Module(GAM)
如圖8(a)所示,該圖以第i個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)特征,以及相關(guān)聯(lián)的5 個(gè)節(jié)點(diǎn)為例描述GAT 層的計(jì)算過程.圖注意力層的輸入是一組節(jié)點(diǎn)特征,h=,通過利用相鄰節(jié)點(diǎn)的相似性,得到一組新的節(jié)點(diǎn)特征為了更新特征,一個(gè)可學(xué)習(xí)的共享線性變換權(quán)重矩陣W將應(yīng)用于每個(gè)節(jié)點(diǎn),以生成更深層的特征.然后在節(jié)點(diǎn)上執(zhí)行一個(gè)共享的自注意機(jī)制e,e:Rd×Rd→R,eij為每條邊(i,j)的注意力分?jǐn)?shù),表示為相鄰節(jié)點(diǎn)j對節(jié)點(diǎn)i的重要性.
圖8 圖注意力層流程圖與多頭圖注意力機(jī)制Fig.8 Process diagram of the Graph Attention Layer and the Multi-head Graph Attention Mechanism
式中:a∈R2d′,W∈Rd′×d被學(xué)習(xí),||表示向量串聯(lián).LeakyReLU 為一個(gè)非線性激活函數(shù).這些注意力分?jǐn)?shù)在所有鄰居j∈Ni中經(jīng)過Softmax 標(biāo)準(zhǔn)化,注意力函數(shù)定義為:
通過標(biāo)準(zhǔn)化注意系數(shù)計(jì)算相鄰節(jié)點(diǎn)變換特征的加權(quán)平均值(σ是非線性函數(shù)),作為節(jié)點(diǎn)的新表達(dá)形式:
多頭注意力機(jī)制是提取深層特征的有效擴(kuò)展方式.在圖8(b)中,紅色圓圈和藍(lán)色圓圈分別代表第i個(gè)節(jié)點(diǎn)及其最近的5個(gè)相鄰節(jié)點(diǎn).不同顏色箭頭表示獨(dú)立的注意力計(jì)算,圖中展示了3 個(gè)注意力頭.假設(shè)對于每張圖結(jié)構(gòu)均使用M個(gè)獨(dú)立的注意力機(jī)制,每個(gè)注意力機(jī)制都能夠使用公式(7)來獲取第i個(gè)節(jié)點(diǎn)的更新特征.將M個(gè)獨(dú)立的注意力機(jī)制更新后的特征向量連接在一起,進(jìn)行平均處理,得到最終的節(jié)點(diǎn)特征.這個(gè)過程可以從不同的注意力機(jī)制中獲取更加豐富和準(zhǔn)確的特征信息,提高模型的性能.此過程如下所示:
為探索醫(yī)學(xué)圖像同切片內(nèi)的特征相似性,本文提出在圖像切片內(nèi)基于圖像塊的全局塊注意力塊(GPAB),該塊可以通過從全局范圍內(nèi)獲取圖像中的信息,因此能夠更好地捕捉長距離依賴關(guān)系,增強(qiáng)局部特征.如圖9 所示為GPAB 的內(nèi)部結(jié)構(gòu).該塊以圖像塊為單位進(jìn)行相似度匹配,將每個(gè)圖像塊的特征作為全局特征的一部分,并通過在全局特征中計(jì)算相似度矩陣來衡量每個(gè)圖像塊與全局特征關(guān)系,此相似度矩陣是多維度的.對多維相似度矩陣進(jìn)行Softmax函數(shù)運(yùn)算,得到一組注意力權(quán)重.最后,每個(gè)圖像塊與全局特征按照對應(yīng)注意力權(quán)重通過哈達(dá)瑪運(yùn)算進(jìn)行加權(quán)求和,得到該圖像塊的最終表示.給定圖像特征圖X,該注意力定義為:
圖9 GPAB的內(nèi)部結(jié)構(gòu)Fig.9 Internal structure of GPAB
式中:(i,j)、(g,h)和(u,v)是特征圖X的坐標(biāo)元組,φ(·,·)為相似性函數(shù),被定義為:
式中:θ(X)、δ(X)、ψ(X)是特征表達(dá)函數(shù),通過1 × 1的卷積實(shí)現(xiàn).θ(X)=WθX,φ(X)=WφX,ψ(X)=WψX,其中,Wθ,Wφ,Wψ為可學(xué)習(xí)的參數(shù);Xi,j,Xg,h,Xu,v為大小、維度相等的圖像塊.GAB 與GPAB 相同,圖像塊的大小設(shè)置為H/n×W/n,其中n為尺度因子.
本文將對抗性損失應(yīng)用于生成器網(wǎng)絡(luò)及其判別器網(wǎng)絡(luò).對抗性損失函數(shù)可以定義為:
式中:G表示生成器,D表示判別器,IX表示輸入圖像,IY表示相應(yīng)的真實(shí)圖像.訓(xùn)練中,生成器G試圖生成與真實(shí)圖像IY相比足夠逼真的合成圖像G(IX).判別器D的任務(wù)是區(qū)分真實(shí)的醫(yī)學(xué)圖像IY和合成的醫(yī)學(xué)圖像G(IX).生成器G試圖最小化該損失函數(shù),而判別器D則試圖最大化該損失函數(shù),即:G*=argminGmaxDLGAN(G,D).
除了對抗性損失函數(shù)外,生成器的損失函數(shù)還包括L1損失來引導(dǎo)生成器生成高質(zhì)量的圖像.生成器G的L1損失項(xiàng):
GGPA-GAN網(wǎng)絡(luò)的整體損失函數(shù)為:
式中,λ用于控制L1 損失函數(shù)和對抗性損失函數(shù)之間的權(quán)重分配.
本文的3T-7T MRI合成任務(wù)使用的圖像數(shù)據(jù)來自HCP 數(shù)據(jù)集[26](Human Connectome Project,人類連接組項(xiàng)目).本文的T1-T2 MRI合成任務(wù)使用的圖像數(shù)據(jù)來自ADNI 數(shù)據(jù)集[27](Alzheimer′s Disease Neuroimaging Initiative,阿爾茨海默癥神經(jīng)影像學(xué)倡議).針對3T-7T MRI 任務(wù),本文使用80 例成對的3T MRI 和7T MRI 圖像,并對所有3T MRI 和7T MRI 圖像進(jìn)行尺寸固定,空間分辨率為180 × 256 ×256,體素分辨率為1.0 mm × 0.8 mm × 0.7 mm.針對T1-T2 MRI任務(wù),本文同樣使用80例成對的T1 MRI和T2 MRI 圖像,并將所有T1、T2 MRI 的空間分辨率固定為180 × 256 × 256,體素分辨率為0.9 mm ×0.9 mm × 3 mm.所有采集圖像均為具有清晰腦部紋理、豐富細(xì)節(jié)特征的高質(zhì)量數(shù)據(jù),且均經(jīng)過類間、類內(nèi)的剛性配準(zhǔn),以保證嚴(yán)格對齊.對于每例數(shù)據(jù),將原始強(qiáng)度值線性縮放到[-1,1].將所有數(shù)據(jù)分為訓(xùn)練集與測試集,每個(gè)任務(wù)隨機(jī)選取62例用于網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練集圖像,18 例用于測試網(wǎng)絡(luò)泛化性能的測試集圖像.測試集與訓(xùn)練集不重疊,以確保模型的泛化性能和可靠性.
硬件設(shè)備:CPU:Intel Xeon Gold 6240@2.60 GHz × 72;GPU:NVIDIA TITAN RTX 24 G × 2;內(nèi)存:64 G;軟件配置:操作系統(tǒng)為64 位Ubuntu18.04.6 LTS;Python 3.7;Pytorch 1.6.0.
在訓(xùn)練過程中,Batch-size 設(shè)置為32,每個(gè)批次大小為16 × 256 × 256.使用ADAM 優(yōu)化器實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)優(yōu)化,網(wǎng)絡(luò)總輪數(shù)設(shè)置為300輪.初始學(xué)習(xí)率0.0002,動(dòng)量參數(shù)為0.9,權(quán)重衰減為0.005.
本文采用峰值信噪比(Peak Signal-to-noise Ratio,PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity Index,SSIM)以及平均絕對誤差(Mean Absolute Error,MAE)三種指標(biāo)來評估合成圖像的質(zhì)量.其中,PSNR是一種廣泛應(yīng)用于評估圖像清晰度的指標(biāo),它基于像素點(diǎn)之間的誤差來衡量合成圖像與真實(shí)圖像之間的差異.在計(jì)算PSNR 時(shí),均方誤差(Mean Squared Error,MSE)越小則PSNR 越大,代表著合成圖像的效果越好.峰值信噪比PSNR的計(jì)算公式如下:
式中:I(i)表示真實(shí)圖像中某個(gè)像素點(diǎn)的像素值,Syn(I(i))表示在體素空間中合成圖像相應(yīng)像素點(diǎn)的像素值.
SSIM 從3 個(gè)方面評價(jià)合成圖像與真實(shí)圖像的差距:亮度、對比度和結(jié)構(gòu),值的范圍在(0,1),值越大表示兩張圖像越相似.結(jié)構(gòu)相似性指數(shù)SSIM的計(jì)算如下所示:
式中:μR和μS分別表示真實(shí)圖像和合成圖像的均值,σR、σS為真實(shí)圖像和合成圖像的協(xié)方差.c1=(k1L)2,c2=(k2L)2為常數(shù),L是像素值的動(dòng)態(tài)范圍,在本文中L=7,k1=0.01,k2=0.03.
MAE 是計(jì)算每個(gè)像素值之間的絕對差異,再取平均值,因此是一種評估兩個(gè)圖像之間平均差異的方法.MAE 越小,兩張圖像越相似.平均絕對誤差MAE的計(jì)算如下:
式中:H和W分別表示圖像的高度和寬度,X和Y分別表示合成圖像和原始真實(shí)圖像.
為了驗(yàn)證本文提出的模型性能,本文將其與4 種現(xiàn)有模型進(jìn)行比較,它們分別是UNet++[28]、TransUNet[29]、Pix2pix[16]和CycleGAN[21].其中,分別將AttentionUNet 和TransUNet 作為生成器網(wǎng)絡(luò)嵌入到本文的GAN 架構(gòu)中作為對比,以證明本文生成器網(wǎng)絡(luò)在深層特征提取方面卓越的成效.
UNet++網(wǎng)絡(luò)在UNet 基礎(chǔ)上進(jìn)行升級,該網(wǎng)絡(luò)加入了深度監(jiān)督機(jī)制,將跳躍連接改進(jìn)為密集的短連接,可以抓取不同層次的特征,并將它們通過疊加的方式進(jìn)行整合.TransUNet同時(shí)具有Transformers和U-Net 的優(yōu)點(diǎn),相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),TransUNet使用了Transformer結(jié)構(gòu),使得模型可以自適應(yīng)地學(xué)習(xí)到圖像中的全局和局部特征.Pix2pix 與CycleGAN 為如今主流的醫(yī)學(xué)圖像合成方法.Pix2pix是一種基于條件生成對抗網(wǎng)絡(luò)(CGAN)的方法,通過專注于保持逐像素的強(qiáng)度相似性來合成整個(gè)圖像.CycleGAN 是使用對抗性損失函數(shù)合成圖像,同時(shí)通過一個(gè)循環(huán)一致性損失函數(shù)保持圖像的原始語義信息.
2.5.1 定性評估
對3T-7T MRI 和T1-T2 MRI 兩個(gè)任務(wù)進(jìn)行了定性比較實(shí)驗(yàn),圖10 為本文方法與4 種對比方法在相同測試圖像下的矢狀面和軸位面上進(jìn)行3T-7T MRI任務(wù)測試的定性比較結(jié)果.可見大多數(shù)對比方法不能很好地恢復(fù)圖像細(xì)節(jié).如CycleGAN 的局部放大結(jié)果整體非常模糊,而本文方法合成的圖像比對比方法擁有更清晰的細(xì)節(jié).圖11 所示為本文方法與4 種對比方法在矢狀面和軸位面上進(jìn)行T1-T2 任務(wù)中的定性比較結(jié)果圖.可見與3T-7T任務(wù)相比,T1與T2圖像具有邊界模糊、噪聲、對比度差的特點(diǎn),本文在任務(wù)中能較為清晰地還原圖像的輪廓與細(xì)節(jié)特征,邊緣也較為平滑.綜上,本文方法的合成效果優(yōu)于其他4種對比的合成方法.
圖10 本文方法與 4種對比方法在 3T合成7T MRI任務(wù)中的定性比較結(jié)果Fig.10 Qualitative comparison results of the proposed algorithm and four comparison algorithms in the 3T to 7T MRI synthesis task
圖11 本文方法與 4種對比方法在 T1合成T2 MRI任務(wù)中的定性比較結(jié)果Fig.11 Qualitative comparison results of the proposed algorithm and four comparison algorithms in the T1 to T2 MRI synthesis task
2.5.2 定量評估
實(shí)驗(yàn)利用PSNR、SSIM、MAE 客觀評價(jià)指標(biāo)在3T-7T MRI、T1-T2 MRI 兩個(gè)任務(wù)中測試了18 例MRI圖像,本文方法的表現(xiàn)均優(yōu)于對比的4種合成方法,本文方法及4 種對比合成方法在PSNR、SSIM、MAE的測試結(jié)果折線圖分別如圖12-13 所示,其中綠色折線表示本文方法的客觀評價(jià)結(jié)果,評價(jià)結(jié)果平均值如表1所示.
表1 客觀評價(jià)指標(biāo)平均值Tab.1 Average value of objective evaluation metrics
圖12 本文方法與4種對比方法在3T合成7T MRI任務(wù)中的定量結(jié)果Fig.12 Quantitative results of the proposed algorithm and four comparison algorithms in the 3T to 7T MRI synthesis task
圖13 本文方法與4 種對比方法在T1合成T2 MRI任務(wù)中的定量結(jié)果Fig.13 Quantitative results of the proposed algorithm and four comparison algorithms in the T1 to T2 MRI synthesis task
由表1 可知,利用本文方法進(jìn)行合成可以獲得各項(xiàng)指標(biāo)的最大均值.在T1-T2 MRI圖像實(shí)驗(yàn)中,合成具有較高質(zhì)量和真實(shí)感的合成圖像是一項(xiàng)具有難度的任務(wù),任務(wù)對于網(wǎng)絡(luò)的非線性擬合的要求更高,本文的取得的成績更為顯著.
2.6.1 多種方法組合下的消融實(shí)驗(yàn)
本文所提出的生成器網(wǎng)絡(luò)包含3 個(gè)核心組件,即圖注意力塊(GAB)、全局塊注意力塊(GPAB)和位置編碼,實(shí)驗(yàn)通過不同的組合來研究它們的影響,從圖像視覺效果和定量結(jié)果兩方面進(jìn)行對比實(shí)驗(yàn).表2顯示了HCP數(shù)據(jù)集上關(guān)于這些組合的消融實(shí)驗(yàn)的結(jié)果,圖14 展示了消融實(shí)驗(yàn)的視覺效果比較.視覺效果通過差值圖的方式呈現(xiàn).差值圖通過將合成圖像與真實(shí)圖像相減得到,用于表示兩個(gè)圖像之間的差異.通過比較差值圖的特征,可以對不同方法的表現(xiàn)進(jìn)行評估和比較.
表2 在HCP數(shù)據(jù)集中關(guān)于不同方法組合的消融實(shí)驗(yàn)的定量結(jié)果Tab.2 Quantitative results of the differential ablation experiments on different combinations of methods in the HCP dataset
圖14 在HCP數(shù)據(jù)集中關(guān)于不同方法組合的消融實(shí)驗(yàn)差值圖Fig.14 Differential plot of ablation experiments on different combinations of methods in the HCP dataset
2.6.2 關(guān)于尺度因子n的消融實(shí)驗(yàn)
在圖注意力塊和全局塊注意力塊中,本文以圖像塊作為計(jì)算單位.尺度因子n越大,表示圖像塊的尺寸越小.因此,本文研究了尺度因子n對網(wǎng)絡(luò)效果的影響,如表3所示,基于HCP數(shù)據(jù)集進(jìn)行了尺度因子n的消融實(shí)驗(yàn).尺度因子n分別設(shè)置為12、8、4,其中n=12時(shí)取得了更好的效果,說明較小的圖像塊可以作為計(jì)算單位進(jìn)行計(jì)算.使用較大的圖像塊尺寸時(shí),模型的性能會(huì)受到一定的影響,由于較大的圖像塊意味著對圖像塊之間的相似性有更高的要求.在實(shí)際實(shí)驗(yàn)中,本文沒有將n設(shè)置為12,而選擇了n=8,原因是當(dāng)n過大時(shí),計(jì)算量也會(huì)增加,導(dǎo)致網(wǎng)絡(luò)在測試時(shí)耗時(shí)較長,而帶來的性能提升相對較小,得不償失.綜上,選擇將n設(shè)置為8.
表3 不同尺度因子n的大小的消融實(shí)驗(yàn)客觀評價(jià)指標(biāo)Tab.3 Objective evaluation metrics for the ablation experiment of different scale factors n
2.6.3 關(guān)于GAB中多頭注意力機(jī)制的消融實(shí)驗(yàn)
GAB 使用多頭注意力機(jī)制,增加注意力頭的數(shù)目可以增加模型的表達(dá)能力,過高會(huì)導(dǎo)致過擬合問題.本節(jié)中對比了不同頭數(shù)的多頭注意力機(jī)制對模型性能影響,表4 展示了使用不同頭數(shù)的多頭注意力機(jī)制的最終結(jié)果,可見當(dāng)使用8頭注意力機(jī)制時(shí),模型達(dá)到了最好的性能.
表4 多頭注意力機(jī)制的消融實(shí)驗(yàn)客觀評價(jià)指標(biāo)Tab.4 Objective evaluation metrics for the ablation experiments of multi-head attention mechanism
經(jīng)過研究和實(shí)驗(yàn)驗(yàn)證,本文提出的自相似增強(qiáng)特征生成對抗網(wǎng)絡(luò)(GGPA-GAN)在跨模態(tài)醫(yī)學(xué)圖像合成任務(wù)中展現(xiàn)出卓越的性能.與現(xiàn)有方法相比,GGPA-GAN 利用圖注意力塊和全局塊注意力塊捕捉醫(yī)學(xué)圖像切片間和切片內(nèi)的自相似性,并通過二維位置編碼增強(qiáng)了語義信息的表達(dá)能力.在HCP_S1200 數(shù)據(jù)集和ADNI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,GGPA-GAN 在合成3T-7T、T1-T2 腦部MRI 圖像任務(wù)中達(dá)到了最優(yōu)水平.該研究的成功應(yīng)用為臨床診斷提供了有力的支持,為深入探索醫(yī)學(xué)圖像合成領(lǐng)域開辟了新的方向.