李 擎, 皇甫玉彬, 李江昀, 楊志方, 陳 鵬, 王子涵
(1. 北京科技大學(xué) 自動化學(xué)院,北京 100083; 2. 北京科技大學(xué) 工業(yè)過程知識自動化教育部重點實驗室, 北京100083; 3. 中國郵政儲蓄銀行 金融科技創(chuàng)新部,北京 100808)
近年來,心血管疾病流行狀況嚴(yán)重,已經(jīng)成為威脅人類健康的重要因素[1].心臟核磁共振成像(Magnetic Resonance Image,MRI)是心血管疾病分析、診斷和手術(shù)計劃的主要工具,在臨床治療中,對于心室容積、每搏輸出量、心肌質(zhì)量等臨床參數(shù)地評估,心臟MRI中心室及心肌的分割結(jié)果十分重要.但不同患者的心臟MRI切片分辨率大小不一致,形狀差異大,且存在目標(biāo)區(qū)域與背景相似、不同類別區(qū)域之間灰度差異小、右心室區(qū)域形狀多變的特點[2],使得心臟MRI分割任務(wù)面臨眾多挑戰(zhàn).
如今,深度學(xué)習(xí)技術(shù)發(fā)展迅速[3-4],卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)以其強大的特征提取能力在圖像分析領(lǐng)域取得了重大突破[5-6],基于CNN的U型網(wǎng)絡(luò)結(jié)構(gòu)(U-Net)[7]在醫(yī)學(xué)圖像分割中已被廣泛應(yīng)用.U-Net是一種對稱的編碼器-解碼器結(jié)構(gòu),該結(jié)構(gòu)在編碼器到解碼器之間加入了跳躍連接,使得網(wǎng)絡(luò)更好地融合不同尺度的特征.但由于卷積操作本身僅進行局部運算,很難構(gòu)建像素間長距離依賴關(guān)系,所以U-Net結(jié)構(gòu)仍有很大的改進空間.Li等[8]利用不同空洞率的空洞卷積提取多尺度目標(biāo)特征,改善了右心室的分割結(jié)果,該方法通過引入空洞卷積來增大感受野,但需要結(jié)合多個不同空洞率的卷積,增大了計算復(fù)雜度.Cheng等[9]將方向場應(yīng)用到U-Net中,通過方向場的監(jiān)督來減少相似區(qū)域的誤分割,但需調(diào)整相應(yīng)的權(quán)重系數(shù).羅愷鍇等[10]在U-Net結(jié)構(gòu)中引入了通道注意力機制,采用多視角融合的方法提升了腦腫瘤MRI的分割精度,王瑞豪等[11]則結(jié)合切片上下文信息,分成多個階段完成胰腺的分割,上述兩種方法雖然取得了較高的精度,但整體流程比較復(fù)雜.Yu等[12]將自注意力機制[13]嵌入到U-Net結(jié)構(gòu)中,提高了心臟MRI的分割準(zhǔn)確率,但該方法僅將自注意力機制模塊嵌入到網(wǎng)絡(luò)中分辨率較低的特征圖后,導(dǎo)致其提升效果有限.
Transformer[14]結(jié)構(gòu)不受限于局部運算,能夠建模全局上下文信息,在自然語言處理任務(wù)上有著出色的表現(xiàn).Dosovitskiy 等[15]提出了ViT(Vision Transformer),首次將Transformer 結(jié)構(gòu)應(yīng)用于圖像分類任務(wù),超越了基于CNN方法的分類精度.Zheng 等[16]結(jié)合ViT結(jié)構(gòu),將語義分割轉(zhuǎn)化為序列形式的預(yù)測任務(wù),開辟了語義分割任務(wù)的新范式,但ViT結(jié)構(gòu)輸出特征圖的分辨率低且單一,導(dǎo)致局部信息的丟失.Chen等[17]和李耀仟等[18]均在U-Net的最小特征圖后引入Transformer結(jié)構(gòu),將卷積層提取的特征轉(zhuǎn)換為序列輸入到Transformer中,從而捕獲全局依賴關(guān)系,但其參數(shù)量大、計算復(fù)雜度較高.Cao等[19]參考Swin Transformer[20],分成多個階段產(chǎn)生不同尺度的特征,提出了基于編碼器-解碼器的純Transformer結(jié)構(gòu),改善了腹部和心臟圖像分割結(jié)果,但該結(jié)構(gòu)需要預(yù)訓(xùn)練權(quán)重才能發(fā)揮效果,導(dǎo)致其網(wǎng)絡(luò)結(jié)構(gòu)不能靈活調(diào)節(jié).
針對心臟MRI分割當(dāng)前面臨的技術(shù)問題,本文提出了一種全局和局部信息交互的雙分支U型網(wǎng)絡(luò)(UConvTrans),該模型在CNN基礎(chǔ)上引入Transformer結(jié)構(gòu),不僅能提取局部信息特征,還增強了網(wǎng)絡(luò)提取全局信息特征的能力.此外,本文提出的融合CNN及Transformer結(jié)構(gòu)的模塊(Fuse CNN and Transformer Block, FCTB)分別將CNN分支的輸出和Transformer分支的輸出相互拼接實現(xiàn)特征交互融合,增強了模型表達能力.最終,在MICCAI 2017 ACDC數(shù)據(jù)集[21]上的大量實驗結(jié)果表明,和其他基于CNN或者基于Transformer的方法相比,UConvTrans僅在較少的參數(shù)下,實現(xiàn)了目標(biāo)區(qū)域的準(zhǔn)確分割.
圖1 Swin Transformer 核心模塊Fig.1 Block of Swin Transformer
每個Swin Transformer 模塊均包含了兩個連續(xù)的多頭自注意力模塊,每個模塊均由層歸一化(Layer Normalization,LN)、多頭自注意力機制、殘差連接以及MLP組成,多層感知機由兩層線性層及高斯誤差線性單元(Gaussian Error Linear Unit,GELU)組成.其中第1個模塊應(yīng)用了W-MSA,第2個模塊為SW-MSA.整體計算過程如下:
(1)
(2)
(3)
(4)
在計算多頭(head)自注意力機制時,每個head的計算方式如下:
(5)
Swin Transformer中基于窗口的自注意力機制降低了原本自注意力機制的計算復(fù)雜度,整體框架借鑒CNN基網(wǎng)絡(luò)[22]中的層級結(jié)構(gòu)分成多個階段來獲取不同尺度的特征.而醫(yī)學(xué)圖像數(shù)據(jù)集規(guī)模較小,沒有通用的預(yù)訓(xùn)練權(quán)重,且目標(biāo)類別相對自然圖像而言也較少,分割精度要求更高,較大的模型會導(dǎo)致過擬合.因此與原本的Swin Transformer不同,本文提出的UConvTrans的核心模塊FCTB以CNN和Transformer相互融合的方式進行特征交互,FCTB中的Transformer結(jié)構(gòu)無需預(yù)訓(xùn)練權(quán)重,可以靈活調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),并且FCTB中的Transformer結(jié)構(gòu)結(jié)合CNN來補充局部位置信息,無需位置編碼.
為了增強網(wǎng)絡(luò)上下文信息感知能力以及保留豐富的細節(jié)信息,針對心臟MRI數(shù)據(jù)特點,提出了一種CNN和Transformer相互融合的雙分支分割網(wǎng)絡(luò)框架,其整體結(jié)構(gòu)基于編碼器-解碼器的形式,如圖2所示.圖中:C表示模型的基礎(chǔ)特征圖通道數(shù);D表示模型的基礎(chǔ)序列特征維度數(shù);H和W代表輸入圖像的高度和寬度;LIFM為最終的信息整合模塊(Last Information Fusion Module,LIFM).
圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of proposed method
在編碼器中,主要分為5個階段,即圖2中的Enc0到Enc4.首先,大小為H×W×1(輸入圖像通道數(shù)為1)的圖像經(jīng)過Stem模塊來提取初始特征,Stem由大小為7×7,步長為2的卷積、批標(biāo)準(zhǔn)化(Batch Normalization, BN)和線性修正單元(Rectified Linear Unit,ReLU)組成,其輸出特征圖的大小為H/2×W/2×C.接著在Enc1階段,Stem模塊的輸出在CNN分支經(jīng)過1×1卷積后輸入到FCTB中,在Transformer分支經(jīng)過Patch Embed后進入FCTB中,Patch Embed具體過程為先經(jīng)過1×1卷積將特征圖映射為H/2×W/2×D大小,然后經(jīng)Flatten操作后展開為序列的形式,序列特征大小為HW/4×D.然后在Enc2階段,卷積分支通過最大池化層將分辨率大小為H/2×W/2的特征圖降低為H/4×W/4,并通過1×1卷積將通道數(shù)C增大為2C,得到大小為H/4×W/4×2C的特征圖.Transformer分支通過Patch Merging[20]將大小為HW/4×D的序列特征轉(zhuǎn)換為HW/16×2D,之后一同輸入到FCTB中,后續(xù)Enc3到Enc4這兩個階段處理過程與Enc2階段類似.編碼器分為多個階段來提取淺層的空間信息和深層的語義信息,其CNN分支為Transformer分支提供局部特征和位置信息,Transformer分支為CNN分支提供全局上下文信息.
在編碼器提取深層次特征后,UConvTrans通過解碼器來降低特征圖和序列特征的維度并恢復(fù)原始輸入尺寸,解碼器分為4個階段,即圖中的Dec1到Dec4.在Dec1階段中,CNN分支通過雙線性插值將分辨率大小為H/16×W/16的特征圖增大為H/8×W/8,并通過1×1卷積將通道數(shù)由8C減少為4C,得到大小為H/8×W/8×4C的特征圖.然后該特征圖與編碼器Enc3階段的卷積分支輸出的特征圖進行跳躍連接,在通道維度上拼接(Concat)后得到大小為H/8×W/8×8C的特征圖,經(jīng)1×1卷積將通道數(shù)降低到4C后得到大小為H/8×W/8×4C的特征圖.Transformer分支通過Patch Expanding[19]將大小為HW/256×8D的序列特征轉(zhuǎn)化為HW/64×4D,然后與編碼器Enc3階段的Transformer分支輸出的序列特征進行跳躍連接,經(jīng)Concat后得到HW/64×8D的序列特征,之后通過線性層將維度數(shù)降低為4D,得到大小為HW/64×4D的序列特征,然后兩分支將各自處理的結(jié)果輸入到FCTB中.Dec2,Dec3的處理過程與Dec1類似,Dec3階段兩分支的輸出通過LIFM后,再上采樣到原圖大小,經(jīng)1×1卷積得到最終的分割預(yù)測圖,其大小為H×W×4(4為類別數(shù),包含背景).為了減少編碼器下采樣時丟失的信息,解碼器每次上采樣后的特征和編碼器提取的特征通過跳躍連接進行融合,進而能夠改善心臟MRI多尺度目標(biāo)和心室及心肌輪廓細節(jié)的分割.
本文提出的融合CNN及Transformer結(jié)構(gòu)的FCTB模塊能夠利用CNN和Transformer的各自優(yōu)勢分別提取局部和全局特征,并通過交互融合的方式,既構(gòu)建了上下文依賴關(guān)系,又豐富了局部細節(jié)信息,增強了網(wǎng)絡(luò)提取特征的能力.FCTB是編碼器和解碼器各個階段的核心模塊,其詳細結(jié)構(gòu)圖如圖3所示,由兩個分支構(gòu)成,一個為Transformer分支,另一個為CNN分支.
(6)
(7)
(8)
(9)
(10)
為了補充位置信息和增強局部特征表達,Trans_Block1的輸出與Conv_Block1的輸出進行融合.其中,Trans_Block1的輸入序列特征大小為Li×Di,Li為在第i個階段的序列特征長度,Di為第i個階段的序列特征維度數(shù),Conv_Block1的輸出特征圖大小為Hi×Wi×Ci,Hi和Wi為在第i個階段的特征圖的高與寬,Ci為第i個階段特征圖的通道數(shù),并且Li=Hi×Wi.首先將Conv_Block1的輸出展開成序列特征的形式,展開后大小為Li×Ci,即圖3中的Flatten操作,之后與Trans_Block1的輸出在特征維度上進行拼接,此時大小為Li×(Di+Ci),接著經(jīng)一個線性層將維度數(shù)Di+Ci降低到Di,再輸入到Trans_Block2中進行處理,Trans_Block2的計算過程與Trans_Block1一致,最終輸出序列特征大小為Li×Di.
以上的校園環(huán)境制約了師生拓展眼界、開闊思維。教師要想在課本之外,讓學(xué)生更多的浸泡于英語環(huán)境,更多地去感受英語語言的魅力,也苦于無米成炊。以上環(huán)境不利于學(xué)生真正掌握地道的英語思維方式,也不利于學(xué)生在真實環(huán)境中靈活運用英語語言。
通過引入Transformer結(jié)構(gòu),網(wǎng)絡(luò)增強了提取全局信息特征的能力,并且由于Transfomer分支在計算時得到了CNN分支提供的位置信息和局部特征,所以FCTB舍棄了Transformer原本的位置編碼,通過融合CNN提取的特征來獲得位置信息,從而避免了固定輸入尺寸的限制.
1.3.2FCTB中的CNN分支 CNN分支主要由兩個連續(xù)的卷積殘差瓶頸模塊[22](Conv_Block)組成,其處理過程與Transformer分支類似,該模塊包括1×1卷積、3×3卷積、BN和ReLU激活函數(shù),在輸入和瓶頸模塊的輸出之間通過殘差連接來加速模型收斂.
為了彌補CNN建模全局信息能力的不足,將Conv_Block1的輸出與Trans_Block1的輸出進行融合.其中,Conv_Block1輸出的特征圖大小為Hi×Wi×Ci,Trans_Block1輸出的序列特征大小為Li×Di.首先將Trans_Block1的輸出進行轉(zhuǎn)換,轉(zhuǎn)換后得到大小為Hi×Wi×Di的特征圖,即圖3中的Reshape操作,然后和Conv_Block1的輸出在通道維度上進行拼接,此時特征圖大小為Hi×Wi×(Ci+Di),最終經(jīng)過一個1×1的卷積將維度數(shù)Ci+Di降低到Ci后,再輸入到Conv_Block2中,最終卷積分支輸出特征圖的大小為Hi×Wi×Ci.CNN分支能夠提取局部特征,而融合了Transformer分支的輸出后,增強了模型建模上下文信息的能力.
最終的信息融合模塊LIFM用于融合Transformer分支和CNN分支的最終輸出,其結(jié)構(gòu)如圖4所示.解碼器中兩分支的輸出通過融合模塊進行融合,Transformer分支的輸出首先經(jīng)過線性層,之后進行Reshape操作,CNN分支的輸出經(jīng)過1×1卷積后,與Transformer分支Reshape后的特征在通道維度上進行拼接,之后經(jīng)過1×1卷積降低維度.LIFM輸出的特征圖雙線性插值到原圖大小,經(jīng)1×1類別映射卷積得到分割結(jié)果.
圖4 LIFM模塊圖Fig.4 Structure of LIFM
該模型無需預(yù)訓(xùn)練權(quán)重,模型結(jié)構(gòu)參數(shù)可以靈活調(diào)整,本文的模型參數(shù)有以下兩種配置:① 輕量化模型為C=32,D=32,該配置下的模型參數(shù)量僅為3.65×106;② 高精度模型為C=32,D=64,該配置下的模型參數(shù)量為1.059×107.需要指出的是,以上兩種模型參數(shù)配置相較于經(jīng)典的CNN[22]和最近提出的視覺Transformer[20]網(wǎng)絡(luò)結(jié)構(gòu),基礎(chǔ)特征圖維度數(shù)和序列特征維度數(shù)都要更低,因此整體模型的參數(shù)量較少,模型的運行效率更高.此外,Transformer結(jié)構(gòu)其他的參數(shù)配置為:W-MSA[20]中Window尺寸為8,MLP中線性層的維度變化率為2,編碼器中Enc1到Enc4四個階段中W-MSA的head數(shù)分別為2,4,8,16,解碼器Dec1到Dec3三個階段中W-MSA中的head數(shù)分別為8,4,2.
本文使用的損失函數(shù)為Soft Dice Loss,具體計算公式如下:
(11)
式中:M為類別個數(shù);N為像素點總個數(shù);模型最終輸出經(jīng)過Softmax函數(shù)后得到Pi, j,Pi, j為第i個像素點被分類為第j個類別的概率;Ti,j為經(jīng) onehot編碼后的標(biāo)簽,表示第i個像素點屬于第j個類別.
圖5 ACDC數(shù)據(jù)示意圖Fig.5 Image of ACDC
由于在官網(wǎng)測試集上的提交次數(shù)有限,本文將原訓(xùn)練集劃分為訓(xùn)練集和驗證集,消融實驗在驗證集上進行驗證,最終在官方測試集上評估模型性能.為了保證每種疾病的患者圖像均參與訓(xùn)練,分別在5種疾病類型中隨機選取16個患者數(shù)據(jù)為訓(xùn)練集,其余4個為驗證集,將有標(biāo)簽的100個患者數(shù)據(jù)劃分為含80例患者的訓(xùn)練集和20例患者的驗證集.為了防止過擬合以及擴充訓(xùn)練數(shù)據(jù),對每張切片采取以下在線數(shù)據(jù)增強方式:隨機水平翻轉(zhuǎn)、隨機角度旋轉(zhuǎn)、隨機多尺度變化以及隨機裁剪.對于尺寸小于256 像素的切片進行零填充,最終輸入圖像尺寸為256 像素×256 像素,之后對每張圖像進行標(biāo)準(zhǔn)化處理.
為了評估模型性能,使用了Dice系數(shù)(Dice Similarity Coefficient,DSC)作為評價標(biāo)準(zhǔn).Dice系數(shù)衡量分割標(biāo)簽和預(yù)測結(jié)果的相似程度,數(shù)值范圍為0~1,0表示相似程度最小,1表示相似程度最大.DSC計算公式如下:
(12)
式中:NTP表示預(yù)測的像素點被正確分類為目標(biāo)類別的數(shù)量;NFP表示預(yù)測的像素點被錯誤分類為目標(biāo)類別的數(shù)量;NFN表示預(yù)測的像素點被錯誤分類為非目標(biāo)類別的數(shù)量.
實驗在i9-9820X CPU、兩塊NVIDIA RTX 2080 Ti GPU的設(shè)備上進行,操作系統(tǒng)為Ubuntu 20.04,并在PyTorch框架下實現(xiàn)網(wǎng)絡(luò)模型.實驗的總輪數(shù)設(shè)置為 1 000 輪,批數(shù)大小設(shè)為16,初始的學(xué)習(xí)率設(shè)為0.01,使用warming up預(yù)熱1輪后采取poly學(xué)習(xí)率衰減策略,衰減率為0.9.采用隨機梯度下降(Stochastic Gradient Descent, SGD)作為模型的優(yōu)化器,動量為0.9,權(quán)重衰減項設(shè)置為 1×10-4.
2.4.1核心模塊的有效性 為了驗證FCTB的有效性,本文對比了UConvTrans中的CNN分支、Transformer分支以及兩個分支是否融合的結(jié)果,實驗結(jié)果如表1所示.
表1 FCTB消融實驗結(jié)果Tab.1 Ablation experiment results of FCTB
首先對比前3組實驗,實驗的模型分別為僅有Transformer分支(Only Trans)、僅有CNN分支(Only Conv)以及有兩分支但FCTB中不進行融合(Trans+Conv)的結(jié)構(gòu).實驗表明,僅有Transformer分支的網(wǎng)絡(luò)平均Dice系數(shù)低于僅有CNN分支的網(wǎng)絡(luò),而結(jié)合兩分支后平均Dice系數(shù)達到了88.61%,相比于單分支網(wǎng)絡(luò)有了較大的提升.這說明本文模型當(dāng)僅有Transformer分支時,在該實驗數(shù)據(jù)中表現(xiàn)較差,而結(jié)合CNN和Transformer兩種結(jié)構(gòu)可以提高分割精度.
然后,后3組實驗分別是在有了兩分支的基礎(chǔ)上,在FCTB中僅融合CNN分支提取的特征到Transformer分支中的結(jié)構(gòu)(Fuse Conv to Trans)、僅融合Transformer分支提取的特征到CNN分支中的結(jié)構(gòu)(Fuse Trans to Conv)以及二者相互融合完整的FCTB結(jié)構(gòu).相比于未融合的雙分支結(jié)構(gòu),融合CNN分支提取的特征到Transformer分支中平均提升了0.15%,融合Transformer分支提取的特征到CNN分支中平均提升了0.64%,Transformer分支和卷積分支相互融合平均提升了0.77%,上述3種結(jié)構(gòu)的分割結(jié)果如圖6所示,二分支相互融合的方式得到的分割結(jié)果更加細膩.結(jié)果表明CNN分支得到Transformer分支提取的全局信息特征能夠有效提升分割精度,當(dāng)Transformer分支得到CNN分支補充的位置及局部特征后也會有輕微的提升, 而本文提出的FCTB模塊也能進一步提升兩個分支的融合效果.
圖6 不同融合方式下的分割結(jié)果Fig.6 Result of different fusion methods
2.4.2模型參數(shù)的有效性 為了驗證模型參數(shù)配置的有效性,此部分實驗對比了在不同參數(shù)情況下對分割性能的影響.對于CNN分支主要通過基礎(chǔ)特征圖通道數(shù)C控制其參數(shù)量,對于Transformer分支通過基礎(chǔ)序列特征維度數(shù)D控制其參數(shù)量,結(jié)果如表2所示.相對于C=32,D=32,當(dāng)增加Transformer分支的參數(shù)時(C=32,D=64),RV區(qū)域的得分提升了近1%,其余部分變化不大,而當(dāng)CNN分支的參數(shù)增加時(C=64,D=32),RV區(qū)域的得分提升了0.37%,但其余區(qū)域均有所下降,同時增加CNN和Transformer的參數(shù)量(C=64,D=64),并沒有提升整體的分割性能.結(jié)果表明:相比于CNN分支的參數(shù)量、計算量,整體的參數(shù)量和計算量受Transformer分支的影響更大,增大Transformer分支的參數(shù)能夠帶來一定的提升,但其參數(shù)量、計算量也會成倍增加,而采用第一組實驗(C=32,D=32)的配置能更好地平衡效率和精度.
表2 模型參數(shù)的消融實驗結(jié)果Tab.2 Ablation experiment results of model parameters
為說明本網(wǎng)絡(luò)模型在心臟MRI分割方面的優(yōu)勢,首先在本地劃分的驗證集上與經(jīng)典醫(yī)學(xué)圖像分割算法以及最近提出的基于Transformer的醫(yī)學(xué)圖像分割算法進行比較,實驗結(jié)果如表3所示.在C=32,D=32的配置下,和U-Net、Attention U-Net以CNN為基礎(chǔ)的網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量和計算量約為U-Net、Attention U-Net的10%和8%,但平均Dice系數(shù)分別提升了1.13%、0.86%.和基于Transformer的兩個網(wǎng)絡(luò)相比,本文的Transformer結(jié)構(gòu)在原結(jié)構(gòu)參數(shù)的基礎(chǔ)上進行了修改,而得益于信息交互融合的設(shè)計,本文的Transformer結(jié)構(gòu)在不需要預(yù)訓(xùn)練權(quán)重的情況下,同樣能夠有效提升模型分割精度.本模型在C=32,D=32的參數(shù)配置下,其參數(shù)量、計算量卻僅為TransUnet的3.47%、13.04%,但比TransUnet的平均得分僅低了0.09%,比SwinUnet平均提升了0.12%.而且本模型在C=32,D=64的參數(shù)配置下,能夠取得最高的平均Dice系數(shù).相比于表3中的其他模型,本模型設(shè)定的特征圖通道數(shù)或者序列特征維度數(shù)較小,因此整體模型的參數(shù)量也較小,并且能夠保持模型的精度.本模型以CNN和Transformer相互融合的方式來搭建整體網(wǎng)絡(luò),能夠結(jié)合CNN和Transformer的優(yōu)點,從而增強模型的特征提取能力,并且無需預(yù)訓(xùn)練權(quán)重,模型結(jié)構(gòu)參數(shù)可以靈活調(diào)整.
表3 本文的方法和其他方法在驗證集上的比較結(jié)果Tab.3 Comparison of proposed method and advanced methods on validation set
為了進一步驗證本文方法的有效性,表4展示了在官方測試集上的對比結(jié)果[21].與官網(wǎng)排行榜上的方法相比,本文方法在LV、Myo上取得了最高的Dice系數(shù),并在RV上接近最高的Dice系數(shù).
表4 在MICCAI 2017 ACDC 測試集上的比較結(jié)果Tab.4 Comparison in ACDC test set MICCAI 2017
最后,圖7展示了多個模型的分割結(jié)果及標(biāo)簽可視化對比,每一行是在本地劃分的驗證集中挑選的病例切片,每一列是不同模型的可視化結(jié)果,本文模型采用了C=32,D=64的參數(shù)配置.前兩行的可視化結(jié)果可以觀察到,和基于CNN的方法相比,本方法提取全局特征能力更強,得到的分割結(jié)果更加準(zhǔn)確,和基于Transformer的方法相比,本方法可以有效地保留細節(jié)信息,從而使目標(biāo)區(qū)域的輪廓更為平滑.第3行的結(jié)果可以看出,對于形狀變化不一的RV區(qū)域,本方法改善了該區(qū)域欠分割的問題.在最后一行結(jié)果中,本文方法和真實標(biāo)簽更為接近,沒有出現(xiàn)類別區(qū)域誤分割的問題.以上實驗說明了本方法可以提高RV這類困難區(qū)域的分割精度,并且模型判別能力強,能夠準(zhǔn)確識別心臟MRI中復(fù)雜多變的背景和目標(biāo)區(qū)域.
圖7 不同模型的分割結(jié)果可視化Fig.7 Visual comparison of cardiac segmentation results of different methods
針對心臟MRI分割任務(wù),本文的工作主要有:
(1) 提出了一種全局和局部信息交互的雙分支分割網(wǎng)絡(luò),該結(jié)構(gòu)通過CNN分支提取局部特征,Transformer分支建模全局上下文信息,能更好地識別輪廓細節(jié)并且抑制背景干擾,從而有效地應(yīng)對了心臟MRI分割的難點.
(2) 設(shè)計了一個融合模塊,有效融合了CNN提取的局部特征和Transformer提取的全局特征,提高了網(wǎng)絡(luò)的判別能力,并且本文模型中的Transformer結(jié)構(gòu)不需要在大規(guī)模數(shù)據(jù)上進行預(yù)訓(xùn)練.
(3) 在公開數(shù)據(jù)集MICCAI 2017 ACDC上驗證了該方法的有效性,模型的參數(shù)量、計算量較少,更好地平衡了精度和效率,而且在官方測試集中的心肌和左心室區(qū)域取得了到目前為止最高的Dice得分.雖然本文提出的模型能準(zhǔn)確分割心臟MRI的目標(biāo)區(qū)域,但該模型是二維網(wǎng)絡(luò),更適用于需要對原三維圖像切片成二維圖像的心臟MRI.在后續(xù)研究中,將對該模型進一步改進及優(yōu)化,使其更有效地應(yīng)用到切片信息更加豐富的三維醫(yī)學(xué)影像分割中.