左 斌,李菲菲
(上海理工大學(xué) 上??祻?fù)器械工程技術(shù)研究中心,上海 200093)
新型冠狀病毒肺炎(簡(jiǎn)稱(chēng)“新冠肺炎”)在全球的廣泛傳播,引起了一場(chǎng)世界性的健康危機(jī),嚴(yán)重威脅了人類(lèi)健康。世衛(wèi)組織將此疾病命名為“2019年冠狀病毒”,簡(jiǎn)稱(chēng)為COVID-19。截止2021年2月23日,全球已累計(jì)報(bào)告超過(guò)1.11億例確診病例,其中逾247.3萬(wàn)人死亡,該病已經(jīng)成為人類(lèi)歷史上致死人數(shù)最多的流行病之一。針對(duì)疫情防控,快速檢測(cè)與隔離感染者對(duì)于限制病毒的傳播起著十分重要的作用。逆轉(zhuǎn)錄聚合酶鏈反應(yīng)(Reverse Transcription-Polymerase Chain Reaction,RT-PCR)是鑒定COVID-19的金標(biāo)準(zhǔn),可檢測(cè)由鼻咽拭子、口咽拭子、支氣管肺泡灌洗液或氣管抽吸物樣本中的病毒RNA。然而,RT-PCR的檢測(cè)操作較為繁雜,且檢測(cè)時(shí)耗較長(zhǎng)。胸部計(jì)算機(jī)斷層掃描(Computed Tomography,CT)成像可通過(guò)肺部影響快速識(shí)別出疑似病例,故而可作為COVID-19篩查的輔助解決方案[1]。
CT肺部圖像的毛玻璃結(jié)節(jié)可以作為檢測(cè)新冠肺炎的重要指標(biāo),但感染初期的肺部玻璃結(jié)節(jié)在CT影像圖中特征并不明顯,若醫(yī)生經(jīng)驗(yàn)不足或診斷不夠細(xì)致都極易導(dǎo)致誤診。因此,精確地分割病變區(qū)域?qū)υ\斷、治療和預(yù)后都有著重要意義。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展[2],基于深度學(xué)習(xí)的自動(dòng)分割技術(shù)可以輔助醫(yī)生進(jìn)行診斷,能有效提高COVID-19的診斷準(zhǔn)確率和醫(yī)生的診斷效率,為臨床治療爭(zhēng)取更多時(shí)間。文獻(xiàn)[3]提出了PPM-Unet,使用金字塔池化模塊替換了原始U-Net中的跳躍連接,并且通過(guò)加入全局注意力機(jī)制提升神經(jīng)網(wǎng)絡(luò)的特征表示能力,從而提升網(wǎng)絡(luò)對(duì)于新冠肺炎圖像的分割效果。文獻(xiàn)[4]針對(duì)多站點(diǎn)數(shù)據(jù)存在較大差異的問(wèn)題,提出了一種基于U-Net的深度卷積網(wǎng)絡(luò)。該方法使用了重采樣體素間距和ROI提取,并運(yùn)用深監(jiān)督和集成分割來(lái)提升網(wǎng)絡(luò)性能。文獻(xiàn)[5]提出一種基于U-Net改進(jìn)模型的自動(dòng)分割方法,其編碼器采用預(yù)訓(xùn)練好的EfficientNet-B0網(wǎng)絡(luò)進(jìn)行特征提取,解碼器部分采用DUpsampling結(jié)構(gòu)替換傳統(tǒng)的上采樣操作,以此來(lái)獲取病灶的細(xì)節(jié)信息。
將深度學(xué)習(xí)方法應(yīng)用到新冠肺炎感染CT切片分割的相關(guān)工作仍然較少,且存在一些問(wèn)題:(1)CT切片中不同病灶間的紋理、大小和位置差異較大;(2)類(lèi)間差異很小,例如毛玻璃影的邊界通常對(duì)比度較低且外觀模糊,難以識(shí)別;(3)新冠疫情爆發(fā)突然,短時(shí)間內(nèi)較難獲取高質(zhì)量、像素級(jí)標(biāo)注的肺部感染圖像,因此目前大部分COVID-19公開(kāi)數(shù)據(jù)集都僅集中在診斷上,只有極少數(shù)據(jù)集提供了分割標(biāo)簽,且具有分割標(biāo)注的CT圖像數(shù)量極其有限。
為了解決上述問(wèn)題,本文提出了一種基于注意力機(jī)制和Inf-Net[6]改進(jìn)的mInf-Net,用于二維CT圖像中COVID-19肺部感染的分割。注意力機(jī)制能夠強(qiáng)調(diào)有用的特征,并抑制不相關(guān)的特征,增強(qiáng)特征的表示能力,有效提高網(wǎng)絡(luò)的分割精度[7]。實(shí)驗(yàn)表明,相較于原始Inf-Net以及其他一些主流方法,本文提出的改進(jìn)算法有效提高了CT圖像下新冠肺炎病灶分割的準(zhǔn)確率。
本文所提算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示?;诨A(chǔ)的編碼器-解碼器結(jié)構(gòu),CT圖像首先通過(guò)前兩層卷積層獲取高分辨率、弱語(yǔ)義性的低層特征。同時(shí),加入邊緣注意力模塊來(lái)顯式提升目標(biāo)區(qū)域邊緣的表示。所獲取的低層特征f2隨后被送入后3層卷積層,用于提取高層特征。為了聚合這些高層特征,首先利用一個(gè)平行部分解碼器(Parallel Part Decoder, PPD),生成一個(gè)全局映射特征圖Sg用于肺部感染的粗定位。然后,這些特征與f2結(jié)合,并在Sg的指導(dǎo)下被送入多個(gè)反向注意力(Recurrent Attention,RA)模塊。這些RA模塊以級(jí)聯(lián)的方式連接并依賴(lài)于上一個(gè)RA模塊的輸出。最后,末尾的RA模塊輸出S3被送入Sigmoid激活函數(shù)中,生成最終的肺部感染區(qū)域預(yù)測(cè)圖。下文將對(duì)所提出的mInf-Net算法進(jìn)行詳細(xì)說(shuō)明。
圖1 mInf-Net模型的架構(gòu)圖Figure 1. The architecture of the mInf-Net model
邊緣信息在分割中是十分有用的信息,它可以在分割的過(guò)程中提供有效的約束關(guān)系。有經(jīng)驗(yàn)的放射科醫(yī)生在進(jìn)行手動(dòng)標(biāo)注時(shí)也通常是先確定目標(biāo)區(qū)域的邊緣,再進(jìn)行內(nèi)部區(qū)域的推斷[8-10]。由于低層特征(例如模型中的f2)已經(jīng)保留了足夠豐富的邊緣信息,因此將具有合適分辨率的低層特征f2輸入到邊緣注意力(External Attention,EA)模塊,即可學(xué)習(xí)到關(guān)注于邊緣的特征表示。具體地,特征f2通過(guò)卷積層得到邊緣映射圖,之后使用標(biāo)準(zhǔn)的二值交叉熵?fù)p失函數(shù)來(lái)度量邊緣映射圖與由真值圖(Ground Truth,GT)導(dǎo)出的邊緣真值圖Ge的差異性
(1)
式中,Ge由真值圖Gs的導(dǎo)數(shù)求得;(x,y)是所預(yù)測(cè)的邊緣圖Se和邊緣真值圖Ge中每一個(gè)像素點(diǎn)的坐標(biāo),w和h分別代表對(duì)應(yīng)特征映射圖的寬和高。
目前大多數(shù)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[11-15]在分割目標(biāo)器官和病灶區(qū)域時(shí)利用了編碼器中所有的高、低層特征。低層特征由于其具有更大的空間分辨率,相較于高層特征往往需要占用更多的計(jì)算資源,但其對(duì)性能的提升卻效果甚微。因此,本文算法采用平行部分解碼器模塊來(lái)聚合高級(jí)特征。首先,采用Res2Net[16]網(wǎng)絡(luò)的前5層作為編碼器,分別提取兩組低層特征{fi,i=1,2}和3組高層特征{fi,i=3,4,5}。然后,使用部分解碼器pd(?)[17]以平行連接的方式來(lái)聚合高層特征。
圖2 平行部分解碼器Figure 2. Paralleled partial decoder
為了進(jìn)一步加強(qiáng)特征表示,本文在平行部分解碼器中加入了通道注意力模塊,如圖2所示。高層特征的每一個(gè)通道圖都可以被看作是某一個(gè)特定類(lèi)的響應(yīng)[18],因此通過(guò)采用通道注意力模塊來(lái)顯式地建模通道之間的相互依賴(lài)關(guān)系,從而提升特定語(yǔ)義的特征表示能力,具體的通道注意力模塊細(xì)節(jié)如圖3所示。
圖3 通道注意力模塊Figure 3. Channel attention module
在臨床實(shí)踐中,臨床醫(yī)生通常將分割分成兩步,首先粗略定位感染區(qū)域,然后通過(guò)檢查局部組織結(jié)構(gòu)對(duì)這些區(qū)域進(jìn)行準(zhǔn)確標(biāo)記。受此過(guò)程啟發(fā),本文的網(wǎng)絡(luò)分別使用兩種不同的網(wǎng)絡(luò)組件作為粗略的定位器和精細(xì)的標(biāo)注器。首先,PPD模塊作為粗略定位器生成一個(gè)無(wú)結(jié)構(gòu)化細(xì)節(jié)的全局映射圖Sg,用以提供肺部感染區(qū)域的粗略定位信息。然后,本文所提出的算法采用了一個(gè)漸進(jìn)式框架,用一種擦除的方式來(lái)精修具有鑒別性的感染區(qū)域,實(shí)現(xiàn)了更為精細(xì)的標(biāo)注[19-20]。參考文獻(xiàn)[6]中的結(jié)構(gòu),網(wǎng)絡(luò)擦除從高層旁側(cè)輸出的預(yù)測(cè)感染區(qū)域,依次挖掘補(bǔ)充的區(qū)域和細(xì)節(jié),同時(shí)由更深的網(wǎng)絡(luò)層信息上采樣得到當(dāng)前的預(yù)測(cè)結(jié)果。通過(guò)使用RA中的擦除策略可以最終將粗糙、不準(zhǔn)確的預(yù)測(cè)區(qū)域細(xì)化為完整且準(zhǔn)確的預(yù)測(cè)圖。
圖4 反轉(zhuǎn)注意力模塊Figure 4. Reverse attention module
通過(guò)將高層輸出特征{fi,i=3,4,5}與具有RA權(quán)重Ai的邊緣注意力特征eatt=f2相乘可獲得輸出的RA特征,如圖4所示。與文獻(xiàn)[6]中直接對(duì)兩部分特征進(jìn)行拼接操作來(lái)強(qiáng)調(diào)邊緣信息不同的是,為了更好地在模塊中強(qiáng)調(diào)邊緣信息的特征,本文采用了注意力門(mén)模塊[7]替換拼接操作,更加有效地利用了f2中的邊緣特征。注意力門(mén)模塊的具體細(xì)節(jié)如圖5所示。
圖5 注意力門(mén)模塊Figure 5. Attention gate module
反轉(zhuǎn)注意力模塊的具體過(guò)程為
Ri=AG(fi⊙Ai,Dow(eatt))
(2)
式中,Dow(?)表示下采樣操作;AG(?)表示注意力門(mén)操作,之后接有兩層具有64個(gè)濾波器的二維卷積層。
RA權(quán)重Ai被定義為
Ai=ε(⊙(σ(Up(Si+1))))
(3)
式中,Up(?)代表上采樣操作;σ(?)為Sigmoid激活函數(shù);-(?)是從全1矩陣中減去輸入的取反操作;符號(hào)ε代表將單通道的特征圖拓展為64通道。
在章節(jié)1.2中,本文將損失函數(shù)edge用于邊緣監(jiān)督。同時(shí),損失函數(shù)seg被定義為加權(quán)IoU損失函數(shù)與加權(quán)二值交叉熵(Binary Cross Entropy,BCE)損失函數(shù)的結(jié)合,即
(4)
式中,λ代表權(quán)值,參照文獻(xiàn)[6]的實(shí)驗(yàn)參數(shù)設(shè)置,在本文實(shí)驗(yàn)中其也設(shè)置為1。最后,對(duì)3個(gè)側(cè)向輸出(即S3,S4和S5)進(jìn)行深監(jiān)督,每個(gè)側(cè)向輸出都被上采樣至與對(duì)象級(jí)分割真值圖Gs相同的大小。因此,總損失函數(shù)為式(5)。
(5)
由于新冠疫情是新爆發(fā)的疾病,因此具有分割標(biāo)注的二維CT圖像十分有限,并且手動(dòng)分割肺部感染區(qū)域是一項(xiàng)困難且費(fèi)時(shí)的工作。為了解決此問(wèn)題,本文使用半監(jiān)督學(xué)習(xí)策略來(lái)利用大量未標(biāo)記的CT圖像有效地?cái)U(kuò)充訓(xùn)練數(shù)據(jù)。圖6展示了半監(jiān)督學(xué)習(xí)框架的概述,該框架主要基于隨機(jī)抽樣策略,用于逐步擴(kuò)張訓(xùn)練數(shù)據(jù)集的未標(biāo)注數(shù)據(jù)。該框架的訓(xùn)練和選擇策略簡(jiǎn)單易行,并且可以提供比其他半監(jiān)督學(xué)習(xí)方法更好的性能,能有效防止網(wǎng)絡(luò)發(fā)生過(guò)擬合。
圖6 半監(jiān)督mInf-Net框架圖Figure 6. Overview of the semi-supervised mInf-Net framework
本次實(shí)驗(yàn)使用COVID-19 CT分割數(shù)據(jù)集,這是第一個(gè)用于分割任務(wù)且公開(kāi)的COVID-19數(shù)據(jù)集。該數(shù)據(jù)集包括由意大利醫(yī)學(xué)和介入放射學(xué)會(huì)收集的來(lái)自40名不同COVID-19患者的100張軸向二維CT圖像組成。使用前將數(shù)據(jù)集中的每張圖像的尺寸都統(tǒng)一調(diào)整為352×352。由于數(shù)據(jù)集較小,實(shí)驗(yàn)使用多尺度訓(xùn)練策略來(lái)訓(xùn)練網(wǎng)絡(luò),并使用不同的縮放比例{0.75,1,1.25}對(duì)訓(xùn)練圖像進(jìn)行重新采樣。然后,使用重新采樣的圖像對(duì)本文提出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而提高模型的泛化能力。
本實(shí)驗(yàn)基于NVIDIA Tesla K40c GPU,網(wǎng)絡(luò)使用Pytorch框架進(jìn)行搭建,并利用Python進(jìn)行編程。本文使用Adam優(yōu)化器進(jìn)行訓(xùn)練,并將學(xué)習(xí)率設(shè)置為1×10-4,批尺寸為16,執(zhí)行100次迭代。
本文主要采用以下3個(gè)被廣泛使用的評(píng)價(jià)指標(biāo):Dice相似系數(shù)、靈敏度以及特異率。此外,還從目標(biāo)檢測(cè)領(lǐng)域引入了3個(gè)黃金指標(biāo):結(jié)構(gòu)度量[21]、增強(qiáng)對(duì)齊度量[22]以及平均絕對(duì)誤差。本文選擇具有Sigmoid函數(shù)的S3作為最終預(yù)測(cè)Sp,因此度量最終預(yù)測(cè)圖與對(duì)象級(jí)分割真值G之間的相似與不相似性可被表述為:
(1)結(jié)構(gòu)指標(biāo)Sα。該指標(biāo)用于度量預(yù)測(cè)圖與真值圖之間的結(jié)構(gòu)相似度,其與人類(lèi)視覺(jué)系統(tǒng)更為接近
Sα=(1-α)×So(Sp,G)+α×Sr(Sp,G)
(6)
式中,α用于控制對(duì)象級(jí)別相似度So和區(qū)域級(jí)別相似度Sr之間的平衡。參考文獻(xiàn)[6]中的參數(shù)設(shè)置,本實(shí)驗(yàn)也將α設(shè)置為0.5;
(7)
式中,φ代表增強(qiáng)對(duì)齊矩陣;w和h代表真值圖G的寬和高;(x,y)表示圖中每個(gè)像素的坐標(biāo)。
(3)平均絕對(duì)誤差(Mean Absolute Error MAE)。該指標(biāo)度量了Sp和G之間像素級(jí)別的誤差,計(jì)算式如式(8)所示。
(8)
為了評(píng)估本文算法的性能,將其與幾種主流的醫(yī)學(xué)圖像分割方法進(jìn)行比較,結(jié)果如表1所示。通過(guò)數(shù)據(jù)分析可知,本文所提出的mInf-Net在COVID-19 CT分割數(shù)據(jù)集上Dice指標(biāo)提高了0.8%,靈敏度提高了4.8%,證明了該算法的有效性。此外,通過(guò)將半監(jiān)督學(xué)習(xí)策略引入到本文所提出的算法中,可以進(jìn)一步提高算法的性能。改進(jìn)后算法的Dice指標(biāo)提高了6.1%,靈敏度提高了1.4%,特異率提高了3.1%,在性能表現(xiàn)上優(yōu)于其他算法。
圖7為3張不同CT圖像分割結(jié)果的可視化效果圖。從可視化結(jié)果中也能看出,本文模型可以有效地分割新冠肺炎病灶。
圖7 部分分割結(jié)果可視化Figure 7. Visualization of segmentation results
表1 實(shí)驗(yàn)結(jié)果比較分析
為了驗(yàn)證本文所加入的通道注意力和注意力門(mén)模塊的有效性,進(jìn)行了消融實(shí)驗(yàn),其結(jié)果如表2所示。將原始的Inf-Net作為Backbone,在加入通道注意力(Channel Attention Module,CAM)模塊后,各算法性能指標(biāo)都有所提升,而加入注意力門(mén)模塊(Attention Gates,AG)的算法在性能指標(biāo)上也都有較大幅度提升,證明了本文所提出的改進(jìn)可以有效提升分割效果。然而,當(dāng)兩個(gè)模塊組合后,雖然性能指標(biāo)也基本有所提升,但相較于只增加 AG的方法,效果并不十分明顯,甚至在特異率上略低于只增加 AG的方法。這可能是由于通道注意力模塊利用了通道間的相互依賴(lài)關(guān)系,降低了算法的特異率,因此在后續(xù)研究中將繼續(xù)針對(duì)這個(gè)問(wèn)題進(jìn)行改進(jìn)。
表2 消融實(shí)驗(yàn)結(jié)果
本文在Inf-Net的基礎(chǔ)上,提出了引入注意力機(jī)制模塊的醫(yī)學(xué)圖像分割算法,并將其用于新冠肺炎的圖像分割。該方法引入CAM來(lái)提高特征的表達(dá)能力,并同時(shí)加入AG來(lái)更好地利用低層卷積層所提取到的邊緣信息。此外,本文引入的半監(jiān)督學(xué)習(xí)策略可以有效解決新冠肺炎數(shù)據(jù)集較小的問(wèn)題,防止網(wǎng)絡(luò)發(fā)生過(guò)擬合。在COVID-19 CT分割數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法可有效提升新冠肺炎圖像的分割效果。但本研究方法中也存在一些不足之處,例如算法的特異率略有下降,在后續(xù)工作中也將進(jìn)一步進(jìn)行算法性能的提升。