祝鵬烜 黃體仁 李旭
摘 要: 針對現(xiàn)有新冠肺炎感染新型冠狀病毒感染區(qū)域的分割方法存在形態(tài)特征提取不充分、感染區(qū)域檢測不完整以及背景混淆等問題,提出了一種肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域的分割新模型:MSAG-TransNet模型。該模型在U型網(wǎng)絡的基礎上增加了多尺度特征抽取模塊、Transformer語義增強模塊和多重注意力門模塊等3個新模塊。首先設計了多尺度特征抽取模塊來增強骨干網(wǎng)絡的特征提取能力,通過多分支結(jié)構(gòu)的深度可分離卷積,充分提取感染區(qū)域的形態(tài)特征;其次,設計了Transformer語義增強模塊來捕獲圖像全局位置信息,整合局部形態(tài)特征;最后,設計了多重注意力門模塊,將提取的特征與對應上采樣過程的門信號拆分成不同分區(qū),然后利用注意力門抑制各分區(qū)的無效特征,得到最終分割結(jié)果。該模型在兩個公開的新冠肺炎新型冠狀病毒感染CT數(shù)據(jù)集上進行實驗,實驗結(jié)果顯示:分割圖像的Dice系數(shù)分別為82.03%和76.67%,精確率為77.27%和72.34%,交并比為69.53%和62.16%;與其他主流模型相比,該模型能夠提取更豐富的形態(tài)特征,檢測到更完整的感染區(qū)域,并且得到更精準的分割結(jié)果。該模型可以更精確的定位和量化新冠肺炎感染新型冠狀病毒感染區(qū)域,為臨床診療提供可靠參考。
關鍵詞: 新型冠狀病毒感染;CT圖像;圖像分割;卷積神經(jīng)網(wǎng)絡;U型網(wǎng)絡;Transformer
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1673-3851 (2023) 11-0734-11
引文格式:祝鵬烜,黃體仁,李旭.MSAG-TransNet:肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域的分割模型[J]. 浙江理工大學學報(自然科學),2023,49(6):734-744.
Reference Format: ZHU Pengxuan, HUANG Tiren, LI Xu. MSAG-TransNet: Segmentation model of COVID-19 infected areas in lung CT images[J]. Journal of Zhejiang Sci-Tech University,2023,49(6):734-744.
MSAG-TransNet: Segmentation model of COVID-19 infected areas in lung CT images
ZHU Pengxuan, HUANG Tiren, LI Xu
(School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China )
Abstract:? To solve the problems of insufficient morphological feature extraction, incomplete detection of infected areas and background confusion in the existing segmentation methods for infected areas of COVID-19, a new segmentation model MSAG-TransNet for infected areas of COVID-19 in lung CT images was proposed. This model adds three new modules to the U-shaped network: a multi-scale feature extraction module, a Transformer semantic enhancement module and a multi-attention gate module. Firstly, the multi-scale feature extraction module was designed to enhance the feature extraction ability of the backbone network, and a deep separable convolution of a multi-branch structure was used to fully extract the morphological features of the infected areas. Secondly, the global position information of the image was captured through the designed Transformer semantic enhancement module, and local morphological features were integrated. Finally, the multi-attention gate module was designed to split the extracted features and the gate signal corresponding to the upsampling process into different partitions, and then attention gates were used to suppress invalid features in each partition to obtain the final segmentation result. The model was tested on two publicly available COVID-19 CT datasets. Experimental results show that the Dice indexes of the segmented image are 82.03% and 76.67%, the accuracy rates are 77.27% and 72.34%, and the intersection and merger ratios are 69.53% and 62.16%, respectively. Compared with other mainstream models, this model can extract richer morphological features, detect more complete infected areas, and obtain more accurate segmentation results. Therefore, this model can more accurately locate and quantify the infected areas of COVID-19, and provide reliable guidance for clinical diagnosis and treatment.
Key words: COVID-19; CT image; image segmentation; convolutional neural network; U-shaped network; Transformer
0 引 言
新型冠狀病毒具有快速的傳播能力和超強的感染性,自2019年底開始在全球各地不斷蔓延,嚴重沖擊國內(nèi)外的醫(yī)療系統(tǒng),對人類健康造成了極大威脅。據(jù)世衛(wèi)組織統(tǒng)計,全球累計新型冠狀病毒感染確診病例超7.5億、死亡病例超680萬[1]。在疫情高峰期,醫(yī)療人員嚴重短缺,醫(yī)療資源擠兌現(xiàn)象時有發(fā)生。CT檢查因能觀察到磨玻璃影等典型的新冠肺炎新型冠狀病毒感染表現(xiàn),成為新型冠狀病毒感染的重要影像學檢查手段。但是,觀察大量肺部CT圖像并作出診斷是一項繁重的工作,且會因經(jīng)驗不足而導致誤診和漏診[2]。臨床上,對感染區(qū)域的分割一般由初級醫(yī)師手動勾畫,再由多名經(jīng)驗豐富的放射科醫(yī)師審核。250張CT圖像切片的分割需要大約400 min[3]。利用現(xiàn)有的計算機智能輔助診斷系統(tǒng)可以快速地從肺部CT圖像中自動分割出新冠肺炎感染新型冠狀病毒感染區(qū)域,不僅可以有效評估患者肺炎感染的嚴重程度及病變情況,提高診斷的準確率和效率[4-5],而且能夠避免醫(yī)患交叉感染的風險。將性能更好的端到端語義分割模型移植到這些計算機智能輔助診斷系統(tǒng)中并進行算法升級[6],可以提升肺炎感染區(qū)域分割精度,從而更好地分析肺部狀況,制定治療方案等。因此,設計一種分割結(jié)果更準確的模型,有助于醫(yī)生診療新冠肺炎新型冠狀病毒感染,對疾病診斷、疫情控制和患者治療等都有重要意義。
傳統(tǒng)的圖像分割方法有閾值分割、邊緣檢測等,但是這些方法難以準確分割CT圖像中灰度差異小或者邊界模糊的目標,整體分割效果并不理想。隨著深度神經(jīng)網(wǎng)絡技術的蓬勃發(fā)展,醫(yī)學圖像分割算法的性能得到了有效提升[7]。Ronneberger等[8]提出了基于全卷積神經(jīng)網(wǎng)絡設計的U-Net模型,該模型最初應用于細胞分割任務。由于該模型采用了U型結(jié)構(gòu),并使用跳躍連接將對應分辨率的特征信息引入上采樣過程中,可以有效利用高級語義信息和低級特征,為后續(xù)分割處理提供不同尺度的信息。受此啟發(fā),各種U-Net變種模型被廣泛應用于醫(yī)學圖像分割任務中,并取得了優(yōu)異的分割性能[9]。Zhou等[10]提出了UNet++模型,通過嵌套不同深度的U-Net,對跳躍連接進行了改進,并對網(wǎng)絡增加了深監(jiān)督,在肺結(jié)節(jié)數(shù)據(jù)集上提升了分割性能。Oktay等[11]提出了Attention U-Net模型,設計了注意力門模塊,使得模型可以自動學習聚焦目標結(jié)構(gòu),抑制圖像中無關區(qū)域的信息。Isensee等[12]提出了自適應深度學習框架nnU-Net模型,該模型充分利用了不同數(shù)據(jù)集的特性,可以自主將相應的基本架構(gòu)轉(zhuǎn)移到不同數(shù)據(jù)集和分割任務中,該模型在多項比賽和醫(yī)學圖像分割任務中表現(xiàn)優(yōu)異。Hatamizadeh等[13]提出了UNETR模型,直接將Transformer編碼器[14]提取的特征跳躍連接到解碼器中,該模型在多器官數(shù)據(jù)集上表現(xiàn)出較高的分割性能。Zhang等[15]提出了TransFuse模型,該模型可以將Transformer編碼器分支和卷積編碼器分支中的多尺度特征進行有效融合,在息肉分割等任務上取得了較精確的結(jié)果。在肺部CT圖像分割任務中,Chen等[16]利用大量肺部CT圖像數(shù)據(jù)訓練UNet++模型,使模型的分割準確率達到與放射科醫(yī)生相當?shù)乃?。謝娟英等[17]提出了XR-MSF-Unet模型,引入了融合多尺度特征的注意力模塊,強化了模型的細節(jié)分割性能。顧國浩等[18]在U-Net基礎上引入了循環(huán)殘差模塊和自注意力機制,加強了模型對特征信息的抓取,從而使模型在應對新型冠狀病毒感染區(qū)域與血管相融時具有更高的分割精度。宋瑤等[19]采用預訓練網(wǎng)絡EfficientNet-B0進行特征提取,采用DUpsampling代替?zhèn)鹘y(tǒng)上采樣,使設計的模型獲取更多細節(jié)信息,在新冠肺炎新型冠狀病毒感染公開數(shù)據(jù)集上提高了分割性能。余后強等[20]提出了PCA-Unet模型,用PCA對肺部CT圖像中的新冠肺炎感染新型冠狀病毒感染區(qū)域進行特征預提取,去除了圖像中的噪聲等因素干擾,使模型能夠更準確地分割目標區(qū)域。
上述醫(yī)學圖像分割模型在新冠肺炎感染新型冠狀病毒感染區(qū)域的分割中存在以下問題:首先,由于肺部CT圖像中新型冠狀病毒感染區(qū)域形態(tài)各異、大小不一且紋理復雜,現(xiàn)有模型存在形態(tài)特征提取不充分的問題。其次,新型冠狀病毒感染區(qū)域通常分散于肺部CT圖像的不同位置,由于卷積運算感受野較小,長距離空間相關信息的學習能力有限,難以準確定位感染區(qū)域。Transformer編碼器可以通過自注意力機制很好地進行全局和長距離語義信息的交互,捕獲全局語義信息,但其對局部信息的特征抽取能力較弱。因此僅使用卷積或僅使用Transformer編碼器不能有效整合全局位置信息和局部形態(tài)特征,導致感染區(qū)域檢測結(jié)果不完整。最后,新型冠狀病毒感染區(qū)域通常表現(xiàn)為磨玻璃影、實變影及斑片狀模糊陰影,感染區(qū)域可彌漫至整個肺區(qū),且易與肺部氣管、血管等混淆[21-22]。如果無法有效抑制無關背景的特征信息,那么肺部CT圖像中的正常區(qū)域易被錯誤檢測為感染區(qū)域,導致背景混淆,從而降低分割性能。
針對分割任務中感染區(qū)域形態(tài)特征沒有得到充分挖掘、感染區(qū)域檢測的不完整以及背景混淆等問題,本文提出了一種肺部CT圖像中新型冠狀病毒感染區(qū)域的分割模型。本文將該模型命名為MSAG-TransNet,由每個模塊英文名稱的字母組合而成。該模型首先設計多尺度特征抽取模塊(Multi-scale feature extraction module, MS)來增強骨干網(wǎng)絡的特征提取能力,通過多分支結(jié)構(gòu),利用多尺度深度可分離卷積提取不同形態(tài)感染區(qū)域的空間信息,使用空間注意力機制實現(xiàn)多尺度信息交互,充分提取感染區(qū)域的形態(tài)特征。其次,設計了Transformer語義增強模塊(Transformer semantic enhancement module, Trans),將CT圖像及特定形態(tài)特征拆分成序列特征,并輸入Transformer編碼器捕獲全局位置信息,整合局部形態(tài)特征,充分利用卷積和Transformer的優(yōu)點。最后,設計了多重注意力門模塊(Multi-attention gate module, MAG),將提取的特征與對應上采樣過程的門信號拆分成不同分區(qū),利用注意力門抑制各分區(qū)的無效特征,從而突出感染區(qū)域的特征信息,得到最終分割結(jié)果。由于該模型融合了多尺度的形態(tài)特征和全局信息,并能抑制無效特征,因此有望提高新冠肺炎感染新型冠狀病毒感染區(qū)域檢測的完整性和背景區(qū)分度,進而提升模型的分割性能。將該模型移植到現(xiàn)有的計算機智能輔助診斷系統(tǒng)中,有望在不改變硬件的情況下提高分割結(jié)果的精度,更好地輔助醫(yī)生診療患者。
1 本文模型
本文提出的MSAG-TransNet模型是一個端到端的語義分割模型。該模型采用編解碼器體系,模型結(jié)構(gòu)示意圖如圖1所示。該模型的骨干網(wǎng)絡采用U-Net的架構(gòu)方式,保留在醫(yī)學圖像分割任務上表現(xiàn)優(yōu)異的U型結(jié)構(gòu)和跳躍連接。整體網(wǎng)絡共分5層,每層編碼器由1個卷積塊和MS模塊組成,每個卷積塊由2個相連的3×3卷積和線性整流函數(shù)(Rectified linear unit, Relu)組成,其中:C表示卷積塊輸出通道數(shù)。肺部CT圖像經(jīng)過5個MS模塊增強的編碼器進行4次下采樣,抽取到盡可能充分的多尺度形態(tài)特征。在模型第1層和第5層設置Trans模塊,其中第1層的輸入由肺部CT圖像和第1層編碼器抽取的特征堆疊而成。第1層的輸出分為兩部分:一部分與第5層編碼器抽取的特征進行堆疊,利用Transformer編碼器進一步學習特征之間的遠程依賴關系;另一部分與模型最終的上采樣結(jié)果相連接。這一設計可以加強網(wǎng)絡最低層和最高層的特征交互,整合全局和局部信息。下采樣特征經(jīng)過4次上采樣恢復原有分辨率,這樣會使得圖像信息丟失。為減少有用信息丟失,并使模型有效抑制肺部CT圖像中的背景信息,在每層跳躍連接中加入本文設計的MAG模塊。
1.1 多尺度特征抽取模塊:MS模塊
由于患者感染程度不同,新冠肺炎感染新型冠狀病毒感染區(qū)域形狀多變,大小不一。即使同一感染者,在病程不同時期,其肺部感染區(qū)域也在不斷變化[23]。在感染區(qū)域的分割任務中,需要利用各種形態(tài)的信息。但是單一尺寸的卷積核對特征抽取的能力不足,在分割時無法有效提取目標不同形態(tài)的特征,因此本文設計了MS模塊,以獲得感染區(qū)域更豐富的形態(tài)特征。
該模塊通過多分支結(jié)構(gòu)來實現(xiàn)多尺度特征的抽取,并通過空間注意力機制[24]提取CT圖像中感染區(qū)域不同尺度的重要空間信息,最后對不同尺度卷積核抽取的特征進行加權,得到最終的特征圖,實現(xiàn)多尺度信息的交互。MS模塊流程如圖2所示,其中:Oi表示該模塊的輸出特征圖;Fi表示該模塊的輸入特征圖;“DW,1×7”表示卷積核大小為1×7的深度可分離卷積操作,其他類似;“1×k”“k×1”“2×2”表示對應卷積核大小的常規(guī)卷積操作。
首先將骨干網(wǎng)絡第i層卷積塊提取的特征圖Fi作為輸入傳入該模塊,進行一次深度可分離卷積運算以進一步抽取特征,然后通過一個多分支深度可分離卷積抽取多尺度特征,每個分支的輸出特征Sj的計算公式為:
其中:fDW( )表示深度可分離卷積操作,卷積核大小為5×5;fj( )表示第j個分支的計算函數(shù)。在每個分支中串聯(lián)使用兩個帶狀深度可分離卷積來近似不同尺度的大核深度可分離卷積。參考Guo等[25]提出的多分支模型的卷積核大小設置方法,本文設置3個分支,每個分支的卷積核大小分別為7、11和21。使用深度可分離卷積和串聯(lián)使用1×k、k×1的帶狀卷積來代替一個k×k大小的卷積核,以減少模型的參數(shù)量,提高程序運行效率。帶狀卷積核作為傳統(tǒng)方形網(wǎng)格卷積核的補充,抽取更多不同形態(tài)的特征。這里的分支數(shù)和卷積核大小的設置均可以根據(jù)任務不同進行調(diào)整組合。
為了有效整合各個分支的信息,本文對不同分支提取的特征Sj與fDW(Fi)進行逐元素(Element-wise)相加,隨后用卷積建模不同通道間的關系得到中間特征S,S的計算公式為:
其中:fCon1( )表示卷積操作,卷積核大小為1×1。然后對S應用Woo等[24]提出的空間注意力機制進一步提取出重要的空間信息,得到空間注意力特征A,A的計算公式為:
其中:fCat( )、fAve( )、fMax( )分別表示通道堆疊操作、通道平均池化和通道最大池化;fCon7( )表示卷積核大小取7×7的卷積操作。
為了自適應地選擇不同分支的權重,參考Li等[26]提出的“引導特征”(Attention guided feature)方法,進一步對得到的雙通道空間注意力特征A進行步長為2的卷積操作,生成一個單通道空間分辨率減半的引導特征s,降低空間分辨率和通道數(shù)以提高效率。隨后引導特征s經(jīng)轉(zhuǎn)置卷積生成3通道的注意力特征,用于自適應地選擇不同空間尺度的信息。這里對注意力特征的通道應用指數(shù)函數(shù)歸一化運算,得到第j個分支的自適應權重wj,計算過程可用式(4)—(5)表示:
其中:fReLu( )、fBN( )分別表示線性整流激活函數(shù)和批量歸一化函數(shù);fConk1( )、fCon1k( )分別表示卷積核大小k×1、1×k的卷積操作;fT( )表示卷積核大小為2的轉(zhuǎn)置卷積操作。
該模塊的最終輸出特征圖Oi為輸入特征Fi與各個不同分支特征的加權和的殘差連接,可用式(6)表示為:
1.2 Transformer語義增強模塊:Trans模塊
由于肺部CT圖像中的感染區(qū)域分散,因此較難得到位置準確、結(jié)構(gòu)完整的新型冠狀病毒感染區(qū)域分割圖。本文針對感染區(qū)域檢測不完整的問題設計了Trans模塊。該模塊通過改進Dosovitskiy等[27]提出的ViT模型,可以有效整合全局位置信息和局部形態(tài)特征。ViT模型將原本應用于自然語言處理領域的Transformer推廣到了計算機視覺領域,首先將圖像拆分變形并重組為序列特征,然后利用線性映射改變序列特征維度,最后把序列特征作為輸入,利用Transformer編碼器來捕獲豐富的全局語義信息。但簡單地把輸入圖像分割成幾個較大的圖像塊很難抓取到圖像的低層特征,如邊和角等局部形態(tài)特征。因此將特定卷積提取的形態(tài)特征與Transformer捕獲的全局信息融合,能充分利用卷積和Transformer的優(yōu)點。
本文設計的Trans模塊流程如圖3(a)所示。首先將模型第1層編碼器抽取的形態(tài)特征O1進行最大池化和平均池化操作,得到最大池化特征和平均池化特征,并將這2個特征與原圖像堆疊成一個3通道的輸入圖像。其次將維度為H×W×3的輸入圖像拆分成維度為P×P×3的小圖像塊,拆分后的小圖像塊個數(shù)為N=H×W/P2。所有小圖像塊經(jīng)過變形重組得到維度為N×L的序列特征,并通過線性映射,將原來的N×L維序列特征變成N×D維序列特征z0。然后將z0輸入8個堆疊的Transformer編碼器中,其中第4個Transformer編碼器的輸出特征z4,通過MAG模塊跳躍連接最終的上采樣結(jié)果。第8個Transformer編碼器的輸出特征z8,進行1個3×3卷積操作后,與最終的下采樣特征O5堆疊,并進行拆分和線性映射。最后將該特征傳入4個堆疊的Transformer編碼器中,進一步融合全局信息。
Transformer編碼器流程如圖3(b)所示,其中:zi-1、zi分別表示每個編碼器的輸入和輸出。Transformer編碼器由一個多頭注意力模塊和多層感知機組成,其間采用殘差連接,并在輸入前進行層歸一化(Layer normalization, LN)。輸出zi可由式(7)—(9)計算得到:
其中:z、zmid分別表示層歸一化序列特征和多頭注意力提取的中間特征;fMSA( )、fMLP( )、fLN( )分別表示多頭注意力、多層感知機和層歸一化的函數(shù)。
1.3 多重注意力門模塊:MAG模塊
編碼器下采樣過程會極大壓縮圖像的信息,特征圖的分辨率會隨著下采樣過程降低。在解碼器部分,通過轉(zhuǎn)置卷積或者上采樣操作將這些低分辨率特征圖恢復到原始分辨率大小時,需要填補很多空白內(nèi)容。如果這個過程缺乏足夠多的輔助信息,會導致大量有用特征與無關背景特征混雜。采用跳躍連接可以把相應分辨率的特征引入上采樣或轉(zhuǎn)置卷積過程,為最后的圖像分割處理提供更多的信息。但是將編碼器提取的特征圖通過跳躍連接與解碼器上采樣的特征進行簡單通道堆疊,會混入干擾分割的無效背景特征。因此,為了進一步突出對分割任務有用的圖像信息,抑制無效背景特征,本文采用注意力門機制對特征進行有效融合。
本文對注意力門進行改進,設計了MAG模塊。將特征圖拆分成多個較小的特征塊,每個小特征塊學習不同的注意力門參數(shù),自適應地利用門信號對不同區(qū)塊中的像素點進行特征融合,進一步提高模型抑制無效背景特征的能力,從而精細化分割結(jié)果。MAG模塊的流程如圖4所示。其中:oij為編碼器第i層抽取的特征Oi拆分后的小特征塊;Gi為解碼器部分第i+1層特征上采樣后的特征,在該模塊中作為門信號;gij為Gi拆分后的小特征塊;Ui為該模塊第i層的最終輸出。
首先把Oi拆分成M個小特征塊oij,Oi的維度為C×Ho×Wo,oij的維度為C×ho×wo。拆分保持特征通道數(shù)不變,拆分后的特征塊個數(shù)M=(Ho/ho)×(Wo/wo)。其中:Ho和Wo是Oi的高和寬;ho和wo是oij的高和寬。門信號Gi按同樣的方式拆分成M塊,每塊gij與oij相對應,由gij作為oij的門信號進行后續(xù)的操作。拆分后的特征塊分別進行不同的1×1卷積操作,并與線性整流激活函數(shù)和Sigmoid結(jié)合,生成各自的權重圖yij,yij由式(14)計算:
其中:fCon3( )表示卷積核大小為3×3的卷積操作。將不同的權重圖yij按位置拼接,得到與原始特征圖大小相同的權重圖Y,MAG模塊的最終輸出Ui由式(15)計算:
1.4 損失函數(shù)
本文模型運用交叉熵(Cross entropy)作為逐像素(pixel-wise)監(jiān)督的損失函數(shù)Lce,Lce可用式(16)計算:
其中:Yseg和Pseg分別是實際的標簽值和預測為正類的概率值。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集及評價指標
2.1.1 實驗數(shù)據(jù)集
本文將MSAG-TransNet模型與7種主流模型在兩個公開的新冠肺炎新型冠狀病毒感染CT數(shù)據(jù)集上進行對比實驗。數(shù)據(jù)集1來源于新冠肺炎新型冠狀病毒感染CT肺部感染分割數(shù)據(jù)集[3],該數(shù)據(jù)集由20例新冠肺炎新型冠狀病毒感染患者的CT圖像以及專家手動勾畫的標簽圖像組成。文件以NifTi格式(*.nii)提供,使用nibabel包讀取。CT圖像的分辨率為512×512,原始數(shù)據(jù)的CT圖像共有3520個切片。標簽圖像分為2類,分別是背景和感染區(qū)域。將原始數(shù)據(jù)中CT圖像和標簽圖像轉(zhuǎn)換成Png格式,剔除全陰的樣本后剩余1844個切片,將其按病例劃分為訓練集和測試集,分別包含15、5個病例的切片數(shù)據(jù),其中1482個切片用于訓練,362個切片用于測試。
數(shù)據(jù)集2來源于網(wǎng)絡公開數(shù)據(jù)[28],該數(shù)據(jù)集由199例新冠肺炎新型冠狀病毒感染患者的CT圖像以及專家手動勾畫的標簽圖像組成。CT圖像的分辨率為512×512,原始數(shù)據(jù)的CT圖像中共有13705個切片。將原始數(shù)據(jù)中CT圖像和標簽圖像轉(zhuǎn)換成Png格式,剔除全陰的樣本后剩余4981個切片,將其按病例劃分為訓練集及測試集,分別包含160、39個病例的切片數(shù)據(jù),其中3985個切片用于訓練,996個切片用于測試。
訓練中對圖像進行隨機縮放和長寬的扭曲、翻轉(zhuǎn)圖像、改變飽和度和明度等數(shù)據(jù)增強操作。
2.1.2 評價指標
本文采用Dice系數(shù)、精確率、交并比和Hausdorff距離這4個廣泛使用的指標對實驗結(jié)果進行量化評價,其計算公式為:
其中:DSC、Pr、IoU分別表示Dice系數(shù)、精確率和交并比;HD表示Hausdorff距離,mm;TP表示預測結(jié)果是正類,實際是正類的樣例;FP表示預測結(jié)果是正類,實際是負類的樣例;TN表示預測結(jié)果是負類,實際是負類的樣例;FN表示預測結(jié)果是負類,實際是正類的樣例;PB、GB分別表示預測結(jié)果和實際標簽的邊界點集;pB、qB分別表示PB和GB上的像素點的坐標。精確率越高,預測正確的感染區(qū)域占所有感染區(qū)域的比例越高。Dice系數(shù)和交并比指標越高,模型整體分割性能越好。Hausdorff距離越小,預測結(jié)果的邊界距離和實際標簽的邊界越近。
2.2 實驗配置及參數(shù)設置細節(jié)
本文模型通過Pytorch工具包在一塊NVIDIA GeForce RTX 3060 GPU上進行訓練。為了提高運行效率,將訓練圖片尺寸變?yōu)?56×256,batchsize設置為2。本文使用SGD優(yōu)化器進行網(wǎng)絡優(yōu)化,初始學習率設置為1×10-2,動量設置為0.99,權重衰減設置為5×10-5。學習率依據(jù)“polyLR”[12]更新,總共經(jīng)過500輪的迭代訓練。其他對比模型除nnU-Net外也按上述同樣的方法進行訓練,nnU-Net使用其默認的訓練策略。本文模型在兩個數(shù)據(jù)集上的訓練曲線如圖5所示,顯示了損失函數(shù)值隨訓練輪數(shù)增加的變化情況。
2.3 實驗結(jié)果分析
2.3.1 消融實驗結(jié)果分析
為了證實模型中增加的不同模塊的有效性,本文進行如下實驗:在原始骨干網(wǎng)絡的基礎上,先后加入MS模塊、Trans模塊和MAG模塊進行對比。實驗結(jié)果如表1所示。在骨干網(wǎng)絡上增加MS模塊后,Dice系數(shù)、精確率和交并比分別提升了3.24%、5.01%和4.37%,各項指標增幅明顯,這表明模型提取了更為豐富的形態(tài)特征。繼續(xù)在模型中加入Trans模塊后,精確率提升11.25%,這表明模型檢測到了更完整的感染區(qū)域。由于模型將圖像內(nèi)更多的點預測為感染區(qū)域,精確率雖然大幅提升,但模型同時把更多的背景誤分為目標,導致Dice系數(shù)和交并比僅提升了0.72%和1.01%。最后引入的MAG模塊可以有效抑制無效背景特征,雖然精確率有所下降,但是Dice系數(shù)和交并比相較于加入了前兩個模塊的模型進一步提升了1.23%和1.75%,模型整體表現(xiàn)更佳。這表明了本文所提出的改進設計可以有效提升分割效果。
圖6展示了消融實驗的分割結(jié)果。從圖6中可以看出,增加MS模塊后得到的分割結(jié)果具有更準確的形態(tài)細節(jié)。繼續(xù)增加Trans模塊后,模型將圖像中更多的點預測為感染區(qū)域,但是檢測到更多感染區(qū)域的同時也將更多的背景錯誤分類。最后增加MAG模塊,誤分的無關背景得到了有效抑制。該結(jié)果進一步表明本文設計的各個模塊有效。
2.3.2 分割結(jié)果的對比分析
為了進一步驗證所提出模型的有效性,本文將其在上述公開數(shù)據(jù)集上與7種主流模型進行了比較,這些對比模型包括U-Net[8]、Attention U-net[11]、UNETR[13]、nnU-Net[12]、UNet++[10]、TransFuse[15]及BSNet[6]。表2和表3分別顯示了以上不同模型在兩個數(shù)據(jù)集上獲得的Dice系數(shù)、精確率、交并比及Hausdorff距離。
實驗結(jié)果表明,相較于U-Net,本文模型在兩個數(shù)據(jù)集上的Dice系數(shù)分別提升了5.19%和4.84%,精確率提升了7.45%和9.92%,交并比提升了7.13%和6.11%,Hausdorff距離降低了4.1 mm和13.14 mm。相較于第二優(yōu)的模型,Dice系數(shù)分別提升了1.92%和1.63%,交并比提升了2.71%和2.11%,Hausdorff距離降低了0.95 mm和3.85 mm。這表明本文模型在新冠肺炎感染新型冠狀病毒感染區(qū)域分割的結(jié)果更精準。
圖7顯示了本文模型與其他模型的分割結(jié)果。結(jié)合圖7、表2和表3的評價指標結(jié)果可知:
a)U-Net模型采用的U型結(jié)構(gòu)和跳躍連接加強了編解碼器之間的信息傳遞,但其使用單一尺度的卷積進行特征提取,無法充分獲取圖像信息,導致實驗結(jié)果的分割精確率不高。
b)利用Attention U-net模型得到的評價指標結(jié)果明顯優(yōu)于U-Net,表明注意力門機制的引入可以提升模型分割肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域的性能。
c)利用UNETR模型得到的一些分割結(jié)果在形態(tài)上與實際標簽差距大,該模型使用Transformer編碼器完全替代卷積編碼器,雖然提升了模型學習遠程空間依賴性的能力,但是會損失很多局部細節(jié)信息。
d)nnU-Net模型使用的網(wǎng)絡結(jié)構(gòu)與U-Net一致,在實驗中采用其默認的自適應訓練方式,利用數(shù)據(jù)集特性自動設置超參數(shù)。由于其沒有在本質(zhì)上解決感染分割任務的問題,該模型得到的評價指標結(jié)果相較于U-Net沒有提升。
e)TransFuse模型在編碼器中以并行方式融合了卷積分支和Transformer分支,整合了全局語義信息和局部特征信息,相較于完全使用Transformer作編碼器的UNETR提升了分割性能。由于Transformer的歸納偏置相比于卷積更少,需要大量數(shù)據(jù)才能得到更好的實驗結(jié)果。在增加了數(shù)據(jù)量的第二個數(shù)據(jù)集上,該模型的精確率高于U-Net等卷積神經(jīng)網(wǎng)絡模型,但模型整體分割效果仍不理想。
f)利用UNet++模型進行實驗得到的評價指標優(yōu)于上述模型,該模型嵌套不同深度的U-Net來提取不同層次特征,并在網(wǎng)絡中加入深監(jiān)督,有效整合不同層次的特征。但該模型檢測的感染區(qū)域仍然有所缺失,形態(tài)細節(jié)仍有不足。
g)BSNet模型在精確率上優(yōu)于其他模型,該模型設計了雙分支語義增強模塊和鏡像對稱邊界引導模塊,對不同高級特征之間的互補關系進行建模,從而能夠生成更完整的分割結(jié)果。但其誤分了更多的背景區(qū)域,這使得該模型在其他指標上的表現(xiàn)不如本文提出的模型。
h)本文提出的MS模塊可以提取CT圖像中感染區(qū)域不同尺度的重要空間信息,充分融合多分支信息增強特征提取能力,分割的感染區(qū)域形態(tài)更接近實際標簽。Trans模塊對全局語義信息的提取更加準確,且能有效整合局部特征,可以檢測出更完整的感染區(qū)域。MAG模塊通過對特征圖的拆分精細分配有用特征信息與無效背景特征的權重,有效抑制肺部無關背景信息。與上述主流方法相比,本文所提出的模型能更準確、更完整地定位和分割肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域。
各個模型的每輪平均訓練時間及每張切片的平均測試時間如表4所示。每輪訓練時間基于數(shù)據(jù)集1的實驗計算。本文模型在數(shù)據(jù)集1上的每輪訓練時長為175.85 s,每張切片的測試時間為0.18 s。雖然訓練時間較長,但測試時間與其他模型相差無幾,將訓練完成的模型移植到計算機智能輔助診斷系統(tǒng)中可以在幾乎不影響效率的情況下得到更好的分割結(jié)果。
3 結(jié) 語
為了提升肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域的分割性能,本文提出了MSAG-TransNet模型。該模型在U型網(wǎng)絡的基礎上增加了MS模塊、Trans模塊和MAG模塊。消融實驗結(jié)果表明,所加的3個模塊都能提升模型的評價指標。設計的MS模塊有效整合了不同形態(tài)感染區(qū)域的空間信息,可以有效增強模型的特征抽取能力;Trans模塊有效整合了全局位置信息和局部形態(tài)特征,可以使模型檢測到更完整的新冠肺炎感染新型冠狀病毒感染區(qū)域;MAG模塊可以使模型有效抑制無關背景特征。與7種當前主流的分割模型相比,本文模型的各項算法評價指標更優(yōu)。因此,本文提出的模型能夠有效提升肺部CT圖像中新冠肺炎感染新型冠狀病毒感染區(qū)域的分割性能,更好地輔助醫(yī)生診療肺炎新型冠狀病毒感染患者。
參考文獻:
[1]World Health Organization. WHO coronavirus(COVID-19) dashboard[EB/OL]. (2023-01-30)[2023-03-03]. https:∥covid19.who.int/.
[2]左斌, 李菲菲. 基于注意力機制和Inf-Net的新冠肺炎圖像分割方法[J]. 電子科技, 2023, 36(2): 22-28.
[3]Ma J, Wang Y X, An X L, et al. Toward data-efficient learning: a benchmark for COVID-19 CT lung and infection segmentation[J]. Medical Physics, 2021, 48(3): 1197-1210.
[4]Zhao W T, Jiang W, Qiu X G. Deep learning for COVID-19 detection based on CT images[J]. Scientific Reports, 2021, 11:14353.
[5]Wu J T, Leung K, Leung G M. Nowcasting and forecasting the potential domestic and international spread of the 2019-nCoV outbreak originating in Wuhan, China: A modelling study[J]. The Lancet, 2020, 395(10225): 689-697.
[6]Cong R M, Zhang Y M, Yang N, et al. Boundary guided semantic learning for real-time COVID-19 lung infection segmentation system[J]. IEEE Transactions on Consumer Electronics, 2022, 68(4): 376-386.
[7]彭璟,羅浩宇,趙淦森,等. 深度學習下的醫(yī)學影像分割算法綜述[J]. 計算機工程與應用,2021, 57(3): 44-57.
[8]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[9]王卓英,童基均,蔣路茸,等. 基于U-Dense-net網(wǎng)絡的DSA圖像冠狀動脈血管分割[J]. 浙江理工大學學報(自然科學版), 2021, 45(3): 390-399.
[10]Zhou Z W, Rahman Siddiquee M M, Tajbakhsh N, et al. UNet++: A nested U-Net architecture for medical image segmentation[C]∥International Workshop on Deep Learning in Medical Image Analysis, International Workshop on Multimodal Learning for Clinical Decision Support. Cham: Springer, 2018: 3-11.
[11]Oktay O, Schlemper J, Folgoc L L, et al. Attention U-Net: Learning where to look for the pancreas[EB/OL]. (2018-5-20)[2023-03-03]. https:∥arxiv.org/abs/1804.03999.
[12]Isensee F, Jaeger P F, Kohl S A A, et al. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J].Nature Methods, 2021, 18(2): 203-211.
[13]Hatamizadeh A, Tang Y C, Nath V, et al. UNETR: Transformers for 3D medical image segmentation[C]∥2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Waikoloa, HI, USA. IEEE, 2022: 1748-1758.
[14]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL]. (2017-12-06)[2023-03-03]. https:∥arxiv.org/abs/1706.03762.
[15]Zhang Y D, Liu H Y, Hu Q. TransFuse: Fusing transformers and CNNs for medical image segmentation[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2021: 14-24.
[16]Chen J, Wu L L, Zhang J, et al. Deep learning-based model for detecting 2019 novel coronavirus pneumonia on high-resolution computed tomography[J]. Scientific Reports, 2020, 10(1): 19196.
[17]謝娟英,張凱云. XR-MSF-Unet: 新冠肺炎肺部CT圖像自動分割模型[J]. 計算機科學與探索,2022, 16(8): 1850-1864.
[18]顧國浩,龍英文,吉明明. U-Net改進及其在新冠肺炎圖像分割的應用[J]. 中國醫(yī)學物理學雜志,2022, 39(8): 1041-1048.
[19]宋瑤,劉俊. 改進U-Net的新冠肺炎圖像分割方法[J]. 計算機工程與應用,2021, 57(19): 243-251.
[20]余后強,徐懌璠,徐靜蕾,等. 基于PCA的Unet網(wǎng)絡用于新冠肺炎CT圖像分割[J]. 現(xiàn)代信息科技,2022, 6(20): 94-97.
[21]姬廣海,黃滿華,張慶,等. 新型冠狀病毒肺炎CT表現(xiàn)及動態(tài)變化[J]. 中國醫(yī)學影像技術,2020, 36(2): 242-247.
[22]許玉環(huán),呂曉艷,張見增,等. 新型冠狀病毒肺炎不同臨床分型的CT特征[J]. 中國醫(yī)學影像學雜志,2020, 28(12): 887-890.
[23]丁晨宇,秦立新,余輝山,等. 新型冠狀病毒肺炎患者的CT表現(xiàn)及動態(tài)變化特點[J]. 臨床放射學雜志,2021, 40(1): 55-59.
[24]Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]∥European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[25]Guo M H, Lu C Z, Hou Q, et al.SegNeXt: Rethinking convolutional attention design for semantic segmentation[EB/OL]. (2022-09-18)[2023-03-03].https:∥arxiv.org/abs/2209.08575.
[26]Li X, Wang W H, Hu X L, et al. Selective kernel networks[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2020: 510-519.
[27]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL].(2021-06-03)[2023-03-03]. https:∥arxiv.org/abs/2010.11929.
[28]Roth H, Xu Z Y, Tor-Díez C, et al. Rapid artificial intelligence solutions in a pandemic: The COVID-19-20 lung CT lesion segmentation challenge[J]. Medical Image Analysis, 2022, 82: 102605.
(責任編輯:康 鋒)
收稿日期: 2023-03-03網(wǎng)絡出版日期:2023-06-07
基金項目: 浙江省自然科學基金項目(LQ21F030019)
作者簡介: 祝鵬烜(1993- ),男,浙江江山人,碩士研究生,主要從事醫(yī)學圖像分割方面的研究。
通信作者: 李 旭,E-mail:lixu0103@163.com