謝娟英,張凱云
陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,西安710119
新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)給人類帶來了巨大危害。2020 年2 月4日中國(guó)國(guó)家衛(wèi)生健康委員會(huì)發(fā)布《新型冠狀病毒感染的肺炎診療方案》(試行第五版),將CT(computed tomography)影像列為新冠肺炎臨床診斷的重要依據(jù)。然而,醫(yī)生瀏覽大量CT 影像做出診斷是繁重的體力和腦力工作,而且新冠肺炎病情多變,存在個(gè)體差異,給醫(yī)生準(zhǔn)確診斷帶來挑戰(zhàn)。利用人工智能(artificial intelligence,AI)技術(shù)精確劃分CT 影像感染區(qū)域,輔助醫(yī)生進(jìn)行診斷是提高新冠肺炎診斷效率和準(zhǔn)確率、減輕醫(yī)生負(fù)擔(dān)、減少漏診和誤診的重要手段。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,利用人工智能技術(shù)分割醫(yī)學(xué)圖像取得了很大進(jìn)展。劉辰等人利用編解碼結(jié)構(gòu)和雙向卷積長(zhǎng)短記憶網(wǎng)絡(luò)組成的卷積神經(jīng)網(wǎng)絡(luò)分割海馬體MRI 圖像獲得了與專業(yè)醫(yī)生幾乎相同的分割結(jié)果;胡敏等人提出殘差八度卷積塊,結(jié)合混合注意力機(jī)制改進(jìn)U-Net網(wǎng)絡(luò),從而更精確地分割腦出血CT 圖像;沈懷艷等人提出一種利用多尺度語義特征融合和注意力機(jī)制的分割網(wǎng)絡(luò)MSFA-Net,實(shí)現(xiàn)從腹部CT 圖像中自動(dòng)分割肝臟;余昇等人采用MBConvBlock 編碼器模塊、插值重構(gòu)的解碼器模塊和改進(jìn)的三重閾值策略改進(jìn)U-Net網(wǎng)絡(luò),在氣胸X 射線圖像分割中取得了良好的性能;錢寶鑫等人提出了一種基于空洞空間金字塔池化、級(jí)聯(lián)操作和注意力機(jī)制的編解碼結(jié)構(gòu)的肺部分割網(wǎng)絡(luò),有效分割出肺實(shí)質(zhì)區(qū)域。
新冠肺炎患者肺部CT 圖像,感染區(qū)域?yàn)槊A雨幱凹皩?shí)變,斑片狀模糊陰影彌漫整個(gè)肺區(qū),極易與肺部氣管、血管等混淆。因此,基于AI 技術(shù)有效分割新冠肺炎肺部CT 圖像感染區(qū)域極具挑戰(zhàn)。國(guó)內(nèi)外關(guān)于新冠肺炎CT 圖像輔助診斷研究包括CT 圖像感染區(qū)域分割和分類兩大類。分類方面:Wang 等人提出一種聯(lián)合學(xué)習(xí)框架,通過對(duì)異構(gòu)數(shù)據(jù)集進(jìn)行學(xué)習(xí),區(qū)分肺部CT 圖像為新冠肺炎陽性和陰性;Butt等人使用傳統(tǒng)ResNet-23 與加入注意力機(jī)制的ResNet-18 對(duì)新冠肺炎CT 圖像與普通肺炎CT 圖像和正常CT圖像進(jìn)行多分類研究。分割方面:Chen等人利用大量新冠肺炎CT 圖像訓(xùn)練UNet++,對(duì)CT 圖像進(jìn)行分割,達(dá)到專業(yè)醫(yī)生相當(dāng)水平,但該研究依賴于大量CT 圖像;Shan 等人提出一種基于“瓶頸結(jié)構(gòu)”的VB-Net 網(wǎng)絡(luò)來分割新冠肺炎CT 圖像,并提出專業(yè)醫(yī)生參與的“人在回路(human-in-the-loop,HITL)”的半監(jiān)督訓(xùn)練策略減少網(wǎng)絡(luò)訓(xùn)練時(shí)間,提高分割效率;Chen 等人通過在U-Net中加入殘差結(jié)構(gòu)和注意力機(jī)制改進(jìn)網(wǎng)絡(luò),提高新冠肺炎CT 圖像分割效果,但沒有解決訓(xùn)練樣本不足問題;Fan 等人提出基于并行解碼器和多注意力機(jī)制的Inf-Net 網(wǎng)絡(luò)對(duì)新冠肺炎CT 圖像進(jìn)行分割,并提出半監(jiān)督訓(xùn)練方式緩解標(biāo)記數(shù)據(jù)不足問題,實(shí)現(xiàn)對(duì)不同感染區(qū)域的多類分割;Budak 等人提出一種基于注意門控機(jī)制的ASegNet 模型實(shí)現(xiàn)自動(dòng)分割新冠肺炎CT 圖像的病變區(qū)域;Kumar 等人提出基于RFA(receptive-fieldaware)模塊的LungINFseg 模型,其中提出的RFA 模塊可以擴(kuò)大感受域且不丟失任何特征信息,從而提高模型學(xué)習(xí)能力。此外,還有分割和分類相結(jié)合的研究:如,Wang 等人采用兩步法來確定新冠肺炎是否陽性,訓(xùn)練一個(gè)弱監(jiān)督分割網(wǎng)絡(luò)對(duì)CT 圖像進(jìn)行分割,然后用DeCoVNet 網(wǎng)絡(luò)識(shí)別是否新冠肺炎陽性;吳辰文等人利用BIN(batch normalization&instancenormalization)殘差塊改進(jìn)U-Net網(wǎng)絡(luò)分割新冠肺炎CT圖像,結(jié)合多層感知器對(duì)分割后的圖像進(jìn)行分類預(yù)測(cè)。
盡管新冠肺炎CT 圖像感染區(qū)域分割研究取得了較大進(jìn)展,但是依然存在如下問題:首先,大部分研究所用數(shù)據(jù)集是非公開的,訓(xùn)練樣本少,易導(dǎo)致過擬合,研究結(jié)果泛化性能較差,所得系統(tǒng)無法輔助臨床診斷;其次,新冠肺炎肺部CT 圖像復(fù)雜,極易與其他肺部疾病混淆,編碼器提取有效分割特征非常困難;另外,新冠肺炎感染區(qū)域的彌漫性、位置不定、邊界不清、形狀多變,需要分割模型有極強(qiáng)的細(xì)節(jié)特征提取能力。
為解決上述問題,本文首先利用數(shù)據(jù)擴(kuò)充技術(shù)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,增加數(shù)據(jù)多樣性,以增強(qiáng)模型魯棒性,緩解目前存在的相關(guān)訓(xùn)練數(shù)據(jù)不足導(dǎo)致的模型過擬合問題。其次對(duì)U-Net 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),在Xie等人的ResNeXt結(jié)構(gòu)啟發(fā)下,提出XR(X ResNet)模塊,使用XR 替換U-Net的兩層普通卷積,以增強(qiáng)模型的特征提取能力。然后提出即插即用的融合多尺度特征的注意力模塊MSF(multi-scale features fusion module),融合不同大小感受野、全局、局部以及空間信息,提取包含更多細(xì)節(jié)信息的特征,以強(qiáng)化模型的細(xì)節(jié)分割效果。綜合上述改進(jìn),提出針對(duì)新冠肺炎CT 圖像感染區(qū)域自動(dòng)分割的新模型XR-MSF-Unet。
傳統(tǒng)語義分割采用基于顏色、形狀等低級(jí)語義信息,無法很好分割復(fù)雜圖像。深度學(xué)習(xí)技術(shù)使用高級(jí)語義信息進(jìn)行分割。2015 年,Long 等人首次使用全卷積神經(jīng)網(wǎng)絡(luò)對(duì)自然圖像進(jìn)行端到端分割,實(shí)現(xiàn)了從傳統(tǒng)方法到深度學(xué)習(xí)方法的突破。2015 年Ronneberger 等人在全卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上提出UNet 結(jié)構(gòu),在ISBI 細(xì)胞分割挑戰(zhàn)賽中獲得第一名。UNet 網(wǎng)絡(luò)包含編碼和解碼兩部分,編碼器進(jìn)行下采樣操作,提取原始圖像空間特征,解碼器進(jìn)行上采樣操作,根據(jù)編碼器所提取的空間特征構(gòu)造出圖像。為了防止對(duì)應(yīng)特征丟失,對(duì)應(yīng)編碼器和解碼器之間有跳躍連接。U-Net的編碼器采用兩層3×3 卷積、ReLU激活函數(shù)和2×2 最大池化,來提取圖像特征,共進(jìn)行4次下采樣,該過程降低特征圖尺寸,增加通道數(shù),最終通道數(shù)為原來的16 倍。解碼器部分使用2×2 反卷積進(jìn)行上采樣,減少通道數(shù),逐漸恢復(fù)特征圖尺寸。
然而,新冠肺炎CT 圖像十分復(fù)雜,U-Net 在編碼器每一個(gè)階段僅使用普通的兩層卷積和池化操作來提取特征,相較于經(jīng)過設(shè)計(jì)的卷積組合,這樣的特征提取方式容易導(dǎo)致模型無法提取到全部有用的特征信息,甚至還會(huì)有一部分特征在這個(gè)過程中丟失。此外,U-Net 的解碼器在逐步恢復(fù)圖像時(shí)也采用簡(jiǎn)單的兩層卷積和反卷積進(jìn)行,這樣又會(huì)導(dǎo)致一定的特征信息損失,最終使得網(wǎng)絡(luò)無法完全恢復(fù)圖像的復(fù)雜特征信息。另外,U-Net 沒有考慮全局、局部和不同空間位置的特征差異。為了提取新冠肺炎CT 圖像的復(fù)雜特征,提升對(duì)該類CT 圖像感染區(qū)域分割的準(zhǔn)確性,本文將對(duì)U-Net的特征提取結(jié)構(gòu)進(jìn)行改進(jìn)。
深層網(wǎng)絡(luò)模型往往具有更強(qiáng)特征提取能力。Alex 等人提出的AlexNet 通過堆疊卷積和分組卷積增加網(wǎng)絡(luò)深度,在2012 年的ImageNet 競(jìng)賽中取得冠軍。隨后,加深網(wǎng)絡(luò)深度和堆疊卷積成為深度學(xué)習(xí)的熱點(diǎn)。Szegedy 等人提出的Inception 系列網(wǎng)絡(luò),使用特定的堆疊卷積和分組卷積提取更多特征信息,但I(xiàn)nception 系列網(wǎng)絡(luò)的超參數(shù)有較強(qiáng)針對(duì)性,泛化性一般;另外,隨著網(wǎng)絡(luò)層數(shù)加深,模型的時(shí)間復(fù)雜度和空間復(fù)雜度不斷增加,并帶來梯度爆炸和消失問題。為此,He 等人2016 年提出ResNet,通過跳層連接避免網(wǎng)絡(luò)層數(shù)加深帶來的問題,同時(shí)避免高層特征損失,得到保留更多細(xì)節(jié)信息的特征圖,提高網(wǎng)絡(luò)提取信息的能力。
在ResNet 基礎(chǔ)上,Xie 等人于2017年結(jié)合Inception 系列網(wǎng)絡(luò)的“分解-轉(zhuǎn)換-融合”策略,提出ResNeXt 網(wǎng)絡(luò)。ResNeXt 提出“基數(shù)(cardinality)”概念,表示聚合的相同拓?fù)浣Y(jié)構(gòu)的數(shù)量。ResNeXt 網(wǎng)絡(luò)將輸入圖像經(jīng)過“基數(shù)”個(gè)相同拓?fù)浣Y(jié)構(gòu),聚合這些結(jié)構(gòu)的輸出,經(jīng)過一個(gè)全局池化得到最終的特征映射。通過聚合“基數(shù)”個(gè)相同拓?fù)浣Y(jié)構(gòu),使模型在增加少量參數(shù)基礎(chǔ)上,提取到更多特征信息,有效增加模型的特征提取能力,提升模型性能。
注意力機(jī)制是深度學(xué)習(xí)領(lǐng)域備受青睞的技術(shù),其原理源于人類視覺注意力機(jī)制,目的是使模型在處理信息時(shí)能實(shí)現(xiàn)信息資源的高效分配。注意力機(jī)制通過快速掃描全局,發(fā)現(xiàn)需要關(guān)注的重點(diǎn)區(qū)域,即注意力焦點(diǎn),對(duì)這些區(qū)域投入更多關(guān)注,從而獲得更多信息,同時(shí)抑制其他區(qū)域的干擾信息。Tsotsos等人在1995 年首次將注意力機(jī)制引入計(jì)算機(jī)視覺領(lǐng)域,認(rèn)為注意力作用就是通過減少處理樣本,增加樣本間的特征匹配度,優(yōu)化傳統(tǒng)視覺搜索方法。2017年的圖像分類挑戰(zhàn)賽ILSVRC 中提出的SENet開啟了融入注意力機(jī)制的深度學(xué)習(xí)。目前,注意力機(jī)制在分類、目標(biāo)檢測(cè)、語義分割等計(jì)算機(jī)視覺領(lǐng)域被廣泛應(yīng)用。
新冠肺炎肺部CT 圖像感染區(qū)域不僅包含磨玻璃陰影、鋪路石征、血管、氣管擴(kuò)張等影像學(xué)表現(xiàn),還有肺部正常血管、氣管以及結(jié)節(jié)等信息。對(duì)圖像感染區(qū)域進(jìn)行分割,需要模型能夠“關(guān)注”感染區(qū)域。因此,本文將使用注意力機(jī)制,以使模型重點(diǎn)“關(guān)注”感染區(qū)域,抑制其他信息,實(shí)現(xiàn)新冠肺炎CT 圖像感染區(qū)域的有效分割,提升模型的分割效果。
本章首先介紹提出的XR-MSF-Unet 模型的整體結(jié)構(gòu),然后詳細(xì)闡述XR-MSF-Unet 模型中提出的XR模塊和MSF 注意力模塊,最后介紹訓(xùn)練模型使用的損失函數(shù)。
XR-MSF-Unet模型結(jié)構(gòu)如圖1 所示,包括編碼區(qū)和解碼區(qū),是一個(gè)端到端的分割模型。提出的XR 模塊進(jìn)行特征提取和恢復(fù),編碼區(qū)每個(gè)XR 模塊后是提出的多尺度特征融合注意力模塊MSF,解碼區(qū)通過連續(xù)4 次上采樣,恢復(fù)圖像分辨率,輸出分割圖像。
從圖1 可見,XR-MSF-Unet 模型引入XR 模塊 提取更多特征信息,輸入圖像經(jīng)過5 個(gè)XR 模塊組成的編碼器進(jìn)行4 次下采樣,提取到盡可能多的特征信息,再使用4 個(gè)XR 模塊組成的解碼器進(jìn)行上采樣,盡可能多地恢復(fù)圖像信息。為了防止編碼區(qū)和解碼區(qū)對(duì)應(yīng)位置的特征丟失,使用跳躍連接來連接對(duì)應(yīng)的編碼器和解碼器,和U-Net 不同的是這里不需要剪裁,只需要拷貝即可。為了使模型重點(diǎn)“關(guān)注”感染區(qū)域,XR-MSF-Unet 模型在編碼器的每個(gè)XR 模塊之后加入提出的多尺度特征融合注意力模塊MSF,期望從豐富的特征信息中“關(guān)注”感興趣區(qū)域,提高模型的細(xì)節(jié)分割效果。
圖1 XR-MSF-Unet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Diagram of XR-MSF-Unet network structure
新冠肺炎肺部CT 圖像感染區(qū)域形狀復(fù)雜、邊界模糊,與圖像中其他結(jié)構(gòu)極易混淆。為了更好地分割出新冠肺炎肺部CT 圖像感染區(qū)域,對(duì)ResNeXt 模塊進(jìn)行推廣,提出圖2 所示的XR 模塊。每個(gè)分支都由1×1、3×3 和1×1 卷積組成,且都含有跳層連接,個(gè)分支聚合,構(gòu)成XR 模塊。XR 模塊通過個(gè)殘差塊的不同卷積提取圖像特征,以便獲得更好的分割特征。
圖2 XR 模塊結(jié)構(gòu)圖Fig.2 Diagram of XR module structure
如圖2 所示,由于不同分支的卷積路徑關(guān)注的特征信息不同,同一特征圖在經(jīng)過不同的卷積路徑后得到的特征圖也是不相同的,但是不同路徑得到的特征圖的耦合性較低,綜合所有卷積路徑的特征圖并進(jìn)行融合可以互相補(bǔ)充缺失的特征信息,這樣有利于得到更加完整的圖像特征信息。此外,XR 模塊的每一條卷積路徑使用了一個(gè)完整的殘差結(jié)構(gòu),由于殘差結(jié)構(gòu)可以解決網(wǎng)絡(luò)加深帶來的性能退化問題,從而進(jìn)一步避免了特征提取過程中產(chǎn)生的特征損失,更加有助于模型提取到更多特征信息。
新冠肺炎感染區(qū)域大多為彌漫性感染,整幅圖像中各個(gè)角落都可能存在感染區(qū)。卷積感受野大小決定特征關(guān)注區(qū)域大小,感受野過大或過小可能會(huì)使CT 圖像部分感染區(qū)域被分割錯(cuò)誤。另外,新冠肺炎感染區(qū)域位置不定,形狀復(fù)雜,極易與其他肺部結(jié)構(gòu)混淆,因此,為使模型能發(fā)現(xiàn)感染區(qū)域并增加其發(fā)現(xiàn)感染區(qū)域的能力,提出圖3 所示的融合多尺度特征的即插即用注意力模塊MSF(multi-scale features fusion module)。
為了避免感受野不同給模型特征提取帶來的問題,MSF 模塊使用3×3、5×5 和7×7 三種不同大小感受野的卷積核以并行的方式提取特征,這三種不同大小的卷積核分別具有小、中、大三種不同大小的感受野,提取的特征分別經(jīng)過批歸一化BN 和ReLU 激活后進(jìn)行特征融合,這樣并行的特征提取策略可以最大程度地減少串行卷積帶來的特征損失,可以保證融合后的特征圖中盡可能多地包含圖像的各種特征信息。之后,融合的特征分別經(jīng)過全局注意力模塊(global attention module,GAM)和空間注意力模塊(spatial attention module,SAM)構(gòu)成的一個(gè)分支以及局部注意力模塊(local attention module,LAM)和空間注意力模塊SAM 構(gòu)成的另一個(gè)分支,最后將兩支注意力模塊特征加和,實(shí)現(xiàn)不同大小感受野、全局、局部和不同空間特征的融合,使最終輸出的特征圖包含不同尺度和位置的信息,從各種維度最大限度保證模型提取到圖像更多的特征信息。
圖3 多尺度特征融合的注意力模塊MSFFig.3 MSF attention module fusing multi-scale features
全局注意力模塊GAM 如圖4 所示,采用注意力模塊CBAM(convolutional block attention module)中的通道注意力模塊(channel attention module,CAM)。其中的全局平均池化(global average pooling,GAP)在結(jié)構(gòu)上對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行正則化,避免了過擬合;全局最大池化(global max pooling,GMP)可以找到每個(gè)通道最大值的坐標(biāo),減少輸出層特征維度,減少圖像噪聲對(duì)提取特征的影響。因此,GAP 和GMP 模塊有助于模型獲取上下文關(guān)系,使GAM 模塊能更好地關(guān)注全局重點(diǎn)信息,有利于模型“關(guān)注”散布在整個(gè)圖像中的感染區(qū)域,增加模型的整體性能。1×1 卷積、ReLU 激活函數(shù)、1×1 卷積組成GAM 模塊的網(wǎng)絡(luò)連接層,為Sigmoid 函數(shù),⊕為加和操作。GAM 模塊得到式(5)表示的特征圖。
圖4 全局注意力模塊GAMFig.4 Global attention module GAM
局部特征信息提取的LAM 采用Wang 等人提出的ECA(efficient channel attention)注意力模塊。ECA對(duì)輸入特征圖進(jìn)行全局平均池化,通過一個(gè)1×大小的一維卷積實(shí)現(xiàn)局部跨通道交互,表示參與該通道注意力預(yù)測(cè)的鄰域通道數(shù),代表局部跨通道交互的覆蓋率,實(shí)驗(yàn)中值自動(dòng)選擇。
使不同鄰域通道參與某一個(gè)通道預(yù)測(cè),能有效注意到圖像的細(xì)節(jié)信息,提高模型對(duì)圖像細(xì)節(jié)信息的“關(guān)注”能力。因此,本文使用該模塊提高模型對(duì)感染區(qū)域局部細(xì)節(jié)的“關(guān)注”,實(shí)現(xiàn)更加精細(xì)的分割。
空間注意力模塊SAM 來自文獻(xiàn)[30],其主要作用是讓模型關(guān)注特征位置信息,關(guān)注有意義特征。SAM 模塊對(duì)輸入特征進(jìn)行基于通道的最大池化和平均池化,得到兩個(gè)單通道結(jié)果,將該兩結(jié)果拼接,經(jīng)過卷積操作得到一張二維特征圖,再經(jīng)過Sigmoid 函數(shù)得到最終的空間注意力特征圖。與文獻(xiàn)[30]的SAM模塊對(duì)拼接特征進(jìn)行7×7 卷積不同,本文通過實(shí)驗(yàn)選擇1×1 卷積。
圖3 中SAM 模塊分別將GAM、LAM 模塊的輸出特征作為輸入。GAM 模塊的特征圖經(jīng)過SAM 模塊得到式(6)融合全局和空間信息的特征圖;LAM 模塊的特征圖經(jīng)過SAM 模塊后得到式(7)融合局部和空間信息的特征圖。其中,AvgPool和MaxPool 分別表示平均池化和最大池化,[;]表示、拼接操作。
醫(yī)學(xué)圖像分割領(lǐng)域常用的損失函數(shù)是Milletari等人在2016 年提出的Dice Loss。Dice Loss 能很好地解決醫(yī)學(xué)圖像中正負(fù)類樣本不平衡問題。新冠肺炎感染區(qū)域分割圖像中感染區(qū)域(正類)和背景區(qū)域(負(fù)類)的分布不平衡,因此,本文使用Dice Loss 作為損失函數(shù)。Dice Loss源于Dice 系數(shù)(dice coefficient,DC),Dice 系數(shù)是一種集合相似性度量函數(shù),計(jì)算兩個(gè)集合的相似度,取值在[0,1]之間,如式(8)。
其中,代表真實(shí)結(jié)果GT(ground truth),代表模型分割的結(jié)果(predicted value),|?|表示集合和交集的元素個(gè)數(shù),||和||分別表示集合和的元素個(gè)數(shù)。Dice Loss表示為式(9)。
由于有監(jiān)督的圖像分割本質(zhì)上是對(duì)像素點(diǎn)進(jìn)行分類,Dice Loss在圖像分割表示為式(10)。
其中,為圖像總像素點(diǎn)數(shù),為類別數(shù),本文(=2)代表新冠肺炎圖像的感染區(qū)域和背景。(,)∈[0,1]代表像素點(diǎn)被劃分到第類的概率,即預(yù)測(cè)圖中像素點(diǎn)屬于類的概率,(,)∈[0,1]代表圖像中像素點(diǎn)屬于類的真實(shí)概率。
本章先介紹實(shí)驗(yàn)數(shù)據(jù)、評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)環(huán)境,然后測(cè)試本文的數(shù)據(jù)擴(kuò)增方法、XR-MSF-Unet 模型及其各模塊的性能,最后測(cè)試XR-MSF-Unet 模型的泛化性。
第3.1~3.7 節(jié)的實(shí)驗(yàn)數(shù)據(jù)來自數(shù)據(jù)集COVID-19 CT Segmentation Dataset,包含約60 例新冠肺炎患者的100張CT 圖像,是最具挑戰(zhàn)性的COVID-19分割數(shù)據(jù)集,本文命名為COVID-19-1。第3.8 節(jié)的實(shí)驗(yàn)數(shù)據(jù)來自COVID-19 CT Segmentation Dataset的另外一個(gè)數(shù)據(jù)集,本文命名為COVID-19-2,以及來自COVID-19 CT Lung and Infection Segmentation Dataset和Mos-MedData的本文命名為COVID-19-3 和COVID-19-4 的數(shù)據(jù)集。
其中,COVID-19-1 數(shù)據(jù)集由意大利醫(yī)學(xué)和介入放射學(xué)會(huì)(Italian Society of Medical and Interventional Radiology)收集,包含約60 名新冠肺炎患者的共100張軸向CT 圖像和放射科醫(yī)生對(duì)這100 張CT 圖像感染區(qū)域的標(biāo)注圖像。COVID-19-2 數(shù)據(jù)集由Radiopaedia 的9 個(gè)不同病例的共829 張軸向二維CT 切片組成,其中有373 張為新冠肺炎切片,由放射科醫(yī)生進(jìn)行了感染區(qū)域的分割標(biāo)注,原始數(shù)據(jù)格式為NIFTI。COVID-19-3 數(shù)據(jù)集由Coronacases Initiative和Radiopaedia 的20 個(gè)不同病例的共1 844 張新冠肺炎CT 切片組成,感染區(qū)域由有經(jīng)驗(yàn)的放射科醫(yī)生進(jìn)行標(biāo)注。COVID-19-4 數(shù)據(jù)集來源于俄羅斯莫斯科市立醫(yī)院,包含1 110 個(gè)病例的肺部CT 圖像,本文使用的為來自其中50 個(gè)病例的有專家標(biāo)注圖像感染區(qū)域的785 張確診新冠肺炎CT 圖像。各數(shù)據(jù)集的詳細(xì)信息見表1。
表1 實(shí)驗(yàn)用COVID-19 CT 圖像數(shù)據(jù)集Table 1 COVID-19 CT image datasets for experiments
實(shí)驗(yàn)結(jié)果評(píng)價(jià)使用Dice、IOU、F1-Score 和Sensitivity 四種常用的醫(yī)學(xué)圖像分割評(píng)價(jià)指標(biāo),這4 種指標(biāo)的計(jì)算方式如式(11)~(14)所示,式(11)和式(8)本質(zhì)上相同。
其中,表示網(wǎng)絡(luò)輸出的感染區(qū)域是真實(shí)的感染區(qū)域;表示網(wǎng)絡(luò)輸出的背景區(qū)域是真實(shí)的背景區(qū)域;表示網(wǎng)絡(luò)輸出的感染區(qū)域不是真實(shí)的感染區(qū)域,即錯(cuò)誤地將背景分割為感染區(qū)域;表示網(wǎng)絡(luò)輸出的背景區(qū)域不是真實(shí)的背景區(qū)域,即錯(cuò)誤地將感染區(qū)域分割為背景。這些評(píng)價(jià)指標(biāo)的取值越大,代表模型的分割效果越好。
本文實(shí)驗(yàn)采用開源深度學(xué)習(xí)框架PyTorch1.5.1實(shí)現(xiàn)提出的XR-MSF-Unet 模型,使用GPU 加速網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試,顯卡型號(hào)為GeForce RTX 2080Ti。實(shí)驗(yàn)訓(xùn)練和測(cè)試階段的batch size均為1,共訓(xùn)練200輪次。優(yōu)化器采用RMSProp,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減系數(shù)設(shè)置為1E-8。
不同優(yōu)化器會(huì)影響模型性能,為此使用四種常見的優(yōu)化器RMSProp(root mean square propagation)、Adam(adaptive moment estimation)、SGD(stochastic gradient descent)和Adamax(adam based on the infinity norm)分別訓(xùn)練模型,比較模型性能,選擇最合適的優(yōu)化器。實(shí)驗(yàn)中使用U-Net網(wǎng)絡(luò),四個(gè)優(yōu)化器的初始學(xué)習(xí)率均設(shè)置為0.001,權(quán)重衰減系數(shù)均設(shè)置為1E-8。實(shí)驗(yàn)結(jié)果如表2 所示,加粗表示最好結(jié)果。
表2 不同優(yōu)化器下的模型性能比較Table 2 Comparison of model performance using different optimizers
表2 結(jié)果顯示,RMSProp 優(yōu)化器使模型的Dice和F1-Score 指標(biāo)最好;Adamax 優(yōu)化器使模型的IOU和Sensitivity 指標(biāo)最好;SGD 優(yōu)化器的效果最差;雖然Adam 優(yōu)化器使模型的Sensitivity 指標(biāo)優(yōu)于RMSProp 優(yōu)化器的效果,但是其他指標(biāo)均不如RMSProp 優(yōu)化器。綜上所述,以Dice 指標(biāo)作為最主要的評(píng)價(jià)標(biāo)準(zhǔn),RMSProp 優(yōu)化器綜合效果最好,因此,本文采用RMSProp 優(yōu)化算法。
由于COVID-19-1 數(shù)據(jù)集的樣本量對(duì)于需要大量訓(xùn)練數(shù)據(jù)的深度學(xué)習(xí)模型來說,會(huì)帶來過擬合,將數(shù)據(jù)按1∶1 比例劃分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集的50 張CT 圖像使用隨機(jī)旋轉(zhuǎn)、顏色抖動(dòng)以及中心裁剪等方法進(jìn)行擴(kuò)增,最終得到包含原始數(shù)據(jù)在內(nèi)的共350 張CT 圖像作為訓(xùn)練集。使用U-Net網(wǎng)絡(luò)來測(cè)試數(shù)據(jù)擴(kuò)增的有效性,測(cè)試結(jié)果如表3 所示。實(shí)驗(yàn)中從訓(xùn)練集隨機(jī)選擇10%數(shù)據(jù)作為驗(yàn)證子集,用于調(diào)整模型參數(shù),監(jiān)控是否發(fā)生過擬合,其余90%作為訓(xùn)練子集訓(xùn)練模型。以測(cè)試集來測(cè)試訓(xùn)練所得模型的分割性能。
表3 數(shù)據(jù)擴(kuò)增有效性測(cè)試結(jié)果Table 3 Testing results of data augmentation efficacy
表3 結(jié)果顯示,U-Net模型的各項(xiàng)評(píng)價(jià)指標(biāo)Dice、IOU、F1-Score 以及Sensitivity 在數(shù)據(jù)擴(kuò)增之后,均得到提升,說明數(shù)據(jù)擴(kuò)增有利于提升模型的分割性能。因此,本文后續(xù)實(shí)驗(yàn)均使用擴(kuò)增后的數(shù)據(jù)集作為訓(xùn)練集。
XR 模塊由個(gè)相同的殘差塊聚合而成,為了探究聚合多少個(gè)殘差塊模型性能最好,實(shí)驗(yàn)設(shè)計(jì)了只有1 個(gè)殘差塊和聚合2、4、8、16、32、64 個(gè)殘差塊的XR 模塊,將這7 種聚合了不同數(shù)量殘差塊的XR 模塊嵌入到U-Net 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示,加粗表示最好結(jié)果。殘差塊數(shù)0 表示沒有嵌入XR 模塊的原始U-Net模型的實(shí)驗(yàn)結(jié)果。
表4 XR 模塊中殘差塊參數(shù)X 測(cè)試的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of parameter X of residual blocks embedded in XR module
表4 結(jié)果顯示,當(dāng)XR 模塊只聚合一個(gè)殘差塊時(shí),不僅沒有提升原始U-Net 模型的分割效果,反而使其分割效果變差;但當(dāng)聚合2 個(gè)以上殘差塊時(shí),U-Net的分割效果開始逐漸提升,直到聚合32 個(gè)殘差塊時(shí)達(dá)到最好分割效果。而當(dāng)聚合64 個(gè)殘差塊時(shí),模型的分割效果最差。分析原因是過多的殘差塊使得模型過于復(fù)雜,造成了過擬合。因此,本文使用聚合32 個(gè)殘差塊的XR 模塊替換U-Net中用于特征提?。ň幋a)和恢復(fù)(解碼)的卷積模塊。
本節(jié)將通過實(shí)驗(yàn)測(cè)試MSF 模塊的空間注意力模塊SAM 的最佳卷積核設(shè)置,MSF 模塊對(duì)不同類型注意力模塊特征進(jìn)行加和時(shí)的權(quán)重系數(shù)設(shè)置,MSF 模塊在U-Net 網(wǎng)絡(luò)的最佳位置,比較MSF 與其他注意力模塊的性能,并將MSF 模塊嵌入不同baseline 驗(yàn)證其性能,最后對(duì)MSF 模塊各個(gè)組件的有效性以及模塊的復(fù)雜度進(jìn)行實(shí)驗(yàn)分析。
提出的MSF 模塊中的空間注意力模塊SAM 需要經(jīng)過一個(gè)卷積降維,該卷積塊的卷積核大小對(duì)于整個(gè)MSF 注意力模塊至關(guān)重要。本文通過實(shí)驗(yàn)測(cè)試MSF 模塊的SAM 模塊的卷積核大小設(shè)置。表5 展示了將MSF 模塊加在U-Net 編碼區(qū),設(shè)置SAM 模塊不同大小的卷積核得到的實(shí)驗(yàn)結(jié)果,加粗表示最好結(jié)果。
表5 SAM 模塊的卷積核大小測(cè)試實(shí)驗(yàn)結(jié)果Table 5 Experimental results for testing kernel sizes of SAM module
表5 實(shí)驗(yàn)結(jié)果顯示,當(dāng)SAM 模塊采用1×1 卷積核時(shí),模型取得了最優(yōu)的分割結(jié)果,說明在進(jìn)行復(fù)雜圖像分割時(shí),1×1 的小卷積核能使特征圖信息保存得更加完整,同時(shí)也能從特征圖中獲得更多細(xì)節(jié)特征,有利于模型“關(guān)注”細(xì)節(jié)特征,獲得更好分割結(jié)果。因此,本文后續(xù)實(shí)驗(yàn)中,MSF 模塊的空間注意力模塊SAM 的卷積核大小設(shè)置為1×1。
MSF 模塊對(duì)經(jīng)過SAM 模塊的融合全局與空間信息的特征圖和融合局部信息與空間信息的特征圖的對(duì)應(yīng)元素相加得到融合特征。為了確定和這兩個(gè)特征圖加和時(shí)的權(quán)重比,分別對(duì)這兩個(gè)特征賦予不同權(quán)重進(jìn)行加和,測(cè)試對(duì)U-Net 模型性能的影響。實(shí)驗(yàn)結(jié)果如表6 所示,加粗表示最好結(jié)果。
表6 實(shí)驗(yàn)結(jié)果顯示,當(dāng)兩部分特征圖加和時(shí)的權(quán)重比為1∶1 時(shí),MSF 模塊能提取到分割性能最好的特征。當(dāng)兩部分特征圖的權(quán)重比分別為2∶3、3∶7 和1∶4時(shí),MSF 模塊獲得的特征的分割性能非常差,各項(xiàng)分割指標(biāo)基本趨于0,而當(dāng)權(quán)重比為3∶2、4∶1、7∶3 時(shí),MSF 模塊提取的特征的分割性能優(yōu)于相反的權(quán)重比,說明特征對(duì)MSF 模塊提取的特征的分割性能影響較大。當(dāng)權(quán)重比為1∶9 和9∶1 時(shí),MSF 模塊提取的特征的分割能力大幅提升,僅次于權(quán)重比為1∶1時(shí)的特征,且9∶1 時(shí)MSF 模塊提取的特征的分割能力更好,不僅說明特征圖對(duì)MSF 模塊提取的特征的分割性能影響較大,也說明特征圖對(duì)MSF 特征的分割能力的強(qiáng)大貢獻(xiàn)。綜合上述分析,在融合兩部分特征時(shí)將權(quán)重設(shè)置為1∶1 最佳。
表6 MSF 模塊特征融合的權(quán)重測(cè)試實(shí)驗(yàn)Table 6 Experiments for testing weights for feature fusion of MSF module
提出的MSF 是即插即用注意力模塊,放置在網(wǎng)絡(luò)不同編碼位置對(duì)實(shí)驗(yàn)結(jié)果會(huì)有不同影響。圖5 展示了MSF 模塊嵌入到U-Net 的8 種位置,對(duì)每一種情況進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果如表7 所示,加粗表示最好結(jié)果。
圖5 MSF 模塊在U-Net的不同位置Fig.5 MSF modules in different locations of U-Net
表7 實(shí)驗(yàn)結(jié)果顯示,當(dāng)MSF 模塊在編碼區(qū)時(shí)得到的分割結(jié)果最好。分析原因是MSF 模塊的主要功能是獲得圖像更多特征信息,嵌入編碼區(qū)域,距離輸入層近,能夠從原始圖像獲得更多特征信息,而解碼區(qū)的特征是經(jīng)過編碼區(qū)特征提取后,上采樣還原的特征,無法表達(dá)圖像細(xì)節(jié)信息。
表7 MSF 模塊在U-Net不同位置的模型性能Table 7 Performance of U-Net embedding MSF module in different positions
因此,后續(xù)實(shí)驗(yàn)均將提出的MSF 模塊嵌入在編碼區(qū),也就是圖5 的L2 所示。
為了驗(yàn)證提出的即插即用注意力模塊MSF 在新冠肺炎肺部CT 圖像感染區(qū)域分割中的有效性,將MSF 與其他注意力模塊進(jìn)行對(duì)比實(shí)驗(yàn)。為保證實(shí)驗(yàn)公平,所有注意力模塊均放置在U-Net 編碼區(qū),實(shí)驗(yàn)數(shù)據(jù)集劃分和實(shí)驗(yàn)環(huán)境均相同,測(cè)試結(jié)果如表8 所示,加粗表示最好結(jié)果。
表8 MSF 注意力模塊與其他注意力模塊的性能對(duì)比Table 8 Performance comparison of MSF and other attention modules
表8實(shí)驗(yàn)結(jié)果顯示,在新冠肺炎肺部CT感染區(qū)域分割中,相比其他注意力模塊,提出的MSF 模塊嵌入U(xiǎn)-Net 模型能夠取得最優(yōu)的分割結(jié)果。SE(squeezeand-excitation)、CBAM 和ECA 注意力模塊不僅沒有提升U-Net 的分割效果,反而使其性能降低。SCSE(concurrent spatial and channel squeeze and channel excitation)注意力機(jī)制雖然提高了U-Net 的Dice 指標(biāo),但提升較少,且加入SCSE的U-Net模型的IOU、F1-Score和Sensitivity 指標(biāo)均不如原始U-Net 模型。綜上分析可見,提出的MSF 模塊在新冠肺炎肺部CT 感染區(qū)域分割中最有效。
為了更加清楚地顯示MSF 模塊能夠更好地分割細(xì)節(jié)的優(yōu)勢(shì),將表8 各模塊的分割結(jié)果進(jìn)行可視化顯示。圖6(a)、(b)展示了表8 帶有不同注意力模塊的U-Net 模型對(duì)測(cè)試集隨機(jī)選擇的兩張CT 圖像的分割結(jié)果,其中Ground Truth 表示真實(shí)標(biāo)簽,第二到第六行分別表示MSF+U-Net、ECA+U-Net、SCSE+U-Net、CBAM+U-Net 和SE+U-Net 各模型的分割結(jié)果,紅色框標(biāo)記的是各個(gè)模型的分割結(jié)果中更能體現(xiàn)分割細(xì)節(jié)的感染區(qū)域。各模型分割結(jié)果的邊界細(xì)節(jié)使用Canny 邊緣檢測(cè)算法得到。
圖6 MSF 模塊與其他注意力模塊的細(xì)節(jié)分割對(duì)比Fig.6 Comparison of segmentation details between MSF module and other attention modules
圖6 的可視化結(jié)果顯示,MSF 模塊嵌入U(xiǎn)-Net 模型的細(xì)節(jié)分割效果比嵌入其他幾種注意力模塊的效果都好。圖6(a)紅色框標(biāo)記的Ground Truth 部分形狀類似字母“M”,且與旁邊感染區(qū)域之間有間隔縫隙。圖6(a)嵌入不同注意力模塊的U-Net 模型的分割結(jié)果中,嵌入MSF 的U-Net 模型的分割結(jié)果與真實(shí)標(biāo)記最相似,且與其他感染區(qū)域不相連;ECA+UNet 模型的分割結(jié)果與旁邊感染區(qū)域相連;嵌入其他注意力模塊的U-Net 模型的分割結(jié)果雖然與旁邊感染區(qū)域分開,但分割出的區(qū)域均與標(biāo)記區(qū)域形狀差異很大。圖6(b)紅色框標(biāo)記的分割結(jié)果顯示,只有MSF嵌入U(xiǎn)-Net模型的分割結(jié)果與真實(shí)標(biāo)記的Ground Truth 相似,其余各模型的分割效果都與真實(shí)標(biāo)記相差很大。綜上所述,相對(duì)于其他注意力模塊,本文提出的多尺度特征融合注意力模塊MSF 具有更好的細(xì)節(jié)分割能力。
為了進(jìn)一步驗(yàn)證提出的注意力模塊MSF 提取新冠肺炎肺部CT 圖像分割特征的能力,將其嵌入FCN(fully convolutional networks)、FusionNet、SegNet三個(gè)不同模型進(jìn)行實(shí)驗(yàn)。為了保證實(shí)驗(yàn)公平和有效,這三個(gè)Baseline 和U-Net 一樣是編碼區(qū)和解碼區(qū)結(jié)構(gòu),MSF 模塊均放置在各模型的編碼區(qū),實(shí)驗(yàn)數(shù)據(jù)劃分和實(shí)驗(yàn)環(huán)境均相同,實(shí)驗(yàn)結(jié)果如圖7 所示。圖7(a)~(d)分別展示了MSF 嵌入U(xiǎn)-Net、FCN、Fusion-Net 及SegNet 前后對(duì)應(yīng)模型的Dice、IOU、F1-Score 和Sensitivity 指標(biāo)值。
圖7實(shí)驗(yàn)結(jié)果顯示,將MSF模塊嵌入U(xiǎn)-Net、FCN、FusionNet及SegNet模型,除了U-Net模型的F1-Score和SegNet 模型的IOU,各模型的Dice、IOU、F1-Score和Sensitivity 評(píng)價(jià)指標(biāo)均有所提升,其中,各模型的Dice 和Sensitivity 指標(biāo)均得到提升。說明提出的MSF 模塊能學(xué)習(xí)獲得性能非常好的新冠肺炎CT 圖像分割特征,這些特征的強(qiáng)大分割性能使得加入MSF 注意力機(jī)制模塊的各模型能更好地分割新冠肺炎肺部CT 圖像的感染區(qū)域。
圖7 MSF 模塊嵌入不同Baseline的實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of MSF module embedded in different baselines
作為一種即插即用的注意力模塊,MSF 的有效性在第3.5.4~3.5.5 小節(jié)得到了驗(yàn)證,本小節(jié)對(duì)MSF模塊中每一個(gè)組件的有效性和復(fù)雜度進(jìn)行分析。使用DRF(different receptive field)表示MSF 模塊中的不同大小感受野模塊,采用消融實(shí)驗(yàn)方式驗(yàn)證DRF和MSF模塊中的全局、局部和空間注意力模塊GAM、LAM、SAM 的有效性。表9 中展示MSF 模塊的消融實(shí)驗(yàn)結(jié)果,“√”表示包含相應(yīng)模塊。另外,模型的參數(shù)量(parameters)可以衡量模型的時(shí)間和空間復(fù)雜度,每秒幀率(frame per second,F(xiàn)PS)表示模型每秒內(nèi)處理的圖片數(shù)量,可以用來衡量模型的時(shí)間復(fù)雜度,因此MSF 模塊的復(fù)雜度將通過計(jì)算模型的參數(shù)量和每秒幀率來進(jìn)行評(píng)價(jià)。表9 同時(shí)展示了模型的復(fù)雜度。加粗表示最好結(jié)果。
表9 MSF 模塊的消融實(shí)驗(yàn)及復(fù)雜度分析Table 9 Ablation experiments and complexity analysis of MSF module
表9 結(jié)果顯示,將完整的MSF 模塊加入U(xiǎn)-Net 可以使模型達(dá)到最好的分割性能。無論是去掉MSF 模塊中的不同大小感受野DRF,還是全局注意力模塊GAM、局部注意力模塊LAM 或者空間注意力模塊SAM,模型的分割性能都受到不同程度的影響。其中,LAM 模塊對(duì)模型的性能影響最小,然后依次是GAM、DRF 和SAM 模塊。SAM 模塊對(duì)模型的分割性能影響最強(qiáng),說明SAM 模塊關(guān)注的空間信息對(duì)MSF 模塊提取到分割能力很強(qiáng)的特征很重要。
表9 模型的復(fù)雜度顯示,添加MSF 模塊U-Net 模型比原始U-Net 模型的參數(shù)量增加了近3 倍,每秒幀率FPS 也減少了差不多1/4。說明提出的MSF 模塊在提升模型分割性能的同時(shí),增加了模型的復(fù)雜度。另外,表9 結(jié)果還顯示,MSF 模塊的DRF、GAM、LAM 和SAM 模塊對(duì)模型的復(fù)雜度影響都非常大,特別是大大降低了模型的效率。
綜合以上分析可見,MSF 模塊雖然增加了參數(shù)量,但能使模型具有更好的分割精度,并且對(duì)模型的運(yùn)算實(shí)時(shí)性影響最小。
提出的XR-MSF-Unet 模型將U-Net 的兩層卷積替換為XR 模塊,并在U-Net 編碼區(qū)加入注意力模塊MSF。本節(jié)的消融實(shí)驗(yàn),通過比較U-Net、XR+UNet、MSF+U-Net 和XR-MSF-Unet 對(duì)新冠肺炎肺 部CT圖像的分割效果,驗(yàn)證提出的XR和MSF模塊的性能。消融實(shí)驗(yàn)結(jié)果如表10所示,加粗表示最好結(jié)果。
表10 不同模塊對(duì)U-Net模型性能影響的消融實(shí)驗(yàn)Table 10 Ablation experimental results of different modules on performance of U-Net
表10 實(shí)驗(yàn)結(jié)果顯示,嵌入XR 模塊的U-Net 在Dice、IOU、F1-Score 和Sensitivity 四個(gè)指標(biāo)上提升了原始U-Net 對(duì)新冠肺炎CT 圖像的分割性能;嵌入MSF 模塊的U-Net除了F1-Score,在Dice、IOU 和Sensitivity 三個(gè)指標(biāo)上提升了原始U-Net 對(duì)新冠肺炎CT 圖像的分割性能;提出的同時(shí)嵌入XR、MSF 模塊的XR-MSF-Unet 模型對(duì)新冠肺炎肺部CT 圖像的分割效果最好。
為了驗(yàn)證提出的XR-MSF-Unet模型的性能,將其與U-Net、Attention U-Net、UNet++、FusionNet、SegNet、FCN、PraNet、BASNet、CaraNet和UNeXt十種方法進(jìn)行實(shí)驗(yàn)比較。所有實(shí)驗(yàn)均在相同環(huán)境和相同劃分?jǐn)?shù)據(jù)集進(jìn)行,實(shí)驗(yàn)結(jié)果如表11 所示,表中最后兩列是各模型參數(shù)量和每秒幀率的比較,加粗表示最好結(jié)果。
表11 實(shí)驗(yàn)結(jié)果揭示,提出的XR-MSF-Unet 模型的Dice、IOU、F1-Score 和Sensitivity 各項(xiàng)指標(biāo)均比對(duì)比模型好。XR-MSF-Unet 模型的各項(xiàng)指標(biāo)比基準(zhǔn)模型U-Net 分別高3.21、5.96、1.22 和4.83 個(gè)百分點(diǎn)。分割效果最差的是PraNet 模型,接著依次是SegNet、UNet++、FusionNet、FCN、Attention U-Net、CaraNet、UNeXt、BASNet。因此,提出的XR-MSF-Unet 模型能夠?qū)崿F(xiàn)新冠肺炎肺部CT 圖像的有效分割。另外,表11 結(jié)果還顯示,提出的XR-MSF-Unet 模型的參數(shù)量和每秒幀率均沒有其他模型好。說明,該模型用時(shí)間換取了性能的大幅提高。對(duì)關(guān)注分割準(zhǔn)確率的醫(yī)學(xué)圖像分割任務(wù),本文的XR-MSF-Unet 模型具有實(shí)用價(jià)值。
表11 本文XR-MSF-Unet與其他方法的性能比較Table 11 Performance comparison of XR-MSF-Unet and other methods
為了清晰展示提出的XR-MSF-Unet 模型與其他方法的實(shí)驗(yàn)效果,隨機(jī)選擇了測(cè)試集中的5 張圖像對(duì)分割結(jié)果進(jìn)行可視化,如圖8 所示。其中,第1 列是來自測(cè)試集的5 張肺部CT 原始圖像,第2~12 列分別是Attention U-Net、FCN、FusionNet、SegNet、UNet++、U-Net、PraNet、BASNet、CaraNet、UNeXt和提出的XR-MSF-Unet 模型對(duì)這5 張CT 圖像的分割結(jié)果,第13 列是醫(yī)生標(biāo)注的真實(shí)感染區(qū)域。
圖8 不同方法的分割效果可視化展示Fig.8 Visualization of segmentation results of different methods
圖8 各模型分割結(jié)果的可視化顯示,PraNet 的分割結(jié)果最差,模糊不清。本文XR-MSF-Unet 模型的分割效果最好,能有效分割出感染區(qū)域,分割結(jié)果最接近專家標(biāo)注的結(jié)果。BASNet模型的分割結(jié)果僅次于本文提出的XR-MSF-Unet模型。FCN、FusionNet、Seg-Net、U-Net 和CaraNet、UNeXt 對(duì)感染區(qū)域的分割不全,一些感染區(qū)域被忽視,且SegNet 的分割結(jié)果邊界粗糙。U-Net、Attention U-Net、FusionNet、CaraNet 和UNet++的分割結(jié)果容易受肺部血管和結(jié)節(jié)等器官影響。
本節(jié)通過比較提出的XR-MSF-Unet 模型在COVID-19-1、COVID-19-2、COVID-19-3 和COVID-19-4 數(shù)據(jù)集的分割性能,測(cè)試其泛化性。各數(shù)據(jù)集均按1∶1 劃分為訓(xùn)練集和測(cè)試集,在訓(xùn)練集訓(xùn)練模型,測(cè)試集進(jìn)行測(cè)試。由于COVID-19-2、COVID-19-3、COVID-19-4 數(shù)據(jù)集較大,沒有進(jìn)行數(shù)據(jù)擴(kuò)增,使用原始數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果見表12 所示。
表12 XR-MSF-Unet模型的泛化性能測(cè)試Table 12 Generalization test of XR-MSF-Unet model
表12 中的實(shí)驗(yàn)結(jié)果顯示,XR-MSF-Unet 模型在COVID-19-2、COVID-19-3 和COVID-19-4 數(shù)據(jù)集均取得比在COVID-19-1 數(shù)據(jù)集更優(yōu)的結(jié)果。其中,在COVID-19-3數(shù)據(jù)集的性能最好,然后依次是在COVID-19-2、COVID-19-4、COVID-19-1 的性能。由此可見,XR-MSF-Unet 模型具有很好的泛化性能。另外,表12 實(shí)驗(yàn)結(jié)果還顯示,數(shù)據(jù)集規(guī)模越大,XR-MSF-Unet模型的性能越好,說明數(shù)據(jù)集規(guī)模越大模型學(xué)習(xí)獲得的分割特征越好。
提出了自動(dòng)分割新冠肺炎肺部CT 圖像的新模型XR-MSF-Unet,該模型提出了XR 模塊來增強(qiáng)模型的特征提取能力,提出了融合多尺度特征的即插即用注意力模塊MSF 來提取新冠肺炎肺部CT 圖像的細(xì)節(jié)特征。
新冠肺炎CT 圖像公開數(shù)據(jù)集的大量實(shí)驗(yàn)測(cè)試驗(yàn)證了提出的XR 模塊和MSF 模塊的性能,并驗(yàn)證了提出的XR-MSF-Unet 模型是實(shí)現(xiàn)新冠肺炎肺部CT圖像感染區(qū)域端到端自動(dòng)分割的良好模型。
盡管如此,XR-MSF-Unet 模型的分割性能還有很大提升空間。另外,模型nnU-Net在醫(yī)學(xué)圖像分割領(lǐng)域展示了很好的性能,未來可以結(jié)合nnU-Net 模型的設(shè)計(jì)思路對(duì)XR-MSF-Unet 模型進(jìn)行改進(jìn);除此之外,還需要進(jìn)一步在模型優(yōu)化、損失函數(shù)構(gòu)造以及數(shù)據(jù)擴(kuò)增方法等方面進(jìn)行探索,提升模型對(duì)新冠肺炎CT 圖像分割的準(zhǔn)確性以及實(shí)時(shí)性;并嘗試將提出的模塊與nnU-Net 模型結(jié)合,實(shí)現(xiàn)更好的新冠肺炎CT 圖像端到端分割,輔助醫(yī)生進(jìn)行快速準(zhǔn)確的診斷。