沈懷艷,吳云
貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng)550025
肝臟是人類(lèi)疾病的多發(fā)區(qū)域。肝臟的自動(dòng)分割能夠幫助醫(yī)生及早對(duì)病人實(shí)施診斷治療。在醫(yī)學(xué)成像領(lǐng)域,計(jì)算機(jī)斷層掃描(computed tomography,CT)成像是輔助診斷肝臟疾病的常用手段之一[1]。由于CT 圖像中肝臟與鄰近器官組織具有相似的灰度值[2],導(dǎo)致對(duì)肝臟的分割存在一定難度。
近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在圖像分割、分類(lèi)和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)任務(wù)中表現(xiàn)優(yōu)異,使其廣泛應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域。對(duì)于CNN只能提取到局部特征,Long 等人[3]在CNN 的基礎(chǔ)上提出了全卷積網(wǎng)絡(luò)(full convolutional networks,FCN),使其可以接受任意尺寸圖像的輸入,并使用反卷積層從抽象的特征中恢復(fù)像素的類(lèi)別。使用反卷積操作恢復(fù)所得的圖像較為粗糙,對(duì)此,Ronneberger等人[4]提出的U-Net 在跳躍連接部分改進(jìn),從通道維度對(duì)像素進(jìn)行拼接融合得到更厚的特征層,為后續(xù)分割提供更多語(yǔ)義信息。
對(duì)于二維肝臟切片的分割,Liu 等人[5]提出IUNet,通過(guò)增加U-Net 的深度和復(fù)制池化層的功能從肝臟CT 序列中分割出肝臟。張澤林等人[6]提出3D條件生成對(duì)抗分割網(wǎng)絡(luò),同時(shí)采用一個(gè)由粗到細(xì)的3D 自動(dòng)分割框架對(duì)肝臟及腫瘤區(qū)域?qū)嵤┚珳?zhǔn)分割。Wang 等人[7]在U-Net 中引入擠壓激勵(lì)(squeeze-andexcitation,SE)模塊、空間金字塔池化和剩余學(xué)習(xí)技術(shù),提出SAR-U-Net 用于CT 切片中肝臟的自動(dòng)分割。由于CT 圖像是由若干個(gè)二維切片組成的三維圖像,當(dāng)使用2D U-Net 進(jìn)行分割時(shí),無(wú)法提取三維圖像的inter-slice 特征從而限制了分割結(jié)果的準(zhǔn)確性。與2D U-Net 相比,3D U-Net 能有效利用相鄰肝臟切片之間的inter-slice特征,從而獲得更好的分割效果。
對(duì)于3D U-Net 能夠提取到CT 圖像的inter-slice信息的特點(diǎn),Lu 等人[8]使用3D CNN 同時(shí)進(jìn)行肝臟檢測(cè)和分割,并采用圖割對(duì)初始分割結(jié)果進(jìn)行細(xì)化。Lei 等人[9]設(shè)計(jì)反向殘余瓶頸塊和三維平均池化塊應(yīng)用于LV-Net 中,通過(guò)解耦跨通道校正和空間相關(guān)性來(lái)提取肝臟CT 圖像的inter-slice 特征,實(shí)現(xiàn)較好的分割結(jié)果。Zhang等人[10]基于3DResUNet設(shè)計(jì)了Hybrid/Dial-3DResUNet,結(jié)合混合3D 擴(kuò)張卷積有效提取肝臟CT 圖像的三維特征。這些方法證明3D 卷積提取的inter-slice 和上下文特征能有效分割肝臟,為此,本文將3D U-Net作為研究的基礎(chǔ)模型。
由于CT 圖像和U-Net 自身的特點(diǎn),目前對(duì)肝臟分割存在的問(wèn)題有:(1)低級(jí)特征和高級(jí)特征對(duì)于肝臟分割同等重要,而在U-Net 中采用自下而上的特征融合方式忽略了低級(jí)特征的重要性,導(dǎo)致網(wǎng)絡(luò)分割性能較差;(2)肝臟的形狀大小多變,與鄰近器官具有相似的灰度值,使得微小的信息容易丟失。
針對(duì)以上問(wèn)題,本文基于3D U-Net 提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)(multi-scale semantic feature attentionnet,MSFA-Net),該網(wǎng)絡(luò)通過(guò)空洞殘差卷積(dilated residual convolution,DRC)充分感知肝臟的多尺度結(jié)構(gòu);采用多尺度語(yǔ)義特征注意(mutil-scale semantic feature attention,MSFA)模塊充分融合多尺度特征和關(guān)注微小特征;深度監(jiān)督(deep supervise,DS)將不同解碼層的輸出特征圖求和,以提高分割的準(zhǔn)確度。本文的主要貢獻(xiàn)如下:
(1)提出了一個(gè)新的多尺度語(yǔ)義特征融合注意網(wǎng)絡(luò)(MSFA-Net)用于肝臟分割。
(2)為了使網(wǎng)絡(luò)感知更多肝臟的多尺度結(jié)構(gòu),在原始U-Net 的編碼器部分加入空洞殘差卷積模塊來(lái)獲得更大的接受域。
(3)為了提高網(wǎng)絡(luò)對(duì)多尺度特征的提取能力并增強(qiáng)特征的傳輸,提出MSFA 模塊,將特征提取層相鄰的低級(jí)特征和高級(jí)特征與注意力機(jī)制相結(jié)合,以充分融合多尺度特征和關(guān)注微小特征,并在網(wǎng)絡(luò)最后使用深度監(jiān)督進(jìn)一步提升分割性能。
使用CNN 實(shí)現(xiàn)肝臟的分割需要細(xì)節(jié)信息和語(yǔ)義信息,如何在網(wǎng)絡(luò)中高效獲得這兩個(gè)信息來(lái)提高分割效果則是一個(gè)亟待解決的問(wèn)題。由于CT 圖像中肝臟的尺寸大小變化較大,低級(jí)特征更利于較小特征的分割,高級(jí)特征具有更大的感受野適合于大目標(biāo)的分割。多尺度特征融合可以更好提取不同尺寸特征之間的細(xì)節(jié)信息和語(yǔ)義信息。
在肝臟分割領(lǐng)域,Liu 等人[11]提出SFF-Net,在每個(gè)卷積塊上提取側(cè)輸出,充分利用多尺度特征,通過(guò)增加跳躍連接有效地將信息往后傳遞,使網(wǎng)絡(luò)能夠在提供更抽象語(yǔ)義特征的同時(shí)獲得更多的細(xì)節(jié)信息。Chen 等人[12]提出FED-Net,采用基于注意力的特征融合模塊從編碼器的所有層次中提取多分辨率特征,每個(gè)級(jí)別的特征融合模塊融合了其當(dāng)前級(jí)別的特征和它的更高級(jí)的特征。與FED-Net 類(lèi)似,F(xiàn)eng等人[13]提出的CPFNet 在編碼器和解碼器之間設(shè)計(jì)了多個(gè)全局金字塔指導(dǎo)模塊(global pyramid guidance,GPG)來(lái)融合多尺度的上下文信息,并通過(guò)重建跳躍連接為解碼器提供不同級(jí)別的全局上下文信息。
這些融合方式雖然從不同的角度對(duì)低層特征和高級(jí)特征進(jìn)行融合,但它們都是采用一種自下而上的方式,即將高級(jí)特征與當(dāng)前層的低級(jí)特征融合獲得更高的精度。因此,結(jié)合多尺度特征是提高分割精度的重要因素之一。
注意力模型[14]可以模擬人眼來(lái)關(guān)注有用的信息,在醫(yī)學(xué)圖像分割領(lǐng)域,大多數(shù)圖像中的正例體素和負(fù)例體素之間存在巨大的差異。腹部CT 圖像中的肝臟形狀大小多變,與鄰近器官具有相似的灰度值,一些微小的病灶特征在特征提取過(guò)程中極易被忽略。注意力機(jī)制可以在特征提取時(shí)自動(dòng)學(xué)習(xí)到需要關(guān)注的特征而抑制不重要的特征[15],從而有效提取微小病灶特征。
Schlemper等人[16]在Attention U-Net中將注意門(mén)控(attention gate,AG)與U-Net 相結(jié)合,通過(guò)自動(dòng)學(xué)習(xí)參數(shù)來(lái)調(diào)整激活值,減少有用信息丟失來(lái)關(guān)注到各種形狀大小的肝臟腫瘤。Jin等人[17]提出RA-UNet,使用注意模塊在主干分支中學(xué)習(xí)圖像的原始特征,在軟蒙版分支專(zhuān)注于減少圖像噪聲和增強(qiáng)有利于分割的特征,從而得到感興趣的肝臟體積并從中分割腫瘤。Jiang 等人[18]采用注意力機(jī)制和長(zhǎng)、短跳躍連接相結(jié)合的混合網(wǎng)絡(luò)體系結(jié)構(gòu)來(lái)捕獲關(guān)鍵特征,以及長(zhǎng)距離和短距離的依賴(lài)關(guān)系,有效提高分割效率。Xu 等人[19]在PA-ResSeg 網(wǎng)絡(luò)中提出階段注意(phase attention,PA)來(lái)捕獲通道上的自依賴(lài)和跨依賴(lài)關(guān)系,以此使網(wǎng)絡(luò)能夠?qū)W習(xí)更有代表性的肝臟腫瘤的多階段特征。隨著近階段Transformer[20]在圖像領(lǐng)域的快速應(yīng)用,Chen 等人[21]提出TransUNet,將Transformer 與U-Net 相結(jié)合,使用Transformer的多頭自注意力機(jī)制提取的全局上下文輸入序列,借助U-Net 來(lái)恢復(fù)局部的空間信息實(shí)現(xiàn)了更為精確的定位和分割??傊紤]將注意力機(jī)制與深度分割網(wǎng)絡(luò)相結(jié)合可以在一定程度上提升肝臟的分割效果。
上述多尺度特征融合方式和注意力機(jī)制的有效性均在實(shí)驗(yàn)中得以驗(yàn)證。在U-Net 中特征融合是由高向低融合的,由此忽略了低級(jí)特征的重要性,且CT圖像中肝臟形狀大小多變,與鄰近器官組織灰度值較為相似不易區(qū)分,一些微小的細(xì)節(jié)特征不易被關(guān)注等。本文將多尺度特征與注意力機(jī)制相結(jié)合提高分割效果,與以往提出的自下而上的多尺度特征融合方法不同的是,本文方法針對(duì)編碼器和解碼器對(duì)應(yīng)層的中間特征進(jìn)行自上而下和自下而上的特征融合來(lái)獲得更豐富的分割信息。
本文基于3D U-Net提出了MSFA-Net。U-Net具有對(duì)稱(chēng)的編碼器-解碼器結(jié)構(gòu),在編碼器部分提取圖像特征,在解碼器部分恢復(fù)圖像的尺寸大小,并將提取到的上下文信息通過(guò)編碼器-解碼器之間的跳躍連接來(lái)進(jìn)行傳輸,使網(wǎng)絡(luò)可以將編碼器提取的不同層次特征用來(lái)幫助恢復(fù)下采樣過(guò)程中丟失的細(xì)節(jié)信息,從而使分割結(jié)果更加精確。
MSFA-Net 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,它在3D UNet 架構(gòu)上集成空洞殘差卷積、多尺度語(yǔ)義特征注意模塊和深度監(jiān)督。在該網(wǎng)絡(luò)中,首先,為了在不增加模型深度或復(fù)雜度的情況下,從廣泛的信息區(qū)域捕獲多尺度特征,在編碼器部分使用空洞殘差卷積,解碼器部分使用殘差卷積。然后,針對(duì)自下而上特征融合方式忽略了低級(jí)語(yǔ)義特征和微小特征易丟失的問(wèn)題,設(shè)計(jì)MSFA 模塊,使網(wǎng)絡(luò)在相鄰的低級(jí)和高級(jí)特征的共同指導(dǎo)下獲得更多的細(xì)節(jié)信息和語(yǔ)義信息。同時(shí)融入通道和空間注意力機(jī)制,利用相鄰的高級(jí)特征中的語(yǔ)義信息為低層特征提供更抽象的語(yǔ)義信息,以及使用相鄰的低層特征的細(xì)節(jié)信息為高層特征提供更多像素定位信息,由此增強(qiáng)特征的傳遞。最后,在各層解碼器后使用深度監(jiān)督組合網(wǎng)絡(luò)不同階段的分割結(jié)果,由此來(lái)優(yōu)化分割結(jié)果。表1 列出了特征圖的數(shù)量和大小。
圖1 多尺度語(yǔ)義特征注意網(wǎng)絡(luò)(MSFA-Net)的總體架構(gòu)Fig.1 Architecture of multi-scale semantic feature attention network
表1 MSFA-Net的特征圖數(shù)量和大小Table 1 Number and size of MSFA-Net feature graphs
不同患者體內(nèi)的肝臟形狀大小差異較大,這些不同尺度的信息對(duì)于分割任務(wù)尤為重要。分割網(wǎng)絡(luò)往往會(huì)采用一系列的降采樣操作來(lái)獲得更大的感受野,而這樣也帶來(lái)了相應(yīng)的代價(jià)——空間分辨率降低??斩淳矸e[22]可以提取分割圖像中不同區(qū)域所需要的依賴(lài)關(guān)系,因此,使用空洞卷積替代普通卷積的優(yōu)勢(shì)在于:空洞卷積能夠設(shè)置不同的空洞率改變感受野以捕獲多尺度的信息,還能在增加感受野的同時(shí)不丟失分辨率。本文提出的空洞殘差卷積由兩個(gè)空洞率分別為1、2 的3D 空洞卷積和經(jīng)過(guò)Conv1×1×1后的殘差連接組成,如圖2 所示,空洞殘差卷積使模型在不增加深度或復(fù)雜度的情況下充分感知肝臟的多尺度結(jié)構(gòu),為后續(xù)多尺度特征融合奠定基礎(chǔ)。
圖2 殘差卷積塊和空洞殘差卷積塊Fig.2 Residual convolution block and dilated residual convolution block
將淺層特征圖的細(xì)節(jié)信息和深層特征圖的語(yǔ)義信息融合可以有效緩解誤檢、漏檢問(wèn)題。已有許多工作表明了融合多尺度信息的有效性,由于卷積神經(jīng)網(wǎng)絡(luò)的高級(jí)特征中包含更多的語(yǔ)義信息,語(yǔ)義信息對(duì)于分割任務(wù)極為重要,大多數(shù)工作都是將特征由高向低融合,卻忽略了由低向高融合這個(gè)方式,低級(jí)特征中的細(xì)節(jié)信息對(duì)分割結(jié)果的貢獻(xiàn)同樣不能忽視。此外,使用基于特征通道和空間的注意力機(jī)制[23]可以從這兩個(gè)獨(dú)立的維度分別推斷注意力圖,使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)參數(shù)調(diào)整激活值來(lái)關(guān)注感興趣區(qū)域,減少信息在提取過(guò)程中的丟失。
本文從自上而下和自下而上方向融合低級(jí)特征和高級(jí)特征,并使用通道和空間注意力機(jī)制,設(shè)計(jì)了一個(gè)如圖3 所示的多尺度語(yǔ)義特征注意模塊(MSFA)。在這個(gè)模塊中,對(duì)于某一特征提取層,首先使用注意力機(jī)制從通道維度將其相鄰的低級(jí)特征,依次使用全局平均池化-1×1×1 卷積-BN-ReLU-1×1×1 卷積-Sigmoid 獲得低級(jí)語(yǔ)義信息的權(quán)重。與此同時(shí),在空間維度上依次使用1×1×1 卷積-BN-ReLU-2×2×2 卷積-BN-ReLU-1×1×1 卷積-Sigmoid 獲得高級(jí)語(yǔ)義信息的權(quán)重。然后利用其在相鄰低級(jí)特征中的細(xì)節(jié)信息對(duì)高級(jí)特征進(jìn)行加權(quán),以及其相鄰的高級(jí)特征中的語(yǔ)義信息對(duì)低級(jí)特征進(jìn)行加權(quán)。最后與其進(jìn)行相加來(lái)增強(qiáng)特征的傳遞。對(duì)于沒(méi)有相鄰的低級(jí)特征的編碼器層(Layer1),只需對(duì)其相鄰高級(jí)特征進(jìn)行加權(quán)傳輸。將得到的通道和空間mask 分別與特征M相乘來(lái)對(duì)原始特征進(jìn)行重新校準(zhǔn),而后對(duì)結(jié)果進(jìn)行拼接,經(jīng)過(guò)1×1×1 的卷積將通道數(shù)變?yōu)镃,最后與輸入特征M相加得到輸出特征。對(duì)于相鄰的高級(jí)特征的處理方法與上述步驟一致,只需要將空間維度通過(guò)2×2×2 卷積進(jìn)行上采樣操作,減小通道數(shù),增大特征圖。
圖3 多尺度語(yǔ)義特征注意模塊Fig.3 Multi-scale semantic feature attention module
令Fl∈RH×W×C,F(xiàn)l表示編碼器在第l層的特征,其中H、W、C分別表示特征的高度、寬度和通道數(shù)。使用此模塊所得低級(jí)特征通道注意力向量Vc和空間注意力向量Vs為:
使用該模塊所得高級(jí)特征通道注意力向量Zc和特征空間注意力向量Zs為:
其中,Concat表示特征通道融合操作。
在訓(xùn)練過(guò)程中使用網(wǎng)絡(luò)不同階段輸出的分割結(jié)果是影響最終分割效果的一個(gè)重要因素。Lee 等人[24]針對(duì)深度網(wǎng)絡(luò)使用深度監(jiān)督進(jìn)行了研究,確認(rèn)對(duì)主干網(wǎng)絡(luò)進(jìn)行監(jiān)督確切可以提高網(wǎng)絡(luò)性能。因此,本文將深度監(jiān)督應(yīng)用于每層解碼器之后,如圖4 所示。使用Conv1×1×1壓縮特征,對(duì)其進(jìn)行上采樣將低分辨率特征恢復(fù)至高分辨率;然后將各層壓縮后的特征與最后一層編碼器的輸出特征求和,再次經(jīng)過(guò)Conv1×1×1 進(jìn)行壓縮;最后通過(guò)Sigmoid 層得到最終的概率圖,用以計(jì)算分割誤差。作用于解碼器各層的額外監(jiān)督信號(hào)能夠有效促進(jìn)網(wǎng)絡(luò)的訓(xùn)練,提升分割性能。
圖4 深度監(jiān)督Fig.4 Deep supervision
為了評(píng)價(jià)提出的MSFA-Net 模型的性能和泛化能力,本文在LiTS[25]和3DIRCADb[26]數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。
LiTS 數(shù)據(jù)集:LiTS 共有201 例增強(qiáng)的腹部CT 掃描圖像,其中131 例用于訓(xùn)練,70 例用于測(cè)試。LiTS中的數(shù)據(jù)來(lái)自不同的臨床站點(diǎn),因此在平面分辨率、切片厚度和切片數(shù)量存在差異,它的圖像分辨率為512×512 pixel,平面分辨率范圍在0.55~1.00 mm,切片厚度為0.45~6.00 mm,切片數(shù)量在42 到1 016 之間變化。
3DIRCADb 數(shù)據(jù)集:該數(shù)據(jù)集共有20 例靜脈期增強(qiáng)CT 圖像,分別由10 名女性和10 名男性的3D CT掃描以及臨床專(zhuān)家對(duì)各種感興趣結(jié)構(gòu)的人工分割組成。圖像的分辨率大小為512×512 pixel,肝臟的尺寸為[16.3~24.9,12.0~18.6,11.0~20.2](單位:cm),平面分辨率在0.57~0.87 mm,切片厚度在1.6~4.0 mm,切片數(shù)量在74 到260 之間變化。
本實(shí)驗(yàn)在LiTS 數(shù)據(jù)集的131 例訓(xùn)練數(shù)據(jù)集中,隨機(jī)選擇80%和20%的數(shù)據(jù)分別構(gòu)造訓(xùn)練集和測(cè)試集,在數(shù)據(jù)集3DIRCADb 上對(duì)模型進(jìn)行測(cè)試。預(yù)處理操作能在一定程度上提升網(wǎng)絡(luò)的分割性能,本文對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理。預(yù)處理的步驟主要有:
(1)Hu 值截?cái)?,采用范圍為[-200,200]的Hu 值進(jìn)行截?cái)?,此Hu 值范圍包含了99%的肝臟區(qū)域;
(2)像素值歸一化,使用像素值歸一化來(lái)減小同性質(zhì)組織之間的差異;
(3)重采樣,對(duì)每一個(gè)數(shù)據(jù),每隔3 個(gè)切片選擇16個(gè)連續(xù)切片,然后進(jìn)行重采樣,將切片大小從512×512 調(diào)整到256×256。
經(jīng)過(guò)這一系列預(yù)處理操作,得到2 723 個(gè)圖像數(shù)據(jù)用于訓(xùn)練,如圖5 所示,預(yù)處理后的圖像明顯區(qū)分邊界和對(duì)比度。
圖5 肝臟CT 圖像預(yù)處理前(左)和后(右)Fig.5 Before(left)and after(right)liver CT image preprocessing
本文的實(shí)驗(yàn)是在CPU(Intel Core i7-5500U)、GPU(Nvidia GeForce RTX 2080Ti)、Windows 10 操作系統(tǒng)和PyTorch1.5 的平臺(tái)上進(jìn)行。使用Dice 損失函數(shù)進(jìn)行訓(xùn)練,Adam 作為優(yōu)化器,批大小設(shè)置為2,初始學(xué)習(xí)速率設(shè)置為1E-4,并采用指數(shù)衰減來(lái)對(duì)學(xué)習(xí)率進(jìn)行動(dòng)態(tài)調(diào)整,指數(shù)衰減的公式為:
其中,lr表示當(dāng)前的學(xué)習(xí)率;lr0表示初始學(xué)習(xí)率;decay_rate則是學(xué)習(xí)衰減率,這里設(shè)為0.95;global_steps和decay_steps則分別代表當(dāng)前的迭代次數(shù)和衰減速度,一共進(jìn)行了50 次epoch 迭代訓(xùn)練。將肝臟分割輸出的閾值設(shè)為0.7,對(duì)每個(gè)輸出結(jié)果的像素點(diǎn)進(jìn)行預(yù)測(cè),大于等于閾值的判為1,反之判為0(1 表示肝臟區(qū)域,0 表示非肝臟區(qū)域)。
肝臟在整個(gè)CT 圖像中占比相對(duì)較小,對(duì)其進(jìn)行分割時(shí),大面積的背景很可能導(dǎo)致學(xué)習(xí)過(guò)程陷入損失函數(shù)的極小值,即將正樣本判斷為負(fù)樣本。針對(duì)醫(yī)學(xué)圖像樣本分布不平衡導(dǎo)致預(yù)測(cè)結(jié)果偏差較大的問(wèn)題,采用合適的損失函數(shù)可以減小分割圖像和標(biāo)注之前的差距,獲得高置信度的分割圖像。
Dice 相似系數(shù)[27]是醫(yī)學(xué)圖像分割中常用的評(píng)價(jià)指標(biāo),通常用于計(jì)算兩個(gè)樣本的相似度。Dice 損失函數(shù)的定義為式(7),其靈感來(lái)自Dice 相似系數(shù),目的是最小化正負(fù)樣本之間的重疊度。
其中,N表示圖像中的體素總數(shù);pi是預(yù)測(cè)的二元分割體素;gi是真實(shí)標(biāo)注的二元體素;ε是一個(gè)光滑項(xiàng),以避免除數(shù)項(xiàng)為0,在實(shí)驗(yàn)中設(shè)置為1。
通過(guò)觀察分割結(jié)果可知,對(duì)模型進(jìn)行肝臟分割所得的概率圖,僅使用閾值得到的分割結(jié)果的精確性還有待提升;且當(dāng)分割結(jié)果中存在空洞的情況,分割的效果往往較差。對(duì)此,本文對(duì)預(yù)測(cè)結(jié)果進(jìn)行后處理,采用四連通區(qū)域提取最大連通域來(lái)移除細(xì)小區(qū)域,并對(duì)內(nèi)部空洞進(jìn)行填充,允許的最大空洞面積為5E4。后處理結(jié)果如圖6 所示。
圖6 肝臟分割結(jié)果的后處理前(左)和后(右)Fig.6 Before(left)and after(right)post-processing of liver segmentation results
醫(yī)學(xué)圖像分割中常用的主要評(píng)價(jià)指標(biāo)是Dice 相似系數(shù),Dice 相似系數(shù)可分為DC(dice per case,每個(gè)volume 的Dice 系數(shù)的平均值)和DG(dice global,所有volume 合并到一起得到的Dice 系數(shù))。除此之外,還使用Jaccard、VOE(volumetric overlap error)、RVD(relative volume difference)、ASSD(average symmetry surface distance)和MSSD(maximum symmetry surface distance)等評(píng)價(jià)指標(biāo)來(lái)評(píng)估分割結(jié)果與真實(shí)標(biāo)注之間的相似性。DC、DG 和Jaccard 的取值范圍為[0,1],它們的值越接近1 分割效果就越好;VOE、ASSD 和MSSD 的值越小模型性能越好;而對(duì)于RVD,則是絕對(duì)值越小,模型的性能越好。
在這一部分,采用消融分析來(lái)對(duì)提出的肝臟分割模型的有效性進(jìn)行評(píng)估。將3D U-Net 作為基線(xiàn)網(wǎng)絡(luò),依次將空洞殘差卷積(DRC)、深度監(jiān)督(DS)和MSFA 模塊融入其中進(jìn)行實(shí)驗(yàn)。
表2 中的數(shù)據(jù)顯示,在LiTS 數(shù)據(jù)集上,使用了DRC 模塊的網(wǎng)絡(luò)在各個(gè)評(píng)價(jià)指標(biāo)上均有明顯的提升,說(shuō)明通過(guò)DRC 模塊增大感受野使網(wǎng)絡(luò)能夠感知更多肝臟的多尺度信息。DS 模塊組合解碼器各層的輸出對(duì)分割結(jié)果有一定的優(yōu)化作用。MSFA 模塊充分融合了網(wǎng)絡(luò)特征提取層相鄰的低級(jí)和高級(jí)語(yǔ)義特征,并結(jié)合注意力機(jī)制關(guān)注到微小特征,在7 個(gè)評(píng)價(jià)指標(biāo)上具有比較明顯的優(yōu)勢(shì)。各個(gè)模塊對(duì)于網(wǎng)絡(luò)分割性能的提高均有一定的有效性。最終,將以上模塊融合得到本文提出的分割模型MSFA-Net,該模型在LiTS 數(shù)據(jù)集上的主要評(píng)分?jǐn)?shù)據(jù)DC 和DG 相比基線(xiàn)3D U-Net,分別提高了3.5%和2.0%。
表2 在LiTS 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiments on LiTS dataset
表3 中的數(shù)據(jù)顯示,在3DIRCADb 數(shù)據(jù)集上,對(duì)于肝臟分割任務(wù),在基線(xiàn)網(wǎng)絡(luò)的基礎(chǔ)上分別使用提出的各個(gè)模塊的評(píng)分?jǐn)?shù)據(jù)均有增長(zhǎng),且最終提出的分割模型MSFA-Net 的各個(gè)評(píng)分?jǐn)?shù)據(jù)提升最為明顯,在主要的DC 和DG 評(píng)分上分別提高了3.5%和3.3%。由此證明,本文提出的模型在不同數(shù)據(jù)集上同樣能表現(xiàn)出較好的分割效果,也進(jìn)一步驗(yàn)證依次使用改進(jìn)模塊融入基線(xiàn)網(wǎng)絡(luò)可以改進(jìn)3D U-Net 的不足,提出的改進(jìn)方法能獲得良好的分割性能。
表3 在3DIRCADb 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiments on 3DIRCADb dataset
圖7 是基線(xiàn)3D U-Net、3D U-Net +DRC、3D UNet +DS、3D U-Net +DRC+DS、3D U-Net+MSFA、MSFA-Net 等模型的分割結(jié)果對(duì)比圖,其中紅色實(shí)線(xiàn)表示Ground Truth,藍(lán)色實(shí)線(xiàn)表示以上幾個(gè)模型的分割結(jié)果。使用的測(cè)試圖像在驗(yàn)證過(guò)程中不作任何處理,這里為了便于觀察,在圖中給出的測(cè)試圖片都是經(jīng)過(guò)預(yù)處理后的。由圖可知,所有的模型均能將肝臟分割出來(lái),但都存在不同程度的欠分割或過(guò)分割。在第二行和第三行中,對(duì)于圖像中存在不連續(xù)且微小的特征時(shí),使用基線(xiàn)3D U-Net 只能得到一個(gè)粗略的分割結(jié)果,通過(guò)進(jìn)一步應(yīng)用MSFA 模塊的注意力機(jī)制可以關(guān)注到這些微小特征,使MSFA-Net 獲得更加精細(xì)的肝臟區(qū)域。最終,MSFA-Net 結(jié)合空洞殘差卷積、MSFA 模塊和深度監(jiān)督,在測(cè)試集上所得的分割結(jié)果最接近于Ground Truth(紅色實(shí)線(xiàn)與藍(lán)色實(shí)線(xiàn)基本重合)。
圖7 不同方法的分割樣本比較結(jié)果Fig.7 Comparison results of sample segmentation by different methods
最后,為了評(píng)估MSFA-Net 對(duì)肝臟分割的有效性和可行性,將MSFA-Net與其他的在LiTS和3DIRCADb數(shù)據(jù)集上表現(xiàn)優(yōu)異的深度學(xué)習(xí)方法進(jìn)行比較,比較結(jié)果如表4 和表5 所示。
表4 MSFA-Net與其他方法在LiTS 數(shù)據(jù)集上的比較Table 4 Comparison of MSFA-Net and other methods on LiTS dataset
表5 MSFA-Net與其他方法在3DIRCADb 數(shù)據(jù)集上的比較Table 5 Comparison of MSFA-Net and other methods on 3DIRCADb dataset
對(duì)于肝臟分割,由于MSFA-Net 中加入空洞殘差卷積可以提取較多肝臟的多尺度信息,MSFA 模塊能夠較好地融合利用相鄰高層和低層特征提取層的語(yǔ)義信息和細(xì)節(jié)信息;深度監(jiān)督對(duì)解碼器各層特征求和進(jìn)一步提高了分割性能,使得本文方法獲得較好的分割結(jié)果。從表中數(shù)據(jù)顯示,與其他方法相比,本文方法在主要的評(píng)價(jià)指標(biāo)DC 和DG 上實(shí)現(xiàn)了較高值,且在其他輔助評(píng)價(jià)指標(biāo)上也取得了不錯(cuò)的結(jié)果,對(duì)于肝臟分割優(yōu)于大多數(shù)方法。因此證明,本文方法的整體性能優(yōu)于表中的其他類(lèi)似算法。
本文提出了一種基于3D U-Net 改進(jìn)的多尺度語(yǔ)義特征注意網(wǎng)絡(luò),用于從腹部CT 圖像中分割出肝臟。在該模型中,首先使用空洞殘差卷積來(lái)充分感知肝臟的多尺度結(jié)構(gòu);然后采用多尺度語(yǔ)義特征注意(MSFA)模塊,將特征提取層相鄰的低級(jí)特征和高級(jí)特征與注意力機(jī)制相結(jié)合來(lái)充分融合多尺度特征和關(guān)注微小特征,以此提高網(wǎng)絡(luò)對(duì)上下文特征的提取能力并增強(qiáng)特征的傳輸;最后使用深度監(jiān)督增強(qiáng)梯度傳輸,以提高分割的一致性。
實(shí)驗(yàn)結(jié)果表明,本文方法取得了較好的分割性能,與同類(lèi)型的其他網(wǎng)絡(luò)進(jìn)行對(duì)比,進(jìn)一步驗(yàn)證了改進(jìn)網(wǎng)絡(luò)和MSFA 模塊的有效性。然而,本文方法還存在一定的不足,3D 卷積神經(jīng)網(wǎng)絡(luò)雖然能夠提取三維CT 圖像的inter-slice 特征,但是這樣的網(wǎng)絡(luò)參數(shù)量較大,且需要較高的計(jì)算成本。在后續(xù)的工作中將會(huì)考慮如何降低網(wǎng)絡(luò)參數(shù),從而更好地輔助肝臟疾病診療任務(wù)。