楊玉聃,張俊華,劉云鳳
(云南大學信息學院,云南 昆明 650504)
脊柱是人體的重要骨性結(jié)構(gòu),作為運動和神經(jīng)的樞紐支撐著人類日常活動。然而各類脊柱疾病的發(fā)病率卻日益增長,脊柱的計算機斷層攝影(CT)圖像分割有助于后續(xù)目標識別、特征測量或輔助診斷評估脊柱相關(guān)疾病,因而具有重要的實際意義。
目前,脊柱圖像分割方法主要分為傳統(tǒng)方法與深度學習方法2類。由于傳統(tǒng)方法算法復雜、分割精度低、結(jié)果誤差較大,因此難以解決實際的問題。人工智能的不斷發(fā)展彌補了傳統(tǒng)方法精度低的缺點。深度學習方法大多是針對CT圖像切片進行分割的,雖然能得到良好的精度,但是忽略了切片與切片間豐富的圖像信息。SHUVO等[1]基于U型網(wǎng)絡(luò)(U-Net)[2]和遷移學習設(shè)計了一個輕量級的系統(tǒng)用于椎體分割。于文濤等[3]在UNet++[4]的基礎(chǔ)上改進網(wǎng)絡(luò),使用殘差連接模型代替原有的跳躍連接,解決了網(wǎng)絡(luò)退化問題。ZHANG等[5]基于Segmenter[6]進行脊柱分割,對于分割后的結(jié)果進行自適應(yīng)優(yōu)化,解決了椎塊之間的粘連問題。周靜等[7]提出一種基于多尺度的特征融合注意網(wǎng)絡(luò)來分割頸椎,增強了對頸椎細節(jié)部分的提取,提升了分割的完整性。上述二維(2D)分割方法都只考慮了局部區(qū)域,往往會丟失重要的空間信息,因此三維(3D)分割是醫(yī)學圖像分割上需要探索的重要領(lǐng)域。
目前針對脊柱CT圖像的三維分割仍然面臨著挑戰(zhàn),如脊柱復雜的形狀結(jié)構(gòu)、椎體與椎體之間多變的空間位置關(guān)系、椎體與相鄰器官組織之間相近的灰度值等。3D-UNet[8]是基于U-Net提出的三維醫(yī)學圖像分割網(wǎng)絡(luò),其將網(wǎng)絡(luò)中的二維卷積替換為三維卷積進行體素分割,在許多醫(yī)學數(shù)據(jù)集上都表現(xiàn)出了良好的分割效果。LIU等[9]通過3D-UNet對第5節(jié)腰椎和第1節(jié)骶椎進行自動分割,從而實現(xiàn)快速準確的腰骶椎間孔(LIVF)模型重建。LI等[10]在3D-UNet的基礎(chǔ)上融合了一種新的殘差路徑,來解決脊柱分割時編碼器與解碼器之間特征丟失的問題。TAO等[11]先使用輕量化的3D Transformer對椎體進行標記,在標記后訓練一個針對所有椎骨的編碼器-解碼器網(wǎng)絡(luò)來完成椎骨的分割。LI等[12]基于對抗生成網(wǎng)絡(luò)分割三維脊柱,先建立空間特征提取層共享圖像的特征表示,再基于反卷積堆棧的擴展路徑將上下文信息傳播到更高層。劉俠等[13]提出一種融合加權(quán)隨機森林的自動3D椎骨CT主動輪廓分割方法,解決分割網(wǎng)絡(luò)對初始輪廓敏感和分割不準確的問題。上述分割方法保留了圖像的重要空間信息,但在面對脊柱復雜的結(jié)構(gòu)時,網(wǎng)絡(luò)對于上下文特征的提取能力不夠,因此分割精度不高,難以應(yīng)用于計算機輔助診療中。
針對上述問題,本文提出了一種基于三維循環(huán)殘差卷積模塊的U型網(wǎng)絡(luò),主要貢獻如下:
1)提出三維循環(huán)殘差卷積代替普通卷積構(gòu)成網(wǎng)絡(luò)基礎(chǔ)模塊,使每層網(wǎng)絡(luò)不斷累積遞歸殘差卷積層的特征,同時解決隨著網(wǎng)絡(luò)深度增加產(chǎn)生的梯度消失問題。
2)設(shè)計高效密集連接混合卷積模塊,通過擴大感受野增強網(wǎng)絡(luò)對多尺度特征的提取能力,減少細節(jié)特征的丟失。同時采用密集連接的方式融合編碼器與解碼器之間的特征信息。
3)針對解碼器與編碼器不同層級間語義信息差異較大的問題,提出雙特征殘差注意力模塊代替簡單的跳躍連接進行深淺層語義特征融合。
4)在編碼器的前端引入三維坐標注意力機制,使得網(wǎng)絡(luò)從一開始就關(guān)注感興趣區(qū)域(ROI)。
本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示(彩色效果見《計算機工程》官網(wǎng)HTML版,下同),主要包括編碼器、底部模塊和解碼器。圖像經(jīng)過預處理后,被裁減為若干個64×64×64的立方體進行端到端的自動分割。圖像首先會經(jīng)過三維坐標注意力機制來同時捕獲跨通道信息、位置信息和空間信息,使模型開始定位并關(guān)注脊柱位置區(qū)域。采用三維循環(huán)殘差模塊對圖像進行特征提取,循環(huán)卷積在時序上能有效地累積椎體特征信息,通過權(quán)重共享建立網(wǎng)絡(luò)對體素之間的長期依賴,而殘差結(jié)構(gòu)可以加速網(wǎng)絡(luò)的收斂。本文采用卷積核大小為2×2×2、步長為2的卷積對圖片進行下采樣,下采樣層還包括激活函數(shù)ReLU和層標準化(LN)處理。圖像在4次下采樣后到達底部的高效密集連接混合卷積模塊進行編碼器與解碼器之間的過渡。在上采樣過程中,考慮到層級間的特征差異性,使用雙特征殘差注意力機制模塊來融合高、低級語義特征。圖像經(jīng)過4次上采樣后,還原為輸入的64×64×64的大小,通過預測處理后還原成原始CT圖像的大小。
圖1 脊柱CT圖像自動分割框架Fig.1 Automatic segmentation framework of spine CT image
注意力機制可以使神經(jīng)網(wǎng)絡(luò)關(guān)注感興趣的區(qū)域,SE[14]注意力機制將特征圖壓縮成通道注意力向量再與輸入特征圖結(jié)合進行通道特征的加強,但卻忽略了圖像的空間位置信息。CBAM[15]通過加入空間注意力模塊彌補了SE忽略空間位置信息的不足,但CBAM只能捕獲局部關(guān)系,無法對遠距離依賴進行建模。HOU等[16]提出了坐標注意力(CA)機制,為了獲取圖像的精確位置信息,分別對圖像的長和寬進行編碼,將橫向和縱向的位置信息編碼到通道注意力中,使移動網(wǎng)絡(luò)能夠關(guān)注大范圍的位置信息,在有效捕捉圖像長程信息的同時避免帶來過多計算量。本文將CA機制所關(guān)注到的位置信息關(guān)系從二維拓展到三維,除了長、寬位置信息外,將高的位置信息同樣編碼到通道注意力中。改進的三維坐標注意力機制如圖2所示。
圖2 三維坐標注意力機制Fig.2 3D coordinate attention mechanism
將圖像的長(H)、寬(W)、高(D)3種位置信息進行編碼,即對3個維度分別用(H×1×1)、(1×W×1)、(1×1×D)大小的卷積核進行平均池化操作。將通道注意力分解為3個方向的二維特征編碼,得到捕獲全局感受野的注意力感知圖。每個維度的注意力感知圖分別表示如下:
長為h的第c個通道的注意力感知圖Zc,h(h)表示為:
(1)
寬為w的第c個通道的注意力感知圖Zc,w(w)表示為:
(2)
高為d的第c個通道的注意力感知圖Zc,d(d)表示為:
(3)
對3個方向的注意力感知圖進行拼接,送入卷積核大小為1×1×1的共享卷積中,為了減小模型的復雜性,將其維度降低為原來的C/r。經(jīng)過批量歸一化處理后得到形如C/r×(W+H+D)×1的保留了三維度空間信息的中間特征圖f:
f=δ(F13([Zc,h(h),Zc,w(w),Zc,d(d)]))
(4)
其中:F13()表示用卷積核大小為1×1×1的卷積對特征圖進行操作;δ表示非線性激活函數(shù)Sigmoid;[, ,]表示沿某個維度對特征向量進行拼接(Concat),且f∈C/r×(H+W+D)。將特征圖沿空間維度分離成3個獨立的張量,分別送入卷積核大小為1×1×1的三維卷積后得到每個方向的特征圖:fh,fw,fd,將每個特征圖的通道數(shù)調(diào)整為原始通道數(shù)大小,生成的gc,h、gc,w和gc,d3個注意力權(quán)重表示如下:
gc,h=σ(F13(fh))
(5)
gc,w=σ(F13(fw))
(6)
gc,d=σ(F13(fd))
(7)
其中:σ表示非線性激活函數(shù)Sigmoid;F13()表示用卷積核大小為1×1×1的卷積調(diào)整通道數(shù),且滿足fh∈C/r×W、fw∈C/r×W和fd∈C/r×D。最后將得到的3個注意力權(quán)重與原始輸入xc(i,j,k)相乘得到輸出的注意力權(quán)重yc(i,j,k),表示如下:
yc(i,j,k)=xc(i,j,k)×gc,h(i)×
gc,w(j)×gc,d(k)
(8)
上述注意力機制可以改進SE和CBAM等注意力機制中編碼全局空間信息時將全局信息壓縮成一個標量而難以保留重要空間信息的缺點。三維坐標注意力機制能夠跨通道捕捉單方向上的長距離關(guān)系,同時保留另外2個方向上的空間信息,幫助網(wǎng)絡(luò)更準確地定位目標,捕捉感興趣區(qū)域。
單個卷積前饋網(wǎng)絡(luò)只在有限的單元具有較強的上下文提取能力,因此需要通過增加卷積層來增強網(wǎng)絡(luò)的特征提取能力,但隨著網(wǎng)絡(luò)層數(shù)的增加,又將面臨梯度消失和梯度爆炸等問題。為了解決上述問題,受殘差網(wǎng)絡(luò)[17]和二維循環(huán)卷積網(wǎng)絡(luò)[18]的啟發(fā),本文提出了三維循環(huán)殘差模塊(RRB),隨著時間的推移,迭代權(quán)重可以有效累積圖像特征,時序的權(quán)重累積有利于捕捉體素之間的關(guān)系,使每個單元能夠?qū)⑸舷挛男畔⒑喜⒌疆斍皩又械膮^(qū)域,且循環(huán)卷積操作并不會增加額外的參數(shù)量。改進后的網(wǎng)絡(luò)增強了對于圖像特征的提取,以便更精準地分割出結(jié)構(gòu)復雜的目標,同時也解決了隨著網(wǎng)絡(luò)層數(shù)增加而面臨的梯度消失問題。
在分割任務(wù)中能夠精準地區(qū)分背景和目標像素是神經(jīng)網(wǎng)絡(luò)必須達到的效果。與一般前饋網(wǎng)絡(luò)不同,在普通卷積神經(jīng)網(wǎng)絡(luò)中,當前層中單位的感受野大小是固定的,只有在更深的層才能獲得更大的感受野。而循環(huán)卷積卻可以通過權(quán)值共享,在保持可調(diào)參數(shù)量的情況下獲得更大的感受野,循環(huán)連接的效果相當于增加網(wǎng)絡(luò)深度卻又不增加參數(shù)量,殘差連接可以解決神經(jīng)網(wǎng)絡(luò)隨著層數(shù)的增加可能面臨的梯度消失、網(wǎng)絡(luò)退化等問題。三維循環(huán)殘差卷積模塊結(jié)構(gòu)如圖3所示,其中輸入圖像經(jīng)過2個三維循環(huán)卷積后,與原始圖像進行相加得到輸出。單個三維循環(huán)卷積和總時間步長T的展開卷積層如圖3右側(cè)所示,其中,t代表時間步長。若t=2,則得到最大深度為3、最小深度為1的前饋網(wǎng)絡(luò),包含1個三維卷積層和2個三維循環(huán)卷積層組成的子序列。當t=0時,將圖像輸入三維循環(huán)卷積層;當t=1時,對圖像首次進行卷積核大小為3×3×3的前向卷積操作;當t=2時,將輸入圖像以及第1次前向卷積操作的輸出整體作為第2次前向卷積操作的輸入;以此類推。隨著時間步長的增加,前層中越來越多鄰域單元的狀態(tài)都受到其他單元的影響,因此,通過共享權(quán)重單元在輸入空間中的感受野也會增大。
圖3 三維循環(huán)殘差卷積模塊Fig.3 3D recurrent residual convolution block
對于位于第m個特征圖上的(i,j,k)處的單元,其在時間步長t的輸出可表示為:
Oijkm,l(t)=(Wm,f)T×xl,f(i,j,k)(t)+
(Wm,r)T×xl,r(i,j,k)(t-1)+bm
(9)
其中:xl,f(i,j,k)(t)表示第l層前饋三維卷積的輸入;xl,r(i,j,k)(t-1)表示第l層三維循環(huán)卷積層的輸入;Wm,f和Wm,r分別表示第m個特征圖的前饋卷積層權(quán)重和循環(huán)卷積層權(quán)重;T表示總時間步長;bm表示偏差。整個三維循環(huán)殘差模塊的輸出xl+1可以表示為:
xl+1=xl+f(Oijkm,l(t))=
xl+max(0,Oijkm,l(t))
(10)
根據(jù)對比實驗結(jié)果,本文選取總時間步長T=2的三維循環(huán)殘差卷積模塊作為基礎(chǔ)模塊,在輸入層和輸出層之間建立長期依賴關(guān)系,幫助模型更好地學習復雜的結(jié)構(gòu)特征。
圖像經(jīng)過多次下采樣會降低輸入特征圖的分辨率,在到達編碼器和解碼器之間的底層后,將經(jīng)過多次上采樣恢復輸入特征圖的分辨率,從而達到特征提取的效果。但是經(jīng)過多次下采樣后再進行上采樣操作會導致一些邊緣特征和較小特征的體素丟失。針對此類問題,本文提出了一個高效密集連接混合卷積模塊(EHCM)來減少編碼器與解碼器之間底層信息的缺失,其結(jié)構(gòu)如圖4所示。
圖4 高效密集連接混合卷積模塊Fig.4 Efficient dense-connected hybrid convolution module
EHCM模塊主要是利用不同空洞率的空洞卷積提取不同大小的尺度特征,而密集連接的方式可以有效地聚合特征,將不同空洞率大小的多尺度特征進行聚合可以提高網(wǎng)絡(luò)對不同尺度目標的分割能力。采用空洞卷積進一步增大網(wǎng)絡(luò)感受野,由于空洞卷積的卷積核并不連續(xù),圖像經(jīng)過多個相同空洞率的空洞卷積后會導致網(wǎng)格效應(yīng)[19]:上下文信息不連續(xù),存在嚴重的信息丟失??斩绰实拇笮绊憣δ繕颂卣鞯奶崛∧芰?若空洞率過大,則對于較小物體而言會存在信息丟失的問題,因此,針對不同的目標物體需要選擇合適的空洞率??紤]到三維卷積的成本大小和網(wǎng)格效應(yīng),本文選擇空洞率分別為1、2、5、卷積核大小為3×3×3的卷積進行操作,如圖5(a)所示,若在空洞率都設(shè)置為2的情況下對圖像進行連續(xù)的空洞卷積操作,得到的特征圖會存在像素級別的缺失,圖中白色方塊表示卷積核未采集到的部分,雖然擴大了感受野,但是會損失一些細小的特征信息。將空洞率分別設(shè)置為1、2、5對圖像進行連續(xù)的卷積操作,如圖5(b)所示,得到的特征圖感受野是連續(xù)的且不存在體素缺失的問題,相較于普通卷積既增大了感受野,又保持了圖像信息的連續(xù)性。
圖5 相同卷積核不同空洞率下的特征圖感受野Fig.5 Receptive field of feature map with the same convolution kernel and different void ratios
3D-UNet中采用跳躍連接來融合編碼器和解碼器間不同級別的特征,但是由于淺層特征和深層特征之間存在較大的語義差異,跳躍連接只是簡單連接而不能有效地融合具有語義間隙的特征,從而會限制網(wǎng)絡(luò)分割的性能。針對這個問題,本文提出了一種雙特征殘差注意力機制(DRAM)來解決淺層的低級信息和深層的高級信息之間的語義差異問題。DRAM將編碼器和解碼器中的層級特征利用殘差連接和激活函數(shù)實現(xiàn)非線性化擬合,通過聚合不同層級特征對全局上下文進行建模,其結(jié)構(gòu)如圖6所示。
圖6 雙特征殘差注意力機制Fig.6 Double-feature residual attention mechanism
對編碼器的層特征Gen和解碼器的層特征Gde分別進行卷積核大小為3×3×3的卷積操作,與原始特征進行殘差連接后,為了保留更多的信息,將得到的2種特征進行拼接得到多尺度特征圖Eed,表示如下:
Eed=(Gen+F33(Gen))?(Gde+F33(Gde))
(11)
Eed通過激活函數(shù)ReLU實現(xiàn)多尺度特征的非線性化。對得到的非線性化特征圖進行卷積核大小為1×1×1的卷積操作來調(diào)整通道數(shù)。使用Sigmoid激活函數(shù)對卷積后的特征進行歸一化處理,得到注意力權(quán)重。將原始的編碼器的層特征Gen和解碼器的層特征Gde進行線性疊加,進一步擴大感知域,最后與注意力權(quán)重相乘得到最終輸出結(jié)果E,表示如下:
E=σs(F13(σr(Eed)))×(Gen+Gde)
(12)
在式(11)和式(12)中:F33表示卷積核大小為3×3×3的三維卷積操作;F13表示卷積核大小為1×1×1的三維卷積操作;?表示Concat操作;σr表示ReLU激活函數(shù);σs表示Sigmoid激活函數(shù)。
為了驗證本文網(wǎng)絡(luò)的性能,采用脊柱分割挑戰(zhàn)公開數(shù)據(jù)集CSI2014[20]進行實驗。該數(shù)據(jù)集包含10例青壯年的胸腰椎CT掃描圖像,每例標簽都由多名專家手動標注,圖片大小為512×512×600像素??紤]到計算機資源限制,本文將原始CT圖像隨機裁剪為多個大小為64×64×64像素的圖像。在裁剪過程中,整個CT圖像都將被裁剪到且不會出現(xiàn)重復裁剪的現(xiàn)象。隨機選取8例作為訓練集、1例作為測試集、1例作為驗證集,考慮到數(shù)據(jù)集個數(shù)限制,本文采用十折交差驗證法[21]來獲取模型的平均指標。對于訓練集,本文從包含標簽部分的圖像中隨機選擇40%的圖像進行水平翻轉(zhuǎn)、隨機旋轉(zhuǎn)、隨機縮放等操作進行數(shù)據(jù)增強。經(jīng)過預處理后,得到7 104幅訓練圖像、642幅驗證圖像和640幅測試圖像。
實驗環(huán)境主要配置如下:實驗操作系統(tǒng)為Windows 10,GPU采用RAM大小為16 GB的NVIDIA GeForce RTX 2080,采用Python 3.7和Tensorflow 2.4支撐的Keras框架。在實驗過程中,批處理大小設(shè)置為2,初始學習率設(shè)置為0.000 1,采用Adam優(yōu)化器計算自適應(yīng)學習率,訓練輪次為500次。訓練過程中使用了早停法,將限制條件設(shè)置為30,當驗證集Dice相似系數(shù)(DSC)連續(xù)30個epoch內(nèi)不再提升,則自動停止迭代,選取最佳權(quán)重模型。
本文選擇Dice相似系數(shù)、像素準確率(PA)、精確率(Pre)以及召回率(Rec)作為評價指標。Dice相似系數(shù)可以衡量2個樣本的相似度,取值在0到1之間,公式如式(13)所示:
(13)
像素準確率表示預測正確的像素樣本數(shù)量占總像素樣本數(shù)量的比例,公式如式(14)所示:
(14)
精確率表示模型預測為正確的像素樣本中,實際的正確像素樣本數(shù)量占預測的正確像素樣本數(shù)量的比例。用此標準來評估預測正確像素樣本的準確度,公式如式(15)所示:
(15)
召回率表示實際為正確的像素樣本中,預測正確的像素樣本數(shù)量占總實際正確像素樣本數(shù)量的比例。用此標準來評估所有實際正確的像素樣本被預測出來的比例,公式如式(16)所示:
(16)
在上述公式中:NTP代表真陽性,即正確地預測出脊柱像素的樣本數(shù)量;NFP代表假陽性,即錯誤地將背景像素預測為脊柱像素的樣本數(shù)量;NTN代表真陰性,即正確地預測出背景像素的樣本數(shù)量;NFN代表假陰性,即錯誤地將脊柱像素預測為背景像素的樣本數(shù)量。
2.4.1 消融實驗
為了驗證本文網(wǎng)絡(luò)的性能,以3D-UNet為基礎(chǔ)設(shè)計4個模型的消融實驗:第1個模型(Model_1)將3D-UNet中所有卷積換成三維循環(huán)殘差卷積,針對三維循環(huán)殘差卷積模塊中總時間步長T對網(wǎng)絡(luò)性能的影響,本文設(shè)置了Model_1(T=1)、Model_1(T=2)、Model_1(T=3)、Model_1(T=4)4種方案;第2個模型(Model_2)在最優(yōu)Model_1的基礎(chǔ)上引入三維坐標注意力機制;第3個模型(Model_3)在Model_2的基礎(chǔ)上將編碼器與解碼器之間的模塊替換成EHCM;第4個模型(Model_4)在Model_3的基礎(chǔ)上引入DRAM,Model_4表示本文網(wǎng)絡(luò)。
表1和圖7分別展示了消融實驗的數(shù)據(jù)指標和預測圖像切面效果圖,結(jié)合圖表可知:將3D-UNet改進為Model_1(T=2)時,DSC提升了4個百分點,從分割效果圖也能看出網(wǎng)絡(luò)對脊柱特征判斷更加有優(yōu)勢,錯誤分割部分的明顯減少說明了三維循環(huán)殘差卷積模塊相對于傳統(tǒng)三維卷積模塊可以更有效地累積椎體特征;從Model_1到Model_2,引入三維坐標注意力機制后加深了網(wǎng)絡(luò)對脊柱位置的關(guān)注,錯誤分割相對減少;Model_2到Model_3,利用EHCM模塊中不同空洞率卷積的密集連接可以很好地將網(wǎng)絡(luò)底層的信息從底層編碼器過渡到解碼器中,關(guān)注到細小體素的特征信息;Model_3相比Model_2在細節(jié)處理時表現(xiàn)得更好;Model_4相比Model_3DSC提升了1.77個百分點,說明本文提出的DRAM能更好地融合語義差別較大的不同級特征,達到更接近標簽的分割效果;從3D-UNet到本文網(wǎng)絡(luò)Model_4DSC提升了7.65個百分點,錯誤分割、遺漏分割的部分明顯減少,直觀地體現(xiàn)了本文網(wǎng)絡(luò)的分割優(yōu)勢。
表1 消融實驗數(shù)據(jù)指標Table 1 Indexes in ablation experiment %
圖7 消融實驗預測圖像切面效果圖Fig.7 Section renderings of predicted images in ablation experiment
2.4.2 與其他分割網(wǎng)絡(luò)的對比
使用3D分割網(wǎng)直接對三維圖像進行分割相較于二維分割可以更好地保留圖像的空間信息,尤其是對于脊柱這類空間結(jié)構(gòu)較為復雜的物體,但是由于三維卷積的運算量較大,會消耗更多的計算機資源。目前三維分割網(wǎng)絡(luò)的發(fā)展并不像二維分割網(wǎng)絡(luò)一樣成熟,本文選擇了V-Net[22]、nnU-Net[23]、3D Dense-UNet[24]、3D Attetion U-Net[25]、3D Residual U-Net和UNETR[26]等經(jīng)典三維分割網(wǎng)絡(luò)進行對比實驗,證明本文網(wǎng)絡(luò)優(yōu)于這些三維分割網(wǎng)絡(luò)。
在相同數(shù)據(jù)集和環(huán)境配置下進行對比實驗,實驗結(jié)果如表2所示,其中,粗體表示最優(yōu)值。為了更加直觀地看出不同網(wǎng)絡(luò)的三維分割效果,本文將預測結(jié)果和原始標簽轉(zhuǎn)換為STL文件進行三維效果可視化展示,如圖8和圖9所示。V-Net的DSC僅為84.18%,從分割效果可以看出,在面對結(jié)構(gòu)復雜的目標時,V-Net的分割效果較差,其將部分周圍的器官組織錯誤分割成脊柱;3D Attention U-Net、3D Dense-UNet和3D Residual U-Net在一定程度上更加關(guān)注目標區(qū)域,但是出現(xiàn)大片椎體粘連現(xiàn)象;nnU-Net在一定程度上能有效地捕獲全局特征,但網(wǎng)絡(luò)對細小信息提取能力不夠,分割結(jié)果存在小部分假陽性現(xiàn)象;UNETR和本文網(wǎng)絡(luò)效果較為接近,但是本文網(wǎng)絡(luò)在分割細節(jié)上更加優(yōu)秀,且4個數(shù)據(jù)指標均高于UNETR。對比實驗結(jié)果證明了本文網(wǎng)絡(luò)的分割性能要優(yōu)于對比的這6種分割網(wǎng)絡(luò)。
表2 不同網(wǎng)絡(luò)的對比實驗結(jié)果Table 2 Comparative experiment result of different networks %
圖8 CSI2014數(shù)據(jù)集對比實驗三維可視化效果1Fig.8 3D visualization rendering 1 of CSI2014 dataset comparison experiment
圖9 CSI2014數(shù)據(jù)集對比實驗三維可視化效果2Fig.9 3D visualization rendering 2 of CSI2014 dataset comparison experiment
2.4.3 與脊柱分割方法的對比
本文使用的CSI2014數(shù)據(jù)集是脊柱挑戰(zhàn)賽的公開數(shù)據(jù)集,目前有很多不同的分割方法,將本文網(wǎng)絡(luò)與這些方法進行對比,對比結(jié)果如表3所示,其中,粗體表示最優(yōu)值。SEITEL等[27]使用單個統(tǒng)計多目標形狀+姿態(tài)模型進行分割,該模型配準使用邊緣檢測從CT體積中提取椎骨邊緣點云,通過重復迭代配準進行分割,這種方法相對復雜且不能很好地提取特征。QADRI等[28]基于層疊稀疏自動編碼器分割脊柱CT圖像,相比SEITEL等[27]所提出的方法提高了椎體特征的可分辨性,但分割效果達不到實際需求。LI等[10]使用三維空洞卷積和殘差路徑結(jié)合的UNet-3D網(wǎng)絡(luò)分割脊柱,雖然保留了空間信息,但是忽略了對細小特征的關(guān)注,易丟失下文信息。LI等[29]利用多尺度卷積塊提取不同大小的感受野來增強網(wǎng)絡(luò)對椎骨結(jié)構(gòu)的感知能力,增加注意力模塊感知特征通道圖之間的關(guān)系、探索位置和通道維度的特征,使得精度有了大幅度提升,但網(wǎng)絡(luò)只能捕獲切片之間的關(guān)系,忽略了空間信息。本文網(wǎng)絡(luò)能夠有效地分割脊柱,減小網(wǎng)絡(luò)中淺層特征和深層特征之間存在的語義差異,并且保留原始空間信息,因此,本文分割方法的DSC優(yōu)于這些脊柱分割方法。
表3 不同脊柱分割方法對比Table 3 Comparison of different spine segmentation methods
2.4.4 腰椎數(shù)據(jù)集分割
為了進一步驗證本文網(wǎng)絡(luò)的性能,采用由昆華醫(yī)院提供的20例包含5節(jié)腰椎的CT數(shù)據(jù)集,部分CT圖像在裁剪的過程中保留了1節(jié)胸椎,分割標簽均由醫(yī)生手動標記。隨機選取14例作為訓練集、3例作為測試集、3例作為驗證集進行實驗。采用上述對比實驗中的7個三維網(wǎng)絡(luò)對腰椎進行分割,分割結(jié)果如表4所示,其中,粗體表示最優(yōu)值。標簽和分割結(jié)果的三維可視化效果如圖10所示。本文網(wǎng)絡(luò)的各項評價指標均高于其他的網(wǎng)絡(luò),從可視化對比圖可以看出,除了本文網(wǎng)絡(luò)和nnUNet外的其他網(wǎng)絡(luò)均錯分出了不同大小的區(qū)域,其中VNet更是將胸椎分割成腰椎。棘突作為脊椎上比較有特點的結(jié)構(gòu)相對椎體分割難度較大,本文相比nnUNet在棘突的分割細節(jié)上表現(xiàn)更好,且與原標簽更為接近,驗證了本文方法的優(yōu)良性能。
表4 腰椎分割對比實驗結(jié)果Table 4 Comparative experiment result of lumbar segmentation %
圖10 腰椎數(shù)據(jù)集對比實驗三維可視化效果Fig.10 3D visualization rendering of lumbar dataset comparative experiment
2.4.5 模型參數(shù)量與分割性能對比
為了更加準確地分析模型性能,結(jié)合上述2個數(shù)據(jù)集的分割實驗,給出了本文網(wǎng)絡(luò)與其他三維分割模型的參數(shù)量、平均分割精度以及運行時間的數(shù)據(jù)對比,如表5所示,其中,粗體表示最優(yōu)值。本文模型參數(shù)量為4.39×107,因為殘差連接和循環(huán)操作均不會增加參數(shù)量,所以本文網(wǎng)絡(luò)參數(shù)相對于原始模型3D-UNet參數(shù)增加不多,相比nnU-Net減少了3.12×107,而UNETR參數(shù)量幾乎為本文模型的2倍。在分割測試運行時間方面,本文網(wǎng)絡(luò)僅比最快的3D Dense-UNet慢0.9 s,但是比nnU-Net和UNETR分別快了1.5 s和1.3 s,且本文網(wǎng)絡(luò)的平均分割精度最高,因此本文網(wǎng)絡(luò)的分割性能整體要優(yōu)于其他7種分割網(wǎng)絡(luò)。
表5 模型參數(shù)量與分割性能對比Table 5 Comparison of model parameters quantity and segmentation performance
本文提出了一種基于三維循環(huán)殘差卷積的U型網(wǎng)絡(luò)進行脊柱CT圖像的三維分割。三維循環(huán)殘差模塊隨著時間步長的增加,通過權(quán)重迭代有效地累積椎體特征,解碼器與編碼器之間的EHCM通過密集連接不同空洞率的卷積模塊對不同感受野下的特征進行融合,減少了邊緣特征和較小特征的消失。同時,提出DRAM來代替簡單的跳躍連接進行編碼器和解碼器直接的特征融合,解決了深層與淺層之間語義信息差別較大的問題。本文還引入了三維坐標注意力機制使得網(wǎng)絡(luò)關(guān)注感興趣的區(qū)域。在CSI2014數(shù)據(jù)集和腰椎數(shù)據(jù)集上的分割結(jié)果表明,本文網(wǎng)絡(luò)優(yōu)于對比分割網(wǎng)絡(luò)和不同數(shù)據(jù)集下的脊柱分割方法。對于分割后還需要對脊柱進行三維重建的問題, 本文方法也更加方便可行,具有實際意義。在后續(xù)的工作中,將會研究多類別的三維分割方法,分割并具體地識別出每一節(jié)椎體。