程 敏, 沈林鵬, 羅作煌
(中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230026)
經(jīng)皮穿刺介入是一種在醫(yī)學(xué)影像引導(dǎo)下的盲穿刺手術(shù),基于脊柱三維表面重建尋找最優(yōu)入針點(diǎn)與計(jì)算穿刺路徑規(guī)劃是當(dāng)前行業(yè)內(nèi)公認(rèn)最精確的方法,精準(zhǔn)脊柱分割[1]是脊柱三維表面重建技術(shù)基礎(chǔ),所以實(shí)現(xiàn)快速、穩(wěn)定和精準(zhǔn)脊柱分割已經(jīng)成為研究熱點(diǎn)。
傳統(tǒng)脊柱圖像分割技術(shù)是基于圖論的方法,例如Slan M S等人[2]提出一種基于3D形狀的方法存在泛化效果[3]。隨著人工智能技術(shù)與大數(shù)據(jù)的發(fā)展,當(dāng)前的脊柱分割技術(shù)[4]更偏向通過(guò)深度學(xué)習(xí)數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行實(shí)現(xiàn)。Huang S H等人[5]采用基于Adaboost的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,對(duì)圖像采取降噪處理[6],完成椎骨位置檢測(cè),擬合脊椎曲線,然后提出一種迭代歸一化分割算法對(duì)從檢測(cè)到的椎骨位置精確分割出椎骨區(qū)域。Zhang Y C等人[7]提出一種基于空間注意力的Unet結(jié)構(gòu),運(yùn)用注意力機(jī)制在2D卷積網(wǎng)絡(luò)的3D分割任務(wù)中利用切片間的信息,在3D脊柱圖像上進(jìn)行有效分割。Luo X等人[8]結(jié)合了全卷積網(wǎng)絡(luò)(fully convolutional network,FCN)和等值面提取算法來(lái)自動(dòng)分割和重建CT脊柱圖像。以上分割方法均存在幾點(diǎn)弊端:1)算法參數(shù)多,算法訓(xùn)練時(shí)對(duì)硬件平臺(tái)配置較高,同時(shí)算法在部署階段,對(duì)部署硬件配置要求高,難以達(dá)到落地標(biāo)準(zhǔn);2)算法相對(duì)較冗余,難以保證較高精度。
為解決上述問(wèn)題,提出一種融合2D與3D卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[9,10]的2階段脊柱3D實(shí)例分割關(guān)鍵技術(shù)方案。
脊柱3D實(shí)例分割關(guān)鍵技術(shù)方案如下步驟:1)基于輸入脊柱3D CT影像數(shù)據(jù),通過(guò)數(shù)字模擬投影生成脊柱2D正側(cè)位數(shù)字重建圖像(digital reconstructedly radiograph,DRR)圖像;2)利用2D AI實(shí)例分割算法,生成每節(jié)脊柱中心點(diǎn);3)利用DRR正側(cè)位圖像上各節(jié)脊柱中心點(diǎn),插值擬合生成各節(jié)脊柱3D中心點(diǎn),基于生成的3D中心點(diǎn)對(duì)脊柱3D CT影像圖切割分塊,生成切割后單節(jié)脊柱分塊CT 3D圖像;4)利用AI 3D分割算法對(duì)分段CT圖像進(jìn)行語(yǔ)義分割,最后將分段CT圖像分割掩模進(jìn)行拼接,從而生成脊柱3D實(shí)例分割。
1.1.1 問(wèn)題定義
脊柱2D實(shí)例分割包含2項(xiàng)任務(wù):1)各節(jié)脊柱2D 關(guān)鍵點(diǎn)檢測(cè)與類別; 2)各節(jié)脊柱2D語(yǔ)義分割。以Mask-RCNN為主體框架,加入優(yōu)化方法,提升模型的精度,實(shí)現(xiàn)對(duì)每節(jié)脊椎精準(zhǔn)目標(biāo)檢測(cè)與語(yǔ)義分割。
1.1.2 2D AI分割模型優(yōu)化
CT影像檢測(cè)分割模型主要由5個(gè)部分構(gòu)成,包括主干(backbone)特征卷積網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)、檢測(cè)網(wǎng)絡(luò)頭(detect network head)、分割網(wǎng)絡(luò)頭(mask network head)以及關(guān)聯(lián)網(wǎng)絡(luò)頭(associated network head)。通過(guò)對(duì)CT DRR圖像特征分析,存在椎節(jié)類別多、椎節(jié)與椎節(jié)間邊界模糊、相鄰椎節(jié)間相似、椎節(jié)存在局部遮擋等問(wèn)題。為了對(duì)每節(jié)脊椎準(zhǔn)確分類,以及對(duì)每節(jié)脊椎準(zhǔn)確定位與邊緣分割[11],增加以下改進(jìn)優(yōu)化方法:1)在主干特征提取網(wǎng)絡(luò)上加入可變感受野模塊(flexible receptive field module)來(lái)增強(qiáng)對(duì)全局特征提取能力,有助于對(duì)椎節(jié)準(zhǔn)確分類;2)在關(guān)聯(lián)網(wǎng)絡(luò)頭前加入損失函數(shù)平衡機(jī)制,有利于損失函數(shù)更快收斂,模型準(zhǔn)確率達(dá)到更高水平,模型結(jié)構(gòu)如圖1所示。
圖1 CT影像檢測(cè)分割模型
1)可變感受野卷積模塊
針對(duì)每個(gè)輸入的特征圖,普通卷積在l0位置的像素點(diǎn)處特征值計(jì)算公式如下
(1)
式中l(wèi)n為以l0為中心卷積核范圍內(nèi)的所有位置,w(l0)為l0位置的采樣點(diǎn)權(quán)重,x(l0+ln)為l0位置特征值,Rf為感受野區(qū)域。
可變形卷積在此基礎(chǔ)上增加了偏移量Δln計(jì)算公式為
(2)
2)損失函數(shù)優(yōu)化
針對(duì)圖像樣本尺寸多、少樣本、正負(fù)樣本不平衡等問(wèn)題[12],原模型將Focal損失函數(shù)、SmoothL1Loss與Dice損失函數(shù)分別應(yīng)用于語(yǔ)義類別分類、對(duì)象定位與掩模預(yù)測(cè)
L=γ1Lfocal+γ2Lregression+γ3Lmask
(3)
式中L為總損失函數(shù),Lfocal為Focal損失函數(shù),Lmask為掩模損失函數(shù),γ1,γ2,γ3為自定義權(quán)重參數(shù)。
考慮在輸入的CT圖像訓(xùn)練集中,存在相鄰椎節(jié)像素相似、相鄰椎節(jié)邊界模糊的現(xiàn)象,導(dǎo)致像素點(diǎn)的預(yù)測(cè)值與真實(shí)值都很小,Dice損失函數(shù)的梯度則可能會(huì)出現(xiàn)非常大的情況,從而引發(fā)了訓(xùn)練過(guò)程不穩(wěn)定,因此引入平衡系數(shù)γ3;同時(shí)考慮漏檢與誤檢的情況,引入分類平衡系數(shù)γ1與回歸平衡系數(shù)γ2。
1.2.1 問(wèn)題定義
針對(duì)3D U-Net 準(zhǔn)確度不足,容易出現(xiàn)假陽(yáng)性的問(wèn)題,設(shè)計(jì)并實(shí)現(xiàn)encoder和decoder之間增加了一個(gè)空間位置注意力模塊(spatial location attention module)和通道注意力模塊(channel attention module),并將兩者的輸出融合相加,獲得空間維度和通道維度的全局特征依賴關(guān)系,以提高網(wǎng)絡(luò)對(duì)特征提取學(xué)習(xí)能力。通過(guò)消融對(duì)比實(shí)驗(yàn),提出了一種3D-UNet網(wǎng)絡(luò)模型輸出加入Dense CRF來(lái)完成對(duì)脊柱邊緣精準(zhǔn)分割[13]。
1.2.2 脊柱3D分割模型
模型結(jié)構(gòu)原理如圖2所示。
圖2 脊柱3D分割模型
1.2.3 3D注意力機(jī)制模塊
1)空間位置注意力機(jī)制模塊:位置注意力模塊能夠編碼更長(zhǎng)范圍內(nèi)的上下文信息在局部特征中,提升局部特征的表達(dá)能力[14]。其工作流程如下:
a.特征圖A1分別通過(guò)3個(gè)卷積層,得到3個(gè)新的特征圖 B1、B2和 B3;
b.C1是由B3進(jìn)行尺寸與維度變換而得到,尺寸由C×D×H×W變?yōu)镹×C,其中,N的尺寸為D×H×W;
c.B2和C1相乘,然后通過(guò)SoftMax函數(shù)得到空間監(jiān)督圖D1,D1的大小為N×N;
d.將B1的維度變換為C×N,再與D1相乘得到E1,乘以系數(shù)α,再將維度變換為C×D×H×W。其中,α被初始化為0,并通過(guò)訓(xùn)練過(guò)程學(xué)習(xí);
e.將E1和A相加得到F1,即位置注意力模塊的輸出。
2)通道注意力機(jī)制模塊:用于發(fā)現(xiàn)不同通道之間的依賴關(guān)系并加強(qiáng)依賴特征。其工作流程如下:
a.B3、B2和B1是由特征圖A分別進(jìn)行reshape、reshape和transpose而得到;
b.對(duì)B1進(jìn)行reshape和轉(zhuǎn)置得到大小為N×C的特征圖,與B2相乘通過(guò)SoftMax得到C1,C1的大小為C×C;
c.B3與C1相乘得到D1;
d.D1與β作乘積,reshape為C×D×H×W,其中,β初始化為0,并通過(guò)訓(xùn)練過(guò)程學(xué)習(xí);
e.將D1和A相加得到E1,即為通道注意力模塊的輸出。
1.2.4 Dense CRF條件隨機(jī)場(chǎng)模塊
如圖3所示,對(duì)于相同大小的輸入圖I,每個(gè)像素i都有一個(gè)類標(biāo)簽Mi,其中有2種類型的類標(biāo)簽:脊椎和非脊椎。以每個(gè)像素為節(jié)點(diǎn),像素之間的連接為邊,形成一個(gè)完全無(wú)向圖。序列M={M1,M2,M3,…,Mn},T={T1,T2,T3,…,Tn}和標(biāo)簽Y={Y1,Y2}構(gòu)成一個(gè)完全連接的條件隨機(jī)場(chǎng)(T,M)。T的大小,小于輸入的Spine序列圖像的大小,代表對(duì)應(yīng)序列圖像的真實(shí)標(biāo)簽,Mj為分配給每個(gè)像素的分類標(biāo)簽。本文通過(guò)觀察變量T來(lái)推斷像素i對(duì)應(yīng)的類標(biāo)簽Mi。條件隨機(jī)場(chǎng)符合Gibbs 分布,公式如下
圖3 Dense條件隨機(jī)場(chǎng)結(jié)構(gòu)
(4)
引入了Dense條件隨機(jī)場(chǎng)優(yōu)化方法,更好地考慮了像素與像素之間的關(guān)系[15,16],為相似的像素標(biāo)記相同的標(biāo)簽,對(duì)差異較大的像素賦予不同類型的標(biāo)簽[17],這樣像素標(biāo)簽的分配就更加符合空間一致性,使得脊柱邊界處的分割結(jié)果更加準(zhǔn)確。
試驗(yàn)平臺(tái)選擇 GeForce GTX 2080Ti GPU, 顯存為11 GB,內(nèi)存為32 GB,Ubuntu16.0運(yùn)行系統(tǒng),環(huán)境配置為Python 3.7+Pytorch1.4.0 框架。由于GPU性能及數(shù)量限制,GPU數(shù)量為1。
本文實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于中國(guó)江蘇省醫(yī)院,共收集了不同病人的1 000組脊椎CT圖像,切片圖像間距為2 mm。數(shù)據(jù)與標(biāo)注示例如圖4所示,數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)是來(lái)源于醫(yī)院脊椎影像CT專家標(biāo)識(shí)脊椎部分。為了增強(qiáng)模型魯棒性,將每組CT圖像數(shù)據(jù)按照xyz方向任意角度翻轉(zhuǎn)與隨機(jī)水平翻轉(zhuǎn),以增強(qiáng)數(shù)據(jù)多樣性。將1 000份數(shù)據(jù)按照按照8︰2隨機(jī)分為兩部分,分別作為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)。
圖4 訓(xùn)練數(shù)據(jù)樣本
脊柱3D實(shí)例分割包含2項(xiàng)任務(wù):1)各節(jié)脊柱3D 關(guān)鍵點(diǎn)檢測(cè); 2)各節(jié)脊柱3D語(yǔ)義分割。本文對(duì)1 000例標(biāo)注數(shù)據(jù)按照8︰2劃分所得的200例數(shù)據(jù)進(jìn)行測(cè)試驗(yàn)證,通過(guò)不同優(yōu)化策略來(lái)分析模型性能。
1)各節(jié)脊柱3D關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn)與分析
利用第一階段2D實(shí)例分割模型求取3D關(guān)鍵點(diǎn)截取各節(jié)脊椎CT 3D圖像,作為第二階段各節(jié)脊柱3D語(yǔ)義分割輸入圖像,因此,第一階段3D關(guān)鍵點(diǎn)直接影響第二階段各節(jié)脊柱3D語(yǔ)義分割性能。3D關(guān)鍵點(diǎn)是根據(jù)2D AI實(shí)例分割求得,因此,2D AI實(shí)例分割決定了3D關(guān)鍵點(diǎn)優(yōu)劣,同時(shí),考慮到各節(jié)脊柱3D語(yǔ)義分割結(jié)果對(duì)3D關(guān)鍵點(diǎn)存在優(yōu)化作用,利用各節(jié)脊柱最終生成的3D掩碼區(qū)域反向求取3D質(zhì)心作為最終3D關(guān)鍵點(diǎn)優(yōu)化因子。利用3D掩碼區(qū)域生成的質(zhì)心與DRR正側(cè)位圖2D關(guān)鍵點(diǎn)擬合生成的3D關(guān)鍵點(diǎn)求均值,修正最終輸出的3D空間脊柱關(guān)鍵點(diǎn)。模型準(zhǔn)確率與召回率測(cè)試性能如圖5所示,其中,Original為原始Mask RCNN網(wǎng)絡(luò)模型,E+L、E+A、L+A、E+L+A分別表示可變感受卷積模塊與損失函數(shù)平衡模塊組合、可變感受卷積模塊與3D掩碼區(qū)域優(yōu)化方法組合、3D掩碼區(qū)域優(yōu)化方法與損失函數(shù)平衡模塊組合、可變感受卷積模塊與損失函數(shù)平衡模塊與3D掩碼區(qū)域優(yōu)化方法三者組合。
圖5 準(zhǔn)確率與召回率曲線
圖5為置信度(confidence)與準(zhǔn)確率以及置信度與召回率之間變化關(guān)系,E+L+A組合優(yōu)化方法在召回率上表現(xiàn)最優(yōu),最高時(shí)達(dá)到95 %;原始Mask-RCNN模型準(zhǔn)確率相比于加入優(yōu)化方法要低于8 %~10 %??紤]3D掩碼區(qū)域優(yōu)化方法對(duì)3D關(guān)鍵點(diǎn)準(zhǔn)確率要高于不考慮的情況,說(shuō)明最終各節(jié)3D分割掩碼區(qū)域?qū)?D關(guān)鍵點(diǎn)定位與分類準(zhǔn)確率存在積極作用。E+L、E+A、L+A 3種優(yōu)化組合在準(zhǔn)確率上均優(yōu)于原始Mask-RCNN模型。
2)脊柱3D語(yǔ)義分割實(shí)驗(yàn)與分析
第二階段各節(jié)脊柱3D語(yǔ)義分割生成的3D掩碼區(qū)域既對(duì)第一階段3D關(guān)鍵點(diǎn)有反向優(yōu)化作用,又決定整體脊柱3D實(shí)例分割性能好壞。本文從3個(gè)度量標(biāo)準(zhǔn)來(lái)對(duì)3D分割結(jié)果做出評(píng)測(cè),靈敏性、特異性、交叉比。靈敏性是指所有的脊柱區(qū)域得到正確分割的概率;靈敏性一真陽(yáng)性/(真陽(yáng)性+假陰性)。特異性是指所有非脊柱區(qū)域得到正確診斷的概率;特異性一真陰性/(真陰性+假陽(yáng)性)。交叉比是指本文方法分割出的結(jié)果與專家手工標(biāo)記結(jié)果的交集與并集的比值。實(shí)驗(yàn)對(duì)比結(jié)果如表1所示。其中,Original表示原始3 D U-net,C表示加入Dense CRF優(yōu)化方法,A表示加入注意力機(jī)制方法,C+A表示加入Dense CRF條件隨機(jī)場(chǎng)與注意力機(jī)制優(yōu)化方法。
表1 不同優(yōu)化方法分割實(shí)驗(yàn)結(jié)果
由表1看出,C+A優(yōu)化方法效果最優(yōu),Dice可達(dá)98.53 %,相比于原始3 D Unet高出近10 %左右。在推理耗時(shí)上,加入C+A優(yōu)化方法多出0.3 s。在滿足落地指標(biāo)要求的前提下,C+A優(yōu)化方法是最佳優(yōu)化策略。如圖6(a)所示,C+A優(yōu)化算法在困難樣本上的分割優(yōu)越表現(xiàn),對(duì)脊柱病灶區(qū)、骨刺區(qū)以及創(chuàng)傷區(qū)的分割具備較強(qiáng)的泛化能力與魯棒性。
圖6 分割結(jié)果
3)脊柱3D實(shí)例分割實(shí)驗(yàn)與分析
在測(cè)試集200例標(biāo)定脊柱數(shù)據(jù)中隨機(jī)選取50例,主要是以加入最優(yōu)方法的3D實(shí)例分割技術(shù)方案與原始不加任何優(yōu)化方法技術(shù)方案對(duì)比,來(lái)說(shuō)明對(duì)多節(jié)脊柱整體3D實(shí)例分割優(yōu)化方法的有效性。加入最優(yōu)方法的3D實(shí)例分割技術(shù)方案是指第一階段2D實(shí)例分割最優(yōu)優(yōu)化方案與第二階段3D語(yǔ)義分割最優(yōu)優(yōu)化方案耦合形成的整體3D實(shí)例分割最優(yōu)技術(shù)方案,具體對(duì)比結(jié)果如圖7所示。圖7中,橫軸為50例脊柱標(biāo)識(shí)數(shù)據(jù)標(biāo)號(hào)(number),縱軸為2種技術(shù)方案Dice指標(biāo)差值(dice similarity coefficient)。Dice差值低于原始不加任何優(yōu)化方法技術(shù)方案數(shù)據(jù)量為6例,大約占總數(shù)10 %,加入優(yōu)化方法的3D實(shí)例分割技術(shù)方案存在明顯優(yōu)勢(shì),最大Dice差值可達(dá)20 %。優(yōu)化后的技術(shù)方案對(duì)脊柱病灶區(qū)、骨刺區(qū)以及創(chuàng)傷區(qū)的分割具備較強(qiáng)的泛化能力與魯棒性。
圖7 3D實(shí)例分割結(jié)果對(duì)比
由圖6(b)可以看出,脊柱CT圖像含有病灶治療植入螺釘,此類數(shù)據(jù)在臨床上比較常見(jiàn),屬于比較難分割區(qū)域;由圖6(c)可以看出,優(yōu)化后3D實(shí)例分割技術(shù)方案能良好計(jì)算出治療前脊柱區(qū)域,具備較強(qiáng)區(qū)域還原分割能力。各節(jié)脊柱區(qū)域分割邊界明顯,邊界分割平滑。
本文提出了一種融合2D與3D CNN的2階段脊柱3D實(shí)例分割關(guān)鍵技術(shù)。對(duì)3D實(shí)例分割整體技術(shù)方案性能進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果證明了優(yōu)化方法的有效性。該研究較好地解決脊椎CT 3D圖像精確實(shí)例分割難與落地應(yīng)用難的問(wèn)題,為脊椎手術(shù)導(dǎo)航機(jī)器人精準(zhǔn)完成術(shù)前與術(shù)中導(dǎo)航與配準(zhǔn)提供了有意義的參考價(jià)值。