王穎珊,鄧奧琦,毛瑾玲,朱中旗,石 潔,楊 光,馬偉偉,路 青§,汪紅志*
基于3D VNetTrans的膝關(guān)節(jié)滑膜磁共振圖像自動(dòng)分割
王穎珊1,鄧奧琦3,毛瑾玲1,朱中旗1,石 潔2#,楊 光1,馬偉偉4,路 青4§,汪紅志1*
1. 華東師范大學(xué) 物理與電子科學(xué)學(xué)院,上海市磁共振重點(diǎn)實(shí)驗(yàn)室,上海 200062;2. 上海市光華中西醫(yī)結(jié)合醫(yī)院,上海 200052;3. 上海市中醫(yī)藥大學(xué) 針灸推拿學(xué)院,上海 200032;4. 上海交通大學(xué)醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院,上海 200127
膝關(guān)節(jié)是類(lèi)風(fēng)濕性關(guān)節(jié)炎(Rheumatoid Arthritis,RA)常見(jiàn)累及關(guān)節(jié),膝關(guān)節(jié)滑膜的精準(zhǔn)分割對(duì)RA診斷和治療有重要影響,本文提出了一種基于VNet網(wǎng)絡(luò)的改進(jìn)算法對(duì)膝關(guān)節(jié)滑膜磁共振圖像進(jìn)行自動(dòng)分割.首先對(duì)39名滑膜炎患者的膝關(guān)節(jié)磁共振圖像進(jìn)行數(shù)據(jù)預(yù)處理,通過(guò)將Transformer編碼器嵌入VNet網(wǎng)絡(luò)底部的方式構(gòu)建VNetTrans網(wǎng)絡(luò),使用MemSwish激活函數(shù)進(jìn)行訓(xùn)練. 最終模型平均Dice系數(shù)為0.758 5,HD為24.6 mm;相較于VNet,Dice系數(shù)提升0.083 6,HD距離減少10 mm.實(shí)驗(yàn)結(jié)果表明,該算法可對(duì)膝關(guān)節(jié)磁共振圖像中滑膜增生區(qū)域?qū)崿F(xiàn)較好的3D分割,具有診斷和監(jiān)測(cè)RA發(fā)展過(guò)程的應(yīng)用價(jià)值.
磁共振圖像;醫(yī)學(xué)圖像分割;深度學(xué)習(xí);滑膜炎
類(lèi)風(fēng)濕關(guān)節(jié)炎(Rheumatoid Arthritis,RA)是一種以慢性侵蝕性關(guān)節(jié)炎為特征的全身性自身免疫病,目前發(fā)病機(jī)制尚不明確且無(wú)法根治.RA的主要病理特征表現(xiàn)為滑膜炎、滑膜襯里層增厚、血管翳形成以及多種炎癥細(xì)胞浸潤(rùn),其中關(guān)節(jié)滑膜持續(xù)增多是RA的顯著特點(diǎn)[1].膝關(guān)節(jié)為RA常見(jiàn)累及關(guān)節(jié),膝類(lèi)風(fēng)濕性關(guān)節(jié)炎多發(fā)于30~50歲中老年女性,在中國(guó)大陸地區(qū)總患病人數(shù)逾500萬(wàn),且致殘率較高[2].此外調(diào)查顯示,我國(guó)RA患者在風(fēng)濕免疫專(zhuān)科首次就診比例低,就診及確診均存在時(shí)間延誤[3].
RA的早期診斷對(duì)治療和預(yù)后影響重大,臨床醫(yī)師需結(jié)合患者的臨床表現(xiàn)、實(shí)驗(yàn)室和影像學(xué)檢查做出診斷. 選用合適的輔助診斷手段,可減少診斷經(jīng)驗(yàn)少的醫(yī)師對(duì)部分患者的診斷誤差. 具有較高組織對(duì)比度的磁共振成像(Magnetic Resonance Image,MRI)作為檢測(cè)早期RA病變最敏感的工具,可比常規(guī)放射檢查更早地檢測(cè)到滑膜炎、關(guān)節(jié)間隙狹窄、骨侵蝕等癥狀. 同時(shí)對(duì)一些橫截面組織產(chǎn)生較為立體的觀察,對(duì)患者的治療指向性更強(qiáng),且無(wú)電離輻射的傷害[3].
對(duì)感興趣的器官和結(jié)構(gòu)進(jìn)行精確分割,是從醫(yī)學(xué)圖像中提取定量分析指標(biāo)、執(zhí)行計(jì)算機(jī)輔助診斷決策等任務(wù)不可或缺的前提. 對(duì)滑膜磁共振圖像進(jìn)行分割,有助于在RA診斷和治療期間對(duì)滑膜炎患者的滑膜體積進(jìn)行準(zhǔn)確評(píng)估. 然而不同的磁共振成像序列對(duì)于滑膜的檢出率不盡相同,在T1WI和T2WI常規(guī)序列中滑膜組織呈等或稍高信號(hào),邊界不清晰;層厚較厚時(shí)容易出現(xiàn)部分容積效應(yīng),導(dǎo)致一個(gè)體素的信號(hào)表現(xiàn)為多種組織信號(hào)的平均值,包裹積液的滑膜組織,與周?chē)募∪饨M織、積液之間存在邊界對(duì)比度較弱、灰度不均勻等現(xiàn)象,因此膝關(guān)節(jié)滑膜分割任務(wù)十分具有挑戰(zhàn)性.
對(duì)滑膜磁共振圖像的分割,手動(dòng)標(biāo)注的時(shí)間成本高且易受主觀因素的影響. 傳統(tǒng)分割方法中,Sugimoto等[4]利用基于高斯法確定的閾值來(lái)界定手腕關(guān)節(jié)滑膜炎癥的信號(hào)強(qiáng)度邊界,此類(lèi)基于閾值分割算法[4-7]的半自動(dòng)分割方法相對(duì)手工分割雖可提高分割效率,但受圖像初始信息的影響較大且耗時(shí)較長(zhǎng).Perry等[8]使用基于活動(dòng)輪廓模型的方法來(lái)量化膝關(guān)節(jié)滑膜組織的體積,Wang等[9]基于統(tǒng)計(jì)形狀模型對(duì)踝關(guān)節(jié)滑膜炎癥區(qū)進(jìn)行分割,此類(lèi)需使用預(yù)定義模型的半自動(dòng)分割方法[8,9],相對(duì)閾值分割方法耗時(shí)減少,但對(duì)復(fù)雜圖像分割的準(zhǔn)確性和魯棒性仍需提升.
近年來(lái),基于深度學(xué)習(xí)的方法已經(jīng)成為許多醫(yī)學(xué)圖像分割和分類(lèi)任務(wù)的主流方法.在超聲圖像的應(yīng)用方面,Andersen等[10]首次利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)對(duì)RA患者手腕關(guān)節(jié)超聲圖像滑膜炎的嚴(yán)重程度進(jìn)行簡(jiǎn)單分類(lèi);Christensen等[11]針對(duì)EULAR-OMERACT滑膜炎超聲評(píng)分系統(tǒng),設(shè)計(jì)了級(jí)聯(lián)的CNN網(wǎng)絡(luò)進(jìn)行RA自動(dòng)分級(jí),進(jìn)一步提升滑膜炎嚴(yán)重程度分類(lèi)的準(zhǔn)確性. 在磁共振圖像應(yīng)用方面,Iqbal等[12]利用改進(jìn)的CNN進(jìn)行遷移學(xué)習(xí)自動(dòng)檢測(cè)T2序列膝關(guān)節(jié)磁共振圖像中的滑膜積液;Wong等[13]利用UNet對(duì)T2W脂肪抑制序列的手腕關(guān)節(jié)磁共振圖像的腕部骨骼進(jìn)行分割;本課題組初步進(jìn)行了利用改進(jìn)的UNet系列網(wǎng)絡(luò)對(duì)T1W序列手腕關(guān)節(jié)磁共振圖像的滑膜進(jìn)行分割的研究[14,15],但由于卷積運(yùn)算只關(guān)注局部信息的局限性,對(duì)于滑膜的紋理和形狀個(gè)體差異較大的病例分割效果較差.此外,上述研究[12-15]均使用2D卷積核進(jìn)行分割,缺少對(duì)于切片間連續(xù)信息的特征學(xué)習(xí).
本文選用針對(duì)三維醫(yī)學(xué)圖像數(shù)據(jù)設(shè)計(jì)的使用3D卷積核進(jìn)行整體分割的VNet網(wǎng)絡(luò).另外,滑模分割任務(wù)的個(gè)體差異較大的特點(diǎn)與腦腫瘤分割任務(wù)的特點(diǎn)相似,因此本文參考腦腫瘤分割任務(wù)中表現(xiàn)較好的TransBTS[16]網(wǎng)絡(luò),引入對(duì)長(zhǎng)距離關(guān)系建模的Transformer結(jié)構(gòu),對(duì)全局信息進(jìn)行特征提取. 本文探究了膝關(guān)節(jié)滑膜分割任務(wù)下CNN-Transformer結(jié)構(gòu)的潛力,提出一種基于改進(jìn)的VNet網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜分割算法,對(duì)滑膜磁共振圖像進(jìn)行3D分割.
本文在TransBTS的基礎(chǔ)上改進(jìn),提出了一種結(jié)合VNet網(wǎng)絡(luò)和Transformer編碼器的深度學(xué)習(xí)網(wǎng)絡(luò)模型—VNetTrans網(wǎng)絡(luò),用于實(shí)現(xiàn)膝關(guān)節(jié)滑膜磁共振圖像的自動(dòng)3D分割. 該方法的流程如圖1所示,包含以下步驟:1)預(yù)處理階段,對(duì)原始膝關(guān)節(jié)磁共振圖像進(jìn)行統(tǒng)一分辨率和方位、歸一化、直方圖均衡化操作;對(duì)于訓(xùn)練集數(shù)據(jù)進(jìn)行ROI的裁剪和數(shù)據(jù)增強(qiáng),擴(kuò)充訓(xùn)練數(shù)據(jù),增加樣本多樣性;2)訓(xùn)練階段,搭建VNetTrans網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)得到最佳模型;3)利用最佳模型對(duì)測(cè)試集進(jìn)行分割.
圖1 本文實(shí)驗(yàn)流程
在2D分割方面,完全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)首次實(shí)現(xiàn)端到端的語(yǔ)義分割,遵循編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu),可對(duì)輸入的任意尺寸的圖像進(jìn)行語(yǔ)義分割[17]. 進(jìn)一步改進(jìn)和發(fā)展的UNet網(wǎng)絡(luò)[18]采用對(duì)稱(chēng)的編碼解碼結(jié)構(gòu),添加了跳躍連接,將低分辨率和高分辨率的特征圖進(jìn)行融合以提高細(xì)節(jié)保留率,從而成為醫(yī)學(xué)圖像分割的主流框架. 然而計(jì)算機(jī)斷層掃描(Computed Tomography,CT)和磁共振圖像等大多數(shù)醫(yī)學(xué)數(shù)據(jù)都以3D形式存在,因此使用3D卷積核可更好地挖掘數(shù)據(jù)的高維空間相關(guān)性. 3D UNet[19]將UNet架構(gòu)直接擴(kuò)展應(yīng)用到3D數(shù)據(jù). 但由于計(jì)算資源的限制,該網(wǎng)絡(luò)只包含三次下采樣,無(wú)法有效提取深層圖像信息,導(dǎo)致分割精度有限.
VNet[20]作為3D UNet網(wǎng)絡(luò)的變體,針對(duì)3D UNet分割精度有限的問(wèn)題,利用殘差連接設(shè)計(jì)了更深層次的網(wǎng)絡(luò)(采用4次下采樣),從而實(shí)現(xiàn)更高的分割性能. VNet網(wǎng)絡(luò)左側(cè)的下采樣路徑可分為若干階段,每個(gè)階段由1~3個(gè)卷積層對(duì)不同分辨率的特征圖進(jìn)行編碼提取特征. 卷積過(guò)程中利用了殘差連接的思路,前層的特征圖與其在本階段卷積后的特征圖相加. 與UNet對(duì)稱(chēng)的編碼解碼結(jié)構(gòu)類(lèi)似,上采樣路徑采用跳躍連接融合左側(cè)下采樣過(guò)程中的特征圖,通過(guò)該方式收集在壓縮路徑中丟失的細(xì)粒度細(xì)節(jié).
盡管基于CNN的方法有很好的效果,但由于卷積核的感受野有限,很難充分利用上下文信息來(lái)對(duì)目標(biāo)建立長(zhǎng)距離依賴(lài)關(guān)系. 卷積運(yùn)算的局限性給全局語(yǔ)義信息的學(xué)習(xí)帶來(lái)挑戰(zhàn),然而對(duì)于分割任務(wù)而言,全局語(yǔ)義信息至關(guān)重要. 受啟發(fā)于自然語(yǔ)言處理領(lǐng)域中的注意力機(jī)制[21],Vision Transformer[22]直接將圖片分割為小塊,僅利用具有全局自注意力機(jī)制的Transformer為不同圖像塊的相關(guān)性進(jìn)行建模,對(duì)圖像序列進(jìn)行分類(lèi).Transformer完全基于注意力機(jī)制而摒棄了卷積操作,在建模全局上下文方面功能強(qiáng)大. 該編碼器主要包含多層感知器(Multi-Layer Perceptron,MLP)和多頭注意力機(jī)制(Multi-Head Attention,MHA)兩個(gè)子結(jié)構(gòu). 每個(gè)子結(jié)構(gòu)前進(jìn)行層標(biāo)準(zhǔn)化(Layer Norm),子結(jié)構(gòu)后添加殘差連接,如圖2(a)所示.
圖2 (a) Transformer編碼器;(b)多頭注意力機(jī)制(MHA)[21]
(2)
Hinton等[23]提出的ReLU激活函數(shù)表達(dá)式簡(jiǎn)單,易于求導(dǎo),但由于函數(shù)負(fù)半軸梯度始終為0,在學(xué)習(xí)率設(shè)定較大時(shí)會(huì)發(fā)生神經(jīng)元壞死的情況.
Swish函數(shù)[24]是由Google Brain提出的效果優(yōu)于ReLU的激活函數(shù),對(duì)其負(fù)值部分進(jìn)行了優(yōu)化. 通過(guò)自適應(yīng)學(xué)習(xí)參數(shù)在負(fù)半軸添加一個(gè)很小的線性分量,來(lái)緩解負(fù)值的零梯度問(wèn)題,其數(shù)學(xué)表達(dá)如(3)式所示:
b為常數(shù)或可訓(xùn)練參數(shù),不同b取值的函數(shù)圖像及其一階導(dǎo)數(shù)如圖3所示. 可看到當(dāng)b趨向于0時(shí),Swish函數(shù)變成線性函數(shù);當(dāng)b趨向正無(wú)窮時(shí),部分趨向于離散的0-1函數(shù),Swish函數(shù)可近似為ReLU函數(shù). 由此,Swish函數(shù)可寬泛地視為平滑的函數(shù),非線性地內(nèi)插在線性函數(shù)和ReLU之間,降低了模型訓(xùn)練過(guò)程中發(fā)生梯度消失、梯度爆炸的概率. Swish函數(shù)具有無(wú)上界有下界、非單調(diào)且平滑的特性,使其在不同任務(wù)和不同數(shù)據(jù)集上表現(xiàn)出普遍優(yōu)于其他主流激活函數(shù)的性能.
本文選用的MemSwish激活函數(shù)參考了EfficientNet[25]的實(shí)現(xiàn)思路,重新設(shè)計(jì)了Swish激活函數(shù)在反向傳播過(guò)程中的計(jì)算方式,使得前向傳播過(guò)程中的計(jì)算量得以保存,并可被重構(gòu)在反向傳播過(guò)程中再使用,避免了重復(fù)計(jì)算造成的資源浪費(fèi)及顯存占用. 相比于使用Swish激活函數(shù),MemSwish激活函數(shù)可在訓(xùn)練過(guò)程中節(jié)約10%~30%的顯存占用.
對(duì)于需要密集預(yù)測(cè)像素點(diǎn)的分割任務(wù),局部和全局信息都很重要. 若單純利用Transformer對(duì)分割的圖像塊進(jìn)行編碼,將二維圖像轉(zhuǎn)換為一維序列,所有階段只關(guān)注于對(duì)全局上下文建模,將缺乏詳細(xì)定位信息的低分辨率特征直接上采樣到全分辨率特征圖時(shí),會(huì)無(wú)法有效恢復(fù)相關(guān)定位信息而導(dǎo)致分割結(jié)果粗糙[26]. 對(duì)3D MRI掃描數(shù)據(jù)連續(xù)切片間的局部特征進(jìn)行建模也是圖像分割的關(guān)鍵. 基于CNN架構(gòu)的網(wǎng)絡(luò)可以提供一種提取底層視覺(jué)線索的方法,很好彌補(bǔ)精細(xì)的空間信息. 由此本文嘗試采用CNN-Transformer的架構(gòu),綜合利用來(lái)自CNN編碼的局部空間信息和Transformer編碼的全局上下文信息. 參考TransBTS,提出VNetTrans網(wǎng)絡(luò)對(duì)膝關(guān)節(jié)滑膜磁共振圖像進(jìn)行3D分割,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 VNetTrans網(wǎng)絡(luò)架構(gòu)
TransBTS在編碼過(guò)程中僅進(jìn)行3次下采樣且每層卷積次數(shù)為固定2次;本文選擇將CNN左側(cè)編碼器進(jìn)行4次下采樣(Downsample),在下采樣路徑中的不同階段,由1~3個(gè)卷積層(Convolution layer)對(duì)不同分辨率的特征圖進(jìn)行特征提??;在每一層的編碼器添加殘差塊,將輸入每個(gè)階段的特征圖與其在本階段卷積后的特征圖相加(Add),增加模型深度的同時(shí)確保模型有效收斂;并且使用MemSwish激活函數(shù),提高模型的非線性表達(dá)能力,提升模型整體的分割性能.
Transformer編碼器由層編碼器組成,每層編碼器都有一個(gè)標(biāo)準(zhǔn)結(jié)構(gòu),由一個(gè)MHA子結(jié)構(gòu)和一個(gè)MLP子結(jié)構(gòu)組成. 選用編碼器層數(shù)為4,MHA中的頭部數(shù)量為8,序列化編碼的圖像塊大小為16.
本文所用數(shù)據(jù)來(lái)自于上海市光華中西醫(yī)結(jié)合醫(yī)院2021年2月至2022年1月收治的膝關(guān)節(jié)受損的患者共40例,全部患者行MRI檢查. 檢查前均對(duì)病人告知檢查內(nèi)容,獲得其同意并簽署知情同意書(shū). 患者中男性11例,女性29;年齡分布為37~87歲,均值為62歲;患類(lèi)風(fēng)關(guān)的病人31例,患關(guān)節(jié)痛病人6例,患半月板損傷2例和尪痹1例. 除一例發(fā)生嚴(yán)重骨侵蝕,滑膜組織所剩無(wú)幾的類(lèi)風(fēng)關(guān)晚期患者外,共39例病例納入研究. 按病例進(jìn)行數(shù)據(jù)拆分,同一病例的所有圖像屬于同一數(shù)據(jù)集,以近似75:12.5:12.5的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.
MRI掃描由影像科醫(yī)生負(fù)責(zé)操作. 圖像采集使用Siemens Avanto 1.5 T MRI掃描儀,采用為滿(mǎn)足本項(xiàng)目研究而定制的基于FLAIR和STIR優(yōu)化的PD序列. 掃描參數(shù)為:回波時(shí)間TE=21 ms,重復(fù)時(shí)間TR=10 420 ms,反轉(zhuǎn)時(shí)間TI=2 200 ms,視野FOV=160 mm′160 mm,掃描層厚=3 mm,單層圖像尺寸=256′256,方位為冠狀位,掃描層數(shù)為20~23. 所用圖像存儲(chǔ)格式為DICOM格式,由放射科一名副主任醫(yī)師和兩名主治醫(yī)師利用ITK-SNAP[27]對(duì)滑膜進(jìn)行手工勾畫(huà)標(biāo)注作為金標(biāo)準(zhǔn).
在數(shù)據(jù)預(yù)處理過(guò)程中,本文對(duì)不同圖像對(duì)比度增強(qiáng)方法的處理效果進(jìn)行了對(duì)比.圖5(b)直接進(jìn)行簡(jiǎn)單的直方圖對(duì)比度拉伸,結(jié)果顯示相比原始圖像,滑膜與周?chē)渌M織之間對(duì)比度區(qū)分不大. 圖5(c)使用傳統(tǒng)的直方圖均衡化進(jìn)行圖像增強(qiáng),當(dāng)圖像存在明顯的暗區(qū)像素值分布不均衡時(shí)放大了噪聲. 以圖5(d)箭頭所指髕上囊處、滑膜皺褶處和股骨軟骨周?chē)帪槔?,CLAHE算法可在增強(qiáng)圖像對(duì)比度同時(shí)較好的抑制噪聲,使得滑膜局部細(xì)節(jié)更為清晰和明顯. 圖5第二行4幅圖中的紅色曲線為累積分布函數(shù)(Cumulative Distribution Function,CDF),代表直方圖的積分;對(duì)比原始圖像,在保留了圖像原有特征的基礎(chǔ)上,圖5(d)對(duì)應(yīng)圖像下方的黑色直方圖整體分布更為均衡,CDF曲線更加平滑.
圖5 使用不同圖像對(duì)比度增強(qiáng)方法的效果對(duì)比. (a)原始圖像,(b)對(duì)比度拉伸,(c)直方圖均衡化,(d) CLAHE
模型訓(xùn)練和數(shù)據(jù)預(yù)處理使用基于PyTorch的醫(yī)療影像深度學(xué)習(xí)框架MONAI 0.8.0,實(shí)驗(yàn)運(yùn)行環(huán)境為NVIDIA GeForce RTX 2080Ti,操作系統(tǒng)為Ubuntu18.04,編程語(yǔ)言為Python3.7.本文所有模型訓(xùn)練超參設(shè)置相同,設(shè)定循環(huán)次數(shù)epoch為600次,學(xué)習(xí)率初始化為1e-4,優(yōu)化器為Adam,損失函數(shù)選擇Dice Loss.
為驗(yàn)證本文使用MemSwish激活函數(shù)的改進(jìn)算法VNetTrans對(duì)滑膜磁共振圖像進(jìn)行3D分割的有效性,在訓(xùn)練超參設(shè)定相同的情況下,實(shí)驗(yàn)對(duì)比了:(1)UNet和VNet模型使用2D和3D卷積核分割的效果;(2)UNet和VNetTrans模型分別使用ReLU、Swish、MemSwish激活函數(shù)訓(xùn)練的分割效果;(3)使用MemSwish激活函數(shù)的VNetTrans模型和使用原文獻(xiàn)相同激活函數(shù)的UNet、VNet、TransBTS、UNETR模型訓(xùn)練的分割效果;(4)針對(duì)使用MemSwish激活函數(shù)的VNetTrans模型的消融實(shí)驗(yàn).
本文使用Dice系數(shù)、相對(duì)體積差分(Relative Volume Difference,RVD)、靈敏度(Sensitivity)、特異性(Specificity)和豪斯多夫距離(Hausdorff distance,HD),來(lái)定量評(píng)估算法的分割性能.
對(duì)于給定mask的語(yǔ)義分割任務(wù),分別表示ground truth(真值)和prediction(預(yù)測(cè)值);分別表示真值和預(yù)測(cè)值的表面點(diǎn)集,屬于的子集;TP、FP、TN、FN分別為真陽(yáng)性(被模型預(yù)測(cè)為滑膜的滑膜區(qū)域)、假陽(yáng)性(被模型預(yù)測(cè)為滑膜的背景區(qū)域)、真陰性(被模型預(yù)測(cè)為背景的背景區(qū)域)、假陰性(被模型預(yù)測(cè)為背景的滑膜區(qū)域)的數(shù)量.
Dice系數(shù)對(duì)mask的內(nèi)部填充比較敏感,而HD則對(duì)分割出的邊界比較敏感.RVD用于評(píng)估過(guò)分割或欠分割,為正則表示過(guò)分割,為負(fù)則表示欠分割.靈敏度代表分割方法正確識(shí)別ROI像素的概率,特異性則代表正確識(shí)別背景像素的概率.HD使用真值和預(yù)測(cè)值的表面點(diǎn)集之間95%的距離,最小化離群值對(duì)HD計(jì)算的影響.
計(jì)算機(jī)視覺(jué)領(lǐng)域圖像分割任務(wù)中的醫(yī)學(xué)圖像與自然圖像之間存在數(shù)據(jù)維度的差異. 醫(yī)學(xué)影像數(shù)據(jù)(例如CT、MRI等)多以3D數(shù)據(jù)形式存在,2D網(wǎng)絡(luò)難以學(xué)習(xí)層與層之間具有相互關(guān)聯(lián)的上下文信息,使用3D卷積核可更好的挖掘到數(shù)據(jù)的高維空間相關(guān)性. 本文選用UNet和VNet針對(duì)本分割任務(wù)使用不同維度卷積核分割,其中UNet選用3′3的2D卷積核和3′3′3的3D卷積核進(jìn)行三次下采樣,VNet選用相同卷積核進(jìn)行四次下采樣. 如表1所示,3D卷積核在兩個(gè)網(wǎng)絡(luò)模型分割的表現(xiàn)均優(yōu)于2D卷積核,這表明對(duì)于本文分割任務(wù)而言,3D卷積核可更好的獲取切片間的連續(xù)信息,實(shí)現(xiàn)更優(yōu)的整體分割性能.
表1 2D和3D分割效果對(duì)比
本文選擇3D UNet和VNetTrans網(wǎng)絡(luò)來(lái)測(cè)試不同激活函數(shù)的表現(xiàn). 如表2所示,在UNet模型上,使用MemSwish激活函相比較于原Swish函數(shù)整體網(wǎng)絡(luò)訓(xùn)練耗時(shí)減少了12%. 相較于ReLU函數(shù),Dice系數(shù)提升了0.014 2,HD減少了34.8 mm. 在VNetTrans模型上,使用MemSwish激活函數(shù)也使得整體的分割表現(xiàn)更優(yōu). 該實(shí)驗(yàn)表明在本分割任務(wù)中選用MemSwish函數(shù)可有效提升網(wǎng)絡(luò)整體性能.
表2 在UNet和VNetTrans模型中采用不同激活函數(shù)的結(jié)果對(duì)比
在相同的實(shí)驗(yàn)環(huán)境及配置下,本文采用UNet[19]、VNet[20]、TransBTS[16]以及UNETR[28]四種分割網(wǎng)絡(luò)與本文方法對(duì)膝關(guān)節(jié)滑膜進(jìn)行3D分割. 四種分割網(wǎng)絡(luò)的參數(shù)設(shè)置和使用的激活函數(shù)與原文獻(xiàn)相同,采用相同的數(shù)據(jù)預(yù)處理操作后輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,表3為對(duì)比結(jié)果.
表3 不同網(wǎng)絡(luò)模型之間的結(jié)果對(duì)比
相較于UNet網(wǎng)絡(luò),本文算法得到的Dice系數(shù)提升0.105 7,HD減少了47.6 mm,特異性提升了0.007 9. UNETR網(wǎng)絡(luò)使用Transformer結(jié)構(gòu)作為唯一的編碼器,由于本分割任務(wù)的數(shù)據(jù)量較少,并不能充分利用該編碼器提取特征信息,表3中UNETR網(wǎng)絡(luò)的Dice系數(shù)低于僅使用CNN結(jié)構(gòu)作為編碼器的UNet和VNet網(wǎng)絡(luò),與一些實(shí)驗(yàn)研究[22]表明在數(shù)據(jù)量較少的情況下CNN結(jié)構(gòu)表現(xiàn)優(yōu)于Transformer結(jié)構(gòu)一致,說(shuō)明直接將Transformer結(jié)構(gòu)作為編碼器對(duì)于本分割任務(wù)而言并不合理. 先使用CNN進(jìn)行高維度語(yǔ)義信息的提取,再將Transformer結(jié)構(gòu)嵌入的本文算法可以更好的利用CNN獲取局部特征所需數(shù)據(jù)量小以及Transformer獲取全局特征的優(yōu)勢(shì),提升網(wǎng)絡(luò)性能. 相較于VNet,本文算法的Dice系數(shù)提升0.083 6,HD減少10 mm,敏感度和特異性上均有所提升,算法整體有欠分割的傾向,但相比其他模型RVD絕對(duì)值最小,總體分割誤差最小.
針對(duì)分布位置、形態(tài)各不相同的滑膜進(jìn)行分割,難點(diǎn)之一與腦腫瘤分割任務(wù)特點(diǎn)相似,即病灶形狀、紋理的個(gè)體差異大. 本文與在腦腫瘤分割任務(wù)上表現(xiàn)較優(yōu)的TransBTS作對(duì)比,由表3可以看出,本文模型的Dice系數(shù)更高,HD更?。畯膱D6(a)可以看出在前3 000步迭代中,本文模型整體收斂更快;從圖6(b)驗(yàn)證集的Dice系數(shù)曲線可以看到,本文模型整體在驗(yàn)證集上的Dice表現(xiàn)優(yōu)于TransBTS,證明利用殘差連接設(shè)計(jì)更深層次的網(wǎng)絡(luò)有助于網(wǎng)絡(luò)模型收斂和性能提升.
使用不同網(wǎng)絡(luò)模型對(duì)膝關(guān)節(jié)滑膜分割的結(jié)果比較如圖7所示,圖中選取了測(cè)試集的三個(gè)病例(上、中、下)進(jìn)行展示,圖中數(shù)值為對(duì)應(yīng)模型分割結(jié)果的Dice系數(shù). 對(duì)比可得,本文算法在分割結(jié)果上整體與醫(yī)生的金標(biāo)準(zhǔn)最相近. 相較于其他網(wǎng)絡(luò)模型,對(duì)于髕上囊處滑膜與肌肉組織間的區(qū)分更為清晰,且能很好的區(qū)別滑膜組織與積液. 相比于醫(yī)生的勾畫(huà)結(jié)果,在韌帶、股骨下端與脛骨上緣周?chē)S多細(xì)節(jié)部位的分割更為精細(xì),彌補(bǔ)了醫(yī)生不能手動(dòng)逐像素點(diǎn)勾畫(huà)的不足,整體邊界流暢無(wú)毛刺,便于后期更好地進(jìn)行滑膜容積測(cè)算,觀察治療期間用藥情況的有效性.
圖6 基于不同網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜磁共振圖像分割的訓(xùn)練過(guò)程. (a)訓(xùn)練集的loss曲線,(b)驗(yàn)證集的Dice系數(shù)曲線
圖7 不同網(wǎng)絡(luò)模型的膝關(guān)節(jié)滑膜分割結(jié)果對(duì)比
為進(jìn)一步評(píng)估本文模型中Transformer模塊和MemSwish激活函數(shù)的有效性,本文通過(guò)刪除和替換該模塊及激活函數(shù),以確定兩者對(duì)于網(wǎng)絡(luò)性能的影響. 以在本文模型的基礎(chǔ)上刪除了Transformer模塊,并選用ReLU激活函數(shù)的原VNet作為基礎(chǔ)網(wǎng)絡(luò). 然后比較(1)基礎(chǔ)VNet網(wǎng)絡(luò)、(2)將基礎(chǔ)VNet網(wǎng)絡(luò)中的ReLU激活函數(shù)替換為MemSwish后的網(wǎng)絡(luò)、(3)在基礎(chǔ)VNet網(wǎng)絡(luò)中加入Transformer模塊后的網(wǎng)絡(luò)、(4)在基礎(chǔ)VNet中同時(shí)加入(2)、(3)操作后的網(wǎng)絡(luò)(即本文網(wǎng)絡(luò))的分割性能(表4).
表4 消融實(shí)驗(yàn)
從表4可以看到,相比于基礎(chǔ)VNet網(wǎng)絡(luò),替換了MemSwish激活函數(shù)后的網(wǎng)絡(luò)的Dice系數(shù)提升0.021 3,加入Transformer模塊后的Dice系數(shù)提升0.039 1.后者比前者的Dice系數(shù)提高0.017 8.說(shuō)明Transformer模塊相對(duì)于激活函數(shù),對(duì)于網(wǎng)絡(luò)整體性能提升的影響更大. 兩者融合后的方法可以彌補(bǔ)僅改進(jìn)激活函數(shù)后分割結(jié)果的過(guò)分割程度,相比基礎(chǔ)VNet網(wǎng)絡(luò)的敏感度和特異性分別提高了0.037 1、0.003 5.
本文提出了一種基于3D VNetTrans網(wǎng)絡(luò)的膝關(guān)節(jié)滑膜磁共振圖像分割算法. 首先利用3D CNN生成特征圖以捕獲空間和深度信息,再利用Transformer編碼器對(duì)于全局空間中的長(zhǎng)距離依賴(lài)關(guān)系進(jìn)行建模,最后在上采樣路徑中采用跳躍連接將下采樣壓縮路徑中不同階段的特征圖進(jìn)行融合,逐步得到高分辨率的分割結(jié)果. 實(shí)驗(yàn)結(jié)果表明,相比原VNet網(wǎng)絡(luò)和其他主流分割算法,VNetTrans可得到較好的分割結(jié)果. 這歸功于本文算法在下采樣過(guò)程的不同階段加入殘差結(jié)構(gòu),增加網(wǎng)絡(luò)深度的同時(shí)改善了網(wǎng)絡(luò)退化和梯度爆炸的問(wèn)題. 利用具有捕獲長(zhǎng)連接能力的Transformer模塊加深網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力,對(duì)于滑膜整體形態(tài)和分布有更強(qiáng)的學(xué)習(xí)能力. 同時(shí),使用MemSwish激活函數(shù)相較Swish函數(shù)可有效減少顯存占用提升網(wǎng)絡(luò)訓(xùn)練速度.
但本文算法仍有需改進(jìn)之處,存在對(duì)與軟骨交界處、匍匐包繞十字交叉韌帶生長(zhǎng)的滑膜邊界不能進(jìn)行較好分辨的問(wèn)題. 針對(duì)該問(wèn)題,可在未來(lái)的工作中嘗試?yán)貌煌B(tài)的磁共振圖像,引入多模態(tài)磁共振圖像融合的特征進(jìn)行學(xué)習(xí),以更好的分辨膝關(guān)節(jié)不同組織的解剖位置.
無(wú)
[1] SMOLEN J S, ALETAHA D, BARTON A, et al. Rheumatoid arthritis[J]. Nat Rev Dis Primers, 2018, 4(1): 18001.
[2] JIN S Y, LI M T, FANG Y F, et al. Chinese registry of rheumatoid arthritis (CREDIT): II.prevalence and risk factors of major comorbidities in Chinese patients with rheumatoid arthritis[J]. Arthritis ResTher, 2017, 19(1): 251.
[3] ASSOCIATION C R. 2018 Chinese guideline for the diagnosis and treatment of rheumatoid arthritis[J]. Chin J Intern Med, 2018, 57(4): 242-251.
中華醫(yī)學(xué)會(huì)風(fēng)濕病學(xué)分會(huì). 2018中國(guó)類(lèi)風(fēng)濕關(guān)節(jié)炎診療指南[J]. 中華內(nèi)科雜志, 2018, 57(4): 242-251.
[4] SUGIMOTO H, TAKEDA A, KANO S. Assessment of disease activity in rheumatoid arthritis using magnetic resonance imaging: quantification of pannus volume in the hands[J]. Bri J Rheumatol, 1998, 37(8): 854-861.
[5] OSTERGAARD M. Different approaches to synovial membrane volume determination by magnetic resonance imaging: manual versus automated segmentation[J]. Rheumatology, 1997, 36(11): 1166-1177.
[6] SAKASHITA T, KAMISHIMA T, KOBAYASHI Y, et al. Accurate quantitative assessment of synovitis in rheumatoid arthritis using pixel-by-pixel, time-intensity curve shape analysis[J]. Br JRadiol, 2016, 89(1061): 20151000.
[7] FOTINOS-HOYER A K, GUERMAZI A, JARA H, et al. Assessment of synovitis in the osteoarthritic knee: comparison between manual segmentation, semiautomated segmentation, and semiquantitative assessment using contrast-enhanced fat-suppressed T1-weighted MRI[J]. Magn Reson Med, 2010, 64(2): 604-609.
[8] PERRY T A, GAIT A, O’NEILL T W, et al. Measurement of synovial tissue volume in knee osteoarthritis using a semiautomated MRI-based quantitative approach[J]. Magn Reson Med, 2019, 81(5): 3056-3064.
[9] WANG A, FRANKE A, WESARG S. Semi-automatic segmentation of JIA-induced inflammation in MRI images of ankle joints[C]// Medical Imaging 2019: Image Processing, SPIE, 2019, 10949: 875-881.
[10] ANDERSEN J K H, PEDERSEN J S, LAURSEN M S, et al. Neural networks for automatic scoring of arthritis disease activity on ultrasound images[J]. RMD open, 2019, 5(1): e000891.
[11] CHRISTENSEN A B H, JUST S A, ANDERSEN J K H, et al. Applying cascaded convolutional neural network design further enhances automatic scoring of arthritis disease activity on ultrasound images from rheumatoid arthritis patients[J]. Ann Rheum Dise, 2020, 79(9): 1189-1193.
[12] IQBAL I, SHAHZAD G, RAFIQ N, et al. Deep learning-based automated detection of human knee joint's synovial fluid from magnetic resonance images with transfer learning[J]. IET Image Processing, 2020, 14(10): 1990-1998.
[13] WONG L M, SHI L, XIAO F, et al. Fully automated segmentation of wrist bones on T2-weighted fat-suppressed MR images in early rheumatoid arthritis[J]. Quant Imag Med Surg, 2019, 9(4): 579.
[14] WEI X N, XIN J Q, WANG Z Y, et al. Magnetic resonance image segmentation of articular synovium based on improved U-Net[J]. Journal of Computer Applications, 2020, 40(11): 3340-3345.
魏小娜, 邢嘉祺, 王振宇, 等. 基于改進(jìn)U-Net的關(guān)節(jié)滑膜磁共振圖像的分割[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(11): 3340-3345.
[15] WANG Z Y, WANG Y S, MAO J L, et al. Magnetic resonance images segmentation of synovium based on Dense-UNet++[J]. Chinese J Magn Reson, 2022, 39(2): 208-219.
王振宇, 王穎珊, 毛瑾玲, 等. 基于Dense-UNet++的關(guān)節(jié)滑膜磁共振圖像分割[J]. 波譜學(xué)雜志, 2022, 39(2): 208-219.
[16] WANG W X, CHEN C, DING M, et al. TransBTS: Multimodal brain tumor segmentation using transformer[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, 2021: 109-119.
[17] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 3431-3440.
[18] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical image computing and computer-assisted intervention, Cham: Springer, 2015: 234-241.
[19] ?I?EK ?, ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// International conference on medical image computing and computer-assisted intervention. Springer, 2016: 424-432.
[20] MILLETARI F, NAVAB N, AHMADI S-A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 2016 fourth international conference on 3D vision (3DV), IEEE, 2016: 565-571.
[21] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the Advances in Neural Information Processing Systems, 2017: 6000-6010.
[22] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16′16 words: Transformers for image recognition at scale[OL]. arXiv preprint arXiv:2010.11929, 2020.
[23] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]// Proceedings of the 27th International Conference on International Conference on Machine Learning, Haifa, Israel: 2010: 807-814.
[24] RAMACHANDRAN P, ZOPH B, LE Q V. Searching for activation functions[J]. arXiv preprint arXiv:1710.05941, 2017.
[25] TAN M, LE Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]// International conference on machine learning, PMLR, 2019: 6105-6114.
[26] YUAN L, CHEN Y, WANG T, et al. Tokens-to-token vit: Training vision transformers from scratch on imagenet[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021: 558-567.
[27] YUSHKEVICH P A, GAO Y, GERIG G. ITK-SNAP: An interactive tool for semi-automatic segmentation of multi-modality biomedical images[C]// 2016 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), IEEE, 2016: 3342-3345.
[28] HATAMIZADEH A, TANG Y, NATH V, et al. Unetr: Transformers for 3d medical image segmentation[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022: 574-584.
Automatic Segmentation of Knee Joint Synovial Magnetic Resonance Images Based on 3D VNetTrans
1,3,1,1,2#,1,4,4§,1*
1. Shanghai Key Laboratory of Magnetic Resonance, School of Physics and Electronic Science, East China Normal University, Shanghai 200062, China; 2. Shanghai Guanghua Hospital of Integrated Traditional Chinese and Western Medicine, Shanghai 200052; China; 3. College of Acupuncture and Massage, Shanghai University of Chinese Medicine, Shanghai 200032, China; 4. Renji Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200127, China
Knee joint is commonly hurt by rheumatoid arthritis (RA). Accurate segmentation of synovium is essential for the diagnosis and treatment of RA. This paper proposes an algorithm based on improved VNet for automatically segmenting knee joint synovial magnetic resonance images. Firstly, the knee joint magnetic resonance images of 39 patients with synovitis were preprocessed. VNetTrans was constructed by embedding Transformer at the bottom of VNet. The MemSwish activation function was used for training. The average Dice score of the final model is 0.758 5 and the HD is 24.6 mm. Compared with VNet, the proposed model increased Dice score by 0.083 6 and decreased HD by 10 mm. Experimental results demonstrated that the proposed algorithm achieved satisfying 3D segmentation of the synovial hyperplasia area in the knee magnetic resonance images. It can be utilized to facilitate the diagnosis and monitoring of RA.
magnetic resonance image, medical image segmentation, deep learning, synovitis
O482.53
A
10.11938/cjmr20222988
2022-03-23;
2022-05-11
國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61731009).
* Tel: 13916346546, E-mail: hzwang@phy.ecnu.edu.cn;
# Tel: 021-62805833, E-mail: ghyyfsk@163.com;
§ Tel: 13621724042, E-mail: drluqingsjtu@163.com.