朱 婷,王 瑜,肖洪兵,邢素霞
(北京工商大學(xué) a.計(jì)算機(jī)與信息工程學(xué)院; b.食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
目前,成人最常見的原發(fā)性腦腫瘤包括原發(fā)性中樞神經(jīng)系統(tǒng)淋巴瘤以及膠質(zhì)瘤,其中,后者占比大約為80%[1]。近期的研究結(jié)果表明,腦腫瘤的磁共振成像(Magnetic Resonance Imaging,MRI)特征能夠輔助臨床診斷及治療方案制定[2]。此外,由于多模態(tài)MRI協(xié)議產(chǎn)生的不同的圖像對比度,能夠提供重要的互補(bǔ)信息,因此常被用來評(píng)價(jià)腦腫瘤細(xì)胞結(jié)構(gòu)的完整性。比較典型的腦腫瘤核磁共振協(xié)議包括FLAIR(Fluid Attenuation Inversion Recovery)、T1(spin-lattice relaxation)、T2(spin-spin relaxation),以及釓增強(qiáng)的T1c(T1-contrasted),這些多模態(tài)MRI圖像[3]具有很大的診斷價(jià)值。
目前,有監(jiān)督的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在多種視覺任務(wù)中取得了較好效果,受到眾多研究者的青睞。文獻(xiàn)[4]研究用深度CNN進(jìn)行圖像去噪,文獻(xiàn)[5]采用CNN實(shí)現(xiàn)中文情感分析,文獻(xiàn)[6]將CNN應(yīng)用于手勢識(shí)別。在2015年的多模態(tài)腦腫瘤分割挑戰(zhàn)賽上,文獻(xiàn)[7]用CNN進(jìn)行腦腫瘤分割并取得了優(yōu)異效果。與傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)方法相比,基于深度學(xué)習(xí)的方法不依賴手動(dòng)提取的特征,能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)不同復(fù)雜度的特征[8],因此,研究者們逐漸采用CNN實(shí)現(xiàn)腦腫瘤分割。如文獻(xiàn)[9]采用多尺度的CNN分割腦腫瘤,文獻(xiàn)[10]利用CNN提取的圖像塊特征對中央像素的類別進(jìn)行預(yù)測。
在使用深度學(xué)習(xí)方法解決圖像分割問題中,文獻(xiàn)[11]提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network,FCN)。FCN的跳躍結(jié)構(gòu)將圖像高層表示與圖像外觀表示相結(jié)合,以完成精細(xì)的分割任務(wù)。但是FCN易丟失上下文信息,為解決該問題,文獻(xiàn)[12]提出金字塔池化模塊,并使用預(yù)訓(xùn)練的ResNet[13]提取原始輸入圖像的特征。網(wǎng)絡(luò)越深,該方法獲得的特征表達(dá)能力越強(qiáng)。然而,ResNet的殘差塊雖然能夠訓(xùn)練非常深的網(wǎng)絡(luò)模型,但可能導(dǎo)致衰減特征重用。為此,文獻(xiàn)[14]建立寬殘差網(wǎng)絡(luò)(Wide Residual Networks,WRN)模型,其通過加寬系數(shù)使較淺的網(wǎng)絡(luò)模型獲得與深度模型相近的性能。此外,文獻(xiàn)[15]發(fā)現(xiàn)一旦圖像的解剖信息被提取出以后,最終的分割結(jié)果將會(huì)在很大程度上受到特定體素信號(hào)強(qiáng)度的影響(相對于紋理特征或者其他高階特征而言),因此,他們在網(wǎng)絡(luò)的倒數(shù)第3層再次引入原始圖像,以提高網(wǎng)絡(luò)的分割性能。
受到上述基于FCN方法的啟發(fā),本文建立一種新的寬殘差金字塔池化模型WRN-PPNet,用于腦腫瘤分割。通過WRN模塊提取原始圖像的特征,利用金字塔池化模塊獲得圖像不同范圍的上下文信息,再融合原始輸入圖像的超本地化特征,最后由模型直接輸出神經(jīng)膠質(zhì)瘤分割結(jié)果,完成全自動(dòng)端到端的多模態(tài)MRI神經(jīng)膠質(zhì)瘤分割任務(wù)。
FCN克服了傳統(tǒng)CNN網(wǎng)絡(luò)進(jìn)行圖像語義分割時(shí)內(nèi)存需求大、計(jì)算效率低、圖像塊尺寸限制感知區(qū)域大小的缺陷,其利用現(xiàn)存的CNN做視覺模型學(xué)習(xí)分層特征,再將分類網(wǎng)絡(luò)最后的全連接層改為全卷積層,然后輸出特征圖,最終對這些特征圖進(jìn)行反卷積后產(chǎn)生稠密像素級(jí)標(biāo)記的輸出圖,即圖像的語義分割結(jié)果。該方法在用深度學(xué)習(xí)方法實(shí)現(xiàn)圖像語義分割方面取得了較好效果。
FCN只含卷積層,可以接受任意尺寸的輸入圖像,對CNN學(xué)習(xí)到的特征進(jìn)行反卷積操作后這些特征能恢復(fù)到原輸入圖像的尺寸,從而可以預(yù)測每個(gè)像素的類別,保留原始圖像中的空間信息,實(shí)現(xiàn)對圖像像素級(jí)的分類。最終網(wǎng)絡(luò)的輸出就是分割好的圖像,該過程實(shí)現(xiàn)了真正意義上的端到端分割。本文結(jié)合FCN方法,建立一種WRN-PPNet模型,對多模態(tài)MRI神經(jīng)膠質(zhì)瘤進(jìn)行全自動(dòng)分割,模型輸出就是對腫瘤區(qū)域的分割結(jié)果。
采用MRI的軸向切片訓(xùn)練WRN-PPNet模型并獲得分割模型,該過程包括3個(gè)步驟:數(shù)據(jù)前期處理,建立WRN-PPNet模型并訓(xùn)練,測試模型分割性能。
腦腫瘤的MRI圖像是3D結(jié)構(gòu),其像素尺寸為240×240×155。3D結(jié)構(gòu)計(jì)算復(fù)雜度高,本文先取切片,將其轉(zhuǎn)化成2D結(jié)構(gòu)后再用于WRN-PPNet模型訓(xùn)練,該過程如圖1所示。
圖1 3D MRI數(shù)據(jù)取切片實(shí)例
4種模態(tài)相同序列的切片需要進(jìn)行如式(1)、式(2)所示的標(biāo)準(zhǔn)化處理后再合并在一起。
(1)
X=X/Xstd
(2)
本文在FCN語義分割模型的基礎(chǔ)上,建立一種多模態(tài)MRI神經(jīng)膠質(zhì)瘤全自動(dòng)分割模型WRN-PPNet。該模型包含2個(gè)模塊:WRN模塊和PPNet模塊,模型結(jié)構(gòu)如圖2所示。其中,(A)表示某個(gè)病人4種模態(tài)的MRI圖像切片,(B)表示由WRN模塊提取的特征,(C)表示W(wǎng)RN模塊提取的特征與PPNet模塊提取的特征相融合的特征,(D)表示反卷積5的輸出與原始輸入的超本地化特征進(jìn)行融合,(E)表示由WRN-PPNet模型分割出的腦腫瘤區(qū)域,(F)表示專家標(biāo)注的腦腫瘤區(qū)域。(1)、(2)、(3)構(gòu)成WRN-PPNet模型,其中,(1)表示W(wǎng)RN模塊,(2)表示PPNet模塊,(3)表示尺寸恢復(fù)部分。
圖2 WRN-PPNet模型結(jié)構(gòu)
2.2.1 WRN模塊
由于在CNN中,越深層次的特征越抽象,表達(dá)能力也越強(qiáng),因此增加網(wǎng)絡(luò)深度有利于提高網(wǎng)絡(luò)模型的性能。然而,隨著網(wǎng)絡(luò)模型的加深,會(huì)出現(xiàn)梯度消失或者爆炸、模型逐漸退化的現(xiàn)象。為此,文獻(xiàn)[13]提出ResNet,以解決該問題。ResNet使模型參數(shù)更少,網(wǎng)絡(luò)更深。其中,殘差塊的結(jié)構(gòu)如圖3(a)所示,在殘差塊中存在恒等映射,殘差塊輸入xl與輸出xl+1之間的關(guān)系如式(3)所示。
xl+1=xl+F(xl,Wl)
(3)
其中,F(·)表示殘差函數(shù),Wl表示殘差塊的參數(shù)。由式(3)可知,殘差網(wǎng)絡(luò)由殘差塊堆疊而成。
雖然具有恒等映射的殘差塊能夠訓(xùn)練非常深的網(wǎng)絡(luò)模型,但可能會(huì)使網(wǎng)絡(luò)中的梯度流無法通過殘差塊權(quán)重,從而導(dǎo)致只有少量殘差塊學(xué)習(xí)到有用的特征,也即很多殘差塊共享非常少的信息,使它們對最終的目的貢獻(xiàn)甚少,這被稱為衰減特征重用問題。為解決該問題,文獻(xiàn)[14]提出寬殘差塊的概念,并通過大量實(shí)驗(yàn)證明,適當(dāng)增加殘差塊寬度比、增加殘差網(wǎng)絡(luò)深度更能提高殘差網(wǎng)絡(luò)的性能。非常淺的寬殘差網(wǎng)絡(luò)能夠獲得非常深的殘差網(wǎng)絡(luò)性能,且參數(shù)量相當(dāng)時(shí),寬殘差網(wǎng)絡(luò)的訓(xùn)練速度更快。寬殘差塊結(jié)構(gòu)如圖3(b)、圖3(c)所示,在每個(gè)卷積層之前均有一個(gè)批標(biāo)準(zhǔn)化(Batch Normalization,BN)層,BN層的作用是將激活層輸出的均值和方差規(guī)范為一致,其有利于加快網(wǎng)絡(luò)收斂速度并抑制梯度爆炸。
圖3 殘差塊結(jié)構(gòu)示意圖
本文提出的網(wǎng)絡(luò)模型使用WRN模塊提取原始輸入數(shù)據(jù)的特征,其寬殘差塊加寬系數(shù)為3(k=3),每個(gè)殘差塊組中包含4(N=4)個(gè)殘差塊。WRN模塊第1個(gè)殘差塊組conv2中的寬殘差塊結(jié)構(gòu)如圖3(b)所示,第2、第3個(gè)寬殘差塊組conv3、conv4中第1個(gè)寬殘差塊的結(jié)構(gòu)如圖3(c)所示,其余寬殘差塊如圖3(b)所示。
2.2.2 PPNet模塊
在多模態(tài)的MRI腦腫瘤切片中,神經(jīng)膠質(zhì)瘤出現(xiàn)的位置、大小、形狀、尺寸等都不確定,其與周圍正常組織邊界模糊、互相滲透,因此,全局先驗(yàn)信息對腦腫瘤各區(qū)域的分割至關(guān)重要。
傳統(tǒng)FCN方法缺少對不同特征的感知,這限制了其在具體問題中的應(yīng)用,且由于固有的空間不變性,導(dǎo)致該方法不能很好地利用上下文信息。由于全局平均池化是一種較好的獲取全局上下文信息的方法,為盡可能減少上下文信息的損失,本文采用分層結(jié)構(gòu)的金字塔池化模塊來獲得不同尺度的全局先驗(yàn)信息,其結(jié)構(gòu)如圖2中的模塊(2)所示。
本文使用的金字塔池化模塊包含3個(gè)不同大小的池化核,尺寸分別是4×4、2×2、1×1,池化類型均為平均池化,這構(gòu)成了3個(gè)池化通路。對于池化核為4×4的池化通路,池化過后,FMs的尺寸大小為該模塊原始輸入FMs尺寸大小的1/4,然后通過2個(gè)依次連接的conv3×3-conv3×3-deconv結(jié)構(gòu),將FMs的尺寸恢復(fù)至該模塊原始輸入FMs的大小,這里conv3×3表示卷積核為3×3的卷積層,deconv是反卷積(上采樣)層,上采樣層的作用是將FMs的大小恢復(fù)至原始輸入FMs的大小。在反卷積層之前使用卷積是為了獲得前一層FMs的優(yōu)化組合。同樣,在池化核為2×2的通路上,池化過后是一個(gè)conv3×3-conv3×3-deconv結(jié)構(gòu),池化核為1×1的通路上,池化過后只有2個(gè)卷積核為3×3的卷積層,且在該模塊中,每個(gè)卷積層和反卷積層輸出的FMs個(gè)數(shù)均為128。最后,在金字塔池化模塊之后,將該模塊中由3個(gè)通路獲得的不同尺度的全局上下文先驗(yàn)與該模塊的輸入特征相融合,如圖2中模塊(C)所示。
2.2.3 尺寸恢復(fù)模塊
WRN-PPNet模型最后一部分主要將FMs的尺寸恢復(fù)至模型原始輸入的大小,如圖2中模塊(3)所示。該部分包含2個(gè)conv3×3-conv3×3-deconv結(jié)構(gòu),且每個(gè)卷積層和反卷積層輸出的FMs個(gè)數(shù)均為64,模型深層網(wǎng)絡(luò)特征與原始數(shù)據(jù)的超本地化特征相融合,如圖2中模塊(D)所示。一旦從圖像中提取出上下文解剖信息后,最后的分割結(jié)果將會(huì)在很大程度上受到特定體素信號(hào)強(qiáng)度的影響。同理,一旦確定腦腫瘤的大致位置后,各區(qū)域的邊界位置幾乎會(huì)由體素的亮度來確定,因此,本文WRN-PPNet模型在最后分割層之前的最后一個(gè)上采樣層上,再次將原始輸入圖像引入模型,以獲得超本地化特征。
為驗(yàn)證本文模型的效果,初步設(shè)計(jì)實(shí)驗(yàn)過程,包括訓(xùn)練數(shù)據(jù)擴(kuò)展、模型參數(shù)確定、模型訓(xùn)練,以及模型對腦腫瘤的初步分割過程。實(shí)驗(yàn)環(huán)境為Ubuntu 16.04LTS,Python3,WRN-PPNet網(wǎng)絡(luò)模型由深度學(xué)習(xí)框架Tensorlayer搭建,模型在一塊顯存為12 GB的GPU (NVIDIA Titan X(Pascal))上訓(xùn)練。
2.3.1 模型相關(guān)參數(shù)
在WRN-PPNet模型中,WRN模塊的參數(shù)如表1所示。其中,M×M為原始輸入圖像的尺寸,本文中M=240,殘差塊加寬系數(shù)k=3,每組殘差塊個(gè)數(shù)N=4,B(3,3)表示殘差塊中2個(gè)卷積核為3×3的卷積層。PPNet模塊中所有層的節(jié)點(diǎn)數(shù)均為128,所有卷積層的卷積核大小均為3×3。在尺度恢復(fù)模塊中,最后一層節(jié)點(diǎn)數(shù)為1,其余層的節(jié)點(diǎn)數(shù)均為64,最后一個(gè)卷積層的卷積核大小為1×1,其余所有卷積層的卷積核大小均為3×3。模型中最后一層的激活函數(shù)為Sigmoid,其余所有層的激活函數(shù)均為ReLU。
表1 WRN模塊結(jié)構(gòu)參數(shù)
在模型訓(xùn)練過程中,代價(jià)函數(shù)采用軟Dice量(Soft Dice metric),優(yōu)化算法為自適應(yīng)矩估計(jì)法(Adaptive moment estimator,Adam)。Adam方法利用梯度的第一、第二階矩更新和矯正當(dāng)前梯度的移動(dòng)平均值,這里Adam優(yōu)化器的學(xué)習(xí)率為0.001,最大訓(xùn)練次數(shù)為100,并在訓(xùn)練過程中采用Earlystopping方法監(jiān)督訓(xùn)練,驗(yàn)證集損失超過可容忍區(qū)間時(shí)停止訓(xùn)練。在該過程中,按照正態(tài)分布初始化所有的權(quán)值,且初始化后權(quán)值的平均值為0,標(biāo)準(zhǔn)方差為0.01,所有偏移量初始化為0。
2.3.2 模型評(píng)價(jià)指標(biāo)
模型訓(xùn)練完成后,用測試數(shù)據(jù)評(píng)估模型性能,定量評(píng)估參數(shù)包括Dice系數(shù)、靈敏度(Sensitivity)系數(shù)、陽性預(yù)測率(Predictive Positivity Value,PPV)系數(shù)[16]。其中,Dice系數(shù)表示模型分割結(jié)果與專家分割的真實(shí)結(jié)果之間的重疊程度,靈敏度表示分割正確的腫瘤區(qū)域占腫瘤真實(shí)區(qū)域的比率,PPV表示模型分割正確的腦腫瘤區(qū)域占模型分割的腦腫瘤總區(qū)域的比率,三者計(jì)算公式如式(4)~式(6)所示。
(4)
(5)
(6)
其中,P為預(yù)測結(jié)果,T為真實(shí)結(jié)果,“∧”表示取交集,“+”表示取并集。
本文算法在操作過程中分為5個(gè)步驟:
1)對MRI數(shù)據(jù)取切片并標(biāo)準(zhǔn)化切片。
2)利用數(shù)據(jù)擴(kuò)展法增加訓(xùn)練集數(shù)據(jù)。
3)建立WRN-PPNet腦腫瘤分割模型,模型包括WRN模塊、PPNet模塊以及尺度恢復(fù)模塊。
4)設(shè)置模型訓(xùn)練的相關(guān)參數(shù)和策略。
5)用測試集數(shù)據(jù)驗(yàn)證模型的分割性能,并采用客觀評(píng)測方法評(píng)估模型。
在本次實(shí)驗(yàn)中,病人的MRI數(shù)據(jù)來源于Virtual Skeleton數(shù)據(jù)庫(Virtual Skeleton Dataset,VSD)[17],該數(shù)據(jù)庫來自2015年多模態(tài)腦腫瘤分割挑戰(zhàn)賽。從數(shù)據(jù)中隨機(jī)抽取60個(gè)病人的4種模態(tài)數(shù)據(jù),將其中50個(gè)病人的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),10個(gè)病人的數(shù)據(jù)作為測試數(shù)據(jù),切片化后可以得到7 750×4張訓(xùn)練切片和1 550×4張測試切片。其中,乘數(shù)4表示圖像模態(tài)數(shù),4種模態(tài)的切片如圖4所示。
圖4 4種模態(tài)的切片圖像
為提高模型的分割性能,本文使用數(shù)據(jù)擴(kuò)展法增加訓(xùn)練數(shù)據(jù)的數(shù)量和模式。數(shù)據(jù)擴(kuò)展法具體如表2所示,其中,簡單的轉(zhuǎn)換方法包括翻轉(zhuǎn)、旋轉(zhuǎn)、平移、縮放以及彈性畸變。對于一張切片,擴(kuò)展后的形態(tài)示例如圖5所示。
表2 數(shù)據(jù)擴(kuò)展法
圖5 擴(kuò)展前后的圖像形狀和模式示例
為驗(yàn)證本文WRN-PPNet模型的有效性,將其進(jìn)行模型訓(xùn)練。實(shí)驗(yàn)使用深度學(xué)習(xí)框架Tensorlayer搭建WRN-PPNet模型,在一個(gè)GPU(NVIDIA Titan X(Pascal))上訓(xùn)練模型。設(shè)置最大訓(xùn)練迭代次數(shù)為100,訓(xùn)練集與驗(yàn)證集的數(shù)據(jù)量之比為9∶1。驗(yàn)證集不參與訓(xùn)練,只用于監(jiān)督模型訓(xùn)練過程,當(dāng)驗(yàn)證集的精確度不再提高時(shí),訓(xùn)練過程會(huì)提前終止。訓(xùn)練好的模型對4種模態(tài)切片的處理過程如圖6所示。
圖6 網(wǎng)絡(luò)模型中間層輸出可視化示例
實(shí)驗(yàn)中對隨機(jī)抽取的4個(gè)病人的切片圖像進(jìn)行腦腫瘤分割,結(jié)果如圖7所示。從圖6、圖7可以看出,WRN-PPNet模型能精準(zhǔn)分割出腦腫瘤區(qū)域,且神經(jīng)網(wǎng)絡(luò)的淺層可以提取原始圖像中能夠大致確定腦腫瘤位置、輪廓等的外觀特征,較深層網(wǎng)絡(luò)提取的特征更抽象,這表明淺層網(wǎng)絡(luò)能夠提取精細(xì)的外觀特征,深層網(wǎng)絡(luò)能夠提取粗糙的語義信息。換言之,深度學(xué)習(xí)網(wǎng)絡(luò)的淺層就相當(dāng)于很多小的邊緣濾波器組合,隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)提取特征對應(yīng)的原始輸入圖像中的感受野越大,此時(shí)越偏向于提取整體的語義信息。因此,深層特征更復(fù)雜,表達(dá)能力也更強(qiáng),這對以后的模型設(shè)計(jì)將是一個(gè)啟發(fā)。
圖7 切片圖像腦腫瘤分割結(jié)果
為探究不同深度的WRN模塊提取的特征對腦腫瘤分割結(jié)果的影響,本文對WRN模塊中殘差塊個(gè)數(shù)N進(jìn)行多次取值,以改變網(wǎng)絡(luò)模型的深度,實(shí)驗(yàn)結(jié)果如表3所示。其中,T表示分割一個(gè)病人腦腫瘤的時(shí)間。從表3可以看出,當(dāng)N=4時(shí),WRN-PPNet模型對腦腫瘤的分割效果最好。
表3 寬殘差塊個(gè)數(shù)N對分割效果的影響
為突出本文算法的有效性,將其與文獻(xiàn)[7-8,10]算法進(jìn)行對比,定量評(píng)估結(jié)果如表4所示。從表4可以看出,本文算法的3種定量評(píng)估指標(biāo)值均超過對比算法。此外,本文算法完整分割出一個(gè)病人的腦腫瘤區(qū)域的平均時(shí)間為0.85 min,少于3個(gè)對比算法??梢钥闯?本文算法無需復(fù)雜的前后期處理以及專家的人工干預(yù),可以完成全自動(dòng)的腦腫瘤分割任務(wù)。
表4 不同算法的分割結(jié)果對比
在進(jìn)行腦腫瘤分割時(shí),FCN方法易丟失上下文信息,ResNet深度網(wǎng)絡(luò)可能出現(xiàn)衰減特征重用問題。為此,本文在FCN的基礎(chǔ)上建立WRN-PPNet模型,用于多模態(tài)MRI腦腫瘤圖像分割。該模型增加金字塔池化模塊用于保留上下文信息,采用WRN模塊通過較淺網(wǎng)絡(luò)獲得與深度網(wǎng)絡(luò)相近的性能,在模型最后階段重新引入原始輸入切片,以提高模型的分割性能。實(shí)驗(yàn)結(jié)果表明,該模型能夠在獲得較好分割效果的同時(shí)減少分割時(shí)間。但本文主要針對整個(gè)腦腫瘤區(qū)域分割進(jìn)行研究,今后將探索分割性能更好的深度學(xué)習(xí)網(wǎng)絡(luò)模型,以分割出包括腫瘤核區(qū)域、水腫區(qū)域、增強(qiáng)區(qū)域等腦腫瘤子區(qū)域。