陳 銘,梅 雪,朱文俊,周 穎,張夢怡,馮李航
(南京工業(yè)大學(xué) 電氣工程與控制科學(xué)學(xué)院,江蘇 南京 211800)
據(jù)癌癥中心統(tǒng)計(jì),我國每年死于肺癌的人數(shù)接近100萬[1],大多肺癌患者被發(fā)現(xiàn)時(shí)基本處于中晚期,導(dǎo)致肺癌病人死亡率很高,及早診斷肺癌并治療對(duì)降低死亡率具有重要的意義。肺癌前期多表現(xiàn)為小型肺結(jié)節(jié)[2-4],但在臨床上卻無特異癥狀。盡管CT影像技術(shù)的出現(xiàn)有助于提前發(fā)現(xiàn)病變結(jié)節(jié),但是面對(duì)日益增加的影像診斷需求,醫(yī)生需要逐一進(jìn)行仔細(xì)斟酌和篩選,效率低下且易導(dǎo)致醫(yī)生疲勞,這增加了誤診的概率。
為了解決上述問題,利用深度學(xué)習(xí)實(shí)現(xiàn)肺結(jié)節(jié)分割的研究[5-10]成為趨勢。Kumar等[11]較早地采用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)自動(dòng)提取肺結(jié)節(jié)圖像特征,實(shí)現(xiàn)了肺部小結(jié)節(jié)的分類識(shí)別。Shelhamer等[12]則提出了替代CNN全連接層的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)來實(shí)現(xiàn)圖像感興趣區(qū)域(ROI)的分割,解決了語義級(jí)別的圖像分割問題。Ronneberger等[13]在FCN網(wǎng)絡(luò)基礎(chǔ)上,首次改進(jìn)并提出了新的網(wǎng)絡(luò)Unet[14-15],該網(wǎng)絡(luò)架構(gòu)呈U形,前半部分用于特征提取,后半部分基于上采樣技術(shù)實(shí)現(xiàn)與前半部分特征通道數(shù)的同尺度拼接,使得拼接后的特征表達(dá)性極大增強(qiáng)。Unet網(wǎng)絡(luò)的優(yōu)異性能使其在醫(yī)學(xué)圖像領(lǐng)域得到了極大關(guān)注,后來的研究者也多是基于此進(jìn)行改進(jìn),如柳小波等[16]通過結(jié)合殘差網(wǎng)絡(luò)(ResNet)的方式,提出了Res-Unet網(wǎng)絡(luò)進(jìn)行圖像輪廓的優(yōu)化;鐘思華等[17]采用特征層密集連接的方式,建立了Dense-Unet模型用以改善分割性能。然而,醫(yī)學(xué)圖像普遍存在著數(shù)據(jù)量不均衡、分辨率較低、結(jié)節(jié)不明顯等問題,這些改進(jìn)Unet在應(yīng)用時(shí),一方面增加了模型復(fù)雜度,如高度復(fù)雜的殘差網(wǎng)絡(luò),另一方面也增加了額外的計(jì)算量,如Dense密集連接的冗余層在訓(xùn)練時(shí)易發(fā)生過擬合現(xiàn)象,導(dǎo)致后期測試樣本的分割準(zhǔn)確率難以提高,且實(shí)際應(yīng)用中計(jì)算資源消耗較大。
針對(duì)上述問題,本文提出了一種Mobile-Unet網(wǎng)絡(luò)的肺結(jié)節(jié)圖像分割方法。該方法為了兼顧識(shí)別精度和計(jì)算效率,采用輕量型MobileNetV3網(wǎng)絡(luò)[18-19]作為主干網(wǎng)絡(luò),以實(shí)現(xiàn)深層特征提取,結(jié)合針對(duì)醫(yī)學(xué)圖像分割任務(wù)的特定任務(wù)型網(wǎng)絡(luò)Unet來提高整體的分割性能。
本文所使用的數(shù)據(jù)集來自南京腫瘤醫(yī)院,圖片格式為DICM格式。收集到的數(shù)據(jù)集共有20例病人,這些病人共有400張CT圖像,其中400多張CT圖像中可能含有1~2個(gè)小結(jié)節(jié)(一個(gè)結(jié)節(jié)可能對(duì)應(yīng)多張切片),將有結(jié)節(jié)部分的圖片從400多張CT圖像中挑選出來組成數(shù)據(jù)集,最終收集到的圖片總計(jì)217張。
為使不同切片厚度的CT圖像運(yùn)用到網(wǎng)絡(luò)模型中,可首先對(duì)圖片進(jìn)行格式轉(zhuǎn)換,然后將數(shù)據(jù)集進(jìn)行歸一化處理,圖1(a)所示為處理后的結(jié)果示例。Unet網(wǎng)絡(luò)需要用掩膜作為原始圖像的標(biāo)簽,使用標(biāo)注軟件對(duì)結(jié)節(jié)位置進(jìn)行人工標(biāo)注生成掩膜圖像。掩膜中只含2個(gè)像素點(diǎn),分別為0和1,1代表結(jié)節(jié)所在的像素,0代表非結(jié)節(jié)所在的像素,圖1(b)圈出來的白色區(qū)域?yàn)楦鶕?jù)結(jié)節(jié)位置所生成的形狀。
圖1 圖像預(yù)處理結(jié)果Fig.1 Results of data preprocessing
為了提高肺結(jié)節(jié)圖像分割的精度和效率,本文提出并設(shè)計(jì)了主干網(wǎng)絡(luò)和任務(wù)網(wǎng)絡(luò)相結(jié)合的Mobile-Unet網(wǎng)絡(luò)模型,其中主干網(wǎng)絡(luò)選用MobileNetV3輕量級(jí)網(wǎng)絡(luò),任務(wù)網(wǎng)絡(luò)為常用的Unet網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過淺層特征融合深層特征的方式提取表達(dá)性較強(qiáng)的特征,解決分割精度難以提升的問題;采用MobileNetV3輕量型網(wǎng)絡(luò)特征提取可以降低模型復(fù)雜度、減少訓(xùn)練時(shí)的參數(shù)量,從而提高網(wǎng)絡(luò)收斂速度。
1.2.1 Unet網(wǎng)絡(luò)
Unet網(wǎng)絡(luò)是一種全卷積神經(jīng)網(wǎng)絡(luò),是目前比較流行的醫(yī)學(xué)圖像分割模型。圖2為Unet網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)由編碼器(上采樣)和解碼器(下采樣)兩個(gè)部分組成。編碼部分通過卷積和池化對(duì)輸入圖片進(jìn)行降維和特征提取;解碼部分通過上采樣對(duì)低像素(淺層特征)圖片進(jìn)行升維和特征放大。編碼所得到的不同特征圖會(huì)以通道融合的方式連接到解碼部分的相對(duì)應(yīng)層,其中淺層特征用來分割,深層特征用來定位,二者的有效結(jié)合有助于增加特征的多樣性。因此,作為特定的任務(wù)型網(wǎng)絡(luò),能較好地適用于醫(yī)學(xué)圖像的分割。
圖2 Unet網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建Fig.2 Construction of Unet network
1.2.2 MobileNetV3網(wǎng)絡(luò)
MobileNetV3是一種結(jié)合了深度可分離卷積[20]、線性瓶頸逆殘差結(jié)構(gòu)[21]和輕量級(jí)注意力機(jī)制[22]的網(wǎng)絡(luò)。該網(wǎng)絡(luò)為解決現(xiàn)實(shí)場景應(yīng)用中計(jì)算能力受限而專門設(shè)計(jì),具有參數(shù)量少、速度快、深度適中等優(yōu)勢,常作為主干網(wǎng)絡(luò)應(yīng)用于醫(yī)學(xué)圖像分割任務(wù)。可分離卷積模塊的計(jì)算復(fù)雜度如式(1)—(4)所示。
Md=i×j×k
(1)
Mp=1×1×p×k
(2)
M=Md+Mp
(3)
(4)
式中:Md、Mp和M分別為逐通道卷積參數(shù)量、逐點(diǎn)卷積參數(shù)量和可分離卷積總參數(shù)量,i、j、k和p分別為卷積核的長、寬、數(shù)量和通道數(shù),R為深度可分離卷積與普通卷積參數(shù)量的比值。由于本文采用卷積核的長和寬均為16,彩色圖片的通道數(shù)為3,經(jīng)式(4)計(jì)算R約為0.337,通過該比值可以看出深度可分離卷積的參數(shù)量遠(yuǎn)遠(yuǎn)少于傳統(tǒng)卷積參數(shù)量,約為傳統(tǒng)卷積參數(shù)量的30%,從而大大縮短網(wǎng)絡(luò)訓(xùn)練時(shí)間。
如圖3所示,MobileNetV3網(wǎng)絡(luò)主要分為3個(gè)部分。第一部分(Conv3×3)為一個(gè)3×3的卷積層,用于提取特征;中間部分(bneck1—4)為多個(gè)含有可分離卷積層塊(bneck)的網(wǎng)絡(luò)結(jié)構(gòu),由多個(gè)3×3、5×5的卷積塊組成,通常深度越深,提取到的抽象特征越好;最后一部分通過卷積層(Conv1×1)代替全連接層,在經(jīng)過池化等一系列步驟得到輸出結(jié)果。
圖3 MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建Fig.3 Contruction of MobileNetV3 network
1.2.3 Mobile-Unet網(wǎng)絡(luò)
1.2.3.1 單一獨(dú)立模型的局限性
1)Unet網(wǎng)絡(luò)。針對(duì)肺結(jié)節(jié)這種小而不明顯的圖像分割任務(wù),抽象特征的有效提取有助于提升模型的分割性能。雖然Unet網(wǎng)絡(luò)能夠高效地利用不同層的特征,但是作為獨(dú)立模型使用時(shí)還存在著以下不足:多次使用普通卷積如Conv3×3或Conv5×5,增加了模型設(shè)計(jì)的難度和普適性;網(wǎng)絡(luò)層數(shù)還較淺(一般為7~10層),使得特征學(xué)習(xí)次數(shù)也有限,表達(dá)性不強(qiáng)。
2)MobileNetV3網(wǎng)絡(luò)。MobileNetV3中bneck模塊結(jié)構(gòu)含有多個(gè)尺寸和深度的可分離卷積塊、批量歸一化(BN)層、H-Switch激活函數(shù)等,可以根據(jù)任務(wù)和網(wǎng)絡(luò)的需求選擇不同的搭配方式,具有很強(qiáng)的靈活性,但該網(wǎng)絡(luò)應(yīng)用于醫(yī)療圖像識(shí)別時(shí)還存在如下的局限性:忽略了特征與特征之間的聯(lián)系性,如圖3中bneck模塊提取的深層特征沒有以特征融合的方式結(jié)合淺層特征,導(dǎo)致部分重要特征的損失;激活函數(shù)插入位置一般相對(duì)固定,且實(shí)驗(yàn)樣本數(shù)量較少,這導(dǎo)致了精度提升并不明顯。
1.2.3.2 Mobile-Unet網(wǎng)絡(luò)架構(gòu)與實(shí)現(xiàn)
針對(duì)上述問題,本文提出并設(shè)計(jì)了主干網(wǎng)絡(luò)和任務(wù)網(wǎng)絡(luò)相結(jié)合的Mobile-Unet網(wǎng)絡(luò)模型,其中主干網(wǎng)絡(luò)選用MobileNetV3輕量級(jí)網(wǎng)絡(luò),任務(wù)網(wǎng)絡(luò)為常用的Unet網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)采用圖4方式構(gòu)建。首先,將MobileNetV3中bneck模塊移植到Unet網(wǎng)絡(luò)的編碼部分;其次,根據(jù)Unet編碼部分位置采用不同深度的bneck模塊來提取特征,通常位置越深,所需bneck模塊量越多,提取到的抽象特征也越高級(jí);最后,將提取后的特征按照?qǐng)D5的方式依次連接到解碼器的對(duì)應(yīng)位置進(jìn)行特征融合,連接過程中需要保證特征圖與解碼器對(duì)應(yīng)位置的通道數(shù)、尺寸保持一致,特征提取的計(jì)算見式(5)。
(5)
式中:a控制網(wǎng)絡(luò)的結(jié)構(gòu)(a=0代表編碼部分,a=1代表解碼部分);N為網(wǎng)絡(luò)深度;b控制網(wǎng)絡(luò)深度(b≤N/2b≤N/2為編碼深度,b>N/2為解碼深度);f(…)為編碼部分運(yùn)算,每次運(yùn)算經(jīng)過特定大小的卷積層、Relu6激活層等;g(…)為解碼部分運(yùn)算;{…}為特征融合;Qa,b為最終特征圖。
圖4 Mobile-Unet網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建Fig.4 Construction of Mobile-Unet network
Mobile-Unet網(wǎng)絡(luò)將MobileNetV3特征提取并結(jié)合Unet的特征連接,有助于減少網(wǎng)絡(luò)層數(shù)參數(shù)過多和過擬合問題,從而具有了精度高、計(jì)算簡單和較少參數(shù)等優(yōu)勢。
圖5 特征融合過程Fig.5 Feature fusion process
本文將數(shù)據(jù)集(217張圖片)劃分為訓(xùn)練集、驗(yàn)證集和測試集,訓(xùn)練集用以訓(xùn)練模型,驗(yàn)證集用以對(duì)模型進(jìn)行調(diào)優(yōu)工作,測試集用以測試模型的性能。首先,取出后200張圖片;然后,使用機(jī)器學(xué)習(xí)包中的split方法將圖片劃分為訓(xùn)練集和驗(yàn)證集,劃分比例為9∶1;最后,將圖片前17張作為測試集。
實(shí)驗(yàn)在Window系統(tǒng)下進(jìn)行,網(wǎng)絡(luò)模型架構(gòu)通過基于tensorflow后臺(tái)的keras環(huán)境實(shí)現(xiàn)Mobile-Unet網(wǎng)絡(luò)的構(gòu)建,采用一塊GTX 1060Ti圖形處理器的便攜式硬件平臺(tái),內(nèi)存RAM 6.0 GB。網(wǎng)絡(luò)參數(shù)的設(shè)置遵循以下規(guī)則:根據(jù)圖片的尺寸選擇輸入維度為 (256,256,3),優(yōu)化算法采用下降速度最快、效果最好的Adam優(yōu)化器,根據(jù)顯卡性能選擇送入網(wǎng)絡(luò)的圖片批次量(batch-size)為10,激活函數(shù)選取常規(guī)的Relu激活函數(shù),損失函數(shù)(L)采用交叉熵?fù)p失(式(6))。
(6)
式中:yl為樣本l的標(biāo)簽,pl為樣本l預(yù)測存在物體的概率,S為樣本量。
對(duì)于分割問題采用準(zhǔn)確率(Ac)、召回率(Pr)和相似系數(shù)(F1)作為評(píng)價(jià)指標(biāo)(式(7)—(9))。
(7)
(8)
(9)
式中:Te為像素e的實(shí)際類別;Pe為像素e的預(yù)測類別;Tp為真正例;FN為假反例;FP為假正例;TN為真反例;∩為真實(shí)類別與預(yù)測類別相同的情況,即Tp;∪為所有情況的總概率。
將訓(xùn)練集送入Mobile-Unet網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練過程的誤差曲線如圖6所示。由圖6可以看出:訓(xùn)練集和驗(yàn)證集的誤差都隨著步數(shù)的增加而下降,最后趨于穩(wěn)定,并且誤差降到1%以下,說明該模型對(duì)偏差控制得很好;訓(xùn)練集和驗(yàn)證集穩(wěn)定后的誤差接近說明該模型的方差比較小。
圖6 訓(xùn)練過程的誤差曲線Fig.6 Error curve of training process
為了進(jìn)一步驗(yàn)證Mobile-Unet模型的分割性能,本文選取傳統(tǒng)的Unet、SegNet、Res-Unet以及Mobile-Unet 4個(gè)模型進(jìn)行對(duì)比實(shí)驗(yàn),并采用Ac、Pr和F13個(gè)指標(biāo)來評(píng)估分割效果,結(jié)果見表1。
表1 模型的評(píng)價(jià)指標(biāo)
由表1可知:SegNet和Unet網(wǎng)絡(luò)僅僅提取層數(shù)較淺的特征,特征表達(dá)性不高,導(dǎo)致最后的分割結(jié)果比較粗糙,相似系數(shù)分別為82.63%和83.77%;Res-Unet網(wǎng)絡(luò)由于網(wǎng)絡(luò)層數(shù)很深,對(duì)圖像中干擾像素點(diǎn)很敏感,出現(xiàn)了準(zhǔn)確率很高,召回率較低的情況,相似系數(shù)為89.22%;而Mobile-Unet網(wǎng)絡(luò)利用MobileNet中深層網(wǎng)絡(luò)進(jìn)行抽象特征提取,減少了網(wǎng)絡(luò)層數(shù)參數(shù)過多和梯度爆炸問題,準(zhǔn)確率由傳統(tǒng)Unet網(wǎng)絡(luò)的85.00%提升為90.00%,同時(shí)相似系數(shù)較Unet、SegNet、Res-Unet分別提升了6.21%、7.35%、0.76%。
由表1還可知:傳統(tǒng)的Unet和SegNet雖然花費(fèi)的時(shí)間較短,均低于1.3 h,但是沒有很好地提升模型的性能;Res-Unet依靠深層網(wǎng)絡(luò)取得了很高的準(zhǔn)確率,但花費(fèi)時(shí)間較長,約為2.1 h;而Mobile-Unet模型在模型性能和時(shí)間消耗(1.6 h)上均有不錯(cuò)的表現(xiàn)。
為了觀察可視化效果,隨機(jī)選取了測試集中的兩張CT圖像進(jìn)行了顯示,結(jié)果見圖7,圖中白色的部分即為分割出的結(jié)節(jié)位置,黑色部分代表非結(jié)節(jié)位置。由圖7可知:Mobile-Unet網(wǎng)絡(luò)能夠很好地分割出結(jié)節(jié)位置,尤其是在結(jié)節(jié)特別小的情況下,模型依然保持著良好的分割性能。
圖7 肺結(jié)節(jié)的分割效果Fig.7 Segmentation rendering of pulmonary nodules
1)本文提出了主干網(wǎng)絡(luò)MobileNetV3與任務(wù)型網(wǎng)絡(luò)Unet相結(jié)合的一種新型Mobile-Unet網(wǎng)絡(luò)進(jìn)行肺結(jié)節(jié)圖像分割。Mobile-Unet網(wǎng)絡(luò)通過主干網(wǎng)絡(luò)進(jìn)行抽象特征提取并結(jié)合任務(wù)型網(wǎng)絡(luò)的特征融合優(yōu)點(diǎn),有效緩解了特征利用率低的問題,進(jìn)而提升了網(wǎng)絡(luò)的分割性能,實(shí)驗(yàn)結(jié)果表明新型Mobile-Unet網(wǎng)絡(luò)相似系數(shù)較Unet、SegNet、Res-Unet提升了6.21%、7.35%、0.76%,提升效果顯著。
2)本文采用輕量型MobileNetV3網(wǎng)絡(luò)中可分離卷積代替?zhèn)鹘y(tǒng)卷積模塊,主要體現(xiàn)在網(wǎng)絡(luò)層數(shù)較深的情況下,能極大減少網(wǎng)絡(luò)的參數(shù)量,約為傳統(tǒng)卷積模塊的30%。緩解模型過擬合現(xiàn)象,有助于提升模型的魯棒性。
3)輕量型網(wǎng)絡(luò)在減少參數(shù)量的同時(shí),能進(jìn)一步縮短模型訓(xùn)練時(shí)間,較Res-Unet網(wǎng)絡(luò)節(jié)省1 h,降低了計(jì)算成本,使模型兼顧識(shí)別精度和計(jì)算效率以達(dá)到最優(yōu)分割效果。
考慮到本實(shí)驗(yàn)樣本數(shù)據(jù)的限制,導(dǎo)致模型對(duì)分割細(xì)節(jié)上的處理不夠,進(jìn)而影響模型的分割效果,后續(xù)工作將研究如何擴(kuò)充實(shí)驗(yàn)樣本,以進(jìn)一步提升深度學(xué)習(xí)在圖像分割中的適用性。