王楓 呂澤均
摘? 要: 隨著人工智能和醫(yī)學(xué)大數(shù)據(jù)的發(fā)展,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割技術(shù)因具有重要的應(yīng)用價值和前景,已經(jīng)成為目前的研究熱點(diǎn)。為了增強(qiáng)特征圖的語義信息,在U-net網(wǎng)絡(luò)的基礎(chǔ)上引入通道注意力機(jī)制,對U-net生成的特征逐通道進(jìn)行壓縮,將壓縮后的特征逐通道計算權(quán)重,然后將該權(quán)重與原始特征相乘得出最終的特征。通過在兩個不同器官的醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實驗,Dice系數(shù)相較于原始U-net網(wǎng)絡(luò)分別提高了2.7%和1.8%,驗證了該方法的可行性和有效性。
關(guān)鍵詞: 深度學(xué)習(xí); U-net網(wǎng)絡(luò); 通道注意力機(jī)制; 醫(yī)學(xué)圖像分割
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)05-64-04
Medical image segmentation method based on channel attention mechanism and U-net
Wang Feng, Lv Zejun
(College of Computer Science (College of Software), Sichuan University, Chengdu, Sichuan 610000, China)
Abstract: With the development of artificial intelligence and medical big data, medical image segmentation technology based on deep learning, for its important application value and prospects, has become a current research hotspot. In order to enhance the semantic information of the feature map, a channel attention mechanism is introduce for U-net network to compress the features generated by U-net channel by channel, calculate the weights of the compressed features channel by channel, and then get the final features by multiplying the weights by the original features. The experiment on medical image data set of two different organs show that the Dice coefficient is increased by 2.7% and 1.8% respectively compared with the original U-net network, which verifies the feasibility and effectiveness of the method.
Key words: deep learning; U-net network; channel attention mechanism; medical image segmentation
0 引言
醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析領(lǐng)域的關(guān)鍵步驟,它將醫(yī)學(xué)圖像中具有特殊含義的部分分割出來并提取相關(guān)特征,目的是為臨床診斷提供參考數(shù)據(jù),輔助醫(yī)生做出更加準(zhǔn)確的診斷和治療方案[1]。由于醫(yī)學(xué)圖像具有不均勻、模糊、差異性等特點(diǎn),對醫(yī)學(xué)圖像分割帶來了較大的困難和挑戰(zhàn)。因此,研究并找出更好的醫(yī)學(xué)圖像分割方法,提升醫(yī)學(xué)圖像分割技術(shù)水平,對于整個醫(yī)療領(lǐng)域和人工智能領(lǐng)域都具有重要的意義,對社會的發(fā)展和進(jìn)步也具有不可替代的作用。
近年來,隨著深度學(xué)習(xí)方法的迅速發(fā)展,基于深度學(xué)習(xí)的圖像分割算法在醫(yī)學(xué)圖像分割任務(wù)中取得顯著的成就。全卷積神經(jīng)網(wǎng)絡(luò)FCN是第一次將端到端的卷積網(wǎng)絡(luò)推廣到了語義分割的任務(wù)當(dāng)中,隨后被廣泛使用和研究。例如Zhang等人[2]利用原始大腦的 MR 圖像訓(xùn)練粗糙分割的FCN模型,檢測出腫瘤的整體區(qū)域,再使用腫瘤區(qū)域作為訓(xùn)練樣本訓(xùn)練最終分割得到腦腫瘤的內(nèi)部結(jié)構(gòu)。但由于FCN模型忽略了像素與像素之間的關(guān)系,使其檢測結(jié)果不夠精細(xì)。而U-Net模型是在此基礎(chǔ)上對FCN的改進(jìn),比如Vittikop等人[3]使用U-Net網(wǎng)絡(luò)對腦腫瘤MR圖像進(jìn)行分割,通過跳躍連接融合了淺層和深層的圖像特征信息,取得較好的效果,提高了分割精度。U-Net對經(jīng)過多次下采樣得到的低分辨率信息和從編碼器直接傳遞到同高度解碼器上的高分辨率信息結(jié)合起來,可以更好的適用于邊界模糊、梯度復(fù)雜的醫(yī)學(xué)圖像。然而該方法平等對待輸出特征的每一個通道,從而缺少處理不同類型信息的靈活度。
為了解決上述問題,本文在U-net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上引入通道注意力機(jī)制。研究表明[4],注意力機(jī)制能夠加強(qiáng)網(wǎng)絡(luò)對重要特征的關(guān)注度,增強(qiáng)特征圖的語義信息,在復(fù)雜度和計算量不變的基礎(chǔ)上可以有效提高網(wǎng)絡(luò)的分割精度。本文中的通道注意力機(jī)制主要分為三個部分,首先是特征壓縮部分,該部分將U-Net輸出的特征逐通道進(jìn)行壓縮;其次是通道權(quán)重模塊,通過兩層全連接層計算特征各個維度的權(quán)重,對應(yīng)原始特征各個通道的權(quán)重;最后通過殘差機(jī)制,將各個通道的權(quán)重與原始特征逐通道相乘。通過上述機(jī)制,將原始的特征逐通道根據(jù)通道權(quán)重進(jìn)行區(qū)別對待,從而增加特征中的所包含的語義信息,提高U-Net網(wǎng)絡(luò)的性能。經(jīng)過在不同器官的醫(yī)學(xué)圖像分割數(shù)據(jù)集3Dircadb[5]和Bound-archieve中的實驗,結(jié)果表明,本文方法的性能高于原始U-net網(wǎng)絡(luò)的性能。
1 基于U-net的和通道注意力機(jī)制醫(yī)學(xué)圖像分割技術(shù)
1.1 U-net網(wǎng)絡(luò)
為了充分利用高分辨信息用于精準(zhǔn)分割以及分割目標(biāo)在人體圖像中的分布很具有規(guī)律,簡單明確的語義信息,Olaf Ronneberger等人[6]提出了U-net網(wǎng)絡(luò)結(jié)構(gòu),通過U形網(wǎng)絡(luò)結(jié)構(gòu)和跳級連接實現(xiàn)語義信息與圖像高分辨率信息進(jìn)行融合,能夠很好的適用于醫(yī)學(xué)圖像任務(wù)。文獻(xiàn)[7]中使用基于改進(jìn)后的3D-Unet醫(yī)學(xué)圖像處理模型對上一步驟生成的結(jié)果進(jìn)行分類,剔除假陽性的候選,保留真正的結(jié)節(jié),實現(xiàn)對輸入的胸部CT圖像進(jìn)行肺結(jié)節(jié)檢測。文獻(xiàn)[8]利用U-net網(wǎng)絡(luò)對直腸癌CT影像進(jìn)行智能分割,同時加入圖像增強(qiáng)、批歸一化等方法緩解過擬合現(xiàn)象,最終在驗證集上的Dice系數(shù)達(dá)到0.9329,驗證了U-net的具有優(yōu)越的圖像分割效果。
U-net網(wǎng)絡(luò)包括兩部分,收縮路徑和擴(kuò)張路徑。收縮路徑用來獲取上下文信息,減少特征圖的空間維度,增加特征通道數(shù)量。分為四個階段,每一階段接受一個輸入后經(jīng)過兩個3*3的卷積層,并且使用修正線性單元激活函數(shù)進(jìn)行激活,然后進(jìn)行下采樣,經(jīng)過步長為2的2*2的最大池化操作。每個階段后,特征通道的數(shù)量都會加倍。擴(kuò)張路徑是網(wǎng)絡(luò)的核心,用來對任務(wù)目標(biāo)的精確定位。與左邊對稱同樣分為四個階段,使用上采樣來恢復(fù)目標(biāo)細(xì)節(jié)和空間維度。每個階段過后特征圖的大小加倍,特征數(shù)量減半。最后通過一個1*1的卷積操作,將64通道的特征圖轉(zhuǎn)換成類別數(shù)為2的特征圖,再經(jīng)過 sigmoid 函數(shù)輸出一個概率值,該值反映預(yù)測結(jié)果的可能性,概率越大則可能性越大[9]。
1.2 通道注意力機(jī)制
在計算能力有限情況下,注意力機(jī)制是解決信息超載問題的主要手段的一種資源分配方案,將計算資源分配給更重要的任務(wù)。通過注意力機(jī)制[4]可以加強(qiáng)網(wǎng)絡(luò)對重要特征的關(guān)注度,在復(fù)雜度和計算量不變的基礎(chǔ)上可以提高網(wǎng)絡(luò)的分割精度,在特征提取、分類、檢測、分割等處理中廣泛應(yīng)用。文獻(xiàn)[10]通過顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道的特征響應(yīng),該方法思想簡單,易于實現(xiàn),并且很容易可以加載到現(xiàn)有的網(wǎng)絡(luò)模型框架中。文獻(xiàn)[11]依次應(yīng)用通道和空間注意模塊,強(qiáng)調(diào)空間和通道這兩個維度上的有意義特征,提高關(guān)注點(diǎn)的表示。通過針對不同尺度的圖像動態(tài)生成卷積核的方式,文獻(xiàn)[12]在超分辨率任務(wù)上有很大提升,并且在分類任務(wù)中也有很好的表現(xiàn)。
文獻(xiàn)[10]中提出了一種新的架構(gòu)單元,“Squeeze-and-Excitation”(SE)塊,通過顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道式的特征響應(yīng),通過這種機(jī)制可以學(xué)習(xí)使用全局信息來選擇性地強(qiáng)調(diào)信息特征并抑制冗余的信息特征。受此啟發(fā),本文設(shè)計了一種新的通道注意力機(jī)制,具體的結(jié)構(gòu)如圖1所示。首先輸入網(wǎng)絡(luò)提取的圖像特征[f∈Rc×h×w],然后經(jīng)全局特征提取后,將特征的形狀轉(zhuǎn)換為[f1∈Rc×1×1],其次經(jīng)過通道權(quán)值計算模塊計算[f1]中每個元素的權(quán)值,該權(quán)值即為輸入特征通道的權(quán)值,最后將該權(quán)值與輸入特征逐通道相乘,計算出最終加權(quán)后的特征[f3∈Rc×h×w],為輸出的特征。
為了計算特征通道的依賴關(guān)系,需要統(tǒng)計輸入特征中的每個通道矩陣最具代表性的描述,使該描述能夠保留該特征的全局信息,因此提出了全局特征模塊,該模塊形式化表示為公式⑴,其中,[pool?]為全局特征提取函數(shù),這里采用池化函數(shù)實現(xiàn),包括最大池化和平均池化。其中平均池化能夠最大限度的保留特征的全局信息,而最大池化能夠提取最具代表性的特征。
[f1=poolf] ⑴
為了充分利用特征壓縮后的信息,接下來需要計算特征通道之間的相關(guān)性,該操作分為兩個步驟,首先對特征[f1]進(jìn)行公式⑵的計算,得出壓縮后的特征[f2]:
[f2=h1w1*f1+b1]? ⑵
其中,[h1]為relu激活函數(shù),使特征值限制在(0,1)范圍內(nèi)。[w1∈RC×C/r],[b1∈RC/r],其中r為衰減系數(shù)。然后需要對特征[f2],進(jìn)行公式⑶計算,得出通道權(quán)重atte:
[atte=h2w2*f2+b2]? ⑶
其中,[h2]為sigmoid激活函數(shù),[w2∈RC/r×C],[b2∈RC]。最終通過公式(4)得出輸出特征[f3],其中c表示[f3]的第c個通道。
[f3c,:,:=attec*f2c,:,:]? ⑷
1.3 整體框架
圖2顯示的即為本文所設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)圖,將U-net的每一層提取的特征,送入通道注意力模塊,得出混合通道之間依賴關(guān)系的特征。加入注意力機(jī)制的U-net網(wǎng)絡(luò)可以在特征提取的過程中把注意力集中在關(guān)鍵特征上,抑制其他無關(guān)特征,將U-net輸出的特征逐通道進(jìn)行壓縮,然后計算每個通道的權(quán)重再將權(quán)重與原始特征通道相乘,由此區(qū)別對待不同的特征通道,增強(qiáng)了特征中的語義信息,從而提高醫(yī)學(xué)圖像的分割效果。
2 實驗
2.1 數(shù)據(jù)集
本次實驗將使用兩個不同器官的醫(yī)學(xué)圖像數(shù)據(jù)集進(jìn)行驗證實驗,以檢測本文提出的模型在不同數(shù)據(jù)集上的表現(xiàn)效果。第一個數(shù)據(jù)集是3D-IRCADb-01數(shù)據(jù)庫[5],包含20例肝臟三維CT掃描圖像男女各10例),其中75%為患有肝腫瘤的患者。部分患者病例的相關(guān)信息如圖3所示。第二個數(shù)據(jù)集是一組肺部的CT影像,包含ID從000到266總共267位患者的肺部影像。每個圖片的具體信息如圖4所示。
2.2 實驗結(jié)果與分析
本文的實驗在肝臟3Dircadb和肺部Bound-archieve兩個數(shù)據(jù)集中進(jìn)行,將數(shù)據(jù)集中的每張圖像的尺寸resize為256×256,數(shù)據(jù)集的前80%作為訓(xùn)練集來訓(xùn)練模型,后20%作為測試集驗證模型。實驗所用的設(shè)備為CPU: Intel Core i7-9700K,GPU: GTX 1080Ti,RAM:16GB。使用Python3.6,Pytorch1.1.0實現(xiàn)。為了驗證本文所提出的方法的有效性,本文稱加入通道注意力機(jī)制的模型為(Ours),與原始模型U-net進(jìn)行了對比實驗,采用SGD優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率為0.001,進(jìn)行10次迭代后,學(xué)習(xí)率衰減為原來的百分之一,同時本文模型的衡量指標(biāo)采用較為通用的Dice系數(shù),經(jīng)過上述訓(xùn)練過程,實驗結(jié)果如表1所示。
表1中,Ours-avgpool表示公式(1)中使用的pool操作為平均池化,Ours-maxpool表示公式(2)中使用的pool為最大池化。由表1所示,在肝臟數(shù)據(jù)集中U-net的精度為0.8456,而對加入了注意力機(jī)制模塊的本文模型精度來說,使用平均池化操作的精度為0.8725,使用最大池化操作的精度為0.8726;在肺部數(shù)據(jù)集中U-net的精度為0.8925,而對于本文模型的精度來說,使用平均池化操作的精度為0.9082,使用最大池化操作的精度為0.9098。由此得出,本文方法的精度均明顯高于原始U-net網(wǎng)絡(luò),另外最大池化操作的精度略高于平均池化,由此可以驗證本文方法相比于原始U-net網(wǎng)絡(luò)具有更加良好的分割效果,達(dá)到了預(yù)期優(yōu)化目標(biāo)。
為了展示更明顯的效果,圖5顯示了部分分割樣例。從圖中可以看出,利用本文方法進(jìn)行分割得到的預(yù)測結(jié)果相比于數(shù)據(jù)集中由醫(yī)生手工標(biāo)注的結(jié)果,在整體形狀和位置上都已十分接近,且相對于手工標(biāo)注的邊界更為圓滑,對于局部的圖像信息也展現(xiàn)的較為詳細(xì)和清晰,線條相對逼真和準(zhǔn)確,基本能夠達(dá)到和醫(yī)生手工標(biāo)注同樣的效果,能夠?qū)︶t(yī)療診斷起到一定的輔助作用。
3 結(jié)束語
本文在U-net的基礎(chǔ)上,提出了引入注意力機(jī)制模塊的基于U-net網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割算法,借助神經(jīng)注意力機(jī)制專注輸入子集的能力,選擇特定的輸入,在計算能力有限的情況下,將計算資源分配給較為重要的任務(wù)。與此同時在兩個不同的醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實驗驗證,結(jié)果表明本文提出的方法可以更好地對醫(yī)學(xué)圖像分割進(jìn)行處理操作,相比于基本的U-net網(wǎng)絡(luò),圖像分割效果更好,精度更高,訓(xùn)練速度相對較快,同時也具有一定的通用性,對于以后用于臨床輔助診斷也有一定的參考價值。但實驗中也存在一些不足,預(yù)測的器官輪廓不夠細(xì)致,且模型容易出現(xiàn)過擬合,主要因為由醫(yī)生標(biāo)記好的醫(yī)學(xué)圖像數(shù)據(jù)較少,導(dǎo)致模型的訓(xùn)練樣本量不夠大,以后將增加樣本數(shù)據(jù)量,并使用圖像增強(qiáng)技術(shù),優(yōu)化模型。
參考文獻(xiàn)(References):
[1] Patil D D, Deore S G. Medical Image Segmentation: AReview[J]. International Journal of Computer Science & Mobile Computing,2013.2(1).
[2] ZHANG C, FANG M, NIE H. Brain tumor segmentationusing fully convolutional networks from magnetic resonance imaging[J]. Journal of Medical Imaging and Health Informatics,2018.8:1546-1553
[3] VITTIKOP B S, DHOTRE S R. Automatic segmentation ofMRI images for brain tumor using unet[C]//2019 1st International Conference on Advances in Information Technology (ICAIT). Chikmagalur, India, IEEE,2019:507-511
[4] Snyder D, Garcia-Romero D, Povey D, et al. Deep neuralnetwork embeddings for text- independent speaker verification[C]//Conference of the International Speech Communication Association. Interspeech,2017:999-1003
[5]張睿,吳水才,周著黃等.基于增強(qiáng)CT圖像的肝臟血管三維分割方法研究[J].中國醫(yī)療設(shè)備,2017.32(11):48-54
[6] Ronneberger 0. Invited Talk: U-Net ConvolutionalNetworks for Biomedical? Image Segmentation[J].2015,9351:234-241
[7] 陳星宇.基于改進(jìn)后的3D-Unet肺結(jié)節(jié)圖像檢測研究[J].科技資訊,2020.18(24):217-219
[8] 譚俊杰,鐘妤,黃澤斌.基于U-net的直腸癌智能分割[J].計算機(jī)時代,2020.8:18-20,26
[9] 魏小娜,邢嘉祺,王振宇,王穎珊,石潔,趙地,汪紅志.基于改進(jìn)U-Net網(wǎng)絡(luò)的關(guān)節(jié)滑膜磁共振圖像的分割[J].計算機(jī)應(yīng)用,2020:1-7
[10] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018:7132-7141
[11] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional blockattention module[C]//Proceedings of the European conference on computer vision (ECCV),2018:3-19
[12] Li X, Wang W, Hu X, et al. Selective kernel networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2019:510-519