李緯 吳聰
[摘 要]針對目前多數(shù)U型網絡存在編碼階段卷積核尺度單一難以提取變化較大特征以及深層網絡難以訓練優(yōu)化的情況,提出一種新的基于多級殘差和多尺度的神經網絡,利用多級殘差使神經網絡更易學習,提高網絡的深度,使它在模型不退化的情況下?lián)碛懈S富的特征表達能力,提出了了多尺度交叉融合模塊,通過不同的感受尺度去提取特征,交叉融合也使得特征信息更加充分的交流和融合。網絡在CHASE_DB1數(shù)據集上進行測試,并進行數(shù)據對比,性能表現(xiàn)優(yōu)良,特別是ACC達到了0.9744,SP達到了0.9876。提出的網絡在增加深度的同時并不影響它的學習過程和表現(xiàn)效果。
[關鍵詞]血管分割;深度學習;U-Net;殘差學習;多尺度
[中圖分類號]TP391[文獻標識碼]A
很多疾病可通過視網膜血管的細微特征反映出來,專業(yè)醫(yī)師可以根據視網膜血管的形態(tài)變化來進行病理分析和判斷,制定診療計劃。深度學習在醫(yī)學圖像處理領域的應用在近些年來取得了極大的進步,Ben-Cohen[1]將全卷積神經網絡(Fully Convolutional Networks , FCN)應用在分割肝臟和腫瘤的CT影像分割上。Dasgupta[2]將FCN引入視網膜血管分割的領域,在DRIVE數(shù)據集上的實驗證明了FCN的強大性能。Ronneber[3]提出的經典的U-Net擴展了FCN使其效果更好并且僅僅需要更少的標注數(shù)據。
深度學習的發(fā)展伴隨著網絡深度的增加,AlexNet[4]僅僅只有5個卷積層,隨后VGG,GoogleNet,DenseNet先后被提出,性能提升的同時結構更加復雜。神經網絡的發(fā)展歷程[5-6]說明了網絡的深度對于網絡模型的表達能力非常重要。Wu Yan-Cheng[7]進行的實驗說明網絡深度的增加可以決定網絡是否可以取得良好效果。
1 相關
一定范圍內,隨著網絡深度的增加,模型可以擬合更加復雜的函數(shù),模型的性能也可以提升,但是在深度達到某種程度時,單純增加網絡深度,網絡模型并不會得到優(yōu)化。He[8]等在Highway網絡的基礎上提出了殘差網絡,殘差學習機制可以解決由于網絡深度增加帶來的退化問題,較深的網絡可以更好地訓練。ZL Ni等提出了RAUNet[9]用于語義分割,RAUNet是在U-Net的基礎上結合了殘差學習機制和注意力機制,是對U型網絡的成功改進。Zhang[10]等人在實驗的基礎上提出設想:如果殘差映射容易學習,那么殘差映射中的殘差映射更容易學習。他們在ResNets的基礎上逐級加入shortcut支路,建立了Residual network of Residual networrk(RoR),這就是多級殘差,RoR在 CIFAR-10, CIFAR-100 和SVHN 等數(shù)據集上均取得了較 ResNets 更好的分類結果。LIAN 等[11]構建了多尺度殘差網絡,在殘差結構中,由級聯(lián)的多尺度卷積層作為殘差映射分支。Zheng[12]等人在卷積的過程中引入多級殘差來彌補CNN中缺失的特征從而提高識別精度。WU等人提出了新穎的殘差網絡結構,也就是深度多級殘差網絡,他們在原有的殘差網絡結構上再加上多級捷徑連接,用來挖掘殘差網絡的優(yōu)化能力。
2 方法
單一尺度卷積核感受野固定,網絡層數(shù)增加導致擬合能力退化,針對這些問題,可以將多尺度和多級殘差機制相結合,前者增強特征的提取能力,后者讓每一個多尺度模塊更好地學習和優(yōu)化,計劃在U型網絡的基礎上設計一種多級殘差多尺度網絡(Multilevel residual Multi-Scale Net,MRMS-Net),在編碼器中將多尺度機制集成在多級殘差機制內。
2.1 多級殘差
圖1a顯示了基本的殘差結構,在普通卷積塊的基礎上增加了一條shortcut,這條沒有權重的越層連接成為一條從輸入到輸出的通路可以避免特征圖丟失。
多級殘差RoR(Residual of Residual)是通過添加逐級快捷連接來實現(xiàn)對殘差映射的優(yōu)化,以此方式構建出的基于殘差網絡的RoR,它的快捷連接較多,但等級分明。如圖1b所示,這是一個擁有L個原始殘差塊的RoR-3網絡,因為有root-level shortcut,middle-level shortcut,final-level shortcut這三級快捷連接而得名。這里存在L個final-level shortcut,L/2個middle-level short,1個root-level shortcut,最基本的殘差塊的shortcut是final-level shortcut。設m為快捷連接級數(shù),m=1,2,3,…,當m=1時,RoR是一個基本的殘差網絡,當m=2時,RoR只有root-level shortcut和final-level shortcut。
2.2 多尺度交叉融合模塊
對于特征圖,多尺度模塊按照不同的感受野去提取特征。使用空洞卷積[13]的方法既能夠提升卷積核的感受野又能夠不增加參數(shù)量,可以保留更多的細節(jié)信息。多尺度特征提取會產生若干個特征圖,一般意義的多尺度模塊會直接對它們進行融合處理,如圖2a所示,將輸入特征圖標記為Input。
本文提出了新穎的多尺度交叉融合模塊,如圖2b所示,感受野設置為3×3,5×5,7×7,而且特征融合的方式也變成了交叉融合,交叉融合之后特征圖再經歷一次卷積操作,最后融合特征得到輸出,最后的卷積層中包含了BN和ReLU操作。矩形表示特征操作,這里設輸入特征圖為x,x首先被尺寸大小分別為3×3,5×5,7×7的卷積核同時提取特征,這三種卷積操作分別標記為F1,F(xiàn)2,F(xiàn)3,對應的輸出標記為F1(x),F(xiàn)2(x),F(xiàn)3(x),交叉融合的方式如圖所示,F(xiàn)1(x)和F2(x)進行融合,F(xiàn)1(x),F(xiàn)2(x),F(xiàn)3(x)進行融合,F(xiàn)2(x)和F3(x)進行融合,生成的三個特征圖都傳遞到F4操作中,最后再經歷一次融合得到模塊的輸出。那么該模塊的輸出x′可以表示為:
F4(F1(x)+F2(x))+F4(F1(x)+F2(x)+F3(x))+F4(F2(x)+F3(x))=x′
和一般性的多尺度模塊存在一些區(qū)別,這里應用了交叉融合,然后又增加了Conv-BN-ReLU操作。交叉融合得到的特征包涵信息量更多,多尺度融合擁有一個融合結果,而交叉融合具有三個不同的融合結果,不同的融合結果包涵的信息豐富層次不同,尺度描述也不同,這是由于交叉路徑使得信息的流動更加充分,不同尺度不同層次的特征信息可以相互結合生成更加豐富的表示。之所以再增加一層Conv-BN-ReLu操作,考慮有兩點:一是因為經過交叉融合生成的特征圖包含的信息存在冗余,這種不必要的冗余會影響后面的特征提取,所以額外設置一層Conv-BN-ReLU自適應的學習消除冗余,使特征的表示保持在合理的范圍內,方便后續(xù)特征學習。二是由于殘差結構的殘差分支要求至少兩層卷積,F(xiàn)1,F(xiàn)2,F(xiàn)3算作第一層卷積,這里使用F4充當?shù)诙?。在實驗部分將設計一組對比實驗,保證總體框架不變的情況下比較多尺度交叉融合模塊和一般性的多尺度融合模塊的性能作用。
2.3 總體結構
在編碼器中堆疊多尺度交叉融合模塊,這樣的操作有兩個好處:1)多尺度交叉融合機制可以極大地促進特征信息的傳播流動;2)更多的卷積層能夠提升網絡的擬合能力。這樣的設計存在深度增加網絡退化的問題,這里應用了多級殘差機制,遵循這樣的思路:殘差映射容易學習,如果讓恒等映射也成為殘差映射的一部分,那么這樣的安排對于殘差機制性能的挖掘是可觀的。
本文提出了新穎的多級殘差多尺度模塊,結構見圖3。將這種模塊嵌入每一個編碼器中,對解碼器的改動很輕微,僅僅把普通卷積換成深度可分離卷積,這樣的操作是為了平衡整體網絡模型的參數(shù)量,使模型容易訓練。對于多級殘差多尺度模塊,設計它的root-level殘差中包含有兩個middle-level殘差,每一個middle-level殘差包含兩個final-level殘差,final-level殘差塊的殘差部分為多尺度交叉融合模塊。
模型總體架構如圖4所示,除第一個編碼器外,其余編碼器中的第一個卷積層負責接收處理經過池化層后的特征圖,并調整通道數(shù),第二個卷積層僅負責提取特征并進行激活處理和歸一化,在這個網絡中,多級殘差多尺度模塊并不改變特征圖的維度,僅僅起到提取特征的作用。網絡模型的底部和第一個編碼器類似,也是采用普通卷積加殘差塊的結構,希望能夠規(guī)避過擬合。解碼器結構順序為特征拼接、深度可分離卷積,之所以大量采用深度可分離卷積,是為了一定程度降低參數(shù)量。
3 實驗和結果
這項工作的實驗使用了CHASE_DB1數(shù)據集。劃分20個樣本用于網絡訓練,另外8個樣本用于測試。經過數(shù)據增強后的訓練集容量為600,每一張訓練圖像裁減為512×512像素,并轉換為灰度圖。在訓練階段選擇RMSPprop優(yōu)化算法,學習率為0.0001,weight decay為e-8,momentum為0.9。
在圖像分割領域存在著若干個衡量分割效果的指標,其中有SE,SP,ACC。SE指的是敏感性,正確分割的血管像素占真實血管像素的百分比,SP指特異性,正確分割的背景像素占真實背景像素的百分比,ACC指準確度,正確分割血管像素和背景像素在整個圖像中的百分比。圖5的內容顯示了網絡的工作效果,表1展示了MRMS-Net的性能表現(xiàn)以及和其它的網絡效果的比較。從表1中可知,MRMS-Net對視網膜血管的分割特異性和準確度表現(xiàn)較好,但是敏感性方面略有不足。
在這項工作中,還存在一組對照試驗,MRMS-Net作為標準網絡,把MRMS-Net中的多尺度交叉融合模塊替換為一般性多尺度融合模塊,這種網絡模型定義為MRMS-Compare-Net,作為對照網絡,這兩種多尺度模塊在前文中已經得到闡述,這里需要用實驗結果來說明兩個網絡的差異(表1)。
從表1中可以看到,標準網絡的ACC和SP均高于對照網絡,而對照網絡的SE更高,有理由相信多尺度融合模塊的不同在其中發(fā)揮了作用,雖然特征信息在標準網絡中得到更充分的流動和融合,也采取了一些手段對冗余的信息加以抑制,但對照網絡的多尺度融合模塊毫無疑問在結構上更加簡單直接,沒有那么多的冗余堆疊。但也應該看到,這種簡單模塊并沒有使殘差機制發(fā)揮應有的作用,這一點在ACC,SP兩項指標的差距上可以得到證明。
4 結論
針對大部分U型網絡編碼器階段卷積核的尺寸過于單一,網絡擬合能力因深度增加而退化的問題,本文提出了一種多尺度交叉融合模塊,其擁有較強的特征提取能力,并將多尺度交叉融合模塊和多級殘差機制相結合,形成了一種新的多級殘差多尺度網絡。一方面該網絡同時兼顧良好的擬合能力和可收斂性,通過在公開數(shù)據集上進行實驗比較,這種新的多尺度交叉融合相較于普通的多尺度融合在ACC和SP這兩個指標上表現(xiàn)更優(yōu),這也體現(xiàn)在MRMS-Net和其它的網絡的比較上。但是另一方面多級殘差機制的引入也增加了網絡的復雜度,復雜度的提升客觀上使得網絡參數(shù)量劇增,訓練速度更慢。本論文所提出的網絡在SE指標上亦存在不可忽視的問題,這種不平衡反映出網絡模型在設計上存在一些問題,有待進一步研究解決。
[ 參 考 文 獻 ]
[1] BEN-COHEN A,DIAMANT I,KLANG E,et al.Fully convolutional network for liver segmentation and lesions detection[C].∥Athens,Greece: Springer Verlag,2016:77-85.
[2] DASGUPTA A,SINGH S.A fully convolutional neural network based structured prediction approach towards the retinal vessel segmentation[C].∥Melbourne,VIC,Australia:IEEE Computer Society,2017:248-251.
[3] RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[C].∥Munich,Germany: Springer Verlag,2015:234-241.
[4] KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
[5] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2014-9-4).[2021-9-20].https:∥arxiv.org/abs/1409.1556.
[6] SZEGEDY C,WEI LIU,YANGQING JIA,et al.Going deeper with convolutions[C].∥Boston,MA,United States: IEEE Computer Society,2015:1-9.
[7] YAN CHENG WU,CHEN H C,SHAO MEI L I,et al.Person re-identification using attribute priori distribution[J].Acta Automatica Sinica,2019,45(5):953-964.
[8] HE KAIMING,ZHANG XIANGYU,REN SHAOQING,et al.Deep residual learning for image rec-ognition[C].∥Las Vegas,NV,United states: IEEE Computer Society,2016:770-778.
[9] NI Z L,BIAN G B,ZHOU X H,et al.RAunet:residual attention U-net for semanticsegmentation of cataract surgical instruments[C].∥Sydney,NSW,Australia: Springer Science and Business Media Deutschland GmbH,2019:139-149.
[10]ZHANG K,SUN M,HAN X,et al.Residual Networks of residual networks: multilevelresidual Networks[J].IEEE Transactions on Circuits and Systems for Video Technolog-y,2018,28(6):1303-1314.
[11]練秋生,富利鵬,陳書貞,等.基于多尺度殘差網絡的壓縮感知重構算法[J].自動化學報,2019,45(11):2082-2091.
[12]ZHENG K,XIA Z,ZHANG Y,et al.Speech emotion recognition based on multi-level residual convolutional neural networks[J].Engineering Letters,2020,28(2):559-565.
[13]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab: semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IE- EE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[14]WANG W,YU K,HUGONOT J,et al.Recurrent U-net for resource-constrained segmentation[C].∥Seoul,Korea: Institute of Electrical and Electronics Engineers Inc.,United States,2019:2142-2151.
[15]ZHANG B,HUANG S,HU S.Multi-scale neural networks for retinal blood vessels segme-ntation[EB/OL].(2018-4-11).[2021-9-20].https:∥arxiv.org/abs/1804.04206.
[16]JIANG Z,ZHANG H,WANG Y,et al.Retinal blood vessel segmentation using fully convo-lutional network with transfer learning[J].Computerized Medical Imaging and Graphic-s,2018,68(09):1-15.
[17]ZHUANG J.LadderNet:Multi-path networks based on U-Net for medical image segment-ation[EB/OL].(2018-10-17).[2021-9-20].https:∥arxiv.org/abs/1810.07810.
[18]WU Y,XIA Y,SONG Y,et al.Vessel-net:retinal vessel segmentation under multi-path supervision[C].∥Shenzhen,China: Springer Science and Business Media Deutschland GmbH,2019:264-272.
[19]LI X,JIANG Y,LI M,et al.Lightweight attention convolutional neural network for retinal vessel segmentation[J].IEEE Transactions on Industrial Informatics,2020,17(03):1958-1967.
[20]WANG B,WANG S,QIU S,et al.CSU-Net: a context spatial U-net for accurate blo-od vessel segmentation in fundus images[J].IEEE Journal of Biomedical and Health I-nformatics,2020,25(04):1128-1138.
Medical Image Segmentation Network based on
Multilevel Residuals and Multi-scales
LI Wei, WU Cong
(School of Computer Science,Hubei Univ. of Tech.,Wuhan 430068,China)
Abstract:At present, in most U-shaped networks, it is difficult to extract features with a single convolution kernel scale in the encoding stage, and it is also difficult to train and optimize the deep network. A new neural network based on multi-level residuals and multi-scale is proposed, which makes the neural network easier to learn, improves the depth of the network, and enables it to have richer feature expression ability, without reducing the performance of the model. In this paper, a multi-scale cross fusion module is proposed, which extracts features through different sensory scales. Cross-fusion also enables feature information to be more fully exchanged and fused. After testing on the data set CHASE _ DB 1, the performance is excellent, especially with ACC being 0.9744, and SP being 0.982. The depth of the proposed network is increased without affecting its learning process and performance.
Keywords:blood vessel segmentation; deep learning; u-net; residual learning;multi-scale
[責任編校:張巖芳]