徐婷宜 朱家明 李祥健
摘? 要:肝臟CT(計算機斷層掃描)圖像分割為臨床肝臟醫(yī)療分析提供了可靠依據(jù)。文中探索了完全卷積網(wǎng)絡(FCN)用于肝臟CT圖像中的檢測和分割。FCN已被證明是用于語義分段的非常強大的工具,它能接受任意大小的的輸入并通過有效地推理與學習產(chǎn)生相應大小的輸出。該文將分類網(wǎng)絡VGG調整為完全卷積網(wǎng)絡,并通過遷移學習將其轉移到分割任務,展示了由端到端,像素到像素訓練的卷積網(wǎng)絡語義分割。此架構能將來自深層粗糙層的語義信息與來自淺層精細層的外觀信息相結合,以生成準確而精細的分割。本架構肝臟分割IOU值達到0.9,取得較好的分割效果。
關鍵詞:全卷積網(wǎng)絡;語義分割;深度學習
Abstract: Computed Tomography (CT) image segmentation provides a reliable basis for clinical liver medical analysis. A Full Convolutional Network (FCN) is explored for detection and segmentation in liver CT images. FCN has been proven to be a very powerful tool for semantic segmentation. It can accept inputs of any size and generate corresponding output through effective reasoning and learning. This paper adjusts the classification network of Visual Geometry Group (VGG) to a fully convolutional network and transfers it to the segmentation task through transfer learning. It shows an end-to-end, pixel-to-pixel trained convolutional network semantic segmentation. This architecture can combine semantic information from deep rough layers with appearance information from shallow fine layers to generate accurate and fine segmentation. In this architecture, the liver segmentation Intersection-over-Union (IOU) value reaches 0.9, and a good segmentation effect is achieved.
Keywords: full convolutional network; semantic segmentation; deep learning
1? ?引言(Introduction)
計算機斷層掃描(CT)是觀察骨關節(jié)及軟組織的一種理想的方式,肝臟病變檢測常用CT圖像觀察[1]。肝臟手術需要有關肝臟大小、形狀和精確位置的信息。臨床診斷大多數(shù)依靠醫(yī)生耗費大量時間手動檢測和分割,這就突出了計算機分析的必要性。本文中所述圖像語義分割的意思是計算機把圖像中所有的像素點分配給其對應的標簽。采用VGG、Alex-Net等CNN網(wǎng)絡,以圖像中每個像素點為中心提取像素補丁,將補丁送入分類后對應的標簽中,每個補丁中心像素得到相對應的標簽,將所有像素點執(zhí)行操作,即可得對應像素點的標簽[2]。全卷積網(wǎng)絡用卷積層取代全連接層,使得網(wǎng)絡能進行像素級分割的分類,從而解決語義分割問題[3]。FCN可以接受任意大小的輸入,并通過有效地推理與學習產(chǎn)生相應的輸出,使這個體系結構的損失函數(shù)在整個圖像分割結果上進行計算[4]。網(wǎng)絡處理的是整個圖像,因此可以通過圖像的分辨率更有效地進行縮放。相比于傳統(tǒng)的CNN圖像分割,F(xiàn)CN分割圖像還能減少不必要的重復存儲和計算卷積,使得訓練更加高效。
2? 肝臟分割算法構建(Construction of liver segmentation algorithm)
2.1? ?數(shù)據(jù)采集
IRCAD(Research Institute Against Digestive Cancer)匯集了消化道癌癥研究實驗室,計算機科學/機器人研究部門和微創(chuàng)科培訓中心。本文采用IRCAD的Liver segmentation-3D-ircadb-01數(shù)據(jù)庫,它由對75%的肝腫瘤的10位女性和10位男性進行3D CT掃描組成。數(shù)據(jù)庫提供了一系列有關圖像的信息,例如根據(jù)庫尼諾(Couninaud)分割的肝臟大小(寬度、深度、高度)或腫瘤的位置。這也表明與鄰近器官的接觸,肝臟的非典型形狀或密度,甚至圖像中的偽像等問題都會成為肝臟分割的主要困難。二十組肝臟3D圖像如圖1所示。
2.2? ?全卷積網(wǎng)絡的構建
全卷積網(wǎng)絡采用卷積神經(jīng)網(wǎng)絡實現(xiàn)了從圖像像素到像素類別的變換。全卷積網(wǎng)絡通過轉置卷積(transposed convolution)層將中間層特征圖的高和寬變換回輸入圖像的尺寸,從而令預測結果與輸入圖像在空間維(高和寬)上一一對應:給定空間維上的位置,通道維的輸出即該位置對應像素的類別預測[5]。全卷積像素預測如圖2所示。
本文的前置基礎網(wǎng)絡為VGG16,通過丟棄最終的分類器層并將全連接層轉換為卷積層來構建全卷積網(wǎng)絡。架構中附加一個通道維數(shù)為2的1×1卷積來預測每個粗略輸出位置的肝臟評分,然后再附加一個反卷積層來將粗略輸出提升到像素密集輸出。上采樣在網(wǎng)絡中進行,通過像素級損失的反向傳播進行端到端的學習。本文初始網(wǎng)絡為FCN-8s的DAG網(wǎng)絡,它學會了將粗糙的、高層的信息與精細的、低層的信息結合起來[6]。我們還探討了添加另一個較低級別的鏈接層來創(chuàng)建FCN-4s DAG網(wǎng)絡的附加值。這是通過與圖3中的Pool3和Pool4層的鏈接相似的方式鏈接Pool2層來完成的。最初的網(wǎng)絡架構如圖3所示。
全卷積網(wǎng)絡工作流程:
(1)首先對輸入的原圖像實行卷積操作conv1和池化操作pool1,則原圖像縮小到原來的1/2;
(2)將步驟(1)的輸出結果作為輸入信息,對圖像進行第二次卷積操作conv2和池化操作pool2,則圖像進一步縮小到原圖的1/4;
(3)將步驟(2)的輸出結果作為輸入信息,對圖像進行第三次卷積操作conv3和池化操作pool3,則圖像進一步縮小到原圖的1/8,此外,保留pool3過程中產(chǎn)生的feature map;
(4)將步驟(3)的輸出結果作為輸入信息,對圖像進行第四次卷積操作conv4和池化操作pool4,則圖像進一步縮小到原圖的1/16,此外,保留pool4過程中產(chǎn)生的feature map;
(5)將步驟(4)的輸出結果作為輸入信息,對圖像進行第三次卷積操作conv5和池化操作pool5,則圖像進一步縮小到原圖的1/32;
(6)將步驟(5)的輸出結構作為輸入信息,利用conv6和conv7構建的全連接層進行進一步卷積操作,輸出圖像的大小依然是原圖的1/32,此時得到的feature map記為heat map;
(7)先將步驟(3)、步驟(4)中的feature map,以及步驟(6)中的heat map進行上采樣操作,得到的圖像記為X;
(8)利用conv4的卷積核對X進行反卷積操作來進一步補充圖像分割細節(jié)部分,得到的圖像記為Y;
(9)最后利用conv3中的卷積核對Y進行第二次的反卷積操作,得到圖像Z,圖像Z即為圖像語義分割的結果[7]。
2.3? ?數(shù)據(jù)增強
手動分割遮罩對于數(shù)據(jù)集來說只在2D之內,肝臟分割的數(shù)據(jù)集相對較小,因此數(shù)據(jù)增強是最適合的。當只有很少的訓練樣本可用時,數(shù)據(jù)增強對于教導網(wǎng)絡期望的不變性和魯棒性是必不可少的。數(shù)據(jù)增強的方式有多種選擇,例如,調整亮度、對比飽和色調等因素來降低模型對色彩的敏感度。本文通過將比例轉換應用于可用的訓練圖像來達到數(shù)據(jù)增強的目的。
3? ?實驗(Experiment)
本次訓練數(shù)據(jù)集中的圖像格式是DICOM格式,因此在將數(shù)據(jù)轉換為TFRecord格式以供以后在TensorFlow中進行訓練之前,我們必須先做一些預處理工作。在本項目范圍內,我們只劃分了肝、骨、腎等四類。因此,每個預處理的數(shù)據(jù)樣本將是圖像-形狀(512,512)的輸入圖像和遮罩二維數(shù)組具有與圖像相同的空間形狀,指示每個像素屬于哪個類。訓練中隨機抽取數(shù)據(jù)集對數(shù)據(jù)進行訓練,激活函數(shù)為relu函數(shù),使用Adam優(yōu)化方法和交叉熵損失函數(shù)對全卷積函數(shù)進行訓練。二維訓練樣本2258張,驗證樣本565張,在進入網(wǎng)絡前進行歸一化處理,減去圖像均值。在FCN預訓練模型的基礎上進行迭代,實驗平臺為Linux平臺下的TensorFlow框架。使用批量大小為32的完整訓練大概需要48小時,同時使用基本的數(shù)據(jù)增強。
3.1? ?Adam優(yōu)化算法
Adam優(yōu)化算法來源于適應性矩估計,同時具有AdaGrad(適應性梯度算法)和RMSprop(均方根傳播)的優(yōu)點。Adam的主要參數(shù)有學習率α、一階矩估計的指數(shù)衰減率β1和二階矩估計的衰減率β2。α控制了權重的更新比率,在迭代優(yōu)化的前期,學習率較大,則前進的步長較長,這時便能以較快的速度進行梯度下降;而在迭代的后期,逐步減小學習率的值,減小步長,這樣有助于算法的收斂,獲得最優(yōu)解。β1用于計算導數(shù)的平均值,β2計算平方版指數(shù)加權平均數(shù),ε是固定值用來防止分母為0,本文參數(shù)設置為α=0.0003,β1=0.9, β2=0.99,ε=10e-8。Adam參數(shù)具有很好的解釋性,通常無須調整或僅需很少的微調。
3.2? ?交叉熵損失
交叉熵損失的計算分為兩個部分:softmax分類器與交叉熵損失。
Softmax分類器將網(wǎng)絡最后的輸出y通過指數(shù)轉變?yōu)楦怕使剑绻剑?)所示。
用于計算類別i的網(wǎng)絡輸出類別,分母為輸出指數(shù)和。
交叉熵損失是用來評估當前訓練得到的概率分布與真實分布的差異情況。在深度學習中,p(x)表示真實分布,q(x)表示預測分布,在實際實驗中,交叉熵值越小,說明預測分布與真實分布越接近[8]。交叉熵公式如式(2)。
3.3? ?交并比
IOU(Intersection-Over-Union)即交并比,是進行目標檢測的一個重要算法,它具有非負性、不可同一性、對稱性和滿足三角不等式等優(yōu)點。
IOU表示了產(chǎn)生的候選框(candidate bound)與原標記框(ground truth bound)的交疊率或者說重疊度。它衡量了兩個邊界框重疊的相對大小,一般約定0.5是閾值,IOU越高,邊界框越精確。IOU的公式如式(3)。
4? ?實驗結果分析(Analysis of results)
訓練過程的可視化包括訓練集和驗證集的acc和loss曲線,根據(jù)曲線的不同特點進行超參數(shù)調節(jié),可以不斷優(yōu)化網(wǎng)絡。用tensorboard觀察訓練(train)和驗證(val)的損失(loss)在訓練時的變化如圖所示。Train/loss不斷下降,val/loss不斷下降,說明網(wǎng)絡訓練正常,val/iou_loss不斷上升,說明分割的精度不斷提高。本文分割的IOU值為0.9。
肝臟CT圖,手動真實分割圖,本文分割圖如圖5所示。
5? ?結論(Conclusion)
本文通過全卷積網(wǎng)絡來對特定目標進行語義分割,結果表明具有數(shù)據(jù)增強的FCN,以及適當?shù)臋嘀?,給實驗提供了較好的結果。FCN分割的缺陷在于分割結果不夠精細,對圖像中的細節(jié)不敏感。同時在對像素分類時忽略了在通常的基于像素分類分割方法中使用的空間規(guī)整步驟,沒有充分考慮像素與像素間的關系。在未來的實驗中,可嘗試添加相鄰切片來提高分割性能。
參考文獻(References)
[1] Hssayeni MD, S.M, Croock MS, et al. Intracranial Hemorrhage Segmentation Using Deep Convolutional Model[J]. Benchmarking Datasets in Bioinformatics, 2020, 5(1): 14.
[2] Russel Mesbah, Brendan McCane, Steven Mills, et al.Improving Spatial Context in CNNs for Semantic Medical Image Segmentation[C]. 2017 4th IAPR Asian Conference on Pattern Recognition (ACPR), 2017.
[3] Bo Zhao, Jiashi Feng, Xiao Wu, et al. A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. International Journal of Automation and Computing,? 2017, 14(2): 119-135.
[4] 章琳,袁非牛,張文睿,等.全卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機工程與應用,2020,56(01):25-37.
[5] Ben-Cohen A, Diamant I, Klang E, et al. Fully Convolutional Network for Liver Segmentation and Lesions Detection[C]. International Workshop on Deep Learning in Medical Image Analysis, 2016.
[6] Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651.
[7] 李智能,劉任任,梁光明.基于卷積神經(jīng)網(wǎng)絡的醫(yī)學宮頸細胞圖像的語義分割[J].計算機應用與軟件,2019,36(11):152-156.
[8] 趙梓淇,裴昀,常振東,等.基于深度學習的CT影像肺結節(jié)檢測[J].吉林大學學報(信息科學版),2019,37(05):572-581.
作者簡介:
徐婷宜(1996-),女,碩士生.研究領域:醫(yī)學圖像處理.本文通訊作者.
朱家明(1972-),男,博士,副教授.研究領域:智能與自適應控制,圖像處理.
李祥?。?992-),男,碩士生.研究領域:數(shù)字圖像處理.