王 雪
(吉林農業(yè)科技學院 網絡信息中心, 吉林 吉林 132101)
醫(yī)學圖像分割是醫(yī)學圖像分析與處理的關鍵步驟, 可輔助醫(yī)生做出更準確的診斷和治療方案, 從而減少人工處理時間和人為錯誤. 傳統(tǒng)醫(yī)學圖像分割方法主要包括基于水平集分割[1-2]、 閾值分割[3]、 基于邊緣或區(qū)域分割[4-5]和模糊聚類分割[6]等, 這些方法均需用手動提取的特征進行分割, 很難為不同的分割任務設計具有代表性的特征, 缺乏特征的通用性. 隨著卷積神經網絡在醫(yī)學圖像分析和處理領域的發(fā)展, 基于深度學習的分割方法因其可自動學習圖像特征, 克服了傳統(tǒng)方法中手動提取特征的局限性而成為目前研究的熱點. 全卷積神經網絡(fully convolutional neural network, FCN)[7]是典型端到端的圖像分割深度網絡之一. Rommeberger等[8]提出了U-Net網絡結構用于生物醫(yī)學圖像分割, 該網絡結構通過編碼減少空間維度并提取高層語義特征, 解碼結合跳躍連接操作恢復空間維度和圖像細節(jié)信息, 在醫(yī)學圖像分割上性能較好. 但該結構中的連續(xù)卷積和池化操作在提取高層次語義特征的同時也丟失了圖像中部分空間上下文信息. 因此, 如何在編碼中捕獲更多的高級特征并保留豐富的空間上下文信息, 以提高醫(yī)學圖像分割性能仍是該領域亟待解決的問題之一.
本文提出一種基于U-Net網絡的多尺度和多維度特征融合分割方法, 用于醫(yī)學圖像中皮膚病變分割. 該方法在U-Net網絡編碼底層引入多尺度和多維度特征融合模塊, 以捕獲更多高級語義信息并保留空間上下文信息. 實驗結果表明, 該方法在皮膚病變數(shù)據(jù)集上分割效果較好.
U-Net網絡[6]是一個基于FCN的圖像分割網絡, 主要用于醫(yī)學圖像分割, 并在細胞壁、 肺部和眼底視網膜血管分割等方面效果較好. U-Net網絡結構主要由卷積層、 最大池化層、 反卷積層、 跳躍連接以及非線性激活函數(shù)Relu組成. U-Net中使用帶邊界權值的損失函數(shù), 表示為
(1)
其中:pl(x)(x)是Softmax函數(shù);l:Ω→{1,2,…,K}表示像素點的標簽值;ω:Ω→R表示像素點權值,
ω(x)=ωc(x)+ω0·exp{-(d1(x)+d2(x))2/(2σ2)},
(2)
式中ωc:Ω→R表示平衡類別的權值,d1:Ω→R表示像素點與其最近細胞的距離,d2:Ω→R表示像素點與其第二近細胞的距離,ω0和σ為常數(shù).
由于U-Net網絡在向下編碼提取高層次語義特征過程中, 連續(xù)卷積和池化操作丟失了圖像中部分空間上下文信息, 因此為解決該問題, 本文提出一種基于多尺度和多維度特征的融合方法, 從多個尺度提取更多的語義特征并結合維度信息保留更多的空間上下文信息. 改進的網絡結構如圖1所示. 主要包括3個模塊: 特征編碼模塊、 多尺度和多維度特征融合模塊(multi-scale and multi-dimensional feature fusion, MSSE)及特征解碼模塊.
圖1 改進的網絡結構Fig.1 Structure of improved network
受文獻[9]啟發(fā), 本文在提取圖像多尺度特征時采用Atrous卷積, 通過引入不同的擴張率參數(shù), 在不增加參數(shù)量的同時擴大感受野. Atrous卷積計算公式為
(3)
其中x(i)表示輸入信號,w(k)表示長度為k的濾波器,r為對輸入信號進行采樣的步幅,y(i)為Atrous卷積的輸出. 此外, 本文引入Inception結構[10]思想, 將不同大小卷積核提取的特征進行融合. 圖2(A)為多尺度特征提取塊, 該卷積塊包含4個Atrous卷積分支, 卷積核大小為3×3, 擴張率分別為1,3,5. 第4個分支為不同擴張率卷積和一個1×1卷積的級聯(lián)結構.
經過上述圖2(A)模塊提取的多尺度特征后, 本文進一步通過通道上下文信息融合模塊提取特征圖像通道間的權重信息, 采用擠壓和激勵(squeeze and excitation, SE)模塊[11], 結合特征通道間的作用關系改善模型的特征表達能力. SE模塊主要包括兩部分, 即Squeeze和Excitation. 圖2(B)為SE網絡模塊, 其中:Fsq(·)表示對輸出特征圖進行全局平均池化, 以降低特征維度到1×1×C,C表示通道數(shù);Fex(·,W)通過全連接層和非線性學習得到特征圖各通道的權重值; 最后經過Fscale(·,·)將各通道的權重信息融合到特征圖像中. 本文通過上述過程提取的多尺度和多維度特征信息以殘差網絡結構[12]中跳躍連接的思想, 與圖2(A)的輸入特征圖進行融合, 其目的是防止網絡梯度消失, 同時為后續(xù)解碼模塊保留更多的空間上下文信息, 提升分割精度.
圖2 多尺度和多維度特征融合模塊Fig.2 Multi-scale and multi-dimensional feature fusion blocks
實驗硬件環(huán)境: 服務器Intel Xeon CPU E5-2620 v4, 內存64 GB DDR4 MHz, NVIDIA GeForce GTX 1080 Ti獨立顯卡3張. 軟件環(huán)境: Ubuntu 16.04 LTS 64位操作系統(tǒng), 基于PyTorch框架, CUDA版本10.0.
采用國際皮膚影像協(xié)會(international skin imaging collaboration, ISIC)出版的ISIC2018皮膚鏡檢查圖像數(shù)據(jù)集[13], 該數(shù)據(jù)集來自病變分割、 皮膚鏡特征檢測和疾病分類數(shù)據(jù). 該數(shù)據(jù)集共包含2 594張圖片, 本文參考文獻[14]的方法, 將數(shù)據(jù)集劃分為訓練集(1 815張)、 驗證集(259張)和測試集(520張). 采用文獻[15]的方法進行數(shù)據(jù)增強, 包括水平翻轉、 垂直翻轉和對角線翻轉. 圖像預處理主要包括HSV顏色空間中的顏色抖動和圖像隨機移動, 圖片大小調整為448×448.
模型訓練過程中, 采用Adam優(yōu)化器, batch_size=8, epoch=100, 初始學習率lr設為0.000 2, 當損失值連續(xù)10個epoch遞增時, 更新學習率為lr/2.
為評價本文的分割效果, 本文采用3個評價指標, 即分割準確率Acc、 靈敏度Sen和AUC. 計算公式如下:
Acc=(TP+TN)/(TP+TN+FP+FN),
(4)
Sen=TP/(TP+FN),
(5)
其中TP表示真陽率, TN表示真陰率, FP表示假陽率, FN表示假陰率. AUC表示ROC曲線下的區(qū)域, 用于衡量分割性能, 其取值范圍為0~1, AUC值越大說明分割性能越好.
將本文實驗結果與文獻[8]和文獻[14]在測試數(shù)據(jù)集(520張圖片)上的結果進行對比, 表1列出了不同方法下的各評價指標值. 由表1可見, 本文方法的Acc,Sen,AUC評價指標結果分別為0.949,0.835,0.980, 均優(yōu)于其他方法. 圖3為本文方法所得的ROC曲線. 圖4為不同方法對ISIC2018數(shù)據(jù)集上不同皮膚鏡下4張圖片的分割結果. 由圖4可見, 在不同背景環(huán)境和不同大小皮膚病變區(qū)域的分割中, 本文方法的分割效果優(yōu)于U-Net網絡方法.
圖3 本文方法在ISIC數(shù)據(jù)集上的ROC曲線Fig.3 ROC curve of proposed method on ISIC dataset
圖4 不同方法對ISIC2018數(shù)據(jù)集上4張圖片的分割結果Fig.4 Segmentation results of four images on ISIC2018 dataset by different methods
表1 不同方法在ISIC2018數(shù)據(jù)集上分割結果的對比Table 1 Comparison of segmentation results of different methods on ISIC2018 dataset
綜上所述, 本文提出的基于U-Net多尺度和多維度特征融合方法將提取的多尺度網絡深層語義特征和維度信息進行融合, 有效解決了U-Net網絡特征編碼模塊在提取語義特征過程中尺度單一和空間上下文信息丟失等問題, 提高了醫(yī)學圖像的分割精度.