高書陽
(湖北方源東力電力科學研究有限公司,湖北 武漢 430000)
在胎兒的醫(yī)療診斷過程中,準確地識別胎盤圖像中胎兒位置對評價胎兒和母親的健康狀況很重要?,F(xiàn)有的方法主要是借助超聲波掃描儀獲得胎盤圖像,再由專業(yè)的超聲波圖像解析人員識別出胎兒位置并采集各項數(shù)據(jù)(例如:頭圍、腹部寬度等),由于解析人員的專業(yè)知識和長時間的識別疲勞,導致胎兒位置的識別結果在不同的觀察者那里會存在很大的差異;超聲波解析人員在采集各項數(shù)據(jù)時,主要使用卡尺作為測量工具,卡尺的放置位置會對測量結果產(chǎn)生很大的誤差。
傳統(tǒng)的圖像分割方法,包括閾值法、邊緣法和區(qū)域法等,這些都沒有考慮像素之間的相關性,分割的效果不理想。基于圖論的分割方法是將圖像中的每個像素點看成圖的頂點,像素點之間的關系看作圖的邊,像素之間的相關性看作邊的權值,建立一個關于邊的能量函數(shù),通過最小化能量函數(shù)實現(xiàn)對圖像的分割;基于能量泛函的分割方法是利用類間方差或像素間梯度構造能量泛函,求解泛函極值時圖像的分割狀態(tài)。近年來,卷積神經(jīng)網(wǎng)絡以其超強的特征提取能力被廣泛地應用于圖像檢測和分割領域。圖像分割主要分為語義分割和實例分割,語義分割是區(qū)分圖像中不同物體類的分割,它不需要區(qū)分圖像中某個物體類的不同個體,從早期的全卷積網(wǎng)絡(Fully Convolutional Networks,FCN)[1]、U-Net[2],發(fā)展到現(xiàn)在的金字塔場景分析網(wǎng)絡(Pyramid Scene Parsing Network,PSPNet)[3]、DeepLab[4]等,這些都是單階段直接預測掩碼。實例分割需要分清圖像中每個類的不同個體,代表性是Mask Rcnn[5]網(wǎng)絡,它的特點是需要在檢測出目標的基礎上對目標掩碼進行預測,能夠提高分割的精確性。而注意力機制方法,可以是網(wǎng)絡更關注感興趣區(qū)域,得模型能夠關注圖像中的重點信息。[6]
由于傳統(tǒng)方法無法區(qū)分目標與背景邊界的問題,同時考慮到胎盤圖像背景的復雜性,本文提出了一種基于注意機制的深度卷積神經(jīng)網(wǎng)絡的圖像分割方法,可以有效的解決胎盤圖像分割問題??偟膩碚f,本文主要貢獻點可以歸納如下:
1.本文采用先定位后分割的方法,構建類別預測和檢測框回歸模塊粗定位出目標的區(qū)域,在定位區(qū)域里進行胎盤分割,提升了分割精度,同時也降低了分割難度。
2.本文為了將關注點放在目標區(qū)域的有效位置,提出了基于注意力機制的掩碼預測分支細定位目標的位置,可以使網(wǎng)絡關注有效特征信息。
3.本文在公開的數(shù)據(jù)集上,進行大量實驗本文提出方法的有效性,并與當前主流的六種圖像分割方法進行對比,結果表明,無論在視覺感知還是三個量化指標上,均優(yōu)于其他方法。
2.1.1 FCN
FCN 主要由提取高層語義的下采樣層和預測掩碼的上采樣層組成。其基本結構如圖1 所示,輸入通過多層的卷積層和池化層下采樣得到通道數(shù)為256的卷積特征圖,再將該特征圖通過三個全連接層得到通道數(shù)為2的高層語義特征,最后將該特征通過多層的反卷積層上采樣得到預測的掩碼。其中,在下采樣的過程中,最后三層的特征圖將被保留并添加到上采樣層相對應的尺寸輸出中。
圖1 FCN 結構圖
2.1.2 U-Net
U-Net 一種U 型網(wǎng)絡,是一種編碼和解碼結構,考慮了不同分辨率的圖像特征,將圖像的高分辨率和低分辨率特征結合,編碼層是學習圖像的初級特征,解碼層是將圖像高層語義特征與初級相結合來還原細節(jié)信息,并且逐步還原圖像精度。
2.1.3 PSPNet
PSPNet 在FCN的基礎上加入了金字塔池化模塊,取出FCN 網(wǎng)絡下采樣過程中得到的高層語義特征圖F,將F 經(jīng)過金字塔池化模塊中四種不同尺度的池化層下采樣得到{P1,P2,P3,P4},此下采樣方式考慮到了不同尺度的特征,減少了信息的丟失,再將P1 到P4 經(jīng)過上采樣后得到的特征圖與F 合并,最后通過反卷積上采樣預測掩碼,結構圖見圖2。
圖2 PSPNet 結構圖
2.1.4 DeepLab
Deeplab 引入了空洞卷積,在傳統(tǒng)卷積的基礎上加入了卷積空洞,相同參數(shù)的條件下極大地提高了卷積的感受野。DeepLab 在特征池化時引入了空洞空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP)[7]模塊,能夠在高層特征層中極大效率的利用圖像的全局特征。在主干特征提取網(wǎng)絡方面,DeepLab 采用了Xception 結構,它采用深度可分離卷積,能夠在網(wǎng)絡參數(shù)量保持基本不變的情況下帶來很好的特征提取效果。
從注意力機制的可微分性來看,注意力機制大體可以分為軟注意力機制和硬注意力機制。
2.2.1 軟注意力機制
在圖像處理領域,軟注意力機制關注圖像的特征區(qū)域和特征通道,可以通過網(wǎng)絡的自身學習來生成,并添加到原始特征上,使得模型能夠關注圖像中的重點信息。由于它是可微分的,所以在神經(jīng)網(wǎng)絡的學習過程中可以計算出梯度,并且前向傳播和反向傳播反饋來學習得到注意力的權重。
2.2.2 硬注意力機制
硬注意力機制更關注于圖像中的目標點或區(qū)域,它通過學習一個定位物體部分的網(wǎng)絡,通過神經(jīng)網(wǎng)絡強大的學習能力首先定位出物體的大致位置,提取定位后的區(qū)域特征,再將該特征用于下一步的任務,如果該特征對整體任務有促進作用,該特征區(qū)域在后續(xù)的學習過程中將會被更加關注。
本文提出了基于注意機制的深度卷積神經(jīng)網(wǎng)絡胎盤圖像分割方法,將注意力機制與Mask RCNN 結合,采用先定位后分割,使網(wǎng)絡更關注感興趣信息,能夠有效的提高分割的準確性(本文的總體網(wǎng)絡結構如圖3 所示)。
圖3 總體結構圖
本文采用檢測定位加上分割的方法分割目標區(qū)域,首先檢測出目標的大體區(qū)域,然后在目標區(qū)域內(nèi)分割目標。
3.1.1 檢測定位
取出ROIAlign 后的特征圖F1,經(jīng)過全局平均池化后得到的特征向量F2 送入類別預測和檢測框回歸分支,其中:
Meank*k表示在k*k的區(qū)域內(nèi)求平均,F(xiàn)1的每個通道求平均得到F2,輸出的維度是1*1*1024。
式中,wi和wj分別為類別預測分支和檢測框回歸分支到F2的連接權值,bi和bj為相對應的偏置。
3.1.2 目標分割
將ROIAlign 得到的特征圖F1經(jīng)過若干個注意力機制模塊后得到F3,其中:
式中,Atten 表示若干個注意力機制模塊。
帶有注意力的特征圖F3經(jīng)過反卷積上采樣得到預測的掩碼,反卷積的步長為2,其中:
式中,?表示反卷積操作,f 為激活函數(shù),wi 為第i 個卷積核,bi 表示偏置。
由于胎盤圖像具有重影、目標模糊的特點,且胎盤圖像中背景和其他物體會干擾胎兒目標的分割,因此,本文采用自注意力機制將模型的關注區(qū)域放在胎兒目標上,其結構如圖4 所示。
儒家追求盡心而成性,進而到達圣人之境,最終擁有理想的人格?!笆ト恕笔冀K是儒家所求的理想人格的代稱,由此,儒家認可的理想人格最直接的標準就是圣人所代表的概念。而胡宏對此的理解,不僅對許多先賢大儒的眾多理論予以了承繼,而且還進行了積極的探究,進而使其提出的圣人理論極具個人特色。
圖4 注意力機制結構圖
首先將輸入的特征圖F4經(jīng)過一維卷積運算得到特征圖H,其中:
式中,?表示卷積操作,f 為激活函數(shù),W1*1表示一維卷積核的權值,b1*1表示一維卷積核的偏置。
再將特征圖F4分別經(jīng)過兩次下采樣(DS)和兩次上采樣(US)得到注意力圖,其中:
其 中,wk(k=f、g、p、Am)和bk(k=f、g、p、Am)分別表示生成特征圖F、G、P 和注意力圖時卷積核的權值和偏置。
最后將注意力圖和特征圖點乘得到帶有注意力機制的特征圖Afm,其中:
本文采用先檢測定位后分割目標的方法,共有三個損失函數(shù),分別是將背景和目標區(qū)分開的分類損失函數(shù)Lcls、回歸目標檢測框坐標的L2損失函數(shù)Lbox和預測目標掩碼的二值交叉熵損失函數(shù)Lmask,由于預測目標掩碼任務的難度最大,回歸目標檢測框坐標任務次之,本文構建式*所示的損失函數(shù)。
本文選用三種評價指標,分別是Dice、BF scores 和Hausdorff,Dice的計算公式:
式中,pred和gt分別表示預測結果和標簽,common(pred,gt)表示預測結果和標簽的相同部分,length 表示計算長度。
BF scores的計算公式為:
式中,precision 表示預測結果的精確度,recall 表示預測結果的召回率。
Hausdorff的計算公式為:
其中h(Pred,Gt)和h(Gt,Pred)分別表示Pred 到Gt 和Gt 到Pred的Hausdorff 距離,計算公式見式*和*:
其中max(p ∈Pred)min(g ∈Gt)||p-g||表示取出Pred 中的每個點p,求出Gt 中距離點p 最近的點g,取所有||p-g||的最大值作為h(Pred,Gt),h(Gt,Pred)同理可得。
本次實驗中,數(shù)據(jù)集來自https://hc18.grand-challenge.org 公開的胎盤數(shù)據(jù)集,該數(shù)據(jù)集一共有999 張圖像,每張圖像對應一張標簽圖像,標簽圖像的內(nèi)容是一個形狀為橢圓的曲線,曲線部分為白色,其他部分為黑色。以1:9的比例將數(shù)據(jù)集劃分為899 張圖像的訓練集和100 張圖像的測試集。從100 張測試集圖像的實驗結果中隨機挑選出4組圖像,驗證本文提出方法的有效性。
本文實驗基于深度學習框架Tensorflow 在一臺NVIDIA GeForce GTXGTX1080Ti GPU的計算機上進行訓練和測試。
在訓練階段,采用大小為256×256的圖像的進行訓練,每次迭代輸入4 張圖像。網(wǎng)絡通過Adam 來更新網(wǎng)絡參數(shù),RMSprop 具體參數(shù)為:權值超參數(shù),初始學習速率設置為0.001,網(wǎng)絡每層卷積采用He K 均勻分布初始化方法,偏置為0,總訓練Epoch 為15,前10 個Epoch的學習率為10-4,后5 個Epoch的學習率為10-6。
為了衡量本文算法的性能,本文選取在測試集上實施了大量實驗,并與當前主流的六種圖像分割算法進行實驗對比,分別為PSPNet、DeeplabV3、DeeplabV3+、U-Net、注意力機制U-Net、Mask-Rcnn。同時采用三個量化指標來客觀定量的平均圖形分割結果。
視覺感知。為了更好衡量評估本文算法胎盤圖像分割的視覺效果,本文選取了四幅圖像來展示分割效果。
圖5 中:測試集隨機挑選出四組圖像的二值圖預測結果:(a)原始圖像、(b)標簽二值圖、(c)PSPNet、(d)DeeplabV3、(e)DeeplabV3+、(f)Unet、(g)Unetattention、(h)Maskrcnn、(i)Maskrcnn-attention。
圖5
圖6 中:測試集中隨機挑選出四組圖像及預測結果輪廓圖:(a)原始圖像、(b)標簽二值圖、(c)PSPNet、(d)DeeplabV3、(e)DeeplabV3+、(f)Unet、(g)Unet-attention、(h)Maskrcnn、(i)Maskrcnn-attention。
圖6
隨機從測試集中挑選出4 組圖像,從圖5 和6 可以看出,PSPNet的預測效果最差,DeeplabV3 和DeeplabV3+次之,Unet 和Unet-attention 對胎盤圖像具有良好的預測能力,加上Attention 機制的Mask rcnn的預測效果與掩碼標簽是最為接近的。
為了驗證模型的有效性,統(tǒng)計七種方法下,測試集上的Dice 系數(shù)、BF scores 和Hausdorff,如上表1 所示。
表1 七種方法下測試集Dice、BF scores 和Hausdorff的比較
Dice 系數(shù)越大表示預測結果和標簽之間的重疊部分占比越大,BF_scores 值越大,表示預測結果的輪廓與標簽之間越相似。
從測試集中隨機挑選出10 組圖像統(tǒng)計Dice、BF scores 和Hausdorff 指標(如圖7 所示),可以看出Mask rcnn-attention的分割結果具有最高的Dice、BF scores 和Hausdorff,能夠非常精確地對圖像中的目標進行分割。Unet-attention、Unet、Mask rcnn、DeeplabV3、DeeplabV3+和PSPNet 等方法的評價指標均沒有Mask rcnn-attention 高。
圖7
圖7
考慮到模型預測的時效性,本文將以上七種方法分別統(tǒng)計了單張圖像的模型推斷耗時,如上表2 所示。
表2 七種方法下單張圖像模型推斷耗時(T)的比較(單位:秒)
可以看出,Attention-MaskRcnn 由于模型更為復雜導致推斷耗時最長,但也是毫秒級別,整體而言影響不大。
本文提出的基于注意力機制的深度卷積神經(jīng)網(wǎng)絡包括兩個部分:(1)在深度神經(jīng)網(wǎng)絡特征提取器后加上類別預測和檢測框回歸模塊,粗定位出目標的位置;(2)在粗定位的位置上加上帶有注意力機制的掩碼預測模塊預測掩碼。由于本方法是針對胎兒頭部位置的兩階段定位分割,與其他的單階段直接預測掩碼相比,本方法能夠更為精確的定位出胎兒頭部位置并預測掩碼。多組實驗結果均表明,本方法與其他分割性能優(yōu)越的Unet、Unet-attention、DeeplabV3 和DeeplabV3+相比,分割效果整體更好。