佘逸飛,高軍峰,閔祥德,徐勝舟*,盤安思,藍(lán)文威
(1 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 & 湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢 430074;2 中南民族大學(xué) 生物醫(yī)學(xué)工程學(xué)院,武漢 430074;3 華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬同濟(jì)醫(yī)院 影像科,武漢 430030)
目前,根據(jù)相關(guān)資料顯示,我國(guó)食道癌的患病率常年位于世界前列.國(guó)內(nèi)外專家也針對(duì)食道癌做了相關(guān)的研究.早些年前,薛東軍[1]等人提出了一種基于PC機(jī)的早期食管癌細(xì)胞自動(dòng)識(shí)別分類系統(tǒng),該系統(tǒng)利用傳統(tǒng)方法對(duì)食管癌細(xì)胞圖像預(yù)處理,圖像分割,以及特征提取等操作,得出癌變的相關(guān)信息,由醫(yī)生綜合這些信息對(duì)病人進(jìn)行診斷.后來(lái),SOMMEN F V D等人[2]提出了食道癌檢測(cè)的計(jì)算機(jī)輔助診斷系統(tǒng)(Computer Aided Diagnosis,CAD),其利用基于Gabor濾波的食管內(nèi)窺鏡圖像計(jì)算局部顏色以及紋理特征,同時(shí)利用訓(xùn)練好的支持向量機(jī)(Support Vector Machine,SVM)分類器對(duì)其特征進(jìn)行分類,查全率和查準(zhǔn)率分別為95%及75%.SCHOON E J等人[3]提出了檢測(cè)早期食管內(nèi)窺鏡圖像的CAD系統(tǒng),該系統(tǒng)采用特定紋理,彩色濾鏡,及機(jī)器學(xué)習(xí)技術(shù)在44例食管癌患者的100幅食管內(nèi)窺鏡圖像中的敏感性和特異性分別達(dá)到0.86和0.87.以上文獻(xiàn)中食管癌CAD系統(tǒng)主要為針對(duì)食管癌細(xì)胞圖像和食管內(nèi)窺鏡圖像的研究.目前國(guó)內(nèi)外還未見基于鋇餐造影圖像的食道癌檢測(cè)系統(tǒng)的相關(guān)研究,鋇餐造影圖像是指患者吞食糊狀硫酸鋇后,通過(guò)鋇劑經(jīng)食道到達(dá)胃,十二指腸部位的顯影過(guò)程來(lái)進(jìn)行診斷.鋇餐造影能很好地顯示病變部位,黏膜改變及癌瘤長(zhǎng)度.既可以對(duì)病變進(jìn)行定位又可以定性[4].在實(shí)際的臨床研究中X線鋇餐和CT檢查各有優(yōu)勢(shì),兩者結(jié)合有利于食管癌診斷及指導(dǎo)臨床治療[5].
近年來(lái),機(jī)器學(xué)習(xí)和人工智能的興起促進(jìn)計(jì)算機(jī)視覺(jué)得到了進(jìn)一步的發(fā)展.在目標(biāo)的分類、檢測(cè)和分割等任務(wù)上取得和人類相當(dāng)甚至是超過(guò)人類的性能水平.現(xiàn)階段計(jì)算機(jī)視覺(jué)已經(jīng)成熟應(yīng)用于醫(yī)學(xué)圖像處理[6]、文檔分析[7]、軍事領(lǐng)域[8]、無(wú)人駕駛[9]等熱門領(lǐng)域.在2014年GIRSHICK R等人提出了基于感興趣區(qū)域(Region of Interest,ROI)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)相結(jié)合的目標(biāo)檢測(cè)算法R-CNN[10].該算法是基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法的開篇大作,也激發(fā)了更多優(yōu)秀的學(xué)者對(duì)目標(biāo)檢測(cè)算法的研究興趣.R-CNN首先從輸入圖像中篩選出2000個(gè)包含可疑目標(biāo)的候選區(qū)域,然后將這2000個(gè)候選區(qū)域送入CNN模型中得到特征向量,這些特征向量作為SVM和邊框回歸模型的輸入,經(jīng)過(guò)SVM得到ROI屬于某類對(duì)象的概率,經(jīng)過(guò)邊框回歸模型得到待檢測(cè)目標(biāo)的坐標(biāo)位置.雖然R-CNN實(shí)現(xiàn)了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,但在ROI的特征向量提取過(guò)程中,無(wú)法實(shí)現(xiàn)卷積層的參數(shù)共享.2015年GIRSHICK R受SPP-NET[11]啟發(fā)提出了基于ROI的深度學(xué)習(xí)目標(biāo)檢測(cè)算法Fast R-CNN[12],該算法首次提出了ROI pooling層,使得用于ROI特征向量提取的卷積層實(shí)現(xiàn)了參數(shù)共享,也將分類和回歸任務(wù)同時(shí)加入了網(wǎng)絡(luò).但它的缺點(diǎn)是在ROI的提取中仍然用的是Selective Seacrh算法,該算法是在CPU上運(yùn)行的,存在運(yùn)行速度慢等問(wèn)題.2016年任少卿等人采用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)進(jìn)行ROI的提取,提出了目標(biāo)檢測(cè)算法Faster R-CNN[13].至此目標(biāo)檢測(cè)的3個(gè)基本步驟:提取原始圖片中的ROI、ROI特征提取、ROI分類及邊框回歸全部被統(tǒng)一到同一個(gè)深度網(wǎng)絡(luò)框架中,真正地實(shí)現(xiàn)了目標(biāo)檢測(cè)任務(wù)端到端的學(xué)習(xí).因此,F(xiàn)aster R-CNN一經(jīng)提出,便在醫(yī)學(xué)圖像檢測(cè)問(wèn)題上表現(xiàn)出相對(duì)其他網(wǎng)絡(luò)的明顯優(yōu)勢(shì).
本文將食道癌患者病例作為實(shí)驗(yàn)數(shù)據(jù)集,利用Faster R-CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,為進(jìn)一步提升檢測(cè)性能,本文創(chuàng)新性地將卷積注意力模塊[14](Convolutional Block Attention Module,CBAM)融入Faster R-CNN的backbone網(wǎng)絡(luò)中.評(píng)測(cè)結(jié)果表明本文方法明顯優(yōu)于Faster R-CNN原網(wǎng)絡(luò).
從本質(zhì)上來(lái)講,食道癌檢測(cè)算法主要分為兩個(gè)步驟,第一步是進(jìn)行ROI的提取,第二步是對(duì)提取的ROI進(jìn)行目標(biāo)分類以及邊框回歸.本文所用的食道癌病灶區(qū)域檢測(cè)算法CBAM Faster R-CNN是通過(guò)在Faster R-CNN網(wǎng)絡(luò)的基礎(chǔ)上引入CBAM模塊而形成的,該算法流程如圖1所示.首先將鋇餐造影圖像輸入至引入CBAM模塊的backbone(VGG16[15])網(wǎng)絡(luò),得到一系列特征圖,再由RPN網(wǎng)絡(luò)生成候選區(qū)域Proposals,由特征圖獲取這些Proposals對(duì)應(yīng)的特征向量,最后將這些向量輸入至ROI pooling層,完成目標(biāo)分類以及邊框回歸操作.最后得到的是候選區(qū)域檢測(cè)框以及該檢測(cè)框?yàn)槟繕?biāo)類別的概率.
圖1 CBAM Faster R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of CBAM Faster R-CNN
CBAM Faster R-CNN算法模型主要由三部分組成,分別是引入CBAM模塊的backbone網(wǎng)絡(luò),RPN網(wǎng)絡(luò)和ROI Pooing層.CBAM backbone網(wǎng)絡(luò)是由一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)注意力模塊即CBAM,卷積層以及池化層構(gòu)成.CBAM結(jié)合了通道(Channel)注意力機(jī)制以及空間(Spatial)注意力機(jī)制,通過(guò)引入注意力機(jī)制可以使輸出信息更聚焦于更關(guān)鍵更有用的信息,減弱甚至消除無(wú)關(guān)信息的干擾,從而達(dá)到提高模型準(zhǔn)確率的目的.
圖2 通道注意力模塊Fig.2 Channel attention module
空間注意力模塊如圖3所示,空間注意力模塊的輸入為F與Mc的乘積即通道注意力特征圖Fc,首先對(duì)Fc分別采用基于Fc通道的平均池化操作和最大池化操作,再將平均池化結(jié)果AvgPoolc與最大池化結(jié)果MaxPoolc進(jìn)行Concat操作,得到的結(jié)果與1個(gè)7×7大小,個(gè)數(shù)為1的卷積核進(jìn)行卷積操作并使用Sigmoid激活函數(shù),最終得到空間注意力圖Ms.
圖3 空間注意力模塊Fig.3 Spatial attention module
CBAM模塊則結(jié)合了通道注意力機(jī)制以及空間注意力機(jī)制,整個(gè)模塊如圖4所示.首先將特征圖F輸入至通道注意力模塊得到通道注意力圖Mc,再將F與Mc的乘積即通道注意力特征圖Fc輸入至空間注意力模塊得到空間注意力圖Ms,最后將通道注意力特征圖Fc與空間注意力圖Ms的乘積作為CBAM模塊的輸出,即優(yōu)化后的特征圖F′.且其高度、寬度和通道數(shù)均與輸入F相同,分別為H,W,C.
圖4 CBAM模塊Fig.4 CBAM module
本文將CBAM模塊加入至Faster R-CNN的backbone網(wǎng)絡(luò)層(圖5)中并嘗試了7種不同的添加方式,再將經(jīng)CBAM模塊加強(qiáng)后的特征圖輸入至后續(xù)RPN層及ROI pooling層.在卷積神經(jīng)網(wǎng)絡(luò)的初始階段,卷積提取的特征為一些通用特征,直接運(yùn)用模型在自然數(shù)據(jù)集上預(yù)訓(xùn)練參數(shù)即可獲得很好的效果,所以將CBAM模塊加在前面這些Block中是次優(yōu)的,極大地增加了計(jì)算量,同時(shí)模型的效果不會(huì)有太大提升.在后續(xù)的Block中,卷積提取的特征為語(yǔ)義信息更為豐富的全局特征,所以更希望模型注意到這些重要的特征,同時(shí)這些特征的提取往往更復(fù)雜,所以綜合以上情況,僅考慮在Block3,Block4,Block5中添加CBAM模塊,并嘗試了共7種實(shí)驗(yàn)方案,分別在Block3后加入,Block4后加入,Block5后加入,Block3、Block4后分別加入,Block3、Block5后分別加入,Block4、Block5后分別加入以及Block3、Block4和Block5后分別加入.
圖5 Faster R-CNN backbone網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Faster R-CNN backbone structure
CBAM Faster R-CNN中的RPN網(wǎng)絡(luò)主要用于生成Proposals.其中關(guān)于ROI區(qū)域的生成主要用到了“anchor”的思想,所謂的“anchor”實(shí)際上就由CBAM backbone網(wǎng)絡(luò)得到的特征圖通過(guò)3×3的卷積后,將卷積后的結(jié)果中每一個(gè)像素點(diǎn)通過(guò)一定比例映射至原圖,并通過(guò)3種不同的長(zhǎng)寬比以及3種不同的矩形區(qū)域面積生成共計(jì)9種不同的ROI;然后將這些ROI區(qū)域進(jìn)行一定的篩選,最后選取128個(gè)正樣本,128個(gè)負(fù)樣本分為兩路送入訓(xùn)練,一路是基于候選框前景背景的二分類問(wèn)題;一路是基于候選框的初步回歸問(wèn)題,此回歸僅涉及判定為前景的候選框.經(jīng)過(guò)RPN層最終得到了以原圖為基準(zhǔn)的不同大小的Proposals,同時(shí)將這些不同大小的Proposals映射到特征圖中的對(duì)應(yīng)區(qū)域得到其特征向量.然后將這些特征向量送至ROI pooling層,將這些特征向量水平分為7×7的網(wǎng)格.對(duì)網(wǎng)格的每一份都進(jìn)行Max pooling處理.這樣處理后,即使大小不同的Proposals輸出結(jié)果都是7×7固定大小,實(shí)現(xiàn)了固定長(zhǎng)度輸出.最后將這些Proposals特征向量送入終端網(wǎng)絡(luò)中,通過(guò)全連接層和Softmax層計(jì)算每個(gè)Proposal是否屬于病灶區(qū)域,輸出類別預(yù)測(cè)概率向量;同時(shí)再次利用邊框回歸獲得每個(gè)Proposal的位置偏移量,用于回歸更加精確的食道癌病灶區(qū)域.
本文中所有的實(shí)驗(yàn)數(shù)據(jù)均來(lái)自于華中科技大學(xué)同濟(jì)醫(yī)院消化科提供的數(shù)據(jù)資源.具有豐富臨床經(jīng)驗(yàn)的放射科醫(yī)師們從近五年中的大量病例中選取了具有代表性的200個(gè)食道癌患者病例.根據(jù)患者檢查時(shí)體位的不同,每個(gè)病例分為了若干個(gè)體位,每個(gè)體位包含若干鋇餐造影圖像,圖像格式為JPG格式,分辨率大小為1024×1024像素,位深度為24位.數(shù)據(jù)集分布如表1所示.
表1 數(shù)據(jù)分布詳情Tab.1 Data distribution details
為增強(qiáng)模型對(duì)目標(biāo)區(qū)域亮度值偏高或偏低的樣本的檢測(cè)能力,本文首先對(duì)訓(xùn)練集中病灶區(qū)域亮度值偏高或偏低的數(shù)量偏小的困難樣本實(shí)施仿射變換(如圖6所示).將仿射變換后的困難樣本與原訓(xùn)練集合并構(gòu)成新的訓(xùn)練集,再對(duì)新的訓(xùn)練集采用水平翻轉(zhuǎn),垂直翻轉(zhuǎn)的增強(qiáng)策略.對(duì)于普通樣本,通過(guò)這些增強(qiáng)策略后的樣本數(shù)是原樣本數(shù)的3倍.對(duì)于數(shù)量偏小的困難樣本,通過(guò)這些增強(qiáng)策略后的樣本數(shù)是原樣本數(shù)的7倍.
圖6 困難樣本數(shù)據(jù)增強(qiáng)Fig.6 Data augmentation of hard examples
本實(shí)驗(yàn)對(duì)測(cè)試集40個(gè)病例共計(jì)1166張圖片進(jìn)行了評(píng)測(cè),對(duì)于每一張圖片,將測(cè)試結(jié)果矩形框與其金標(biāo)準(zhǔn)矩形框進(jìn)行IOU(Intersection over Union)計(jì)算,其中IOU的定義如下:
(1)
其中Area(a)代表金標(biāo)準(zhǔn)矩形框面積,Area(b)代表預(yù)測(cè)矩形框面積.若兩者IOU比例大于等于TP閾值,則認(rèn)為該模型成功預(yù)測(cè)出該張圖片的病灶區(qū)域,F(xiàn)P(真陽(yáng)性數(shù))加一;反之則未能預(yù)測(cè)出該張圖片的病灶區(qū)域,F(xiàn)P(假陽(yáng)性數(shù))加一.并根據(jù)TP,FN,PF計(jì)算出Recall,Precision,AP.Recall也稱召回率,表示在所有食道癌患者樣本中有多少食道癌患者樣本被預(yù)測(cè)正確,Recall值越高也表明模型的漏檢率越低.Precision又稱精確率,表示在所有預(yù)測(cè)結(jié)果中有多少食道癌患者樣本被預(yù)測(cè)正確,Precision值越高也表明模型的誤檢率越低.AP則是由橫坐標(biāo)Recall、縱坐標(biāo)Precision兩個(gè)維度下圍成的PR曲線下面積,AP的值越大說(shuō)明檢測(cè)模型的綜合性能越好.Recall,Precision的計(jì)算公式如下:
(2)
(3)
本文的CBAM Faster R-CNN模型是在Windows平臺(tái)上利用TensorFlow1.13實(shí)現(xiàn)的,在訓(xùn)練過(guò)程中,動(dòng)量值、初始學(xué)習(xí)率、權(quán)重衰減和最大迭代次數(shù)分別設(shè)置為0.9,0.001,0.0005和70000.為了全面評(píng)估算法性能,模型改進(jìn)前后實(shí)驗(yàn)均在數(shù)據(jù)增強(qiáng)后的訓(xùn)練樣本上進(jìn)行訓(xùn)練,并且在相同的測(cè)試樣本上進(jìn)行測(cè)試.對(duì)比原始Faster R-CNN算法,改進(jìn)后的模型的Recall,Precision,AP指標(biāo)均有明顯提升.
目前國(guó)內(nèi)外還未見基于鋇餐造影圖像的食道癌檢測(cè)系統(tǒng)的相關(guān)研究,本文算法主要對(duì)比原Faster R-CNN算法.圖7展示了本文的食道癌檢測(cè)算法在2張食道癌鋇餐造影圖像上的檢測(cè)結(jié)果.其中藍(lán)色線條代表放射科醫(yī)師圈畫的食道癌病灶輪廓,即金標(biāo)準(zhǔn)區(qū)域,綠色線條則是檢測(cè)算法得到的檢測(cè)結(jié)果.從檢測(cè)結(jié)果中可以看出本文算法更接近醫(yī)師的金標(biāo)準(zhǔn).
圖7 食道癌圖像檢測(cè)結(jié)果Fig.7 Esophageal cancer image detection results
本文采用了如1.4所述的數(shù)據(jù)增強(qiáng)方式,針對(duì)困難樣本和普通樣本進(jìn)行不同數(shù)量的增強(qiáng),圖8描述了數(shù)據(jù)增強(qiáng)前后模型AP值隨IOU的變化曲線圖.由圖8可觀察出,針對(duì)IOU閾值處于0.1~0.5時(shí),即檢測(cè)條件更加寬松,在訓(xùn)練集數(shù)據(jù)增強(qiáng)后,模型的AP值較未增強(qiáng)提高了1.26%~5.61%,但在IOU閾值處于大于0.5的范圍時(shí),即檢測(cè)條件更加嚴(yán)格,在訓(xùn)練集數(shù)據(jù)增強(qiáng)后,模型的Recall,Precision,AP值都較原始訓(xùn)練集有所降低.考慮到實(shí)際的項(xiàng)目需求,本實(shí)驗(yàn)主要為醫(yī)生提供輔助診斷,因此主要考慮小IOU閾值時(shí)模型的檢測(cè)能力.
圖8 數(shù)據(jù)增強(qiáng)前后AP值對(duì)比Fig.8 Comparison of AP before and after data augmentation
本文采用如表2第1列所示的7種方式將CBAM融入backbone網(wǎng)絡(luò)中,即分別在圖5所示的Block3、 Block4、 Block5、 Block3和Block4、 Block3和Block5、 Block4和Block5層,以及Block3、 Block4和Block5層后分別加入.表2描述了在各個(gè)IOU閾值下,模型改進(jìn)前后對(duì)模型Recall,Precision,AP值的影響,表中一列則代表某一固定閾值,其中Recall,Precision,AP值在該閾值下最高的已用加粗字體標(biāo)出.由表2可觀察到,同樣在數(shù)據(jù)增強(qiáng)后的訓(xùn)練集上訓(xùn)練,在各IOU閾值情況下,模型改進(jìn)后的Recall、Precision、AP值較原模型都有較大提升,其中AP值提高了0.1%~5%,即CBAM Faster R-CNN的病灶區(qū)域檢測(cè)矩形框整體上更接近醫(yī)生圈畫的金標(biāo)準(zhǔn)且假陽(yáng)性更少.為結(jié)合臨床實(shí)際需求,本實(shí)驗(yàn)主要考慮IOU閾值為0.3時(shí)模型的檢測(cè)能力,此時(shí)AP值最高的改進(jìn)模型為Block5后加入CBAM模塊的CBAM Faster R-CNN模型.相較于Faster R-CNN模型,Recall值提升了1.54%,Precision值提升了3.39%,AP值提高了3.73.
表2 模型改進(jìn)前后食道癌檢測(cè)結(jié)果對(duì)比
為分析實(shí)驗(yàn)結(jié)果,本文打印了經(jīng)原Faster R-CNN backbone網(wǎng)絡(luò)后得到的特征圖和原Faster R-CNN經(jīng)CBAM模塊(Block5)增強(qiáng)后的backbone網(wǎng)絡(luò)得到的特征圖,并從512張?zhí)卣鲌D中隨機(jī)抽取3張如圖9中2、3列所示,圖9描述了原Faster R-CNN backbone網(wǎng)絡(luò)生成的特征圖與原Faster R-CNN經(jīng)CBAM模塊(Block5)增強(qiáng)后的backbone網(wǎng)絡(luò)得到的特征圖的差異.由圖9的第1行的2、3列對(duì)比可知,經(jīng)過(guò)CBAM模塊后,冗余信息得到了一定的抑制,從而減少了假陽(yáng)性數(shù)量.由圖9的第2、3行的2、3列對(duì)比可知,經(jīng)過(guò)CBAM模塊后,模型增強(qiáng)了食管區(qū)域的特征顯著性,從而增加了真陽(yáng)性數(shù)量.
圖9 特征圖對(duì)比Fig.9 Comparison of feature maps
為了提高食道癌病灶區(qū)域檢測(cè)能力,本文在原Faster R-CNN模型的backbone網(wǎng)絡(luò)中添加CBAM模塊,對(duì)訓(xùn)練集中的困難樣本與普通樣本采取不同倍數(shù)的數(shù)據(jù)增強(qiáng),以提高模型對(duì)食道癌病灶區(qū)域亮度值偏高或偏低的病灶區(qū)域檢測(cè)能力.實(shí)驗(yàn)結(jié)果表明,在進(jìn)行數(shù)據(jù)增強(qiáng)后,針對(duì)IOU閾值小于0.5時(shí),模型的AP值較未增強(qiáng)提高了1.26%~5.61%.在模型改進(jìn)后,在各個(gè)IOU閾值上,模型的AP值較原始模型提高了0.1%~5.0%.以上實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的CBAM Faster R-CNN的食道癌病灶檢測(cè)效果相較于Faster R-CNN算法有明顯提升.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期