農(nóng)桂仙 潘 寧 陸 恒 胡懷飛 劉海華*
1(中南民族大學生物醫(yī)學工程學院,武漢 430074)
2(醫(yī)學信息分析及腫瘤診療重點實驗室,武漢 430074)
3(東部戰(zhàn)區(qū)總醫(yī)院消化內(nèi)科, 南京 210002)
消化道疾病,特別是下消化道疾病,由于早期癥狀不明顯,且缺乏普適的檢測手段,對公眾健康造成極大威脅。無線膠囊內(nèi)窺鏡(wireless capsule endoscopy, WCE)的出現(xiàn),為腸道疾病可視化診斷提供了有力的工具[1-3]。由于利用WCE 檢測會產(chǎn)生大量的圖像(每病例約5 ~8 萬幅),因此,為了提高疾病診斷效率,很多學者提出基于人工智能的計算機輔助診斷方法[4-8]。而這些建議的方法大多忽視了圖像序列中氣泡和雜質(zhì)等干擾圖像對疾病診斷的影響。據(jù)統(tǒng)計,每例WCE 圖像中,氣泡和雜質(zhì)等干擾圖像約占總量的25%[9],而具有組織異常病變的圖像僅占5%左右[10],這給基于人工智能的疾病診斷帶來極大困擾。因此,開展對WCE 圖像序列中干擾性圖像(氣泡和雜質(zhì)圖像,其它圖像稱為正常圖像)自動篩查方法的研究,有利于提高臨床上計算機輔助診斷的性能和效率。
針對干擾性圖像篩查,已有學者提出了一些方法[9,11-15]。如,Shipra 等[11]提出在HSV 顏色空間下,利用Canny 算法和分水嶺算法對圖像進行分割,并以邊緣像素總數(shù)與最終的區(qū)域像素總數(shù)的比例確定該區(qū)域是否為氣泡。這些方法主要根據(jù)氣泡的顏色和紋理特征,通過設置相關閾值,對圖像中的氣泡進行分割和檢測。這種基于傳統(tǒng)特征的氣泡圖像檢測方法通常不穩(wěn)定且普適性較差,誤檢和漏檢的可能性較大。另外,對于WCE 雜質(zhì)圖像的自動檢測方法目前很少有報道。因此提出了基于深度學習的WCE 特征提取,并結(jié)合主題模型,對氣泡和雜質(zhì)圖像自動篩查的方法。
WCE 圖像序列中氣泡和雜質(zhì)等干擾圖像,主要是指在圖像中氣泡和雜質(zhì)占據(jù)圖像較大面積的圖像(見圖1),其語義信息非常明顯。因此,通過語義分析獲取氣泡和雜質(zhì)圖像語義特征,從而實現(xiàn)對氣泡和雜質(zhì)圖像自動篩查。目前,語義分析方法被大量用于自然圖像分類中[16-20]。其中,主題模型是一種用于語義分析的工具[21],目前最常用的主題模型有基于貝葉斯估計的pLSA[22]和LDA[23]?;诖?,一些學者將主題模型應用于WCE 圖像序列的分割[24-25],以獲取膠囊內(nèi)鏡圖像序列中不同部位的關鍵幀。此外,Yuan 等[26]基于顏色和紋理描述符,通過pLSA 模型對WCE 圖像中的多種異常進行分類。然而,基于人工設計的傳統(tǒng)特征描述算子往往不能有效描述WCE 圖像。為此,提出通過卷積自編碼的方法獲取圖像特征,并利用pLSA 模型對WCE 圖像序列中氣泡和雜質(zhì)等干擾圖像篩查的方法。
圖1 膠囊內(nèi)鏡序列圖像。(a)氣泡圖像;(b)雜質(zhì)圖像Fig.1 Wireless capsule endoscopy sequence images.(a)Bubble images; (b)Impurity images
本研究提出一種基于主題模型的WCE 圖像語義分析算法,從而篩查WCE 圖像序列中的氣泡和雜質(zhì)圖像。該算法主要分為3 個部分:視覺單詞構(gòu)建、詞頻統(tǒng)計和主題分析,如圖2 所示。首先,視覺單詞的構(gòu)建。在訓練集的每幅圖像中隨機提取一定數(shù)量的圖像塊(patch),通過卷積自編碼器提取圖像塊特征,利用K-Means 算法對圖像塊特征進行聚類,從而構(gòu)建視覺單詞。其次,詞頻統(tǒng)計。從測試集中每幅圖像有規(guī)律地獲取圖像塊,并提取圖像塊特征,然后根據(jù)圖像塊的特征,判斷其與視覺單詞的距離,以最小距離將圖像塊特征劃入某一類視覺單詞中,從而得到測試集的各幅圖像中的視覺單詞分布。最后,利用主題模型(pLSA/LDA),對測試集的詞匯分布數(shù)據(jù)進行擬合,獲得每幅圖像中各個主題的概率分布,以圖像中最高概率主題對圖像進行分類,從而篩查WCE 圖像序列中的氣泡和雜質(zhì)圖像。
圖2 膠囊內(nèi)鏡圖像場景分析算法Fig.2 The scene analysis algorithm of capsule endoscopy images
卷積自編碼器的結(jié)構(gòu)和傳統(tǒng)自編碼器相似[27-28],包括一個編碼器和一個解碼器。對于輸入x,傳統(tǒng)自編碼器可以通過編碼函數(shù)f(x) 得到編碼數(shù)據(jù)h,解碼器通過解碼函數(shù)g(h) 將編碼數(shù)據(jù)h重構(gòu)輸出y。而卷積自編碼器是采用卷積層代替?zhèn)鹘y(tǒng)自編碼器的全連接層,即將權(quán)重矩陣與輸入、輸出的內(nèi)積變成了卷積操作,其編碼和解碼的函數(shù)表達式分別由式(1)和式(2)定義,有
式中,σe和σd分別表示為編碼器和解碼器的激活函數(shù);We和Wd為權(quán)重矩陣;b1和b2為偏置項; *為卷積操作。根據(jù)任務和所需要達到的目標,卷積自編碼器會自動學習訓練樣本的特征,將WCE 圖像塊實現(xiàn)在低維空間上的特征表達,其結(jié)構(gòu)如圖3所示。圖中卷積自編碼器網(wǎng)絡由一個編碼器和一個解碼器組成,為非完全對稱的結(jié)構(gòu),其編碼器和解碼器中的卷積層數(shù)量、通道數(shù)存在差異。編碼器第一層采用一層標準3×3 卷積,輸入為3 通道的RGB 圖像,輸出通道為64。然后,借鑒VGG16 的結(jié)構(gòu),構(gòu)建2+3+3 的卷積模塊(2、3 表示該模塊的卷積層數(shù)量),每個模塊后接一個下采樣操作,將特征圖尺寸減半。編碼器總共包含3 次下采樣操作,最終將圖像塊尺寸壓縮到原始圖像塊的1/23。最后,使用一層卷積將通道數(shù)壓縮為16。
圖3 卷積自編碼器網(wǎng)絡Fig.3 Convolutional auto-encoder networks
為了提高網(wǎng)絡編碼部分的能力,編碼部分采用復雜結(jié)構(gòu),但解碼部分采用簡單結(jié)構(gòu),即在每個相同的特征圖尺寸下的模塊結(jié)構(gòu)均只包括卷積層、激活層和上采樣層,經(jīng)過3 層上采樣將壓縮圖像重構(gòu)輸出到原始圖像塊大小。卷積自編碼器在訓練過程中,完全對稱結(jié)構(gòu)主要實現(xiàn)從數(shù)據(jù)輸入到輸出的重構(gòu),主要關注編碼能力和解碼能力。而在此主要關注網(wǎng)絡的編碼能力,復雜的編碼結(jié)構(gòu)可以學習到圖像更深層次的特征,通過簡單的解碼結(jié)構(gòu)有助于編碼部分生成更具有代表性和魯棒性的特征。
在訓練階段,將膠囊內(nèi)鏡圖像塊輸入圖3 的卷積自編碼網(wǎng)絡中,目標函數(shù)采用L1(平均絕對誤差)損失,有
式中,Xi、Yi分別表示網(wǎng)絡的第i個圖像塊輸入和輸出?!ぁ?表示L1范數(shù)。網(wǎng)絡訓練時采用Adam優(yōu)化器[29],其中一階矩和二階矩指數(shù)衰減率設置為β1=0.9,β2=0.999,數(shù)值穩(wěn)定常數(shù)ε=10-8。
為了后續(xù)構(gòu)建視覺單詞,將編碼器提取的圖像特征進行矢量化。假設編碼器獲取的特征圖尺寸為W ×H ×c,這里W和H為壓縮后的圖像塊大小,c為通道數(shù)。將這些特征圖展平,形成長度為W × H×c的一維特征矢量,用于下一步的構(gòu)建視覺單詞和詞頻統(tǒng)計。
由于所獲取的圖像塊的特征不能直接作為視覺詞匯使用,因此需要根據(jù)圖像塊特征矢量之間的相似度,將相似的圖像塊特征進行聚類,從而用有限類的特征表達一定的視覺含義,即構(gòu)建視覺單詞。設包含了雜質(zhì)、氣泡和正常圖像在特征空間的樣本特征集為X ={x1,x2,x3,…,xn},利用K-Means聚類算法[30],將樣本劃分為C1,C2,…,Cm, 共m類。為了簡單起見,將每類Cj在特征空間中的均值矢量作為視覺單詞wj,有
式中,Nj為Cj中特征矢量xi的個數(shù)。因此,在圖像特征空間中構(gòu)造了由m視覺單詞組成的字典。
視覺單詞模型主要用于構(gòu)建表達這類圖像所需的詞匯。而對于這類圖像的每張需要測試的圖像而言,就需要分析其包含不同視覺單詞的情況,其分析步驟如圖2(b)所示。首先從測試圖像分割大小相同的圖像塊(尺寸與上述視覺單詞構(gòu)建的塊大小一致),然后由卷積自編碼網(wǎng)絡獲取圖像塊的特征矢量。設每幅測試圖像提取的圖像塊特征矢量為y1,y2,…,yp,其中p為圖像塊數(shù)量,且為常數(shù)。然后,計算每個特征矢量yi與每個視覺單詞之間的距離,即計算wj與yi的歐式距離EDij,有
在此基礎上,根據(jù)距離最近原則標注不同特征矢量隸屬于不同的視覺單詞,即
為此,可獲得每幅圖像d中圖像塊特征所屬不同視覺單詞wj的分布情況,即詞頻統(tǒng)計矢量v∈Rm,其中每個元素為圖像d中視覺單詞wj出現(xiàn)的頻數(shù)n(d,wj) 。設圖像測試集由l幅圖像構(gòu)成,即D ={d1,d2,d3,…,dl},則所有測試圖像詞頻統(tǒng)計情況構(gòu)成混合矩陣Λ ={v1,v2,…,vl}∈Rl×m,其中該矩陣每列就是每幅圖像詞頻矢量v, 矩陣中每個元素Λij =n(di,wj) 為圖像di中出現(xiàn)wj的頻數(shù)。
根據(jù)圖像視覺詞匯分布矩陣,采用pLSA 主題分析模型檢測WCE 序列中氣泡和雜質(zhì)圖像。假設膠囊內(nèi)鏡圖像的語義對應于模型中的潛在變量z∈Z{z1,z2,…,zk},為不可觀測變量;所給的WCE 序列圖像d∈D{d1,d2,…,dl} 對應模型中的文檔,文檔中所包含的詞匯對應于所構(gòu)建的視覺單詞w∈W{w1,w2,…,wm},D和W為可觀測變量。通過構(gòu)建視覺單詞和詞頻統(tǒng)計(詳見1.2 節(jié)),將測試集表達為元素為Λij =n(di,wj) 的矩陣。由此,可以通過圖像和單詞的聯(lián)合概率分布對圖像主題混合概率p(di |zk) 和各個場景主題下的視覺單詞分布p(wj |zk) 進行擬合估計,pLSA 的聯(lián)合概率分布為
式中,p(z) 為先驗值,通常將其設置為p(z)=1/k,可以使用期望最大(expectation-maximization, EM)算法對模型參數(shù)進行估計[21]。
首先,計算期望步驟,即E步,計算潛在變量的后驗概率p(zk |di,wj),需要初始化模型參數(shù)p(di |zk) 和p(wj |zk),并計算期望函數(shù)L的值。其中,后驗概率計算公式為
然后,最大化步驟,即M步,通過最大化期望函數(shù)L來更新后驗概率p(di |zk) 和p(wj |zk),參數(shù)更新結(jié)果的好壞在一定程度上依賴于參數(shù)初始化,L函數(shù)為
研究中給定圖像的主題數(shù)k,通過圖像-視覺單詞的混合矩陣擬合出圖像主題概率p(di |zk),以最高主題概率對WCE 圖像進行分類。
1.4.1 數(shù)據(jù)來源
所使用的WCE 圖像來源于南京東部戰(zhàn)區(qū)總醫(yī)院的消化道內(nèi)科,且圖像數(shù)據(jù)集中的氣泡圖像、雜質(zhì)圖像由臨床經(jīng)驗豐富的醫(yī)生進行注解。該圖像數(shù)據(jù)集由10 000幅240 像素×240 像素的圖像組成,且來自于20 例不同患者的WCE 圖像序列,其中氣泡圖像,雜質(zhì)圖像和正常圖像分別為3 340、3 330、3 330 幅。在實驗過程中,將數(shù)據(jù)集中的各類圖像按照1 ∶1的比例分為訓練集和測試集,且根據(jù)交叉驗證的方法評估所提出方案的篩查效果。
1.4.2 評價指標
為了從數(shù)據(jù)集中篩查雜質(zhì)和氣泡兩類圖像,主要使用準確率( Acc)、誤檢率( Mis)、查準率( Pre)和召回率( Rec) 來評價所用方法的性能,即:
式中,TP 表示正樣本被正確識別為正樣本數(shù), TN表示負樣本被正確識別為負樣本數(shù), FP 表示負樣本錯誤識別為正樣本數(shù), FN 表示正樣本被錯誤識別為負樣本數(shù)。
在所提出的篩選方法中涉及到多個參數(shù),如圖像塊尺寸、視覺詞匯(單詞)數(shù)以及主題數(shù)3 個參數(shù)等,這些參數(shù)設置會影響最終的分類結(jié)果。為此,依據(jù)WCE 圖像的紋理特點,通過實驗分析來選擇合適的相關參數(shù)值。需要注意的是,在實驗分析某個參數(shù)時,其它參數(shù)保持不變。
1)圖像塊大?。河捎跉馀莺碗s質(zhì)圖像語義上非常明顯,結(jié)合所采用的卷積自編碼器的特點,因此圖像塊尺寸選取稍大且為8 的倍數(shù),如: 24×24,32×32,40×40,48×48,56×56。實驗采用卷積自編碼器提取特征,在pLSA 模型上進行分類,視覺單詞數(shù)和主題數(shù)分別為35 和12,實驗結(jié)果如圖4 所示。從圖4 中可以看到,當圖像塊尺寸增大時,pLSA 取得的分類性能越好,但當圖像塊尺寸大于40×40 時,分類性能呈下降趨勢。其中,圖像塊尺寸為56×56 時,模型分類結(jié)果略小于圖像塊尺寸為40×40 的結(jié)果,而圖像塊尺寸越大,計算量越大。因此,在后續(xù)的實驗中,圖像塊尺寸固定為40×40。
圖4 不同圖像塊尺寸的實驗結(jié)果Fig.4 The results of different image patch sizes
2)視覺詞匯數(shù)和主題數(shù):采用卷積自編碼器和傳統(tǒng)的特征提取方法,分別在不同視覺詞匯數(shù)以及不同主題數(shù)的條件下進行實驗,其中,傳統(tǒng)的特征提取方法包含LBP、HOG、SIFT 以及HSV 顏色空間,實驗結(jié)果如圖5 和圖6 所示。圖5 為主題數(shù)為12的情況下,pLSA 模型在不同視覺單詞數(shù)下的氣泡圖像、雜質(zhì)圖像和正常圖像的分類結(jié)果。從圖中可以看出,卷積自編碼器(C-AE)的特征提取方法在不同的視覺單詞數(shù)下所獲得的分類性能最優(yōu),且在單詞數(shù)為35 時分類準確率( Acc)最高。
圖5 不同視覺詞匯大小對分類準確率的影響(pLSA 模型)Fig.5 The effect of different visual vocabulary sizes on classification accuracy(pLSA)
針對不同的主題模型:pLSA 和LDA,固定視覺單詞數(shù)為35,選擇最佳的主題數(shù)。從圖6 可以看出,當兩者主題數(shù)分別為12 和18 時,分類準確率最高,當兩者的主題數(shù)分別大于12 和18 時,準確率呈小幅度下降趨勢。根據(jù)上述實驗,將視覺單詞數(shù)設置為35,pLSA 模型和LDA 模型的主題數(shù)分別設置為12 和18。
圖6 不同模型中,不同主題數(shù)對分類準確率的影響。(a)pLSA 主題模型;(b)LDA 主題模型Fig.6 The effect of different number of topics on classification accuracy. (a) pLSA; (b) LDA
采用2.1 節(jié)的參數(shù)設置,即視覺單詞數(shù)為35,pLSA 主題數(shù)為12,LDA 主題數(shù)為18,對數(shù)據(jù)集進行10 次隨機劃分,進行氣泡和雜質(zhì)圖像的篩查實驗與分析,實驗結(jié)果取10 次劃分的均值。
首先,針對不同特征提取方法,即HSV、HOG、LBP、灰度SIFT 和卷積自編碼器,對分類結(jié)果的影響進行實驗,結(jié)果如表1 所示。從表1 可以看出,無論是pLSA 還是LDA 模型,卷積自編碼器特征提取方法較傳統(tǒng)特征提取方法所取得干擾圖像篩查性能高,即較高準確率、較高的查準率和較低誤檢率。雖然HOG 特征提取方法,特別是RGBHOG 也能獲取比較好的查準率和誤檢率,但如表2 所示,卷積自編碼器的召回率( Rec)更高。
表1 pLSA 和LDA 中不同特征提取方法的分類結(jié)果(%)Tab.1 The results of different feature extraction methods in pLSA and LDA (%)
表2 C-AE 和RGBHOG 的召回率(%)對比Tab. 2 The comparison results ( Rec/% ) of C-AE and RGBHOG
其次,針對不同主題模型的性能也進行了實驗評估。將pLSA、LDA 與傳統(tǒng)的截斷奇異值分解(TSVD)進行對比,在相同特征提取方式(C-AE)和實驗參數(shù)設置(視覺單詞數(shù)為35,主題數(shù)為12)的情況下,實驗結(jié)果如表3 所示。從表中可以觀察到,相較于傳統(tǒng)TSVD 分析方法,pLSA 和LDA 更適用于圖像語義分析。而在這兩個主題模型中,當處于pLSA 最佳主題數(shù)時,LDA 的準確率僅次于pLSA。為了進一步討論這兩個模型的性能,在相同實驗參數(shù)設置下,將主題數(shù)設置為LDA 的最佳主題數(shù),即18,分別進行實驗,實驗結(jié)果如表4 所示,由表4 可見,在LDA 模型取得最好分類效果的主題數(shù)下,pLSA 模型取得了較好的分類性能。由此可見,pLSA 模型更適用于的分類任務。
表3 不同主題模型的分類結(jié)果Tab.3 The results of different topic models
表4 pLSA 和LDA 的分類結(jié)果Tab.4 The results of pLSA and LDA
針對WCE 圖像過多,影響疾病診斷效率,大多方法只是針對疾病進行區(qū)域檢測,如文獻[7]和[8],這些方法忽略了干擾圖像對疾病檢測的干擾。當氣泡和雜質(zhì)占圖像四分之一以上時,會對疾病診斷造成很大干擾。參考Sivic 等[16]提出將主題模型用于WCE 圖像語義分析,利用圖像語義篩查WCE 圖像中的干擾數(shù)據(jù)。在文獻[16]中,以自然場景圖像的尺度不變換特征構(gòu)建視覺單詞,由于膠囊內(nèi)鏡場景復雜,傳統(tǒng)特征不穩(wěn)定,可能會導致視覺單詞無法充分表達圖像內(nèi)容,影響圖像語義分析。因此,采用卷積自編碼器提取WCE 圖像塊特征來構(gòu)建視覺詞匯,通過主題模型獲取圖像語義概率,根據(jù)語義概率分布來篩查WCE 圖像的干擾數(shù)據(jù)。大量實驗證明,通過非對稱卷積自編碼和主題模型對膠囊內(nèi)鏡圖像語義進行分析,能有效篩查出膠囊內(nèi)鏡干擾數(shù)據(jù),且獲得比傳統(tǒng)特征更好的分類性能。
在建議的氣泡和雜質(zhì)圖像檢測方法中,視覺單詞是語義特征的集合,通過這些視覺單詞可實現(xiàn)對圖像內(nèi)容的表達,從而使主題模型易于分析出圖像語義。由此可見視覺單詞的構(gòu)建直接影響分類結(jié)果。然而,影響視覺單詞構(gòu)建的因素很多,主要包括兩個方面:圖像塊尺寸和圖像塊特征。從圖像塊尺寸角度來看,塊尺寸過小,則局部特征表達不充分;反之,塊尺寸過大,局部特征抽象,細節(jié)不明顯,依然會造成局部特征表達不充分,影響視覺單詞構(gòu)建的質(zhì)量,從而影響分類性能。這一點可以從圖4的實驗結(jié)果中看出。在3 個評價指標上,分類性能隨著圖像塊尺寸的增加整體呈現(xiàn)先上升后下降的趨勢,且當塊尺寸為40×40 時,分類性能最優(yōu)。
從圖像塊特征角度來看,穩(wěn)定、魯棒的特征能構(gòu)建具有代表性的視覺單詞。因此,特征提取方式尤為重要。在特征提取方式的選取上,如表1 的實驗結(jié)果所示,相較于HSV、GrayHOG、RGBHOG、LBP、GraySIFT 等傳統(tǒng)特征提取方法,通過卷積自編碼器網(wǎng)絡提取的特征獲得更好的分類效果和穩(wěn)定的分類性能,在pLSA 模型上,其準確率和查準率分別最大可提升2.5 倍和1.8 倍、誤檢率最小可降低11.5 倍(較于GraySIFT)。而在自然圖像場景語義分類任務中取得較好結(jié)果的SIFT 特征在本研究中效果不理想,反之,HOG 特征在研究中體現(xiàn)出了具有競爭力的分類性能,但準確率較低,漏檢較多。其原因可能是卷積自編碼器通過深度學習方式獲得的特征更具普適性,有利于視覺單詞構(gòu)建。HOG方式雖然可以獲得豐富的圖像特征,但同時也包含了不必要的信息,導致構(gòu)建出的視覺單詞不足以表達圖像語義信息。
不同的主題模型也影響分類結(jié)果。針對pLSA[22]、LDA[23]和TSVD 等3 種主題模型,在3 種指標,即準確率、查準率、誤檢率上,pLSA 均獲得最優(yōu)的性能表現(xiàn),特別是其誤檢率低2 ~4 倍(相較于LDA 和TSVD)。篩查氣泡和雜質(zhì)時,相較于LDA模型,pLSA 模型取得較高的精度和較低的誤檢率,分別為96.87%、5.63%。然而,在分類過程中,分類結(jié)果會隨著詞匯數(shù)產(chǎn)生較大波動性??赡艿脑蚴牵浩湟唬跇?gòu)建視覺單詞時,Kmeans 聚類算法實際應用中屬于半監(jiān)督算法,需要人為指定聚類個數(shù),帶有一定的主觀性;其二,主題模型的分析結(jié)果也依賴于模型參數(shù)初始化。后續(xù)的研究中將重點構(gòu)建穩(wěn)定準確的視覺單詞模型以及解決主題模型初始化問題,以提高膠囊內(nèi)鏡冗余數(shù)據(jù)篩查準確率,降低詞匯大小對分類結(jié)果的影響。
針對WCE 序列中干擾圖像比較多,語義明顯以及傳統(tǒng)篩選方法普適性較差的問題,提出基于主題模型的WCE 圖像語義分析方法,用于干擾圖像篩查。該方法首先通過卷積自編碼器獲取WCE 圖像局部特征,然后利用K-means 聚類算法對局部特征矢量進行聚類,從而構(gòu)建視覺單詞,并以此獲取圖像的詞頻矩陣,最后通過主題模型對詞頻矩陣進行主題分析,獲取圖像的語義分類。研究結(jié)果表明,該方法能有效篩查WCE 干擾圖像,且通過卷積自編碼器可以更有效地獲取WCE 圖像局部特征,提高圖像篩查性能。在后續(xù)的研究中,將結(jié)合深度學習和語義分析的方法,從而進一步提升算法篩查性能。