王 孟 張大斌 魏曉雍 張 暉 劉杰民
1(貴州大學(xué)機(jī)械工程學(xué)院 貴州 貴陽 550001)
2(貴州銀行博士后流動(dòng)站 貴州 貴陽 550001)
3(貴州省人民醫(yī)院 貴州 貴陽 550001)
社會(huì)的快節(jié)奏發(fā)展下,人們?nèi)粘I铒嬍撤浅2灰?guī)律和不健康,導(dǎo)致消化道疾病患病率長(zhǎng)期以來居高不下。我國(guó)現(xiàn)已成為胃病大國(guó)[1-3],每年新增胃癌50萬例以上。傳統(tǒng)消化道檢測(cè)手段,如鋇餐造影、胃鏡和血清篩查等,存在輻射高、敏感度低和舒適性差等缺點(diǎn)。膠囊內(nèi)鏡(WCE)體積小且具備無線傳輸功能,能夠通過腸胃蠕動(dòng)實(shí)現(xiàn)整個(gè)消化道的拍攝,且患者無任何不適,因而得以應(yīng)用。但每個(gè)患者所拍攝的圖片多達(dá)5萬幅,嚴(yán)重降低了醫(yī)生審閱的效率,使其不能推廣使用。
目前,不乏對(duì)WCE計(jì)算機(jī)輔助診斷的研究。傳統(tǒng)機(jī)器視覺領(lǐng)域,研究者針對(duì)有差別的病灶分別設(shè)計(jì)了個(gè)性化特征檢測(cè)算法。文獻(xiàn)[4]利用局部二值模式和拉普拉斯金字塔進(jìn)行潰瘍多尺度特征提取,結(jié)合SVM分類器實(shí)現(xiàn)了95.11%的識(shí)別準(zhǔn)確率。文獻(xiàn)[5]丟棄了WCE亮度信息,借助SVM和多層感知器對(duì)顏色通道特征分類,并實(shí)現(xiàn)了小腸腫瘤全自動(dòng)分割,該算法比小波和小曲率變換速度快了25倍。文獻(xiàn)[6]對(duì)圍繞單個(gè)像素的塊定義了索引值,從索引值的直方圖中提取顏色和紋理特征,結(jié)合主成分分析法檢測(cè)消化道出血,準(zhǔn)確率高達(dá)97.85%。深度學(xué)習(xí)領(lǐng)域的WCE診斷中,研究者通常采用經(jīng)典神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)。文獻(xiàn)[7]采用預(yù)訓(xùn)練的Alex Net訓(xùn)練上萬幅WCE圖片,檢測(cè)潰瘍和糜爛的準(zhǔn)確率為95.16%和95.34%。文獻(xiàn)[8]使用大型非醫(yī)療圖像數(shù)據(jù)庫對(duì)ResYOLO目標(biāo)檢測(cè)算法進(jìn)行預(yù)訓(xùn)練,之后用結(jié)腸鏡圖像對(duì)參數(shù)微調(diào),結(jié)合ECO跟蹤器來整合WCE時(shí)間信息,對(duì)息肉檢測(cè)準(zhǔn)確率達(dá)到88.6%。也有將傳統(tǒng)機(jī)器視覺和深度學(xué)習(xí)相結(jié)合的研究者。文獻(xiàn)[9]提出一種WCE圖像異常的自動(dòng)檢測(cè)和定位方法,首先使用預(yù)訓(xùn)練的弱監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)劃分WCE為異常與正常,再利用顯著性檢測(cè)算法檢測(cè)興趣點(diǎn),最后通過迭代聚類統(tǒng)一算法定位異常病灶,實(shí)驗(yàn)準(zhǔn)確率高達(dá)96%。上述基于傳統(tǒng)機(jī)器視覺的識(shí)別算法需要針對(duì)不同病灶設(shè)計(jì)不同算法,基于遷移學(xué)習(xí)的模型存在預(yù)訓(xùn)練數(shù)據(jù)與樣本數(shù)據(jù)差異大的問題,傳統(tǒng)機(jī)器視覺與深度學(xué)習(xí)結(jié)合的方法使得算法結(jié)構(gòu)復(fù)雜,不能廣泛使用。
因此,本文提出了基于神經(jīng)網(wǎng)絡(luò)與特征融合的膠囊內(nèi)鏡圖像識(shí)別模型。本模型借助卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)圖像特征的特點(diǎn),分別提取WCE顏色、形狀和紋理特征,再通過Bagging算法進(jìn)行特征融合。本模型是首次將卷積特征提取與Bagging特征融合相結(jié)合的模型,并采用了分離輸入并訓(xùn)練的模式,替代了傳統(tǒng)RGB通道訓(xùn)練,實(shí)現(xiàn)了一種對(duì)WCE圖像識(shí)別具有通用性、結(jié)構(gòu)簡(jiǎn)單、可應(yīng)用于實(shí)際的醫(yī)療輔助診斷模型。
膠囊內(nèi)鏡圖像的位深度為24,水平和垂直分辨率均為96 dpi,為醫(yī)生診斷提供了豐富信息。醫(yī)生利用顏色、形狀和紋理特征對(duì)WCE進(jìn)行診斷。因此,分別進(jìn)行G分量提取、Log變換、直方圖均衡化,以突出WCE顏色、形狀及紋理特征,削弱特征間相互影響,從而利用卷積神經(jīng)網(wǎng)絡(luò)分別提取WCE顏色、形狀和紋理特征,再進(jìn)行特征融合識(shí)別。
RGB圖像由紅色像素分量(R)、綠色像素分量(G)和藍(lán)色像素分量(B)通過矩陣疊加形式組成。膠囊內(nèi)鏡拍攝對(duì)象為整個(gè)消化道,顏色呈淺紅色至深紅色。內(nèi)鏡下,Z線處食管白色黏膜與紅色胃黏膜交匯邊界清晰,染色增強(qiáng)的息肉與常規(guī)組織存在明顯顏色差異,潰瘍表面被白色纖維蛋白覆蓋。為分析WCE顏色通道間的差異,統(tǒng)計(jì)50幅息肉和潰瘍病灶圖R、G、B通道顏色值的均值和標(biāo)準(zhǔn)差,見表1。
表1 息肉與潰瘍病灶圖RGB通道評(píng)價(jià)
表1中,兩種疾病顏色均值的差值大小為G>R>B, 說明G通道灰度值分布差異比R和B通道大,G通道顏色分布信息更為豐富。標(biāo)準(zhǔn)差的差值大小為B>G>R,即B和G通道包含的顏色細(xì)節(jié)信息比R通道豐富。綜合兩個(gè)評(píng)價(jià)指標(biāo),G通道均值與標(biāo)準(zhǔn)差綜合表現(xiàn)強(qiáng)于R和B通道,能夠表征膠囊內(nèi)鏡的顏色信息。因此提取G通道特征作為WCE顏色特征,舍棄B和R通道。
消化道不同器官在形狀上有顯著差異。盲腸與回盲腸相接且有多個(gè)囊袋狀溝壑,幽門呈規(guī)則的圓口或橢圓口狀且內(nèi)有環(huán)向肌肉,食管呈現(xiàn)出深隧道形狀。不同病灶也存在形狀差異,息肉是一種小隆起且呈圓形或橢圓形的肉塊,潰瘍表現(xiàn)為消化道表皮組織平面片狀潰爛或隆起。因此,形狀特征是內(nèi)鏡診斷的重要信息。為了凸顯形狀特征,采用Log變換來減少顏色和紋理信息。Log變換原理如式(1)和圖1所示。
圖1 Log變換原理圖
(1)
式中:x為輸入的灰度值;y為經(jīng)Log變換后得到的輸出灰度值;c為可調(diào)常數(shù)項(xiàng),用以調(diào)整圖像亮度。結(jié)合式(1)和圖1可看出,輸入灰度值大時(shí),函數(shù)斜率小,壓縮了高灰度區(qū)域。相反,灰度值小時(shí),函數(shù)斜率大,暗區(qū)灰度得到提升與擴(kuò)展。從而均衡了圖像顏色和紋理信息,突出局部形狀信息。
取c=10,對(duì)膠囊內(nèi)鏡圖像Log變換。如圖2所示,Log變換提升了內(nèi)壁皺褶處附近的整體亮度,腸道弱光照的延伸部分的亮度也得到了提高,突出了息肉形狀特征。整幅圖的灰度梯度得到平均,大大減少了顏色和紋理對(duì)形狀信息的影響,因此提取Log變換圖像作為WCE形狀特征。
圖2 Log變換前后的息肉圖像
紋理特征也是區(qū)分器官與疾病的信息。食管內(nèi)壁光滑、紋理不明顯,胃呈現(xiàn)出大量較深的褶皺,小腸表面呈絨毛狀。息肉表面紋理與所處器官有關(guān),潰瘍表面有許多因腐敗而產(chǎn)生的小細(xì)紋。提升圖像對(duì)比度能夠有效突出紋理特征。
直方圖均衡化是一種高效的對(duì)比度提升算法。原理如下:
(2)
式中:0≤rk≤1,k=0,1,…,255;Ok為變換后的輸出值;rj為灰度值;Pr(rj)是灰度級(jí)rj的概率密度函數(shù);nj為包含灰度級(jí)rj的數(shù)量;n為圖像總像素量。該變換使用rj的累計(jì)分布函數(shù),生成一幅灰度密度均勻的圖像,增加了灰度動(dòng)態(tài)分布范圍。對(duì)膠囊內(nèi)鏡圖像進(jìn)行直方圖均衡化處理,如圖3(b)所示。原始圖像3(a)中息肉的灰度值得到提高,周圍組織的灰度值降低,提高了WCE的對(duì)比度,息肉輪廓的梯度得到加強(qiáng)。因此提取直方圖均衡化圖特征作為WCE紋理特征。
圖3 直方圖均衡化前后的息肉圖像
特征提取是圖像識(shí)別的重要研究?jī)?nèi)容,傳統(tǒng)算法中效果較好的特征提取算法有針對(duì)邊緣檢測(cè)的Canny算法、輪廓檢測(cè)的Douglas-Peucker算法、直線和圓檢測(cè)的Hough算法以及斑點(diǎn)檢測(cè)的SIFT算法等。卷積神經(jīng)網(wǎng)絡(luò)是一種能自學(xué)習(xí)核參數(shù)的濾波器,在特征提取過程中,能夠自動(dòng)提取圖像的深層特征,如紋理、形狀和顏色。它大大減少了傳統(tǒng)特征提取過程的算法設(shè)計(jì)和參數(shù)設(shè)計(jì)。因此,本文對(duì)預(yù)處理過后的三種WCE圖像分別應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),能夠自動(dòng)提取WCE顏色、形狀和紋理特征,避免了為不同病灶的不同特征設(shè)計(jì)專用的特征提取器。之后采用Bagging進(jìn)行特征融合,比Softmax分類器更充分地融合高層次圖像特征,也更快地使網(wǎng)絡(luò)收斂。
本文使用來自Vestre Viken公司公開的Kvasir數(shù)據(jù)集[10],包含來自胃腸道(GI)的膠囊內(nèi)鏡圖像的數(shù)據(jù)集。數(shù)據(jù)集分為8類,按0~7排序,共8 000幅圖。即具有解剖標(biāo)志的Z線、幽門和盲腸,為醫(yī)生判斷圖像所處消化道位置提供了導(dǎo)航;具有臨床意義的食管炎、息肉和潰瘍性結(jié)腸炎,屬于消化道常見疾病;此外,還有對(duì)病灶醫(yī)學(xué)處理后的圖像,息肉染色增強(qiáng)和息肉染色邊緣切除。數(shù)據(jù)集分類和標(biāo)注工作由專業(yè)醫(yī)生完成,每個(gè)類包含1 000幅圖,均采用JPEG壓縮編碼。
調(diào)整數(shù)據(jù)集圖像大小為224×224,同一幅圖分別進(jìn)行G通道分離、Log變換以及直方圖均衡化。將三者分別輸入到具有相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。設(shè)計(jì)模型如圖4所示。
圖4 神經(jīng)網(wǎng)絡(luò)特征融合模型
將具有特征提取功能的卷積核和神經(jīng)網(wǎng)絡(luò)結(jié)合,能夠自動(dòng)提取圖像特征。VGG網(wǎng)絡(luò)[11]中采用2個(gè)3×3卷積代替5×5卷積,3個(gè)3×3卷積代替7×7卷積,實(shí)現(xiàn)了相同卷積視野的情況下大大減少參數(shù)量。借鑒該小卷積核實(shí)現(xiàn)大視野的特點(diǎn),本網(wǎng)絡(luò)采用卷積核大小均為3×3,核數(shù)量采用隨層數(shù)遞增方式。針對(duì)本次數(shù)據(jù)量,layer-1、layer-2、layer-3核數(shù)量分別為64、128和128,對(duì)圖像低維度特征進(jìn)行提??;layer-4和layer-5均為256,對(duì)高維度抽象特征進(jìn)行提取。同時(shí),對(duì)每個(gè)卷積層進(jìn)行歸一化(batch normalization),加快模型迭代的收斂速度。
為了充分利用5層卷積層,必須設(shè)計(jì)池化層,以篩選出有效特征以及提升網(wǎng)絡(luò)的訓(xùn)練效率。本文全采用最大池化(max_pool),能有效提取局部最佳特征。前4層卷積均采用3×3 max_pool,對(duì)有效特征進(jìn)行優(yōu)選。為保留高維特征以進(jìn)行特征融合,layer-5采用2×2max_pool,使卷積層輸出結(jié)果滿足一維向量。
Bagging(bootstrap AGGregatING)是基于自助采樣(bootstrap sampling)的經(jīng)典并行式集成學(xué)習(xí)方法。首先,從標(biāo)注好的包含k個(gè)樣本的數(shù)據(jù)集隨機(jī)選取一個(gè)樣本放入采樣集,同時(shí)仍將該樣本放回?cái)?shù)據(jù)集,使其在下次采樣時(shí)仍可能被選中。經(jīng)過k次操作后,產(chǎn)生了包含k個(gè)樣本的采樣集。由此,可以采樣出n個(gè)包含k個(gè)樣本的采樣集,然后對(duì)每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,將這些基學(xué)習(xí)器結(jié)合,通過投票方法來實(shí)現(xiàn)預(yù)測(cè)。當(dāng)分類中出現(xiàn)票數(shù)相同情況,則根據(jù)基學(xué)習(xí)器的投票置信度來確定結(jié)果。
本模型選擇Bagging的原因?yàn)椋?/p>
(1) 相比常用的神經(jīng)網(wǎng)絡(luò)后期特征融合(AFS_NN),該方法經(jīng)過多次采樣,能夠更充分地融合高層次圖像特征,實(shí)現(xiàn)了小數(shù)據(jù)量下更好的預(yù)測(cè)效果。
(2) Bagging能夠協(xié)助神經(jīng)網(wǎng)絡(luò)類基學(xué)習(xí)器早期停止訓(xùn)練,以減少過擬合現(xiàn)象,比Softmax分類器實(shí)現(xiàn)了更快的收斂。
(3) 神經(jīng)網(wǎng)絡(luò)類基學(xué)習(xí)器效果易受樣本擾動(dòng),從方差角度看,Bagging能夠有效降低學(xué)習(xí)器的方差。
1) 訓(xùn)練流程。
(1) 數(shù)據(jù)集劃分:從原始數(shù)據(jù)集中隨機(jī)抽取6 400幅圖作為訓(xùn)練集,其中每一類包含800幅圖;剩余1 600幅作為測(cè)試集,每一類包含200幅圖。
(2) 圖像預(yù)處理:分離出G通道、Log灰度變換和灰度直方圖均衡化。
(3) 特征提取:三者分別輸入到三個(gè)相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),對(duì)每種特征進(jìn)行提取,三個(gè)網(wǎng)絡(luò)相互獨(dú)立。
(4) 特征融合:提取的三種特征共768個(gè)特征值,輸入到一層包含256個(gè)神經(jīng)元的全連接神經(jīng)網(wǎng)絡(luò),再通過Bagging分類器進(jìn)行分類。
(5) 輸出:0~7分別對(duì)應(yīng)了8種分類。
2) 參數(shù)設(shè)置。
(1) 模型訓(xùn)練方法采用RMSProp算法,learning rate=0.001,rho=0.9, decay=0。
(2) layer6設(shè)置dropout=0.5。
(3) batch size=50,epochs=300。
本節(jié)對(duì)提出的模型進(jìn)行大量實(shí)驗(yàn)。實(shí)驗(yàn)在CPU為i7- 7700HQ,GPU為GTX1050,24 GB內(nèi)存電腦上完成。主要從網(wǎng)絡(luò)輸入、網(wǎng)絡(luò)訓(xùn)練、損失函數(shù)、特征融合算法、傳統(tǒng)機(jī)器視覺和深度學(xué)習(xí)等方面進(jìn)行實(shí)驗(yàn)對(duì)比,即本模型與RGB輸入模型的對(duì)比,與不同輸入模態(tài)模型對(duì)比,與不同優(yōu)化器和損失函數(shù)模型對(duì)比,與不同特征融合算法對(duì)比,與傳統(tǒng)圖像識(shí)別和經(jīng)典神經(jīng)網(wǎng)絡(luò)模型對(duì)比。
經(jīng)典神經(jīng)網(wǎng)絡(luò)模型均為RGB輸入模型,將WCE圖像的RGB三通道直接輸入到本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與識(shí)別,不進(jìn)行特征融合。為展示圖像預(yù)處理和特征融合對(duì)WCE識(shí)別的效果,與RGB輸入模型進(jìn)行對(duì)比。圖5展示了模型訓(xùn)練周期情況。圖6展示了模型ROC曲線。
圖5 本文模型與RGB模型準(zhǔn)確率
(a) 本文模型ROC曲線
(b) RGB模型ROC曲線
從圖5可以看出,本文模型和基于本文神經(jīng)網(wǎng)絡(luò)架構(gòu)的傳統(tǒng)RGB模型,迭代周期到40次時(shí)都達(dá)到了穩(wěn)定,且未產(chǎn)生過擬合或欠擬合現(xiàn)象,說明本文設(shè)置的歸一化、dropout和學(xué)習(xí)率等參數(shù)合理,能夠加快模型收斂速度。圖5中,兩模型訓(xùn)練集的準(zhǔn)確率相當(dāng),達(dá)到99.75%。特征融合模型測(cè)試集的準(zhǔn)確率達(dá)到96.89%,比傳統(tǒng)RGB輸入模型高出2.14%,表明預(yù)處理與特征融合明顯提升了神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率。
ROC曲線是衡量模型實(shí)際效果的工具,其原理為:
fpr=fp/(fp+tn)
(3)
tpr=tp/(tp+fn)
(4)
式中:fp和fn表示正常和異常的錯(cuò)誤檢測(cè)數(shù),tp和tn分別表示正常和異常的正確檢測(cè)數(shù)。稱fpr為假正率,tpr為真正率。ROC曲線以fpr為橫坐標(biāo),tpr為縱坐標(biāo)。tpr的提高必定伴隨著fpr的提高,只有當(dāng)tpr高且fpr低時(shí),模型的預(yù)測(cè)效果才好。即ROC曲線越靠近左上角時(shí),模型越好。常用ROC曲線與右側(cè)坐標(biāo)軸圍成的面積(AUC)來衡量ROC,AUC值越接近1,則模型效果越好。
從圖6可以看出,本文模型ROC曲線的平均AUC值達(dá)到了0.99。每一個(gè)類對(duì)應(yīng)的AUC值均不低于0.98,其中盲腸和幽門達(dá)到了1.00,足以應(yīng)用于實(shí)際場(chǎng)景。而RGB輸入模型的AUC均值為0.98,比前者低0.01。各分類的AUC值分布區(qū)間為0.97~1.00,超出本模型0.01,實(shí)際應(yīng)用中出現(xiàn)誤判的概率比本文模型高。說明預(yù)處理與特征融合模型穩(wěn)定性優(yōu)于RGB輸入模型。
表2展示了本文模型和RGB輸入模型預(yù)測(cè)指標(biāo)平均值。其中各指標(biāo)適用于二分類問題,因此對(duì)8類數(shù)據(jù)分別設(shè)計(jì)了對(duì)應(yīng)的二分類場(chǎng)景。如計(jì)算息肉預(yù)測(cè)指標(biāo)時(shí),驗(yàn)證集設(shè)置為150幅息肉圖像和50幅其他分類圖像,并設(shè)置息肉為正樣本,其余為負(fù)樣本。表2統(tǒng)計(jì)了8分類預(yù)測(cè)指標(biāo)的平均值。
表2 本文模型和RGB輸入模型預(yù)測(cè)指標(biāo)平均值
靈敏度衡量了模型對(duì)于正樣本的識(shí)別率,特異度衡量了模型對(duì)負(fù)樣本的識(shí)別率。表2中,本文模型比RGB輸入模型的靈敏度高出5.13%,特異度則高出0.13%,即本文模型對(duì)正樣本的識(shí)別能力顯著強(qiáng)于RGB輸入模型,而對(duì)負(fù)樣本識(shí)別能力則幾乎持平??紤]所設(shè)置的驗(yàn)證集,本文模型的識(shí)別能力明顯強(qiáng)于傳統(tǒng)RGB模型。兩模型損失值均為0.05,更加驗(yàn)證了本文卷積網(wǎng)絡(luò)架構(gòu)的合理性,能夠達(dá)到較好的收斂能力。
幾種指標(biāo)的對(duì)比說明本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)具有優(yōu)秀的收斂能力與穩(wěn)定性。同時(shí),圖像預(yù)處理和特征融合能提供更加準(zhǔn)確的多元特征,比傳統(tǒng)RGB具備更好的識(shí)別效果。
本模型將G通道、Log變換通道和直方圖均衡化通道三個(gè)模態(tài)作為輸入。為驗(yàn)證不同模態(tài)對(duì)模型識(shí)別準(zhǔn)確率的貢獻(xiàn)程度,將R通道、G通道、B通道、Log變換通道和直方圖均衡化通道隨機(jī)組合成3通道,輸入本文模型進(jìn)行訓(xùn)練與識(shí)別。10種輸入組合的平均準(zhǔn)確率如表3所示。其中R、G、B、L和Z分別表示R、G、B、Log變換和直方圖均衡化通道。
表3 不同輸入模態(tài)下本文模型的平均準(zhǔn)確率(%)
表3中對(duì)比R+L+Z、B+L+Z和G+L+Z可知,RGB三種模態(tài)中對(duì)識(shí)別準(zhǔn)確率貢獻(xiàn)最大的是G通道,表明前述對(duì)于G通道包含更多顏色信息的計(jì)算是正確的。對(duì)比R+G+B和R+G+L,驗(yàn)證了Log變換預(yù)處理為卷積操作提供更多圖像細(xì)節(jié),提升圖像識(shí)別能力。對(duì)比R+G+B和R+G+Z知直方圖均衡化預(yù)處理對(duì)圖像識(shí)別效果的提升好于傳統(tǒng)顏色通道B。因此,本文模型均選擇了相同條件下貢獻(xiàn)最大的模態(tài)作為輸入,即G+L+Z,表3也驗(yàn)證了所選模態(tài)達(dá)到了最高準(zhǔn)確率。
為了得到模型最佳的訓(xùn)練效果,本文測(cè)試了三種常用優(yōu)化算法和三種損失函數(shù),即均方根反向傳播算法(RMSprop)、帶動(dòng)量的隨機(jī)梯度下降算法(SGD+Nesterov_Momentum=0.9)和Adagrad,以及均方誤差損失函數(shù)(mean_squared_error)、二元交叉熵?fù)p失函數(shù)(binary_crossentropy)和交叉熵?fù)p失函數(shù)(categorical_crossentropy)。實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同優(yōu)化算法與損失函數(shù)的平均準(zhǔn)確率(%)
表4中,采用二元交叉熵?fù)p失函數(shù)時(shí),三種優(yōu)化算法準(zhǔn)確率均高于96.5%,其中RMSprop達(dá)到96.89%。均方誤差損失函數(shù)下,Adagard準(zhǔn)確率比RMSprop高0.14百分點(diǎn),而帶動(dòng)量的隨機(jī)梯度度下降算法準(zhǔn)確率為41.37%,不足50%,不具備優(yōu)化能力。采用交叉熵?fù)p失函數(shù)時(shí),Adagrad準(zhǔn)確率最高??梢?,二元交叉熵?fù)p失函數(shù)與RMSprop結(jié)合效果最好,后兩個(gè)損失函數(shù)與Adagrad結(jié)合效果最好。因此本文選擇準(zhǔn)確率最高的二元交叉熵?fù)p失函數(shù)和均方根反向傳播算法進(jìn)行訓(xùn)練。
本文模型采用Bagging特征融合算法替代了常規(guī)Softmax分類算法。為了評(píng)估Bagging算法對(duì)特征融合的貢獻(xiàn)程度,將模型中特征融合算法改為Softmax分類器、隨機(jī)森林分類器(RF)、SVM分類器,保持模型其他部分不變,與本文模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表5所示。
表5 不同特征融合算法平均準(zhǔn)確率(%)
表5中,Bagging進(jìn)行了多次采樣操作,以及具備快速收斂能力,因此準(zhǔn)確率比Softmax算法提升了0.45百分點(diǎn)。隨機(jī)森林分類器同樣采用了多次采樣操作,但通過多棵決策樹訓(xùn)練的方式增加了算法復(fù)雜度,對(duì)數(shù)據(jù)量要求較高,準(zhǔn)確率比Bagging低3.81百分點(diǎn)。SVM分類器屬于較低維的線性分類器,而本文Layer6輸出的抽象特征屬于高維特征,因此SVM分類效果較差,只有84.15%,遠(yuǎn)低于Bagging。可見,本文提出的利用卷積網(wǎng)絡(luò)和Bagging特征融合的模型比傳統(tǒng)Softmax等分類器更具優(yōu)勢(shì)。
所提出的模型是將傳統(tǒng)機(jī)器視覺中的圖像預(yù)處理與經(jīng)典神經(jīng)網(wǎng)絡(luò)相結(jié)合,為了展示本文模型的優(yōu)勢(shì),分別與幾種傳統(tǒng)機(jī)器視覺模型和經(jīng)典神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比,結(jié)果如表6所示。
表6 不同模型各分類準(zhǔn)確率比較(%)
(1) ResNet和AlexNet:借助深度神經(jīng)網(wǎng)絡(luò)和百萬訓(xùn)練數(shù)據(jù)量,對(duì)常規(guī)圖像識(shí)別準(zhǔn)確率超過90%。
(2) GIST:基于一維感知(自然、開放、粗糙、膨脹和險(xiǎn)峻)的特征檢測(cè)算子,主要用于空間結(jié)構(gòu)的特征檢測(cè);
(3) SIFT:基于圖像尺度、角度等空間特征不變量的斑點(diǎn)特征檢測(cè)算子,用于局部特征提取。
(4) COLOR:基于k_means聚類出的128個(gè)顏色描述符,進(jìn)行顏色特征提取的算法。
表6中,神經(jīng)網(wǎng)絡(luò)類模型準(zhǔn)確率普遍高于傳統(tǒng)機(jī)器視覺,尤其對(duì)于息肉和潰瘍等病灶的識(shí)別效果顯著好于GIST、SHIFT和COLOR。GIST+SIFT和SIFT+COLOR識(shí)別染色息肉和染色切除的準(zhǔn)確率明顯高于其他分類,對(duì)于包含復(fù)雜特征的息肉、幽門和Z線等識(shí)別較差。可見傳統(tǒng)機(jī)器視覺模型對(duì)于復(fù)雜分類的效果較差。ReNet和AlexNet網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,待訓(xùn)練的參數(shù)量高達(dá)62 M。寶貴的醫(yī)療數(shù)據(jù)只能在預(yù)訓(xùn)練的ResNet和AlexNet網(wǎng)絡(luò)上進(jìn)行微調(diào)。兩者準(zhǔn)確率分別為94.72%和94.84%,高于傳統(tǒng)模型至少10.23百分點(diǎn),但是由于預(yù)訓(xùn)練數(shù)據(jù)和膠囊內(nèi)鏡圖像存在較大差異,兩模型準(zhǔn)確率受到了限制。本文模型參數(shù)量不足2 M,可以直接訓(xùn)練小數(shù)量級(jí)WCE圖像,平均準(zhǔn)確率能達(dá)到96.89%,比其他模型高出2.05百分點(diǎn)以上。其中兩類疾病,息肉和潰瘍性結(jié)腸炎準(zhǔn)確率均高于其他模型1.3百分點(diǎn)以上。表明本文模型對(duì)于復(fù)雜分類和小數(shù)量級(jí)數(shù)據(jù)的訓(xùn)練具有更好的效果。
深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用,可以大大提高醫(yī)生診斷效率。因此,本文構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)與特征融合的膠囊內(nèi)鏡圖像識(shí)別模型。該模型首先通過預(yù)處理獲取顏色、形狀和紋理信息突出的圖像,采用卷積神經(jīng)網(wǎng)絡(luò)分別提取其不同特征,再用Bagging算法對(duì)提取的特征進(jìn)行融合與識(shí)別。同時(shí)設(shè)計(jì)了大量實(shí)驗(yàn)驗(yàn)證該模型。
所用測(cè)試集包含了腸道定位、疾病病灶和疾病醫(yī)學(xué)處理等方面的圖像,使得模型的訓(xùn)練更加符合實(shí)際應(yīng)用場(chǎng)景。尤其對(duì)于息肉病灶的識(shí)別非常重要,近年來針對(duì)WCE定位和潰瘍檢測(cè)的研究較多,準(zhǔn)確率為70.60%~95.61%[12-15],卻少有對(duì)息肉識(shí)別的研究。Zhang等[16]在預(yù)訓(xùn)練250萬個(gè)非醫(yī)學(xué)數(shù)據(jù)集的特征后,實(shí)現(xiàn)了87.3%的息肉識(shí)別準(zhǔn)確率。而本文模型首次嘗試將卷積特征提取與Bagging特征融合相結(jié)合,可直接訓(xùn)練息肉圖像,并達(dá)到了96.42%的準(zhǔn)確率以及0.99的AUC值,遠(yuǎn)高于傳統(tǒng)機(jī)器視覺(SVM、GIST+SIFT等)和現(xiàn)有深度學(xué)習(xí)(RGB模型、ResNet等)識(shí)別準(zhǔn)確率,開創(chuàng)了新的基于深度學(xué)習(xí)的息肉識(shí)別方法。本文的訓(xùn)練集僅包含6 400幅圖像,8分類平均準(zhǔn)確率達(dá)到了96.89%,相同準(zhǔn)確率下數(shù)據(jù)量要求遠(yuǎn)小于其他大型神經(jīng)網(wǎng)絡(luò)??芍獙?duì)圖像進(jìn)行預(yù)處理以突出特征的方法,能夠在小數(shù)據(jù)量情況下實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的良好識(shí)別效果,解決了醫(yī)療領(lǐng)域數(shù)據(jù)寶貴的困境。最后,本文模型在各項(xiàng)指標(biāo)中均取得了良好成績(jī),實(shí)際應(yīng)用中能夠輔助醫(yī)生進(jìn)行疾病診斷。
未來的研究還有幾方面需要完成:
(1) 提高模型的魯棒性。實(shí)際WCE圖像中,光照強(qiáng)度隨鏡頭位置改變而變化,清晰程度也受到聚焦距離影響,腸道清潔程度更加影響病灶識(shí)別。需要針對(duì)上述干擾因素來提高模型的魯棒性。
(2) 提升模型復(fù)雜度。本文模型是基于小數(shù)據(jù)量設(shè)計(jì)的,隨著數(shù)據(jù)量的增加,需要增加神經(jīng)網(wǎng)絡(luò)層數(shù)、增加功能模塊、更加精確的特征預(yù)處理以及更加符合WCE圖像的網(wǎng)絡(luò)設(shè)計(jì)。
(3) 搭建基于在線學(xué)習(xí)的云服務(wù)平臺(tái)。消化道疾病一直在發(fā)展變化,基于在線學(xué)習(xí)的識(shí)別模型才能夠滿足疾病特征的時(shí)效性。云服務(wù)平臺(tái)能夠整合醫(yī)療領(lǐng)域出現(xiàn)的新病例、提供網(wǎng)絡(luò)診斷功能,大大提升診斷效率。