亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)網(wǎng)絡(luò)與特征融合的膠囊內(nèi)鏡圖像識(shí)別模型

2021-09-15 11:48:46張大斌魏曉雍劉杰民

計(jì)算機(jī)應(yīng)用與軟件 2021年9期

關(guān)鍵詞：息肉準(zhǔn)確率卷積

王孟張大斌魏曉雍張暉劉杰民

1(貴州大學(xué)機(jī)械工程學(xué)院貴州貴陽 550001)

2(貴州銀行博士后流動(dòng)站貴州貴陽 550001)

3(貴州省人民醫(yī)院貴州貴陽 550001)

0 引言

社會(huì)的快節(jié)奏發(fā)展下，人們?nèi)粘Ｉ铒嬍撤浅２灰?guī)律和不健康，導(dǎo)致消化道疾病患病率長(zhǎng)期以來居高不下。我國(guó)現(xiàn)已成為胃病大國(guó)[1-3]，每年新增胃癌50萬例以上。傳統(tǒng)消化道檢測(cè)手段，如鋇餐造影、胃鏡和血清篩查等，存在輻射高、敏感度低和舒適性差等缺點(diǎn)。膠囊內(nèi)鏡(WCE)體積小且具備無線傳輸功能，能夠通過腸胃蠕動(dòng)實(shí)現(xiàn)整個(gè)消化道的拍攝，且患者無任何不適，因而得以應(yīng)用。但每個(gè)患者所拍攝的圖片多達(dá)5萬幅，嚴(yán)重降低了醫(yī)生審閱的效率，使其不能推廣使用。

目前，不乏對(duì)WCE計(jì)算機(jī)輔助診斷的研究。傳統(tǒng)機(jī)器視覺領(lǐng)域，研究者針對(duì)有差別的病灶分別設(shè)計(jì)了個(gè)性化特征檢測(cè)算法。文獻(xiàn)[4]利用局部二值模式和拉普拉斯金字塔進(jìn)行潰瘍多尺度特征提取，結(jié)合SVM分類器實(shí)現(xiàn)了95.11%的識(shí)別準(zhǔn)確率。文獻(xiàn)[5]丟棄了WCE亮度信息，借助SVM和多層感知器對(duì)顏色通道特征分類，并實(shí)現(xiàn)了小腸腫瘤全自動(dòng)分割，該算法比小波和小曲率變換速度快了25倍。文獻(xiàn)[6]對(duì)圍繞單個(gè)像素的塊定義了索引值，從索引值的直方圖中提取顏色和紋理特征，結(jié)合主成分分析法檢測(cè)消化道出血，準(zhǔn)確率高達(dá)97.85%。深度學(xué)習(xí)領(lǐng)域的WCE診斷中，研究者通常采用經(jīng)典神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)。文獻(xiàn)[7]采用預(yù)訓(xùn)練的Alex Net訓(xùn)練上萬幅WCE圖片，檢測(cè)潰瘍和糜爛的準(zhǔn)確率為95.16%和95.34%。文獻(xiàn)[8]使用大型非醫(yī)療圖像數(shù)據(jù)庫對(duì)ResYOLO目標(biāo)檢測(cè)算法進(jìn)行預(yù)訓(xùn)練，之后用結(jié)腸鏡圖像對(duì)參數(shù)微調(diào)，結(jié)合ECO跟蹤器來整合WCE時(shí)間信息，對(duì)息肉檢測(cè)準(zhǔn)確率達(dá)到88.6%。也有將傳統(tǒng)機(jī)器視覺和深度學(xué)習(xí)相結(jié)合的研究者。文獻(xiàn)[9]提出一種WCE圖像異常的自動(dòng)檢測(cè)和定位方法，首先使用預(yù)訓(xùn)練的弱監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)劃分WCE為異常與正常，再利用顯著性檢測(cè)算法檢測(cè)興趣點(diǎn)，最后通過迭代聚類統(tǒng)一算法定位異常病灶，實(shí)驗(yàn)準(zhǔn)確率高達(dá)96%。上述基于傳統(tǒng)機(jī)器視覺的識(shí)別算法需要針對(duì)不同病灶設(shè)計(jì)不同算法，基于遷移學(xué)習(xí)的模型存在預(yù)訓(xùn)練數(shù)據(jù)與樣本數(shù)據(jù)差異大的問題，傳統(tǒng)機(jī)器視覺與深度學(xué)習(xí)結(jié)合的方法使得算法結(jié)構(gòu)復(fù)雜，不能廣泛使用。

因此，本文提出了基于神經(jīng)網(wǎng)絡(luò)與特征融合的膠囊內(nèi)鏡圖像識(shí)別模型。本模型借助卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)圖像特征的特點(diǎn)，分別提取WCE顏色、形狀和紋理特征，再通過Bagging算法進(jìn)行特征融合。本模型是首次將卷積特征提取與Bagging特征融合相結(jié)合的模型，并采用了分離輸入并訓(xùn)練的模式，替代了傳統(tǒng)RGB通道訓(xùn)練，實(shí)現(xiàn)了一種對(duì)WCE圖像識(shí)別具有通用性、結(jié)構(gòu)簡(jiǎn)單、可應(yīng)用于實(shí)際的醫(yī)療輔助診斷模型。

1 圖像預(yù)處理

膠囊內(nèi)鏡圖像的位深度為24，水平和垂直分辨率均為96 dpi，為醫(yī)生診斷提供了豐富信息。醫(yī)生利用顏色、形狀和紋理特征對(duì)WCE進(jìn)行診斷。因此，分別進(jìn)行G分量提取、Log變換、直方圖均衡化，以突出WCE顏色、形狀及紋理特征，削弱特征間相互影響，從而利用卷積神經(jīng)網(wǎng)絡(luò)分別提取WCE顏色、形狀和紋理特征，再進(jìn)行特征融合識(shí)別。

1.1 G分量提取

RGB圖像由紅色像素分量(R)、綠色像素分量(G)和藍(lán)色像素分量(B)通過矩陣疊加形式組成。膠囊內(nèi)鏡拍攝對(duì)象為整個(gè)消化道，顏色呈淺紅色至深紅色。內(nèi)鏡下，Z線處食管白色黏膜與紅色胃黏膜交匯邊界清晰，染色增強(qiáng)的息肉與常規(guī)組織存在明顯顏色差異，潰瘍表面被白色纖維蛋白覆蓋。為分析WCE顏色通道間的差異，統(tǒng)計(jì)50幅息肉和潰瘍病灶圖R、G、B通道顏色值的均值和標(biāo)準(zhǔn)差，見表1。

表1 息肉與潰瘍病灶圖RGB通道評(píng)價(jià)

表1中，兩種疾病顏色均值的差值大小為G>R>B, 說明G通道灰度值分布差異比R和B通道大，G通道顏色分布信息更為豐富。標(biāo)準(zhǔn)差的差值大小為B>G>R，即B和G通道包含的顏色細(xì)節(jié)信息比R通道豐富。綜合兩個(gè)評(píng)價(jià)指標(biāo)，G通道均值與標(biāo)準(zhǔn)差綜合表現(xiàn)強(qiáng)于R和B通道，能夠表征膠囊內(nèi)鏡的顏色信息。因此提取G通道特征作為WCE顏色特征，舍棄B和R通道。

1.2 Log灰度圖像變換

消化道不同器官在形狀上有顯著差異。盲腸與回盲腸相接且有多個(gè)囊袋狀溝壑，幽門呈規(guī)則的圓口或橢圓口狀且內(nèi)有環(huán)向肌肉，食管呈現(xiàn)出深隧道形狀。不同病灶也存在形狀差異，息肉是一種小隆起且呈圓形或橢圓形的肉塊，潰瘍表現(xiàn)為消化道表皮組織平面片狀潰爛或隆起。因此，形狀特征是內(nèi)鏡診斷的重要信息。為了凸顯形狀特征，采用Log變換來減少顏色和紋理信息。Log變換原理如式(1)和圖1所示。

圖1 Log變換原理圖

(1)

式中：x為輸入的灰度值；y為經(jīng)Log變換后得到的輸出灰度值；c為可調(diào)常數(shù)項(xiàng)，用以調(diào)整圖像亮度。結(jié)合式(1)和圖1可看出，輸入灰度值大時(shí)，函數(shù)斜率小，壓縮了高灰度區(qū)域。相反，灰度值小時(shí)，函數(shù)斜率大，暗區(qū)灰度得到提升與擴(kuò)展。從而均衡了圖像顏色和紋理信息，突出局部形狀信息。

取c=10，對(duì)膠囊內(nèi)鏡圖像Log變換。如圖2所示，Log變換提升了內(nèi)壁皺褶處附近的整體亮度，腸道弱光照的延伸部分的亮度也得到了提高，突出了息肉形狀特征。整幅圖的灰度梯度得到平均，大大減少了顏色和紋理對(duì)形狀信息的影響，因此提取Log變換圖像作為WCE形狀特征。

圖2 Log變換前后的息肉圖像

1.3 直方圖均衡化

紋理特征也是區(qū)分器官與疾病的信息。食管內(nèi)壁光滑、紋理不明顯，胃呈現(xiàn)出大量較深的褶皺，小腸表面呈絨毛狀。息肉表面紋理與所處器官有關(guān)，潰瘍表面有許多因腐敗而產(chǎn)生的小細(xì)紋。提升圖像對(duì)比度能夠有效突出紋理特征。

直方圖均衡化是一種高效的對(duì)比度提升算法。原理如下：

(2)

式中：0≤rk≤1,k=0,1,…,255；Ok為變換后的輸出值；rj為灰度值；Pr(rj)是灰度級(jí)rj的概率密度函數(shù)；nj為包含灰度級(jí)rj的數(shù)量；n為圖像總像素量。該變換使用rj的累計(jì)分布函數(shù)，生成一幅灰度密度均勻的圖像，增加了灰度動(dòng)態(tài)分布范圍。對(duì)膠囊內(nèi)鏡圖像進(jìn)行直方圖均衡化處理，如圖3(b)所示。原始圖像3(a)中息肉的灰度值得到提高，周圍組織的灰度值降低，提高了WCE的對(duì)比度，息肉輪廓的梯度得到加強(qiáng)。因此提取直方圖均衡化圖特征作為WCE紋理特征。

圖3 直方圖均衡化前后的息肉圖像

2 卷積神經(jīng)網(wǎng)絡(luò)與特征融合設(shè)計(jì)

特征提取是圖像識(shí)別的重要研究?jī)?nèi)容，傳統(tǒng)算法中效果較好的特征提取算法有針對(duì)邊緣檢測(cè)的Canny算法、輪廓檢測(cè)的Douglas-Peucker算法、直線和圓檢測(cè)的Hough算法以及斑點(diǎn)檢測(cè)的SIFT算法等。卷積神經(jīng)網(wǎng)絡(luò)是一種能自學(xué)習(xí)核參數(shù)的濾波器，在特征提取過程中，能夠自動(dòng)提取圖像的深層特征，如紋理、形狀和顏色。它大大減少了傳統(tǒng)特征提取過程的算法設(shè)計(jì)和參數(shù)設(shè)計(jì)。因此，本文對(duì)預(yù)處理過后的三種WCE圖像分別應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)，能夠自動(dòng)提取WCE顏色、形狀和紋理特征，避免了為不同病灶的不同特征設(shè)計(jì)專用的特征提取器。之后采用Bagging進(jìn)行特征融合，比Softmax分類器更充分地融合高層次圖像特征，也更快地使網(wǎng)絡(luò)收斂。

2.1 網(wǎng)絡(luò)輸入

本文使用來自Vestre Viken公司公開的Kvasir數(shù)據(jù)集[10],包含來自胃腸道(GI)的膠囊內(nèi)鏡圖像的數(shù)據(jù)集。數(shù)據(jù)集分為8類，按0～7排序，共8 000幅圖。即具有解剖標(biāo)志的Z線、幽門和盲腸，為醫(yī)生判斷圖像所處消化道位置提供了導(dǎo)航；具有臨床意義的食管炎、息肉和潰瘍性結(jié)腸炎，屬于消化道常見疾病；此外，還有對(duì)病灶醫(yī)學(xué)處理后的圖像，息肉染色增強(qiáng)和息肉染色邊緣切除。數(shù)據(jù)集分類和標(biāo)注工作由專業(yè)醫(yī)生完成，每個(gè)類包含1 000幅圖，均采用JPEG壓縮編碼。

調(diào)整數(shù)據(jù)集圖像大小為224×224，同一幅圖分別進(jìn)行G通道分離、Log變換以及直方圖均衡化。將三者分別輸入到具有相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。設(shè)計(jì)模型如圖4所示。

圖4 神經(jīng)網(wǎng)絡(luò)特征融合模型

2.2 卷積層

將具有特征提取功能的卷積核和神經(jīng)網(wǎng)絡(luò)結(jié)合，能夠自動(dòng)提取圖像特征。VGG網(wǎng)絡(luò)[11]中采用2個(gè)3×3卷積代替5×5卷積，3個(gè)3×3卷積代替7×7卷積，實(shí)現(xiàn)了相同卷積視野的情況下大大減少參數(shù)量。借鑒該小卷積核實(shí)現(xiàn)大視野的特點(diǎn)，本網(wǎng)絡(luò)采用卷積核大小均為3×3，核數(shù)量采用隨層數(shù)遞增方式。針對(duì)本次數(shù)據(jù)量，layer-1、layer-2、layer-3核數(shù)量分別為64、128和128，對(duì)圖像低維度特征進(jìn)行提??；layer-4和layer-5均為256，對(duì)高維度抽象特征進(jìn)行提取。同時(shí)，對(duì)每個(gè)卷積層進(jìn)行歸一化(batch normalization)，加快模型迭代的收斂速度。

2.3 池化層

為了充分利用5層卷積層，必須設(shè)計(jì)池化層，以篩選出有效特征以及提升網(wǎng)絡(luò)的訓(xùn)練效率。本文全采用最大池化(max_pool)，能有效提取局部最佳特征。前4層卷積均采用3×3 max_pool，對(duì)有效特征進(jìn)行優(yōu)選。為保留高維特征以進(jìn)行特征融合，layer-5采用2×2max_pool，使卷積層輸出結(jié)果滿足一維向量。

2.4 特征融合

Bagging(bootstrap AGGregatING)是基于自助采樣(bootstrap sampling)的經(jīng)典并行式集成學(xué)習(xí)方法。首先，從標(biāo)注好的包含k個(gè)樣本的數(shù)據(jù)集隨機(jī)選取一個(gè)樣本放入采樣集，同時(shí)仍將該樣本放回?cái)?shù)據(jù)集，使其在下次采樣時(shí)仍可能被選中。經(jīng)過k次操作后，產(chǎn)生了包含k個(gè)樣本的采樣集。由此，可以采樣出n個(gè)包含k個(gè)樣本的采樣集，然后對(duì)每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器，將這些基學(xué)習(xí)器結(jié)合，通過投票方法來實(shí)現(xiàn)預(yù)測(cè)。當(dāng)分類中出現(xiàn)票數(shù)相同情況，則根據(jù)基學(xué)習(xí)器的投票置信度來確定結(jié)果。

本模型選擇Bagging的原因?yàn)椋?/p>

(1) 相比常用的神經(jīng)網(wǎng)絡(luò)后期特征融合(AFS_NN)，該方法經(jīng)過多次采樣，能夠更充分地融合高層次圖像特征，實(shí)現(xiàn)了小數(shù)據(jù)量下更好的預(yù)測(cè)效果。

(2) Bagging能夠協(xié)助神經(jīng)網(wǎng)絡(luò)類基學(xué)習(xí)器早期停止訓(xùn)練，以減少過擬合現(xiàn)象，比Softmax分類器實(shí)現(xiàn)了更快的收斂。

(3) 神經(jīng)網(wǎng)絡(luò)類基學(xué)習(xí)器效果易受樣本擾動(dòng)，從方差角度看，Bagging能夠有效降低學(xué)習(xí)器的方差。

2.5 模型訓(xùn)練

1) 訓(xùn)練流程。

(1) 數(shù)據(jù)集劃分：從原始數(shù)據(jù)集中隨機(jī)抽取6 400幅圖作為訓(xùn)練集，其中每一類包含800幅圖；剩余1 600幅作為測(cè)試集，每一類包含200幅圖。

(2) 圖像預(yù)處理：分離出G通道、Log灰度變換和灰度直方圖均衡化。

(3) 特征提取：三者分別輸入到三個(gè)相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，對(duì)每種特征進(jìn)行提取，三個(gè)網(wǎng)絡(luò)相互獨(dú)立。

(4) 特征融合：提取的三種特征共768個(gè)特征值，輸入到一層包含256個(gè)神經(jīng)元的全連接神經(jīng)網(wǎng)絡(luò)，再通過Bagging分類器進(jìn)行分類。

(5) 輸出：0～7分別對(duì)應(yīng)了8種分類。

2) 參數(shù)設(shè)置。

(1) 模型訓(xùn)練方法采用RMSProp算法，learning rate=0.001，rho=0.9, decay=0。

(2) layer6設(shè)置dropout=0.5。

(3) batch size=50，epochs=300。

3 實(shí) 驗(yàn)

本節(jié)對(duì)提出的模型進(jìn)行大量實(shí)驗(yàn)。實(shí)驗(yàn)在CPU為i7- 7700HQ，GPU為GTX1050，24 GB內(nèi)存電腦上完成。主要從網(wǎng)絡(luò)輸入、網(wǎng)絡(luò)訓(xùn)練、損失函數(shù)、特征融合算法、傳統(tǒng)機(jī)器視覺和深度學(xué)習(xí)等方面進(jìn)行實(shí)驗(yàn)對(duì)比，即本模型與RGB輸入模型的對(duì)比，與不同輸入模態(tài)模型對(duì)比，與不同優(yōu)化器和損失函數(shù)模型對(duì)比，與不同特征融合算法對(duì)比，與傳統(tǒng)圖像識(shí)別和經(jīng)典神經(jīng)網(wǎng)絡(luò)模型對(duì)比。

3.1 與RGB輸入模型對(duì)比

經(jīng)典神經(jīng)網(wǎng)絡(luò)模型均為RGB輸入模型，將WCE圖像的RGB三通道直接輸入到本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與識(shí)別，不進(jìn)行特征融合。為展示圖像預(yù)處理和特征融合對(duì)WCE識(shí)別的效果，與RGB輸入模型進(jìn)行對(duì)比。圖5展示了模型訓(xùn)練周期情況。圖6展示了模型ROC曲線。

圖5 本文模型與RGB模型準(zhǔn)確率

(a) 本文模型ROC曲線

(b) RGB模型ROC曲線

從圖5可以看出，本文模型和基于本文神經(jīng)網(wǎng)絡(luò)架構(gòu)的傳統(tǒng)RGB模型，迭代周期到40次時(shí)都達(dá)到了穩(wěn)定，且未產(chǎn)生過擬合或欠擬合現(xiàn)象，說明本文設(shè)置的歸一化、dropout和學(xué)習(xí)率等參數(shù)合理，能夠加快模型收斂速度。圖5中，兩模型訓(xùn)練集的準(zhǔn)確率相當(dāng)，達(dá)到99.75%。特征融合模型測(cè)試集的準(zhǔn)確率達(dá)到96.89%，比傳統(tǒng)RGB輸入模型高出2.14%，表明預(yù)處理與特征融合明顯提升了神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率。

ROC曲線是衡量模型實(shí)際效果的工具，其原理為：

fpr=fp/(fp+tn)

(3)

tpr=tp/(tp+fn)

(4)

式中：fp和fn表示正常和異常的錯(cuò)誤檢測(cè)數(shù)，tp和tn分別表示正常和異常的正確檢測(cè)數(shù)。稱fpr為假正率，tpr為真正率。ROC曲線以fpr為橫坐標(biāo)，tpr為縱坐標(biāo)。tpr的提高必定伴隨著fpr的提高，只有當(dāng)tpr高且fpr低時(shí)，模型的預(yù)測(cè)效果才好。即ROC曲線越靠近左上角時(shí)，模型越好。常用ROC曲線與右側(cè)坐標(biāo)軸圍成的面積(AUC)來衡量ROC，AUC值越接近1，則模型效果越好。

從圖6可以看出，本文模型ROC曲線的平均AUC值達(dá)到了0.99。每一個(gè)類對(duì)應(yīng)的AUC值均不低于0.98，其中盲腸和幽門達(dá)到了1.00，足以應(yīng)用于實(shí)際場(chǎng)景。而RGB輸入模型的AUC均值為0.98，比前者低0.01。各分類的AUC值分布區(qū)間為0.97～1.00，超出本模型0.01，實(shí)際應(yīng)用中出現(xiàn)誤判的概率比本文模型高。說明預(yù)處理與特征融合模型穩(wěn)定性優(yōu)于RGB輸入模型。

表2展示了本文模型和RGB輸入模型預(yù)測(cè)指標(biāo)平均值。其中各指標(biāo)適用于二分類問題，因此對(duì)8類數(shù)據(jù)分別設(shè)計(jì)了對(duì)應(yīng)的二分類場(chǎng)景。如計(jì)算息肉預(yù)測(cè)指標(biāo)時(shí)，驗(yàn)證集設(shè)置為150幅息肉圖像和50幅其他分類圖像，并設(shè)置息肉為正樣本，其余為負(fù)樣本。表2統(tǒng)計(jì)了8分類預(yù)測(cè)指標(biāo)的平均值。

表2 本文模型和RGB輸入模型預(yù)測(cè)指標(biāo)平均值

靈敏度衡量了模型對(duì)于正樣本的識(shí)別率，特異度衡量了模型對(duì)負(fù)樣本的識(shí)別率。表2中，本文模型比RGB輸入模型的靈敏度高出5.13%，特異度則高出0.13%，即本文模型對(duì)正樣本的識(shí)別能力顯著強(qiáng)于RGB輸入模型，而對(duì)負(fù)樣本識(shí)別能力則幾乎持平?？紤]所設(shè)置的驗(yàn)證集，本文模型的識(shí)別能力明顯強(qiáng)于傳統(tǒng)RGB模型。兩模型損失值均為0.05，更加驗(yàn)證了本文卷積網(wǎng)絡(luò)架構(gòu)的合理性，能夠達(dá)到較好的收斂能力。

幾種指標(biāo)的對(duì)比說明本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)具有優(yōu)秀的收斂能力與穩(wěn)定性。同時(shí)，圖像預(yù)處理和特征融合能提供更加準(zhǔn)確的多元特征，比傳統(tǒng)RGB具備更好的識(shí)別效果。

3.2 與不同輸入模態(tài)模型對(duì)比

本模型將G通道、Log變換通道和直方圖均衡化通道三個(gè)模態(tài)作為輸入。為驗(yàn)證不同模態(tài)對(duì)模型識(shí)別準(zhǔn)確率的貢獻(xiàn)程度，將R通道、G通道、B通道、Log變換通道和直方圖均衡化通道隨機(jī)組合成3通道，輸入本文模型進(jìn)行訓(xùn)練與識(shí)別。10種輸入組合的平均準(zhǔn)確率如表3所示。其中R、G、B、L和Z分別表示R、G、B、Log變換和直方圖均衡化通道。

表3 不同輸入模態(tài)下本文模型的平均準(zhǔn)確率(%)

表3中對(duì)比R+L+Z、B+L+Z和G+L+Z可知，RGB三種模態(tài)中對(duì)識(shí)別準(zhǔn)確率貢獻(xiàn)最大的是G通道，表明前述對(duì)于G通道包含更多顏色信息的計(jì)算是正確的。對(duì)比R+G+B和R+G+L，驗(yàn)證了Log變換預(yù)處理為卷積操作提供更多圖像細(xì)節(jié)，提升圖像識(shí)別能力。對(duì)比R+G+B和R+G+Z知直方圖均衡化預(yù)處理對(duì)圖像識(shí)別效果的提升好于傳統(tǒng)顏色通道B。因此，本文模型均選擇了相同條件下貢獻(xiàn)最大的模態(tài)作為輸入，即G+L+Z，表3也驗(yàn)證了所選模態(tài)達(dá)到了最高準(zhǔn)確率。

3.3 與不同優(yōu)化器、損失函數(shù)模型對(duì)比

為了得到模型最佳的訓(xùn)練效果，本文測(cè)試了三種常用優(yōu)化算法和三種損失函數(shù)，即均方根反向傳播算法(RMSprop)、帶動(dòng)量的隨機(jī)梯度下降算法(SGD+Nesterov_Momentum=0.9)和Adagrad，以及均方誤差損失函數(shù)(mean_squared_error)、二元交叉熵?fù)p失函數(shù)(binary_crossentropy)和交叉熵?fù)p失函數(shù)(categorical_crossentropy)。實(shí)驗(yàn)結(jié)果如表4所示。

表4 不同優(yōu)化算法與損失函數(shù)的平均準(zhǔn)確率(%)

表4中，采用二元交叉熵?fù)p失函數(shù)時(shí)，三種優(yōu)化算法準(zhǔn)確率均高于96.5%，其中RMSprop達(dá)到96.89%。均方誤差損失函數(shù)下，Adagard準(zhǔn)確率比RMSprop高0.14百分點(diǎn)，而帶動(dòng)量的隨機(jī)梯度度下降算法準(zhǔn)確率為41.37%，不足50%，不具備優(yōu)化能力。采用交叉熵?fù)p失函數(shù)時(shí)，Adagrad準(zhǔn)確率最高?？梢?，二元交叉熵?fù)p失函數(shù)與RMSprop結(jié)合效果最好，后兩個(gè)損失函數(shù)與Adagrad結(jié)合效果最好。因此本文選擇準(zhǔn)確率最高的二元交叉熵?fù)p失函數(shù)和均方根反向傳播算法進(jìn)行訓(xùn)練。

3.4 與其他特征融合算法對(duì)比

本文模型采用Bagging特征融合算法替代了常規(guī)Softmax分類算法。為了評(píng)估Bagging算法對(duì)特征融合的貢獻(xiàn)程度，將模型中特征融合算法改為Softmax分類器、隨機(jī)森林分類器(RF)、SVM分類器，保持模型其他部分不變，與本文模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表5所示。

表5 不同特征融合算法平均準(zhǔn)確率(%)

表5中，Bagging進(jìn)行了多次采樣操作，以及具備快速收斂能力，因此準(zhǔn)確率比Softmax算法提升了0.45百分點(diǎn)。隨機(jī)森林分類器同樣采用了多次采樣操作，但通過多棵決策樹訓(xùn)練的方式增加了算法復(fù)雜度，對(duì)數(shù)據(jù)量要求較高，準(zhǔn)確率比Bagging低3.81百分點(diǎn)。SVM分類器屬于較低維的線性分類器，而本文Layer6輸出的抽象特征屬于高維特征，因此SVM分類效果較差，只有84.15%，遠(yuǎn)低于Bagging。可見，本文提出的利用卷積網(wǎng)絡(luò)和Bagging特征融合的模型比傳統(tǒng)Softmax等分類器更具優(yōu)勢(shì)。

3.5 與傳統(tǒng)機(jī)器視覺和經(jīng)典網(wǎng)絡(luò)模型對(duì)比

所提出的模型是將傳統(tǒng)機(jī)器視覺中的圖像預(yù)處理與經(jīng)典神經(jīng)網(wǎng)絡(luò)相結(jié)合，為了展示本文模型的優(yōu)勢(shì)，分別與幾種傳統(tǒng)機(jī)器視覺模型和經(jīng)典神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比，結(jié)果如表6所示。

表6 不同模型各分類準(zhǔn)確率比較(%)

(1) ResNet和AlexNet：借助深度神經(jīng)網(wǎng)絡(luò)和百萬訓(xùn)練數(shù)據(jù)量，對(duì)常規(guī)圖像識(shí)別準(zhǔn)確率超過90%。

(2) GIST：基于一維感知(自然、開放、粗糙、膨脹和險(xiǎn)峻)的特征檢測(cè)算子，主要用于空間結(jié)構(gòu)的特征檢測(cè)；

(3) SIFT：基于圖像尺度、角度等空間特征不變量的斑點(diǎn)特征檢測(cè)算子，用于局部特征提取。

(4) COLOR：基于k_means聚類出的128個(gè)顏色描述符，進(jìn)行顏色特征提取的算法。

表6中，神經(jīng)網(wǎng)絡(luò)類模型準(zhǔn)確率普遍高于傳統(tǒng)機(jī)器視覺，尤其對(duì)于息肉和潰瘍等病灶的識(shí)別效果顯著好于GIST、SHIFT和COLOR。GIST+SIFT和SIFT+COLOR識(shí)別染色息肉和染色切除的準(zhǔn)確率明顯高于其他分類，對(duì)于包含復(fù)雜特征的息肉、幽門和Z線等識(shí)別較差。可見傳統(tǒng)機(jī)器視覺模型對(duì)于復(fù)雜分類的效果較差。ReNet和AlexNet網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，待訓(xùn)練的參數(shù)量高達(dá)62 M。寶貴的醫(yī)療數(shù)據(jù)只能在預(yù)訓(xùn)練的ResNet和AlexNet網(wǎng)絡(luò)上進(jìn)行微調(diào)。兩者準(zhǔn)確率分別為94.72%和94.84%，高于傳統(tǒng)模型至少10.23百分點(diǎn)，但是由于預(yù)訓(xùn)練數(shù)據(jù)和膠囊內(nèi)鏡圖像存在較大差異，兩模型準(zhǔn)確率受到了限制。本文模型參數(shù)量不足2 M，可以直接訓(xùn)練小數(shù)量級(jí)WCE圖像，平均準(zhǔn)確率能達(dá)到96.89%，比其他模型高出2.05百分點(diǎn)以上。其中兩類疾病，息肉和潰瘍性結(jié)腸炎準(zhǔn)確率均高于其他模型1.3百分點(diǎn)以上。表明本文模型對(duì)于復(fù)雜分類和小數(shù)量級(jí)數(shù)據(jù)的訓(xùn)練具有更好的效果。

4 結(jié) 語

深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用，可以大大提高醫(yī)生診斷效率。因此，本文構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)與特征融合的膠囊內(nèi)鏡圖像識(shí)別模型。該模型首先通過預(yù)處理獲取顏色、形狀和紋理信息突出的圖像，采用卷積神經(jīng)網(wǎng)絡(luò)分別提取其不同特征，再用Bagging算法對(duì)提取的特征進(jìn)行融合與識(shí)別。同時(shí)設(shè)計(jì)了大量實(shí)驗(yàn)驗(yàn)證該模型。

所用測(cè)試集包含了腸道定位、疾病病灶和疾病醫(yī)學(xué)處理等方面的圖像，使得模型的訓(xùn)練更加符合實(shí)際應(yīng)用場(chǎng)景。尤其對(duì)于息肉病灶的識(shí)別非常重要，近年來針對(duì)WCE定位和潰瘍檢測(cè)的研究較多，準(zhǔn)確率為70.60%～95.61%[12-15]，卻少有對(duì)息肉識(shí)別的研究。Zhang等[16]在預(yù)訓(xùn)練250萬個(gè)非醫(yī)學(xué)數(shù)據(jù)集的特征后，實(shí)現(xiàn)了87.3%的息肉識(shí)別準(zhǔn)確率。而本文模型首次嘗試將卷積特征提取與Bagging特征融合相結(jié)合，可直接訓(xùn)練息肉圖像，并達(dá)到了96.42%的準(zhǔn)確率以及0.99的AUC值，遠(yuǎn)高于傳統(tǒng)機(jī)器視覺(SVM、GIST+SIFT等)和現(xiàn)有深度學(xué)習(xí)(RGB模型、ResNet等)識(shí)別準(zhǔn)確率，開創(chuàng)了新的基于深度學(xué)習(xí)的息肉識(shí)別方法。本文的訓(xùn)練集僅包含6 400幅圖像，8分類平均準(zhǔn)確率達(dá)到了96.89%，相同準(zhǔn)確率下數(shù)據(jù)量要求遠(yuǎn)小于其他大型神經(jīng)網(wǎng)絡(luò)?？芍獙?duì)圖像進(jìn)行預(yù)處理以突出特征的方法，能夠在小數(shù)據(jù)量情況下實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的良好識(shí)別效果，解決了醫(yī)療領(lǐng)域數(shù)據(jù)寶貴的困境。最后，本文模型在各項(xiàng)指標(biāo)中均取得了良好成績(jī)，實(shí)際應(yīng)用中能夠輔助醫(yī)生進(jìn)行疾病診斷。

未來的研究還有幾方面需要完成：

(1) 提高模型的魯棒性。實(shí)際WCE圖像中，光照強(qiáng)度隨鏡頭位置改變而變化，清晰程度也受到聚焦距離影響，腸道清潔程度更加影響病灶識(shí)別。需要針對(duì)上述干擾因素來提高模型的魯棒性。

(2) 提升模型復(fù)雜度。本文模型是基于小數(shù)據(jù)量設(shè)計(jì)的，隨著數(shù)據(jù)量的增加，需要增加神經(jīng)網(wǎng)絡(luò)層數(shù)、增加功能模塊、更加精確的特征預(yù)處理以及更加符合WCE圖像的網(wǎng)絡(luò)設(shè)計(jì)。

(3) 搭建基于在線學(xué)習(xí)的云服務(wù)平臺(tái)。消化道疾病一直在發(fā)展變化，基于在線學(xué)習(xí)的識(shí)別模型才能夠滿足疾病特征的時(shí)效性。云服務(wù)平臺(tái)能夠整合醫(yī)療領(lǐng)域出現(xiàn)的新病例、提供網(wǎng)絡(luò)診斷功能，大大提升診斷效率。