姜良慧 孫 昕 張榮秋 孟欣穎 李雪桐 周長(zhǎng)宏#
青島大學(xué)附屬青島市市立醫(yī)院東院保健科1(266071) 內(nèi)鏡中心2 北京航空航天大學(xué)中德軟件技術(shù)聯(lián)合研究所3
背景:基于深度學(xué)習(xí)技術(shù)的計(jì)算機(jī)輔助診斷已成為胃腸病學(xué)領(lǐng)域的研究熱點(diǎn),計(jì)算機(jī)輔助診斷結(jié)直腸息肉已引起越來(lái)越多的關(guān)注。目的:驗(yàn)證一個(gè)自動(dòng)識(shí)別結(jié)直腸息肉的深度學(xué)習(xí)模型,分析該模型對(duì)新手內(nèi)鏡醫(yī)師的輔助學(xué)習(xí)功能。方法:回顧性收集2019年1月—2020年1月青島市市立醫(yī)院東院內(nèi)鏡中心數(shù)據(jù)庫(kù)中的結(jié)腸鏡圖像共1 200張,其中結(jié)直腸息肉圖像600張,正常結(jié)腸圖像600張。以深度學(xué)習(xí)技術(shù)模型對(duì)1 200張內(nèi)鏡圖像進(jìn)行驗(yàn)證,并比較該模型與5名新手內(nèi)鏡醫(yī)師診斷結(jié)直腸息肉的敏感性、特異性、準(zhǔn)確率、時(shí)間。結(jié)果:深度學(xué)習(xí)模型診斷結(jié)直腸息肉的敏感性為93.2%,特異性為98.7%,準(zhǔn)確率為95.9%,每張圖像的診斷時(shí)間為(0.20±0.03)s,模型的敏感性、準(zhǔn)確率、診斷時(shí)間優(yōu)于5名新手內(nèi)鏡醫(yī)師,特異性優(yōu)于部分新手內(nèi)鏡醫(yī)師。當(dāng)息肉≤5 mm或6~9 mm時(shí),模型的準(zhǔn)確率分別為88.1%、96.8%,優(yōu)于5名新手內(nèi)鏡醫(yī)師;當(dāng)息肉≥10 mm時(shí),模型的準(zhǔn)確率為100%,與5名新手內(nèi)鏡醫(yī)師無(wú)明顯差異。模型識(shí)別隆起型息肉的準(zhǔn)確率為94.8%,優(yōu)于部分新手內(nèi)鏡醫(yī)師;模型識(shí)別扁平型息肉的準(zhǔn)確率為91.7%,優(yōu)于5名新手內(nèi)鏡醫(yī)師。扁平型息肉未能識(shí)別(38.8%)、黏膜皺襞處息肉(32.7%)、誤認(rèn)黏膜皺襞為息肉(12.2%)為模型假陰性或假陽(yáng)性的主要原因。結(jié)論:深度學(xué)習(xí)模型對(duì)結(jié)直腸息肉的輔助診斷有較高的準(zhǔn)確率、敏感性、特異性,且診斷時(shí)間較短,可輔助新手內(nèi)鏡醫(yī)師識(shí)別小息肉和扁平型息肉。
結(jié)直腸癌是癌癥患者死亡的常見(jiàn)病因[1],是中國(guó)常見(jiàn)的第三大癌癥[2]。80%~90%的結(jié)直腸癌由腺瘤樣息肉演變而來(lái),“腺瘤-癌序列”的概念得到了臨床研究支持[3]。結(jié)腸鏡檢查作為結(jié)直腸癌篩查和監(jiān)測(cè)的金標(biāo)準(zhǔn),定期結(jié)腸鏡檢查并切除結(jié)直腸息肉可在一定程度上預(yù)防結(jié)直腸癌。腺瘤檢出率(adenoma detection rate, ADR)與結(jié)腸鏡檢查后結(jié)直腸癌發(fā)生率和死亡率呈負(fù)相關(guān)[3]。然而在不同的內(nèi)鏡醫(yī)師中,ADR差異可達(dá)7%~53%[4],提高結(jié)直腸息肉的檢出率是提高我國(guó)結(jié)直腸癌患者生存率的有效策略,建立一個(gè)準(zhǔn)確、客觀的結(jié)直腸息肉檢出工具對(duì)內(nèi)鏡專家和新手內(nèi)鏡醫(yī)師均大有裨益。因經(jīng)驗(yàn)不足,新手內(nèi)鏡醫(yī)師的息肉漏診率明顯高于內(nèi)鏡專家,針對(duì)新手內(nèi)鏡醫(yī)師的崗前和在崗培訓(xùn)對(duì)降低息肉漏診率十分必要。
隨著人工智能(artificial intelligence, AI)技術(shù)的革新,基于深度學(xué)習(xí)(deep learning, DL)的計(jì)算機(jī)輔助診斷正成為診斷疾病的重要工具。本研究采用DL技術(shù)初步探索內(nèi)鏡圖像下結(jié)直腸息肉的自動(dòng)識(shí)別,測(cè)試計(jì)算機(jī)圖像分析能力,并與新手內(nèi)鏡醫(yī)師識(shí)別息肉的敏感性、特異性、準(zhǔn)確率、診斷時(shí)間進(jìn)行比較,旨在明確DL模型在結(jié)直腸息肉診斷中的臨床價(jià)值,從而輔助新手內(nèi)鏡醫(yī)師提高息肉的識(shí)別和診斷水平。
回顧性收集2019年1月—2020年1月期間青島市市立醫(yī)院東院內(nèi)鏡中心數(shù)據(jù)庫(kù)中1 200張結(jié)腸鏡圖像,其中結(jié)直腸息肉圖像600張,正常圖像600張。納入標(biāo)準(zhǔn):行息肉摘除術(shù)或息肉切除術(shù)治療的患者,診斷均由術(shù)后病理檢查明確。排除標(biāo)準(zhǔn):①晚期結(jié)直腸癌;②炎癥性腸?。虎塾薪Y(jié)直腸手術(shù)史;④有活檢禁忌的患者;⑤黏膜下病變。
所選圖像均在白光、非碘染色、非放大模式下正常拍攝,內(nèi)鏡型號(hào)主要包括Olympus 290主機(jī)+腸鏡290I、Fujinon 4450主機(jī)+腸鏡600ZW、600WR系列。本研究應(yīng)用由北京航空航天大學(xué)中德軟件技術(shù)聯(lián)合研究所提供的基于DL技術(shù)的息肉識(shí)別模型進(jìn)行驗(yàn)證。
利用DL技術(shù)模型對(duì)1 200張結(jié)腸鏡圖像進(jìn)行對(duì)比分析識(shí)別。共選取7名本院內(nèi)鏡醫(yī)師,分別為2名專家內(nèi)鏡醫(yī)師和5名新手內(nèi)鏡醫(yī)師。專家內(nèi)鏡醫(yī)師從事內(nèi)鏡工作超過(guò)20年,內(nèi)鏡檢查例數(shù)超過(guò)5 000例;5名新手內(nèi)鏡醫(yī)師從事內(nèi)鏡工作小于2年,內(nèi)鏡檢查例數(shù)小于500例。2名專家內(nèi)鏡醫(yī)師結(jié)合息肉組織病理學(xué)標(biāo)注內(nèi)鏡圖像作為驗(yàn)證標(biāo)準(zhǔn),5名新手內(nèi)鏡醫(yī)師分別在同一計(jì)算機(jī)上對(duì)選取的驗(yàn)證集進(jìn)行識(shí)別與診斷。為測(cè)試模型穩(wěn)定性以及與新手內(nèi)鏡醫(yī)師對(duì)比結(jié)果的平衡性,反復(fù)打亂測(cè)試集順序后,利用模型進(jìn)行5次圖像分析,分別記錄模型和新手內(nèi)鏡醫(yī)師診斷圖像所用的時(shí)間,并統(tǒng)計(jì)敏感性、特異性、準(zhǔn)確率。
本研究共選取驗(yàn)證集圖像1 200張,其中結(jié)直腸息肉圖像600張,正常圖像600張。DL模型5次識(shí)別結(jié)直腸息肉的敏感性均為93.2%(559/600),特異性均為98.7%(592/600),準(zhǔn)確率均為95.9%(1 151/1 200),每張圖像診斷時(shí)間平均為(0.20±0.03)s(表1)。DL模型正確識(shí)別結(jié)直腸息肉的輸出圖像見(jiàn)圖1-2。
圖1 DL模型正確識(shí)別結(jié)腸皺襞處息肉的輸出圖像(標(biāo)注框周數(shù)字為標(biāo)注框內(nèi)是息肉的概率)
5名新手內(nèi)鏡醫(yī)師對(duì)選取的驗(yàn)證集圖像的敏感性、特異性、準(zhǔn)確率、每張圖像平均診斷時(shí)間見(jiàn)表1。利用模型輔助診斷結(jié)直腸息肉的敏感性、準(zhǔn)確率均明顯優(yōu)于5名新手內(nèi)鏡醫(yī)師,差異有統(tǒng)計(jì)學(xué)意義(P<0.001);特異性明顯優(yōu)于新手內(nèi)鏡醫(yī)師1和4,差異有統(tǒng)計(jì)學(xué)意義(P<0.005),與新手內(nèi)鏡醫(yī)師2、3、5相比無(wú)明顯差異(P>0.05);DL模型的診斷時(shí)間均明顯優(yōu)于5名新手內(nèi)鏡醫(yī)師,差異有統(tǒng)計(jì)學(xué)意義(P<0.001;表1)。
表1 DL模型與5名新手內(nèi)鏡醫(yī)師的結(jié)直腸息肉診斷結(jié)果比較
600張息肉圖像中,≤5 mm的息肉圖像277張,6~9 mm息肉圖像249張,≥10 mm息肉圖像74張;隆起型息肉圖像286張,扁平型息肉圖像314張。
當(dāng)息肉≤5 mm或6~9 mm時(shí),DL模型識(shí)別息肉的準(zhǔn)確率分別為88.1%、96.8%,均明顯優(yōu)于5名新手內(nèi)鏡醫(yī)師,差異有統(tǒng)計(jì)學(xué)意義(P<0.05);當(dāng)息肉≥10 mm時(shí),DL模型準(zhǔn)確率為100%(74/74),與5名新手內(nèi)鏡醫(yī)師相比差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);模型和5名新手內(nèi)鏡醫(yī)師識(shí)別不同大小息肉的準(zhǔn)確率相比差異均有統(tǒng)計(jì)學(xué)意義(P<0.001;表2)。
DL模型識(shí)別隆起型息肉的準(zhǔn)確率為94.8%,明顯優(yōu)于新手內(nèi)鏡醫(yī)師1~4,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),與新手內(nèi)鏡醫(yī)師5相比差異無(wú)統(tǒng)計(jì)意義(P>0.05);DL模型識(shí)別扁平型息肉的準(zhǔn)確率為91.7%,均明顯優(yōu)于5名新手內(nèi)鏡醫(yī)師,差異有統(tǒng)計(jì)學(xué)意義(P<0.005);DL模型、新手內(nèi)鏡醫(yī)師2、4識(shí)別兩種不同形態(tài)息肉的準(zhǔn)確率無(wú)明顯差異(P>0.05),新手內(nèi)鏡醫(yī)師1、3、5識(shí)別隆起型息肉的準(zhǔn)確率優(yōu)于扁平型息肉,差異有統(tǒng)計(jì)學(xué)意義(P<0.05;表2)。
圖2 DL模型正確識(shí)別2處≤5 mm結(jié)腸息肉的輸出圖像
表2 DL模型與5名新手內(nèi)鏡醫(yī)師診斷不同大小、形態(tài)結(jié)直腸息肉的準(zhǔn)確率比較%(n/N)
DL模型錯(cuò)誤識(shí)別了49張驗(yàn)證集息肉圖像,假陰性率為6.8%(41/600),假陽(yáng)性率為1.3%(8/600)。其中,漏診的扁平型息肉占錯(cuò)誤識(shí)別圖像的38.8%(19/49),漏診的結(jié)腸皺襞處息肉占32.7%(16/49),誤診結(jié)腸皺襞為息肉占12.2%(6/49),息肉位于圖像邊緣占4.1%(2/49),圖像模糊、視野昏暗、器械、回盲部、氣泡、顏色干擾各占2.0%(1/49)。DL模型診斷結(jié)果為假陰性輸出圖像和假陽(yáng)性輸出圖像見(jiàn)圖3-6。
圖3 DL模型未識(shí)別位于結(jié)腸皺襞、覆蓋氣泡的息肉圖像,診斷結(jié)果為假陰性(黑色箭頭所示處為息肉)
本研究將新興的DL技術(shù)應(yīng)用于結(jié)直腸息肉診斷,就該模型在臨床實(shí)踐中輔助新手內(nèi)鏡醫(yī)師識(shí)別息肉進(jìn)行了初步探索。通過(guò)收集1 200張結(jié)腸鏡下結(jié)直腸息肉圖像,整理數(shù)據(jù)集輸入DL模型進(jìn)行驗(yàn)證,結(jié)果顯示模型的敏感性為93.2%、特異性為98.7%、準(zhǔn)確率為95.9%,每張圖像的診斷時(shí)間平均為(0.20±0.03)s,證實(shí)該模型診斷結(jié)直腸息肉具有較好的臨床效果。
圖4 DL模型未識(shí)別位于結(jié)腸皺襞的息肉圖像,診斷結(jié)果為假陰性(黑色箭頭所示處為息肉)
圖5 DL模型誤認(rèn)結(jié)腸皺襞為息肉的輸出圖像,診斷結(jié)果為假陽(yáng)性
圖6 DL模型誤認(rèn)氣泡為息肉的輸出圖像,診斷結(jié)果為假陽(yáng)性
本研究結(jié)果顯示,DL模型識(shí)別息肉的敏感性、準(zhǔn)確率、診斷時(shí)間優(yōu)于5名新手內(nèi)鏡醫(yī)師,特異性優(yōu)于部分新手內(nèi)鏡醫(yī)師。當(dāng)息肉≤5 mm或6~9 mm時(shí),模型識(shí)別息肉的準(zhǔn)確率分別為88.1%、96.8%,優(yōu)于5名新手內(nèi)鏡醫(yī)師;當(dāng)息肉≥10 mm時(shí),準(zhǔn)確率為100%,與5名新手內(nèi)鏡醫(yī)師相仿;其中,模型識(shí)別不同大小息肉的準(zhǔn)確率差異有統(tǒng)計(jì)學(xué)意義,息肉越大,模型識(shí)別息肉的準(zhǔn)確率越高。由此可見(jiàn),當(dāng)息肉為1~9 mm時(shí),DL模型對(duì)于新手內(nèi)鏡醫(yī)師具有一定的輔助作用。Wang等[5]的一項(xiàng)臨床隨機(jī)試驗(yàn)將基于DL的計(jì)算機(jī)輔助系統(tǒng)與標(biāo)準(zhǔn)結(jié)腸鏡檢查對(duì)息肉的檢測(cè)結(jié)果進(jìn)行比較,結(jié)果顯示計(jì)算機(jī)輔助診斷息肉的ADR優(yōu)于標(biāo)準(zhǔn)結(jié)腸鏡檢查,其中ADR的增加僅限于微小息肉和小息肉,>10 mm息肉的診斷結(jié)果無(wú)明顯差異。Guo等[6]開(kāi)發(fā)了基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)輔助檢測(cè)算法,其對(duì)小息肉(2~8 mm)的敏感性與內(nèi)鏡專家相同(均為88%),優(yōu)于2名接受培訓(xùn)的醫(yī)師(分別為84%和76%)。
本研究結(jié)果還顯示,DL模型識(shí)別隆起型息肉的準(zhǔn)確率為94.8%,優(yōu)于部分新手內(nèi)鏡醫(yī)師;模型識(shí)別扁平型息肉的準(zhǔn)確率為91.7%,優(yōu)于5名新手內(nèi)鏡醫(yī)師。既往研究發(fā)現(xiàn),結(jié)腸鏡檢查過(guò)程中,扁平型息肉的漏檢率明顯高于隆起型息肉[7]。本研究發(fā)現(xiàn),DL模型識(shí)別這兩種不同形態(tài)息肉的準(zhǔn)確率相比差異無(wú)統(tǒng)計(jì)學(xué)意義,故該模型在臨床檢查過(guò)程中有利于輔助新手內(nèi)鏡醫(yī)師診斷息肉,減少扁平型息肉的漏診率。
通過(guò)對(duì)DL模型錯(cuò)誤識(shí)別的內(nèi)鏡圖像進(jìn)行分析發(fā)現(xiàn),扁平型息肉、黏膜褶皺對(duì)模型識(shí)別息肉的干擾作用較大,分別占38.8%、32.7%。本研究為模擬臨床內(nèi)鏡操作的真實(shí)環(huán)境,驗(yàn)證集均選取內(nèi)鏡下息肉原圖,同時(shí)添加形態(tài)較小、扁平、內(nèi)鏡下與結(jié)腸黏膜色差不明顯的息肉,并添加內(nèi)鏡下模糊、散焦、局灶黏液、出血、糞便、皺襞、內(nèi)鏡反光、視野昏暗、運(yùn)動(dòng)模糊等不清晰圖像,模型識(shí)別的敏感性、特異性、準(zhǔn)確率受圖像選擇偏倚較小,測(cè)試結(jié)果相對(duì)具有真實(shí)性和可靠性。
本研究所收集圖像均為白光、非染色、非放大內(nèi)鏡下圖像,具有廣泛臨床適用性。結(jié)直腸息肉的臨床表現(xiàn)具有隱匿性,我國(guó)結(jié)直腸癌的預(yù)防主要通過(guò)對(duì)非特異性癥狀和無(wú)癥狀的人群進(jìn)行篩查。染色內(nèi)鏡、放大內(nèi)鏡等在一定程度上可提高息肉檢出率[8],但因檢查費(fèi)用較高,且對(duì)內(nèi)鏡醫(yī)師操作水平具有一定要求,并未在我國(guó)多數(shù)醫(yī)院普及,未能作為息肉篩查的常規(guī)手段。由此認(rèn)為針對(duì)白光內(nèi)鏡圖像設(shè)計(jì)的計(jì)算機(jī)輔助診斷結(jié)直腸息肉模型的實(shí)際適用范圍更大,具有更高的臨床價(jià)值。
當(dāng)前DL模型已初步實(shí)現(xiàn)檢測(cè)內(nèi)鏡視頻中是否存在息肉。在驗(yàn)證過(guò)程中,將內(nèi)鏡視頻導(dǎo)入神經(jīng)網(wǎng)絡(luò)模型,視頻自動(dòng)拆分成幀,并以25幀/s循環(huán)檢測(cè)每一幀,識(shí)別疑似病變部位,并實(shí)時(shí)輸出診斷結(jié)果。因動(dòng)態(tài)視頻下,腸道內(nèi)環(huán)境復(fù)雜,故模型檢測(cè)息肉精準(zhǔn)度偏低,模型部署至臨床內(nèi)鏡系統(tǒng)存在一定局限性。后續(xù)將收集并添加更多的訓(xùn)練樣本,完善模型后進(jìn)行系統(tǒng)地視頻驗(yàn)證,優(yōu)化模型后可聯(lián)合內(nèi)鏡系統(tǒng),開(kāi)展實(shí)時(shí)內(nèi)鏡檢查過(guò)程中對(duì)比研究,驗(yàn)證模型的實(shí)際應(yīng)用效果。
結(jié)直腸息肉和腺瘤為公認(rèn)的結(jié)直腸癌的癌前病變。美國(guó)一項(xiàng)大型隊(duì)列研究[4]結(jié)果表明,有效結(jié)腸鏡檢查可降低約70%的結(jié)直腸癌死亡率。故有效提高結(jié)腸鏡檢查時(shí)息肉和腺瘤的檢出率已成為結(jié)直腸癌一級(jí)預(yù)防的重要措施。臨床實(shí)踐中,息肉漏診原因主要為:①腸道準(zhǔn)備差、退鏡速度快、患者體位不佳影響腸道黏膜視野暴露,干擾腸道息肉的識(shí)別。因此,高質(zhì)量的腸道準(zhǔn)備[9]、充足的退鏡時(shí)間[10]、動(dòng)態(tài)體位變化[11]可一定程度上改善息肉識(shí)別率。②內(nèi)鏡醫(yī)師技術(shù)水平差異引起的診斷差異,內(nèi)鏡醫(yī)師經(jīng)驗(yàn)差異、檢查時(shí)因器械操作分心、因疲勞或情緒因素引起注意力不集中均可造成部分息肉漏診[12-14]。有研究顯示,經(jīng)驗(yàn)豐富的護(hù)士可通過(guò)觀察監(jiān)視器輔助專業(yè)的內(nèi)鏡醫(yī)師將息肉檢出率和ADR分別提高8.9%和7.4%[15];實(shí)時(shí)內(nèi)鏡檢查過(guò)程中,“第二觀察者”可在一定程度上輔助內(nèi)鏡醫(yī)師提高息肉檢出率[16]。
隨著近年技術(shù)的突破,AI將改變胃腸病學(xué)領(lǐng)域,尤其是內(nèi)鏡和圖像診斷,AI正迅速?gòu)奈改c病學(xué)的實(shí)驗(yàn)階段過(guò)度到臨床實(shí)施階段[17]。計(jì)算機(jī)輔助息肉診斷引起了越來(lái)越多的關(guān)注,Urban等[18]利用DL技術(shù)設(shè)計(jì)并訓(xùn)練的網(wǎng)絡(luò)模型識(shí)別息肉的準(zhǔn)確率為96.4%。Wang等[19]的研究開(kāi)發(fā)驗(yàn)證了DL算法,其輔助診斷結(jié)腸息肉的敏感性和特異性分別為94.38%、95.92%。Lee等[20]的研究利用YOLOv2模型,開(kāi)發(fā)并驗(yàn)證了用于息肉檢測(cè)的DL算法,測(cè)試集A包含1 338幅息肉圖像,敏感性為96.7%,測(cè)試集B包含612幅息肉圖像的公共數(shù)據(jù)庫(kù),敏感性為90.2%。息肉檢測(cè)系統(tǒng)可作為一個(gè)有效的第二觀察者,實(shí)時(shí)吸引內(nèi)鏡醫(yī)師觀察疑似病變,提高新手內(nèi)鏡醫(yī)師的息肉檢出率,克服內(nèi)鏡檢查過(guò)程中因臨床經(jīng)驗(yàn)等因素導(dǎo)致的診斷差異。臨床內(nèi)鏡操作檢查是一個(gè)自身成長(zhǎng)、累積經(jīng)驗(yàn)的過(guò)程,如何幫助新手內(nèi)鏡醫(yī)師提高白光內(nèi)鏡下息肉檢出率,是目前面臨的現(xiàn)實(shí)問(wèn)題。對(duì)于新手內(nèi)鏡醫(yī)師,計(jì)算機(jī)輔助診斷有助于協(xié)助新手內(nèi)鏡醫(yī)師識(shí)別息肉,在實(shí)際操作中起有良好的輔助作用。
綜上所述,本研究基于AI技術(shù)建立的識(shí)別結(jié)直腸息肉DL模型具有較高的臨床價(jià)值,可輔助新手內(nèi)鏡醫(yī)師進(jìn)行息肉的診斷。后續(xù)研究將擴(kuò)大模型的數(shù)據(jù)集,持續(xù)優(yōu)化模型,聯(lián)合內(nèi)鏡檢查系統(tǒng),爭(zhēng)取開(kāi)展臨床前瞻性研究,以驗(yàn)證本模型的效能。隨著計(jì)算機(jī)輔助診斷技術(shù)的進(jìn)步以及內(nèi)鏡技術(shù)的更新,基于DL的內(nèi)鏡輔助系統(tǒng)有望在未來(lái)的臨床工作中發(fā)揮重要價(jià)值。