王曉峰,周 璐,姚樂宇,何 凡,3,彭海霞,楊大明#,黃曉霖,3#
1.上海交通大學(xué)醫(yī)學(xué)院附屬同仁醫(yī)院內(nèi)鏡中心,上海 200336;2.上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240;3.上海交通大學(xué)醫(yī)療機器人研究院,上海 200240
2020 年,全球癌癥數(shù)據(jù)[1]顯示:結(jié)直腸癌發(fā)病率在新發(fā)腫瘤中排名第3 位,死亡率排名第2 位;我國新發(fā)結(jié)直腸癌54 萬例,死亡29 萬例。通過結(jié)直腸鏡檢查,早期發(fā)現(xiàn)和切除結(jié)直腸腫瘤至關(guān)重要。臨床上,息肉檢出率被認(rèn)為是結(jié)腸鏡檢查質(zhì)量的評判標(biāo)準(zhǔn);息肉檢出率每增加1%,結(jié)直腸癌發(fā)病率降低3%~6%[2-3]。但由于內(nèi)鏡醫(yī)師水平參差不齊以及息肉形態(tài)各異,結(jié)直腸息肉存在不同程度的漏診[4]。因此,亟需一個能夠自動識別息肉的客觀診斷系統(tǒng),以降低結(jié)直腸息肉,尤其是腺瘤的漏診率。
近年來人工智能(artificial intelligence,AI)技術(shù)在多領(lǐng)域迅速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的提出帶動了計算機視覺領(lǐng)域的崛起[5]。DCNN 能從大數(shù)據(jù)中學(xué)習(xí),兼具高精度和高速處理的優(yōu)點。DCNN的這種特性,使其在醫(yī)療領(lǐng)域,尤其是在影像學(xué)圖像方面應(yīng)用廣泛。2003 年,KARKANIS 等[6]首次報道了使用計算機輔助檢測(computer-aided detection,CADe)系統(tǒng)檢測結(jié)直腸息肉,檢出率>90%。近年來,國內(nèi)研究發(fā)現(xiàn)實時CADe 可以明顯提高腺瘤檢出率[7-9]。但上述研究對象均為有操作經(jīng)驗的內(nèi)鏡醫(yī)師;而缺乏結(jié)腸鏡操作經(jīng)驗的內(nèi)鏡醫(yī)師能否從CADe中獲益,值得探討。為了探究AI 對初學(xué)者結(jié)直腸息肉檢出率的影響,本研究構(gòu)建了一個基于YOLO算法的結(jié)直腸息肉檢測系統(tǒng),用于視頻條件下及實時操作中檢測結(jié)直腸息肉,現(xiàn)將研究結(jié)果報道如下。
選取上海交通大學(xué)醫(yī)學(xué)院附屬同仁醫(yī)院內(nèi)鏡中心數(shù)據(jù)庫2019 年1 月—2020 年12 月的結(jié)腸鏡圖像及2021 年1 月—3 月的結(jié)腸鏡視頻(倫理備案號2020-118),并剔除其中模糊、無法識別正常結(jié)構(gòu)等不合格的圖像及視頻。圖像由研究人員進行分類,分為無息肉圖像和有息肉圖像,并采用軟件對息肉進行標(biāo)注(圖1);對視頻進行剪輯,分為無息肉視頻和有息肉視頻。再由2名高年資(具有10年以上結(jié)腸鏡診療經(jīng)驗)內(nèi)鏡醫(yī)師對2 類圖像和視頻進行確認(rèn)。若存在爭議,則剔除該圖像或視頻,并以這2 位醫(yī)師共同確認(rèn)的診斷結(jié)果為金標(biāo)準(zhǔn)。最終,將篩選出的圖像和視頻分為2 個數(shù)據(jù)集:數(shù)據(jù)集1(5 908 張圖像)和數(shù)據(jù)集6(360 條短視頻)。其中,數(shù)據(jù)集1 分為數(shù)據(jù)集1a(4 906 張圖像)、數(shù)據(jù)集1b(300 張圖像)和數(shù)據(jù)集1c(702張圖像),數(shù)據(jù)集1c為從視頻數(shù)據(jù)集6中截取的圖像。數(shù)據(jù)集6 中無息肉視頻156 條,含息肉視頻204 條;每條含息肉視頻中僅有1 枚息肉,息肉最大徑為3~8 mm;所有視頻播放時長為12~24 s。所有圖像及視頻均在白光、非放大模式下拍攝。所使用的結(jié)腸鏡是日本OLYMPUS 公司的260 型或290 型。另有不同來源的圖像數(shù)據(jù)集2~5,即公共數(shù)據(jù)集CVCClinicDB、CVC-ColonDB、ETIS-Larib Polyp DB 和KVASIR[10-13],共包含2 188 張圖片。數(shù)據(jù)集1a 和數(shù)據(jù)集2~5 為模型訓(xùn)練集,數(shù)據(jù)集1b 和數(shù)據(jù)集1c 為模型測試集(表1)。
圖1 私有數(shù)據(jù)集示例Fig 1 Examples of a private dataset
表1 6個數(shù)據(jù)集基本資料Tab1 Basic information of the 6 datasets
YOLOV3 模型是一種可以用于目標(biāo)檢測的DCNN[14]。通過在訓(xùn)練集上的訓(xùn)練,YOLOV3 模型可以直接預(yù)測輸入圖像中存在的物體的位置和類別。YOLOV3 使用Darknet53 作為骨干網(wǎng)絡(luò),進行圖像特征提取。Darknet53 是一個包含卷積層和殘差層的DCNN。當(dāng)一張圖像輸入Darknet53 后,經(jīng)過降采樣,其尺寸降為原有的1/32,其圖像通道數(shù)由原有的三通道擴增為1 024 通道。例如,尺寸為416×416 的三通道輸入圖像,經(jīng)由Darknet53 處理后,將轉(zhuǎn)化為尺寸為13×13×1 024 的特征向量?;谟蓤D像提取的特征向量,YOLOV3 模型利用回歸方法進行檢測框的預(yù)測。對于每個檢測框,YOLOV3 將給出檢測框相對于錨框的中心坐標(biāo)偏移量和檢測框的寬度和高度偏移量,檢測物體的類別和置信度。
在YOLOV3 訓(xùn)練開始前,由于訓(xùn)練集數(shù)據(jù)有限,為了提升訓(xùn)練的效果,使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重對YOLOV3 的骨干網(wǎng)絡(luò)Darknet53 進行權(quán)重初始化[15],使網(wǎng)絡(luò)的訓(xùn)練過程有更好的初始點,能夠使網(wǎng)絡(luò)更快地收斂。在訓(xùn)練的過程中,對每批輸入樣本進行數(shù)據(jù)增強以提高網(wǎng)絡(luò)的泛化性能。采用的數(shù)據(jù)增強方法包括圖像旋轉(zhuǎn)、亮度變換和圖像銳化。網(wǎng)絡(luò)的訓(xùn)練使用Adam 優(yōu)化器[16],訓(xùn)練過程包含75 輪,初始學(xué)習(xí)率為10-4;在訓(xùn)練的第50 輪后,學(xué)習(xí)率衰減為10-5。為避免過擬合,訓(xùn)練過程中對網(wǎng)絡(luò)的權(quán)重進行了正則化,正則化權(quán)重為10-4。
為了對上述訓(xùn)練完成的YOLOV3 的效果進行評估,分別使用私有圖像數(shù)據(jù)集和短視頻截取的數(shù)據(jù)集對其進行測試。使用數(shù)據(jù)集1b 及短視頻截取數(shù)據(jù)集1c 對模型進行測試。在測試集上,利用靈敏度、特異度和精確度衡量YOLOV3 模型的性能。本模型靈敏度達0.940,特異度達0.813,精確度達0.783。
邀請10 名無結(jié)腸鏡操作經(jīng)驗的醫(yī)師參與研究,隨機分為AI 輔助組(A 組,n=5)及無AI 輔助組(B組,n=5)。2 組醫(yī)師對上述數(shù)據(jù)集6 中360 條視頻進行判讀,將360 條視頻分為前組180 條視頻和后組180 條視頻,前后組各包含息肉視頻102 條。前180條視頻,2組均無AI輔助。后180條視頻,AI輔助組輔以息肉檢測系統(tǒng),將視頻數(shù)據(jù)集經(jīng)檢測系統(tǒng)處理后標(biāo)記息肉,供研究者判讀;無AI 輔助組則觀看原始視頻,判讀是否存在息肉。根據(jù)息肉大小,將息肉分為小息肉(最大徑6~10 mm)和微小息肉(最大徑<6 mm)2 組[17];其中52 枚(25.5%)息肉屬于小息肉,152 枚(74.5%)息肉屬于微小息肉。同樣,根據(jù)息肉的形態(tài),將息肉分為山田Ⅰ型與山田Ⅱ型2組[18];其中126 枚屬于山田Ⅰ型,78 枚屬于山田Ⅱ型(表2)。前期,利用圖片及視頻對受試者進行培訓(xùn),讓受試者可以區(qū)分正常腸壁、息肉、腸黏膜堆積形成皺褶、糞水等。培訓(xùn)后對受試者進行隨機化分組,通過判讀前組視頻,檢驗每組受試者是否處于同一水平。若視頻中存在息肉,受試者未能檢出,則視為漏診;若視頻中無息肉,受試者判斷存在息肉,則視為誤診。
表2 數(shù)據(jù)集6中息肉大小及類型分布Tab 2 Size and shape of polyps in dataset 6
前180 條視頻均無AI輔助時,A 組與B 組結(jié)直腸息肉平均漏診例數(shù)分別為(20.5±5.7)例和(19.0±3.4)例,差異無統(tǒng)計學(xué)意義;后180條視頻中,A 組息肉漏診例數(shù)為(9.8±3.4) 例,明顯小于B 組的(18.8±3.6)例,差異有統(tǒng)計學(xué)意義(P=0.031)。A 組內(nèi)比較,后180 條視頻息肉漏診例數(shù)小于前180 條視頻息肉漏診例數(shù),差異具有統(tǒng)計學(xué)意義(P=0.007)(圖2)。
圖2 2組受試者前后視頻集檢出息肉漏診個數(shù)分布Fig 2 Distribution of the number of missed diagnosed polyps in the pre-and post-video sets of the two groups
前180 條視頻均無AI輔助時,A 組與B 組結(jié)直腸息肉平均誤診例數(shù)分別為(8.0±1.9)例和(7.4±3.3)例;后180 條視頻中,A 組與B 組結(jié)直腸息肉平均誤診例數(shù)分別為(10.4±3.1)例和(8.2±3.1)例;組間差異均無統(tǒng)計學(xué)意義。A 組內(nèi)比較,后180 條視頻息肉誤診例數(shù)與前180 條視頻息肉誤診例數(shù)的差異也無統(tǒng)計學(xué)意義(圖3)。
圖3 2組受試者前后視頻集檢出息肉誤診個數(shù)分布Fig 3 Distribution of the number of misdiagnosed polyps detected in the pre-and post-video sets of the two groups
隨著內(nèi)窺鏡技術(shù)的不斷進步,結(jié)腸鏡檢查的質(zhì)量越來越受到重視。高質(zhì)量的結(jié)腸鏡檢查在結(jié)直腸癌的早期診治中具有重要意義,其中息肉檢出率是衡量結(jié)腸鏡操作質(zhì)量的一個重要標(biāo)準(zhǔn)。既往研究[19-21]顯示,結(jié)腸鏡教學(xué)中心負(fù)責(zé)人培訓(xùn)以及有操作經(jīng)驗護士協(xié)助等舉措均能提高息肉檢出率。但上述方法需要較高的人力、物力和時間投入,且目前我國各地區(qū)消化內(nèi)鏡醫(yī)師水平、分布比例、內(nèi)鏡資源配置等差異較大,短時間內(nèi)培養(yǎng)出經(jīng)驗豐富的內(nèi)鏡醫(yī)師的難度較大。因此,利用計算機自動識別結(jié)直腸息肉的客觀診斷輔助系統(tǒng)幫助缺乏經(jīng)驗的內(nèi)鏡醫(yī)師快速成長勢在必行。隨著AI 的不斷發(fā)展,深度學(xué)習(xí)已經(jīng)成功應(yīng)用于語音識別、圖像識別等領(lǐng)域。在內(nèi)窺鏡領(lǐng)域,利用深度學(xué)習(xí)識別和捕捉動態(tài)的目標(biāo),可以彌補人類視覺捕捉不全及易于疲勞的缺點[22-25]。目前,深度學(xué)習(xí)的卷積層神經(jīng)網(wǎng)絡(luò)框架眾多,本研究構(gòu)建的模型使用的是YOLOV3。YOLOV3 模型廣泛應(yīng)用于胃腸息肉的檢查,也可應(yīng)用于其他疾病的診斷[26-28]。
多項研究[6-9]提示,AI 輔助結(jié)腸鏡診斷,可以提高結(jié)腸鏡操作醫(yī)師的腺瘤檢出率。本研究發(fā)現(xiàn),對于經(jīng)過培訓(xùn)的無結(jié)腸鏡操作經(jīng)驗的醫(yī)師,AI 輔助組結(jié)直腸息肉漏診例數(shù)明顯低于無AI 輔助組;同時,2組間息肉誤診例數(shù)的差異無統(tǒng)計學(xué)意義。此外,A組受試者AI 輔助判讀視頻時息肉漏診例數(shù)低于無AI 輔助時,且差異具有統(tǒng)計學(xué)意義。本研究中納入204 枚息肉,其中74.5%屬于微小息肉,25.5%屬于小息肉。研究結(jié)果顯示,AI 輔助可以增加無操作經(jīng)驗內(nèi)鏡醫(yī)師對小息肉或者微小息肉的檢出率。2020 年國內(nèi)GONG 等[7]研究發(fā)現(xiàn),AI 輔助可以提高結(jié)腸腺瘤的檢出率;2019 年WANG 等[8]發(fā)現(xiàn),對于腺瘤檢出率低的內(nèi)鏡醫(yī)師,給予AI 輔助后可以明顯提升腺瘤檢出率。這2 項研究均發(fā)現(xiàn)AI 輔助可以提高5 mm 以下息肉的檢出率,對5 mm 以上的息肉檢出率無明顯影響??梢姡珹I 技術(shù)可以輔助發(fā)現(xiàn)微小病灶,減少內(nèi)鏡檢查過程中微小病灶的遺漏,從而提高結(jié)腸鏡檢查的質(zhì)量。盡管有學(xué)者[29]認(rèn)為,部分小息肉為非進展性息肉;但是,也有部分研究顯示結(jié)腸鏡檢查中大部分息肉為小息肉,其中一半為腺瘤,存在惡變的可能,應(yīng)當(dāng)早期切除[30-32]。因此,AI 輔助可提示缺乏結(jié)腸鏡操作經(jīng)驗的醫(yī)師發(fā)現(xiàn)息肉,尤其是小息肉及微小息肉,可輔助缺乏經(jīng)驗的內(nèi)鏡醫(yī)師作出診斷,具有較好的臨床價值。
本研究尚存在幾點不足。首先,本研究為單中心研究。雖然納入公共數(shù)據(jù)集,但圖像數(shù)據(jù)仍相對較少;且在收集圖像時排除了含有泡沫、糞水等大量干擾圖像,而這些干擾在臨床操作中是不可避免的,這可能會影響模型在真實操作中的應(yīng)用。后續(xù)研究中,我們會前瞻性收集圖像,擴大訓(xùn)練集,以期提高臨床實用性。其次,本系統(tǒng)在實時結(jié)腸鏡操作過程中同樣可以識別息肉,但是否能提高缺乏經(jīng)驗的初級內(nèi)鏡醫(yī)師的息肉檢出率還未可知。之后,我們將在實時結(jié)腸鏡操作中,驗證本系統(tǒng)對初級內(nèi)鏡醫(yī)師結(jié)直腸息肉檢出率的影響。