馬菲妍,張彩霞,冬雪川
(1.河北醫(yī)科大學第二醫(yī)院, 河北 石家莊 050005;2.深圳市新產(chǎn)業(yè)眼科新技術(shù)有限公司,廣東 深圳 518055)
糖尿病視網(wǎng)膜病變(DR)是糖尿病患者常見的眼部并發(fā)癥,在中國總?cè)丝谥蠨R的患病率為1.14%,在糖尿病患者人群中患病率為18.45%[1],DR能造成視力不可逆的損傷,是工作年齡人群喪失視力的主要原因。而DR的早期預防、定期檢查、早期診斷并及時給予有效治療對延緩病變進展、減少視力喪失至關(guān)重要。多光譜成像技術(shù)是一種新型的眼底成像技術(shù)[2],它可以利用各種波長不同的單色LED光源,分別投射入眼底不同深度[3],采集基于不同組織及病理產(chǎn)物吸收光譜的差異形成的圖像,可以更清晰地觀察包括糖尿病視網(wǎng)膜病變在內(nèi)的各類疾病體征。人工智能(AI)尤其是深度學習算法近年在醫(yī)療健康、自動駕駛、游戲競技、網(wǎng)絡(luò)安全等領(lǐng)域展現(xiàn)了巨大的潛力,并開始應(yīng)用在實際場景[4-11],尤其是在糖尿病視網(wǎng)膜病的自動檢測中體現(xiàn)了一定的價值[12-15]。但深度學習通常需要大量人工標注的樣本數(shù)據(jù),給軟件的開發(fā)帶來相當?shù)睦щy。多光譜眼底圖像通過多種光譜,多種通道和維度展現(xiàn)疾病的特征,有望降低樣本量要求,節(jié)約開發(fā)資源,并進一步提升智能診斷的敏感性和特異性。本研究中筆者通過對比基于多光譜眼底成像開發(fā)的AI系統(tǒng)和傳統(tǒng)醫(yī)師對糖尿病視網(wǎng)膜病變的診斷一致性,以評估AI的實際診斷能力。
1.1一般資料:收集自2018年4月~2018年10月期間于河北醫(yī)科大學第二醫(yī)院眼科門診就診的200例糖尿病患者的右眼多光譜系列圖像(RHA2020多光譜眼底成像系統(tǒng),ANNIDIS corporation,加拿大),波長范圍包括550 nm、580 nm、590 nm、620 nm、660 nm、690 nm、740 nm、760 nm、780 nm、810 nm、850 nm,全部圖像均在免散瞳條件下拍攝,以黃斑中心凹為中心,成像范圍43°,見圖1。本研究符合赫爾辛基宣言,并由河北醫(yī)科大學第二醫(yī)院倫理委員會審核通過。
圖1 多光譜眼底成像所獲得的各波長圖片以及擬合而成的功能圖
納入標準:年齡≥18歲;已經(jīng)過詳細的內(nèi)分泌檢查確診為2型糖尿??;無角膜瘢痕、晶狀體混濁等影響眼底拍攝的屈光介質(zhì)異常;圖像對焦清晰,無異常偽影;亮度均勻,可明顯分辨血管和視盤等主要眼部結(jié)構(gòu)。排除標準:圖像明顯分辨率不足或其他圖像拍攝異常;病歷資料不完整。
1.2方法
1.2.1閱片者分組:依據(jù)閱片方式的不同將閱片者分為四組:①采用AI系統(tǒng)閱片定義為AI組;②由3名具有5年以上眼底照片和眼底檢查經(jīng)驗的眼科醫(yī)師組成的高年資眼科醫(yī)師組;③由3名具有5年以下眼底照片和眼底檢查經(jīng)驗的眼科醫(yī)師組成的低年資眼科醫(yī)師組;④由3名無既往眼科檢查經(jīng)驗,在本研究開始前經(jīng)過系統(tǒng)閱片培訓的內(nèi)分泌醫(yī)生組成的內(nèi)分泌醫(yī)師組。
1.2.2多光譜眼底圖像的標注:均采用分級標注,共四級:①無微血管瘤或出血點;②1個象限存在微血管瘤或出血點;③1~3個象限存在微血管瘤或出血點;④4個象限均可見微血管瘤。底圖像均由2位資深眼底專家獨立診斷并意見一致時為確定診斷,意見不一致時交由第3名眼底專家閱片,定標一致的結(jié)果作為閱片標注的參考標準。
1.2.3閱片的方法:AI組和全部醫(yī)師組均對所有眼底圖像進行閱片。AI組由研究人員將圖像輸入軟件系統(tǒng)進行閱片,并保留自動診斷的結(jié)果;醫(yī)師組均通過RHA自帶的電腦系統(tǒng)和閱片軟件對多光譜眼底圖像進行閱片,保留閱片結(jié)果。同時記錄AI和醫(yī)師組單張閱片時間和總耗時。
1.3統(tǒng)計學方法:采用SPSSAU20.0進行統(tǒng)計學軟件處理數(shù)據(jù)。不同閱片者的閱片結(jié)果和參考標準的比較采用加權(quán)Kappa系數(shù)進行評價,AI組和醫(yī)師組的比較以Kendall系數(shù)進行評價。AI系統(tǒng)和各醫(yī)師組的單張平均閱片時間比較采用重復測量方差Bonferroni法分析,根據(jù)球形度檢驗結(jié)果選擇Greenhouse-Geisser校正結(jié)果,以P<0.05為差異有統(tǒng)計學意義。
2.1閱片結(jié)果的一致性比較:高年資眼科醫(yī)師組、低年資眼科醫(yī)師組、內(nèi)分泌醫(yī)師組共9位醫(yī)師的閱片結(jié)果與參考標準相比較的加權(quán)Kappa系數(shù)見表1。各組間相比,AI組和高年資眼科醫(yī)師組的Kendall協(xié)調(diào)系數(shù)為0.957,差異有統(tǒng)計學意義(P<0.01),診斷水平接近;AI組與低年資眼科醫(yī)師組和內(nèi)分泌醫(yī)師組相比,差異有統(tǒng)計學意義(P<0.01),內(nèi)分泌醫(yī)師組和低年資眼科醫(yī)師組協(xié)調(diào)系數(shù)依次低于AI組和高年資眼科醫(yī)師組,但差異無顯著統(tǒng)計學意義(P>0.05)。見表2。
表1 不同閱片者對多光譜DR眼底圖像標注一致性的比較
2.2閱片速度的比較:AI組、高年資眼科醫(yī)師組、低年資眼科醫(yī)師組、內(nèi)分泌醫(yī)師組的平均閱片時間分別為(1.48±0.27)s,(14.92±3.26)s,(15.56±3.24)s,(40.13±6.59)s。見圖2。各組平均閱片時間的差異具有統(tǒng)計學意義(F=3220.879,P<0.01)。各組間比較,AI組的閱片時間明顯少于各醫(yī)師組,高年資眼科醫(yī)師組和低年資眼科醫(yī)師組少于內(nèi)分泌醫(yī)師組,而高年資眼科醫(yī)師組和低年資眼科醫(yī)師組之間差異無統(tǒng)計學意義(P>0.05)。見表3。
表2 不同閱片組對多光譜DR眼底圖像標注一致性的比較(n=200)
圖2 人工智能系統(tǒng)及不同級別醫(yī)師單張平均閱片時間的比較
表3 不同閱片組對多光譜DR眼底圖像標注時間的比較
DR根據(jù)組織病理學和嚴重程度主要分為非增生性糖尿病視網(wǎng)膜病變(NPDR)和增生性糖尿病視網(wǎng)膜病變(PDR),NPDR最早期可識別的眼底表現(xiàn)則是視網(wǎng)膜微血管瘤[16]。微血管瘤的出現(xiàn)通常不會引發(fā)明顯的臨床癥狀,但微血管瘤的存在代表已存在組織結(jié)構(gòu)損傷。在流行病學研究和臨床試驗中發(fā)現(xiàn),微血管瘤數(shù)會隨著DR的發(fā)展而增加,可預測從NPDR轉(zhuǎn)變?yōu)镻DR和黃斑水腫的進展[17-20]。微血管瘤的存在和嚴重性已經(jīng)被可靠的用于評估DR的嚴重性和進展風險。
傳統(tǒng)眼底照相和眼底鏡采用可見光波進行眼底觀察,由于可見光拍攝過程中不同光譜信息存在干擾,微血管瘤的信噪比明顯降低,容易造成微小病灶的遺漏,不利于對疾病的觀察,容易忽視早期糖尿病視網(wǎng)膜病變。
熒光素眼底血管造影比眼底照片可更早和更多地發(fā)現(xiàn)微動脈瘤,明確區(qū)分動脈瘤與出血點[21-23]。但因其為有創(chuàng)檢查,且檢查時需要應(yīng)用造影劑,可能會對有嚴重腎功能損傷的患者造成負擔,并存在引起嚴重過敏性休克反應(yīng)的風險,所以一般在糖尿病視網(wǎng)膜病變的篩查階段并不被采用。
多光譜成像技術(shù)是一種新型的眼底成像技術(shù),利用波長不同的單色LED光源,分別投射入眼底不同深度,采集基于不同組織及病理產(chǎn)物吸收光譜的差異形成的圖像,可以清晰地將視網(wǎng)膜、脈絡(luò)膜分層顯示在不同的照片上,以冠狀面圖像方式呈現(xiàn)。對疾病代謝物質(zhì)可用敏感波長進行重點觀察,因此能靈敏地發(fā)現(xiàn)疾病異常。該檢查快速便捷且無創(chuàng),無需散瞳,可適用于早期篩查多種眼底疾病[24-28]。
Li等[29]以FFA作為參照標準,將常規(guī)眼底照相和多光譜成像對比,認為在DR的早期篩查中多光譜成像對于微動脈瘤的檢測要比常規(guī)眼底照相更為敏感、可信,且形態(tài)上與FFA保持高度的吻合,尤其在580 nm波長的圖像。而Kerry等[30]則發(fā)現(xiàn)多光譜相對眼底彩照,甚至能夠探及糖尿病前期的微血管瘤。此外也有其他眾多的研究證明了多光譜成像在DR疾病診斷領(lǐng)域的價值[31-32],因此對于DR的早期篩查,MSI相比傳統(tǒng)彩照有更明顯的優(yōu)勢。但多光譜也有其局限性,包括圖像張數(shù)多,閱片時間長,學習曲線長等。
AI 是計算機科學、控制論、信息論、神經(jīng)生理學、心理學、語言學等多種學科互相滲透而發(fā)展起來的一門綜合性學科,其通過制造智能機器或智能系統(tǒng),模擬或延伸人類智能活動能力。深度學習算法具有自動特征提取功能,可基于有標注的樣本自行學習并抓取圖片中的特征,最后輸出自行分類的結(jié)果。保證深度學習準確度高的前提之一,是樣本在人工標注階段被盡可能正確地標注分類。高質(zhì)量的大樣本標注可使深度學習算法自動特征提取的優(yōu)勢得到充分發(fā)揮,對病變識別與分類的準確度更高,與人工標注一致性更好。但在臨床和實際人工智能的開發(fā)中,大樣本的獲取往往有現(xiàn)實上的困難。多光譜人工智能采用多光譜、多通道進行開發(fā),針對敏感體征的波長所呈現(xiàn)的對比度更容易被AI所提取,因此在準確性和樣本量的節(jié)約方面有著明顯的優(yōu)勢。
本研究對比了多光譜人工智能閱片系統(tǒng)和醫(yī)師閱片的準確性及一致性。人工智能展現(xiàn)了和高年資眼科醫(yī)師基本等同的閱片能力,甚至略高于低年資眼科醫(yī)師和內(nèi)分泌醫(yī)師。由于本研究主要比對不同閱片組對微血管瘤/出血點的識別力,而本體征識別難度低,相對常見,易于醫(yī)師學習和掌握,因此低年資眼科醫(yī)師組和內(nèi)分泌醫(yī)師組的準確性雖略低于AI和高年資眼科醫(yī)師組,但差異無統(tǒng)計學意義(P>0.05)。但AI 閱片克服了不同醫(yī)師的知識構(gòu)成不同、標注時的心理狀態(tài)與精力存在差異以及隨著時間推移帶來的記憶力和理解力的改變等主觀差異的影響,顯然更適合疾病篩查場景[33]。
本研究同時比較了AI和各閱片醫(yī)師組的閱片時長,AI總體領(lǐng)先于醫(yī)師組,這是由計算機的運算特征所決定的,與AI 系統(tǒng)的運行速度,計算機硬件配置、處理系統(tǒng)、 AI 算法的復雜程度及圖形處理器的部署等因素有關(guān)。研究中,高年資眼科醫(yī)師和低年資眼科醫(yī)師的閱片時間接近,是因為本體征的識別是眼科醫(yī)生的基本診斷工作,在難度上基本沒有明顯的差異。但內(nèi)分泌組醫(yī)師的閱片時間明顯延長,這是因為其對眼??萍膊〉南嚓P(guān)知識了解較淺,缺乏對眼底病變診斷的經(jīng)驗,且對病變的病理基礎(chǔ)認識不足而不能適應(yīng)閱片工作,結(jié)合其在診斷準確性上的不足,本類AI的開發(fā)可能更適合全科醫(yī)生的使用。
本研究的局限性在于未考慮多種多光譜成像系統(tǒng)采集圖像識別的通用和兼容性能,同時也僅對微血管瘤/出血點單一體征進行識別,而AI軟件尚需要進一步完善。未來,需要在此方向進行多中心和多層級的臨床研究驗證。
綜上所述,糖尿病視網(wǎng)膜病的疾病診斷對于全科醫(yī)師和年輕醫(yī)師閱片標注的難度大,學習曲線長。通過人工智能和多光譜眼底成像技術(shù)的結(jié)合能夠提升閱片質(zhì)量和閱片速度,降低開發(fā)難度,有利于不同資質(zhì)的醫(yī)師,尤其是全科醫(yī)師和年輕醫(yī)師快速掌握本病的診斷和篩查。