陶思翰 馬廣成 陳茜 施煒
人工智能(artificial intelligence, AI)是人類歷史上的第四次工業(yè)革命。AI的概念最早是在1956年由約翰·麥卡錫提出,他定義AI是一個通用術語,“指表現(xiàn)出智能行為的硬件或軟件”[1]。但直到最近,由于新算法、專業(yè)硬件、云服務和大數(shù)據(jù)的發(fā)展,AI才得以實現(xiàn)。機器學習(machine learning, ML)出現(xiàn)于20世紀80年代,是AI的一個分支,是計算機通過從已知數(shù)據(jù)庫中提取廣義原理,應用在新數(shù)據(jù)上做預測的方法。深度學習(deep learning, DL)出現(xiàn)在21世紀初,是機器學習中重要的子領域,主要作用是大數(shù)據(jù)處理以及預測分析[2]。DL通過模擬人腦的統(tǒng)計模式,根據(jù)互聯(lián)節(jié)點層間連接的權重來處理輸入,使用表征學習方法自動提取所需的特征,并對復雜的數(shù)據(jù)集進行分類[3],大大減少了算法結構對人力的依賴。DL為現(xiàn)代社會的許多方面提供了動力,例如識別圖像中的物體、實時語言翻譯、語音操作設備等等。
近年來,醫(yī)療保健領域一直走在AI應用的前沿。AI在眼科領域的應用同樣是近年來的熱點。AI通過對眼科影像學檢查結果進行智能分析,在糖尿病視網(wǎng)膜病變(DR)、年齡相關性黃斑變性(AMD)、青光眼等老年人常見眼科疾病的篩查、診斷、分級和指導治療方面展現(xiàn)了強大的性能,同時在眼科遠程醫(yī)療中也有重要應用[4-5]。
在這篇綜述中,我們總結了近年來AI在眼科領域的主要進展,闡明了現(xiàn)階段AI應用于臨床可能存在的一些問題,并指出了一些解決方法和未來發(fā)展方向。
DM是一種發(fā)病率逐年增加的常見代謝性疾病。據(jù)WHO推算,到2030年,DM總人數(shù)將達到3.66億。DR是DM常見的微血管并發(fā)癥,是老年人群后天性失明的主要病因。隨著DM病人人數(shù)的增加,預計到2030年DR和視力威脅DR(VTDR)病人的數(shù)量將分別增至1.91億和5630萬[6]。視網(wǎng)膜病變的早期檢測是DM病人管理的重要組成部分。美國糖尿病協(xié)會的現(xiàn)行指南建議沒有任何眼部癥狀的DM病人每2年看1次眼科醫(yī)生。
在過去幾年中,世界各地的許多科研團隊致力于將DL與DR的篩查相結合,可能改變傳統(tǒng)的DR篩查模式。 Abràmoff等[7]曾在2013年基于874例DM病人的數(shù)字眼底彩色圖像開發(fā)了愛荷華檢測項目(IDP),以檢測可疑的糖尿病性視網(wǎng)膜病變(RDR),并利用 Messidor-2 數(shù)據(jù)集驗證,得到IDP的靈敏度和特異度分別為96.8%和59.4%,AUC為0.937。2016年時,Abràmoff等[8]又驗證了用于DR檢測的DL增強算法,其靈敏度和特異度分別為96.8%和87.0%,AUC為0.98,大大提升了算法的特異度。Gulshan等[9]用128 175張眼底視網(wǎng)膜圖像訓練開發(fā)了DR篩查的新系統(tǒng),該算法最大的特點是具有多個操作點,因此可以調(diào)整其靈敏度和特異度以匹配特定臨床設置的要求。雖然DL結合DR篩查展現(xiàn)出了強大的診斷效率,但是DL對于診斷特征的抓取并不會自動顯示出來,并且這些特征可能是人們以前未知或忽略的。因此,臨床醫(yī)生和病人都擔心DL像一個“黑箱子”,缺乏解釋性。Gargeya等[10]開發(fā)的算法通過自動生成的異常區(qū)域熱圖,使得DL學習到的信息可視化,該算法在使用訓練數(shù)據(jù)集進行5倍交叉驗證時的AUC為0.97,靈敏度和特異度分別為94%和98%。Reguant等[11]則運用了更加先進的Grad-cam方法嘗試將DL的分類過程可視化,使用了Inception-v3等4個神經(jīng)網(wǎng)絡分別獨自訓練來對眼底照片進行5級分類,該研究得到的準確率為89%~95%,AUC、敏感度和特異度分別為95%~98%、74%~86%和93%~97%。Ting等[12]首次將DL篩查系統(tǒng)應用于真實的DR篩查計劃并從6個不同的國家和地區(qū)來自10個不同社區(qū)、不同人種的外部數(shù)據(jù)集進行驗證,基于VGG-19開發(fā)的DL篩查系統(tǒng)在檢測RDR和VTDR時的AUC、靈敏度、特異度分別為0.936、90.5%、91.6%和0.958、100%、91.1%,10個外部數(shù)據(jù)集的AUC為0.889~0.983。Li等[13]回顧性地從上海市第一人民醫(yī)院收集3285例病人的8739張視網(wǎng)膜眼底圖像,使用深度集成優(yōu)化了的Inception-v4算法檢測DR和糖尿病黃斑水腫(DMO),并在DR檢測上實現(xiàn)了99.2%、92.5%和96.1%的AUC、靈敏度和特異度,在DMO檢測上實現(xiàn)了99.4%、93.0%和97.1%的AUC、靈敏度和特異度,其表現(xiàn)等于或超過眼科醫(yī)生。
來自上海交通大學的Dai等[14]開發(fā)了一個名為DeepDR的深度學習系統(tǒng),大大提升了早期DR的檢測準確性。該系統(tǒng)基于對視網(wǎng)膜病變的準確檢測,實現(xiàn)了DR從早期到晚期的全過程診斷,對微動脈瘤的檢測尤其準確。還有學者將AI對DR的篩查用于初級保健中心[15]或者社區(qū)衛(wèi)生服務中心[16]。時至今日,AI在DR中的應用已日趨成熟,研究從公開的視網(wǎng)膜圖片數(shù)據(jù)庫漸漸轉(zhuǎn)向真實世界,很多研究從經(jīng)濟效益等更實用的角度評估了AI在DR篩查和分期中的應用。然而,在中低收入國家,AI大規(guī)模運用于DR的臨床篩查在當下仍不可行。
AMD占全球所有失明病人的8.7%,是發(fā)達國家最常見的致盲原因,尤其是60歲以上人群。隨著人口老齡化的大幅加快,其流行率可能會進一步增加。預計到2040年,2.88億病人可能患有AMD,約10%的病人患有中度或更嚴重的AMD[17]。年齡相關眼病研究(AREDS)將AMD分為無、早期、中期和晚期。美國眼科學會建議,中度或更嚴重的AMD病人至少每2年就診1次。和DR一樣,AMD的篩查與AI結合同樣展現(xiàn)了巨大的潛力。
Ting等[12]報告了一種基于臨床AMD篩查開發(fā)的DL篩查系統(tǒng),使用38 189例病人的108 558張未經(jīng)黃斑分割的以視網(wǎng)膜中心凹為中心的視網(wǎng)膜圖像對DL系統(tǒng)進行了訓練和測試。使用DL架構VGG-19開發(fā)的DL系統(tǒng)在檢測AMD時的AUC、靈敏度和特異度分別為0.932、93.20%和88.70%。Burlina等[18]基于AREDS數(shù)據(jù)集4613例病人的十多萬張眼底照片將AMD進行了二元分類:無AMD和早期AMD分為一類,中期AMD和晚期AMD分為一類,并訓練了2個不同的DL系統(tǒng)以比較它們的準確率,分別是AlexNet的DCNN模型(DCNN-A)和OverFeat的DCNN(DCNN-U),其中DCNN-U使用了遷移學習的方法。使用原數(shù)據(jù)集進行五倍交叉驗證,DCNN-A報告的診斷準確率為88.4%~91.6%,AUC為0.94~0.96。DCNN-U報告的診斷準確率為82.4%~83.9%,AUC為0.89~0.90。然而,該研究的一個局限性在于它完全依賴于AREDS數(shù)據(jù)集,沒有使用單獨收集的臨床數(shù)據(jù)集進行性能評估。Grassmann等[19]通過DL對AMD進行自動分級,基于AREDS 9級嚴重等級量表將眼底圖像分為13類。同樣運用AREDS數(shù)據(jù)集,并從中提取了3654例病人的120 656張眼底圖片,70%用于訓練集,20%用于驗證集,10%用于測試集,并且加入了包含5555張眼底圖片的KORA數(shù)據(jù)集作為獨立外部測試數(shù)據(jù)集。該研究訓練了6個不同的卷積神經(jīng)網(wǎng)絡(CNN)并應用了數(shù)據(jù)增強方法。同時,針對DL領域的“黑匣子”問題,該研究通過隨機屏蔽部分眼底圖像后檢測結果的準確率來確定眼底圖像中被DL感知和整合的重要區(qū)域,從而將DL的分類過程可視化。
由于單眼患滲出性“濕性”年齡相關性黃斑變性(exAMD)的病人,另一只眼患exAMD的概率將大幅增加。Yim等[20]選擇了2795例單眼患有exAMD的病人,用每1~12個月獲得1次的同眼光學相干斷層掃描(OCT)圖像訓練CNN,以輸出1個分數(shù),表示6個月內(nèi)轉(zhuǎn)化為exAMD的可能性。Yim在ROC曲線上確定了2個可用于不同臨床場景的操作點:一個高靈敏度操作點具有80%的靈敏度和55%的特異度,另一個高特異度操作點具有34%的靈敏度和90%的特異度。這一表現(xiàn)超過了6名視網(wǎng)膜專家中的5名。
青光眼是全球范圍內(nèi)導致失明的主要原因[21]。 全球40~80歲人群青光眼的患病率為3.4%,到2040年,青光眼病人人數(shù)預計將增加到1.118億[22]。AI將在青光眼的篩查、診斷和監(jiān)測中發(fā)揮著關鍵作用。
AI應用于青光眼篩查最大的困難在于青光眼是一種異質(zhì)性疾病,對該疾病的結構和功能損害難以達成一致性定義。在青光眼的早期階段,定義和診斷尤其困難。臨床上通常用杯盤比(CDR)來量化青光眼的視神經(jīng)病變。然而,人群中視盤的面積差異可以達到5倍,所以實際上用CDR來定義視杯的病理性擴大是不合理的。雖然青光眼的定義并不明確,但DL系統(tǒng)可以被訓練用來識別疾病的表型特征。 Ting等[12]將青光眼視盤改變的標準定為CDR>0.8,以此來訓練算法檢測青光眼。相似地,Li等[23]則把青光眼視盤改變的標準定為CDR>0.7。這兩個算法檢測結果的準確率都超過90%。相較于將單一的采用CDR值作為標準,Shibata等[24]開發(fā)的青光眼檢測系統(tǒng)則加入了更多眼底特征性改變,如視網(wǎng)膜神經(jīng)纖維層萎縮、視盤出血和視乳頭周圍萎縮等,這些眼底病變發(fā)生在CDR增高之前。檢測系統(tǒng)使用3242張確診青光眼病人的眼底照片對算法進行訓練和測試,得到了0.965的極高AUC。Elze等[25]開發(fā)了一個無監(jiān)督的計算機算法,以識別包括青光眼和非青光眼缺陷的視野缺損模式,并為這些模式分配加權系數(shù)。該方法已被證明可用于檢測青光眼引起的早期視力缺損。Yousefi等[26]使用另一種高斯混合和期望值最大化方法沿不同軸分解視野,以檢測視野缺損的進展。在檢測視野缺損進展方面,此算法優(yōu)于當前其他算法。在青光眼的治療和臨床預測方面,盡管當今常用的降低青光眼眼內(nèi)壓(intraocular pressure, IOP)的治療方法已被證明在延緩青光眼進展方面有效,但一些研究表明,疾病進展仍然不可避免。這表明,我們尚未找到針對各種形式青光眼的最佳治療方案。針對于此,Kazemian等[27]開發(fā)了一種臨床預測工具,該工具使用眼壓和視野數(shù)據(jù)來預測不同目標眼壓下的疾病軌跡。進一步完善該工具,整合其他眼科和非眼科數(shù)據(jù),將有助于建立目標眼壓,并根據(jù)具體情況制定實現(xiàn)目標的最佳策略。Schell等[28]則通過眼內(nèi)壓和視野的縱向數(shù)據(jù)準確預測了青光眼病人的視野缺損進展。
AI在眼科的應用可以與遠程醫(yī)療聯(lián)合使用,作為一種良好的醫(yī)療供需失衡的解決方案,AI技術在DR、AMD、青光眼等圖像的特征提取和自動化篩查中具有良好的臨床應用前景。但目前還存在一些不足和挑戰(zhàn),包括臨床技術挑戰(zhàn)、算法結果的準確性和可解釋性、病人的隱私保護倫理問題等。如何明確AI可能引起的醫(yī)療事故、醫(yī)療糾紛等的主體責任問題,也亟待解決。
綜上,AI在眼科領域的研究和應用取得了巨大的成果,當下仍存在一些不足和挑戰(zhàn),但隨著AI技術的不斷發(fā)展和人們將AI運用于醫(yī)療領域研究的深入,這些問題或許可以迎刃而解。