陳銘海 白 芳 陶 海
人工智能(AI)是指通過(guò)使計(jì)算機(jī)對(duì)人的思維過(guò)程和行為進(jìn)行模擬,從而實(shí)現(xiàn)從海量數(shù)據(jù)中自動(dòng)獲取并分析有價(jià)值的信息的技術(shù)。大量的研究表明,無(wú)論是文字資料,還是圖片資料,或者是聲音資料等,AI都有著強(qiáng)大的處理能力。在眼科領(lǐng)域,AI常與眼部影像資料結(jié)合以輔助臨床診斷[1-2],為很多眼部疾病的診療提供了新的可能性。由于人體和疾病的復(fù)雜性,單一模態(tài)的數(shù)據(jù)所提供的信息往往不夠全面,因此對(duì)于多模態(tài)數(shù)據(jù)綜合利用的需求逐漸增加。多模態(tài)數(shù)據(jù)融合技術(shù)(MDF)是AI領(lǐng)域中的一種數(shù)據(jù)處理技術(shù),是指利用計(jì)算機(jī)進(jìn)行多模態(tài)數(shù)據(jù)的綜合處理,即對(duì)那些從不同領(lǐng)域或不同視角對(duì)同一對(duì)象進(jìn)行描述時(shí)所獲得的數(shù)據(jù)進(jìn)行綜合處理的一項(xiàng)技術(shù)[3],其對(duì)于描述對(duì)象的分析有更高的準(zhǔn)確性與可靠性。研究表明,該技術(shù)能夠提高AI輔助診斷的準(zhǔn)確性,并能提高診斷效率,降低診斷成本,近年來(lái)已成為眼科AI研究領(lǐng)域的熱點(diǎn)并取得了較大的進(jìn)展。本文對(duì)MDF的原理與優(yōu)勢(shì)、發(fā)展簡(jiǎn)況、架構(gòu)與主要技術(shù)難點(diǎn)、MDF在眼科的研究現(xiàn)況及目前存在的尚待解決的問(wèn)題進(jìn)行扼要的綜述。
模態(tài)是指針對(duì)描述對(duì)象的一個(gè)領(lǐng)域或者視角所獲得的數(shù)據(jù),多模態(tài)是指從不同領(lǐng)域或視角描述同一對(duì)象所獲得的數(shù)據(jù),不同模態(tài)間都存在不同程度的異質(zhì)性。為了應(yīng)對(duì)模態(tài)間的異質(zhì)性,MDF需要將各個(gè)模態(tài)特征投射到一個(gè)公共子空間以實(shí)現(xiàn)將多模態(tài)數(shù)據(jù)相互融合的目標(biāo)。因此,降低異質(zhì)性的影響,使得各模態(tài)所攜帶的數(shù)據(jù)能更好融合在一起,即縮小語(yǔ)義子空間中的分布差異,同時(shí)保持特定語(yǔ)義的完整是MDF的主要目標(biāo)[3]。
單模態(tài)數(shù)據(jù)處理技術(shù)是指僅利用或處理一種類(lèi)型或單一來(lái)源的數(shù)據(jù)的處理技術(shù),如單一的CT圖片、OCT圖片、患者圖片或視頻等。與傳統(tǒng)單模態(tài)數(shù)據(jù)處理相比,MDF具有以下優(yōu)勢(shì):(1)利用多模態(tài)數(shù)據(jù)能更加全面分析出目標(biāo)的真實(shí)情況,有著更高的準(zhǔn)確性;(2)在缺少某一模態(tài)信息時(shí),另一模態(tài)能迅速填補(bǔ),有著更高的可靠性;(3)MDF有潛力突破單模態(tài)信息來(lái)源的束縛,更加符合人在真實(shí)世界對(duì)外界信息的獲取與處理。
1989年,有學(xué)者利用McGurk效應(yīng)結(jié)合了來(lái)自聽(tīng)覺(jué)和視覺(jué)的兩種信息源,實(shí)現(xiàn)了在沒(méi)有聲音信號(hào)的情況下,僅靠視覺(jué)信號(hào),通過(guò)唇讀獲得語(yǔ)音信息的可能[4-5],成為最早多模態(tài)融合的研究之一。隨著技術(shù)的進(jìn)步多模態(tài)融合進(jìn)入多個(gè)領(lǐng)域,如多媒體內(nèi)容索引和檢索、人類(lèi)社會(huì)行為研究、情緒識(shí)別和情感計(jì)算等各種領(lǐng)域。在醫(yī)學(xué)領(lǐng)域,1996年就有學(xué)者研究如何更好地將正電子發(fā)射斷層掃描技術(shù)(PET)與電子計(jì)算機(jī)斷層掃描(CT)融合,最終在MDF的幫助下,PET-CT應(yīng)運(yùn)而生[6]。MDF在醫(yī)學(xué)方面一路發(fā)展至今,在眼科學(xué)、腫瘤學(xué)、精神病學(xué)等領(lǐng)域,尤其是在神經(jīng)學(xué)中的阿爾茨海默病領(lǐng)域取得了較大的進(jìn)展[7]。
MDF的架構(gòu)通常是指處理和整合不同模態(tài)數(shù)據(jù)的方法和結(jié)構(gòu)。它規(guī)定了數(shù)據(jù)如何在系統(tǒng)中流動(dòng)、被處理和被組織,以及各個(gè)組件如何互相交互,同時(shí)定義了整個(gè)系統(tǒng)的設(shè)計(jì)和運(yùn)行原則。根據(jù)架構(gòu)的特點(diǎn),其可分為聯(lián)合架構(gòu)、協(xié)同架構(gòu)以及編解碼器架構(gòu)[3]。聯(lián)合架構(gòu)是將各模態(tài)映射到共享語(yǔ)義子空間中,再通過(guò)“加”或者“乘”的方式聯(lián)合,方法簡(jiǎn)單但容易造成語(yǔ)義丟失且對(duì)每個(gè)單模態(tài)要求高。協(xié)同框架是以尋找協(xié)調(diào)子空間中模態(tài)間的關(guān)聯(lián)關(guān)系為目標(biāo),使得各模態(tài)在一定條件下進(jìn)行相互協(xié)同,兼具模態(tài)協(xié)同和特征融合的特點(diǎn),但由于各模態(tài)之間仍然具有較大的排他性,因此模態(tài)融合較為困難。編解碼器架構(gòu)主要由編碼器和解碼器構(gòu)成,將一種模態(tài)映射到另一種模態(tài)之中,即在源模態(tài)基礎(chǔ)上生成新模態(tài),但其決策模塊復(fù)雜且每個(gè)編碼器和解碼器只能對(duì)應(yīng)其中一種模塊。
要將不同來(lái)源、不同形態(tài)的數(shù)據(jù)融合在一起將會(huì)遇到各種技術(shù)難點(diǎn)和問(wèn)題[4]。第一個(gè)便是代表(representation),即用同一種“語(yǔ)言”將不同模態(tài)的信息準(zhǔn)確且有效地表達(dá)和總結(jié)。其次是翻譯(translation),即將不同模態(tài)間的數(shù)據(jù)相互轉(zhuǎn)化,使之能在同一框架下進(jìn)行數(shù)據(jù)處理。之后是對(duì)齊(alignment),即確定來(lái)自?xún)蓚€(gè)或多個(gè)不同模態(tài)的(子)元素之間的直接關(guān)系,如時(shí)間和空間上的對(duì)齊。此后便是融合(fusion),即利用不同模式的信息進(jìn)行結(jié)合以便于預(yù)測(cè)。最后是共同學(xué)習(xí)(co-learning),用一種模態(tài)來(lái)訓(xùn)練另一種模態(tài),即讓多模態(tài)進(jìn)行共同學(xué)習(xí)與提升。
為了解決“融合”這一大技術(shù)難點(diǎn),需要設(shè)計(jì)和實(shí)施一些特定的數(shù)據(jù)處理和學(xué)習(xí)算法,如模型無(wú)關(guān)的融合方法與基于模型的融合方法[8]。模型無(wú)關(guān)的融合方法包括基于各個(gè)模態(tài)特征提取的早期融合,主要發(fā)生在決策層面的后期融合以及結(jié)合了前兩者特點(diǎn)的混合融合。三者各有優(yōu)缺點(diǎn),早期融合簡(jiǎn)單卻常過(guò)擬合,后期融合雖然可以解決過(guò)擬合但對(duì)訓(xùn)練要求高,混合融合雖然較前兩者靈活且信息損失小、融合水平高,但并非所有情況都適合,還需具體問(wèn)題具體分析[8]。而基于模型的融合方法是從實(shí)現(xiàn)技術(shù)和模型的角度來(lái)解決“融合”這一難題,包括多核學(xué)習(xí)(MKL)、圖像模型方法(GM)、神經(jīng)網(wǎng)絡(luò)方法(NN)。MKL能夠靈活地將多個(gè)可以看作各數(shù)據(jù)點(diǎn)之間的相似函數(shù)的“核”進(jìn)行異構(gòu)數(shù)據(jù)的融合;GM是通過(guò)圖像分割、拼接和預(yù)測(cè)對(duì)淺層或深度圖形進(jìn)行融合;NN是通過(guò)模擬生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)功能和計(jì)算來(lái)完成數(shù)據(jù)融合。目前,NN在醫(yī)學(xué)領(lǐng)域應(yīng)用非常廣泛,其不僅有很強(qiáng)的融合能力,還有較強(qiáng)的學(xué)習(xí)能力和拓展能力,但是其模型的可解釋性也偏弱[7]。
單模態(tài)數(shù)據(jù)處理在眼科領(lǐng)域從嘗試到測(cè)試,最后到部分產(chǎn)品開(kāi)始獲批上市,取得了一定的成就,如已有糖尿病視網(wǎng)膜病變(DR)相關(guān)的AI系統(tǒng)被中美兩國(guó)批準(zhǔn)使用[9-10],但由于它只能展現(xiàn)描述對(duì)象的一個(gè)視角或領(lǐng)域的特征,所以具有不可避免的局限性。為了克服這一局限性,MDF成為眼科AI當(dāng)下研究的熱點(diǎn)和未來(lái)的方向,尤其集中在眼底病、青光眼等的診斷方面。MDF可以通過(guò)融合不同角度與類(lèi)型的數(shù)據(jù),從而獲得患者更加全面且準(zhǔn)確的信息,對(duì)病情進(jìn)行更加精準(zhǔn)的分析。
2.1.1 年齡相關(guān)性黃斑變性
年齡相關(guān)性黃斑變性(AMD)是發(fā)達(dá)國(guó)家最重要的致盲眼病之一[11],常用的診斷技術(shù)包括熒光素眼底血管造影(FFA)、OCT、眼底照相等[12]。MDF將多種診斷技術(shù)進(jìn)行融合,能夠提高診斷的準(zhǔn)確性。
2.1.1.1 OCT聯(lián)合眼底照相
有學(xué)者借助MDF技術(shù),利用多模態(tài)隨機(jī)森林模型、受限玻爾茲曼機(jī)和深度信念網(wǎng)絡(luò)算法,融合OCT圖片和眼底照片,鑒別正常黃斑和AMD的黃斑結(jié)構(gòu)[13]。結(jié)果顯示,效果最佳的OCT圖像聯(lián)合眼底照片的模型與單模態(tài)OCT圖片的深度學(xué)習(xí)(P<0.001)或者單模態(tài)眼底照片的深度學(xué)習(xí)(P<0.001)相比,無(wú)論是受試者工作特征曲線(xiàn)下面積(AUC)還是診斷準(zhǔn)確率,多模態(tài)模型的結(jié)果都更理想,其中AUC是用來(lái)評(píng)估一項(xiàng)測(cè)試的分類(lèi)能力的指標(biāo),數(shù)值越接近1結(jié)果越理想[14]。之后,有研究團(tuán)隊(duì)利用基于雙流卷積神經(jīng)網(wǎng)絡(luò)而來(lái)的多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)(MM-CNN)將OCT與眼底照片融合在一起,幫助臨床醫(yī)生識(shí)別正常黃斑以及干性AMD、息肉樣脈絡(luò)膜血管病(PCV)以及濕性AMD(不包括PCV)[15]。在識(shí)別PCV和濕性AMD上該模型表現(xiàn)出比單模態(tài)的OCT-CNN更高的準(zhǔn)確率。
2.1.1.2 OCT聯(lián)合眼底紅外反射圖像
有學(xué)者利用眼底紅外反射圖像(IR)和OCT圖像建立2個(gè)單模態(tài)模型(分別是只利用IR與OCT的模型IR-ONLY、OCT-ONLY)和3個(gè)多模態(tài)模型(IR-MAIN、OCT-MAIN、DUAL),幫助臨床醫(yī)生將AMD分類(lèi)(正常黃斑、干性AMD和濕性AMD)[16]。3種多模態(tài)模型區(qū)別在于利用該團(tuán)隊(duì)提出的一種新的特征融合方法——垂直平面特征融合,將紅外圖像提供的全局信息和OCT掃描圖像提供的細(xì)微信息朝著不同方向融合,即IR-MAIN模型為將OCT圖像融合于IR圖像,OCT-MAIN模型則相反,而DUAL模型是將兩種圖像相互融合。無(wú)論是內(nèi)部還是外部數(shù)據(jù)集,OCT-MAIN模型(即以O(shè)CT資料為主,IR資料為輔的融合策略)的準(zhǔn)確率在五個(gè)模型中相對(duì)較高,能夠達(dá)到富有經(jīng)驗(yàn)的高級(jí)醫(yī)生的水平。
方向圖代表了一個(gè)指紋圖像的固有屬性,同時(shí)也定義出了局部鄰域中脊、谷的固定坐標(biāo)。通過(guò)原始指紋圖像的方向紋理,我們對(duì)指紋圖像方向場(chǎng)的估計(jì)采用以下算法[14]:
2.1.1.3 OCT聯(lián)合OCTA
OCTA能夠展現(xiàn)視網(wǎng)膜血管情況。有學(xué)者提出將頻域光學(xué)相干斷層掃描(SD-OCT)圖像和OCTA圖像結(jié)合在一張圖中,幫助臨床醫(yī)生診斷AMD晚期的脈絡(luò)膜新生血管,即將OCT圖像與OCTA圖像輸入融合模型,輸出一張可以準(zhǔn)確包含上述兩張圖像主要信息的圖片,幫助臨床醫(yī)生更好地利用這兩種影像資料,這也是MDF提升臨床診斷效率的體現(xiàn)[17]。另外,有學(xué)者利用特征級(jí)融合方法建立深度學(xué)習(xí)模型,結(jié)合OCT與OCTA圖像來(lái)識(shí)別AMD晚期的脈絡(luò)膜新生血管,實(shí)現(xiàn)了 95.50%的準(zhǔn)確率和0.979 6 的AUC,相當(dāng)于一位經(jīng)驗(yàn)豐富的眼底病醫(yī)生的水平[12]。
2.1.2 DR
隨著糖尿病的患病率不斷上升,DR成為了眼病篩查的重點(diǎn)之一[9]。AI能夠快速識(shí)別圖片,為篩查和診斷DR提供了經(jīng)濟(jì)且準(zhǔn)確的方法。有研究團(tuán)隊(duì)利用眼底照相結(jié)合病歷中非圖像數(shù)據(jù),建立了針對(duì)DR的深度學(xué)習(xí)模型,該模型能夠更好地識(shí)別出需要轉(zhuǎn)診的DR與不需要轉(zhuǎn)診的DR[18],AUC達(dá)到0.979 6,靈敏度為96.84%,特異性為89.44%,顯著優(yōu)于單模態(tài)的圖像或非圖像信息的模型。該模型的出現(xiàn),為非眼科醫(yī)生對(duì)糖尿病患者轉(zhuǎn)診至專(zhuān)業(yè)眼科的時(shí)機(jī)判斷,提供了一個(gè)新的解決方案,在及時(shí)干預(yù)DR與合理利用醫(yī)療資源之間找到了一個(gè)平衡。另外,Tseng等[19]提出通過(guò)融合不同的基于眼底照相的單模態(tài)深度學(xué)習(xí)模型,組成一個(gè)多模態(tài)深度學(xué)習(xí)模型來(lái)提高診斷DR的準(zhǔn)確率,開(kāi)發(fā)了將病變信息與疾病嚴(yán)重程度分類(lèi)結(jié)合的融合架構(gòu)。該團(tuán)隊(duì)分別運(yùn)用了晚期融合與兩階段早期融合構(gòu)成的兩種多模態(tài)深度學(xué)習(xí)模型,在運(yùn)用晚期融合的多模態(tài)深度學(xué)習(xí)模型中,利用后處理將分級(jí)模型和病變分類(lèi)模型結(jié)合在一起,在運(yùn)用兩階段早期融合的多模態(tài)深度學(xué)習(xí)模型中突出了可疑的DR,并在第一階段產(chǎn)生完全加權(quán)的病變圖像。根據(jù)測(cè)試結(jié)果與最先進(jìn)算法比,兩種融合模式均表現(xiàn)良好。這一研究結(jié)果也提示,在沒(méi)有更多疾病資料的輔助下,利用同一資料的不同分析方向的資料融合,能提高對(duì)相應(yīng)疾病的診斷準(zhǔn)確度。
2.1.3 其他眼底疾病的篩查
有研究團(tuán)隊(duì)利用新型模態(tài)特異性注意網(wǎng)絡(luò)(MSAN)將眼底照相和OCT優(yōu)點(diǎn)結(jié)合[20],診斷包括DR、AMD以及病理性近視在內(nèi)的多種眼底疾病。通過(guò)將兩種多模態(tài)模型[AUC:0.729 2(雙流卷積神經(jīng)網(wǎng)絡(luò))和0.855 2(MSAN)]與眼底單模態(tài)模型(AUC:0.658 3)和OCT單模態(tài)模型(AUC:0.701 4)對(duì)比,證明了在該實(shí)驗(yàn)中多模態(tài)模型優(yōu)于單模態(tài),并且MSAN模型的診斷準(zhǔn)確率明顯優(yōu)于上述其他模型。與融合不同的影像資料不同,有學(xué)者提出將基于OCT的多種算法進(jìn)行融合,來(lái)提高對(duì)眼底脈絡(luò)膜新生血管、脈絡(luò)膜玻璃膜疣與糖尿病黃斑水腫的診斷效果[21]。他們提出了基于融合網(wǎng)絡(luò)(FN)的視網(wǎng)膜OCT兩種線(xiàn)性融合策略(FN-F1-OCT,FN-Weight-OCT)和一種非線(xiàn)性融合策略(FN-Auto-OCT),融合了InceptionV3、Inception-ResNetV2和Xception三種卷積神經(jīng)網(wǎng)絡(luò)(CNN)的類(lèi)型。同時(shí)將三種融合模型與Kermany等[22]所提出的模型進(jìn)行對(duì)比,在準(zhǔn)確率上平均提高了5%,其中以FN-Auto-OCT融合算法為最優(yōu)。這種集成算法的思路或許會(huì)成為提高單一檢查準(zhǔn)確率的方案。另外,有學(xué)者對(duì)術(shù)前黃斑OCT圖像數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)[23],和患者結(jié)構(gòu)化數(shù)據(jù)的多層感知器進(jìn)行融合處理,實(shí)現(xiàn)將OCT與患者文字資料結(jié)合,預(yù)測(cè)特發(fā)性視網(wǎng)膜前膜患者在玻璃體切割術(shù)后6個(gè)月的視力。研究結(jié)果顯示了其能夠精確預(yù)測(cè)患者術(shù)后6個(gè)月的最佳矯正視力。
視網(wǎng)膜母細(xì)胞瘤是常見(jiàn)的眼科惡性腫瘤。眼底照相在評(píng)估視網(wǎng)膜情況中發(fā)揮重要作用,不過(guò)雖然其分辨率高,卻只能呈現(xiàn)視網(wǎng)膜的二維圖像。然而,核磁共振(MRI)可以描繪出視網(wǎng)膜的三維圖像,但是它存在著分辨率低的問(wèn)題。對(duì)此,有研究團(tuán)隊(duì)提出通過(guò)自動(dòng)監(jiān)測(cè)出眼底相關(guān)解剖標(biāo)志,如視盤(pán)等,將眼底照相與MRI融合在一起,為MRI增加了包括眼底血管在內(nèi)的以往無(wú)法顯示的信息[28],以幫助診斷視網(wǎng)膜母細(xì)胞瘤。而前文所提到的將眼底照相與OCT進(jìn)行融合來(lái)診斷AMD,是該研究之后將二維圖像與三維圖像優(yōu)點(diǎn)相結(jié)合的又一個(gè)嘗試。
迄今,MDF雖然取得令人欣喜的進(jìn)展,但是依舊存在一些有待解決的問(wèn)題。首先,如何將各個(gè)模態(tài)的信息更好利用,既不會(huì)因信息過(guò)多而使其過(guò)于冗雜不利于最終結(jié)果的解讀,也不會(huì)因?yàn)樾畔⑦^(guò)少導(dǎo)致無(wú)法反映真實(shí)情況,探求一個(gè)平衡點(diǎn)是眾多新模型不斷努力的方向。其次,目前有些在單模態(tài)運(yùn)用順利的算法,在多模態(tài)上運(yùn)用后效果不佳,而且目前多是以雙模態(tài)為主,對(duì)更多模態(tài)的探索一定程度上是受限于目前的算法。最后,相對(duì)于模型訓(xùn)練龐大的訓(xùn)練量,常會(huì)遇到訓(xùn)練集數(shù)量不夠的狀況,有待更多的研究去解決。
近年來(lái),MDF在眼科領(lǐng)域的應(yīng)用已取得較大進(jìn)展,尤其是對(duì)AMD、DR、青光眼等疾病的診斷。盡管距離實(shí)現(xiàn)AI幫助臨床醫(yī)生進(jìn)行疾病診斷還有許多困難需要克服,關(guān)于MDF的疾病診斷更多的是在研究階段,但是隨著技術(shù)的不斷進(jìn)步,各種算法的不斷完善,未來(lái)MDF將有可能實(shí)現(xiàn)在真實(shí)世界中為臨床醫(yī)生提供真正高效、可靠的臨床輔助診斷。