丁國輝,張 琦,房士超,李 青,孫小宇,,張路霞,,孔桂蘭,
1.北京大學 健康醫(yī)療大數(shù)據(jù)國家研究院,北京 100191
2.沈陽航空航天大學 計算機學院,沈陽 110136
3.浙江省北大信息技術高等研究院,杭州 311215
隨著計算機與大數(shù)據(jù)技術在醫(yī)學領域中的迅速應用以及醫(yī)療信息存儲標準的逐漸完善,醫(yī)學數(shù)據(jù)呈爆炸式增長。醫(yī)學數(shù)據(jù)由于其自身特點而呈現(xiàn)出多模態(tài)形式,診斷報告、多種醫(yī)療成像設備如X光、計算機斷層掃描、磁共振成像、超聲成像和正電子發(fā)射斷層掃描產(chǎn)生的醫(yī)學影像都被稱為多模態(tài)數(shù)據(jù)。且這些多模態(tài)數(shù)據(jù)往往同時出現(xiàn),互相補充[1]。如骨折的位置以及斷裂的狀態(tài)和程度可以用X光片來表示,也可以通過文字報告進行表示,實際臨床分析中通常使用以上兩種模態(tài)的數(shù)據(jù)來準確描述骨折的情況[2]。在醫(yī)學領域中,這些多模態(tài)數(shù)據(jù)混合并存,形成了一種語義上相似且相互關聯(lián)的復雜特征。如何跨越不同模態(tài)間底層異構鴻溝以及底層特征與其抽象語義間的語義鴻溝[3],進而實現(xiàn)多模態(tài)數(shù)據(jù)間的關聯(lián)是急需解決的問題。
如圖1所示,醫(yī)學領域多模態(tài)檢索,即用一種模態(tài)的樣本來檢索多種模態(tài)的醫(yī)學數(shù)據(jù),如使用文本來檢索與之語義相似的診斷報告、CT、X光片、MRI等多種模態(tài)的數(shù)據(jù),是涉及機器學習、自然語言處理、計算機視覺、大數(shù)據(jù)等技術的交叉領域,具有十分重要的學術價值和研究意義[4]。放射學科醫(yī)生進行診斷時,通常根據(jù)他們之前肉眼觀察過的病例特征來判斷,由于數(shù)據(jù)量大、經(jīng)驗有限等原因,不可避免會出現(xiàn)誤診等情況,對患者治療的準確性留下很大的隱患。而多模態(tài)醫(yī)學檢索技術能夠幫助醫(yī)生檢索到語義相似的多模態(tài)病例信息,從而提高臨床診斷和治療決策的效率與準確性,并且這些整合的醫(yī)學資源便于新手醫(yī)生和學生進行學習,也為促進計算機輔助診斷系統(tǒng)提供了一個新視角。因此,實現(xiàn)多模態(tài)數(shù)據(jù)檢索在醫(yī)療領域具有重要的臨床意義。本文通過相關文獻研究,總結了多模態(tài)檢索在醫(yī)學領域的研究進展,主要貢獻點如下:
圖1 醫(yī)學領域的單模態(tài)與多模態(tài)檢索Fig.1 Unimodal and multimodal retrieval in medical field
(1)綜述多模態(tài)檢索在醫(yī)學領域的進展,有利于快速了解和熟悉醫(yī)學大數(shù)據(jù)的多模態(tài)檢索現(xiàn)狀。
(2)對醫(yī)學領域多模態(tài)檢索方法進行歸類,并介紹不同類別的多模態(tài)檢索方法及其特點。
(3)梳理醫(yī)學領域多模態(tài)檢索面臨的挑戰(zhàn),并總結未來該領域的發(fā)展趨勢。
當前醫(yī)學領域,為從海量的異構醫(yī)學數(shù)據(jù)中提取出有效信息,幫助醫(yī)生提高臨床診斷與治療的效率及正確率,多模態(tài)檢索技術已成為一個研究熱點,尤其是在圖像檢索方面得到廣泛應用并取得較多研究成果[5-14]。本文系統(tǒng)梳理了醫(yī)學領域的多模態(tài)檢索方法,將其歸納為三類:基于文本的多模態(tài)檢索、基于內容的多模態(tài)檢索及基于融合信息的多模態(tài)檢索。其中,基于內容的多模態(tài)檢索可進一步劃分為基于傳統(tǒng)特征的檢索和基于深度特征的檢索。
基于文本的多模態(tài)檢索是早期常用的研究方法,如圖2(a)所示,該方法將數(shù)據(jù)庫中的多模態(tài)醫(yī)學圖像通過某種方法以文字的方式表示,通過將多模態(tài)檢索轉變成單模態(tài)檢索解決異構數(shù)據(jù)間的“語義鴻溝”問題[15],其依賴的文本數(shù)據(jù)一般需要從圖像描述中提取,故基于此方式的數(shù)據(jù)檢索應該提供圖像的上下文或標題。為實現(xiàn)對大量放射圖像及其相關文本的快速訪問,Kahn等[16]開發(fā)了一個包含20萬張多模態(tài)醫(yī)學圖像的搜索引擎,基于圖像標題來構建索引,然而圖像中包含的信息豐富,一個圖標題概括不了圖中所有的文本信息。于是Xu等[17]開發(fā)了一個耶魯圖像檢索系統(tǒng)(Yale image finder,YIF)來實現(xiàn)圖像與論文的檢索,不僅可以基于圖像標題、相關論文摘要和論文標題中的文字完成相關圖像及論文的檢索,而且使用光學字符識別和分析圖像中的文本,然后基于圖像中攜帶的文本來檢索生物醫(yī)學圖像和相關的論文。在圖像對應的文本描述中,并非所有文字都起到同等重要的作用,以上提到的兩種方法均無法突出圖像中的重點。為區(qū)分重點與噪音內容及得到更匹配的結果列表,Stathopoulos等[18]創(chuàng)建了圖像的結構化文本表示,并使用基于結構化文本中字段的組合對它們進行索引,由于不同字段對圖像描述的權重存在差異,因此該方法采用對相應部分的字段賦予不同的權重作為檢索階段的特征。
圖2 醫(yī)學多模態(tài)檢索方法分類Fig.2 Classification of medical multimodal retrieval methods
更早的時候,基于文本的多模態(tài)圖像檢索方式是通過醫(yī)學專家對圖像的人工注釋來構建索引的,但該方法由于昂貴的人工成本及龐大的數(shù)據(jù)量而難以實現(xiàn)。后來研究者使用圖像依附的上下文、圖像標題或識別圖中的文字來自動構建圖像的文本索引,然而這種方法仍然有很大的局限性,畢竟不是所有的醫(yī)學圖像都具有上下文及標題,且很多臨床圖像中也不包含文字,所以上文提到的基于文本的多模態(tài)檢索方法不具有普適性。
在醫(yī)學領域中,基于內容的多模態(tài)圖像檢索(content based image retrieval,CBIR)是一種圖像檢索技術,如圖2(b)所示。檢索的目標是在包含不同成像方式的多模態(tài)醫(yī)學圖像數(shù)據(jù)庫中(例如,CT圖像、X光圖像、MRI圖像、超聲圖像等)搜索與給定查詢圖像具有相似視覺特征的醫(yī)學圖像。為了實現(xiàn)這一目標,算法將圖像的視覺內容轉換成視覺特征來表示圖像,然后基于視覺特征之間的距離來計算圖片間的相似度。近年來,許多基于內容的多模態(tài)圖像檢索系統(tǒng)得到了發(fā)展,但多種模式的醫(yī)療成像設備給醫(yī)學圖像的檢索帶來了挑戰(zhàn),面對這一挑戰(zhàn),研究者開發(fā)了一系列算法用于實現(xiàn)基于內容的多模態(tài)醫(yī)學圖像檢索。通過相關文獻研究,本文將其劃分為基于傳統(tǒng)特征和基于深度特征兩種。
1.2.1 基于傳統(tǒng)特征的方法
醫(yī)學領域中使用的圖像特征主要集中于全局顏色、邊緣、紋理等,大多數(shù)檢索方法通常使用這些特征的組合。由于這些特征可以自動或半自動地從實際圖像中提取,所以它比昂貴且主觀的人工標注更可靠且更具有可擴展性[19]。Zhou等[20]提出了一個基于案例的骨折圖像檢索算法,其可以在混有X光片、計算機斷層掃描、核磁共振、血管造影等多模態(tài)圖像數(shù)據(jù)庫中完成相似圖像的檢索,案例特征(case feature)由一個視覺關鍵詞和局部尺度不變特征轉換(scale-invariant feature transform,SIFT)[21]共同組成,該方法使用案例特征來計算查詢圖像與數(shù)據(jù)庫中每張圖片的相似度。為了減小多模態(tài)圖像數(shù)據(jù)檢索中的異構差異,Liu等[22]提出了一種新的傳播圖融合框架來實現(xiàn)基于內容的多模態(tài)醫(yī)學圖像檢索,該方法首先將查詢對象在不同模態(tài)的特征空間中建模,然后將多個特征空間中的圖融合為一個以查詢對象為中心的有向傳播圖,圖中的邊反映了查詢圖像與其他數(shù)據(jù)間的相關性,最后根據(jù)結點之間的相關度來進行索引排序。同樣使用到圖的多模態(tài)醫(yī)學圖像檢索,與之不同,Kumar等[23]通過將圖像壓縮為圖的方式來實現(xiàn)正電子發(fā)射與計算機斷層掃描的檢索,圖的頂點和邊分別代表人體相關的組織器官及空間結構。這種基于空間相似性的圖檢索方法雖然有效提高了檢索精度,然而圖的存儲及圖之間相似性的比較在空間和時間上增大了算法復雜度,而且大規(guī)模醫(yī)學影像數(shù)據(jù)也會消耗巨大的存儲空間。為提高系統(tǒng)的可伸縮性與響應速度,Kitanovski等[24]開發(fā)了一種基于內容實現(xiàn)多模態(tài)醫(yī)學圖像檢索的系統(tǒng),利用編碼和量化技術極大地縮減了圖像表示的大小,其在生成的向量上使用的乘積量化技術提高了系統(tǒng)的可擴展性和響應速度。
1.2.2 基于深度特征的方法
自2006年起,深度學習飛速發(fā)展并且在眾多科學挑戰(zhàn)中取得了成功[25-29],典型的卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN)、深度置信網(wǎng)絡(deep belief network,DBN)等深度學習方法也被應用在多模態(tài)檢索領域[30-32]。深度特征即通過深度神經(jīng)網(wǎng)絡在具有不同成像方式的多模態(tài)圖像中學習到的特征,其通過多層網(wǎng)絡融合了圖像中的低級、中級和高級特征,有效解決了傳統(tǒng)特征在捕捉多模態(tài)醫(yī)學圖像之間語義相似方面的局限性問題。在組織病理學中,Wang等[33]和Janowczyl等[34]介紹了深度學習在該領域的應用,其中使用深度特征實現(xiàn)醫(yī)學圖像檢索的研究較少。然而,近幾年利用深度特征實現(xiàn)信息檢索受到了大家廣泛的關注,在醫(yī)學領域也有研究人員將深度特征用于醫(yī)療多模態(tài)圖像的檢索。Shi等[35]利用深度學習技術學習映射函數(shù),提出了基于堆棧式自動編碼器的無監(jiān)督方法和基于深度卷積神經(jīng)網(wǎng)絡的有監(jiān)督方法來挖掘不同模態(tài)間的語義關系。2020年,Mbilinyi等[36]提出利用深度特征從包含不同成像方式的多模態(tài)醫(yī)學圖像數(shù)據(jù)庫中(例如,CT圖像、X光圖像、MRI圖像、超聲圖像等)中檢索相似的醫(yī)學圖像,且使用三種圖像特征進行實驗對比:(1)從自然景物圖像訓練出的CNN模型中通過微調提取深度特征;(2)從基于醫(yī)學圖像訓練得到的CNN模型中提取深度特征;(3)使用哈拉里克和局部二值模式的紋理特征,結果證明兩種基于深度特征的檢索性能均優(yōu)于傳統(tǒng)的紋理特征。Rossi等[37]于2021年使用有監(jiān)督的深度孿生網(wǎng)絡來改進簡單CNN對醫(yī)學圖像的特征提取能力,實現(xiàn)前列腺多模態(tài)和多視圖磁共振圖像間的多模態(tài)檢索,研究表明該網(wǎng)絡[38-41]在圖像相似性度量方面的能力得到顯著的提升,該方法與成熟的基于深度學習的CBIR的實驗相比,在精度-召回率、平均精度等方面有顯著提高。盡管深度學習極大地推進了多模態(tài)檢索在醫(yī)學領域的發(fā)展,但該方法通常需要大規(guī)模數(shù)據(jù)來訓練網(wǎng)絡,耗時且占用大量的計算空間,引入哈希變換則可以很好地解決這類問題。
哈希變換是跨模態(tài)檢索技術中一種常見的性能優(yōu)化方法,其在提升檢索速度的同時,能夠降低檢索過程中的存儲開銷,因此在跨模態(tài)檢索中得到了廣泛的應用[42-46]。其思想是利用多模態(tài)數(shù)據(jù)的樣本對信息學習哈希函數(shù),函數(shù)映射的基本依據(jù)是相似樣本的哈希碼也是相似的。因此,將多模態(tài)數(shù)據(jù)映射到一個漢明空間,最小化相似樣本之間的哈希距離的同時最大化不相似樣本之間哈希距離,然后在漢明空間中即可實現(xiàn)快速的跨模態(tài)檢索[47]。Wang等[48]和Cao等[49]將哈希方法與深度學習結合,分別提出了基于堆疊式的自動編碼器和深度神經(jīng)網(wǎng)絡相關的自動編碼器。為增強特征提取與哈希編碼的一致性,Jiang等[50]將特征抽取和哈希碼學習進行整合,提出了統(tǒng)一框架,實現(xiàn)了端到端的學習。Yang等[51]將深度哈希算法應用到醫(yī)療多模態(tài)檢索領域中,提出了一個深度貝葉斯的學習框架,將多模態(tài)數(shù)據(jù)映射到一個共享的漢明空間,從而在多模態(tài)神經(jīng)圖像中學習到能代表該數(shù)據(jù)的哈希碼,哈希碼之間的距離大小代表著多模態(tài)數(shù)據(jù)間的相似程度。實驗結果表明該方法能夠生成有效的哈希碼,并在三個多模態(tài)神經(jīng)圖像數(shù)據(jù)集的檢索中取得了良好的性能。然而該方法并未考慮到人體組織間的高度相似性會帶來微小病灶信息難以區(qū)分的問題,針對醫(yī)學影像視覺差異小這一特點,Zhang等[52]通過加入attention注意力機制,利用平均池化和局部重復注意力提取全局特征,遞歸地從圖像的粗粒度移動至細粒度,完成影像中更具鑒別力區(qū)域特征的提取,其在MIMIC-CXR數(shù)據(jù)集中取得了很好的效果。以上兩者中所提到的醫(yī)學圖像均是二維平面圖,面向三維立體的ROI肺結節(jié)圖像塊,針對文獻[53]提出了使用多層面二階融合的特征提取的方法提取肺結節(jié)特征信息,首先從三個不同角度對ROI圖像塊切片并進行特征融合,然后通過改進的殘差網(wǎng)絡進行低級特征與高級特征的二階融合,提取出更完整的三維肺結節(jié)的特征信息。雖然基于哈希的多模態(tài)檢索極大地促進了計算機輔助診斷系統(tǒng)的發(fā)展,但哈希碼的弱鑒別性則對其發(fā)展造成了阻礙。Shi等[35]使用深度確定性信息瓶頸方法(deep deterministic information bottleneck,DIB)[54]來避免變分推理和分布假設從而減少多余的信息,有效地增強了哈希碼的可鑒別性。以上四種方法捕獲兩個模態(tài)之間的相關性時均使用的粗粒度的標簽信息或模態(tài)間和模態(tài)內的相似性,不利于保留原始空間和漢明空間之間的流形結構,針對這一問題,Xu等[55]直接使用多模態(tài)流行相似度來保持實例間的相關性,且引入高斯二進制受限玻爾茲曼機利用實值約束直接輸出哈希碼,無需進行任何連續(xù)松弛繼而平滑擬合,其提出的判別項可保證哈希函數(shù)所編哈希碼的每一位各不相同,解決了哈希碼弱鑒別性問題。
從以上提到的模型可以看出:基于內容的多模態(tài)檢索技術逐漸趨于成熟。同時,也經(jīng)歷了從基于傳統(tǒng)特征到基于深度特征方法的改進,繼續(xù)使用傳統(tǒng)的視覺特征很難在準確率與召回率方面得到明顯的提升,目前深度神經(jīng)網(wǎng)絡發(fā)展迅速,其強大的非線性特征提取具有很大的潛力,所以使用基于深度學習的方法會是今后重點研究的方向。鑒于深度模型的參數(shù)龐大,需要大量標注的訓練樣本,可以考慮結合遷移學習等方法解決這一問題。
盡管基于內容的多模態(tài)醫(yī)學圖像檢索取得了一些進展,但現(xiàn)有系統(tǒng)的檢索精度仍然有限,所以將基于內容和基于文本的方法結合起來進行多模態(tài)圖像檢索以克服這兩種方法分別進行檢索時的不足成為一個研究熱點。如圖2(c)所示,信息融合常用的方法是利用從文本中提取的語義信息與圖像特征信息進行組合。Martín-Valdivia等[56]使用信息增益(information gain,IG)度量來篩選文本中的有效語義信息,然后通過融合圖像與文本信息對基于視覺內容的多模態(tài)圖像檢索系統(tǒng)進行改進。融合多模態(tài)異構信息提取出更高級的語義特征,可以更好彌補模態(tài)間語義鴻溝。除了這種特征級融合算法,Vikram等[57]還探索了決策級特征融合技術在醫(yī)學多模態(tài)檢索中的效果,其使用一種基于潛在狄利克雷分配(latent Dirichlet allocation,LDA)的視覺特征編碼方法,首先利用視覺特征來與數(shù)據(jù)庫中的圖像進行相似度衡量,然后將文本作為補充語義來篩選出更理想的結果列表,研究結果表明這些特征能夠有效地對多模態(tài)醫(yī)學圖像進行建模。該文提出的決策級融合技術在Image-CLEF2009數(shù)據(jù)集上實現(xiàn)了比其他技術更高的平均精度均值,證明了其適用于多模態(tài)醫(yī)學圖像檢索??紤]到現(xiàn)實的臨床應用中經(jīng)常會缺失一些模態(tài),Cao等[58]開發(fā)了一種新的基于深度玻爾茲曼機的多模態(tài)學習模型,從多模態(tài)信息中學習聯(lián)合密度模型來生成缺失的模態(tài),然后使用一種新的概率潛在語義分析模型(probabilistic latent semantic analysis,PLSA)整合醫(yī)學圖像的視覺和文本信息,通過融合多模態(tài)異構信息提取出高級語義特征彌補語義鴻溝。該方法在很大程度上提高了醫(yī)學圖像檢索的性能,在臨床實踐和醫(yī)療保健方面也有很大的應用潛力。然而,其中對生成缺失模態(tài)信息的算法要求會比較高,生成算法的準確率直接影響檢索算法的性能。
不同模態(tài)的數(shù)據(jù)從不同角度表達了多種相關信息,通過挖掘多模態(tài)數(shù)據(jù)內在內容的相關性可以達到優(yōu)勢互補的效果。融合的信息可以更好地反映出用戶的檢索需求,有利于提高使用單一模態(tài)檢索的效率,但是算法最終的準確率依賴于融合算法的性能,如何有效地對多個單模態(tài)的數(shù)據(jù)進行特征特取與融合是一個富有挑戰(zhàn)性的工作[59]。
數(shù)據(jù)集對開展多模態(tài)檢索方法研究及性能評價方面的研究至關重要,由于多模態(tài)檢索技術在醫(yī)學領域應用及發(fā)展時間比較短,所以目前醫(yī)學領域公開的多模態(tài)數(shù)據(jù)集比較少,而且,多模態(tài)數(shù)據(jù)集的規(guī)模也相對較小。醫(yī)學領域中常見的公開的多模態(tài)數(shù)據(jù)集如表1所示。
表1 醫(yī)學領域中常見多模態(tài)數(shù)據(jù)集Table 1 Common multi-modal datasets in medical field
(1)ImageCLEF:ImageCLEF是跨語言評估論壇(Cross Language Evaluation Forum,CLEF)的一部分,主要涉及信息檢索(文本、視覺、音頻、多媒體、傳感器數(shù)據(jù)、社交媒體)、機器學習、數(shù)據(jù)挖掘、自然語言處理等,尤其關注多模態(tài)、多語言的交互式方面的挑戰(zhàn)。Image-CLEF醫(yī)學圖像數(shù)據(jù)來源廣泛,包括放射學、病理學、內窺鏡和核醫(yī)學圖像,包含了2005至2007年間的66 000多幅圖像。在2013年,ImageCLEF數(shù)據(jù)集已經(jīng)擴展到30萬幅多模態(tài)醫(yī)學圖像,包括磁共振、計算機斷層掃描、正電子發(fā)射斷層掃描、超聲波和組合模式,而且所有的圖像都帶有相關的文本報告。該數(shù)據(jù)集被廣泛應用于醫(yī)學領域的多模態(tài)醫(yī)學圖像檢索中。
(2)LIDC-IDRI數(shù)據(jù)集:Lung image database consortium(LIDC-IDRI)是一個國際公開的數(shù)據(jù)庫,也是目前對肺結節(jié)研究使用最多的一個數(shù)據(jù)庫。該數(shù)據(jù)集由美國國家癌癥研究所(National Cancer Institute,NCI)發(fā)起收集,共收錄了1 010個患者的病例。每條數(shù)據(jù)由CT掃描圖像和一個相關的XML文件組成,該XML文件記錄了4位經(jīng)驗豐富的胸椎放射科醫(yī)生對圖像注釋的結果。每個放射科醫(yī)生先獨立檢查每個CT掃描,并標記出“結節(jié)≥3 mm”“結節(jié)<3 mm”“非結節(jié)≥3 mm”3者中的一種。隨后,每個放射科醫(yī)生分別檢查他們自己的標記以及其他3位放射科醫(yī)生的匿名標記,以給出最終的意見。每位患者的CT圖像切片有100至300張。
(3)MIMIC-CXR數(shù)據(jù)集:MIMIC-CXR數(shù)據(jù)集[60-61]是一個大型公開的X射線胸片數(shù)據(jù)庫,收錄于馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center,BIDMC)的227 835項影像學研究。該數(shù)據(jù)集共有377 110張胸部X射線圖像,格式為醫(yī)學數(shù)字成像和通信(digital imaging and communications in medicine,DICOM)。每張圖像有其對應的自由文本報告,該報告是由放射科臨床醫(yī)生對特定影像注釋的總結。每張圖像有14個影像學標簽,這些標簽是從相應的放射學文本報告中提取出的。為了保護患者隱私,所有圖像均已取消標識,該數(shù)據(jù)集在計算機視覺領域得到了廣泛的應用。
DICOM是一種存儲了帶有大量像素值元數(shù)據(jù)的二進制文件格式,放射學的復雜性導致DICOM格式的數(shù)據(jù)體積龐大且難以理解,這給非醫(yī)學領域的研究人員造成了障礙。為解決這一問題,MIMIC-CXR數(shù)據(jù)庫提供其簡便版本MIMIC-CXR-JPG數(shù)據(jù)庫[62],該數(shù)據(jù)庫中的內容完全來自于MIMC-CXR,其中圖像使用有損壓縮轉化為JPG格式,雖然會丟失一部分信息,但是極大地減小了圖像的存儲空間同時便于圖像的處理,以上優(yōu)點使得該數(shù)據(jù)庫在計算機視覺與信息檢索等領域很受歡迎。
(4)ChestX-ray14數(shù)據(jù)集:ChestX-ray14數(shù)據(jù)集[63]是由NIH研究院整理發(fā)布的,其中包含了30 805名患者的112 120張正面胸部X光片,每張X光片有其對應的診斷報告。研究人員對數(shù)據(jù)采用NLP方法對圖像進行標注,共標有14種不同肺部疾病。利用深度學習技術盡量早期發(fā)現(xiàn)并識別胸透照片中肺炎等疾病,對增加患者恢復和生存的最佳機會來說至關重要。
信息檢索中算法的性能通常使用測試數(shù)據(jù)集來衡量,常用的性能評價指標包括準確率和召回率,也稱查準率與查全率。準確率代表返回的結果中相似樣本所占比例,定義為:
理想情況下希望以上兩指標都高,但在實際情況中兩者是互相影響的,準確率高時召回率往往會低,而召回率高時準確率會低。構造一個高準確率同時高召回率的算法是很難實現(xiàn)的。平均精度均值(mean average precision,MAP)是將準確率和召回率結合成一個單一的綜合指標。MAP由3個遞進概念構成:P、AP、MAP。P即“precision”即上文的準確率;AP為平均準確率(average precision),其計算公式如下:
其中T為數(shù)據(jù)庫中與查詢樣本相似的總個數(shù),R是檢索結果返回的樣本總個數(shù),r為檢索結果序列中的位置索引,P(r)表示返回的前r個結果的準確率,δ(r)表示第r個檢索結果是否是查詢數(shù)據(jù)的相似樣本,若相關則δ(r)=1,否則δ(r)=0。MAP即對所有的測試樣本的AP再求均值,MAP值越大代表算法的準確性越高。對于單個主題的檢索任務來說,MAP是反映算法綜合性能的單值指標。
如今,人工智能與機器學習的飛速發(fā)展使計算機輔助診斷發(fā)生了質的飛躍,并普遍應用在實際生活中,多模態(tài)醫(yī)學數(shù)據(jù)在數(shù)量上呈現(xiàn)出海量化增長的趨勢。多模態(tài)醫(yī)學檢索技術能夠幫助醫(yī)生檢索到語義相似的多模態(tài)病例信息,從而提高臨床診斷和治療決策的效率與準確性,本文對多模態(tài)醫(yī)學檢索方法進行了較為細致的梳理與分類,對基于文本的、基于內容的以及基于融合信息的多模態(tài)醫(yī)學檢索分別進行介紹,對每類方法中的代表性算法進行了研究、分析與對比,具體見表2。
表2 (續(xù))
表2 多模態(tài)檢索方法特點分析與對比Table 2 Analysis and comparison of multi-modal retrieval methods
總的來看,多模態(tài)檢索在醫(yī)學領域已經(jīng)取得了很大的進展,但還有很大的發(fā)展空間?;谖谋镜亩嗄B(tài)檢索具有很大的局限性,而且文本描述與視覺內容差異會導致準確率低。為了解決這一問題,提出基于內容及基于融合信息的多模態(tài)檢索方法?;趦热莸亩嗄B(tài)檢索利用醫(yī)學圖像本身提取灰度、紋理、形狀等特征作為檢索的匹配準則,在臨床診斷提供了很大的幫助,此外在醫(yī)學教育和醫(yī)學研究方面也產(chǎn)生了積極深遠的影響。其中,基于深度特征的多模態(tài)醫(yī)學圖像檢索雖然需要大量的樣本使網(wǎng)絡收斂,但深度神經(jīng)網(wǎng)絡強大的非線性特征提取能力使其有很大的發(fā)展?jié)摿?,未來可以考慮與遷移學習或者小樣本學習結合?;谌诤闲畔⒌亩嗄B(tài)檢索通過融合不同模態(tài)的特征信息可以更好地彌補底層特征與高級語義的語義鴻溝問題,但算法性能依賴于信息融合的好壞,而且模型的復雜度相對增高。
(1)圖像數(shù)據(jù)復雜
與普通相機的成像方式不同,醫(yī)學圖像不是直接通過傳感器檢測光線來完成圖片的生成,而是在較為嚴格的標準下通過專業(yè)的醫(yī)學成像設備產(chǎn)生的,圖像質量與許多因素相關且常伴有噪聲[64]。此外,由于人體組織具有高度的相似性,所以醫(yī)學圖像之間的視覺差異很小,且差異集中在局部病灶區(qū)。故準確識別出這些病灶特征是醫(yī)學多模態(tài)檢索的一個難點。
(2)異構數(shù)據(jù)的語義鴻溝
在實際的醫(yī)療應用中,器官的檢測通常需要采用多模態(tài)成像方式(例如,CT圖像、X光圖像、MRI圖像等),如常見的結合計算機斷層掃描和正電子發(fā)射斷層掃描,而不同的成像設備之間的分辨率和灰度變化范圍很大,如何跨越異構數(shù)據(jù)間的語義鴻溝,從而實現(xiàn)模態(tài)間數(shù)據(jù)的語義對齊為多模態(tài)數(shù)據(jù)的分析和檢索帶來巨大的挑戰(zhàn)。
(3)數(shù)據(jù)集限制
另一方面,數(shù)據(jù)集限制也是進行醫(yī)療多模態(tài)檢索研究時的一大難題。目前醫(yī)學領域中可用的多模態(tài)公開數(shù)據(jù)集較少。為保護患者隱私,各醫(yī)院必須妥善管理病人的基本信息及診療數(shù)據(jù),當在一項研究中需要使用來自多家醫(yī)院的患者數(shù)據(jù)時,會存在各種約束條件[65-66]。若能解決隱私限制問題,醫(yī)學專家便可通過智能檢索系統(tǒng)實現(xiàn)對類似病例的異地訪問,這有助于提高臨床診療效率和水平[67]。而且近年來的研究主要針對大規(guī)模數(shù)據(jù)集,尤其基于深度學習的醫(yī)學大數(shù)據(jù)挖掘,該方法需要大量數(shù)據(jù)來訓練深度人工神經(jīng)網(wǎng)絡模型,故突破數(shù)據(jù)集限制將對多模態(tài)檢索技術在醫(yī)療領域中的發(fā)展起到重大推動作用。
醫(yī)學領域的多模態(tài)檢索較其他領域而言發(fā)展較慢,結合該領域特點進行分析,總結未來的發(fā)展研究趨勢如下:
(1)細粒度的多模態(tài)相關性建模
由于人體組織大體相似,所以醫(yī)學圖像較自然圖像而言視覺差異小,且差異一般集中在局部病灶區(qū)。現(xiàn)有基于深度特征的多模態(tài)檢索方法在學習多模態(tài)共同表示時將多模態(tài)數(shù)據(jù)映射到公共空間,然后在該空間內直接度量相似度,這類方法在多模態(tài)共同表示建模時太過粗糙,不利于有效挖掘不同模態(tài)的語義一致性。因此針對不同模態(tài)的數(shù)據(jù)提取出更細粒度的特征表示會成為未來的一個研究方向。
(2)與最新的深度學習技術結合
目前將深度學習技術應用在醫(yī)學多模態(tài)檢索的研究還不是很多,從表2中可以看到,基于深度特征與基于傳統(tǒng)特征的方法相比,深度神經(jīng)網(wǎng)絡在該領域的優(yōu)越性顯而易見,其分層特征提取能力為圖像的表示提供了很好的思路。關于基于融合信息的方法思路很好,但這方面的研究不多,而且由于對融合算法的高要求導致已有算法表現(xiàn)并不好。超圖神經(jīng)網(wǎng)絡有較強數(shù)據(jù)樣本間非線性高階關聯(lián)的刻畫和挖掘能力,在處理多模態(tài)、異構數(shù)據(jù)時更加靈活,也方便多模態(tài)的融合與擴展,多模態(tài)信息融合使用超圖神經(jīng)網(wǎng)絡等來進行算法改進會是一項可行的研究。類似地,針對醫(yī)學領域的特點與需求,將最新的深度學習技術改進多模態(tài)檢索算法也是有價值的研究方向。
(3)輕量級的多模態(tài)檢索
臨床醫(yī)學領域中存在著大量的多模態(tài)數(shù)據(jù),與之相應的是對于醫(yī)學多模態(tài)數(shù)據(jù)檢索的需求與要求也越來越高,目前的文獻研究中,研究者們都在追求提高檢索精度,所設計的算法復雜度高、耗時長,難以部署在小型計算平臺上完成檢索效率的需求。因此,設計高效且性能俱佳的輕量級檢索算法也是未來一個至關重要的研究方向。
(4)建立大規(guī)模公開數(shù)據(jù)集
目前醫(yī)學領域可用于多模態(tài)檢索研究的公開數(shù)據(jù)集非常少,而該領域的發(fā)展尤其涉及深度學習的一些方法依賴于大批量訓練樣本。故建立大規(guī)模、多語義的公開多模態(tài)數(shù)據(jù)集是一項很有價值的工作。
(5)結合聯(lián)邦學習
聯(lián)邦學習能夠在滿足用戶隱私保護、數(shù)據(jù)安全和政府法規(guī)的要求下,進行數(shù)據(jù)使用和機器學習建模,這恰好可以解決醫(yī)學領域中數(shù)據(jù)集限制問題。因此利用聯(lián)邦學習的核心優(yōu)勢來解決醫(yī)療數(shù)據(jù)的隱私問題在醫(yī)學多模態(tài)檢索中是一項很有前景的研究。
醫(yī)學數(shù)據(jù)不僅規(guī)模龐大,而且其自身特點呈現(xiàn)出多模態(tài)形式。面向這些大規(guī)模醫(yī)學數(shù)據(jù),實現(xiàn)多模態(tài)檢索的主要挑戰(zhàn)包括跨越多模態(tài)數(shù)據(jù)的異構鴻溝、發(fā)現(xiàn)可以表示多模態(tài)數(shù)據(jù)語義信息的特征、挖掘不同模態(tài)數(shù)據(jù)間的復雜關聯(lián)。本文對多模態(tài)檢索在醫(yī)學領域的研究與應用進行了文獻研究,介紹了醫(yī)學領域一些公開的多模態(tài)數(shù)據(jù)集,將多模態(tài)檢索在醫(yī)學領域的實現(xiàn)方法歸納為基于文本、基于內容以及基于融合信息的多模態(tài)檢索三類,分析了當前醫(yī)學領域多模態(tài)檢索研究與應用所面臨的挑戰(zhàn),最后結合目前醫(yī)學領域多模態(tài)檢索的一些待解決的問題和部分新興的研究思路,展望了未來醫(yī)學領域多模態(tài)檢索的研究發(fā)展趨勢。