李伊寧 王弘熠 王天任 柳 岸 趙 爽 康 健
1 中南大學湘雅醫(yī)學院,湖南省長沙市 410013;2 中南大學湘雅三醫(yī)院;3 中南大學湘雅醫(yī)院皮膚科
近年來,基于深度學習的多模態(tài)融合技術進展迅速,它將不同模態(tài)的大量數(shù)據(jù)相互融合,利用深度學習充分顯示數(shù)據(jù)之間互補的優(yōu)點,擺脫單一數(shù)據(jù)中時間和空間的局限性,以便了解疾病的綜合信息,保障醫(yī)生決策的可靠性。
所謂模態(tài),是指人接受信息的特定方式。模態(tài)起源于人機交互領域,被定義為在特定物理媒介上信息的表示方式,如:文本、圖像、聲音等。醫(yī)學領域常指其為不同來源的醫(yī)學信息,如影像信息、病史信息、生化結(jié)果等。以往人工智能輔助醫(yī)療系統(tǒng)開發(fā)思路常是單模態(tài)的,通過分析單一類型的數(shù)據(jù),建立從數(shù)據(jù)到結(jié)果的映射,從而具備所謂“智能”。然而目前常用的檢查數(shù)據(jù)長期以來各自獨立,單純分析某種類型的醫(yī)學數(shù)據(jù)只能得到疾病某一個方面或?qū)哟蔚男畔?,因此具有較大局限性,不能評估疾病的全局狀況,這極大限制了人工智能的醫(yī)療應用。單模態(tài)面臨的困難正是多模態(tài)融合的強項。多模態(tài)融合技術是指機器從文本、圖像、語音和視頻等領域獲取信息實現(xiàn)轉(zhuǎn)換與融合以提升模型性能的方法。例如PET提供有關病變部位定量代謝信息,CT則可提供病變解剖結(jié)構(gòu)信息?;诙叩哪B(tài)融合打破二者固有的數(shù)據(jù)壁壘,利用特定的系列算法對采集到的數(shù)據(jù)進行處理,如此可同時從功能和結(jié)構(gòu)方面刻畫當前病變,為下一步的臨床決策提供充分的參考。因此,運用多模態(tài)融合綜合分析各種類型的醫(yī)學數(shù)據(jù)才是人工智能診斷應用的關鍵,也是診斷病情的可靠手段。深度學習是一種以神經(jīng)網(wǎng)絡為架構(gòu)對數(shù)據(jù)進行表征學習的算法,是對于新產(chǎn)生的多模態(tài)融合數(shù)據(jù)的利用和解讀的有力工具?;谏疃葘W習的多模態(tài)融合可運用多個隱含層的深度神經(jīng)網(wǎng)絡來完成多模態(tài)學習任務[1]。已有大量將深度學習用于醫(yī)學數(shù)據(jù)處理的成功案例,如疾病診斷,腫瘤分割、預后等。
2.1 腦腫瘤 在MRI上對腦腫瘤進行識別是臨床傳統(tǒng)方法中手術定位、建立腫瘤模型的基礎[2]。然而不同MRI展示的病變部位有差異,反映了不同角度的腫瘤特點。羅蔓等[3]提出了一種基于多模態(tài)三維卷積神經(jīng)網(wǎng)絡的MRI腦腫瘤分割方法,充分利用多張MRI之間的互補關系和三維結(jié)構(gòu)空間之間的幾何特點,判斷腦腫瘤位置的靈敏度可達90%以上。除了識別,多模態(tài)融合技術對于腦腫瘤患者的分級同樣具有意義。Fangyan Ye等[4]通過輸入多種能夠提供腫瘤不同信息的不同MRI圖片,直接將三維卷積核應用于MRI圖像,通過矢狀、軸向和冠狀方向上的差別,這為腦腫瘤良惡性分類打下基礎。
2.2 乳腺癌 乳腺癌已成為女性最常見的惡性腫瘤。惡性乳腺癌的高發(fā)與早期篩查技術水平較低相關。Muxuan Liang等[5]提出了一個多模態(tài)深度信念學習網(wǎng)絡,在該模型中基因表達、DNA甲基化、藥物反應等數(shù)據(jù)首先被編碼到多層隱藏變量中,然后使用一個聯(lián)合潛在模型融合來自輸入的多模態(tài)的共同特征,最后對癌癥患者進行聚類。該種方法在乳腺癌相關基因組學的研究過程中具有較好應用前景。
組學、病理圖像等數(shù)據(jù)均與乳腺癌患者的預后息息相關。孫冬冬[6]提出了融合組學數(shù)據(jù)與病理圖像的深度神經(jīng)網(wǎng)絡生存期預測方法,該方法以混合網(wǎng)絡為結(jié)構(gòu),分別處理乳腺的基因表達、拷貝數(shù)異常等組學數(shù)據(jù)和乳腺的病理圖片,最終進行決策級融合,并對乳腺癌生存期預測取得了高于80%的準確率。
2.3 其他腫瘤 多發(fā)性骨髓瘤(Multiple myeloma,MM)是淋巴造血系統(tǒng)一種常見的惡性腫瘤,以多灶性骨骼受累為主要特征。傳統(tǒng)的X射線掃描只有在病灶周圍骨小梁丟失30%以上時才顯示病變,而PET-CT可檢測到傳統(tǒng)方法無法檢測到的微小病變,但由于主觀判別標準不同,對MM的鑒別仍然很容易出錯。Lina Xu等[7]提出了一種級聯(lián)兩個單一的神經(jīng)網(wǎng)絡形成復合網(wǎng)絡的方法。第一個網(wǎng)絡只輸入容積CT數(shù)據(jù)以學習骨的解剖學特征,第二個網(wǎng)絡輸入PET-CT和第一個網(wǎng)絡的輸出。該方法取得了73.5%的準確率。不過與單模態(tài)網(wǎng)絡相比,復合網(wǎng)絡需要更多計算量,但檢測性能卻只有小幅提高。
不同亞型的橫紋肌肉瘤患者預后相差極大,因此區(qū)分腺泡狀橫紋肌肉瘤和胚胎性橫紋肌肉瘤尤為重要。Imon Banerjee等[8]開發(fā)了一個與遷移學習結(jié)合的深度學習框架,通過融合多參數(shù)MRI以區(qū)分上述兩種亞型。PET圖像上18F-FDG的攝取代表腫瘤新陳代謝,MRI圖像上受限制的擴散程度代表腫瘤細胞密度,這些都與橫紋肌肉瘤預后信息相關。這種方法的平均交叉驗證準確度達到了85%。
3.1 癲癇 傳統(tǒng)的癲癇病診斷依據(jù)患者的出生史、既往史和發(fā)病表現(xiàn)等。醫(yī)生在診斷時具有較強的主觀性,需要耗費較長時間綜合判斷病情,有可能延誤患者診斷時機,造成不必要的二次傷害。鐘霽媛等[9]融合了磁共振掃描序列中的時序特征和圖像特征用于顳葉內(nèi)側(cè)癲癇的診斷。該方法可達到 92.3%的準確率,顯著縮短了傳統(tǒng)鑒別診斷(對受試者的腦電波進行24h以上的監(jiān)測)所需的時間。
癲癇不定時發(fā)作的特點降低患者的生存質(zhì)量,還給臨床治療工作帶來困難。Parikshat Sirpal等[10]利用具有長短時記憶單元的深度遞歸神經(jīng)網(wǎng)絡模型,通過輸入患者的腦電圖—功能性近紅外光譜多模態(tài)數(shù)據(jù)預測患者癲癇的發(fā)作。這一項技術提示未來甚至可以根據(jù)患者就診時的檢查數(shù)據(jù)預測患者發(fā)病時間,從而針對性地設計保護性治療措施,大幅改善癲癇患者的社會適應和健康管理能力。
3.2 腦功能評估 病歷信息和神經(jīng)影像信息在帕金森等退行性病變中是十分重要的評估參考資料,而多模態(tài)融合技術正可以將二者融合。例如Xi Zhang等[11]設計了一種基于記憶的圖像卷積神經(jīng)網(wǎng)絡,該網(wǎng)絡的提取部分用于從患者大腦神經(jīng)影像中提取有用信息,而記憶部分則負責從患者的病歷信息中獲取有用信息。兩種信息通過網(wǎng)絡結(jié)構(gòu)在圖像采集的對應時間點融合,可推斷疾病發(fā)展狀態(tài)。而Sergey等[12]則在深度學習中利用注意力機制的最新進展來提取大腦多模態(tài)數(shù)據(jù)中的非線性關系。他們提出了基于翻譯的融合模型。該模型針對兩種MRI信息設計,其中SMRI可提供有關大腦組織類型信息而fMRI可提供大腦網(wǎng)絡之間的結(jié)構(gòu)連通性信息。運用該模型進行了基于健康人群和精神分裂者的腦功能評估,結(jié)果顯示二者在顳葉等幾個關鍵區(qū)域存在明顯的群體差異,符合以往的醫(yī)學研究結(jié)果。
3.3 預后評估 醫(yī)患雙方在疾病診療的互動中繞不開對預后的探討。多模態(tài)技術規(guī)避了傳統(tǒng)算法局限性所給出的答案更具有參考價值。比如Anika Cheerla等[13]開發(fā)了一種無監(jiān)督學習編碼器用于腫瘤預后取得了較單模態(tài)更優(yōu)的效果。該方法將病理圖片、臨床數(shù)據(jù)、mRNA表達數(shù)據(jù)、miRNA表達數(shù)據(jù)這四種數(shù)據(jù)模式壓縮成一個單一的特征向量,針對每一種數(shù)據(jù)類型的特點選擇不同的編碼方法,最后利用深度無監(jiān)督表示學習進行預測。而Hongming Li等[14]提出一種通過在比例風險模型中使用深度學習網(wǎng)絡優(yōu)化成像特征來建立直腸癌患者生存回歸模型的方法。在深度學習模型中,通過數(shù)據(jù)驅(qū)動的方式在三維卷積層融合腫瘤的PET、CT圖像數(shù)據(jù),并提取特征信息來捕獲放射圖像數(shù)據(jù)和生存信息之間的復雜關系。
多模態(tài)研究的常見挑戰(zhàn)是缺失數(shù)據(jù)。由于醫(yī)療數(shù)據(jù)共享不暢或疾病譜固有的特點,實際上很難擁有所需的全部種類的多模態(tài)數(shù)據(jù)。例如,在臨床實踐中,PET的花費較高并且部分患者擔心放射性暴露。因此,患者大多都愿意接受MRI掃描而部分接受PET。在ANDI數(shù)據(jù)庫中,所有821位受試者都有MRI數(shù)據(jù),而進行PET者卻不到一半。一方面,若將缺失PET數(shù)據(jù)患者的數(shù)據(jù)從訓練集中除去,訓練集的規(guī)模將會大大縮小,得到結(jié)果的可靠度將大打折扣。另一方面如果強行使用殘缺的數(shù)據(jù)訓練多模態(tài)模型,可能誤導模型產(chǎn)生過擬合效應,不具備臨床價值。
生成式對抗網(wǎng)絡(GAN)由一個生成器和一個判別器構(gòu)成。生成器根據(jù)輸入的樣本數(shù)據(jù)分布,生成新的數(shù)據(jù)分布,并盡量接近真實數(shù)據(jù)分布。判別器的作用則是判別輸入數(shù)據(jù)是來自真實數(shù)據(jù)還是生成器生成的數(shù)據(jù)[15]。利用GAN可補充缺失的數(shù)據(jù),部分克服數(shù)據(jù)集分布不平衡的難題。如針對上述情況設計一種生成對抗網(wǎng)絡,學習MRI和PET之間的雙向映射,然后可以根據(jù)對應的MRI掃描合成丟失的PET圖像。
本文綜述了基于深度學習的多模態(tài)融合技術在腦腫瘤、乳腺癌、癲癇等方面的臨床應用進展。基于深度學習的多模態(tài)融合技術能夠?qū)εR床相關的多模態(tài)數(shù)據(jù)進行整合,綜合分析,從不同方面更加全面、深刻地了解、認識疾病,以達到診斷、分類、預后判斷的目的。隨著各種成像技術的不斷發(fā)展,在臨床上大規(guī)模應用基于深度學習的多模態(tài)融合技術已經(jīng)成為大勢所趨,這同時也為人工智能、深度學習在醫(yī)學領域中的應用提供了方向。