陳 迪,陳云虹,王文軍,畢衛(wèi)云,李 朗
(1.空軍軍醫(yī)大學基礎醫(yī)學院,陜西 西安 710032;2.空軍軍醫(yī)大學教研保障中心,陜西 西安 710032;3.空軍軍醫(yī)大學第一附屬醫(yī)院,陜西 西安 710032)
以阿爾茨海默病(Alzheimer′s Disease, AD)為代表的腦部疾病臨床診斷,主要是通過評定量表的評分和磁共振成像的海馬體區(qū)域萎縮程度來進行判定,依賴于臨床醫(yī)生的經(jīng)驗,費時費力且有誤診幾率,無法較早地發(fā)現(xiàn)和診斷疾病[1-4]。
隨著人工智能技術(shù)的興起,神經(jīng)網(wǎng)絡(Neural Network, NN)越來越多地被用于阿爾茨海默病的分類和預測,其能有效地輔助臨床醫(yī)生對疾病進行識別診斷,從而及時發(fā)現(xiàn)并干預治療,因此具有重要意義。目前眾多國內(nèi)外學者對此進行了研究,主要通過機器學習(Machine Learning, ML)和深度學習(Deep Learning,DL)[5-6]兩種方法展開。文獻[7]提出了一種基于多核監(jiān)督神經(jīng)網(wǎng)絡(Multi-core Supervision Neural Network)的分類方法,用于對阿爾茨海默病MRI(Magnetic Resonance Imaging)圖像的分類,通過使用核函數(shù)進行映射,將MRI 圖像映射為高維特征空間,從而實現(xiàn)了更高精度的分類。文獻[8]提出了一種基于二維深度卷積神經(jīng)網(wǎng)絡(2D-Deep Convolutional Neural Network, 2DDCNN)對AD 神經(jīng)成像及主動核磁共振成像進行分類,并取得了較高的準確率。文獻[9]提出了一種基于多通道級聯(lián)卷積神經(jīng)網(wǎng)絡的深度學習方法,從二值海馬模型中逐步學習海馬形狀和不對稱性的聯(lián)合分層表示,用于AD 分類。文獻[10]提出一種預訓練CNN(Convolutional Neural Network)深度學習模型ResNet50,基于MRI 圖像實現(xiàn)了對AD 的自動特征提取,取得了高于85.7%的分類準確率。
目前大部分學者主要使用單模態(tài)的數(shù)據(jù)對AD 進行分類,但此方法提供的信息量較為有限,無法更準確地進行分類。為此,本文提出了基于多源數(shù)據(jù)融合的醫(yī)用影像輔助診斷模型,該模型通過結(jié)合MRI 和正電子發(fā)射斷層掃描(Positron Emission Tomography, PET)實現(xiàn)對該病的準確分類。
MRI[11-13]是利用核磁共振原理而設計的,處于磁場中的自旋原子核將吸收與其自旋頻率一致的電磁波,當給予電磁波后就會釋放吸收的能量,基于此原理分析通過人體原子核的位置和種類,并對內(nèi)部結(jié)構(gòu)進行重構(gòu)。由于其對人體無害、分辨率高,因此可以從不同角度對阿爾茨海默病患者的腦部結(jié)構(gòu)進行顯現(xiàn),所以MRI 被廣泛應用于臨床診斷中。而PET 則通過對人體注入示蹤劑,再利用計算機掃描斷層技術(shù)進行三維成像來實現(xiàn)對AD 患者腦部代謝情況的分析。將兩者相融合不僅可以獲得腦部結(jié)構(gòu)信息,且還能獲取其功能信息,進而實現(xiàn)了更加準確的識別。
為了實現(xiàn)對AD 患者的準確分類,文中主要以基于自注意力機制(Self-Attention)的Transformer 網(wǎng)絡為主要架構(gòu)進行改進。該模型由文獻[14]提出,并將其應用于自然語言處理領(lǐng)域。隨著繼續(xù)深入研究發(fā)現(xiàn),該網(wǎng)絡對圖像處理也有較優(yōu)的效果,因此被廣泛應用于圖像處理。Transformer[15]主要由編碼與解碼兩個部分組成,每個部分均堆疊了多個編碼器和解碼器。解碼器由前饋層、編碼器-解碼器注意力層和多頭注意力層組成,具體如圖1 所示。其核心思想是利用自注意力機制實現(xiàn)輸入序列和輸出序列之間的關(guān)聯(lián)建模,其中最重要的是多頭注意力機制,其能捕捉長序列關(guān)系,并將每組的自注意力輸出相連形成最終的輸出結(jié)果。
圖1 Transformer 結(jié)構(gòu)
對于輸入的數(shù)據(jù)序列X,自注意力層將數(shù)據(jù)轉(zhuǎn)換為3 個不同的向量:鍵矩陣K、查詢矩陣Q和值矩陣V。查詢矩陣和鍵矩陣首先要計算相關(guān)性,再根據(jù)相關(guān)性對值矩陣進行加權(quán)求和,由此便可得到注意力機制的輸出,計算公式為:
由于單一組獲得的注意力機制的信息相對單一,因此本文采用多頭注意力機制來彌補此缺點,通過設置多組矩陣實現(xiàn)從不同角度對實體復雜關(guān)系的表達。對于輸入的序列X,將其線性變換分成h組(Ki,Qi,Vi),i=0,1,2,…,h-1,每組計算各自注意力,然后使用權(quán)重矩陣投影h個組的輸出,得到最終的結(jié)果,計算公式為:
為了能夠記錄自注意力機制的位置信息,Transformer模型增加了位置編碼,將位置編碼和輸入的序列進行相加,再輸入到編碼器與解碼器中,得到計算公式:
式中:PE 表示位置編碼;pos 表示Token 的位置;i表示維度。
本次提出的模型融合了AD 患者的MRI 圖像和PET圖像信息,以改進的Transformer 網(wǎng)絡T2T-ViT 作為主要識別診斷模型,將多源圖像信息進行特征提取及分類,從而實現(xiàn)對AD 的準確分類,總體框架如圖2 所示。
首先將患者的MRI 和PET 圖像進行預處理,然后分別送入卷積網(wǎng)絡,接著利用T2T-ViT 來提取圖像的特征并進行融合,最終通過全連接層和Softmax 實現(xiàn)對疾病的分類,輔助醫(yī)生完成對影像的診斷。其中的3 個主要改進點為:
1)使用遷移學習對模型的參數(shù)進行初始化,從而提高模型的魯棒性和訓練速度;
2)將腦部MRI 圖像與PET 圖像進行融合提取特征信息,實現(xiàn)了對阿爾茨海默病的高效分類;
3)使用改進的Transformer 網(wǎng)絡T2T-ViT 架構(gòu),利用新穎的漸進式Token 化機制提升了特征的豐富性,同時降低了冗余數(shù)據(jù)。
T2T-ViT 是文獻[16]對于Transformer 在圖像分類領(lǐng)域的一個創(chuàng)新架構(gòu)。T2T-ViT 可以對圖像到令牌進行逐步標記,并存在一個有效的主干,能夠有效解決輸入對圖像簡單標記難以對圖像局部理想建模、訓練效率低、特征豐富度及訓練樣本有限的問題。
T2T-ViT 使用令牌到標記模塊(T2T)對圖像的局部結(jié)構(gòu)信息進行建模,并逐步減少標記長度,同時,T2TViT 主干從T2T 模塊中繪制令牌上的全局注意關(guān)系。每個T2T 模塊均有重組和軟分裂兩個步驟,其結(jié)構(gòu)如圖3所示。
圖3 T2T 模塊結(jié)構(gòu)
給定令牌序列T,通過自注意力模塊轉(zhuǎn)換后得到T′:
式中:MSA 為帶層歸一化的多頭自注意力模塊;MLP 為帶層歸一化的多層感知器。將標記重塑為空間維度上的圖像,得到“重構(gòu)”重組令牌I:
式中:“重構(gòu)”將T′∈Rl×c轉(zhuǎn)換為I∈Rh×w×c,l是T′的長度,h、w和c分別是高度、寬度及通道數(shù)。
在獲得重構(gòu)圖像I后,進行軟拆分操作,對局部結(jié)構(gòu)信息進行建模,減少標記長度。為了避免從重構(gòu)后的圖像中生成標記時造成信息丟失,本文將MRI 和PET 圖像分割成若干個有重疊的塊,每個塊均與周圍的塊相關(guān),以建立先驗知識,即周圍的標記之間存在更強的相關(guān)性。每個拆分塊內(nèi)的令牌通過連接轉(zhuǎn)換為另一個令牌,從而得到周圍像素聚合的局部信息。假設每個塊的大小為k×k,重疊尺寸為s,步長為p,則在重構(gòu)圖像I∈Rh×w×c中對應輸出令牌To的尺寸為:
式中每個拆分塊的尺寸為k×k×c。首先將所有塊在空域維度上扁平化為令牌,然后再將得到的輸出令牌送入到下一個T2T 中進行處理。
遷移學習的主要思路是通過利用已有的知識系統(tǒng),從當前任務中學習到諸多有標記的訓練數(shù)據(jù),然后再將其用在其他具有不同數(shù)據(jù)樣本的新任務中。通過這一方式可以降低標記數(shù)據(jù)的資源成本,同時也提高了模型的學習性能。
遷移學習就是在給定源領(lǐng)域Ds、源領(lǐng)域?qū)W習任務Ts、目標領(lǐng)域Dt、目標領(lǐng)域任務Tt,且Ds≠Dt或Ts≠Tt的情況下,使用源領(lǐng)域Ds和Ts中的知識內(nèi)容,提升或優(yōu)化目標領(lǐng)域Dt中目標預測函數(shù)ft( ·) 的學習效果。這樣不僅可以解決因樣本量過少而引起的模型準確度下降問題,同時還可提高其魯棒性。
本文首先采用參數(shù)遷移的方法發(fā)現(xiàn)源域模型和目標域模型之間的共享參數(shù)或先驗,除了全連接層外,同時還使用T2T-ViT 架構(gòu)對1 000 個類別的ImageNet 數(shù)據(jù)集上的模型參數(shù)進行預訓練;然后,調(diào)整卷積層的預訓練參數(shù)和初始化網(wǎng)絡參數(shù);最終,用新的全連接層重新訓練整個網(wǎng)絡。通過遷移學習,模型的精度得到了顯著提高。
此次實驗所選用患者的MRI 和PET 圖像數(shù)據(jù)均來自阿爾茨海默病影像學倡議ADNI 數(shù)據(jù)庫,該庫由美國食品與藥物管理局、國家醫(yī)學成像和生物研究所等單位創(chuàng)建。經(jīng)過篩選,本次選取了350 份AD 患者的樣本,170 份認知障礙患者的樣本。其中:MCI(Mild Cognitive Impairment)為輕度認知障礙;CI 為認知障礙。此外,還選取了380 份正常人(NC)的樣本,每一份樣本均包含了MRI 與PET 圖像。
由于原始圖像存在顱骨等除腦部以外的其他干擾因素,因此在進行模型訓練前對圖像的干擾因素進行了消除預處理操作,然后再對圖像進行配準和歸一化。
實驗使用Windows 10 操作系統(tǒng),處理器為i9-9900k,內(nèi)存64 GB,顯卡為GTX2080Ti。編程語言采用Python 3.7.1,深度學習框架為PyTorch 1.0。
為了訓練分類模型,T2T-ViT 的權(quán)重由ImageNet 數(shù)據(jù)集上預先訓練的T2T-ViT 遷移參數(shù)來進行初始化。所有的訓練數(shù)據(jù)首先被調(diào)整為224×224×3,并被分成小批次進行訓練,批大小設置為32,以AdamW 作為優(yōu)化器,余弦學習率衰減。對模型進行100 個epoch 的訓練,5 次訓練測試后通過折疊交叉驗證來評估分類性能,其中以80%的數(shù)據(jù)作為訓練數(shù)據(jù),其余20%用于測試數(shù)據(jù)。
實驗所使用的評價指標主要有:準確率(Accuracy,ACC)、敏感度(Sensitivity, SEN)和特異度(Specificity,SPE),計算方法如下:
式中:TP 表示真陽例;FP 表示假陽例;TN 表示真陰例;FN 表示假陰例。
經(jīng)過100 次的迭代訓練后,整個模型取得了良好的性能,測試損耗達到最小,準確率也達到了最佳。AD 的識別準確率為0.95,MCI/CI 的識別準確率為0.93,NC 識別準確率為0.96,具體如表1 所示。
表1 識別分類結(jié)果
同時,還將實驗結(jié)果與現(xiàn)有的圖像分類模型進行了比較。以識別準確率作為對比指標,實驗發(fā)現(xiàn)在對AD的識別中,本文模型比CNN 模型高0.22,比ResNet 模型高0.14,比Transformer 模型高0.11,表明本文提出模型的分類效果更佳,具體如表2 所示。
表2 不同模型的識別分類結(jié)果
為了實現(xiàn)對阿爾茨海默病患者的早期識別和干預,提出了基于多源數(shù)據(jù)融合的醫(yī)用影像輔助診斷模型,將MRI 圖像和PET 圖像兩種數(shù)據(jù)源進行融合,并放入多模態(tài)網(wǎng)絡實現(xiàn)對阿爾茨海默病患者、認知障礙患者和正常人的分類,從而輔助醫(yī)生進行診斷。多模態(tài)網(wǎng)絡中通過引入遷移學習,實現(xiàn)網(wǎng)絡參數(shù)的遷移,縮短了訓練時間。同時,還利用改進的T2T-ViT 架構(gòu)實現(xiàn)了更高精度的分類。在公開ADNI 數(shù)據(jù)集上進行的測試結(jié)果表明,所提模型對AD 的識別準確率達到了0.95,與其他同類模型相比,效果更優(yōu)。但文中僅從圖像的角度對疾病進行分類,若能在此基礎上加入醫(yī)生的先驗知識和實驗室生化指標,則將進一步提高對該疾病的識別分類準確率,實現(xiàn)更為精準的輔助診斷,為阿爾茨海默病的治療和管理提供更理想的指導。