賀江琳,王遠(yuǎn)軍
(上海理工大學(xué)醫(yī)學(xué)影像工程研究所,上海 200093)
阿爾茨海默病(Alzheimer disease, AD)是一種慢性神經(jīng)系統(tǒng)退行性疾病,臨床常表現(xiàn)為記憶喪失、認(rèn)知功能下降、失語(yǔ)等[1]。2000—2017年老年癡呆相關(guān)死亡率在我國(guó)65~74歲人群中增高了31.00%,75~84歲人群中增高了57.00%,85歲以上人群中增高了86.00%[2]。AD是導(dǎo)致老年癡呆最常見(jiàn)的病因,準(zhǔn)確診斷AD、尤其是早期診斷具有重要臨床意義。
目前診斷AD的方法主要有精神衰退記錄、測(cè)量區(qū)域直方圖強(qiáng)度[3],監(jiān)測(cè)海馬體積完整性[4]、追蹤白質(zhì)纖維束[5]、多模態(tài)MRI值融合測(cè)量及紋理分析等。隨著影像組學(xué)方法的出現(xiàn)[6]與發(fā)展,基于大量醫(yī)學(xué)影像數(shù)據(jù)與機(jī)器學(xué)習(xí)等技術(shù)提出了AD的分類預(yù)測(cè)方法[7],為有效診斷與個(gè)性化治療AD提供借鑒。現(xiàn)有影像組學(xué)方法包括基于機(jī)器學(xué)習(xí)的影像組學(xué)和基于深度學(xué)習(xí)的影像組學(xué)。基于機(jī)器學(xué)習(xí)的影像組學(xué)方法基本工作流程包括圖像采集、圖像分割、特征提取與選擇、分類與預(yù)測(cè),見(jiàn)圖1;基于深度學(xué)習(xí)的影像組學(xué)方法省略了圖像分割與特征提取等步驟,通過(guò)端到端模式將圖像直接作為模型輸入,最終得到分類結(jié)果。
現(xiàn)代醫(yī)學(xué)正朝著個(gè)性化和精準(zhǔn)醫(yī)療方向發(fā)展,診斷、預(yù)后和預(yù)測(cè)治療反應(yīng)是3個(gè)主要途徑。在AD診斷預(yù)測(cè)研究中,基于影像組學(xué)方法將影像學(xué)特征和患者的臨床信息等相結(jié)合,并建立模型對(duì)疾病進(jìn)行個(gè)性化評(píng)估,可采集不同模態(tài)圖像(如MR、CT、PET等),而所獲圖像的時(shí)間和數(shù)量也與分析對(duì)象及方法有關(guān)。對(duì)獲取的圖像,需進(jìn)行不同圖像序列和模態(tài)的空間配準(zhǔn)、降噪、圖像分割和感興趣區(qū)域提取等預(yù)處理。
1.1 特征提取 在ROI中提取的主要特征包括一階統(tǒng)計(jì)特征、形狀特征、紋理特征及小波特征。其中紋理特征用于計(jì)算體素之間的統(tǒng)計(jì)相關(guān)信息,可從灰度共生矩陣、灰度游程矩陣、灰度區(qū)域大小矩陣和局部灰度差分矩陣中計(jì)算獲得,常用紋理特征見(jiàn)表1[8]。
1.2 特征選擇與降維 為減少模型訓(xùn)練時(shí)間、避免模型過(guò)度擬合、提高模型泛化能力,需對(duì)所提取的大量影像學(xué)特征進(jìn)行選擇或降維。
選擇特征時(shí),一是對(duì)特征進(jìn)行相關(guān)性分析,以確定特征與AD的關(guān)系;二是對(duì)特征進(jìn)行冗余度分析,避免模型構(gòu)建過(guò)程中的多重共線性問(wèn)題。特征選擇方法分類見(jiàn)圖2[9]。影像組學(xué)中常采用平面特征選擇方法。過(guò)濾式方法以排序技術(shù)為選擇變量的標(biāo)準(zhǔn),使用適當(dāng)排序準(zhǔn)則對(duì)變量進(jìn)行評(píng)分,并設(shè)定閾值篩選變量,其中最有效的是Wilcoxon、最小冗余最大相關(guān)性、Relief和互信息特征選擇[10-11]。過(guò)濾式方法適用于非常高維的數(shù)據(jù)集,計(jì)算簡(jiǎn)單、速度快,但忽略了數(shù)據(jù)之間的相互依賴性以及與分類器的交互。包裹式方法計(jì)算量較大,常用的有遺傳算法和粒子群優(yōu)化算法[12]。嵌入式方法,如支持向量機(jī)(support vector machine, SVM)、遞歸特征消除、決策樹(shù)、最小絕對(duì)收縮與選擇算子(least absolute shrinkage and selection operator, LASSO)、Generalized LASSO、彈性網(wǎng)絡(luò)正則化等[12-14],是在學(xué)習(xí)過(guò)程中搜索最佳特征子集。應(yīng)根據(jù)現(xiàn)有數(shù)據(jù)的樣本分布和分類方法來(lái)篩選特征。
特征降維可減少存儲(chǔ)空間和計(jì)算時(shí)間,消除多重共線性,提高學(xué)習(xí)模型性能,利于數(shù)據(jù)可視化。目前影像組學(xué)在AD研究中多采用主成分分析方法[15]進(jìn)行降維,也有部分研究[16]采用其他方法,如偏最小二乘法。
1.3 分類評(píng)估 主要通過(guò)分類模型來(lái)驗(yàn)證與評(píng)估所選特征是否具有良好的分類性能。近年用于對(duì)AD進(jìn)行分類預(yù)測(cè)的模型包括 SVM、隨機(jī)森林(random Forest, RF)、K近鄰(K-nearest neighbors, KNN)、Bayesian網(wǎng)絡(luò)、Logistic回歸及對(duì)角二次判別分析等[17-19]。分類過(guò)程中采用的實(shí)驗(yàn)數(shù)據(jù)一般分為AD組、輕度認(rèn)知障礙(mild cognitive impairment, MCI)組和正常對(duì)照組, MCI患者又可細(xì)分為36個(gè)月內(nèi)進(jìn)展為AD者(progressive MCI, PMCI)和36個(gè)月內(nèi)穩(wěn)定者(stable MCI, SMCI)。可通過(guò)準(zhǔn)確率、敏感度、特異度、ROC曲線下面積等指標(biāo)評(píng)估分類模型的診斷效能。表2中列舉了部分基于機(jī)器學(xué)習(xí)的分類評(píng)估方法及其實(shí)驗(yàn)數(shù)據(jù)和分類準(zhǔn)確度。
既往研究[15,20-26]對(duì)于正常對(duì)照組/AD組的分類準(zhǔn)確度一般為80.00%~95.00%,對(duì)AD組/MCI組、MCI組/正常對(duì)照組、SMCI/PMCI、AD組/MCI組/正常對(duì)照組的分類準(zhǔn)確度普遍在60.00%~80.00%?;赟VM模型對(duì)AD的分類研究最為廣泛。比較多種分類方法的性能有一定難度,主要原因在于:①患者分類選擇標(biāo)準(zhǔn)不統(tǒng)一;②圖像預(yù)處理方法不同;③特征提取與選擇方法不同;④交叉驗(yàn)證程序不完全一致。因此,評(píng)價(jià)某種分類方法時(shí),需綜合考慮多種因素。
表1 紋理特征[8]
注:SRE:短行程優(yōu)勢(shì);LRE:長(zhǎng)行程優(yōu)勢(shì);GLN:灰度不均勻性;RLN:行程長(zhǎng)度不均勻性;RP:行程百分比;LGRE:低灰度行程優(yōu)勢(shì);HGRE:高灰度行程優(yōu)勢(shì);SRLGE:短行程低灰度優(yōu)勢(shì);SRHGE:短行程高灰度優(yōu)勢(shì);LRLGE:長(zhǎng)行程低灰度優(yōu)勢(shì);LRHGE:長(zhǎng)行程高灰度優(yōu)勢(shì);GLV:灰度方差;RLV:游程方差;SZE:小區(qū)域優(yōu)勢(shì);LZE:大區(qū)域優(yōu)勢(shì);ZSN:區(qū)域大小不均勻性;ZP:區(qū)域百分比;LGZE:低灰度區(qū)域優(yōu)勢(shì);HGZE:高灰度區(qū)域優(yōu)勢(shì);SLZGE:小區(qū)域低灰度優(yōu)勢(shì);SZHGE:小區(qū)域高灰度優(yōu)勢(shì);LZLGE:大區(qū)域低灰度優(yōu)勢(shì);LZHGE:大區(qū)域高灰度優(yōu)勢(shì);ZSV:區(qū)域方差
圖1 影像組學(xué)工作流程
圖2 特征選擇方法分類[9]
近年來(lái)深度學(xué)習(xí)技術(shù)受到廣泛關(guān)注,有學(xué)者[27]提出基于深度學(xué)習(xí)的影像組學(xué)方法,采用端到端的學(xué)習(xí)方式,省略了圖像分割、特征提取及特征選擇的過(guò)程,需要大量醫(yī)療數(shù)據(jù)進(jìn)行訓(xùn)練。Farooq等[28]將38 024幅MRI分成25.00%測(cè)試集和75.00%訓(xùn)練集,應(yīng)用著名的Google Net和Res Net模型對(duì)AD進(jìn)行分類,準(zhǔn)確率達(dá)99.00%以上。由于缺乏足夠的訓(xùn)練數(shù)據(jù),Islam等[29]采用2個(gè)改進(jìn)的基于深度卷積神經(jīng)網(wǎng)絡(luò)模型(Inception-v4和Res Net)對(duì)AD進(jìn)行多類分類時(shí)出現(xiàn)了過(guò)度擬合問(wèn)題,模型對(duì)輕度及中度AD的分類準(zhǔn)確度分別為62.00%和33.00%。
Lu等[30]提出多尺度神經(jīng)網(wǎng)絡(luò)框架,采用遷移學(xué)習(xí)方法和集成分類器策略對(duì)1 051例FDG-PET代謝成像數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以提高小樣本對(duì)深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練能力,發(fā)現(xiàn)集成分類器使用不同驗(yàn)證集可提高模型穩(wěn)定性及魯棒性,從而在統(tǒng)計(jì)上提高模型的分類性能。Jain等[31]采用1個(gè)預(yù)先訓(xùn)練的VGG-16網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),并將其作為特征提取器。盡管VGG-16是針對(duì)ImageNet數(shù)據(jù)庫(kù)中的自然圖像進(jìn)行訓(xùn)練的網(wǎng)絡(luò),但通過(guò)遷移學(xué)習(xí),可用來(lái)對(duì)醫(yī)學(xué)圖像進(jìn)行分類,且當(dāng)實(shí)驗(yàn)數(shù)據(jù)較少時(shí),遷移學(xué)習(xí)可有效提高模型的學(xué)習(xí)性能。Wang等[32]開(kāi)發(fā)了3D-DenseNet模型對(duì)AD和MCI進(jìn)行自動(dòng)檢測(cè),較少的網(wǎng)絡(luò)參數(shù)降低了網(wǎng)絡(luò)訓(xùn)練的難度,可在一定程度上避免過(guò)度擬合問(wèn)題。此外,Spasov等[33]綜合考慮sMRI、認(rèn)知測(cè)驗(yàn)、患者臨床信息和APOe4基因信息,在PMCI與SMCI的二分類實(shí)驗(yàn)中得到86.00%的ACC,在現(xiàn)有的研究中居于前列。
基于深度學(xué)習(xí)的AD影像組學(xué)分類結(jié)果普遍優(yōu)于基于機(jī)器學(xué)習(xí)方法,但在基于深度學(xué)習(xí)研究中,模型需要大量圖像進(jìn)行訓(xùn)練和測(cè)試,以獲得更高的分類精度。然而大量標(biāo)記良好的醫(yī)學(xué)影像數(shù)據(jù)不易獲得,其成本較高,且標(biāo)記工作量大。針對(duì)上述問(wèn)題,有學(xué)者[31]認(rèn)為可將在足夠大的數(shù)據(jù)集中學(xué)習(xí)到的通用特性遷移到其他數(shù)據(jù)集,模型的泛型特性具有可移植性。
影像組學(xué)是目前研究熱點(diǎn)之一,通過(guò)提取高維影像學(xué)特征來(lái)表征ROI,為預(yù)測(cè)疾病提供影像學(xué)參考依據(jù)。現(xiàn)有研究主要采用基于機(jī)器學(xué)習(xí)的方法診斷及預(yù)測(cè)AD,分類對(duì)象為AD組、PMCI、SMCI及正常對(duì)照組,實(shí)驗(yàn)數(shù)據(jù)大多基于ADNI數(shù)據(jù)庫(kù)中的MRI,部分研究采用FDG-PET圖像、腦脊液生物標(biāo)志物(如淀粉樣蛋白),或綜合考慮影像學(xué)數(shù)據(jù)、臨床特征以及基因信息等。其對(duì)AD/NC的二分類問(wèn)題最為常見(jiàn),分類準(zhǔn)確度一般在80.00%~99.00%,優(yōu)于其他二分類問(wèn)題。介于AD組與正常對(duì)照組之間的MCI組是高度可變?nèi)后w,部分MCI患者可惡化為AD,故對(duì)SMCI與PMCI的鑒別與診斷十分重要。目前SMCI與PMCI的分類準(zhǔn)確度偏低,多種生物標(biāo)記物可能有助于提升。今后可考慮添加其他MR序列(如fMRI、DTI)或檢查方法(PET和CSF生物標(biāo)志物檢測(cè)及神經(jīng)心理學(xué)評(píng)分和遺傳信息),以提高分類精度。在AD分類方法中,基于深度學(xué)習(xí)方法獲得的分類準(zhǔn)確度普遍高于機(jī)器學(xué)習(xí)方法,但需要大量訓(xùn)練數(shù)據(jù),而目前記錄完備、診斷準(zhǔn)確的標(biāo)準(zhǔn)化醫(yī)療數(shù)據(jù)稀缺。對(duì)醫(yī)療數(shù)據(jù)的信息挖掘以及有效學(xué)習(xí)方法有待繼續(xù)深入研究。
表2 基于機(jī)器學(xué)習(xí)的分類評(píng)估
注:NC:正常對(duì)照;AD:AD患者;SDPSO:切換延遲粒子群優(yōu)化算法;RROI:ROI特征初步提?。籈nsemble:集成學(xué)習(xí);SAR:空間解剖信息正則化;PNN:概率神經(jīng)網(wǎng)絡(luò)
(1)數(shù)據(jù)標(biāo)準(zhǔn)化:影像組學(xué)的關(guān)鍵步驟之一是特征提取,所提取特征取決于具體獲得的影像數(shù)據(jù),影響參數(shù)眾多,圖像采集與重建的參數(shù)標(biāo)準(zhǔn)化對(duì)影像組學(xué)分析具有必要意義。
(2)建立大數(shù)據(jù)庫(kù)與數(shù)據(jù)共享:在學(xué)習(xí)算法中,提取的特征數(shù)往往遠(yuǎn)大于樣本數(shù),易造成模型過(guò)度擬合;基于CNN的分類方法不需要分割和特征提取,但也需要大量訓(xùn)練數(shù)據(jù)的支持,故建立和共享大數(shù)據(jù)庫(kù)十分必要。
(3)高維小樣本機(jī)器學(xué)習(xí)方法研究:針對(duì)目前的困難,提高小樣本高維特征數(shù)據(jù)的分類算法精度甚為必要,一方面可緩解大數(shù)據(jù)短缺,另一方面對(duì)于高維特征的分類問(wèn)題研究也能夠減少計(jì)算量。