王志剛,胥茜,畢夏安
(湖南師范大學(xué)信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410081)
隨著大量的先進(jìn)神經(jīng)影像學(xué)工具應(yīng)用于腦部疾病的臨床診斷和研究,該領(lǐng)域取得了許多令人矚目的成果。功能磁共振成像具有無創(chuàng)傷、無需注射放射性示蹤物以及良好的時(shí)空分辨率等特點(diǎn),在腦神經(jīng)功能和疾病研究領(lǐng)域得到了廣泛應(yīng)用。雖然fMRI數(shù)據(jù)蘊(yùn)含大量的腦神經(jīng)組織與功能方面的重要信息,但是由于腦功能活動(dòng)的復(fù)雜特性,以及部分測(cè)量誤差的影響,導(dǎo)致數(shù)據(jù)的處理仍然存在許多不確定因素。因此,對(duì)fMRI數(shù)據(jù)實(shí)現(xiàn)有效的處理和分析,尤其是fMRI數(shù)據(jù)的分類,始終是研究熱點(diǎn)。隨著人工智能及相關(guān)學(xué)科的發(fā)展,大量的模式識(shí)別技術(shù)和機(jī)器學(xué)習(xí)算法被引入到腦科學(xué)領(lǐng)域中,并應(yīng)用到fMRI數(shù)據(jù)的分類研究中。
文獻(xiàn)[1]將稀疏學(xué)習(xí)與SVM分類器相結(jié)合研究MCI(Mild Cognitive Impairment,輕度認(rèn)知障礙)分類,對(duì)EMCI和LMCI患者進(jìn)行分類,準(zhǔn)確率為80%左右。文獻(xiàn)[2]運(yùn)用 FIN(Fiber Network Measures,纖維網(wǎng)絡(luò)度量)和 FLN(Flow Network Measures,流量網(wǎng)絡(luò)度量)作為特征集,再用SVM分類器對(duì)EMCI和LMCI患者進(jìn)行判別,準(zhǔn)確率為63.4%。文獻(xiàn)[3]將深度相似網(wǎng)絡(luò)架構(gòu)與單個(gè)SVM分類器結(jié)合,對(duì)LMCI和AD患者進(jìn)行分類,準(zhǔn)確率為77.92%。文獻(xiàn)[4]選擇單個(gè)體素的BOLD曲線變化率作為特征,結(jié)合SVM分類fMRI數(shù)據(jù)輔助診斷MCI,準(zhǔn)確率為75%。文獻(xiàn)[5]運(yùn)用改進(jìn)的譜聚類方法獲取數(shù)據(jù)的模式特征,再用SVM分類fMRI數(shù)據(jù)判別MCI,準(zhǔn)確率為82%。文獻(xiàn)[6]利用粒子種群算法提取特征參數(shù),組合SVM分類fMRI數(shù)據(jù)判別精神抑郁癥,測(cè)試準(zhǔn)確率高達(dá)84.62%。
雖然在機(jī)器學(xué)習(xí)和人工智能等算法的加持下,腦神經(jīng)學(xué)科領(lǐng)域的研究水平得到了極大的提升,但也存在許多問題:部分算法的通用性不強(qiáng),分類以及降維效果不佳;一些分類研究注重腦神經(jīng)病變類型的鑒別,較少深入探索疾病的病理機(jī)制,因而限制了研究人員對(duì)疾病成因的深度理解。因此,非常有必要探索新的算法,從而實(shí)現(xiàn)快速降維、準(zhǔn)確捕獲異常特征,進(jìn)而達(dá)到快速分類的目標(biāo);如能定位引發(fā)疾病的病灶,則還可以為有效治療提供幫助。
本文在研究加權(quán)隨機(jī)SVM集群(WRSVMC)算法的基礎(chǔ)上,本著提高降維速度的目的,將進(jìn)化的思想引入其中,動(dòng)態(tài)地從高維樣本中刪減無用特征,保留主要異常特征。實(shí)驗(yàn)表明算法不僅加速了降維過程,也提高了分類準(zhǔn)確率。實(shí)驗(yàn)用fMRI數(shù)據(jù)來源于ADNI。
在用靜息態(tài)fMRI數(shù)據(jù)研究腦神經(jīng)類疾病時(shí),兩兩腦區(qū)時(shí)間序列之間的皮爾遜相關(guān)系數(shù)是主要的功能特征數(shù)據(jù),近年腦區(qū)網(wǎng)絡(luò)的圖論特征也被用作特征數(shù)據(jù),但這些數(shù)據(jù)都具有高維特性。為了有效利用小樣本、高維度的fMRI數(shù)據(jù),首要任務(wù)便是降維。傳統(tǒng)的主成分分析(PCA)、線性判別分析(LDA)和等度量映射(Isomap)等降維方法都會(huì)損失部分信息,也不便于解釋低維度特征。直接從原始特征中提取對(duì)分類性能具有強(qiáng)影響力的特征,可以降低圖像噪聲的不利影響。
SVM模型能很好地處理fMRI數(shù)據(jù),但在高圖像噪聲情況下,依然很難獲得穩(wěn)定和魯棒的泛化能力。文獻(xiàn)[7]研究了一種由多個(gè)SVM分類器組成的隨機(jī)SVM集群(RSVMC),通過集成學(xué)習(xí)使得互有差異的各SVM形成一個(gè)強(qiáng)大的分類器簇,從而獲得優(yōu)秀的泛化性能。但是各SVM具有同等的投票權(quán),忽視了它們之間的強(qiáng)弱差異,對(duì)整體性能有較大影響。
文獻(xiàn)[8]在RSVMC的基礎(chǔ)上,通過對(duì)每個(gè)SVM基分類器增加權(quán)重,構(gòu)成加權(quán)隨機(jī)SVM集群(Weighted Random SVM Cluster,WRSVMC),提高了分類的穩(wěn)定性和準(zhǔn)確率;運(yùn)用該算法對(duì)MCI患者的fMRI數(shù)據(jù)進(jìn)行的分類結(jié)果表明,準(zhǔn)確率最高可達(dá)87.67%。圖1是該模型的示意圖,它克服了RSVMC因各SVM之間分類能力差異而性能不穩(wěn)定的問題,但在高維數(shù)據(jù)的降維問題上沒有很好的作為。
圖1 WRSVMC模型
為了進(jìn)一步優(yōu)化特征選擇,將進(jìn)化的思想引入WRSVMC,動(dòng)態(tài)地從高維樣本特征中逐步刪減無用特征,構(gòu)成EWRSVMC。為了確定所刪除的是無用樣本特征,設(shè)置閾值以控制樣本特征的收斂速度。圖2是其進(jìn)化過程,若初始樣本特征為d維,經(jīng)過k輪進(jìn)化后的樣本特征維數(shù)是dk(dk≤dk-1)。
圖2 EWRSVMC的進(jìn)化過程
fMRI腦功能圖譜的網(wǎng)絡(luò)構(gòu)造、網(wǎng)絡(luò)邊值的處理以及特征的選擇與WRSVMC中的方法相同,每一個(gè)圖譜的4275個(gè)特征是分類器的初始輸入數(shù)據(jù)[8]。
將數(shù)據(jù)集D劃分為Dtrain、Dvalidation和Dtest三個(gè)集。Dtrain用來訓(xùn)練分類器,Dvalidation用來獲取SVM的權(quán)重,Dtest用來測(cè)試模型的泛化性能。
(1)訓(xùn)練n個(gè)基學(xué)習(xí)器的RSVMC,計(jì)算SVMi對(duì)驗(yàn)證集數(shù)據(jù)中的分類正確率Wi,并作為其權(quán)重。
(2)挑出Wi<0.5的弱SVMi,找出它們所選中的特征,累加相同特征的權(quán)重Awj:
其中p是弱分類器數(shù)量,wl,j是第l個(gè)弱分類器的第j個(gè)特征的權(quán)重。
(3)特征的權(quán)重越高,對(duì)分類的影響越小。閾值r用來鑒別和刪減這些特征,若Awj≥r,則第j維特征的權(quán)重重置為零,從而得到進(jìn)化后的特征集。
設(shè)第i輪進(jìn)化所刪減的特征數(shù)目是Ki,則第n輪進(jìn)化后保留的特征數(shù)目為:
當(dāng)進(jìn)化輪數(shù)達(dá)到預(yù)設(shè)閾值時(shí)算法停止。圖3是進(jìn)化流程。
圖3 EWRSVMC進(jìn)化流程
預(yù)測(cè)Dtest集中的每一個(gè)樣本的類別。將樣本x通過各分類器檢測(cè),若fi(x) 是樣本x經(jīng)SVMi預(yù)測(cè)的結(jié)果,Ι(?) 是指示函數(shù),則求得x屬于a類別的加權(quán)總得票數(shù)為Sa。
經(jīng)過加權(quán)后選出得票數(shù)最多的類別A作為樣本的最終預(yù)測(cè)類別:
A=Arg max(Sa)
通過對(duì)比樣本的預(yù)測(cè)類別和它們?cè)谠紝?shí)驗(yàn)集中的真實(shí)類別,可以得到Dtest集樣本被正確分類的數(shù)量Ttrue,若Crad(Dtest)=T,則分類準(zhǔn)確率為:
Pre=Ttrue/T
EWRSVMC可以用來研究腦區(qū)疾病和功能變異。首先求出進(jìn)化后對(duì)算法分類性能有重要影響的特征集,這些特征也是和被研究疾病直接相關(guān)的異常特征。然后在腦區(qū)尋找與異常特征吻合的區(qū)域,異常區(qū)域越多,則相對(duì)應(yīng)的腦區(qū)頻數(shù)越高,與相應(yīng)的腦功能異常越相關(guān)。將腦區(qū)的頻數(shù)降序排列,就能檢測(cè)出與疾病相關(guān)的腦區(qū)。下面通過對(duì)fMRI數(shù)據(jù)的AD分類,評(píng)估算法的性能。
共執(zhí)行了兩組實(shí)驗(yàn),每組實(shí)驗(yàn)主要被分為4個(gè)步驟:
(1)將實(shí)驗(yàn)數(shù)據(jù)集按2:1:1比例劃分為訓(xùn)練、驗(yàn)證及測(cè)試集。
(3)找出最優(yōu)特征子集。計(jì)算每一輪進(jìn)化后的準(zhǔn)確率,將最高準(zhǔn)確率的模型所對(duì)應(yīng)的基分類器數(shù)目設(shè)定為最優(yōu)。
(4)檢測(cè)異常腦區(qū)。根據(jù)最優(yōu)特征子集中每條特征含有的兩個(gè)腦區(qū),統(tǒng)計(jì)同一腦區(qū)出現(xiàn)的頻數(shù),將部分頻數(shù)最高的腦區(qū)作為異常腦區(qū)。
圖4的結(jié)果表明在第34輪進(jìn)化前準(zhǔn)確率基本保持增長(zhǎng)趨勢(shì),之后達(dá)到最高準(zhǔn)確率88.89%。與現(xiàn)有的分類算法相比,EWRSVMC的分類性能更優(yōu);同時(shí)AUC值也達(dá)到了0.9091,說明算法在處理分類問題上很穩(wěn)健。
圖4 進(jìn)化輪次與準(zhǔn)確率關(guān)系
針對(duì)fMRI圖譜數(shù)據(jù)的高維特性,在WRSVMC分類模型基礎(chǔ)上引入進(jìn)化機(jī)制,能有效地去除特征數(shù)據(jù)中的冗余部分,保留異常特征,加快了降維過程,分類速度和準(zhǔn)確率提高幅度較為明顯。另外,該算法還能找到與這些特征相關(guān)聯(lián)的異常腦區(qū),如顳上回、顳中回和腦島部位的異常,從而可以確定AD疾病與這些腦區(qū)的病變過程有著不可分割的關(guān)聯(lián),為分析與研究AD病理的成因提供了一個(gè)新視角,還可以有效地幫助醫(yī)師對(duì)AD患者進(jìn)行輔助診斷。