李 棟,吳海鋒,2,保 涵,馬 佳,曾 玉,2
(1.云南民族大學電氣信息工程學院,昆明 650500;2.云南省高校智能傳感網(wǎng)絡(luò)及信息系統(tǒng)創(chuàng)新團隊,昆明 650500)
靜息態(tài)功能核磁共振成像(Rest-state functional magnetic resonance imaging,rs-fMRI)技術(shù)具有無輻射性和無創(chuàng)傷性,且采集時不需受試者做認知任務(wù),因此廣泛應用于腦科學研究中[1]。通常,大腦的工作是由不同腦區(qū)協(xié)作完成,即使在靜息態(tài)時也是如此。由于通過rs-fMRI 所得到的功能性連接(Functional connectivity,F(xiàn)C)可以表示腦區(qū)間相互作用強度,因此FC 可以適當?shù)乇硎敬竽X的協(xié)同工作模式。已有研究[2-4]表明,一些精神類疾病患者的腦區(qū)協(xié)同工作模式會發(fā)生改變,因此FC 對研究這些疾病診斷具有一定的現(xiàn)實意義。例如,輕度認知障礙(Mild cognitive impairment,MCI)作為阿爾茲海默癥(Alzheime’s disease,AD)前期的必經(jīng)階段,已被證實其患者大腦的FC 和正常人具有顯著性差異[3-4]。
在rs-fMRI 信號中,有兩種較常見計算FC 的方法。一種是通過自動解剖標簽(Anatomical automatic labeling,AAL)的興趣區(qū)(Region of in terest,ROI)[5]提取血氧水平依賴(Blood oxygenation level dependent,BOLD)信號,然后求其皮爾遜相關(guān)[6]。另外一種常見方法是對fMRI 信號進行盲分離得到時間進程(Time course,TC)[7-8],然后由靜息網(wǎng)絡(luò)(Resting state network,RSN)模板篩選出功能性腦區(qū),對腦區(qū)對應的TC 求皮爾遜相關(guān)。由于大腦FC 會展現(xiàn)一些非平穩(wěn)性[9-10],但基于皮爾遜相關(guān)的FC 無法反映時變特性,因此可在TC 信號上加上若干時間窗口,在每個窗口內(nèi)求Person 相關(guān),得到動態(tài)功能性連接(Dynamic FC,DFC)[11]。遺憾的是,人腦神經(jīng)元的放電頻率并不一定相同[12],DFC 方法雖能表現(xiàn)信號的時變性,但卻無法展現(xiàn)不同頻率上的FC 信息。小波變換是在時頻域上對信號進行變換,近年來也被用于rs-fMRI 的FC 研究,其基本做法是對TC 信號做小波變換后再分析其相關(guān)特性,以此得到相應的FC[13]。雖然小波的FC 方法可以得到頻率上的信息,但眾所周知,其相關(guān)值往往與選取的母函數(shù)相關(guān)。經(jīng)驗模態(tài)分解(Empirical model decomposition,EMD)是一種無需依賴母函數(shù)非平穩(wěn)信號處理方法,通過不斷迭代篩選將信號分解為有限個不同固有模態(tài)頻率(Intrinsic mode functions,IMF)信號和一個殘差信號[14],最近也被常用于fMRI 信號計算FC[15-16]。但是直接對信號做EMD 分解會出現(xiàn)端點效應和模態(tài)混疊現(xiàn)象。為解決這個問題,Huang等提出了集成經(jīng)驗模態(tài)分解(Empirical EMD,EEMD)[17],該方法是將原始信號加入幅度較小的白噪聲,再進行分解,做多次試驗求平均值。EEMD 分解在一定程度上緩解了端點效應和模態(tài)混疊的問題,但該方法以增加算法復雜度為代價,需要做多次試驗才能消除白噪聲帶來的影響。而且EMD 和EEMD 都是對受試者的每個TC 信號進行獨立分解,會導致各TC的IMF 分量數(shù)和頻率各不相同,就難以計算各個層上的相關(guān)系數(shù)。多元經(jīng)驗模態(tài)分解(Multivariate EMD,MEMD)[18-19]是一種多通道的經(jīng)驗模態(tài)分解,可實現(xiàn)多個TC 時間序列的同步聯(lián)合分析,確保多個TC 信號的IMF 在時間和頻率上均保持匹配,從而利于在各層上做相關(guān)分析。但MEMD 仍然會存在模態(tài)混疊的問題,因此,2011 年Rehman 等提出了噪音輔助的多元經(jīng)驗模態(tài)分解(Noise assisted MEMD,NA-MEMD)算法,將額外的白噪聲通道拼接到輸入信號中,通過MEMD 分解后再舍棄白噪聲通道,保留原始信號的IMF 分量。NA-MEMD 結(jié)合了EEMD 和MEMD 的優(yōu)點,可以多通道處理非平穩(wěn)信號,并有效減少了模態(tài)混疊現(xiàn)象,而且相比于EEMD 算法無需做多次分解求平均,具有更低的計算復雜度,因此廣泛應用于非平穩(wěn)信號的處理中。
目前還存在一類利用無監(jiān)督聚類來研究FC 動態(tài)性的方法,它們可將DFC 表達為一系列時間狀態(tài)序列特征[20-22]或聚類中心的線性組合的特征[23-25],通過分析這些特征表達來尋找疾病的顯著性差異,也可以采用隱馬爾科夫模型(Hidden Markov model,HMM)[26]和支持向量機(Support vector machine,SVM)[27]等分類器對其分類。然而,無論是顯著性差異的分析還是分類器分類,其性能與聚類結(jié)果緊密相關(guān),不同的聚類結(jié)果將得到不同性能。在無監(jiān)督聚類中,設(shè)定不同的聚類數(shù)會得到不同的聚類結(jié)果,現(xiàn)有的方法設(shè)定聚類數(shù)大多采用經(jīng)驗值,并根據(jù)類內(nèi)距離和類間距離評判聚類數(shù)性能[28-30]。例如,在路易體癡呆的研究中Ma 等將聚類數(shù)設(shè)為2[30],在自閉癥譜系障礙的研究中Guo 等將聚類數(shù)設(shè)為5[31],在精神分裂癥的研究中Miller 等將聚類數(shù)設(shè)為5[32],在睡眠質(zhì)量的研究中Zhou 等將聚類數(shù)設(shè)為4[33],認知任務(wù)下的AD 研究中Lee 等將聚類數(shù)設(shè)為4[34]。合理的聚類數(shù)應設(shè)為多少,不同的聚類數(shù)會得到什么樣的性能,以上文獻并沒有進行詳細描述。另外,無監(jiān)督聚類即使設(shè)置聚類數(shù),但其初始聚類中心隨機產(chǎn)生,聚類結(jié)果仍具有隨機性,每一次聚類結(jié)果都不盡相同。從多個聚類結(jié)果中采用何種標準選用何種也會影響FC 的分析,比如根據(jù)狀態(tài)占有率(State occupancy rate,SOCR)[35-36]選取結(jié)果,根據(jù)正常對照(Normal control,NC)組、疾病組占有率[37]等參數(shù)評價結(jié)果。
本文將以MCI 與NC 的rs-fMRI 作為處理對象,關(guān)注動態(tài)FC 中有關(guān)聚類的相關(guān)問題,不僅研究加窗的DFC 的聚類性能,而且研究了固有頻率DFC(DFC of intrinsic frequencies,IF-DFC)的聚類性能,該IF-DFC 通過噪音輔助的多元經(jīng)驗模態(tài)分解和加窗皮爾遜算法得到。此外,利用提出的評判輔助聚類方法(Evaluation assisted clustering,EA Clustering)對DFC 和IF-DFC 進行聚類,以評價各種聚類方式的性能。進一步,本文還對比了由各種聚類所得特征來進行分類的性能,包括時間狀態(tài)序列以及所提出的最小二乘(Least square,LS)擬合特征。另外本文引入K-means++算法[38],相比于傳統(tǒng)K-means 算法,K-means++通過優(yōu)化初始聚類中心的選取,具有收斂更快、聚類效果更好的優(yōu)點。
本實驗采用(Alzheimer’s disease neuroimaging initiative,ADNI)數(shù)據(jù)庫提供的rs-fMRI 公開數(shù)據(jù),其下載地址為http://adni.loni.usc.edu/,數(shù)據(jù)參數(shù)見表1。首先,利用數(shù)據(jù)處理和腦成像分析(Data processing &analysis of brain imaging,DPABI)工具箱[5]對所下載的數(shù)據(jù)進行預處理,其下載地址為:http://rfmri.org/dpabi,具體過程如下:
表1 fMRI 數(shù)據(jù)相關(guān)參數(shù)Table 1 Parameters related to fMRI data
(1)對原始數(shù)據(jù)去除前10 幀圖像,保留130幀圖像;
(2)以第48 個切片為基準對所有的切片進行校準,使每個切片上的數(shù)據(jù)具有相同時間點;
(3)對所有被試進行頭動校正,將頭動校正到同一位置,并為接下來的圖像質(zhì)量控制提供數(shù)據(jù);
(4)將與rs-fMRI 數(shù)據(jù)匹配的MRI 數(shù)據(jù)進行顱骨剝離,然后同功能圖像進行配準,將MRI 數(shù)據(jù)變換到rs-fMRI 數(shù)據(jù)的空間,使得rs-fMRI 數(shù)據(jù)可以被分割成腦脊髓液、灰質(zhì)和白質(zhì)信號;
(5)去除一些混淆因素,將6 個頭動參數(shù)(包含3 個轉(zhuǎn)動參數(shù)和3 個平動參數(shù))、腦脊髓液和白質(zhì)信號被作為無關(guān)變量去除;
(6)評估被試者頭部的旋轉(zhuǎn)和平移,發(fā)現(xiàn)所有參與者都沒有表現(xiàn)出過度的頭部運動;
(7)進行歸一化和平滑,并將所有數(shù)據(jù)都過濾到一個頻率范圍(0.01~0.08 Hz)。
再次,采用GIFT(Group ICA of fMRI Toolbox)[7]軟件從預處理數(shù)據(jù)中提取功能區(qū),其下載地址為http://trendscenter.org/trends/software/gift/index.html。該軟件將fMRI 信號視為空間信息經(jīng)過時間進程的混合,采用最小描述長度(Minimum description length,MDL)準則估計出獨立腦區(qū)成分個數(shù),通過獨立成分分析(Independent component analysis,ICA)算法分離出若干個獨立腦區(qū)。實驗中,Gift 軟件分離算法選擇ICASSO 方法,重復做10 次實驗選取每個腦區(qū)的最佳估計,并與每個靜息態(tài)網(wǎng)絡(luò)(Resting state network,RSN)模板做空間多元回歸分析,篩選出回歸系數(shù)最大的53 個腦區(qū),其中RSN 模板下載地址為https://trendscenter.org/trends/data/neuromark/Neuromark_good.nii。該模板將RSN 分為7大類,分別為下皮層(Sub-cortical,SC)、聽覺(Auditory,AUD)、感覺運動(Sensorimotor,SM)、視覺(Visual,VIS)、認知控制(Cognitive-control,CC),默認模式網(wǎng)絡(luò)(Default-mode network,DM)和小腦(Cerebellar,CB)。
本文采用NA-MEMD 來計算IF-DFC,其可表征不同頻率和時間的FC 強度,計算如圖1 所示。若每一個被試的TC 數(shù)為N,添加的噪音序列數(shù)為M,執(zhí)行N+M通道的MEMD 后,每個通道將得到Q個IMF,那么前N個通道的IMF 即為分解結(jié)果。對分解得到的IMF 劃分為若干個時間窗口,在每個窗口內(nèi)計算皮爾遜相關(guān),即可得到第i個序列和第j個序列在q層窗口w的IF-DFC 相關(guān)矩陣,有
圖1 IF-DFC 算法示意圖Fig.1 Schematic diagram of IF-DFC algorithm
式中:N取決于RSN 模板,本文采用的模板N為53;M為噪音序列數(shù),本文分別嘗試使用不同的噪音序列數(shù)做NA-MEMD 分解,得到M=5 時能取得較好的效果。
由于IF-DFC 相關(guān)矩陣為對稱陣,因此取其上三角部分來聚類,得到IF-DFC 矢量,表示為
式中:d(q,w)∈RV×1;V=N×(N-1)/2。
采用EA Clustering 對該相關(guān)矢量進行聚類,分別采用有監(jiān)督聚類和無監(jiān)督聚類兩種方式。對于有監(jiān)督聚類方法,若聚2 類,第1 類的聚類中心為訓練集所有MCI 受試者在某一層IF-DFC 矢量的組平均,第2 類聚類中心為訓練集所有NC 受試者在某一層IF-DFC 矢量的組平均;若聚3 類,則第3 類聚類中心為訓練集所有受試者在某一層IF-DFC 矢量的組平均。再將訓練集和測試集所有被試IF-DFC 矢量分別與聚類中心求歐氏距離,比較距離大小得到每個受試者在某一層的轉(zhuǎn)態(tài)矢量。無監(jiān)督方式對某一層所有被試的IF-DFC 矢量采用K 均值聚類,分別將聚類數(shù)設(shè)為2、3、4 或5。為避免大部分矢量只聚到少量幾類上,無監(jiān)督方式在運行時還需設(shè)置最小SOCR,定義為
式中:n*=min{n1,n2,…,nK},k=1,2,…,+K為第k個類上所聚的矢量數(shù),Ns=n1+n2+…+nK。無監(jiān)督聚類的最小SOCR 的設(shè)置可參見表2。另外,通過聚類結(jié)果還可得到一被試者IF-DFC 在第q層的狀態(tài)序列矢量,有
表2 EA Clustering 聚類方式和參數(shù)設(shè)置Table 2 EA Clustering mode and parameter setting
式中,w=1,2,…,W表示為IF-DFC 在第w個窗口上所聚類的對應狀態(tài),用一系列數(shù)字表表示,即∈{1,2,…,K}。
EA Clustering 將嘗試不同的監(jiān)督方式、聚類數(shù)和SOCR 來得到不同的聚類結(jié)果,通過引入評判聚類性能指標,聚類時間t和MCI 與NC 占比差Δ等推斷聚類的合理性,其中Δ定義為
式中δk為聚在第k個類上MCI 組和NC 組矢量之差,越少的聚類時間和越高的占比差視為較合理的聚類,該算法步驟如表3 所示。
表3 EA Clustering 算法步驟Table 3 Steps of EA Clustering algorithm
為進一步評判EA Clustering 的聚類性能并進一步提取特征矢量,將每一被試在第q層上的IF-DFC矢量表達為聚類中心的線性組合,通過LS 擬合求解該線性組合,所得擬合系數(shù)作為進一步分類的特征,較高分類準確率對應的聚類方式被推斷為有較好合理性,特征提取具體如下。
若一被試在第q層上第w個窗口的IF-DFC 矢量表示為聚類中心矢量的線性組合,即
式中ξ(q,w)為誤差矢量,那么系數(shù)θ(q,w)可通過LS 擬合為
式中(·)?表示偽逆。最后將該被試W個窗口的擬合系數(shù)矢量合并,形成最終的特征矢量
上述計算步驟如表4 所示。
表4 LS 特征提取步驟Table 4 LS feature extraction steps
HMM 是常用于時間序列的分類模型,由表3 可以得到一系列的時間狀態(tài)序列,因此本文采用HMM 對該狀態(tài)序列做分類,通過期望最大化算法分別對MCI 和NC 訓練集受試者的時間狀態(tài)序列訓練得到2 個HMM 模型,再分別求每個模型對測試集時間狀態(tài)序列的對數(shù)似然,比較其大小做分類。從另外一個角度看,MCI 與NC 分類實際上是一種二分類過程,而SVM 通過尋找特征空間最優(yōu)決策超平面進行分類,是目前應用最為廣泛的二分類模型,因此使用SVM 分類器對表3 得到的轉(zhuǎn)態(tài)矢量和表4 得到的LS 特征做分類。本文所采用的HMM 軟件下載地址為https://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html,SVM 采用MATLAB 自帶程序,分類器的輸入選用了DFC 和IF-DFC 聚類結(jié)果,即由式(6)得到的狀態(tài)序列矢量和由式(9)得到的LS 特征,以下是各分類方法的具體說明:
(1)UnHMM-DFC:由表3 對DFC 作無監(jiān)督聚類得到轉(zhuǎn)態(tài)矢量,其作為HMM 的輸入進行分類;其中,DFC 轉(zhuǎn)態(tài)矢量特征提取來自文獻[39],HMM 分類方法來自文獻[40-41],注意到表3 算法的處理對象是IF-DFC,需將其替換為DFC,下面的分類算法中若出現(xiàn)DFC,均是如此處理;
(2)SupHMM-DFC:由表3 對DFC 作有監(jiān)督聚類得到轉(zhuǎn)態(tài)矢量,使用HMM 分類。
(3)UnHMM-IF-DFC:由表3 對IF-DFC 作無監(jiān)督聚類得到轉(zhuǎn)態(tài)矢量,使用HMM 分類。
(4)SupHMM-IF-DFC:由表3 對IF-DFC 作有監(jiān)督聚類,使用HMM 分類。
(5)UnSVM-DFC:由表3 對DFC 作無監(jiān)督聚類得到轉(zhuǎn)態(tài)矢量,使用SVM 分類;其中,SVM 分類模型與文獻[42]相同。
(6)SupSVM-DFC:由表3 對DFC 作有監(jiān)督聚類,使用SVM 分類。
(7)UnSVM-IF-DFC:由表3 對IF-DFC 作無監(jiān)督聚類,使用SVM 分類。
(8)SupSVM-IF-DFC:由表3 對IF-DFC 作有監(jiān)督聚類,使用SVM 分類。
(9)SupLS-SVM-DFC:由表3 對DFC 作有監(jiān)督聚類,由表4 得到LS 特征,采用SVM 分類;同表3類似,表4 中的IF-DFC 需替換為DFC,后面的算法也是如此。
(10)SupLS-SVM-IF-DFC:由表3 對IF-DFC 作有監(jiān)督聚類,由表4 得到LS 特征,采用SVM 分類。
(11)UnLS-SVM-DFC:由表3 對DFC 作無監(jiān)督聚類,由表4 得到LS 特征,采用SVM 分類,其中,采用無監(jiān)督聚類,再表達為LS 擬合特征方法來自于文獻[23],后面的算法也是如此。
(12)UnLS-SVM-IF-DFC:由表3 對IF-DFC 作無監(jiān)督聚類,由表4 得到LS 特征,采用SVM 分類。
(13)UnLS-SVM-IF-DFC++:將表3 的K 均值方法替換為K-means++算法[38],再由表3 對IF-DFC 作無監(jiān)督聚類,由表4 得到LS 特征,采用SVM 分類。
測試以上算法時,均采用5 折交叉驗證,把總數(shù)據(jù)樣本隨機分為5 組,1 組作為測試集,其他4 組作為訓練集,5 組中每1 組都會作為1 次測試集。為了避免偶然性,實驗中共做了10 次5 折交叉驗證,因此最終分類準確率為50 次實驗結(jié)果的平均值。另外,在上述的分類算法中,無監(jiān)督聚類方法對測試集和訓練集的所有數(shù)據(jù)進行聚類,有監(jiān)督聚類算法僅對訓練集數(shù)據(jù)進行聚類。
本節(jié)分別給出了EA Clustering 對DFC 和IF-DFC 的聚類結(jié)果,主要是占比差Δ和聚類時間,共獨立做了50 次實驗,實驗結(jié)果為50 次實驗的均值。另外,本節(jié)還給出了聚類中心所對應的FC 矩陣,由于每一次聚類結(jié)果,聚類中心變化較大,因此該FC 矩陣為50 次實驗中隨機選取的一次結(jié)果,僅為了顯示較直觀的結(jié)果。
表5 給出了DFC 的聚類時間和占比差。從表5 可以看出,有監(jiān)督EA Clustering 聚類時間要比無監(jiān)督聚類時間低得多,且占比差也比無監(jiān)督大。對于無監(jiān)督聚類,其占比差從高到低排列為聚類數(shù)5、4、3 和2,聚類時間從高到低排列為聚類數(shù)5、4、3 和2。該結(jié)果表明,無監(jiān)督設(shè)置的聚類數(shù)多,聚類中心間的差異越大。
表5 DFC EA Clustering 聚類結(jié)果Table 5 DFC EA Clustering results
表6 給出了IF-DFC 的聚類結(jié)果。其中,由于該聚類需要在某一層的IMF 上進行,因此表6 給出了IMF1、IMF3和IMF4層上的聚類結(jié)果,選取原則是本文算法在這幾層IMF 分類效果較好。從表5 可以看到有監(jiān)督聚類時間仍然遠少于無監(jiān)督,且占比差也高于無監(jiān)督。對于無監(jiān)督聚類,無論在何層IMF,其占比差從高到低大約為5 類、4 類、3 類和2 類,聚類時間4 和5 類最長,3 類次之,2 類最少。該排列順序和表5 的結(jié)果類似,但表6 中某些IMF 層上的占比差卻比表5 略有提升,例如表6 中IMF1層上4 類的占比差高于表5。對于聚類時間,表6 的某些IMF 層上的聚類時間也略少于表5,例如IMF4 的5 類。不過,總體而言,表5,6 的占比差和聚類時間還是比較接近。
表6 IF-DFC EA Clustering 聚類結(jié)果Table 6 IF-DFC EA Clustering results
圖2和圖3分別給出了DFC 和IF-DFC 在IMF1層上各聚類中心的FC 矩陣圖。與表5,6一致,有監(jiān)督聚類中,MCI占比高和NC 占比高的聚類中心間顯示的差異性更大。另外,還可以看到,NC 占比高的聚類中心的連接性要強于MCI占比高的聚類中心,這個結(jié)果與MCI被認為是功能性喪失癥的理論是一致的。
圖2 DFC 在IMF1層上EA Clustering 聚類結(jié)果圖Fig.2 Clustering result of DFC EA Clustering on IMF1 layer
圖3 IF-DFC 在IMF1層上EA Clustering 聚類結(jié)果圖Fig.3 Clustering result of IF-DFC EA Clustering on IMF1 layer
本節(jié)將給出引入了LS 特征后的分類結(jié)果,該LS 特征分別由DFC 和IF-DFC 利用EA Clustering 聚類所得,并嘗試用SVM 分類器做分類。同時,還將以上結(jié)果與僅用EA Clustering 聚類后的狀態(tài)矢量的分類結(jié)果進行了對比。圖4 先給出了IF-DFC 用EA Clustering 聚類的結(jié)果,該IF-DFC 選用NA-MEMD IMF1 的分類結(jié)果,原因該層的分類準確率較高。從平均準確率看,大部分引入LS 特征的分類算法的準確率要高于僅用轉(zhuǎn)態(tài)矢量的分類準確率。特別地,對于LS 特征,采用有監(jiān)督聚類的分類準確率要高于無監(jiān)督的,無論是將聚類數(shù)設(shè)為2 或3 均是如此,其準確率已到達63%,而不再是接近50%。而從標準差看,大部分引入LS 特征的分類標準差要小于僅用轉(zhuǎn)態(tài)矢量的標準差,這表明引入LS 特征再分類要更具穩(wěn)定性。此外,對于無監(jiān)督的LS 算法,還將K-means++算法與傳統(tǒng)的K-means聚類算法作比較,可以看出將聚類數(shù)設(shè)為3,4 和5 時,無論是分類準確率還是標準差,K-means++算法都要優(yōu)于K-means 算法,而將聚類數(shù)設(shè)為2 時,K-means++算法分類效果略比K-means算法差。
圖4 IF-DFC 各算法分類結(jié)果圖Fig.4 IF-DFC classification results of each algorithm
圖5 將分類器的輸入由IF-DFC 換成了DFC。可以看出,有監(jiān)督聚類引入LS 特征的分類算法的準確率高于其他算法,而分類標準差低于其他算法。除此之外,采用IF-DFC 的有監(jiān)督的LS 分類準確率已在63%左右,已超過采用DFC 分類算法3 個百分點。
圖5 DFC 各算法分類結(jié)果圖Fig.5 Classification results of each algorithm of DFC
圖4 給出的IF-DFC 的分類結(jié)果是選取了具有較高準確率的IMF 層,而圖6 給出了IF-DFC 在多個IMF 層的分類結(jié)果。同樣地,將這些IMF 層上的IF-DFC 通過聚類后計算LS 特征,再用SVM 進行分類。從圖中可以看到,IMF1、IMF2和IMF4層準確率較高,IMF1、IMF2和IMF3層分類標準差較低,因此這也是圖4 中有監(jiān)督LS-SVM 選取IMF1的原因。
圖6 LS-SVM 有監(jiān)督聚二類IMF1~IMF6的分類結(jié)果Fig.6 LS-SVM supervised clustering classification results of two classes IMF1—IMF6
本節(jié)將分別給出HMM 和SVM 采用式(9)中聚類狀態(tài)序列矢量的分類準確率,該序列矢量分別由DFC 和IF-DFC 采用EA Clustering 獲得。圖7 給出DFC 和IF-DFC 在設(shè)置不同聚類數(shù)時,采用EA Clustering 聚類后獲得的分類準確率,其中IF-DFC 選用的是IMF 層中較高準確率的分類結(jié)果。其中SupHMM-IF-DFC 是在IMF4的計算結(jié)果,UnHMM-IF-DFC 是在IMF1的計算結(jié)果,從圖7(a)給出的平均分類準確率看,平均分類準確率在47%~59%,難以將MCI 組和NC 組區(qū)分,但也應看到IF-DFC 的分類準確率略高于傳統(tǒng)DFC,除聚類數(shù)為5 的情況除外,而有監(jiān)督聚類分類準確率都略高于無監(jiān)督聚類。圖7(b~e)給出了10 次實驗的分類準確率曲線??梢钥闯觯簩⒕垲悢?shù)設(shè)為2 和3 時,分別有1 和2 次實驗有監(jiān)督聚類IF-DFC 分類準確率低于DFC;將聚類數(shù)設(shè)為3 和4 時,也僅有3 和2 次實驗無監(jiān)督聚類IF-DFC 分類準確率低于DFC。
圖8 給出了SVM 對DFC 和IF-DFC EA Clustering 無監(jiān)督聚類后的分類結(jié)果。與圖7 的結(jié)果類似,IF-DFC 的分類準確率略高于DFC,除無監(jiān)督聚類數(shù)為3 的情況除外,有監(jiān)督聚類分類準確率略高于無監(jiān)督,除DFC 聚類數(shù)為3 的情況除外。
圖8 SVM 算法分類結(jié)果圖Fig.8 Classification results of the SVM algorithm
通過FC 研究MCI 與NC 差異是較常見技術(shù),因為MCI 作為一種功能性連接喪失癥,其在FC 的表現(xiàn)與NC 組將有所區(qū)別。由于FC 的非平穩(wěn)性,對其分段加窗后聚類也并不是種新技術(shù),但現(xiàn)有文獻似乎并未過多關(guān)心該技術(shù)中的聚類方式,比如無監(jiān)督方式還是有監(jiān)督組平均,甚至聚類數(shù)也各不相同,從2 類到5 類都有。本文試圖從聚類本身所展示特性來評估聚類的合理性,同時引入機器學習的分類方法,從分類準確率進一步評估聚類方法的合理性,主要關(guān)心的仍是聚類方式及聚類數(shù)。
EA Clustering 引入聚類參數(shù)來體現(xiàn)聚類的合理性,例如SOCR,聚類數(shù),聚類時間,聚類方式以及占比差等指標。大部分無監(jiān)督聚類中心指向并不明確,雖占比差超過0,但由于所聚的類代表的簇既有MCI 被試也有NC 被試,因此其表現(xiàn)的特征歸為何組就不易斷定。同時,無監(jiān)督聚類還需設(shè)定最小SOCR 條件,否則所聚的矢量只會集中到少數(shù)幾類中,極端時只集中到一類,這將給分析帶來極大困難。但是,設(shè)置SOCR 條件又會使聚類時間增加,因為聚類結(jié)果不滿足SOCR 條件,算法只能重新開始。這說明若無監(jiān)督聚類不受干預,聚類其實更傾向于聚較少類,而不是更多的類,由此可以猜測無監(jiān)督的自組織性存在一定欠缺。而通過組平均的方式得到的狀態(tài)指向更加明確,且其運算只需要加法和除法而已,而無需像無監(jiān)督聚類求歐氏距離并反復迭代,因此計算組平均的時間要遠小于無監(jiān)督聚類。
從另外一方面,利用組平均或無監(jiān)督聚類結(jié)果,可以將動態(tài)連接性看成一系列有限狀態(tài)序列,該有限狀態(tài)序列其實就是所聚的類。因此,可以將該有限狀態(tài)序列作為特征輸入到分類器中,但由于該方法的分類準確率均接近50%,即接近二分類中1/2 的概率,因此考慮了另外一種特征提取的方法,把動態(tài)功能性連接擬合為各有限狀態(tài)的線性組合,將該擬合系數(shù)作為分類特征。采用這種方式的分類,同樣是采用組平均方式所得到的特征的分類精度要高于無監(jiān)督聚類,且分類準確率可以達到63%。另外,本文在計算動態(tài)FC 時,考慮另外一種方式,即將TC 先經(jīng)EMD 分解后再計算動態(tài)FC,這樣做的目的在于可以計算每一層固有頻率上的動態(tài)FC。從實驗結(jié)果看,在IMF 層上聚類后,總有一些層上的分類準確率要高于未分層的動態(tài)FC。一個可能的解釋是,分層以后會把一些MCI 組和NC 組的共同噪聲進行分離,如原始fMRI 信號中來自于呼吸和心跳的共同噪聲[43-45],從而提高分類準確率。另外一個可能的解釋是,神經(jīng)元放電頻率并不一定相同,在不同的固有頻率上進行聚類,以此尋找MCI 組與NC 組間的差異性應該具有更好的合理性。當然,本文在固有頻率上的研究并不充分。首先,IMF 信號聚類在何層具有更好的性能,或者具有更好的分類準確率,需要進一步分析。從實驗結(jié)果看,利用LS 特征進行分類時,最好的分類準確率在第1 層,第2 層和第4 層,均具有超過60%的分類準確率。然而,IMF信號僅能體現(xiàn)信號在一固有頻率的特征,該固有頻率僅僅是一個頻帶,因此只能得到在中低頻率上具有較好性能的結(jié)論,而無法具體到頻率點。下一步工作可采用希爾伯特變換計算IMF 信號的瞬時頻率,從而確定聚類具體在何頻率帶進行,這對完善IMF 聚類具有積極意義。比如,本文現(xiàn)在采用的多通道EMD 僅能保證一個被試的各功能區(qū)在相同IMF 層上的固有頻率匹配,但被試與被試間在相同的層上匹配并不嚴格,因為該分解是獨立對每一個被試分別進行。然而,計算出具體頻帶后,可根據(jù)該結(jié)果選擇被試與被試在何層具有最佳的頻率匹配。
最后需要強調(diào)的是,本文并未將重心放在如何提高MCI 與NC 的分類準確率上。從以往的文獻看,大多對DFC 進行聚類的方法[30-34]主要也是分析疾病組與控制組間的顯著性差異,而較少地關(guān)心用其來進行分類,有可能的一個原因在于用這種方法進行分類的準確率并不高。從本文的實驗結(jié)果也可以看到,其部分結(jié)果僅略超60%。因此,本文也僅僅將分類準確率作為一種評價聚類性能的指標,而不是將聚類看成是一種分類方法。從該角度看,經(jīng)IMF 的有監(jiān)督聚類后,分析MCI 組和NC 組間的顯著性差異的工作也是必要的,特別與加窗DFC 的方法相比,這種差異性有何不同,這部分研究也將是未來工作的重點之一。特別地,如果以提高分類準確率為目的來研究聚類方法,在未來也可以考慮利用提取特征的方法,因為目前本文的分類準確率未得到大幅提升的原因之一是FC 的維度太高,至少是一個相關(guān)陣的上三角部分,一些研究已經(jīng)表明,特征數(shù)多將產(chǎn)生較多的冗余信息。
MCI 與NC 在FC 上表現(xiàn)了較大的差異性,且FC 還具有一定的動態(tài)特性。對FC 進行聚類后再研究其差異性是一種常用方法,遺憾的是現(xiàn)存方法并未過多討論聚類方法本身。針對以上問題,本文提出利用EA Clustering、IF-DFC 和LS 擬合特征等方法研究和評價聚類的合理性,得出如下結(jié)論:(1)從聚類時間和占比差等聚類指標看,有監(jiān)督聚類比無監(jiān)督聚類具有更好的合理性,因為其聚類時間更少,占比差更高,且有監(jiān)督聚類數(shù)可設(shè)為2 或3;(2)從分類準確率的實驗結(jié)果看,實驗結(jié)果仍支持有監(jiān)督聚類所展示的差異性比無監(jiān)督聚類更顯著,因為無論采用HMM 和SVM 的分類器,還是采用聚類所得到的狀態(tài)序列和LS 擬合特征,有監(jiān)督聚類的分類準確率均高于無監(jiān)督聚類。(3)仍從分類準確率看,將動態(tài)FC 在不同固有頻率層上聚類,其顯著性差異要好于不劃分固有頻率的聚類,因為無論采用HMM 和SVM 的分類器,還是采用聚類所得到的狀態(tài)序列和LS 擬合特征,引入固有頻率的聚類分類準確率要高于無固有頻率層上的聚類。