吳浩 王昕璨 李欣蕓 劉志芬 陳俊杰 郭浩
摘 要:基于單一腦圖譜模板的功能連接網(wǎng)絡(luò)中提取的特征表示不足以揭示患者組和正常對照組(NC)之間的復(fù)雜拓?fù)浣Y(jié)構(gòu)差異,而傳統(tǒng)的基于多模板的功能腦網(wǎng)絡(luò)定義多采用獨(dú)立模板,缺乏模板間的關(guān)聯(lián),從而忽略了各模板構(gòu)建的功能腦網(wǎng)絡(luò)中潛在的拓?fù)潢P(guān)聯(lián)信息。針對上述問題,提出了一種多層次腦圖譜模板和一種使用關(guān)系誘導(dǎo)稀疏(RIS)特征選擇模型的方法。首先定義了具有關(guān)聯(lián)的多層次腦圖譜模板,挖掘模板之間潛在關(guān)系和表征組間網(wǎng)絡(luò)結(jié)構(gòu)差異;然后用RIS特征選擇模型進(jìn)行參數(shù)優(yōu)化,進(jìn)而提取組間差異特征;最后利用支持向量機(jī)(SVM)方法構(gòu)建分類模型,并應(yīng)用于抑郁癥患者的診斷。在山西大學(xué)第一醫(yī)院抑郁癥臨床診斷數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果顯示,基于多層次模板的功能腦網(wǎng)絡(luò)通過使用具有RIS特征的選擇方法取得了91.7%的分類準(zhǔn)確率,相比傳統(tǒng)多模板方法的準(zhǔn)確率提高了3個(gè)百分點(diǎn)%此處是否應(yīng)該為3個(gè)百分點(diǎn)?請明確。要注意百分比和百分號的表述。。
關(guān)鍵詞:多層次模板;功能腦網(wǎng)絡(luò);關(guān)系誘導(dǎo)稀疏;機(jī)器學(xué)習(xí);抑郁癥
Abstract: The feature representation extracted from the functional connection network based on single brain map template is not sufficient to reveal complex topological differences between patient group and Normal Control (NC) group. However, the traditional multi-template-based functional brain network definitions mostly use independent templates, ignoring the potential topological association information in functional brain networks built with each template. Aiming at the above problems, a multi-level brain map template and a method of Relationship Induced Sparse (RIS) feature selection model were proposed. Firstly, an associated multi-level brain map template was defined, and the potential relationship between templates and network structure differences between groups were mined. Then, the RIS feature selection model was used to optimize the parameters and extract the differences between groups. Finally, the Support Vector Machine (SVM) method was used to construct classification model and was applied to the diagnosis of patients with depression. The experimental results on the clinical diagnosis database of depression in the First Hospital of Shanxi University show that the functional brain network based on multi-level template achieves 91.7% classification accuracy by using the RIS feature selection method, which is 3 percentage points%percentage points higher than that of traditional multi-template method.
Key words: multi-level template; functional brain network; relationship induced sparse; machine learning; Major Depressive Disorder (MDD)
0 引言
抑郁癥(Major Depressive Disorder, MDD)是最常見的精神疾病之一。了解MDD的神經(jīng)基礎(chǔ)對于改善這種使人衰弱的疾病的預(yù)防、檢測和治療至關(guān)重要[1]。大量神經(jīng)影像學(xué)研究已經(jīng)發(fā)現(xiàn)并指出MDD患者在結(jié)構(gòu)和功能腦區(qū)間存在異常[2]。同時(shí),基于腦網(wǎng)絡(luò)的方法在精神障礙的機(jī)器學(xué)習(xí)分類中發(fā)揮著越來越重要的作用[3]。例如,這些技術(shù)可以用于診斷或預(yù)測治療結(jié)果。許多研究使用支持向量機(jī)(Support Vector Machine, SVM)分類器,以識別患有MDD的被試與正常對照組(Normal Control, NC)的網(wǎng)絡(luò)指標(biāo)[4]。
基于靜息態(tài)功能磁共振成像的分類研究已經(jīng)在MDD的診斷中被廣泛研究[5-8]。在傳統(tǒng)的靜息態(tài)功能磁共振成像分析中,通常利用單一腦圖譜模板劃分腦區(qū)進(jìn)而構(gòu)建功能連接網(wǎng)絡(luò),再進(jìn)行之后的分類研究[9]。然而,利用單個(gè)腦圖譜模板提取的功能腦網(wǎng)絡(luò)拓?fù)涮卣骺赡懿蛔阋越沂臼芗膊∮绊懙幕颊呓M和NC組之間的潛在差異。具體地,不同的腦圖譜模板對所構(gòu)建網(wǎng)絡(luò)的結(jié)構(gòu)及其拓?fù)鋵傩杂绊懞艽?,而網(wǎng)絡(luò)的不同分割節(jié)點(diǎn)數(shù)量實(shí)質(zhì)上對網(wǎng)絡(luò)的小世界屬性、局部屬性、功能連接強(qiáng)度以及網(wǎng)絡(luò)連通性均存在顯著影響[10]。此外,腦圖譜模板的不同對網(wǎng)絡(luò)的影響還體現(xiàn)在以網(wǎng)絡(luò)拓?fù)鋵傩宰鳛樘卣鞯姆诸愔小?/p>
為了解決上述問題,有研究提出可以利用多種不同的腦圖譜模板來更豐富地表示被試的分類特征[11]。與單模板的方法相比,在減少誤差、提取更豐富的分類特征表示以及提高分類準(zhǔn)確率上取得了相比單模板更好的成效。研究表明,基于多圖譜模板的方法通??杀葐文0宓姆椒▽?shí)現(xiàn)更準(zhǔn)確的診斷。
目前,這個(gè)領(lǐng)域仍存在許多值得探索的問題,其中一個(gè)重要的問題便是多模板的選取。以往基于多模板腦網(wǎng)絡(luò)的研究在選擇模板時(shí)忽略腦圖譜模板之間的關(guān)聯(lián)性?;诖耍疚耐ㄟ^定義多層次模板,建立了不同模板的層次關(guān)聯(lián)性,挖掘出了多個(gè)模板間腦區(qū)的對應(yīng)關(guān)系,表征了具有關(guān)聯(lián)性的多模板對于網(wǎng)絡(luò)拓?fù)鋵傩缘娘@著影響,以針對現(xiàn)有在腦網(wǎng)絡(luò)領(lǐng)域中對多模板劃分研究的不足,旨在突破神經(jīng)影像學(xué)在多模板研究上的壁壘,為MDD數(shù)據(jù)的分類研究提供新的參考方案。
此外,該領(lǐng)域另外一個(gè)重要的問題便是如何提取多個(gè)模板中的多組分類特征的相關(guān)關(guān)系,以便從多組特征中篩選出更加有效的分類特征,從而取得更高的分類準(zhǔn)確率。然而,大多數(shù)現(xiàn)有的基于多模板的方法簡單地平均或連接從不同模板提取的多組特征,或者僅僅對比分析不同模板所得到的特征有效性及特征間冗余性[12-13]。這可能忽略多模板數(shù)據(jù)中包含的重要結(jié)構(gòu)信息,如何更加有效地篩選多個(gè)模板中的多組特征是一個(gè)具有挑戰(zhàn)性的問題?;诖?,本文提出參數(shù)自尋優(yōu)的關(guān)系誘導(dǎo)稀疏(Relationship Induced Sparse, RIS)多模板特征選擇方法。這一方法明確模擬出多模板中的結(jié)構(gòu)信息,降低了多模板特征間的冗余性,提高分類特征的有效性,并被廣泛應(yīng)用在同類研究中[14]。值得注意的是,本文提出參數(shù)自尋優(yōu)框架,優(yōu)化了RIS模型,旨在獲得參數(shù)的最優(yōu)組合,防止了參數(shù)的過度擬合,提高了分類器的泛化性能,使特征選擇和分類更加準(zhǔn)確和有效。
本文定義多層次腦圖譜模板,分析模板之間、被試之間的潛在關(guān)系,利用使用參數(shù)自尋優(yōu)框架的RIS特征選擇方法,提取組間差異特征。結(jié)果顯示,本文所提方法具有更高的分類準(zhǔn)確率。
1 材料與方法
1.1 數(shù)據(jù)采集及預(yù)處理
實(shí)驗(yàn)的采集工作,在遵照山西省醫(yī)學(xué)倫理委員會的建議下,所有被試均知情同意,并根據(jù)赫爾辛基宣言簽署了書面知情同意書。被試包括38名MDD患者和28名健康右利手志愿者,被試基本信息如表1。其腦部靜息態(tài)磁共振成像掃描工作使用西門子3T超導(dǎo)核磁共振成像掃描儀,所有掃描由山西大學(xué)第一醫(yī)院熟悉磁共振的放射科醫(yī)生進(jìn)行。其間,要求被試在掃描過程中閉眼,呈放松狀態(tài),不進(jìn)行思考活動且不能進(jìn)入睡眠狀態(tài)。掃描參數(shù)設(shè)置如下:33axial slices,Repetition Time(TR)=2000ms,Echo Time(TE)=30ms,thickness/skip=4/0mm,F(xiàn)ield Of View (FOV)=192×192mm,matrix=64×64mm,flip angle=90°,248volumes。
表1中的數(shù)據(jù)范圍是最小值~最大值(平均值±此處的+,是否應(yīng)該為±?請明確標(biāo)準(zhǔn)偏差)。HAMD為24個(gè)漢密爾頓量表,a表示雙值雙尾T檢驗(yàn)得到P值,b表示通過雙尾Pearson卡方檢驗(yàn)得到P值。
本文使用Matlab平臺下的統(tǒng)計(jì)參數(shù)映射(Statistical Parametric Mapping, SPM)對實(shí)驗(yàn)采集來的圖像進(jìn)行預(yù)處理,主要包括如圖1所示處理步驟[15]。
其中,時(shí)間片校正用來校正功能核磁共振成像(functional Magnetic Resonance Imaging, fMRI)影像掃描中各層之間采集時(shí)間的差異。頭動校正即為對影像進(jìn)行剛體變換并重排至同一被試的某一參考影像中,以形成新的影像序列。在此過程中,2例MDD組及NC組數(shù)據(jù)由于校正過程中頭動大于3mm或轉(zhuǎn)動大于3°而被棄除。在空間標(biāo)準(zhǔn)化步驟中,本文選擇了蒙特利爾神經(jīng)學(xué)研究所(Montreal Neurological Institute, MNI)標(biāo)準(zhǔn)的回聲平面成像(Echo Planer Imaging, EPI)腦模板,體素大小選取為3mm??臻g平滑則是為了進(jìn)一步消除被試腦形態(tài)結(jié)構(gòu)的細(xì)微差異。
1.2 網(wǎng)絡(luò)構(gòu)建和網(wǎng)絡(luò)屬性
1.2.1 多層次模板構(gòu)建
本文挖掘出了不同腦圖譜模板間腦區(qū)的對應(yīng)關(guān)系,重點(diǎn)突出多個(gè)模板之間的關(guān)聯(lián)性,構(gòu)建了AAL90、Parc256、Parc 497、Parc1003、Parc1501這五個(gè)多層次模板。
其中,AAL90模板是自動解剖標(biāo)記圖譜模板(Automated Anatomical Labeling, AAL)[15],將大腦劃分為90個(gè)腦區(qū)(左右每個(gè)半球各45個(gè)腦區(qū)),每個(gè)腦區(qū)代表腦網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),且節(jié)點(diǎn)的值是通過計(jì)算各個(gè)腦區(qū)中所包含的所有體素的算術(shù)平均值來表示的。其余四個(gè)模板,是在AAL90模板基礎(chǔ)上基于動態(tài)隨機(jī)種子的方法細(xì)分大腦區(qū)域得到的。具體方法如下。
首先,將預(yù)期節(jié)點(diǎn)數(shù)用N表示,在此預(yù)設(shè)N為250。將原有AAL模板中的各腦區(qū)占所有腦區(qū)的體素比例用V表示。原有AAL腦區(qū)可劃分的子區(qū)域的個(gè)數(shù)用k表示,其值可通過k=VN計(jì)算得到。也就是說,在N個(gè)節(jié)點(diǎn)的規(guī)模下,腦區(qū)應(yīng)該被劃分為k個(gè)子區(qū)域,然后,針對該腦區(qū),設(shè)置k個(gè)隨機(jī)種子體素,用S={S1,S2,…,Sk}來表示。之后分別計(jì)算各種子體素Si與其他剩余體素的距離。從中選取距離當(dāng)前種子體素最小的體素,將其與種子體素Si組合,形成包含該新體素的新子區(qū)域。接著計(jì)算這些新子區(qū)域的物理中心,并設(shè)置這個(gè)物理中心為下一個(gè)種子體素,然后計(jì)算體素間與種子體素的距離。循環(huán)往復(fù)此過程,直到腦區(qū)內(nèi)所有未被劃分的體素均被劃分到其中。不同腦區(qū)的隨機(jī)種子體素的設(shè)置及腦區(qū)劃分都是各自獨(dú)立完成的,也就是說,一個(gè)種子體素不可能同時(shí)屬于兩個(gè)腦區(qū),即避免存在某個(gè)劃分的腦區(qū)在空間上被其他劃分的腦區(qū)分割的情況。待所有AAL獨(dú)立腦區(qū)劃分完成即得到一個(gè)新的腦圖譜模板。
值得注意的是,可劃分子區(qū)域的個(gè)數(shù)k是通過計(jì)算得到的,因此這個(gè)值在計(jì)算中可能不是一個(gè)整數(shù)。在這種情況下,本文通過四舍五入的方式來解決,所以,實(shí)際得到新的腦圖譜模板的節(jié)點(diǎn)個(gè)數(shù)與預(yù)設(shè)的節(jié)點(diǎn)數(shù)N會存在細(xì)微的偏差。
AAL標(biāo)準(zhǔn)模板下劃分的腦區(qū)有相應(yīng)的名字和編號,以90個(gè)節(jié)點(diǎn)的腦圖譜模板下的1號腦區(qū)(即左側(cè)中央前回)為例,若在256個(gè)節(jié)點(diǎn)的模板下其被劃分為了5個(gè)小腦區(qū),則這5個(gè)小腦區(qū)均命名為左側(cè)中央前回,與AAL模板中的命名一致,而沒有對其重新命名。
同樣地,497、1003、1501三個(gè)模板也是在此方法下得到的。這五個(gè)具有層次關(guān)聯(lián)的腦圖譜模板被標(biāo)記為AAL90、Parc256、Parc497、Parc1003和Parc1501。前綴AAL旨在表示原始的AAL模板。前綴Parc表示使用上述算法確定的模板。模板AAL90劃分的每個(gè)腦區(qū)對應(yīng)到模板Parc256、Parc497、Parc1003和Parc1501腦區(qū)個(gè)數(shù)分別為3、5、10、15,不同模板的層次關(guān)聯(lián)性如多層次模板節(jié)點(diǎn)關(guān)聯(lián)示意圖如圖2所示。
連接即為節(jié)點(diǎn)間的邊。連接的定義使用傳統(tǒng)的方法,即皮爾遜相關(guān)法。提取每個(gè)腦區(qū)血氧含量濃度水平依賴(Blood Oxygenation Level Dependent, BOLD)英文全稱中Level Dependent,應(yīng)是“水平依賴”的意思,而不是“含量濃度”,中文與英文應(yīng)保持書寫一致,請作相應(yīng)調(diào)整?;貜?fù):文章1.2.1中出現(xiàn)的"含量濃度"修改為"水平依賴"的時(shí)間序列,即節(jié)點(diǎn)的值,對節(jié)點(diǎn)的值做皮爾遜相關(guān),得出的值可以反映出節(jié)點(diǎn)之間的交互關(guān)系[16]。
1.2.2 稀疏度的選擇
本文使用稀疏度來構(gòu)建二值網(wǎng)絡(luò)[17]。腦網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)為N時(shí),其對應(yīng)的完全圖的邊數(shù)為N(N-1)/2,稀疏度就是腦網(wǎng)絡(luò)中現(xiàn)存的邊數(shù)與其完全圖邊數(shù)N(N-1)/2的比值。稀疏度可以控制腦網(wǎng)絡(luò)的密度,與閾值的作用一樣,但區(qū)別在于稀疏度是對網(wǎng)絡(luò)整體的描述,而閾值控制的是網(wǎng)絡(luò)中的邊[18]。
選取稀疏度時(shí)要保證最后的二值網(wǎng)絡(luò)具有小的噪聲,且沒有孤立點(diǎn)的存在[19]。有研究表明,當(dāng)稀疏度大于40%時(shí),腦網(wǎng)絡(luò)會退化為隨機(jī)網(wǎng)絡(luò)[20]。故為了使腦網(wǎng)絡(luò)具有小世界屬性,且無孤立點(diǎn)的存在,將稀疏度的范圍設(shè)置為5%到40%,以0.05為步長將加權(quán)網(wǎng)絡(luò)轉(zhuǎn)化為二值網(wǎng)絡(luò)。最后,所有被試的每個(gè)腦圖譜模板下的腦網(wǎng)絡(luò)都得到了8個(gè)不同稀疏度的二值網(wǎng)絡(luò)。
1.3 特征提取和選擇
1.3.1 特征定義
在本文中,選用三個(gè)局部指標(biāo)作為分類特征,包括度、中間中心度和節(jié)點(diǎn)效率[21]。針對不同的腦圖譜模板,分別計(jì)算MDD組和NC組被試網(wǎng)絡(luò)指標(biāo)曲線下面積(Area Under the Curve, AUC)值[20,22-23],選取其經(jīng)過T檢驗(yàn)后具有統(tǒng)計(jì)顯著性(即P值小于0.05)的作為特征。之所以計(jì)算網(wǎng)絡(luò)指標(biāo)的AUC值,是因?yàn)榫W(wǎng)絡(luò)指標(biāo)的計(jì)算并不是在某一確定稀疏度下,而是在一個(gè)選定的稀疏度空間。為了表征指標(biāo)在完整稀疏度空間下的整體特性,本文計(jì)算每個(gè)指標(biāo)的AUC值,以反映測量的網(wǎng)絡(luò)節(jié)點(diǎn)屬性在不同稀疏度下總的變化強(qiáng)度[20]。AUC示意圖如圖4所示。
為了找到特征的最優(yōu)子集,避免過度擬合,提升模型性能,更快地訓(xùn)練分類器,就需要對特征進(jìn)行篩選[24-25]。本文采用RIS特征選擇模型對特征進(jìn)行篩選。
1.3.2 RIS特征選擇模型
顯而易見,在多個(gè)腦圖譜模板下提取的特征數(shù)量要高于單一模板。然而,僅僅連接多個(gè)模板特征的方法并未取得更高的分類準(zhǔn)確率。其原因可能是由于特征數(shù)量的增多,多模板特征間的冗余性提高,使得特征的有效性降低,因此,考慮到多模板特征之間的相似程度,使用RIS特征選擇模型對提取的特征進(jìn)行篩選。
其次,多模板腦網(wǎng)絡(luò)中包含有很多重要的結(jié)構(gòu)信息。然而,其他基于多模板腦網(wǎng)絡(luò)的方法忽略了這一先驗(yàn)信息。RIS特征選擇模型旨在明確地模擬多模板腦網(wǎng)絡(luò)中的結(jié)構(gòu)信息,并且在此基礎(chǔ)上進(jìn)行最優(yōu)的參數(shù)設(shè)置,從而在MDD組與NC組分類中達(dá)到更高的分類準(zhǔn)確度。具體而言,首先將從5個(gè)腦圖譜模板中的多組網(wǎng)絡(luò)屬性作為特征提取出來。接下來,通過引入兩個(gè)正則化項(xiàng)來建立一種新穎的特征選擇算法,以模擬模板之間和各個(gè)被試之間的關(guān)系。也就是說,通過RIS模型挖掘模板之間以及被試之間潛在的關(guān)系,以進(jìn)一步篩選特征。最后,通過SVM分類器的輸出,以實(shí)現(xiàn)最終結(jié)果。下面首先簡要介紹RIS特征選擇模型,然后介紹模型的推導(dǎo)過程。
RIS特征選擇模型主要由4個(gè)部分組成:1)訓(xùn)練數(shù)據(jù)經(jīng)驗(yàn)損失;2)組稀疏正則化項(xiàng);3)模板關(guān)系誘導(dǎo)正則化項(xiàng);4)被試關(guān)系誘導(dǎo)正則化項(xiàng)。其中:1)、2)兩個(gè)部分在于決定特征選擇的數(shù)量,以保證在多組特征中選擇出更加有效的分類特征;3)用于提取多個(gè)模板之間的相關(guān)關(guān)系;4)用于提取不同被試之間的相關(guān)關(guān)系。
式(2)表示多任務(wù)特征學(xué)習(xí)模型。在這里,將每個(gè)模板看作一個(gè)任務(wù),K表示研究中有K個(gè)模板,即K個(gè)學(xué)習(xí)任務(wù)。Xk=[xk1,xk2,…,xkn,…,xkN]T∈RN×d表示包含全部N個(gè)被試的第k個(gè)學(xué)習(xí)任務(wù)(對應(yīng)于第k個(gè)模板)的訓(xùn)練數(shù)據(jù),其中xkn∈Rd表示第k個(gè)模板空間中的第n個(gè)被試的特征向量。同樣地,Y=[y1,y2,…,yn,…,yN]T∈RN作為訓(xùn)練數(shù)據(jù)Xk的響應(yīng)向量。其中yn∈{-1,1}是第n個(gè)被試的類別標(biāo)簽(即MDD組和NC組),在這里,-1表示該被試為MDD患者,1表示該被試為正常對照組。W=[w1,w2,…,wk,…,wK]∈Rd×k表示權(quán)重矩陣。其中,wk∈Rd為第k個(gè)任務(wù)的參數(shù)化線性判別函數(shù)。式(2)中的第一項(xiàng)是訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)損失,第二項(xiàng)‖W‖1,1=∑di=1‖W‖,是矩陣W中行1的范數(shù)的總和。該項(xiàng)有助于在不同模板中選擇少量的特征。λ1是用來平衡該項(xiàng)在式(1)中的相對貢獻(xiàn),并且λ1越大,選擇的特征數(shù)量越少。
接下來,介紹表示模板關(guān)系誘導(dǎo)正則化項(xiàng),即:
在式(3)中,線性映射函數(shù)(也就是f(x)=xTw)被用來將原始高維特征空間的數(shù)據(jù)轉(zhuǎn)換為一維標(biāo)簽空間。Liu等[14]認(rèn)為,同一被試在不同模板中的特征在被映射到類標(biāo)簽后,它們應(yīng)該彼此靠近。同樣地,不同被試在同一模板中的特征xkn1和xkn2若相似,則說明這兩個(gè)被試的估計(jì)類標(biāo)簽(即f(xkn1)和f(xkn2))也是相似的。在這里,tr(·)表示方陣的軌跡,Bn=[x1n,x2n,…,xkn,…,xKn]T∈RK×d表示從第n個(gè)被試的K個(gè)模板中導(dǎo)出的多組特征,并且,Ln∈RK×K是對角元素為K-1,其他元素為-1的對角矩陣。
然后,介紹表示被試關(guān)系誘導(dǎo)正則化項(xiàng),即:
這里的xk是如上所述的第k個(gè)任務(wù)(即第k個(gè)模板)中的特征數(shù)據(jù)矩陣,并且,Sk={Skn1,n2}Nn1,n2表示第k個(gè)模板中的N個(gè)訓(xùn)練對象之間相似性的元素相似矩陣。在這里,Lk=Dk-Sk代表任務(wù)k的Laplacian(拉普拉斯)矩陣。其中,Dk為對角元素為Dkn1,n2=∑Nn2=1Skn1,n2的對角矩陣。Skn1,n2被定義為:
1.3.3 參數(shù)自尋優(yōu)框架
在RIS模型特征選擇的過程中,會涉及到一些參數(shù)的選擇,分別是λ1、λ2、λ3三個(gè)參數(shù)的設(shè)置。這三個(gè)參數(shù)分別表示組稀疏正則化項(xiàng)、模板關(guān)系誘導(dǎo)正則化項(xiàng)以及被試關(guān)系誘導(dǎo)正則化項(xiàng)所占權(quán)重。λ1的值直接影響篩選的特征個(gè)數(shù),λ1值越小,選出的特征數(shù)越多。λ2、λ3的值則表征模板關(guān)系及被試關(guān)系對分類結(jié)果的影響程度。
選擇不同的參數(shù)值,會對分類的結(jié)果造成一定的差異,為了使構(gòu)建的分類器效果達(dá)到最優(yōu),本文提出一種參數(shù)自尋優(yōu)框架,該框架可獲得參數(shù)的最優(yōu)組合,防止參數(shù)的過度擬合,使得RIS模型篩選的特征具有顯著差異,從而使分類更加準(zhǔn)確、有效,即用當(dāng)前對模型影響最大的參數(shù)λ1借助網(wǎng)絡(luò)搜索(Grid Search, GS)[26]方法調(diào)優(yōu),通過循環(huán)遍歷,直到最優(yōu)化,并選取最優(yōu)化過程中結(jié)果相對較好的幾個(gè)參數(shù)值作為之后的候選值;剩下兩個(gè)對模型影響相對較小的參數(shù)λ12和λ13這兩處是否應(yīng)該為λ2、λ3?請明確。借助隨機(jī)搜索(Random Search, RS)[27-28]方法,隨機(jī)選出若干候選值進(jìn)行調(diào)優(yōu),得出這兩個(gè)參數(shù)最優(yōu)的參數(shù)組合。如此,所有的參數(shù)調(diào)整完畢。這個(gè)方法相對省時(shí)省力,但為避免可能會調(diào)到局部最優(yōu)而不是全局最優(yōu),最后再次使用GS的方法,將上一步驟保存的相對數(shù)量較少的λ1參數(shù)值作為候選值,再結(jié)合參數(shù)λ12和λ13這兩處是否應(yīng)該為λ2、λ3?請明確。的最優(yōu)參數(shù)組合值,得到表現(xiàn)最好的參數(shù)組合作為最終結(jié)果。
結(jié)合本文使用的RIS特征選擇方法和SVM分類器,具體而言,包括以下2個(gè)步驟:
1)將輸入的數(shù)據(jù)集A,即提取出來待篩選的特征,按比例分為兩組,分別是訓(xùn)練集B和測試集C,劃分比例約為3∶1。
2)在步驟1)得到的訓(xùn)練集B上,選擇不同的參數(shù)λ1、λ2、λ3的值,構(gòu)成參數(shù)自尋優(yōu)設(shè)置后的RIS模型。基于每一組參數(shù)組合在測試集C上的表現(xiàn),得出效果最佳的參數(shù)組合,表現(xiàn)優(yōu)劣通過SVM分類結(jié)果判定。
上面說是三個(gè)步驟,第三步在哪里?請明確或調(diào)整語句描述。
在框架尋優(yōu)過程中可看出分類精確度隨著三個(gè)參數(shù)λ1、λ2、λ3的改變而變化的情況,并且對于參數(shù)λ2和λ3,分類結(jié)果一般是穩(wěn)定的;對于參數(shù)λ1,分類精確度變化明顯,表明RIS特征選擇方法對參數(shù)λ1特別敏感。參數(shù)自尋優(yōu)結(jié)果得出,在λ1=0.037,λ2=0.4,λ3=0.5時(shí),分類結(jié)果最佳。
1.4 分類
本文采用SVM分類器,其分類工作基于Matlab的LIBSVM工具包[29]進(jìn)行,這是相似的研究中常用的方法[30]。在特征選擇階段,首先利用SVM分類器與參數(shù)自尋優(yōu)框架結(jié)合,通過對分類準(zhǔn)確率對比分析,選出最優(yōu)參數(shù)組合。這部分工作是通過分類準(zhǔn)確率來衡量參數(shù)優(yōu)劣。最后,將使用最優(yōu)參數(shù)的RIS模型篩選出的特征進(jìn)行最后分類,并使用10折交叉驗(yàn)證的方法來評估分類器的泛化性能。
2 結(jié)果
2.1 不同方法對分類結(jié)果的影響
為了證明本文提出的方法具有更好的分類性能,本文更精確地比較在不同單一腦圖譜模板以及不同于本文的多模板方法中的特征數(shù)量、敏感性、特異性以及準(zhǔn)確率。本文在AAL90、Parc256、Parc497、Parc1003、Parc1501這五個(gè)多層次模板中進(jìn)行研究,并計(jì)算每個(gè)單一模板的分類性能以作對比分析,如表2所示。多模板的方法相比單一腦圖譜模板具有更好的分類性能。同時(shí)本文的方法,即經(jīng)過參數(shù)自尋優(yōu)后的RIS特征選擇模型,相比僅僅連接不同模板特征的多模板方法取得了更好的分類結(jié)果。實(shí)驗(yàn)結(jié)果得出本研究方法的分類準(zhǔn)確率為91.7%,特異性為92.3%,敏感性為88.4%。其原因主要是多層次模板之間具有關(guān)聯(lián)性,其關(guān)聯(lián)關(guān)系可作為研究的先驗(yàn)信息。RIS特征選擇方法挖掘出來多層次模板之間的潛在關(guān)系,并且解決了由于特征數(shù)量增多而使得特征間冗余性高的問題,優(yōu)化了特征子集,降低了特征數(shù)目,從而篩選出更有效的特征,在表2特征數(shù)量均有體現(xiàn)。
2.2 RIS參數(shù)對分類結(jié)果的影響
RIS特征選擇模型涉及到λ1、λ2、λ3三個(gè)參數(shù)的設(shè)置,參數(shù)設(shè)置范圍均為(10-10,100),選擇不同的參數(shù)值,會對分類的結(jié)果造成一定的差異。為使分類器效果達(dá)到最優(yōu),本文提出參數(shù)自尋優(yōu)框架。該框架運(yùn)行結(jié)果表明,RIS特征選擇方法對參數(shù)值λ1最為敏感,其中λ1在(10-3,10-1)范圍內(nèi)分類效果較好。由此可見,在多模板方法中,對特征數(shù)量的控制,降低特征間冗余性,提高特征有效性尤為重要。λ2與λ3兩個(gè)參數(shù)分別表示模板間相關(guān)關(guān)系和被試間相關(guān)關(guān)系的權(quán)重,均在(10-1,100)范圍內(nèi)分類效果較好。可以得出,模板間的相關(guān)關(guān)系和被試間的相關(guān)關(guān)系對于分類性能同等重要??蚣茏罱K結(jié)果得出,在λ1=0.037,λ2=0.4,λ3=0.5時(shí),分類結(jié)果最佳。
3 結(jié)語
本文解決了單一腦圖譜模板提取腦網(wǎng)絡(luò)拓?fù)涮卣骺赡懿蛔阋越沂净颊呓M和NC組潛在的解剖學(xué)差異的問題,同時(shí)針對已有的多模板方法僅僅比較不同模板的分類性能或連接不同模板的特征,且選取的多個(gè)模板節(jié)點(diǎn)間不存在關(guān)聯(lián)的問題,提供了解決辦法。定義了多層次模板,突出多個(gè)腦圖譜模板間的關(guān)聯(lián)性。同時(shí),提出經(jīng)過參數(shù)自尋優(yōu)的RIS多模板特征選擇方法,模擬出多模板中的結(jié)構(gòu)信息。其中,參數(shù)自尋優(yōu)框架是為了獲得參數(shù)的最優(yōu)組合,防止了參數(shù)的過度擬合,提高了分類器的泛化性能,使特征選擇和分類更加準(zhǔn)確和有效。分類結(jié)果顯示,本文提出的方法達(dá)到更高的分類準(zhǔn)確率。
本文工作仍存在一些潛在問題。首先,雖然本文的方法取得了比單個(gè)腦圖譜模板更高的分類準(zhǔn)確率;但是,需要注意的是,本次研究無法忽略構(gòu)建、分析多個(gè)模板腦網(wǎng)絡(luò)所帶來的時(shí)間消耗。假設(shè)選取的模板數(shù)量很多,則需要的時(shí)間會較長。除了網(wǎng)絡(luò)規(guī)模外,時(shí)間消耗同樣受到算法、硬件配置等多種因素的影響,因此,接下來的研究著重平衡分類準(zhǔn)確率和時(shí)間消耗。其次,在模板選擇上,本文定義了AAL90、Parc256、Parc497、Parc1003、Parc1501這五個(gè)腦圖譜模板。由于時(shí)間復(fù)雜度和空間復(fù)雜度對計(jì)算機(jī)資源要求的限制,沒有嘗試在更多的模板中進(jìn)行實(shí)驗(yàn),但這是未來研究的方向之一。再者,由于相關(guān)數(shù)據(jù)采集工作難度大,尤其抑郁癥病人的功能核磁共振成像數(shù)據(jù)采集上可供采集的被試數(shù)量較少,且相關(guān)成本較高,使得本實(shí)驗(yàn)樣本量較少的問題難以解決。因本研究樣本量小,在參數(shù)自尋優(yōu)方法中不足以將原始數(shù)據(jù)集A劃分成訓(xùn)練集B、驗(yàn)證集C和測試集D,但相關(guān)數(shù)據(jù)的采集以及受試者招聘工作仍在持續(xù)進(jìn)行中,這個(gè)問題將得到進(jìn)一步解決。以上幾點(diǎn)也作為未來工作的一部分,以確保本文的方法進(jìn)一步完善。
參考文獻(xiàn) (References)
[1] SACCHET M D, PRASAD G, FOLANDROSSL C, et al. Elucidating brain connectivity networks in major depressive disorder using classification-based scoring[C]// Proceedings of the 2014 IEEE International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE, 2014: 246-249.
[2] NIXON N L, LIDDLE P F, NIXON E, et al. Biological vulnerability to depression: linked structural and functional brain network findings[J]. British Journal of Psychiatry, 2014, 204(4): 283-289.
[3] PEREIRA F, MITCHELL T, BOTVINICK M. Machine learning classifiers and fMRI: a tutorial overview[J]. Neuroimage, 2009, 45(1): S199-S209.
[4] HAHN T, MARQUAND A F, EHLIS A C, et al. Integrating neurobiological markers of depression[J]. Archives of General Psychiatry, 2011, 68(4): 361-368.
[5] MULDERS P C, van EIJNDHOVEN P F, SCHENE A H, et al. Resting-state functional connectivity in major depressive disorder: A review[J]. Neuroscience and Biobehavioral Reviews, 2015, 56: 330-344.
[6] ANAND A, LI Y, WANG Y, et al. Activity and connectivity of brain mood regulating circuit in depression: a functional magnetic resonance study[J]. Biological Psychiatry, 2005, 57(10): 1079-1088.
[7] CRADDOCK R C, HOLTZHEIMER R P, HU X P, et al. Disease state prediction from resting state functional connectivity[J]. Magnetic Resonance in Medicine, 2010, 62(6): 1619-1628.
[8] GREICIUS M D, FLORES B H, MENON V, et al. Resting-state functional connectivity in major depression: abnormally increased contributions from subgenual cingulate cortex and thalamus[J]. Biological Psychiatry, 2007, 62(5): 429-437.
[9] 溫洪,郭浩,李越,等.重度抑郁癥患者腦功能網(wǎng)絡(luò)的分類研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2304-2307.(WEN H, GUO H, LI Y, et al. Classification of brain function networks in patients with major depression[J]. Application Research of Computers, 2013, 30(8): 2304-2307.)