(長安大學(xué),陜西 西安 710000)
神經(jīng)成像技術(shù)已成為大腦結(jié)構(gòu)和功能研究的重要工具,這一技術(shù)也被應(yīng)用于研究精神分裂癥患者(SZ)的腦結(jié)構(gòu)和功能。遺傳因素在精神分裂癥患者的大腦發(fā)育中具有重要作用。結(jié)合神經(jīng)影像學(xué)和遺傳學(xué)研究技術(shù),可以探索和評價與腦相關(guān)基因多態(tài)性對腦功能的影響,了解這些基因?qū)穹至寻Y行為的影響。
近年來,精神分裂癥的組學(xué)研究也在不斷發(fā)展,包括基因組學(xué)、表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)。然而,精神分裂癥的病因是由多種因素引起的,且多種因素之間相互作用[1-2]。單一組學(xué)研究只能對造成紊亂的因素提供部分解釋,而多組學(xué)數(shù)據(jù)的整合適合多種因素的研究。事實上,已有相當(dāng)多的研究致力于通過多組數(shù)據(jù)集成來研究各種疾病。之前的工作主要集中在一種成像模式上(如靜止?fàn)顟B(tài)或任務(wù)fMRI)。在神經(jīng)影像學(xué)研究中,通常從相同的實驗對象中獲取多模態(tài)影像以提供補充信息。最近,人們在多任務(wù)學(xué)習(xí)框架中引入了多種模式以預(yù)測大腦認知分數(shù),并對SZ和阿爾茨海默?。ˋD)的診斷進行分類[3-5]。
受文獻[6]方法的啟發(fā),本文使用隨機森林策略計算模型中樣本之間的相似度,通過聯(lián)合學(xué)習(xí)少量的共同特征,吸收來自多種模式的互補信息;采用新的流形正則化器來保存模內(nèi)和模間數(shù)據(jù)的結(jié)構(gòu)信息。從機器學(xué)習(xí)的角度看,正則化項可以提取更多的判別特征,從而提高后續(xù)預(yù)測的性能。本文利用該算法結(jié)合單核苷酸多態(tài)性(SNP)、DNA甲基化和功能磁共振成像(fMRI)三種不同類型的數(shù)據(jù),對SZ進行分類任務(wù),展示模擬數(shù)據(jù)和真實數(shù)據(jù)分析(fMRI,SNP和Methylation)的實驗結(jié)果,并與其他現(xiàn)有模型進行比較,所設(shè)計分類方法的分類精度為86.07%。結(jié)果表明,在均方根誤差和相關(guān)系數(shù)的度量下,我們提出的模型與其他競爭模型相比,性能得到了改善。
多任務(wù)學(xué)習(xí)(MTL)的目的是通過利用多個任務(wù)之間的關(guān)系來提高其性能,特別是當(dāng)這些任務(wù)具有一些相關(guān)性或共時性[7]。本文提出了一種多重正則化的多任務(wù)學(xué)習(xí)模型,用于從多個模式中聯(lián)合選擇少量的共同特征,并在分類中取得優(yōu)異的性能,其中每個模式都被視為一個任務(wù)。重要的是,與經(jīng)典的多任務(wù)學(xué)習(xí)模型相比,該模型加入多個正則化器,考慮了各模態(tài)內(nèi)數(shù)據(jù)的結(jié)構(gòu)信息。
假定給出M個學(xué)習(xí)任務(wù)(M組模態(tài)數(shù)據(jù)),我們表示第m個模態(tài)為:
式中:M=1, 2,...,m;代表了第i個樣本在第m個模態(tài)下的特征向量;d和N分別表示特征的個數(shù)和樣本數(shù)量。令y∈RN為樣本數(shù)據(jù)的響應(yīng)向量,w(m)∈Rd為第m個模態(tài)的回歸系數(shù)向量。式(2)給出了經(jīng)典多任務(wù)學(xué)習(xí)模型求解優(yōu)化問題:
經(jīng)典的MTL模型只考慮了數(shù)據(jù)與響應(yīng)值之間的關(guān)系,忽略了數(shù)據(jù)的結(jié)構(gòu)信息,很可能導(dǎo)致較大的偏差。為了使相似的樣本具有相似的響應(yīng)值,可以通過計算樣本之間的距離并轉(zhuǎn)換到相似性度量來依次描述樣本之間的相似程度。使用權(quán)值和大小為N×N鄰接矩陣L來表示樣本之間的相似度,其中,L(m)(a,b)用于表示樣本a與樣本b在第m個模態(tài)下的相似度。相似度矩陣L可以用不同的方法計算,常用的方法為利用歐幾里得距離計算一對樣本之間的距離,并對其進行規(guī)格化,形成相似度矩陣。隨機森林可以提取多種形式的相似性度量對,通過提供一致的方式組合不同類型的特征數(shù)據(jù)。基于樣本相似度矩陣,定義樣本相似度正則化如式(3)所示:
我們希望將數(shù)據(jù)的全局結(jié)構(gòu)信息保存在原始特征空間中,并使用隨機森林生成的相似度矩陣來表示。在每個模態(tài)中構(gòu)造一個相似矩陣來表示數(shù)據(jù)的遠近關(guān)系結(jié)構(gòu)??梢远x基于樣本相似性的多模態(tài)特征選擇目標(biāo)函數(shù),如式(4)所示:
在上述模型中,使用多任務(wù)的多組數(shù)據(jù)關(guān)聯(lián)分析,不僅可以共同選擇不同類型數(shù)據(jù)中的共享信息,也可保持相似性信息漸變樣本在每個任務(wù)中的樣本相似性?,F(xiàn)有的多模式特征選擇算法僅考慮成對樣本之間的關(guān)系或只考慮信息之間的幾個點樣本的鄰域,只使用局部信息而忽略了樣本集之間的全局相似性關(guān)系[9]。
由于目標(biāo)函數(shù)不可微且不光滑,沒有辦法計算某些點的梯度,所以目標(biāo)函數(shù)不能直接采用梯度下降法求解。在此類問題上有很多方法可以求解目標(biāo)函數(shù)式(4),如交替方向乘數(shù)法(ADMM)[10]和加速近端梯度法(APG)[11]。本文使用APG算法解決上述目標(biāo)函數(shù)的優(yōu)化求解問題。
首先,將目標(biāo)函數(shù)劃分為兩部分,即f(w)+g(w),分別如公式(5)和公式(6)所示:
式中,f(w)為凸可微,g(w)為凸不可微。迭代更新w,并用公式(7)近似f(w)+g(w):
式中:
訓(xùn)練得到權(quán)重矩陣w,之后得到計算結(jié)果的響應(yīng)值,將其中每個元素與閾值0進行比較,如果測試響應(yīng)值大于0,則樣本i的標(biāo)號預(yù)測為+1;否則,預(yù)測為-1。分別在各測試子集上驗證,最后計算分類精度。
在真實集測試之前,本文在仿真數(shù)據(jù)集上對算法進行了驗證。首先按照雙螺旋模式生成單視圖數(shù)據(jù)集。每個數(shù)據(jù)集包含200個具有二元表型和二維測量的受試者。在模擬數(shù)據(jù)集中,每個螺旋的度數(shù)設(shè)置為540°,噪聲水平逐漸提高,使得纏繞的螺旋更加接近。將數(shù)據(jù)集導(dǎo)入本文算法中,同時將數(shù)據(jù)集導(dǎo)入具有徑向基核函數(shù)(RBF)的SVM中進行比較。
首先使用80%~90%的整體數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來測試分類性能。當(dāng)噪聲等級K≤1時,該模型和SVM的分類準(zhǔn)確率均超95%;當(dāng)K≤3時,兩者的分類準(zhǔn)確率均超90%。針對這些情況,兩種算法的分類準(zhǔn)確率無顯著差異(p值<0.05)?;谟邢迾?biāo)記訓(xùn)練數(shù)據(jù)的分類精度,本文的多任務(wù)學(xué)習(xí)正則化模型在所有噪聲水平上都優(yōu)于SVM。隨著噪聲水平的提高,該模型與SVM的分類準(zhǔn)確率均下降。
模擬數(shù)據(jù)實驗結(jié)果表明,多任務(wù)學(xué)習(xí)正則化模型的魯棒性優(yōu)于SVM,在分類性能上效果較好,實驗結(jié)果如圖1和圖2所示,分別展示了SVM隨噪聲等級提高的誤差率和多任務(wù)學(xué)習(xí)正則化模型隨噪聲等級提高的誤差率。
圖1 SVM在仿真數(shù)據(jù)上的誤差
圖2 多任務(wù)學(xué)習(xí)正則化在仿真數(shù)據(jù)上的誤差
本文采用數(shù)據(jù)集大小為SNP:184×722 177,fMRI:184×41 236,DNA甲基化:184×27 508。首先使用隨機森林策略分別計算3組數(shù)據(jù)樣本之間的相似度,通過十折交叉驗證(CV)技術(shù)評估模型的分類性能。即首先將整組被試集隨機分為10個大小相近的不相交子集,然后依次選取每個子集作為測試集,其余9個子集用于訓(xùn)練預(yù)測模型,利用訓(xùn)練后的模型對測試集中的受試者進行分類,重復(fù)10次,以減少CV中抽樣偏差的影響。最后,分類精度達到86.07%。所有正則化參數(shù)模型的正則化參數(shù)γ和λ在訓(xùn)練集上通過網(wǎng)格搜索各自范圍,即γ,λ∈{0.001,0.003,0.01,0.03,0.1,0.3,1,3,10}。
將多任務(wù)學(xué)習(xí)正則化模型與其他分類方法進行比較,結(jié)果如圖3所示。
圖3 多種方法的分類精度比較
測試的其他分類方法包括基于單個組學(xué)數(shù)據(jù)圖、多數(shù)鄰域平均融合(MMN)[12]、基于相似網(wǎng)絡(luò)融合的支持向量機(SSVM)[13]。在分類精度方面,本文提出的模型對SZ的分類精度高于其他集成方法。此外,與任何單一組學(xué)數(shù)據(jù)進行分類方法對比,將三種類型的數(shù)據(jù)與優(yōu)化權(quán)重集成多任務(wù)學(xué)習(xí)正則化模型具有更高的準(zhǔn)確性,這進一步驗證了該模型在數(shù)據(jù)集成方面的優(yōu)越性。
本研究的重點是多任務(wù)學(xué)習(xí)正則化算法,利用隨機森林的策略度量樣本之間的相似性,如果用其他方法構(gòu)造相似矩陣,分類性能會發(fā)生變化。例如,子空間聚類也可用于構(gòu)建高維數(shù)據(jù)的相似矩陣[14-15]。相似度度量方法的選擇取決于數(shù)據(jù)集,特別是在先驗特征選擇方面[16-17]。除使用組稀疏正則化聯(lián)合選擇多個模態(tài)(任務(wù))一組小的共同特征外,還設(shè)計了新的流形正則化以保存模態(tài)內(nèi)部和模態(tài)之間的結(jié)構(gòu)信息,此舉提高了后續(xù)分類的準(zhǔn)確性,實現(xiàn)了對精神分裂癥患者分類的目的,為現(xiàn)代醫(yī)學(xué)區(qū)分慢性疾病提供了有效的解決思路。本文在模擬數(shù)據(jù)和真實數(shù)據(jù)上分別進行了測試,證明了該模型具有較強的魯棒性,并在真實數(shù)據(jù)分類的分類精度上達到了86.07%,與其他算法相比具有明顯優(yōu)勢。