邢新穎 冀俊忠 姚 垚
(北京工業(yè)大學(xué)信息學(xué)部計算機學(xué)院 北京 100124)
腦網(wǎng)絡(luò)是一種利用腦成像數(shù)據(jù)從結(jié)構(gòu)連接或功能連接角度定量地刻畫人腦系統(tǒng)的方式,包括人腦結(jié)構(gòu)網(wǎng)絡(luò)或人腦功能網(wǎng)絡(luò)[1-2].腦網(wǎng)絡(luò)可以被表示為由節(jié)點和邊構(gòu)成的圖(graph)模型.圖模型中的節(jié)點一般為由多個神經(jīng)元組成的感興趣區(qū)域(region of interest, ROI)或指某一特定腦區(qū),邊通常表示相應(yīng)ROI或腦區(qū)對之間的連接強度.為了便于存儲,一般使用鄰接矩陣表示腦網(wǎng)絡(luò)數(shù)據(jù),矩陣中的一行或一列分別對應(yīng)于圖模型中的節(jié)點.自動挖掘和分析受試者腦網(wǎng)絡(luò)數(shù)據(jù)的特征,并推斷其是否患有某種精神性腦疾病,這種方法被稱為腦網(wǎng)絡(luò)分類.腦網(wǎng)絡(luò)分類方法的研究和應(yīng)用有助于人類更好地理解腦疾病發(fā)病機理和腦疾病患者的早期診斷,故而具有重要的研究與應(yīng)用價值.在與腦網(wǎng)絡(luò)分類任務(wù)相關(guān)的機器學(xué)習(xí)方法中,最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)方法和支持向量機(support vector machine, SVM)方法的應(yīng)用最為廣泛[3-5].但這2種傳統(tǒng)機器學(xué)習(xí)方法屬于淺層模型,面對高維、小樣本的腦網(wǎng)絡(luò)數(shù)據(jù)時,其擬合能力往往存在明顯不足.最近,基于深度學(xué)習(xí)的腦網(wǎng)絡(luò)分類方法因其出色的特征表達能力,逐漸成為該領(lǐng)域中新的研究熱點.目前多數(shù)研究集中在全連接神經(jīng)網(wǎng)絡(luò)(fully connected neural network, FCNN)方法和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)方法這2類腦網(wǎng)絡(luò)分類方法.
FCNN方法是最簡單但最常用的深度學(xué)習(xí)方法.2015年Kim等人[6]對FCNN方法中的神經(jīng)網(wǎng)絡(luò)參數(shù)進行預(yù)訓(xùn)練并施加稀疏性限制,然后應(yīng)用于精神分裂癥的分類任務(wù)中,首次驗證了FCNN方法在腦網(wǎng)絡(luò)分類研究中的有效性.2017年Guo等人[7]在棧式稀疏自編碼(stacked sparse autoencoders, SSAE)方法的基礎(chǔ)上提出了一種特征選擇方法,通過將該方法應(yīng)用于腦網(wǎng)絡(luò)分類識別出32條與自閉癥(autism spectrum disorder, ASD)相關(guān)的異常功能連接邊.2018年Zeng等人[8]為了實現(xiàn)精神分裂癥的多站點數(shù)據(jù)分類,提出了一種深度判別自編碼器,該自編碼器通過引入稀疏約束項來學(xué)習(xí)不同站點數(shù)據(jù)間與疾病相關(guān)的共性特征,首次實現(xiàn)了基于深度學(xué)習(xí)的多站點精神分裂癥分類.2019年Ju等人[9]將SSAE方法應(yīng)用于對輕度認知障礙患者和健康受試者進行分類,該方法的分類準確率與傳統(tǒng)機器學(xué)習(xí)方法相比有顯著提高. 此外該研究進一步分析了腦網(wǎng)絡(luò)數(shù)據(jù)和原始rs-fMRI(resting-state functional magnetic resonance imaging)數(shù)據(jù)在相同方法下所得結(jié)果的差異,發(fā)現(xiàn)腦網(wǎng)絡(luò)數(shù)據(jù)在神經(jīng)性腦疾病的分類診斷任務(wù)中更具優(yōu)勢.同年,Kong等人[10]首先構(gòu)建受試者的人腦結(jié)構(gòu)網(wǎng)絡(luò),然后根據(jù)F1-score進行特征選擇,最后選擇F1-score值排在前3 000的特征作為SSAE方法的輸入完成分類任務(wù),在小型ABIDE I(autism brain imaging data exchange I)數(shù)據(jù)集上取得了高達90.93%的分類準確率.為了緩解樣本少對分類性能的影響,有研究人員將遷移學(xué)習(xí)方法應(yīng)用到腦網(wǎng)絡(luò)的分類研究中.例如He等人[11]首先在ABIDE I數(shù)據(jù)集上用SSAE方法無監(jiān)督預(yù)訓(xùn)練一個模型用于學(xué)習(xí)ASD患者的腦網(wǎng)絡(luò)數(shù)據(jù)蘊涵的潛在特征,然后將其應(yīng)用于早產(chǎn)兒認知功能缺陷的分類診斷中,該研究首次驗證了遷移學(xué)習(xí)在腦網(wǎng)絡(luò)分類研究中的可行性.然而,F(xiàn)CNN方法存在2個影響腦網(wǎng)絡(luò)分類性能的缺陷:一方面其參數(shù)量通常非常大,而腦網(wǎng)絡(luò)數(shù)據(jù)樣本少,容易出現(xiàn)因模型復(fù)雜導(dǎo)致的過擬合現(xiàn)象;另一方面,其輸入為1維向量,需要將腦網(wǎng)絡(luò)的鄰接矩陣數(shù)據(jù)重塑為1維,破壞了腦網(wǎng)絡(luò)中的拓撲結(jié)構(gòu)信息[4].
CNN方法具有權(quán)值共享和局部連接特性.相比于FCNN方法,CNN方法不僅有效地降低了參數(shù)量,還在處理網(wǎng)格型數(shù)據(jù)方面有著巨大優(yōu)勢.除了在人臉識別等圖像分類領(lǐng)域中取得的成功[12-13],近年來也被成功應(yīng)用于腦網(wǎng)絡(luò)分類研究中.2017年Kawahara等人[14]首次專門為腦網(wǎng)絡(luò)提出了基于CNN的BrainNetCNN方法,其考慮到腦網(wǎng)絡(luò)的拓撲局部性,并依次設(shè)計了3種卷積層分別用于提取不同層級的腦網(wǎng)絡(luò)拓撲特征.同年,Meszlenyi等人[15]提出了CCNN(connectome CNN)方法,該方法充分利用了CNN方法中的多通道結(jié)構(gòu)和多種具有不同信息的腦網(wǎng)絡(luò)數(shù)據(jù)以提高腦網(wǎng)絡(luò)分類效果.然而,上述2個研究均使用1維卷積核對腦網(wǎng)絡(luò)數(shù)據(jù)進行逐行(列)的特征提取,根據(jù)CNN方法的權(quán)值共享機制,在這種逐行(列)的特征提取過程中會為連接至同一節(jié)點的每條邊賦予相同的權(quán)重,顯然有悖于神經(jīng)科學(xué)中每條邊都具有特定含義的特性[4].2018年12月考慮到腦網(wǎng)絡(luò)中每條邊的獨特意義,我們提出了一種具有獨立卷積核的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network with element-wise filers, CNN-EW)的方法,這種卷積核賦予每個節(jié)點和每條邊一個唯一的權(quán)重,能夠更真實地反映腦網(wǎng)絡(luò)的拓撲結(jié)構(gòu)信息.在ABIDE I數(shù)據(jù)集上的實驗表明,該方法不僅能夠準確識別不同受試者是否患病,而且能夠精確地識別異常腦區(qū),表現(xiàn)出一定的臨床應(yīng)用潛力[16].
綜上,盡管已有研究為腦網(wǎng)絡(luò)分類提供了一些解決方案,但是其分類性能仍然有待進一步提升.在真實的臨床應(yīng)用中,為了更加準確地對患者進行診斷,專家通常會參考患者的臨床表型信息,例如年齡、性別、智商等. 近年來,許多研究表明臨床表型信息可有助于腦疾病診斷[17-20].可以說,臨床表型差異是腦網(wǎng)絡(luò)差異的外在表現(xiàn),而臨床表型數(shù)據(jù)往往獲取成本較低,非常適合作為腦網(wǎng)絡(luò)分類的輔助數(shù)據(jù).因此,本文提出一種基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的腦網(wǎng)絡(luò)分類方法.該方法首先以腦網(wǎng)絡(luò)分類任務(wù)為主要任務(wù),臨床表型預(yù)測(回歸)任務(wù)為輔助任務(wù),通過多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)并行學(xué)習(xí)獲得分類模型;同時,在多任務(wù)學(xué)習(xí)過程中利用一種新的自適應(yīng)多任務(wù)學(xué)習(xí)方法來自動確定各個子任務(wù)的權(quán)重,以降低實驗成本并減少人為操作導(dǎo)致的分類誤差.具體來說,本文的主要貢獻包括2個方面:1)將臨床表型預(yù)測任務(wù)引入腦網(wǎng)絡(luò)分類研究中,通過多任務(wù)學(xué)習(xí)來提高腦網(wǎng)絡(luò)的分類性能;2)提出了一種自適應(yīng)多任務(wù)學(xué)習(xí)方法,該方法可以自適應(yīng)地為輔助任務(wù)的賦予不同權(quán)重從而進一步提高多任務(wù)學(xué)習(xí)的性能.
多任務(wù)學(xué)習(xí)(multi-task learning, MTL)方法是指一類同時學(xué)習(xí)多個子任務(wù)的機器學(xué)習(xí)方法.這類方法具有共享表示機制,能夠有效地從多個任務(wù)中學(xué)習(xí)共享特征,進而提高泛化能力.盡管MTL方法已經(jīng)在物體檢測、自動駕駛等計算機視覺領(lǐng)域有許多成功的應(yīng)用,將MTL方法應(yīng)用于其他相對不成熟的領(lǐng)域仍存在許多困難.大多數(shù)單任務(wù)的機器學(xué)習(xí)算法通過最小化一個損失函數(shù)來進行特征學(xué)習(xí).然而,直接將MTL方法的損失函數(shù)定義為多個子任務(wù)損失函數(shù)相加,最終往往會由于不同子任務(wù)的學(xué)習(xí)難度和損失值規(guī)模存在差異,導(dǎo)致部分子任務(wù)主導(dǎo)了最小化MTL方法的損失函數(shù),而其余子任務(wù)難以參與的現(xiàn)象.一個簡單的解決方法是對不同子任務(wù)損失函數(shù)施加不同的子任務(wù)權(quán)重進行加權(quán)求和:
(1)
2018年文獻[21]提出基于同方差不確定性來自動確定各個子任務(wù)的權(quán)重.該方法將分類、回歸任務(wù)的輸出分別定義一個服從方差為σ2的分布,并通過估計方差值來衡量相應(yīng)任務(wù)的重要性,更具體來說:
首先,重新將分類和回歸任務(wù)的輸出定義為服從方差為σ2的分布.如式(2)所示,回歸任務(wù)的輸出被定義為一個方差為σ2的高斯分布,其中,x和y分別為樣本和樣本的標簽,W和f(x;W)分別為神經(jīng)網(wǎng)絡(luò)的權(quán)重和輸出.
(2)
分類任務(wù)的輸出是離散的,因此,如式(3)所示,其輸出被定義為服從溫度系數(shù)(即方差)為σ2的Gibbs分布.
(3)
然后,分別對2類任務(wù)的方差σ2進行最大似然估計,得到回歸任務(wù)的對數(shù)似然函數(shù):
(4)
分類任務(wù)的對數(shù)似然函數(shù):
(5)
最后,將上述方法應(yīng)用在多任務(wù)學(xué)習(xí)過程中,通過最大化對數(shù)似然函數(shù)來進行多任務(wù)學(xué)習(xí).例如一個同時學(xué)習(xí)回歸任務(wù)p(y1|f(x;W);σ1)和分類任務(wù)p(y2|f(x;W);σ2)的多任務(wù)學(xué)習(xí)方法的對數(shù)似然函數(shù):
(6)
而最大化式(6)就等價于最小化式(6)的相反數(shù).
最終,多任務(wù)學(xué)習(xí)的損失函數(shù)可被定義為
(7)
Fig. 1 Framework of brain networks classification based on multi-task CNN-EW (MTCNN-EW)圖1 基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN-EW)的腦網(wǎng)絡(luò)分類方法的框架
盡管文獻[21]的方法為自動確定子任務(wù)權(quán)重提供了一個初步解決思路,但是,它存在3點不足:
3) 對自動確定的子任務(wù)權(quán)重沒有約束,即αt∈(0,+)且相互獨立.這使得在梯度更新過程中容易因梯度過大而導(dǎo)致參數(shù)溢出.
因此,我們提出了一種新的自適應(yīng)多任務(wù)學(xué)習(xí)方法,并將其應(yīng)用于腦網(wǎng)絡(luò)分類的研究中,該方法能夠有效地改進文獻[21]方法存在的以上3點不足.
本節(jié)我們分2部分由淺至深地對基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的腦網(wǎng)絡(luò)分類方法進行介紹,分別為多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(2.1節(jié))和自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(2.2節(jié)).
(8)
根據(jù)上述介紹,基于MTCNN-EW的腦網(wǎng)絡(luò)分類方法的訓(xùn)練過程如算法1所示:
算法1.基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN-EW)的腦網(wǎng)絡(luò)分類方法.
輸入:訓(xùn)練集(X,Y,P),其中腦網(wǎng)絡(luò)類別標簽Y=(y1,y2)、臨床表型數(shù)據(jù)P=(p1,p2,…,pT),腦網(wǎng)絡(luò)分類任務(wù)權(quán)重α0、臨床表型輔助任務(wù)權(quán)重{α1,α2,…,αT},αt=(1-α0)T;
輸出:最優(yōu)神經(jīng)網(wǎng)絡(luò)權(quán)重W*和偏置b*.
① 隨機初始化神經(jīng)網(wǎng)絡(luò)權(quán)重W和偏置b;
② while未達到停止條件do
⑤ 計算整體損失值.根據(jù)式(9),計算MTCNN -EW方法的總體損失函數(shù)值;
⑥ 更新參數(shù).使用梯度更新算法學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重W和偏置b;
⑦ end while
⑧W*=W,b*=b.
我們在算法1的損失函數(shù)中添加L2正則化項以緩解可能遇到的過擬合的問題:
(9)
在MTCNN-EW方法中,由于多任務(wù)學(xué)習(xí)具有共享表示機制,各個臨床表型預(yù)測任務(wù)與腦網(wǎng)絡(luò)分類任務(wù)之間共享腦網(wǎng)絡(luò)特征,間接為腦網(wǎng)絡(luò)類別決策提供輔助信息.
與大多數(shù)多任務(wù)學(xué)習(xí)一樣, MTCNN-EW方法需要人工調(diào)整各個子任務(wù)的權(quán)重,造成較高的實驗成本.因此,為了降低人工實驗成本,并且精確地進行子任務(wù)權(quán)重設(shè)置,我們提出一種基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(adaptive multi-task CNN-EW, AMTCNN-EW)的腦網(wǎng)絡(luò)分類方法.該方法利用自適應(yīng)多任務(wù)學(xué)習(xí)(adaptive multi-task learning, AMTL)方法,在訓(xùn)練過程中根據(jù)各個子任務(wù)的損失自適應(yīng)地調(diào)整相應(yīng)任務(wù)的權(quán)重αt.AMTCNN-EW方法的損失函數(shù)定義為
(10)
其中各個子任務(wù)權(quán)重?zé)o需人工手動調(diào)整.
在AMTCNN-EW方法中,AMTL方法的基本思想是:首先,沿用文獻[21]中回歸和分類任務(wù)輸出方差的估計方法;然后,直接利用微積分學(xué)中最大值求解方法解得各個子任務(wù)的輸出方差估計值;最后,對每個任務(wù)的方差估計值進行了歸一化,在獲取相應(yīng)任務(wù)的權(quán)重的同時確保不會因為梯度過大而導(dǎo)致參數(shù)溢出的問題.詳細步驟為:
1) 子任務(wù)似然方程求解
首先,AMTL方法基于文獻[21]方法在式(4)和式(5)的基礎(chǔ)上進行多任務(wù)的輸出方差σ2的估計.由于S=lnσ2比σ2更穩(wěn)定,可以利用S=lnσ2來代替直接估計σ2,所以回歸和分類任務(wù)的對數(shù)似然函數(shù)分別為
(11)
(12)
(13)
(14)
2) 自適應(yīng)多任務(wù)權(quán)重調(diào)節(jié)
(15)
顯然,根據(jù)上述步驟求解子任務(wù)權(quán)重的AMTL方法能夠有效避免文獻[21]方法的不足,具體來說:
3) 通過歸一化使子任務(wù)權(quán)重αt之和為1,在子任務(wù)間建立了相對的約束關(guān)系,避免了梯度更新過程中因梯度過大而導(dǎo)致參數(shù)溢出風(fēng)險.
綜上,基于AMTCNN-EW的腦網(wǎng)絡(luò)分類方法的訓(xùn)練過程如算法2所示:
算法2.基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(AMTCNN-EW)的腦網(wǎng)絡(luò)分類方法.
輸入:訓(xùn)練集(X,Y,P),其中,腦網(wǎng)絡(luò)類別標簽Y=(y1,y2)、臨床表型數(shù)據(jù)P=(p1,p2,…,pT);
① 隨機初始化神經(jīng)網(wǎng)絡(luò)權(quán)重W和偏置b;
② while未達到停止條件do
⑥ 自適應(yīng)多任務(wù)權(quán)重調(diào)節(jié).利用式(15),自適應(yīng)地為各個子任務(wù)計算權(quán)重α0和{α1,α2,…,αT};
⑦ 計算整體損失值.計算AMTCNN-EW方法的總體損失函數(shù)值;
⑧ 更新參數(shù).使用梯度更新算法學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重W和偏置b;
⑨ end while
⑩W*=W,b*=b;
算法2同樣在損失函數(shù)中增加L2正則化項(式(16))并且采取提前停止策略.
(16)
1) 人腦功能網(wǎng)絡(luò)數(shù)據(jù)
實驗部分使用的數(shù)據(jù)集全部來自于ABIDE I[22].ABIDE I收集了17個國際站點,共計1 112名受試者的rs-fMRI數(shù)據(jù)和sMRI(structural magnetic resonance imaging)數(shù)據(jù),并記錄了相應(yīng)受試者的臨床表型.
原始rs-fMRI數(shù)據(jù)需要經(jīng)過一系列預(yù)處理操作后得到人腦功能網(wǎng)絡(luò)數(shù)據(jù).首先,出于可復(fù)現(xiàn)性考量,我們使用了PCP(preprocessed connectomes project)項目[22]提供的利用DPARSF軟件進行預(yù)處理后的數(shù)據(jù),其中有16名受試者的預(yù)處理數(shù)據(jù)異常,我們使用了數(shù)據(jù)正常的569個對照組受試者和527個實驗組(即ASD患者)受試者的預(yù)處理數(shù)據(jù).然后,利用自動解剖標記圖譜(automated anatomical labeling, AAL)從預(yù)處理數(shù)據(jù)中提取感興趣區(qū)域(ROI)的平均時間序列,我們?nèi)コ宋挥谛∧X的腦區(qū),僅選取位于大腦皮層的90個腦區(qū)(即|V|=90)作為ROI.最后,利用皮爾森相關(guān)系數(shù)(Pearson correlation coefficient, PCC)計算每對ROI平均時間序列之間的相似度,得到的帶權(quán)鄰接矩陣即可表示相應(yīng)受試者的人腦功能網(wǎng)絡(luò).
2) 臨床表型數(shù)據(jù)
由于來自不同站點的臨床表型種類存在差異,我們按照2個標準對臨床表型進行篩選:1)臨床表型不能與腦疾病診斷結(jié)果直接相關(guān),如長期用藥史;2)缺失的數(shù)據(jù)占比不應(yīng)高于30%.
按照上述方法對ABIDE I數(shù)據(jù)集的臨床表型數(shù)據(jù)進行篩選,最終確定的臨床表型(編號1~7)如表1所示.對于這7種臨床表型中存在的數(shù)據(jù)缺失問題,我們根據(jù)相應(yīng)臨床表型數(shù)據(jù)中的非缺失值的數(shù)據(jù)分布特點填充缺失值,具體方法為:
1) 年齡(age).眾所周知,神經(jīng)疾病在不同年齡段中的發(fā)病率不同,年齡是分析和診斷神經(jīng)疾病不可忽視的因素和重要線索.當(dāng)年齡數(shù)據(jù)出現(xiàn)缺失問題時,可以將缺失數(shù)據(jù)用相應(yīng)數(shù)據(jù)組中(即對照組或?qū)嶒灲M)其他受試者的平均值填充.
2) 性別(sex).男性和女性在大腦功能和結(jié)構(gòu)方面有明顯差異,許多疾病在不同性別中的發(fā)病率、發(fā)病機理和癥狀表現(xiàn)不同,這使得性別成為診斷腦疾病的一大重要考量因素.考慮到數(shù)據(jù)采集時一般會盡量保證不同數(shù)據(jù)組的性別分布一致,因此,當(dāng)性別數(shù)據(jù)出現(xiàn)缺失問題時,可以假定缺失數(shù)據(jù)為樣本量較小的性別類型.
3) 利手(handedness),指受試者的常用手. 作為大腦結(jié)構(gòu)和功能不對稱性的外部表現(xiàn),利手與許多疾病存在密切的關(guān)聯(lián).由于大多數(shù)人為右利手,所以當(dāng)利手數(shù)據(jù)出現(xiàn)缺失問題時,可假定為右利手.
5) 眼睛狀態(tài)(eye status).在數(shù)據(jù)采集過程中,受試者通常會被指定眼睛狀態(tài)(睜眼或閉眼),眼睛狀態(tài)不同,大腦活動的區(qū)域往往不同.但是,存在一部分研究沒有指定并記錄眼睛狀態(tài)導(dǎo)致數(shù)據(jù)缺失問題,可以將眼睛狀態(tài)填充為區(qū)別于睜眼和閉眼的自由狀態(tài).
Table 1 Details of Clinical Phenotype from the ABIDE I Dataset表1 從ABIDE I數(shù)據(jù)集中篩選出的臨床表型詳細信息
實驗過程中,所有基于深度學(xué)習(xí)的腦網(wǎng)絡(luò)分類方法均采用如表2所示的超參數(shù)設(shè)置,以Adam方法作為梯度更新算法來最小化損失函數(shù).實驗數(shù)據(jù)按照3∶1∶1劃分數(shù)據(jù)集,展示的所有結(jié)果均在測試集上由10次5折交叉驗證法給出.
在多任務(wù)學(xué)習(xí)中,每個任務(wù)的權(quán)重通常根據(jù)研究人員的經(jīng)驗和實驗結(jié)果進行設(shè)定,我們依次將MTCNN-EW方法中腦網(wǎng)絡(luò)分類任務(wù)的權(quán)重α0設(shè)置為0.1~0.9,并將(1-α0)均分給各個臨床表型輔助任務(wù),即αt=(1-α0)T,T=7.MTCNN-EW方法的權(quán)重設(shè)置對分類準確率的影響如圖2所示:
Table 2 Hyper Parameter Settings表2 超參數(shù)設(shè)置
Fig. 2 Accuracy of MTCNN-EW with different α0圖2 不同權(quán)重α0下MTCNN-EW方法的分類準確率
顯而易見,權(quán)重設(shè)置的合理性對多任務(wù)學(xué)習(xí)方法的分類性能至關(guān)重要,具體來說:α0<0.3時,MTCNN-EW方法的分類準確率在驗證集和測試集上的表現(xiàn)相對較差;α0>0.3時,MTCNN-EW方法的分類準確率在驗證集和測試集之間逐漸出現(xiàn)明顯的差異,模型陷入了局部最優(yōu).因此,α0=0.3為MTCNN-EW方法中腦網(wǎng)絡(luò)分類任務(wù)的最佳權(quán)重設(shè)置,此時分類準確率最高.
為了驗證并分析本文提出的自適應(yīng)多任務(wù)學(xué)習(xí)(AMTL)方法的性能,我們在腦網(wǎng)絡(luò)分類任務(wù)上分別從2個角度對AMTCNN-EW方法進行實驗.
第1個角度從損失函數(shù)和子任務(wù)權(quán)重收斂情況 出發(fā).通過對比AMTLCNN-EW方法和基于文獻[21]的方法,可驗證和分析AMTL方法在多任務(wù)學(xué)習(xí)過程中對各個任務(wù)的損失函數(shù)值和相應(yīng)任務(wù)權(quán)重的收斂效果.
基于文獻[21]的方法其結(jié)果如圖3所示,為清晰起見,圖3(b)中僅展示了主要任務(wù)——腦網(wǎng)絡(luò)分類任務(wù)的權(quán)重(α0)曲線,和3項輔助任務(wù)的權(quán)重(α2,α3和α6)曲線,分別為性別、利手和操作智商.由圖3可知,神經(jīng)網(wǎng)絡(luò)權(quán)重W和各個子任務(wù)的權(quán)重αt均出現(xiàn)無法正常收斂的情況,具體來說,當(dāng)?shù)螖?shù)Step=250左右時,模型迅速過擬合,這是由于該方法對各個子任務(wù)的權(quán)重沒有限制,在執(zhí)行梯度更新算法過程中梯度過大導(dǎo)致;當(dāng)?shù)螖?shù)Step>500時,損失函數(shù)值下溢,神經(jīng)網(wǎng)絡(luò)訓(xùn)練失敗.
Fig. 3 Train plot of the method of Ref[21]圖3 文獻[21]方法的訓(xùn)練曲線
相反,基于AMTL的AMTLCNN-EW方法其結(jié)果如圖4所示,無論是損失函數(shù)值還是子任務(wù)權(quán)重均如期收斂.分析圖4(a)可知,Step>1 000時,AMTLCNN-EW方法在訓(xùn)練集上損失值仍持續(xù)下降,在驗證集和測試集上的損失值能夠保持穩(wěn)定;直到Step=1 800時,在訓(xùn)練集上的損失值開始趨于穩(wěn)定,此時提前結(jié)束訓(xùn)練,AMTLCNN-EW方法沒有出現(xiàn)過擬合現(xiàn)象.由圖4(b)可知,Step>1 000后,各個子任務(wù)的權(quán)重曲線逐漸平緩,腦網(wǎng)絡(luò)分類任務(wù)和3項輔助任務(wù)的權(quán)重最終收斂至0.3,0.1,0.15和0.05.可見,AMTL方法可以自適應(yīng)且準確地求解各個子任務(wù)權(quán)重.
Fig. 4 Train plot of the AMTL圖4 AMTL方法的訓(xùn)練曲線
第2個角度主要針對各個子任務(wù)的權(quán)重值進行分析.通過對比AMTCNN-EW方法和需要人工設(shè)置子任務(wù)權(quán)重的MTCNN-EW方法,可驗證和分析AMTL方法學(xué)習(xí)得到的子任務(wù)權(quán)重是否合理.
首先利用AMTCNN-EW方法自適應(yīng)地確定了各個子任務(wù)權(quán)重,腦網(wǎng)絡(luò)分類任務(wù)權(quán)重α0最終平均收斂值為0.296,7項臨床表型輔助任務(wù)權(quán)重α1至α7的平均收斂值分別為:0.093,0.114,0.140,0.085,0.093,0.090,0.089.通過分析這幾項權(quán)重可以看出,利手和性別這2類臨床表型能夠提供相對有效的信息用于輔助腦網(wǎng)絡(luò)分類.目前,來自世界各國的許多研究表明男孩ASD發(fā)病率明顯相對較高;也有一些研究發(fā)現(xiàn),ASD患者人群具有相對高的混合利手率[19]和左利手率[20].眾所周知ASD患者的核心癥狀表現(xiàn)在語言交流方面存在障礙,AMTCNN-EW方法中語言智商的權(quán)重值明顯高于操作智商的權(quán)重的結(jié)果與這一現(xiàn)象不謀而合.另外,各個臨床表型輔助任務(wù)的權(quán)重值相差不大,說明不同的臨床表型輔助任務(wù)都能夠為腦網(wǎng)絡(luò)分類任務(wù)提供了一定信息.
對比MTCNN-EW方法和AMTCNN-EW方法的結(jié)果可知,以腦網(wǎng)絡(luò)分類任務(wù)作為多任務(wù)學(xué)習(xí)的主要任務(wù),AMTCNN-EW方法確定其權(quán)重為α0=0.296,該結(jié)果與MTCNN-EW方法中人工設(shè)置的最佳權(quán)重α0=0.3基本一致.
以上結(jié)果說明AMTL方法可以自適應(yīng)且準確地評估每個任務(wù)的相對重要程度,利用AMTL方法可避免人工調(diào)試子任務(wù)權(quán)重,節(jié)約實驗成本.
引入臨床表型輔助任務(wù)主要是為了更好地完成腦網(wǎng)絡(luò)分類任務(wù).因此,我們從文獻[16]的CNN-EW方法中選取分類性能最佳的E2Nnet-EW模型作為基線模型,分別從準確率(Accuracy)、靈敏度(Sensitivity)和特異性(Specificity)三個指標對比這2類引入了臨床表型輔助任務(wù)的腦網(wǎng)絡(luò)分類方法,其結(jié)果如表3所示:
Table 3 Performance of 2 Types of Multi-Task CNN-EW and CNN-EW
由表3可知,引入臨床表型預(yù)測輔助任務(wù),并通過MTCNN-EW方法和AMTCNN-EW方法為腦網(wǎng)絡(luò)分類提供輔助信息是可行的,2種方法均取得了比CNN-EW方法更好的分類性能.特別地,AMTCNN-EW方法在3個評價指標上均達到最高值.這一結(jié)果證明了AMTCNN-EW方法能夠更好的挖掘臨床表型預(yù)測任務(wù)提供的信息,使得模型學(xué)習(xí)到更加完備的腦網(wǎng)絡(luò)特征,從而獲得更好的分類性能.需說明,一旦這2類多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型完成訓(xùn)練,無需額外提供臨床表型數(shù)據(jù),便可單獨完成腦網(wǎng)絡(luò)分類任務(wù),這一特點使這2類多任務(wù)腦網(wǎng)絡(luò)分類方法自然地適合應(yīng)用于真實的臨床診斷場景中.綜上所述,引入臨床表型預(yù)測輔助任務(wù)的思路是合理的,且基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(AMTCNN-EW)的腦網(wǎng)絡(luò)分類方法不僅能夠充分學(xué)習(xí)到臨床表型預(yù)測任務(wù)提供的輔助特征,而且能夠自動確定各個子任務(wù)權(quán)重,避免了人為操作帶來的分類誤差,因而具有最好的分類性能.
如引言所述,基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法是目前解決腦網(wǎng)絡(luò)分類問題常用的2類方法.為了驗證本文提出的AMTCNN-EW方法相比于其他方法的優(yōu)劣,我們從上述2類方法中選取5種經(jīng)典方法與AMTCNN-EW方法進行對比實驗,分別實現(xiàn)了文獻[3]首次提出并已廣泛應(yīng)用于腦網(wǎng)絡(luò)分類問題中的基于RFE_SVM的方法,其中,特征選擇的數(shù)量為200;文獻[5]提出的基于LASSO的方法,其中,L1正則化項的權(quán)重衰減參數(shù)λL1=5×10-3;文獻[9]提出的基于SSAE的方法,包括2個具有200個神經(jīng)元的隱藏層,并且,稀疏性參數(shù)ρ=0.1,稀疏性懲罰因子的權(quán)重β=3.0,L2正則化項的權(quán)重衰減參數(shù)λL2=1×10-2;文獻[14]中提出的基于CNN的BrainNetCNN方法,我們選擇腦網(wǎng)絡(luò)分類性能最好的E2Nnet模型,其中λL2=1×10-2;文獻[16]中提出的CNN-EW方法,同樣選擇腦網(wǎng)絡(luò)分類性能最好的E2Nnet-EW模型,其中λL2=1×10-3.由于這些文獻中使用的數(shù)據(jù)與本文不同,因此,上述所有方法的參數(shù)均為在本文數(shù)據(jù)集上的最佳配置.
由圖5所示的實驗結(jié)果可以發(fā)現(xiàn),AMTCNN-EW方法的各項評價指標均明顯高于其他方法.這6種方法中,基于深度學(xué)習(xí)的腦網(wǎng)絡(luò)分類方法優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法,這體現(xiàn)了深度學(xué)習(xí)在處理高維樣本時的優(yōu)勢.在4種深度學(xué)習(xí)方法中,AMTCNN-EW方法優(yōu)勢明顯.特別地,AMTCNN-EW方法的共享表示層部分與E2Nnet-EW方法一致,但是經(jīng)過T檢驗驗證兩者的分類性能,AMTCNN-EW方法的分類準確率和特異性顯著優(yōu)于前者(p<0.05),主要有2方面原因:1)AMTCNN-EW方法通過多任務(wù)學(xué)習(xí)的共享表示機制學(xué)習(xí)臨床表型差異與腦網(wǎng)絡(luò)異常之間共享特征,為腦網(wǎng)絡(luò)類別決策起到了輔助作用;2)AMTCNN-EW方法通過AMTL方法求解各個子任務(wù)的權(quán)重,能夠比人工調(diào)整更準確地設(shè)置每個任務(wù)對整體的貢獻.總而言之,通過AMTCNN-EW方法引入并利用多種臨床表型輔助任務(wù)能夠有效提高腦網(wǎng)絡(luò)分類性能.
鑒于不同人群的臨床表型與其腦網(wǎng)絡(luò)差異存在著一定的依存關(guān)系,有望為腦網(wǎng)絡(luò)分類提供有用的信息.因此,為了進一步提升腦網(wǎng)絡(luò)分類方法的性能,我們提出了一種基于自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的腦網(wǎng)絡(luò)分類方法.本文分2部分由淺至深地對基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN-EW)、自適應(yīng)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(AMTCNN-EW)2類腦網(wǎng)絡(luò)分類方法進行全面的研究和探索.特別地,本文提出的AMTCNN-EW方法不僅能夠充分利用臨床表型預(yù)測任務(wù)提供的輔助信息,而且能夠在訓(xùn)練過程中自適應(yīng)且準確地求解各個任務(wù)的權(quán)重,降低人工操作帶來的實驗成本和分類誤差.在ABIDE I真實數(shù)據(jù)集上的實驗結(jié)果表明:1)通過引入臨床表型預(yù)測任務(wù),并利用MTCNN-EW方法和AMTCNN-EW方法提取臨床表型差異與腦網(wǎng)絡(luò)異常之間的共享特征,能夠有效輔助腦網(wǎng)絡(luò)分類;2)AMTCNN-EW方法能夠較準確地對各個子任務(wù)的權(quán)重進行求解,進一步提升了分類性能,而且與多種經(jīng)典方法相比具有明顯的優(yōu)勢.