王 敬,張 寶,謝 曉,b,李 健,b,張 莉,b,郭華平,b
(信陽師范學(xué)院 a. 計(jì)算機(jī)與信息技術(shù)學(xué)院; b. 河南省教育大數(shù)據(jù)分析與應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 河南 信陽 464000)
大腦解碼,即從測量得到的生理數(shù)據(jù)推斷大腦的認(rèn)知狀態(tài),是揭示人腦奧秘的一個(gè)重要途徑[1-2]。大量神經(jīng)影像學(xué)研究已經(jīng)證實(shí)了基于功能磁共振成像(functional magnetic resonance imaging, fMRI)數(shù)據(jù)預(yù)測被試大腦認(rèn)知狀態(tài)的可行性[3]。在相關(guān)研究中,傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)、線性判別分析、邏輯回歸等得到了廣泛應(yīng)用[4-5]。然而這些算法不能充分利用fMRI數(shù)據(jù)的特點(diǎn),因此將它們直接應(yīng)用于大腦解碼時(shí)存在局限性。
fMRI數(shù)據(jù)的主要特點(diǎn)包括維度高、樣本數(shù)目少、蘊(yùn)含空間結(jié)構(gòu)等。傳統(tǒng)機(jī)器學(xué)習(xí)算法應(yīng)用到高維數(shù)據(jù)上時(shí)容易碰到維數(shù)災(zāi)難的問題[6],通常解決這個(gè)問題的方法是通過主成分分析來降維,或者通過特征選擇方法來提取與類別相關(guān)的特征。當(dāng)數(shù)據(jù)維度高并且樣本數(shù)目少時(shí),傳統(tǒng)的機(jī)器學(xué)習(xí)算法又容易產(chǎn)生過擬合的問題[6]。解決這個(gè)問題的常用方法是在分類模型中加入懲罰項(xiàng)。fMRI數(shù)據(jù)的前兩個(gè)特點(diǎn),即維度高和樣本數(shù)目少,并非fMRI數(shù)據(jù)獨(dú)有。比如在人臉識(shí)別中,人臉數(shù)據(jù)也常具備這兩種特點(diǎn)。因此,維數(shù)災(zāi)難和過擬合的問題在機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域已經(jīng)有了廣泛和成熟的研究[6]。針對這兩個(gè)問題,一種行之有效的解決方法是引入稀疏懲罰項(xiàng)[7],稀疏懲罰項(xiàng)能夠使得與分類無關(guān)的特征得到抑制,并且能夠有效地避免算法的過擬合。已經(jīng)有大量的稀疏算法[8-10]被應(yīng)用到fMRI數(shù)據(jù)分析上。
對傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行稀疏化改造,雖然可以避免維數(shù)災(zāi)難和過擬合問題,但仍無法利用到大腦的空間結(jié)構(gòu)信息,因此在應(yīng)用于全腦fMRI數(shù)據(jù)分類時(shí)存在不足。傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常要求將每個(gè)樣本,比如二維人臉圖像、三維全腦fMRI數(shù)據(jù)等,排列成一個(gè)一維向量,然后才能進(jìn)行分析。將多維樣本排列成一維向量會(huì)使得樣本的維度信息丟失。人臉識(shí)別中的這個(gè)問題可以通過構(gòu)造二維算法得到有效解決[11]。通過利用人臉圖像的二維空間結(jié)構(gòu),該類算法能夠在使用較少特征的前提下有效地提高分類準(zhǔn)確率,然而這種思路無法直接推廣到三維全腦fMRI數(shù)據(jù)上。要利用fMRI數(shù)據(jù)的空間結(jié)構(gòu),一種可行的方法是將表征空間結(jié)構(gòu)的懲罰項(xiàng)引入到機(jī)器學(xué)習(xí)算法中[9,12-13]。
基于以上思路,本文在經(jīng)典邏輯回歸(Logistic Regression, LR)[8]算法的基礎(chǔ)上,同時(shí)引入表征稀疏的懲罰項(xiàng)和表征空間結(jié)構(gòu)的懲罰項(xiàng),構(gòu)建一種新的全腦fMRI數(shù)據(jù)分類算法,即廣義稀疏邏輯回歸(Generalized Sparse Logistic Regression, GSLR)算法,然后在優(yōu)化最大化框架下,設(shè)計(jì)了一個(gè)迭代流程來求解該算法對應(yīng)的優(yōu)化問題,最后通過實(shí)驗(yàn)來證明該算法的有效性。
邏輯回歸算法[8]常用于二分類。假設(shè)有n個(gè)樣本類別對(xi,yi)(i=1,2,…,n),其中xi∈d為樣本,yi∈{-1,1}為類別,樣本之間互相獨(dú)立且滿足同一分布。定義X=[x1,x2,…,xn]∈d×n,y=[y1,y2,…,yn]T∈n。定義Sigmoid函數(shù)
(1)
根據(jù)邏輯回歸模型,在已知權(quán)重向量w∈d和截距w0∈時(shí),樣本xi屬于類別yi的概率可以表示為
σ(yi(w0+wTxi))。
(2)
已知訓(xùn)練樣本及其對應(yīng)的類別,通過最大化后驗(yàn)概率計(jì)算出w,然后將測試樣本代入式(2),計(jì)算出該樣本屬于某一類別的概率,即可達(dá)到對測試樣本進(jìn)行分類的目的。通常構(gòu)造增廣矩陣來避免考慮w0,即xi←[1;xi],w←[w0;w],從而得到聯(lián)合概率密度分布函數(shù):
(3)
根據(jù)貝葉斯理論,在已知X和y的前提下,w的似然函數(shù)可以表示為
P(w|y,X)∝P(y|w,X)P(w),
(4)
最大化該似然函數(shù)即可求出w。
最大化式(4)中的似然函數(shù),首先需要確定先驗(yàn)因子P(w)。假設(shè)權(quán)重之間不相關(guān)時(shí),由廣義正態(tài)分布理論,權(quán)重wj(j=1,2,…,d)的概率密度函數(shù)為
(5)
其中α、β、μ為調(diào)節(jié)參數(shù)。取均值μ=0,調(diào)節(jié)β可以得到兩種常見的先驗(yàn)因子。β=1對應(yīng)拉普拉斯先驗(yàn)因子:
(6)
β=2對應(yīng)高斯先驗(yàn)因子:
(7)
將兩種先驗(yàn)因子同時(shí)應(yīng)用于式(4)中,然后對似然函數(shù)取對數(shù)可得式(8)的優(yōu)化問題
(8)
即同時(shí)帶有l(wèi)1范數(shù)和l2范數(shù)的稀疏邏輯回歸算法,記作LR12。當(dāng)λ1=0時(shí),LR12退化為普通的邏輯回歸算法,記作LR2。當(dāng)λ2=0時(shí),LR12退化為僅帶l1范數(shù)懲罰項(xiàng)的邏輯回歸算法,記作LR1。
拉普拉斯先驗(yàn)因子和高斯先驗(yàn)因子分別對應(yīng)LR12中的l1范數(shù)和l2范數(shù)懲罰項(xiàng)。l2范數(shù)懲罰項(xiàng)也稱嶺(Ridge)懲罰項(xiàng),能抑制無關(guān)特征對應(yīng)的權(quán)重,避免過擬合。l1范數(shù)懲罰項(xiàng)也稱拉索(LASSO)懲罰項(xiàng),能使無關(guān)特征對應(yīng)的權(quán)重縮減至零,從而得到稀疏的結(jié)果。嶺懲罰項(xiàng)和拉索懲罰項(xiàng)結(jié)合在一起則構(gòu)成彈性網(wǎng)(Elastic-net)懲罰項(xiàng)。該懲罰項(xiàng)同時(shí)具有嶺懲罰項(xiàng)和拉索懲罰項(xiàng)的優(yōu)點(diǎn),因而得到了廣泛應(yīng)用。
為了利用大腦的空間結(jié)構(gòu)信息,在高斯先驗(yàn)因子中對權(quán)重之間的相關(guān)性進(jìn)行如下建模。假設(shè)兩個(gè)特征wi和wj的坐標(biāo)分別為(ai,bi,ci)和(aj,bj,cj),則wi和wj在三維空間中的距離為
(9)
定義鄰接矩陣N=(Nij),
(10)
其中ε用來調(diào)節(jié)矩陣N的稀疏程度,ε越小,N越稀疏;δ用來調(diào)節(jié)矩陣N中非零元素的大小,δ越小,N中非零元素的值越小。在矩陣N的基礎(chǔ)上定義精度矩陣Q-1如下:
Q-1=D-N,
(11)
(12)
以式(12)作為懲罰項(xiàng)代替式(8)中的l2范數(shù)懲罰項(xiàng)可得
(13)
即廣義稀疏邏輯回歸(Generalized Sparse Logistic Regression, GSLR)算法。
GSLR算法基于兩個(gè)特征的空間距離來調(diào)節(jié)兩者權(quán)重的殘差。直觀地講,兩個(gè)特征wi和wj在空間上距離越近,由式(10)定義的鄰接矩陣中對應(yīng)的元素Nij越大,最大化式(13)時(shí)得到wi和wj的殘差就越小。因此,GSLR可以保證特征w在空間上的連續(xù)性。
GSLR模型是已有的稀疏邏輯回歸模型的泛化形式。當(dāng)Q為單位陣時(shí),GSLR退化為LR12。自然地,GSLR也是LR2和LR1的泛化形式。當(dāng)
(14)
時(shí)GSLR算法退化為帶GraphNet懲罰項(xiàng)的邏輯回歸算法[12]。在不至于混淆的前提下,本文中將帶GraphNet懲罰項(xiàng)的邏輯回歸算法記作GraphNet。相對于其他幾種稀疏邏輯回歸算法,GSLR算法能更充分地利用特征的空間信息,預(yù)期可以在全腦分類上取得更好的效果。
GSLR與平滑稀疏邏輯回歸(Smooth Sparse Logistic Regression, SSLR)[9]的主要區(qū)別在于構(gòu)造了不同的空間結(jié)構(gòu)懲罰項(xiàng)。GSLR中先用空間距離的高斯函數(shù)定義鄰接矩陣N,然后通過式(11)計(jì)算出精度矩陣Q-1,而SSLR中直接使用空間距離的高斯函數(shù)來計(jì)算協(xié)方差矩陣Q。因此,GSLR可以退化為GraphNet,而SSLR則不行。另外,GSLR中可以通過調(diào)節(jié)參數(shù)ε改變鄰接矩陣N的稀疏度,從而得到稀疏的精度矩陣Q-1,而SSLR中沒有設(shè)置對應(yīng)參數(shù),計(jì)算得到的協(xié)方差矩陣Q是稠密的。考慮到全腦fMRI數(shù)據(jù)維度很高,稠密的協(xié)方差矩陣在存儲(chǔ)和運(yùn)算時(shí)都需要消耗更多的硬件資源。基于以上原因,GSLR選擇與SSLR不同的方式來構(gòu)造空間結(jié)構(gòu)懲罰項(xiàng)。
在優(yōu)化最大化(minorization-maximization, MM)[14]框架下構(gòu)造 GLSR算法對應(yīng)優(yōu)化問題的迭代求解方法.令
l(w)=lnP(y|w,X),
(15)
則GSLR的目標(biāo)函數(shù)可以寫為
(16)
(17)
對l(w)在w(k)處進(jìn)行二階泰勒展開, 其中w(k)是w在第k次迭代后得到的結(jié)果,由中值定理可知,存在θ∈[0,1],使得
(w-w(k))。
(18)
定義
s=[σ(y1wTx1),…,σ(ynwTxn)]T=
σ(y°(XTw(k))),
(19)
其中:a°b表示Hadamard積,即向量a和向量b對應(yīng)元素相乘得到的向量;Sigmoid函數(shù)σ(·)作用在向量上,表示對向量中的每個(gè)元素分別求Sigmoid函數(shù),則l(w)的梯度和Hessian矩陣分別為
(20)
Xdiag[-(1n-s)°s]XT,
(21)
其中1n表示一個(gè)n行的全1向量。由式(21)可得
(22)
對于兩個(gè)同樣規(guī)模的矩陣A和B,A≥B表示A-B為半正定矩陣。 將式(20)和式(21)代入式(18),再結(jié)合式(22)可得
l(w)≥l(w(k))+(w-w(k))Tg(w(k))+
(23)
另外,由文獻(xiàn)[11]知,
(24)
其中U=diag(abs(w(k)))-1。將式(23)和式(24)應(yīng)用到式(17)中等式的右側(cè)構(gòu)造如下函數(shù):
g(w|w(k))=l(w(k))+
(w-w(k))Tg(w(k))+
λρwTQ-1w。
(25)
該函數(shù)滿足MM框架的兩個(gè)條件,因此是一個(gè)合理的中間函數(shù)。根據(jù)MM框架,可以通過式(26)迭代地最大化g(w|w(k))來達(dá)到最大化f(w)的目的,
(26)
去掉g(w|w(k))中與w的無關(guān)項(xiàng)得
wT(g(w(k))-Bw(k))。
(27)
w(k+1)=(B-λ(1-ρ)U-2λρQ-1)-1·
(Bw(k)-g(w(k)))。
(28)
GSLR的優(yōu)化過程如算法1所示。
------------------------------------
算法1 GSLR 算法
------------------------------------
輸入:訓(xùn)練樣本X,類別y
初始化:w(0)=1,k=0;λ、ρ、ε、δ、η=1,
Q-1=D-N
whileη>10-4
s=σ(y°(XTw(k)))
g(w(k))=X[(1n-s)°y]
w(k+1)=(B-λ(1-ρ)U-2λρQ-1)-1·
(Bw(k)-g(w(k)))
k←k+1
end while
輸出:w
------------------------------------
使用訓(xùn)練樣本X及其類別y訓(xùn)練出w后,將測試樣本代入式(2)中計(jì)算出該樣本屬于某一類別的概率,以此預(yù)測該樣本所屬類別。最后,結(jié)合預(yù)測類別和實(shí)際類別統(tǒng)計(jì)出分類準(zhǔn)確率。
實(shí)驗(yàn)中使用了兩個(gè)公開數(shù)據(jù)集,即StarPlus數(shù)據(jù)集[15]和視覺物體識(shí)別(Visual Object Recognition, VOR)數(shù)據(jù)集[16]。關(guān)于兩個(gè)數(shù)據(jù)集的詳細(xì)描述如下。
StarPlus數(shù)據(jù)集采集的是被試觀看圖片和句子時(shí)的大腦fMRI數(shù)據(jù)。實(shí)驗(yàn)中選取了6個(gè)被試的數(shù)據(jù),每個(gè)被試完成40個(gè)任務(wù)。每個(gè)任務(wù)要求被試首先看4 s句子/圖片,接著看4 s空白屏幕,然后看4 s圖片/句子,最后休息15 s。前20個(gè)任務(wù)先看句子后看圖片,后20個(gè)任務(wù)先看圖片后看句子。實(shí)驗(yàn)過程中,每秒采集兩次大腦fMRI數(shù)據(jù),僅掃描部分腦區(qū),這些腦區(qū)對應(yīng)20~30個(gè)解剖學(xué)上的區(qū)域。從StarPlus數(shù)據(jù)集中隨機(jī)選取一個(gè)被試的某個(gè)時(shí)刻的大腦圖像,是一個(gè)三維的灰度圖像,其典型的切片圖如圖1所示。
圖1 StarPlus數(shù)據(jù)示例圖Fig. 1 An illustration of the StarPlus data
VOR數(shù)據(jù)集采集的是被試觀看8種類別的圖片時(shí)的全腦fMRI數(shù)據(jù)。8種類別的圖片包括臉、房子、貓、瓶子、剪刀、鞋、椅子和混亂的圖片。共6個(gè)被試參與實(shí)驗(yàn),每個(gè)被試完成12個(gè)任務(wù),每個(gè)任務(wù)選取8類圖片各1張,隨機(jī)打亂順序,然后依次給被試觀看。每張圖片展示0.5 s,間隔1.5 s。從VOR數(shù)據(jù)集中隨機(jī)選取一個(gè)被試,其典型的大腦圖像如圖2所示。
圖2 VOR 數(shù)據(jù)示例圖Fig. 2 An illustration of the VOR data
對于StarPlus數(shù)據(jù)集,網(wǎng)上公開的是已經(jīng)預(yù)處理好的數(shù)據(jù),無須額外的預(yù)處理步驟。對于VOR數(shù)據(jù)集,使用集成SPM12的靜息態(tài)fMRI數(shù)據(jù)預(yù)處理工具DPABI[17],對原始數(shù)據(jù)進(jìn)行預(yù)處理,包括以下步驟:首先校正不同切片的掃描時(shí)間差異,接著對齊圖像以校正掃描過程中的頭部運(yùn)動(dòng),然后使用蒙特利爾神經(jīng)學(xué)研究所模板大腦對圖像進(jìn)行標(biāo)準(zhǔn)化,使用三線性插值將圖像重采樣使得新圖像分辨率為4 mm的立方,最后去除線性漂移。
對StarPlus數(shù)據(jù)集和VOR數(shù)據(jù)集中每個(gè)被試的數(shù)據(jù)進(jìn)行十重交叉驗(yàn)證,并計(jì)算平均分類準(zhǔn)確率。具體地講,將每個(gè)被試的所有樣本隨機(jī)等分為10份,每次取不同的1份用于測試,其他用于訓(xùn)練,計(jì)算分類準(zhǔn)確率,然后將得到的10次分類準(zhǔn)確率取平均,從而得到對于單個(gè)被試的分類準(zhǔn)確率。將一個(gè)數(shù)據(jù)集中的所有被試對應(yīng)的分類準(zhǔn)確率取平均,得到對于該數(shù)據(jù)集的平均分類準(zhǔn)確率,用來衡量算法的分類準(zhǔn)確性。
表1 4種算法在StarPlus數(shù)據(jù)集上的分類準(zhǔn)確率Tab. 1 The classification accuracies of four algorithms on the StartPlus dataset
表2 4種算法在VOR數(shù)據(jù)集上的分類準(zhǔn)確率Tab. 2 The classification accuracies of four algorithms on the VOR dataset
GSLR的最高分類準(zhǔn)確率超過LR1和LR12的最高分類準(zhǔn)確率,與GraphNet的最高分類準(zhǔn)確率相等。與GraphNet相比,GSLR在構(gòu)造鄰接矩陣N時(shí)更加靈活:可以通過調(diào)節(jié)參數(shù)ε來調(diào)節(jié)改變鄰接矩陣的稀疏度;可以通過調(diào)節(jié)參數(shù)δ可以調(diào)節(jié)鄰接矩陣中非零元素的大小。因此,GSLR能夠更加充分地利用到大腦的空間結(jié)構(gòu)信息,在特征選擇方面相對于GraphNet具有優(yōu)勢。
將表征稀疏的懲罰項(xiàng)和表征空間結(jié)構(gòu)的懲罰項(xiàng)同時(shí)引入邏輯回歸中,特別是設(shè)計(jì)了一種具有一般性的表征空間結(jié)構(gòu)的懲罰項(xiàng),從而提出了一種新的廣義稀疏邏輯回歸算法。該算法是多種已有的稀疏邏輯回歸算法的泛化形式。實(shí)驗(yàn)結(jié)果表明,本文提出的算法相對于已有算法在全腦fMRI分類上具有明顯優(yōu)勢。另外,由于本文提出的算法能夠更加充分有效地利用大腦的空間結(jié)構(gòu)信息,因此相對于其他方法更適合用于特征選擇。
本文存在一些不足之處需要在今后的研究中加以改進(jìn)。一是使用到的數(shù)據(jù)種類和數(shù)量都有限,沒有充分體現(xiàn)不同算法之間的差距。二是有必要以更精細(xì)的粒度來調(diào)節(jié)鄰接矩陣中的參數(shù),從而找到最有利于分類和特征選擇的參數(shù)組合。