鄒童童,孔萬(wàn)增
(杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
運(yùn)動(dòng)想象過程中,相關(guān)皮層區(qū)域被激活,進(jìn)而引發(fā)相應(yīng)的皮層活動(dòng),從中采集到的腦電信號(hào)數(shù)據(jù)記錄了皮層活動(dòng),有效刻畫腦電數(shù)據(jù)的特征一直是電生理學(xué)的研究方向[1]。從提取腦電信號(hào)的時(shí)頻空特征入手,基于平行因子模型和Tucker分解模型獲得了一系列特征提取算法。Miwakeichi等[2]借鑒化學(xué)計(jì)量學(xué)對(duì)多維數(shù)據(jù)進(jìn)行整體分析,運(yùn)用平行因子分析模型將被試在休息和心算狀態(tài)下的腦電信號(hào)分解成包含時(shí)域、頻域和空域特征的原子,進(jìn)行精神狀態(tài)的研究和分析。在此基礎(chǔ)上,Nazarpour等[3]對(duì)想象左右手運(yùn)動(dòng)的8~13 Hz頻段腦電信號(hào)的時(shí)頻空特征提取展開研究,運(yùn)用平行因子分析模型提取其多線性分解后原子中的空間特征,對(duì)運(yùn)動(dòng)想象進(jìn)行分類。Phan等[4]針對(duì)多維數(shù)據(jù)集的特征提取和分類問題展開研究,給出基于Tucker分解模型的張量數(shù)據(jù)降維和分類的一般框架。文獻(xiàn)[5-6]采用張量降維算法提取想象手指動(dòng)覺運(yùn)動(dòng)和模擬閱讀時(shí)的腦電信號(hào)張量特征,取得了比傳統(tǒng)向量特征更好的分類準(zhǔn)確率。但是,在提取腦電信號(hào)的張量特征后,上述研究在分類階段采用的是向量型分類算法,破壞了張量特征的結(jié)構(gòu)信息和內(nèi)在相關(guān)性。Huang等[7]將腦電信號(hào)張量特征結(jié)構(gòu)類比為彩色圖像結(jié)構(gòu),從深度學(xué)習(xí)方向提出一種基于高階判別分析和卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)想象腦電信號(hào)分類算法,但忽略了腦電信號(hào)處理實(shí)時(shí)性要求較高、腦電信號(hào)具有較多電極通道和較少訓(xùn)練樣本等特點(diǎn),導(dǎo)致算法訓(xùn)練時(shí)間較長(zhǎng),分類結(jié)果不佳。本文從機(jī)器學(xué)習(xí)方向出發(fā),提出一種基于張量降維和邏輯張量回歸的運(yùn)動(dòng)想象腦電信號(hào)分類算法,采用基于張量模式的學(xué)習(xí)算法捕捉張量特征的整體信息,避免了小樣本問題,提升了張量特征的分類準(zhǔn)確率。
數(shù)學(xué)和計(jì)算機(jī)領(lǐng)域中,張量專指多維數(shù)組,其常用符號(hào)以及基本運(yùn)算如表1所示。一般情況下,張量是向量模式表示的擴(kuò)展和補(bǔ)充。矩陣是二階形式的張量,向量是一階形式的張量。本文采用小寫斜體字母x∈R表示標(biāo)量,加粗小寫斜體字母x∈RI1表示向量,加粗大寫斜體字母X∈RI1×I2表示矩陣,帶有下劃線的大寫斜體字母表示張量。
本文提出的基于張量降維和邏輯張量回歸的算法對(duì)運(yùn)動(dòng)想象腦電信號(hào)進(jìn)行分類的主要流程如圖1所示。預(yù)處理階段中,對(duì)原始腦電數(shù)據(jù)Xc×t進(jìn)行頻域?yàn)V波,并通過連續(xù)小波變換將其變換成張量型腦電數(shù)據(jù)其中f,c和t分別代表頻率維度、電極通道維度和時(shí)間維度[8]。特征提取階段中,首先,針對(duì)張量型訓(xùn)練數(shù)據(jù)使用多線性主成分分析算法求解一組投影矩陣Vf,Vc和Vt,并計(jì)算在該組投影矩陣下訓(xùn)練集的低維特征張量然后,運(yùn)用高階判別分析算法求解訓(xùn)練集低維特征張量的一組投影矩陣Uf,Uc和Ut,并計(jì)算在該組投影矩陣下訓(xùn)練集低維特征張量的判別特征張量接著,對(duì)張量型測(cè)試數(shù)據(jù)進(jìn)行同樣的運(yùn)算,先計(jì)算在投影矩陣Vf,Vc和Vt下的低維特征張量再計(jì)算低維特征張量在投影矩陣Uf,Uc和Ut下的判別特征張量特征分類階段中,通過對(duì)訓(xùn)練集中的判別特征張量進(jìn)行訓(xùn)練得到邏輯張量回歸模型,并給出測(cè)試集中判別特征張量的預(yù)測(cè)標(biāo)簽。
(1)
一般地,(N+1)階張量的Tucker-N分解的數(shù)學(xué)公式為:
(2)
(3)
同樣地,因?yàn)橐蜃泳仃嘨(1)需要滿足標(biāo)準(zhǔn)正交的性質(zhì),所以,式(3)中的因子矩陣V(1)等同于其左邊張量矩陣化后進(jìn)行奇異值分解得到的左奇異矩陣V(1)←U1(1∶Rn,∶)。在此基礎(chǔ)之上,基于Tucker-N分解的多線性主成分分析算法通過交替最小二乘的方式對(duì)因子矩陣V(n),n=1,2,…,N進(jìn)行迭代優(yōu)化,直到滿足收斂準(zhǔn)則或者達(dá)到最大的迭代次數(shù)。通常通過計(jì)算(N+1)階張量模-n展開矩陣中主要特征值的個(gè)數(shù)來(lái)確定低維特征張量的維數(shù)Rn,n=1,2,…,N。
(4)
(5)
從而,得到衡量投影后多維數(shù)據(jù)類內(nèi)方差的類內(nèi)矩陣如下:
(6)
(7)
從而,得到衡量投影后多維數(shù)據(jù)類間方差的類間矩陣如下:
(8)
最終,具有最佳判別特性的投影矩陣U(n)可以通過如下目標(biāo)函數(shù)來(lái)求解,
(9)
式(9)中,因子矩陣U(n)可以通過求解矩陣的前Sn個(gè)特征向量得到在此基礎(chǔ)之上,高階判別分析算法通過交替最小二乘的方式對(duì)因子矩陣U(n),n=1,2,…,N進(jìn)行迭代優(yōu)化,直到滿足收斂準(zhǔn)則或者達(dá)到最大的迭代次數(shù)。通常通過參數(shù)設(shè)置的方式指定判別特征張量的維數(shù)Sn,n=1,2,…,N。
邏輯張量回歸(Logistic Tensor Regression,LTR)算法通過結(jié)合CP分解和極大似然估計(jì)方法將邏輯回歸算法推廣到多維數(shù)據(jù)分類中[11]。一般地,對(duì)于兩類數(shù)據(jù)集其中是多維數(shù)據(jù)的類別標(biāo)簽。在假設(shè)的條件概率模型下,邏輯張量回歸算法利用已知的樣本結(jié)果反推出最有可能導(dǎo)致這一結(jié)果的參數(shù)和γ∈R。相應(yīng)地,采用極大似然估計(jì)方法建立的損失函數(shù)如下:
(10)
(11)
進(jìn)而將因子矩陣U(n)的優(yōu)化問題轉(zhuǎn)換成一個(gè)邏輯回歸的求解問題。同樣地,針對(duì)高維數(shù)據(jù)集時(shí)常添加L2范數(shù)的正則化項(xiàng),相應(yīng)的損失函數(shù)如下:
(12)
使用塊坐標(biāo)下降法求解得到式(12)中的因子矩陣U(n)。在此基礎(chǔ)之上,邏輯張量回歸算法通過交替最小二乘的方式對(duì)因子矩陣U(n),n=1,2,…,N進(jìn)行迭代優(yōu)化,直到滿足收斂準(zhǔn)則或者達(dá)到最大的迭代次數(shù)。
在MATLAB實(shí)驗(yàn)環(huán)境中,分別采用本文提出的基于張量降維和邏輯張量回歸的算法、基于張量降維和線性判別分析的算法、基于張量降維和邏輯回歸的算法對(duì)第三屆國(guó)際腦機(jī)接口競(jìng)賽數(shù)據(jù)集Iva中所有被試的運(yùn)動(dòng)想象腦電信號(hào)進(jìn)行分類測(cè)試,比較3種算法對(duì)運(yùn)動(dòng)想象腦電信號(hào)分類的準(zhǔn)確率。
第三屆國(guó)際腦機(jī)接口競(jìng)賽數(shù)據(jù)集Iva是關(guān)于運(yùn)動(dòng)想象腦電信號(hào)分類的小樣本學(xué)習(xí)數(shù)據(jù)集,包含5名健康被試(aa,al,av,aw,ay)在4次校準(zhǔn)階段進(jìn)行右手和腳這2種運(yùn)動(dòng)想象類型的腦電數(shù)據(jù)。數(shù)據(jù)集中,每個(gè)訓(xùn)練集和測(cè)試集中都包含等量的想象右手和腳運(yùn)動(dòng)的腦電數(shù)據(jù),不同被試的訓(xùn)練樣本和測(cè)試樣本的個(gè)數(shù)如表2所示。
表2 Iva數(shù)據(jù)集中,不同被試的訓(xùn)練樣本和測(cè)試樣本的個(gè)數(shù)
樣本數(shù)據(jù)類別aaalavaway訓(xùn)練樣本168224845628測(cè)試樣本11256196224252
在預(yù)處理階段,首先,選用8~30 Hz的10階巴頓沃斯IIR帶通濾波器對(duì)單個(gè)被試的原始腦電數(shù)據(jù)Xc×t進(jìn)行頻域?yàn)V波;其次,采用公共平均參考的方法進(jìn)行空域?yàn)V波;接著,截取出現(xiàn)視覺提示后0~3.5 s內(nèi)的腦電數(shù)據(jù),且只截取運(yùn)動(dòng)想象相關(guān)腦區(qū)內(nèi)電極通道上的腦電數(shù)據(jù);最后,選擇中心頻率fc=1和帶寬fb=2的復(fù)Morlet小波對(duì)單段腦電數(shù)據(jù)每個(gè)通道上的數(shù)據(jù)進(jìn)行小波變換,并通過堆疊截取通道上連續(xù)小波變換產(chǎn)生的功率譜密度來(lái)構(gòu)建張量型樣本數(shù)據(jù)
在特征提取階段,首先,運(yùn)用多線性主成分分析求解張量型訓(xùn)練數(shù)據(jù)的低維特征張量低維特征張量的維數(shù)Rn,n=1,2,3設(shè)置為張量型訓(xùn)練數(shù)據(jù)串接張量模-n展開矩陣中占特征值總和97%以上時(shí)主要特征值的個(gè)數(shù);接著,利用高階判別分析求解訓(xùn)練集低維特征張量的判別特征張量將多維數(shù)據(jù)投影前后的維數(shù)Rn,n=1,2,3和Sn,n=1,2,3設(shè)置為一致。
在特征分類階段,本文提出的基于張量降維和邏輯張量回歸的算法采用判別特征張量訓(xùn)練邏輯張量回歸模型時(shí),利用L2范數(shù)正則化進(jìn)行特征挑選,通過設(shè)置張量秩Q和L2范數(shù)正則化項(xiàng)系數(shù)λLTR,使得測(cè)試數(shù)據(jù)做驗(yàn)證時(shí)取得最佳分類準(zhǔn)確率。同樣地,基于張量降維和線性判別分析的算法和基于張量降維和邏輯回歸的算法采用向量化的判別特征張量訓(xùn)練線性判別分析(Linear Discriminant Analysis,LDA)模型和L2范數(shù)正則化的邏輯回歸(Logistic Regression,LR)模型時(shí),分別采用Fisher得分和L2范數(shù)正則化進(jìn)行特征挑選,通過設(shè)置Fisher得分挑選的特征數(shù)量Nnum和L2范數(shù)正則化項(xiàng)系數(shù)λLR,使得測(cè)試數(shù)據(jù)做驗(yàn)證時(shí)取得最佳分類準(zhǔn)確率。
對(duì)所有被試(aa,al,av,aw,ay)截取14個(gè)電極通道上(C5,C3,C1,Cz,C2,C4,C6,CP5,CP3,CP1,CPz,CP2,CP4,CP6)和30個(gè)電極通道上(FC2,F(xiàn)C4,F(xiàn)C6,CFC2,CFC4,CFC6,C2,C4,C6,CCP2,CCP4,CCP6,CP2,CP4,CP6,F(xiàn)C5,F(xiàn)C3,F(xiàn)C1,CFC5,CFC3,CFC1,C5,C3,C1,CCP5,CCP3,CCP1,CP5,CP3,CP1)的腦電數(shù)據(jù)[12]。分別采用基于張量降維和邏輯張量回歸的算法(MPCA+HODA+LTR)、基于張量降維和線性判別分析的算法(MPCA+HODA+LDA)以及基于張量降維和邏輯回歸的算法(MPCA+HODA+LR)對(duì)2種不同規(guī)模的腦電數(shù)據(jù)進(jìn)行分類,并對(duì)比基于共空間模式和支持向量機(jī)的算法(CSP+SVM)、基于濾波器組的共空間模式和支持向量機(jī)的算法(FBCSP+SVM)、基于張量判別分析和卷積神經(jīng)網(wǎng)絡(luò)的算法(TDA+CNN)在截取所有被試14個(gè)電極通道腦電數(shù)據(jù)上的分類準(zhǔn)確率,結(jié)果如表3所示。
表3 不同算法的分類準(zhǔn)確率 單位:%
算法類別aaalavaway平均值CSP+SVM(14通道)[7]78.7583.9361.7378.5777.7876.12FBCSP+SVM(14通道)[7]75.00100.0063.2791.9651.1976.28TDA+CNN(14通道)[7]88.3998.2166.3394.6482.5486.02MPCA+HODA+LDA(14通道)82.1492.8664.8082.5967.8678.05MPCA+HODA+LDA(30通道)73.2196.4359.6385.7160.3275.06MPCA+HODA+LR(14通道)81.2596.4370.9291.9680.9584.30MPCA+HODA+LR(30通道)82.1494.6271.4391.9682.9484.62MPCA+HODA+LTR(14通道)83.04100.0070.9294.2082.9486.22MPCA+HODA+LTR(30通道)84.82100.0071.4394.2083.3386.77
從表3可以看出,相比于MPCA+HODA+LDA和MPCA+HODA+LR算法,無(wú)論通道數(shù)量的多少,本文提出的MPCA+HODA+LTR算法的分類準(zhǔn)確率最高,因?yàn)楸疚乃惴ú捎昧藦埩磕J降膶W(xué)習(xí)算法,不僅避免了分類階段張量特征的向量化操作和小樣本問題,而且有效利用了張量特征的整體信息。相比于CSP+SVM,F(xiàn)BCSP+SVM,TDA+CNN的經(jīng)典算法,本文提出的MPCA+HODA+LTR算法在多個(gè)被試(al,av,ay)上的分類準(zhǔn)確率和平均準(zhǔn)確率最高,進(jìn)一步證明了本文算法的優(yōu)勢(shì)。
本文提出一種基于張量降維和邏輯張量回歸的運(yùn)動(dòng)想象腦電信號(hào)分類算法。利用張量特征的結(jié)構(gòu)信息,運(yùn)用邏輯張量回歸算法對(duì)運(yùn)動(dòng)想象腦電信號(hào)張量特征進(jìn)行分類,避免了處理較多電極通道腦電數(shù)據(jù)時(shí)的小樣本問題,提高了運(yùn)動(dòng)想象腦電信號(hào)的分類準(zhǔn)確率。但是,本文提出的算法主要適用于二分類場(chǎng)景,后續(xù)針對(duì)多分類場(chǎng)景展開研究,進(jìn)一步提高腦電數(shù)據(jù)的分類效果。