譚學敏,郭 超
1.成都信息工程大學 控制工程學院,成都610225
2.國網(wǎng)成都供電公司,成都610041
腦機接口(Brain Computer Interface,BCI)是一種能讓大腦和計算機或其他通訊設備之間進行通訊的系統(tǒng)。1973年,Vidal[1]第一次提出了BCI這項技術,是為了幫助有著嚴重運動障礙的患者能夠控制外部設備,實現(xiàn)與外部世界的交互。在BCI系統(tǒng)中獲得未標記樣本是比較容易的,但是收集標記樣本卻比較困難,因為標記樣本是耗時且昂貴的[2-3]。因此,在BCI競賽III中,其中一個任務就是需要減少訓練進程。而且腦電信號的狀態(tài)也會隨著時間發(fā)生變化,使得分類難度進一步升高。在本文中,使用了半監(jiān)督學習來解決運動想象腦電數(shù)據(jù)的分類問題。與監(jiān)督學習相比,半監(jiān)督學習只需要利用少量標記樣本和大量未標記樣本來訓練分類器并提高分類器的性能,這樣很大程度上減少了標記樣本所需要的時間和費用。而且半監(jiān)督學習本身是一個自適應的過程,有助于促進BCI自適應性的增強。近些年,半監(jiān)督學習逐漸成為了機器學習和模式識別領域重要的研究方向,并吸引著越來越多的學者研究和分析。目前主要的半監(jiān)督方法包括自訓練算法[4]、協(xié)同訓練算法[5]、生成式模型算法[6]和直推式支持向量機[7]等。
Deng等[8]提出半監(jiān)督學習的其中一個必要條件是從訓練數(shù)據(jù)中提取出的特征需要有足夠的魯棒性。當前,共空間模式(Common Spatial Pattern,CSP)和濾波帶寬共空間模式(Filter Bank Common Spatial Pattern,F(xiàn)BCSP)這兩種算法被廣泛應用在BCI的特征提取中,尤其是CSP算法應用最多。
Yuan等[9]證明了CSP特征具有足夠的魯棒性,是一種比較先進的特征提取算法。這一算法的成功主要歸功于事件相關同步/事件相關去同步(ERD/ERS)的神經生理現(xiàn)象。雖然CSP和FBCSP算法在提取腦電信號方面已經獲得很好的效果,但是只是經驗性地選取有用的數(shù)據(jù)段,沒有充分考慮腦電信號中所有有用的數(shù)據(jù)段。如果不適當?shù)剡x擇數(shù)據(jù)段,那么很有可能遺漏有用的信息或加入不適當?shù)男畔ⅲ瑢е路诸愋阅艿南陆?。因此,在本文中,提出了一種先進的特征提取方法——分段重疊共空間模式(Segmented Overlapping Common Spatial Pattern,SOCSP),能夠獲得比CSP和FBCSP魯棒性更好的特征。
在半監(jiān)督學習的迭代過程中,分類器性能提高的兩個阻礙原因是:(1)標記樣本過少導致訓練不出可靠的初始模型;(2)誤標記用來更新初始模型的未標記樣本。因此,如何從未標記樣本中找出置信度高的樣本是個需要解決的問題。Cuan等[10]提出了一種基于圖與瑞利系數(shù)最大化的半監(jiān)督算法,但此算法初始模型的準確性不夠,隨著迭代的增加,初始模型不僅得不到優(yōu)化,反而將預測錯誤向后傳播。Li等[11]在P-300的腦機接口系統(tǒng)中使用了一種基于SVM的半監(jiān)督算法,并且獲得了比較滿意的結果。此算法雖然保證了初始模型的準確性,卻沒有考慮每次迭代未標記樣本的置信度問題,增加了誤標記未標記樣本的概率,可能導致分類器性能的下降。為了解決這個問題,提出一種新的置信度評估準則,從未標記樣本中找到置信度高的樣本,提高分類器性能。
眾所周知,F(xiàn)isher線性判別分析(Fisher Linear Discriminant Analysis,F(xiàn)LDA)和支持向量機(Support Vector Machine,SVM)是常見的分類器。在本文中,選擇FLDA作為分類器,因為在相同情況下FLDA能夠獲得與SVM相差不多的分類率,而且不需要像SVM一樣提前設定參數(shù)[12]。
因此,本文提出了一種基于SOCSP特征提取的自訓練算法ST-SOCSP(Self-Training base Segmented Overlapping Common Spatial Pattern,ST-SOCSP),使用SOCSP作為特征提取方法,F(xiàn)LDA作為分類器,使用新的置信度準則從未標記的樣本中選擇信息量大的樣本添加到標記樣本中重新訓練分類器,將ST-SOCSP應用到BCI競賽的數(shù)據(jù)集Iva中驗證算法的有效性,結果表明了提出的算法能有效提高運動想象腦電的分類率。本文創(chuàng)新之處在于提出了先進的SOCSP特征提取算法與半監(jiān)督算法結合和新的置信度準則避免未標記樣本的錯分。
為獲取最佳投影方向,使得兩類信號的區(qū)別最大,共空間模式(CSP)設計了最優(yōu)的空間濾波器。原理介紹如下:
其中,tr(·)為矩陣對角元素之和,兩類的平均協(xié)方差矩陣之和為:R=R1+R2,對R進行特征值分解:R=UλUT,其中U和λ分別代表特征向量矩陣和對角矩陣。利用U構造白化矩陣P后,R1和R2變換如下:
對S1和S2進行特征值分解,且S1和S2對應的特征值之和為1。
B表示S1和S2共有特征向量,而Λ1和Λ2分別代表S1和S2的特征值對應的對角矩陣。矩陣S1的特征值在最大方向上時,矩陣S2對應的特征值最小,反之亦然,這時兩類信號的區(qū)別最大。投影矩陣W=BTP,通過投影,原始信號轉換成新的信號Z=WX。
實際應用中,W的前m和后m行構成最佳濾波器矩陣。對產生新信號做對數(shù)規(guī)范化處理后,可以得到特征:
實際應用中,線性判別式分析(Linear Discriminant Analysis,LDA)作為一種常用的模式識別方法,需要根據(jù)實際情況尋找判別準則函數(shù),使得在這個函數(shù)投影下的樣本在新空間中的類間離散度最大而類內離散度最小[13-14]。線性判別函數(shù)的一般表達式如下:
x表示某個樣本特征向量,W為權向量,w0表示閾值權。根據(jù)函數(shù)y(x)的判別分數(shù),兩類問題的決策規(guī)則如下:
y(x)=0定義了超平面,也叫決策面,超平面把屬于w1和w2的點分隔開,目的是為了找到最佳權向量W和閾值權w0。
Fisher準則的最終目標是將樣本投影到一維空間后,使得類內離散度Sw減小,而類間離散度Sb增大,F(xiàn)isher判別準則定義如下:
為了使分子最大化和分母最小化,需要求解向量W來使J(W)最大化。使用拉格朗日求解法求解上式,可得出:
根據(jù)投影方向向量W,將原空間向量投影到一維空間,w0一般利用先驗知識求解,在這里w0=-WTm。
目前,有很多與BCI相關的文獻均引入了CSP和FBCSP算法,尤其是CSP算法。雖然CSP和FBCSP算法在提取腦電信號方面已經獲得很好的效果,但是它們都只是經驗性地選取有用的數(shù)據(jù)段,沒有充分考慮腦電信號中所有有用的數(shù)據(jù)段。如果不適當?shù)剡x擇數(shù)據(jù)段,那么很有可能遺漏有用的信息或加入不適當?shù)男畔?,導致分類性能的下降。為解決這個問題,本文提出一種新的特征提取方法——分段重疊選擇共空間模式(SOCSP)。在描述SOCSP算法之前,先介紹下Davis-Bouldin指標(Davis-Bouldin Index,DBI)的概念。
DBI[15]目標是從眾多特征中挑選出相似度最小的特征。通過計算類內離散度(Wi和Wj)和類間離散度(Iij),可以衡量兩類信號的相似度。
xj和Ni分別表示第j個樣本的特征和聚類i包含的樣本數(shù)。ai=[a1i,a2i,…,ani]是聚類i的中心,n為樣本維度。各個特征對應DBI的值為:
C表示聚類的類別數(shù),DBI值越小,聚類相似度越低,兩類分類效果越好。將所有特征對應的DBI值按升序排列,最好的特征擁有最小的DBI值。
介紹完DBI概念后,提出了SOCSP算法,它能克服了CSP和FBCSP算法可能數(shù)據(jù)段選擇不當導致分類率性能降低的缺點。SOCSP算法步驟描述如下:
(1)由于腦電信號的非平穩(wěn)性,將腦電信號時間長度劃分為n個有重疊窗口的時間段。
(2)原始腦電信號經過8~30 Hz的數(shù)字帶通濾波。
(3)為減少偽跡和噪聲,利用共同平均參考法(Common Average Reference,CAR)[16]對經過濾波的腦電信號進行預處理。
(4)使用CSP分別提取n個時間段腦電信號的特征。CSP轉換之后,使用投影矩陣W(見公式(8))的前兩行和后兩行提取規(guī)范化的特征,這樣各個時間段的腦電信號被提取了4個特征,那么n個時間段提取4n個特征。
風俗畫作品不論是在中國還是西方,都在展現(xiàn)其審美價值的同時提供著超出審美意義本身的豐富的藝術價值。而對于中、西方風俗畫作品來講,在某種意義上,他們也都具有提供特定社會階層生活細節(jié)的價值。
(5)計算4n個特征對應的DBI值,選擇m個最小DBI值所對應的特征。
為了更清晰地了解SOCSP算法,流程圖如圖1。
圖1 SOCSP算法流程圖
在半監(jiān)督學習的迭代過程中,兩個阻礙分類器性能提高的原因是:(1)標記樣本過少導致訓練不出可靠的初始模型;(2)誤標記用來更新初始模型的未標記樣本。因此,如何從未標記樣本中找出置信度高的樣本是個需要解決的問題。提出了置信度評估準則來找到這些樣本。
從公式(5)中可以看出,經過FLDA分類器的訓練,所有樣本都預測得到相應的判別分數(shù)。在本文的半監(jiān)督學習中,置信度高的未標記樣本才能夠用來擴展訓練集。使用初始訓練樣本訓練FLDA分類器,得到標記樣本(DI)和未標記樣本(DF)的判別分數(shù)。根據(jù)FLDA的原理,推斷得出與某類中心(mean1或mean2)有最小距離的同類預測未標記樣本有更高的置信度。在這里:
其中mean1和mean2分別被稱為類中心1和類中心2,表示訓練集DI中類別1和類別2的類中心。DI1和DI2分別表示訓練集DI中屬于類別1和類別2的訓練集。明顯地,DI=DI1?DI2。
通過分析DI和DF得到的FLDA判別分數(shù),從DF中挑選置信度高的樣本。置信度評估準則說明如下:
PF1和PF2分別表示預測結果屬于類別1和類別2的未標記數(shù)量集,明顯地,DF=PF1∪PF2,預測結果為類別1的未標記樣本的判別分數(shù)f(xi)與訓練樣本中的類中心1的距離d1(xi),表示預測為類別1的各個未標記樣本的置信度,d2(xi)則表示預測為類別2的各個未標記樣本的置信度。newd1(xi)和newd2(xi)分別表示d1(xi)和d2(xi)的升序結果,結果越小,置信度越高。
初始化:用SOCSP特征提取算法提取初始訓練集DI和DF中所有樣本的特征。使用DI中樣本的特征和其對應的標簽訓練FLDA分類器,并預測DF中所有樣本的判別分數(shù),得出樣本類別,標記為[yk(1),yk(2),…,yk(N2)]。k代表第k次迭代,這里k=1。
迭代步驟:步驟1到4描述了第k次迭代的過程(k=2,3,…,K0)。
步驟1(更新訓練集)根據(jù)置信度評估準則,當?shù)趉-1次迭代時,從擴展訓練集DF中挑選置信度高樣本,記作Qk,并預測標簽。因此,第k次迭代中,初始訓練集DI(已標記)和Qk(預測標簽)構成了新的訓練集
步驟2(重新提取特征)利用SOCSP重新訓練再重新提取初始訓練集DI和DF中所有樣本的特征。
步驟3(分類)根據(jù)新的訓練集中提取出的所有樣本的特征和其對應的標簽,訓練FLDA分類器,在DF上預測得出的判別分數(shù)記作fk(x)(x∈DF),其對應的類別記作[yk(1),yk(2),…,yk(N2)]。
步驟4(停止條件)當k=K0時,算法在第K0次迭代后終止,其中K0是迭代的次數(shù)。[yk(1),yk(2),…,yk(N2)]是擴展訓練DF最終預測類別。否則跳回步驟1執(zhí)行第k+1次迭代。
本文中,從預測為正類的未標記樣本和預測為負類的未標記樣本中分別挑選80%置信度高的樣本添加到標記樣本中。
為了清晰地表示出提出的ST-SOCSP算法的過程,見流程圖2。
本文使用2005 BCI競賽的數(shù)據(jù)集Iva[17],分析了想象右手運動和想象右腳運動兩類過程中,5個受試者的腦電數(shù)據(jù)。這次競賽提供了5個受試者想象右手和右腳運動的數(shù)據(jù),總共包括280個樣本。所有算法在配置為2.9 GHz 8 GB電腦的2016 MATLAB上執(zhí)行。
在本文中,各個受試者前200個樣本作為訓練集T,剩余80個樣本作為獨立測試集TS。訓練集T由已標記的初始訓練集DI和未標記的擴展訓練集DF組成,T=DI?DF。在訓練集T上執(zhí)行ST-SOCSP,其中隨機選擇20(40,60,100)個樣本用作初始訓練集DI,剩余180個(160,140,100)樣本用作擴展訓練集DF。然后將這200個訓練樣本隨機排序,使ST-SOCSP總共進行30次訓練,獨立訓練集TS用來測試分類器的性能。
圖2 基于分段重疊選擇共空間模式的自訓練算法(ST-SOCSP)
對每個樣本數(shù)據(jù),根據(jù)國際10-20導聯(lián)系統(tǒng)的電極分布,選擇22通道(對應想象運動區(qū)域,見圖3)的數(shù)據(jù)并分析每通道3.5 s運動想象數(shù)據(jù),然后使用SOCSP算法提取樣本特征。其中,將3.5 s運動想象數(shù)據(jù)劃分1 s的時間窗口,0.5 s的窗口重疊,導致有6個時間窗口數(shù)據(jù),24個CSP特征(每個時間窗口提取了4個CSP特征),然后使用DBI選擇6個對應最小DBI值的特征。這里之所以選擇6個特征,是因為之后會對CSP和SOCSP結合半監(jiān)督進行比較,而對CSP算法來說,提取超過6個以上的特征不能夠有意義地提高分類表現(xiàn)[18],這樣選擇6個特征使得CSP與SOCSP結合半監(jiān)督算法的對比更加公平。
圖3 國際10-20導聯(lián)系統(tǒng)的電極分布
比較了靜態(tài)分類(屬于監(jiān)督學習)(Static Classification,STC)和基于SOCSP的自訓練算法(Self-Training based SOCSP,ST-SOCSP)在分類率上的表現(xiàn)。這兩種算法均使用SOCSP提取特征,也均在獨立測試集TS上測試各自的分類率。兩種算法不同之處在于,對于STC,僅僅使用初始訓練集DI訓練FLDA分類器;對于ST-SOCSP,首先利用初始訓練集DI訓練FLDA分類器,然后挑選擴展訓練集DF中80%預測置信度高的樣本,并且迭代地添加這些樣本到初始訓練集中重新訓練分類器。
BCI Iva數(shù)據(jù)集的STC和ST-SOCSP的仿真實驗結果如表1所示。表1比較初始樣本分別為20、40、60、100的時候,各個受試者在STC、ST-SOCSP結束后所獲得的平均預測分類率。為了比較每個受試者獲得分類率的顯著性,表1中列出了具有統(tǒng)計學意義的p值(在表1中表現(xiàn)為p1)。當p值小于0.05時說明對比具有顯著性意義。從表1中可以清楚地看到在初始樣本分別為20、40、60、100的情況下,大多數(shù)受試者的ST-SOCSP的分類率比STC有很大的提升,這意味著半監(jiān)督學習可以通過標記相同數(shù)量的樣本達到比靜態(tài)學習更好的分類率。從表1中,也觀察到隨著未標記樣本的加入,其他受試者的ST-SOCSP分類率是高于STC的,但被試3的表現(xiàn)卻不同,這可能是因為初始分類器的分類性能太差,導致不能在置信度評估準則的幫助下從擴展訓練集中選擇到置信度高的樣本來提高自身的表現(xiàn),反而給分類器的訓練引入了噪聲,隨著迭代增加造成噪聲的積累,使得被試3的ST-SOCSP分類率低于STC。除此以外,從表1中的p1值可以觀察到,對大多數(shù)受試者來說,ST-SOCSP相比STC分類率是有顯著性提高的。
表1 不同初始樣本下STC和ST-SOCSP平均分類率
比較了三種特征提取方法結合半監(jiān)督算法得出的分類率。這三種特征提取算法分別是CSP、FBCSP和提出的SOCSP算法。稱這三種結合自訓練的算法為ST-CSP、ST-FBCSP、ST-SOCSP,將這200個訓練樣本隨機排序,這三種算法分別進行了30次訓練,獨立訓練集TS用來測試分類器的性能。三種算法的訓練過程同樣也使用了置信度評估準則。
表2比較了在初始樣本分別是20、40、60、100的情況下,30次訓練后,各個受試者在ST-CSP、ST-FBCSP、ST-SOCSP這三種算法上的平均分類率。從表2中可以看出,無論初始樣本是多少,對大多數(shù)受試者來說,ST-SOCSP比ST-FBCSP和ST-CSP能夠獲得更好的分類率,這充分證明了SOCSP特征提取算法的有效性。表2中也列出了具有統(tǒng)計學意義的p值、p2和p3分別表示ST-SOCSP和ST-CSP、ST-SOCSP和ST-FBCSP對比得出的p值,可以看出,對大多數(shù)受試者來說,ST-SOCSP相比ST-CSP和ST-FBCSP是有顯著性提高的。
另外,對ST-FBCSP,初始樣本為20和40的時候,除被試1(初始樣本40)外,其他受試者在ST-FBCSP上獲得的分類率比不上ST-CSP。但當初始樣本達到60、100時,ST-FBCSP和ST-CSP分類率相差不大。在表3中報告了初始樣本為200(訓練樣本只有200個,這種情況等同于監(jiān)督算法)時,CSP、FBCSP、SOCSP作為特征提取方法,通過監(jiān)督方法訓練出FLDA分類器,在獨立測試集上獲得的平均分類率??梢园l(fā)現(xiàn),當訓練集樣本的個數(shù)達到200個時,F(xiàn)BCSP作為特征提取方法獲得的分類率是高于CSP的,但依然趕不上SOCSP。這說明了FBCSP這種方法對初始分類器是比較敏感的。樣本越多,訓練出的初始分類器越好,F(xiàn)BCSP的表現(xiàn)越好。從表2中也能發(fā)現(xiàn),對ST-SOCSP來說,隨著初始訓練樣本的增加,每個受試者的分類率是在逐步增加的,對STCSP和ST-FBSOCSP也有相同的規(guī)律。這說明了初始樣本的數(shù)量決定了初始分類器的好壞,初始分類器的表現(xiàn)決定了能否從未標記樣本中選擇置信度高的樣本來進一步改善分類器的表現(xiàn)。
表2 不同初始樣本下ST-CSP、ST-FBCSP、ST-SOCSP的平均分類率
表3 初始樣本為200時三種特征提取方法下的分類率%
眾所周知,在運動想象BCI的實驗中,收集運動想象EEG是一個枯噪和疲憊的過程,訓練花費時間越少,越能減少令人感到枯噪和疲憊的訓練時間。表4報告了在不同初始樣本的情況下,執(zhí)行ST-CSP、ST-FBCSP、ST-SOCSP所使用的平均時間。注意這里報告的時間是30次訓練所使用的平均時間。可以發(fā)現(xiàn),無論初始訓練樣本多還是少,對各個受試者來說,ST-CSP所花費的時間是最少的,其次是ST-SOCSP,花費時間最多的是ST-FBCSP。對ST-SOCSP來說,雖然花費的時間超過了ST-CSP,但從表1可以看出,ST-SOCSP獲得的分類率是遠遠高于ST-CSP的。但對ST-FBCSP來說,雖然展示了初始樣本達到60,100時,它的分類率勉強能夠與STCSP持平,但是花費的時間卻大大高于ST-CSP。
表4 不同初始樣本下ST-CSP、ST-FBCSP、ST-SOCSP的平均花費時間 s
為了說明ST-SOCSP在置信度評估準則上的有效性,表5也比較了在不同初始樣本情況下(20、40、60、100)使用置信度評估準則的ST-SOCSP與沒有使用置信度評估準則的ST-SOCSP的表現(xiàn)。未使用置信度評估準則的ST-SOCSP算法每次迭代都是隨機從未標記樣本中選擇80%的樣本,而使用置信度評估準則STSOCSP算法每次迭代都是使用置信度評估準則從未標記樣本中選擇80%的樣本。顯而易見,不論初始樣本的尺寸,對大多數(shù)受試者來說使用置信度評估準則的STSOCSP算法的表現(xiàn)是好于未使用置信度評估準則的ST-SOCSP算法。這是因為隨機選擇樣本會導致選擇未標記樣本池中表現(xiàn)不好(置信度低)的樣本,這些樣本會破壞算法的性能。實驗結果證明了提出的置信度評估準則在提高分類率上的有效性。從表5的p4值可以看出,對大多數(shù)受試者來說,使用置信度評估準則的STSOCSP算法相比未使用置信度評估準則的ST-SOCSP算法是有顯著性提高的。
表5 置信度評估準則對ST-SOCSP平均分類率的影響
本文提出了一種基于SOCSP的自訓練算法(STSOCSP),創(chuàng)新點如下:提出了一種置信度評估準則,使用FLDA得出的判別分數(shù)來選擇置信度高的樣本,提出與某類中心(mean1或mean2)有最小距離的同類預測未標記樣本有著更高的置信度。提出了一種先進的特征提取算法SOCSP,并將其結合到自訓練中獲得的更好的分類效果。將ST-SOCSP算法應用到2005 BCI競賽的數(shù)據(jù)集Iva的五個受試者上,ST-SOCSP的表現(xiàn)是超過了ST-FBCSP和ST-CSP,而花費的時間只是略高于ST-CSP,但分類率遠遠高于ST-CSP。其次,使用置信度評估準則的ST-SOCSP也比未使用置信度評估準則的ST-SOCSP獲得更高的分類率。這都充分證明了SOCSP特征提取算法和置信度評估準則的有效性,更是證明了提出的ST-SOCSP算法的有效性。