王崴,趙敏睿,高虹霓,朱帥,瞿玨,2,*
1. 空軍工程大學(xué) 防空反導(dǎo)學(xué)院,西安 710051 2. 西北工業(yè)大學(xué) 航空學(xué)院,西安 710072
提高飛行器人機交互系統(tǒng)對飛行員的意圖感知和狀態(tài)識別能力是飛行器人機交互智能化的關(guān)鍵目標之一[1],可為自適應(yīng)飛行器人機交互系統(tǒng)設(shè)計提供理論依據(jù)和技術(shù)支持,并減少操作過程中的人為差錯[2]。人機交互意圖指的是用戶在進行計算機系統(tǒng)操作時的目標和期望,傳統(tǒng)人機交互意圖識別方法主要依靠腦電信號或眼動信號。
腦機接口(Brain-Computer Interface, BCI)是腦電信號的應(yīng)用形式,可在人腦與外部設(shè)備建立通信關(guān)系,進而通過大腦控制外部設(shè)備[3-5]。BCI已經(jīng)應(yīng)用在醫(yī)學(xué)[6]、神經(jīng)生物學(xué)[7-8]和心理學(xué)[9-10]等領(lǐng)域。運動想象(Motor Imagery, MI)腦電圖(Electroencephalogram, EEG)具有靈活、非侵入性、環(huán)境要求低和分辨率高的特點,因此MI是BCI廣泛應(yīng)用的形式之一[11]。運動想象過程中EEG信號的頻帶功率會隨MI任務(wù)的內(nèi)容變化,這被稱為事件相關(guān)的同步化和去同步化(Event Related Synchronization/Desynchronization, ERS/ERD)[12],ERS/ERD的產(chǎn)生與內(nèi)部或外部事件相關(guān),當(dāng)人的一側(cè)肢體進行運動或進行運動想象時,大腦對側(cè)的感覺運動區(qū)μ節(jié)律和β節(jié)律能量減少,同側(cè)運動感覺區(qū)μ節(jié)律和β節(jié)律能量增加。這種規(guī)律使得ERS/ERD控制外部設(shè)備或進行運動想象意圖識別成為可能[13]。蔣貴虎等基于固有時間尺度分解和支持向量機(Support Vector Machine, SVM)算法對第3屆BCI競賽的Dataset Ⅲa數(shù)據(jù)集和第4屆BCI競賽的Dataset 2a數(shù)據(jù)集進行了分類,最終分類結(jié)果分別達到94.65%和90.63%[14]。徐寶國等設(shè)計實驗通過MI控制機械臂完成連續(xù)抓取任務(wù),成功率達到85%[11],但這些意圖識別方式都僅依賴腦電信號,沒有融合眼動信號的優(yōu)點,識別準確率有待進一步提高。
研究表明,視覺通道提供給人80%以上的外界信息[15],近年來,有許多學(xué)者依據(jù)人的視覺行為對用戶人機交互意圖進行研究。Deng和Gu利用眼動數(shù)據(jù)分析用戶的行為意圖和情感體驗[16],趙其杰等通過檢測眼睛與頭部動作確定用戶交互意圖,其中注視意圖關(guān)注區(qū)域正確率為92%[17]。此外,眼動追蹤還廣泛應(yīng)用于用戶交互行為分析[18]、用戶視覺搜索分析[19]和視覺刺激興趣分析[20]等領(lǐng)域,這些方法僅依靠眼動信號,沒有融合腦電信號,未能充分利用腦電信號對人腦認知狀態(tài)的分析。
近年來,很多學(xué)者嘗試將多生理信息進行融合,以期提高人的搜索意圖、動作意圖或認知狀態(tài)識別準確率。Park等融合腦電和眼動信號對人在視覺搜索過程中的隱式交互意圖進行識別,發(fā)現(xiàn)融合腦電和眼動信號識別準確率比依靠單一生理信號準確率高5%左右[21]。Postelnicu等融合眼動、腦電和手勢特征對6自由度機械臂進行操控,結(jié)果顯示,可用性量表(System Usability Scale, SUS)分數(shù)高于平均水平[22]。謝平等融合腦電、心電和肌電信號對駕駛疲勞進行評估,結(jié)果表明多生理特征融合識別準確率明顯高于單獨生理信號識別率[23];融合腦電信號與肌電信號對動作模式進行識別,結(jié)果表明,腦肌電融合信號識別正確率為98%,高于單純依靠腦電特征識別的準確率75%[24]。這說明多生理信號融合可提高對人認知和意圖的識別準確率,但上述研究未涉及人機交互意圖識別。
綜上,本文提出了基于腦電、眼動信號特征融合并引入決策層融合的人機交互意圖識別方法,可在用戶進行人機交互時進行意圖識別。具體實現(xiàn)過程為:采集用戶腦電和眼動信號進行特征提??;采用模式識別算法對生理信號特征進行分類識別;對分類器分類算法進行決策級融合得到最終結(jié)果,設(shè)計用戶意圖誘發(fā)實驗,驗證方法可行性。本文還比較了不同腦電特征提取方法和不同機器學(xué)習(xí)算法對識別準確率的影響。
1.1.1 基于小波變換的腦電信號特征提取
小波變換(Wavelet Transform, WT)采用聯(lián)合時間-尺度對原始信號進行分析,通過隨機改變頻率窗和時間窗同時獲得較好的時間分辨率和頻率分辨率,適用于處理非平穩(wěn)信號,如腦電信號。
現(xiàn)有研究表明,運動想象的ERS/ERD特征主要出現(xiàn)在α波、β波和γ波3個波段,因此這3個頻段的腦電波被廣泛應(yīng)用于運動想象評估。本文擬通過提取小波能量系數(shù)和小波熵作為腦電信號特征。
本文選用Daubechies 4小波基函數(shù)對采樣頻率為128 Hz的腦電信號s(t)進行3層離散小波變換,s(t)的離散小波變換定義為
〈s(t),φj,k〉j,k∈Z
(1)
(2)
式中:l′為小波分解層數(shù);Al′為低頻分量;Dj為不同頻率下的細節(jié)分量,具體頻帶范圍如表1所示。
表1 各子帶信號對應(yīng)頻率范圍Table 1 Frequency range of sub-band signals
各子帶對應(yīng)近似系數(shù)cAl′,小波系數(shù)cDj。單一尺度下小波能量Ei定義為該尺度下小波系數(shù)的平方,因此,總小波能量的定義為
(3)
(4)
小波熵可反映原信號在不同空間分布的有序程度,因此可用于定量描述原信號在時域上的能量分布特征。
1.1.2 基于共空域模式的腦電信號特征提取
共空域模式(Common Spatial Patterns, CSP)算法在基于ERS/ERD的腦電信號分析中被證明十分有效,但CSP模式算法是針對二分類問題提出的,因此針對多分類問題,需要對CSP算法進行改進,對任意2類進行一一比較。CSP通過對原始信號進行空間投影,找到最佳投影方向,滿足第1類信號在某方向方差最大,第2類信號方差最小,得到2類差別最大的投影方向。
設(shè)E為去除直流成分處理后的腦電信號矩陣,維數(shù)為N×T,其中N為腦電數(shù)據(jù)通道數(shù)目,T為每個通道的采樣點數(shù)。則腦電數(shù)據(jù)的平均協(xié)方差矩陣為
(5)
式中:trace(EET)為矩陣EET的跡。平均協(xié)方差矩陣之和為
Cc=C1+C2
(6)
對Cc采用特征值分解,有
(7)
I=PCcPT
(8)
式中:I為單位矩陣。對C1、C2進行變換,有
Si=PCiPTi∈{1,2}
(9)
式中:S1、S2有相同的特征向量,且對應(yīng)的特征值和為1,換言之,在S1最大特征值的方向上,S2特征值取得最??;反之,在S1最小特征值的方向上,S2特征值達到最大。
若
S1=Bλ1BT
(10)
則有
(11)
投影矩陣W為
W=BTP
(12)
式中:B為任意與λi(i∈{1,2})乘法相容的矩陣。可以看出,W為N×N階矩陣,原始信號E通過投影,得到新信號
Z=WE
(13)
選取經(jīng)過W投影的信號前n行和后n行共2n行新信號進行如下變化,得到最終特征值:
(14)
式中:Zj為矩陣Z的第j行;var(Zj)為Zj的方差。
對3類信號中每2類都采用CSP進行處理,可得3個投影矩陣W,對每個矩陣W前后各選取4個最佳方向,共8個最佳方向,可得3×8=24維特征向量。然后采用Fisher判別法進行降維,可將24維特征向量降為3維特征向量。此處最佳方向的選取數(shù)量和降維后特征向量的維數(shù)選取是依據(jù)反復(fù)實驗確定的,選取了分類效果最好的參數(shù)。最后,采用貝葉斯分類器,根據(jù)先驗概率思想對降維后的特征進行分類:
(15)
式中:P(yi)為標簽為i的數(shù)據(jù)先驗概率;P(yi|f)為特征為f的樣本屬于第i類的后驗概率;P(f|yi)為第i類樣本產(chǎn)生特征f的似然比。分類結(jié)果為后驗概率最大的i;C為數(shù)據(jù)類型總數(shù)。
本文采用RED-M型眼動儀采集眼動數(shù)據(jù),采樣頻率可達60 Hz。眼動特征可以反映用戶的眼動行為。本文中采集了注視點X坐標(Fixation pointXcoordinate,FX)、注視點Y坐標(Fixation pointYcoordinate,FY)、瞳孔直徑(Pupil Diameter, PD)、注視時間(Fixation Time, FT)和眼跳幅度(Saccade Amplitude, SA)5個生理特征進行分析。由于眼動指標反映的認知狀態(tài)并不完全確定,因此,本文所提到的眼動指標和認知狀態(tài)的關(guān)系僅對類似實驗環(huán)境和實驗任務(wù)有效。
FX和FY表征用戶在進行人機交互時的注視點X方向和Y方向的坐標,可以反映用戶在屏幕上的注視點位置[24]。
PD可作為反映用戶實時認知負荷的指標之一,當(dāng)認知負荷增大時,瞳孔直徑增大;反之,瞳孔直徑減小,因此該指標可反映用戶認知狀態(tài)[25]。
FT可反映用戶對視覺信息處理的難易程度,當(dāng)用戶面對復(fù)雜信息時,處理時間會加長[26],因此該指標可反映用戶的認知狀態(tài)。
SA通常反映為注視點之間跳動幅度,可反映用戶對視覺信息的難易程度,當(dāng)用戶對視覺信息進行粗加工時,眼跳幅度較大;反之,當(dāng)用戶對視覺信息進行精加工時,則眼跳幅度較小[27-28],因此可以反映用戶的認知狀態(tài)。
SVM分類算法是一種基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)分類算法,與普通尋優(yōu)算法追求經(jīng)驗風(fēng)險最小不同,SVM算法通過追求結(jié)構(gòu)化風(fēng)險最小提高了算法的泛化能力,最小化經(jīng)驗風(fēng)險和置信范圍,較好地解決了小樣本條件下模式識別算法中的過學(xué)習(xí)、模型選擇、維數(shù)災(zāi)難和非線性問題。該算法的基本思想是找到使2類之間分類間隔最大的最優(yōu)分類平面。
設(shè)樣本集為
D={(x1,y1),(x2,y2),…,(xl,yl)}
xi∈R,yi∈{+1,-1}
(16)
式中:l為樣本數(shù)目。則分類平面為n維超平面,可表示為
〈w,x〉+b=0
w∈Rn,b∈R,x=[x1x2…xl]
(17)
則分類間隔為2/‖w‖,顯然,‖w‖取最小值時,分類間隔達到最大。因此,求最大分類間隔可轉(zhuǎn)化為求如下的約束優(yōu)化問題
(18)
當(dāng)問題線性可分時,解向量w*即支持向量,SVM的分類功能由支持向量決定。支持向量機即描述最優(yōu)分類超平面的決策函數(shù),可表示為
f(x)=sgn(〈w*,x〉+b)
(19)
當(dāng)問題線性不可分時,通常采用將樣本非線性變換投影到高維空間的方法,使樣本在這個高維特征空間可分,根據(jù)Mercer條件,此時決策函數(shù)為
(20)
式中:K1(x,xi)為核函數(shù);αi為拉式乘子。
D-S證據(jù)理論是Dempster提出,由Shafer完善的一種不精確推理方法,可用于處理不確定信息,且需要的條件比貝葉斯概率論更弱。該理論不但能處理由不精確先驗知識產(chǎn)生的不確定性,而且可以處理由不知道產(chǎn)生的不確定性。
設(shè)Θ為識別框架,m為區(qū)間[0,1]上的可信度分配函數(shù),也稱Mass函數(shù),表示證據(jù)支持事件A發(fā)生的程度。m(?)=0,且滿足
(21)
對于?{A,B,C}?Θ,根據(jù)Dempster合成規(guī)則,Θ上任意2個Mass函數(shù)m1、m2的合成方法為
(22)
(23)
對于?A?Θ,根據(jù)Dempster合成規(guī)則,Θ上任意有限個Mass函數(shù)m1,m2,…,mn的合成方法為
m(A)=(m1⊕m2⊕…⊕mn)(A)=
(24)
(25)
決策級融合的流程如圖1所示,首先對采集到的生理信號進行預(yù)處理和特征提取,得到對應(yīng)生理信號的特征向量,然后對腦電和眼動信號特征向量分別采用分類器進行分類,最后將各分類器分類結(jié)果采用D-S證據(jù)理論進行融合,得到?jīng)Q策層融合結(jié)果。
圖1 基于SVM-DS理論的決策級人機交互意圖識別原理圖Fig.1 Diagram of decision-level human-computer interaction intention recognition based on SVM-DS theory
假設(shè)A1,A2,…,Ak為k種認知意圖,通過n類生理信號進行了分類,則識別框架為
Θ={A1,A2,…,Ak}
(26)
每一種生理信號特征的識別算法對各類型意圖可信度分配函數(shù)為
mi(A1,A2,…,Ak,Θ)=
(piqi1,piqi2,…,piqik,1-pi)
i=1,2,…,n;j=1,2,…,k
(27)
式中:pi為第i種生理特征識別算法正確率;qij為第i種生理特征識別判定樣本為第j種認知意圖的可信度。
對于識別框架Θ中任意認知意圖Aj,采用多生理特征分類結(jié)果的Dempster決策規(guī)則為
m(Aj)=(m1⊕m2⊕…⊕mn)(Aj)
j=1,2,…,k
(28)
由式(27)、式(28)和式(23)可得
(29)
(30)
式中:算法正確率pi通??扇∮?xùn)練集樣本正確率,采用D-S決策級融合交互意圖判別方法不僅可以輸出未知樣本的類別,還可以輸出樣本屬于每一類的概率。D-S證據(jù)理論中可信度分配賦值問題通過機器學(xué)習(xí)算法訓(xùn)練得到的總體分類正確率得到了有效直觀的解決。
為驗證所提出的人機交互意圖識別方法的科學(xué)性和有效性,需要采集用戶在進行人機交互時的腦電和眼動數(shù)據(jù)。本文招募男性用戶22人(其中2人因數(shù)據(jù)采集率低于50%不能作為有效受試者),年齡范圍為18~22歲(均值M=22.3,標準差SD=1.8)。在實驗前每位用戶都熟悉了實驗流程和注意事項并簽署了知情同意書。
實驗環(huán)境如圖2所示,實驗中保持窗簾關(guān)閉,每次實驗只允許實驗用戶和操作人員進入并關(guān)閉其他電子設(shè)備,以消除光線變化和其他電磁信號的干擾。實驗設(shè)備包括DELL計算機、RED-M型眼動試驗儀(SMI Company, Berlin, Germany)和Neuroscan NuAmps 32導(dǎo)腦電儀(Synamps2, Scan4.3, EI Paso, USA)。眼動信號采樣頻率為60 Hz;顯示器分辨率為1 280 pixel×1 024 pixel, 屏幕亮度為300 cd/m2;被試用戶與屏幕距離大約60 cm,被試用戶雙眼與屏幕中心大致處于同一高度。腦電儀電極分布采用10-20國際標準導(dǎo)聯(lián)系統(tǒng),選取左側(cè)乳突為參考電極,中前額葉為接地電極,采集垂直和水平2個通道眼電信號,采樣頻率為250 Hz,進行50 Hz陷波和0.05~10 Hz在線帶通濾波,并確保電極阻抗小于5 kΩ,采集信號后對肌電和眼電偽跡進行剔除,電極具體位置如圖3所示。
本文采用經(jīng)典運動想象實驗范式,如圖4所示,操作想象開始前屏幕呈現(xiàn)“放松”字樣,持續(xù)2 s,被試用戶放松心情準備開始;隨后屏幕呈現(xiàn)“準備”字樣,持續(xù)1 s,提示用戶準備開始操作想象;接下來,屏幕呈現(xiàn)操作界面,實驗界面如圖5所示,用戶操作包括“向左移動”“向右移動”和“發(fā)射導(dǎo)彈”,需要進行用戶操作想象時圖標會轉(zhuǎn)變?yōu)辄S色,用戶根據(jù)提示的不同進行不同的操作想象。每次操作想象總時間為9 s。
圖2 實驗環(huán)境Fig.2 Experimental environment
圖3 電極位置Fig.3 Physical location of electrodes
圖4 運動想象實驗范式Fig.4 Experimental paradigm of motor imagery
圖5 運動想象實驗界面Fig.5 Experimental interface of motor imagery
在3.1節(jié)的實驗中,本文采集了注視點X坐標(FX)、注視點Y坐標(FY)、瞳孔直徑(PD)、注視時間(FT)和眼跳幅度(SA)5項眼動參數(shù),將FX與FY合成一類特征,作為注視點位置特征。將提取到的被試用戶4類眼動特征作為算法分類依據(jù),將20名受試對象的眼動數(shù)據(jù)進行預(yù)處理和特征提取后60%作為訓(xùn)練集,40%作為測試集,用SVM算法進行操作想象分類,分類準確率如表2所示。從表2中可以看出,眼動指標數(shù)目越多,識別準確率越高,且注視點位置特征對準確率影響更大。這說明注視點位置特征可較好反映用戶的意圖,但由于實驗中注視點不穩(wěn)定,因此需要結(jié)合其他眼動特征提高識別可靠性。本文選取的5項眼動特征對認知意圖實驗的準確率可達87.42%, 說明眼動指標的選取是有效的。
為了探究不同機器學(xué)習(xí)方法和數(shù)據(jù)預(yù)處理方法對人機交互意圖識別的影響,本文選取SVM、WT+SVM、CSP+SVM、CSP+Fisher這4種方法對20名受試者腦電數(shù)據(jù)集進行識別,60%作為訓(xùn)練集,40%作為測試集,最終得到每名受試者識別準確率如圖6所示,圖中縱坐標為腦電數(shù)據(jù)處理方法,橫坐標為分類準確率(Accuracy, ACC),P1~P20為受試者編號。可見對于不同受試者,算法識別的準確率與標準差略有不同。識別算法的識別結(jié)果如表3所示,CSP+SVM算法識別準確率顯著高于另外3種算法(假設(shè)檢驗顯著性水平P<0.05),且這種方法的標準差最小,說明該算法的敏感性低,泛化能力強,適合對腦電數(shù)據(jù)進行處理。表3中前2~4列為采用SVM算法對腦電的分類結(jié)果,從識別準確率看,同樣采用SVM算法的條件下,采用WT方法和采用CSP方法平均識別準確率均顯著高于不采用特征提取方法的平均準確率(方差分析F(2,57)=18.35,P=0.000 3<0.05)。表3中后2列為同樣采用CSP特征提取方法對腦電數(shù)據(jù)的識別結(jié)果,從識別準確率看,SVM算法的識別準確率顯著高于Fisher算法識別準確率(F(1,39)=9.016,P=0.004 7<0.05)。
表2 不同特征組合下的眼動分類預(yù)測準確率
圖6 不同受試者識別準確率Fig.6 Recognition accuracy of different participants
表3 不同腦電處理方法下的平均分類預(yù)測準確率
本文對于腦電數(shù)據(jù)采用CSP+SVM方法進行預(yù)處理后對SVM算法進行訓(xùn)練,對于眼動數(shù)據(jù)進行特征提取,選取注視點位置(FX&FY)、瞳孔直徑(PD)、注視時間(FT)和眼跳幅度(SA)4類眼動特征采用SVM算法進行訓(xùn)練,采用交叉對比法確定SVM算法參數(shù),訓(xùn)練集識別結(jié)果見表4。
由D-S理論,本實驗中3種認知意圖構(gòu)成一個識別框架Θ={左移,右移,發(fā)射導(dǎo)彈},采用表4中20名受試者樣本平均值作為識別準確率,則有{p1,p2}={0.874,0.770},眼動和腦電識別方法由不知道而產(chǎn)生的不確定性為{m1(Θ),m2(Θ)}={0.126,0.230}。將與訓(xùn)練樣本對應(yīng)的測試樣本分別進行SVM算法單獨分類和基于D-S理論的決策級融合分類,識別結(jié)果如表5所示。
實驗結(jié)果表明,測試樣本識別率較訓(xùn)練樣本有所下降,但降幅不大,眼動數(shù)據(jù)準確率下降0.99%, 腦電數(shù)據(jù)識別準確率下降0.72%,這表明SVM算法具有較強的泛化能力。比較眼動與腦電數(shù)據(jù)識別準確率,發(fā)現(xiàn)眼動數(shù)據(jù)識別準確率顯著高于腦電數(shù)據(jù)識別準確率(P<0.005),說明眼動數(shù)據(jù)對人機交互意圖識別準確率高于腦電數(shù)據(jù)?;贒-S證據(jù)理論對數(shù)據(jù)進行決策級融合后識別準確率最高可達96.03%,平均識別準確率可達92.34%, 高于僅依靠眼動或腦電數(shù)據(jù)的識別準確率,且數(shù)據(jù)識別準確率標準差僅為1.82, 表明基于D-S理論的數(shù)據(jù)融合方法對樣本敏感性低,泛化能力強,驗證了D-S理論在多生理信息的意圖識別方面有優(yōu)勢,從圖6和圖7中也可看出基于D-S證據(jù)理論的決策級融合方法具有準確率高、對樣本敏感性低、泛化能力強的特點,可用于下一步飛行器和武器系統(tǒng)人機交互系統(tǒng)自適應(yīng)設(shè)計。
表4 訓(xùn)練集腦電和眼動數(shù)據(jù)識別準確率
表5 基于D-S理論的分類識別準確率
圖7 不同腦電處理方法識別準確率Fig.7 Recognition accuracy of different EEG processing methods
1) 采用眼動信號特征越多,識別準確率越高,采用(FX&FY)&瞳孔直徑&注視時間&眼跳幅度組合的人機交互意圖識別準確率可達87.42%。
2) 4種腦電特征提取方法中,CSP+SVM方法識別人機交互意圖準確率最高,平均準確率可達76.81%。
3) 提出了基于D-S證據(jù)理論的腦電眼動信息融合人機交互意圖識別方法,能夠識別用戶的人機交互意圖,平均準確率可達92.34%?;贒-S證據(jù)理論的腦電眼動信息融合人機交互意圖識別方法具有準確率高、泛化能力強的特點。
[21] PARK U, MALLIPEDDI R, LEE M, et al. Human implicit intent discrimination using EEG and eye movement[C]∥ International Conference on Neural Information Processing, 2014: 11-18.