周 宇,栗 覓,呂勝富
(1.北京工業(yè)大學(xué) 電子信息與控制工程學(xué)院,北京100124;2.遼寧石油化工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,遼寧 撫順113001;3.磁共振成像腦信息學(xué)北京市重點(diǎn)實(shí)驗(yàn)室,北京100053)
大腦狀態(tài)識(shí)別研究領(lǐng)域中,關(guān)于情感模型[1]、人臉表情識(shí)別[2,3]、語(yǔ)音信號(hào)情感識(shí)別[4-6]、情感仿生代理[7]等情感識(shí)別的研究較多,而涉及人類(lèi)工作狀態(tài)識(shí)別的研究較少。信息獲取和信息加工狀態(tài)屬于工作狀態(tài)中的2種基本腦功能狀態(tài),研究其識(shí)別問(wèn)題對(duì)工作狀態(tài)識(shí)別的研究具有一定幫助。
先前研究表明,不同的眼球運(yùn)動(dòng)狀態(tài)表示人們?cè)陂喿x時(shí)不同的視覺(jué)行為,這種不同的視覺(jué)行為反映了大腦處于不同的工作狀態(tài)或思維狀態(tài)[8-11]。人腦在信息加工時(shí),首先從外界獲取信息,然后進(jìn)行信息整合處理。由于在獲取外部視覺(jué)信息和整合加工信息時(shí)的腦工作狀態(tài)不同,對(duì)應(yīng)的眼動(dòng)模式或許存在差異。統(tǒng)計(jì)圖是人們?nèi)粘I钍种匾男畔⑤d體,統(tǒng)計(jì)圖閱讀過(guò)程中涉及多種大腦信息處理過(guò)程,其中最基本的信息處理包括信息獲取 (值的提取)和信息加工 (關(guān)系比較)。本文研究基于眼動(dòng)信號(hào)對(duì)以上2種信息處理過(guò)程進(jìn)行識(shí)別的方法。通過(guò)分析信息獲取和信息加工的眼動(dòng)模式和瞳孔直徑、眼跳距離、注視次數(shù)等眼動(dòng)數(shù)據(jù),使用SVM 分類(lèi)器研究這2種信息處理過(guò)程的大腦狀態(tài)識(shí)別問(wèn)題。
我們使用柱狀統(tǒng)計(jì)圖作為研究對(duì)象,分析和識(shí)別人們?cè)陂喿x統(tǒng)計(jì)圖時(shí)的信息獲取和信息整合的眼動(dòng)模式以及對(duì)應(yīng)的大腦狀態(tài)。統(tǒng)計(jì)圖的理解過(guò)程中,主要包括2個(gè)基本的信息處理過(guò)程:①信息獲取,即從統(tǒng)計(jì)圖中提取統(tǒng)計(jì)信息,也稱(chēng)為值提取,其過(guò)程為:從統(tǒng)計(jì)圖中的橫軸獲得項(xiàng)目名稱(chēng),從縱軸中獲得對(duì)應(yīng)的統(tǒng)計(jì)值信息;②信息加工,即按照統(tǒng)計(jì)值的大小比較各個(gè)統(tǒng)計(jì)項(xiàng)目的大小,也稱(chēng)為關(guān)系比較。在一個(gè)統(tǒng)計(jì)圖的理解過(guò)程中,這2個(gè)信息處理過(guò)程是交叉的,為了分析和識(shí)別值提取和關(guān)系比較的眼動(dòng)模式的差異,我們分別設(shè)計(jì)了值提取和關(guān)系比較的統(tǒng)計(jì)圖材料,如圖1所示。值提取統(tǒng)計(jì)圖中只有一個(gè)項(xiàng)目,被試在閱讀的時(shí)候能夠迅速獲取該項(xiàng)目的值;關(guān)系比較統(tǒng)計(jì)圖中有2個(gè)項(xiàng)目,被試在閱讀的時(shí)候能夠迅速比較出兩者之間的關(guān)系。在每張統(tǒng)計(jì)圖中,選用26個(gè)大寫(xiě)英文字母作為統(tǒng)計(jì)圖中的項(xiàng)目名。每類(lèi)圖片的數(shù)量為120 張,所有圖片的灰度、分辨率均相同,圖片尺寸均為300×300像素。
圖1 實(shí)驗(yàn)中的材料實(shí)例
24名大學(xué)生和研究生 (其中10 名女性,14 名男性,年齡25±2 歲)參加了本實(shí)驗(yàn)。所有參加者均為右利手,視力正?;蛐U笳!1狙芯渴褂玫脑O(shè)備是Tobii T120眼動(dòng)儀,眼動(dòng)信號(hào)的采樣頻率為120 Hz。實(shí)驗(yàn)材料呈現(xiàn)在分辨率為1024×768像素的17寸顯示器上,刷新頻率為60 Hz。參加者與屏幕之間的距離約為60 ms。實(shí)驗(yàn)過(guò)程為:首先呈現(xiàn)一張圖片,1s后消失。然后,呈視另一張圖片,要求被試判斷該圖片信息與前一張是否一致。判斷結(jié)束后,呈視2s的黑屏,隨后進(jìn)行下一個(gè)任務(wù)。2類(lèi)任務(wù)是有區(qū)別的,對(duì)于統(tǒng)計(jì)圖值提取任務(wù),要求判斷二者所表達(dá)的統(tǒng)計(jì)信息是否相同;對(duì)于關(guān)系比較任務(wù),要求判斷二者的大小關(guān)系是否一致。眼動(dòng)儀將全程記錄眼睛的注視位置及其它眼動(dòng)信息。
3名參加者的數(shù)據(jù)記錄由于不完整而被剔除,因此,本研究使用了21 名參加者的數(shù)據(jù)。每名參加者共觀看了240張圖片,共采集到5040個(gè)注視任務(wù)的眼動(dòng)數(shù)據(jù),其中值提取任務(wù)和關(guān)系比較任務(wù)各占一半。剔除了極端數(shù)據(jù)(超過(guò)3倍標(biāo)準(zhǔn)差的數(shù)據(jù),共剔除了9%)后,使用4585個(gè)任務(wù)的數(shù)據(jù) (其中2280個(gè)值提取任務(wù),2305個(gè)關(guān)系比較任務(wù))進(jìn)行分析。圖2給出了實(shí)驗(yàn)所記錄的值提取和關(guān)系比較任務(wù)的注視位置分布 (21名參試者)。
圖2 眼動(dòng)模式
圖2中的輪廓線表明了注視點(diǎn)的主要分布范圍。通過(guò)觀察可知,值提取任務(wù)的注視點(diǎn)主要分布在柱狀圖、橫軸和坐標(biāo)軸的縱軸上 (如圖2 (a)所示),而關(guān)系比較任務(wù)的注視點(diǎn)主要分布在柱狀圖和橫軸上 (如圖2 (b)所示)。2類(lèi)任務(wù)注視點(diǎn)分布情況表明,值提取和關(guān)系比較2種信息處理過(guò)程具有不同的眼動(dòng)模式。
由實(shí)驗(yàn)采集的眼動(dòng)數(shù)據(jù)可以獲取多種眼動(dòng)特征,其中較為常用的有瞳孔直徑 (pupil diameter,PD)、眼跳距離(saccade distance,SD)、注視時(shí)間 (fixation count,F(xiàn)D)、注視次數(shù) (fixation count,F(xiàn)C)。以瞳孔直徑度量的瞳孔大小的變化能夠客觀的反應(yīng)心理活動(dòng),如心理負(fù)荷,以及情感。在注視過(guò)程中,眼睛并非靜止不動(dòng)的,需要在感興趣的區(qū)域之間持續(xù)移動(dòng)來(lái)獲取或加工信息。每次跳轉(zhuǎn)的距離定義為眼跳距離。在2次眼跳之間,眼睛會(huì)處于相對(duì)靜止,即產(chǎn)生了注視點(diǎn)。注視次數(shù)是對(duì)注視點(diǎn)個(gè)數(shù)的統(tǒng)計(jì)。注視時(shí)間為眼睛駐留在各個(gè)注視點(diǎn)的時(shí)間。
我們可以使用眼動(dòng)裝置獲得人們?cè)陂喿x一幅統(tǒng)計(jì)圖的過(guò)程中各個(gè)注視點(diǎn)信息,包括每個(gè)注視點(diǎn)的注視點(diǎn)位置、瞳孔直徑、注視時(shí)間。根據(jù)這些注視點(diǎn)信息可以區(qū)分不同的信息加工過(guò)程。特征提取是模式識(shí)別的首要工作,我們使用了整體特征提取和局部特征提取2種方法。整體特征提取是把整個(gè)統(tǒng)計(jì)圖作為研究對(duì)象,統(tǒng)計(jì)注視點(diǎn)特征值;局部特征提取是把統(tǒng)計(jì)圖按照值提取和關(guān)系比較的眼動(dòng)模式的差異劃分為不同的區(qū)域,統(tǒng)計(jì)各個(gè)區(qū)域的注視點(diǎn)特征值。局部特征提取在機(jī)器視覺(jué)等領(lǐng)域有著廣泛的應(yīng)用[12-14],其主要目的是選擇不同模式下差異最大區(qū)域的特征作為分類(lèi)的依據(jù),因此特征提取區(qū)域的選擇將十分關(guān)鍵。在本研究中,區(qū)域的界限是通過(guò)觀察不同信息加工模式下注視點(diǎn)的分布特性來(lái)決定的。在值提取過(guò)程中,注視點(diǎn)主要分布在中間和左側(cè)的坐標(biāo)軸上,而在關(guān)系比較過(guò)程中,注視點(diǎn)主要分布在中間區(qū)域。因此選擇左側(cè)坐標(biāo)軸作為局部特征提取的區(qū)域 (如圖3所示)。局部特征提取時(shí)會(huì)出現(xiàn)眼跳距離特征無(wú)法獲取的情況,因?yàn)檫B續(xù)2個(gè)注視點(diǎn)可能分別處于區(qū)域的內(nèi)部和外部,因此在局部特征提取時(shí)不使用眼跳距離特征。由于注視點(diǎn)分布不同,2 種信息處理模式下在左側(cè)坐標(biāo)軸區(qū)域的注視時(shí)間會(huì)產(chǎn)生差異。因此。本研究所使用的特征值包括整體的平均瞳孔直徑、平均眼跳距離以及注視次數(shù),局部區(qū)域的 (左側(cè)坐標(biāo)軸區(qū)域)平均瞳孔直徑、注視時(shí)間以及注視次數(shù)。
圖3 局部特征提取區(qū)域的劃分
首先對(duì)2種信息處理產(chǎn)生的眼動(dòng)特征進(jìn)行統(tǒng)計(jì)分析,比較其差異性。表1給出了整體特征統(tǒng)計(jì)分析的結(jié)果。表1可以看出,值提取過(guò)程中的平均瞳孔直徑顯著大于關(guān)系比較時(shí)的平均瞳孔直徑 (p<0.05);值提取過(guò)程中的平均眼跳距離顯著大于關(guān)系比較時(shí)的平均眼跳距離 (p<0.000);而注視次數(shù)并無(wú)顯著差異 (p=0.89)。
表1 值提取和關(guān)系比較整體眼動(dòng)特征的統(tǒng)計(jì)分析結(jié)果
表2給出了局部特征統(tǒng)計(jì)分析的結(jié)果。其中,值提取過(guò)程中的平均瞳孔直徑顯著大于關(guān)系比較時(shí)的平均瞳孔直徑 (p<0.001);值提取過(guò)程中的注視時(shí)間顯著大于關(guān)系比較時(shí)的注視時(shí)間 (p<0.001);值提取過(guò)程中的注視點(diǎn)分布顯著多于關(guān)系比較 (p<0.001)。結(jié)合表1的結(jié)果進(jìn)行對(duì)比可知,局部獲取的特征差異性更加顯著。綜合上述分析,統(tǒng)計(jì)圖閱讀中的值提取和關(guān)系比較過(guò)程具有不同的眼動(dòng)模式,為給統(tǒng)計(jì)圖理解過(guò)程中的2種不同的信息處理模式的腦狀態(tài)分類(lèi)提供了依據(jù)。
表2 值提取和關(guān)系比較局部眼動(dòng)特征的統(tǒng)計(jì)分析結(jié)果
我們使用基于RBF 核函數(shù)的SVM 對(duì)眼動(dòng)特征進(jìn)行分類(lèi),識(shí)別統(tǒng)計(jì)圖閱讀時(shí)大腦值提取和關(guān)系比較時(shí)的狀態(tài)差異?;诟鱾€(gè)特征的分類(lèi)結(jié)果如圖4所示。使用整體特征進(jìn)行分類(lèi)時(shí) (如圖4 (a)所示),識(shí)別率過(guò)低。使用局部特征的分類(lèi)結(jié)果相比整體特征有了顯著提高,其中基于瞳孔直徑的分類(lèi)正確率由57.59%提升至68.32%,基于注視次數(shù)的分類(lèi)正確率由53.83%提升至84.75%,使用注視時(shí)間的分類(lèi)正確率達(dá)到了86.55% (如圖4 (b)所示)。
圖4 基于單個(gè)特征的分類(lèi)正確率
基于多種特征的分類(lèi)相比單特征的分類(lèi)具有多種優(yōu)勢(shì),如對(duì)噪音更加穩(wěn)定,可以解決非普遍性問(wèn)題,并可以提高匹配正確率。這里,我們分別把局部的3個(gè)特征 (瞳孔直徑、注視時(shí)間和注視次數(shù))進(jìn)行組合分類(lèi) (3特征組合,3-combined),以及把分類(lèi)正確率較高的注視時(shí)間和注視次數(shù)特征進(jìn)行組合分類(lèi) (2 特征組合,2-combined)。分類(lèi)結(jié)果如圖5所示,無(wú)論是3特征組合還是2特征組合,其分類(lèi)正確率都高于單個(gè)特征的分類(lèi)正確率。2 特征組合的分類(lèi)正確率 (89.05%)相比于3 特征組合的分類(lèi)正確率(89.69%)略低一點(diǎn),加入瞳孔直徑后對(duì)識(shí)別率的提高效果十分有限,這說(shuō)明在使用組合特征進(jìn)行分類(lèi)時(shí),選擇單特征識(shí)別性能較好的特征較為關(guān)鍵。那么在實(shí)際應(yīng)用過(guò)程中,應(yīng)考慮具體的用途選用分類(lèi)特征,如果識(shí)別系統(tǒng)追求速度,那么使用2特征實(shí)現(xiàn)分類(lèi)較為合適;但是在對(duì)識(shí)別準(zhǔn)確率要求較高的場(chǎng)合中,選擇3特征進(jìn)行分類(lèi)較為合適。
圖5 基于組合特征的分類(lèi)正確率
本文研究結(jié)果表明,信息獲取與信息加工2種腦功能狀態(tài)具有不同的眼動(dòng)模式。信息獲取時(shí)需要進(jìn)行全局搜索,注視點(diǎn)的分布呈現(xiàn)出發(fā)散性,而信息加工時(shí)往往僅針對(duì)局部信息,注視點(diǎn)的分布較為集中?;谘蹌?dòng)模式的差異,計(jì)算機(jī)能夠通過(guò)眼動(dòng)信號(hào)識(shí)別人類(lèi)在閱讀時(shí)處于信息獲取狀態(tài)還是信息加工狀態(tài),計(jì)算機(jī)實(shí)現(xiàn)復(fù)雜的腦功能狀態(tài)識(shí)別能夠提供更加智能化的人機(jī)交互應(yīng)用。
[1]Karpouzis K,Caridakis G,Kessous L,et al.Modeling naturalistic affective states via facial,vocal and bodily expressions recognition [M].Artifical Intelligence for Human Computing.Berlin:Springer Berlin Heidelberg,2007:91-112.
[2]Xiao R,Zhao Q,Zhang D,et al.Facial expression recognition on multiple manifolds[J].Pattern Recognition,2011,44(1):107-116.
[3]Shan C,Gong S,McOwan PW.Facial expression recognition based on local binary patterns:A comprehensive study [J].Image and Vision Computing,2009,27 (6):803-816.
[4]Schuller B,Batliner A,Steidl S,et al.Recognising realistic emotions and affect in speech:State of the art and lessons learnt from the first challenge [J].Speech Communication,2011,53 (9):1062-1087.
[5]Batliner A,Steidl S,Schuller B,et al.Whodunnit-searching for the most important feature types signalling emotion-related user states in speech [J].Computer Speech & Language,2011,25 (1):4-28.
[6]Wu D,Parsons TD,Mower E,et al.Speech emotion estimation in 3Dspace[C]//IEEE International Conference on Multimedia and Expo.IEEE,2010:737-742.
[7]Becker-Asano C,Wachsmuth I.Affective computing with primary and secondary emotions in a virtual human [J].Autonomous Agents and Multi-Agent Systems,2010,20 (1):32-49.
[8]Rantanen V,Vanhala T,Tuisku O,et al.A wearable,wireless gaze tracker with integrated selection command source for human-computer interaction [J].IEEE Transactions on Information Technology in Biomedicine,2011,15 (5):795-801.
[9]Bulling A,Ward JA,Gellersen H,et al.Eye movement analysis for activity recognition using electrooculography [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33 (4):741-753.
[10]LI Mi,ZHONG Ning,LV Shengfu.A study about the characteristics of visual search on Web pages [J].Journal of Frontiers of Computer Science and Technology,2009,3 (6):649-655 (in Chinese). [栗覓,鐘寧,呂勝富.Web頁(yè)面信息的視覺(jué)搜索行為特征的研究 [J].計(jì)算機(jī)科學(xué)與探索,2009,3 (6):649-655.]
[11]LI Mi,ZHONG Ning,LV Shengfu.Exploring visual search and browsing strategies on Web pages using the eye-tracking[J].Journal of Beijing University of Technology,2011,37(5):773-779 (in Chinese).[栗覓,鐘寧,呂勝富.Web頁(yè)面視覺(jué)搜索與瀏覽策略的眼動(dòng)研究 [J].北京工業(yè)大學(xué)學(xué)報(bào),2011,37 (5):773-779.]
[10]Huang C,Liu Q,Yu S.Regions of interest extraction from color image based on visual saliency [J].The Journal of Supercomputing,2011,58 (1):20-33.
[11]Tan X,Triggs B.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].IEEE Transactions on Image Processing,2010,19 (6):1635-1650.
[12]Gao S,Tsang IW,Chia LT,et al.Local features are not lonely-Laplacian sparse coding for image classification [C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2010:3555-3561.