董衛(wèi)華,王圣凱,王雪元,楊天宇
1. 北京師范大學地理科學學部,北京 100875; 2. 北京師范大學地理空間認知與可視分析實驗室,北京 100875
近年來,眼動追蹤技術在地圖學領域得到了廣泛發(fā)展[1],并應用于用戶行為分析[2-3]、人機交互[4-5]、產(chǎn)品可用性評價等方面[6-7]。地圖在提高人的空間認知效果方面具有顯著作用[8],但當前地圖信息傳輸模式在一定程度上限制了人的空間感知與認知[9]。研究發(fā)現(xiàn),地圖信息的傳輸效率依賴于人腦信息處理效率和視覺注意的認知能力[10-12]。相比于傳統(tǒng)信息傳輸設備,眼動交互被認為是更自然、更直接的交互手段[13]。已有研究通過眼動追蹤技術探究了用戶閱讀不同類型地圖時的讀圖行為以及信息搜索與加工過程[14-15]。如何自動識別用戶閱讀地圖要素的眼動行為,對于提高用戶地圖交互、信息搜索的效率,具有重要應用價值。
現(xiàn)有地圖要素眼動識別研究主要以視點位置直接對地圖要素進行匹配。文獻[16]提出了一種基于馬爾可夫的視點-地圖要素匹配的算法。該研究主要針對路網(wǎng)圖進行視點與路線矢量要素的匹配問題,在算法層面上對眼動數(shù)據(jù)與實際觀看的地圖要素的匹配進行了探究。文獻[17]建立了一個城市旅行規(guī)劃系統(tǒng)——iTourist。系統(tǒng)以某地的地圖和一些圖片作為交互刺激材料,通過對用戶的視點進行興趣得分建模,當?shù)梅诌_到某一閾值時激活該目標。但是,采用視點位置進行匹配時,準確率較低,尤其對線狀要素的提取效果較差。
研究表明,用戶地圖讀圖行為受地圖類型和讀圖任務的影響較大[18],基于用戶對地圖的認知特征以及要素閱讀行為構建模型有助于提高地圖要素識別準確率。此外,眼動視覺行為識別算法的效率也是目前的研究難點。文獻[3]通過支持向量機(support vector machine,SVM)利用眼動數(shù)據(jù)識別用戶讀圖行為,包括自由查看、搜索、路線規(guī)劃、中心搜索、路線追隨和多邊形比較,算法平均識別準確率為77.7%。但該算法涉及了大量的特征參數(shù),效率較低。文獻[19]關于某文檔編輯軟件使用的日常行為識別中采用機器學習的方法識別出書寫、閱讀和復制等操作行為,識別準確率在62%~83%。該算法采用了特征選擇處理,提高了模型效率。因此,需要結合用戶視覺行為特征,同時進行特征選擇,降低特征冗余度,以提高模型效率。
線狀要素作為狹長的空間實體,其閱讀行為識別相較與點要素和面要素具有特殊性,無法通過空間位置定位和面積占優(yōu)的方法進行有效識別。線狀要素閱讀行為較為復雜,包括起點終點搜索、流線跟蹤、要素對比等[15]。因此,本文擬圍繞對線狀要素閱讀行為的眼動識別,通過設計眼動追蹤試驗,采集用戶地圖讀圖過程中的視覺行為數(shù)據(jù),基于樸素貝葉斯分類器(naive Bayesian classifier,NBC)的機器學習方法,實現(xiàn)眼控交互過程中地圖線狀要素閱讀行為識別算法,最后對算法的效率和準確率進行評估。
試驗分為試驗準備、眼動試驗、眼動數(shù)據(jù)獲取、數(shù)據(jù)分析、特征提取和結論6個部分。
(1) 試驗準備階段,根據(jù)試驗目的,分別選取30幅以線條為主的線型地圖和30幅普通地圖。為確保眼動試驗的可靠性,對被試者進行合理選取,樣本容量足夠大。被試者選取應考慮的因素:年齡、性別、專業(yè)分布,是否色盲、近視或遠視。
(2) 眼動試驗階段,保證試驗環(huán)境的穩(wěn)定性,被試者在試驗過程中不應受到任何非試驗因素的干擾。
試驗共選取25名被試者進行試驗。這些被試者都來自北京師范大學地理科學學部專業(yè)的學生,分別是12女13男,年齡在19至25。所有被試者的視力均正?;虺C正至正常,且未報告患有眼疾,能夠產(chǎn)生正常的眼動數(shù)據(jù)。每名被試者產(chǎn)生60個眼動樣本數(shù)據(jù)。
試驗選用的儀器為:Tobii REX for developer眼動儀(精確度為0.5°),數(shù)據(jù)傳輸率/采樣頻率為30 Hz;聯(lián)想揚天一體機(22.9寸TFT顯示屏),1280×1024像素,數(shù)據(jù)傳輸率/采樣頻率30 Hz,Tobii Interaction Engine 2.0.4,TobiiEyeX SDK for .NET 1.8。試驗和數(shù)據(jù)處理過程是在Visual Studio平臺下進行算法模型的開發(fā)和試驗的設計。
試驗過程中選取的試驗材料遵循以下原則:
(1) 同一任務下采用同樣風格的地圖,因為分類器需要區(qū)分的是用戶的地圖行為,而不需要考慮地圖設計。
(2) 參加試驗的被試者需要對地圖產(chǎn)品熟悉,即有地學背景,這樣可以讓采樣數(shù)據(jù)缺少噪聲。
(3) 試驗材料對于被試者是陌生的,防止先驗經(jīng)驗對于試驗數(shù)據(jù)的影響。
基于上述原則,總共設計出60幅圖,30幅圖用于進行線狀要素的跟蹤和瀏覽選取,為防止用戶受其他因素干擾,地圖中僅包含線狀要素。另外30幅圖選取自網(wǎng)絡,進行其他任務,地圖為普通地圖,包括自由觀看地圖、點的選擇等。
(1) 針對線狀要素的跟蹤和瀏覽行為所采用的地圖,被試者需要針對地圖中的路線設計1—3條路線。為模擬現(xiàn)實生活中的路線規(guī)劃,用戶要求在所設計路線中選取一條最佳的路線并指出,如圖1所示。
圖1 眼動試驗刺激材料Fig.1 Samples of eye tracking experiment materials
圖1所包含的任務分別如下。
圖1(a):指出從A地到B地的3條不同鐵路路線示意圖?;蛑赋鰪腁地到B地的最佳路線,并用鼠標沿線指出。
圖1(b):指出從A地途徑B地到達C地的2條不同路線走法,并用鼠標沿線指出。
圖1(c):指出從start到end的3條不同走法,并結合換乘次數(shù)和路線長度給出最佳路線。
總共30幅圖30個不同的任務需要被試者去完成,這些地圖全部由筆者自己設計或來自于互聯(lián)網(wǎng),保證用戶在進行試驗之前沒有接觸過類似的地圖。
(2) 針對非線狀要素的閱讀行為,對另外30幅圖則讓用戶自由觀看地圖和進行面狀要素識別,用戶在進行自由觀看行為的時候為防止產(chǎn)生數(shù)據(jù)量過大,限制用戶自由觀看地圖的時間為25 s。面狀要素識別具體為讓用戶選取地圖中形狀類似生活中常見物體的圖形,并指明該面狀編號以及所像物體,時間限制在30 s以內(nèi)。
本文的算法框架共有5部分,具體如下:
2.1.1 眼動數(shù)據(jù)獲取和預處理
對于采集到的1500個眼動樣本,應用I-VT算法對注視點進行識別。I-VT算法通過點與點之間的速率差異來區(qū)分注視點與眼跳點。當速率高于某一閾值的時候,該點就被定義為眼跳點;反之,則被認為是注視點。
2.1.2 眼動特征集構建
對上一步驟生成的注視點數(shù)據(jù)、眼跳數(shù)據(jù)、眼動軌跡數(shù)據(jù)進行進一步計算,一共提取了四大類特征,包括基于注視點的特征、基于眼跳點的特征、基于眼跳方向的特征以及基于視點編碼序列的特征,共得到250個眼動特征,以作為算法輸入數(shù)據(jù)集。
2.1.3 特征離散化過程
為了提高算法精度和效率,對生成的特征進行離散化。主要針對特征集進行了降維歸約,針對連續(xù)的特征值使用平均值絕對差法進行離散化,將所有的數(shù)值用離散化的0/1/-1等值表示。
2.1.4 特征選擇
由于特征較多,為了避免低效特征帶來的輸入冗余,需要對離散化后的特征進行特征選擇。在特征選擇過程中,采用最小冗余最大相關算法(minimum redundancy maximum relevance,MRMR)[20],通過計算特征與目標類別之間的相關性、特征與特征間的冗余性,從最初的特征集中選取出新的一套最優(yōu)的特征子集,使模型達到更高的準確度或者在保持原有準確度的基礎上保持更優(yōu)的效率。
2.1.5 基于樸素貝葉斯的眼動特征分類
眼動特征分類是典型的多類分類問題,本文采用樸素貝葉斯分類模型進行學習和分類[21],構建地圖線狀要素閱讀行為眼動識別方法。樸素貝葉斯分類模型是一種用于多類分類的集成機器學習方法,其核心思想在于特征的獨立性。在樸素貝葉斯分類模型中,對于待分類的數(shù)據(jù),根據(jù)其所具有的特征或?qū)傩?,依?jù)貝葉斯公式計算出各個類別的概率。最后算法選擇概率最大的類別作為最終預測。
通過眼動試驗總共采集到了1500個眼動樣本,各個數(shù)據(jù)的具體描述見表1。
表1 眼動樣本數(shù)據(jù)描述
對數(shù)據(jù)進行預處理,視點導出后為gaze point at (x,y) @time的格式,應用I-VT算法對注視點進行識別。I-VT算法的原理如下:它是最簡單的一種識別方法,通過點與點之間的速率差異來區(qū)分注視點與眼跳點。當速率高于某一閾值的時候,該點就被定義為眼跳點;反之,則被認為是注視點。這種方法的優(yōu)點是運行效率高、直接簡單并且便于實時運行。但是缺點也很明顯,由于眼動追蹤的噪音或平均時間數(shù)據(jù)造成的影響使點的速率在閾值附近擺動出現(xiàn)識別問題,造成本該單一的注視點被劃分為多個注視點。
I-VT的算法步驟如下:
(1) 計算每一個視點與視點之間速度值,該速度的計算結合時間戳與屏幕像素位置得出。
(2) 設置閾值,結合文獻[21]研究中所提到的閾值,速度小于3250像素/s時,定義該視點為注視點,直到下一個點的速度大于該閾值;而當速度大于3250像素/s時,將其定義為眼跳點。
(3) 將提取出的注視點存儲至注視點組當中,而移除位于注視點區(qū)間的眼跳點序列。
(4) 計算注視點的質(zhì)心坐標,并存儲至系統(tǒng)當中。
共有242個樣本由于采樣率不合格被排除。其中103個樣本被剔除是因為采樣點中出現(xiàn)NaN(非數(shù)字)的情況,而另外139個樣本則是樣本中注視點采樣異常,最終樣本選取個數(shù)見表2。
表2 眼動樣本數(shù)據(jù)統(tǒng)計
對于單個被試者刺激材料眼動片段,采用以下3類特征來分別量化眼動統(tǒng)計特征和眼動時空特征,共計算了250種特征。
2.3.1 基本統(tǒng)計特征
這種類型的特征基于基本的眼動行為(注視和眼跳),它們在眼動追蹤研究中被廣泛采用為眼動指標[22-25]。注視點的識別是對觀察到的眼動行為的一種固有統(tǒng)計描述。通常視覺和認知加工被認為發(fā)生在這一行為進行之間。眼跳點是位于兩個注視點之間的一種眼動數(shù)據(jù)分類,是反映用戶搜索情況的眼動行為。分別對注視點和眼跳點指標進行統(tǒng)計,最終得到32個基本統(tǒng)計特征。
2.3.2 眼跳方向特征
這種類眼跳方向特征可用于量化眼球運動的方向特征,可以直觀反映用戶在完成不同任務時的信息搜索方式的不同。首先使用幅度(大幅度、小幅度)和主方向(4方向、8方向)方案對眼跳行為進行分類編碼,得到8分類和16分類兩種編碼標準,如圖2所示。其中大幅度眼跳和小幅度眼跳的區(qū)分基于眼跳之間的視角角度閾值7.9°,結合用戶到屏幕距離(一般認為是60 cm),結合屏幕像素我們定義大幅度的眼跳距離閾值為259像素值[26]。
圖2 眼跳方向特征Fig.2 Schematic diagram of saccade direction features
進而,對于每個編碼類別分別計算其眼跳幅度和眼跳持續(xù)時長的最大值、最小值平均值,方差和偏度,共計120個特征。此外,本研究還統(tǒng)計了相鄰相同方向的連續(xù)眼跳點發(fā)生的頻率,即對連續(xù)兩個眼跳點落入同一方向的或者相鄰方向的眼跳子集的個數(shù)進行統(tǒng)計,共計兩個特征。
2.3.3 眼跳編碼序列特征
受文獻[19]的啟發(fā),采用滑動窗口算法,對眼跳編碼字符串,按順序從左至右并且產(chǎn)生子字符串,最后再將這些子字符串存入到字典中進行統(tǒng)計分析。圖3給出了滑動窗口算法依次存儲長度為3的字符串的示例。
圖3 應用滑動窗口對視點編碼序列進行字符串統(tǒng)計的示意(滑動窗口大小為3)Fig.3 Schematic diagram of saccade code sequence statistics using a sliding window (size=3)
將滑動窗口大小,所有子字符串的數(shù)量,出現(xiàn)某一子字符串的最大值、最小值、平均值、方差及極差作為特征。其中滑動窗口大小取值為1~4。最終得到96個眼跳編碼序列特征。
2.3.4 特征提取結果
表3為通過采集上述3類特征得到的樸素貝葉斯分類器的特征集,每一行中的具體特征以“特征參數(shù)”的“指標”來表示。在后文中,以每個特征指標的英文字母來表示,如GS-size3-16LS-max表示的是,基于視點編碼序列的特征集中字符串長度為3時16分類大幅度眼跳字符串序列出現(xiàn)次數(shù)的最大值。
表3 眼動特征提取結果
本研究分別使用信息熵(mutual information quotient,MIQ)和信息差(mutual information difference,MID)的方法進行基于最小冗余最大相關的樸素貝葉斯模型訓練,準確率結果如圖4所示。基于MID和MIQ的兩種曲線準確率并不相同,采用MIQ方法時,當特征數(shù)m=1時分類準確率已經(jīng)達到了68.53%,但也是整個模型準確率的最低值;隨后分類準確率出現(xiàn)了遞增,在m=5時,出現(xiàn)最大值為78.28%;之后模型準確率出現(xiàn)降低,當模型特征數(shù)大于50的時候,模型趨于穩(wěn)定,準確率可達73%,并且最終穩(wěn)定在72.73%,這與未進行特征排序時的模型準確率結果是基本一致的。
圖4 算法準確率曲線Fig.4 Algorithm accuracy curve
應用MID方法時,m=1時,分類準確率同樣為68.53%,這是因為二者所選取的第1個特征是一樣的,與MIQ曲線不同的是,在m=4分類準確率達到最大值為77.01%,之后曲線總體呈現(xiàn)下降趨勢,在m>50以后,分類準確率也穩(wěn)定在了73%左右。之所以二者在后面的準確率趨向一致,是因為當選擇的特征數(shù)量值m越大時,兩種算法所重合的特征數(shù)量越來越多,到最后基本一致,所以結合算法原理,兩種算法所得出的先驗概率、條件概率和后驗概率等均一樣,所以模型準確率也一致。區(qū)別就在于特征數(shù)量較少時,由于不同特征組合導致準確率有差異。
針對MIQ和MID方法達到準確率最大值時的m值,對精度和召回率進行驗證,生成的混淆矩陣分別見表4、表5,模型準確率最大時特征選擇結果見表6。
表4 基于MRMR(MIQ)-NBC算法模型在特征數(shù)量m=5時的混淆矩陣
表5 基于MRMR(MID)-NBC算法模型在特征數(shù)量m=4時的混淆矩陣
表6 模型準確率最大時特征選擇結果
從中可以看出,對于線狀要素的閱讀行為,在最主要的召回率方面,無論是基于MIQ(表4)還是MID(表5)方法,召回率均接近80%;同時,精度也基本維持在80%以上。此外,線狀要素的識別行為F1值也達到了較高的水平。在性能方面,此模型所需要的特征數(shù)量為5,顯著提升了模型的特征使用效率。
文獻[3]使用SVM模型對地圖中的閱讀行為進行過識別和預測。地圖閱讀行為包括自由瀏覽、全局搜索、路線規(guī)劃、中心搜索、線狀要素跟蹤、面狀對比等行為。其中的線狀要素跟蹤和路線規(guī)劃與本文試驗中的線狀要素的跟蹤選取行為基本一致。
文獻[3]研究的最終模型結果與本研究中各算法模型的準確率及特征數(shù)對比如表7所示。結果表明,準確率最高的是基于MRMR(MIQ)的模型,其次是SVM模型,最后是基于MRMR(MID)的模型。其中,MRMR(MIQ)模型相較于SVM模型準確提升0.57%。在運算性能上,由于SVM要將229種特征屬性加入到模型當中,MRMR(MIQ)模型(m=5)與MRMR(MID)(m=4)模型的運算性能遠好于SVM模型。綜上所述,MRMR(MIQ)模型在準確率優(yōu)于SVM模型,而無論是MRMR(MIQ)還是MRMR(MID)模型,運算性能均遠高于SVM模型。
表7 算法準確率比較
本文提出了一種基于樸素貝葉斯的地圖線狀要素閱讀行為眼動識別算法。針對用戶在實際閱讀地圖中閱讀線狀要素的行為,總共設計了30個任務?;谌蝿战Y果,一共提取了3大類特征,包括基本眼動統(tǒng)計特征、基于眼跳方向的特征以及基于視點編碼序列的特征,總共250種特征。研究所采用的機器學習模型為樸素貝葉斯分類模型,該模型分類效率較高,對小規(guī)模的數(shù)據(jù)表現(xiàn)很好。通過輸入特征屬性和訓練樣本構造模型,之后輸入眼動測試樣本數(shù)據(jù),通過輸出的結果對比實際樣本類型,計算模型準確率。
本研究通過最小冗余最大相關對眼動也進行了特征選擇,最終結果顯示利用信息熵法得到的算法準確率最高可以達到了78.28%。并且,由于在達到最大值時所需要的特征數(shù)量只需要5個特征,與同類研究相比,大大提升了分類器的性能,也降低了算法的冗余度。也解決了傳統(tǒng)方法對于地圖閱讀行為眼動識別方法分類性能差的問題,并且在準確率方面也進一步提升。
本文的研究還較為初步,主要提高了線要素識別算法的性能,今后的工作將集中在以下兩方面。首先,將地圖復雜度、地圖要素分布類型等變量引入地圖刺激材料設計,開展嚴格的控制性試驗,分析用戶要素閱讀行為模式。在此基礎上,改進要素眼動識別算法,實現(xiàn)更為精細的地圖要素識別。其次,進一步增加被試者的數(shù)量、類型,如年齡、專業(yè)和空間能力等,提高算法對具有不同類型人群的適配性。