茍 超 卓 瑩 王 康 王飛躍
人類獲取信息很大程度上依賴于人眼感知的視覺信息,人眼被稱為心靈的窗戶,在人的自然交互中有著重要的意義,它能感知周圍環(huán)境、表現(xiàn)人的注意力、傳達(dá)個人的情感等.因此,眼動跟蹤被廣泛研究與應(yīng)用.眼動跟蹤任務(wù)及應(yīng)用示例如圖1 所示.眼動跟蹤一般是指自動檢測人眼瞳孔相對位置或估計視線方向的過程.圖1(a)為眼動追蹤任務(wù)示例.眼動能描述瞳孔的動態(tài)變化,能直觀地反映人的注視點和注視時間,對于描述人類視覺感知過程與特點、重現(xiàn)個體基本認(rèn)知加工過程有重要意義,被廣泛應(yīng)用于人機交互感知、智能駕駛座艙、情感計算、意圖分析等領(lǐng)域[1?2],圖1(b)為眼動追蹤應(yīng)用示例.由于環(huán)境光照的多變、個體眼球生理特性的差異、頭部姿態(tài)的動態(tài)變化等,眼動跟蹤仍然是一個具有挑戰(zhàn)的熱點研究問題.眼動跟蹤的研究可以追溯到20 世紀(jì)初,研究人員采用了接觸式的眼動跟蹤方法,通過在眼睛周圍放置成對電極的眼電圖分析,或者基于線圈嵌入式的鞏膜搜索方法來獲取并分析眼動信息;在20 世紀(jì)50 年代有了第1 部記錄基于飛行員瞳孔跟蹤及視線分析的控制飛機操作應(yīng)用系統(tǒng)的視頻資料;在60 年代頭戴式眼動跟蹤得到發(fā)展;在90 年代視線估計方面開始使用計算機進行計算處理控制.近年來,隨著計算機視覺、圖形學(xué)、人工智能等新興技術(shù)的發(fā)展以及應(yīng)用需求的增加,非接觸式的基于視頻圖像的眼動跟蹤引起了學(xué)術(shù)界和工業(yè)界大量深入研究[1,3?7].
圖1 眼動跟蹤人任務(wù)及應(yīng)用示例Fig.1 Examples of eye tracking and corresponding applications
本文根據(jù)多年眼動跟蹤領(lǐng)域的研究基礎(chǔ)與積累,詳細(xì)綜述該領(lǐng)域的研究進展,并對未來發(fā)展趨勢進行展望.本文結(jié)構(gòu)如下:第1 節(jié)整體概述眼動跟蹤技術(shù)的發(fā)展.第2~3 節(jié)分別闡述人眼瞳孔檢測、視線方向與注視點的估計方法研究進展,重點闡述基于圖像的眼動跟蹤研究進展及相關(guān)的數(shù)據(jù)集.第4 節(jié)綜述相關(guān)數(shù)據(jù)集及性能比較方法.第5節(jié)介紹相關(guān)應(yīng)用.第6 節(jié)對眼動跟蹤的未來發(fā)展趨勢進行展望.
眼動跟蹤是自動實現(xiàn)眼球瞳孔中心及注視點定位的過程.人類獲取的外部信息主要通過人眼感知的視覺信息,眼動能直觀地反映人的注視點和注視時間,對于描述人類視覺感知過程與特點、探究個體基本認(rèn)知過程有重要意義.常見的眼動行為主要有注視、掃視和平滑追蹤有3 種形式.眼動可以通過時間和空間兩個維度來進行描述,常見指標(biāo)有平均注視時間、注視次數(shù)、注視順序、平均掃視幅度、眼跳次數(shù)、掃視持續(xù)時間、掃視方向等.早期的眼動跟蹤技術(shù)應(yīng)用于心理學(xué)領(lǐng)域,這一時期常用方法有直接觀察法、后象法和機械記錄法等.直接觀察法和后象法只能粗略地描述眼動,機械記錄法需要角膜與測量裝置接觸,作為一種接觸式的眼動跟蹤方法,容易造成眼部不適.由于精度不足和調(diào)試難度大等問題,這些方法逐漸被淘汰.目前眼動跟蹤方法可以分為探查線圈記錄法、紅外線法、電流記錄法和視頻記錄法(Video oculography,VOG) 4 類.
探查線圈記錄法最早由 Robinson[8]于20 世紀(jì)60 年代提出,該方法利用帶有線圈的隱形眼鏡在電磁場中運動,通過電磁感應(yīng)原理產(chǎn)生的信號來測量眼球水平及垂直方向的運動,從而實現(xiàn)眼睛位置檢測.眼動有時伴隨著頭部運動,傳統(tǒng)的探查線圈記錄法利用亥姆霍茲線圈構(gòu)建磁場,但無法直接捕捉頭部運動[2].Eibenberger 等[9]利用 Merritt 線圈產(chǎn)生穩(wěn)定磁場,并利用MATLAB 進行仿真,實現(xiàn)了無需頭戴設(shè)備的檢測,并成功降低了測量誤差.此外還提出了一種新的硬件系統(tǒng)和校準(zhǔn)方法,可以將記錄模擬信號的老式線圈系統(tǒng)改裝為數(shù)字記錄系統(tǒng),同時指出不同的運算放大器可能有助于探查線圈記錄法的性能提升[10].探查線圈記錄法測量準(zhǔn)確、采樣率高,但無法長時間佩戴,成本也相對較高.
紅外線法需要在眼部附近安裝紅外光敏管,根據(jù)瞳孔、鞏膜、角膜等不同光學(xué)界面反射的圖像來測量眼動.常用方法包括瞳孔?角膜反射法、虹膜?角膜反射法等.這種測量方法目前已被廣泛地研究和使用,許多學(xué)者提出了光線檢測或瞳孔檢測的算法提升測量準(zhǔn)確率.文獻[11]提出了快速魯棒橢圓檢測算法,利用徑向?qū)ΨQ性搜索瞳孔位置,并利用兩個細(xì)化步驟來適應(yīng)某些圖片中發(fā)生橢圓形變的瞳孔外觀,增強了模型的泛化能力.Mestre 等[12]利用12 次角膜反光獲得高清瞳孔和角膜圖像,同時使用了一個標(biāo)準(zhǔn)化因子校正瞳孔中心反射點向量.標(biāo)準(zhǔn)化因子的引入提升了垂直眼動跟蹤43.2% 的準(zhǔn)確率,同時減少了設(shè)備對于光源數(shù)量的要求.其他具有代表性的相關(guān)算法和技術(shù)有 Santini 等[13]制作的開源的EyeRecToo 軟件、Else[14]、星光鏡和霍夫變換結(jié)合[15]等.紅外線法是一種非侵入式的眼動跟蹤方法,不會造成眼部不適且精度較高.
電流記錄法是一種成本較低、操作性強的眼動跟蹤方法,在閉上眼睛的情況下也可以正常工作[16].眼球發(fā)生轉(zhuǎn)動時會產(chǎn)生生物電現(xiàn)象,具體是指角膜和視網(wǎng)膜新陳代謝率的不同導(dǎo)致產(chǎn)生電位差,電位變化可以通過傳感器測量眼部周圍皮膚獲得.如圖2所示,蘇黎世聯(lián)邦理工學(xué)院研究的一種電流記錄法眼動跟蹤設(shè)備[17],通過不同的電極片分別記錄垂直眼動和水平眼動.由于設(shè)備問題,如果電位差過小或電極接觸不良,電流記錄法無法保證測量效果,所以電流記錄法并不適用于日常眼動跟蹤應(yīng)用,一般應(yīng)用于特定實驗室環(huán)境下.
圖2 蘇黎世聯(lián)邦理工學(xué)院的電流記錄法眼動儀[17]Fig.2 An eye tracker based on electrooculography from eidgen?ssische technische hochschule[17]
視頻記錄法主要利用視頻攝像機記錄的眼球運動過程,通過計算機自動分析處理視頻圖像.攝像機可以采集人眼圖像或者眼球反射的紅外線圖像,然后通過計算機自動處理圖像數(shù)據(jù),實現(xiàn)非侵入式的人眼瞳孔中心檢測或者視線注視點估計.從攝像機安裝方式上,視頻記錄法可以分為頭盔式、遙測式和頭部固定式,相機數(shù)量上可以使用單相機或多相機.單相機方法通常使用紅外光源引起暗瞳效應(yīng),此時瞳孔較暗,虹膜較亮,容易分割瞳孔區(qū)域從而實現(xiàn)眼動追蹤.多相機方法擁有更大的視野,通常使用一臺相機拍攝眼睛圖像,其他相機用于定位頭部位置或進行校準(zhǔn)[2].Khamis 等[18]研發(fā)EyeScout系統(tǒng),利用攝像頭識別人體運動信息,并利用Pursuits 方法檢測眼動和屏幕中物體運動軌跡的相關(guān)性,進而判斷是否需要調(diào)整眼動追蹤裝置的位置以適應(yīng)人體運動.Kong 等[19]將VOG 技術(shù)應(yīng)用于人耳前庭功能檢測,使用紅外攝像機和紅外發(fā)光二極管獲得視線水平移動數(shù)據(jù),利用形態(tài)學(xué)運算和輪廓檢測獲取瞳孔位置.Brousseau 等[20]提出一種融合了三維視線估計的混合模型,訓(xùn)練了多個卷積神經(jīng)網(wǎng)絡(luò)用于眼睛區(qū)域定位和特征提取,在傳統(tǒng)位置估計網(wǎng)絡(luò)的基礎(chǔ)上增加了質(zhì)量中心結(jié)構(gòu),實驗結(jié)果表明眼動跟蹤的準(zhǔn)確率有顯著提升.
隨著計算機視覺、模式識別、圖形學(xué)、人工智能等技術(shù)的快速發(fā)展,基于視頻圖像分析的非接觸式眼動跟蹤受到廣泛關(guān)注,大量相關(guān)研究獲得開展,取得了突破性進展及應(yīng)用,本文將重點論述基于計算機視覺及機器學(xué)習(xí)的眼動跟蹤研究進展,分別從眼動跟蹤包含的瞳孔檢測及視線估計兩個任務(wù)進行詳細(xì)闡述.
瞳孔檢測,有時也稱為人眼(中心)檢測,其目的是在給定的人臉圖像中自動完成瞳孔位置的定位.準(zhǔn)確的人眼瞳孔檢測是視線估計、注意力分析及人機交互等的基礎(chǔ).人眼瞳孔檢測領(lǐng)域已經(jīng)開展了數(shù)十年的研究.基于不同的特征將相關(guān)方法總結(jié)為基于形狀結(jié)構(gòu)、基于外觀紋理和基于上下文信息三類.
人眼的特殊生理結(jié)構(gòu)構(gòu)成,尤其是虹膜的橢圓形幾何結(jié)構(gòu)可以幫助實現(xiàn)瞳孔中心的檢測.在早期的研究中,Yuille 等[21]設(shè)計了一個參數(shù)化的形變模型來描述人眼瞳孔的幾何形狀,通過擬合11個參數(shù)來覆蓋可能的形變空間,從而完成基于形狀信息的瞳孔檢測.Hansen 等[22]基于虹膜的橢圓形狀,提出一種似然模型來捕捉瞳孔周邊信息,利用期望最大化和隨機抽樣一致算法來擬合圖像中的橢圓結(jié)構(gòu),從而實現(xiàn)瞳孔檢測.Valenti 等[23]首先檢測圓形曲線邊緣,然后提取相等強度的等照度線曲率,并設(shè)計合適的基于投票的方法來實現(xiàn)準(zhǔn)確的瞳孔定位.他們在等照度線方法的基礎(chǔ)上添加尺度不變性,最后用每個區(qū)域關(guān)鍵點的尺度不變特征變換向量與數(shù)據(jù)庫進行匹配確定眼睛位置[24].還有一些研究基于臉部結(jié)構(gòu)信息來完成人眼中心定位,臉部結(jié)構(gòu)信息主要包括人臉五官構(gòu)成,即人眼、鼻子等的結(jié)構(gòu)分布,這些先驗分布可以快速幫助完成人臉中的人眼區(qū)域定位.Tan 等[25]提出一種增強的畫像結(jié)構(gòu)[26]來建模描述人臉幾何分布關(guān)系,并通過構(gòu)建左眼、右眼及鼻的位置關(guān)系來實現(xiàn)人臉中人眼中心的定位.Wang 等[27]提出一種基于全卷積網(wǎng)絡(luò)的瞳孔定位與虹膜分割方法,并利用瞳孔中心、虹膜區(qū)域以及其內(nèi)外邊界的形狀結(jié)構(gòu)信息來同時實現(xiàn)瞳孔定位與虹膜分割,部分結(jié)果如圖3 所示,其中圖3(a)為原圖,圖3(b) 為真實標(biāo)簽,圖3(c) 為模型檢測結(jié)果,圖3(d) 為基于瞳孔、虹膜及其邊界的形狀結(jié)構(gòu)進行后處理的最終結(jié)果.Gowroju 等[28]提出一種基于U-Net 的編碼解碼瞳孔分割方法來實現(xiàn)瞳孔的準(zhǔn)確定位.
圖3 基于 IrisParseNet 的瞳孔檢測與虹膜分割結(jié)果示例圖[27]Fig.3 Some localization and segmentation results based on IrisParseNet[27]
基于形狀結(jié)構(gòu)的瞳孔檢測方法主要出現(xiàn)在早期的眼動跟蹤研究中,其主要觀點是利用先驗知識,基于人眼在視頻圖像中呈現(xiàn)的特定橢圓或者圓形形狀及幾何關(guān)聯(lián)關(guān)系的特性來對人眼瞳孔進行定位.由于其過多依賴于固有先驗幾何知識,無法較好應(yīng)對復(fù)雜多變的環(huán)境,且由于視頻圖像角度變化導(dǎo)致形狀拉伸及畸變,傳統(tǒng)基于形狀結(jié)構(gòu)的方法普遍存在魯棒性不足的問題.
基于形狀的瞳孔檢測方法無法應(yīng)對有較大頭部姿態(tài)的場景,而基于外觀紋理特征的方法對頭部姿態(tài)等更為魯棒,其核心是通過設(shè)計一些特征提取方法來描述瞳孔的邊緣、顏色等特征.Araujo 等[29]提出一種基于相關(guān)性濾波的內(nèi)積檢測子來實現(xiàn)人眼瞳孔中心檢測.Wu 等[30]提出一種基于深度學(xué)習(xí)的特征提取方法來實現(xiàn)無環(huán)境限制的人眼中心檢測.Fuhl 等[31]提出訓(xùn)練雙級深度卷積網(wǎng)絡(luò)來實現(xiàn)人眼檢測,并建立一個瞳孔中心的概率分布來實現(xiàn)更為精確的定位,大規(guī)模實驗數(shù)據(jù)上的測試效果表明了該方法的有效性.文獻[32] 提出通過圖像增強、Gabor 濾波、聚類分析和相似性度量的相鄰區(qū)域比較提取眼部區(qū)域,實現(xiàn)精確的人眼檢測.文獻[33]提出基于R-CNN 和YOLO、能同時實現(xiàn)虹膜及眼周區(qū)域檢測的方法,通過深度特征來表征眼部外觀紋理信息,從而實現(xiàn)準(zhǔn)確定位.Xia 等[34]提出一種基于全連接網(wǎng)絡(luò)的方法來實現(xiàn)瞳孔檢測.將人眼瞳孔定位看作是一種特殊的語義分割任務(wù),以人眼瞳孔為中心的高斯熱度圖為分割目標(biāo),利用全連接網(wǎng)絡(luò)實現(xiàn)人眼外觀紋理體征表征學(xué)習(xí),從而實現(xiàn)準(zhǔn)確有效的人眼瞳孔檢測,部分實驗結(jié)果如圖4 所示,其中圖4(a) 是最終檢測結(jié)果,圖4(b) 為左瞳孔熱度圖,圖4(c) 為右瞳孔熱度圖.Hsu 等[35]提出了兩種人眼瞳孔檢測的方法,一種是基于臉部幾何轉(zhuǎn)換的方法,另一種是基于生成對抗網(wǎng)絡(luò)的圖像轉(zhuǎn)換方法.其中生成對抗方法利用真實人眼的外觀紋理特征分布,實現(xiàn)眼部區(qū)域的正面歸一化,解決了較大頭部姿態(tài)情況下的人眼瞳孔中心檢測問題,并在GI4E 等開源數(shù)據(jù)集上取得了不錯的效果.
圖4 基于 FCN 的瞳孔檢測結(jié)果示例圖[34]Fig.4 Some pupil localization results based on FCN[34]
基于外觀紋理特征的人眼瞳孔檢測方法主要基于數(shù)據(jù)統(tǒng)計分布,效果依賴于海量的標(biāo)注數(shù)據(jù).隨著深度學(xué)習(xí)等技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)及外觀紋理特征的人眼瞳孔檢測方法[30,33?34]受到越來越多的關(guān)注,其有效性和魯棒性也推動了眼動跟蹤相關(guān)的實際應(yīng)用.而另一方面,隨著數(shù)據(jù)量的增加,不同個體之間的差異也隨之增加,數(shù)據(jù)分布更為多樣,使得基于紋理特征的檢測能力下降.同時,海量數(shù)據(jù)需要大量的人力來進行手動標(biāo)注,如何利用少量有限樣本設(shè)計出更具有魯棒性的有效模型,是基于外觀紋理特征的人眼瞳孔檢測需要解決的主要問題.
基于上下文信息的方法主要利用眼部區(qū)域及其上下文人臉結(jié)構(gòu)與紋理信息來實現(xiàn)人眼瞳孔的準(zhǔn)確定位.文獻[36]利用關(guān)鍵點特征,基于由粗到細(xì)的思想,在監(jiān)督下降方法[37]的基礎(chǔ)上提出多尺度非線性特征映射來實現(xiàn)人眼瞳孔精確檢測.啟發(fā)于臉部關(guān)鍵點檢測方法,Gou 等[38]提出基于仿真圖像來學(xué)習(xí)級聯(lián)線性回歸模型,為獲取眼部區(qū)域的上下文信息,他們首先基于已有臉部關(guān)鍵點檢測方法提取眼部大致區(qū)域,然后初始化人眼位置并利用級聯(lián)回歸迭代優(yōu)化,最后實現(xiàn)人眼中心的準(zhǔn)確定位,實驗結(jié)果表明該方法比基于真實圖像學(xué)習(xí)的模型更加魯棒有效.Gou 等[39]進一步深入研究,考慮閉眼狀態(tài)下的眼部全局外觀紋理對人眼瞳孔定位的影響,并組合仿真人眼和真實人眼圖像為訓(xùn)練對象,從而進一步優(yōu)化人眼瞳孔檢測結(jié)果;在級聯(lián)回歸的基礎(chǔ)上,引入人眼狀態(tài)(睜眼/閉眼)的概率來動態(tài)調(diào)整上下文特征的權(quán)重,具體流程如圖5 所示.Xiao 等[40]提出利用人臉關(guān)鍵點來提取眼部區(qū)域,然后利用虹膜區(qū)域的圓形擬合來實現(xiàn)準(zhǔn)確的瞳孔定位.為使得人眼檢測模型更為魯棒,Gou 等[41]提出基于平行視覺系統(tǒng)[42?45]的瞳孔檢測方法,具體流程如圖6 所示,核心思想是通過平行圖像步驟,引入生成對抗學(xué)習(xí)[46?47],實現(xiàn)虛實互動的圖片生成與優(yōu)化,從而為計算實驗的級聯(lián)模型學(xué)習(xí)提供多樣的且?guī)?biāo)注的訓(xùn)練樣本,最終實現(xiàn)準(zhǔn)確有效的瞳孔檢測.Choi 等[48]基于人臉上下文信息實現(xiàn)瞳孔檢測.提出先檢測人臉,然后基于眼角等關(guān)鍵點提取眼部區(qū)域,最后設(shè)計一個分割深度網(wǎng)絡(luò)來實現(xiàn)準(zhǔn)確的瞳孔中心檢測.Lee 等[49]進一步開展基于人臉上下文信息的瞳孔檢測與跟蹤.提出先檢測人臉,并通過設(shè)計的基于自注意力生成對抗網(wǎng)絡(luò)去除了戴眼鏡的影響,然后根據(jù)人臉關(guān)鍵點提取眼部區(qū)域,最后基于上下文信息通過深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)瞳孔中心檢測.該方法在GI4E 數(shù)據(jù)集上歸一化誤差小于0.05 的情況下,檢測準(zhǔn)確率達(dá)到99.84%.
圖5 基于級聯(lián)回歸的瞳孔檢測及狀態(tài)估計流程[39]Fig.5 The framework of cascade regression for simultaneous pupil detection and eye state estimation[39]
圖6 基于平行視覺的瞳孔檢測方法[41]Fig.6 The framework of pupil detection based on parallel vision[41]
綜上所述,基于上下文信息的瞳孔檢測方法較好地利用人眼及人臉結(jié)構(gòu)上下文信息,在人眼中心檢測中應(yīng)用較為廣泛.但是基于上下文信息的瞳孔檢測方法對遮擋等情況敏感,而基于形狀結(jié)構(gòu)、特征學(xué)習(xí)可以部分解決遮擋等問題.由此,構(gòu)建將上下文信息和特征學(xué)習(xí)融合的模型是該領(lǐng)域研究的一個重要研究方向.
視線估計是眼動跟蹤的重要任務(wù)之一,目的是估計視線的三維方向向量或者二維注視點位置.視線估計方法可以分為基于模型和基于特征學(xué)習(xí)兩類.
基于模型的視線估計主要是通過指根據(jù)人眼生理結(jié)構(gòu)所構(gòu)建的眼球模型,并通過人臉關(guān)鍵點、瞳孔中心及深度信息、眼角位置等的幾何關(guān)系來估計人眼的視線方向或者注視點[50].如圖7 的三維眼球模型所示,人眼的視線方向?qū)嶋H上是視軸方向,可由角膜曲率中心與中央凹(位于眼球后方的視網(wǎng)膜中敏銳度最高的部位)來共同確定;人眼的光軸方向則會通過瞳孔中心、角膜曲率中心和眼球中心.人眼的光軸與視軸之間存在著被稱為卡帕角的角度差.卡帕角的大小約為5°,其準(zhǔn)確值因人而異且唯一.
圖7 三維眼球模型及視線估計[50]Fig.7 3D eyeball model and gaze estimation[50]
根據(jù)估計原理的不同,基于模型的視線估計方法可以進一步分為基于二維映射和基于三維幾何兩類方法.
3.1.1 基于二維映射的視線估計方法
基于二維映射的方法主要指構(gòu)建注視點或者視線方向與用戶標(biāo)定或者檢測的二維視線參數(shù)的映射模型來實現(xiàn)視線估計,二維視線參數(shù)包括眼角點、瞳孔位置、眼球中心、角膜曲率中心等.實際應(yīng)用時首先計算得到二維視線參數(shù),然后輸入映射模型得到視線方向或者注視點.該類方法主要包括基于角膜反射的方法、交比值法和單應(yīng)性歸一化法三類.
1) 基于角膜反射的方法將眼角點或者角膜反射點(普爾欽斑)作為眼球運動的基準(zhǔn)點,通過分析基準(zhǔn)點與瞳孔中心位置的矢量與視線向量的映射關(guān)系來實現(xiàn)視線估計.一般而言,眼角點難以檢測,而角膜反射點可以通過額外的光源輔助確定[51].
基于角膜反射的方法一般要求多個攝像頭,以及一個甚至多個的外部近紅外線光源來輔助確定眼球半徑、角膜曲率半徑等不隨視線變化而變化的、因人而異的眼睛特征[52].Hennessey 等[53]基于Goss等[54]提出的眼睛模型,在經(jīng)過校準(zhǔn)后,實現(xiàn)了攝像頭視野范圍內(nèi)的、允許頭部自由運動的視線估計.Liu 等[55]認(rèn)為虹膜受光線折射的影響較小且更容易被分割出來,故通過虹膜相關(guān)的特征來求得虹膜中心位置,然后使用虹膜中心而非瞳孔中心來與角膜曲率中心共同確定人眼的光軸方向,最后結(jié)合卡帕角變換矩陣與角膜曲率中心來求得人眼的視線方向.Zhou 等[56]提出了一個基于梯度特性的虹膜中心定位方法,并將視線方向近似為從虹膜中心到注視點的方向,最后以雙眼估計得到的視線方向的平均值作為最終的視線估計結(jié)果.
基于角膜反射的方法主要是對注視點的估計.該方法模型簡單、易于理解;且使用的近紅外線光源不易受到其他光源的影響,故該法對光照條件的穩(wěn)健性良好.但由于基于角膜反射的方法中假定的球形角膜形狀與真實角膜形狀存在差異,故其視線估計的精確度有限;且為求解角膜反射點在照相機成像平面上的位置等,該法對圖像處理的要求很高.另外,基于角膜反射的方法需要進行校準(zhǔn),對實驗對象的頭部運動范圍也有所限制.具體的校準(zhǔn)復(fù)雜程度以及實驗對象的頭部運動范圍與系統(tǒng)配置相關(guān).根據(jù)文獻[51],若僅使用一臺攝像機和一個光源,僅當(dāng)頭部完全靜止時才能估計注視點;若使用一臺攝像機和多個光源,可在完成多點校準(zhǔn)過程后自由移動頭部來估計注視點;若使用多臺攝像機和多個光源,可經(jīng)過簡單的單點校準(zhǔn)程序后對注視點進行估計.
2) 交比法主要是利用交比在射影變換下的不變性來進行視線估計.其中的交比射影不變性是指空間中一條直線經(jīng)空間幾何變換后保持了直線上對應(yīng)點列的交比不變.交比法主要是對二維屏幕上注視點的估計.如圖8 所示,交比法涉及兩個射影變換:一是從屏幕到虛擬正切平面的投影;二是從虛擬正切平面到照相機成像平面的投影.
圖8 交比法示意圖[57]Fig.8 Gaze estimation based on cross-ratio[57]
理論上[58],在屏幕的四個角上分別放置近紅外線光源LEDi(i=1,2,3,4)、并發(fā)出閃光;當(dāng)人眼在注視屏幕時,用照相機拍攝,即可在照相機成像面上獲得LEDi閃光經(jīng)人眼角膜反射后的投影點(i=1,2,3,4);還可獲得人眼的瞳孔在照相機成像面上的投影點up.通過4個閃光投影點(i=1,2,3,4) 和瞳孔投影點up在照相機成像面上的位置,即可求得這些點的交比.根據(jù)交比在射影變換下的不變性,在已知近紅外線光源位置的情況下,可根據(jù)瞳孔投影點up在照相機成像面上的位置以及交比,求得與近紅外線光源同在屏幕上的凝視點g的位置.但實際上,角膜表面的反射點和瞳孔中心并不在同一虛擬平面上.為解決該問題,Yoo 等[57]在照相機的中心處加設(shè)一個近紅外線光源,設(shè)光源點LEDc和眼球中心的連線與人眼的角膜表面交于點c,并以點c為切點作角膜表面的虛擬正切平面,如圖9 所示.Cheng 等[59]提出以瞳孔中心為切點作角膜表面的動態(tài)虛擬正切平面.該虛擬正切平面會因注視點的不同而不同,角膜反射點在動態(tài)虛擬正切平面上的具體位置由動態(tài)參數(shù)矩陣來確定.
圖9 虛擬切平面示意圖[57]Fig.9 Virtual tangent plane[57]
交比法的另一個主要誤差來源是,該方法進行視線估計的依據(jù)是人眼瞳孔所在的光軸而非代表真實視線的視軸.為補償該誤差,Coutinho 等[60]首先提出對屏幕上的注視點加以固定的二維偏移量來校正視線估計結(jié)果.該二維偏移量會隨著頭部姿態(tài)的改變而改變,因此固定的二維偏移量不足以準(zhǔn)確校正視線估計結(jié)果.Coutinho 等[61]為此進一步提出,通過一個比例因子來動態(tài)調(diào)整該二維偏移量,該比例因子可由相關(guān)的深度變化信息來估計求得.還有一些研究使用高斯回歸[62]、多項式回歸[63]等方法對誤差進行建模,以校正基于交比法的視線估計結(jié)果.Arar 等[64]則提出使用正則化最小二乘回歸對誤差進行建模,并通過自適應(yīng)性融合雙眼的注視點信息來提高視線估計的準(zhǔn)確性和穩(wěn)健性.
由于交比法要求角膜表面的反射點都能投射在照相機成像面上,故對實驗對象的頭部運動范圍有所限制.為提高交比法對頭部運動范圍的穩(wěn)健性,Coutinho 等[65]提出交比特征平面化的方法,用弱透視相機模型和由角膜中心和虹膜平面組成的眼睛模型來補償頭部運動造成的誤差.Arar 等[66]提出一個基于交比法的多相機視線估計系統(tǒng).通過多個獨立照相機以及對各個相機求得的注視點估計結(jié)果的自適應(yīng)性融合,該系統(tǒng)允許在實驗對象頭部自由運動條件下進行準(zhǔn)確的視線估計.交比法的系統(tǒng)配置要求高,至少需要一臺照相機以及4個外部光源.鑒于多數(shù)的液晶顯示器都包含偏振濾光片、使顯示器發(fā)出的光是偏振的,故可使用偏振攝像頭來獲取人眼在注視液晶顯示器時角膜表面反射的偏振圖像,Sasaki 等[67]提出使用角膜反射的線性偏振度圖像和線性偏振角圖像來求得顯示器經(jīng)人眼角膜反射后在照相機成像面上的區(qū)域范圍,再結(jié)合瞳孔中心或角膜邊緣的成像位置來進行視線估計,而無需額外的外部光源.
3) 單應(yīng)性歸一化法是對屏幕上注視點的估計,主要利用單應(yīng)性變換進行視線估計.如圖10 所示,設(shè)外部光源在人眼角膜表面反射的各點所在的虛擬平面為角膜反射平面 ΠC,并設(shè)該平面經(jīng)單應(yīng)性歸一化后的平面為歸一化平面ΠN.首先將照相機成像面ΠI上的瞳孔中心位置通過單應(yīng)性矩陣投影映射到角膜反射面的歸一化平面ΠN上.然后通過單應(yīng)性矩陣將瞳孔中心在歸一化平面ΠN的位置投影映射到屏幕 ΠS上,以求得注視點位置.
圖10 單應(yīng)性歸一法示意圖[5]Fig.10 Gaze estimation based on homography[5]
交比法與單應(yīng)性歸一法對屏幕注視點的估計都基于二維平面幾何關(guān)系,但不同于交比法使用交比這一平面投射不變量,單應(yīng)性歸一法直接利用投影變換關(guān)系.因此,單應(yīng)性歸一法不僅可以使用瞳孔中心作為投影對象,還可以使用瞳孔邊緣、角膜邊緣等眼睛特征,因為單應(yīng)性變換允許點、直線和圓錐曲線的投影變換;單應(yīng)性歸一法對外部光源的配置要求更為靈活,只需要檢測到4個穩(wěn)定的閃光點即可.另外,使照相機成像面變換到歸一化平面上的單應(yīng)性矩陣歸一化了頭部姿態(tài)對視線估計的影響,使得單應(yīng)性歸一法對實驗對象的頭部姿態(tài)更為穩(wěn)健.
單應(yīng)性歸一法基于瞳孔中心與角膜反射點共面的假設(shè),通過單應(yīng)性矩陣將歸一化平面 ΠN上的瞳孔中心位置投影到屏幕 ΠS上的注視點位置.上述假設(shè),以及基于瞳孔中心所在的光軸而非視軸來進行視線估計,是單應(yīng)性歸一法的主要誤差來源.為此,Kanai 等[68]使用徑向基函數(shù)對注視點位置進行校正.
為提高單應(yīng)性歸一法的使用范圍,Ma 等[69]提出將單應(yīng)性變換矩陣分別替換為相似變換和仿射變換以適用于只具有2個閃光點和3個閃光點的視線估計場景.Shin 等[70]結(jié)合雙目約束,在單個紅外線光源的場景實現(xiàn)基于單應(yīng)性歸一法的視線估計.Luo 等[71]使用眼睛坐標(biāo)系、照相機成像平面坐標(biāo)系和屏幕坐標(biāo)系,通過幾何關(guān)系求得對應(yīng)的映射關(guān)系,從而提出單相機、單光源場景下基于單應(yīng)性變換的視線估計方法.Huang 等[72]提出一種基于自適應(yīng)單應(yīng)性矩陣的頭部運動校正方法,通過模擬頭部變化來預(yù)測頭部處于新位置時單應(yīng)性的變化,以校準(zhǔn)頭部運動對視線估計的影響,從而提高眼動追蹤的魯棒性.
3.1.2 基于三維幾何的視線估計方法
基于三維幾何的方法主要通過擬合三維眼球模型來確定眼球中心、半徑等眼睛特征,再結(jié)合各特征之間的幾何關(guān)系進行視線估計.
Yamazoe 等[73]假設(shè)眼球為球體、虹膜是沿眼球表面移動的平面圓,并根據(jù)投影關(guān)系確定眼球中心與人臉關(guān)鍵點和眼球直徑之間的幾何關(guān)系,最后由虹膜中心和眼球中心求得視線方向.Chen 等[74]通過添加兩個眼角的中點和眼球中心來擴展原先由六個人臉關(guān)鍵點組成的傳統(tǒng)三維人臉模型,再據(jù)此模型經(jīng)校準(zhǔn)后進行視線估計.Vincent 等[75]對二維的眼部區(qū)域關(guān)鍵點進行三角劃分以獲得眼睛網(wǎng)格,并求解二維瞳孔中心所在的三角網(wǎng)格的重心,然后在該三角形的重心坐標(biāo)系中計算瞳孔中心的三維位置,再結(jié)合眼球中心的三維位置求得視線方向.Sesma 等[76]基于瞳孔中心及內(nèi)外眼角的幾何位置關(guān)系提出瞳孔中心?眼角矢量特征,然后使用多項式函數(shù)進行視線估計.Sun 等[77]使用參數(shù)化的虹膜模型來求取虹膜中心位置,然后結(jié)合眼球中心的三維位置確定視線方向.Wood 等[78]使用主成分分析法提取眼睛的形狀和紋理信息,提出了一個新的三維可變形眼睛模型,然后通過綜合分析擬合出與給定圖像盡量相似的圖像,最后從擬合參數(shù)中提取出視線方向.如圖11 所示,Wang 等[79]提出的三維變形眼?臉模型對人臉關(guān)鍵點和眼球中心位置之間的幾何關(guān)系進行了編碼,由此可獲得眼球中心和瞳孔中心的三維位置.圖11 中CCS 代表相機坐標(biāo)系,HCS 代表頭部坐標(biāo)系,ECS 代表眼球坐標(biāo)系.Park 等[80]沿用文獻[81]中將眼球看作是相交的小圓和大圓的假設(shè),將使用卷積神經(jīng)網(wǎng)絡(luò)求得的眼部區(qū)域關(guān)鍵點擬合到三維眼睛模型以進行視線估計.Yiu 等[82]使用深度全卷積神經(jīng)網(wǎng)絡(luò)對眼部圖像進行圖像分割以實現(xiàn)瞳孔定位、虹膜檢測等,然后沿用文獻[83]中將一系列時序眼睛圖像擬合三維瞳孔運動模型的算法,以實現(xiàn)視線估計.
圖11 基于二維關(guān)鍵點及三維眼球模型的視線估計[79]Fig.11 Gaze estimation based on 2D landmarks and 3D eyeball model[79]
不同于基于二維映射的視線估計方法通過光源確定瞳孔或者虹膜中心、并標(biāo)定得到眼睛參數(shù),基于三維幾何的視線估計方法更多通過數(shù)據(jù)統(tǒng)計分析或者機器學(xué)習(xí)得到眼球參數(shù),最后利用三維眼球模型的結(jié)構(gòu)先驗來實現(xiàn)視線估計或者注視點檢測.基于三維幾何的方法綜合利用了數(shù)據(jù)與先驗的特性,目前正在受到越來越多的關(guān)注.
隨著攝像頭傳感器、計算機視覺、圖像處理、機器學(xué)習(xí)技術(shù)的快速發(fā)展,目前大部分工作主要基于特征學(xué)習(xí)來實現(xiàn)視線估計.基于特征學(xué)習(xí)的方法通過機器學(xué)習(xí)模型實現(xiàn)高維特征與低維視線之間的映射,效果依賴于數(shù)據(jù)的多樣性與學(xué)習(xí)模型的有效性.根據(jù)特征種類的不同,相關(guān)方法可以進一步分為基于幾何特征的方法和基于外觀紋理的方法.
3.2.1 基于幾何特征的視線估計方法
基于幾何特征的方法是指通過機器學(xué)習(xí)模型來實現(xiàn)瞳孔中心位置、人眼或者臉部關(guān)鍵點位置、結(jié)構(gòu)形狀等幾何特征與視線方向向量的直接映射.
Huang 等[84]選取頭部姿態(tài)以及眼部區(qū)域關(guān)鍵點之間的6個距離值作為幾何特征,通過支持向量機和隨機森林回歸模型學(xué)習(xí)這些特征與視線之間的映射關(guān)系來實現(xiàn)視線估計.Zhang 等[85]使用瞳孔中心和內(nèi)眼角來定義瞳孔?眼角距離比率,然后使用高斯回歸模型將該距離比率映射到視線的水平方向.文獻[86]基于主動外觀模型方法定位眼部區(qū)域,眼部區(qū)域的36個特征點分別代表眼睛輪廓、虹膜、瞳孔等,用檢測的關(guān)鍵點的坐標(biāo)幾何關(guān)系及特征來估計視線方向,并用支持向量機對視線方向進行準(zhǔn)確分類.Chuang等[87]用左右虹膜、鼻子和嘴部等區(qū)域的 14個關(guān)鍵點定義了一個新的幾何特征,再據(jù)此通過支持向量機檢測駕駛員的注視區(qū)域.Wang等[88]是在檢測的瞳孔中心的基礎(chǔ)上根據(jù)模型估計角膜曲率中心,得出光軸方向來實現(xiàn)視線估計.基于瞳孔中心位置等眼睛區(qū)域關(guān)鍵點、眼睛圖像外觀和視線方向存在耦合關(guān)系,Cao 等[89]使用級聯(lián)回歸的方法來同時檢測眼睛關(guān)鍵點和估計視線方向.為了簡化視線方向的估計任務(wù),Park 等[90]首先通過沙漏網(wǎng)絡(luò)模型在單眼圖像檢測出瞳孔與眼部兩個區(qū)域的分割圖像,然后利用視線方向與兩個區(qū)域形狀分布的關(guān)聯(lián)來學(xué)習(xí)一個深度網(wǎng)絡(luò)DenseNet 以實現(xiàn)視線估計.
基于幾何特征的方法通過構(gòu)建眼部幾何特征與視線之間的關(guān)聯(lián)關(guān)系.與基于二維映射的視線估計方法不同,該方法利用圖像處理與計算機視覺等方法直接從圖像中提取眼睛幾何特征,并通過機器學(xué)習(xí)實現(xiàn)幾何特征與視線方向的模型映射,減少了個體參數(shù)校準(zhǔn)環(huán)節(jié),其效果依賴于訓(xùn)練數(shù)據(jù)與模型的有效性.
3.2.2 基于外觀紋理的視線估計方法
基于外觀紋理的方法對整個輸入圖像進行紋理特征提取,然后學(xué)習(xí)特征與視線方向之間的映射模型,以進行視線估計.早期的基于外觀紋理的方法一般是提取人眼圖像的手工特征,例如方向梯度直方圖特征或局部二值模式特征等,再應(yīng)用最近鄰[91?92]、隨機森林回歸[93?96]和支持向量機[97]等模型來進行視線估計.隨著大量開源數(shù)據(jù)集的收集和公開,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型被大量應(yīng)用到基于外觀紋理的方法中.Yu 等[98]選取17個眼部區(qū)域關(guān)鍵點和視線方向的偏航角和俯仰角,通過提出的約束關(guān)鍵點?視線模型來構(gòu)建眼部區(qū)域關(guān)鍵點位置和視線方向的關(guān)系,最后從模型參數(shù)中獲取視線方向.Wang 等[99]認(rèn)為影響卷積神經(jīng)網(wǎng)絡(luò)的視線估計的泛化能力因素是眼睛外觀、頭部姿態(tài)和點估計的過擬合問題,因此在卷積神經(jīng)網(wǎng)絡(luò)框架中引入對抗學(xué)習(xí)模塊來學(xué)習(xí)對視線方向敏感且同時對眼睛外觀和頭部姿態(tài)變化魯棒的特征;并將卷積神經(jīng)網(wǎng)絡(luò)擴展到貝葉斯卷積神經(jīng)網(wǎng)絡(luò),以使用多組參數(shù)來改善原先卷積神經(jīng)網(wǎng)絡(luò)僅使用一組參數(shù)、無法很好地表示復(fù)雜情況的點估計過擬合問題.Ali 等[100]將兩只眼睛的圖像作為不同通道輸入到基于卷積神經(jīng)網(wǎng)絡(luò)的視線估計模型中,并對這兩個通道應(yīng)用不同空間權(quán)重以提高視線估計的準(zhǔn)確率.觀察到左眼圖像、右眼圖像和全臉圖像在不同場景下對視線估計的結(jié)果有著不同的貢獻,Zhou 等[101]提出了具有自適應(yīng)性加權(quán)策略的視線估計模型,以依靠更高質(zhì)量圖像來實現(xiàn)更準(zhǔn)確的視線估計.Wang 等[102]提出了從人臉圖像提取和以眼睛變形近似的兩種方法來獲取頭部姿態(tài),再通過ResNet-34 模型或直接串聯(lián)的方式將頭部姿態(tài)特征和視線估計特征結(jié)合起來,從而將頭部姿態(tài)信息更好地納入真實場景下的視線估計中.Chen 等[103]以雙眼圖像和臉部圖像作為輸入,在文獻[104]提出的神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,用擴張卷積代替部分卷積層和最大池化層以保持輸入圖像的高分辨率,從而有利于捕捉視線變化時眼睛圖像外觀的細(xì)微變化.
基于特征學(xué)習(xí)的視線估計方法中,基于幾何特征的方法一般只需要幾個校準(zhǔn)點、無需大量的訓(xùn)練樣本,就能實現(xiàn)準(zhǔn)確率較高的視線估計.但該方法要求輸入圖像的分辨率足夠高,以準(zhǔn)確提取瞳孔中心、眼角等顯著的人眼特征,且該方法容易受到光照條件等的影響.另外,一些關(guān)于視線信息的潛在重要特征并未被選取來建立視線估計模型.基于外觀紋理的方法則沒有顯式地提取特定的人眼結(jié)構(gòu)特征,而是將整個人臉或人眼圖像作為輸入并提取高維特征.該方法操作簡單,除了攝像頭、一般無需額外的設(shè)備配置;且對圖像分辨率、光照條件等的穩(wěn)健性良好.但該方法需要大量的訓(xùn)練數(shù)據(jù),同時所得模型為黑盒模型,難以解釋.
綜上所述,基于模型的視線估計方法需要利用復(fù)雜的眼球結(jié)構(gòu)模型,一般應(yīng)用于頭戴式眼鏡或者實驗室環(huán)境下,需要進行相應(yīng)的參數(shù)標(biāo)定.而基于特征學(xué)習(xí)的視線估計方法從人眼圖像中獲取眼睛外觀信息或幾何特征,然后通過學(xué)習(xí)這些特征到人眼視線方向的映射來完成視線方向或者注視點的估計.隨著深度學(xué)習(xí)、計算機視覺等技術(shù)的快速發(fā)展,基于特征學(xué)習(xí)的視線估計方法取得突破性進展.相較于基于模型的方法,基于特征學(xué)習(xí)的方法魯棒性更高,但是其精確度依賴于數(shù)據(jù)量和模型有效性.融合利用基于模型先驗和基于特征學(xué)習(xí)兩類方法的優(yōu)勢,是眼動跟蹤研究的重點方向之一.
基于視頻圖像分析的眼動跟蹤領(lǐng)域已有一定數(shù)量的開源公開數(shù)據(jù)集,由于眼動跟蹤涉及瞳孔中心檢測及視線估計兩部分,本節(jié)分別對這兩個任務(wù)的數(shù)據(jù)集及評價指標(biāo)進行論述.
瞳孔中心檢測主要數(shù)據(jù)集見表1.BioID[105]和GI4E[106]在人眼瞳孔中心檢測上使用廣泛,均采集自實驗室環(huán)境,利用攝像頭捕捉上半身圖像,頭部姿態(tài)范圍均較小,其中BioID 采集23 名人員的1 521張圖像,分辨率為384 × 286 像素,含有閉眼狀態(tài);發(fā)布于2013 年的GI4E 采集了103 名被試人員的 1 236張圖像數(shù)據(jù),每個人采集了12 張不同視線方向的圖片,分辨率為800 × 600 像素,該數(shù)據(jù)集還包含了每個測試人員的1 張正視方向圖片.CASIA-Iris[107]由中國科學(xué)院自動化研究所提出,主要用于虹膜識別,自2002 年開始CASIA-Iris 先后被補充完善并發(fā)布了4個版本,涵蓋 70個國家和地區(qū)的超過3 000名實驗對象.表1 為2010 年發(fā)布的CASIA-IrisV4,包含54 601 張圖片.主要側(cè)重于瞳孔的檢測與分割,并偏向于使用頭戴式設(shè)備進行人眼圖像的采集.ExCuSe[108]對已有的開源數(shù)據(jù)集進行了整合,共包含39 001 張圖像,用于研究真實環(huán)境下瞳孔檢測與跟蹤,在數(shù)據(jù)采集過程中,實驗對象需要進行駕駛或在超市中尋找物品,瞳孔的位置和環(huán)境光會快速變化.Else[14]數(shù)據(jù)集采集了實驗對象在駕駛或?qū)嶒炇噎h(huán)境下的眼部圖片,共包含7個子集,55 712 張分辨率為384 × 288 像素的照片,涵蓋了眼鏡反光、睫毛、眼瞼以及環(huán)境投影等干擾,對瞳孔檢測算法的魯棒性提出了挑戰(zhàn).LPW[109]利用頭戴式眼動儀采集了22 名人員的66 段視頻,共包含 130 856 張圖片,覆蓋了不同種族、視線、光照的變化,具有一定的挑戰(zhàn)性.OpenEDS[110]是倫敦大學(xué)學(xué)院、Facebook 和Google 共同制作的大規(guī)模數(shù)據(jù)集,使用虛擬現(xiàn)實頭戴式設(shè)備采集數(shù)據(jù),實驗在受控光源下進行,采集了分辨率為400 × 640 像素的 356 649 張照片,分為4個子集,除了對瞳孔進行標(biāo)注外,還包含眼部關(guān)鍵點、未標(biāo)記眼部圖片、眼動視頻幀序列和眼部點云數(shù)據(jù).TEyeD[111]是目前世界上規(guī)模最大的人眼圖像開源數(shù)據(jù)集,圖像通過頭戴式設(shè)備拍攝,采集于乘車、室內(nèi)活動、室外活動等不同的任務(wù)場景,圖片數(shù)量超過2 千萬,TEyeD 對鞏膜、瞳孔、2D/3D 眼部關(guān)鍵點等信息均進行了標(biāo)注.
表1 常用瞳孔中心檢測數(shù)據(jù)集Table 1 Datasets for pupil detection
對于人眼瞳孔中心檢測準(zhǔn)確率評價指標(biāo),使用廣泛的是最大歸一化誤差[105],計算公式如下:
其中,Dright和Dleft分別是檢測的左、右瞳孔中心到真實瞳孔中心的歐氏距離,locleft和locright分別為標(biāo)注的真實眼球中心位置.deye即為計算得到的最大歸一化誤差.deye的等級代表檢測方法準(zhǔn)確程度,其值越小代表檢測效果越好,其中deye ≤0.05代表檢測到的瞳孔中心位置在瞳孔半徑內(nèi),deye ≤0.1表示檢測到的瞳孔中心位置在虹膜半徑區(qū)域內(nèi).除了最大歸一化誤差外,也有相關(guān)研究將瞳孔檢測視為一個分割任務(wù),通過對比像素級的檢測誤差或者區(qū)域的交并比進行評價.
表2 和表3 分別給出了近年來已有方法在BioID 和GI4E 數(shù)據(jù)集上取得的瞳孔中心檢測結(jié)果.從表2 和表3 可以看出,該領(lǐng)域研究不斷取得突破,一些基于手工特征的傳統(tǒng)方法[39,41,106,112]逐漸被基于深度學(xué)習(xí)的方法[34?35,49]所超越,其中在BioID目前已經(jīng)取得了96.7%的最大歸一化誤差deye ≤0.05,且在GI4E 上由文獻[100]更新到99.8%的檢測率.
表2 不同方法在BioID 數(shù)據(jù)集上的瞳孔中心檢測結(jié)果對比Table 2 Comparison of pupil center detection results by different methods on the BioID dataset
表3 不同方法在GI4E 數(shù)據(jù)集上的瞳孔中心檢測結(jié)果對比Table 3 Comparison of pupil center detection results by different methods on the GI4E dataset
綜上所述,由于更多研究者的深入研究,以及更多開源人眼標(biāo)注數(shù)據(jù)的公開,極大地推動了基于數(shù)據(jù)驅(qū)動的眼動跟蹤方法的發(fā)展;同時,以深度學(xué)習(xí)為主的人工智能方法不斷取得突破,更為有效的特征表示也極大推動了眼動跟蹤領(lǐng)域的快速發(fā)展.除此之外,基于仿真圖像與真實圖像的融合[41]也受到越來越多的關(guān)注,結(jié)合深度學(xué)習(xí)的優(yōu)勢,相關(guān)研究會進一步推動眼動跟蹤的研究,并實現(xiàn)更為廣泛的應(yīng)用.
對于視線估計,主要的數(shù)據(jù)集如表4 所示.視線方向和頭部姿態(tài)的涵蓋范圍越大,光照條件、遮擋情況等外觀變化越多的視線估計數(shù)據(jù)集越有利于自然場景下的視線估計.
表4 常用視線估計估計數(shù)據(jù)集Table 4 Datasets for gaze estimation
ColumbiaGaze[116]是早期的視線估計數(shù)據(jù)集,該數(shù)據(jù)集要求被試人員觀測墻壁上的點,然后用高清攝像頭(5 184 × 3 456 像素) 記錄58 位被試人員共5 880 張圖像的視線方向和頭部姿態(tài).由于每位被試人員的位置是固定不變的且只被記錄了5 種頭部姿態(tài)以及21 種不同的視線方向,所以該數(shù)據(jù)集中的數(shù)據(jù)外觀變化及數(shù)據(jù)樣本量有限.EYEDIAP[117]要求被試人員注視屏幕上的點和懸浮著的三維物體,然后用RGB-D 攝像頭記錄16 位被試人員共27 分鐘時長的注視數(shù)據(jù).RGB-D 攝像頭能夠獲取圖像的色彩和深度信息,但分辨率較低(640×480像素).此前的數(shù)據(jù)集所收集的視線范圍都非常有限,為了擴大采集到的視線角度范圍,UT-multiview[93]使用8個攝像頭來采集50 位被試人員的160個視線方向數(shù)據(jù),采集到了偏航角、俯仰角范圍分別為±50°、±36°的視線方向數(shù)據(jù).
為了獲取如不同的光照條件等更多的外觀變化,一些數(shù)據(jù)集通過要求注視移動設(shè)備屏幕上的目標(biāo)點來更高效地獲得被試人員在不同場景下的視線數(shù)據(jù).GazeCapture[104]是麻省理工大學(xué)提出的第1個大規(guī)模視線估計數(shù)據(jù)集.該數(shù)據(jù)集通過眾包,采集并標(biāo)注了1 474 位被試人員在手機或平板等移動設(shè)備屏幕前的、共2 445 504 張的視線方向數(shù)據(jù),覆蓋了比較多樣的背景、光照和姿態(tài)變化.但這些都是用手機/平板等移動設(shè)備獲得的數(shù)據(jù),所以視線角度范圍非常有限.類似地,MPIIGaze[118]采集了15 位被試人員每天使用筆記本電腦時的圖片,并標(biāo)注了 6個人臉關(guān)鍵點、瞳孔中心和視線向量等,圖片的光照條件、人臉外貌有較大變化.
在上述數(shù)據(jù)集中,被試人員一般直接面向移動設(shè)備的屏幕,其頭部姿態(tài)和視線方向都會偏向屏幕所在的地方.由此得到的頭部姿態(tài)和視線方向范圍非常有限.為了得到角度范圍更大、外觀變化更多的視線估計數(shù)據(jù)集,一些研究提出合成視線估計數(shù)據(jù)集[121].由于目前合成的視線估計數(shù)據(jù)集與真實數(shù)據(jù)之間仍然存在較大的差異、尚未能很好地應(yīng)用于自然場景下的視線估計,故繼續(xù)致力于采集視線方向和頭部姿態(tài)的涵蓋范圍更廣、外觀變化更多、數(shù)據(jù)量更大的視線估計真實數(shù)據(jù)集.RT-GENE[119]使用深度攝像頭追蹤被試人員的頭部姿態(tài)、使用眼鏡式眼動儀獲取被試人員的視線方向,采集了15 位被試人員共122 531 張的圖像數(shù)據(jù),由于該數(shù)據(jù)集不要求被試人員注視某一目標(biāo)點,因此采集到的視線數(shù)據(jù)更接近自然場景下的數(shù)據(jù)情況.但該數(shù)據(jù)集使用分辨率并不高 (1920×1 080 像素) 的深度攝像頭追蹤被試人員且被試人員距離攝像頭較遠(yuǎn),因此圖像中的人臉區(qū)域分辨率較低;另外,還需要使用生成對抗網(wǎng)絡(luò)對采集得到的圖像進行語義修補來去除被試人員佩戴的眼鏡式眼動儀.Gaze360[120]要求被試人員注視一個移動目標(biāo)、并用多個攝像頭來同時獲取多位被試人員的視線方向.該數(shù)據(jù)集采集了238 名 (138 名女性和100 名男性) 被試人員,在5個室內(nèi)場景和2個室外場景下共172 000 份視線數(shù)據(jù).受到注視目標(biāo)的設(shè)置以及被試人員對注視目標(biāo)的遮擋影響,采集的視線方向俯仰角范圍僅為?40°~+10°且視線方向偏航角數(shù)據(jù)在其最大值附近的分布較為稀疏.ETH-XGaze[122]用18個高清攝像頭(6 000×4 000 像素)來捕捉大范圍的頭部姿態(tài)和視線方向;同時用4個燈箱來設(shè)置不同的照明條件.該數(shù)據(jù)集記錄了110 位 (47 名女性和63 名男性)被試人員,在16 種不同照明情況下近600個的視線方向,共采集了1 083 492 張圖像;采集到的視線方向偏航角、俯仰角范圍分別為 ±120°,±70°.
一般使用估計的視線方向三維向量與真實的視線方向三維向量之間的平均絕對誤差作為視線估計準(zhǔn)確率的評價指標(biāo),其計算公式如下:
其中,g表示估計的視線方向三維向量,表示真實的視線方向三維向量;n表示測試樣本數(shù)量,i表示第i個測試樣本.平均絕對誤差越小表示對視線方向的估計越準(zhǔn)確.
表5 給出了近年來已有方法在MPIIGaze和EYEDIAP 數(shù)據(jù)集上取得的視線估計平均絕對誤差結(jié)果.從表5 可以看出,目前的方法主要基于深度學(xué)習(xí)模型[123?125].同樣由于大量標(biāo)注數(shù)據(jù)的采集以及深度模型的快速發(fā)展,視線估計得到了一定突破,分別在MPIIGaze 和EYEDIAP 實現(xiàn)了最好的4.1°和 5.3°的誤差.此外可以看出,視線估計研究開始處于瓶頸階段,提升和改進的程度有限,需要跳出對深度學(xué)習(xí)方法的依賴,從不同的角度,比如仿真數(shù)據(jù)及生成模型等,來探究視線估計的新方法及理論.
表5 不同方法在 MPIIGaze 及 EYEDIAP 數(shù)據(jù)集上的視線估計絕對誤差結(jié)果對比Table 5 Comparison of gaze estimation results by different methods on the MPIIGaze and EYEDIAP datasets
由于眼動跟蹤的廣泛應(yīng)用,越來越多的商業(yè)眼動跟蹤儀被研發(fā)出來.本文首先列舉目前已有的商業(yè)化眼動儀,然后從人機交互、智能駕駛、醫(yī)療健康、人因工程四個方面介紹目前眼動跟蹤的應(yīng)用現(xiàn)狀.
由于軟硬件技術(shù)的快速發(fā)展及需求的擴增,目前世界上已有多家公司致力于生產(chǎn)商業(yè)眼動儀及相關(guān)軟件,主要有Tobii、SR Research、Seeing Machines、iMotion 等,表6 介紹了部分廠商的最新商用眼動儀.Tobii 公司生產(chǎn)的眼動儀在全球被廣泛應(yīng)用,可以實現(xiàn)現(xiàn)實場景中高效的眼動數(shù)據(jù)采集,并提供了眼動眼鏡、輔助記錄器、紅外標(biāo)記器、Tobii Studio 分析軟件等組件,方便快速配置與使用;還內(nèi)置了陀螺儀等傳感器來減少頭部運動對眼動跟蹤的影響.Dikablis Glasses 設(shè)計小巧便攜,其獨特設(shè)計允許佩戴者戴眼睛使用.Smart Eye 眼動儀來自瑞典,重點應(yīng)用于智能駕駛場景,一直致力于汽車工業(yè)市場,擁有沃爾沃、豐田、本田等大量車企客戶.它為用戶提供一個遠(yuǎn)程眼動跟蹤系統(tǒng),包括視頻成像及分析軟件,可實現(xiàn)高精確度全幀速率的測量頭部和視線.除了應(yīng)用于智能駕駛外,Smart Eye 眼動儀還可以用于飛行模擬器、網(wǎng)頁設(shè)計、閱讀研究和心理實驗室等多種研究領(lǐng)域.GP3 是一款研究級眼動儀,支持眼動領(lǐng)域相關(guān)學(xué)術(shù)研究,支持豐富的應(yīng)用程序編程接口,便于開發(fā)應(yīng)用.Looxid-VR 面向虛擬現(xiàn)實應(yīng)用,可以在使用者觀看虛擬現(xiàn)實畫面的同時采集眼動和瞳孔數(shù)據(jù),強大的數(shù)據(jù)可視化功能使其得到廣泛應(yīng)用.VIVE Pro Eye 內(nèi)置Tobii 眼動跟蹤系統(tǒng),可以在運行虛擬現(xiàn)實功能的同時采集眼動數(shù)據(jù);還可在使用者注視的區(qū)域呈現(xiàn)清晰圖像,并對其他區(qū)域進行一定程度的模糊處理,具有較好的注意力可視化能力.此外,還有美國的Oculus、Magic Leap、微軟發(fā)布的HoloLens 等商用虛擬現(xiàn)實智能設(shè)備等都集成了眼動跟蹤系統(tǒng),在交互控制、目標(biāo)識別、身份驗證、健康監(jiān)測、社交和多人協(xié)作等多個領(lǐng)域廣泛應(yīng)用.
表6 主要眼動儀介紹Table 6 Introduction to some main eye trackers
人機交互技術(shù)賦能人類與機器的交互,眼動跟蹤是實現(xiàn)人機交互的主要方式之一,相關(guān)研究開始于上個世紀(jì)90 年代,典型任務(wù)包括點擊、移動屏幕上的物體、在菜單中選擇等[17].分析眼動注視情況有助于更快、更準(zhǔn)確地判斷用戶的選擇,優(yōu)化用戶體驗.例如使用手機或者平板電腦的前置攝像機來捕捉人眼及頭部的動態(tài)信息,可以分析人臉表情等相關(guān)特征,實現(xiàn)注意力估計[7,128?130].此外,基于視線估計的人機交互可以利用眼動信息開發(fā)輔助工具來幫助弱勢群體表達(dá)情感與意識,提升生活質(zhì)量.Klaib等[131]構(gòu)建的智能家居結(jié)合了 Tobii 眼動跟蹤設(shè)備、Amazon 的Alexa 智能語音系統(tǒng)以及Azure 云計算技術(shù).該智能家具僅通過語音或利用眼動控制屏幕即可完成各項指令,降低了老人、殘疾人等具有特殊需求的人群的使用難度.眼動也是人機交互界面設(shè)計的重要參考,例如文獻[132?133]中各項眼動指標(biāo)常常用于評價航空航天領(lǐng)域人機交互界面的設(shè)計效果.眼動分析也是廣告設(shè)計和企業(yè)營銷的重要參考,大量研究致力于探究如何最大程度吸引消費者的注意力.Lee 等[134]利用眼動追蹤技術(shù)對網(wǎng)絡(luò)橫幅廣告的效果和吸引力進行了評價,發(fā)現(xiàn)動畫廣告并沒有比靜態(tài)廣告更具吸引力優(yōu)勢.文獻[135]指出在廣告領(lǐng)域,對于場景感知和視覺搜索的眼動研究處于早期階段,眼動跟蹤技術(shù)將在未來的廣告等商業(yè)領(lǐng)域起到更大的作用.圖12 是一種基于眼動的智能展板示例.
圖12 根據(jù)用戶眼動自動調(diào)整畫面的智能展板[18]Fig.12 A smart public display using user's eye movement to adjust the content[18]
人是交通系統(tǒng)中最活躍、最不穩(wěn)定的因素,絕大多數(shù)交通事故的產(chǎn)生都與駕駛員的失誤有關(guān),帶來巨大的人身安全威脅和財產(chǎn)損失.2017 年國家安全監(jiān)管總局、交通運輸部發(fā)布的最新研究報告顯示,中國交通事故總量仍居高位,因此非接觸式的眼動跟蹤的智能駕駛系統(tǒng)成為了一種有效的解決方案[55,136].利用眼動信息可以分析駕駛員在具體交通場景中的感知、分析和決策的過程.Rezaei 等[137]利用Haar 特征和卡爾曼濾波構(gòu)建了一個快速且適應(yīng)性強的眼動跟蹤系統(tǒng),可適應(yīng)駕駛中光照的快速變化.實際應(yīng)用中,營運車輛重量大、操作困難,對駕駛員的行為進行監(jiān)控和規(guī)范有重要意義.Mandal 等[138]提出了一套基于視覺的駕駛員疲勞檢測系統(tǒng),能簡便地部署在公交車等大型車輛上.該系統(tǒng)融合了人臉識別、眼動追蹤等多項技術(shù),在實際應(yīng)用中具有較好的魯棒性.在自動駕駛應(yīng)用中,人機共駕是重要研究課題之一.眼動研究是人機切換時機的一個重要研究方向.Zeeb 等[139]讓駕駛員在駕駛時參與其他任務(wù),以分析駕駛分心情況下駕駛員的反應(yīng)時間和眼動數(shù)據(jù),構(gòu)建了一個融合模型對駕駛的危險程度進行評價,進一步確定人機駕駛切換時機.如圖13 所示,Deng 等[140]提出基于駕駛員注視點的顯著性圖來對駕駛員在駕駛過程中的注意力變換進行建模,探究人類在駕駛過程的認(rèn)知變化過程,從而構(gòu)建融合人類駕駛經(jīng)驗的智能駕駛系統(tǒng).
圖13 基于注視點的駕駛注意力分析[140]Fig.13 Driving attention analysis based on the gaze points[140]
眼動跟蹤研究在醫(yī)療健康方面發(fā)揮著重大作用.作為一種生理指標(biāo),眼動在精神分裂、抑郁癥、睡眠障礙、多動癥等疾病的研究與分析中發(fā)揮著重要的作用,這部分研究開展較早,相對較為成熟.近年來,眼動追蹤研究進一步拓展至醫(yī)療圖像分析、醫(yī)療設(shè)備和醫(yī)療決策等領(lǐng)域,例如在腹腔鏡手術(shù)系統(tǒng)中,可以根據(jù)主治外科醫(yī)生當(dāng)前的視線方向來確定手術(shù)電腦屏幕中需要重點關(guān)注的區(qū)域,從而輔助腹腔鏡的自動操作[141].Chen 等[142]利用放射科醫(yī)生進行乳腺癌診斷的視線注視點變化來建模描述有經(jīng)驗專家的診療過程,從而輔助機器或者臨床經(jīng)驗不足的醫(yī)生進行有效診斷.Khosravan等[143]提出利用眼動跟蹤系統(tǒng)獲取放射科醫(yī)生的眼動數(shù)據(jù),構(gòu)建一個基于注意力機制的方法來進行局部和全局的圖像分析,并實際應(yīng)用于肺癌診斷中.眼動也為醫(yī)學(xué)從業(yè)人員培訓(xùn)提供了一種新的角度,醫(yī)學(xué)規(guī)培生和專家的視線追蹤結(jié)果的對比有利于分析診斷決策的過程.Jarodzka 等[144]對專家的眼動進行建模,構(gòu)建了一個EMME (Eye movement modeling examples)訓(xùn)練系統(tǒng).該系統(tǒng)可以對專家診斷過程中的眼動進行回放,通過閃光點給予學(xué)員提示.研究結(jié)論表明,使用EMME 的學(xué)員在學(xué)習(xí)過程中注意力得到更好的引導(dǎo),在測試中表現(xiàn)更為出色.
眼動作為認(rèn)知科學(xué)、行為科學(xué)等的重要研究對象,在人因工程應(yīng)用中越來越受到重視.與傳統(tǒng)的心理實驗設(shè)計相比,眼動跟蹤更加具有技術(shù)和方法上的優(yōu)勢,可以更加直觀、具體地展示人類的興趣點與注意力分布情況.有學(xué)者研究開發(fā)了軟件平臺或眼動實驗設(shè)計,嘗試進一步推動眼動追蹤技術(shù)在人因工程上的應(yīng)用,例如 PyGaze[145]、Eye-MMV[146]等.在教育領(lǐng)域,Halszka 等[147]在總結(jié)了眾多教育科學(xué)的眼動研究后指出,眼動追蹤技術(shù)在改善基于電腦的多媒體教學(xué)課程設(shè)計、揭示視覺相關(guān)領(lǐng)域?qū)I(yè)知識及其發(fā)展 (例如棋類運動、醫(yī)學(xué)等)、眼動建模學(xué)習(xí)專業(yè)知識三個方面應(yīng)用較為成功.總之,眼動信息可以表達(dá)人的注意力、傳達(dá)人的情感、表征人類推理過程;較好的眼動分析可以幫助探究人類認(rèn)知機理,從而構(gòu)建人在回路的混合增強平行智能[43,148?151].
本文對眼動跟蹤進行了研究綜述,重點闡述了基于視頻圖像分析的相關(guān)研究進展,分別從眼動跟蹤發(fā)展概述、瞳孔位置檢測、視線估計3個方面的研究現(xiàn)狀進行詳細(xì)論述與分析,并介紹了相關(guān)應(yīng)用現(xiàn)狀.眼動跟蹤是實現(xiàn)強人工智能的基礎(chǔ),可以為探究人類認(rèn)知機理提供支撐,具有重要的理論意義和良好的應(yīng)用前景.盡管該領(lǐng)域取得了一系列研究進展,但由于自然環(huán)境多樣、數(shù)據(jù)獲取與標(biāo)注費時耗力、個體眼部外觀結(jié)構(gòu)差異、姿態(tài)動態(tài)變化等,眼動跟蹤目前仍然是一個具有挑戰(zhàn)性的核心難點問題,未來的研究工作可以從以下幾個方面展開:
1) 復(fù)雜環(huán)境下多模態(tài)數(shù)據(jù)融合:在極端環(huán)境下,比如低清晰度、低光照等,獲取的視頻圖像數(shù)據(jù)信息有限,傳統(tǒng)的基于圖像數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)方法無法較好實現(xiàn)眼動跟蹤與視線估計.其他傳感器數(shù)據(jù),例如紅外圖像、深度圖像、激光雷達(dá)、音頻等往往可以提供更多信息,通過多模態(tài)數(shù)據(jù)融合可以大大提升眼動跟蹤的精度,從而滿足實際應(yīng)用場景的時效性需求.
2) 小樣本下的新型學(xué)習(xí)理論:實際應(yīng)用場景中,為了使復(fù)雜的深度模型方法更為魯棒有效,往往需要大規(guī)模標(biāo)注數(shù)據(jù)集.然而,眼動視線數(shù)據(jù)的采集標(biāo)注非常耗時費力.研究小樣本情況下的新型學(xué)習(xí)理論與方法,例如元學(xué)習(xí)、平行學(xué)習(xí)、知識遷移、數(shù)據(jù)對抗生成等方法,對解決小樣本情況下的眼動跟蹤與視線估計具有重要的研究意義.
3) 注意力建模及認(rèn)知機理分析:通過深入分析人類視線的注視點,對其注意力變化動態(tài)建模,然后基于現(xiàn)有注意力機制實現(xiàn)機器注意力估計,將人類注意力模型和機器注意力模型對比耦合,可以幫助進一步探究人類在感知場景及任務(wù)驅(qū)動下的認(rèn)知機理,從而實現(xiàn)人機混合增強智能,推進自動駕駛、機器人、人機交互的發(fā)展與應(yīng)用.