黃生輝,宋鴻陟,吳廣發(fā),司國東,彭紅星
?
一種新的基于顯著圖的視線跟蹤方法
黃生輝,宋鴻陟,吳廣發(fā),司國東,彭紅星
(華南農(nóng)業(yè)大學信息學院,廣東 廣州 510642)
針對現(xiàn)有視線跟蹤系統(tǒng)設備復雜、標定過程繁瑣等方面的不足,提出了一種新的基于顯著圖的視線跟蹤方法。通過紅外光源設備在人眼角膜上產(chǎn)生的光斑中心與瞳孔中心建立瞳孔-角膜反射向量,然后將該向量作為視覺特征重構了基于顯著圖的視線跟蹤算法。實驗結果證明,提出的方法不僅緩解了視線跟蹤系統(tǒng)標定過程繁瑣的問題,而且對提高系統(tǒng)的精度和健壯性有一定的促進作用,這為面向人機交互的視線跟蹤研究提供了可行的低成本解決方案。
視線跟蹤;瞳孔-角膜反射向量;顯著圖;標定過程;
人們獲取的信息大部分來源于視覺,因此對視覺的研究具有重要的意義。通過視覺特征判斷人眼注視點或視線方向的視線跟蹤技術,不僅在解剖學、神經(jīng)科學和心理學等領域有重要的意義,而且在人機交互、車輛輔助駕駛、市場營銷以及虛擬現(xiàn)實等領域也有廣泛的應用前景[1]。通常,基于視頻的視線跟蹤算法可以分為兩類:一是基于2D的視線跟蹤方法[2];二是基于3D的視線跟蹤的方法[3]。相對于2D的視線跟蹤方法,3D的視線跟蹤方法,雖然在一定程度上可以克服頭部運動,但對硬件的要求較高,且系統(tǒng)的標定過程比較復雜。在2D的視線跟蹤方法中,瞳孔角膜反射技術由于其簡單且有較好的準確性,因此它是目前基于視頻的視線跟蹤系統(tǒng)常用的方法[1]。
在傳統(tǒng)的視線跟蹤方法中,為了獲取人眼真實的注視點,需要建立視覺特征和人眼注視點之間的映射關系。這要求用戶在使用系統(tǒng)時,事先看屏幕上若干指定的點,訓練一個映射函數(shù),即進行系統(tǒng)標定,然后系統(tǒng)根據(jù)訓練好的映射函數(shù)估計人眼在屏幕上的注視點坐標。對于自然的人機交互而言,這種標定過程是繁瑣且不自然的。為避免這種明顯的標定過程,Sugano等人[4]將顯著圖技術應用于視線跟蹤系統(tǒng)中,提出了一種基于顯著圖的視線跟蹤方法。首先讓用戶自然地看屏幕上的視頻幀,把幀圖像的顯著圖作為人眼注視點的概率分布,然后通過高斯過程回歸建立人眼圖像和人眼注視點之間的映射關系。然而,他們將整張人眼圖像作為映射函數(shù)的輸入,而人眼圖像包含了很多的冗余信息且易受光照變化影響,因此他們的視線跟蹤系統(tǒng)精度并不高(約為6°)。Chen等人[5]在Sugano等人工作的基礎上將3D的視覺特征作為輸入重構了基于顯著圖的視線跟蹤算法,提出了一種基于3D的概率型視線跟蹤方法。雖然他們的系統(tǒng)精度有所提高(約為3°),但是系統(tǒng)設備比較復雜。
本文在前人的基礎上提出了一種新的基于顯著圖的視線跟蹤方法。通過低成本的紅外光源設備在人眼角膜上產(chǎn)生的光斑中心與瞳孔中心建立瞳孔-角膜反射向量,然后將該向量作為視覺特征重構了基于顯著圖的視線跟蹤算法。下面將詳細介紹提出的視線跟蹤方法的整個流程。
本文的紅外光源設備[2]由CCD攝像機、鏡頭、近紅外發(fā)光二極管、窄帶通紅外濾光片、視頻同步分離芯片、圖像采集卡、單片機、主機以及屏幕等組成。其中,近紅外發(fā)光二極管的波長為880nm,鏡頭焦距為25mm,配合窄帶通紅外濾光片,可以產(chǎn)生較好的紅外光照效果,增強了視線跟蹤系統(tǒng)對光照變化的適應性。紅外光源設備系統(tǒng)圖,如圖1所示。
系統(tǒng)工作時,用戶注視屏幕,由CCD攝像機獲取人臉圖像,然后視頻信號一路通過視頻同步分離芯片(LM1881),分離出奇場和偶場信號,再通過單片機控制紅外發(fā)光二極管燈組的亮滅;另一路視頻信號通過圖像采集卡,將視頻幀傳輸?shù)街鳈C,通過編程將視頻幀分離出奇場圖像和偶場圖像,即亮暗瞳孔圖像,如圖2(a)和圖2(b)所示,之后對亮暗瞳孔圖像進行差分,可以得到差分圖像,如圖2(c)所示。
得到差分圖像后,通常需要對差分圖像進行閾值化、形態(tài)學以及幾何濾波[6-7]分離出瞳孔區(qū)域。然而,由于視線跟蹤系統(tǒng)應用場景的復雜性,如光照變化、頭部運動等因素影響,采用經(jīng)典的單一閾值處理方法不能很好地分離出瞳孔區(qū)域,為此本文采用了如下處理方法。
圖1 紅外光源設備系統(tǒng)圖
圖2 亮暗瞳孔圖像和差分圖像
1)首先對差分圖像求直方圖,然后對直方圖進行積分,并保證圖像中亮像素點的數(shù)量(大約占圖像中像素點總數(shù)的1/1000),這樣能得到自適應的初始閾值[8],如圖3所示。
圖3 差分圖像直方圖和初始閾值
2)利用初始閾值對圖像進行閾值化,如圖4(a)所示,接著對閾值化后的圖像進行連通區(qū)域分析,根據(jù)瞳孔的先驗知識,如瞳孔的面積、長寬比、圓形度、周長、矩、瞳孔的個數(shù)以及兩瞳孔之間的距離關系,進行幾何濾波,剔除那些不符合要求的區(qū)域塊,當沒有滿足條件的區(qū)域塊時,則自動調(diào)整閾值。重復檢測直到找到符合條件的區(qū)域為止,如圖4(b)所示。
在瞳孔區(qū)域定位后,在亮瞳孔圖像中設置感興趣區(qū)域ROI(Region of Interest),這樣縮小了圖像處理的范圍,同時也有助于減少眼瞼或眉毛對瞳孔的影響,然后利用Canny邊緣檢測算法對瞳孔區(qū)域進行邊緣檢測,之后對候選邊緣利用連通區(qū)域及標記算法[2]進行分析,提取出最長的邊緣作為瞳孔邊緣,最后根據(jù)像素點的梯度差和梯度方向?qū)⑼走吘壏譃?個扇區(qū)[9],取左右扇區(qū)中的邊緣作為瞳孔候選邊緣點。瞳孔邊緣提取過程,如圖5所示。
在確定瞳孔候選邊緣點后,采用直接最小二乘橢圓擬合算法[10]對瞳孔候選邊緣點進行擬合,并剔除離瞳孔輪廓較遠的點,重復上述過程直到獲取穩(wěn)定的橢圓中心為止,并將橢圓中心作為瞳孔的中心位置(p,p)。另外,在頭部保持不動的情況下,角膜反射光斑的位置通常是不變的[1-2],因此可以在暗瞳孔圖像的瞳孔區(qū)域附近搜索角膜反射光斑,然后利用質(zhì)心法[6]計算出角膜反射光斑的中心位置(c,c),最后根據(jù)兩個區(qū)域的中心位置可以求得瞳孔-角膜反射向量=(pc,pc)。瞳孔-角膜反射向量的提取過程,如圖6所示。
圖4 差分圖像閾值化和瞳孔區(qū)域定位
圖5 瞳孔邊緣提取過程
本文將瞳孔-角膜反射向量作為視覺特征重構了基于顯著圖的視線跟蹤算法。通過讓用戶自然地看屏幕上的序列圖像,結合顯著圖算法,訓練一個從瞳孔-角膜反射向量到人眼注視點之間的映射關系,即進行系統(tǒng)標定。顯然,這一過程并沒有強迫用戶看屏幕上若干指定的點。對用戶而言,這是一種自由標定的體驗。在顯著圖方面,本文利用了GBVS(Graph-Based Visual Saliency)算法[11]來生成圖像的顯著圖。文獻[11]的實驗結果表明,人眼注視位置和GBVS算法生成的顯著圖有相當?shù)囊恢滦?,利用顯著圖可以預測人眼在圖像上的注視位置。GBVS算法生成的顯著圖,如圖7所示。
在完成系統(tǒng)標定后,對新的人眼圖像進行特征提取,得到瞳孔-角膜反射向量,根據(jù)訓練好的映射函數(shù)進行視線估計,輸出人眼在屏幕上的注視點。本文提出的基于顯著圖的視線跟蹤系統(tǒng)框架,如圖8所示。
在提取到瞳孔-角膜反射向量后,本文基于向量相似度[4]建立瞳孔-角膜反射向量與人眼在屏幕上注視點之間的映射關系,結合GBVS算法生成的顯著圖,計算出人眼注視點在屏幕上的權值概率分布,最后根據(jù)權值概率分布,進行視線估計,獲取人眼注視點的坐標。
圖6 瞳孔-角膜反射向量的提取
圖7 GBVS算法生成顯著圖
圖8 視線跟蹤系統(tǒng)框架
首先,假設屏幕依次顯示張不同的圖像{1,…,I},然后利用GBVS算法生成相應的顯著圖{1,…,s},且與之關聯(lián)的人眼圖像為{1,…,e},利用瞳孔-角膜反射技術對人眼圖像提取瞳孔-角膜反射向量為{1,…,}。這樣就生成了顯著圖和瞳孔-角膜反射向量數(shù)據(jù)集{(1,1),…,(s,}。
由于圖像中的顯著區(qū)域被認為是真實注視點所在區(qū)域,因此顯著圖可以被認為是人眼注視點的概率分布?;谶@個思想,定義瞳孔-角膜反射向量的相似度為[5]:
式中:k是可調(diào)參數(shù),且當瞳孔-角膜反射向量和比較接近時,的值會很大。
為了減少計算量,對顯著圖s縮小倍,則新的顯著圖為:
s*=s/,?[1,] (2)
然后對s*進行×(長×寬)等分,得到區(qū)域1~q×,對于區(qū)域q在s*中的權值概率分布,可以定義為:
在得到權值概率分布后,根據(jù)新的人眼圖像,提取瞳孔-角膜反射向量new,然后根據(jù)公式(1),計算new和1,…,n的相似度,即1,…,。另外,由于屏幕相應也被進行了×等分,因此,對于每個區(qū)域,人眼注視點落在該區(qū)域的概率為:
最后,將p為最大值時所對應的區(qū)域作為用戶注視的區(qū)域,并且選取區(qū)域的中心位置作為人眼在屏幕上的注視點坐標。
為了評估本文提出的視線跟蹤方法,本文對50名能熟練操作計算機且視力正常的測試用戶進行實驗。實驗環(huán)境為一般辦公環(huán)境,計算機屏幕大小為14.1in(長31.22cm,寬17.55cm),顯示分辨率為1024×768,攝像機圖像分辨率為640×480,攝像機采樣幀率為25Hz,測試用戶距離計算機屏幕為50cm。根據(jù)不同的測試任務對屏幕進行2×2、3×3、4×4劃分,例如對屏幕進行2×2劃分表示將屏幕進行四等分。實驗分別在正常光照條件、暗光照條件和亮光照條件下進行。實驗使用的圖像的顯著內(nèi)容盡量單一,且內(nèi)容盡量分布在不同的區(qū)域,例如,在屏幕2×2劃分下,訓練和測試階段使用的圖像,如圖9所示。
本文的視線跟蹤系統(tǒng)的精度,可以由視角的測量誤差[12]來度量(視角越小則精度越高),如圖10所示。
在屏幕大小為14.1in,顯示分辨率為1024×768,用戶距離屏幕為50cm條件下,根據(jù)不同的屏幕劃分可以得到人眼注視的精度與屏幕圓形視覺區(qū)域的大小的對應關系,即視線估計精度參照表,如表1所示。
圖9 訓練圖像和測試圖像(屏幕2×2劃分)
圖10 視角三角形
表1 視線估計精度參照表
注:屏幕大小為14.1in,顯示分辨率為1024×768,人眼與屏幕距離為50cm。
在實驗過程中,測試用戶自然地注視屏幕中全屏顯示的圖像,且假設用戶始終注視屏幕上自己認為最顯著的區(qū)域。對于每種屏幕劃分(對應不同精度),在訓練階段,屏幕會每隔2s依次為用戶呈現(xiàn)不同的圖像,在屏幕自動更新圖像前,系統(tǒng)會拍攝用戶的人眼圖像,然后提取瞳孔-角膜反射向量,將該向量用于系統(tǒng)映射函數(shù)的訓練;在測試階段,屏幕會依次顯示定制的白底黑球圖像,當用戶注視白底黑球圖像時,系統(tǒng)會再次提取瞳孔-角膜反射向量,結合訓練好的系統(tǒng)映射函數(shù),就可以計算出用戶在屏幕上注視點的坐標。最后,將此坐標與實際的黑球區(qū)域進行比較,如果坐標落在黑球區(qū)域內(nèi),則判定系統(tǒng)對這次視線的估計是正確的,否則是錯誤的。另外,為了檢驗系統(tǒng)的健壯性,實驗需要在不同光照條件下進行。在控制光照條件的情況下,對于每種屏幕劃分,統(tǒng)計當前光照條件下系統(tǒng)成功視線估計的次數(shù)與當前光照條件下總實驗次數(shù)的百分比,即當前光照條件下系統(tǒng)的視線估計的正確率為:
=/(5)
式中:是系統(tǒng)當前光照條件下的視線估計正確的次數(shù);是系統(tǒng)當前光照條件下總的實驗次數(shù);是系統(tǒng)當前光照條件下視線估計正確率??紤]到環(huán)境因素、主觀因素以及隨機誤差的影響,實踐證明,當視線估計的正確率達到50%時就可以認為本次視線估計在當前光照條件下和精度要求下是有效的。
下面針對50名測試用戶,在不同的屏幕劃分和不同的光照條件下,分別進行20次實驗的平均統(tǒng)計結果,如表2所示。
從表2可見,針對不同的屏幕劃分和不同的光照條件下進行實驗,實驗結果表明,在精度為10°和7°的情況下,可以取得92%以上的正確率,說明當系統(tǒng)所要求的精度不高于7°時,視線估計的效果較好;在精度為5°的情況下,雖然視線估計的正確率有所下降,但仍可以達到59%(>50%)以上的正確率,說明本文的方法的視線估計精度可以到達5°。另外,在不同的光照條件下,視線估計的正確率基本一致,說明本文的方法對光照適應性較好,具有一定的健壯性。
本文方法和其他與顯著圖相關的視線跟蹤方法比較結果,如表3所示。
表2 實驗統(tǒng)計結果
注:每個測試用戶在每種屏幕劃分和每種光照條件下都進行了20次實驗
表3 本文方法與其他基于顯著圖的視線跟蹤方法性能比較
注:文獻[5]需要配置立體相機,用來標定相機、光源和屏幕的空間三維位置
從表3可見,本文方法采用了瞳孔-角膜反射向量作為視覺特征,在配置上使用了紅外光源,增強了系統(tǒng)對光照變化的適應性,在精度以及光照適應性方面要優(yōu)于采用自然光的文獻[4],而與文獻[5]相比較,雖然精度有所下降,但本文方法的配置相對比較簡單,降低了硬件成本。
本文將瞳孔角膜反射技術和顯著圖相結合,提出了一種新的基于顯著圖的視線跟蹤方法。將瞳孔-角膜反射向量作為視覺特征重構了基于顯著圖的概率型視線跟蹤算法,緩解了視線跟蹤系統(tǒng)標定過程繁瑣的問題,且對提高系統(tǒng)的精度和健壯性有一定的促進作用??傊疚膶σ暰€跟蹤系統(tǒng)的標定問題進行了嘗試,提出了一種新的視線跟蹤方法,這為面向人機交互的視線跟蹤系統(tǒng)研究提供了可行的低成本解決方案。
[1] Hansen Dan Witzner, Qiang Ji. In the eye of the beholder: A survey of models for eyes and gaze[J]., 2010, 32(3): 478-500.
[2] 吳廣發(fā), 宋鴻陟, 黃生輝. 基于瞳孔-角膜反射技術的視線跟蹤方法[J]. 現(xiàn)代計算機, 2014(5): 67-71.
[3] Zhu Zhiwei, Ji Qiang. Novel eye gaze tracking techniques under natural head movement[J]., 2007, 54(12): 2246-2260.
[4] Sugano Y, Matsushita Y, Sato Y. Calibration-free gaze sensing using saliency maps[C]//2010(CVPR), 2010: 2667-2674.
[5] Chen Jixu, Ji Qiang. Probabilistic gaze estimation without active personal calibration[C]//2011(CVPR), 2011: 609-616.
[6] 張闖, 遲健男, 張朝暉, 等. 一種新的基于瞳孔-角膜反射技術的視線追蹤方法[J]. 計算機學報, 2010, 33(7): 1272-1285.
[7] 陳錢. 紅外圖像處理技術現(xiàn)狀及發(fā)展趨勢[J]. 紅外技術, 2013, 35(6): 311-318.
[8] Haro A, Flickner M, Essa I. Detecting and tracking eyes by using their physiological properties, dynamics, and appearance[C]//, 2000, 1: 163-168.
[9] 張?zhí)珜? 白晉軍, 孟春寧, 等. 基于單相機雙光源的視線估計[J]. 光電子×激光, 2012, 23(10): 1990-1995.
[10] Fitzgibbon Andrew, Maurizio Pilu, Fisher Robert B. Direct least square fitting of ellipses[J]., 1999, 21(5): 476-480.
[11] Harel J, Koch C, Perona P. Graph-based visual saliency[C]//, 2006: 545-552.
[12] Gneo M, Schmid M, Conforto S, et al. A free geometry model-independent neural eye- gaze tracking system [J]., 2012, 9(1): 1-15.
A Novel Eye Gaze Tracking Method Based on Saliency Maps
HUANG Sheng-hui,SONG Hong-zhi,WU Guang-fa,SI Guo-dong,PENG Hong-xing
(,,510642,)
For the deficiencies that existing eye gaze tracking devices are complex and calibration procedures are tedious, a novel eye gaze tracking method using saliency maps is proposed. With pupil center and reflection center on corneal generated by IR light device, a pupil-corneal reflection vector is constructed, which then acts as a kind of vision feature to reconstruct the eye gaze tracking algorithm based on saliency maps. The experiment result demonstrates that the proposed method not only can alleviate the tedious calibration of eye gaze tracking, but also has a little improvement in system accuracy and robustness, which provides a feasible low-cost eye gaze tracking research for human computer interaction.
eye gaze tracking,pupil-corneal reflection vector,saliency maps,calibration
TP391
A
1001-8891(2015)05-0411-07
2014-12-02;
2015-02-10.
黃生輝(1987-),男,湖南郴州人,碩士研究生,主要研究方向為人機交互,紅外圖像處理。E-mail:ahuang1900@qq.com。
宋鴻陟(1972-),男,黑龍江大慶人,副教授,碩士生導師,主要研究方向為人機交互,信息可視化。E-mail:hz.song@163.com。
國家自然科學基金資助項目,編號:60875045。