王佳雯,管業(yè)鵬
(上海大學通信與信息工程學院,上海200444)
基于人眼注視非穿戴自然人機交互*
王佳雯,管業(yè)鵬*
(上海大學通信與信息工程學院,上海200444)
提出了一種基于人眼注視的非穿戴自然人機交互新方法。基于人體生物結(jié)構(gòu)特征,采用主動形狀模型確定人眼輪廓特征點,并根據(jù)HSV色彩空間構(gòu)建人眼特征直方圖,采用粒子濾波法,對人眼目標跟蹤與定位?;谧畲笕腔瘎澐秩搜圯喞卣?,構(gòu)建人眼幾何模型,通過圖像幀間均值濾波,確定人眼注視交互目標,實現(xiàn)非穿戴的人機交互,滿足用戶交互的靈活性、舒適性和自由性等要求。通過實驗對比,驗證了該方法有效、可行。
人機交互;非穿戴;三角化劃分;人眼幾何模型;人眼注視
隨著計算機應(yīng)用的日益普及,人機交互技術(shù)已成為人們工作、學習與生活的重要組成部分,研究“以人為中心”的自然、和諧與高效的人機交互技術(shù),日益受到人們的高度重視[1]。
目前,使用常規(guī)輸入設(shè)備(如鍵盤、鼠標和觸摸屏等)進行輸入的人機交互過程,不僅單調(diào)、呆板,且具有一定的局限性。隨著計算機技術(shù)的迅猛發(fā)展,交互方式更加多元化,出現(xiàn)了Kinect、Xtion Pro、Leap Motion以及Google Glass等基于視覺、聽覺、觸覺及其多模態(tài)(亦稱為通道)的體感交互設(shè)備。其中,Ki?nect、Xtion Pro雖可獲取穩(wěn)定的人體骨架點,但有效確定人體側(cè)面骨架以及人體的細微關(guān)節(jié)點(如手指尖)困難;Leap Motion雖可獲取穩(wěn)定的手指尖位置,但僅能進行有限近距離的人機交互;Google Glass雖集成了觸摸與語音信號,但交互方式為穿戴式,在一定程度上制約了人機交互的靈活性和自由性。
在人類信息的獲取中,Mehrabian[2]認為93%來自于非言語。在非言語人類交互中,人臉面部特征不僅可傳達豐富的視覺信息,且可通過人臉朝向顯性或隱性地表達目標。基于人臉朝向的人機交互方法的關(guān)鍵之一,是如何有效確定人臉朝向。目前已提出了較多人臉朝向確定方法,其中,Zhang等人[4]基于機器學習各方向的人臉朝向檢測器,進行人臉朝向識別,該方法雖可適用于低分辨率圖像,但隨著檢測器的增加,訓練樣本分類難度將顯著增加,同時,因相鄰檢測器之間存在串擾,導致難以有效應(yīng)用于實際人機交互中;Heo和Savvides[5]基于3D人臉訓練數(shù)據(jù),獲取二維投影人臉形狀,利用二維人臉五官特征點,構(gòu)建人臉模型估計人臉朝向,但因僅利用面部五官特征,而未充分利用人臉其他特征點,因此其人臉朝向的有效性低;Yang等人[6]基于2D/3D方向梯度直方圖,通過樣本訓練和學習,確定人臉朝向,但該方法僅能粗略估計有限人臉朝向。在上述人臉朝向確定方法[3-6]中,均通過機器學習、訓練,不僅受訓練樣本因素影響,且運算復雜。為克服上述不足,Beymer等人[7]采用歸一化互相關(guān)和外觀匹配模板,確定數(shù)據(jù)庫中已有人臉朝向,但該法僅能估計離散面部朝向,且增加模板將導致計算更加耗時,因而難滿足人機交互要求。其他學者雖也提出了其它不同人臉朝向確定方法[8-10],但因人臉易受多種非可控因素(如姿態(tài)、表情、光照等)影響,因此,采用人臉朝向進行人機交互,其交互性能并不理想。
相對于人臉朝向,采用視線進行人機交互則更加迅捷。其中,程成等人[11]采用線性預(yù)測眼動檢測與跟蹤方法,估計用戶視線方向,選取前方液晶顯示屏上的虛擬目標;Sugano等人[12]基于高斯過程回歸,建立眼睛圖像與視線交互點之間的映射關(guān)系,獲取交互用戶在所觀察圖片上的注視點。上述基于視線人機交互方法[11-12],由于微小的眼球移動,將產(chǎn)生較大的視線變化。為克服上述不足,基于多模態(tài)人機交互方法[13-14],則利用多種感知模態(tài)的互補性。其中,Tu等人[13]基于手勢和面部朝向,控制機器人頭部旋轉(zhuǎn);Carrino等人[14]則基于手勢和語音與智能家居進行多模態(tài)交互,但在交互過程中,用戶需穿戴攝像機與麥克風于用戶手臂上,從而在一定程度上限制了用戶交互的自然性和靈活性要求。
由上述分析知,目前雖已提出了基于不同交互模態(tài)或其組合的多種人機交互方法,但大多均假定交互場景中僅存在單一交互用戶,且場景環(huán)境或條件可控,并限定用戶僅能在指定的有限范圍內(nèi)活動與交互,從而在很大程度上制約了用戶交互的自由性與靈活性。
針對上述不足,提出了一種新穎的基于人眼注視的非穿戴自然人機交互新方法。實驗結(jié)果表明,該方法有效、可行,用戶無需佩戴任何標記,通過其人眼注視方向的改變,快速控制桌面音樂播放器。
由于主動形狀模型ASM(Active Shape Model)[15]可根據(jù)人臉姿態(tài)定位人眼特征點,并適應(yīng)場景光照變化,因此,文中基于ASM[15]定位人眼輪廓特征點。
設(shè)人眼樣本i的眼部具有n個特征點組成如下形狀向量:
式中,(xij,yi)j分別表示第i個樣本的第j個特征點坐標。
為得到n個特征點的形狀變化規(guī)律,對每一樣本形狀向量縮放、平移和旋轉(zhuǎn),并將樣本做如下歸一化:
式中,P=[p1,p2,…,p2n]為主成分軸,bi[=bi1,bi2,…,bi2n]為主成分軸加權(quán)值,即人眼形狀參數(shù)。
基于Viola-Jones方法[16]進行人眼檢測搜索,并根據(jù)此人眼矩形擬合框的大小及位置,初始化縮放、旋轉(zhuǎn)以及平移參數(shù),得到如下初始形狀特征點向量Xi:
式中,Pm[=p1,p2,…,pm]為經(jīng)PCA降維后的前m主成分軸,bm為經(jīng)PCA降維后的前m主成分軸的加權(quán)值。
當人臉姿態(tài)發(fā)生變化時,根據(jù)式(4),對人眼特征點輪廓線法線方向搜索最佳特征點位置,并調(diào)整姿態(tài)參數(shù)(S,θ,t)以及形狀參數(shù)bm,以更新形狀模型?;谏鲜龇椒?,提取的人眼輪廓特征點如圖1(b)。
圖1 人眼輪廓特征點提取
為提高基于ASM[15]人眼輪廓特征點定位的時效性,根據(jù)HSV色彩空間中的色調(diào)分量H、飽和度分量S對光照不敏感[17],建立8級色彩(H,S)分量直方圖以及根據(jù)HSV色彩空間中的亮度分量V,對人眼目標區(qū)域建立8級方向梯度直方圖以描述人眼目標區(qū)域的空間位置信息。按下式獲取融合色彩(H、S)直方圖和亮度(V)灰度梯度方向直方圖的人眼特征直方圖qr:
其中,C為規(guī)一化系數(shù):
基于上述人眼特征直方圖qr,采用粒子濾波方法[18],對人眼目標進行動態(tài)跟蹤與定位。
基于人眼輪廓特征點處于同一平面,根據(jù)上述確定的人眼輪廓特征點(如圖1(b)),選取人眼N個輪廓特征點,描述人眼輪廓特征信息,并對N個人眼輪廓特征點進行編號(如圖2(a)),以確保人眼輪廓特征間的相對位置關(guān)系不因人臉姿態(tài)變化而變化。根據(jù)3點唯一確定一空間平面,將編號的輪廓特征點進行最大三角化劃分,以降低計算復雜度。同時,在三角化劃分過程中,三角形不重復且三角形的3個頂點均勻分布在人眼輪廓線上,將所劃成的N個三角形,構(gòu)成N個相互獨立的空間平面(如圖2(b))。
式中,(A,B,C)為三角形的3個頂點,N為輪廓特征點的個數(shù)分別為取下底和上頂運算符,M為劃分后的三角形的數(shù)量即集合的總數(shù)。
分別對三角形劃分后的每一個三角形,求出其所在平面的法向量:
式中,n為三角形所在平面法向量,AB和AC為三角形所在平面的向量,×為向量叉乘運算符。
圖2 基于人眼輪廓特征點的網(wǎng)格化
由于臉部以及人眼不可避免地存在波動,導致基于人眼部位不同三角形求得的交互目標空間點,難匯聚到同一交互點。為克服上述影響,采用剔除極值法,剔除基于M個三角形所確定的TM點中最大和最小各20%的數(shù)據(jù)T,保留剩余的M*個TM*點。同時,為克服因人眼注視在圖像幀之間的交互目標點T波動,對k幀圖像的T點做如下幀間均值濾波,以確定穩(wěn)定的人眼注視交互目標空間點Tˉ:
式中,T(i,j)為基于當前圖像幀的前第i幀的第j個三角形平面求解出的交互目標空間點,k為幀間均值濾波幀數(shù)(將后續(xù)討論、說明)。
為驗證所提方法的有效性,基于如圖3所示的實驗裝置進行實驗,并采用多人工作與學習的實驗室作為人機交互場景。場景中的用戶無需佩戴任何有助于特征識別的標志物,按照各自交互習慣,通過其人眼注視方向,控制音樂播放器。
圖3 基于人眼注視人機交互實驗裝置示意圖
3.1參數(shù)討論與分析
由上述分析知:式(9)中的濾波幀數(shù)k對注視交互目標的確定存在一定程度影響,取值過大易導致交互目標空間點-T收斂慢,取值過小則易引起交互目標空間點-T不穩(wěn)定。
為獲取合適的k值,基于圖3所示的實驗裝置進行實驗。采用交互目標空間點-T的標準差,表征交互目標空間點的穩(wěn)定性。標準差越小,表明交互目標空間點越穩(wěn)定。其中,所得實驗結(jié)果如圖4。
圖4 注視交互目標空間點標準差隨參數(shù)k的變化
由圖4知,當k=5時,交互目標空間點T-標準差最小,且當k>5后,交互目標空間點T-標準差變化幅度趨于穩(wěn)定。因此,取k=5,并在實驗中保持不變。
3.2交互目標識別結(jié)果分析
為驗證所提方法在實際交互場景下確定交互目標的有效性,基于OpenCV,Pentium E3400 2.60GHz雙核CPU,4.00GB RAM PC機,VS2010 C/C++編譯環(huán)境,進行基于人眼注視交互的音樂播放器響應(yīng)實驗。其中,部分實驗結(jié)果如圖5~圖6所示。
圖5 不同尺度下的人眼注視音樂播放器交互響應(yīng)結(jié)果
圖5中交互用戶位于不同位置,通過其人眼注視桌面音樂播放交互屏的不同控件,自左至右,由上至下,分別控制音樂播放器的播放、音量加、音量減和暫停。
由圖5部分交互結(jié)果知:交互用戶處于不同位置,通過其人眼注視方向,有效地控制了音樂播放器的相應(yīng)響應(yīng)。
圖6中的交互用戶,通過其人眼注視桌面音樂播放交互屏的不同控件時,分別受到交互用戶背面的日光燈及其右側(cè)窗口自然光及其鏡面反射光等光照變化影響。在上述不利光照因素影響下,由圖6部分交互結(jié)果知:交互用戶通過其人眼注視方向,有效地確定了音樂播放器的播放、音量加、音量減和暫停(見圖6自左至右,由上至下交互響應(yīng)結(jié)果)。
圖6 不同光照下的人眼注視音樂播放器交互響應(yīng)結(jié)果
上述部分實驗結(jié)果,定性地表明本文方法有效、可行。
為進一步定量評價所提方法有效性,在同一實驗環(huán)境下,分別與文獻[11,13]進行基于分辨率為640 pixel×480 pixels的視頻圖像的交互目標識別和每幀處理耗時統(tǒng)計的實驗對比,對比結(jié)果如表1所示。
表1 不同交互方法定量對比
由表1實驗對比結(jié)果知,所提方法具有高的交互目標識別率和快速的交互時效性。主要原因分析如下:文獻[11]通過提取眼球瞳孔及角膜對紅外光的反光點位置,根據(jù)觀察者頭部位置進行映射函數(shù)標定,確定瞳孔-反光點向量的注視點位置。由于眼球瞳孔及其角膜位置的有效獲取與光源及其光照條件關(guān)聯(lián),且映射函數(shù)的有效標定,在很大程度上取決于交互用戶頭部姿態(tài)的有效確定;文獻[13]基于面部識別和手勢動作進行人機交互,根據(jù)交互用戶眼和嘴唇中心確定頭部姿態(tài),因此,其頭部姿態(tài)的有效性,在很大程度上取決于人眼和嘴唇中心的有效確定,且所采用的手勢動作因存在多樣性與多義性,因此,其交互目標的識別率低且交互時間長;而所提方法則基于人眼注視進行交互時,采用最大三角化劃分人眼輪廓特征,構(gòu)建人眼幾何模型并確定人眼注視方向,用戶交互真實意圖與人的視線方向一致性強,因而,交互目標的識別率高且交互響應(yīng)快捷。
針對目前人機交互方法存在的不足,提出了一種基于人眼注視的非穿戴自然人機交互新方法,用戶無需佩戴任何標記,且其活動不受約束,滿足交互活動的舒適性和自然性要求?;谌祟惿锝Y(jié)構(gòu)特征,采用ASM確定人眼輪廓特征點,并根據(jù)HSV色彩空間中的各色彩和亮度信息,構(gòu)建綜合反映人眼紋理及其空間位置的人眼特征直方圖,采用粒子濾波方法,對人眼目標進行動態(tài)跟蹤與定位,提高人眼輪廓特征點定位的時效性。利用最大三角化劃分人眼輪廓特征,構(gòu)建人眼幾何模型并確定人眼注視方向,提高人機交互的活動自由度。通過圖像幀間的均值濾波確定人眼注視交互目標,以提高基于人眼注視人機交互的正確性和魯棒性。實驗結(jié)果表明,該方法有效、可行。
[1]管業(yè)鵬.基于多模態(tài)視覺特征的自然人機交互[J].電子學報,2013,41(11):2223-2229.
[2]Mehrabian A.Communication without Words[J].Psychology To?day,1968,2(4):53-56.
[3]Ma Y,Konishi Y,Kinoshita K,et al.Sparse Bayesian Regression for Head Pose Estimation[C]//Proceedings of International Con?ference on Pattern Recognition,2006,3:507-510.
[4]Zhang Z,Hu Y,Liu M,et al.Head Pose Estimation in Seminar Room Using Multi View Face Detectors[C]//Proceedings of Inter?national Conference on Multimodal Technologies for Perception of Humans,2007:299-304.
[5]Heo J,Savvides M.Generic 3D Face Pose Estimation Using Fa?cial Shapes[C]//Proceedings of International Conference on Bio?metrics,2011:1-8.
[6]Yang J L,Liang W,Jia Y D.Face Pose Estimation with Combined 2D and 3D HOG Features[C]//Proceedings of IEEE Conference on Pattern Recognition,2012:2492-2495.
[7]Beymer D J.Face Recognition under Varying Pose[C]//Proceed?ings of IEEE Conference on Computer Vision and Pattern Recog?nition,1994:756-761.
[8]ChengLP,HsiaoFI,.LiuYT,etal.iRotate:AutomaticScreenRota?tion Based on Face Orientation[C]//Proceedings of SIGCHI Confer?enceonHumanFactorsinComputingSystems,2012:2203-2210.
[9]Ratsamee P,Mae Y,Ohara K,et al.Social Navigation Model Based on Human Intention Analysis Using Face Orientation[C]// Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems,2013:1682-1687.
[10]Dong N,Zeng X,Guan L.Face Orientation Detection Using Histo?gram of Optimized Local Binary pattern[M].The Era of Interac?tive Media,2013:77-87.
[11]程成,杜菁菁,藍飛翔.眼動交互的實時線性算法構(gòu)造和實現(xiàn)[J].電子學報,2009,37(B04):12-15.
[12]Sugano Y,Matsushita Y,Sato Y.Appearance-Based Gaze Estima?tion Using Visual Saliency[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(2):329-341.
[13]Tu Y J,Kao C C,Lin H Y.Human Computer Interaction Using Face and Gesture Recognition[C]//Proceedings of IEEE Interna?tional Conference on Signal and Information Processing,2013:1-8.
[14]Carrino S,Péclat A,Mugellini E,et al.Humans and Smart Envi?ronments:A Novel Multimodal Interaction Approach[C]//Proceed?ings of ACM International Conference on Multimodal Interfaces,2011:105-112.
[15]Cootes T F,Taylor C J,Cooper D H,et al.Active Shape Models-Their Training and Application[J].Computer Vision and Image Understanding,1995,61(1):38-59.
[16]Viola P,Jones M.Robust Real-Time Face Detection[J].Interna?tional Journal of Computer Vision,2004,57(2):137-154.
[17]Guan Y P.Spatio-Temporal Motion Based Foreground Segmenta?tion and Shadow Suppression[J].IET Computer Vision,2010,4 (1):50-60.
[18]Liu J,Liu D,Dauwels J,et al.3D Human Motion Tracking by Ex?emplar-Based Conditional Particle Filter[J].Processing Signal,2015,110(S1):164-177.
王佳雯(1993-),女,浙江慈溪人,上海大學通信與信息工程學院本科生,主要感興趣研究方向為智能人機交互與視頻監(jiān)控;
管業(yè)鵬(1967-),男,湖北孝感人,上海大學通信與信息工程學院教授,博導,主要感興趣方向為智能人機交互、大數(shù)據(jù)科學計算與決策、計算機視覺與模式識別等,ypguan@shu.edu.cn。
Gazing Based Non-Wearable and Natural Human-Computer Interaction*
WANG Jiawen,GUAN Yepeng*
(School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China)
A novel non-wearable and natural human-computer interaction(HCI)method has been proposed based on eye gazing.According to human being biological structure characteristics,an active shape model is employed to locate some feature points in the eye profile.A histogram of eye feature has been built according to the HSV color space.A particle filter method has been adopted to track and locate the eye.A 2D eye geometric model is constructed based on the maximal triangulation of the eye contour features.A temporal median filter strategy has been developed to determine a stable gazing interactive target.Non-wearable and natural HCI modal is realized in which the user can move flexibly both in comfort and freedom interactive ways.Experiment results indicate that the developed approach is efficient and can be used to natural non-wearable HCI.
human-computer interaction;non-wearable;triangulation;eye geometric model;eye gazing
R339.14;TP242.62
A
1005-9490(2016)02-0253-05
EEACC:7510D;6140C10.3969/j.issn.1005-9490.2016.02.004
項目來源:國家自然科學基金項目(11176016,60872117);高等學校博士學科點專項科研基金項目(20123108110014)
2015-05-12修改日期:2015-06-24