陳雅茜, 歐長(zhǎng)坤, 郭瞾陽(yáng)
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 四川 成都 610041)
基于單目視覺(jué)和簡(jiǎn)單手勢(shì)的空間交互技術(shù)
陳雅茜, 歐長(zhǎng)坤, 郭瞾陽(yáng)
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 四川 成都 610041)
和傳統(tǒng)接觸型交互設(shè)備相比, 新穎的非觸摸型空間交互技術(shù)在空間自由度方面有著明顯優(yōu)勢(shì).主要探討基于單目攝像頭和簡(jiǎn)單手勢(shì)的雙手空間交互技術(shù).首先利用膚色分割、濾波優(yōu)化、運(yùn)動(dòng)軌跡預(yù)測(cè)等算法實(shí)現(xiàn)了雙手的跟蹤與識(shí)別.由于需要用空間手勢(shì)及其運(yùn)動(dòng)狀態(tài)來(lái)替代鼠標(biāo), 提出了基于中心偏離控制和基于線性映射的兩種鼠標(biāo)映射模式,進(jìn)而實(shí)現(xiàn)了四種基本空間手勢(shì).基于提出的空間交互技術(shù), 實(shí)現(xiàn)了軟件控制、游戲體驗(yàn)等多個(gè)應(yīng)用.最后討論了基于單目視覺(jué)的雙手空間交互技術(shù)在手部分割、學(xué)習(xí)算法、交互方式等方面的改進(jìn)方向.
單目視覺(jué); 人機(jī)交互; 空間交互; 膚色分割; 鼠標(biāo)控制
對(duì)于鼠標(biāo)、觸摸屏等設(shè)備, 用戶必須接觸到設(shè)備之后才能產(chǎn)生交互效果, 空間自由度存在一定的局限[1].因此, 新穎的非觸摸型空間交互技術(shù)的研究具有一定的實(shí)用意義[2].基于單目攝像頭的空間交互技術(shù)由于低成本、易推廣等特性, 一直都是人機(jī)交互領(lǐng)域的一大研究熱點(diǎn)[3-4].文獻(xiàn)[5]實(shí)現(xiàn)了基于單目攝像頭的單手手勢(shì)識(shí)別, 但并未涉及空間交互技術(shù).文獻(xiàn)[3]設(shè)計(jì)實(shí)現(xiàn)了三個(gè)基于手勢(shì)控制的人機(jī)交互原型系統(tǒng), 但僅是針對(duì)特定的軟件系統(tǒng)集成, 不具備通用性.文獻(xiàn)[4]實(shí)現(xiàn)了基于單目視覺(jué)的雙手識(shí)別, 但空間交互的限制性較多, 自然手勢(shì)交互還需改進(jìn).
本文探討了基于單目攝像頭和簡(jiǎn)單手勢(shì)的雙手空間交互技術(shù), 利用YCbCr膚色分割、Kalman濾波優(yōu)化、GM(1,1)運(yùn)動(dòng)軌跡預(yù)測(cè)等算法實(shí)現(xiàn)了雙手的跟蹤識(shí)別, 基于以上算法深度優(yōu)化了用戶在鼠標(biāo)操作上的體驗(yàn).提出了兩種鼠標(biāo)映射模式, 實(shí)現(xiàn)了四種基本空間手勢(shì).最后還討論了單目視覺(jué)的雙手空間交互技術(shù)在手部分割、學(xué)習(xí)算法、交互方式等方面的改進(jìn)方向.
系統(tǒng)框架如圖1所示.
(1)核心運(yùn)算模塊:封裝膨脹、腐蝕和二值化等運(yùn)算函數(shù).
(2)手部提取與分割模塊:從圖像中分割出多個(gè)目標(biāo), 計(jì)算各個(gè)目標(biāo)的重心并更新目標(biāo)坐標(biāo).
(3)手部跟蹤模塊:利用運(yùn)動(dòng)軌跡預(yù)測(cè)算法對(duì)手部的下一個(gè)可能位置做預(yù)測(cè).
(4)手勢(shì)識(shí)別模塊:對(duì)手部提取結(jié)果中的手部輪廓進(jìn)行凸性分析, 識(shí)別當(dāng)前手勢(shì).同時(shí)使用預(yù)測(cè)模塊的結(jié)果對(duì)多目標(biāo)進(jìn)行標(biāo)記.
(5)濾波優(yōu)化模塊:對(duì)目標(biāo)的坐標(biāo)進(jìn)行濾波處理, 達(dá)到平滑鼠標(biāo)體驗(yàn)的目的.
(6)鼠標(biāo)控制模塊:監(jiān)控系統(tǒng)鼠標(biāo), 提供兩種鼠標(biāo)映射模式.
限于篇幅, 本文主要討論手部提取與分割、手部跟蹤以及鼠標(biāo)控制模塊中的鼠標(biāo)映射模式.
圖1 系統(tǒng)框架Fig.1 System framework
單手跟蹤需要對(duì)干擾目標(biāo)進(jìn)行篩選和提出, 而多手跟蹤則需要對(duì)各個(gè)目標(biāo)進(jìn)行跟蹤預(yù)測(cè).在識(shí)別方面, 如果采用的是簡(jiǎn)單手勢(shì), 則只需要對(duì)手部進(jìn)行凸性分析即可.
2.1 手部分割提取
本文利用橢圓膚色模型對(duì)畫(huà)面中的手實(shí)現(xiàn)分割提?。簩GB顏色空間變換到Y(jié)CbCr空間中, 利用膚色在
YCbCr顏色空間中的聚類(lèi)性質(zhì)提取膚色[6-8].在CbCr平面上, 膚色分布符合橢圓分布, 滿足:
利用式(1)~(2)建模, 經(jīng)實(shí)驗(yàn)得到:
如圖2所示, 在光線明亮、畫(huà)面環(huán)境稍復(fù)雜且有強(qiáng)光源條件下的手部提取效果良好.圖3是環(huán)境光源明暗不均時(shí)的手部提取效果.由于沒(méi)有提取到距離攝像頭較遠(yuǎn)的臉部膚色, 其效果較圖2更為良好.
圖2 復(fù)雜條件下的手部提取效果Fig.2 Hand extraction effects in a complex condition
圖3 環(huán)境光源明暗不均的手部提取效果Fig.3 Hand extraction effects in nonuniform light condition
2.2 濾波優(yōu)化
由于要用手部的空間位置替代屏幕上的鼠標(biāo)位置, 則須利用平滑算法控制鼠標(biāo)位置的抖動(dòng).本文使用的Kalman濾波器[9]假設(shè)系統(tǒng)是線性的, 它的系統(tǒng)行為是基于最小二乘的最佳估計(jì), 不斷把協(xié)方差遞歸, 估算出最優(yōu)值, 系統(tǒng)的模型和觀測(cè)估計(jì)擁有最小的方差.Kalman濾波器的實(shí)時(shí)運(yùn)行效率很高, 可以隨不同時(shí)刻而改變它的值:
2.3 基于運(yùn)動(dòng)軌跡預(yù)測(cè)的手部跟蹤
本文將改進(jìn)的灰色理論GM(1,1)模型[10-12]的預(yù)測(cè)算法應(yīng)用于對(duì)手部運(yùn)動(dòng)軌跡的實(shí)時(shí)跟蹤.本文使用的待預(yù)測(cè)序列長(zhǎng)度為30.
④得到序列預(yù)測(cè)值為:
求出預(yù)測(cè)坐標(biāo):
⑤在預(yù)測(cè)坐標(biāo)附近進(jìn)行小范圍目標(biāo)搜索, 如果找到, 則標(biāo)記此目標(biāo)為跟蹤目標(biāo).
⑥確定跟蹤目標(biāo)后, 通過(guò)圖像分析來(lái)獲得精確坐標(biāo), 并將下一次的預(yù)測(cè)基準(zhǔn)序列更新為返回(1); 若根據(jù)預(yù)測(cè)沒(méi)有搜索到目標(biāo), 則拋棄前有結(jié)果, 重新獲取預(yù)測(cè)坐標(biāo)序列返回(1).
圖4 手部跟蹤效果一Fig.4 Hand tracking effects
圖5 手部跟蹤效果二Fig.5 Hand tracking effects
實(shí)現(xiàn)結(jié)果見(jiàn)圖4、5所示, 該預(yù)測(cè)算法不僅速度快、精度高, 系統(tǒng)開(kāi)銷(xiāo)小于CamShift /MeanShift等算法, 且跟蹤效果與手空間姿勢(shì)無(wú)關(guān).
2.4 手勢(shì)識(shí)別
在目標(biāo)跟蹤的基礎(chǔ)上, 本文實(shí)現(xiàn)了對(duì)手掌和握拳兩種基本手勢(shì)的識(shí)別, 對(duì)[5]提出的靜態(tài)手勢(shì)識(shí)別思想進(jìn)行了改進(jìn)與優(yōu)化:以目標(biāo)重心為圓心畫(huà)圓, 并統(tǒng)計(jì)圓上不相交區(qū)域的個(gè)數(shù)即手指的個(gè)數(shù), 對(duì)區(qū)域進(jìn)行凸性分析(僅判斷是否存在不相交區(qū)域), 從而確定當(dāng)前手勢(shì), 具體算法如下:
①先得出分割提取后手的凸包坐標(biāo)[13], 不妨設(shè)共個(gè),是指標(biāo)集:
本文通過(guò)4種基本手勢(shì)替代鼠標(biāo)操作:手掌移動(dòng)表示鼠標(biāo)移動(dòng); 由手掌轉(zhuǎn)變?yōu)槲杖硎景聪率髽?biāo)左鍵; 由握拳轉(zhuǎn)變?yōu)槭终票硎踞尫攀髽?biāo)左鍵; 長(zhǎng)時(shí)間的握拳表示單機(jī)鼠標(biāo)右鍵.本文設(shè)計(jì)了兩種鼠標(biāo)映射模式來(lái)實(shí)現(xiàn)對(duì)鼠標(biāo)移動(dòng)的控制:
模式1是基于中心偏離控制的映射模式, 見(jiàn)圖6(a):畫(huà)面中設(shè)定一個(gè)有效區(qū)域(長(zhǎng)寬減小), 當(dāng)手位于區(qū)域內(nèi), 觸發(fā)鼠標(biāo)控制.手離畫(huà)面中心越遠(yuǎn), 鼠標(biāo)沿該方向的移動(dòng)速度越快, 見(jiàn)式(12).對(duì)給定的,是圖像中心坐標(biāo).手位于穩(wěn)定區(qū)域內(nèi)則鼠標(biāo)指針不移動(dòng).
模式2是基于線性映射的映射模式, 見(jiàn)圖6(b):設(shè)定畫(huà)面中的有效區(qū)域(長(zhǎng)寬減小), 將有效區(qū)域通過(guò)線性映射變換(式13)到系統(tǒng)屏幕中.
圖6 兩種鼠標(biāo)映射模式Fig.6 Mouse mapping models
經(jīng)用戶測(cè)試[14-15], 我們發(fā)現(xiàn)模式2適合普通情景下的鼠標(biāo)控制, 學(xué)習(xí)成本較低; 而模式1則更適合FPS等游戲場(chǎng)景中的鼠標(biāo)控制.
本文通過(guò)橢圓膚色模型、軌跡預(yù)測(cè)及Kalman濾波優(yōu)化等算法實(shí)現(xiàn)了基于單目攝像頭和簡(jiǎn)單手勢(shì)的雙手空間交互技術(shù).未來(lái)需在識(shí)別算法、交互方式等方面做進(jìn)一步改進(jìn):
1) 手部分割:后續(xù)將重點(diǎn)研究如何在復(fù)雜光源及近似膚色干擾等情況[16-18]下確保分割算法的正確性.另外,可引入機(jī)器學(xué)習(xí)等算法對(duì)橢圓膚色模型的膚色范圍參數(shù)等先驗(yàn)結(jié)果進(jìn)行學(xué)習(xí).
2) 學(xué)習(xí)算法的引入:引入具有先驗(yàn)知識(shí)的學(xué)習(xí)算法能夠大幅提升識(shí)別率.在推薦系統(tǒng)中, 經(jīng)過(guò)巧妙設(shè)計(jì)特征, 使用推薦算法和先驗(yàn)知識(shí)能更有效的對(duì)錄入的用戶的行為信息進(jìn)行管理和挖掘, 進(jìn)而激發(fā)用戶的參與性,主動(dòng)改進(jìn)并完善識(shí)別系統(tǒng), 大幅度提高識(shí)別率[21].再如, 雖然單目視覺(jué)深度信息的提取幾乎不可行[19-20], 但可以考慮通過(guò)監(jiān)督學(xué)習(xí)算法(如Markov隨機(jī)場(chǎng))恢復(fù)一些粗糙的深度信息[22-23].
3) 交互方式的改進(jìn):本文通過(guò)4種預(yù)設(shè)手勢(shì)實(shí)現(xiàn)了基本鼠標(biāo)操作, 但距用戶自然多變的交互需求還有一定差距.因此不僅需要對(duì)基于自然手勢(shì)的交互方式進(jìn)行研究, 還可以嘗試通過(guò)多通道輸入信號(hào)篩選出更多有效的交互信息, 并將這些參數(shù)提供給游戲的物理引擎[1-2], 從而帶來(lái)更加真實(shí)、自然的交互體驗(yàn).
[1]ANDREW D.WILSON, SHAHRAMIZADI, OTMARHILLIGES.Bringing physics to the surface[C]//ACM UIST ’08.MONTEREY, CA, October 2008.
[2]OTMARHILLIGES, SHAHRAMIZADI, ANFREW D WILSON.Interactions in the Air: Adding Further Depth to Interactive Tabletops[C]//ACM UIST ’09.VICTORIA, BC, October 2009.
[3]柴秀娟.用于視覺(jué)交互系統(tǒng)的手勢(shì)跟蹤和識(shí)別研究[D].北京: 北京郵電大學(xué), 2009.
[4]趙書(shū)興.基于單目視覺(jué)的雙手手勢(shì)識(shí)別技術(shù)研究[D].南京: 南京師范大學(xué), 2013.
[5]李平, 李允俊.基于手勢(shì)識(shí)別算法的鼠標(biāo)終端[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2013, 22(8):83-84.
[6]YANG J, WAIBEL A.A Real-Time Face Tracker[J].Proceedings 3rd IEEE Workshop on,1996:142-147.
[7]HSU RL, MOHAMED AM, JAIN AK.Face Detection in Color Images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 696-706.
[8]SORENSON H W.Least-squares estimation: from Gauss to Kalman[J].IEEE Spectrum, 1970: 7-12.
[9]彭丁聰.卡爾曼濾波的基本原理及應(yīng)用[J].軟件導(dǎo)刊, 2009(11): 32-34.
[10]譚冠軍.GM(1,1)模型的背景值構(gòu)造方法和應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐, 2000(4): 91-97.
[11]劉思峰, 鄧聚龍.GM(1,1)模型的適用范圍[J].系統(tǒng)工程理論與實(shí)踐, 2000(5):98-103.
[12]張大海, 江世芳.灰色預(yù)測(cè)公式的理論缺陷及改進(jìn)[J].系統(tǒng)工程理論與實(shí)踐, 2002(8):140-142.
[13]K HOMMA , EI TAKENAKA.An image processing method for feature extraction of space-occupying lesions[J].Journal of Nuclear Medicine, 1985, 26: 1472-1477.
[14]歐長(zhǎng)坤.基于單目攝像頭和計(jì)算機(jī)視覺(jué)的空間交互技術(shù)的研究與實(shí)現(xiàn)[R].成都:西南民族大學(xué), 2013.
[15]歐長(zhǎng)坤.Demo項(xiàng)目[EB/OL].(2013-12-1)[2014.05.25].http://www.euryugasaki.com/works/demo.
[16]尼璐璐.基于物理的高光條件下人臉圖像膚色檢測(cè)技術(shù)的研究[D].天津: 天津大學(xué), 2007.
[17]鄭利華,張亞紅.一種基于HSV空間的人像高光區(qū)域自適應(yīng)修正方法[J].桂林航天工業(yè)高等??茖W(xué)校學(xué)報(bào), 2012(03):243-246
[18]黃廷輝, 楊飛, 崔更申.光照魯棒性較強(qiáng)的膚色檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用, 2014,34(04):1130-1133,1138.
[19]D SCHARSTEIN, R SZELISKI.A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J].Int’l Journal of Computer Vision, 47:7-42, 2002.
[20]DAVID A.FORSYTH AND JEAN PONCE.Computer Vision: A Modern Approach[M].Prentice Hall, 2003.
[21]陳雅茜, 劉韜, 方詩(shī)虹.推薦系統(tǒng)及其相關(guān)技術(shù)研究[J].西南民族大學(xué)學(xué)報(bào): 自然科學(xué)版, 2014, 40(3): 439-442
[22]SAXENA A, CHUNG S H, NG A Y.Learning depth from single monocular images[J].In Neural information processing system (NIPS) 2005, 18: 119-121.
[23]SAXENA A, CHUNG S H, NG A Y.3-D Depth Reconstruction from a Single Still Image[J].Int J Comput Vis, 2008(76): 53-69.
Space interactions based on monocular vision and simple gestures
CHEN Ya-xi, OU Chang-kun, GUO Zhao-yang
(Southwest University for Nationalities, Chengdu 610041, P.R.C.)
Considering the issue of spacial freedom, novel non-touch space interaction precedes traditional interactive devices with touch screen. This paper mainly discusses space interactions based on monocular camera and simple gestures.Firstly, hands tracking and recognition are realized by using skin color segmentation, filter optimization and trajectory prediction.Since mouse movement should be replaced by spacial gestures, two mouse mapping modes (central-bias and linear-mapping) are proposed, based on which, four simple spacial gestures are designed.Based on space interaction technology, this paper implemented various applications such as software control and game experience.Future improvements are then discussed, including hand segmentation, learning algorithm and interaction modes.
monocular vision; human-computer interaction; space interaction; skin color segmentation; mouse control
TP391.41
A
1003-4271(2014)06-0871-06
10.3969/j.issn.1003-4271.2014.06.13
2014-09-12
陳雅茜(1981-), 女, 漢族, 四川雅安人, 副教授, 博士, 研究方向: 人機(jī)交互、信息可視化, Email: yaxichen@swun.cn.
2014年國(guó)家外專項(xiàng)目; 西南民族大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)基金(青年教師基金項(xiàng)目)(13NZYQN19);西南民族大學(xué)2013年教育教學(xué)改革項(xiàng)目(2013ZC70);2014年度西南民族大學(xué)國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201410656005)