北方民族大學(xué)電氣信息工程學(xué)院 蔣涵妮
基于深度圖像的手勢(shì)識(shí)別技術(shù)研究
北方民族大學(xué)電氣信息工程學(xué)院 蔣涵妮
隨著計(jì)算機(jī)技術(shù)的發(fā)展,手勢(shì)識(shí)別逐漸成為了人機(jī)交互的熱點(diǎn)問題。本文利用Kinect攝像可以頭采集到深度圖像、彩色圖像和人體骨骼信息的優(yōu)勢(shì),通過利用Kinect攝像頭采集的深度圖像距離不同深度值不同的特點(diǎn),通過設(shè)定深度閾值較好地將背景區(qū)域分割掉,將手勢(shì)部分分割出來。特征提取部分利用曲率算法得到指尖個(gè)數(shù),最后通過指尖個(gè)數(shù)進(jìn)行手勢(shì)識(shí)別。
人機(jī)交互;手勢(shì)識(shí)別;深度圖像;曲率算法
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人機(jī)交互逐漸成為學(xué)者們研究的熱潮,它將我們的生活引領(lǐng)到更加方便更加智能的潮流中。其中手勢(shì)作為人體敏感、靈活的部位,更是被廣泛地應(yīng)用于人機(jī)交互中,稱為我們所熟知的手勢(shì)識(shí)別。
本文主要介紹靜態(tài)手勢(shì)識(shí)別。2010年,Microsoft發(fā)布了基于紅外線深度傳感技術(shù)的Kinect系列體感設(shè)備以及配套的Kinect for Windows SDK開發(fā)套件,Kinect攝像頭可以采集到深度圖像、彩色圖像和人體骨骼信息,傳統(tǒng)的基于膚色分割手勢(shì)會(huì)受到光照及類膚色背景區(qū)域的影響,本文采用基于深度閾值的分割可以有效的避免光照及復(fù)雜背景環(huán)境的影響,完整地分割出手勢(shì)部分;利用曲率算法得到指尖個(gè)數(shù),通過指尖個(gè)數(shù)將手勢(shì)分類。
1.1 kinect攝像頭介紹
Kinect有三個(gè)鏡頭,中間的鏡頭是RGB彩色攝像機(jī),用來采集彩色圖像,左右兩邊鏡頭則分別為紅外線發(fā)射器和紅外線CMOS攝影機(jī)所構(gòu)成的3D結(jié)構(gòu)光深度感應(yīng)器,用來采集深度數(shù)據(jù),其基本成像原理就是利用內(nèi)置的CMOS圖像傳感器來對(duì)投影的紅外光譜進(jìn)行接受,接受結(jié)束后對(duì)其實(shí)施編碼,變成反射斑點(diǎn)圖像,最終形成深度圖像。
1.2 深度閾值分割算法
Kinect傳感器能在1.2-3.5m范圍內(nèi),獲取11位分辨率的深度數(shù)據(jù),利用這些深度信息,便于從背景中更好地區(qū)分出目標(biāo)物體。物體的實(shí)際距離和深度圖像中呈現(xiàn)的深度數(shù)據(jù)具有一定的轉(zhuǎn)換關(guān)系,假設(shè)三維空間中存在一個(gè)像素點(diǎn),設(shè)為q,其深度值為d0,實(shí)際距離值為d,則兩者轉(zhuǎn)換關(guān)系如式(1)所示:
其中,K=12.36cm,L=1.18rad,H=3.5×10-4rad,O=3.7cm。
設(shè)在深度圖像中存在的q點(diǎn)坐標(biāo)為(i, j ),在3D空間的坐標(biāo)可以設(shè)為( x, y, z),可以通過(i, j )像素坐標(biāo)和d來計(jì)算3D空間的向量坐標(biāo)( x, y, z),如式(2)所示:
根據(jù)人們的操作習(xí)慣,這里設(shè)定人的手部在人的身體前方,不在同一水平位置,且手部不攝像頭之間沒有遮擋物。本文設(shè)定的深度圖像中的深度值范圍為700-780,則大于閾值的部分即背景和小于閾值范圍的部分及前景被有效地分割掉,保留了手勢(shì)部分。
在OpenCV函數(shù)庫中,調(diào)用cvFindContours函數(shù)將圖像輪廓從二值圖像中檢索出來,得到手勢(shì)輪廓。
按照指尖曲率算法得到每種手勢(shì)的指尖數(shù)目,然后根據(jù)指尖數(shù)目的不同區(qū)分每種手勢(shì),本文對(duì)0~5這6種手勢(shì)進(jìn)行識(shí)別。
實(shí)驗(yàn)過程中,共有5位實(shí)驗(yàn)者參加,在3中背景下進(jìn)行,每位實(shí)驗(yàn)者擺出0~5共6種手勢(shì),每種手勢(shì)變換各種姿勢(shì)做10遍,共計(jì)900個(gè)手勢(shì),識(shí)別結(jié)果如表1所示:
數(shù)字手勢(shì)012345識(shí)別率(%)9898999395100
本文利用Kinect攝像可以頭采集到深度圖像、彩色圖像和人體骨骼信息的優(yōu)勢(shì),通過利用Kinect攝像頭采集的深度圖像距離不同深度值不同的特點(diǎn),通過設(shè)定深度閾值較好地將背景區(qū)域分割掉,將手勢(shì)部分分割出來。特征提取部分利用曲率算法得到指尖個(gè)數(shù),最后通過指尖個(gè)數(shù)進(jìn)行手勢(shì)識(shí)別。
人機(jī)交互是未來研究的重要方向,就目前的發(fā)展趨勢(shì),手勢(shì)識(shí)別將逐步滲透到各個(gè)專業(yè)領(lǐng)域以及人們的生產(chǎn)生活中,手勢(shì)識(shí)別的發(fā)展可以大大的方便人們的生活,逐漸地提高人們的生活水平。
[1] 楊明華.手勢(shì)識(shí)別技術(shù)的應(yīng)用研究[D].東華大學(xué),2012.
[2]莫舒.基于視覺的手勢(shì)分割算法的研究[D].華南理工大學(xué),2012.
[3]劉同仲.基于Kinect設(shè)備手勢(shì)識(shí)別技術(shù)的研究及應(yīng)用[D].北京:北京工業(yè)大學(xué),2015.
[4]曹雛清,李瑞峰,趙立軍.基于深度圖像技術(shù)的手勢(shì)識(shí)別方法[J].計(jì)算機(jī)工程,2012,38(8):16-18.
[5]陳皓,路海明.基于深度圖像的手勢(shì)識(shí)別綜述[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2014, 45(1): 105-111.
項(xiàng)目支持:北方民族大學(xué)研究生創(chuàng)新項(xiàng)目《基于Kinect深度圖像的手勢(shì)識(shí)別在人機(jī)交互中的應(yīng)用》(YCX1772)。