梁娜
摘 要:隨著計算機性能的逐步提高和圖像處理技術(shù)的不斷發(fā)展,基于計算機視覺的手勢識別技術(shù)成為研究熱點。本文介紹了手勢識別的主要分類,并詳細介紹了基于視覺的手勢識別技術(shù)的工作原理和工作流程。闡述了手勢分割、特征提取和手勢識別的技術(shù)方法。
關(guān)鍵詞:計算機視覺;手勢識別;手勢分割;特征提取
目前,人機交互的主要方式有基于文本方式的鍵盤交互和基于圖形的鼠標(biāo)交互,這些交互方式都以機器為中心,使人去適應(yīng)機器的輸入輸出設(shè)備,因此,在交互過程中存在諸多不便。隨著計算機科學(xué)的快速發(fā)展,人機交互的研究已經(jīng)從以機器為中心轉(zhuǎn)移到以人為中心,研究符合人類習(xí)慣的交互方式成為熱點。手勢是人類最常用的溝通媒介,它生動形象、直觀易懂,而且蘊涵著豐富的信息,是一種高效的溝通方式,基于手勢識別的人機交互技術(shù)將為用戶提供種簡易、高效的人機交互界面,極大地方便人類的生活。因此,基于手勢識別的人機交互技術(shù)具有重要的研究價值。
1 手勢識別的主要方法
根據(jù)手勢圖像的輸入方式不同,手勢識別系統(tǒng)主要可以分為兩類:基于數(shù)據(jù)手套的手勢識別系統(tǒng)和基于視覺的手勢識別系統(tǒng)。
基于數(shù)據(jù)手套的手勢輸入(Glove—based Gesture Input)是利用數(shù)據(jù)手套獲取手勢在空間的運動軌跡和時序信息。它能夠高效、快速、實時地獲得手在空間的三維信息和手指的運動信息,并且能夠識別多種手勢信息。但是這種輸入方式需要用戶穿戴復(fù)雜的數(shù)據(jù)手套和位置跟蹤器,給操作者帶來很大不便,而且輸入設(shè)備昂貴,很難在市場上進行推廣。
隨著計算機性能的逐步提高和圖像處理技術(shù)的不斷發(fā)展,基于計算機視覺的手勢識別技術(shù)成為研究熱點。這種方法通過攝像頭采集手勢圖像信息并傳輸給計算機,系統(tǒng)對視頻進行分析和處理,提取出手的形狀、位置和運動軌跡,然后選擇手勢進行分析,然后根據(jù)模型參數(shù)對手勢進行分類并生成手勢描述。最后,系統(tǒng)根據(jù)生成的描述去驅(qū)動具體應(yīng)用。這種方法無需購買昂貴傳感設(shè)備,僅需要攝像頭和PC機即可,并且在操作時更加自然、方便是手勢識別未來發(fā)展的趨勢。因此,本文重點研究基于視覺的手勢識別技術(shù)。
2 基于視覺的手勢識別技術(shù)
2.1 手勢輸入及手勢圖像預(yù)處理
手勢輸入是通過攝像頭采集手勢圖像信息并傳輸給計算機的過程。通過手勢輸入將視頻轉(zhuǎn)換成計算機能夠處理的數(shù)字圖像,為了防止圖像在生成、傳輸或變換過程中會受到干擾而發(fā)生畸變,需要先對圖像進行預(yù)處理,去除手勢圖像中的噪聲,過濾掉不需要的部分,同時保留并強化圖像中的有用信息。
2.2 手勢分割
手勢分割就是將有手勢從圖像視頻中劃分出來,僅保留手勢部分。手勢分割的好壞直接影響后面的特征提取和手勢識別的結(jié)果。主要方法有膚色模型法和輪廓跟蹤法。
在手勢圖像中,膚色信息最為有效,是占主導(dǎo)地位的像素色彩值。膚色雖然因人而異,但它在色彩空間中的呈聚類特征,膚色模型法就是根據(jù)膚色在色彩空間中的分布特點,快速地找到手可能的候選區(qū)域。
輪廓跟蹤法中最為著名的是基于Snake模型的手勢分割方法,它利用Snake模型對噪聲和對比度的敏感性來有效跟蹤目標(biāo)的形變和的復(fù)雜運動,從而將目標(biāo)從復(fù)雜背景中分割出來。
2.3 特征提取
手勢圖像經(jīng)過分割,會得到手勢的邊緣和區(qū)域,從而能夠獲得手勢的形狀。定位了手勢之后就可進行手勢特征的提取。手勢特征提取與手勢分割是密不可分的,在基于視覺系統(tǒng)的手勢識別系統(tǒng)中,二者是同時進行的。
用來描述手勢的形狀特征的屬性包括手的長短、面積、距離、凹凸等,它們反映了手的骨架和所在的區(qū)域。通常把區(qū)域內(nèi)部或邊界的像素賦予“1”值,而背景和其他不感興趣像素賦予0值,形成二值圖像,通過對區(qū)域的內(nèi)部或外部形狀進行各種變換即可提取區(qū)域特征。
2.4 勢識別
手勢分為靜態(tài)手勢和動態(tài)手勢,靜態(tài)手勢通過手的形狀表達某種信息,對應(yīng)著模型參數(shù)空間里的一個點,而動態(tài)手勢則通過手的運動表達相應(yīng)的信息,對應(yīng)著模型參數(shù)空間里的一條軌跡。手勢識別就是把模型參數(shù)空間里的軌跡或點分類到該空間里某個子集的過程。靜態(tài)手勢識別是指手勢處于靜止?fàn)顟B(tài)的識別方法,識別過程比較簡單,相對獨立,它和時間及空間上的圖像序列無關(guān)。主要采用的方法有神經(jīng)網(wǎng)絡(luò)法、模板匹配法、基于統(tǒng)計的方法等。動態(tài)手勢對應(yīng)參數(shù)空間里的一條軌跡,由于不同用戶在做手勢時的速度不同、熟練程度不同,因此不但涉及到時間及空間的相關(guān)信息,還涉及到手勢定位的問題。動態(tài)手勢識別方法主要有三種:神經(jīng)網(wǎng)絡(luò)識別法、基于隱馬爾可夫模型(Hidden Markov Models,HMM)的識別法,基于動態(tài)時間規(guī)整(DynamicTime Warping,DTW)的識別法。
3 結(jié)束語
本文論述了基于視覺的手勢識別技術(shù)的工作原理和主要流程。討論了手勢分割的方法、特征提取以及手勢識別的技術(shù)關(guān)鍵?;谝曈X的手勢識別技術(shù)是人機交互領(lǐng)域的一大研究熱點,將手勢識別技術(shù)應(yīng)用于自動控制、智能家居、智能交通等領(lǐng)域,利用手勢對設(shè)備進行控制將極大地方便人類的生產(chǎn)和生活。因此基于視覺的手勢識別技術(shù)的研究在人機交互系統(tǒng)中具有更加廣泛的社會意義和實際應(yīng)用前景。
[參考文獻]
[1]王兩穎,張習(xí)文,戴國忠.一種面向?qū)崟r交互的變形手勢跟蹤方法[J].軟件學(xué)報.2007,V01.18(10):2423-2433.
[2]高君.基手勢識別的虛擬寵物系統(tǒng)的研究與開發(fā)[D].沈陽:東北大學(xué).2006.
[3]姚文君.基于Freeman鏈碼二維圖像輪廓的提取與匹配[J].寧波職業(yè)技術(shù)學(xué)院學(xué)報.2006(10):24-26.