楊益平 閔嘯
摘要 隨著數(shù)字技術(shù)和多媒體技術(shù)的飛速發(fā)展和廣泛應(yīng)用,人們開始越來越多的利用計算機進行交流,人們希望新的硬件不斷出現(xiàn),希望新的計算機應(yīng)用領(lǐng)域不斷擴展,人們原本所熟知的人機交互方式多是利用鍵盤和鼠標等輔助設(shè)備,但是人們的交流為了達到自然和迅速的效果,就不得不利用新的交流方式,基于視覺感知手勢的人機交互技術(shù)就成為了新技術(shù)當中較為重要的一類技術(shù),通過計算機的視覺感知功能,可以將圖像轉(zhuǎn)化為數(shù)字信號,借助識別模式等理論技術(shù),使得計算機可以將視覺感知的功能轉(zhuǎn)化為手勢的語言,并且便于計算機用戶做出必要的反應(yīng),實現(xiàn)人和計算機的互相交互功能。
【關(guān)鍵詞】手勢識別 人機交互 圖像識別
人機交互技術(shù)已經(jīng)成為人們?nèi)粘I钪袘?yīng)用較為廣泛的一種科技,成為了人們?nèi)粘I畹年P(guān)鍵組成部分。人機交互技術(shù)可以聲情并茂的告知人們采用各種語言進行交流,除了利用自然語言例如書寫和口頭敘述進行交流之外,還可以利用人體語言進行交流,常用的人體語言例如手勢和表情都可以被用來與計算機進行交流,手勢也是人們進行交流的表達方式之一。人機交互技術(shù)是指,在計算機和人類之間建立起來某種聯(lián)系,方便計算機能夠及時根據(jù)人的指令而做出來一系列的動作的一種技術(shù),根據(jù)計算機手勢識別技術(shù),人類可以及時的對手勢的識別做出反應(yīng),人機交互的主要途徑就是應(yīng)用手勢識別,將手勢轉(zhuǎn)換成固定的圖像,然后對圖像進行識別,為了確保技術(shù)準確實現(xiàn),對人的手勢進行準確識別,需要對相關(guān)識別步驟和關(guān)鍵技術(shù)節(jié)點進行深入研究。與人與人之間的交流相比,人機交互的形式顯得刻意和呆板,手勢輔助特定的表情和動作是一個穩(wěn)定表達系統(tǒng)的關(guān)鍵組成部分,人們進行交流需要依靠動作和視覺傳達而形成的特殊語言。同時手勢還包括有一個人和人的體系語言,人體語言和書面語言和口頭語言不同,用在人機交互技術(shù)方面,手勢只是作為表達的一種手段,同時具有強大的視覺效果,可以生動形象的表達出人體語言,對視覺人機交互語言進行研究,是一個多學(xué)科交叉研究方向,非常具有挑戰(zhàn)性。
1 手勢識別技術(shù)概述
手勢識別技術(shù)作為人機交互技術(shù)的一種,是對人類表達方式的一種機器識別方法,操作者通過不同的手勢和計算機之間進行交流,讓計算機根據(jù)人的不同手勢做出不同的反應(yīng),因此手勢又可以分成動態(tài)手勢和靜態(tài)手勢,靜態(tài)手勢是指人的單個不發(fā)生變化的手型,通過手勢的固定,表達特殊的意思含義,靜態(tài)手勢就是通常人們所稱的姿勢。動態(tài)手勢又被稱為動作,通過動作和姿勢的不同,計算機可以做出不同的反應(yīng),執(zhí)行不同的操作,為了促使上述技術(shù)能夠完美實現(xiàn),需要設(shè)定手勢識別系統(tǒng)的不同技術(shù)指標。常見的手勢識別系統(tǒng)通常會具備如下幾種組成。第一,一個攝像機已獲得視頻數(shù)據(jù)資源,接著將數(shù)據(jù)視頻資源通過手勢驗證和數(shù)據(jù)流分享到檢測數(shù)據(jù)的程序里面,系統(tǒng)之后會根據(jù)手勢輸入的流程和交互實驗?zāi)P蜋z測手勢是否可用,將手勢從視頻信號之中切換回來,根據(jù)手勢模型進行手勢分析,包括特征檢驗和參數(shù)模型評估。在數(shù)據(jù)識別的過程中,會對參數(shù)模型的手勢設(shè)置進行評估,最后根據(jù)系統(tǒng)生成的模型進行評估,雖然手勢已經(jīng)成為了一種交互的手段,需要根據(jù)生成的數(shù)據(jù)進行描述,根據(jù)描述對應(yīng)用進行指令。但是手勢已經(jīng)成為了已經(jīng)非常新型的交互手段,通過手勢對識別的解決方案進行描述,可以實現(xiàn)表情識別、步態(tài)識別、指紋識別、唇讀等功能,還可以進行圖像拼接等視頻檢索功能的實現(xiàn),研究基于視覺的手勢識別技術(shù)對于提升人機交互技術(shù)的潛力而言具有非常重要的價值。
2 手勢識別技術(shù)的步驟
2.1 手勢識別技術(shù)的流程
計算機手勢識別技術(shù)可以分成如下幾個流程。首先,攝像機鏡頭對用戶的身份進行識別,將視頻信號分成不同的表現(xiàn)形式,將識別的信號傳輸在系統(tǒng)當中,將不同的手勢進行分割,在進行識別程序之后開始對手勢進行分析,通過不同的手勢模型,對收勢實現(xiàn)識別,并作出相應(yīng)的描述,計算機程序根據(jù)相應(yīng)的識別建立對應(yīng)的手勢模型,并作出最終的描述,最終完成整個識別的過程,上述流程的重要價值在于建模和識別的程序,通過手勢分析實現(xiàn)動作識別。
2.2 手勢識別系統(tǒng)的設(shè)計
2.2.1 通過手勢進行建模操作
手勢建模技術(shù)是通過計算機視覺實現(xiàn)手勢識別的重點,通過人機交互實現(xiàn)數(shù)據(jù)識別,主要依靠手勢建模技術(shù),選擇合適的手勢模型,可以提高系統(tǒng)識別手勢的正確率,根據(jù)系統(tǒng)設(shè)計的目的不同對不同的模型進行建模,可以解決在人機交互模式非常復(fù)雜的情況下,通過建立精細化程度比較高的模型來實現(xiàn)手勢識別技術(shù)??梢赃x擇立體和平面兩種不同的模型設(shè)定,立體模型主要是3D模型,選擇該模型可以有網(wǎng)格模型、骨架模型和幾何模型等多種不同的表達模型。模型的手勢可能包括了灰度圖像模型和二維變換模型等不同的形式,圖像識別的屬性要求對于運動的圖形必須選擇直觀的表達方式,系統(tǒng)通過模型的選擇實現(xiàn)模型的統(tǒng)合利用。
2.2.2 對識別出的手勢進行分析
手勢分析的意義在于根據(jù)特定的手勢參數(shù),將數(shù)據(jù)監(jiān)測所得到的參數(shù)分成不同組成,將特征檢測所得到的運動特征和人手的形狀賦予運動特征進行檢測,參數(shù)估計模型則是建立在數(shù)據(jù)估算的基礎(chǔ)上,將數(shù)據(jù)模型建立在特征值的基礎(chǔ)上,參數(shù)估計主要是依據(jù)特征值來完成,參數(shù)估計是識別手勢模型的基礎(chǔ)。
2.2.3 通過手勢識別實現(xiàn)手勢分析
手勢識別是一種固定的特征量,需要依據(jù)參數(shù)估計的結(jié)果和實際檢測的結(jié)果將組合的模型綜合起來,將數(shù)據(jù)規(guī)整到數(shù)據(jù)集里面,就目前統(tǒng)計數(shù)據(jù)的情況看,需要在數(shù)據(jù)系統(tǒng)較好的情況下,利用靜態(tài)的數(shù)據(jù)結(jié)構(gòu),將系統(tǒng)識別的手勢固定。
3 手勢識別的實現(xiàn)
3.1 硬件和軟件平臺
手勢識別的硬件設(shè)備首先需要具備一臺電腦,加上一臺可以捕捉圖像的攝像頭,電腦硬件的配置盡量要高,具備適合的計算能力,網(wǎng)絡(luò)攝像頭需要具備圖像捕捉和跟蹤能力。同時需要具備軟件平臺,軟件開發(fā)平臺為C語言編寫的平臺,具有視覺識別系統(tǒng),采用英特爾公司的開源數(shù)據(jù)庫,最終形成可以執(zhí)行的腳本文件,實現(xiàn)所有不同手勢的識別功能,實現(xiàn)所有不同手勢的人機交互能力。
3.2 利用攝像頭攝入視頻
通過不同的操作系統(tǒng)對視頻識別軟件進行開發(fā),使得不同攝像頭可以捕捉不同的畫面,攝像頭捕捉畫面的能力顯得格外重要,需要調(diào)用不同的函數(shù),建立不同的顯示窗口,安裝適合的攝像頭驅(qū)動程序,在啟動了程序驅(qū)動之后,需要根據(jù)攝像頭讀取實時圖像的不同,方便攝像頭讀入不同的數(shù)據(jù)模型,程序啟動之后,網(wǎng)絡(luò)攝像頭需要在捕捉的實時畫面上實現(xiàn)攝像頭的讀取,顯示在特定的窗格中。
3.3 對讀取的手勢進行固定操作
通過不同的檢測方法可以實現(xiàn)手勢的固定,常見的固定方法有動態(tài)數(shù)據(jù)定位和膚色檢測等技術(shù)。運動檢測技術(shù)是指可以從一定順序變化的圖形當中,將背景圖片提取出來,背景圖片具有動態(tài)變化的特點,可能有天氣和光照等變化,使得運動檢測技術(shù)是一項非常有難點的程序設(shè)計。膚色檢測技術(shù)是指,由于運動檢測技術(shù)通常不具備良好的實行條件,不能夠?qū)κ謩葸M行良好的定位,因此需要引進膚色檢驗技術(shù)對手勢進行定位,通過色彩的色調(diào)、飽和度和亮度等對膚色進行檢測,由于膚色具有比較強的聚散性質(zhì),因此會和其他顏色對比明顯,可以和其他形式的顏色對比開來,同時由于光照的原因,一些計算量小的手勢往往實效性比較高。實驗數(shù)據(jù)表明,采用數(shù)據(jù)檢驗的方法可以定位很多數(shù)據(jù)的手勢,由于定位快速而且計算量比較小,可以在一定條件下實現(xiàn)準確計算。
3.4 手勢跟蹤技術(shù)
在根據(jù)視覺檢測的數(shù)據(jù)分析實驗中,手勢跟蹤技術(shù)是實現(xiàn)手勢分析的關(guān)鍵環(huán)節(jié),實驗數(shù)據(jù)表明,根據(jù)不同的算法跟蹤手勢,可以有效地對人臉和手勢的不同進行識別,如果手勢出現(xiàn)了部分遮擋的情況,需要進一步對之后的手勢遮擋做出識別,通過算法的改進對攝像頭的問題進行準備,按照適當?shù)哪w色跟蹤技術(shù),得到具體的投射視圖。
3.5 手勢分割技術(shù)
計算機收勢分割技術(shù)是指借助計算機軟件在視覺領(lǐng)域的應(yīng)用,將數(shù)字和圖像處理技術(shù)迅速發(fā)展應(yīng)用在手勢識別的領(lǐng)域,手勢分割技術(shù)利用的是人的手在運動的時候,計算機所采集到的數(shù)據(jù),當計算機的攝像機所采集到的一系列圖像出現(xiàn)在人的手勢當中的時候,其圖像會被用來被軟件識別。如果動態(tài)的手勢圖形被算法和膚色的概率用作一系列的動態(tài)處理,將算法數(shù)據(jù)所輸入的概念轉(zhuǎn)換成一系列的形態(tài)學(xué)指標,可能導(dǎo)致數(shù)據(jù)模糊和膨脹,出現(xiàn)數(shù)據(jù)腐蝕等現(xiàn)象,使得輸出的圖形轉(zhuǎn)化為二維的結(jié)果。
3.6 手勢識別技術(shù)的應(yīng)用
圖像經(jīng)過處理之后會轉(zhuǎn)化為數(shù)值,通過將圖像變換為幾何特征的數(shù)值,可以得到表示圖像特征的幾個分量,形成手勢的一些特征指標。系統(tǒng)進行具體數(shù)值計算的具體方法是,由于手勢具有向量不變的特征,將數(shù)值的應(yīng)用作為模板,在讀取視頻的時候,根據(jù)向量不變的屬性,將模板上的數(shù)值進行分離,距離的遠近表明數(shù)值的差異大小,通過對固定數(shù)值的識別,對計算機進行讀取操作,通過簡單的數(shù)據(jù)放縮功能,幫助圖片放縮的結(jié)果交互現(xiàn)實,幫助系統(tǒng)功能良好運轉(zhuǎn)。
4 手勢識別作為交互技術(shù)的未來發(fā)展方向
人與人之間的語言交流,借助手勢進行的只是輔助的表達,計算機視覺的手勢識別系統(tǒng)的構(gòu)建,是一種輸入設(shè)備的構(gòu)建,可以幫助人們將手勢識別當做計算機的輸入設(shè)備,縮短計算機和人之間的距離,提升計算機應(yīng)用的效率,降低人類對計算機進行操作的難度。在計算機技術(shù)還不發(fā)達的年代,計算機交互技術(shù)的實現(xiàn)需要依靠字符和命令作為技術(shù)支持,但是當計算機技術(shù)發(fā)展到一定階段之后,需要進一步加強人與計算機之間的聯(lián)系,提升計算機操作人員利用電腦技術(shù)的便利性,手勢識別技術(shù)就在這一方面進行了突破,目前的計算機識別技術(shù)所進行的識別,仍然是一種動態(tài)的識別技術(shù),對收勢識別所做的研究努力都是為了靜態(tài)識別技術(shù)的重構(gòu)。隨著計算機科學(xué)技術(shù)的發(fā)展計算機識別和收勢識別都會隨著交互技術(shù)的發(fā)展而逐步發(fā)展壯大,交互技術(shù)很有可能成為廣泛應(yīng)用的教學(xué)技術(shù)和藝術(shù)設(shè)計技術(shù),在游戲制作等方面也有可能發(fā)揮出獨特的作用,提升了人們整體上利用手勢操作電腦的水平,能夠幫助用戶和計算機之間實現(xiàn)互動,幫助人們參與到游戲當中,提升游戲的體驗價值,因此,計算機手勢識別人機交互技術(shù)的應(yīng)用前景非常廣闊。
5 結(jié)論
人機交互技術(shù)和計算機界面的應(yīng)用走過了語言界面模式的應(yīng)用,正在進入圖形界面的應(yīng)用,圖形界面的時代已經(jīng)到來,但是計算機圖像技術(shù)識別還沒有達到發(fā)展所需要的高度,計算機科學(xué)家都不滿足于上述現(xiàn)狀,都在積極研究人機交互技術(shù),通過語言識別技術(shù)實現(xiàn)計算機人臉識別之后,商業(yè)模式的轉(zhuǎn)變讓人們看到了商業(yè)的曙光,在商業(yè)領(lǐng)域的應(yīng)用前景非常廣泛,虛擬現(xiàn)實等技術(shù)也需要手勢識別技術(shù)的突破,在未來用戶界面技術(shù)迅速發(fā)展和人機交互實驗大發(fā)展的背景之下,繼續(xù)追求人機和諧以及多維信息空間的基于自然交互的語言風格方式顯得格外重要。為了幫助視覺手勢識別系統(tǒng)得到更好的應(yīng)用,需要在實現(xiàn)了手勢識別系統(tǒng)設(shè)計的基礎(chǔ)之上,選擇合理的編程語言,提升系統(tǒng)軟件設(shè)計的能力,幫助用戶選擇合適的識別系統(tǒng),將軟件和硬件設(shè)備相互搭配使用,建立綜合的算法,為手勢識別提供應(yīng)用的途徑,提升人機交互的實際水平,帶來社會綜合領(lǐng)域的發(fā)展。
參考文獻
[1]陳彬彬,基于視覺的字母手勢識別技術(shù)研究及實現(xiàn)[D].西南交通大學(xué),2017.
[2]杜宇.基于深度機器學(xué)習的體態(tài)與手勢感知計算關(guān)鍵技術(shù)研究[D].浙江大學(xué),2017.
[3]易靖國,程江華,庫錫樹.視覺手勢識別綜述[J].計算機科學(xué),2016 (S1):103-108.
[4]郭子雷,基于計算機視覺的手勢識別系統(tǒng)的設(shè)計與實現(xiàn)[D].華中科技大學(xué),2016.
[5]關(guān)然,徐向民,羅雅愉,苗捷,裘索.基于計算機視覺的手勢檢測識別技術(shù)[J].計算機應(yīng)用與軟件,2013(01):155-159+164.