摘 要:動態(tài)手勢序列傳遞的信息同時存在于空間域和時間域范圍,與僅包含空間域信息的靜態(tài)圖像相比更加復(fù)雜。因此,提取有效的手勢特征,捕獲手勢序列時空上下文所表達的信息是識別手勢的關(guān)鍵步驟。有效手勢特征應(yīng)當具有健壯性、泛用性、緊湊性、簡潔性、易于實現(xiàn)等特點,減少冗余信息以避免后續(xù)算法發(fā)生過擬合,突出不同手勢類別類間差異、減少相同手勢類別類內(nèi)差異,以降低后續(xù)算法的回歸、分類難度。然而,目前還沒有能夠完全滿足上述特點的描述方法。因此,如何選取并組合手勢時空上下文的描述特征依然是手勢檢測識別方法中具有挑戰(zhàn)性的問題。
關(guān)鍵詞:手勢識別;計算機視覺;特征提取
一、研究背景與意義
在人機交互領(lǐng)域中,人體手勢檢測識別是重要的研究方向之一,其研究目標可概括為解釋特定上下文場景中人類行為所表達的意義。這些行為包括身體整體的運動,也包括身體部件的局部運動,例如軀干、腿部、手臂、手部、頭部的運動。其中,基于視覺的手勢識別方法是最為自然和符合人類直覺的方法之一,能夠為用戶提供一種非侵入性的交互方式,在無法進行物理接觸或聲音難以傳達的交互場景中起到尤為重要的作用,因此受到學術(shù)界和工業(yè)界的廣泛關(guān)注。
在手語翻譯領(lǐng)域中,計算機能夠通過手勢檢測識別技術(shù)理解動態(tài)人體手勢傳遞的信息,進一步通過翻譯技術(shù)將信息翻譯為不同種類的文字或語音,幫助聽力受損或語言障礙人群進行溝通交流,或幫助有學習能力障礙的人群與計算機交互。
基于計算機視覺的手勢檢測識別技術(shù)也存在巨大的學術(shù)價值,其方法涉及到多個基礎(chǔ)研究領(lǐng)域,包括計算機圖形學、信號處理、模式識別、人工智能、機器學習、深度學習等等,能夠起到促進相應(yīng)學科理論研究的作用。
二、關(guān)鍵手勢特征描述與識別技術(shù)
(一)空間特征提取方式
針對2D手形表示的構(gòu)建問題,本章提出了一種基于Fisher向量編碼方法的2D手形表示,該方法從分割出的人手二值圖像中為手的每個輪廓點提取三種幾何特征,包括距離、角度和曲率,這些幾何特征的組合構(gòu)成一個局部描述子,然后使用Fisher向量編碼方法對所有的局部描述子進行編碼,從而得到整個2D手形的Fisher向量表示。靜態(tài)手勢識別方法的框架圖如圖1所示。
(二)手部重要特征點檢測
為了提取本章所提出的三類幾何特征,需要先獲取手部一些重要的特征點,包括人手邊界點、手掌中心、整個人手中心以及邊界點中心。本章使用Canny邊緣檢測器提取人手邊界點,并且剔除掉手腕線上的邊界點,因為它們對不同的2D手形不具有判別性。所有的邊界點構(gòu)成一個集合,記為B,后面將會為每個邊界點計算一個局部描述符。由于手部邊界噪聲的存在,通過歐式距離變換獲取的粗略的手掌中心與真實的手掌中心之間的位置偏差可能較大,本章采用一種迭代腐蝕方法對手掌中心重新進行估計。
三、視頻中手部特征點的檢測與跟蹤
在對手部特征點進行檢測與跟蹤的過程中需要對人手進行檢測與跟蹤,而對手部特征點的檢測與跟蹤又有助于對人手進行檢測與跟蹤,即二者是相輔相成的。
對于RGB視頻而言,在最開始的幾幀中,使用一個已經(jīng)訓練好的人手檢測器來對人手進行定位。在本章中使用Harr-like特征訓練一個人手分類器用于實時的人手檢測。對深度視頻而言,可以直接使用深度閾值濾波方法對人手進行定位。當檢測到人手的移動距離超過某個閾值時,一個動態(tài)手勢被認定為開始被執(zhí)行。然后采用稀疏光流法對人手進行跟蹤,并同時對手部特征點進行檢測與跟蹤。
同樣,在跟蹤的過程中如果發(fā)現(xiàn)連續(xù)多幀中人手的移動距離小于某個閾值,則認為該動態(tài)手勢已經(jīng)結(jié)束了。為了表述方便,后續(xù)章節(jié)中默認已經(jīng)獲得了分割好的動態(tài)手勢視頻。對于每幀中得到的人手跟蹤結(jié)果,即包含人手的包圍框(Bounding Box),需要進一步進行人手分割處理,以消除背景區(qū)域的影響。由于不需要獲得精確的人手分割結(jié)果,對于RGB視頻,然后,在分割得到的手部區(qū)域中提取特征點(將特征點的集合記為S1t,其中t表示當前幀的索引)并計算它們的光流,用于對特征點和人手進行跟蹤。本章使用FAST角點作為特征點,因為FAST角點具有較高的計算效率,并使用金字塔(Pyramid)Lucas-Kanade算法計算特征點的光流。由于分割得到的手部區(qū)域中可能含有背景區(qū)域,比如與人手相連的膚色類背景區(qū)域,一些特征點也可能會位于背景區(qū)域,需要對它們進行過濾。
上述所提出方法的核心創(chuàng)新點在于根據(jù)動態(tài)手勢中所包含的時空信息提取具有代表性的局部描述符,即為手部興趣點(包括視頻數(shù)據(jù)中手部區(qū)域的特征點或3D骨架序列中手部關(guān)節(jié)點)計算局部描述符,并采用特征協(xié)方差矩陣編碼方法對所有的局部描述符進行融合,獲得一個緊湊的動態(tài)手勢表示。
四、總結(jié)
手勢識別用于對手勢進行分類,手勢估計用于對手部關(guān)節(jié)點的位置進行估計,而手勢認證用于對用戶的身份進行認證,它們彼此之間聯(lián)系緊密,是基于視覺的非接觸式手勢交互中的關(guān)鍵技術(shù)。本文的研究工作圍繞基于視覺的手勢識別、估計與認證展開,研究的內(nèi)容包括:面向RGB或深度圖像的靜態(tài)手勢識別方法;面向RGB或深度視頻以及3D人手骨架序列的動態(tài)手勢別方法;面向單張深度圖像的3D手勢估計方法;面向RGB視頻的動態(tài)手勢認證方法。然后使用協(xié)方差矩陣編碼方法對所有的局部描述符進行編碼,獲取整個動態(tài)手勢的特征協(xié)方差矩陣描述符,由于特征協(xié)方差矩陣構(gòu)成一個黎曼流形,無法使用歐式空間的度量方式進行分析,需要使用矩陣對數(shù)操作將特征協(xié)方差矩陣映射到歐式空間中,獲得相應(yīng)的對數(shù)協(xié)方差矩陣表示。
參考文獻:
[1]夏晨星,陳欣雨,孫延光,等.集成多種上下文與混合交互的顯著性目標檢測[J/OL].電子與信息學。
[2]劉永濤,劉永杰,孫斐然,等.基于深度學習的交警動態(tài)手勢檢測與識別方法研究[J/OL].武漢理工大學學報(交通科學與工程版):1-7[2024-06-27].