何 堅,廖俊杰,張 丞,魏 鑫,白佳豪,王偉東
基于長短時記憶和深度神經(jīng)網(wǎng)絡(luò)的視覺手勢識別技術(shù)
何 堅1,2,廖俊杰2,張 丞2,魏 鑫2,白佳豪2,王偉東1,2
(1. 北京市物聯(lián)網(wǎng)軟件與系統(tǒng)工程技術(shù)研究中心,北京 100124;2. 北京工業(yè)大學(xué)信息學(xué)部,北京 100124)
針對基于視覺的動態(tài)手勢識別易受光照、背景和手勢形狀變化影響等問題,在分析人體手勢空間上下文特征的基礎(chǔ)上,首先建立一種基于人體骨架和部件輪廓特征的動態(tài)手勢模型,并采用卷積姿勢機(jī)和單發(fā)多框檢測器技術(shù)構(gòu)造深度神經(jīng)網(wǎng)絡(luò)進(jìn)行人體手勢骨架和部件輪廓特征提取。其次,引入長短時記憶網(wǎng)絡(luò)提取動態(tài)人體手勢中骨架、左右手和頭部輪廓的時序特征,進(jìn)而分類識別手勢。在此基礎(chǔ)上,設(shè)計了一種空間上下文與時序特征融合的動態(tài)手勢識別機(jī)(GRSCTFF),并通過交警指揮手勢視頻樣本庫對其進(jìn)行網(wǎng)絡(luò)訓(xùn)練和實(shí)驗(yàn)分析。實(shí)驗(yàn)證明,該系統(tǒng)可以快速準(zhǔn)確識別動態(tài)交警指揮手勢,準(zhǔn)確率達(dá)到94.12%,并對光線、背景和手勢形狀變化具有較強(qiáng)的抗干擾能力。
手勢識別;空間上下文;長短時記憶;特征提取
手勢是人與人之間非語言交流的最重要方式。由于手勢具有自然、形式多樣等特征,其識別是人機(jī)交互研究的一個重要領(lǐng)域[1]。依據(jù)手勢識別設(shè)備是否與身體接觸,其識別技術(shù)可分為接觸式手勢識別和基于視覺的手勢識別[2-3]。其中,接觸式手勢識別使用的設(shè)備(如數(shù)據(jù)手套)復(fù)雜、價格高,需用戶熟悉相應(yīng)設(shè)備后才能進(jìn)行手勢識別,限制了手勢的自然表達(dá),不利于自然交互。基于視覺的手勢識別無需高昂的設(shè)備,且具有操作方便、自然等優(yōu)點(diǎn),更符合自然人機(jī)交互的大趨勢,有廣泛的應(yīng)用前景[2]。
基于視覺的手勢識別過程主要包括手勢分割與檢測、手勢建模與特征提取和手勢識別3個步驟。其中,手勢分割檢測方法有基于運(yùn)動信息的檢測分割[4]、基于表觀特征的檢測分割[5]和基于多模式信息的檢測分割[6]?;诙嗄J叫畔⒌臋z測分割技術(shù)克服了復(fù)雜環(huán)境下單一手勢分割方法的局限,代表手勢分割與檢測的發(fā)展趨勢。手勢建模通過分析手勢圖像序列特征來表示手勢,其可分為基于表觀特征的手勢表示和基于三維模型的手勢表示。其中,基于表觀特征的手勢表示通常采用手勢圖像屬性(如結(jié)構(gòu)、邊界、圖像特征向量以及區(qū)域直方圖特征等)對手勢建模。三維手勢表示又可以分為紋理模型、網(wǎng)絡(luò)模型、幾何模型以及骨架模型?;诠羌艿娜S模型適合于所有手勢,代表著手勢建模的發(fā)展趨勢,但從高維空間中恢復(fù)手勢面臨實(shí)時性挑戰(zhàn)。
手勢識別采用的技術(shù)可分為模板匹配方法、概率統(tǒng)計方法和機(jī)器學(xué)習(xí)方法。其中,模板匹配方法將輸入圖像與模板(點(diǎn)、曲線或形狀)進(jìn)行匹配,并依據(jù)匹配相似度進(jìn)行分類。例如,TRIESCH等[7-8]依據(jù)Gabor特征采用彈性圖匹配方法識別靜態(tài)手勢。LI和WACHS[9]使用分層結(jié)構(gòu)的彈性圖匹配識別手勢。BOBICK和DAVIS[10]以運(yùn)動能量圖和運(yùn)動歷史圖作為模板識別人體運(yùn)動。劉江華等[11]采用動態(tài)時間規(guī)整等方法識別出9種動態(tài)手勢。模板匹配法具有簡單快速,不受光照、背景和姿態(tài)變化影響等優(yōu)點(diǎn)。但其可識別手勢種類有限[12],適用于小樣本、外形等變化不大的情況[13]。因此研究人員將概率統(tǒng)計模型應(yīng)用于手勢識別。例如,CORREA等[14]在統(tǒng)計手的位置和速度基礎(chǔ)上使用貝葉斯分類器實(shí)現(xiàn)動態(tài)手勢識別。BURGER等[15]在機(jī)器人Jibo平臺上使用離散HMM識別動態(tài)手勢。文獻(xiàn)[5]提出一種HMM-FNN模型結(jié)構(gòu)對復(fù)雜手勢進(jìn)行建模,并通過模糊規(guī)則推理來提高手勢識別性能。PISHARADY等[16]基于邊緣與紋理特征使用支持向量機(jī)進(jìn)行手勢識別。王西穎等[17]結(jié)合HMM和模糊神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)復(fù)雜環(huán)境下的動態(tài)手勢識別。程光[18]采用AdaBoost算法訓(xùn)練手勢識別分類器,并識別5種靜態(tài)手勢。
近年來,研究人員探索將深度學(xué)習(xí)應(yīng)用于手勢識別中。WEI等[19]將卷積網(wǎng)絡(luò)引入姿勢機(jī)框架,直接從圖像中學(xué)習(xí)人體姿勢和空間上下文之間的關(guān)系,進(jìn)而跟蹤識別人體姿態(tài)。CAO等[20]使用部件親和字段(part affinity fields,PAF)學(xué)習(xí)圖像中人體部件間的關(guān)聯(lián)關(guān)系,設(shè)計了一種通過同一預(yù)測過程的2個分支來共同學(xué)習(xí)部件位置及部件間關(guān)聯(lián)關(guān)系的體系結(jié)構(gòu)。FRAGKIADAKI等[21]構(gòu)造3層長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM)進(jìn)行人體活動檢測識別。上述研究成果表明卷積網(wǎng)絡(luò)可有效提取人體活動的空間特征,而LSTM等循環(huán)卷積網(wǎng)絡(luò)可以有效提取人體活動的時序關(guān)系。
已有手勢識別系統(tǒng)通常僅針對人體手部形狀或動作進(jìn)行識別。手作為身體重要的部件,其手勢的含義通常與人體的骨架姿態(tài)、頭部的形狀及運(yùn)動朝向相關(guān),因此手勢的正確識別與理解需要一個包含人體骨架姿態(tài)、頭和手部動作形態(tài)特征的通用描述框架支持。受三維人體模型啟發(fā),本文提出融合人體骨架以及頭和手等部件輪廓特征的通用視覺手勢描述框架;此外,引入卷積姿勢機(jī)[19](convolutional pose machine,CPM)和提取手勢中人體骨架以及頭和手的輪廓等空間上下文特征,最后將這些特征輸入LSTM提取動態(tài)手勢的時序特征,進(jìn)而實(shí)現(xiàn)動態(tài)視覺手勢分類識別。
在采用手勢交互時,動態(tài)手勢的形態(tài)主要由人體骨架形態(tài)與手、頭部輪廓構(gòu)成,其本質(zhì)是基于骨架關(guān)節(jié)點(diǎn)與各骨架段的相對位置(如骨架的長度、角度)以及手和頭部外部形態(tài)的組合。其中,人體骨架由骨架的關(guān)鍵節(jié)點(diǎn)互相鏈接構(gòu)成。本文中“人體骨架關(guān)鍵節(jié)點(diǎn)”指代人體骨架鏈接結(jié)構(gòu)所包含關(guān)鍵節(jié)點(diǎn),而“部件”特指具有形狀輪廓特征的手、頭和腳。本節(jié)借鑒三維人體模型思想,首先建立融合人體骨架、手和頭等部件輪廓特征的通用手勢模型。然后分別引入CPM和SSD[22]提取動態(tài)手勢的空間上下文特征和LSTM提取手勢時序特征。
圖1(a)為通用人體手勢模型。為了識別該手勢,需要識別人體骨架(圖1(b))及其頭部和左右手部件輪廓特征(圖1(c))。
圖1 通用手勢描述框架
由式(1)可知,從圖像中提取人體骨架關(guān)鍵點(diǎn)是提取人體骨架特征的基礎(chǔ)。對此,借鑒文獻(xiàn)[24]思想,剪裁CPM網(wǎng)絡(luò)層數(shù),構(gòu)建人體骨架關(guān)鍵節(jié)點(diǎn)提取網(wǎng)絡(luò)(key-point extracting network,KEN)。
計算出人體骨架中的每個關(guān)鍵節(jié)點(diǎn)的位置,基于式(2)可建立初步的人體骨架形態(tài)。
SSD以卷積層取代了傳統(tǒng)卷積網(wǎng)絡(luò)中的全連接層,相較其他單階段對象檢測算法擁有更少的網(wǎng)絡(luò)參數(shù)和更快的運(yùn)行速度,且其識別精度高,因此本文借鑒SSD思想設(shè)計了手勢部件輪廓特征提取網(wǎng)絡(luò)(gesture part extracting network,GPEN)。
GPEN在多尺度的卷積特征圖上對部件輪廓特征進(jìn)行檢測與分類。其中,對每一尺度卷積特征圖上的每個單元,GPEN利用不同尺度和長寬比的預(yù)測框?qū)騼?nèi)的手勢部件進(jìn)行預(yù)測,生成錨定框的位置以及不同手勢部件輪廓的類別置信度。設(shè)為GPEN從圖像中識別出的部件輪廓特征值(,)的集合,其中為部件輪廓預(yù)測框的位置信息,由預(yù)測框中心點(diǎn)的坐標(biāo)(,)、預(yù)測框?qū)挾群透叨葮?gòu)成;表示將預(yù)測框中包含的對象輪廓預(yù)測為不同部件輪廓類別的置信度集合。如,c為部件輪廓屬于第類部件輪廓的置信度,即c∈。
對于每個部件輪廓(f∈),其位置信息為l,類別置信度集合為C;假設(shè)C中置信度值最大的部件輪廓對應(yīng)類別為,則將的類別設(shè)定為,其置信度值為c(c∈C),此時f的特征值為(l,c)。以此類推,對于圖像中所有部件輪廓的特征值集合為(L,C)。根據(jù)預(yù)設(shè)的置信度閾值c從中去除掉c低于c的部件輪廓,同時將中的元素按照置信度值降序排序,其構(gòu)成了最終的部件輪廓集合。重復(fù)以下3個步驟:
(1) 取中置信度值c最高的部件,將該部件輪廓的位置特征l分別與中的其他部件的位置特征l按照式(6)進(jìn)行計算,得到重疊度,即
(2) 若識別同一部件輪廓的重疊度閾值為J,當(dāng)(l,other)高于J時,將other對應(yīng)的部件特征other從中刪除。
(3) 當(dāng)對排序后的部件集合完成以上操作后,將l對應(yīng)的部件特征f從中刪除,并輸出f對應(yīng)的(l, c)值。所屬類別確定了該部件輪廓屬于左手輪廓特征(或?yàn)橛沂州喞卣骰驗(yàn)轭^部輪廓特征)。
重復(fù)上述步驟,直至集合為空,最終得到左手、右手和頭部部件輪廓特征,和。在此基礎(chǔ)上,通過式(7)將上述手勢人體骨架特征與左手輪廓()、右手輪廓()和頭部輪廓()特征拼接構(gòu)成了手勢的空間上下文特征,即
在動態(tài)手勢識別中,手勢類型不僅與當(dāng)前手勢特征有關(guān),還與之前的手勢特征有關(guān)。設(shè)f為手勢分類函數(shù),當(dāng)前手勢類型依據(jù)式(8)求得,即
式(8)說明了準(zhǔn)確識別當(dāng)前動態(tài)手勢類別,需要一種結(jié)構(gòu)來保存此前手勢的空間上下文特征。因此,本文引入LSTM網(wǎng)絡(luò)將動態(tài)手勢中的空間特征與時間順序相關(guān)聯(lián)。LSTM依據(jù)式(9)保存記憶內(nèi)。
其中,h為輸出的時間特征;e用于記憶保存,并作為下一個循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入。在保存記憶的同時,LSTM也依據(jù)式(10)計算輸出向量h,即
其中,為sigmoid函數(shù);?為向量拼接;為矩陣乘法;×為點(diǎn)乘;為當(dāng)前時間;F為在時間時的手勢空間上下文空間特征;和為神經(jīng)網(wǎng)絡(luò)中可訓(xùn)練全連接層的權(quán)重和偏置。
空間上下文與時序特征融合的動態(tài)手勢識別機(jī)框架如圖3所示,即由人體骨架特征提取網(wǎng)絡(luò)、輪廓特征提取網(wǎng)絡(luò)和手勢時序特征提取網(wǎng)絡(luò)構(gòu)成。框架中人體骨架關(guān)鍵節(jié)點(diǎn)提取網(wǎng)絡(luò)KEN采用文獻(xiàn)[24]所述人體骨架特征提取方法構(gòu)建,其他部分網(wǎng)絡(luò)構(gòu)建方法在本節(jié)逐一介紹。
圖3 動態(tài)手勢識別框架
由于數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)相對較少,直接使用SSD網(wǎng)絡(luò)進(jìn)行訓(xùn)練易導(dǎo)致過擬合現(xiàn)象。為了緩解過擬合現(xiàn)象的發(fā)生,減少網(wǎng)絡(luò)模型的參數(shù)量,本文采用參數(shù)量更少的MobileNet替換SSD中的特征提取網(wǎng)絡(luò)VGGNet,進(jìn)而構(gòu)建手勢部件輪廓特征提取網(wǎng)絡(luò)GPEN。圖4為GPEN的網(wǎng)絡(luò)結(jié)構(gòu)。
圖4中,GPEN中特征提取網(wǎng)絡(luò)(Conv1~Conv13)基于深度可分離卷積的堆疊技術(shù)構(gòu)建,其將通道相關(guān)性和空間相關(guān)性分離,并用深度可分離卷積核代替?zhèn)鹘y(tǒng)卷積核,因此大大減少了網(wǎng)絡(luò)的參數(shù)量,其完整卷積過程如圖5所示。
圖5中,為輸入通道數(shù);為輸出通道數(shù);D×D為卷積核大小,D×D為輸入特征圖的大??;D×D為輸出特征圖的大小。深度可分離卷積核與傳統(tǒng)卷積核的特征參數(shù)比值由式(11)計算可得
其中,為網(wǎng)絡(luò)的第個卷積層。
GPEN網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)由分類損失和定位損失構(gòu)成為
其中,為樣本的數(shù)量;為當(dāng)前預(yù)測框的類別匹配信息;為類別預(yù)測信息;為預(yù)測框的位置信息;為檢測框的真實(shí)值;L為分類損失函數(shù);L為預(yù)測框的定位損失函數(shù);為權(quán)重系數(shù)。
依據(jù)KEN輸出的關(guān)鍵節(jié)點(diǎn)及節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,根據(jù)式(4)和式(5)可分別計算出人體骨架中各骨架段的相對長度及其與重力加速度間的夾角,同時結(jié)合GPEN輸出的左右手和頭部輪廓類別可以生成時刻的人體手勢空間上下文特征F。圖6為計算手勢空間上下文特征的偽代碼。
圖6 人體手勢空間上下文提取偽代碼
LSTM網(wǎng)絡(luò)被用來提取動態(tài)手勢的時序特征。圖7為本文所用LSTM網(wǎng)絡(luò)的架構(gòu)。在圖7中,e?1,h?1和F是LSTM網(wǎng)絡(luò)的輸入。其中,F是在時
圖7 LSTM架構(gòu)
刻人體骨架中各骨架的相對長度及其與重力加速度夾角以及左右手和頭部輪廓類別合成的特征值。
本文參考中國交通人體手勢規(guī)范,選擇了8種交警指揮手勢對應(yīng)的左右手和頭部輪廓(表1)。此外,將8種交警手勢之外的手勢歸類為“待機(jī)”姿勢。
表1 8種中國交警手勢對應(yīng)的左右手和頭部輪廓
4名志愿者按照中國交警手勢規(guī)范錄制了8種交警指揮手勢和“待機(jī)”姿勢,其中,每位志愿者針對9種姿勢分別錄制了50組視頻,視頻為1024×768分辨率、15 fps的標(biāo)準(zhǔn)高清格式。這些視頻經(jīng)過清洗后分別劃分成訓(xùn)練、驗(yàn)證和測試樣本集。圖8為部分交警手勢數(shù)據(jù)集樣本。
圖8 交警手勢數(shù)據(jù)集樣本示例
該數(shù)據(jù)集中,每組視頻的背景、光線強(qiáng)弱、人物與鏡頭間的距離等試驗(yàn)場景不盡相同。例如,包括室內(nèi)和傍晚時刻光照較弱的場景,也包括背景有流動車輛和人員、以及含有眾多樹干和樹枝的復(fù)雜背景場景。同時,為了進(jìn)一步提高模型魯棒,避免深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中出現(xiàn)過擬合現(xiàn)象,課題組對采集的視頻幀數(shù)據(jù)集進(jìn)行了隨機(jī)數(shù)據(jù)增強(qiáng)操作。
本文針對每組視頻幀同時采用表2中的5種數(shù)據(jù)增強(qiáng)操作,得到1組新的數(shù)據(jù)樣本,在增強(qiáng)操作時隨機(jī)選擇變換區(qū)間的取值,每種操作彼此獨(dú)立。圖9為部分?jǐn)?shù)據(jù)增強(qiáng)操作后生成的樣本示例。
表2 數(shù)據(jù)增強(qiáng)操作
圖9 數(shù)據(jù)增強(qiáng)后的部分視頻幀示例
本文采用AI Challenger公開的人體關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)集作為訓(xùn)練樣本來訓(xùn)練KEN網(wǎng)絡(luò)。在人體骨架特征提取網(wǎng)絡(luò)KEN的訓(xùn)練中,batch值取15;梯度下降采用了Adam優(yōu)化器,其學(xué)習(xí)率為0.000 8,每20 000步的指數(shù)衰減率為0.8。
GPEN在進(jìn)行網(wǎng)絡(luò)訓(xùn)練前需依據(jù)人體手勢中手和頭部輪廓特征優(yōu)化SSD錨定框。并采用式(15)對錨定框進(jìn)行歸一化,即
已標(biāo)注視頻樣本的左右手和頭部輪廓尺度比例的散點(diǎn)圖如圖10所示。其橫坐標(biāo)表示部件輪廓標(biāo)注框?qū)挾日颊鶊D像寬度的比例;縱坐標(biāo)表示標(biāo)注框高度占整幅圖像高度的比例。由圖10發(fā)現(xiàn),部件輪廓標(biāo)注框高度與原圖像高度比小于0.25、寬度與原圖像寬度比小于0.20,部件輪廓標(biāo)注框歸一化尺度介于0.05~0.25之間。為了訓(xùn)練GPEN,課題組將錨定框的歸一化尺度取值介于0.05~0.3之間。GPEN含有6層包含了錨定框的特征層,每個特征層上的錨定框歸一化尺度可按照式(16)求得(表3)。
表3 錨定框尺寸系數(shù)
圖10 特征尺寸比例散點(diǎn)圖
本文采用截斷反向傳播算法訓(xùn)練LSTM網(wǎng)絡(luò)。訓(xùn)練中,交警手勢特征被隨機(jī)切分成長度為90 s的小視頻,128個小視頻組裝成一個batch。累計訓(xùn)練50 000步。
上述3類網(wǎng)絡(luò)訓(xùn)練完成后,訓(xùn)練好的KEN和GPEN構(gòu)成了空間上下文特征提取網(wǎng)絡(luò),其和時序特征提取網(wǎng)絡(luò)LSTM相連接構(gòu)成了動態(tài)手勢識別機(jī)GRSCTFF。GRSCTFF以包含動態(tài)手勢的視頻作為輸入,輸出為交警手勢的類別。
本文采用編輯距離(edit-distance)計算GRSCTFF模型準(zhǔn)確率,即模型預(yù)測識別的手勢信息轉(zhuǎn)成真實(shí)標(biāo)注手勢信息所需的最少編輯次數(shù),Edit距離為
其中,為視頻中姿勢總數(shù);為視頻中插入姿勢的總數(shù);為系統(tǒng)中刪除姿勢的總數(shù);為系統(tǒng)中替換姿勢的總數(shù)。
使用訓(xùn)練好的GRSCTFF模型對測試集中的視頻進(jìn)行逐幀預(yù)測,得到手勢預(yù)測序列。將預(yù)測序列與標(biāo)注序列按照式(17)計算出基于編輯距離的系統(tǒng)識別準(zhǔn)確率(表4)。
表4 GRSCTFF手勢識別系統(tǒng)的編輯距離
表4中,文件列包含手勢測試集的視頻文件編號,不同編號的視頻文件其測試場景不同,每個視頻文件時長為5~10 min;預(yù)測列包含視頻文件的預(yù)測手勢總數(shù);為視頻文件實(shí)際出現(xiàn)的手勢總數(shù);其余列意義與式(17)相同。由表4可知,GRSCTFF 針對10組交警手勢測試樣本的識別準(zhǔn)確率達(dá)到94.12%。
此外,為了驗(yàn)證空間上下文多特征融合能否提高手勢分類的準(zhǔn)確率,課題組移除GRSCTFF中的手勢部件輪廓特征提取網(wǎng)絡(luò),構(gòu)造了一種僅含人體骨架和時序特征的手勢識別機(jī)(KEN+LSTM)與GRSCTFF 進(jìn)行對比。KEN+LSTM使用與本實(shí)驗(yàn)相同的訓(xùn)練樣本和測試樣本,其編輯距離見表5。
表5 KEN+LSTM手勢識別算法編輯距離
對比表4和表5,KEN+LSTM的識別準(zhǔn)確率為91.18%,GRSCTFF相較KEN+LSTM的識別準(zhǔn)確率總體提高了約3%。其中,視頻文件004和008中,交警位于平整路面中央,背景為車輛、簡單樹木或規(guī)整建筑,光源位于被試側(cè)前方且亮度充足,故這2組測試視頻的識別率最高,GRSCTFF和KEN+LSTM的識別準(zhǔn)確率均超過98.76%,GRSCTFF略微有提高。視頻文件002為光線較暗的室內(nèi)環(huán)境,且背景包含較多雜物,GRSCTFF相較KEN+LSTM準(zhǔn)確率提升約1.8%。視頻文件010的背景為木質(zhì)崗?fù)ひ约翱菸菽镜氖彝猸h(huán)境,對KEN+LSTM造成干擾導(dǎo)致其識別準(zhǔn)確率較低,但加入部件輪廓特征提取的GRSCTFF準(zhǔn)確率提升約16%,升幅較大。視頻文件012背景為紅色建筑和灌木綠化帶,由于視頻中光源充足人物清晰,2種模型的識別率均較高,相差不大。視頻文件014背景為繁華馬路,包含有大量移動人物及穿梭的汽車;此外馬路周圍包含眾多樹木且樹枝橫縱交叉;人物距離鏡頭遠(yuǎn)且逆光,背景雜項(xiàng)對識別算法造成較大干擾,故其識別率均較低。視頻文件016與014背景相似,路面平整且行人穿過背景的情景較少,GRSCTFF相較KEN+LSTM模型的手勢識別準(zhǔn)確率提升約15%。視頻文件102與104背景皆為無干擾雜項(xiàng)的白色墻面,光源位于被試側(cè)前方,被試距離鏡頭較近。該視頻GRSCTFF的識別準(zhǔn)確率較高。由上述分析可知,融合手勢骨架和部件輪廓特征的GRSCTFF可以有效提高手勢識別的準(zhǔn)確率。
最后,本文實(shí)現(xiàn)了文獻(xiàn)[22,24-29]中的人體手勢識別算法,并采用相同的訓(xùn)練和測試樣本進(jìn)行實(shí)驗(yàn)(表6),并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析,表6中,序號1~2為融合了人體骨架特征與部件輪廓特征進(jìn)行手勢識別的技術(shù),序號3~6為基于人體骨架特征進(jìn)行手勢識別的技術(shù)。其中,文獻(xiàn)[23]采用VGGNet卷積提取部件輪廓特征,其基于編輯距離的手勢識別準(zhǔn)確率為87.04%。文獻(xiàn)[24]為骨架和時序特征結(jié)合的手勢識別系統(tǒng),其準(zhǔn)確率為91.18%。文獻(xiàn)[25]在骨架特征提取基礎(chǔ)上采用雙向LSTM提取時序特征,其準(zhǔn)確率比本文算法低近3.1%;文獻(xiàn)[26-27]分別采用ResNet與DenseNet卷積提取骨架特征并結(jié)合時序網(wǎng)絡(luò)進(jìn)行分類與識別,二者手勢識別準(zhǔn)確率分別為89.66%和81.02%;文獻(xiàn)[28]采用無人體骨架特征的3D卷積網(wǎng)絡(luò)進(jìn)行手勢識別,其識別準(zhǔn)確率為81.02%;文獻(xiàn)[30]采用卷積LSTM網(wǎng)絡(luò),其手勢識別準(zhǔn)確率為80.77%。上述結(jié)果證明GRSCTFF在提取手勢輪廓基礎(chǔ)上,包含了手勢空間上下文特征,并融合動態(tài)手勢的時序特征,具有較高的手勢識別準(zhǔn)確率,并對復(fù)雜應(yīng)用場景具有較強(qiáng)的抗干擾能力。
表6 不同姿勢識別算法對比
本文借鑒CPM思想構(gòu)造人體手勢骨架特征提取網(wǎng)絡(luò)KEN,并依據(jù)人體手勢中左右手和頭部輪廓特征構(gòu)造基于SSD的手勢部件檢測網(wǎng)絡(luò)GPEN;其次,融合KEN和GPEN網(wǎng)絡(luò)提取人體手勢的空間上下文特征,并結(jié)合LSTM網(wǎng)絡(luò)提取人體動態(tài)手勢的時序特征;最后,基于上述成果構(gòu)造動態(tài)手勢識別機(jī)GRSCTFF,并應(yīng)用于交警手勢識別,實(shí)驗(yàn)中GRSCTFF對交警手勢的識別準(zhǔn)確率達(dá)到94.12%,證明本算法能適應(yīng)于光線較弱、背景復(fù)雜的應(yīng)用場景。由于人體骨架與部件輪廓特征具有通用性,本文算法可應(yīng)用于更廣泛的手勢識別應(yīng)用場景,滿足實(shí)時識別動態(tài)手勢的需要。課題組將進(jìn)一步研究復(fù)雜多人場景下的動態(tài)手勢識別技術(shù)。
[1] YIN X M, XIE M. Hand posture segmentation, recognition and application for human-robot interaction[M]//Human Robot Interaction. Vienna, Austria: I-Tech Education and Publishing, 2007: 498-520.
[2] HASAN H, ABDUL-KAREEM S. Retraction note to: human–computer interaction using vision-based hand gesture recognition systems: a survey[J]. Neural Computing and Applications, 2017, 28(4): 849.
[3] RAUTARAY S S, AGRAWAL A. Vision based hand gesture recognition for human computer interaction: a survey[J]. Artificial Intelligence Review, 2015, 43(1): 1-54.
[4] HACKENBERG G, MCCALL R, BROLL W. Lightweight palm and finger tracking for real-time 3D gesture control[C]//2011 IEEE Virtual Reality Conference. New York: IEEE Press, 2011: 9-26.
[5] 王西穎, 戴國忠, 張習(xí)文, 等. 基于HMM-FNN模型的復(fù)雜動態(tài)手勢識別[J]. 軟件學(xué)報, 2008, 19(9): 2302-2312. WANG X Y, DAI G Z, ZHANG X W, et al. Recognition of complex dynamic gesture based on HMM-FNN model[J]. Journal of Software, 2008, 19(9): 2302-2312 (in Chinese).
[6] 劉杰, 黃進(jìn), 田豐, 等. 連續(xù)交互空間下的混合手勢交互模型[J]. 軟件學(xué)報, 2017, 28(8): 2080-2095. LIU J, HUANG J, TIAN F, et al. Hybrid gesture interaction model in the continuous interaction space[J]. Journal of Software, 2017, 28(8): 2080-2095 (in Chinese).
[7] TRIESCH J, VON DER MALSBURG C. A system for person-independent hand posture recognition against complex backgrounds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(12): 1449-1453.
[8] TRIESCH J, VON DER MALSBURG C. Robust classification of hand postures against complex backgrounds[C]//Proceedings of the 2nd International Conference on Automatic Face and Gesture Recognition. New York: IEEE Press, 1996: 170-175.
[9] LI Y T, WACHS J P. HEGM: a hierarchical elastic graph matching for hand gesture recognition[J]. Pattern Recognition, 2014, 47(1): 80-88.
[10] BOBICK A F, DAVIS J W. The recognition of human movement using temporal templates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(3): 257-267.
[11] 劉江華, 程君實(shí), 陳佳品. 基于視覺的動態(tài)手勢識別及其在仿人機(jī)器人交互中的應(yīng)用[J]. 機(jī)器人, 2002, 24(3): 197-200, 216. LIU J H, CHENG J S, CHEN J P. Vision based dynamic gesture recognition and its application in human-humanoid robot interaction[J]. Robot, 2002, 24 (3): 197-200, 216 (in Chinese).
[12] 武匯岳, 張鳳軍, 劉玉進(jìn), 等. 基于視覺的手勢界面關(guān)鍵技術(shù)研究[J].計算機(jī)學(xué)報, 2009, 32(10): 2030-2041. WU H Y, ZHANG F J, LIU Y J, et al. Research on key issues of vision-based gesture interfaces[J]. Chinese Journal of Computers, 2009, 32(10): 2030-2041 (in Chinese).
[13] YANG H D, PARK A Y, LEE S W. Gesture spotting and recognition for human-robot interaction[J]. IEEE Transactions on Robotics, 2007, 23(2): 256-270.
[14] CORREA M, RUIZ-DEL-SOLAR J, VERSCHAE R, et al. Real-time hand gesture recognition for human robot interaction[EB/OL]. [2019-10-11]. https://link.springer.com/chapter/10.1007%2F978-3-642-11876-0_5.
[15] BURGER B, FERRANé I, LERASLE F, et al. Two-handed gesture recognition and fusion with speech to command a robot[J]. Autonomous Robots, 2012, 32(2): 129-147.
[16] PISHARADY P K, VADAKKEPAT P, LOH A P. Attention based detection and recognition of hand postures against complex backgrounds[J]. International Journal of Computer Vision, 2013, 101(3): 403-419.
[17] 王西穎, 張習(xí)文, 戴國忠. 一種面向?qū)崟r交互的變形手勢跟蹤方法[J]. 軟件學(xué)報, 2007, 18(10): 2423-2433. WANG X Y, ZHANG X W, DAI G Z. An approach to tracking deformable hand gesture for real-time interaction[J]. Journal of Software, 2007, 18(10): 2423-2433 (in Chinese).
[18] 程光. 人機(jī)交互系統(tǒng)中手勢和姿勢識別算法的研究[D]. 北京:清華大學(xué), 2014. CHENG G. Research on gesture and posture recognition in human computer interaction system[D]. Beijing: Tsinghua University, 2014 (in Chinese).
[19] WEI SHIH-EN, RAMAKRISHNA V, KANADE T, et al. Convolutional pose machines[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4724-4732.
[20] CAO Z, SIMON T, WEI S, et al. Realtime multi-person 2D pose estimation using part affinity fields[EB/OL]. [2019-11-28]. https://arxiv.org/abs/1611.08050.
[21] FRAGKIADAKI K, LEVINE S, FELSEN P, et al. Recurrent Network Models for Human Dynamics[C]// IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4346-4354.
[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[23] RAMAKRISHNA V, MUNOZ D, HEBERT M, et al. Pose machines: articulated pose estimation via inference machines[C]//European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2014: 33-47.
[24] HE J, ZHANG C, HE X, et al. Visual recognition of traffic police gestures with convolutional pose machine and handcrafted features[J]. Neurocomputing, 2019, 390(5): 248-259.
[25] PIGOU L, ARON V D O, DIELEMAN S, et al. Beyond temporal pooling: recurrence and temporal convolutions for gesture recognition in video[J]. International Journal of Computer Vision, 2016, 126(10): 430-439.
[26] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 770-778.
[27] HUANG G, LIU Z, LAURENS V D M, et al. Densely connected convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 4700-4708.
[28] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.
[29] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[EB/OL]. [2019-11-28]. https:// arxiv.org/abs/1506.04214.
Visual gesture recognition technology based on long short term memory and deep neural network
HE Jian1,2, LIAO Jun-jie2, ZHANG Cheng2, WEI Xin2, BAI Jia-hao2, WANG Wei-dong1,2
(1. Software and System Engineering Technology Center, Beijing 100124, China; 2. Faculty of Information, Beijing University of Technology, Beijing 100124, China)
Aiming at the problem that visual gesture recognition is susceptible to light conditions, background information and changes in gesture shape, this paper analyzed the spatial context features of human gestures. First, this paper established a dynamic gesture model based on the contour features of human skeleton and body parts. The convolutional pose machine (CPM) and the single shot multibox detector (SSD) technology were utilized to build deep neural network, so as to extract the contour features of human gesture skeleton and body parts. Next, the long short term memory (LSTM) network was introduced to extract the temporal features of skeleton, left and right hand, and head contour in dynamic human gestures, so as to further classify and recognize gestures. On this basis, this paper designed a dynamic gesture recognizer based on spatial context and temporal feature fusion (GRSCTFF), and conducted network training and experimental analysis on GRSCTFF through the video sample database of traffic police command gestures. The experimental results show that GRSCTFF can quickly and accurately recognize the dynamic traffic police command gestures with an accuracy of 94.12%, and it has strong anti-interference ability to light, background and gesture shape changes.
gesture recognition; spatial context; long short term memory; feature extraction
TP 391
10.11996/JG.j.2095-302X.2020030372
A
2095-302X(2020)03-0372-10
2019-11-21;
2019-12-28
國家自然科學(xué)基金項(xiàng)目(61602016);北京市科技計劃項(xiàng)目(D171100004017003)
何 堅(1969-),男,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)橹悄苋藱C(jī)交互、普適計算和物聯(lián)網(wǎng)等。E-mail:Jianhee@bjut.edu.cn
張 丞(1993-),男,博士研究生。主要研究方向?yàn)橹悄苋藱C(jī)交互、模式識別等。E-mail:18618135402@163.com