李揚(yáng)科,宋全博,周元峰
用于手勢識別的時空融合網(wǎng)絡(luò)以及虛擬簽名系統(tǒng)
李揚(yáng)科,宋全博,周元峰
(山東大學(xué)軟件學(xué)院,山東 濟(jì)南 250101)
由于新型冠狀病毒的流行,非接觸式個人簽名可以在一定程度上降低感染的風(fēng)險,其將在人們?nèi)粘5纳钪邪l(fā)揮重要作用。因此,提出了一種簡單而有效的時空融合網(wǎng)絡(luò)來實(shí)現(xiàn)基于骨架的動態(tài)手勢識別,并以此為基礎(chǔ)開發(fā)了一款虛擬簽名系統(tǒng)。時空融合網(wǎng)絡(luò)主要由基于注意力機(jī)制的時空融合模塊構(gòu)成,其核心思想是以增量的方式同步實(shí)現(xiàn)時空特征的提取與融合。該網(wǎng)絡(luò)采用不同編碼的時空特征作為輸入,并在實(shí)際應(yīng)用中采用雙滑動窗口機(jī)制來進(jìn)行后處理,從而確保結(jié)果更加的穩(wěn)定與魯棒。在2個基準(zhǔn)數(shù)據(jù)集上的大量對比實(shí)驗(yàn)表明,該方法優(yōu)于最先進(jìn)的單流網(wǎng)絡(luò)方法。另外,虛擬簽名系統(tǒng)在一個普通的RGB相機(jī)下表現(xiàn)優(yōu)異,不僅大大降低了交互系統(tǒng)的復(fù)雜性,還提供了一種更為便捷、安全的個人簽名方式。
手勢識別;特征融合;骨架表征;注意力機(jī)制;簽名系統(tǒng)
手是人體最靈活的部位,在虛擬的沉浸式體驗(yàn)[1]中使用手勢與機(jī)器進(jìn)行交互是最直觀和便捷的。隨著人們對人機(jī)交互智能化要求的不斷提高,手勢識別已經(jīng)成為計算機(jī)視覺領(lǐng)域的一個重要的研究熱點(diǎn)。尤其是在疫情肆虐的當(dāng)下,人們希望能夠以一種更安全、自然的方式來實(shí)現(xiàn)人機(jī)交互。
目前,針對手勢識別的研究可以分為靜態(tài)手勢識別和動態(tài)手勢識別2大類。前者側(cè)重于從單幅圖像中分析手的姿勢,后者則更具挑戰(zhàn)性,旨在理解視頻序列所傳達(dá)的內(nèi)容。由于動態(tài)手勢能夠表達(dá)更多的信息,因此有著更廣泛地應(yīng)用。
傳統(tǒng)的動態(tài)手勢識別是基于數(shù)據(jù)手套或單目視覺傳感器采集的信息,其面臨著成本和光照等因素的影響。隨著深度傳感器和三維手勢估計技術(shù)的發(fā)展,高精度的手勢骨架關(guān)節(jié)點(diǎn)變得更容易獲取,這使得基于骨架的手勢識別在人機(jī)交互領(lǐng)域中得到了更加廣泛地應(yīng)用。由于骨架數(shù)據(jù)具有對光照魯棒性強(qiáng)、對動作表達(dá)能力強(qiáng)等特點(diǎn),因此,基于骨架數(shù)據(jù)的手勢識別的表現(xiàn)會更加出色。
如何有效地挖掘骨架序列的潛在時空特征從而提升識別效果,一直是一個具有挑戰(zhàn)性的問題。為此,本文提出了一種簡單而有效的基于骨架數(shù)據(jù)的動態(tài)手勢識別網(wǎng)絡(luò)框架———時空融合網(wǎng)絡(luò),需要指出的是:為提供更加豐富的骨架特征,本文分別為時間特征與空間特征設(shè)計了不同的骨架表征方式,并將處理后的骨架數(shù)據(jù)作為時間運(yùn)動分支和空間結(jié)構(gòu)分支的輸入;為更加關(guān)注骨架特征,設(shè)計了一種時空注意力機(jī)制,根據(jù)關(guān)節(jié)特征之間的潛在關(guān)系來增強(qiáng)更具代表性的骨架特征;為能夠減少提取的時空特征的損失,還提出了一種時空特征融合模塊,以在復(fù)雜環(huán)境下有效地實(shí)現(xiàn)時空特征的融合;為解決識別結(jié)果不穩(wěn)定的問題,采用了一種雙滑動窗口的方法來獲得令人滿意的結(jié)果。為了評估該方法的有效性,本文在2個公開的動態(tài)手勢識別骨架數(shù)據(jù)集上進(jìn)行了大量的對比實(shí)驗(yàn),相關(guān)結(jié)果說明其優(yōu)于當(dāng)前的單流網(wǎng)絡(luò)。
個人數(shù)字簽名作為一種身份鑒別的方式,其應(yīng)用場景非常廣闊。受新冠病毒疫情的影響,人們希望在公共場所中以一種更加安全、便捷的方式完成個人簽名。為此,本文借助上述提出的網(wǎng)絡(luò)框架,設(shè)計了一種非接觸式虛擬簽名系統(tǒng),其涉及三維手勢骨架估計、手勢識別、手寫體識別、簽名生成等多種技術(shù)。該系統(tǒng)利用一個普通的單目攝像機(jī)來捕捉RGB視頻,并采用實(shí)時三維手勢骨架估計技術(shù)獲取三維關(guān)節(jié)坐標(biāo)。然后,記錄食指指尖的運(yùn)動軌跡作為用戶輸入的簽名。此外,該系統(tǒng)還將手寫體識別與網(wǎng)絡(luò)爬蟲相結(jié)合,根據(jù)選定的風(fēng)格和手寫體漢字生成相應(yīng)的藝術(shù)簽名。為了能夠使時空融合網(wǎng)絡(luò)更好地適用于該系統(tǒng),本文還建立了一個包含7種類型的動態(tài)手勢識別骨架數(shù)據(jù)集。經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn):該系統(tǒng)可以達(dá)到95%以上的準(zhǔn)確度,可基本滿足用戶的需求。
隨著低成本的深度傳感器與實(shí)時的三維手勢估計技術(shù)的迅速發(fā)展,這使得高精度的手勢骨架數(shù)據(jù)變得更易獲得。因而,該領(lǐng)域得到越來越多相關(guān)學(xué)者的青睞,并涌現(xiàn)出許多基于骨架的手勢識別方法。其方法可分為2類:傳統(tǒng)的基于手工設(shè)計特征的方法以及基于深度學(xué)習(xí)的方法。
傳統(tǒng)的基于骨架的動態(tài)手勢識別方法通常需要依賴手工設(shè)計的特征來描述關(guān)節(jié)的特征,從而實(shí)現(xiàn)手勢動作的識別。如文獻(xiàn)[2]提出了連接關(guān)節(jié)形狀(shape of connected joints,SoCJ)、手部方向直方圖(histogram of hand directions,HoHD)、手腕旋轉(zhuǎn)直方圖(histogram of wrist rotations,HoWR)3種新穎的表征骨架序列內(nèi)手型和幾何變換的骨架描述符。其通過使用高斯混合模型獲得Fisher向量編碼,并采用線性支持向量機(jī)(support vector machine,SVM)分類器來實(shí)現(xiàn)手勢的識別。文獻(xiàn)[3]通過提取手指運(yùn)動特征來描述其運(yùn)動,并使用全局運(yùn)動特征表征手勢骨架的全局運(yùn)動,進(jìn)而將上述特征輸入至循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)以獲得最終的手勢識別結(jié)果。文獻(xiàn)[4]使用了一種基于特征集的方式來建模手勢軌跡,并使用SVM分類器來實(shí)現(xiàn)分類。然而,這些方法并不能獲得令人滿意的效果。因?yàn)檫@些方法無法同時考慮多種描述符,以及充分挖掘骨架序列的潛在特征。因此,本文引入深度學(xué)習(xí)來提取潛在的時空特征。
隨著人工智能的發(fā)展,基于深度學(xué)習(xí)的手勢識別逐漸成為相關(guān)學(xué)者主要的研究方向。這類方法主要采用一種端到端的方式來實(shí)現(xiàn)基于骨架的手勢識別,其輸入為經(jīng)過編碼后的骨架特征圖,輸出為預(yù)測的識別結(jié)果。如文獻(xiàn)[5]提出了一種新穎的端到端的時空注意力殘差時域卷積網(wǎng)絡(luò),其可以有效地學(xué)習(xí)不同層次的注意力,并自適應(yīng)地聚焦于蘊(yùn)含有用信息的骨架特征。文獻(xiàn)[6]利用新穎的雙特征、雙運(yùn)動網(wǎng)絡(luò),采用距離特征(joint collection distances,JCD)和2種全局運(yùn)動特征作為網(wǎng)絡(luò)的輸入。文獻(xiàn)[7]基于動態(tài)圖的時空注意力方法來實(shí)現(xiàn)手勢識別,即從手勢骨架中構(gòu)建一個全連接圖,并通過自我注意力機(jī)制在時域和空域上自動學(xué)習(xí)關(guān)節(jié)特征和邊緣特征。文獻(xiàn)[8]提出了一個新穎的端到端的基于門控循環(huán)單元(gated recurrent unit,GRU)的深度網(wǎng)絡(luò)模型,其使用堆疊的GRU和一個全局注意力機(jī)制以及2個全連接層來實(shí)現(xiàn)識別任務(wù)。文獻(xiàn)[9]基于對稱正定(symmetric positive definite,SPD)流形學(xué)習(xí)的三階段方法,分別結(jié)合了在時域與空域上2個聚合過程。該方法在第一階段利用卷積層來增強(qiáng)可學(xué)習(xí)特征的判別能力;第二階段則依賴不同架構(gòu)在時域與空域上實(shí)現(xiàn)關(guān)節(jié)特征的高斯聚合;第三階段是從骨架數(shù)據(jù)中學(xué)習(xí)SPD矩陣并利用SVM實(shí)現(xiàn)手勢分類。文獻(xiàn)[10]設(shè)計了一種新穎的卷積神經(jīng)網(wǎng)絡(luò),其引入了并行處理分支來提取信號特征。文獻(xiàn)[11]提出了一種解耦表征學(xué)習(xí)來識別動態(tài)手勢,并將手勢解耦為手部的姿態(tài)變化和手部的運(yùn)動,可分別利用三維手部姿態(tài)進(jìn)化體(hand posture evolution volume,HPEV)來表示精細(xì)的姿態(tài)變化,利用二維手部運(yùn)動圖(hand movement map,HMM)來表征全局運(yùn)動特征。這些方法雖然有較好的表現(xiàn),但無法同時有效地提取與融合時空特征。為此,本文提出了一種簡單而有效的時空融合網(wǎng)絡(luò),在提取關(guān)鍵特征的同時,能夠?qū)崿F(xiàn)時空特征的融合。
隨著科技的迅速發(fā)展,近年來手勢識別在不同的人機(jī)交互場景中得到了廣泛地應(yīng)用,其中包括教育教學(xué)、體感交互游戲、智能機(jī)器人控制、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。如文獻(xiàn)[12]提出了一種用于聯(lián)合手語識別和自動教育的自提升智能系統(tǒng)來幫助彼此互相改進(jìn),借助時空網(wǎng)絡(luò)并利用局部手勢的時間運(yùn)動特征來實(shí)現(xiàn)手語識別。文獻(xiàn)[13]開發(fā)了基于手勢識別的虛擬音樂控制系統(tǒng),以支持一些常規(guī)的如播放、暫停、停止、切歌、調(diào)音等音樂控制操作。文獻(xiàn)[14]利用手勢識別開發(fā)了肌電人機(jī)控制系統(tǒng),用戶可以借此來控制具有6個自由度的機(jī)械手。文獻(xiàn)[15]基于手勢識別的虛擬鍵盤,使殘疾人可以通過該系統(tǒng)實(shí)現(xiàn)與家人的溝通與交流。文獻(xiàn)[16]設(shè)計了一種基于手勢識別的虛擬按鍵系統(tǒng),允許用戶在虛擬環(huán)境中自然地完成“點(diǎn)擊”操作。在當(dāng)前新型冠狀病毒肆虐的情況下,更多人希望在公開場合中使用非接觸的方式來實(shí)現(xiàn)個人簽名。為此,本文開發(fā)了虛擬簽名系統(tǒng),以此降低在公共的人機(jī)交互場景下感染病毒的風(fēng)險。
為了能夠有效地實(shí)現(xiàn)時空特征的提取與融合,從而獲得令人滿意的動態(tài)手勢識別結(jié)果。本文提出了如圖1所示的時空融合網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要由時間運(yùn)動分支、空間結(jié)構(gòu)分支、時空融合模塊以及多層感知機(jī)構(gòu)成。其中,時間運(yùn)動分支主要提取骨架幀間的時間運(yùn)動變化特征;空間結(jié)構(gòu)分支主要提取骨架幀內(nèi)的空間結(jié)構(gòu)變化特征;時空融合模塊主要實(shí)現(xiàn)關(guān)鍵時空特征的提取與融合;多層感知機(jī)主要負(fù)責(zé)預(yù)測最終識別結(jié)果。由于該網(wǎng)絡(luò)主要應(yīng)用于基于骨架的動態(tài)手勢識別,其在真實(shí)場景中往往會面臨識別結(jié)果不穩(wěn)定的問題。因此,本文在實(shí)際使用中采取了一種雙滑動窗口的機(jī)制來穩(wěn)定識別結(jié)果,這在很大程度上改善了用戶的體驗(yàn)。
圖1 時空融合網(wǎng)絡(luò)的整體架構(gòu)
對于每個手勢骨架序列,本文假設(shè)手勢骨架幀的總數(shù)是,每個手部關(guān)節(jié)的總數(shù)為。對于第個骨架幀,手勢骨架為
其中,=(,,)為手部關(guān)節(jié)的三維笛卡爾坐標(biāo)。原始的手部骨架只包含笛卡爾坐標(biāo)特征,其位置和視點(diǎn)是變化的,而且笛卡爾坐標(biāo)特征不能反映時間運(yùn)動特征和空間結(jié)構(gòu)特征。為了更好地解決上述問題,本文采用了更有效的手勢骨架表征方式。
為了獲得時間運(yùn)動特征,本文利用相鄰幀差法來處理原始的笛卡爾坐標(biāo)特征,經(jīng)處理后的特征具有位置不變性。因此,時間運(yùn)動特征為
其中,為時間運(yùn)動特征;S+1為位于S后面的一個手勢骨架幀。
圖2為本文提出的4種不同的關(guān)節(jié)遍歷方式,以探究骨架關(guān)節(jié)的最佳遍歷序列??蓪⑹植康墓羌芟胂蟪梢豢脴洌终脐P(guān)節(jié)是根節(jié)點(diǎn),其余的手指是樹枝。在深度遍歷算法和廣度遍歷算法的基礎(chǔ)上,本文設(shè)計了4種與文獻(xiàn)[17]相似的關(guān)節(jié)遍歷序列。深度序列(圖2(a))主要是將同一手指的關(guān)節(jié)排列在一起,其更注重每個手指的運(yùn)動特征;廣度序列(圖2(b))在一定程度上是按照骨架關(guān)節(jié)的自由度進(jìn)行排列,其有助于提取具有相同運(yùn)動程度的關(guān)節(jié)特征;本文在上述基礎(chǔ)上又引入循環(huán)遍歷(圖2(c),圖2(d))的思想,以獲取更豐富的信息。為獲得更加直觀的理解,以深度序列為例,其生成的關(guān)節(jié)序列為[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22]。當(dāng)使用上述序列的運(yùn)動特征作為時間運(yùn)動分支的輸入,則有
上述方法雖然能夠有效地描述骨架幀之間的運(yùn)動特征,但無法表征同一幀中關(guān)節(jié)之間的空間結(jié)構(gòu)關(guān)系。由于節(jié)點(diǎn)之間的邊可以有效地表示每個節(jié)點(diǎn)之間的相對位置,因此本文設(shè)計了4種不同的邊緣連接方法,如圖3所示。
串行鄰域連接(圖3(a))符合手部骨架的原始結(jié)構(gòu),但相鄰關(guān)節(jié)之間的距離基本不變;串行跳躍連接(圖3(b))有效地擺脫了物理骨骼的限制,能夠表示每個關(guān)節(jié)與手掌之間的空間結(jié)構(gòu)關(guān)系;并行鄰域連接(圖3(c))可以有效地捕捉相鄰關(guān)節(jié)之間的運(yùn)動特征;并行跳躍連接(圖3(d))有助于建立具有相同自由度的非相鄰關(guān)節(jié)之間的結(jié)構(gòu)關(guān)系。為了能夠便于理解,以串行鄰域連接為例,其生成的關(guān)節(jié)連接序列為[(1,2),(1,3),(3,4),(4,5),(5,6),(1,7),(7,8),(8,9),(9,10),(1,11),(11,12),(12,13),(13,14),(1,15),(15,16),(16,17),(17,18),(1,19),(19,20),(20,21),(21,22)]。當(dāng)使用上述序列的結(jié)構(gòu)特征作為空間結(jié)構(gòu)分支的輸入,則有
為了有效地學(xué)習(xí)時空特征,本文采用逐步融合的增量思想,設(shè)計了時空融合網(wǎng)絡(luò),其主要利用時空融合模塊來分階段實(shí)現(xiàn)關(guān)鍵時空特征的提取和融合。如圖4所示,該模塊的輸入源由空間結(jié)構(gòu)分支的空間特征圖,時間運(yùn)動分支的時間特征圖以及上層時空融合模塊的時空特征圖3部分組成。為了能夠獲得豐富的時空特征,本文采用Concatenate來實(shí)現(xiàn)時間特征與空間特征的融合,該方式有效地避免了特征的丟失。同時,考慮到模型的大小和存儲資源的限制,采用Add來實(shí)現(xiàn)不同時空融合模塊之間的時空特征融合,在不增加描述特征維數(shù)的情況下實(shí)現(xiàn)信息的疊加。此外,還利用一維卷積進(jìn)一步提取時空特征,并以此作為下一級時空融合模塊的輸入。相比于常規(guī)的時空特征融合方式,本文方法不僅能夠有效地融合更多不同尺度的時空特征,還能夠增強(qiáng)關(guān)鍵的潛在特征。
鑒于采集的手勢具有高度的類內(nèi)方差,本文注意到并非神經(jīng)網(wǎng)絡(luò)提取的所有特征都包含最具辨別力的信息。不相關(guān)的骨架幀和特征通常會帶來不必要的干擾噪聲。為了解決這個問題,本文設(shè)計了時空注意力模塊(圖4)處理提取的時間特征和空間特征,有助于時空融合網(wǎng)絡(luò)自適應(yīng)地提取更關(guān)鍵的特征。
圖4 時空融合模塊示意圖
具體來說,本文將給定的特征圖輸入到3個不同的分支中,以保留原始特征并計算相應(yīng)的注意力權(quán)重。使用一維卷積獲得時空注意力權(quán)重為
時空融合網(wǎng)絡(luò)的輸入是手部骨架序列,其輸出是預(yù)測的手勢標(biāo)簽。其采用交叉熵?fù)p失函數(shù)作為損失項(xiàng),因此該損失函數(shù)可以表示為
受外部環(huán)境影響,本文獲取的手勢3D骨架可能存在一定噪聲。并且在實(shí)際應(yīng)用中,由于手是動態(tài)變化的,因此模型的識別結(jié)果可能會在短時間內(nèi)發(fā)生跳變。為了解決這個問題,本文采用了雙滑動窗口的方法,使得網(wǎng)絡(luò)的識別結(jié)果更加穩(wěn)定。如圖5所示,上面的窗口是結(jié)果滑動窗口,下面的窗口是識別滑動窗口。本文將識別滑動窗口設(shè)置為32,結(jié)果滑動窗口設(shè)置為12。每當(dāng)有新的骨架幀到達(dá)時,便將其添加到識別滑動窗口中,并將當(dāng)前識別滑動窗口的識別結(jié)果添加到結(jié)果滑動窗口中。當(dāng)結(jié)果滑動窗口中的所有結(jié)果都相等時,確認(rèn)用戶已經(jīng)執(zhí)行了該手勢。
圖5 雙滑動窗口方法示意圖
SHREC’17 Track[18]數(shù)據(jù)集是一個公開的動態(tài)手勢數(shù)據(jù)集,包含2 800個手勢骨架序列。在此數(shù)據(jù)集中,28名志愿者以2種方式(一根手指和整只手)分別執(zhí)行每個手勢1~10次。每個骨架幀提供3D世界空間中22個手部關(guān)節(jié)的坐標(biāo)。本文使用1 960個骨架序列進(jìn)行訓(xùn)練,使用840個手勢骨架序列進(jìn)行測試。
DHG-14/28[2]數(shù)據(jù)集是一個具有挑戰(zhàn)性的動態(tài)手勢數(shù)據(jù)集,其為每個手勢提供深度圖像和相應(yīng)的手部骨架序列。其包含14個手勢,由20名志愿者以2種不同方式分別執(zhí)行5次。此數(shù)據(jù)集由Intel RealSense深度攝像機(jī)捕獲的2 800個視頻序列組成。對此數(shù)據(jù)集,本文采用留一交叉驗(yàn)證的策略進(jìn)行相關(guān)實(shí)驗(yàn)。
本實(shí)驗(yàn)均以TensorFlow為后端的Keras在NVIDIA GeForce RTX 2080Ti上進(jìn)行的。并采用端到端的方式訓(xùn)練模型,將批處理大小設(shè)置為64,初始學(xué)習(xí)率設(shè)置為0.001。如果40次迭代后損失值保持不變,便將學(xué)習(xí)率更改為當(dāng)前學(xué)習(xí)率的0.5倍,另外最小學(xué)習(xí)率為1-7。為避免過擬合,本文將Dropout參數(shù)設(shè)置為0.5。同時為了便于處理骨架數(shù)據(jù),還使用插值的方式將每個骨架序列歸一化為32幀。
為了檢驗(yàn)時空融合網(wǎng)絡(luò)中各組件的有效性,本文在SHREC’17 Track數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。
3.3.1 網(wǎng)絡(luò)層數(shù)的消融實(shí)驗(yàn)
為了研究不同網(wǎng)絡(luò)層數(shù)對識別準(zhǔn)確率的影響,本文在SHREC’17 Track數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。由表1可以看出,當(dāng)使用網(wǎng)絡(luò)模型為3層時,可以取得令人滿意的效果。其在此數(shù)據(jù)集上的14個手勢和28個手勢設(shè)置下,準(zhǔn)確率分別可以達(dá)到96.19%和93.10%。但模型的識別準(zhǔn)確率將不隨著網(wǎng)絡(luò)層數(shù)的加深而提高,是因網(wǎng)絡(luò)層數(shù)過多而導(dǎo)致過擬合的結(jié)果。
3.3.2 關(guān)節(jié)序列的消融實(shí)驗(yàn)
為了研究不同關(guān)節(jié)序列對識別準(zhǔn)確率的影響,本文測試了不同的關(guān)節(jié)序列作為時間運(yùn)動分支的輸入。表2中基于深度序列的識別準(zhǔn)確率最高,在14個手勢和28個手勢設(shè)置下分別達(dá)到94.17%和78.69%。循環(huán)廣度序列在一定程度上根據(jù)運(yùn)動強(qiáng)度對關(guān)節(jié)進(jìn)行分類,由于該方法不利于網(wǎng)絡(luò)提取每個手指的物理運(yùn)動特征,因此其識別準(zhǔn)確率較低。此外,本文發(fā)現(xiàn)循環(huán)遍歷方法會在一定程度上引入噪聲,從而降低識別準(zhǔn)確率。
表1 不同網(wǎng)絡(luò)層數(shù)對識別準(zhǔn)確率的影響(%)
表2 不同關(guān)節(jié)序列對識別準(zhǔn)確率的影響(%)
3.3.3 邊緣連接的消融實(shí)驗(yàn)
為了探究不同邊緣連接方式對識別準(zhǔn)確率的影響,本文選擇不同的邊緣連接作為空間結(jié)構(gòu)分支的輸入。由表3可見,并行邊緣連接要比串行邊緣連接的識別準(zhǔn)確率低。究其原因,按照手部骨架方向排列的邊緣連接更能反映真實(shí)的空間結(jié)構(gòu)特征。實(shí)驗(yàn)結(jié)果表明,采用串行鄰域連接可以獲得良好的表現(xiàn)。
表3 不同邊緣連接對識別準(zhǔn)確率的影響(%)
3.3.4 時空融合模塊的消融實(shí)驗(yàn)
為了探索時空融合模塊對識別準(zhǔn)確率的影響,本文進(jìn)行了相關(guān)的實(shí)驗(yàn),其中常規(guī)融合模塊采用Concatenate的方式直接實(shí)現(xiàn)特征融合。通過圖6可以發(fā)現(xiàn),時空融合模塊可以提高識別的準(zhǔn)確性。究其原因,本文一方面采用逐步融合的思想來有效地提取和融合時空特征;另一方面,利用注意力機(jī)制來有效地關(guān)注更具代表性的信息。
圖6 時空融合模塊的對比實(shí)驗(yàn)
本文在SHREC’17 Track和DHG-14/28數(shù)據(jù)集上分別與現(xiàn)有的方法進(jìn)行了比較。
3.4.1 SHREC’17 Track數(shù)據(jù)集的對比實(shí)驗(yàn)
表4為在SHREC’17 Track數(shù)據(jù)集上各方法的比較結(jié)果。對于單流識別網(wǎng)絡(luò),本文方法在14類手勢和28類手勢設(shè)置下均有最優(yōu)的表現(xiàn),且比DD-Net[6]分別提高了1.59個百分點(diǎn)和1.2個百分點(diǎn)。驗(yàn)證了本文提出的時空融合網(wǎng)絡(luò)可以有效地融合時空特征,并增強(qiáng)更具鑒別能力的信息。通過與HMM-Net[11]和HPEV-Net[11]相比較,利用1D-CNN比2D-CNN和3D-CNN更容易獲得令人滿意的結(jié)果。
表4 在SHREC’17 Track數(shù)據(jù)集上準(zhǔn)確率的比較(%)
3.4.2 DHG-14/28數(shù)據(jù)集的對比實(shí)驗(yàn)
由表5可見,本文提出的時空融合網(wǎng)絡(luò)在DHG-14/28數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能。本文方法與DeepGRU[8]相比在14類手勢和28類手勢的設(shè)置下分別提升了0.71個百分點(diǎn)和1.63個百分點(diǎn)。值得注意的是,本文方法在28類手勢上的準(zhǔn)確率比在14類手勢上的準(zhǔn)確率有更好地提升,其原因主要是時空融合網(wǎng)絡(luò)充分地考慮了時間運(yùn)動特征和空間結(jié)構(gòu)特征。
表5 在DHG-14/28數(shù)據(jù)集上準(zhǔn)確率的比較(%)
為了使虛擬簽名系統(tǒng)能夠有效地工作,本文建立了一個基于骨架的動態(tài)手勢識別數(shù)據(jù)集,并利用上述時空融合網(wǎng)絡(luò)來完成常規(guī)的操作識別。最后,將中文手寫識別與網(wǎng)絡(luò)爬蟲相結(jié)合,以生成藝術(shù)簽名。
本文建立的3D動態(tài)手勢識別骨架數(shù)據(jù)集一共包含350個視頻序列,涉及7種不同的動態(tài)手勢。將單目RGB攝像頭連接到計算機(jī)上,并通過應(yīng)用程序記錄相關(guān)數(shù)據(jù)。RGB視頻序列以每秒30幀的速率捕獲,其圖像分辨率為640×480。所有手勢均采用右手執(zhí)行,并保持手掌在采集視野之內(nèi)。使用Google公司開發(fā)的MediaPipe來估計手部的3D骨架,提供了21個手部關(guān)節(jié)在三維世界空間的坐標(biāo)。本文的手部模型有22個關(guān)節(jié),包括:1個手掌中心,1個手腕位置,每個手指包含4個關(guān)節(jié)。為了能符合手部模型,本文使用由腕關(guān)節(jié)和指根關(guān)節(jié)形成的多邊形的質(zhì)心來表示掌心的平面坐標(biāo),并使用軸坐標(biāo)的平均值來表示掌心的軸坐標(biāo)。
本文設(shè)計的虛擬簽名系統(tǒng)的整體流程如圖7所示。為了能夠完全實(shí)現(xiàn)非接觸式操作,該系統(tǒng)通過使用常規(guī)的RGB攝像頭來實(shí)現(xiàn)用戶所有數(shù)據(jù)(指尖軌跡和操作手勢)的采集,并利用上文設(shè)計的時空融合網(wǎng)絡(luò)來識別用戶的手勢,從而幫助用戶在非接觸的情況下完成界面的操作。另外,該系統(tǒng)利用中文手寫識別模型來實(shí)現(xiàn)簽名識別,并結(jié)合網(wǎng)絡(luò)爬蟲來生成特定風(fēng)格的藝術(shù)簽名。此系統(tǒng)支持自定義模式和特定樣式模式。在自定義模式下,系統(tǒng)可以根據(jù)用戶食指的運(yùn)動軌跡生成簽名圖片。在特定樣式模式下,系統(tǒng)可以為用戶生成特定風(fēng)格的藝術(shù)簽名。
為了進(jìn)一步驗(yàn)證該系統(tǒng)的實(shí)用性,招募了10名志愿者進(jìn)行測試。每名志愿者均需要設(shè)計4種不同的簽名,并通過該系統(tǒng)來生成4種不同風(fēng)格的藝術(shù)簽名。在測試前,會進(jìn)行2 min的培訓(xùn),使其了解基本的操作過程。為了能夠完全實(shí)現(xiàn)非接觸式操作,本文設(shè)計了時空融合網(wǎng)絡(luò)來識別動態(tài)手勢,順利地實(shí)現(xiàn)非接觸式應(yīng)用操作。根據(jù)該系統(tǒng)的操作流程可知,完成每個藝術(shù)簽名一般需要執(zhí)行5次手勢。本文以一次性順利生成藝術(shù)簽名作為衡量成功的標(biāo)準(zhǔn),并對實(shí)驗(yàn)結(jié)果進(jìn)行記錄。由表6可見,該系統(tǒng)的成功率可以達(dá)到95%以上,可基本滿足用戶使用需求。
圖7 虛擬簽名系統(tǒng)流程圖
表6 虛擬簽名設(shè)計系統(tǒng)的用戶交互體驗(yàn)評估
本文提出了一種簡單而有效的時空融合網(wǎng)絡(luò)用于實(shí)現(xiàn)基于骨架的動態(tài)手勢識別。該網(wǎng)絡(luò)針對時間運(yùn)動分支和空間結(jié)構(gòu)分支的輸入,分別設(shè)計了不同的骨架表征方法。同時,提出了一種基于注意力機(jī)制的時空融合模塊來有效地實(shí)現(xiàn)關(guān)鍵特征的增強(qiáng)和時空特征的融合。為了在實(shí)際應(yīng)用中獲得更加穩(wěn)定的識別效果,還采用了一種雙滑動窗口的方式進(jìn)行后處理。本文在2個具有挑戰(zhàn)性的動態(tài)手勢骨架識別數(shù)據(jù)集上對模型進(jìn)行了評估。實(shí)驗(yàn)結(jié)果表明:本文方法的識別準(zhǔn)確率要優(yōu)于現(xiàn)有的單流網(wǎng)絡(luò)。另外,本文還建立了一個小型的手勢骨架識別數(shù)據(jù)集,并在上述網(wǎng)絡(luò)的基礎(chǔ)上開發(fā)了一款虛擬簽名系統(tǒng),為用戶提供了一種更加安全、便捷的個人簽名方式。未來將充分利用RGB數(shù)據(jù)和骨架數(shù)據(jù)來進(jìn)一步改善網(wǎng)絡(luò)模型的性能,同時利用生成對抗網(wǎng)絡(luò)生成特定風(fēng)格的藝術(shù)字體,從而為用戶提供更豐富的藝術(shù)簽名風(fēng)格。
[1] 葉帥男, 儲向童, 巫英才. 沉浸式可視化綜述[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2021, 33(4): 497-507.
YE S N, CHU X T, WU Y C. A survey on immersive visualization[J]. Journal of Computer-Aided Design & Computer Graphics, 2021, 33(4): 497-507 (in Chinese).
[2] DE SMEDT Q, WANNOUS H, VANDEBORRE J P. Skeleton-based dynamic hand gesture recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2016: 1206-1214.
[3] CHEN X H, GUO H K, WANG G J, et al. Motion feature augmented recurrent neural network for skeleton-based dynamic hand gesture recognition[C]//2017 IEEE International Conference on Image Processing. New York: IEEE Press, 2017: 2881-2885.
[4] BOULAHIA S Y, ANQUETIL E, MULTON F, et al. Dynamic hand gesture recognition based on 3D pattern assembled trajectories[C]//2017 7th International Conference on Image Processing Theory, Tools and Applications. New York: IEEE Press, 2017: 1-6.
[5] Hou J x, Wang G j, Chen X h, et al. Spatial-temporal attention Res-TCN for skeleton-based dynamic hand gesture recognition[M]// Computer Vision – ECCV 2018 Workshops. Cham: Springer International Publishing, 2019: 273-286.
[6] YANG F, WU Y, SAKTI S, et al. Make skeleton-based action recognition model smaller, faster and better[C]//ACM Multimedia Asia, 2019. New York: ACM Press, 2019: 1-6.
[7] Chen Y x, Zhao L, Peng X, et al. Construct dynamic graphs for hand gesture recognition via spatial-temporal attention[C]//British Machine Vision Conference, 2019. Guildford: BMVA Press, 2019: 48.1-18.13.
[8] MAGHOUMI M, JR LAVIOLA J J. DeepGRU: deep gesture recognition utility[M]//Advances in Visual Computing. Cham: Springer International Publishing, 2019: 16-31.
[9] NGUYEN X S, BRUN L, LéZORAY O, et al. A neural network based on SPD manifold learning for skeleton-based hand gesture recognition[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 12028-12037.
[10] DEVINEAU G, MOUTARDE F, XI W, et al. Deep learning for hand gesture recognition on skeletal data[C]//The 13th IEEE International Conference on Automatic Face & Gesture Recognition. New York: IEEE Press, 2018: 106-113.
[11] LIU J B, LIU Y C, WANG Y, et al. Decoupled representation learning for skeleton-based gesture recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5750-5759.
[12] LIU Z Z, QI X J, PANG L. Self-boosted gesture interactive system with ST-net[C]//The 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 145-153.
[13] ZHANG Y Y, WANG J L, YE L, et al. A virtual music control system based on dynamic hand gesture recognition[M]// Transactions on Edutainment XIII. Heidelberg: Springer, 2017: 74-85.
[14] SHIN S, TAFRESHI R, LANGARI R. Real-time EMG-based human machine interface using dynamic hand gestures[C]// 2017 American Control Conference. New York: IEEE Press, 2017: 5456-5461.
[15] CECOTTI H, MEENA Y K, PRASAD G. A multimodal virtual keyboard using eye-tracking and hand gesture detection[C]// The 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. New York: IEEE Press, 2018: 3330-3333.
[16] MOU C, ZHANG X. Attention based dual branches fingertip detection network and virtual key system[C]//The 28th ACM International Conference on Multimedia. New York: ACM Press, 2020: 2159-2165.
[17] LIU J, SHAHROUDY A, XU D, et al. Spatio-temporal LSTM with trust gates for 3D human action recognition[M]// Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 816-833.
[18] De Smedt Q, Wannous H, Vandeborre J P, et al. Shrec’17 track: 3D hand gesture recognition using a depth and skeletal dataset[EB/OL]. [2021-06-30]. https://hal.univ-lille.fr/ hal-01563505v1.
[19] LIU H, TU J H, LIU M Y, et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing. New York: IEEE Press, 2018: 1333-1337.
[20] Yan S j, Xiong Y j, Lin D h. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//2018 AAAI conference on Artificial Intelligence. San Francisco: AAAI Press, 2018, 7444-7452.
[21] CHEN X H, WANG G J, GUO H K, et al. MFA-net: motion feature augmented network for dynamic hand gesture recognition from skeletal data[J]. Sensors, 2019, 19(2): 239.
[22] LI Y K, MA D Y, YU Y H, et al. Compact joints encoding for skeleton-based dynamic hand gesture recognition[J]. Computers & Graphics, 2021, 97: 191-199.
[23] Nú?EZ J C, CABIDO R, PANTRIGO J J, et al. Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition[J]. Pattern Recognition, 2018, 76: 80-94.
[24] WENG J W, LIU M Y, JIANG X D, et al. Deformable pose traversal convolution for 3D action and gesture recognition[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 142-157.
[25] LAI K, YANUSHKEVICH S N. CNN+RNN depth and skeleton based dynamic hand gesture recognition[C]//The 24th International Conference on Pattern Recognition. New York: IEEE Press, 2018: 3451-3456.
[26] DE SMEDT Q, WANNOUS H, VANDEBORRE J P. Heterogeneous hand gesture recognition using 3D dynamic skeletal data[J]. Computer Vision and Image Understanding, 2019, 181: 60-72.
Spatiotemporal fusion network for hand gesture recognition and virtual signature system
LI Yang-ke, SONG Quan-bo, ZHOU Yuan-feng
(School of Software, Shandong University, Jinan Shandong 250101, China)
Due to the coronavirus pandemic, the non-touch personal signature can reduce the risk of infection to a certain extent, which is of great significance to our daily life. Therefore, a simple and efficient spatiotemporal fusion network was proposed to realize skeleton-based dynamic hand gesture recognition, based on which a virtual signature system was developed. The spatiotemporal fusion network is mainly composed of spatiotemporal fusion modules based on the attention mechanism, and its key idea is to synchronously realize the extraction and fusion of spatiotemporal features using an incremental method. This network adopts different spatiotemporal coding features as inputs, and employs the double sliding window mechanism for post-processing in practical applications, thus ensuring more stable and robust results. Extensive comparative experiments on two benchmark datasets demonstrate that the proposed method outperforms the state-of-the-art single-stream network. Besides, the virtual signature system performs well with a single normal RGB camera, which not only greatly reduces the complexity of the interaction system, but also provides a more convenient and secure approach to personal signature.
hand gesture recognition; feature fusion; skeleton representation; attention mechanism; signature system
TP 391
10.11996/JG.j.2095-302X.2022030504
A
2095-302X(2022)03-0504-09
2021-09-02;
2021-09-30
2 September,2021;
30 September,2021
國家重點(diǎn)研發(fā)計劃戰(zhàn)略性科技創(chuàng)新合作項(xiàng)目(2021YFE0203800);國家自然科學(xué)基金浙江兩化融合聯(lián)合基金(U1909210);國家自然科學(xué)基金(62172257,61772312)
National Key R & D Program Strategic Scientific and Technological Innovation Cooperation Project (2021YFE0203800); NSFC-Zhejiang Joint Fund of the Integration of Informatization and Industrialization (U1909210); National Natural Science Foundation of China (62172257,61772312)
李揚(yáng)科(1997-),男,碩士研究生。主要研究方向?yàn)橛嬎銠C(jī)視覺。E-mail:sdu_liyangke@126.com
LI Yang-ke (1997-), master student. His main research interest covers computer vision. E-mail:sdu_liyangke@126.com
周元峰(1980–),男,教授,博士。主要研究方向?yàn)橛嬎銏D形學(xué)、圖像處理。E-mail:yfzhou@sdu.edu.cn
ZHOU Yuan-feng (1980-), professor, Ph.D. His main research interests cover computer graphics and image processing. E-mail:yfzhou@sdu.edu.cn