亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的動態(tài)手勢識別方法

2023-05-14 03:56:13周勇吳震宇

計(jì)算機(jī)時(shí)代 2023年5期

周勇吳震宇

摘? 要：手勢識別作為人機(jī)交互的一個(gè)重要領(lǐng)域，是目前視覺研究的重點(diǎn)和熱門。不同于圖像研究，本文針對紅外傳感器采集到的手勢動作數(shù)據(jù)，提出一種基于深度學(xué)習(xí)的手勢識別方法。該方法通過紅外傳感器采集7種動態(tài)手勢信號數(shù)據(jù)，使用不同網(wǎng)絡(luò)模型對手勢進(jìn)行分類。實(shí)驗(yàn)表明，若只使用卷積神經(jīng)網(wǎng)絡(luò)（CNN）或長短期記憶網(wǎng)絡(luò)（LSTM）單個(gè)網(wǎng)絡(luò)模型的手勢識別，準(zhǔn)確率最高為92.7%；而CNN-LSTM混合網(wǎng)絡(luò)模型平均手勢識別準(zhǔn)確率為99.1%。

關(guān)鍵詞：手勢識別；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；長短期記憶網(wǎng)絡(luò)

中圖分類號：TP391.41;TP18? ? ? ? ? 文獻(xiàn)標(biāo)識碼：A? ? ?文章編號：1006-8228（2023）05-77-04

Dynamic gesture recognition based on depth learning

Zhou Yong， Wu Zhenyu

（College of Mechanical and Automatic Control， Zhejiang Sci-tech University， Hangzhou， Zhejiang 310018， China）

Abstract： Hand gesture recognition， as an important field of human-computer interaction， is currently the focus and hotspot of vision research. In this paper， different from image research， a gesture recognition method based on deep learning is proposed for the gesture motion data collected by infrared sensors. Seven kinds of dynamic gesture signal data are collected， and the gestures are classified using different network models. Experiments show that if only a single network model of CNN or LSTM is used for gesture recognition， the highest accuracy is 92.7%， while the average gesture recognition accuracy of CNN-LSTM hybrid network model is 99.1%.

Key words： hand gesture recognition; deep learning; convolution neural network （CNN）; long and short term memory network （LSTM）

0 引言

目前手勢識別方法多樣，Cheo[1]等人提出手勢識別方法主要分為兩種，其中包括基于數(shù)據(jù)特征值區(qū)分或圖像處理的手勢識別方法。通過相機(jī)[2]或主動技術(shù)如Kinect[3]，LeapMotion[4]等捕獲RGB圖像或三位深度通道[5]進(jìn)行手勢識別的方法為基于視覺的方法。而傳感器的識別方法是根據(jù)不同傳感器獲得手勢動作信號特征，傳感器包括慣性測量單元（IMU）和EMG肌電信號感應(yīng)器[6]傳感數(shù)據(jù)手套[7]等。視覺交互會受到用戶所用的儀器設(shè)備精密度以及所處識別環(huán)境的影響，若使用者所處地方過亮或過暗，交互體驗(yàn)就會大打折扣。穿戴式傳感器的交互方式影響人機(jī)交互的方便性，因此采用紅外傳感器，接收手勢動作所反射的動作數(shù)據(jù)，這樣既提高了使用者的便捷性，又不受環(huán)境的影響。

基于紅外傳感器的手勢識別方法包括兩種：特征提取法和深度學(xué)習(xí)方法。特征提取法需要人為自主地提取手勢動作特征，從而進(jìn)行準(zhǔn)確識別，需要采集較多數(shù)據(jù)并找到數(shù)據(jù)規(guī)律，同時(shí)要在程序中設(shè)置大量閾值，閾值的大小會影響手勢識別的精準(zhǔn)度。而隨著深度學(xué)習(xí)的提出和卷積神經(jīng)網(wǎng)絡(luò)（CNN）被廣泛的應(yīng)用在手勢動作識別上，CNN能自行從輸入數(shù)據(jù)集中學(xué)習(xí)特征，減少提取特征時(shí)導(dǎo)致的不穩(wěn)定性。Aparna[8]將得到的采樣數(shù)據(jù)集，通過網(wǎng)絡(luò)深度學(xué)習(xí)，該網(wǎng)絡(luò)基于LeNet，識別率較高。在眾多研究中，有些使用長短期記憶網(wǎng)絡(luò)（LSTM）進(jìn)行手勢識別，甚至有些研究將上述兩種網(wǎng)絡(luò)模型同時(shí)放進(jìn)一個(gè)網(wǎng)絡(luò)中，獲得了較高的識別成功率。因此，后續(xù)手勢識別方法將采用CNN-LSTM混合模型對手勢動作進(jìn)行分類。

1 手勢動作數(shù)據(jù)集

1.1 手勢動作定義

本方法定義三類共七種手勢，如圖1（a）為面內(nèi)平移手勢，圖1（b）為面外平移手勢，包括上下平移和左右平移手勢。圖1（c）為面內(nèi)旋轉(zhuǎn)手勢，其中包括順時(shí)針或逆時(shí)針旋轉(zhuǎn)。由于采用的紅外傳感器帶有四個(gè)紅外光源，因此，在不同種類手勢下，紅外傳感器內(nèi)四組數(shù)字信號變化不同。下面將對獲取到的不同種類手勢數(shù)據(jù)進(jìn)行處理。

1.2 手勢數(shù)據(jù)獲取及預(yù)處理

紅外傳感器接收到的數(shù)據(jù)，由于人手移動速度不穩(wěn)定，會導(dǎo)致采樣數(shù)據(jù)長度不同，且數(shù)據(jù)的區(qū)分度不明顯，只有變化趨勢。因此，為了簡化識別的過程，提高手勢動作識別的精準(zhǔn)度，對采集到的手勢數(shù)據(jù)進(jìn)行多項(xiàng)式擬合，并插值處理，統(tǒng)一每一次手勢的數(shù)據(jù)長度Length。多項(xiàng)式擬合公式如下：

[yx，ω=ω0+ω1x+ω0+ω2x?+···+ωMxM]? ⑴

其中，M是多項(xiàng)式的階數(shù)，[ω]是參數(shù)，x是已知的樣本數(shù)據(jù)。通過數(shù)據(jù)擬合得到關(guān)于[yx，ω]和t的損失函數(shù)[Eω]，具體函數(shù)如下：

[Eω=12i=1N{yx，ω-tn}?]? ⑵

對于這個(gè)損失函數(shù)，因?yàn)樗且粋€(gè)關(guān)于[ω]的二次函數(shù)，因此得到惟一解[ω]*。

[?Eωωj=1Nj=0Mωjxjn-tnxjn=0]? ⑶

數(shù)據(jù)多項(xiàng)式擬合且差值規(guī)整后對比圖如圖2所示，圖（a）表示數(shù)據(jù)處理前的曲線圖，圖（b）表示數(shù)據(jù)處理后的曲線圖。本方法設(shè)計(jì)的Length=50。數(shù)據(jù)長度的大小取決于人手動作速度和采集數(shù)據(jù)頻率。數(shù)據(jù)長度過小，降低手勢識別的精準(zhǔn)度。數(shù)據(jù)長度過大，減慢了識別速度。

2 網(wǎng)絡(luò)模型

2.1 CNN模型

CNN網(wǎng)絡(luò)模型如圖3所示。該方法循環(huán)使用卷積層和下采樣層，從采樣初始數(shù)據(jù)中獲得能表明數(shù)據(jù)的局部特征，從而變成大量無損的特征向量。

2.2 LSTM網(wǎng)絡(luò)模型

LSTM網(wǎng)絡(luò)是一種改進(jìn)的時(shí)間遞推神經(jīng)網(wǎng)絡(luò)（RNN）。它通過添加一個(gè)遺忘門，來使“梯度消失”問題得到改良[9]。LSTM網(wǎng)絡(luò)單元如圖4所示。

LSTM網(wǎng)絡(luò)的基本單元中包含遺忘門、輸入門和輸出門。遺忘門中輸入xt與狀態(tài)記憶單元St-1、中間輸出ht-1共同決定狀態(tài)記憶單元遺忘部分。輸入門中的x分別經(jīng)過函數(shù)變化后共同決定狀態(tài)記憶單元中保留向量。

2.3 CNN-LSTM網(wǎng)絡(luò)混合模型

本文的CNN-LSTM模型如圖6所示，其通過堆疊多個(gè)卷積塊、池化層、全平均和Softmax層實(shí)現(xiàn)分類，而每一個(gè)卷積塊包括卷積層和ReLU激活層，如圖5卷積層輸入[x]的卷積是用一組可訓(xùn)練的多維filter [fk]計(jì)算的，然后將所得結(jié)果與偏差[bk]相加。假設(shè)有k個(gè)filter，其該層的第k個(gè)輸出可以用如下等式表示：

[gk（i，j）=c=1Cfck*xc（i，j）+bk]? ⑷

其中，大寫字母C表示輸入總通道數(shù)，[xc（i，j）]表示輸入的第c個(gè)通道（channel）中的第[i]行和第[j]列中的區(qū)域。

組成卷積塊的第二層是ReLU層，其作用是增加了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，使得原本經(jīng)過訓(xùn)練后像公式一樣求得的線性神經(jīng)網(wǎng)絡(luò)可以學(xué)得更加復(fù)雜的數(shù)據(jù)關(guān)系。其公式如下：

[yk（i，j）=max（hk（i，j），0）]? ⑸

池化層則用于減小特征數(shù)量，本文選取的池化是最大值池化，公式如下：

[pki'，j'=max （yk（i'+i-1，j'+j-1））]? ⑹

其中，[i']和[j']表示輸出后的第[i]行和第[j]列。Softmax層是將最后的特征結(jié)果轉(zhuǎn)換為分類類別概率后再進(jìn)行分類，其公式如下：

[PY=Yn=eYnn=1NeYn]? ?⑺

其中，[Yn]表示其中一類缺陷n的輸出結(jié)果，N是缺陷類別總數(shù)，[PY=Yn]是缺陷n輸出結(jié)果[Yn]的概率信息。

如圖6，輸入數(shù)據(jù)會先后進(jìn)入兩個(gè)64個(gè)神經(jīng)元LSTM層，然后再進(jìn)入Conv_Block1層，Conv_Block1有64個(gè)filters，其核大小是2[×]2，而后是Conv_Block2，其filter數(shù)量是192個(gè)，核大小是2[×]2，而后特征圖進(jìn)入一個(gè)核大小是2[×]2，步長為2的最大池化層里，以此類推，直至Conv_Block3。在Conv_Block3后接入全平均池層，減少參數(shù)量。而后再進(jìn)行Softmax分類。

3 實(shí)驗(yàn)與性能分析

3.1 實(shí)驗(yàn)平臺和數(shù)據(jù)采集

本文實(shí)驗(yàn)基于keras深度學(xué)習(xí)框架和型號為NVIDIA GeForce GTX 1060的GPU。采用美國AVAGO型號為APDS9960的紅外傳感器，在校內(nèi)普通實(shí)驗(yàn)室采集數(shù)據(jù)。將傳感器置于實(shí)驗(yàn)平臺。六名測試人員在實(shí)驗(yàn)區(qū)完成七種手勢動作各50次，獲得2100組數(shù)據(jù)集。將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測試集進(jìn)行實(shí)驗(yàn)。

3.2 實(shí)驗(yàn)結(jié)果對比

本方法采用三種不同網(wǎng)絡(luò)模型來進(jìn)行對于手勢識別的深度學(xué)習(xí)研究。如圖7所示，通過圖7（a）CNN模型，圖7（b）LSTM模型和圖7（c）CNN-LSTM模型三個(gè)模型相比，可以看出CNN-LSTM網(wǎng)絡(luò)收斂速度更快，損失值下降的更低。

為了驗(yàn)證CNN-LSTM的網(wǎng)絡(luò)性能，將不同網(wǎng)絡(luò)模型下不同手勢識別率記錄下來如表1。

對于采集到的手勢數(shù)據(jù)，CNN-LSTM網(wǎng)絡(luò)模型的準(zhǔn)確率相對于CNN和LSTM單個(gè)網(wǎng)絡(luò)有較大的提升。由于圖8的混淆矩陣可以看出，除了面外逆時(shí)針旋轉(zhuǎn)外，其余手勢識別準(zhǔn)確率均達(dá)到98%以上。導(dǎo)致逆時(shí)針旋轉(zhuǎn)手勢識別率較低的原因可能是受到紅外傳感器位置和人手臂的影響。

4 結(jié)論

針對人機(jī)交互中的手勢識別問題，本文提出了一種基于深度學(xué)習(xí)分類手勢動作的識別方法，通過紅外傳感器接收到手勢動作數(shù)據(jù)，使用一種CNN和LSTM相結(jié)合的網(wǎng)絡(luò)模型。實(shí)驗(yàn)表明，對比單獨(dú)使用單個(gè)模型來說，CNN-LSTM混合模型在識別率上有明顯提升，7種手勢動作的平均識別率為99.1%，其中幾個(gè)手勢動作識別率達(dá)到100%，但也有手勢識別受到紅外傳感器位置和人手臂誤接觸的影響，導(dǎo)致識別率只達(dá)到97%。后續(xù)將進(jìn)一步研究網(wǎng)絡(luò)不同參數(shù)對識別結(jié)果的影響，加快模型的預(yù)測速度與識別準(zhǔn)確率等。

參考文獻(xiàn)（References）：

[1] CHEOK M J，OMAR Z，JAWARD MH.A review of hand

gesture and sign language recognition techniques[J]. International Journal of Machine Learning and Cybernetics，2019，10（1）：131-153

[2] 林文華，房懷英，范璐璐，等.采用雙相機(jī)多尺度方法的機(jī)制砂

級配測量及空隙率預(yù)測[J].華僑大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，43（3）：285-290

[3] 張毅，張爍，羅元，等.基于Kinect深度圖像信息的手勢軌跡識

別及應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究，2012，29（09）：3547-3550

[4] 林書坦，尹長青.基于LeapMotion的數(shù)字手勢識別[J].電腦

知識與技術(shù)，2015，11（35）：108-109

[5] 朱丙麗，高曉琴，阮玲英.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的單幅圖

像深度估計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件，2020，37（6）：230-233，241

[6] 謝小雨.基于表面肌電信號和慣性測量單元的手勢動作識

別的研究[D].碩士，太原理工大學(xué)，2018

[7] 徐波，文武.數(shù)據(jù)手套中傳感器技術(shù)的研究[J].測控技術(shù)，

2002（8）：6-9

[8] AparnaAkula，Anuj K. Shah，RipulGhosh. Deep learning

approach for human action recognition in infrared images[J]. Cognitive Systems Research，2018，50

[9] 劉媛媛.融合CNN-LSTM和注意力機(jī)制的空氣質(zhì)量指數(shù)

預(yù)測[J].計(jì)算機(jī)時(shí)代，2022，355（1）：58-60