亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN-LSTM混合模型的動(dòng)態(tài)手勢(shì)識(shí)別方法

        2021-11-15 11:48:46谷學(xué)靜周自朋郭宇承李曉剛
        關(guān)鍵詞:界面實(shí)驗(yàn)模型

        谷學(xué)靜 周自朋 郭宇承 李曉剛

        1(華北理工大學(xué)電氣工程學(xué)院 河北 唐山 063210) 2(冶金工程虛擬仿真實(shí)驗(yàn)教學(xué)中心 河北 唐山 063000) 3(河鋼集團(tuán)唐鋼公司信息自動(dòng)化部 河北 唐山 063000)

        0 引 言

        VR系統(tǒng)具有三個(gè)基本特性沉浸感(Immersion)、交互性(Interaction)和構(gòu)想性(Imagination),簡(jiǎn)稱3I特性[1]。其中,人機(jī)交互是連接用戶和計(jì)算機(jī)虛擬世界的橋梁,探索簡(jiǎn)便、自然的交互方式對(duì)提升VR系統(tǒng)的沉浸感與構(gòu)想性具有重要意義。

        手勢(shì)識(shí)別是手勢(shì)交互的核心算法,動(dòng)態(tài)手勢(shì)識(shí)別本質(zhì)上是關(guān)于手在三維空間中運(yùn)動(dòng)姿態(tài)時(shí)序數(shù)據(jù)的模式識(shí)別問(wèn)題。國(guó)內(nèi)外對(duì)動(dòng)態(tài)手勢(shì)意圖的識(shí)別研究較多,丁利瓊等[3]通過(guò)提取智能手機(jī)中的加速度數(shù)據(jù)采用DDTW算法進(jìn)行手勢(shì)識(shí)別,可用于連續(xù)動(dòng)態(tài)手勢(shì)識(shí)別。陳國(guó)良等[4]針對(duì)Leap Motion體感控制器無(wú)法識(shí)別復(fù)雜手勢(shì)問(wèn)題,對(duì)四類特征進(jìn)行HMM建模,識(shí)別復(fù)雜動(dòng)態(tài)手勢(shì)。施向軍等[5]采用基于紅外傳感器的動(dòng)態(tài)手勢(shì)識(shí)別方法,對(duì)于5種手勢(shì)平均識(shí)別率都達(dá)到了75%以上。李東潔等[6]提出BP神經(jīng)網(wǎng)絡(luò)和PSO結(jié)合的識(shí)別方法,可以縮短學(xué)習(xí)時(shí)間,提高識(shí)別過(guò)程的實(shí)時(shí)性和精確性。Fang等[7]采用CNN和DCGAN方法對(duì)手勢(shì)識(shí)別計(jì)算并對(duì)文本進(jìn)行輸出。Wang等[8]采用毫米波雷達(dá)傳感器采集手部信息,利用LSTM網(wǎng)絡(luò)手勢(shì)識(shí)別,成功率達(dá)96.17%。劉佳慧等[9]研究了基于Wi-Fi的信道狀態(tài)信息的手勢(shì)識(shí)別,對(duì)4種手勢(shì)的平均識(shí)別率為82.75%。

        近年來(lái),深度學(xué)習(xí)在模式識(shí)別尤其是時(shí)間序列數(shù)據(jù)的分類問(wèn)題上表現(xiàn)出無(wú)法比擬的優(yōu)勢(shì)與強(qiáng)悍[10-12]?;陂L(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)網(wǎng)絡(luò)能夠?qū)σ郧盃顟B(tài)的記憶優(yōu)勢(shì)以及多層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對(duì)特征提取的高效性,本文在模式識(shí)別大框架下,將CNN網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)結(jié)合對(duì)動(dòng)態(tài)手勢(shì)進(jìn)行識(shí)別,并且基于此開發(fā)了應(yīng)用于虛擬現(xiàn)實(shí)界面的動(dòng)態(tài)手勢(shì)交互系統(tǒng)。

        1 深度學(xué)習(xí)模型

        1.1 CNN網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)起初用于對(duì)圖像的特征提取與物體識(shí)別,是一種由卷積層和池化層交替連接的多層神經(jīng)網(wǎng)絡(luò)[13]。卷積層是特征提取的過(guò)程,通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行卷積運(yùn)算提取出局部特征,降低了原始數(shù)據(jù)的維度。池化層是對(duì)特征的篩選過(guò)程,通過(guò)去掉部分特征進(jìn)行數(shù)據(jù)降維。最后經(jīng)全連接網(wǎng)絡(luò)與分類輸出物體類型。實(shí)際上CNN的多個(gè)卷積核是對(duì)輸入數(shù)據(jù)在不同維度上的特征提取,通過(guò)多層抽象得到表征全局的特征。經(jīng)典LeNET5模型[14]如圖1所示。

        圖1 典型LeNET-5框圖

        1.2 LSTM網(wǎng)絡(luò)

        LSTM是從循環(huán)神經(jīng)網(wǎng)絡(luò)發(fā)展而來(lái),最大的優(yōu)勢(shì)在于解決了循環(huán)神經(jīng)網(wǎng)絡(luò)不能“記憶”先前狀態(tài)信息特征的問(wèn)題[15]。LSTM通過(guò)引入門控制結(jié)構(gòu)來(lái)存儲(chǔ)先前狀態(tài)特征,有效解決了循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸問(wèn)題。

        如圖2所示,LSTM網(wǎng)絡(luò)單元是通過(guò)串聯(lián)遺忘門、輸入門和輸出門實(shí)現(xiàn)[16]。遺忘門決定前一個(gè)神經(jīng)單元特征遺留的信息多少。輸入門將輸入數(shù)據(jù)xt經(jīng)過(guò)Sigmoid和tanh函數(shù)作用,組合后更新特征信息。輸出門的作用是更新輸出,控制當(dāng)前狀態(tài)有多少特征被濾除。

        圖2 LSTM網(wǎng)絡(luò)單元

        計(jì)算公式為:

        遺忘門:ft=σ(Wf·[ht-1,xt]+bf)

        輸入門:it=σ(Wi·[ht-1,xt]+bi)

        輸出門:ot=σ(Wo·[ht-1,xt]+bo)

        ht=ot×tanh(gt)

        式中:σ表示Sigmoid函數(shù);Wf、Wi、Wg、Wo表示相應(yīng)的xt和ht-1相乘矩陣權(quán)重;bf、bi、bo表示相應(yīng)門的偏置值。

        1.3 CNN-LSTM網(wǎng)絡(luò)

        由于單一的神經(jīng)網(wǎng)絡(luò)往往在處理實(shí)際問(wèn)題時(shí)有局限,很多學(xué)者嘗試將兩種算法結(jié)合在一起,以便利用各自的優(yōu)勢(shì)。CNN網(wǎng)絡(luò)適合特征提取,LSTM網(wǎng)絡(luò)適合處理時(shí)序數(shù)據(jù),而動(dòng)態(tài)手勢(shì)識(shí)別任務(wù)就是將手在三維空間中的加速度、角速度、角度等時(shí)間序列進(jìn)行分類識(shí)別,因此本文采用兩種算法結(jié)合的方法是合理的。

        如圖3所示,本文設(shè)計(jì)的網(wǎng)絡(luò)整體上分為三部分。第一部分是由卷積層和池化層組成的輸入部分,第二部分是由LSTM單元組成的中間部分,第三部分是由全連接和Softmax分類組成的輸出部分。

        圖3 CNN-LSTM網(wǎng)絡(luò)結(jié)構(gòu)

        2 本文方法概述

        2.1 界面交互框架

        本文旨在研究一種用于虛擬現(xiàn)實(shí)界面交互的動(dòng)態(tài)手勢(shì)識(shí)別方法,讓用戶可以通過(guò)做手勢(shì)來(lái)對(duì)虛擬場(chǎng)景進(jìn)行控制。系統(tǒng)的整體框架如圖4所示。用戶采用動(dòng)態(tài)手勢(shì)完成交互需要三個(gè)步驟:手勢(shì)數(shù)據(jù)提取、手勢(shì)識(shí)別和系統(tǒng)交互。具體為數(shù)據(jù)手套實(shí)時(shí)采集手的三維運(yùn)動(dòng)信息經(jīng)藍(lán)牙傳輸?shù)较到y(tǒng),在系統(tǒng)中經(jīng)數(shù)據(jù)處理后輸入到CNN-LSTM網(wǎng)絡(luò)模型進(jìn)行識(shí)別運(yùn)算。最后將識(shí)別結(jié)果即手勢(shì)編號(hào)發(fā)送到界面交互系統(tǒng),界面交互系統(tǒng)根據(jù)手勢(shì)編號(hào)的不同完成相應(yīng)的交互操作。

        圖4 系統(tǒng)整體框圖

        算法整體框架可以描述為三大步驟:1) 用戶穿戴好數(shù)據(jù)手套,對(duì)每一種手勢(shì)采集多組手部運(yùn)動(dòng)信息數(shù)據(jù),將這些原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理構(gòu)建手勢(shì)樣本庫(kù);2) 根據(jù)算法步驟對(duì)樣本數(shù)據(jù)庫(kù)提取特征,并訓(xùn)練CNN-LSTM模型,將模型參數(shù)保存到系統(tǒng);3) 根據(jù)用戶實(shí)時(shí)輸入的手勢(shì)數(shù)據(jù)分類識(shí)別出手勢(shì)編號(hào),系統(tǒng)根據(jù)此編號(hào)作出反應(yīng),完成系統(tǒng)的界面交互任務(wù)。

        2.2 手勢(shì)預(yù)定義

        手勢(shì)交互的前提是對(duì)手勢(shì)的預(yù)定義,簡(jiǎn)潔明確的手勢(shì)預(yù)定義有助于提升人們的使用興趣和沉浸感。針對(duì)虛擬現(xiàn)實(shí)界面交互的任務(wù)設(shè)定了包括切換場(chǎng)景、確定取消等操作在內(nèi)的8種手勢(shì),具體含義及說(shuō)明見(jiàn)表1。

        表1 手勢(shì)定義說(shuō)明

        續(xù)表1

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        數(shù)據(jù)準(zhǔn)備:動(dòng)態(tài)手勢(shì)運(yùn)動(dòng)數(shù)據(jù)采用自制數(shù)據(jù)手套采集手在空間運(yùn)動(dòng)的三軸加速度(Acc)、三軸角速度(Speed)和三軸角度(Ang)數(shù)據(jù),數(shù)據(jù)傳輸速率為50 Hz,如圖5所示。10名志愿者對(duì)每種手勢(shì)采集10次,共收集800個(gè)樣本手勢(shì)數(shù)據(jù)。通過(guò)編寫程序以文本文件的形式將電腦從串口接收到的手勢(shì)數(shù)據(jù)保存在本機(jī)。

        (a) 加速度數(shù)據(jù) (b) 角速度數(shù)據(jù)

        (c) 速度數(shù)據(jù) (d) 角度數(shù)據(jù)圖5 原始數(shù)據(jù)圖

        實(shí)驗(yàn)軟件:本文實(shí)驗(yàn)是在Windows 10系統(tǒng)下完成,硬件平臺(tái)為第八代英特爾i5處理器、8 GB運(yùn)行內(nèi)存、1050Ti顯卡;程序在Python3.6環(huán)境運(yùn)行,搭建了基于TensorFlow庫(kù)的CNN-LSTM模型;在Unity3D引擎下開發(fā)了連鑄三維仿真系統(tǒng)的界面交互系統(tǒng)。

        3.2 數(shù)據(jù)處理

        對(duì)數(shù)據(jù)的處理分三個(gè)步驟:數(shù)據(jù)裁剪、歸一化和加入標(biāo)簽。首先是對(duì)樣本數(shù)據(jù)的規(guī)整操作即按照手勢(shì)樣本的數(shù)據(jù)格式將數(shù)據(jù)裁剪為每行45個(gè)數(shù)據(jù),9行(accx/accy/accz/speedx/speedy/speedz/angx/angy/angz)為一個(gè)手勢(shì)樣本。然后用min-max標(biāo)準(zhǔn)化公式將數(shù)據(jù)規(guī)整到[0,1],即:

        式中:a表示樣本數(shù)據(jù)的值即待歸一化的值;a*表示歸一化后的值;amin表示一行數(shù)據(jù)的最小值;amax表示一行數(shù)據(jù)的最大值。最后將數(shù)據(jù)集加入標(biāo)簽,采用one-hot編碼格式在8種手勢(shì)數(shù)據(jù)的最后一列加入標(biāo)簽。

        3.3 數(shù)據(jù)分析

        為了驗(yàn)證模型的有效性,對(duì)數(shù)據(jù)集進(jìn)行模型訓(xùn)練和測(cè)試,將數(shù)據(jù)集以3 ∶1的比例劃分出訓(xùn)練集和測(cè)試集。由于樣本的數(shù)量有限,在訓(xùn)練過(guò)程中采用k重交叉驗(yàn)證方法保證模型對(duì)數(shù)據(jù)的充分學(xué)習(xí),實(shí)驗(yàn)取k=5。為了確定LSTM的層數(shù),實(shí)驗(yàn)通過(guò)對(duì)比LSTM網(wǎng)絡(luò)在2/3/4層的訓(xùn)練情況,發(fā)現(xiàn)在2層到3層的正確率提升為30%,而3層到4層的訓(xùn)練正確率提升為6%,為了節(jié)省計(jì)算開銷,模型選擇3層LSTM網(wǎng)絡(luò)。本文對(duì)比了單純使用CNN和LSTM網(wǎng)絡(luò)實(shí)驗(yàn),各個(gè)模型的具體的參數(shù)如表2所示,其中MP表示MaxPooling層,F(xiàn)C表示全連接層。

        表2 各模型參數(shù)表

        實(shí)驗(yàn)采取特定人和非特定人兩組實(shí)驗(yàn),特定人指一個(gè)人對(duì)三個(gè)模型分別做出50個(gè)手勢(shì),統(tǒng)計(jì)其正確率;非特定人是指讓5個(gè)人分別對(duì)3個(gè)模型做出10個(gè)手勢(shì),統(tǒng)計(jì)其平均識(shí)別率。實(shí)驗(yàn)結(jié)果如表3所示,可以看出無(wú)論是特定人還是非特定人,CNN-LSTM模型的平均識(shí)別率均高于另外兩個(gè)模型,且特定人的識(shí)別率均高于非特定人,但相差不大。

        表3 不同模型識(shí)別正確率(%)

        為了清楚表示CNN-LSTM模型對(duì)8種手勢(shì)識(shí)別的正確率,繪制了識(shí)別混淆矩陣如圖6所示。可以看出,模型對(duì)所有手勢(shì)的識(shí)別正確率均達(dá)到了90%以上,其中對(duì)手勢(shì)3的識(shí)別率最高為97%,而手勢(shì)4和手勢(shì)5容易發(fā)生識(shí)別混淆,可能是由于兩個(gè)手勢(shì)前半部分比較相似。

        圖6 8種手勢(shì)識(shí)別混淆矩陣

        為了驗(yàn)證模型的通用性,在原來(lái)8種手勢(shì)數(shù)據(jù)的基礎(chǔ)上增加了8種手勢(shì)(返回、前進(jìn)、菜單、確認(rèn)、取消、切換變?yōu)榉聪蜻\(yùn)動(dòng),上一層、下一層變?yōu)橄蛏舷蛳逻\(yùn)動(dòng))進(jìn)行測(cè)試,結(jié)果表明16種手勢(shì)的平均識(shí)別率為92.8%??傮w而言識(shí)別結(jié)果能夠說(shuō)明模型的識(shí)別率高,抗干擾能力強(qiáng),是一個(gè)可用模型。

        3.4 界面交互實(shí)驗(yàn)

        本文將所建模型應(yīng)用于連鑄三維仿真系統(tǒng)中,由于動(dòng)態(tài)手勢(shì)只能完成指令式交互,不能對(duì)大量?jī)?nèi)容輸入,因此將手勢(shì)交互方法應(yīng)用于界面交互中。實(shí)驗(yàn)步驟如下:

        步驟1將電腦連接藍(lán)牙模塊設(shè)備并設(shè)置串口參數(shù)(波特率、奇偶校驗(yàn)、數(shù)據(jù)長(zhǎng)度、停止位等)。

        步驟2將模型參數(shù)導(dǎo)入到Unity3D引擎腳本文件中。

        步驟3關(guān)聯(lián)手勢(shì)編號(hào)和界面操作并修改界面回調(diào)函數(shù)。具體手勢(shì)與界面元素對(duì)應(yīng)見(jiàn)表1手勢(shì)意圖。

        如圖7所示,在系統(tǒng)中共有4個(gè)場(chǎng)景,分別為大包開澆、結(jié)晶器振動(dòng)、二次冷卻和火焰切割。上部分表示火焰切割場(chǎng)景調(diào)出菜單操作任務(wù),菜單表示對(duì)切割機(jī)的部分操作按鈕,對(duì)話框?yàn)榍懈顧C(jī)的停止操作。點(diǎn)火操作具體手勢(shì)對(duì)應(yīng)為:菜單-前進(jìn)-確認(rèn)(默認(rèn)選中第一個(gè)元素)。退出操作手勢(shì)對(duì)應(yīng)為:返回-前進(jìn)(默認(rèn)為返回)-確認(rèn)。下半部分表示在大包開澆場(chǎng)景的操作任務(wù),菜單表示連鑄工種的選擇,對(duì)話框表示退出系統(tǒng)步驟。

        圖7 連鑄系統(tǒng)界面圖

        4 結(jié) 語(yǔ)

        為探索虛擬現(xiàn)實(shí)環(huán)境下新型人機(jī)交互方式,研究了基于動(dòng)態(tài)手勢(shì)的交互方法,提出一種CNN和LSTM相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型用于識(shí)別算法。通過(guò)數(shù)據(jù)手套采集了包括加速度在內(nèi)的九軸運(yùn)動(dòng)姿態(tài)數(shù)據(jù)集對(duì)模型訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明,對(duì)比單純使用CNN和LSTM神經(jīng)網(wǎng)絡(luò),所提模型不僅在識(shí)別率上優(yōu)勢(shì)明顯,抗干擾能力與不依賴個(gè)體能力也較強(qiáng)?;诖?,將該動(dòng)態(tài)手勢(shì)識(shí)別方法應(yīng)用在了連鑄仿真系統(tǒng)的界面交互任務(wù)中,實(shí)現(xiàn)了動(dòng)態(tài)手勢(shì)取代按鈕切換場(chǎng)景、確定、取消、上一個(gè)、下一個(gè)等常用界面操作,增加了VR系統(tǒng)的沉浸感與交互性。

        猜你喜歡
        界面實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        國(guó)企黨委前置研究的“四個(gè)界面”
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開發(fā)方法研究
        人機(jī)交互界面發(fā)展趨勢(shì)研究
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        中文字幕有码在线视频| 在线欧美中文字幕农村电影| 熟妇人妻无码中文字幕| 女同av在线观看网站| 日本一区二区三区激视频| 狠狠cao日日橹夜夜十橹| 激情偷乱人成视频在线观看| 亚洲中文av一区二区三区| 丰满人妻被猛烈进入中文字幕护士| 风韵丰满熟妇啪啪区99杏| 蜜桃久久精品成人无码av| 亚洲男人天堂2017| 激情视频在线观看免费播放| 婷婷色国产精品视频二区| 国产三级黄色大片在线免费看| 2019日韩中文字幕mv| 无码视频一区二区三区在线观看| 亚洲啪啪AⅤ一区二区三区| 美艳善良的丝袜高跟美腿| 风流老熟女一区二区三区| 日韩AV无码免费二三区| 人妻av不卡一区二区三区| 插插射啊爱视频日a级| 久久精品国产www456c0m| 亚洲国产成人精品激情资源9| 中文字幕人乱码中文字幕乱码在线 | 精品久久久久久久久免费午夜福利| 久久av一区二区三区下| 亚洲精品第一页在线观看| 欧美裸体xxxx极品少妇| 亚洲精品亚洲人成在线下载| 国产成人av三级三级三级在线| 狠狠97人人婷婷五月| 特级毛片a级毛片在线播放www| 熟女人妻中文字幕一区| 亚洲中文字幕人妻久久| 台湾佬自拍偷区亚洲综合| 亚洲欧美日韩国产综合专区| 亚洲日本中文字幕乱码在线| 欧洲vat一区二区三区| 亚洲AV永久无码精品导航|