亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異步多時域特征的動態(tài)手勢識別方法

        2022-11-16 02:25:24黃仁婧陳青梅黃初華
        計算機工程與應(yīng)用 2022年21期
        關(guān)鍵詞:手勢特征提取時空

        崔 虎,黃仁婧,陳青梅,黃初華

        貴州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,貴陽 550025

        手勢是人類的一種重要交互手段,隨著虛擬現(xiàn)實、增強現(xiàn)實、人機交互和手語翻譯等領(lǐng)域的發(fā)展,手勢識別已經(jīng)成為了計算機視覺領(lǐng)域的熱門課題之一[1],與該領(lǐng)域的其他任務(wù)如圖像分類、語義分割、目標檢測、場景識別等類似,目前動作與手勢識別的研究主要是基于卷積神經(jīng)網(wǎng)絡(luò)。

        動態(tài)手勢識別不僅需要關(guān)注手部的形狀特點,同時也需要關(guān)注手形變化以及運動過程,因此不僅需要解決與靜態(tài)手勢相同的環(huán)境干擾,如光線、紋理、攝像分辨率等外部問題,還需要解決手部運動與手形變化等問題,除此之外,動態(tài)手勢識別還存在以下技術(shù)難點[2]:(1)手勢速度差異性,即同一個含義的手勢動作可以以不同速度來完成。(2)手勢運行時間長度異同性,即不同的手勢完成時間往往是不同的。(3)手勢形狀的多樣性。靜態(tài)手勢不同形狀表示不同語義,而動態(tài)手勢中不同形狀的手形的相近運動卻往往可以表達相同的語義。動態(tài)手勢的時序復(fù)雜性和空間多樣性等特點為動態(tài)手勢識別帶來了諸多挑戰(zhàn)。

        目前主流手勢與動作識別的工作都是基于RGB圖像、Depth圖像、光流圖以及骨骼關(guān)鍵點信息[3]。Simonyan等[4]提出了一種雙流網(wǎng)絡(luò)模型來對動態(tài)手勢和行為進行識別,核心思想是用RGB 信息流來表達動態(tài)手勢的空間特征,用光流信息流來表示手勢動作的運動特征,然而該方法并未考慮空間信息流和運動信息流間的內(nèi)在關(guān)系。Tran 等[5]對雙流網(wǎng)絡(luò)模型進行了改進,應(yīng)用光流來指引RGB 信息流網(wǎng)絡(luò)分支的特征提取,使RGB 流特征擁有部分運動信息,但是該方法本質(zhì)上還是雙流模型,而光流本身無法表達完整的運動信息。Liu等[6]提出了一種分段手勢識別方法,首先通過子神經(jīng)網(wǎng)絡(luò)估計手勢圖像深度,然后將深度信息與RGB信息結(jié)合,用來識別手勢,該方法同樣存在運動信息不完整的缺點。K?püklü等[7]提出了一種將檢測與分類相結(jié)合的方法來降低系統(tǒng)負載和提升手勢識別實時性,使得手勢識別更加容易部署于移動設(shè)備,但在識別算法方面改進有限。Hara 等[8]提出對二維卷積網(wǎng)絡(luò)(two-dimensional convolutional network,2DCNN)進行時間維度擴展得到三維卷積網(wǎng)絡(luò)(three-dimensional convolutional network,3DCNN)的方法,并將其應(yīng)用于動作識別。而3DCNN因為參數(shù)量過大,如果沒有足夠多的訓(xùn)練數(shù)據(jù)支持,其模型很容易過擬合。Min等[9]提出了一種基于點云和骨骼關(guān)鍵點的手勢識別方法,該方法將動態(tài)手勢的關(guān)鍵點云作為序列,應(yīng)用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對其進行建模,捕捉手勢的長期空間相關(guān)性,該方法不足之處在于需要預(yù)先提取手部關(guān)鍵點數(shù)據(jù)。

        本文從手勢的速度和長度兩方面性質(zhì)出發(fā),提出了一種異步多時域網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,首先通過輕量級3DCNN[8]網(wǎng)絡(luò)提取出手勢的短期異步時空特征,然后通過改進的卷積長短期記憶網(wǎng)絡(luò)[10](ConvLSTM)對短期異步時空特征進行長期關(guān)系建模,使模型可以捕捉到不同速率和不同長度手勢的時空特征,最終達到對復(fù)雜動態(tài)手勢的有效識別。

        本文的創(chuàng)新在于:

        (1)提出一種從視頻數(shù)據(jù)抽取異步特征的方法,所得的異步特征對不同速率,不同大小手勢均有較強的魯棒性,從而顯著提高模型的識別能力。

        (2)分段抽取動作的短期與長期時空特征,并融合兩種時域的異步特征,提升對不同時間長度的手勢的識別效果。

        1 相關(guān)工作

        動態(tài)手勢識別的關(guān)鍵和難點在于對手勢動作的時空信息處理[11],處理方法可以分為傳統(tǒng)手工特征提取方法和深度學(xué)習(xí)方法。

        傳統(tǒng)手工特征提取方法大多采用動態(tài)時間規(guī)整算法[12](dynamic time warping,DTW)、時間金字塔[13]、隱馬爾可夫模型[14](hidden Markov models,HMM)等來對手勢時空信息進行建模。其中DTW 方法是對捕捉到手勢的關(guān)鍵點軌跡應(yīng)用動態(tài)時間規(guī)整進行模板匹配,捕捉手勢關(guān)鍵點坐標軌跡和形狀數(shù)據(jù)則需要專門的傳感器,模板匹配也需要設(shè)置特定的匹配模板;時間金字塔方法對完整的手勢幀進行不同時間長度采樣來處理手勢的時空特征;HMM 則只能關(guān)注較短時間內(nèi)的手勢歷史信息,從而忽略了手勢的連續(xù)性和完整性等特點。

        在深度學(xué)習(xí)方法中,為了使模型能夠捕獲更加完整的手勢動作信息,Varol 等[15]將2DCNN 網(wǎng)絡(luò)與LSTM 網(wǎng)絡(luò)[16]相結(jié)合,對模型輸入視頻幀數(shù)量進行提升,使得模型輸入視頻幀從16 幀增加到60 幀,并應(yīng)用雙流網(wǎng)絡(luò)模型[4]的思想,用光流進行運動信息補充。然而,輸入數(shù)據(jù)的增加使得模型變得更加臃腫,難以應(yīng)用于實時設(shè)備。Zhu 等[17]將3DCNN 與時間金字塔方法結(jié)合,使模型可以捕獲手勢的長時間的歷史特征信息,然而模型的3DCNN 結(jié)構(gòu)依然面臨參數(shù)量過大以及數(shù)據(jù)量不足的問題。Liu 等[18]為解決多尺度目標的檢測與回歸問題,從網(wǎng)絡(luò)的不同深度提取不同尺度的特征圖來做預(yù)測與回歸;Feichtenhofer 等[19]從時間尺度將雙流模型思想進行了擴展,引入快速流和慢速流的概念來進行人體行為識別;Chen 等[20]對大型卷積網(wǎng)絡(luò)進行纖維化改進,使得3DCNN 更加輕量化。受以上工作的啟發(fā),本文對3DRestNet[8]進行結(jié)構(gòu)調(diào)整,用來提取手勢的短期時空特征,然后應(yīng)用改進的ConvLSTM對短期時空特征進行長期關(guān)系建模,從而得到多時域的時空特征。為了提高模型對不同運行狀態(tài)手勢的魯棒性,網(wǎng)絡(luò)采用了異步結(jié)構(gòu),最終模型對不同速率和不同時間長度的手勢均能準確的檢測與識別。

        2 本文提出的異步多時域網(wǎng)絡(luò)模型

        異步多時域網(wǎng)絡(luò)總體架構(gòu)如圖1 所示,網(wǎng)絡(luò)特征提取部分由短期時空特征抽取模塊和長期時空關(guān)系構(gòu)建模塊組成,預(yù)測解碼部分則由主要由微調(diào)后的MobileNetV2 網(wǎng)絡(luò)構(gòu)成。其中短期時空特征抽取模塊由輕量級三維卷積網(wǎng)絡(luò)構(gòu)成,負責(zé)進行短期異步時空特征的提取,長期時空關(guān)系構(gòu)建模塊由改進的ConvLSTM網(wǎng)絡(luò)構(gòu)成,負責(zé)對短期特征進行長期關(guān)系建模,使模型提取的手勢動作特征包含豐富的運動信息,如:手勢快慢、動作長度等信息。

        2.1 短期異步時空特征抽取

        2.1.1 三維卷積視頻序列特征

        二維卷積用來對單幅圖像的空間特征的提取,在對視頻圖像序列處理的過程中,處理對象也是單個獨立的幀,并未考慮幀與幀之間的相關(guān)性,如圖2所示。

        當時間維度卷積次數(shù)越多,所得到的特征圖中的歷史信息則越多,其數(shù)學(xué)表達如公式(1)所示:

        其中,x,y為圖像坐標,*表示卷積運算,F(xiàn)t(x,y)為單通道輸入圖像,ω為二維卷積核,G(x,y)為運算后的特征圖,V2d(x,y,t)為整體的時空序列圖,從V2d(x,y,t)的結(jié)果可以看出整個視頻序列的各幀圖像的特征是時間無關(guān)的,而事實上視頻中的動作序列是緊密相關(guān)的,正因為這種相關(guān)性才構(gòu)成了人眼所見的不同的動態(tài)行為。三維卷積是將二維卷積從空間尺度擴展到時間尺度的卷積,如圖3所示。

        三維卷積是將視頻序列整體當做運算對象,其數(shù)學(xué)表達如公式(2)所示:

        其中,ω此時為三維卷積核,F(xiàn)為整個視頻序列輸入,V3d(x,y,t)為F的時空特征,G3d(x,y,t)為t時刻的局部時空特征,kt為卷積核時間維度大小,可以看出,當kt=3 時,G3d是與前后相鄰幀有關(guān)的局部時空特征,這種具有時間維度相關(guān)性的視頻序列特征與一個動作的前后連續(xù)表達的性質(zhì)是相符合的。

        2.1.2 短期時空特征提取

        3DCNN依據(jù)不同的架構(gòu)策略形成了如C3D[21]、I3D[22]、R3D[8]等大型3D-CNN 模型,網(wǎng)絡(luò)深度的增加意味著網(wǎng)絡(luò)參數(shù)量增大和冗余噪聲信息的增多,消除負面影響的一種有效方法就是為模型提供足夠多的訓(xùn)練數(shù)據(jù),然而視頻是圖像三維擴展,構(gòu)建一個類似于Imagenet[23]的通用大型視頻數(shù)據(jù)集無論在質(zhì)量和數(shù)量上都面臨巨大的困難。

        本文的短期時空特征提取模塊只負責(zé)提取視頻序列的短期時空特征,因此該部分3D 卷積網(wǎng)絡(luò)的深度并不要求足夠的深,只需要將現(xiàn)有的2D 卷積主流網(wǎng)絡(luò)(ResNet、DensNet、Efficient)中的卷積和池化層進行時間維度擴展即可,本文中短期時空特征提取網(wǎng)絡(luò)是將ResNet 進行時間維度擴展,并進行適當?shù)奈⒄{(diào),最終的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,網(wǎng)絡(luò)由四個3D卷積塊組成,其中第一個卷積塊只包含一個3D 卷積,后三個卷積塊的結(jié)構(gòu)相同,都是對前一個卷積塊的輸出進行多次3D 卷積殘差,不同的只是內(nèi)部各個卷積的具體參數(shù)設(shè)置,圖4中的各個卷積的具體參數(shù)如表1所示,網(wǎng)絡(luò)中所有卷積運算后都包含了批標準化和激活函數(shù),其中激活函數(shù)為ReLU6。

        表1 短期時空特征提取模塊網(wǎng)絡(luò)參數(shù)Table 1 Parameters of short-term spatiotemporal feature extraction network

        2.1.3 短期異步時空特征

        在對靈長類視網(wǎng)膜神經(jīng)節(jié)細胞的研究中[24],研究者發(fā)現(xiàn)這些細胞中約80%為小細胞,15%~20%為大細胞,大細胞對高頻運動信號十分敏感,但對物體細節(jié)、顏色紋理以及低速運動信號無法作出準確的反饋,而小細胞相反,對物體的空間細節(jié)、顏色紋理和低頻運動敏感度較高,而對高頻運動信號的刺激反饋遲鈍。

        基于以上生物學(xué)研究的啟發(fā),將短期特征提取模塊得到四種不同時間跨度與不同分辨率的輸出特征序列進行調(diào)整與融合,組合成異步特征。從圖4 與表1 中可以看到短期時空特征提取模塊的四個輸出分別是64@32×56×56、64@32×56×56、128@16×28×28、256@16×28×28,第一個卷積塊和第二卷積塊輸出的特征圖是相同的,它們在時間維度的采樣頻率也是相同的,但是在時間維度的感受野卻不同,四個輸出的感受野分別是31、35、39、313,還可以看出第一、第二、第三和第四個卷積塊的時間步態(tài)是不同的,后兩個的時空特征感受野更大,但更偏于低頻,而前二的時空特征感受野偏小,但對高頻運動更加敏感。將不同步態(tài)和感受野的時空特征進行融合,得到異步時空特征,對變化快慢不同的手勢都可以進行全面特征描述,同時這種策略也符合生物的視覺感官直覺。

        2.2 長期時空關(guān)系構(gòu)建

        對于一般用途的序列建模,LSTM作為一種特殊的RNN 結(jié)構(gòu),在以往的研究中已經(jīng)被證明是穩(wěn)定且有效的,它用來對序列進行長期依賴關(guān)系建模,在其基礎(chǔ)上的FC-LSTM[25]、ConvLSTM[10]等模型則專門用來對視頻序列的長期依賴關(guān)系進行建模。FC-LSTM、ConvLSTM等模型是直接應(yīng)用于原始視頻序列數(shù)據(jù),而本文的時間序列網(wǎng)絡(luò)的對象則是短期異步時空特征網(wǎng)絡(luò)的輸出,因此對ConvLSTM的內(nèi)部結(jié)構(gòu)進行了調(diào)整和改進,以使序列預(yù)測模型部分更加高效和便捷。

        2.2.1 ConvLSTM

        FC-LSTM 和ConvLSTM 模 型 均 是LSTM 與CNN的結(jié)合,所不同的是前者為串聯(lián)結(jié)合,后者則為內(nèi)部結(jié)構(gòu)融合,圖5為LSTM內(nèi)部結(jié)構(gòu)。

        ConvLSTM中的各個門控運算均為卷積運算,其內(nèi)部結(jié)構(gòu)如公式(3)所示:

        其中,°表示哈達瑪乘積,* 表示卷積運算,σ表示sigmoid激活函數(shù),tanh 表示tanh 激活函數(shù),it表示輸入門,ft表示過濾門,ot為輸出門,Wx~和Wc~表示各個門與輸入向量權(quán)重,ht-1和ht表示歷史隱藏狀態(tài)和當前隱藏狀態(tài),xt表示輸入序列,ConvLSTM結(jié)構(gòu)中xt與Xt相同,表示視頻序列或者特征圖序列的第t個幀,因為ConvLSTM內(nèi)部的運算均為卷積運算,所以可以自動對圖像進行特征提取。而FC-LSTM 的結(jié)構(gòu)則如公式(4)所示:

        其中,⊙表示全連接運算,并且xt與Xt不同,Xt為視頻序列或者特征圖序列的第t幀,xt為Xt卷積后的一維向量,如公式(5)所示:

        2.2.2 局部卷積的FC-ConvLSTM

        考慮到從輕量級3D-CNN 網(wǎng)絡(luò)提取的是具有短期異步信息的時空特征序列,這種特征與2D-CNN所提取的序列特征具有極大的不同,這些特征序列是具有時空相關(guān)性的特征序列,其擁有寶貴的時間信息,這與ConvLSTM中的卷積的作用在某種程度是重復(fù)的,在這種情況下,只要專注于長序列關(guān)系建模即可,因此將FC-LSTM 和ConvLSTM 特點相結(jié)合,構(gòu)建適合短期異步時空特征的序列模型FC-ConvLSTM,其內(nèi)部運算如公式(6)所示:

        其中的Xt短期異步時空特征序列的當前特征幀,xˉt為對其進行通道全局平均得到的特征圖,hˉt為隱藏狀態(tài)通道全局平均值,輸入門it、過濾門ft,以及ot輸出門的運算因此都變成了單通道卷積或者全連接運算,但是候選記憶門gt的運算因為需要將原始序列特征的信息保存的歷史狀態(tài)信息ct中,所以依然保留對Xt進行卷積運算。

        相比于Conv-LSTM,F(xiàn)C-ConvLST中的各個門控節(jié)點的計算量大大的減少,除此之外,本文以深度可分離卷積來代替FC-ConvLSTM 中的卷積操作,從而使模型的參數(shù)進一步降低。

        2.3 異步特征融合與預(yù)測

        在從FC-ConvLSTM 得到異步時空特征因為進行過空間尺度調(diào)整所以除了時間步不同,尺度統(tǒng)一為28×28×512,而本文所采用的融合策略則是將不同時間步的特征在各個通道進行concate,最終得到1/2×temstep×28×28×512×4大小的異步融合時空特征,將該特征送入MobileNetv2 預(yù)訓(xùn)練網(wǎng)絡(luò)當中,得到時空特征序列尺度為1/2×temstep×4×4×1 024,之后經(jīng)過3Dpool、FC、softmax分別進行下采樣,全連接以及最終的概率估計得到預(yù)測結(jié)果。

        3 實驗結(jié)果與分析

        硬件環(huán)境:NVidia Tesla P40 24 GB顯卡Intel Xeon E5-2650v4-2.20 GHz 12核64 GB CPU。

        軟件環(huán)境:Ubuntu18.04 操作系統(tǒng)Python2.7.1 版Tensorflow1.2.1版CUDA8.0 cuDNN5.0。

        3.1 數(shù)據(jù)集及參數(shù)設(shè)置

        為測試本文所提出算法的有效性,在兩個典型公開數(shù)據(jù)集The 20BN-jester Dataset V1(Jester)和Sheffield Kinect Gesture(SKIG)上進行了實驗。

        Jester數(shù)據(jù)集[26]是一個最新的用于手勢識別的大型視頻數(shù)據(jù)集,它包含了27 種在攝像機前執(zhí)行的預(yù)定義手勢。它從原始視頻中以每秒12 幀的速度提取了148 092個手勢樣本。樣本分為三組,118 562個樣本用于訓(xùn)練、14 787 個樣本用于驗證、14 743 個樣本用于測試,視頻的平均長度是35幀。

        SKIG 數(shù)據(jù)集[27]是利用微軟Kinect 設(shè)備的RGB 攝像頭和深度攝像頭同步采集人體手勢而得到,分別采集了6人的手勢,每個手勢都擁有RGB和Depth兩種形式,共包含10 種手勢,總視頻數(shù)2 160,RGB 視頻和Depth視頻各占一半(6×10×3×3×2=1 080個),視頻的長度從80 幀到320 幀不等。本文將該數(shù)據(jù)集隨機分為三組,70%作為訓(xùn)練集,20%作為驗證集,剩下的數(shù)據(jù)作為最終的測試集。

        網(wǎng)絡(luò)總體架構(gòu)如圖1所示,短期時空特征提取模塊是將ResNet 內(nèi)部卷積擴展為3D 卷積,具體參數(shù)如圖4和表1所示,該部分理論上可以用其他輕量級網(wǎng)絡(luò)來進行代替,在將短期異步特征序列送入FC-ConvLSTM 之前,需要對異步特征進行尺度調(diào)整,對1和2卷積塊的輸出進行平均池化操作,池化大小為(1,3,3),池化步為(1,2,2),邊緣擴展模式為“same”,而對3 和4 卷積塊的輸出則不需要進行調(diào)整,最終所有異步特征的空間尺度均為28×28;FC-ConvLSTM 部分結(jié)構(gòu)如圖5 與公式(6)所示,內(nèi)部卷積采用可分離卷積結(jié)構(gòu),需要注意的是FC-ConvLSTM只適合于短期時空特征提取模塊的輸出特征,應(yīng)用于其他2DCNN 處理的視頻序列的效果并不出色,該部分由兩層結(jié)構(gòu)相同的FC-ConvLSTM組成,輸出通道為256,卷積核為3×3,stride=(1,1),參數(shù)初始化采用he_normal 方法,正則項均采用L2 正則化;最后將融合了短期和長期的異步時空特征進行concat 操作后再進行預(yù)測。

        3.2 結(jié)果與分析

        3.2.1 對比實驗

        模型總共在Jester數(shù)據(jù)上訓(xùn)練40個周期,學(xué)習(xí)率從0.001 到0.000 001 呈多項式衰減,輸入為16 個視頻段,每個視頻段均是通過隨機策略從原始視頻段中抽取的連續(xù)16個視頻幀,并進行統(tǒng)一的隨機圖像增強,視頻幀大小為112×112,訓(xùn)練后對模型在測試集上進行測試,得到其混淆矩陣如圖6所示。

        將結(jié)果與傳統(tǒng)的C3D[21]、3DrestNet101[8]及最新模型RT-C3D[28]、3D-GestNet[29]進行了對比,結(jié)果如表2所示。

        表2 Jester數(shù)據(jù)集上手勢識別實驗結(jié)果Table 2 Gesture recognition results on Jester dataset

        從表2中可以看出:(1)在Jester這種大型的動態(tài)手勢數(shù)據(jù)集中,3DCNN 網(wǎng)絡(luò)的參數(shù)可以充分地被訓(xùn)練,相比2DCNN+LSTM 網(wǎng)絡(luò),各種3DCNN 網(wǎng)絡(luò)的結(jié)果表現(xiàn)的更好。(2)與3D 系列網(wǎng)絡(luò)相比較,本文將3D 與FCConvLSTM 相結(jié)合后效果提升1.7%,一部分原因在于本文3DCNN 網(wǎng)絡(luò)部分提取的特征是異步時空特征,另一方面則在于使用FC-ConvLSTM對時空特征進行更廣泛時間域建模。

        在SKIG數(shù)據(jù)集上,輸入為4個視頻段,每個視頻段為32 或16 個視頻幀,訓(xùn)練過程中對視頻進行亮度色度等圖像增強預(yù)處理,視頻幀大小為112×112,實驗結(jié)果如表3所示。

        表3 SKIG數(shù)據(jù)集上實驗結(jié)果Table 3 Gesture recognition results on SKIG dataset

        從表3中可以看出:(1)2DCNN+LSTM網(wǎng)絡(luò)在較小的數(shù)據(jù)集上相比于3DResNet101 網(wǎng)絡(luò)的效果要好12 個百分點左右,值得說明的是其中的3DResNet101 是在Jester 數(shù)據(jù)集上預(yù)訓(xùn)練集后經(jīng)過微調(diào)再訓(xùn)練的結(jié)果,這表明在較小的數(shù)據(jù)集上,即便是使用了遷移學(xué)習(xí)的預(yù)訓(xùn)練3DCNN網(wǎng)絡(luò)也依然存在過擬合問題。(2)相比于同樣經(jīng)過輕量化處理Dens3D+金字塔模型[31],本文的算法也顯示出一定優(yōu)勢,當輸入幀數(shù)為16幀時,本文的結(jié)果可以達到Dens3D輸入為32幀的結(jié)果,從而驗證了異步結(jié)構(gòu)的有效性。而當輸入同為32 幀時,本文的結(jié)果優(yōu)于Dens3D雙模態(tài)融合的結(jié)果,而本文所用的僅僅只有RGB模態(tài),這從某種角度說明異步時空特征中不僅融合了異步時間尺度信息,同時融合類似深度信息的異步的空間尺度信息。

        3.2.2 消融實驗

        本文算法的核心在于通過短期時空特征提取模塊提取異步特征,之后通過微調(diào)FC-ConvLSTM 來使短期異步特征具有關(guān)注長期歷史信息的能力。為了更深入地對模型各個部分的貢獻進行研究,在SKIG 數(shù)據(jù)集上進行消融實驗,其結(jié)果如表4所示。

        表4 不同網(wǎng)絡(luò)結(jié)構(gòu)消融實驗結(jié)果Table 4 Ablation results on different structions of network

        從表4 中可以看出:(1)當只使用短期異步時空特征進行手勢預(yù)測的結(jié)果達到了98.61%,在其基礎(chǔ)上應(yīng)用ConvLSTM 進行長期時序建模后的預(yù)測結(jié)果反而下降到了98.33%,這表明對于3DCNN提取的異步時空特征,ConvLSTM內(nèi)部的卷積運算是冗余的,這從3DCNN+FC-LSTM的結(jié)果也可以看出。(2)在將ConvLSTM的各個門控卷積替換成為3Dpool 和全連接的結(jié)構(gòu)后,模型的整體運算相比ConvLSTM的運算降低了接近一倍,同時準確率得到了提升。

        將網(wǎng)絡(luò)每個階段的中間輸出前八幀的第一個通道特征進行可視化,效果如圖7所示。

        從圖7中可以看出:短期時空特征抽取模塊中的四個卷積塊的時空特征表現(xiàn)有很大的不同,分別關(guān)注背景變化特征、前景紋理變化特征、手部位置變化信息、關(guān)鍵點移動信息,那么如果對該部分卷積塊數(shù)量進行擴充,能否得到更多有用的時空特征,為此本文對不同深度3DCNN 構(gòu)成的短期時空特征抽取模塊進行了測試,結(jié)果如表5所示。

        表5 不同深度的異步結(jié)構(gòu)的效果Table 5 Effects of asynchronous structures of different

        從表5中可以看出,當短期時空特征抽取模塊的卷積塊數(shù)量從1 增加到2 時,手勢識別結(jié)果的準確度提高了近6個百分點,而當增加至4個的時候,識別準確度達到最大,之后繼續(xù)增加block 數(shù)量結(jié)果并未再提高。這表明:(1)本算法的異步多尺度時空特征相比于單獨3DCNN提取非異步特征對原始視頻時空語義的表達更加充分。(2)本算法的短期異步時空特征提取模塊確實只需要根據(jù)應(yīng)用場景構(gòu)建合適的輕量級3DCNN網(wǎng)絡(luò)即可,這與“奧卡姆剃刀定律”不謀而合。

        六種block組成的模型訓(xùn)練曲線畫如圖8所示。

        從圖8中可以看出,在訓(xùn)練SKIG數(shù)據(jù)的過程中,短期異步時空網(wǎng)絡(luò)的卷積塊達到4個的時候,在保證測試準確率達到最高的前提下,其訓(xùn)練效率是最好的,減少卷積塊數(shù)目會使驗證準確率降低,提高卷積塊數(shù)目則會使模型變大,訓(xùn)練變慢,而準確率無明顯提升。

        4 結(jié)束語

        本文提出了異步多時域手勢識別方法,應(yīng)用輕量級3DCNN 網(wǎng)絡(luò)提取動態(tài)手勢的短期異步時空特征,F(xiàn)C-ConvLSTM建立長短期異步時空特征。實驗結(jié)果表明,本文所提網(wǎng)絡(luò)在不同規(guī)模與平均長度的數(shù)據(jù)集上均取得了更好的結(jié)果,證明了模型的有效性和合理性。同時也發(fā)現(xiàn)對于訓(xùn)練數(shù)據(jù)不均衡的相似動作未能得到較好的識別率。在未來工作中,將計劃在更多的模態(tài)上進行類似實驗,并嘗試結(jié)合提升方法來處理樣本不均衡問題。

        猜你喜歡
        手勢特征提取時空
        跨越時空的相遇
        鏡中的時空穿梭
        挑戰(zhàn)!神秘手勢
        V字手勢的由來
        玩一次時空大“穿越”
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        勝利的手勢
        Bagging RCSP腦電特征提取算法
        時空之門
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        久久精品中文字幕| A午夜精品福利在线| 男女啪啪免费体验区| 免费人成视频x8x8| 亚洲中文字幕无码中字| 亚洲人免费| 精品日韩国产欧美在线观看| 国产精品九九九久久九九| 一区二区三区岛国av毛片| 色欲色欲天天天www亚洲伊| 日本老熟妇毛茸茸| 人妻少妇偷人精品无码| 国产成人午夜av影院| 加勒比东京热一区二区| 夜夜爽日日澡人人添| 欧美aa大片免费观看视频| 日韩在线精品在线观看| 蜜桃视频网址在线观看| 精品无码av一区二区三区不卡| 无码人妻久久一区二区三区免费| 亚洲七七久久综合桃花| 日本a一区二区三区在线| 女同精品一区二区久久| 免费观看的a级毛片的网站| 亚洲AV无码成人品爱| 青青视频在线播放免费的| 一区二区三区内射美女毛片 | 免费视频无打码一区二区三区| 亚洲国产成人片在线观看| 国产精品无需播放器| 久久精品一区二区三区不卡牛牛| 超级乱淫片国语对白免费视频| 久久精品国产精品国产精品污| 亚洲电影中文字幕| 蜜桃网站入口可看18禁| 男人和女人做爽爽视频| 亚洲av色福利天堂| 精品蜜桃av一区二区三区| 午夜天堂一区人妻| 国产大学生粉嫩无套流白浆| 亚洲一区二区情侣|