亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于3D CNN的大規(guī)模視頻手勢識別研究

        2017-09-07 14:20:23苗啟廣李宇楠徐昕
        中興通訊技術(shù) 2017年4期
        關(guān)鍵詞:手勢識別光流

        苗啟廣+李宇楠+徐昕

        摘要:提出了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)的大規(guī)模視頻手勢識別算法。首先,為了獲得統(tǒng)一尺度的輸入數(shù)據(jù),在時域上對所有輸入視頻進(jìn)行了歸一化處理得到32幀的輸入視頻;然后,為了從不同的角度描述手勢特征,通過真彩(RGB)視頻數(shù)據(jù)生成了光流視頻,并將RGB視頻和光流視頻分別通過C3D模型(一個3D CNN模型)提取特征,并通過特征連接的方式加以融合輸入到支持向量機(jī)(SVM)分類器來提高識別性能。該方法在Chalearn LAP 獨立手勢數(shù)據(jù)集(IsoGD)的驗證集上達(dá)到了46.70%的準(zhǔn)確率。

        關(guān)鍵詞: 手勢識別;三維卷積神經(jīng)網(wǎng)絡(luò);光流;SVM

        手勢是一種交流的形式,它指的是利用人的肢體動作來說明其意圖或態(tài)度的行為。由于在視頻監(jiān)測控制、標(biāo)志語言理解、虛擬現(xiàn)實和人機(jī)交互等領(lǐng)域有著巨大的應(yīng)用前景,越來越多的研究人員開始研究手勢識別算法,以實現(xiàn)將人類手勢解釋給機(jī)器的目標(biāo)。

        手勢識別最早期的研究是從20世紀(jì)80年代開始,是一種典型的涉及到各方面知識的研究。為了對人體動作的含義加以識別,研究人員先后使用了大量不同種類的方法。早期的大部分方法都是基于復(fù)雜的人工制作特征。Stamer和Pentl[1]首先利用隱馬爾科夫模型(HMM)進(jìn)行美國手語的相關(guān)研究;Elmezain[2]等利用HMM模型對手勢的動態(tài)軌跡進(jìn)行了識別;Sgouropoulos等人[3]將神經(jīng)網(wǎng)絡(luò)方法和HMM方法結(jié)合使用,可提高動態(tài)手勢的識別效果,并且該方法具有光照魯棒性。Wan等人將尺度不變特征變換(SIFT)特征加以擴(kuò)充,得到3D增強(qiáng)動作SIFT(EMoSIFT)[4]和3D稀疏動作SIFT(SMoSIFT)[5],并通過稀疏關(guān)鍵點混合特征(MFSK)[6]來進(jìn)行手勢識別。隨著近來深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)手勢識別受到了研究者的廣泛關(guān)注,且相對于傳統(tǒng)手工特征方法,在識別率上也取得了重大突破。Karpathy等人[7]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來實現(xiàn)手勢行為識別;Simonyan和Zisserman[8]利用一個雙流CNN網(wǎng)絡(luò)同時提取手勢視頻中的時域和空域的特征;Tran等人[9]提出了一個3D CNN模型——C3D模型,解決了基于視頻的手勢識別需要同時處理時域和空域的特征這一問題。

        在文章中,我們提出了一種基于同源數(shù)據(jù)融合的大規(guī)模的手勢識別方法。首先,我們通過對數(shù)據(jù)分布特征的分析,將所有幀數(shù)不一的視頻進(jìn)行預(yù)處理,獲得統(tǒng)一的幀數(shù)為32幀的視頻;隨后,我們由真彩(RGB)視頻生成了光流視頻,以進(jìn)一步提取動作信息,同時避免表演者服飾、膚色等因素的干擾;我們再利用上文提到的C3D模型,對RGB數(shù)據(jù)和光流數(shù)據(jù)同時提取空域和時域上的特征信息,并將這些特征加以融合,最終通過支持向量機(jī)(SVM)分類器來獲得分類結(jié)果,整個流程如圖1所示。

        1 基于C3D模型的視頻手勢識別

        1.1 預(yù)處理

        一般的CNN由于其中全連接層的限制,都要求輸入數(shù)據(jù)具有相同的大小。因此我們首先需要對數(shù)據(jù)進(jìn)行歸一化處理,即統(tǒng)一的幀數(shù),各幀相同的寬和高。為了盡可能地獲取代表手勢含義的特征,我們采取一種數(shù)據(jù)驅(qū)動的策略來實現(xiàn)這一過程,即通過對數(shù)據(jù)分布情況的分析來確定歸一化的方式。首先,我們分析了實驗數(shù)據(jù)集——Chalearn LAP IsoGD Database(簡稱IsoGD數(shù)據(jù)集),該數(shù)據(jù)集由Wan等人[10]建立,它源自于Guyon等人[11]建立的ChaLearn手勢數(shù)據(jù)集(CGD)。IsoGD數(shù)據(jù)集包含了47 933個獨立的視頻,每個視頻包含一個手勢,這些手勢被分為249類,它被用于2016年首屆Chalearn LAP大規(guī)模手勢識別競賽,其詳細(xì)信息如表1所示。由于IsoGD數(shù)據(jù)集中,每個視頻的寬度和高度都是一致的,因此需要歸一化處理的主要是時域,即幀數(shù)信息。

        如圖2所示,由于在數(shù)據(jù)集中,一些類別的手勢看起來非常相似,因此在處理視頻成統(tǒng)一幀數(shù)時,就需要在保留動作的運動路徑信息和降低視頻的空間占用之間進(jìn)行折衷。在分析了35 878個訓(xùn)練集的視頻的幀數(shù)后,我們發(fā)現(xiàn):盡管視頻的幀數(shù)從1~405幀各不相同,但是大部分視頻的幀數(shù)在29~39之間,其中33幀的視頻數(shù)量最多,達(dá)1 202個。為了便于處理,我們選擇32作為視頻的基準(zhǔn)幀數(shù),將所有視頻統(tǒng)一至32幀。幀數(shù)大于32的視頻需進(jìn)行采樣,而幀數(shù)小于32的視頻則通過復(fù)制按一定比例選出的幀進(jìn)行插值。通過這樣的預(yù)處理方式,超過98%的視頻至少每3幀進(jìn)行了1次采樣,大部分的運動路徑信息得以保留。

        1.2 光流特征提取

        光流,是視覺場中的一種目標(biāo)、表面和邊緣的表征運動的模型,它是由觀察者和場景之間的相對運動產(chǎn)生的。在文章中,我們通過RGB視頻提取光流特征,一方面用于提取動作路徑信息,另一方面也去除了背景、表演者膚色等與動作無關(guān)的信息。我們通過Brox等人[12]提出的基于亮度恒常性、梯度恒常性和時空平滑約束假設(shè)的能量方程來計算光流特征,該能量方程可表述為:

        其中,是一個正則化參數(shù),可表述為:

        其中,是用于平衡兩者的權(quán)重系數(shù),和是視頻兩幀之間的灰度和梯度增量,用來增強(qiáng)能量方程的魯棒性,為積分區(qū)間,即整個視頻,可表述為:

        表示時空平滑約束假設(shè)中的時空梯度。通過利用拉格朗日方程和數(shù)值近似來最小化該能量函數(shù),獲得最終的光流結(jié)果。顯然,光流數(shù)據(jù)更加關(guān)注運動信息,能夠把運動無關(guān)的信息全部去除。

        1.3 特征提取模型

        如前所述,基于深度神經(jīng)網(wǎng)絡(luò)的特征提取由于能夠更好地體現(xiàn)數(shù)據(jù)本身的信息,且不像手工特征那樣需要研究者具備大量領(lǐng)域相關(guān)信息,因而受到了研究者的青睞。文中所述需要提取的特征關(guān)注的手勢是在視頻中,所以解決手勢識別任務(wù)更多的是依靠提取到的時序特征。因此,我們通過一種三維CNN——C3D模型來實現(xiàn)視頻手勢特征的自動提取。與二維的CNN相比,三維的CNN針對視頻幀序列圖像集合,并不僅僅是把視頻劃分成為幀集合,再用多通道輸出到多個圖像,而是將卷積核應(yīng)用到時域,時空域的卷積核特性相互結(jié)合,更好地獲取視頻的特征。

        如圖3所示,C3D模型包括8個卷積層、5個池化層、2個全連接層來學(xué)習(xí)特征,和1個softmax層來提供預(yù)測的類別。8個卷積層的卷積核個數(shù)分別是64、128、256、256、512、512、512和512,卷積核的最佳大小是3×3×3。通過對視頻的時空卷積,可以獲得在不同尺度上的特征圖。在1次或2次卷積操作之后,通過1次池化操作,來對特征進(jìn)行降采樣,以獲得更具全局性的特征。在文中,第2~5層的池化層的卷積核大小是2×2×2,而第1個池化層的卷積核大小是1×2×2,以保證在網(wǎng)絡(luò)中時域信息能夠得到最大程度上的保留。在經(jīng)過多次卷積和池化操作之后,特征圖被抽象成一個4 096維的特征向量,用來標(biāo)記樣本的分類信息。

        1.4 融合方案

        Tran等人結(jié)合3個不同的網(wǎng)絡(luò)提取出的特征來提高準(zhǔn)確率。這給了我們靈感:使用特征融合的方法可以提高識別能力。通過實驗我們發(fā)現(xiàn):由于RGB視頻和光流視頻在描述特征的方式并不相同,因此直接將兩個視頻簡單融合,反而不利于正確率的提升。相反,因為特征是視頻的抽象,對于C3D提取出的特征向量,可以很好地闡述手勢的特點。因此,我們選擇了特征級融合。這樣做的另一個優(yōu)勢是特征都是相同維度的,統(tǒng)一的格式有助于正確、有效地融合。為了保證兩種數(shù)據(jù)的信息能夠同時保留,我們選擇通過將兩種特征拼接得到高維特征的方式來實現(xiàn)融合。

        2 手勢識別實驗結(jié)果和分析

        由于目前IsoGD數(shù)據(jù)集的測試集部分的標(biāo)簽尚未公開,所以文中提到的所有實驗和比較都是在該數(shù)據(jù)集的驗證集上進(jìn)行的。

        2.1 實驗環(huán)境

        文中所提到的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和特征提取在配有Intel Core i7-6700 CPU @ 3.40 GHz、16 GB內(nèi)存和Nvidia Geforce GTX TITAN X 圖形處理器(GPU)的PC上實現(xiàn),C3D模型依托Linux Ubuntu 16.04 長期支持版本(LTS)系統(tǒng)和caffe框架實現(xiàn) 32幀視頻的生成,特征融合和SVM分類則在 Windows 7系統(tǒng)(64 bit)上通過Matlab R2012b軟件實現(xiàn)。

        2.2 訓(xùn)練過程

        考慮到訓(xùn)練一個較深的網(wǎng)絡(luò)是很耗時的,特別是在IsoGD這樣的大型數(shù)據(jù)集上,因此我們首先通過Sport-1M(最大的視頻分類的標(biāo)準(zhǔn)數(shù)據(jù)集,包含110萬個運動視頻,共487類)預(yù)訓(xùn)練模型,使其能夠適應(yīng)視頻動作分類的應(yīng)用場景,隨后再在實驗所需的IsoGD數(shù)據(jù)集上調(diào)參。我們通過隨機(jī)梯度下降法(SGD)來訓(xùn)練網(wǎng)絡(luò):首先將數(shù)據(jù)打亂,以減少數(shù)據(jù)排列信息對訓(xùn)練的干擾,在每一次訓(xùn)練的迭代過程中,有10個視頻輸入網(wǎng)絡(luò),網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為0.0001,并且在每5 000次迭代后以10%的比例下降,在10萬次迭代后訓(xùn)練停止。

        2.3 迭代的影響

        作為一個基于學(xué)習(xí)的方法,迭代次數(shù)對分類結(jié)果有很大的影響。因此,在這個部分,我們分別在RGB和光流數(shù)據(jù)的輸入上測試不同迭代次數(shù)的影響。識別率和損失函數(shù)值的變化情況如圖4所示。

        在訓(xùn)練過程的早期,網(wǎng)絡(luò)的學(xué)習(xí)能力較強(qiáng),損失函數(shù)值下降很快,在經(jīng)過約3萬次迭代后,RGB和光流數(shù)據(jù)的損失函數(shù)值都趨于穩(wěn)定。最后,在10萬次迭代之后,損失函數(shù)值非常接近于0,這時網(wǎng)絡(luò)已經(jīng)從訓(xùn)練數(shù)據(jù)中學(xué)到了足夠多的東西。另一方面,識別率顯示出類似的趨勢:正確率在訓(xùn)練早期上升很快。同時,不同數(shù)據(jù)的特征間的關(guān)系也在這個階段展現(xiàn)出來。在1萬次迭代之后,光流數(shù)據(jù)的優(yōu)勢開始顯現(xiàn)出來,而且直到最后一次迭代,光流數(shù)據(jù)的準(zhǔn)確率一直比RGB的高5%左右。

        2.4 預(yù)處理效果

        在本節(jié)中,我們驗證預(yù)處理,即32幀歸一化策略的效果。我們對比了輸入視頻分別為16幀和32幀的結(jié)果,這兩種輸入都是10萬次迭代后的結(jié)果。

        如圖5所示,通過我們對輸入數(shù)據(jù)的分析,32幀的歸一化策略取得顯著的效果,無論是在RGB還是光流數(shù)據(jù)上,相比16幀的輸入,兩種數(shù)據(jù)的32幀的輸入都提高了約4%的識別率。這證明更多關(guān)于運動路徑的信息有助于分辨不同的手勢,從而在很大程度上提高了識別率。

        2.5 融合結(jié)果

        我們通過融合RGB和光流特征來提高性能。融合結(jié)果和單獨RGB、光流數(shù)據(jù)的比較如圖6所示。

        相比于任何一種單一特征,融合策略對識別性能的提升都是顯著的。融合特征相比單獨RGB特征將正確率提升了將近10%,相比單獨的光流特征,融合特征也有近5%的提升。這證明了特征融合的策略是行之有效的。

        2.6 和傳統(tǒng)方法的比較

        在本節(jié)中,我們將我們的方法與Wan等人提出的基于手工制作特征的方法進(jìn)行對比,從圖7中可以看出:CNN在對圖片或視頻的特征提取方面展示出了極大的優(yōu)勢,我們的方法大概將識別率提高了30%。

        2.7最終結(jié)果對比

        我們的方法和大賽中前3名的方法,以及大賽的基準(zhǔn)方法在校驗集上的結(jié)果對比如圖8所示。結(jié)果顯示:相對于使用手工制作特征的基準(zhǔn)方法,我們基于深度學(xué)習(xí)的方法在特征提取上具有更好的性能。此外,使用光流數(shù)據(jù)進(jìn)行去背景處理,使我們的識別率更進(jìn)一步提升,相對于大賽中的方法,加入光流數(shù)據(jù)使得準(zhǔn)確率提升了4%。

        3 結(jié)束語

        我們提出了一種基于RGB和光流數(shù)據(jù)及三維CNN的手勢識別方法。輸入的數(shù)據(jù)首先被統(tǒng)一成32幀的視頻,以便更好地保存動作路徑信息;然后,我們通過RGB數(shù)據(jù)生成了光流數(shù)據(jù)來去除視頻中與手勢無關(guān)的因素;接著,RGB和光流視頻的特征被C3D模型分別提取并加以融合來提高識別性能;之后,我們使用SVM分類器進(jìn)行最終分類。實驗證明:我們的策略是有效的,而且我們的方法優(yōu)于其他現(xiàn)有的技術(shù)。相較于Chalearn LAP大規(guī)模手勢識別競賽中的方法及傳統(tǒng)手工特征方法,我們方法的識別正確率有了較大提升。

        然而,仍然存在著很多因素影響著識別率。由于運動信息還不足以區(qū)分那些差別細(xì)微的類別,還需要學(xué)習(xí)更多復(fù)雜的特征來解決這些問題。同時,還有很多其他的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),如深度置信網(wǎng)絡(luò),在目標(biāo)識別方面展示出了很大的優(yōu)勢。這些網(wǎng)絡(luò)結(jié)構(gòu)在視頻手勢識別方面的使用還值得更多的研究。

        參考文獻(xiàn)

        [1] STARNER T, PENTL A. Visual Recognition of American Sign Language Using Hidden Markov Models[J]. International Workshop on Automatic Face&Gesture Recognition, 1995(2):189-194

        [2] ELMEZAIN M, HAMADI A, MICHAELIS B. Hand Trajectory-Based Gesture Spotting and Recognition using HMM[C]//The 16th IEEE International Conference on Image Processing (ICIP). USA:IEEE,2009:3577-3580. DOI: 10.1109/ICIP.2009.5414322

        [3] SGOUROPOULOS K, STERGIOPOULOU E, PAPAMARKOS N.A Dynamic Gesture and Posture Recognition system[J]. Journal of Intelligent&Robotic Systems, 2013(1):1-14

        [4] WAN J, RUAN Q, LI W, et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research, 2013, 14(1): 2549-2582

        [5] WAN J, RUAN Q, LI W, et al. 3D SMoSIFT: Three-Dimensional Sparse Motion Scale Invariant Feature Transform for Activity Recognition from RGB-D Videos[J]. Journal of Electronic Imaging, 2014, 23(2): 023017-023017

        [6] WAN J, RUAN Q, LI W, et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research, 2013, 14(1): 2549-2582

        [7] KARPATHY A, TODERICI G, SHETTY S, et al. Large-Scale Video Classification with Convolutional Neural Networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. USA: IEEE, 2014: 1725-1732

        [8] SIMONYAN K, ZISSERMAN A. Two-Stream Convolutional Networks for Action Recognition in Videos[C]//Advances in Neural Information Processing Systems. Canda: NIPS, 2014: 568-576

        [9]TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3d Convolutional Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. USA: IEEE, 2015: 4489-4497

        [10] WAN J, ZHAO Y, ZHOU S, et al. Chalearn Looking at People RGB-D Isolated and Continuous Datasets for Gesture Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. USA:IEEE, 2016: 56-64

        [11] GUYON I, ATHITSOS V, JANGYODSUK P, et al. The ChaLearn Gesture Dataset (CGD 2011)[J]. Machine Vision and Applications, 2014, 25(8): 1929-1951

        [12] BROS T, BRUHN A, PAPENBERG N, et al. High Accuracy Optical Flow Estimation Based on a Theory for Warping[J]. Computer Vision-ECCV 2004, 2004(3024): 25-36. DOI: 10.1007/978-3-540-24673-2_3

        猜你喜歡
        手勢識別光流
        利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
        基于物理學(xué)的改善粒子圖像測速穩(wěn)健光流方法研究
        基于手勢識別的工業(yè)機(jī)器人操作控制方法
        基于紅外的非接觸式手勢識別系統(tǒng)設(shè)計
        基于嵌入式的智能手表設(shè)計
        復(fù)雜背景下的手勢識別方法
        融合光流速度場與背景差分的自適應(yīng)背景更新方法
        利用PSO估算Lucas-Kanade光流模型的參數(shù)
        国产自拍在线观看视频| 国内露脸少妇精品视频| 成人免费xxxxx在线观看| 久久婷婷香蕉热狠狠综合| 日本一区二区不卡视频 | 丰满老熟妇好大bbbbb| 成在人线av无码免费| 精品的一区二区三区| 亚洲乱码中文字幕综合69堂| 全程国语对白资源在线观看 | 99国产精品丝袜久久久久| 免费av网址一区二区| 熟女一区二区国产精品| 粉嫩av国产一区二区三区| 欧美另类人妖| 亚洲熟妇少妇任你躁在线观看| 人妻av午夜综合福利视频| 高潮av一区二区三区| 久久蜜桃资源一区二区| 猫咪av成人永久网站在线观看| 精品国产午夜福利在线观看| 亚洲AV综合久久九九| 激情人妻网址| 精品国产a毛片久久久av| 国产精品女同久久久久电影院| 国产va免费精品高清在线观看 | 精品国产AⅤ一区二区三区4区| 国产精品成人久久a级片| 美女视频黄是免费| 婷婷五月婷婷五月| 伊人影院综合在线| 国产精品无码久久久久下载| 蜜乳一区二区三区亚洲国产| 无码专区一ⅴa亚洲v天堂| 亚洲精品乱码久久久久久久久久久久 | 美女熟妇67194免费入口| 久久这里都是精品99| 亚洲av永久无码精品古装片| 亚洲国产精品特色大片观看完整版 | 国产激情视频在线观看首页| 国产精品无码无卡无需播放器|