朱云鵬 黃希 黃嘉興
摘? 要: 在現(xiàn)實(shí)的生活視頻中,檢測(cè)人體動(dòng)作以及分類時(shí),常常會(huì)出現(xiàn)視頻背景復(fù)雜、模糊,以及因人多導(dǎo)致多種動(dòng)作行為同時(shí)出現(xiàn)的問題,而致使檢測(cè)和判別某種行為結(jié)果出現(xiàn)偏差。因此文中針對(duì)2D CNN對(duì)單個(gè)幀進(jìn)行提取特征卻沒有包含實(shí)際視頻中連續(xù)多幀之間編碼的運(yùn)動(dòng)信息,提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法,旨在更好地捕獲視頻連續(xù)幀中隱藏的時(shí)間和空間信息。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的幾類方法相比,所提方法識(shí)別率得到較為明顯的提升,驗(yàn)證了該方法的有效性和魯棒性。
關(guān)鍵詞: 人體動(dòng)作識(shí)別; 三維卷積神經(jīng)網(wǎng)絡(luò); 特征提取; 模型訓(xùn)練; 深度學(xué)習(xí); 實(shí)驗(yàn)對(duì)比
中圖分類號(hào): TN911.23?34; TP301? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)18?0150?03
Abstract: In real?life video detection and classification, the video background is complex and fuzzy, as well as many people lead to a variety of action behavior problems at the same time, which causes the deviation of detection and discrimination of a certain behavior results. In allusion to the problem that feature extraction is conducted by 2D CNN from a single frame, but the motion information encoded between consecutive frames is not included, a neural network recognition method based on 3D convolution is proposed to better capture the hidden time and space information in consecutive frames of video. The experimental results show that, in comparison with the existing methods, the recognition rate of this method is significantly improved, and the effectiveness and robustness of the proposed method are verified.
Keywords: human action recognition; 3D convolution neural network; feature extraction; model training; deep learning; experimental comparison
0? 引? 言
人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺研究中的一個(gè)分支,被廣泛地應(yīng)用于人機(jī)互動(dòng)、交互式娛樂等多個(gè)領(lǐng)域[1]。隨著視頻采集設(shè)備和寬帶光纖整體科技水平的跳躍式發(fā)展,如今,“視頻”已經(jīng)成為信息的主要載體,特別是近些年來,4G的普及以及5G的問世,各色各類的長(zhǎng)、短視頻數(shù)量以幾何速度爆炸式增加,面對(duì)如此龐大的視頻數(shù)據(jù),相關(guān)人員迫切需要穩(wěn)定高效的視頻信息自動(dòng)處理系統(tǒng)。在此供求基礎(chǔ)上,人體動(dòng)作識(shí)別技術(shù)近些年來一直是計(jì)算機(jī)領(lǐng)域內(nèi)一個(gè)充滿機(jī)遇和挑戰(zhàn)的課題。
最常見的動(dòng)作識(shí)別應(yīng)用是分類識(shí)別:給定一個(gè)視頻,系統(tǒng)將其準(zhǔn)確分類為幾個(gè)已知的動(dòng)作類別。綜合性的動(dòng)作識(shí)別是視頻中不僅包含的多個(gè)動(dòng)作類別,還存在復(fù)雜的背景干擾。動(dòng)作識(shí)別的最終目標(biāo)是分析人在視頻中場(chǎng)景的位置、狀態(tài)和行為。人體動(dòng)作識(shí)別應(yīng)用于各行各業(yè),主要集中在智能視頻監(jiān)控、病人監(jiān)護(hù)系統(tǒng)、人機(jī)交互、虛擬現(xiàn)實(shí)、智能家居、智能安全、運(yùn)動(dòng)員輔助培訓(xùn)、基于情報(bào)的視頻檢索和智能圖像壓縮等[2]。隨著傳感器技術(shù)的不斷發(fā)展,人類行為識(shí)別研究受益于不同模態(tài)傳感器,如RGB攝像機(jī)、深度攝像機(jī)、加速度計(jì)和陀螺儀[3]。
圖像和視頻的識(shí)別與描述是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本挑戰(zhàn)[4]。而與圖像分類相比,視頻動(dòng)作分類在運(yùn)動(dòng)和視角上存在著附加的難題[5]。視覺人體運(yùn)動(dòng)分析和識(shí)別的方法體系有很多種,如:Forsyth等人側(cè)重于將動(dòng)作從視頻序列中人的姿態(tài)和運(yùn)動(dòng)信息恢復(fù)過來,這屬于一個(gè)回歸問題,而人體行為識(shí)別是一個(gè)分類問題。這2個(gè)問題有很多類似點(diǎn),比如其特征的提取和描述很多方面是通用的。如果將人體運(yùn)動(dòng)識(shí)別的研究方向分為3個(gè)層次:移動(dòng)識(shí)別、動(dòng)作識(shí)別和行為識(shí)別,目前關(guān)于行為識(shí)別基本上還停留在第二個(gè)階段,即對(duì)生活中的一些簡(jiǎn)單行為進(jìn)行判斷和分類。與傳統(tǒng)的模式識(shí)別方法相比,基于深度學(xué)習(xí)的人體運(yùn)動(dòng)識(shí)別技術(shù)近年來發(fā)展迅速,它的研究結(jié)合自動(dòng)訓(xùn)練,提取特征和分類,同時(shí)放寬了有關(guān)參數(shù)的數(shù)量,并且利用深度學(xué)習(xí)將人體動(dòng)作識(shí)別的研究投入到新的應(yīng)用當(dāng)中。
深度學(xué)習(xí)允許由多個(gè)處理層組成的計(jì)算模型來自動(dòng)學(xué)習(xí)多維的抽象數(shù)據(jù)類型[6]。它的主要優(yōu)勢(shì)之一是其執(zhí)行端到端優(yōu)化的能力[7]。目前,使用深度學(xué)習(xí)執(zhí)行諸如人體運(yùn)動(dòng)識(shí)別、人體跟蹤和圖像高級(jí)處理之類的任務(wù)均得到了令人滿意的結(jié)果,如麻省理工學(xué)院媒體實(shí)驗(yàn)室在將智能室以及在自然場(chǎng)景中的人體動(dòng)作識(shí)別作為新的研究課題中取得了一些進(jìn)展;CMU機(jī)器人研究所還開展了人體檢測(cè)與跟蹤、步態(tài)識(shí)別和行為識(shí)別等項(xiàng)目;同時(shí),馬里蘭大學(xué)自動(dòng)化研究控制中心對(duì)人體運(yùn)動(dòng)建模,對(duì)3D人體運(yùn)動(dòng)捕捉和異常事件檢測(cè)也進(jìn)行了深入的研究。現(xiàn)實(shí)的生活視頻中檢測(cè)人體動(dòng)作及分類時(shí),會(huì)出現(xiàn)視頻背景復(fù)雜、模糊,以及因人多導(dǎo)致多種動(dòng)作行為同時(shí)出現(xiàn)的問題,致使檢測(cè)和判別某種行為結(jié)果出現(xiàn)偏差。 本文針對(duì)2D CNN對(duì)單個(gè)幀進(jìn)行提取特征卻沒有包含實(shí)際視頻中連續(xù)多幀之間編碼的運(yùn)動(dòng)信息,提出一種基于改進(jìn)三維卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法,旨在更好地捕獲視頻連續(xù)幀中隱藏的時(shí)間和空間信息,并且在多個(gè)動(dòng)作識(shí)別視頻數(shù)據(jù)集實(shí)驗(yàn)中得到了較高的準(zhǔn)確率。
1? 改進(jìn)三維卷積神經(jīng)網(wǎng)絡(luò)模型
1.1? 3D CNN網(wǎng)絡(luò)結(jié)構(gòu)組成
受視覺神經(jīng)感受野的啟發(fā),卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間通過稀疏鏈接的方式進(jìn)行連接,具有較多的隱含層,每一隱含層有多個(gè)數(shù)據(jù)矩陣平面,每個(gè)數(shù)據(jù)矩陣平面的神經(jīng)元共享權(quán)值參數(shù)矩陣[8]。如圖1所示,在二維卷積神經(jīng)網(wǎng)絡(luò)中,卷積應(yīng)用于二維特征圖,并且僅根據(jù)空間維度計(jì)算特征。
當(dāng)使用視頻數(shù)據(jù)分析問題時(shí),需要在多個(gè)連續(xù)幀中捕獲編碼的運(yùn)動(dòng)信息。 為此,提出三維卷積神經(jīng)網(wǎng)絡(luò)用于計(jì)算空間和時(shí)間維度特征。三維卷積是通過堆疊多個(gè)連續(xù)幀,然后在立方體中應(yīng)用三維卷積內(nèi)核來形成立方體。利用這種結(jié)構(gòu),卷積層中的特征映射連接到上層中的多個(gè)相鄰幀,從而捕獲運(yùn)動(dòng)信息。深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)主要在于學(xué)習(xí)訓(xùn)練數(shù)據(jù)的分布,并且可以在測(cè)試集上獲得良好的泛化效果。 然而如果每個(gè)批次輸入的數(shù)據(jù)都具有不同的分布,則會(huì)給神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來困難,所以規(guī)范化每層神經(jīng)網(wǎng)絡(luò)的輸出顯然是不合理的。為了把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元輸入值的分布拉回到均值為0,方差為1的標(biāo)準(zhǔn)正態(tài)分布,本文神經(jīng)層中引入批量規(guī)范化(Batchnorm)。假設(shè)神經(jīng)層輸入數(shù)據(jù)是β= x1,x2,…,xm,共m個(gè)數(shù)據(jù),輸出是[yi=BNx],則批量規(guī)范化步驟如下:
在sigmoid, tanh, softplus和ReLu中,選擇ReLu作為網(wǎng)絡(luò)的非線性激活函數(shù),ReLu的gradient大多數(shù)情況下是常數(shù),有助于解決深層網(wǎng)絡(luò)的收斂問題。ReLu的另一個(gè)優(yōu)勢(shì)是在生物維度上的合理性,它是單邊的,相比sigmoid和tanh,更符合生物神經(jīng)元的特征。為了確保特征的位置和旋轉(zhuǎn)不變性并減少過擬合問題,在網(wǎng)絡(luò)中添加最大池化層,從過濾器中提取一些特征值,并且僅獲取最大池化層作為保留值,丟棄所有其他功能值。在視頻領(lǐng)域,如果在足夠大的數(shù)據(jù)集上訓(xùn)練動(dòng)作分類網(wǎng)絡(luò),在應(yīng)用于不同的時(shí)間任務(wù)或數(shù)據(jù)集時(shí),是否會(huì)提供相應(yīng)的性能提升,這是一個(gè)懸而未決的問題[9],本文在網(wǎng)絡(luò)的訓(xùn)練階段加入Dropout技術(shù)來隨機(jī)地選擇部分神經(jīng)元并將其輸入設(shè)置為0,從而隨機(jī)變化地網(wǎng)絡(luò)的鏈接結(jié)構(gòu),提高網(wǎng)絡(luò)的泛化能力,使得網(wǎng)絡(luò)具有更好的適應(yīng)性[10]。
1.2? 方法實(shí)施過程
1.2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
從圖2可以看出,該特征通過3次三維卷積和3次下采樣組合,最后通過完全連接層獲得最終輸出。
1.2.2? 圖像大小的變化
卷積過程中的尺寸變化如圖3所示。
2? 實(shí)驗(yàn)方法
2.1? 實(shí)驗(yàn)環(huán)境
編程環(huán)境使用Python 3.6,而Numpy,Tensorflow和其他一些模塊也會(huì)被用到。 選擇UT交互數(shù)據(jù)集作為實(shí)驗(yàn)研究數(shù)據(jù)集。UT交互數(shù)據(jù)集包含6類真實(shí)的人人交互行為,包括握手、指向、擁抱、推、踢和擊打。每個(gè)視頻每次互動(dòng)至少包含1次執(zhí)行或2~3次執(zhí)行。 在第1~第4組中,場(chǎng)景中只出現(xiàn)2個(gè)相互作用的人。 在第5~8組中,場(chǎng)景中存在執(zhí)行其他動(dòng)作的干擾人員。所有視頻中出現(xiàn)了超過15種不同服裝的參與者。本文選取數(shù)據(jù)集15人中的8人作為訓(xùn)練樣本,7人作為測(cè)試樣本。
2.2? 實(shí)驗(yàn)過程
2.2.1? 特征提取
對(duì)于每個(gè)實(shí)驗(yàn)視頻,將其分成多組15個(gè)連續(xù)幀的塊,然后在這些塊上訓(xùn)練模型而不是在單獨(dú)每一幀上訓(xùn)練。在卷積層中,使用3D卷積濾波器來訓(xùn)練模型以檢測(cè)并學(xué)習(xí)時(shí)間運(yùn)動(dòng)信息。特征提取如圖4所示。
2.2.2? 參數(shù)影響
1) Learning rate
學(xué)習(xí)率是深度學(xué)習(xí)中一個(gè)舉足輕重的超級(jí)參數(shù)。 能否選擇搭配網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)學(xué)習(xí)率決定了模型塑造的質(zhì)量。文中,學(xué)習(xí)率調(diào)整到0.01的獲得最高準(zhǔn)確率結(jié)果。
2) Dropout
Dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄,是一種很有效的正則化手段[11],對(duì)于隨機(jī)梯度下降來說,由于是隨機(jī)丟棄,故每一個(gè)Mini?batch都在訓(xùn)練不同的網(wǎng)絡(luò),每次丟失時(shí),都相當(dāng)于從原始網(wǎng)絡(luò)中找到更薄的網(wǎng)絡(luò)。
2.2.3? 實(shí)驗(yàn)結(jié)果比較
不同方法實(shí)驗(yàn)結(jié)果比較如表1所示。
UT數(shù)據(jù)集是人與人交互式類的行為數(shù)據(jù)集,即便該數(shù)據(jù)集的動(dòng)作分類單一且動(dòng)作本身不具備復(fù)雜性,但由于人與人之間交互時(shí)的遮擋和不確定性,導(dǎo)致識(shí)別難度提高,相似動(dòng)作容易混淆,分類算法準(zhǔn)確率浮動(dòng)較大。例如表1所示:本文算法在此數(shù)據(jù)集上,“拳打”動(dòng)作準(zhǔn)確率最低,只有80%,原因在于“拳打”和“推人”動(dòng)作近似,算法易發(fā)生誤判;除“握手”和“拳打”動(dòng)作之外,其余動(dòng)作識(shí)別準(zhǔn)確性均在90%以上??梢姡疚乃惴ㄔ赨T數(shù)據(jù)集上識(shí)別率得到了一定程度上的提高。
3? 結(jié)? 論
動(dòng)作識(shí)別系統(tǒng)的性能在很大程度上取決于它是否能夠高效提取和利用相關(guān)信息[12]。而動(dòng)態(tài)圖像是緊湊的,在將視頻轉(zhuǎn)換成動(dòng)態(tài)圖像期間,時(shí)間信息在某種程度上不可避免地丟失[13]。本文通過基于改進(jìn)三維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法和其他實(shí)驗(yàn)方法在UT數(shù)據(jù)集得到的相比較,更大程度上利用測(cè)試視頻包含的空間和時(shí)間信息,并且準(zhǔn)確率得到了一定程度的提高,證明了該方法在短視頻交互動(dòng)作識(shí)別中的可行性。
注:本文通訊作者為黃希。
參考文獻(xiàn)
[1] 張孫培,孫懷江.關(guān)節(jié)信息和極限學(xué)習(xí)機(jī)的人體動(dòng)作識(shí)別[J].現(xiàn)代電子技術(shù),2015,38(10):55?60.
[2] 劉文婷.一種室內(nèi)人體行為識(shí)別方法:CN104866860A[P].2015?08?26.
[3] CHEN Chen, ROOZBEH Jafari, NASSER Kehtarnavaz. UTD?MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor [C]// 2015 IEEE International Conference on Image Processing. Quebec City: IEEE, 2015: 168?172.
[4] JEFFREY Donahue, LISA Anne Hendricks, SERGIO Guadarrama, et al. Long?term recurrent convolutional networks for visual recognition and description [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2625?2634.
[5] CHRISTOPH Feichtenhofer, AXEL Pinz, ANDREW Zisserman. Convolutional two?stream network fusion for video action recognition [C]// Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 204?215.
[6] ZHOU Bolei, AGATA Lapedriza, XIAO Jianxiong, et al. Learning deep features for scene recognition using places database [C]// Neural Information Processing Systems. Montreal: NIPS, 2014: 487?495.
[7] DIOGO C Luvizon, DAVID Picard, HEDI Tabia. 2D/3D pose estimation and action recognition using multitask deep learning [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5137?5146.
[8] 李軍鋒,何雙伯,馮偉夏,等.基于改進(jìn)CNN的增強(qiáng)現(xiàn)實(shí)變壓器圖像識(shí)別技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(7):29?32.
[9] JOAO Carreira, ANDREW Zisserman. Quo vadis, action recognition? A new model and the kinetics dataset [C]// Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6299?6308.
[10] 范曉杰,宣士斌,唐鳳.基于Dropout卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別[J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,23(1):76?82.
[11] 周永生.基于LSTM神經(jīng)網(wǎng)絡(luò)的PM2.5預(yù)測(cè)[D].長(zhǎng)沙:湖南大學(xué),2018.
[12] WANG Limin, XIONG Yuanjun, WANG Zhe, et al. Temporal segment networks: towards good practices for deep action recognition [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 20?36.
[13] WANG Huogen, WANG Pichao, SONG Zhanjie, et al. Large?scale multimodal gesture recognition using heterogeneous networks [C]// 2017 IEEE International Conference on Computer Vision Workshops. Venice: IEEE, 2017: 3129?3131.