李紅 臧晶
摘 ?要:人體行為識別是計算機視覺領(lǐng)域研究的一個熱點,為了提高視頻中的人體行為識別的準(zhǔn)確率,提出了一種基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識別方法,首先構(gòu)建3D CNN模型,通過三維卷積核,來提取視頻中人體行為的時-空域信息,最終并在UCF-101數(shù)據(jù)集上進行訓(xùn)練與測試,證明了該方法具有較好的識別效果。
關(guān)鍵詞:人體行為識別 ?3D卷積神經(jīng)網(wǎng)絡(luò) ?UCF-101數(shù)據(jù)集
中圖分類號:TP391.41 ? 文獻標(biāo)識碼:A 文章編號:1672-3791(2019)10(b)-0023-02
作為智能視頻分析領(lǐng)域中必不可少的一部分,人體行為識別技術(shù)成為計算機視覺領(lǐng)域中研究的熱點,在人體交互、安全監(jiān)控、安全防護和公共場所等多個領(lǐng)域具有廣泛的應(yīng)用前景。
1 ?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)由低隱藏層和高層兩部分構(gòu)成,低隱藏層即特征提取層,是由若各個卷積層和下采樣層交替構(gòu)成,用來提取局部特征。CNN的高層是由全連接層、輸出層以及邏輯回歸分類器構(gòu)成。
1.1 卷積層
卷積層每個輸出矩陣的大小是(N-m+1),詳細(xì)運算過程如式(1)所示。
其中,Xil,j中的l表示第l個卷積層,i表示第i個卷積輸出矩陣的某個值,j表示對應(yīng)的輸出矩陣的編號,f表示非線性函數(shù)。
1.2 池化層
池化層采用局部求均值的方式進行降維[1]。詳細(xì)運算過程如式(2)所示。
其中,Xil,j為進行池化過程后局部的一個輸出項,它是由上一層大小為n×n的局部小矩陣進行均值運算得到的。
2 ?基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識別模型
3D卷積神經(jīng)網(wǎng)絡(luò)的是由8個卷積層、5個池化層、兩個全連接層和一個softmax分類層組成的,該文采用大小為 3×3×3的卷積核,步長均為1×1×1。所有池化層都采用最大池化,除第一個池化層外,所有池化層的池化核大小均設(shè)為2×2×2,步長也為2×2×2。第一個池化層的池化核大小和步長均設(shè)為2×2×1。這是為了避免時間維度上過早地縮短為1。經(jīng)過兩個全連接層之后,每個連接層的輸出節(jié)點為4096個,再經(jīng)過了softmax分類器后得到最終的分類結(jié)果(見圖1)。
3 ?實驗結(jié)果與分析
3.1 數(shù)據(jù)集
該文在UCF-101人體行為數(shù)據(jù)集上進行實驗,UCF-101包含身體動作、人與人之間的交互動作、體育運動等101個動作類別,總共計13320個視頻片段,該文選取了數(shù)據(jù)集中的27類動作類別進行實驗。
3.2 實驗過程
3D卷積神經(jīng)網(wǎng)絡(luò)接收的輸入為視頻,輸出為視頻的類別,每幀視頻尺寸需要重新調(diào)整為128×171,對于UCF101數(shù)據(jù)集來說,這個分辨率大約是原始視頻幀的0.5倍,在訓(xùn)練期間進一步調(diào)整為112×112,每個視頻隨機抽取一個連續(xù)的16幀堆疊的片段來作為輸入。3D卷積神經(jīng)網(wǎng)絡(luò)使用一個形狀為16×112×112×3的四維張量來表示一個視頻剪輯,意思就是說每個輸入的視頻剪輯是16個大小為 112×112且有3個RGB通道的圖像幀序列。
3.3 實驗結(jié)果
通過圖2、圖3、表1的實驗結(jié)果可以看出,3D CNN的總體平均識別率達到了54.8%。識別準(zhǔn)確率比2D CNN總體高了8.6%。由于快走和慢跑的相似度比較高,所以識別率還有待提高。
4 ?結(jié)語
該文構(gòu)建了3D卷積神經(jīng)網(wǎng)絡(luò)模型,使用3D卷積神經(jīng)網(wǎng)絡(luò)來對原始視頻數(shù)據(jù)進行預(yù)處理并作為網(wǎng)絡(luò)的輸入。并在UCF-101數(shù)據(jù)集上進行訓(xùn)練與測試,最終完成視頻中的人體行為的識別。與二維卷積神經(jīng)網(wǎng)絡(luò)相比,3D CNN可以提取時間和空間特征,使得視頻中的人體行為識別更加準(zhǔn)確。
參考文獻
[1] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖像圖形學(xué)報,2014,19(2):175-184.
[2] 張穎,袁和金.基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別方法[J].軟件導(dǎo)刊,2017,167(1):9-11.
[3] Du T,Bourdev L,F(xiàn)ergus R,et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision(ICCV)[C].2015.