臧晶 李博 李紅 玉紹康
摘? 要:針對(duì)C3D網(wǎng)絡(luò)時(shí)間維上的信息抽取單一特點(diǎn),模型本身存在泛化能力弱等問(wèn)題,該文基于BN歸一化算法改進(jìn)殘差網(wǎng)絡(luò)結(jié)構(gòu),并嵌入到C3D網(wǎng)絡(luò)中,實(shí)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,保證各個(gè)層數(shù)據(jù)的分布穩(wěn)定性。引入雙流思想,構(gòu)建了改進(jìn)的BRC3D卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。最終在UCF101數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,準(zhǔn)確率達(dá)到了91.343%。
關(guān)鍵詞:殘差網(wǎng)絡(luò)結(jié)構(gòu)? 行為識(shí)別? UCF101數(shù)據(jù)集? 深度學(xué)習(xí)
中圖分類(lèi)號(hào):TP391.9? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2021)04(b)-0035-03
Behavior Recognition Based on Dual-stream BRC3D Convolutional Neural Network
ZANG Jing1? ?LI Bo2? LI Hong 1? yu shaokang1
(1.Shenyang Ligong University, Shenyang, Liaoning Province, 110159 China; 2.Liaoyang Vocational College of Technology, Liaoyang, Liaoning Province, 111000? China)
Abstract: Aiming at the single feature of information extraction in the time dimension of C3D network and the weak generalization ability of the model itself, this paper improves the residual network structure based on BN normalization algorithm, and embeds it into C3D network to realize the optimization of network structure and ensure the distribution stability of data in each layer. An improved BRC3D convolutional neural network recognition method is constructed by introducing the idea of two streams. Finally, training and testing on UCF101 data set, the accuracy rate reached 91.343%.
Key Words: Residual network structure; Behavior recognition; UCF101 data set; Deep learning
目前,人體行為識(shí)別在監(jiān)控、運(yùn)動(dòng)分析、智能交互、智能醫(yī)療以及故障診斷、智能小區(qū)等很多領(lǐng)域得到應(yīng)用,相關(guān)課題有著重要的研究?jī)r(jià)值[1-3]。其中,對(duì)視頻中的人體行為進(jìn)行識(shí)別成為計(jì)算機(jī)視覺(jué)領(lǐng)域中研究的熱點(diǎn)。
該文對(duì)C3D網(wǎng)絡(luò)結(jié)構(gòu)[4]進(jìn)行改進(jìn),提出了一種基于RC3D網(wǎng)絡(luò)的行為識(shí)別算法[5],該方法同時(shí)提取視頻信息中的時(shí)間和空間特征,增加BN歸一化算法的殘差網(wǎng)絡(luò)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)中,引入雙流思想[6],得到基于雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別算法。
1? 雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò)
1.1 BN歸一化算法
(1)沿著通道利用式(1)計(jì)算每個(gè)批量Bath的均值。
(1)
(2)沿著通道利用式(2)計(jì)算每個(gè)批量Bath的方差。
(2)
(3)根據(jù)(1)和(2)步驟中得到的和,利用式(3)做歸一化處理。
(3)
(4)利用式(4)將歸一化后的數(shù)據(jù)加入和變量。
(4)
式中:縮放參數(shù)和平移參數(shù)參數(shù)是模型學(xué)習(xí)涉及的參數(shù)。
1.2 三維殘差網(wǎng)絡(luò)
該文的殘差網(wǎng)絡(luò)[6]獲得殘差結(jié)果的過(guò)程具體如下。
(1)運(yùn)用BN算法實(shí)現(xiàn)所有卷積層的輸出特征圖的標(biāo)準(zhǔn)化處理;(2)同時(shí),將激勵(lì)函數(shù)Relu加入在前兩個(gè)BN層后面,完成非線(xiàn)性計(jì)算;(3)恒等變換處理;(4)再次Relu計(jì)算獲得殘差結(jié)果。
1.3 雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò)
該文實(shí)現(xiàn)的BRC3D卷積網(wǎng)絡(luò)結(jié)構(gòu),具體見(jiàn)圖1。將視頻中信息分為時(shí)間流、空間流兩個(gè)部分,時(shí)間流描述了場(chǎng)景中目標(biāo)對(duì)象的運(yùn)動(dòng)信息,空間流描述了外觀(guān)場(chǎng)景中的大量信息和目標(biāo)對(duì)象信息。
在視頻分解為時(shí)間流和空間流的基礎(chǔ)上,利用該文構(gòu)建的網(wǎng)絡(luò)實(shí)現(xiàn)行為識(shí)別的步驟為:(1)空間流輸入:RGB彩色圖像一幀,提取到視頻中的外觀(guān)場(chǎng)景信息和目標(biāo)對(duì)象特征;時(shí)間流輸入:多幀疊加得到的光流位移場(chǎng),作用是抽取視頻中的運(yùn)動(dòng)信息特征。(2)BN歸一化算法層,實(shí)現(xiàn)參數(shù)調(diào)節(jié)。(3)特征級(jí)數(shù)據(jù)加權(quán)融合:即場(chǎng)景信息的特征和運(yùn)動(dòng)信息的特征的有效結(jié)合。(4)Softmax實(shí)現(xiàn)動(dòng)作分類(lèi),得到人體行為的動(dòng)作分類(lèi)結(jié)果,實(shí)驗(yàn)驗(yàn)證,準(zhǔn)確率有提升。
2? 實(shí)驗(yàn)過(guò)程
雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實(shí)驗(yàn)是在UCF101數(shù)據(jù)集上進(jìn)行的,該網(wǎng)絡(luò)訓(xùn)練中的涉及到的主要參數(shù)有空間流net輸入、時(shí)間流net輸入、學(xué)習(xí)率、融合機(jī)制、輪數(shù)、迭代次數(shù)等。
雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程及其中參數(shù)設(shè)定描述如下:(1)空間流net輸入的數(shù)量為T(mén)1=幀RGB圖像;時(shí)間流net的輸入選擇連續(xù)性疊加L=10的光流。(2)訓(xùn)練中每輪迭代的樣本容量為97;結(jié)合樣本容量,確定網(wǎng)絡(luò)的學(xué)習(xí)率的初始值為0.001,并使用MS方法來(lái)調(diào)節(jié)學(xué)習(xí)率的值。(3)動(dòng)量為0.9,網(wǎng)絡(luò)權(quán)值利用微型隨機(jī)梯度下降法來(lái)調(diào)節(jié)。(4)進(jìn)一步,時(shí)間流net和空間流net實(shí)現(xiàn)加權(quán)融合。(5)實(shí)驗(yàn)總共執(zhí)行16輪,所有輪的訓(xùn)練過(guò)程中迭代量最高高達(dá)80 000次。(6)每訓(xùn)練過(guò)程的迭代1 000次,那么在測(cè)試數(shù)據(jù)集上將記進(jìn)行600次的迭代。(7)從零開(kāi)始的訓(xùn)練,5×104次迭代,得到學(xué)習(xí)率結(jié)果為10-3;7×104次迭代,得到學(xué)習(xí)率結(jié)果為10-4;8×104次迭代,訓(xùn)練結(jié)束。
3? 實(shí)驗(yàn)結(jié)果與分析
雙流BRC3D網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果具體見(jiàn)圖2、表1。
由實(shí)驗(yàn)結(jié)果可以看出,基于雙流BRC3D CNN的平均識(shí)別準(zhǔn)確率為91.343%,相較于C3D CNN和改進(jìn)的CNN的準(zhǔn)確率都具有很大的提升。與此同時(shí),雙流BRC3D CNN的損失函數(shù)曲線(xiàn)變化比較平滑,該損失函數(shù)值最終一直保持在2.301左右。
4? 結(jié)語(yǔ)
該文構(gòu)建的雙流BRC3D卷積神經(jīng)網(wǎng)絡(luò),既能提取包含場(chǎng)景的空間信息,又能提取包含運(yùn)動(dòng)信息的時(shí)間信息。最終在UCF101數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明,該算法的人體行為識(shí)別準(zhǔn)確率為91.343%,模型本身的泛化能力以及識(shí)別率都得到有效提升。
參考文獻(xiàn)
[1] 李延林.基于深度運(yùn)動(dòng)圖的人體行為識(shí)別研究[D].長(zhǎng)春工業(yè)大學(xué),2018.
[2] 劉瀟.基于深度學(xué)習(xí)的人體行為識(shí)別技術(shù)的研究與應(yīng)用[D].北京郵電大學(xué),2019.
[3] 劉雪君.基于深度學(xué)習(xí)的人體行為識(shí)別算法研究[D].東北電力大學(xué),2018.
[4] 馬立軍.基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別算法研究[D].中國(guó)地質(zhì)大學(xué)(北京),2018.
[5] 李紅.基于深度學(xué)習(xí)的人體行為識(shí)別技術(shù)研究[D].沈陽(yáng)理工大學(xué),2020.
[6] 高陽(yáng).基于雙流卷積神經(jīng)網(wǎng)絡(luò)的監(jiān)控視頻中打斗行為識(shí)別研究[D].西安理工大學(xué),2018.