馬翠紅,王 毅,毛志強(qiáng)
(華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210)
近年來,研究人員將深度學(xué)習(xí)應(yīng)用于視頻監(jiān)控的目標(biāo)檢測(cè)、行為識(shí)別等領(lǐng)域[1]。Simonyan等[2]利用包含空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)雙流卷積網(wǎng)絡(luò)分別提取堆疊光流圖和RGB視頻中的長(zhǎng)時(shí)運(yùn)動(dòng)和表觀特征,該模型僅考慮了視頻中的短期動(dòng)態(tài)特征,視頻中的長(zhǎng)期特征沒有得到充分利用。
Woo等[3]提出基于RNN可以實(shí)現(xiàn)對(duì)視頻中多對(duì)象行為進(jìn)行識(shí)別。Hochreiter等[4]提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM),用LSTM替代傳統(tǒng)的RNN,解決了RNN梯度消失的問題。Gammulle等[5]設(shè)計(jì)雙流融合LSTM網(wǎng)絡(luò)用于行為識(shí)別,且其應(yīng)用在模式識(shí)別等任務(wù)中也取得了很好的效果。
針對(duì)上述存在的問題并總結(jié)各種網(wǎng)絡(luò)優(yōu)勢(shì)的基礎(chǔ)上,提出基于注意力的雙流CNN與DU-DLSTM的識(shí)別模型來解決復(fù)雜場(chǎng)景下監(jiān)控視頻的行為識(shí)別問題。
本文提出的模型采用時(shí)空雙流網(wǎng)絡(luò)和視覺注意力提取特征向量,輸入DU-DLSTM模塊深度解析后經(jīng)Softmax函數(shù)完成識(shí)別任務(wù),模型如圖1所示。
圖1 系統(tǒng)總體框架
LSTM是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的另一種形式,LSTM的優(yōu)點(diǎn)是解決長(zhǎng)序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡(jiǎn)單來說,與普通的RNN相比,LSTM能夠在較長(zhǎng)的序列中發(fā)揮更好的作用。
LSTM的整體功能實(shí)現(xiàn)的結(jié)構(gòu)如圖2所示,其中LSTM的最重要的部位就是她的記憶單元ct,它實(shí)現(xiàn)的功能是對(duì)信息進(jìn)行篩選,留下最佳信息,如式(5)所示,LSTM的最大的特點(diǎn)就是通過它自身特殊的門[6]結(jié)構(gòu)對(duì)行為信息與記憶單元之間交互的能力進(jìn)行操控。LSTM的主要的門結(jié)構(gòu)是通過一個(gè)Sigmoid函數(shù)具體體現(xiàn)的,其中σ(x)=(1+e-x)-1表示它的Sigmoid函數(shù),Sigmoid函數(shù)優(yōu)點(diǎn)在于其最終輸出值都分布在[0,1]之間,代表最終信息的保留程度。具體如式(1)~式(6)所示
圖2 LSTM內(nèi)部結(jié)構(gòu)
it=σ(Wxixt+Whiht-1+bi)
(1)
ft=σ(Wxfxt+Whfht-1+bf)
(2)
ot=σ(Wxoxt+Whoht-1+bo)
(3)
gt=tanh(Wxcxt+Whcht-1+bc)
(4)
ct=ft?ct-1+it?gt
(5)
ht=ot?tanh(ct)
(6)
式中:xt代表當(dāng)前記憶單元的輸入,ht-1表示上一時(shí)刻細(xì)胞的輸出。it,ft,ot,分別為輸入門、遺忘門、輸出門,gt是由雙曲正切函數(shù)創(chuàng)建的一個(gè)新的候選值向量。具體如式(6)所示,其中LSTM的輸出ht是由ot來具體控制是否需要激活其中的記憶單元ct。本文采用的多層LSTM網(wǎng)絡(luò)建模隱狀態(tài),其中每一LSTM層的全部輸出內(nèi)容成為下一層的全部輸入內(nèi)容,一層層疊加使其形成多層LSTM。
本文主要提出的空間注意力模型,該模型可以主動(dòng)學(xué)習(xí)視頻內(nèi)空間上的重要的特征的概率分布。采用這里提出的注意力機(jī)制充分提取視頻和其具體的光流序列的整體特征[7]。其中假設(shè)xt作為具體的空間網(wǎng)絡(luò)特征輸出,也為時(shí)間網(wǎng)絡(luò)的輸入,xt是采樣部分的切片。本文選擇確定性軟注意力機(jī)制[8]
(7)
其中,xt表示視頻特征立方體,Xt,i為Xt在t時(shí)刻的第i個(gè)切片,K2表示切片大小,lt,i表示光流特征提取的空間softmax參數(shù)[8]
(8)
(9)
其中,c0為初始狀態(tài),h0為隱含狀態(tài),finit ,c和finit,h分別為多層感知器,視頻段的幀數(shù)。
本文提出時(shí)間注意模型,解析所有視頻幀與識(shí)別動(dòng)作的相關(guān)性,解析光流序列得到隱狀態(tài)參數(shù)ht,時(shí)間注意模型解析視頻幀得到隱狀態(tài)參數(shù)bt,時(shí)間維注意力權(quán)重值為
(10)
其中,t表示時(shí)間幀,n表示視頻長(zhǎng)度;h表示隱狀態(tài)層參數(shù),q為其最大值;bt,k和ht,k分別表示視頻幀和光流幀的隱狀態(tài)參數(shù)向量。本文采用sigmoid函數(shù)將時(shí)間維注意權(quán)重系數(shù)限制在[0, 1]區(qū)間
(11)
時(shí)間流網(wǎng)絡(luò)提取特征的概率分布P(yt=c),利用softmax分類器獲得對(duì)應(yīng)類別概率分布
(12)
其中,t代表時(shí)間幀,c表示動(dòng)作類別,P(y′=c)為相關(guān)性最大的動(dòng)作特征。
在行為識(shí)別領(lǐng)域LSTM由于可以更好提取長(zhǎng)時(shí)運(yùn)動(dòng)信息備受歡迎,但由于其過多的依賴于所有輸入信息,識(shí)別精度受到限制。Chevalier等[9]提出的雙向LSTM使得準(zhǔn)確度有了升高。如圖3所示。
圖3 雙向結(jié)構(gòu)Bi-LSTM
雙向LSTM網(wǎng)絡(luò)經(jīng)常遇到各種優(yōu)化瓶頸,導(dǎo)致識(shí)別精度很難進(jìn)一步提高。通過總結(jié)遇到的問題,我們提出 DU-DLSTM模塊,如圖4所示,兩個(gè)單向傳遞的DLSTM組合后形成DU-DLSTM單元。當(dāng)前各種拓展的LSTM網(wǎng)絡(luò)結(jié)構(gòu)越來越深,時(shí)序信息通過深層次的網(wǎng)絡(luò)傳輸后,仍能進(jìn)行更好地融合,深層雙單向LSTM更好地獲取動(dòng)作的全局信息,完成識(shí)別任務(wù)。
圖4 雙單向結(jié)構(gòu)DU-DLSTM
DU-DLSTM單元表示為
hDU=c(d(W1hDL1+b1),d(W2hDL2+b2))
(13)
其中,hDL1和hDL2代表相同傳輸方向的兩個(gè)DLSTM單元的輸入,W和b為權(quán)重和偏置項(xiàng),hDU為輸出。
本文使用的視頻數(shù)據(jù)集是KTH,選擇了一些動(dòng)作,如圖5所示。該數(shù)據(jù)集包含固定視角攝像機(jī)拍攝的600個(gè)動(dòng)態(tài)視頻。視頻的幀率為25 frame/s,視頻每幀圖片的分辨率都為160像素×120像素。有25位不同的實(shí)驗(yàn)對(duì)象,4種不同的實(shí)驗(yàn)場(chǎng)景:戶外、室內(nèi)、戶外(場(chǎng)景變化)、戶外(服飾裝扮變化),6種不同的人體行為:散步(Walking)、慢跑(Jogging)、奔跑(Running)、拳擊(Boxing)、揮手(Hand waving)、拍手(Hand clapping)。
圖5 KTH樣本數(shù)據(jù)集
首先對(duì)數(shù)據(jù)集進(jìn)行劃分,隨機(jī)取80%作為訓(xùn)練集,剩下20%為測(cè)試集。提取視頻的RGB幀和光流幀后進(jìn)行預(yù)處理,然后將視頻隨機(jī)剪輯為25 frames的短視頻后訓(xùn)練,來增強(qiáng)數(shù)據(jù)。
本實(shí)驗(yàn)主要選擇的是Python語(yǔ)言,將其搭建在深度學(xué)習(xí)框架Tensorflow下實(shí)現(xiàn)具體的實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境:Ubuntu16.04 64位;NVIDIA GeForce GTX 1080Ti(11 G)顯卡;32 G內(nèi)存。
在訓(xùn)練過程中,為加強(qiáng)魯棒性,首先在imagenet數(shù)據(jù)集下進(jìn)行了10萬(wàn)次訓(xùn)練,得到預(yù)訓(xùn)練模型,對(duì)參數(shù)進(jìn)行優(yōu)化。圖6為具體訓(xùn)練過程中,光流圖和視頻幀數(shù)據(jù)隨著訓(xùn)練次數(shù)的增加,識(shí)別準(zhǔn)確率的具體變化。
圖6 KTH數(shù)據(jù)集訓(xùn)練準(zhǔn)確率
本文將模型對(duì)KTH測(cè)試集中6種不同的行為識(shí)別結(jié)果做了可視化處理,用來觀測(cè)模型的效果,對(duì)角線元素代表識(shí)別的準(zhǔn)確率。
通過表1可以看出,分析KTH數(shù)據(jù)集,慢跑和奔跑行為是最容易混淆的,而拍手、揮手、拳擊、散步的識(shí)別率準(zhǔn)確率極高。通過人眼觀察原始的視頻也可以看出,慢跑和奔跑的區(qū)分度很小,數(shù)據(jù)本身的相似性極高。
表1 各種行為的混淆矩陣
在先前的實(shí)驗(yàn)中, 已經(jīng)得到空間注意網(wǎng)絡(luò)與時(shí)間注意網(wǎng)絡(luò)的最佳效果, 受到之前學(xué)的結(jié)果分布學(xué)習(xí)相關(guān)內(nèi)容的啟發(fā), 本文對(duì)具體提出的空間注意網(wǎng)絡(luò)與提出的時(shí)間注意網(wǎng)絡(luò)得到的實(shí)驗(yàn)結(jié)果加以不同的分布比來加權(quán), 進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表2,分布比=空間層∶時(shí)間層。
表2 雙流網(wǎng)絡(luò)模型在不同權(quán)重比下的準(zhǔn)確率/%
從表2可以看出,這里提出的空間注意網(wǎng)絡(luò)與提出的時(shí)間注意網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果具體的分布比為4∶6時(shí),本文的模型的識(shí)別精度相比最高, 在數(shù)據(jù)集中取得98.9%識(shí)別準(zhǔn)確率。
最后,將本文的網(wǎng)絡(luò)模型與目前識(shí)別精度較高算法[8,10,11]測(cè)試然后對(duì)比,其最終的實(shí)驗(yàn)結(jié)果見表3。
表3 不同算法在KTH上的比較結(jié)果/%
從表3中可以看出,本文提出的注意力的雙流CNN與DU-DLSTM模型使行為識(shí)別的準(zhǔn)確率有很大的提高。
為充分融合視頻的時(shí)間和空間信息,更加充分利用視頻的長(zhǎng)時(shí)運(yùn)動(dòng)信息,本文提出的基于注意力的雙流CNN與DU-DLSTM的行為識(shí)別模型,通過與光流特征結(jié)合捕獲場(chǎng)景運(yùn)動(dòng)信息,構(gòu)建基于注意力的空間和時(shí)間網(wǎng)絡(luò),利用注意力機(jī)制學(xué)習(xí)相關(guān)性較大的特征對(duì)象,構(gòu)建DU-DLSTM模塊拓寬網(wǎng)絡(luò)深度,有利于學(xué)習(xí)表征能力更強(qiáng)的特征,最后采用Softmax最大似然函數(shù)對(duì)視頻進(jìn)行分類,提高了魯棒性。在KTH數(shù)據(jù)集上對(duì)模型進(jìn)行了測(cè)試,并與其它算法進(jìn)行比較,表明本文的模型有效提高了識(shí)別精度,本文提供一個(gè)很好的方案。