◆馬翠紅 王 毅 毛志強(qiáng)
(華北理工大學(xué)電氣工程學(xué)院 河北 063210)
傳統(tǒng)的人體動(dòng)作識(shí)別主要是基于手工特征[1-2]的方法,然而由于傳統(tǒng)方法進(jìn)行特征提取的步驟煩瑣且難以提取到深層特征,因此使得行為識(shí)別準(zhǔn)確率難以提升。近年來,隨著深度學(xué)習(xí)被廣泛應(yīng)用于圖片分類、人臉識(shí)別和目標(biāo)檢測(cè)等識(shí)別領(lǐng)域,其在人體動(dòng)作特征提取上也表現(xiàn)出了很好的效果。2014年,Karpathy等[3]第一次利用深度卷積網(wǎng)絡(luò)以連續(xù)的RGB視頻幀為輸入,進(jìn)行人體行為識(shí)別,然而并沒有很好地利用時(shí)間域特征;Simonyan等人[4]提出了雙流卷積網(wǎng)絡(luò)結(jié)構(gòu),分別提取視頻序列中的時(shí)間域特征和空間域特征,識(shí)別效果雖然有了明顯提升,然而由于該網(wǎng)絡(luò)結(jié)構(gòu)使用的是傳統(tǒng)Softmax和SVM進(jìn)行人體識(shí)別,使得識(shí)別準(zhǔn)確率并不高。
在L-Softmax[5]和A-Softmax[6]的基礎(chǔ)上,Wang F等人[7]提出了一種加性余量 Softmax(Additive Margin Softmax,AM-Softmax)方法用于人臉識(shí)別,對(duì)傳統(tǒng)的Softmax loss函數(shù)進(jìn)行改進(jìn),使得人臉特征具有更大的類間距和更小的類內(nèi)距。受文獻(xiàn)[7]的啟發(fā),本文將AM-Softmax思想用于人體動(dòng)作識(shí)別中,取得很好地識(shí)別效果。
在文獻(xiàn)[4]的基礎(chǔ)上,本文對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),將雙流網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行時(shí)間流到空間流的單向連接,再將全連接層的輸出特征進(jìn)行融合,然后采用AM-Softmax對(duì)時(shí)空融合特征進(jìn)行深層驗(yàn)證,從而最大化類間距離、最小化類內(nèi)距離;最后采用線性SVM對(duì)特征進(jìn)行分類,從而實(shí)現(xiàn)人體動(dòng)作識(shí)別。
圖1 總體架構(gòu)設(shè)計(jì)
利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視頻中的時(shí)間信息一直是人體動(dòng)作識(shí)別的難點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)比較適用于提取單一靜態(tài)圖片特征,對(duì)于視頻的時(shí)間信息不是很敏感。文獻(xiàn)[4]提出了時(shí)空雙流深度學(xué)習(xí)策略,用來分別提取視頻的空間信息和時(shí)間信息,最后進(jìn)行雙流信息融合。與傳統(tǒng)的視頻人體動(dòng)作識(shí)別方法相比,該方法有效的融合了視頻中的時(shí)間信息。但是仍存在以下問題:雙流結(jié)構(gòu)提取的時(shí)空特征僅在最后的Softmax層進(jìn)行融合,沒有考慮到時(shí)空特征在卷積層和全連接層之間的關(guān)聯(lián)性;該模型采用的是傳統(tǒng)的Softmax-loss函數(shù),對(duì)類內(nèi)距離小、類間距離大的相似動(dòng)作識(shí)別效果并不好。
本文提出的Two-stream Fusion&AM-Softmax網(wǎng)絡(luò)模型如圖1所示。該網(wǎng)絡(luò)模型主要包含四個(gè)部分:時(shí)空雙流融合網(wǎng)絡(luò)、時(shí)空特征融合、AM-Softmax深度驗(yàn)證、線性SVM實(shí)現(xiàn)動(dòng)作分類識(shí)別。
為了充分利用視頻序列中的表觀信息和運(yùn)動(dòng)信息,建立起時(shí)空特征之間的關(guān)聯(lián)性,提出了一種時(shí)空雙流融合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其具體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如圖2所示。本文構(gòu)建的雙流基礎(chǔ)網(wǎng)絡(luò)模型采用的是牛津大學(xué)視覺幾何組(Visual Geometry Group,VGG)開發(fā)的VGG-M-2048模型。
圖2 雙流融合卷積網(wǎng)絡(luò)結(jié)構(gòu)
空間流卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是一種圖片分類結(jié)構(gòu),以連續(xù)的單個(gè)多尺度RGB視頻幀為輸入,提取靜態(tài)圖片中的人體表觀特征。時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)是以連續(xù)的光流圖為輸入,提取光流圖中的人體運(yùn)動(dòng)信息。光流圖可以理解為空間運(yùn)動(dòng)物體在連續(xù)視頻幀之間的像素點(diǎn)運(yùn)動(dòng)的“瞬時(shí)速度”,能夠更加直觀的表征人體動(dòng)作。本文采用OpenCV視覺庫中的稠密光流幀提取方法,分別獲取視頻中水平方向和垂直方向的光流幀,然后以20個(gè)光流圖構(gòu)成一個(gè)光流組(flow_x和flow_y)作為時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。
時(shí)空融合雙流網(wǎng)絡(luò)指的是利用空間流提取到表觀信息與時(shí)間流提取的運(yùn)動(dòng)信息的關(guān)聯(lián)性判斷人體動(dòng)作。例如揮拳和散步,空間流卷積神經(jīng)網(wǎng)絡(luò)識(shí)別出靜態(tài)圖像中手和腳的位置,然后時(shí)間流可以識(shí)別出手和腳的周期性動(dòng)作,從而根據(jù)時(shí)空雙流提取到的深度特征識(shí)別出人體動(dòng)作。在時(shí)空雙流卷積網(wǎng)絡(luò)內(nèi)部,采用一種時(shí)間流到空間流的單向連接,將時(shí)間流提取到的運(yùn)動(dòng)特征輸入到空間流,將之與表觀信息進(jìn)行關(guān)聯(lián)性,從而提取到更深層次的動(dòng)作特征。
最后,將雙流網(wǎng)絡(luò)結(jié)構(gòu)提取到的時(shí)空特征進(jìn)行融合,作為后續(xù)AM-Softmax算法的輸入。雖然在雙流卷積網(wǎng)絡(luò)內(nèi)部各層進(jìn)行了單向連接,時(shí)間流提取到的運(yùn)動(dòng)特征在空間流各層也進(jìn)行了關(guān)聯(lián)性學(xué)習(xí),但是由于運(yùn)動(dòng)特征是重要的人體動(dòng)作信息,仍會(huì)從時(shí)間流的全連接層輸出出來再與空間流的輸出特征進(jìn)行融合,從而視頻序列中的運(yùn)動(dòng)特征會(huì)作為網(wǎng)絡(luò)模型的主導(dǎo)特征進(jìn)行人體動(dòng)作識(shí)別。
之前提出的L-Softmax、A-Softmax引入了角間距概念,用于改進(jìn)傳統(tǒng)的softmax loss函數(shù),能夠使得類別特征之間具有更大的類間距和更小的類內(nèi)距。
Softmax loss函數(shù)經(jīng)常會(huì)被用到卷積神經(jīng)網(wǎng)絡(luò)中,雖然簡(jiǎn)單實(shí)用,但是它在人體動(dòng)作識(shí)別中并不能引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)區(qū)分性較高的特征。傳統(tǒng)的Softmaxloss函數(shù)如下式所示:
式中,fj表示最終全連接層的類別輸出向量f的第j個(gè)元素,N為訓(xùn)練樣本的個(gè)數(shù)。
由于f是全連接層的激活函數(shù)W的輸出,所以fyi可以表示為,則最終的損失函數(shù)可以表示為:
因此,L-Softmax loss函數(shù)可寫為:
接下來,文獻(xiàn)[6]提出了一種A-Softmax loss函數(shù),以二分類作為例。為了將1特征x正確分類,修改后的softmax loss函數(shù)要求,即。在此基礎(chǔ)上增加一個(gè)參數(shù),此時(shí)要正確分類,需要使,即。這樣就增加了判決的約束,使得學(xué)習(xí)的特征更具區(qū)分性,因此可以得到A-Softmax loss函數(shù)如下式所示:
為了能夠保證上式可以在CNN中進(jìn)行前后向反饋,上式可改寫為:
文獻(xiàn)[7]在L-Softmaxloss、A-Softmaxloss函數(shù)基礎(chǔ)上提出了一種更加直觀、更易解釋的AdditiveMarginSoftmax(AM-Softmax)算法用于人臉識(shí)別,并取得了很不錯(cuò)的效果。
L-Softmax和A-Softmax都是引入了一個(gè)參數(shù)因子m將權(quán)重W和輸出向量f的余弦距離變?yōu)?,通過m來調(diào)節(jié)特征間的距離。AM-Softmax將式(5)、(8)改寫為:
因此,最后的AM-Softmax loss函數(shù)寫為:
在215名參加城鄉(xiāng)居民合作醫(yī)療保險(xiǎn)的高血壓患者中,CHE的發(fā)生率為13%,其中,農(nóng)村戶口患者CHE發(fā)生率為74%; 發(fā)生CHE的logistic回歸模型,以患者的社會(huì)人口經(jīng)濟(jì)學(xué)特征、疾病嚴(yán)重程度、醫(yī)療費(fèi)用支出等作為解釋變量。結(jié)果如表4,其中,患者家庭CHE發(fā)生的概率隨著收入水平的增加而逐漸降低,門診自付費(fèi)用每增加一元,其CHE發(fā)生的概率將增加0.12%。另外,喪偶狀況下的患者發(fā)生CHE的概率大于對(duì)照組。
式中,s是一個(gè)縮放因子。
本文受其啟發(fā),將AM-Softmax loss函數(shù)應(yīng)用到了人體動(dòng)作識(shí)別,對(duì)動(dòng)作深度特征進(jìn)行處理,使其能夠?qū)⒏黝悇?dòng)作特征的類間距更大,類內(nèi)距更小。如圖3所示。
圖3 原始Softmax和AM-Softmax比較
本文實(shí)驗(yàn)環(huán)境選擇在深度學(xué)習(xí)框架Tensorflow上進(jìn)行,采用小批量隨機(jī)梯度下降法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。時(shí)空雙流融合卷積神經(jīng)網(wǎng)絡(luò)采用VGG-M-2048模型提取時(shí)空特征,以16幀為一組的連續(xù)RGB視頻幀為空間輸入,尺寸大小為224*224,時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)輸入大小為224*224*2L,在原光流圖上隨機(jī)位置裁剪連續(xù)光流幀。
本次實(shí)驗(yàn)數(shù)據(jù)集采用KTH數(shù)據(jù)集,該數(shù)據(jù)集包括了4種場(chǎng)景下25個(gè)不同行人的6種行為視頻:正常行走(Walk)、慢跑(Jog)、跑(Run)、揮拳(Box)、雙手揮手(Wave)、鼓掌(Clap)。如圖(4)所示。實(shí)驗(yàn)過程中,為了增加識(shí)別準(zhǔn)確率可信度,本文將KTH數(shù)據(jù)集隨機(jī)劃分成3組,取其3組測(cè)試平均準(zhǔn)確率作為評(píng)估模型效果的指標(biāo)。
實(shí)驗(yàn)過程中,為了得到更加可靠的識(shí)別準(zhǔn)確率,本文將KTH數(shù)據(jù)集隨機(jī)劃分成3組,并取其3組測(cè)試平均準(zhǔn)確率作為評(píng)估模型效果的指標(biāo)。
通過時(shí)空雙流融合VGG-M-2048模型提取連續(xù)RGB視頻幀與連續(xù)光流圖的時(shí)空特征,在雙流VGG-M-2048模型內(nèi)部卷積層之間采用時(shí)間流到空間流的單向連接方式,進(jìn)行運(yùn)動(dòng)特征與表觀特征的關(guān)聯(lián)性學(xué)習(xí)。實(shí)驗(yàn)過程中,在雙流結(jié)構(gòu)全連接層的不同位置進(jìn)行時(shí)空特征融合,其識(shí)別準(zhǔn)確率如表1所示。
圖4 KTH樣本數(shù)據(jù)集
表1 不同全連接層輸出特征識(shí)別準(zhǔn)確率的比較(%)
從表1中可以發(fā)現(xiàn),隨著時(shí)空特征融合位置層次的加深,其動(dòng)作識(shí)別準(zhǔn)確率也在不斷提高,但在空間流的fc6層與時(shí)間流的fc7層進(jìn)行融合時(shí),識(shí)別效果最好。文獻(xiàn)[4]和文獻(xiàn)[8]提出的雙流CNN模型在UCF-101數(shù)據(jù)集上均證明了這一結(jié)論。
為了驗(yàn)證本文算法提出的AM-Softmax Loss函數(shù)對(duì)動(dòng)作識(shí)別效果提升的作用,在KTH數(shù)據(jù)集上對(duì)比了不同的Softmax Loss設(shè)計(jì)方案對(duì)網(wǎng)絡(luò)的影響,如表2所示。實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的Softmax Loss函數(shù)在動(dòng)作識(shí)別上并未取得很好的識(shí)別效果,然而本文采用的在L-Softmax、A-Softmax基礎(chǔ)上進(jìn)行改進(jìn)的AM-Softmax取得了很好的識(shí)別效果,識(shí)別準(zhǔn)確率可達(dá)97.5%。
表2 不同Softmax Loss方案對(duì)網(wǎng)絡(luò)的影響
最后,將本文方法與其他主流的動(dòng)作識(shí)別算法在KTH數(shù)據(jù)集上進(jìn)行比較,如表3所示。
表3 不同算法在KTH上的比較結(jié)果(%)
從表3中可以發(fā)現(xiàn),本文提出的基于時(shí)空雙流融合網(wǎng)絡(luò)與AM-Softmax的動(dòng)作識(shí)別效果明顯優(yōu)于其他算法,說明在卷積層進(jìn)行時(shí)空特征融合,使表觀特征與運(yùn)動(dòng)特征進(jìn)行關(guān)聯(lián)性學(xué)習(xí),能夠提高動(dòng)作識(shí)別準(zhǔn)確率。
本文從人體動(dòng)作類內(nèi)類間距離差異的角度出發(fā),提出了一種基于時(shí)空雙流融合網(wǎng)絡(luò)與AM-Softmax的動(dòng)作識(shí)別方法。通過時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)分別提取視頻序列中的表觀特征和運(yùn)動(dòng)特征,且在卷積層內(nèi)部采用時(shí)空單向連接將時(shí)空特征進(jìn)行關(guān)聯(lián)性學(xué)習(xí);然后將雙流結(jié)構(gòu)的S-fc6層與T-fc7層特征進(jìn)行融合;最后采用AM-Softmax Loss函數(shù)對(duì)時(shí)空融合特征進(jìn)行優(yōu)化,利用線性SVM實(shí)現(xiàn)人體動(dòng)作識(shí)別。在KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:在卷積層采用單向時(shí)空連接進(jìn)行時(shí)空特征關(guān)聯(lián)性學(xué)習(xí)有利于人體動(dòng)作表征能力的提升;將空間流的fc6層與時(shí)間流的fc7層進(jìn)行特征融合,會(huì)有更高的識(shí)別準(zhǔn)確率;采用AM-Softmax Loss函數(shù)優(yōu)化時(shí)空融合特征,能夠最大化類間距離、最小化類內(nèi)距離,有利于人體動(dòng)作分類。