亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時(shí)空雙流融合網(wǎng)絡(luò)與AM-Softmax的動(dòng)作識(shí)別

2019-11-12 02:13:56馬翠紅毛志強(qiáng)

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2019年11期

◆馬翠紅王毅毛志強(qiáng)

（華北理工大學(xué)電氣工程學(xué)院河北 063210）

傳統(tǒng)的人體動(dòng)作識(shí)別主要是基于手工特征[1-2]的方法，然而由于傳統(tǒng)方法進(jìn)行特征提取的步驟煩瑣且難以提取到深層特征，因此使得行為識(shí)別準(zhǔn)確率難以提升。近年來，隨著深度學(xué)習(xí)被廣泛應(yīng)用于圖片分類、人臉識(shí)別和目標(biāo)檢測(cè)等識(shí)別領(lǐng)域，其在人體動(dòng)作特征提取上也表現(xiàn)出了很好的效果。2014年，Karpathy等[3]第一次利用深度卷積網(wǎng)絡(luò)以連續(xù)的RGB視頻幀為輸入，進(jìn)行人體行為識(shí)別，然而并沒有很好地利用時(shí)間域特征；Simonyan等人[4]提出了雙流卷積網(wǎng)絡(luò)結(jié)構(gòu)，分別提取視頻序列中的時(shí)間域特征和空間域特征，識(shí)別效果雖然有了明顯提升，然而由于該網(wǎng)絡(luò)結(jié)構(gòu)使用的是傳統(tǒng)Softmax和SVM進(jìn)行人體識(shí)別，使得識(shí)別準(zhǔn)確率并不高。

在L-Softmax[5]和A-Softmax[6]的基礎(chǔ)上，Wang F等人[7]提出了一種加性余量 Softmax（Additive Margin Softmax，AM-Softmax）方法用于人臉識(shí)別，對(duì)傳統(tǒng)的Softmax loss函數(shù)進(jìn)行改進(jìn)，使得人臉特征具有更大的類間距和更小的類內(nèi)距。受文獻(xiàn)[7]的啟發(fā)，本文將AM-Softmax思想用于人體動(dòng)作識(shí)別中，取得很好地識(shí)別效果。

在文獻(xiàn)[4]的基礎(chǔ)上，本文對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，將雙流網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行時(shí)間流到空間流的單向連接，再將全連接層的輸出特征進(jìn)行融合，然后采用AM-Softmax對(duì)時(shí)空融合特征進(jìn)行深層驗(yàn)證，從而最大化類間距離、最小化類內(nèi)距離；最后采用線性SVM對(duì)特征進(jìn)行分類，從而實(shí)現(xiàn)人體動(dòng)作識(shí)別。

1 模型架構(gòu)設(shè)計(jì)

圖1 總體架構(gòu)設(shè)計(jì)

利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取視頻中的時(shí)間信息一直是人體動(dòng)作識(shí)別的難點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)比較適用于提取單一靜態(tài)圖片特征，對(duì)于視頻的時(shí)間信息不是很敏感。文獻(xiàn)[4]提出了時(shí)空雙流深度學(xué)習(xí)策略，用來分別提取視頻的空間信息和時(shí)間信息，最后進(jìn)行雙流信息融合。與傳統(tǒng)的視頻人體動(dòng)作識(shí)別方法相比，該方法有效的融合了視頻中的時(shí)間信息。但是仍存在以下問題：雙流結(jié)構(gòu)提取的時(shí)空特征僅在最后的Softmax層進(jìn)行融合，沒有考慮到時(shí)空特征在卷積層和全連接層之間的關(guān)聯(lián)性；該模型采用的是傳統(tǒng)的Softmax-loss函數(shù)，對(duì)類內(nèi)距離小、類間距離大的相似動(dòng)作識(shí)別效果并不好。

本文提出的Two-stream Fusion&AM-Softmax網(wǎng)絡(luò)模型如圖1所示。該網(wǎng)絡(luò)模型主要包含四個(gè)部分：時(shí)空雙流融合網(wǎng)絡(luò)、時(shí)空特征融合、AM-Softmax深度驗(yàn)證、線性SVM實(shí)現(xiàn)動(dòng)作分類識(shí)別。

1.1 時(shí)空雙流融合網(wǎng)絡(luò)

為了充分利用視頻序列中的表觀信息和運(yùn)動(dòng)信息，建立起時(shí)空特征之間的關(guān)聯(lián)性，提出了一種時(shí)空雙流融合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其具體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如圖2所示。本文構(gòu)建的雙流基礎(chǔ)網(wǎng)絡(luò)模型采用的是牛津大學(xué)視覺幾何組（Visual Geometry Group，VGG）開發(fā)的VGG-M-2048模型。

圖2 雙流融合卷積網(wǎng)絡(luò)結(jié)構(gòu)

空間流卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上是一種圖片分類結(jié)構(gòu)，以連續(xù)的單個(gè)多尺度RGB視頻幀為輸入，提取靜態(tài)圖片中的人體表觀特征。時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)是以連續(xù)的光流圖為輸入，提取光流圖中的人體運(yùn)動(dòng)信息。光流圖可以理解為空間運(yùn)動(dòng)物體在連續(xù)視頻幀之間的像素點(diǎn)運(yùn)動(dòng)的“瞬時(shí)速度”，能夠更加直觀的表征人體動(dòng)作。本文采用OpenCV視覺庫中的稠密光流幀提取方法，分別獲取視頻中水平方向和垂直方向的光流幀，然后以20個(gè)光流圖構(gòu)成一個(gè)光流組（flow_x和flow_y）作為時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。

時(shí)空融合雙流網(wǎng)絡(luò)指的是利用空間流提取到表觀信息與時(shí)間流提取的運(yùn)動(dòng)信息的關(guān)聯(lián)性判斷人體動(dòng)作。例如揮拳和散步，空間流卷積神經(jīng)網(wǎng)絡(luò)識(shí)別出靜態(tài)圖像中手和腳的位置，然后時(shí)間流可以識(shí)別出手和腳的周期性動(dòng)作，從而根據(jù)時(shí)空雙流提取到的深度特征識(shí)別出人體動(dòng)作。在時(shí)空雙流卷積網(wǎng)絡(luò)內(nèi)部，采用一種時(shí)間流到空間流的單向連接，將時(shí)間流提取到的運(yùn)動(dòng)特征輸入到空間流，將之與表觀信息進(jìn)行關(guān)聯(lián)性，從而提取到更深層次的動(dòng)作特征。

最后，將雙流網(wǎng)絡(luò)結(jié)構(gòu)提取到的時(shí)空特征進(jìn)行融合，作為后續(xù)AM-Softmax算法的輸入。雖然在雙流卷積網(wǎng)絡(luò)內(nèi)部各層進(jìn)行了單向連接，時(shí)間流提取到的運(yùn)動(dòng)特征在空間流各層也進(jìn)行了關(guān)聯(lián)性學(xué)習(xí)，但是由于運(yùn)動(dòng)特征是重要的人體動(dòng)作信息，仍會(huì)從時(shí)間流的全連接層輸出出來再與空間流的輸出特征進(jìn)行融合，從而視頻序列中的運(yùn)動(dòng)特征會(huì)作為網(wǎng)絡(luò)模型的主導(dǎo)特征進(jìn)行人體動(dòng)作識(shí)別。

1.2 AM-Softmax算法

之前提出的L-Softmax、A-Softmax引入了角間距概念，用于改進(jìn)傳統(tǒng)的softmax loss函數(shù)，能夠使得類別特征之間具有更大的類間距和更小的類內(nèi)距。

Softmax loss函數(shù)經(jīng)常會(huì)被用到卷積神經(jīng)網(wǎng)絡(luò)中，雖然簡(jiǎn)單實(shí)用，但是它在人體動(dòng)作識(shí)別中并不能引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)區(qū)分性較高的特征。傳統(tǒng)的Softmaxloss函數(shù)如下式所示：

式中，fj表示最終全連接層的類別輸出向量f的第j個(gè)元素，N為訓(xùn)練樣本的個(gè)數(shù)。

由于f是全連接層的激活函數(shù)W的輸出，所以fyi可以表示為，則最終的損失函數(shù)可以表示為：

因此，L-Softmax loss函數(shù)可寫為：

接下來，文獻(xiàn)[6]提出了一種A-Softmax loss函數(shù)，以二分類作為例。為了將1特征x正確分類，修改后的softmax loss函數(shù)要求，即。在此基礎(chǔ)上增加一個(gè)參數(shù)，此時(shí)要正確分類，需要使，即。這樣就增加了判決的約束，使得學(xué)習(xí)的特征更具區(qū)分性，因此可以得到A-Softmax loss函數(shù)如下式所示：

為了能夠保證上式可以在CNN中進(jìn)行前后向反饋，上式可改寫為：

文獻(xiàn)[7]在L-Softmaxloss、A-Softmaxloss函數(shù)基礎(chǔ)上提出了一種更加直觀、更易解釋的AdditiveMarginSoftmax（AM-Softmax）算法用于人臉識(shí)別，并取得了很不錯(cuò)的效果。

L-Softmax和A-Softmax都是引入了一個(gè)參數(shù)因子m將權(quán)重W和輸出向量f的余弦距離變?yōu)?，通過m來調(diào)節(jié)特征間的距離。AM-Softmax將式（5）、（8）改寫為：

因此，最后的AM-Softmax loss函數(shù)寫為：

在215名參加城鄉(xiāng)居民合作醫(yī)療保險(xiǎn)的高血壓患者中，CHE的發(fā)生率為13%，其中，農(nóng)村戶口患者CHE發(fā)生率為74%；發(fā)生CHE的logistic回歸模型，以患者的社會(huì)人口經(jīng)濟(jì)學(xué)特征、疾病嚴(yán)重程度、醫(yī)療費(fèi)用支出等作為解釋變量。結(jié)果如表4，其中，患者家庭CHE發(fā)生的概率隨著收入水平的增加而逐漸降低，門診自付費(fèi)用每增加一元，其CHE發(fā)生的概率將增加0.12%。另外，喪偶狀況下的患者發(fā)生CHE的概率大于對(duì)照組。

式中，s是一個(gè)縮放因子。

本文受其啟發(fā)，將AM-Softmax loss函數(shù)應(yīng)用到了人體動(dòng)作識(shí)別，對(duì)動(dòng)作深度特征進(jìn)行處理，使其能夠?qū)⒏黝悇?dòng)作特征的類間距更大，類內(nèi)距更小。如圖3所示。

圖3 原始Softmax和AM-Softmax比較

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境搭建

本文實(shí)驗(yàn)環(huán)境選擇在深度學(xué)習(xí)框架Tensorflow上進(jìn)行，采用小批量隨機(jī)梯度下降法進(jìn)行網(wǎng)絡(luò)訓(xùn)練。時(shí)空雙流融合卷積神經(jīng)網(wǎng)絡(luò)采用VGG-M-2048模型提取時(shí)空特征，以16幀為一組的連續(xù)RGB視頻幀為空間輸入，尺寸大小為224*224，時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)輸入大小為224*224*2L，在原光流圖上隨機(jī)位置裁剪連續(xù)光流幀。

本次實(shí)驗(yàn)數(shù)據(jù)集采用KTH數(shù)據(jù)集，該數(shù)據(jù)集包括了4種場(chǎng)景下25個(gè)不同行人的6種行為視頻：正常行走（Walk）、慢跑（Jog）、跑（Run）、揮拳（Box）、雙手揮手（Wave）、鼓掌（Clap）。如圖（4）所示。實(shí)驗(yàn)過程中，為了增加識(shí)別準(zhǔn)確率可信度，本文將KTH數(shù)據(jù)集隨機(jī)劃分成3組，取其3組測(cè)試平均準(zhǔn)確率作為評(píng)估模型效果的指標(biāo)。

2.2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)過程中，為了得到更加可靠的識(shí)別準(zhǔn)確率，本文將KTH數(shù)據(jù)集隨機(jī)劃分成3組，并取其3組測(cè)試平均準(zhǔn)確率作為評(píng)估模型效果的指標(biāo)。

通過時(shí)空雙流融合VGG-M-2048模型提取連續(xù)RGB視頻幀與連續(xù)光流圖的時(shí)空特征，在雙流VGG-M-2048模型內(nèi)部卷積層之間采用時(shí)間流到空間流的單向連接方式，進(jìn)行運(yùn)動(dòng)特征與表觀特征的關(guān)聯(lián)性學(xué)習(xí)。實(shí)驗(yàn)過程中，在雙流結(jié)構(gòu)全連接層的不同位置進(jìn)行時(shí)空特征融合，其識(shí)別準(zhǔn)確率如表1所示。

圖4 KTH樣本數(shù)據(jù)集

表1 不同全連接層輸出特征識(shí)別準(zhǔn)確率的比較（%）

從表1中可以發(fā)現(xiàn)，隨著時(shí)空特征融合位置層次的加深，其動(dòng)作識(shí)別準(zhǔn)確率也在不斷提高，但在空間流的fc6層與時(shí)間流的fc7層進(jìn)行融合時(shí)，識(shí)別效果最好。文獻(xiàn)[4]和文獻(xiàn)[8]提出的雙流CNN模型在UCF-101數(shù)據(jù)集上均證明了這一結(jié)論。

為了驗(yàn)證本文算法提出的AM-Softmax Loss函數(shù)對(duì)動(dòng)作識(shí)別效果提升的作用，在KTH數(shù)據(jù)集上對(duì)比了不同的Softmax Loss設(shè)計(jì)方案對(duì)網(wǎng)絡(luò)的影響，如表2所示。實(shí)驗(yàn)結(jié)果表明，傳統(tǒng)的Softmax Loss函數(shù)在動(dòng)作識(shí)別上并未取得很好的識(shí)別效果，然而本文采用的在L-Softmax、A-Softmax基礎(chǔ)上進(jìn)行改進(jìn)的AM-Softmax取得了很好的識(shí)別效果，識(shí)別準(zhǔn)確率可達(dá)97.5%。

表2 不同Softmax Loss方案對(duì)網(wǎng)絡(luò)的影響

最后，將本文方法與其他主流的動(dòng)作識(shí)別算法在KTH數(shù)據(jù)集上進(jìn)行比較，如表3所示。

表3 不同算法在KTH上的比較結(jié)果（%）

從表3中可以發(fā)現(xiàn)，本文提出的基于時(shí)空雙流融合網(wǎng)絡(luò)與AM-Softmax的動(dòng)作識(shí)別效果明顯優(yōu)于其他算法，說明在卷積層進(jìn)行時(shí)空特征融合，使表觀特征與運(yùn)動(dòng)特征進(jìn)行關(guān)聯(lián)性學(xué)習(xí)，能夠提高動(dòng)作識(shí)別準(zhǔn)確率。

3 結(jié)束語

本文從人體動(dòng)作類內(nèi)類間距離差異的角度出發(fā)，提出了一種基于時(shí)空雙流融合網(wǎng)絡(luò)與AM-Softmax的動(dòng)作識(shí)別方法。通過時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)分別提取視頻序列中的表觀特征和運(yùn)動(dòng)特征，且在卷積層內(nèi)部采用時(shí)空單向連接將時(shí)空特征進(jìn)行關(guān)聯(lián)性學(xué)習(xí)；然后將雙流結(jié)構(gòu)的S-fc6層與T-fc7層特征進(jìn)行融合；最后采用AM-Softmax Loss函數(shù)對(duì)時(shí)空融合特征進(jìn)行優(yōu)化，利用線性SVM實(shí)現(xiàn)人體動(dòng)作識(shí)別。在KTH數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明：在卷積層采用單向時(shí)空連接進(jìn)行時(shí)空特征關(guān)聯(lián)性學(xué)習(xí)有利于人體動(dòng)作表征能力的提升；將空間流的fc6層與時(shí)間流的fc7層進(jìn)行特征融合，會(huì)有更高的識(shí)別準(zhǔn)確率；采用AM-Softmax Loss函數(shù)優(yōu)化時(shí)空融合特征，能夠最大化類間距離、最小化類內(nèi)距離，有利于人體動(dòng)作分類。