周 波,李俊峰
(浙江理工大學(xué) 機(jī)械與自動(dòng)控制學(xué)院,杭州 310018)
行為識(shí)別任務(wù)旨在從輸入的包含行為的視頻段中辨別出對(duì)應(yīng)的行為類別.其應(yīng)用領(lǐng)域十分廣泛,涵蓋了人機(jī)交互、智能監(jiān)控、體育競(jìng)技、虛擬現(xiàn)實(shí)等領(lǐng)域.近年來與之相關(guān)的研究也受到更多的關(guān)注.受光照條件、相機(jī)角度、人體樣貌、背景變化等因素影響,行為識(shí)別已成為一項(xiàng)非常具有挑戰(zhàn)性的任務(wù).
早期經(jīng)典的行為識(shí)別方法主要是基于手工設(shè)計(jì)的特征.如Laptev 等[1]提出的基于時(shí)空興趣點(diǎn)(Space-Time Interest Points,STIP)的方法能在具有較復(fù)雜背景的圖像的行為識(shí)別中取得較好效果.Knopp 等[2]提出的對(duì)2D-SURF (Speeded Up Robust Features)特征進(jìn)行擴(kuò)展,形成3D-SURF 特征,以期得到更多的Harr-wavelet特征.Kl?ser 等[3]將局部梯度方向直方圖(Histogram of Oriented Gradient,HOG)特征擴(kuò)展到三維形成HOG-3D,以在多尺度下對(duì)時(shí)空塊進(jìn)行快速密度采樣.Scovanner等[4]將SIFT 特征(Scale-Invariant Feature Transform)擴(kuò)展到3D-SIFT.更多特征描述符還有光流梯度方向直方圖(Histogram of Optical Flow,HOF)[5],方向梯度直方圖(Histogram of Oriented Gradient,HOG)及運(yùn)動(dòng)邊界直方圖(Motion of Boundary History,MBH)[6]等.在眾多基于手工設(shè)計(jì)特征的行為識(shí)別方法中,IDT (Improved Dense Trajectory)[7]是目前實(shí)驗(yàn)效果最好的方法.它通過沿著密集軌跡匯集豐富的描述符并補(bǔ)償相機(jī)運(yùn)動(dòng)來明確地考慮運(yùn)動(dòng)特征,然后通過編碼諸如BoW,Fisher 矢量的方法,將描述符聚合到視頻級(jí)表示中.iDT 在行為識(shí)別領(lǐng)域的突出表現(xiàn)使得其與現(xiàn)今基于深度學(xué)習(xí)的方法仍有結(jié)合,譬如Wang 等[8]提出的TDD(Trajectory-pooled Deep-convolutional Descriptor),首先,用深度學(xué)習(xí)的方法來做特征映射;其次,做特征正則化;最后,進(jìn)行軌跡池化操作得到TDDs.
現(xiàn)今基于深度學(xué)習(xí)的行為識(shí)別方法按輸入圖像數(shù)據(jù)的類型可分為:RGB、光流、骨架、幀間差、RGBD、人體關(guān)鍵點(diǎn)、語音等類型,以及上述多模態(tài)融合的方法.Karpathy 等[9]提出基于單幀RGB 圖像的深度學(xué)習(xí)人體行為識(shí)別模型.Simonyan 等[10]提出結(jié)合RGB圖像與光流圖像的雙流卷積神經(jīng)網(wǎng)絡(luò)的方法.模態(tài)融合方法以RGB 加光流組合較多.近來在RGB與光流組成的雙流網(wǎng)絡(luò)上取得較大突破的有Wang 等[11]提出的TSN (Temporal Segment Networks)與Carreira 等[12]提出的I3D (Inflated 3D)網(wǎng)絡(luò)等.TSN 在雙流卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了對(duì)輸入圖像進(jìn)行分段采樣的方法,以期建立能夠表征視頻級(jí)的行為識(shí)別模型;I3D 網(wǎng)絡(luò)由Google 提出的Inception 網(wǎng)絡(luò)改進(jìn)而來,Inception 網(wǎng)絡(luò)的卷積層和池化層從2D 增加一維時(shí)間維度變?yōu)?D的卷積層與池化層,以期I3D 網(wǎng)絡(luò)在保證較深的網(wǎng)絡(luò)深度與復(fù)雜性的同時(shí)能夠提取視頻的時(shí)域信息.Sevilla-Luara 等[13]的研究也證實(shí)了將光流模態(tài)與RBG模態(tài)融合可以提升算法在行為識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)精度.而為了更好地獲取視頻中的運(yùn)動(dòng)信息,Du 等[14]將2D-CNN 擴(kuò)展到3D-CNN.為了提升行為識(shí)別算法在各數(shù)據(jù)集上的實(shí)驗(yàn)精度,He 等[15]提出利用RGB,光流,語音信息的多模態(tài)行為識(shí)別算法.
基于姿態(tài)的行為識(shí)別與基于RGB 圖像的行為識(shí)別相比,前者的優(yōu)點(diǎn)是抗干擾能力強(qiáng),不易受背景和人的外貌等因素的影響.因此為了更好的利用姿態(tài)在行為識(shí)別領(lǐng)域的優(yōu)勢(shì),受姿態(tài)檢測(cè)算法的啟發(fā),本文提出的算法將姿態(tài)檢測(cè)算法應(yīng)用在行為識(shí)別中,利用其為行為識(shí)別數(shù)據(jù)集生成關(guān)鍵點(diǎn)特征,并進(jìn)行連接,生成僅包含人體姿態(tài)的圖像,并與RGB和光流組成3 種模態(tài)融合的模型.最后在兩個(gè)主流公開的行為識(shí)別數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文算法的有效性.
人體姿態(tài)數(shù)據(jù)的獲取方式主要分為兩種:其一是通過深度攝像機(jī)直接獲得,例如Kinect,其二為通過對(duì)RGB 圖像中人的關(guān)節(jié)點(diǎn)進(jìn)行估計(jì)再連接獲得.
其中,第2 種方法(姿態(tài)估計(jì)算法)又可以分為兩類,一類是自上而下的算法,另一類是自下而上的算法.姿態(tài)估計(jì)算法通過對(duì)RGB 圖像中人的關(guān)節(jié)點(diǎn)進(jìn)行估計(jì)的原理如圖1所示.
圖1 姿態(tài)估計(jì)算法原理
本文選取第2 種方法中的Openpose[16]算法對(duì)行為識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集中視頻段抽取的每一幀做姿態(tài)估計(jì),獲得每一幀中關(guān)于人體關(guān)鍵點(diǎn)的熱圖,根據(jù)熱圖中的關(guān)鍵點(diǎn)生成每一幀的姿態(tài)圖.Openpose 在COCO validation set 2014,COCO test-dev 2015 以及COCO 2016 keypoint challenge的mAP 分別為58.4%,61.8%,60.5%.
Openpose 屬于自下而上的人體姿態(tài)估計(jì)算法,與自上向下的算法不同的是,其先檢測(cè)人體關(guān)鍵點(diǎn)的位置,再通過關(guān)鍵點(diǎn)生成骨架.自上而下的姿態(tài)檢測(cè)算法則是先檢測(cè)人的區(qū)域,再回歸關(guān)鍵點(diǎn),該算法的計(jì)算效果會(huì)直接受影響于前一步驟中人體區(qū)域的檢測(cè)效果,且計(jì)算損耗的時(shí)長(zhǎng)隨著圖像中人的個(gè)數(shù)的增加而增加.自下而上的算法不受上述兩種情況的限制.
Openpose 網(wǎng)絡(luò)可以大致分為3 個(gè)部分.第1 部分為VGG-19 特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示.輸入W×H大小的圖像經(jīng)過預(yù)訓(xùn)練的VGG-19 前10 層網(wǎng)絡(luò)得到特征圖F.W為圖像的寬,H為圖像的高.
圖2 VGG 特征提取器
輸入圖像經(jīng)過了三層池化層,特征圖F的大小變?yōu)樵瓉淼?/64.卷積層輸出的特征圖大小Wf×Hf與原始圖像大小W×H及卷積層參數(shù)之間的計(jì)算公式如下:
其中,Wf為卷積層輸出的特征圖的寬,Hf為卷積層輸出的特征圖的高,K卷積核的大小,P為padding的值,S為stride的值,池化計(jì)算公式與卷積公式基本一致,池化向上取整,卷積向下取整.
第2 部分與第3 部分的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示.特征圖F經(jīng)過圖3左半部分所示的重復(fù)的4 個(gè)階段,此階段為人體關(guān)鍵點(diǎn)熱圖的特征提取部分,輸出為身體各軀干部分親和力的特征圖集(二維矢量場(chǎng))G.
圖3 多階段CNN 架構(gòu)
特征圖集G與第1 部分VGG-19 網(wǎng)絡(luò)輸出的特征圖F在通道維度疊加后作為第3 部分的最后2 個(gè)階段的輸入,該階段用來生成人體各部分關(guān)節(jié)點(diǎn)信息的二維置信圖集L.
從二維置信圖集L解析得到人體關(guān)鍵點(diǎn),由二維矢量場(chǎng)G可以推測(cè)出每一個(gè)關(guān)鍵點(diǎn)與其他關(guān)鍵點(diǎn)之間連接關(guān)系.最后的解析步驟執(zhí)行一組二分匹配以關(guān)聯(lián)身體部位候選關(guān)鍵點(diǎn),生成所需的姿態(tài)圖像.受數(shù)據(jù)集的圖像質(zhì)量的影響,所用姿態(tài)估計(jì)算法無法在所有待訓(xùn)練與測(cè)試的圖像中得到令人滿意的對(duì)應(yīng)數(shù)據(jù),所以本文實(shí)驗(yàn)中對(duì)圖像中檢測(cè)到的檢測(cè)到的人的數(shù)量以及每個(gè)人體關(guān)鍵點(diǎn)的數(shù)量進(jìn)行評(píng)估,篩選,留下適合的數(shù)據(jù)作為訓(xùn)練與測(cè)試的數(shù)據(jù).而未能參與姿態(tài)模型測(cè)試的圖像,其在多流網(wǎng)絡(luò)融合中,姿態(tài)網(wǎng)絡(luò)的得分置0.在本文實(shí)驗(yàn)中,融合算法采用平均權(quán)重法,即每個(gè)網(wǎng)絡(luò)的最后得分占最終結(jié)果的1/3.圖4顯示了Openpose 算法在人體行為識(shí)別數(shù)據(jù)集UCF101與HMDB51中的部分圖像的姿態(tài)估計(jì)效果.
圖4 Openpose 處理數(shù)據(jù)集圖像效果圖
本文提出的多流神經(jīng)網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖5所示.多流神經(jīng)網(wǎng)絡(luò)包含3 個(gè)部分,分別為RGB 網(wǎng)絡(luò),光流網(wǎng)絡(luò)與姿態(tài)網(wǎng)絡(luò).
圖5 多流CNN 體系結(jié)構(gòu)
3 個(gè)網(wǎng)絡(luò)均由Softmax 層輸出預(yù)測(cè)類別的概率,最后由SVM 算法進(jìn)行最后的得分融合,得出最終多流神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)的行為類別.
Softmax 層:假設(shè)卷積神經(jīng)網(wǎng)絡(luò)全連接層的輸出為γ1,γ2,…,γn,這些輸出值經(jīng)由Softmax 層計(jì)算之后會(huì)得出一個(gè)概率值,概率值的大小為:
視頻的單幀RGB 圖像包含視頻中所展現(xiàn)的場(chǎng)景信息以及對(duì)象信息,因此從視頻中提取的RGB 圖像對(duì)行為識(shí)別任務(wù)具有非常重要的作用.采用RGB 圖像另一個(gè)優(yōu)點(diǎn)在于相對(duì)于光流和RGB diff 等其他類型數(shù)據(jù)表示,靜態(tài)的RGB 圖像不需要額外處理,效率較高.在本文算法中,利用RGB 網(wǎng)絡(luò)來提取視頻中圖像信息的表觀特征.RGB 卷積神經(jīng)網(wǎng)絡(luò)由五層卷積層,兩層全連接層組成,卷積層用來提取特征,全連接層用來分類,最后一層為Softmax 層,用來對(duì)要輸出的概率進(jìn)行歸一化.本文構(gòu)建的RGB 流卷積網(wǎng)絡(luò)采用的是牛津大學(xué)視覺幾何組(Visual Geometry Group,VGG) 開發(fā)的VGG-M2048 模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.
圖6 RGB 網(wǎng)絡(luò)
光流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,與RGB 網(wǎng)絡(luò)類似,采用的是VGG-M-2048 模型.與RGB 網(wǎng)的輸入不同的是,光流卷積神經(jīng)網(wǎng)絡(luò)輸入是按時(shí)間發(fā)生的前后順序連續(xù)堆疊的光流圖像.光流是分析相鄰兩幀圖像之間像素變化的重要圖像亮度模式,光流圖能夠被解釋為圖像中的運(yùn)動(dòng)物體的表觀運(yùn)動(dòng),它提供的是圖像中像素點(diǎn)的“瞬時(shí)速度”,因此能夠更加直觀清晰的表征人體運(yùn)動(dòng)信息.光流網(wǎng)絡(luò)能有效地提取視頻中的運(yùn)動(dòng)信息,網(wǎng)絡(luò)預(yù)測(cè)類別的得分與RGB 網(wǎng)絡(luò)預(yù)測(cè)類別分?jǐn)?shù)融合,能顯著提高人體行為實(shí)驗(yàn)的識(shí)別精度.
圖7 光流網(wǎng)絡(luò)
本文實(shí)驗(yàn)中的光流幀是采用OpenCV中的稠密光流提取法生成的.光流計(jì)算時(shí)分別生成了相鄰幀的水平方向和垂直方向的光流圖像,將10 幀水平方向上的光流圖與10 幀垂直方向上的光流圖按時(shí)間順序堆疊構(gòu)成一個(gè)光流組,作為光流卷積神經(jīng)網(wǎng)絡(luò)的輸入.
姿態(tài)網(wǎng)絡(luò)可以看作是光流網(wǎng)絡(luò)的一種擴(kuò)展.姿態(tài)網(wǎng)絡(luò)的結(jié)構(gòu)與光流網(wǎng)絡(luò)的結(jié)構(gòu)相同,不同的是,網(wǎng)絡(luò)的輸入從連續(xù)堆疊的光流圖像變?yōu)檫B續(xù)堆疊的姿態(tài)圖像.為彌補(bǔ)因相鄰幀姿態(tài)的相似度高而使姿態(tài)網(wǎng)絡(luò)不能建模長(zhǎng)時(shí)的姿態(tài)信息的不足,本文對(duì)姿態(tài)圖像進(jìn)行了分段采樣,再按時(shí)間順序進(jìn)行堆疊作為姿態(tài)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練.考慮到不同數(shù)量的堆疊姿態(tài)圖像會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響,本文實(shí)驗(yàn)部分加入了相關(guān)參數(shù)的對(duì)比實(shí)驗(yàn).姿態(tài)網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示.
圖8 姿態(tài)網(wǎng)絡(luò)
本文提出的多流卷積神經(jīng)網(wǎng)絡(luò)在行為識(shí)別任務(wù)上不僅考慮了圖像的表觀信息(RGB 網(wǎng)絡(luò))與運(yùn)動(dòng)信息(光流網(wǎng)絡(luò)),而且融合了行為識(shí)別任務(wù)中占主導(dǎo)地位的人體的姿態(tài)信息(姿態(tài)網(wǎng)絡(luò)),最后進(jìn)行信息融合來互補(bǔ),有效地提升行為識(shí)別任務(wù)的準(zhǔn)確率.
為了便于和目前的主流方法比較,本文算法在兩個(gè)比較受歡迎的行為識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別為UCF101 數(shù)據(jù)集與HMDB51 數(shù)據(jù)集.
UCF101 數(shù)據(jù)集:包含101 個(gè)類別的真實(shí)場(chǎng)景下的行為識(shí)別數(shù)據(jù)集.該數(shù)據(jù)集從Youtube 網(wǎng)站上取得,并經(jīng)過剪輯,是同為行為識(shí)別數(shù)據(jù)集UCF50的擴(kuò)展.UCF101 數(shù)據(jù)集中的行為類別共101 類,其中每類動(dòng)作都具有很強(qiáng)的多樣性,這種多樣性具體體現(xiàn)在視頻中相機(jī)的運(yùn)動(dòng),運(yùn)動(dòng)物體的外貌,形態(tài)變化,背景雜亂等.
HMDB51 數(shù)據(jù)集:HMDB51中的視頻剪輯主要來源于電影,剩余部分取自公共數(shù)據(jù)庫(kù)和主流的視頻網(wǎng)站等.該數(shù)據(jù)集包含6849 個(gè)剪輯,分為51 個(gè)動(dòng)作類別,每個(gè)動(dòng)畫類別至少包含101 個(gè)剪輯.
實(shí)驗(yàn)條件:本文算法進(jìn)行實(shí)驗(yàn)過程中的計(jì)算機(jī)的配置為Intel Core i5-8500@3.0 GHz,NVIDA GeForce 1080TI GPU,操作系統(tǒng)為Ubuntu16.04,實(shí)驗(yàn)框架為Tensorflow.訓(xùn)練的超參數(shù)上,學(xué)習(xí)率設(shè)置為0.001,動(dòng)量0.9,權(quán)重衰減系數(shù)為0.0008,批量大小設(shè)為16,使用預(yù)訓(xùn)練的雙流卷積神經(jīng)網(wǎng)絡(luò),總的epoch 大小為80.
本文使用輸入為224×224 大小圖像的神經(jīng)網(wǎng)絡(luò)的模型大小為353 M.表1顯示了本文所用模型的以常見的輸入圖像大小112×112為例,神經(jīng)網(wǎng)絡(luò)各層的參數(shù).
表1 VGG-2048M 參數(shù)
圖9分別顯示了實(shí)驗(yàn)過程中姿態(tài)網(wǎng)絡(luò)在UCF101數(shù)據(jù)集split2與HMDB51 數(shù)據(jù)集訓(xùn)練時(shí)的收斂過程.可見二者分別在20 k與35 k 步數(shù)趨穩(wěn).
圖9 姿態(tài)網(wǎng)絡(luò)在HMDB51與UCF101的訓(xùn)練收斂特性圖
圖10顯示了在兩個(gè)不同的數(shù)據(jù)集中,本文提出的多流網(wǎng)絡(luò)較雙流網(wǎng)絡(luò)在測(cè)試時(shí)實(shí)驗(yàn)精度上提升最大的行為類別及其提升的效果.而在本文實(shí)驗(yàn)中,這些類別在姿態(tài)估計(jì)算法對(duì)其進(jìn)行姿態(tài)估計(jì)時(shí),能產(chǎn)生較其它類別更多的訓(xùn)練與測(cè)試數(shù)據(jù).而具體在UCF101與HMDB51中具有姿態(tài)訓(xùn)練數(shù)據(jù)較多且經(jīng)多流網(wǎng)絡(luò)融合后實(shí)驗(yàn)精度提升最大的3 個(gè)類別分別為Baby Crawling,Sky Diving,Archery與Kick Ball,Swing Baseball,Push Up.這些類別數(shù)據(jù)的一個(gè)顯著的特點(diǎn)是在姿態(tài)上與其它數(shù)據(jù)集具有較強(qiáng)的區(qū)分性.
圖10 不同數(shù)據(jù)集部分類別提升效果直方圖
反之,如果一個(gè)類別與另一個(gè)或多個(gè)類別的姿態(tài)相似性較強(qiáng),則引入姿態(tài)網(wǎng)絡(luò)會(huì)起到反作用.實(shí)驗(yàn)過程中多流較雙流網(wǎng)絡(luò)在數(shù)據(jù)集UCF101與HMDB51 實(shí)驗(yàn)精度上下降精度最多的3 個(gè)類別分別為Hands Stand Push Ups,Diving,Front Crawl與Run,Sit,Climb.圖11直觀地顯示了兩種方法在上述類別的精度對(duì)比直方圖.
圖11 不同數(shù)據(jù)集部分類別效果降低直方圖
表2顯示了本文提出算法較原雙流卷積算法的消融實(shí)驗(yàn)數(shù)據(jù)對(duì)比.在未融合的雙流卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果上,為使本文算法的雙流網(wǎng)絡(luò)與原雙流卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果基本一致,實(shí)驗(yàn)中采用預(yù)訓(xùn)練的網(wǎng)絡(luò),并且進(jìn)行了十倍數(shù)據(jù)增廣,添加了BN 層等優(yōu)化操作,并與雙流中的實(shí)驗(yàn)結(jié)果逐一對(duì)比,最后融合姿態(tài)的實(shí)驗(yàn)數(shù)據(jù).考慮堆疊的姿態(tài)圖像的幀數(shù)L對(duì)實(shí)驗(yàn)精度影響,本文選取了從3 到10的不同的堆疊幀數(shù),并進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示.
表2 消融實(shí)驗(yàn)結(jié)果準(zhǔn)確度對(duì)比(%)
由表3中的實(shí)驗(yàn)結(jié)果可知,融合了姿態(tài)圖像的多流卷積神經(jīng)網(wǎng)絡(luò)在UCF101 數(shù)據(jù)集與HMDB51 數(shù)據(jù)集上較原方法實(shí)驗(yàn)精度分別高出2.3%,與3.1%.驗(yàn)證了本文提出算法的有效性.
表3 不同算法在UCF101與HMDB51 數(shù)據(jù)集上識(shí)別準(zhǔn)確率對(duì)比(%)
不同的圖像數(shù)據(jù)類型包含了不同的圖像特征,將不同類型的圖像作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)并做融合,能夠提升在單一模態(tài)下行為識(shí)別的準(zhǔn)確度.具體結(jié)論如下:
本文提出了一種結(jié)合RGB、光流、姿態(tài)的多流卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法,該方法很好的利用了姿態(tài)與行為的強(qiáng)相關(guān)性以及在行為表達(dá)上的優(yōu)勢(shì),并且相比于RGB 圖像,姿態(tài)數(shù)據(jù)更不易受光照,人的外貌變化等因素的影響.相較于光流圖像,姿態(tài)數(shù)據(jù)能更好地提供圖像種人的形態(tài)特征.實(shí)驗(yàn)結(jié)果表明,本文算法在UCF101與HMDB51 數(shù)據(jù)集上的實(shí)驗(yàn)較主流算法有較大提升,也證實(shí)了本文提出的算法的有效性.接下來的工作是在多模態(tài)的基礎(chǔ)上實(shí)現(xiàn)能夠?qū)崟r(shí)運(yùn)算的方法.此外,因光流和姿態(tài)圖像需要額外的存儲(chǔ)空間,如何將光流和姿態(tài)圖像數(shù)據(jù)并入端到端的訓(xùn)練將是實(shí)現(xiàn)實(shí)時(shí)多模態(tài)網(wǎng)絡(luò)的一個(gè)關(guān)鍵的待解決的問題.
計(jì)算機(jī)系統(tǒng)應(yīng)用2021年8期