姬曉飛 秦琳琳 王揚(yáng)揚(yáng)
摘 要:基于RGB視頻序列的雙人交互行為識(shí)別已經(jīng)取得了重大進(jìn)展,但因缺乏深度信息,對(duì)于復(fù)雜的交互動(dòng)作識(shí)別不夠準(zhǔn)確。深度傳感器(如微軟Kinect)能夠有效提高全身各關(guān)節(jié)點(diǎn)的跟蹤精度,得到準(zhǔn)確的人體運(yùn)動(dòng)及變化的三維關(guān)節(jié)點(diǎn)數(shù)據(jù)。依據(jù)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)的各自特性,提出一種基于RGB和關(guān)節(jié)點(diǎn)數(shù)據(jù)雙流信息融合的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)模型。首先,利用Vibe算法獲得RGB視頻在時(shí)間域的感興趣區(qū)域,之后提取關(guān)鍵幀映射到RGB空間,以得到表示視頻信息的時(shí)空?qǐng)D,并把圖送入CNN提取特征; 然后, 在每幀關(guān)節(jié)點(diǎn)序列中構(gòu)建矢量,以提取余弦距離(CD)和歸一化幅值(NM)特征,將單幀中的余弦距離和關(guān)節(jié)點(diǎn)特征按照關(guān)節(jié)點(diǎn)序列的時(shí)間順序連接,饋送入CNN學(xué)習(xí)更高級(jí)的時(shí)序特征; 最后,將兩種信息源的softmax識(shí)別概率矩陣進(jìn)行融合,得到最終的識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,將RGB視頻信息和關(guān)節(jié)點(diǎn)信息結(jié)合可以有效地提高雙人交互行為識(shí)別結(jié)果,在國(guó)際公開(kāi)的SBU Kinect interaction 數(shù)據(jù)庫(kù)和NTU RGB+D數(shù)據(jù)庫(kù)中分別達(dá)到92.55%和80.09%的識(shí)別率,證明了提出的模型對(duì)雙人交互行為識(shí)別的有效性。
關(guān)鍵詞:RGB視頻;關(guān)節(jié)點(diǎn)數(shù)據(jù);卷積神經(jīng)網(wǎng)路;softmax;融合;雙人交互行為識(shí)別
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
Human interaction recognition based on RGB and skeleton data fusion model
JI Xiaofei*, QIN Linlin, WANG Yangyang
College of Automation, Shenyang Aerospace University, Shenyang Liaoning 110136, China
Abstract:
In recent years, significant progress has been made in human interaction recognition based on RGB video sequences. Due to its lack of depth information, it cannot obtain accurate recognition results for complex interactions. The depth sensors (such as Microsoft Kinect) can effectively improve the tracking accuracy of the joint points of the whole body and obtain threedimensional data that can accurately track the movement and changes of the human body. According to the respective characteristics of RGB and joint point data, a convolutional neural network structure model based on RGB and joint point data dualstream information fusion was proposed. Firstly, the region of interest of the RGB video in the time domain was obtained by using the Vibe algorithm, and the key frames were extracted and mapped to the RGB space to obtain the spatialtemporal map representing the video information. The map was sent to the convolutional neural network to extract features. Then, a vector was constructed in each frame of the joint point sequence to extract the Cosine Distance (CD) and Normalized Magnitude (NM) features. The cosine distance and the characteristics of the joint nodes in each frame were connected in time order of the joint point sequence, and were fed into the convolutional neural network to learn more advanced temporal features. Finally, the softmax recognition probability matrixes of the two information sources were fused to obtain the final recognition result. The experimental results show that combining RGB video information with joint point information can effectively improve the recognition result of human interaction behavior, and achieves 92.55% and 80.09% recognition rate on the international public SBU Kinect interaction database and NTU RGB+D database respectively, verifying the effectiveness of the proposed model for the identification of interaction behaviour between two people.
Key words:
RGB video; skeleton data; Convolutional Neural Network (CNN); softmax; fusion; human interaction recognition
0?引言
基于視頻的交互行為識(shí)別具有較高的實(shí)用價(jià)值和廣闊的應(yīng)用前景[1]。根據(jù)原始數(shù)據(jù)的不同,對(duì)于雙人交互行為識(shí)別的分析方法可以分為基于RGB視頻和基于關(guān)節(jié)點(diǎn)數(shù)據(jù)兩類(lèi)。基于RGB視頻的研究開(kāi)展比較早,Gavrila等[2]提出用時(shí)空體來(lái)描述人的行為,即利用人體行為的輪廓隨時(shí)間變化的過(guò)程來(lái)識(shí)別行為的類(lèi)別。趙海勇等[3]將時(shí)變輪廓形狀轉(zhuǎn)換為對(duì)應(yīng)的一維距離向量并提取行為序列的關(guān)鍵姿態(tài),將關(guān)鍵姿態(tài)編碼為行為字符串進(jìn)行交互行為識(shí)別; 韓磊等[4]提出一種基于時(shí)空單詞的雙人交互行為識(shí)別方法,該方法從包含雙人交互的視頻中提取時(shí)空興趣點(diǎn),并通過(guò)投票生成單人原子行為的時(shí)空單詞,采用條件隨機(jī)場(chǎng)模型建模單人原子行為模型。在此基礎(chǔ)上并訓(xùn)練馬爾可夫邏輯網(wǎng)用于雙人交互行為的推理。 Li等[5]提出一種多特征結(jié)合的描述方法,提取時(shí)空興趣點(diǎn),并采用一系列描述子對(duì)其進(jìn)行表示,采用時(shí)空匹配法和遺傳算法訓(xùn)練隨機(jī)森林實(shí)現(xiàn)動(dòng)作識(shí)別。這類(lèi)基于RGB的算法對(duì)于簡(jiǎn)單的雙人交互行為得到了較好的識(shí)別效果,但由于缺乏深度信息,對(duì)于復(fù)雜多變的交互動(dòng)作識(shí)別不夠準(zhǔn)確。
近幾年,隨著深度傳感器(如微軟Kinect)的快速發(fā)展,大幅提高了全身各關(guān)節(jié)點(diǎn)數(shù)據(jù)的跟蹤精度, Kinect相機(jī)共包括彩色攝像頭、深度攝像頭和紅外攝像機(jī)三個(gè)攝像頭,其中彩色攝像頭拍攝視角范圍內(nèi)的彩色視頻圖像,同時(shí)深度攝像頭通過(guò)分析紅外光譜,創(chuàng)建可視范圍內(nèi)的物體的深度圖像,利用深度圖轉(zhuǎn)化得到3D關(guān)節(jié)點(diǎn)數(shù)據(jù)。基于關(guān)節(jié)點(diǎn)的雙人交互識(shí)別獲得了越來(lái)越多研究者的關(guān)注。Yun等[6]利用當(dāng)前幀中所有關(guān)節(jié)對(duì)的距離、當(dāng)前幀中關(guān)節(jié)與前一幀中關(guān)節(jié)之間的距離以及當(dāng)前幀中各關(guān)節(jié)點(diǎn)與中心點(diǎn)之間的距離來(lái)描述身體姿態(tài),通過(guò)多實(shí)例學(xué)習(xí)方法得到每個(gè)動(dòng)作的姿勢(shì)描述符。這種特征描述簡(jiǎn)單易獲取,但缺少了上下文時(shí)序關(guān)系的描述。Slama等[7]將一個(gè)動(dòng)作描述為時(shí)間序列中關(guān)節(jié)點(diǎn)三維坐標(biāo)的集合,每個(gè)動(dòng)作序列被表示為產(chǎn)生三維關(guān)節(jié)軌跡的線性動(dòng)力系統(tǒng),采用自回歸滑動(dòng)平均模型來(lái)表示序列, 最后采用線性支持向量機(jī)(Support Vector Machine, SVM)進(jìn)行分類(lèi)。這種描述符同時(shí)包括時(shí)間和空間信息,但是對(duì)于相似動(dòng)作的識(shí)別效果較差。
目前基于RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)的雙人交互行為識(shí)別研究中,多數(shù)是依賴(lài)于低級(jí)或中級(jí)的手動(dòng)獲取特征,在處理復(fù)雜數(shù)據(jù)時(shí)能力有限,適應(yīng)性不強(qiáng)且動(dòng)作識(shí)別準(zhǔn)確率提升空間不大。近幾年,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在靜態(tài)圖像分類(lèi)中獲得成功,其已經(jīng)擴(kuò)展到用于解決動(dòng)作識(shí)別的研究中[8]。Simonyan等[9]提出基于RGB視頻時(shí)間空間結(jié)合的雙流卷積神經(jīng)網(wǎng)絡(luò)模型,其中空間流是利用帶有視頻場(chǎng)景和對(duì)象的靜態(tài)視頻幀進(jìn)行卷積,時(shí)間流是利用光流堆積法與軌跡追蹤法獲得光流圖進(jìn)行卷積,最后將兩流做softmax的分?jǐn)?shù)融合。分類(lèi)結(jié)果表明,識(shí)別率較傳統(tǒng)傳統(tǒng)特征明顯提升,但基于多幀獲得的光流圖計(jì)算量較大。Li等[10]提出一種新穎的雙流卷積網(wǎng)絡(luò)結(jié)構(gòu),首先將原始的骨架信息直接送入CNN提取特征,另外將連續(xù)兩幀的骨架關(guān)節(jié)運(yùn)動(dòng)也送入網(wǎng)絡(luò)提取特征,將兩種特征連接并經(jīng)過(guò)softmax融合獲得識(shí)別結(jié)果。該方法僅使用關(guān)節(jié)數(shù)據(jù)進(jìn)行識(shí)別,計(jì)算量低,但是沒(méi)有很好地利用特征的時(shí)序關(guān)系。為了更好地建模關(guān)節(jié)點(diǎn)特征的時(shí)序關(guān)系,Liu 等[11]提出全局感知注意力長(zhǎng)短期記憶(Long ShortTerm Memory, LSTM)網(wǎng)絡(luò)的動(dòng)作識(shí)別方法。該網(wǎng)絡(luò)包括兩個(gè)LSTM網(wǎng)絡(luò),第一個(gè)LSTM層用于編碼原始骨架序列并初始化全局存儲(chǔ)單元,然后將全局存儲(chǔ)單元的表示送入第二LSTM層,以選擇性地關(guān)注每個(gè)幀的信息性關(guān)節(jié),經(jīng)過(guò)多次迭代優(yōu)化全局存儲(chǔ)信息,最后將精簡(jiǎn)的全局信息送入softmax分類(lèi)器識(shí)別動(dòng)作類(lèi)。Ke等[12]將骨架序列3D坐標(biāo)的每個(gè)通道轉(zhuǎn)化為一個(gè)時(shí)空信息的片段,每個(gè)骨架序列轉(zhuǎn)換為三個(gè)片段,表示整個(gè)骨架序列的時(shí)間信息和骨架關(guān)節(jié)之間特定的空間關(guān)系,同時(shí)提出多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MultiTask Convolutional Neural Network, MTCNN),并行處理每個(gè)片段所有幀以學(xué)習(xí)骨架序列的時(shí)間和空間信息。Liu等[13]提出一個(gè)關(guān)節(jié)點(diǎn)序列的時(shí)空LSTM網(wǎng)絡(luò),將LSTM的學(xué)習(xí)擴(kuò)展到時(shí)空域,每個(gè)關(guān)節(jié)從相鄰關(guān)節(jié)以及前一幀接受信息編碼時(shí)空特征,采用樹(shù)狀結(jié)構(gòu)表示關(guān)節(jié)點(diǎn)之間的相鄰特性和運(yùn)動(dòng)關(guān)系,最后將骨架數(shù)據(jù)的結(jié)果送入LSTM網(wǎng)絡(luò)進(jìn)行建模與識(shí)別。Li等[14]提出基于骨架端到端的卷積共生特征學(xué)習(xí)框架,首先對(duì)每個(gè)關(guān)節(jié)點(diǎn)的點(diǎn)級(jí)信息獨(dú)立編碼,將骨架序列表示為張量,使用卷積和獨(dú)立學(xué)習(xí)點(diǎn)級(jí)別特征,然后轉(zhuǎn)換卷積層的輸出,分層聚合來(lái)自關(guān)節(jié)的全局特征,得到時(shí)間和空間域的語(yǔ)義表示,最后送入分層式共現(xiàn)網(wǎng)絡(luò)(Hierarchical Cooccurrence Network,HCN)學(xué)習(xí)。利用CNN在關(guān)節(jié)點(diǎn)和RGB視頻的雙人交互行為識(shí)別中均取得了良好的效果,識(shí)別的準(zhǔn)確率較手動(dòng)提取特征有了大幅度的提升。但將CNN應(yīng)用在兩種特征互補(bǔ)的數(shù)據(jù)源結(jié)合中,還處于初始階段。因此,本文提出了一種RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)雙流信息融合的CNN識(shí)別框架,該框架較好地利用了RGB信息和關(guān)節(jié)點(diǎn)信息的互補(bǔ)性,進(jìn)一步提高了對(duì)于復(fù)雜交互行為識(shí)別的準(zhǔn)確性。
1?算法的整體框架
本文算法的整體框架如圖1所示,具體實(shí)現(xiàn)步驟如下:
1)基于RGB視頻的處理過(guò)程:首先判斷兩個(gè)交互個(gè)體的質(zhì)心之間的距離,獲取交互幀的執(zhí)行階段,從得到的RGB視頻幀中等間距選出三幀,利用Vibe算法做背景減除,分別得到三幀不包括背景信息的二值圖像,將代表視頻的三張圖片映射到RGB空間,并對(duì)三張圖片壓縮,得到表示視頻信息的時(shí)空?qǐng)D。
2)基于關(guān)節(jié)點(diǎn)數(shù)據(jù)的處理過(guò)程:首先,構(gòu)造交互個(gè)體及交互雙方之間的關(guān)節(jié)點(diǎn)矢量,然后構(gòu)造基于矢量的具有平移、旋轉(zhuǎn)、縮放不變形的余弦距離(Cosine Distance, CD)和歸一化幅值(Normalized Magnitude, NM)特征表示骨架序列的空間結(jié)構(gòu)信息,將兩種基礎(chǔ)特征分別連接起來(lái)并構(gòu)造成灰度圖像,送入CNN用于提取更高級(jí)的時(shí)序特征和動(dòng)作識(shí)別。
3)基于RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)融合的識(shí)別過(guò)程:將處理好的RGB視頻數(shù)據(jù)和關(guān)節(jié)點(diǎn)數(shù)據(jù)分別送入深度學(xué)習(xí)網(wǎng)絡(luò)中,將各自得到的識(shí)別概率矩陣做權(quán)值融合送入softmax分類(lèi)器得到最后的識(shí)別分?jǐn)?shù)。
2?數(shù)據(jù)預(yù)處理
2.1?RGB視頻預(yù)處理
對(duì)于動(dòng)作序列,一個(gè)動(dòng)作流程可以分為準(zhǔn)備、執(zhí)行和結(jié)束階段,但有的動(dòng)作如“握手”與“靠近”,在準(zhǔn)備和結(jié)束有較大的相似性,為增加兩個(gè)動(dòng)作的可區(qū)分性,通過(guò)測(cè)量交互動(dòng)作雙方的質(zhì)心距離D來(lái)得到動(dòng)作視頻的執(zhí)行階段。
c=1m1∑m1i=1ai,1m1∑m1i=1bi
d=1n1∑n1j=1aj,1n1∑n1j=1bj(1)
L=‖c-d‖-D≥0, 保留幀<0, 去除幀(2)
其中:c、d分別表示交互行為雙方的體心;m1和n1分別表示單個(gè)個(gè)體所包含的像素點(diǎn)個(gè)數(shù);(ai,bi)和(aj,bj)表示單人的像素點(diǎn)坐標(biāo);D為設(shè)定的閾值;L為判別量。通過(guò)以上預(yù)處理過(guò)程得到更為精簡(jiǎn)的RGB視頻信息,利用Vibe算法做背景減除,從去除背景的視頻幀中等間距選出三幀,并將這三幀圖像映射到RGB空間,得到表示視頻信息的時(shí)空?qǐng)D。
2.2?關(guān)節(jié)點(diǎn)數(shù)據(jù)預(yù)處理
在雙人交互識(shí)別過(guò)程中,獲得動(dòng)作序列中完整的空間位置信息和時(shí)序關(guān)系,對(duì)識(shí)別結(jié)果十分重要。因此,在單幀關(guān)節(jié)點(diǎn)中構(gòu)造關(guān)節(jié)點(diǎn)向量,并提取余弦距離(CD)和歸一化幅值(NM)特征,分別按照關(guān)節(jié)點(diǎn)序列的時(shí)間信息連接,關(guān)節(jié)點(diǎn)序列轉(zhuǎn)換為基于圖像的表示,則可以使用CNN學(xué)習(xí)序列中更高級(jí)的時(shí)間結(jié)構(gòu)。首先獲取具有旋轉(zhuǎn)、縮放、平移不變性的余弦距離和歸一化幅值特征,具體算法如圖2所示。
關(guān)節(jié)點(diǎn)向量表示的計(jì)算過(guò)程如下:
將單幀中的關(guān)節(jié)點(diǎn)數(shù)據(jù)定義為:
Ω={Pi∈R3:i= 1,2,…,n}(3)
其中:n表示單幀中所包含的關(guān)節(jié)點(diǎn)數(shù),Pi=[xi,yi,zi]代表第i關(guān)節(jié)點(diǎn)的3D坐標(biāo)。所有幀的關(guān)節(jié)點(diǎn)按交互行為雙方分為兩部分,分別表示為:
Ω=∪2k=1Ωk(4)
其中:Ω1代表左側(cè)行為者,Ω2表示右側(cè)行為者。
對(duì)于不同的行為者Ω1,2,選擇一個(gè)初始關(guān)節(jié)點(diǎn)p(1,2)0,其余關(guān)節(jié)點(diǎn)定義為一個(gè)集合p,本文定義單人內(nèi)的關(guān)節(jié)點(diǎn)向量為:
υ(k)w={p-p(k)0:p∈Ωk}(5)
雙人之間的關(guān)節(jié)點(diǎn)向量為:
υ(k)b={p-p(k)0:p∈Ω\Ωk}(6)
選擇脊柱根部的關(guān)節(jié)點(diǎn)作為原點(diǎn),更能反映其他關(guān)節(jié)的運(yùn)動(dòng)。
余弦距離和歸一化幅值特征表示過(guò)程如下:
設(shè)定v∈υ(k)w,u∈υ(k)w∪υ(k)b,本文定義余弦距離為:
vTu‖v‖‖u‖(7)
單幀中得到的14×28=392維余弦距離特征。
定義歸一化幅度為:
‖u‖‖u(k)0‖(8)
其中u0為選擇的參考向量,將頸部和脊柱根部構(gòu)成的向量作為參考向量,得到28維歸一化幅值特征。
將所有視頻幀的上述特征按照時(shí)間關(guān)系連接,每個(gè)關(guān)節(jié)點(diǎn)序列共包含n幀,則得到的余弦距離維數(shù)為14×28×n,歸一化幅值特征維數(shù)為28×n,其中每列表示單幀的空間結(jié)構(gòu)特征,初步提取所有幀的信息。然后將得到的余弦距離和歸一化幅值矩陣歸一化至0~255,成為一幅灰度圖像,由于相鄰關(guān)節(jié)點(diǎn)和相鄰幀中相同關(guān)節(jié)點(diǎn)的變化是連續(xù)的,因此圖像中的像素不會(huì)急劇變化。為了減少不同關(guān)節(jié)點(diǎn)幀數(shù)造成的差異,將所有關(guān)節(jié)點(diǎn)序列得到的灰度圖像調(diào)整至相同大小。最后饋送入CNN學(xué)習(xí)更高級(jí)的特征,獲得最后的識(shí)別結(jié)果。
3?模型結(jié)構(gòu)
將數(shù)據(jù)集中每類(lèi)動(dòng)作的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)按照8∶2 分為訓(xùn)練集和測(cè)試集,在TensorFlow平臺(tái)下使用Keras框架對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet16[15]模型遷移學(xué)習(xí),實(shí)現(xiàn)人體動(dòng)作識(shí)別。
3.1?CNN概述
CNN由輸入層和輸出層及多個(gè)隱藏層組成,隱含層包括卷積層、池化層及全連接層。
卷積層(Convolutional layer)?卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取到一些低級(jí)的如邊緣、線條和角等特征,多層的卷積網(wǎng)絡(luò)能從低級(jí)的特征中迭代提取更復(fù)雜的特征。
池化層(Pooling layer)?池化即降采樣,目的是減少特征圖,主要是通過(guò)減少網(wǎng)絡(luò)的參數(shù)來(lái)減少計(jì)算量,并且在一定程度上能夠控制過(guò)擬合。
全連接層(FullyConnected layer)?全連接層的每一個(gè)節(jié)點(diǎn)都與上一層的所有節(jié)點(diǎn)相連,把前邊提取到的特征綜合起來(lái)。由于其全相連的特性,一般全連接層的參數(shù)也是最多的。
CNN與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比不同之處,主要有局部感知、權(quán)值共享和多卷積核三點(diǎn)。局部感知就是卷積核和圖像卷積時(shí),每次卷積核所覆蓋的像素只是一小部分,感知的是局部特征,CNN是一個(gè)從局部到整體的過(guò)程。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)參數(shù)量非常巨大,而卷積層的參數(shù)完全取決于濾波器的設(shè)置大小,整個(gè)圖片共享一組濾波器的參數(shù),通過(guò)權(quán)值共享降低參數(shù)量。一種卷積核代表一種特征,為了獲取更多不同特征的集合,卷積層會(huì)有多個(gè)卷積核,來(lái)得到不同的特征。
3.2?VGG網(wǎng)絡(luò)
VGG是牛津大學(xué)計(jì)算機(jī)視覺(jué)組和Google DeepMind公司一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)主要是泛化性能很好。VGG探索了CNN的深度與其性能之間的關(guān)系,通過(guò)反復(fù)堆疊3×3的小型卷積核和2×2的最大池化層,成功地構(gòu)筑了16~19層深的CNN。同時(shí)將卷積層提升到卷積塊,使網(wǎng)絡(luò)有更大的感受野同時(shí)也降低網(wǎng)絡(luò)參數(shù),學(xué)習(xí)能力更強(qiáng)。在訓(xùn)練過(guò)程中使用MultiScale 做數(shù)據(jù)增強(qiáng),將同一張圖片縮放到不同的尺寸,增加數(shù)據(jù)量。本文選擇層數(shù)為16的VGG作為CNN模型。如表1所示為VGG網(wǎng)絡(luò)的結(jié)構(gòu)及參數(shù)。
3.3?融合結(jié)構(gòu)
針對(duì)可視范圍內(nèi)發(fā)生的動(dòng)作,Kinect相機(jī)能夠同時(shí)獲取RGB視頻和3D關(guān)節(jié)點(diǎn)數(shù)據(jù)。將傳統(tǒng)RGB數(shù)據(jù)與3D關(guān)節(jié)點(diǎn)數(shù)據(jù)相結(jié)合,兩者信息互補(bǔ),經(jīng)過(guò)預(yù)處理,RGB獲得更精簡(jiǎn)的信息,3D關(guān)節(jié)點(diǎn)數(shù)據(jù)得到具有旋轉(zhuǎn)、平移、縮放不變性的基礎(chǔ)特征。分別將處理得到的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)送入VGG16網(wǎng)絡(luò)模型,最終利用softmax分類(lèi)器得到基于RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)各動(dòng)作類(lèi)別的識(shí)別分?jǐn)?shù)概率矩陣。然后,針對(duì)不同的原始數(shù)據(jù)流給予不同的權(quán)值融合softmax值,將融合得到的結(jié)果再次經(jīng)過(guò)softmax分類(lèi)器,最終得到融合識(shí)別結(jié)果分?jǐn)?shù)矩陣,實(shí)現(xiàn)RGB視頻和3D關(guān)節(jié)點(diǎn)數(shù)據(jù)的決策集融合??傮w流程如圖3所示。
4?實(shí)驗(yàn)測(cè)試與分析
4.1?數(shù)據(jù)庫(kù)與測(cè)試環(huán)境介紹
為證明提出方法的有效性,采用國(guó)際標(biāo)準(zhǔn)的SBU Kinect數(shù)據(jù)庫(kù)和NTU RGB+D數(shù)據(jù)庫(kù)進(jìn)行驗(yàn)證。SBU Kinect交互數(shù)據(jù)集共有7名動(dòng)作行為人,組成21對(duì)動(dòng)作執(zhí)行者,包括8個(gè)動(dòng)作類(lèi)別,分別為靠近、離開(kāi)、踢腿、打、推、擁抱、握手和傳遞物品。在大多數(shù)的互動(dòng)行為中,一個(gè)人做出動(dòng)作另一個(gè)人做出反應(yīng)動(dòng)作,且均采用相同的室內(nèi)背景錄制。每個(gè)人由15個(gè)關(guān)節(jié)點(diǎn)表示,每幀的關(guān)節(jié)點(diǎn)數(shù)據(jù)維度為15×3×2=90。該數(shù)據(jù)集包含的動(dòng)作大多為非周期性行為,且包含相似動(dòng)作,準(zhǔn)確實(shí)現(xiàn)動(dòng)作識(shí)別具有一定的難度。
NTU RGB+D Dateset數(shù)據(jù)集是目前包括雙人交互的RGB+D視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)最大的數(shù)據(jù)庫(kù),包括56-880個(gè)視頻片段。本數(shù)據(jù)庫(kù)共有40名行為動(dòng)作者,包括60個(gè)動(dòng)作類(lèi)別,包括日常動(dòng)作、與健康相關(guān)的動(dòng)作和雙人交互行為。本數(shù)據(jù)庫(kù)采用三個(gè)高度相同但角度不同的攝像機(jī)采集圖片。動(dòng)作行為人執(zhí)行兩次動(dòng)作,一次面向左側(cè)攝像頭一次面向右側(cè)攝像頭。本數(shù)據(jù)庫(kù)提供兩種識(shí)別評(píng)估標(biāo)準(zhǔn)CS和CV, 本文采用CS的評(píng)估方式。
本實(shí)驗(yàn)基于Tensorflow平臺(tái)利用keras深度學(xué)習(xí)庫(kù)在GPU處理器下進(jìn)行,操作系統(tǒng)為Ubuntu16.04,內(nèi)存和硬盤(pán)參數(shù)分別為32GB、256GB+2TB,編程環(huán)境為Python3.6,程序框架Keras2.1.3。
4.2?SBU 數(shù)據(jù)庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果
1)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)測(cè)試結(jié)果分析。
本實(shí)驗(yàn)在國(guó)際公開(kāi)的SBU數(shù)據(jù)集中的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)上分別做了測(cè)試,把每個(gè)動(dòng)作按8∶2 的比例劃分為訓(xùn)練集和測(cè)試集,用80%的數(shù)據(jù)訓(xùn)練模型,將訓(xùn)練好的模型用20%的視頻做測(cè)試。本實(shí)驗(yàn)共采用200次迭代訓(xùn)練,每次迭代訓(xùn)練中訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)對(duì)應(yīng)的準(zhǔn)確率如圖4所示。
從圖4中可知,隨著訓(xùn)練次數(shù)增加,準(zhǔn)確率不斷增加,模型的損失值不斷降低。利用RGB視頻數(shù)據(jù)在此模型下測(cè)試,得到的最優(yōu)識(shí)別準(zhǔn)確率為87.5%,將最終的識(shí)別結(jié)果用混淆矩陣表示如圖5所示。
從圖5混淆矩陣分析可知,誤識(shí)別動(dòng)作主要為“推”和“握手”兩個(gè)動(dòng)作,通過(guò)分析可知,這兩類(lèi)動(dòng)作在視頻的階段幀與幀之間的變化幅度小,導(dǎo)致Vibe背景減除后得到的動(dòng)作區(qū)分性不足,導(dǎo)致模型的誤識(shí)別。
將關(guān)節(jié)點(diǎn)數(shù)據(jù)在構(gòu)建的模型下進(jìn)行測(cè)試,得到識(shí)別準(zhǔn)確率為91.87%,把識(shí)別結(jié)果用歸一化混淆矩陣表示,如圖6。
從上述混淆矩陣分析可知,應(yīng)用關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行識(shí)別,8種行為動(dòng)作中有6種行為能達(dá)到準(zhǔn)確識(shí)別,錯(cuò)誤識(shí)別主要發(fā)生在握手(shaking hand)和傳遞物品(exchanging),因?yàn)殛P(guān)節(jié)點(diǎn)數(shù)據(jù)只對(duì)行為人的動(dòng)作變化作出精確描述,不包含環(huán)境中的其他事物,對(duì)行為的外觀描述信息較少,因此容易造成包含環(huán)境中其他事物的動(dòng)作識(shí)別不準(zhǔn)確。
從圖5和圖6的分析可以看出,RGB視頻信息與關(guān)節(jié)點(diǎn)數(shù)據(jù)具有較好的互補(bǔ)性,為下一步的融合提供了依據(jù)。
2)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)信息融合。
本文將RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)得到的識(shí)別分?jǐn)?shù)作決策級(jí)融合,將兩種信息源得到的識(shí)別概率矩陣加權(quán)融合送入softmax分類(lèi)器得到最終的識(shí)別分?jǐn)?shù),得到最終比較理想的識(shí)別結(jié)果,識(shí)別率為92.55%。
為驗(yàn)證本文提出模型的有效性,本文將同樣在SBU Kinect interaction 數(shù)據(jù)庫(kù)上進(jìn)行算法測(cè)試的結(jié)果與本文所得的實(shí)驗(yàn)結(jié)果相比較,如表2所示。
從表2中可知,本文提出的基于CNN的RGB和關(guān)節(jié)點(diǎn)數(shù)據(jù)融合的雙人交互行為識(shí)別框架獲得了良好的識(shí)別結(jié)果。與文獻(xiàn)[5]和文獻(xiàn)[6]中利用單一數(shù)據(jù)源和手動(dòng)提取特征相結(jié)合的處理方法相比較,識(shí)別準(zhǔn)確率得到了大幅度的提升。本文的識(shí)別結(jié)果與文獻(xiàn)[13]相當(dāng),但文獻(xiàn)[13]中引入一個(gè)信任門(mén)消除關(guān)節(jié)點(diǎn)數(shù)據(jù)的噪聲,而本文的方法對(duì)原始含有噪聲的數(shù)據(jù)沒(méi)有作任何處理,采用原始的關(guān)節(jié)點(diǎn)數(shù)據(jù)構(gòu)造基礎(chǔ)特征。文獻(xiàn)[12]是將每個(gè)關(guān)節(jié)點(diǎn)序列轉(zhuǎn)化為三個(gè)片段,采用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別分類(lèi),但訓(xùn)練多任務(wù)并行的CNN模型復(fù)雜度高,訓(xùn)練過(guò)程復(fù)雜,而本實(shí)驗(yàn)中采用16層的卷積網(wǎng)絡(luò),迭代一次的訓(xùn)練時(shí)長(zhǎng)僅為2s,識(shí)別過(guò)程中處理一幀數(shù)據(jù)的時(shí)間約為27ms, 具有較好的實(shí)時(shí)性。本文采用的方法避免對(duì)原始的關(guān)節(jié)點(diǎn)數(shù)據(jù)進(jìn)行處理,算法相對(duì)簡(jiǎn)單,具有一定的實(shí)際應(yīng)用前景。
4.3?NTU 數(shù)據(jù)庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果
1)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)測(cè)試結(jié)果分析。
本實(shí)驗(yàn)在NTU RGB+D數(shù)據(jù)庫(kù)的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)上進(jìn)行分別訓(xùn)練與測(cè)試,采用原數(shù)據(jù)庫(kù)提供的CrossSubject測(cè)試模式,將動(dòng)作行為人分為兩組,得到的行為動(dòng)作分別作為訓(xùn)練集和測(cè)試集。針對(duì)不同的數(shù)據(jù)源,RGB視頻數(shù)據(jù)采用100次的迭代訓(xùn)練,關(guān)節(jié)點(diǎn)數(shù)據(jù)采用200次迭代訓(xùn)練每次迭代訓(xùn)練中訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)對(duì)應(yīng)的準(zhǔn)確率和模型損失值如圖7所示。
從圖7中可知,隨著訓(xùn)練次數(shù)增加,準(zhǔn)確率增加,由于NTU數(shù)據(jù)庫(kù)很大且相機(jī)的變化角度和參與動(dòng)作的人數(shù)較多,且在訓(xùn)練時(shí)利用batch size調(diào)整一次學(xué)習(xí)的信息量,導(dǎo)致模型存在一些震蕩。利用RGB視頻數(shù)據(jù)在此模型下測(cè)試,得到的最優(yōu)識(shí)別準(zhǔn)確率為75.82%。利用關(guān)節(jié)點(diǎn)數(shù)據(jù)在此模型下得到的最優(yōu)識(shí)別結(jié)果為74.37%。
3)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)信息融合。
單獨(dú)利用RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)分別進(jìn)行測(cè)試,結(jié)果發(fā)現(xiàn)“摸口袋”這個(gè)動(dòng)作,在RGB視頻識(shí)別過(guò)程中得到的結(jié)果較差,而在關(guān)節(jié)點(diǎn)數(shù)據(jù)識(shí)別過(guò)程中得到了較為理想的識(shí)別結(jié)果。本文將RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)得到的識(shí)別分?jǐn)?shù)作決策級(jí)融合,將兩種信息源得到的識(shí)別概率矩陣加權(quán)融合送入softmax分類(lèi)器得到最終的識(shí)別分?jǐn)?shù),得到的正確識(shí)別率為80.09%,較單一數(shù)據(jù)源的結(jié)果有了較大的提升。
為驗(yàn)證本文提出模型的有效性,本文將同樣在NTU RGB+D數(shù)據(jù)庫(kù)CrossSubject測(cè)試模式下驗(yàn)證的其他文獻(xiàn)得到的測(cè)試結(jié)果與本文所得的實(shí)驗(yàn)結(jié)果相比較,如表3所示。
由表3可知,本文提出的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)融合并與CNN結(jié)合的網(wǎng)絡(luò)模型結(jié)構(gòu),比文獻(xiàn)[11]和文獻(xiàn)[13]中采用的方法得到的識(shí)別結(jié)果大幅度提高。文獻(xiàn)[10]采用雙流并行的CNN,模型復(fù)雜度高且訓(xùn)練時(shí)間長(zhǎng); 文獻(xiàn)[14]使用CNN模型學(xué)習(xí)共生特征,并設(shè)計(jì)一種端到端的分層式學(xué)習(xí)網(wǎng)絡(luò),獲得了較高的識(shí)別結(jié)果,但它將骨架表示為張量的過(guò)程計(jì)算量較大,同時(shí)使用卷積層獨(dú)立地為每個(gè)關(guān)節(jié)學(xué)習(xí)點(diǎn)層面的特征,卷積網(wǎng)絡(luò)設(shè)計(jì)復(fù)雜; 本文采用16層卷積結(jié)構(gòu),網(wǎng)絡(luò)模型簡(jiǎn)單且參數(shù)較少,模型訓(xùn)練時(shí)間短,每幀的處理時(shí)間約為27ms,同時(shí)也得到了較為理想的實(shí)驗(yàn)結(jié)果。
5?結(jié)語(yǔ)
本文根據(jù)RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)各自的優(yōu)缺點(diǎn),提出將RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)在決策級(jí)中有效結(jié)合起來(lái)的雙人交互行為識(shí)別算法。本文充分地利用RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)互補(bǔ)的特性,在對(duì)兩種原始數(shù)據(jù)作出合理的預(yù)處理的前提下,采用CNN的框架,進(jìn)行更高級(jí)的特征提取與分類(lèi)。本文采用國(guó)際公認(rèn)的SBU Kinect深度數(shù)據(jù)庫(kù)和NTU RGB+D數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練與測(cè)試,結(jié)果表明識(shí)別結(jié)果良好,同時(shí)避免了復(fù)雜的預(yù)處理。下一步研究重點(diǎn)是在當(dāng)前模型的基礎(chǔ)上引入時(shí)序建模,將兩種數(shù)據(jù)源更好地結(jié)合,進(jìn)一步提高雙人交互行為識(shí)別的準(zhǔn)確性。
參考文獻(xiàn) (References)
[1]王世剛,孫愛(ài)朦,趙文婷,等. 基于時(shí)空興趣點(diǎn)的單人行為及交互行為識(shí)別[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2015, 45(1):304-308.(WANG S G, SUN A M, ZHAO W T, et al. Single and interactive human behavior recognition algorithm based on spatiotemporal interest point [J]. Journal of Jilin University (Engineering and Technology Edition), 2015, 45(1):304-308.)
[2]GAVRILA D M, DAVIS L S. 3D modelbased tracking of humans in action: a multiview approach[C]// Proceedings of the 1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 1996: 73-80.
[3]趙海勇,劉志鏡,張浩. 基于輪廓特征的人體行為識(shí)別[J]. 光電子·激光, 2010, 21(10):1547-1551. (ZHAO H Y, LIU Z J, ZHANG H. Human action recognition based on image contour [J]. Journal of Photoelectron·Laser, 2010, 21(10):1547-1551)
[4]韓磊,李軍峰,賈云得. 基于時(shí)空單詞的雙人交互行為識(shí)別方法[J].計(jì)算機(jī)學(xué)報(bào), 2010, 33(4):776-784. (HAN L, LI J F, JIA Y D. Human interaction recognition method using spatiotemporal words[J]. Chinese Journal of Computers, 2010, 33(4):776-784.)
[5]LI N, CHENG X, GUO H, et al. Recognizing human interactions by genetic algorithmbased random forest spatiotemporal correlation[J]. Pattern Analysis and Applications, 2016, 19(1):267-282.
[6]YUN K, HONORIO J, CHATTOPADHYAY D, et al. Twoperson interaction detection using bodypose features and multiple instance learning[C]// Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2012:28-35.
[7]SLAMA R, WANNOUS H, DAOUDI M, et al. Accurate 3D action recognition using learning on the Grassmann manifold[J]. Pattern Recognition, 2015, 48(2):556-567.
[8]GHORBEL E, BOUTTEAU R, BOONAERT J, et al. 3D realtime human action recognition using a spline interpolation approach[C]// Proceedings of the 2015 International Conference on Image Processing Theory, Tools and Applications. Piscataway: IEEE, 2015:61-66.
[9]SIMONYAN K, ZISSERMAN A. Twostream convolutional networks for action recognition in videos[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014:568-576.
[10]LI C, ZHONG Q, XIE D, et al. Skeletonbased action recognition with convolutional neural networks[C]// Proceedings of the 2017 IEEE International Conference on Multimedia & Expo Workshops. Piscataway: IEEE, 2017:597-600.
[11]LIU J, WANG G, DUAN L, et al. Skeletonbased human action recognition with global contextaware attention LSTM networks[J]. IEEE Transactions on Image Processing, 2018, 27(4):1586-1599.
[12]KE Q, BENNAMOUN M, AN S, et al. Learning clip representations for skeletonbased 3D action recognition[J]. IEEE Transactions on Image Processing, 2018, 27(6):2842-2855.
[13]LIU J, SHAHROUDY A, XU D, et al. Spatiotemporal LSTM with trust gates for 3D human act in recognition[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9907. Berlin: Springer, 2016:816-833.
[14]LI C, ZHONG Q, XIE D, et al. Cooccurrence feature learning from skeleton data for action recognition and detection with hierarchical aggregation[EB/OL].[2019-03-20].http://arxiv.org/pdf/1804.06055.
[15]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition[EB/OL]. [2019-01-10].https://arxiv.org/pdf/1409.1556.pdf.
This work is partially supported by National Natural Science Foundation of China (61602321), the Local Project of Scientific Research Service of Liaoning Education Department (L201708), the Scientific Research Youth Project of Liaoning Education Department (L201745).
JI Xiaofei, born in 1978, Ph. D., associate professor. Her research interests include video analysis and processing, pattern recognition.
QIN Linlin, born in 1994, M. S. candidate. Her research interests include video analysis and processing, biological characteristics and behavior analysis.
WANG Yangyang, born in 1979, Ph. D., engineer. Her research interests include video analysis and processing.