田曉歐,姬曉飛,王 昱
(沈陽(yáng)航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽(yáng) 110136)
隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,基于視頻的人體交互行為識(shí)別已經(jīng)成為研究熱點(diǎn)[1]。RGB視頻包含人體的紋理輪廓信息,關(guān)節(jié)點(diǎn)數(shù)據(jù)包含人體的三維骨架位置,二者既相互關(guān)聯(lián)又存在互補(bǔ)特性,這引起了智能監(jiān)控系統(tǒng)等領(lǐng)域研究者的關(guān)注,并將其引入雙人交互行為識(shí)別的研究中[2]。
基于RGB視頻的雙人交互行為識(shí)別多以提取興趣點(diǎn)或局部描述符的方法開(kāi)展[3-4],也有一些研究者引入長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)運(yùn)動(dòng)信息進(jìn)行時(shí)序建模[5]?;赗GB視頻的雙人交互行為識(shí)別可以表達(dá)出雙人交互的外觀信息和運(yùn)動(dòng)信息,但是由于遮擋等問(wèn)題,識(shí)別算法對(duì)于視角的適應(yīng)性較差。Kinect設(shè)備的推廣使基于關(guān)節(jié)點(diǎn)數(shù)據(jù)的雙人交互行為識(shí)別算法大量涌現(xiàn)[6]。關(guān)節(jié)點(diǎn)數(shù)據(jù)可以記錄每個(gè)人關(guān)節(jié)的運(yùn)動(dòng)信息和雙人關(guān)節(jié)之間的交互信息[7-9]。針對(duì)基于關(guān)節(jié)點(diǎn)數(shù)據(jù)的雙人交互行為識(shí)別的研究,有學(xué)者對(duì)關(guān)節(jié)點(diǎn)的時(shí)空信息進(jìn)行圖像編碼化后再進(jìn)行學(xué)習(xí)識(shí)別[10-11];也有學(xué)者利用長(zhǎng)短記憶網(wǎng)絡(luò)對(duì)關(guān)節(jié)點(diǎn)數(shù)據(jù)的空間特征進(jìn)行學(xué)習(xí)[12-13]。基于關(guān)節(jié)點(diǎn)數(shù)據(jù)的雙人交互行為識(shí)別,能夠較好地處理遮擋問(wèn)題和交互問(wèn)題,但是由于關(guān)節(jié)點(diǎn)數(shù)據(jù)無(wú)法表示外觀信息,也會(huì)導(dǎo)致部分運(yùn)動(dòng)信息的缺失?;赗GB和關(guān)節(jié)點(diǎn)數(shù)據(jù)融合的雙人交互行為識(shí)別算法大多針對(duì)不同數(shù)據(jù)源分別提取特征建立模型,再進(jìn)行決策級(jí)融合給出識(shí)別結(jié)果[14-16]??偟膩?lái)說(shuō),目前基于關(guān)節(jié)點(diǎn)數(shù)據(jù)和RGB視頻融合的研究方法為提高復(fù)雜環(huán)境下的雙人交互行為識(shí)別的準(zhǔn)確性提供了可行的解決方案[17-18],但是兩種數(shù)據(jù)源的異構(gòu)形式導(dǎo)致其融合框架十分單一,決策級(jí)的融合方式往往會(huì)丟失大量有用信息。
根據(jù)以上分析,本文提出一種新的基于關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識(shí)別框架。該框架利用RGB視頻得到RGB運(yùn)動(dòng)特征,根據(jù)關(guān)節(jié)點(diǎn)數(shù)據(jù)得到關(guān)節(jié)點(diǎn)關(guān)注特征,將關(guān)節(jié)點(diǎn)關(guān)注特征與RGB運(yùn)動(dòng)特征給合,得到關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖。該框架設(shè)計(jì)的關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖充分利用RGB視頻的外觀輪廓信息和全局運(yùn)動(dòng)特征的表征能力,并利用關(guān)節(jié)點(diǎn)數(shù)據(jù)的三維位置信息求得局部運(yùn)動(dòng)屬性,以補(bǔ)充RGB視頻不易獲得的深度維度信息問(wèn)題。兩種信息源數(shù)據(jù)實(shí)現(xiàn)了特征級(jí)的有效融合,提高了復(fù)雜環(huán)境下雙人交互行為識(shí)別的準(zhǔn)確性。
基于關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識(shí)別算法框架如圖1所示。
圖1 算法識(shí)別框架
本文利用RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)兩種數(shù)據(jù)源的融合實(shí)現(xiàn)雙人交互行為識(shí)別,該數(shù)據(jù)源由微軟Kinect v2傳感器采集得到,其與普通相機(jī)相比的獨(dú)特之處在于其使用TOF(Time of Flying)技術(shù)獲得景深數(shù)據(jù)從而生成深度圖像,深度圖像的每個(gè)像素?cái)?shù)值都代表Kinect 距離此像素實(shí)際對(duì)應(yīng)區(qū)域與相機(jī)的深度距離,因此 Kinect 能夠直接輸出三維空間信息,即關(guān)節(jié)點(diǎn)數(shù)據(jù)。本文算法具體實(shí)施步驟如下:首先通過(guò)RGB視頻獲取RGB運(yùn)動(dòng)特征,利用幀差法獲得人體外觀剪影,得到RGB運(yùn)動(dòng)特征圖;然后通過(guò)關(guān)節(jié)點(diǎn)數(shù)據(jù)計(jì)算關(guān)節(jié)點(diǎn)關(guān)注特征,根據(jù)關(guān)節(jié)點(diǎn)位置信息計(jì)算關(guān)節(jié)點(diǎn)運(yùn)動(dòng)速度方差,較大方差所對(duì)應(yīng)的關(guān)節(jié)定義為主要運(yùn)動(dòng)關(guān)節(jié);再對(duì)二者得到的特征融合,將主要運(yùn)動(dòng)關(guān)節(jié)在RGB運(yùn)動(dòng)特征圖上以顏色矩形框的形式關(guān)注,得到關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖,再根據(jù)時(shí)序關(guān)系拼接為基于RGB視頻的關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖,送入CNN網(wǎng)絡(luò)提取深層特征,并在全連接層得到最終識(shí)別結(jié)果。
關(guān)節(jié)點(diǎn)數(shù)據(jù)為三維位置信息,包含人體關(guān)節(jié)點(diǎn)的X、Y、Z坐標(biāo);RGB視頻為二維彩色圖像信息,包含每個(gè)像素點(diǎn)的X、Y坐標(biāo)和對(duì)應(yīng)的顏色信息。本文通過(guò)RGB視頻獲得RGB運(yùn)動(dòng)特征,通過(guò)三維關(guān)節(jié)點(diǎn)數(shù)據(jù)獲取關(guān)節(jié)點(diǎn)關(guān)注特征,提取其主要運(yùn)動(dòng)關(guān)節(jié),根據(jù)主要運(yùn)動(dòng)關(guān)節(jié)對(duì)應(yīng)的X、Y坐標(biāo),在RGB運(yùn)動(dòng)特征上利用顏色矩形框進(jìn)行標(biāo)記,得到關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖。此矩形框標(biāo)記的位置由關(guān)節(jié)點(diǎn)關(guān)注特征得到,所以將三維的關(guān)節(jié)點(diǎn)關(guān)注特征和二維的RGB運(yùn)動(dòng)特征結(jié)合,能夠有效改進(jìn)關(guān)節(jié)點(diǎn)數(shù)據(jù)缺乏外觀特征和RGB視頻缺少三維特征的缺陷,恰好體現(xiàn)了二者特征的互補(bǔ)性。
(1)RGB運(yùn)動(dòng)特征獲?。和ㄟ^(guò)幀差法獲得動(dòng)作執(zhí)行者的運(yùn)動(dòng)屬性,得到RGB運(yùn)動(dòng)特征圖。如圖1c所示,對(duì)RGB運(yùn)動(dòng)特征圖的背景部分進(jìn)行了較大程度的弱化,前景部分也進(jìn)行了相應(yīng)突出。同時(shí),RGB運(yùn)動(dòng)特征較完整地保留了雙人交互的運(yùn)動(dòng)屬性,并以顏色深淺度的形式展現(xiàn)。
(2)關(guān)節(jié)點(diǎn)關(guān)注特征獲?。豪藐P(guān)節(jié)點(diǎn)所在位置計(jì)算關(guān)節(jié)點(diǎn)運(yùn)動(dòng)幅度,分析主要運(yùn)動(dòng)關(guān)節(jié)。首先計(jì)算關(guān)節(jié)點(diǎn)運(yùn)動(dòng)速度,關(guān)節(jié)點(diǎn)運(yùn)動(dòng)速度是幀間關(guān)節(jié)點(diǎn)三維位置信息變化的快慢。具體計(jì)算公式如式(1)所示
(1)
(2)
(3)
其中:vij為第i個(gè)動(dòng)作執(zhí)行者的第j個(gè)關(guān)節(jié)的運(yùn)動(dòng)速度平均數(shù);sij為第i個(gè)動(dòng)作執(zhí)行者的第j個(gè)關(guān)節(jié)的運(yùn)動(dòng)速度方差。最后,按關(guān)節(jié)點(diǎn)運(yùn)動(dòng)速度方差大小排列,將排在前k(1≤k≤J)個(gè)的關(guān)節(jié)定義為動(dòng)作執(zhí)行者i的主要運(yùn)動(dòng)關(guān)節(jié),其余為非主要運(yùn)動(dòng)關(guān)節(jié),k為可調(diào)參數(shù)。
(3)關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖構(gòu)建:Kinect v2傳感器可以提供幾乎同步的RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)。首先根據(jù)時(shí)間關(guān)系將關(guān)節(jié)點(diǎn)數(shù)據(jù)與RGB視頻對(duì)齊,得到人體運(yùn)動(dòng)的最大矩形框。然后在主要運(yùn)動(dòng)關(guān)節(jié)所在位置畫(huà)出顏色矩形框,突出主要運(yùn)動(dòng)部位。顏色矩形框勾畫(huà)方式為:依據(jù)關(guān)節(jié)點(diǎn)標(biāo)記的位置,在其鄰域矩形內(nèi)利用顏色加權(quán)的方式對(duì)像素逐個(gè)進(jìn)行標(biāo)記。其中q=0為左右兩位動(dòng)作執(zhí)行者顏色矩形框的顏色相同;q=1為顏色不同,矩形框邊長(zhǎng)為l cm。關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖如圖1e所示。
(4)基于RGB視頻的關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖構(gòu)建:每個(gè)視頻平均提取9幀作為關(guān)鍵幀,拼接為包含9幀的基于視頻的關(guān)節(jié)點(diǎn)關(guān)注RGB特征圖,如圖1f所示。
圖2為不同動(dòng)作的原始數(shù)據(jù)、RGB運(yùn)動(dòng)特征和關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征的對(duì)比圖。
圖2 不同動(dòng)作的特征對(duì)比圖
把圖2的原始數(shù)據(jù)與RGB運(yùn)動(dòng)特征圖和關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖進(jìn)行對(duì)比,RGB視頻的幀差計(jì)算有效表達(dá)雙人交互運(yùn)動(dòng)的全局運(yùn)動(dòng)趨勢(shì),而主要運(yùn)動(dòng)關(guān)節(jié)的突出表達(dá)則由關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注求得。
由RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)得到底層圖像特征,該特征反應(yīng)雙人交互行為的運(yùn)動(dòng)趨勢(shì)和主要運(yùn)動(dòng)部位。為提高識(shí)別的準(zhǔn)確率,引入具有局部感知和參數(shù)共享特性的卷積神經(jīng)網(wǎng)絡(luò),提取雙人交互運(yùn)動(dòng)的深層特征,并在全連接層得到識(shí)別結(jié)果?;窘Y(jié)構(gòu)框圖如圖3所示。
圖3 CNN基本結(jié)構(gòu)框圖
本文選用具有局部感知和參數(shù)共享特性的VGG19網(wǎng)絡(luò),將基于RGB視頻的關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖送入VGG19網(wǎng)絡(luò)進(jìn)行卷積池化操作得到深層特征,并在全連接層得到識(shí)別結(jié)果。VGG19網(wǎng)絡(luò)參數(shù)設(shè)定如下:激活函數(shù)為softmax;調(diào)整學(xué)習(xí)率為0.001;在全連接層加入值為0.3的dropout函數(shù)防止過(guò)擬合;利用回調(diào)函數(shù)監(jiān)測(cè)模型損失值,當(dāng)監(jiān)測(cè)值不再改善時(shí),該回調(diào)函數(shù)將終止訓(xùn)練。
本文提出了一種基于關(guān)節(jié)點(diǎn)關(guān)注RGB視頻的雙人交互行為識(shí)別算法,為了充分證明算法的有效性和合理性,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)試。實(shí)驗(yàn)環(huán)境為windows系統(tǒng),顯卡版本為NVIDIA GeForce RTX 2070,并使用GPU處理器在Tensorflow平臺(tái)中的Keras框架下對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和學(xué)習(xí),軟件平臺(tái)為python3.7。實(shí)驗(yàn)在NTU RGB+D數(shù)據(jù)庫(kù)下進(jìn)行訓(xùn)練與測(cè)試,由含有60個(gè)動(dòng)作類別的56 000多個(gè)視頻樣本組成。本數(shù)據(jù)集有兩種評(píng)估模式,分別為改變受試者(Cross Subject,CS)模式和改變視角(Cross View,CV)模式。本文選用11種雙人交互動(dòng)作的類別和CS評(píng)估模式來(lái)進(jìn)行測(cè)試。訓(xùn)練集和測(cè)試集按照8∶2的比例進(jìn)行實(shí)驗(yàn),迭代100次得到識(shí)別結(jié)果。
對(duì)關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖的可調(diào)參數(shù)主要運(yùn)動(dòng)關(guān)節(jié)個(gè)數(shù)k、顏色矩形框的顏色q和顏色矩形框邊長(zhǎng)l進(jìn)行測(cè)定。實(shí)驗(yàn)結(jié)果如表1所示。
表1 最優(yōu)參數(shù)測(cè)定表
根據(jù)實(shí)驗(yàn)結(jié)果可知,實(shí)驗(yàn)5取得了較高的識(shí)別率,此時(shí)關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖的參數(shù)設(shè)定為:每個(gè)動(dòng)作執(zhí)行者的關(guān)節(jié)點(diǎn)關(guān)注個(gè)數(shù)為2個(gè),雙人之間顏色矩形框的顏色為不同顏色,顏色矩形框邊長(zhǎng)為8 cm。
為了進(jìn)一步驗(yàn)證該算法的有效性,將未利用關(guān)節(jié)點(diǎn)關(guān)注的基于RGB視頻的運(yùn)動(dòng)特征圖和利用關(guān)節(jié)點(diǎn)關(guān)注的基于RGB視頻的關(guān)節(jié)點(diǎn)關(guān)注運(yùn)動(dòng)特征圖在NTU RGB+D數(shù)據(jù)庫(kù)下做訓(xùn)練測(cè)試,對(duì)比分析關(guān)節(jié)點(diǎn)關(guān)注對(duì)識(shí)別結(jié)果的影響。二者混淆矩陣如圖4所示。
圖4 混淆矩陣對(duì)比圖
分析以上動(dòng)作可知,VGG19網(wǎng)絡(luò)下,偷竊、靠近和遠(yuǎn)離動(dòng)作達(dá)到了100%的準(zhǔn)確率,對(duì)于未利用關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注時(shí)不能較好分辨的指和拍、傳遞和握手等相似動(dòng)作,利用關(guān)節(jié)點(diǎn)關(guān)注都有了不同程度的提升。因此,合理利用關(guān)節(jié)點(diǎn)數(shù)據(jù)對(duì)RGB運(yùn)動(dòng)特征進(jìn)行關(guān)注,可以加強(qiáng)運(yùn)動(dòng)特征的表達(dá),從而提高雙人交互行為識(shí)別的準(zhǔn)確率。
為了驗(yàn)證本文提出模型的有效性,將本文實(shí)驗(yàn)結(jié)果與其他方法在NTU RGB+D數(shù)據(jù)庫(kù)下進(jìn)行實(shí)驗(yàn)的結(jié)果對(duì)比,如表2所示。
表2 本文模型與其他模型算法結(jié)果對(duì)比
本文提出的算法優(yōu)于大多數(shù)文獻(xiàn)的識(shí)別方法,包括單獨(dú)使用關(guān)節(jié)點(diǎn)特征識(shí)別方法[11]、結(jié)合關(guān)節(jié)點(diǎn)數(shù)據(jù)和RGB視頻的雙流識(shí)別方法[16]及關(guān)節(jié)點(diǎn)數(shù)據(jù)引導(dǎo)RGB特征的SGM-Net識(shí)別方法[18]。本文提出算法不僅具有有效性,且框架簡(jiǎn)單,實(shí)用性強(qiáng)。
本文結(jié)合RGB視頻和關(guān)節(jié)點(diǎn)數(shù)據(jù)的各自特點(diǎn),利用三維關(guān)節(jié)點(diǎn)數(shù)據(jù)加強(qiáng)對(duì)RGB運(yùn)動(dòng)特征的關(guān)注,以突出主要運(yùn)動(dòng)部位,RGB視頻缺失的三維運(yùn)動(dòng)信息由關(guān)節(jié)點(diǎn)數(shù)據(jù)補(bǔ)充,關(guān)節(jié)點(diǎn)數(shù)據(jù)缺少的外觀輪廓信息由RGB視頻彌補(bǔ),恰好形成互補(bǔ)作用。本文提出的基于關(guān)節(jié)點(diǎn)數(shù)據(jù)關(guān)注RGB視頻的雙人交互行為識(shí)別統(tǒng)一框架,在國(guó)際公認(rèn)的NTU RGB+D數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練和測(cè)試,結(jié)果均表明本算法具有較好的遷移性和實(shí)時(shí)性。