仇思宇 仇德成 趙國營
(1.武漢數(shù)字工程研究所,湖北 武漢 430200;2.河西學(xué)院信息技術(shù)與傳媒學(xué)院,甘肅 張掖 734000;3.中國人民解放軍32738部隊(duì)信息服務(wù)室,河南 鄭州 450053)
動(dòng)作識(shí)別在計(jì)算機(jī)視覺中有重要的作用,并具有廣泛的應(yīng)用,例如人機(jī)交互,視頻監(jiān)視,機(jī)器人技術(shù),游戲控制等[1,2].通常,人體可以看作是具有剛性骨骼和鉸接關(guān)節(jié)的關(guān)節(jié)系統(tǒng),而人體的動(dòng)作可以表示為骨骼的運(yùn)動(dòng)[3].目前,基于低成本的深度傳感器與實(shí)時(shí)骨架估計(jì)算法[4,5],可以提供相對可靠的關(guān)節(jié)坐標(biāo),基于這些坐標(biāo),已經(jīng)開發(fā)出有效的動(dòng)作識(shí)別方法[3,6,7].
姿勢隨時(shí)間的動(dòng)態(tài)變化可以建模為時(shí)間序列問題,這對于連續(xù)的動(dòng)作識(shí)別至關(guān)重要[8-10].骨骼關(guān)節(jié)坐標(biāo)可用于表示人類的姿勢及其關(guān)于時(shí)間的演變.基于手工提取骨架特征[3,11,12]的方法具有依賴算法設(shè)計(jì)者對骨架和人體骨骼構(gòu)造的先驗(yàn)知識(shí)的缺點(diǎn),且在不同數(shù)據(jù)集中可能會(huì)使模型表現(xiàn)出不同的泛化性能,而基于深度學(xué)習(xí)技術(shù)的方法則可以彌補(bǔ)上述缺點(diǎn).當(dāng)前,主要有兩種使用深度學(xué)習(xí)技術(shù)來捕獲骨架序列中的時(shí)空信息的方法:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN).
卷積神經(jīng)網(wǎng)絡(luò)直接從骨架序列編碼的紋理圖像中提取信息. Wang P 等的文章中使用關(guān)節(jié)軌跡圖(JTM)將每個(gè)時(shí)間實(shí)例的身體聯(lián)合軌跡(位置、運(yùn)動(dòng)方向和運(yùn)動(dòng)幅度)編碼為HSV圖像[13].Hou Y等的文章提出在圖像中空間信息由位置表示、動(dòng)態(tài)信息由顏色表示[14].Li C等的文章采用骨架光學(xué)光譜(SOS)來編碼動(dòng)態(tài)時(shí)空信息[15],采用關(guān)節(jié)距離作為空間特征,并使用顏色條進(jìn)行顏色編碼.在圖像中,每一行紋理捕獲空間信息,而每一列紋理捕獲時(shí)間信息.當(dāng)前,用于編碼的空間特征相對簡單.
循環(huán)神經(jīng)網(wǎng)絡(luò)又稱遞歸神經(jīng)網(wǎng)絡(luò),采用循環(huán)神經(jīng)網(wǎng)絡(luò)來從提取的空間骨架特征中捕獲時(shí)間信息.由于信息的順序流動(dòng),性能很大程度上取決于提取的空間骨架特征的有效性.而且,時(shí)間信息很容易過分強(qiáng)調(diào),尤其是在訓(xùn)練數(shù)據(jù)不足時(shí),容易導(dǎo)致過擬合[13].
本文使用的方法如圖1所示,包括五個(gè)主要組成部分,即從輸入骨架序列中提取空間特征,關(guān)鍵特征選擇,從關(guān)鍵特征中進(jìn)行紋理彩色圖像編碼,卷積神經(jīng)網(wǎng)絡(luò)模塊預(yù)訓(xùn)練以及分?jǐn)?shù)融合的神經(jīng)網(wǎng)絡(luò)訓(xùn)練.
從關(guān)節(jié)時(shí)空位置提取出來的特征有多種,通過選擇特定的關(guān)節(jié)組合提取特征并進(jìn)行顏色編碼,可以產(chǎn)生多種紋理圖像.卷積神經(jīng)網(wǎng)絡(luò)會(huì)分別在每種圖像上進(jìn)行訓(xùn)練,訓(xùn)練后的卷積網(wǎng)絡(luò)作為特征提取模塊放置在網(wǎng)絡(luò)的前端.由兩層全連接層組成的分?jǐn)?shù)融合模塊作為網(wǎng)絡(luò)的后端,以完成最終的動(dòng)作識(shí)別.
圖1 多特征動(dòng)作識(shí)別模型整體結(jié)構(gòu)
本節(jié)研究的空間特征包括在Yang X和Tian YL的文章中介紹的絕對關(guān)節(jié)位置J 和相對關(guān)節(jié)位置Jr,以及在Zhang S等人的文章中介紹的關(guān)節(jié)-關(guān)節(jié)距離JJd 、關(guān)節(jié)-關(guān)節(jié)向量JJv 、關(guān)節(jié)-關(guān)節(jié)方向JJo 、關(guān)節(jié)-線距離JLd 和線-線角LLa[16-18],實(shí)驗(yàn)中使用J 、Jr、JJo、JLd 和LLa 作為姿態(tài)序列每一幀的特征.
通過選擇關(guān)鍵關(guān)節(jié)和關(guān)鍵線的方式可以減少組合數(shù)量來進(jìn)行特征選擇.關(guān)鍵關(guān)節(jié)和關(guān)鍵線的選擇遵循以下原則:所選特征應(yīng)包含盡可能多的信息,并且對于視點(diǎn)和動(dòng)作是不變的.基于運(yùn)動(dòng)主要位于骨架末端且通常是局部特征才具有識(shí)別力的觀點(diǎn)[17],我們采用Zhang S等人的方法從主要?jiǎng)幼鲌?zhí)行者中選擇39條線,得到612維JLd 特征和741維LLa 特征.
Li C等作者的文章中,彩色紋理圖像被用來編碼空間特征以捕獲動(dòng)作的時(shí)間信息[15].具體而言,圖像中的每一列代表一幀中的空間特征,而每一行代表特定特征的序列.給定具有T 幀的骨架序列,為每幀提取S 維特征,形成的S×T 的特征矩陣編碼為H×W 大小的彩色紋理圖像以作為網(wǎng)絡(luò)的輸入.
卷積模塊由多個(gè)卷積層和池化層順序組合而成.為防止過擬合,正則化和dropout等方法被應(yīng)用在神經(jīng)網(wǎng)絡(luò)中.
本文采用如圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)作為卷積模塊.給定一個(gè)測試骨架序列,將生成M 種類型的紋理圖像,并使用訓(xùn)練后的模型識(shí)別每種類型的紋理圖像.然后,通過乘法將卷積模塊的輸出(分?jǐn)?shù))融合為最終分?jǐn)?shù),這已得到了驗(yàn)證[19,20].融合過程如下:
其中s 是卷積模塊輸出的分?jǐn)?shù)向量,k 則代表動(dòng)作標(biāo)簽的序號(hào),而arg max(·)是用于找到最大元素的對應(yīng)序號(hào)的函數(shù).
圖2 預(yù)處理模塊網(wǎng)絡(luò)結(jié)構(gòu)
該模型在MSR Action3D 數(shù)據(jù)集上進(jìn)行了評估.該數(shù)據(jù)集包含用于動(dòng)作識(shí)別的深度點(diǎn)云和關(guān)節(jié)位置信息.它具有20 個(gè)不同動(dòng)作類別的560 個(gè)有效樣本,這些樣本是由20 位動(dòng)作執(zhí)行者執(zhí)行(每組執(zhí)行3次).此數(shù)據(jù)集具有挑戰(zhàn)性,且數(shù)據(jù)量較小,因此不額外劃分驗(yàn)證集,直接采用測試集作為驗(yàn)證集.實(shí)驗(yàn)采用跨目標(biāo)的方法評估模型的準(zhǔn)確性:即將50%的動(dòng)作執(zhí)行者的樣本劃分為測試集,剩余50%的動(dòng)作執(zhí)行者的樣本劃分為測試集.
表1 模型訓(xùn)練參數(shù)
實(shí)驗(yàn)環(huán)境是Google公司為深度學(xué)習(xí)研究者免費(fèi)提供的Colaboratory服務(wù)器.該服務(wù)器配備了Tesla T4 GPU,16GB顯存,16GB的內(nèi)存.實(shí)驗(yàn)?zāi)P驮诖谁h(huán)境下平均每批數(shù)據(jù)僅需計(jì)算353毫秒.訓(xùn)練中使用的模型訓(xùn)練參數(shù)見表1.
圖3 同一樣本不同特征的圖像編碼結(jié)果
表2 特征提取方法的精確度
表3 不同模型精確度對比
由圖3所展示的不同動(dòng)作的樣本生成的紋理圖像中可以得出,實(shí)驗(yàn)所選特征是具有辨別力的.
表2列出了各個(gè)特征提取方法進(jìn)行試驗(yàn)后的結(jié)果,以及分?jǐn)?shù)融合的結(jié)果.評估的五個(gè)特征,對每個(gè)特征都使用不同的關(guān)節(jié)、線的選擇方法進(jìn)行了評估.從表2中可以看出,基于單個(gè)結(jié)果和融合結(jié)果的比較,JJv 特征是最好的關(guān)節(jié)-關(guān)節(jié)特征.而JLd 是五種特征中最好的特征,這與Zhang S等人的結(jié)果相吻合.實(shí)驗(yàn)結(jié)果表明,對于此任務(wù),某些關(guān)節(jié)存在噪音.其他不同模型精確度對比結(jié)果在表3中,與基于手工特征的方法和基于深度學(xué)習(xí)的某些方法相比,本文所提出的方法精確度為81.31%,獲得了較好的結(jié)果.