劉 云 薛盼盼 李 輝 王傳旭
(青島科技大學信息科學技術(shù)學院 青島 266061)
人類行為識別是計算機視覺的一個重要分支,在很多方面都有廣泛應(yīng)用,例如智能監(jiān)控、人機交互、視頻檢索和運動分析[1]。目前,已有一些學者對行為識別進行了綜述,比如朱煜等人[2]、羅會蘭等人[3]、張會珍等人[4]、Zhu等人[5],這些綜述文章無論是側(cè)重于傳統(tǒng)行為識別方法還是側(cè)重于深度學習行為識別方法,所利用的信息多是RGB(Red(紅色)、Green(綠色)、Blue(藍色))數(shù)據(jù)和深度數(shù)據(jù),沒有專門針對關(guān)節(jié)點信息行為識別進行系統(tǒng)的歸納總結(jié)。近年來,關(guān)節(jié)點數(shù)據(jù)的獲取隨著低成本設(shè)備的發(fā)展更加容易,例如Microsoft Kinect[6]。隨著深度學習的發(fā)展,利用關(guān)節(jié)點數(shù)據(jù)進行行為識別的研究取得了豐碩成果,但目前在該領(lǐng)域的系統(tǒng)歸納較少。與RGB數(shù)據(jù)和深度數(shù)據(jù)相比,關(guān)節(jié)點本身是人體的高級特征,不易受外觀影響,同時能夠更好地避免背景遮擋、光照變化以及視角變化產(chǎn)生的噪聲影響,同時在計算和存儲方面也是有效的[7]。利用關(guān)節(jié)點數(shù)據(jù)進行行為識別從發(fā)展歷程上主要分為兩大類:基于手工特征的方法和基于深度學習的方法。傳統(tǒng)的利用關(guān)節(jié)數(shù)據(jù)進行行為識別是基于手工特征[8—10]。
關(guān)節(jié)點數(shù)據(jù)通常表示為一系列點的坐標向量,在不同的深度學習網(wǎng)絡(luò)和算法中,關(guān)節(jié)點數(shù)據(jù)一般表示為偽圖像、向量序列和拓撲圖,不同的深度學習主干網(wǎng)絡(luò)架構(gòu)適合處理的數(shù)據(jù)表示方式也不同。通常來說,基于深度學習算法的改進主要是針對3個方面:數(shù)據(jù)處理方式、網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)融合方式。數(shù)據(jù)處理方式主要表現(xiàn)為是否進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)降噪的方法,不同技術(shù)之間的數(shù)據(jù)融合方式也較為相似,對研究工作區(qū)分較大的是網(wǎng)絡(luò)架構(gòu),因此本文也將根據(jù)主干網(wǎng)絡(luò)架構(gòu)的不同對關(guān)節(jié)點行為識別方法進行歸納總結(jié)。
在深度學習背景下,關(guān)節(jié)點行為識別是針對已剪輯好的包含關(guān)節(jié)點位置數(shù)據(jù)的視頻片段進行的特征提取和識別。常見處理關(guān)節(jié)點數(shù)據(jù)的深度學習方法有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、圖卷積網(wǎng)絡(luò),對應(yīng)的關(guān)節(jié)點數(shù)據(jù)的表示方式為偽圖像、向量序列和拓撲圖。本節(jié)按照主干網(wǎng)絡(luò)將基于深度學習的關(guān)節(jié)點行為識別方法分為基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別、基于圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點行為識別和基于混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別。圖1為基于深度學習的關(guān)節(jié)點行為識別流程圖。首先原始的關(guān)節(jié)點數(shù)據(jù)輸入網(wǎng)絡(luò),其中橫軸方向表示關(guān)節(jié)點的編號,縱軸方向的(x,y,z)表示關(guān)節(jié)點的3維坐標,豎軸方向表示時間幀,然后將其饋送到不同的網(wǎng)絡(luò)模型中進行行為特征的提取,最終得到行為識別結(jié)果。
圖1 基于深度學習的關(guān)節(jié)點行為識別流程圖
CNN提供了一種有效的網(wǎng)絡(luò)架構(gòu),可以在大型數(shù)據(jù)集中提取人體行為特征,這些特征可通過從數(shù)據(jù)中學習到的局部卷積濾波器或內(nèi)核來識別?;贑NN的方法分別將時間幀和骨架關(guān)節(jié)的位置坐標編碼為行和列,然后將數(shù)據(jù)饋送到CNN中進行行為識別,類似于圖像分類。圖2為基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別流程圖。首先將原始的關(guān)節(jié)點數(shù)據(jù)輸入到行為識別網(wǎng)絡(luò)中,一般為了方便使用基于CNN的網(wǎng)絡(luò)做特征提取會將關(guān)節(jié)點數(shù)據(jù)進行轉(zhuǎn)置映射到圖像中,其中行表示不同的關(guān)節(jié),列表示不同的幀,(x,y,z)的3D坐標值被視為圖像的3個通道,然后進行卷積操作。卷積展開的作用是將多維的數(shù)據(jù)1維化,該環(huán)節(jié)是卷積操作和全連接之間的常用過渡方式。全連接是在整個卷積神經(jīng)網(wǎng)絡(luò)中起到“分類器”的作用,也就是將學到的特征空間表示映射到樣本標記空間。最后經(jīng)過這一系列的操作就能夠得到行為識別的結(jié)果。
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別流程圖
2017年Kim等人[12]提出一種殘差時間卷積網(wǎng)絡(luò)用于關(guān)節(jié)點行為識別,該網(wǎng)絡(luò)框架是一種明確學習易于解釋的3D人類行為識別的時空表示方法。殘差時間卷積是在CNN的基礎(chǔ)上設(shè)計的,網(wǎng)絡(luò)由1維卷積的堆疊單元構(gòu)成,并且能夠在時間和空間上分配不同程度的注意力,但是該方法的識別精度一般。同年Li等人[13]采用雙流CNN架構(gòu)組合人體關(guān)節(jié)的位置和速度信息,同時引入了一種新的骨架變換器模塊,實現(xiàn)了重要骨架節(jié)點的自動重新排列和選擇,該方法較高的識別準確率證明了CNN模擬時間模式的能力。Liu等人[14]提出視圖不變方法,不僅消除視圖變化的影響還能保留原始關(guān)節(jié)數(shù)據(jù)中的運動特征,同時提出一種增強的骨架可視化方法用于視圖不變的人體行為識別。Ke等人[15]于2017年最先將遷移學習應(yīng)用于關(guān)節(jié)點行為識別中。同年Ke等人[16]又進一步將原始關(guān)節(jié)點數(shù)據(jù)轉(zhuǎn)換為3個灰度圖像片段,灰度圖像是使用關(guān)節(jié)與參考關(guān)節(jié)之間的相對位置生成的,這與Li等人[13]的轉(zhuǎn)換方法類似,Ke等人[16]所提出的方法首先將每個骨架序列轉(zhuǎn)換成3個片段,每個片段由幾幀組成,用于使用深度CNN進行空間時間特征學習,識別準確率提高了約4%。由于先前的研究并未完全利用人體行為中視頻片段之間的時間關(guān)系,Le等人[17]在2018年提出了一種新的框架,該框架首先將骨架序列分割為不同的時間段,然后利用從細到粗的CNN架構(gòu)同時提取關(guān)節(jié)點序列的時間和空間特征。該網(wǎng)絡(luò)架構(gòu)較淺,能夠一定程度上避免數(shù)據(jù)量不足的問題,從表1可以看出,在SBU這種不是特別大的數(shù)據(jù)集上識別精度很好,達到了99.1%。Li等人[18]提出層次共現(xiàn)網(wǎng)絡(luò),首先將每個關(guān)節(jié)點進行單獨的編碼,用CNN獨立地學習每個關(guān)節(jié)點的點水平特征,然后將每個關(guān)節(jié)都視為CNN的通道來學習層次共現(xiàn)特征,其行為識別準確率超越了大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別方法。劉庭煜等人[19]針對生產(chǎn)車間工作人員行為識別與智能監(jiān)控問題提出一種基于關(guān)節(jié)點數(shù)據(jù)的生產(chǎn)行為識別方法,首先將預(yù)處理好的人體關(guān)節(jié)點數(shù)據(jù)合并成人體行為的時空特征RGB圖像,然后送入3維深度卷積神經(jīng)網(wǎng)絡(luò)中,該方法具有較高實用價值,并且在數(shù)據(jù)集MSR Action3D上的準確率可以達到84.27%。針對復(fù)雜的交互動作識別準確率不夠高的問題,姬曉飛等人[20]提出一種基于RGB和關(guān)節(jié)點數(shù)據(jù)雙流信息融合的卷積神經(jīng)網(wǎng)絡(luò),其中RGB視頻信息在送入卷積神經(jīng)網(wǎng)絡(luò)之前進行關(guān)鍵幀的提取縮短了訓練時間,雙流信息的融合提高了識別準確率。Yan等人[21]提出基于姿態(tài)的行為識別網(wǎng)絡(luò),該網(wǎng)絡(luò)是一個簡潔3維CNN框架,由空間姿態(tài)CNN、時序姿態(tài)CNN和動作CNN 3個語義模塊組成,可以作為另一個語義流與RGB流和光學流互補,該網(wǎng)絡(luò)框架較為簡潔,但是準確率一般,在JHMDB數(shù)據(jù)集上的準確率僅為69.5%。Caetano等人[22,23]、Li等人[24]從設(shè)計新的骨架表示圖像入手,其中Caetano等人[22]提出一種基于樹結(jié)構(gòu)和參考關(guān)節(jié)的3維行為識別的骨架圖像表示方法,在JHMDB數(shù)據(jù)集上的識別準確率與Yan等人[21]所提出方法相同。Caetano等人[23]又引入了一種新的方法通過計算骨架關(guān)節(jié)的運動幅度和方向值來編碼時間動態(tài),使用不同的時間尺度來計算關(guān)節(jié)的運動值能夠有效過濾噪聲運動值。Li等人[24]是用集合代數(shù)的方式對骨架關(guān)節(jié)信息進行重新編碼。Yang等人[25]提出了一個輕量級的網(wǎng)絡(luò)框架,該網(wǎng)絡(luò)由多個卷積神經(jīng)網(wǎng)絡(luò)組合而成,大大提高了速度,但是識別精度和其他方法相比較低。主干網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作如表1所示。
表1 主干網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以處理長度可變的序列數(shù)據(jù),長短期記憶模型(Long Short Term Memory,LSTM)是一種變種的RNN,由于其細胞狀態(tài)能夠決定哪些時間狀態(tài)應(yīng)該被留下哪些應(yīng)該被遺忘,所以在處理關(guān)節(jié)點視頻這種時序數(shù)據(jù)時有更大優(yōu)勢,從而被較多地應(yīng)用到關(guān)節(jié)點行為識別中,圖3為基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識別流程圖。首先將關(guān)節(jié)點數(shù)據(jù)表示為向量序列,每一個向量序列包含一個時間幀上的所有關(guān)節(jié)點的位置信息;然后將向量序列送入以循環(huán)神經(jīng)網(wǎng)絡(luò)為主干的行為識別網(wǎng)絡(luò)中;最后得到行為識別的結(jié)果。
Shahroudy等人[26]在2016年提出了NTU RGB+D數(shù)據(jù)集,同時提出了一種新的遞歸神經(jīng)網(wǎng)絡(luò)來模擬每個身體部位特征的長期時間相關(guān)性進行關(guān)節(jié)點數(shù)據(jù)的行為識別,可以更有效并且直觀地保持每個身體部位的上下文信息,但是識別準確率不高,在NTU RGB+D數(shù)據(jù)集上跨表演者模式(Cross Sbuject,CS)的準確率是62.9%,跨視角模式(Cross View,CV)的準確率是70.3%。該文獻為之后利用NTU RGB+D數(shù)據(jù)集進行行為識別研究的方法提供了對比的基準。Liu等人[27]提出一種基于信任門的長短期記憶模型(SpatioTemporal-Long Short Term Memory, ST-LSTM),信任門模塊能夠降低關(guān)節(jié)點數(shù)據(jù)的噪聲,提高行為識別的準確率。Liu等人[28]又在ST-LSTM的基礎(chǔ)上做了進一步的改進,在LSTM中加入一種新穎的多模式特征融合策略,使在多個標準數(shù)據(jù)集上的準確率(比如NTU RGB+D和UK-Kinect)都有較大提升,其中在NTU RGB+D數(shù)據(jù)集上的準確率提高了約3%。2017年Liu等人[29]提出全局上下文感知長短期記憶模型框架(Global Context-aware Attention Long Short Term Memory networks, GCA-LSTM),該框架主要由兩層LSTM構(gòu)成,第1層生成全局的背景信息,第2層加入注意力機制,更好地聚焦每一幀的關(guān)鍵關(guān)節(jié)點從而提高行為識別準確率。同年Liu等人[30]又在GCA-LSTM的基礎(chǔ)上進行了擴展,加入粗粒度和細粒度的注意力機制,識別準確率在NTU RGB+D數(shù)據(jù)集上約提高了3%,在UK-Kinect數(shù)據(jù)集上提高了約1%。Zheng等人[31]提出了一種雙流注意力循環(huán)LSTM網(wǎng)絡(luò),如圖4所示。循環(huán)關(guān)系網(wǎng)絡(luò)學習單個骨架中的空間特征,多層LSTM學習骨架序列中的時間特征。該雙流的網(wǎng)絡(luò)中,一個網(wǎng)絡(luò)輸入的是原始關(guān)節(jié)點數(shù)據(jù),另一個網(wǎng)絡(luò)輸入的是成對關(guān)節(jié)之間的連線數(shù)據(jù),關(guān)節(jié)點數(shù)據(jù)強調(diào)絕對位置,連線數(shù)據(jù)強調(diào)相對位置。在每個流中,首先增加每個關(guān)節(jié)點或關(guān)節(jié)連線數(shù)據(jù)的維數(shù),然后發(fā)送給RNN用于提取單個骨架中的空間特征,同時生成一個可學習的掩碼將更多注意力集中在骨架的潛在區(qū)分部分,再使用多層LSTM學習骨架序列的時間特征,最后以加權(quán)平均運算作為融合策略,以合并來自兩個流的預(yù)測。該網(wǎng)絡(luò)能更加有效地利用豐富的結(jié)構(gòu)或關(guān)節(jié)信息,準確率較高。Li等人[32]提出了一個獨立遞歸神經(jīng)網(wǎng)絡(luò)(Independently Recurrent Neural Network, IndRNN),不同層之間的神經(jīng)元之間跨層連接,同一層中的神經(jīng)元彼此獨立,能更好地在網(wǎng)絡(luò)較深的情況下防止梯度爆炸和梯度消失。王佳鋮等人[33]針對車間作業(yè)行為識別問題提出了基于工件注意力的車間行為在線識別模型,不僅通過將人的關(guān)節(jié)點信息輸入以門控循環(huán)單元為基礎(chǔ)的模型對行為動作進行分類,還同時將工件的語義特征作為注意力融入進去,該方法有利于提高車間數(shù)字化管理能力,最終在自建數(shù)據(jù)集上準確率為88.5%,但是在標準數(shù)據(jù)集IXMAS上準確率僅為29.8%,這說明該方法適用性較差。主干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作如表2所示。
圖3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為識別流程圖
圖4 雙流長短期記憶模型框架[31]
表2 主干網(wǎng)絡(luò)為循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作
人體骨架關(guān)節(jié)本身是一種拓撲圖,卷積神經(jīng)網(wǎng)絡(luò)無法直接處理這種非歐幾里得結(jié)構(gòu)的數(shù)據(jù),因為拓撲圖中每個點的相鄰頂點數(shù)目可能不同,難以用一個同樣大小的卷積核進行卷積計算,而圖卷積神經(jīng)網(wǎng)絡(luò)能夠直接處理這種拓撲圖。圖5為基于圖卷積網(wǎng)絡(luò)的行為識別流程圖。首先將關(guān)節(jié)點數(shù)據(jù)表示為拓撲圖,在空間域上頂點由空間邊緣線連接,在時域上相鄰幀之間對應(yīng)關(guān)節(jié)由時間邊緣線連接,每個關(guān)節(jié)點的屬性特征是空間坐標向量;然后將拓撲圖輸入以圖卷積網(wǎng)絡(luò)為主干的行為識別網(wǎng)絡(luò)中,最終得到行為識別的結(jié)果。
Yan等人[34]使用圖卷積進行關(guān)節(jié)點行為識別能夠形成骨架關(guān)節(jié)的層次表示得到較好的識別結(jié)果,但由于感受野較小,難以學習無物理聯(lián)系的關(guān)節(jié)之間的關(guān)系。Shi等人[35]、Li等人[36]都在試圖克服這些問題,Shi等人[35]提出的雙流自適應(yīng)圖卷積網(wǎng)絡(luò),骨架關(guān)節(jié)的拓撲圖可以用BP算法自適應(yīng)地學習,增加圖形構(gòu)建模型的靈活性。該雙流框架不僅利用骨架數(shù)據(jù)的1階信息(關(guān)節(jié)點信息),還利用骨架的2 階信息(骨骼的長度和方向),在N T U RGB+D數(shù)據(jù)集上準確率較Yan等人[34]的方法提高了約7%。Li等人[36]提出了一種編碼器-解碼器的方法來捕獲隱含的關(guān)節(jié)相關(guān)性以及使用鄰接矩陣的高階多項式獲取關(guān)節(jié)之間的物理結(jié)構(gòu)鏈接。Gao等人[37]將圖形回歸用于基于骨架的行為識別,對于圖卷積而言,圖形的表示很重要,圖形回歸的方法能夠優(yōu)化時空幀的基礎(chǔ)圖形,充分利用人體關(guān)節(jié)之間空間上物理和非物理的依賴關(guān)系以及連續(xù)幀上的時間連通性。Li等人[38]提出一種時空圖卷積方法,能夠?qū)⒆曰貧w滑動平均序列學習能力與局部卷積濾波器結(jié)合。對于每個幀構(gòu)造無向圖,其中僅按照人體關(guān)節(jié)的自然連接構(gòu)造圖,無時間連通性,在NTU RGB+D上的識別準確率CS和CV分別為74.9%和86.3%, 與其他方法相比準確率較低。Tang等人[39]提出深度漸進強化學習方法,該方法可以提取關(guān)鍵幀,然后用圖卷積網(wǎng)絡(luò)進行行為識別,行為識別的準確率一般,但是提高了訓練效率。在實際應(yīng)用中經(jīng)常遇到關(guān)節(jié)點信息缺失的問題,大多數(shù)的基于關(guān)節(jié)點行為識別的模型都是針對完整的骨架數(shù)據(jù),但是真實場景中可能會出現(xiàn)部分關(guān)節(jié)點信息缺失的情況,Song等人[40]提出針對不完整骨架的行為識別的激活圖卷積網(wǎng)絡(luò),以提高圖卷積網(wǎng)絡(luò)在關(guān)節(jié)點行為識別中的魯棒性。Peng等人[41]提出將神經(jīng)體系結(jié)構(gòu)搜索用于構(gòu)建圖卷積網(wǎng)絡(luò),該搜索策略中將交叉熵演化策略與重要性混合方法相結(jié)合,提高了采樣效率和存儲效率。Wu等人[42]提出將空間殘差層和密集連接塊增強引入時空圖卷積網(wǎng)絡(luò),這種方法能夠提高時空信息的處理效率,并且也容易與主流時空圖卷積方法結(jié)合。Shi等人[43]在雙流自適應(yīng)圖卷積網(wǎng)絡(luò)[35]的基礎(chǔ)上進行改進,將骨架數(shù)據(jù)表示為基于自然人體關(guān)節(jié)和骨骼之間運動依賴的有向無環(huán)圖,準確率提升了約1%。Li等人[44]提出了一種新穎的共生圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)不僅包含行為識別的功能模塊,還包含動作預(yù)測模塊,兩個模塊相互促進,顯著提高了行為識別和動作預(yù)測的準確率,在NTU RGB+D數(shù)據(jù)集上CS和CV的準確率均超過90%。Yang等人[45]提出一個帶有時間和通道注意力機制的偽圖卷積網(wǎng)絡(luò),通過這種方式不僅能提取關(guān)鍵幀,還能篩選出包含更多特征的輸入幀。行為識別性能優(yōu)于大多數(shù)方法,但仍存在問題,因為幀數(shù)遠遠大于通道數(shù),可能會導(dǎo)致省略一些關(guān)鍵信息。圖卷積網(wǎng)絡(luò)雖然能提高識別的準確率,但計算較復(fù)雜,計算速度也較慢,Wu等人[46]、Chen等人[47]更關(guān)注提高圖卷積網(wǎng)絡(luò)的速度,其中Wu等人[46]所提到的方法比Chen等人[47]所提到的方法產(chǎn)生高達兩個數(shù)量級的加速。主干網(wǎng)絡(luò)為圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作如表3所示。
圖5 基于圖卷積網(wǎng)絡(luò)的行為識別流程圖
與以上3種主干網(wǎng)絡(luò)架構(gòu)相比,基于混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別的研究充分利用了卷積神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)在空間域上特征提取的能力以及循環(huán)神經(jīng)網(wǎng)絡(luò)在時序分類的優(yōu)勢,能夠得到較好的行為識別結(jié)果。圖6為基于混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別流程圖。首先將原始的關(guān)節(jié)點數(shù)據(jù)根據(jù)不同的混合網(wǎng)絡(luò)的需要進行相應(yīng)的關(guān)節(jié)點表示;然后將其饋送進混合網(wǎng)絡(luò)中,混合網(wǎng)絡(luò)的主干網(wǎng)絡(luò)一般會包含卷積神經(jīng)網(wǎng)絡(luò)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)、圖卷積網(wǎng)絡(luò)中的兩個或更多;最終將提取到的行為特征進行行為分類得到行為識別結(jié)果。
Zhang等人[48]提出了一種視圖自適應(yīng)方案,根據(jù)該方案設(shè)計了兩個視圖自適應(yīng)神經(jīng)網(wǎng)絡(luò),分別基于LSTM和CNN,視圖自適應(yīng)子網(wǎng)會在識別期間自動確定最佳的虛擬觀察視點。視圖自適應(yīng)神經(jīng)網(wǎng)絡(luò)由兩大部分組成,一個是由視圖自適應(yīng)子網(wǎng)和主LSTM組成的視圖自適應(yīng)循環(huán)網(wǎng)絡(luò),將新的視點下的關(guān)節(jié)點表示送入主LSTM網(wǎng)絡(luò)確定行為識別,如圖7所示;還有一個是由視圖自適應(yīng)子網(wǎng)和主CNN組成的視圖自適應(yīng)卷積網(wǎng)絡(luò),將新的觀察視點下的關(guān)節(jié)點表示送入主CNN中確定行為類別。分階段訓練完之后,再將兩部分網(wǎng)絡(luò)的分類分數(shù)融合預(yù)測。該方法不僅減弱了視角不同對行為識別結(jié)果的影響,同時利用了CNN擅長提取空間域特征和循環(huán)神經(jīng)網(wǎng)絡(luò)擅長提取時間域行為特征的優(yōu)勢,得到了較好的行為識別結(jié)果。Hu等人[49]不僅考慮時間域和空間域行為特征的提取,還提出了一種殘差頻率注意力方法,主要用來學習頻率模式,該文獻所提出的網(wǎng)絡(luò)框架可以看作CNN的變體和圖雜交方法結(jié)合,取得了較高的行為識別準確率。Si等人[50,51]、Gao等人[52]都是采用圖卷積和LSTM相結(jié)合的方式進行關(guān)節(jié)點的行為識別研究,圖卷積更加擅長空間域的特征提取,LSTM更加擅長時間域的特征提取。Si等人[51]所提出的注意力增強圖卷積LSTM網(wǎng)絡(luò)(Attention enhanced Graph Convolutional Long Short Term Memory network, AGC-LSTM),不僅可以提取空間域和時間域的行為特征,還通過增加頂層AGC-LSTM層的時間接受域來增強學習高級特征的能力,從而降低計算成本。Gao等人[52]提出基于雙向注意力圖卷積網(wǎng)絡(luò),利用聚焦和擴散機制從人類關(guān)節(jié)點數(shù)據(jù)中學習時空上下文信息,取得了非常好的實驗結(jié)果,其中在NTU RGB+D數(shù)據(jù)集上的準確率達到國內(nèi)外領(lǐng)先水平。Zhang等人[53]將關(guān)節(jié)的語義(幀索引和關(guān)節(jié)類型)作為網(wǎng)絡(luò)輸入的一部分與關(guān)節(jié)的位置和速度一同饋送進語義感知圖卷積層和語義感知卷積層,通過實驗證明,利用語義信息能夠降低模型復(fù)雜度和提高行為識別的準確率。利用關(guān)節(jié)點數(shù)據(jù)進行行為識別時,骨架關(guān)節(jié)的復(fù)雜時空變化糾纏在一起,Xie等人[54]提出一種時間空間重新校準方案來緩解這種復(fù)雜的變化,這是第1次為關(guān)節(jié)點行為識別開發(fā)RNN+CNN網(wǎng)絡(luò)框架。Weng等人[55]提出一種可變形姿態(tài)遍歷卷積網(wǎng)絡(luò),在執(zhí)行遍歷卷積時通過考慮不同權(quán)重的上下文關(guān)節(jié)來優(yōu)化每個關(guān)節(jié)的卷積核大小,對嘈雜的關(guān)節(jié)更具有魯棒性,然后將學習的姿勢饋送到LSTM共同優(yōu)化姿勢表征和時間序列。主干網(wǎng)絡(luò)為混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作如表4所示。
表3 主干網(wǎng)絡(luò)為圖卷積網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作
圖6 基于混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別流程圖
圖7 視圖自適應(yīng)循環(huán)神經(jīng)網(wǎng)絡(luò)[48]
表4 主干網(wǎng)絡(luò)為混合網(wǎng)絡(luò)的關(guān)節(jié)點行為識別及代表性工作
近年來,深度學習的快速發(fā)展使數(shù)據(jù)驅(qū)動學習在行為識別領(lǐng)域取得了較好的成果,大規(guī)模的數(shù)據(jù)集的提出對深度學習的發(fā)展有著重大意義。在基于深度學習的關(guān)節(jié)點行為識別的研究中,相關(guān)數(shù)據(jù)集的發(fā)展也同樣起著較大的推動作用。在關(guān)節(jié)點行為識別研究中常用的數(shù)據(jù)集主要分為兩大類,一類是利用Kinect攝像機獲取多模態(tài)行為識別數(shù)據(jù)集[9,26,56—69],另一類是從包含RGB信息的行為識別數(shù)據(jù)集[68,70,71]中用OpenPose工具箱估計每個關(guān)節(jié)點的位置[72]。早期的數(shù)據(jù)集規(guī)模較小,相對而言更適用于在深度學習出現(xiàn)之前的手工提取特征方法。同時早期的數(shù)據(jù)集還有其他的局限性,首先,由于表演者的數(shù)量較少和表演者的年齡范圍較窄導(dǎo)致行為的內(nèi)部變化非常有限;其次,行為類別數(shù)量較少,通過找到簡單的運動模式就可以容易地區(qū)分每個行為類別,使分類任務(wù)的挑戰(zhàn)性降低。為了滿足深度學習的需求,大規(guī)模數(shù)據(jù)集相繼出現(xiàn)。新加坡南洋理工大學在2016年公開了NTU RGB+D數(shù)據(jù)集,為國內(nèi)外進行行為識別研究提供了數(shù)據(jù)支撐;DeepMind公司在2017年公開了Kinects數(shù)據(jù),該數(shù)據(jù)集從You-Tube上收集,以HMDB-51[71]和UCF-101[73]為基準,具有較大的規(guī)模和較高的質(zhì)量。表5列舉了常用來做關(guān)節(jié)點行為識別的多模態(tài)數(shù)據(jù)集,接下來重點介紹在關(guān)節(jié)點行為識別研究中常用的大規(guī)模數(shù)據(jù)集[26,68,69]。
表5 關(guān)節(jié)點行為識別數(shù)據(jù)集簡介
NTU RGB+D數(shù)據(jù)集是由新加坡南洋理工大學制作并整理而成的,于2016年公開。深度傳感器的出現(xiàn)使獲取物體和人體有效的3D結(jié)構(gòu)的成本大大降低[74],該數(shù)據(jù)集是由3個深度攝像機Microsoft Kinect v2在室內(nèi)拍攝完成的。3個攝像機的水平方向一致,角度分別為—45°, 0°, 45°。包含了25個主要的身體關(guān)節(jié)的3D位置,如圖8所示[26],關(guān)節(jié)點位置對照表如表6所示。數(shù)據(jù)集包含有超過56000個視頻樣本和400萬幀,有40個表演者,60種不同的動作類,涉及日常動作40項(包括飲酒、飲食、閱讀等)、交互動作11項(包括拳打腳踢、擁抱等)、與健康相關(guān)的動作9項(包括打噴嚏、蹣跚、摔倒等),數(shù)據(jù)集示例如圖9所示[26]。該數(shù)據(jù)集有302個樣本關(guān)節(jié)點數(shù)據(jù)不完整,在進行關(guān)節(jié)點行為識別時可以忽略。
圖8 人體關(guān)節(jié)點示意圖[26]
表6 關(guān)節(jié)點位置對照表
Kinects數(shù)據(jù)集取自YouTube視頻,每段動作剪輯約10 s,包含400個動作類,每個動作類由400~1150個視頻剪輯。動作涵蓋范圍較廣,包含人與物的交互、人與人的交互、單人動作。利用公開的Openpose工具箱能夠在Kinects數(shù)據(jù)集提取18個關(guān)節(jié)點位置(X,Y,C),其(X,Y )為關(guān)節(jié)點的2維位置坐標,C是位置坐標的置信度,關(guān)節(jié)框架被記錄為18個元組的數(shù)組,圖10為Openpose工具箱提取關(guān)節(jié)點示意圖[72]。
NTU RGB+D 120數(shù)據(jù)集在NTU RGB+D數(shù)據(jù)集的基礎(chǔ)上擴充到了120個動作,動作的種類未發(fā)生變化,每個動作類包含的動作個數(shù)均有增加,日常動作增加到了82個(包括吃、寫、坐下、移動物體等),與健康有關(guān)的動作增加到了12個(包括吹鼻子、嘔吐、蹣跚、跌倒等),交互的動作增加到了26個(包括握手、推、打、擁抱等)。與NTU RGB+D數(shù)據(jù)集相比,該數(shù)據(jù)集行為識別的難度有所增加。
常見行為識別準確率的評估標準為Top1和Top5。模型預(yù)測某個行為類別的準確率時,如M2I數(shù)據(jù)集包含行為類別有22個,模型會給出22個按概率從高到低的類別排名。其中Top1的準確率為排名第1的類別與實際結(jié)果相符的準確率,Top5的準確率為排名前5類別中包含實際結(jié)果的準確率。一般一種模型在一個數(shù)據(jù)集上實驗結(jié)果的準確率Acc即為Top1的準確率。NTU RGB+D和NTU RGB+D 120數(shù)據(jù)集經(jīng)常出現(xiàn)CS和CV兩種測試模式,其中CS為跨表演者測試中Top1的準確率,CV為跨視角測試中Top1的準確率。Kinects數(shù)據(jù)集較為特殊,對其而言Top5比Top1更有說服力,因為該數(shù)據(jù)集中一段視頻可能包含多個動作但是標簽僅標注一個動作,因此在表1—表4中Kinects數(shù)據(jù)集上的實驗結(jié)果同時包含Top1和Top5。
圖9 NTU RGB+D數(shù)據(jù)集示例[26]
圖10 Openpose提取關(guān)節(jié)點示意圖[72]
本文通過對基于深度學習的關(guān)節(jié)點行為識別進行總結(jié)和分析,得出以下結(jié)論:
(1) 關(guān)節(jié)點數(shù)據(jù)一般有3種表示方式:偽圖像、向量序列和拓撲圖。卷積神經(jīng)網(wǎng)絡(luò)適合處理偽圖像,循環(huán)神經(jīng)網(wǎng)絡(luò)適合處理向量序列,圖卷積網(wǎng)絡(luò)適合處理拓撲圖。從表1—表4可知,在NTU RGB+D數(shù)據(jù)集上僅包含圖卷積的方法比僅比包含卷積神經(jīng)網(wǎng)絡(luò)的方法平均準確率高約5%,比僅包含循環(huán)神經(jīng)網(wǎng)絡(luò)的方法高約10%,證明了圖卷積在關(guān)節(jié)點行為識別方面的優(yōu)越性,這是因為人體關(guān)節(jié)點所構(gòu)成的骨架實質(zhì)上就是圖結(jié)構(gòu),但是通常包含圖卷積的網(wǎng)絡(luò)也更復(fù)雜。僅包含循環(huán)神經(jīng)網(wǎng)絡(luò)方法的識別準確率相對最低,因為行為動作在空間域上的變化幅度要大于在時間域上的,而循環(huán)神經(jīng)網(wǎng)絡(luò)更適合處理時序性問題?;诨旌暇W(wǎng)絡(luò)的關(guān)節(jié)點行為識別方法通常具有兩種或多種主干網(wǎng)絡(luò)的優(yōu)勢其準確率也較高,但同時網(wǎng)絡(luò)的復(fù)雜度也較高。
(2) 目前關(guān)節(jié)點行為識別方法在標準數(shù)據(jù)集上的準確率有大幅度提高,以NTU RGB+D數(shù)據(jù)集為例,已經(jīng)從CS和CV的準確率分別為62.9%和70.3%[26]提升到了90.3%和96.3%[52]。但實際應(yīng)用場景中可能會出現(xiàn)關(guān)節(jié)點的部分數(shù)據(jù)缺失或需要較高的訓練和測試速度以實現(xiàn)實時性,有些學者針對這些問題提出了解決方法,比如缺失關(guān)節(jié)點的激活[40]或者構(gòu)建輕量級的網(wǎng)絡(luò)[24],但目前準確率都一般。也有些研究是針對特殊的應(yīng)用場景,比如劉庭煜等人[19]針對車間工人行為識別,雖然在特定的場景中準確率較高,但適用性較差。
綜合當前基于深度學習的關(guān)節(jié)點行為識別方法的研究現(xiàn)狀,對今后的研究做出如下展望:
(1) 隨著5G時代的到來,數(shù)據(jù)信息的主要載體已經(jīng)從PC轉(zhuǎn)換到移動端,這有利用將關(guān)節(jié)點行為識別應(yīng)用于移動端。但是目前利用關(guān)節(jié)點進行行為識別的網(wǎng)絡(luò)模型均較為復(fù)雜,其中以循環(huán)神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)最為明顯,難以在實際應(yīng)用中推廣,因此期待未來能夠提出更加輕量級并且準確度較高的網(wǎng)絡(luò)。
(2) 關(guān)節(jié)點行為識別多應(yīng)用于無人駕駛、機器人以及醫(yī)療監(jiān)控等領(lǐng)域,行為識別系統(tǒng)在行為動作發(fā)生之后對行為進行識別。但是在某些應(yīng)用場景中人們更希望能夠進行行為預(yù)測,比如當無人駕駛系統(tǒng)預(yù)測到一個人有闖紅燈的行為時可以及時調(diào)整駕駛軌跡。Li等人[44]就利用關(guān)節(jié)點的行為預(yù)測進行了深入的研究,但是準確率有待提高,這也是未來的研究方向之一。
(3) 目前關(guān)節(jié)點行為識別的訓練數(shù)據(jù)多是剪輯好的視頻幀,無需進行動作檢測,但是在實際應(yīng)用中,能夠識別行為發(fā)生的時間段是有必要的,因此將關(guān)節(jié)點的動作檢測與行為識別相結(jié)合也有較高的研究價值。
(4) 深度學習需要大量的樣本進行訓練,但對數(shù)據(jù)集進行準確有效的標注是需要耗費大量人力物力的。無監(jiān)督學習可以利用無標簽的數(shù)據(jù)進行訓練,這將解決數(shù)據(jù)集標注所面臨的問題,具有較大的研究價值。
(5) 雖然很多關(guān)節(jié)點行為識別方法在標準數(shù)據(jù)集上識別的準確率很高,但是這些方法都是針對無遮擋的情況進行的,在實際的應(yīng)用場景中可能會出現(xiàn)部分關(guān)節(jié)點被遮擋的情況,現(xiàn)在的大部分方法在這種情況下的識別效果并不好,因此提高在有遮擋情況下的識別準確率有利于關(guān)節(jié)點行為識別與實際應(yīng)用的結(jié)合。