盧健,李萱峰,趙博,周健
西安工程大學(xué)電子信息學(xué)院,西安 710600
隨著視頻獲取設(shè)備的普及和互聯(lián)網(wǎng)技術(shù)的發(fā)展,視頻數(shù)據(jù)的規(guī)模呈爆炸式增長,為視頻理解技術(shù)的快速發(fā)展提供了豐沃土壤(Turaga 等,2008;Das Dawn 和Shaikh,2016)。人類是社會活動的主體,視頻數(shù)據(jù)更多記錄的是人類的行為活動,如何利用海量的視頻數(shù)據(jù)理解人體行為具有重要的研究價值和廣泛的應(yīng)用需求。
行為識別的主要目標(biāo)是在輸入的包含一個或多個行為的數(shù)據(jù)中,正確地分析出行為的種類?;诠趋佬畔⒌男袨樽R別是一種以骨骼數(shù)據(jù)為建模對象的方法。骨骼數(shù)據(jù)通常由一組關(guān)鍵點組成,用于描述人體的姿態(tài)和動作,這些關(guān)鍵點對應(yīng)人體的關(guān)節(jié),如頭部、肩膀、手肘、手腕、膝蓋和腳踝等。此外,骨骼數(shù)據(jù)可以從高性能姿態(tài)估計算法或深度傳感器中方便獲取。與RGB 數(shù)據(jù)相比,骨骼信息具有以下優(yōu)點:1)特征表示明確。骨骼信息能夠清晰地表示出人體的結(jié)構(gòu),且對背景、服飾、光照和視角變化等具有很強(qiáng)的魯棒性。2)時空信息豐富。在單幀數(shù)據(jù)內(nèi),相鄰關(guān)節(jié)點之間的幾何連接意義明確,能夠表現(xiàn)出豐富的肢體信息。在相鄰幀之間,同一關(guān)節(jié)點的狀態(tài)具有很強(qiáng)的繼承性,存在豐富的依賴關(guān)系。3)數(shù)據(jù)量小。因其只包含描述人體關(guān)節(jié)點的坐標(biāo)信息,輕量簡潔,從而減小了研究負(fù)擔(dān)。
基于骨骼信息的行為識別取得了較大的研究進(jìn)展,但目前相關(guān)綜述性文章較少。Lo Presti 和La Cascia(2016)的工作作為第1 篇關(guān)于3D 骨骼的行為識別綜述,重點關(guān)注了傳統(tǒng)方法,并未涉及深度學(xué)習(xí)的方法。Ren 等人(2020)雖然對基于深度學(xué)習(xí)的骨骼行為識別方法進(jìn)行了綜述,但是有關(guān)圖卷積方法的介紹不夠全面,也未對相關(guān)數(shù)據(jù)集進(jìn)行歸納總結(jié)。王帥琛等人(2022)同時關(guān)注了多種模態(tài)信息的行為識別,分別從骨骼數(shù)據(jù)、深度數(shù)據(jù)和RGB 數(shù)據(jù)進(jìn)行了綜述,但未提及近期流行的Transformer 技術(shù)。本文首先探討了不同數(shù)據(jù)集的特點和用法;然后,將基于骨骼信息的行為識別方法分為基于手工制作特征的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法、基于圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)的方法以及基于Transformer的方法,系統(tǒng)地進(jìn)行了綜述,重點介紹了具有里程碑意義的、開創(chuàng)性以及突破性工作;最后討論了該領(lǐng)域目前存在的研究難點并針對性地提出工作展望。
為了評估行為識別方法的性能,研究者們創(chuàng)建了大量的公開數(shù)據(jù)集。早期的數(shù)據(jù)集主要以單視角為主,隨著深度學(xué)習(xí)的興起,尤其是人機(jī)交互方式的更新、無人駕駛技術(shù)的發(fā)展以及元宇宙概念的興起等因素促進(jìn)了研究者們對多視角數(shù)據(jù)集的研究。與單視角數(shù)據(jù)集相比,多視角數(shù)據(jù)集有以下特點:同一種行為在不同視角下所展現(xiàn)的特征是多樣的,通過多視角下同一行為對應(yīng)特征表示的一致性進(jìn)行信息互補(bǔ),可以彌補(bǔ)某一視角的觀測缺陷,從而學(xué)習(xí)到更加魯棒的行為表達(dá)。表1 和表2 分別給出了較為常用的兩類數(shù)據(jù)集。
表1 單視角數(shù)據(jù)集Table 1 Single-view datasets
表2 多視角數(shù)據(jù)集Table 2 Multi-view datasets
MSR Action3D(Microsoft Research Action 3D)數(shù)據(jù)集(Li 等,2010)是最早的基于深度傳感器的單視角行為數(shù)據(jù)集,該數(shù)據(jù)集提供深度圖像和20 個關(guān)節(jié)點的三維坐標(biāo)兩種模態(tài)信息。該數(shù)據(jù)集記錄了20 種行為類別,每種行為由10 人執(zhí)行2~3 次,總共567 個行為序列。MSR Action3D 數(shù)據(jù)集是一組無背景、純?nèi)梭w運(yùn)動的數(shù)據(jù),適合用于研究基于光流數(shù)據(jù)的行為識別方法。由于其圖像的分辨率較低,因此在超分辨的行為識別領(lǐng)域也具有一定的價值。該數(shù)據(jù)集的示例如圖1(a)所示。
圖1 單視角數(shù)據(jù)集示例圖Fig.1 Sample graph of single-view datasets((a)MSR Action3D dataset;(b)MSR Daily Activity 3D dataset;(c)3D Action Pairs dataset;(d)SYSU 3DHOI dataset)
MSR Daily Activity 3D(Microsoft Research Daily Activity 3D)(Wang等,2012)數(shù)據(jù)集是由Kinect v1深度傳感器采集的日?;顒訑?shù)據(jù)集,提供RGB 圖像、深度圖像和20 個關(guān)節(jié)點的三維坐標(biāo)3 種模態(tài)信息。該數(shù)據(jù)集記錄了16項日常行為,每種行為由10人完成,每個人以站姿、坐姿分別重復(fù)2次,總共320個視頻序列。MSR Daily Activity 3D 數(shù)據(jù)集的樣本數(shù)偏少,在訓(xùn)練時容易導(dǎo)致模型過擬合,不太適用于深度學(xué)習(xí)算法的驗證。但是該數(shù)據(jù)集是在具有背景物體的真實環(huán)境下采集的,涉及人與物的交互,因此該數(shù)據(jù)集成為用來驗證傳統(tǒng)行為識別方法性能的標(biāo)桿性數(shù)據(jù)集。該數(shù)據(jù)集的示例圖如圖1(b)所示。
3D Action Pairs(Oreifej 和Liu,2013)數(shù)據(jù)集和SYSU 3DHOI(Sun Yat-sen University 3D Human-Object Interaction)(Hu 等,2017)數(shù)據(jù)集都是具有交互性行為的數(shù)據(jù)集,兩個數(shù)據(jù)集的示例圖如圖1(c)(d)所示。前者由Kinect v1 相機(jī)采集,提供RGB 圖像、深度圖像和20 個關(guān)節(jié)點的三維坐標(biāo)3 種模態(tài)信息,包含了6 對高度相似的行為,例如拿起箱子、放下箱子、戴帽、摘帽,拉椅子、推椅子等,共計360 個序列。后者由Kinect v2 設(shè)備采集而來,同樣提供3 種模態(tài)信息,該數(shù)據(jù)集包括由40 個人完成的12 種交互行為,共計480 個樣本序列。12 種交互行為涉及到6 種操作物體:手機(jī)、椅子、書包、錢包、拖把和掃把。3D Action Pairs 數(shù)據(jù)集的最大特點是其包含的行為都是成對出現(xiàn)的,且行為的執(zhí)行方向相反,因此該數(shù)據(jù)集可以用來驗證算法對時序信息的挖掘和利用能力。SYSU 3DHOI 數(shù)據(jù)集的受試者數(shù)量多,有較大的類內(nèi)差異,因此該數(shù)據(jù)集可以用來驗證算法在人物多變情況下的泛化能力。
UTD-MHAD(The University of Texas at Dallas Multimodal Human Action)(Chen 等,2015)數(shù)據(jù)集由Kinect v1 相機(jī)和可穿戴慣性傳感器(wearable inertial sensor,WIS)同時采集的,提供RGB圖像、深度圖像、慣性傳感器信號(ID)和25 個關(guān)節(jié)點的三維坐標(biāo)4 種模態(tài)信息,研究中最常用的是RGB 圖像和關(guān)節(jié)點的坐標(biāo)。該數(shù)據(jù)集包含27 種行為,由4 名男性和4 名女性重復(fù)執(zhí)行每種行為4 次,共計861 個樣本。該數(shù)據(jù)集的主要特點是所提供的模態(tài)信息豐富,適合用于對多模態(tài)信息融合的行為識別方法(姬曉飛等,2019)的相關(guān)研究。
Northwestern-UCLA(Wang 等,2014)數(shù)據(jù)集是由美國西北大學(xué)和加州大學(xué)洛杉磯分校用3 個Kinect v1 相機(jī)從3 個不同的視角采集完成的,如圖2(a)所示。該數(shù)據(jù)集由10個志愿者完成,包含10種日常行為,共計1 475 個樣本,提供RGB 圖像、深度圖像和20個關(guān)節(jié)點的三維坐標(biāo)3種模態(tài)信息。該數(shù)據(jù)集支持跨人物、跨視角和跨環(huán)境3種驗證方式,可以評估算法是否對不同人物、不同視角和不同環(huán)境等變化因素具備魯棒性。在跨人物驗證方式中,來自9名志愿者的樣本作為訓(xùn)練數(shù)據(jù),來自另外1名志愿者的樣本作為測試數(shù)據(jù);在跨視角驗證方式中,兩個傳感器采集的樣本作為訓(xùn)練數(shù)據(jù),另一個傳感器采集的樣本作為測試數(shù)據(jù);在跨環(huán)境驗證方式中重點關(guān)注模型是否具備在不同環(huán)境中識別同種行為的能力。
圖2 多視角數(shù)據(jù)集示例圖Fig.2 Sample graph of multi-view datasets((a)Northwestern-UCLA dataset;(b)NTU RGB+D 120 dataset)
Skeleton-Kinetics數(shù)據(jù)集是以從YouTube視頻上搜集的Kinetics 數(shù)據(jù)集(Kay 等,2017)為基礎(chǔ)而制作的,制作過程為:使用OpenPose 人體姿態(tài)估計工具(Cao 等,2017)對每一幀圖像提取18 個關(guān)節(jié)點的二維坐標(biāo)(X,Y)數(shù)據(jù)并給出置信度得分C。該數(shù)據(jù)集包含400 個種類行為共計30 萬個視頻剪輯片段,每個片段的長度大約10 s。由于Kinetics 數(shù)據(jù)集來源于真實場景,存在大量遮擋、攝像機(jī)運(yùn)動等影響因素,因此該數(shù)據(jù)集具有較強(qiáng)的挑戰(zhàn)性。
在基于骨骼的行為識別領(lǐng)域中,NTU RGB+D 60(NTU-60)(Shahroudy等人,2016)數(shù)據(jù)集是目前應(yīng)用最為廣泛的大型行為識別數(shù)據(jù)集之一。該數(shù)據(jù)集包含通過Microsoft Kinect v2深度傳感器在室內(nèi)場景下采集完成的56 800 個視頻樣本,其中包含由40 位志愿者完成的60個種類的行為。該數(shù)據(jù)集提供了4種不同的數(shù)據(jù)形式:深度圖像、RGB 圖像、3D 骨骼序列和紅外序列。該數(shù)據(jù)集提供兩個驗證基準(zhǔn):跨對象(cross-subject,X-Sub)和跨視角(cross-view,XView)??鐚ο蠡鶞?zhǔn)以人物的編號來劃分訓(xùn)練集和測試集,有40 320個訓(xùn)練樣本和16 560個測試樣本??缫暯腔鶞?zhǔn)以相機(jī)的編號劃分訓(xùn)練集和測試集,3 個相機(jī)的水平視角設(shè)置有所區(qū)別,分別為-45°、0°和45°。編號為1 的相機(jī)采集到的樣本為測試集,2號和3號相機(jī)采集到的樣本為訓(xùn)練集。
NTU RGB+D 120(NTU-120)(Liu 等,2020a)數(shù)據(jù)集是對NTU-60 的擴(kuò)展,包括120 個種類的行為,共計114 480 個視頻樣本。與NTU-60 不同的是,NTU-120使用跨對象和跨設(shè)置號(cross-setup,X-Set)兩個基準(zhǔn)。其中跨對象基準(zhǔn)與NTU-60 相同。設(shè)置號是根據(jù)相機(jī)的高度和距離而規(guī)定的,跨設(shè)置號基準(zhǔn)是將設(shè)置號為奇數(shù)的樣本用于測試、偶數(shù)編號的用于訓(xùn)練。該數(shù)據(jù)集的示例圖如圖2(b)所示,采集場所均為室內(nèi)實驗環(huán)境。
評估標(biāo)準(zhǔn)用于算法之間的性能比較。在行為識別任務(wù)中,常見評價標(biāo)準(zhǔn)為Top1和Top5、網(wǎng)絡(luò)的總參數(shù)量和每秒浮點運(yùn)算次數(shù)(floating-point operations per second,F(xiàn)LOPs)等。其中,Top1 為預(yù)測得分排名第1 的類別與真實標(biāo)簽相符的情況,Top5 為預(yù)測得分排名前5 類別中包含真實標(biāo)簽的情況。一般而言,在Kinetics數(shù)據(jù)集中,用Top1和Top5準(zhǔn)確率進(jìn)行性能評估,其他數(shù)據(jù)集都僅采用Top1準(zhǔn)確率表示。
傳統(tǒng)行為識別方法所使用的特征主要是根據(jù)研究者的先驗知識人工設(shè)計的,根據(jù)特征設(shè)計方式的不同可以分為基于關(guān)節(jié)點的方法和基于身體部件的方法。
基于關(guān)節(jié)點的方法是將人體骨骼結(jié)構(gòu)簡單地視為關(guān)節(jié)點的集合,利用關(guān)節(jié)點位置特征、關(guān)節(jié)點相對于坐標(biāo)軸的角度特征等建模單個關(guān)節(jié)點或多個關(guān)節(jié)點組合的運(yùn)動來表征人體行為。Ziaeefard 和Ebrahimnezhad(2010)利用統(tǒng)計學(xué)知識,將行為特征表示為一個直方圖,該直方圖統(tǒng)計了分別處在CSI(cumulative skeletonized images)的48 個區(qū)域上的關(guān)節(jié)點數(shù)量,其制作過程如圖3 所示。該方法使用多分類線性支持向量機(jī)進(jìn)行初步預(yù)測,再根據(jù)顯著特征對混淆類別進(jìn)一步分類。然而這種方法只適用于一些行為區(qū)分度較大的數(shù)據(jù)對象,對相似行為的分類效果不佳。Xia 等人(2012)將直方圖的思路擴(kuò)展到三維空間,將三維關(guān)節(jié)位置量化為直方圖,獲得人體骨骼的視圖不變性表示,然后使用隱馬爾可夫模型(hidden markov model,HMM)進(jìn)行分類,結(jié)果表明三維數(shù)據(jù)應(yīng)用于人體行為識別時具備明顯的優(yōu)勢。
圖3 直方圖的計算過程(Ziaeefard和Ebrahimnezhad,2010)Fig.3 Histogram calculation process(Ziaeefard and Ebrahimnezhad,2010)
在不考慮關(guān)節(jié)點之間的相互聯(lián)系下制作的特征雖然可以表示人體行為,但人體運(yùn)動時各個關(guān)節(jié)點是相互關(guān)聯(lián)的,這些關(guān)節(jié)點之間的依賴關(guān)系可能比獨立的關(guān)節(jié)點更能準(zhǔn)確地表征人體行為。因此Yang 和Tian(2012,2014)利用不同關(guān)節(jié)點的組合來表示人體的運(yùn)動,結(jié)合靜態(tài)特征、運(yùn)動特征和偏移特征提出一種基于關(guān)節(jié)點位置差異的方法,并采用樸素貝葉斯最近鄰方法進(jìn)行分類。這種方法能夠更好地包容行為的類內(nèi)變化,具有更強(qiáng)的魯棒性。
基于身體部件的方法是將人體骨骼視為一組連接的剛性段,并利用不同身體部位之間的幾何關(guān)系進(jìn)行行為識別。相比于基于關(guān)節(jié)點的方法,通過該方法制作的特征更能保留人體不同部位之間的幾何關(guān)系,能夠更全面地描述人體骨骼的結(jié)構(gòu)特征。Fujiyoshi 等人(2004)提出一種“星型”骨骼表示方法,用5 個人體的關(guān)鍵節(jié)點(左手、右手、左腳、右腳、頭)連接成的星狀圖來表示人體姿態(tài),該方法不需要先驗的人體模型,也不需要大量的人體目標(biāo)像素,計算成本較低,適用于實際應(yīng)用場景,但識別精度不高。Chen等人(2006)將星型骨骼定義為一個5維特征向量,隨后將該特征向量映射為符號序列并與模板進(jìn)行匹配,匹配度最高的模板類別即為識別結(jié)果。然而上述采用“星型”骨骼的方法會受提取到的人體輪廓的影響,此類算法較為依賴強(qiáng)大的人體輪廓提取器。為了建模出身體部位之間的三維幾何關(guān)系,Vemulapalli 等人(2014)利用旋轉(zhuǎn)和平移操作,將運(yùn)動的關(guān)節(jié)點通過李群函數(shù)轉(zhuǎn)變成曲線來描述人體的行為,并使用動態(tài)時間扭曲、傅里葉時間金字塔和線性支持向量機(jī)的組合對行為進(jìn)行分類。此方法能夠在多變的關(guān)節(jié)軌跡中提取到魯棒性更強(qiáng)的特征,泛化能力強(qiáng),普適性強(qiáng)。上述基于身體部件的方法沒有考慮來自不同人體的部件之間的幾何關(guān)系,所以僅適用于單人行為識別的場景,在復(fù)雜的多人交互場景下效果不佳。
傳統(tǒng)方法的時間效率高,但特征提取規(guī)則由人工設(shè)計,沒有充分挖掘數(shù)據(jù)中的信息,所提取的特征在維度和數(shù)量上較少;并且手工設(shè)計特征通常需要大量的領(lǐng)域知識和參數(shù)調(diào)優(yōu)工作,過程復(fù)雜,易產(chǎn)生過擬合,導(dǎo)致適用范圍受限。
在基于深度學(xué)習(xí)的方法中,模型自動完成行為特征的提取,省去了傳統(tǒng)方法中特征工程的繁雜工序。根據(jù)所使用的骨干網(wǎng)絡(luò)不同,基于深度學(xué)習(xí)的行為識別方法可以進(jìn)一步分為基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法、基于圖卷積網(wǎng)絡(luò)的方法以及基于Transformer 的方法,表3 展示了這些方法各自的特點。
表3 不同方法的特點比較Table 3 The characteristics of different methods
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的人體行為識別方法的一般流程為:首先,使用向量序列表示關(guān)節(jié)點坐標(biāo)集合;其次,使用以循環(huán)神經(jīng)網(wǎng)絡(luò)為主的人體行為識別模型對向量序列進(jìn)行序列建模;最后獲得行為分類得分。
Du等人(2015b)以軀干為基準(zhǔn),將人體分為5個部分,設(shè)計了子網(wǎng)絡(luò)數(shù)量分別為5、4、2、1的4層分級融合架構(gòu),在充分提取局部特征的同時,保證了全局特征的有效,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。但該方法在挖掘輸入序列的長期時間依賴性方面存在局限性。Shahroudy 等人(2016)延續(xù)Du 等人(2015b)劃分人體結(jié)構(gòu)的方法,將身體不同部分分別輸送到長短時記憶(long short term memory,LSTM)網(wǎng)絡(luò)的子單元中來建模每個身體部分的長期時間依賴性。該方法保留了獨立的不同身體部分的上下文信息,性能得到顯著提高。然而,上述兩種方法都是利用循環(huán)神經(jīng)網(wǎng)絡(luò)對骨骼序列的整體時間動態(tài)信息進(jìn)行建模,而沒有學(xué)習(xí)到更加細(xì)致的時間表達(dá)。
圖4 基于骨骼的端到端循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Du等,2015b)Fig.4 The architecture of end-to-end recurrent neural network for skeleton-based action recognition(Du et al.,2015b)
針對上述問題,Lee 等人(2017)提出了一種集成時域滑動LSTM 網(wǎng)絡(luò),該網(wǎng)絡(luò)不再局限于對運(yùn)動狀態(tài)的長期時間依賴關(guān)系進(jìn)行建模,而是通過改變時間步長分別捕獲短期、中期、長期的時間依賴性,這有助于對行為進(jìn)行完整而全面的時間建模,且對變化的時間動態(tài)具有魯棒性。但該方法用到多個LSTM 模塊,過于復(fù)雜,且沒有充分考慮到骨骼數(shù)據(jù)的空間結(jié)構(gòu)關(guān)系。Wang 和Wang(2017)借鑒雙流網(wǎng)絡(luò)的思想,在時間域上通過時間RNN 模塊來學(xué)習(xí)行為的運(yùn)動特征,在空間域上采用基于鄰域關(guān)系的遍歷方法,按依賴關(guān)系的強(qiáng)弱將關(guān)節(jié)點依次輸入到空間RNN 模塊中來學(xué)習(xí)空間特征。這種通過構(gòu)建雙流循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)關(guān)節(jié)點的時空信息的方法,相比于只注重時序信息的方法在識別準(zhǔn)確率上有了大幅度提高。Li 等人(2017)根據(jù)CNN 和RNN 具有互補(bǔ)性原則提出并行網(wǎng)絡(luò)模型,該模型將多種骨骼特征(相對關(guān)節(jié)點位置、關(guān)節(jié)點間距離等)作為3 個LSTM 網(wǎng)絡(luò)和7個CNN網(wǎng)絡(luò)的輸入,識別準(zhǔn)確率相比于單應(yīng)用的CNN或RNN效果都好。
人的行為發(fā)生過程中,某些關(guān)節(jié)點對辨別是無效的,例如吃飯時,膝蓋、腳踝等關(guān)節(jié)并不運(yùn)動。此外,并不是所有時間段都對辨別該行為有效,例如跳遠(yuǎn)前的準(zhǔn)備過程。鑒于此,Song 等人(2016)采用注意力機(jī)制,提出一種端到端的時空注意力模型,時間注意力子網(wǎng)絡(luò)和空間注意力子網(wǎng)絡(luò)自動挖掘出關(guān)鍵幀和關(guān)鍵關(guān)節(jié)點。該模型制定交替的聯(lián)合訓(xùn)練策略以加速訓(xùn)練過程,并設(shè)計正則化交叉熵?fù)p失函數(shù)來防止模型過擬合。為了更好地、有選擇地關(guān)注每一時間步上的關(guān)鍵關(guān)節(jié)點,Liu等人(2017)提出一個全局上下文感知注意力網(wǎng)絡(luò)(global context-aware attention LSTM,GCA-LSTM)。如圖5所示,該網(wǎng)絡(luò)主要由兩層LSTM 構(gòu)成,第1 層生成全局上下文信息,第2 層使用一種循環(huán)注意力機(jī)制來迭代提升注意力模型的效果。該方法能對全局上下文信息進(jìn)行細(xì)化,獲得更細(xì)致的特征表達(dá)。
圖5 全局上下文感知注意力網(wǎng)絡(luò)(Liu等,2017)Fig.5 The architecture of GCA-LSTM(Liu et al.,2017)
同一種行為在傳感器的不同視角下表現(xiàn)出多樣的行為特征。為了減輕視角變化帶來的影響,Zhang等人(2017,2019)提出一種視角自適應(yīng)網(wǎng)絡(luò),并分別以RNN和CNN為基礎(chǔ),設(shè)計了視角自適應(yīng)遞歸神經(jīng)網(wǎng) 絡(luò)(view adaptive recurrent neural network,VARNN)和視角自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(view adaptive convolutional neural network,VA-CNN)。該方法不需要先驗準(zhǔn)則來重新定位骨骼數(shù)據(jù),而是通過網(wǎng)絡(luò)學(xué)習(xí)得到三維空間下的坐標(biāo)轉(zhuǎn)換矩陣,使輸入到特征提取網(wǎng)絡(luò)的骨骼數(shù)據(jù)始終保持在最利于識別的觀察視角。通過圖6 可以看出,對于每幀骨骼,首先將坐標(biāo)系轉(zhuǎn)換到全局坐標(biāo)系o下(以第1幀骨架的中心節(jié)點為基準(zhǔn)),然后將全局坐標(biāo)系下的骨骼通過平移、旋轉(zhuǎn)的方式調(diào)整到坐標(biāo)系o′下,其中平移的距離和旋轉(zhuǎn)的角度均由網(wǎng)絡(luò)學(xué)習(xí)得到。圖6 中,dt表示平移量,Rt表示旋轉(zhuǎn)矩陣。
圖6 視角轉(zhuǎn)換過程(Zhang等,2017)Fig.6 The process of view conversion(Zhang et al.,2017)
由于RNN善于處理時間序列,基于RNN的方法在提取行為的時序信息上具有天然的優(yōu)勢,但該類方法對骨骼的空間特征提取能力較弱,經(jīng)常忽略與行為相關(guān)的拓?fù)浣Y(jié)構(gòu)信息,導(dǎo)致空間特征提取不充分,影響識別精度進(jìn)一步提高。
受卷積神經(jīng)網(wǎng)絡(luò)(Krizhevsky等,2017)在圖像分類領(lǐng)域取得成功的啟發(fā),研究者開始考慮將CNN 用于骨骼行為分類。為了滿足CNN 的輸入要求,一般將骨骼數(shù)據(jù)編碼為2D 偽圖像,其中,圖像的行表示不同的關(guān)節(jié),列表示不同的幀,X、Y、Z的3D 坐標(biāo)值被視為偽圖像的3 個通道,然后采用卷積核提取偽圖像的特征,并將提取到的特征用于分類。
使用卷積網(wǎng)絡(luò)建模骨骼數(shù)據(jù)的一個關(guān)鍵問題是如何在保留骨骼序列的時空信息的同時將骨骼序列轉(zhuǎn)換為偽圖像。Du 等人(2015a)將5 個身體部分的串聯(lián)作為一幀,三維坐標(biāo)對應(yīng)R、G、B這3個通道,這樣獲得的偽圖像非常清晰地表示出每個身體部分的運(yùn)動特征的空間分布,人體結(jié)構(gòu)的空間全局信息明顯。但該方法無法挖掘關(guān)節(jié)的運(yùn)動方向及運(yùn)動速度信息,使得網(wǎng)絡(luò)性能十分有限。與Du 等人(2015a)的做法不同之處是,Wang等人(2016)將關(guān)節(jié)點坐標(biāo)在時間上的差分映射到3 個正交平面獲得保留了空間信息的關(guān)節(jié)軌跡圖像。然后使用色圖(顏色映射表,是一種將數(shù)值映射為顏色的方法)將關(guān)節(jié)軌跡映射為顏色圖像,顏色的變化表示關(guān)節(jié)運(yùn)動的方向,顏色的飽和度和亮度模擬運(yùn)動幅度和速度的變化。更進(jìn)一步,為了描述不同的身體部分,使用3 種不同的色圖分別映射3 個身體部位。最后使用卷積網(wǎng)絡(luò)分別學(xué)習(xí)映射在3 個正交面上的圖像,并融合最后得分,獲得最終預(yù)測結(jié)果。Hou 等人(2018)的工作不再使用關(guān)節(jié)點坐標(biāo)在時間上的差分,而是直接將關(guān)節(jié)點坐標(biāo)映射至3 個正交平面,并采用與Wang 等人(2016)工作相同的顏色編碼技術(shù)獲得同時具有空間和時間信息的骨骼光譜圖。上述兩種骨骼數(shù)據(jù)的偽圖像表示方法使得用標(biāo)準(zhǔn)的CNN 模型學(xué)習(xí)骨骼序列中的“動態(tài)”特征成為可能。圖7(a)(b)分別是上述兩種方法中將骨骼編碼為圖像的結(jié)果圖。將關(guān)節(jié)點坐標(biāo)編碼為圖像的方式盡可能多地保留了行為的時間和空間特征,并且可以直接使用現(xiàn)有的CNN 模型進(jìn)行特征學(xué)習(xí)。
圖7 骨骼序列編碼圖(Wang等,2016)Fig.7 The coding diagram of skeleton sequence(Wang et al.,2016)((a)trajectory coding;(b)spectral coding)
上述方法以自然的人體骨骼連接方式設(shè)計偽圖像,還有一些工作提出具有新意的骨骼數(shù)據(jù)表示方法,以保留更多的人體結(jié)構(gòu)信息。Ke 等人(2017)將骨骼序列剪切成3個片段,每個片段中包含4個灰度圖,該灰度圖通過計算參考點與每個關(guān)節(jié)點的相對位置而得到。該方法所構(gòu)建的偽圖像聚合了多個具有不同空間關(guān)系的幀,提供了關(guān)節(jié)空間結(jié)構(gòu)的重要信息。Yang 等人(2019)認(rèn)為以固定順序?qū)㈥P(guān)節(jié)點拼接為矩陣會導(dǎo)致關(guān)節(jié)點的結(jié)構(gòu)信息丟失,對此提出了一種保留空間關(guān)系的樹結(jié)構(gòu)骨骼圖像表示法,采用深度優(yōu)先的樹遍歷順序重新設(shè)計骨骼表示,以增強(qiáng)偽圖像的語義信息。Caetano 等人(2019)在樹結(jié)構(gòu)骨骼圖像表示法的基礎(chǔ)上,結(jié)合關(guān)節(jié)之間的不同空間關(guān)系,提出一種基于樹結(jié)構(gòu)和參考關(guān)節(jié)的三維行為識別的骨骼圖像表示方法。該方法能夠加強(qiáng)關(guān)節(jié)對的空間結(jié)構(gòu)關(guān)系,獲得更豐富的空間上下文信息。
CNN 利用局部感受野、權(quán)值共享以及空間聚合來實現(xiàn)對骨骼序列的特征表示。但由于CNN 卷積核具有局部性,很難有效地挖掘所有關(guān)節(jié)的共現(xiàn)性。為了突破這一限制,Li等人(2018a)提出一種時空共現(xiàn)性特征學(xué)習(xí)的端到端卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)先沿著關(guān)節(jié)維度學(xué)習(xí)關(guān)節(jié)的點特征,然后將該特征進(jìn)行轉(zhuǎn)置,把每一個關(guān)節(jié)都作為一個通道,隨后逐步聚合所有關(guān)節(jié)的全局特征。該方法學(xué)習(xí)到了關(guān)節(jié)與關(guān)節(jié)之間的共現(xiàn)性特征,提高了特征的表示能力。在Li 等人(2018a)的基礎(chǔ)上,Liang 等人(2019)提出三流卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)可以利用多個特征之間的互補(bǔ)性和多樣性,聯(lián)合處理關(guān)節(jié)點坐標(biāo)、骨骼段和關(guān)節(jié)運(yùn)動信息,網(wǎng)絡(luò)的結(jié)構(gòu)如圖8所示。第1階段獨立提取特征;第2 階段采用成對特征融合策略將特征兩兩相互融合;第3 階段是多任務(wù)集成學(xué)習(xí)網(wǎng)絡(luò),其有效提高了模型的泛化能力。以上兩種共現(xiàn)特征學(xué)習(xí)模型以其優(yōu)秀的全局響應(yīng)特性超越了多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法。
圖8 三流卷積網(wǎng)絡(luò)結(jié)構(gòu)(Liang等,2019)Fig.8 Three stream CNN for skeleton-based action recognition(Liang et al.,2019)
雖然基于CNN 的方法能夠同時處理時空信息,但CNN 在處理具有拓?fù)鋵傩缘娜梭w骨架圖時并不完全適用,圖卷積的出現(xiàn)改變了這一現(xiàn)狀。
人體骨骼是自然的拓?fù)鋱D,如果先把骨骼數(shù)據(jù)處理成序列向量或偽圖像再送入到以RNN 或CNN為主的模型中進(jìn)行特征學(xué)習(xí),必然會導(dǎo)致部分空間語義信息的丟失。且由于拓補(bǔ)圖節(jié)點間結(jié)構(gòu)及節(jié)點數(shù)量的變化特性,很難使用規(guī)則的卷積核提取特征。圖卷積神經(jīng)網(wǎng)絡(luò)(Kipf 和Welling,2017)的提出使得直接學(xué)習(xí)不規(guī)則數(shù)據(jù)成為可能。Yan 等人(2018)根據(jù)人體動力學(xué)知識,首次將圖卷積應(yīng)用到基于骨骼信息的人體行為識別中,提出一種時空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional network,STGCN)。ST-GCN 模型的設(shè)計如圖9 所示,首先構(gòu)造圖結(jié)構(gòu):將人體的關(guān)節(jié)點作為圖的節(jié)點,節(jié)點的屬性是關(guān)節(jié)點在空間中的位置坐標(biāo)。圖中的邊分為兩種類型:空間邊和時間邊??臻g邊是關(guān)節(jié)點之間的連接,反映它們在人體中的自然結(jié)構(gòu)。時間邊是同一關(guān)節(jié)點在相鄰幀之間的連接,反映它們在時間上的連續(xù)性;其次,將骨骼數(shù)據(jù)送入到以S-GCL 和T-GCL交替連接的時空圖卷積網(wǎng)絡(luò)中提取空域和時域特征;最后通過全連接層和softmax 層獲取行為種類。圖9 中,S-GCL 表示空間圖卷積層(spatial graph convolutional layer),T-GCL 表示時間圖卷積層(temporal graph convolutional layer)。關(guān)節(jié)點vi處的空間圖卷積為
圖9 時空圖卷積網(wǎng)絡(luò)結(jié)構(gòu)(Yan等,2018)Fig.9 The pipeline of ST-GCN(Yan et al.,2018)
式中,fout表示輸出特征圖,fin表示輸入特征圖,Di表示關(guān)節(jié)點vi的鄰居節(jié)點vj的集合,w為類似于卷積操作的權(quán)重函數(shù),li表示映射函數(shù),1/Zij為可學(xué)習(xí)矩陣,用來平衡每個子集的貢獻(xiàn)。
如圖9 所示的分區(qū)策略,按照人體結(jié)構(gòu)將Di劃分為3 個子集:根節(jié)點、向心節(jié)點和離心節(jié)點。其中,根節(jié)點是節(jié)點本身,向心節(jié)點表示到人體重心的距離比根節(jié)點到重心的距離更近的關(guān)節(jié)點的集合,離心節(jié)點表示到人體重心的距離比根節(jié)點到重心更遠(yuǎn)的關(guān)節(jié)點的集合。
后續(xù)大量工作在Yan 等人(2018)的基礎(chǔ)上進(jìn)行了改進(jìn),根據(jù)改進(jìn)工作針對的角度不同,可將這些工作劃分為4 類,具體為:1)圖結(jié)構(gòu)的優(yōu)化;2)網(wǎng)絡(luò)的輕量化;3)時空特征的優(yōu)化,即針對辨別性時間和空間特征的提取進(jìn)行深入研究;4)關(guān)節(jié)缺失和噪聲的優(yōu)化,即針對關(guān)節(jié)點缺失、噪聲這類特殊場景下的問題展開研究。
3.3.1 圖結(jié)構(gòu)的優(yōu)化
時空圖卷積模型ST-GCN 的高效性能為行為識別開辟了新的思路。ST-GCN 所使用的圖結(jié)構(gòu)是啟發(fā)式預(yù)定義的人體自然連接圖,挖掘不到?jīng)]有物理連接的關(guān)節(jié)點間的關(guān)系,例如喝水時手和頭的依賴關(guān)系。且ST-GCN 設(shè)計的圖結(jié)構(gòu)固定在網(wǎng)絡(luò)的每一層,對數(shù)據(jù)變化的敏感度弱,這導(dǎo)致網(wǎng)絡(luò)對不同種類行為的建模缺乏靈活性,建模多層語義信息的能力較差。受到基于部分的可變形模型(deformable partbased models,DPMs)(Felzenszwalb 和Huttenlocher,2005)的啟發(fā),Thakkar 和Narayanan(2018)基于人體的結(jié)構(gòu)將人體骨骼圖分成4 個子圖,使用基于身體部分的圖卷積網(wǎng)絡(luò)捕捉每個身體部件的高層語義表達(dá),同時學(xué)習(xí)身體部件之間的依賴性,但該方法設(shè)計的圖結(jié)構(gòu)仍是預(yù)定義的,缺乏靈活性。對此,Shi 等人(2019a)提出的二流自適應(yīng)圖卷積網(wǎng)絡(luò)(twostream adaptive graph convolution network,2s-AGCN)將圖結(jié)構(gòu)參數(shù)化,骨骼圖可隨著網(wǎng)絡(luò)參數(shù)一起優(yōu)化,這種方法增加了網(wǎng)絡(luò)的通用性,相比于固定的圖結(jié)構(gòu),可優(yōu)化的圖結(jié)構(gòu)更能適應(yīng)不同數(shù)據(jù)樣本。Li 等人(2019)同樣擴(kuò)展了現(xiàn)有的骨骼圖,提出AS-GCN(actional-structural graph convolutional network),設(shè)計了動作鏈接和結(jié)構(gòu)鏈接兩種圖結(jié)構(gòu),學(xué)習(xí)沒有物理連接的關(guān)節(jié)點之間的依賴性。該模型過于復(fù)雜,但是該模型開創(chuàng)性地擴(kuò)展到行為預(yù)測領(lǐng)域,為后續(xù)基于骨骼信息的行為預(yù)測研究提供了新思路。
為了充分利用人體關(guān)節(jié)和骨骼段之間的關(guān)系,Shi 等人(2019b)以關(guān)節(jié)為節(jié)點、骨骼為邊計了一個有向無環(huán)圖,建模關(guān)節(jié)點和骨骼段之間的空間依賴性以及它們之間的方向信息,并根據(jù)有向圖的結(jié)構(gòu)更新節(jié)點和邊的信息。該方法雖然取得了很好的效果,但其參數(shù)及計算復(fù)雜度遠(yuǎn)超先前的研究。
Peng 等人(2020)轉(zhuǎn)向神經(jīng)體系結(jié)構(gòu)搜索(neural architecture search,NAS),第一個提出用于骨骼行為識別的自動設(shè)計的GCN。具體來說,NAS-GCN探索了節(jié)點之間的時空相關(guān)性,并構(gòu)建了一個具有多種動態(tài)圖模塊的搜索空間。此外,該方法引入了多跳躍模塊,并希望打破一階近似所帶來的表示容量的限制。該工作證明了高階近似和分層動態(tài)圖模塊的有效性。Gao 等人(2019)引入圖回歸思想,求解在連續(xù)幀上對圖拉普拉斯矩陣建模的優(yōu)化問題,最終得到最優(yōu)的圖拉普拉斯矩陣,優(yōu)化后的圖不僅增強(qiáng)了圖的稀疏性,而且能夠充分表示關(guān)節(jié)點分別在時間和空間上的連通依賴性強(qiáng)弱。
縱觀圖結(jié)構(gòu)優(yōu)化的工作,其主要思路是打破固定圖結(jié)構(gòu)帶來的限制,使圖能夠動態(tài)、高效地更新,以適應(yīng)不同的行為類別。
3.3.2 網(wǎng)絡(luò)的輕量化
基于GCN 的模型取得了令人滿意的識別精度,然而此類方法普遍存在參數(shù)量大、計算復(fù)雜度高、推理速度慢等問題,通常一個動作樣本的計算復(fù)雜度超過15 GFLOPs,有些模型甚至達(dá)到100 GFLOPs。針對這個問題,Cheng 等人(2020)提出移位圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)使用移位圖運(yùn)算和輕量級逐點卷積代替正則圖卷積,計算復(fù)雜度降低了數(shù)十倍。在空間域上通過移位操作使每一個關(guān)節(jié)都能與其相應(yīng)的鄰域相關(guān)聯(lián),增大了空間感受野,從而增強(qiáng)了無物理連接的關(guān)節(jié)點的相互依賴關(guān)系;在時間域上,通過通道移位操作將相鄰特征圖上的時間信息混合在一起,時間感受野相應(yīng)地被擴(kuò)大,從而達(dá)到增強(qiáng)時間特征建模的目的。Song等人(2020)將瓶頸結(jié)構(gòu)應(yīng)用到圖卷積網(wǎng)絡(luò)中,提出的ResGCN(residual graph convolutional network)大大減少了可學(xué)習(xí)參數(shù)的數(shù)量,最多比其他模型少34 倍。ResGCN 使用的殘差結(jié)構(gòu)和瓶頸結(jié)構(gòu)雖然極大地降低了訓(xùn)練難度、模型復(fù)雜度,但該方法為了彌補(bǔ)準(zhǔn)確率上的不足設(shè)計了較為復(fù)雜的基于身體部分的注意力機(jī)制,使得模型的可讀性降低。Song等人(2023)進(jìn)一步將深度可分離卷積應(yīng)用到對時間建模的模塊上,并與MS-G3D(multi-scale G3D)(Liu 等,2020b)的空間模塊相結(jié)合,提出了EfficientGCN(efficient graph convolutional network),該方法相比于ResGCN 的準(zhǔn)確率進(jìn)一步得到提升,并涉及更少的參數(shù)量和計算復(fù)雜度。
3.3.3 時空特征的優(yōu)化
探索骨骼序列的時空特征對行為識別任務(wù)至關(guān)重要。然而,如何有效地提取辨別性的時空特征一直是一個具有挑戰(zhàn)性的問題。
Si 等人(2019)提出的注意力增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)(attention enhanced graph convolutional LSTM network,AGC-LSTM)將GCN 算子嵌入至LSTM 算法中,因此,該方法不僅能捕獲具有辨別性的時間和空間特征,而且能探索到空域和時域中的共現(xiàn)關(guān)系,提高了模型的高層時空語義信息的學(xué)習(xí)能力。此外,AGC-LSTM 在空間維度上,利用注意力機(jī)制增強(qiáng)活躍關(guān)節(jié)點的特征;在時間維度上,利用時間分層結(jié)構(gòu)增大時域感受野,進(jìn)一步提高了模型的時空建模能力。類似地,Ding 等人(2019)將GCN 與雙向遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出注意力增強(qiáng)的循環(huán)圖卷積網(wǎng)絡(luò)(attention-enhanced recurrent graph convolutional network,AR-GCN)。
此外,一些研究將CNN 中的優(yōu)秀工作引入到圖卷積中,以獲得更細(xì)致的骨骼時空表達(dá)。Wu 等人(2019)在ST-GCN 的基礎(chǔ)上,引入了空間殘差層和密集連接模塊,利用空間殘差層來提取更精確、更有意義的時空特征,并通過融合時空特征來增強(qiáng)時空信息。密集連接模塊能夠充分利用骨骼的全局信息,提高模型的魯棒性。Chen 等人(2021)提出一種雙頭時空圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠同時提取粗粒度的上下文信息和細(xì)粒度的局部特征,以高效的方式聯(lián)合捕捉行為的動態(tài)模式。此外,交叉注意機(jī)制的提出,使兩個粒度上的時空特征相互交流、相互增強(qiáng)。Liu 等人(2020b)將多尺度思想引入至GCN 中,分別使用多個不同尺度的卷積對時間和空間建模,獲得的特征具有跨時空維度的多尺度感受野,實現(xiàn)了有效的多尺度時間和空間建模。
上述工作忽視了語義的重要性,且高度依賴于大體量的網(wǎng)絡(luò)進(jìn)行行為識別。Zhang 等人(2020)將關(guān)節(jié)點的類型(頭、手、膝蓋等)和幀的索引作為網(wǎng)絡(luò)輸入的一部分,以增強(qiáng)特征的高級語義信息表達(dá)能力。此外,該方法引入關(guān)節(jié)級模塊和幀級模塊的串聯(lián)結(jié)構(gòu),分別挖掘關(guān)節(jié)點間的空間依賴關(guān)系和幀間的時間依賴特性。該方法首次引入高級語義信息,設(shè)計的網(wǎng)絡(luò)更高效,可解釋性更強(qiáng)。
3.3.4 關(guān)節(jié)缺失和噪聲的優(yōu)化
在使用基于骨骼信息的人體行為識別方法時,通常假設(shè)獲取的骨骼數(shù)據(jù)是準(zhǔn)確的、完整的。然而,無論是通過姿態(tài)估計算法還是高精度深度相機(jī)捕捉關(guān)節(jié)點,得到的關(guān)節(jié)點坐標(biāo)往往是不完整的或具有噪聲的,這將影響到模型的識別性能。針對上述問題,Song 等人(2019)提出一種多流關(guān)節(jié)點激活圖卷積神經(jīng)網(wǎng)絡(luò)。首先,該網(wǎng)絡(luò)采用注意力機(jī)制計算每一流的激活圖,激活圖用來表示關(guān)節(jié)點是否活躍。然后通過累加前一流的激活圖來指導(dǎo)新一流的學(xué)習(xí)過程,網(wǎng)絡(luò)的每一流只負(fù)責(zé)從當(dāng)前未激活的關(guān)節(jié)中學(xué)習(xí)特征。該方法雖然可以更全面地捕捉不活躍關(guān)節(jié)點的特征,提高對有噪聲或缺失數(shù)據(jù)的識別能力,但所采用的多流結(jié)構(gòu)給訓(xùn)練、推理過程帶來了計算負(fù)擔(dān)。相比之下,Li 等人(2021)提出的姿態(tài)改進(jìn)圖卷積網(wǎng)絡(luò)不僅可以對具有噪聲或缺失的關(guān)節(jié)進(jìn)行矯正,而且在網(wǎng)絡(luò)早前采用降低時間分辨率的方式,實現(xiàn)網(wǎng)絡(luò)的輕量化。Yoon 等人(2022)提出的PeGCN(predictively encoded graph convolutional network)是一種對潛在空間進(jìn)行預(yù)測編碼的圖卷積網(wǎng)絡(luò)。在訓(xùn)練階段,PeGCN 通過從潛在空間上的噪聲樣本中預(yù)測完整樣本來學(xué)習(xí)特征,獲取噪聲骨架的魯棒表達(dá)。該方法更適用于骨骼數(shù)據(jù)中存在較多不完整或較多噪聲的行為識別任務(wù)。
除上述工作外,還有一些工作將近期流行的Transformer 技術(shù)應(yīng)用到基于骨骼信息的行為識別中。Plizzari 等人(2021)引入空間自注意力模塊動態(tài)構(gòu)建骨骼的空間特征,引入時間自注意力模塊學(xué)習(xí)骨骼在時間方向上的動態(tài)信息,同時,時間自注意力模塊克服了標(biāo)準(zhǔn)時間卷積的局部性,使跨幀的遠(yuǎn)距離依賴特征提取成為可能。該工作證明了空間自注意力模塊可以取代空間圖卷積操作,并且獲得的特征更靈活、動態(tài)表示能力更強(qiáng)。然而,該方法只關(guān)注到幀內(nèi)不同關(guān)節(jié)點之間的相關(guān)性,不同幀上的不同關(guān)節(jié)點之間的依賴性沒有被考慮到。為此,Qiu等人(2022)首先將骨骼序列劃分為幾個不重疊的部分(元組),然后使用時空元組自注意力模塊捕捉連續(xù)幀之間不同關(guān)節(jié)的相關(guān)性。此外,該方法提出的幀間特征聚合模塊,在由元組構(gòu)成的時間維度上聚合特征,進(jìn)一步提高了模型的識別能力。與上述方法直接使用Transformer算子替代圖卷積算子不同的是,Bai 等人(2022)提出一種層次圖卷積Transformer,同時利用圖卷積的局部拓?fù)湫院蚑ransformer的全局上下文捕捉能力。該方法充分發(fā)揮了圖卷積和Transformer的優(yōu)勢,其識別效果遠(yuǎn)超上述方法。
此外,Pang 等人(2022)針對多人交互行為,提出一種新的基于Self-Attention 的方法來建模交互人物身體部位之間的相關(guān)性。具體地,圖交互多頭Self-Attention 模塊在人體交互部位的語義信息和距離信息兩個角度上進(jìn)行建模。該方法首次聚焦人體交互部分,為以后的多人交互行為識別提供新思路。
表4 顯示了主流模型在NTU-60、NTU-120 以及Skeleton-Kinetics 3 個骨骼行為數(shù)據(jù)集上的分類結(jié)果、模型的參數(shù)量和計算復(fù)雜度。可以看出,NTU-60 數(shù)據(jù)集是普遍應(yīng)用的骨骼行為數(shù)據(jù)集,隨著圖卷積技術(shù)的出現(xiàn),研究重心逐步向圖卷積方法轉(zhuǎn)移。ST-GCN 作為基于圖卷積方法的開山之作,在NTU-60 數(shù)據(jù)集的X-Sub 和X-View 兩個基準(zhǔn)上的識別準(zhǔn)確率分別為81.5%和88.3%。后續(xù)算法分別在圖結(jié)構(gòu)的優(yōu)化(如PB-GCN、2s-AGCN)、改進(jìn)模型的速度(如PA-ResGCN、EfficientGCN)、提高模型建模辨別性時空信息的能力(如AGC-LSTM)以及針對缺失關(guān)節(jié)點的改進(jìn)(如PR-GCN)等方面展開了深入研究。目前為止,在NTU-60數(shù)據(jù)集上識別率表現(xiàn)最好的算法是HGCT,在X-Sub 和X-View 兩個基準(zhǔn)上的識別準(zhǔn)確率分別為92.2%和96.5%。該方法采用先進(jìn)的Transformer 技術(shù)替代傳統(tǒng)卷積算子來提升網(wǎng)絡(luò)性能,并取得了較高的識別率。在模型的參數(shù)量和計算復(fù)雜度方面,表現(xiàn)最好的算法是EfficientGCN,該方法同時兼顧速度與精度,參數(shù)量和計算復(fù)雜度與ST-GCN 持平,精度卻比ST-GCN 高出10.2%(NTU-60數(shù)據(jù)集的X-sub基準(zhǔn))。
表4 不同算法的結(jié)果比較Table 4 The comparison results of different methods
上述方法雖然在NTU-60 和NTU-120 數(shù)據(jù)集上取得了優(yōu)異的識別效果,但是在Skeleton-Kinetics 數(shù)據(jù)集上的效果不佳。主要原因是Skeleton-Kinetics數(shù)據(jù)集為真實場景下所采集的,存在大量遮擋、光照變化以及攝像機(jī)運(yùn)動等影響因素,導(dǎo)致提取到的骨骼數(shù)據(jù)精度不高,影響行為識別效率,且該數(shù)據(jù)集包含的種類較多,具有多種人—物交互的行為。
雖然基于骨骼信息的人體行為識別已經(jīng)有了多年的技術(shù)積累,但仍然面臨許多困難和挑戰(zhàn)。在總結(jié)目前存在的問題和挑戰(zhàn)的同時,對今后的研究做出展望。
1)人體結(jié)構(gòu)高度復(fù)雜,現(xiàn)有采用少量關(guān)節(jié)點表示人體行為特征的識別模型,限制了其對非典型運(yùn)動等復(fù)雜行為的識別能力,可以考慮采用結(jié)構(gòu)性和局部性增加關(guān)節(jié)點的方法,加強(qiáng)人體目標(biāo)性結(jié)構(gòu)的特征表示,提升對復(fù)雜行為的識別度。
健康成年人的身體結(jié)構(gòu)包括206塊骨骼、200多個關(guān)節(jié),為了維持人體在靜態(tài)和動態(tài)時的平衡,關(guān)節(jié)之間存在著復(fù)雜的關(guān)聯(lián)。在行為識別中,通常采用15~30 個關(guān)節(jié)點的坐標(biāo)表征人體空間結(jié)構(gòu),識別一些如跑步、走路、蹦跳等簡單的行為時,識別率幾乎可以達(dá)到100%。但當(dāng)識別一些如玩手機(jī)、玩魔方等復(fù)雜行為時,即使是目前最先進(jìn)的算法,識別效果仍然不佳。未來的研究可以考慮增加細(xì)粒度關(guān)節(jié)(面部、手、腳等),例如Trivedi 等人(2021)提出的NTUX 數(shù)據(jù)集,在25 個關(guān)節(jié)點之外增加了51 個面部關(guān)節(jié)和42 個手指關(guān)節(jié),該骨骼表示方法在現(xiàn)有的算法上表現(xiàn)出色。
2)目前很少有模型能夠很好地調(diào)適人體外觀多樣性帶來的不利影響,可以考慮引入關(guān)節(jié)點間的相對位置特征應(yīng)對個體差異帶來的挑戰(zhàn),增強(qiáng)模型的魯棒性。
不同個體之間存在著明顯的差異性,例如男人和女人之間的差異、成人和小孩之間的差異,這些差異主要體現(xiàn)在骨骼的尺度差異。這些差異將給行為識別算法提出更高的要求。在NTU 數(shù)據(jù)集的跨人物驗證基準(zhǔn)上的識別效果習(xí)慣性地比跨視角驗證基準(zhǔn)低可以證明這一點,如表4 所示。可能的解決方案是結(jié)合各種豐富的骨骼特征,不局限于關(guān)節(jié)點的位置信息,考慮關(guān)節(jié)間的相對位置或關(guān)節(jié)之間的角度信息,對抗人體尺度的變化。例如Qin 等人(2022)以3 個關(guān)節(jié)點之間的角度信息作為輸入特征,相比于坐標(biāo)特征,該特征更能反映人體部位的相對運(yùn)動,增強(qiáng)了對個體變化的魯棒性。
3)圖卷積網(wǎng)絡(luò)體量大、結(jié)構(gòu)復(fù)雜,訓(xùn)練和推理速度慢,實時性不好,識別模型應(yīng)用的限制性大,可以考慮引入具有“高保真”的輕量化機(jī)制,提高實時性的同時兼顧精度。
現(xiàn)有的基于骨骼的行為識別方法普遍存在模型復(fù)雜、計算量巨大等缺點,尤其是圖卷積相關(guān)方法。目前已有研究團(tuán)隊針對圖卷積方法參數(shù)量大的缺點進(jìn)行改進(jìn),如Song 等人(2020,2023)提出的ResGCN和EfficientGCN,雖然降低了模型的復(fù)雜度和參數(shù)量,但準(zhǔn)確率有限,且均需嵌入復(fù)雜的注意力機(jī)制去彌補(bǔ)精度上的缺陷。對此可以嘗試其他一些應(yīng)用在圖像分類任務(wù)中的方法,如分組卷積(Krizhevsky等,2017)或通道洗牌(Zhang 等,2018)等,將圖卷積方法與上述機(jī)制相結(jié)合,提升通道之間的信息交互的同時降低模型復(fù)雜度,獲取更多的上下文信息,在不損失甚至提升精度的同時輕量化網(wǎng)絡(luò)。
4)圖卷積網(wǎng)絡(luò)相對來說層數(shù)都較淺,導(dǎo)致提取特征的豐富性受限,可以考慮通過結(jié)構(gòu)性地加入歸一化和殘差網(wǎng)絡(luò)等層深拓展手段,加深模型層數(shù)以提取更深層次特征。
CNN 深度學(xué)習(xí)模型往往可以通過堆疊大量的卷積層實現(xiàn)特征的精細(xì)化提取,以此提高模型的性能,例如Resne(tresidual network)模型(He等,2016),其深度可以達(dá)到上百層。用于行為識別的圖卷積網(wǎng)絡(luò)的層次普遍不深,且當(dāng)層數(shù)過多時獲取到的節(jié)點特征過于平滑(Li 等,2018b),而淺層結(jié)構(gòu)影響對深層語義信息的挖掘,不利于識別。在未來工作中,可以考慮同時使用歸一化和殘差結(jié)構(gòu),除了減緩過平滑現(xiàn)象外,歸一化和殘差操作都能夠提升訓(xùn)練的穩(wěn)定性和收斂性,使得深層圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加容易,損失曲線更加平滑。
5)由于數(shù)據(jù)源的限制,基于骨骼信息的模型對于人—物交互行為識別度不高,可以考慮引入多種其他模態(tài)信息,改善數(shù)據(jù)源的結(jié)構(gòu)和內(nèi)容,從而提升對交互行為的識別精度。
總體來說,目前基于骨骼數(shù)據(jù)的行為識別在NTU-60 和NTU-120 兩個大型骨骼數(shù)據(jù)集上的識別準(zhǔn)確率已經(jīng)達(dá)到相當(dāng)高的水準(zhǔn)。骨骼數(shù)據(jù)比較適合辨別單純的人體行為,當(dāng)識別一些人—物交互的行為時,識別效果并不佳,例如,目前在Skeleton-Kinetics 數(shù)據(jù)集上的最佳識別精度為49.1%(Duan等,2022)。原因在于Kinetics 數(shù)據(jù)集中包含多種人—物交互的行為,例如吃漢堡、吃蛋糕等,僅使用骨骼數(shù)據(jù)就失去了對物體信息的關(guān)注,在辨別動作特征幾乎相同但動作對象不同的行為時表現(xiàn)不佳。
傳感器技術(shù)的發(fā)展,給多模態(tài)的行為識別帶來更低成本、更高效的可能。人體的多模態(tài)信息包括RGB 視頻、深度信息、紅外信息和骨骼信息等,不同的模態(tài)信息之間具有強(qiáng)相關(guān)性,又具有一定的互補(bǔ)特性。例如,骨骼信息雖然在識別單純的人體行為時表現(xiàn)出色,但由于其失去了對背景信息的關(guān)注,不適合用做識別人—物交互類行為,而RGB 視頻包含背景信息,可以提供物體信息,給識別人—物交互類行為帶來提升。未來,可以將骨骼信息和RGB 信息相融合,在保留骨骼信息的簡潔性的同時,增加背景信息,獲得更有益于識別人—物交互行為的特征。
6)行為數(shù)據(jù)標(biāo)注難度大,可以考慮采用無監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)等技術(shù)減少對標(biāo)注數(shù)據(jù)的依賴度,增強(qiáng)算法對實際應(yīng)用的適應(yīng)性。
視頻數(shù)據(jù)集的樣本數(shù)量巨大,且人的行為種類豐富多變,對視頻數(shù)據(jù)的有效而準(zhǔn)確的標(biāo)注需耗費(fèi)大量資源。針對這一問題,可以使用無監(jiān)督或小樣本方法以消除對標(biāo)注數(shù)據(jù)的依賴。且無監(jiān)督方法和監(jiān)督方法的性能差距正在不斷縮小。例如Paoletti等人(2022)基于卷積自編碼器和自適應(yīng)拉普拉斯正則化學(xué)習(xí)未標(biāo)注的骨骼序列的特征表示,并將該特征表示輸入到一個分類器(例如,1-nearest neighbor),以驗證及評估模型。另一個可行的方向是進(jìn)行小樣本行為識別研究,如Memmesheimer 等人(2020)通過度量學(xué)習(xí)方法,將行為識別問題簡化為嵌入空間中的最近鄰搜索問題,僅需對少量新類別(與訓(xùn)練集包含的種類不交叉)樣本標(biāo)注即能完成識別任務(wù)。但是,上述方法在NTU-120 數(shù)據(jù)集上的表現(xiàn)并不出色,在測試集上的準(zhǔn)確率僅為50%左右,小樣本的行為識別處于研究初級階段。
7)現(xiàn)有行為識別方法不能滿足事故突發(fā)等場景下的快速決策的功能需求,可以考慮引入軌跡預(yù)測等趨勢性方法,以“識別+預(yù)測”的算法能力應(yīng)對現(xiàn)實應(yīng)用需求。
行為識別任務(wù)的主要目標(biāo)是識別已經(jīng)發(fā)生的行為,但是在一些場景中,如應(yīng)用于反恐防暴監(jiān)測系統(tǒng)、自動駕駛系統(tǒng)的行人行為監(jiān)測技術(shù),人們希望在行為發(fā)生之初就能預(yù)測到行為人下一步要做什么,然后留給人們更多的時間去應(yīng)對突發(fā)的事件。Li等人(2019)在研究行為識別任務(wù)的同時,將模型擴(kuò)展到對骨骼姿態(tài)預(yù)測的研究,但沒有詳細(xì)的定量分析研究,只有初步的定性分析,未來可以設(shè)計更精細(xì)化的指標(biāo)對預(yù)測的姿態(tài)進(jìn)行定量的評價,如類似行人軌跡預(yù)測所使用的平均位移誤差和最終位移誤差等。
8)現(xiàn)有方法都存在對并發(fā)性行為識別度不高的問題,可以考慮借鑒多標(biāo)簽文本分類方法的成功經(jīng)驗,將目前的單標(biāo)簽行為識別拓展到多標(biāo)簽?zāi)J剑毩⒍蠼换サ刈R別并發(fā)性行為。
當(dāng)前的行為識別所采用的數(shù)據(jù)通常是一個視頻序列對應(yīng)一種行為標(biāo)簽。然而,一個視頻序列可能會對應(yīng)多個類別標(biāo)簽,并且每個行為之間可能存在一定的關(guān)聯(lián)性。行為可同時具有多種并列的標(biāo)簽類別,例如“邊走路邊打電話”;也可同時具有父子繼承關(guān)系的多標(biāo)簽類別,例如“跳舞和跳芭蕾”。在未來,可以借鑒多標(biāo)簽文本分類任務(wù)所使用的方法進(jìn)行多標(biāo)簽行為識別(Lan 等,2020)。例如,在多標(biāo)簽文本分類中,改變輸出概率的計算方式和交叉熵的計算方式(Huang 等,2021),使每個類之間相互獨立,而不是互斥的。此外,在輸出層設(shè)置多個全連接層,使每一個全連接層對應(yīng)一個標(biāo)簽,也可以完成多標(biāo)簽分類任務(wù)。
基于骨骼信息的人體行為識別是人體行為識別領(lǐng)域的重要研究方向,也是計算機(jī)視覺領(lǐng)域的熱門課題之一。隨著深度學(xué)習(xí)的發(fā)展和大型數(shù)據(jù)集的提出,基于骨骼信息的人體行為識別在基礎(chǔ)理論和技術(shù)方法等方面取得了顯著的進(jìn)步。本文首先整理了主流的用于骨骼行為研究的數(shù)據(jù)集,著重討論了各種數(shù)據(jù)集的特點。其次,從模型所使用的基礎(chǔ)網(wǎng)絡(luò)角度將基于骨骼信息的行為識別方法分為基于手工制作特征的方法、基于RNN 的方法、基于CNN 的方法、基于GCN 的方法以及基于Transformer 的方法,全面分析了各類方法的優(yōu)缺點,并以全新的分類方法重點討論了基于GCN 的方法。最后對比不同算法的定量效果,總結(jié)出一些存在的問題和未來可行的研究方向?;谝陨匣仡櫤驼雇M芙o研究人員提供一個完整的基于骨骼信息的行為識別領(lǐng)域知識,使相關(guān)研究人員能從中獲得一些創(chuàng)新的思路和啟發(fā)。