劉廷龍,康 斌,2
(1.大連工業(yè)大學(xué) 信息技術(shù)中心,遼寧 大連 116034;2.大連工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 大連 116034)
基于骨骼的行為識(shí)別是計(jì)算機(jī)視覺的重要研究課題。它的研究和發(fā)展得益于卷積神經(jīng)網(wǎng)絡(luò),監(jiān)督學(xué)習(xí)和有關(guān)傳感器的發(fā)展。
研究初期使用卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)由人體關(guān)節(jié)特征構(gòu)成的序列和圖像。但這種方法有很大的局限性;忽略了人體中關(guān)節(jié)點(diǎn)之間相互的連接性和內(nèi)在關(guān)系。而這些聯(lián)系是人體行為活動(dòng)的重要信息。連續(xù)性和動(dòng)態(tài)性在行為識(shí)別中具有重要地位。Kamel等[1]提出一種基于CNN網(wǎng)絡(luò)的深度圖和姿勢(shì)數(shù)據(jù)的動(dòng)作融合的人體行為識(shí)別方法,將輸入數(shù)據(jù)分為兩種形式;為了最大化特征提取,將信道分成3個(gè)。這種劃分方式有效提高了識(shí)別精度。Pham等[2]在CNN的基礎(chǔ)上提出深度殘差神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了新的網(wǎng)絡(luò)結(jié)構(gòu),有效提升了動(dòng)作識(shí)別率。之后文獻(xiàn)[3-10]在自適應(yīng)、尺寸大小、模型結(jié)構(gòu)等方面對(duì)卷積神經(jīng)網(wǎng)絡(luò)做出了改良,但仍然存在準(zhǔn)確率和性能方面的不足。Bruna等[11]首次提出用圖來模型化人體關(guān)節(jié)點(diǎn)關(guān)系并提出圖卷積神經(jīng)網(wǎng)絡(luò)GCN,自定義的拓?fù)浣Y(jié)構(gòu)難以在非自然連接點(diǎn)之間獲得關(guān)系模型,這限制了GCN的表示能力。為了增強(qiáng)表示能力,有方法[12-15]通過空間時(shí)序或其他機(jī)制來學(xué)習(xí)人類骨骼的拓?fù)浣Y(jié)構(gòu)。它們對(duì)所有通道使用拓?fù)浣Y(jié)構(gòu),這迫使GCNs在不同的通道中聚合具有相同拓?fù)浣Y(jié)構(gòu)的特征,從而限制了特征提取的靈活性。因?yàn)椴煌男诺来聿煌倪\(yùn)動(dòng)特征類型和關(guān)系,并且不同運(yùn)動(dòng)特征下的關(guān)節(jié)之間的相關(guān)性并不總是相同的,所以使用一種共享拓?fù)洳⒉皇亲顑?yōu)的。Chen等[16]為通道組設(shè)置單獨(dú)的參數(shù)化拓?fù)?然而,不同組的拓?fù)涫仟?dú)立學(xué)習(xí),當(dāng)設(shè)置通道拓?fù)鋮?shù)化拓?fù)鋾r(shí),模型變得過于沉重,這增加了優(yōu)化的難度,阻礙了對(duì)通道拓?fù)涞挠行Ы?。此?參數(shù)化拓?fù)鋵?duì)所有樣本保持相同,這無法建模樣本相關(guān)關(guān)系。
該文提出了關(guān)聯(lián)策略的智能信道拓?fù)涞募?xì)化圖卷積網(wǎng)絡(luò)模型。不是簡(jiǎn)單地在不同通道上學(xué)習(xí)模型,而是智能關(guān)聯(lián)策略下實(shí)現(xiàn)通道的拓?fù)洹Mㄟ^擴(kuò)大節(jié)點(diǎn)的領(lǐng)域值,增強(qiáng)關(guān)聯(lián)節(jié)點(diǎn)和最終節(jié)點(diǎn)之間的聯(lián)系,從而加強(qiáng)整個(gè)身體部分的聯(lián)系。每個(gè)樣本能夠動(dòng)態(tài)地推斷相關(guān)性,獲得每個(gè)通道內(nèi)關(guān)節(jié)點(diǎn)之間的細(xì)微關(guān)系。同時(shí)每個(gè)信道獨(dú)立建模,用最少的參數(shù)來降低建模的難度。該方法能使模型局部信息和整體信息感知能力更強(qiáng)。該文的主要貢獻(xiàn)如下:
提出的關(guān)聯(lián)策略在基于智能拓?fù)浼?xì)化卷積網(wǎng)絡(luò)的基礎(chǔ)上比CTR-GCN方法增強(qiáng)了關(guān)節(jié)點(diǎn)之間內(nèi)在的關(guān)聯(lián)性,大大提高了骨關(guān)節(jié)點(diǎn)信息在空間上的識(shí)別精度。大量的實(shí)驗(yàn)結(jié)果表明,提出的關(guān)聯(lián)策略CRT-GCN在基于骨骼的動(dòng)作識(shí)別上優(yōu)于現(xiàn)有的方法。
卷積神經(jīng)網(wǎng)絡(luò)在處理圖像方面已經(jīng)取得了顯著的成績(jī)。但對(duì)于骨骼行為類的非圖像數(shù)據(jù)表現(xiàn)卻并不理想。由此提出了圖卷積網(wǎng)絡(luò)[11]。圖卷積神經(jīng)網(wǎng)絡(luò)分為光譜方法和空間方法。光譜方法適用在具有相同結(jié)構(gòu)的圖上;空間方法可以在圖上直接進(jìn)行卷積操作,但同樣面臨著處理不同大小閾值的挑戰(zhàn)。在各類GCN模型中,普遍采用的特征更新規(guī)則如下:將特征轉(zhuǎn)化為高層表示;根據(jù)圖的拓?fù)渚酆咸卣?。GCN在骨骼行為識(shí)別中,按照拓?fù)涞牟煌梢赃M(jìn)行如下分類:
(1)按照是否在不同信道上共享拓?fù)?分為共享和非共享方法。
(2)按照推導(dǎo)過程中是否動(dòng)態(tài)調(diào)整拓?fù)浣Y(jié)構(gòu),分為靜態(tài)方法和動(dòng)態(tài)方法。
在拓?fù)浣Y(jié)構(gòu)保持不變的靜態(tài)方法中,Yan等[12]提出了一種ST-GCN網(wǎng)絡(luò)模型。該模型能夠根據(jù)人體結(jié)構(gòu)預(yù)先定義拓?fù)?并且在訓(xùn)練和測(cè)試階段都是固定的。在動(dòng)態(tài)方法中,Li等[17]提出使用A-links推理模塊來捕獲特定于動(dòng)作的相關(guān)性,增強(qiáng)了拓?fù)鋵W(xué)習(xí),在給定相應(yīng)特征的情況下建立了兩個(gè)關(guān)節(jié)之間的相關(guān)性。這些方法加強(qiáng)了節(jié)點(diǎn)的局部特征關(guān)系。Shi等[14]提出了一種動(dòng)態(tài)GCN,融合了所有關(guān)節(jié)的上下文特征來學(xué)習(xí)任意對(duì)關(guān)節(jié)之間的相關(guān)性,從而得到了更好的泛化能力。在強(qiáng)制GCNs用相同的拓?fù)鋪砭酆喜煌诺赖奶卣鞯哪P椭?對(duì)模型性能帶來了很大的限制。非共享拓?fù)浞椒ㄔ诓煌男诺阑蛐诺澜M上使用不同拓?fù)?自然地克服了拓?fù)涔蚕矸椒ǖ木窒扌浴heng等[16]提出了一種DC-GCN,為不同的信道組設(shè)置單獨(dú)的參數(shù)化拓?fù)?。但DC-GCN在設(shè)置信道拓?fù)鋾r(shí),由于參數(shù)過多,存在優(yōu)化困難的問題。根據(jù)現(xiàn)有研究成果,在基于骨架的動(dòng)作識(shí)別中很少探索拓?fù)?非共享圖卷積,而在這個(gè)研究的基礎(chǔ)上,分組關(guān)聯(lián)策略對(duì)動(dòng)態(tài)信道拓?fù)浣>哂兄匾饬x,并且保證在推斷過程中拓?fù)涫莿?dòng)態(tài)推斷的建模方式。
人體部分關(guān)節(jié)聯(lián)系的分區(qū)策略目前有單標(biāo)簽,距離分區(qū)和空間配置分區(qū)。這三種分區(qū)考慮的是相鄰節(jié)點(diǎn)之間的聯(lián)系,并不能充分考慮到人體身體部分之間相對(duì)位置的聯(lián)系對(duì)行為識(shí)別的重要作用。為了能夠提取骨骼關(guān)節(jié)點(diǎn)的重要信息,在原有的分區(qū)策略基礎(chǔ)上,提出了關(guān)聯(lián)分區(qū)的CTR-GCN模型,從而提高整體模型的識(shí)別率。
首先,定義相關(guān)的符號(hào);然后,介紹關(guān)聯(lián)策略的CTR-GCN模型,并分析模型結(jié)構(gòu)。
人體骨骼圖是一個(gè)以關(guān)節(jié)為節(jié)點(diǎn),骨骼為邊的圖。圖用G=(v,ε,x)表示。v={v1,v2,…,vN}是N個(gè)關(guān)節(jié)點(diǎn)的集合。ε是邊集合。鄰接矩陣A∈RN×N,元素aij用來表示vi和vj節(jié)點(diǎn)的關(guān)系。vi的領(lǐng)域?yàn)镹(vi)={vj|aij≠0},χ是N個(gè)節(jié)點(diǎn)的特征集。用矩陣X∈RN×C表示,vi的特征表示為xi∈RC。共享的拓?fù)鋱D卷積利用權(quán)重w進(jìn)行特征轉(zhuǎn)換;通過aij聚合特征來更新特征zi,公式如下:
(1)
靜態(tài)方法中aij自定義或作為訓(xùn)練參數(shù)設(shè)置。動(dòng)態(tài)方法中,通過輸入樣本模型來生成。
在充分利用CTR-GCN在時(shí)空領(lǐng)域的關(guān)節(jié)信息的基礎(chǔ)上,使用新的最近鄰關(guān)聯(lián)策略進(jìn)行再分區(qū)。在單個(gè)信道中使用時(shí)間和空間域進(jìn)行再劃分。根據(jù)節(jié)點(diǎn)和根節(jié)點(diǎn)之間的距離進(jìn)行領(lǐng)域集的劃分。在該部分,設(shè)置D=2。將領(lǐng)域集分成三個(gè)子集:(1)根節(jié)點(diǎn)x0;(2)距離根節(jié)點(diǎn)D為1的鄰居節(jié)點(diǎn)x1;(3)距離根節(jié)點(diǎn)距離D為2的子集x2。這樣分區(qū)的依據(jù)是人體的行為活動(dòng)中關(guān)節(jié)是以局部活動(dòng)為主要體現(xiàn)形式,最近的關(guān)節(jié)參與度更高。通過最近的子集集合來加強(qiáng)相關(guān)信息,使得模型對(duì)行為識(shí)別感知更加敏感,能夠提升模型的識(shí)別準(zhǔn)確率。
不同分區(qū)策略的拓?fù)淙鐖D1所示。
圖1 不同分區(qū)策略拓?fù)?/p>
下面使用圖卷積的方式進(jìn)行表示[18]。單信道內(nèi)根節(jié)點(diǎn)由單位矩陣E表示。相鄰矩陣用X表示。在單信道內(nèi),所提出的關(guān)聯(lián)策略的公式表示如下:
(2)
在分組的鄰接矩陣中有如下關(guān)系:
(3)
在這里,為了統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),需要將不同的圖卷積重構(gòu)成統(tǒng)一的形式。對(duì)于動(dòng)態(tài)的共享拓?fù)渖窠?jīng)網(wǎng)絡(luò)來說,動(dòng)態(tài)拓?fù)溆懈玫姆夯芰?。?dòng)態(tài)拓?fù)渚嚯x關(guān)系aij依賴于輸入樣本。
該文構(gòu)造了基于CTR-GNC的關(guān)聯(lián)策略模型架構(gòu)。將每個(gè)關(guān)節(jié)的鄰域設(shè)置為整個(gè)人體骨架圖。前面已經(jīng)詳細(xì)說明了研究的有效性。模型用10個(gè)基本塊組成整體架構(gòu),使用平均池化進(jìn)行操作,最后通過一個(gè)softmax分類器進(jìn)行模型分類。在空間模型模塊,該文使用3個(gè)CTCTR-GCs來提取人體關(guān)節(jié)之間的相關(guān)性,并將其結(jié)果匯總為輸出。為了建模具有不同持續(xù)時(shí)間的動(dòng)作,設(shè)計(jì)了一個(gè)多尺度時(shí)間建模模塊。
NTU RGB+D:NTU RGB+D[19]是一個(gè)大型的人體行為識(shí)別數(shù)據(jù)集,包含56 880張人體骨骼行為序列。樣本由40個(gè)志愿者進(jìn)行,共分成60個(gè)種類。每個(gè)樣本包含一個(gè)動(dòng)作,并保證最多有2個(gè)主題。這是由三個(gè)微軟Kinect v2相機(jī)同時(shí)從不同的視圖捕捉。數(shù)據(jù)集被分為兩個(gè)基準(zhǔn):(1)cross-subject (Xsub):訓(xùn)練數(shù)據(jù)來自20個(gè)主體,測(cè)試數(shù)據(jù)來自其他20個(gè)主體;(2)cross-view (X-view):測(cè)試數(shù)據(jù)來自視圖2和3兩個(gè)相機(jī),測(cè)試數(shù)據(jù)來自視圖1相機(jī)。
Northwestern-UCLA:Northwestern-UCLA數(shù)據(jù)集[20]通過3個(gè)Kinect攝像機(jī)從多個(gè)角度同時(shí)獲取,包含1 494個(gè)視頻剪輯,涵蓋10個(gè)行動(dòng)類別。每個(gè)動(dòng)作由10個(gè)不同的主體完成。該文的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集來自兩個(gè)攝像機(jī),測(cè)試集來自另一個(gè)攝像機(jī)。
所有實(shí)驗(yàn)在一個(gè)Tesla V100 GPU的Paddle深度學(xué)習(xí)框架上完成。訓(xùn)練模型使用SGD,動(dòng)力為0.9,權(quán)重衰減為0.000 4。訓(xùn)練次數(shù)設(shè)置為65,學(xué)習(xí)率設(shè)置為0.1。對(duì)于NTU RGB+D數(shù)據(jù)集,簇大小為64,每個(gè)樣本大小是64,采用數(shù)據(jù)預(yù)處理方式[21]。對(duì)于Northwestern-UCLA,簇大小為16,t使用相同的數(shù)據(jù)預(yù)處理方式。
該文提出了一種新的基于分組的關(guān)聯(lián)分區(qū)策略。將關(guān)節(jié)點(diǎn)分為三個(gè)子集:根關(guān)節(jié)點(diǎn)集合、距離為1的鄰接點(diǎn)集合和距離為2的鄰接點(diǎn)集合。下面針對(duì)統(tǒng)一分區(qū)(uniform)、距離分區(qū)(distance)和稀疏分區(qū)(spatial)與提出的分組關(guān)聯(lián)分區(qū)(correlative)進(jìn)行對(duì)比實(shí)驗(yàn)。
(1)NTU-RGB+D(X-Sub)實(shí)驗(yàn)結(jié)果與分析。
表1為基于骨架的NTU-RGC+D數(shù)據(jù)集的動(dòng)作識(shí)別結(jié)果。采用基于不同的行為主體(X-Sub)的實(shí)驗(yàn)方法對(duì)比了幾種分區(qū)策略的準(zhǔn)確性??梢钥闯鲈撐牡姆謪^(qū)策略在NTU-RGB+D的評(píng)估下,最終訓(xùn)練結(jié)果相比于原文中的3種分區(qū)策略中最好的訓(xùn)練結(jié)果在top-1上有了0.8百分點(diǎn)的提升,在top-5上精度有0.7百分點(diǎn)的提升。
表1 NTU-RGB+D(X-Sub)實(shí)驗(yàn)結(jié)果 %
(2)NTU-RGB+D(X-View)實(shí)驗(yàn)結(jié)果與分析。
表2 為基于骨架的NTU-RGC+D 數(shù)據(jù)集的動(dòng)作識(shí)別結(jié)果。采用基于不同拍攝視角(X-View)的實(shí)驗(yàn)方法對(duì)比了幾種分區(qū)策略的準(zhǔn)確性。從表2的對(duì)比結(jié)果可以看出,所提分區(qū)策略得到的識(shí)別率相較于原分區(qū)策略中的uniform和distance均有明顯提升。這證明在相同的實(shí)驗(yàn)條件下,所提分區(qū)策略在一定程度上要優(yōu)于原始分區(qū)方法。同時(shí),相比于之前的3種分區(qū)方法,無論top-1還是top-5的精度均有較大提升,最高由原來的84.6%提升至96.4%,以及98.8%提升至99.6%。
表2 NTU-RGB+D(X-View)實(shí)驗(yàn)結(jié)果 %
許多最先進(jìn)的方法采用多流融合框架。該文融合了四種模式的結(jié)果,即關(guān)節(jié)、骨、關(guān)節(jié)運(yùn)動(dòng)和骨運(yùn)動(dòng)。將文中算法和其他先進(jìn)的流行算法進(jìn)行對(duì)比。性能表現(xiàn)如表3和表4所示。在NTU-RGB+D數(shù)據(jù)集上對(duì)比當(dāng)前先進(jìn)的幾種方法,即ST-GCN[12]、2S-AGCN[15]、Shift-GCN[13]、D-GCN[16]、ASCTR-GCN可以發(fā)現(xiàn),新的關(guān)聯(lián)分區(qū)ASCTR-GCN相比于最好的方法在X-View和X-Sub的識(shí)別精度上分別提高了2.5和0.5百分點(diǎn)。
表3 在NTU-RGB+D數(shù)據(jù)集上幾種識(shí)別技術(shù)的對(duì)比 %
表4 在Northwestern-UCLA數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn) %
在Northwestern-UCLA數(shù)據(jù)集上對(duì)幾種方法進(jìn)行比較,Top1識(shí)別精度達(dá)到了97.2%。與比較常用的Shift-GCN模型相比,Top1識(shí)別精度提升2.6百分點(diǎn);與最近識(shí)別效果好的算法DC-GCN[18]相比,提高了1.9百分點(diǎn)。
在兩個(gè)數(shù)據(jù)集上,文中方法在幾乎所有評(píng)估基準(zhǔn)下優(yōu)于所有現(xiàn)有方法。
該文提出了一種新的基于關(guān)聯(lián)分組策略的通道拓?fù)浼?xì)化圖卷積網(wǎng)絡(luò)ASCTR-GCN,設(shè)計(jì)了分區(qū)關(guān)聯(lián)的拓?fù)浣Y(jié)構(gòu),并設(shè)計(jì)了模型架構(gòu)。模型在基于骨架的動(dòng)作識(shí)別中和其他流行算法進(jìn)行了比較,驗(yàn)證了模型的優(yōu)越性。經(jīng)過數(shù)學(xué)分析和實(shí)驗(yàn)結(jié)果表明,新的關(guān)聯(lián)分組策略的CTR-GC比現(xiàn)有其他圖卷積具有更強(qiáng)的表示能力。在新的分區(qū)策略的引導(dǎo)下,下一步工作應(yīng)集中在獲取特定動(dòng)作下不同關(guān)節(jié)點(diǎn)直接的聯(lián)系,同時(shí)尋找更加高效的人體骨骼行為識(shí)別方法。