李揚(yáng)志,袁家政,劉宏哲
(1.北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室(北京聯(lián)合大學(xué)),北京 100101;2.北京開放大學(xué)科研外事處,北京 100081)
行為識(shí)別的主要任務(wù)是分類識(shí)別,對給定的一段動(dòng)作信息(例如視頻、圖片、二維骨骼序列、三維骨骼序列),通過特征抽取分類來預(yù)測其類別。目前基于視頻和RGB(Red,Greeen,Blue)圖片的主流方法是雙流網(wǎng)絡(luò)[1],而基于骨骼數(shù)據(jù)的主流方法就是圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)。其中卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)適合提取空間上有相關(guān)性的數(shù)據(jù),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)則適合提取時(shí)間上有相關(guān)性的數(shù)據(jù)。現(xiàn)有的基于人工特征或遞歸神經(jīng)網(wǎng)絡(luò)的方法無法充分捕捉骨骼序列復(fù)雜的空間結(jié)構(gòu)和長期的時(shí)間動(dòng)態(tài),而這對識(shí)別動(dòng)作非常重要[2]。對基于視頻的人體行為識(shí)別來說,動(dòng)作的發(fā)生與結(jié)束與時(shí)間空間緊密相關(guān),并且時(shí)間與空間具有潛在關(guān)系。然而目前對視頻中時(shí)空相關(guān)數(shù)據(jù)的提取多依賴于手工設(shè)計(jì),耗費(fèi)了大量人力物力;或者提取的數(shù)據(jù)不夠具有判別性。因此,有效地提取視頻數(shù)據(jù)的時(shí)空相關(guān)性是解決這些問題的關(guān)鍵。如何探索非線性復(fù)雜時(shí)空數(shù)據(jù),發(fā)現(xiàn)其固有的時(shí)空模式,準(zhǔn)確預(yù)測人體行為仍是一個(gè)非常有挑戰(zhàn)性的課題。
近年來,人體行為識(shí)別已經(jīng)成為了一個(gè)活躍的研究領(lǐng)域。一般來說,人體行為的識(shí)別可通過多種模式,如外觀、深度、光流和人體骨架[3]。其中,動(dòng)態(tài)的人體骨架通常包含有重要信息。動(dòng)態(tài)骨架模態(tài)可以表示為一系列人體關(guān)節(jié)位置的時(shí)間序列,從而可通過分析運(yùn)動(dòng)模式來對人體行為進(jìn)行識(shí)別。早期Wang 等[4]提出利用時(shí)間步長的關(guān)節(jié)坐標(biāo)形成特征向量來進(jìn)行骨架動(dòng)作識(shí)別,但沒有利用上關(guān)節(jié)之間的空間關(guān)系,所以識(shí)別效果有限。Du等[5]提出使用神經(jīng)網(wǎng)絡(luò)的方法來學(xué)習(xí)骨架關(guān)節(jié)點(diǎn)之間的連接關(guān)系。該方法顯示了強(qiáng)大的學(xué)習(xí)能力,并取得了很大的改進(jìn),然而大多方法依賴于手工設(shè)計(jì)的方法或規(guī)則,難以泛化。Vemulapalli 等[6]提出通過三維骨骼表示來進(jìn)行人體動(dòng)作識(shí)別,利用人體各部位之間的相對三維幾何關(guān)系來表示三維人體骨架。近來,基于圖的模型[7]因其對圖結(jié)構(gòu)數(shù)據(jù)的有效表示而受到廣泛關(guān)注。現(xiàn)有的圖形模型主要可分為兩種架構(gòu):圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)和圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)。GNN 是將圖與遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合,通過消息傳遞與節(jié)點(diǎn)狀態(tài)更新的多次迭代,每個(gè)節(jié)點(diǎn)捕獲其相鄰節(jié)點(diǎn)內(nèi)的語義關(guān)系和結(jié)構(gòu)信息[8]。Qi 等[9]提出將GNN 應(yīng)用于圖像、視頻檢測和識(shí)別人機(jī)交互任務(wù);Li 等[10]提出利用GNN 對物體之間的依賴關(guān)系建模,并預(yù)測用于情景識(shí)別的一致的結(jié)構(gòu)化輸出。GCN則將卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展到了圖模型。Kipf 等[11]引入了光譜GCN,用于對圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行半監(jiān)督分類;Simonovsky 等[12]對空間域內(nèi)的圖信號(hào)進(jìn)行了類似卷積運(yùn)算,并將圖卷積用于點(diǎn)云分類。
基于此,有人提出結(jié)合二者優(yōu)點(diǎn),利用關(guān)節(jié)點(diǎn)的自然連接與圖模型對圖結(jié)構(gòu)物體學(xué)習(xí)能力的融合,從而更加有效地進(jìn)行人體行為的檢測與識(shí)別。Song 等[13]提出了時(shí)空注意力模型,選擇性地關(guān)注不同的時(shí)空特征,說明時(shí)空特征的提取與表示是視頻中人體行為識(shí)別的關(guān)鍵;Zhang 等[14]提出了一種骨架序列的視圖自適應(yīng)模型,能夠自動(dòng)將觀測點(diǎn)調(diào)整為合適的視點(diǎn)。研究進(jìn)一步表明,學(xué)習(xí)區(qū)分時(shí)空特征是人類動(dòng)作識(shí)別的關(guān)鍵要素。Yan 等[15]提出了一種用于動(dòng)作識(shí)別的時(shí)空卷積網(wǎng) 絡(luò)(Spatial Temporal Graph Convolutional Network,STGCN),每個(gè)卷積層用一個(gè)圖卷積算子構(gòu)造空間特征,用一個(gè)卷積算子建模時(shí)空動(dòng)態(tài)。在此基礎(chǔ)之上,Li 等[16]提出了動(dòng)作-結(jié)構(gòu)圖卷積網(wǎng)絡(luò)(Actional-Structural Graph Convolutional Network,AS-GCN),通過學(xué)習(xí)actional-links,擴(kuò)展structurallinks來進(jìn)行行為識(shí)別。此外,Thakkar等[17]提出了一種基于部件的圖卷積網(wǎng)絡(luò)(Part-based Graph Convolutional Network,PBGCN)來學(xué)習(xí)部件之間的關(guān)系。與ST-GCN和PB-GCN相比,Si等[18]提出利用圖神經(jīng)網(wǎng)絡(luò)捕獲空間結(jié)構(gòu)信息,然后利用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對時(shí)間動(dòng)態(tài)進(jìn)行建模。
然而,動(dòng)態(tài)骨架的建模受到的關(guān)注較少,并且缺乏對骨架數(shù)據(jù)中的空特征的充分發(fā)掘,基于此,本文提出了一種時(shí)空注意力圖卷積網(wǎng)絡(luò),目的是發(fā)展一種魯棒的、有效的方法來對動(dòng)態(tài)骨架進(jìn)行建模,可以自動(dòng)捕獲嵌入在人體骨架關(guān)節(jié)間的空間和時(shí)間動(dòng)態(tài)特征,從而實(shí)現(xiàn)人體動(dòng)作的識(shí)別。本文主要工作如下:1)提出一種時(shí)空注意力機(jī)制來學(xué)習(xí)人體骨架序列的動(dòng)態(tài)時(shí)空相關(guān)性,其中空間注意力被用來建模不同節(jié)點(diǎn)之間的復(fù)雜空間相關(guān)性,時(shí)間注意力被用來捕捉不同時(shí)間之間的動(dòng)態(tài)時(shí)間相關(guān)性。2)設(shè)計(jì)了一種新的時(shí)空卷積模塊,用于骨架數(shù)據(jù)的時(shí)空相關(guān)性建模。它由基于圖的從骨架網(wǎng)絡(luò)中獲取空間特征的圖卷積和描述相鄰時(shí)間片依賴關(guān)系的時(shí)間維卷積組成。3)將空間注意力機(jī)制和時(shí)空注意力機(jī)制有機(jī)地融合到統(tǒng)一的圖卷積中,得到基于時(shí)空注意力機(jī)制的圖卷積網(wǎng)絡(luò)(Spatiotemporal Attention Graph Convolutional Network,STA GCN),實(shí)現(xiàn)端到端訓(xùn)練,并在骨架動(dòng)作識(shí)別中取得了較好的效果。
在人體行為中,人體關(guān)節(jié)點(diǎn)總是以組為單位進(jìn)行運(yùn)動(dòng)。現(xiàn)有方法已經(jīng)證明基于骨架的行為識(shí)別的有效性[19],但是現(xiàn)有方法對于時(shí)空信息的表示與學(xué)習(xí)還是依賴手工設(shè)計(jì)特征或者先驗(yàn)知識(shí),忽略了時(shí)間與空間之間的聯(lián)系,因此本文提出了STA-GCN。
骨架是圖形的形式,而不是二維或者三維網(wǎng)格,這使得單純使用卷積網(wǎng)絡(luò)變得困難。GCN是學(xué)習(xí)表示圖結(jié)構(gòu)數(shù)據(jù)的一種通用而有效的框架,各種GCN 變種已經(jīng)在許多任務(wù)上取得了最先進(jìn)的成果。
對基于骨架的人體行為識(shí)別來說,基于骨架的數(shù)據(jù)可以從運(yùn)動(dòng)捕捉設(shè)備或視頻中的姿勢估計(jì)算法中獲得。通常數(shù)據(jù)是一個(gè)幀序列,每個(gè)幀都會(huì)有一組關(guān)節(jié)坐標(biāo)。在給定二維或三維坐標(biāo)形式的人體關(guān)節(jié)序列的基礎(chǔ)上,構(gòu)造了以關(guān)節(jié)為圖結(jié)點(diǎn)、以人體結(jié)構(gòu)和時(shí)間的自然連通性為圖邊的時(shí)空圖。
圖卷積可定義為:
其中:fin是節(jié)點(diǎn)vti的特征向量輸入;W(·)是一個(gè)權(quán)值函數(shù),并且是根據(jù)圖標(biāo)簽lti:Vt→{0,1,…,K}自K映射而來,可用于為每個(gè)圖節(jié)點(diǎn)vti∈Vt分配標(biāo)簽,并且可以將節(jié)點(diǎn)vti的鄰節(jié)點(diǎn)集合N(vti)劃分為固定數(shù)量的K個(gè)子集;Zti(vtj)是對特征表示進(jìn)行規(guī)范化的相應(yīng)子集數(shù)量;fout(vti)表示圖卷積在節(jié)點(diǎn)vti處的輸出。使用鄰接矩陣來代入上式,可得:
該模型在圖卷積網(wǎng)絡(luò)中引入了時(shí)空注意力機(jī)制,可以在長時(shí)復(fù)雜視頻中關(guān)注到具判別力的時(shí)空區(qū)域,同時(shí)排除無關(guān)區(qū)域的干擾。圖卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空注意力機(jī)制包含空間注意力機(jī)制和時(shí)間注意力機(jī)制兩部分。其中,空間注意力機(jī)制一方面利用光流特征中的瞬時(shí)運(yùn)動(dòng)信息定位視頻幀中的運(yùn)動(dòng)顯著區(qū)域,另一方面在訓(xùn)練過程中引入全局平均池化和輔助分類損失使網(wǎng)絡(luò)關(guān)注到具有判別力的非運(yùn)動(dòng)區(qū)域;而時(shí)間注意力機(jī)制可以自動(dòng)地從長時(shí)復(fù)雜視頻中挖掘出最具判別力的視頻時(shí)域片段,而不需要任何時(shí)域標(biāo)注信息。本文將空間注意力機(jī)制和時(shí)間注意力機(jī)制整合到統(tǒng)一的圖卷積神經(jīng)網(wǎng)絡(luò)框架中,并實(shí)現(xiàn)端到端的訓(xùn)練。
空間注意力網(wǎng)絡(luò)首先在光流預(yù)測數(shù)據(jù)庫上預(yù)訓(xùn)練,使得該網(wǎng)絡(luò)可以關(guān)注視頻中運(yùn)動(dòng)顯著的空間區(qū)域;然后該網(wǎng)絡(luò)利用全局平均池化并引入輔助分類損失以增加卷積特征的判別性,以關(guān)注到視頻中具有判別力的非運(yùn)動(dòng)區(qū)域;最后,空間注意力網(wǎng)絡(luò)生成空間注意力熱圖,該熱圖突顯出空域中運(yùn)動(dòng)顯著區(qū)域以及具有判別力的非運(yùn)動(dòng)區(qū)域,并指導(dǎo)行為分類網(wǎng)絡(luò)從感興趣的空間區(qū)域提取有效時(shí)空特征,用于行為識(shí)別。
按照注意力的可微性,分為硬注意力與軟注意力。硬注意力中某個(gè)區(qū)域要么被關(guān)注,要么不關(guān)注,這是一個(gè)不可微的注意力;軟注意力中用0到1的不同分值表示每個(gè)區(qū)域被關(guān)注的程度高低,這是一個(gè)可微的注意力。利用空間注意力網(wǎng)絡(luò)對關(guān)鍵節(jié)點(diǎn)進(jìn)行自適應(yīng)聚焦,采用軟注意力機(jī)制自動(dòng)測量節(jié)點(diǎn)的重要性[20]。STA-GCN 的中間隱藏層包含豐富的空間結(jié)構(gòu)信息和時(shí)間動(dòng)態(tài)信息,有利于關(guān)鍵關(guān)節(jié)點(diǎn)的選擇。
在行為識(shí)別的實(shí)際應(yīng)用中,采集的原始視頻中總是包含有大量無關(guān)或無判別力的視頻片段,為排除這些片段的干擾,提出了無監(jiān)督時(shí)間注意力機(jī)制。該時(shí)間注意力機(jī)制不需要任何時(shí)域標(biāo)注信息即可自動(dòng)地從復(fù)雜視頻中挖掘出具有判別力的視頻時(shí)域片段。該機(jī)制基于各個(gè)視頻片段對該視頻分類的可信度挖掘視頻中具有判別力的時(shí)域片段。
基于骨架的數(shù)據(jù)可以從動(dòng)作捕捉設(shè)備中獲取,也可以從視頻中利用姿態(tài)估計(jì)算法獲取姿態(tài)。通常數(shù)據(jù)是一系列幀,每一幀都有一組關(guān)節(jié)坐標(biāo)。已知人體關(guān)節(jié)順序,以人體結(jié)構(gòu)中的關(guān)節(jié)點(diǎn)為圖節(jié)點(diǎn),以時(shí)間和關(guān)節(jié)點(diǎn)的自然連接為邊,構(gòu)造時(shí)空圖。因此時(shí)空注意力圖卷積模型的輸入是圖節(jié)點(diǎn)上的聯(lián)合坐標(biāo)向量,這可以看作是一種基于圖像的CNN,其中輸入是由在二維圖像網(wǎng)格上的像素位置向量形成的。對輸入數(shù)據(jù)進(jìn)行多層時(shí)空圖卷積運(yùn)算,生成更高層次的特征圖,然后通過標(biāo)準(zhǔn)的SoftMax 分類器將其分類為相應(yīng)的動(dòng)作類別。整個(gè)模型采用端到端反向傳播的方式進(jìn)行訓(xùn)練。
STA-GCN 模型整體框架如圖1 所示,在每個(gè)時(shí)空塊中都有時(shí)空注意力模塊(SAtt、TAtt)和時(shí)空卷積模塊(GCN、Conv)。為了優(yōu)化訓(xùn)練效果,在每個(gè)組件中采用了殘差學(xué)習(xí)框架[21-22],最后經(jīng)過行為分類子網(wǎng)絡(luò)的輸出,得到最終預(yù)測結(jié)果。
圖1 STA-GCN整體框架Fig.1 Overall framework for STA-GCN
1)空間注意力。在空間維度上,不同位置的節(jié)點(diǎn)狀況相互影響,相互影響具有很強(qiáng)的動(dòng)態(tài)性。這里使用注意力機(jī)制自適應(yīng)捕捉空間維度節(jié)點(diǎn)之間的動(dòng)態(tài)關(guān)聯(lián)[23]。
2)時(shí)間注意力。在時(shí)間維度上,不同時(shí)間段的人體關(guān)節(jié)點(diǎn)狀況之間存在相關(guān)性,且相關(guān)性在不同情況下也存在差異。同樣地,本文使用注意力機(jī)制自適應(yīng)地對數(shù)據(jù)給予不同的重視。
3)時(shí)空注意力融合??臻g注意力網(wǎng)絡(luò)生成空間注意力熱圖用于指導(dǎo)行為分類網(wǎng)絡(luò)從感興趣的空間區(qū)域提取有效時(shí)空特征;時(shí)間注意力機(jī)制從原始的復(fù)雜視頻中自動(dòng)地挖掘出具有判別力的視頻時(shí)域片段,并將這些視頻片段用于網(wǎng)絡(luò)訓(xùn)練,而排除其他視頻片段對分類器的干擾。
本文提出的時(shí)空注意力模型分別在RGB 視頻幀和光流序列中單獨(dú)訓(xùn)練兩個(gè)網(wǎng)絡(luò)模型,即空間子網(wǎng)絡(luò)(Spatial Network,SN)和時(shí)間子網(wǎng)絡(luò)(Temporal Network,TN)。然后將兩個(gè)網(wǎng)絡(luò)的Softmax 預(yù)測得分加權(quán)融合作為行為分類的依據(jù),如此可以有效提升該網(wǎng)絡(luò)的分類魯棒性。需要注意的是,在RGB 視頻幀數(shù)據(jù)上訓(xùn)練時(shí),空間注意力網(wǎng)絡(luò)的參數(shù)需要提前在光流預(yù)測數(shù)據(jù)庫上預(yù)訓(xùn)練,而在光流序列數(shù)據(jù)上訓(xùn)練時(shí),空間注意力網(wǎng)絡(luò)與行為分類網(wǎng)絡(luò)共享權(quán)值。
時(shí)空注意力模塊使網(wǎng)絡(luò)自動(dòng)地對有價(jià)值的信息給予相對較多的注意。將注意力機(jī)制調(diào)整后的輸入輸入到時(shí)空圖卷積模塊,其結(jié)構(gòu)如圖2 所示。本文提出的時(shí)空圖卷積模塊由從鄰域中獲取空間相關(guān)性的空間圖卷積和從鄰近時(shí)間獲取時(shí)間相關(guān)性的時(shí)間卷積組成。
圖2 STA-GCN時(shí)空圖卷積結(jié)構(gòu)Fig.2 Spatiotemporal graph convolution structure of STA-GCN
譜圖理論將網(wǎng)格數(shù)據(jù)的卷積運(yùn)算推廣到了圖形結(jié)構(gòu)數(shù)據(jù)中。在本研究中,人體骨架網(wǎng)絡(luò)本質(zhì)上是一種圖結(jié)構(gòu),每個(gè)節(jié)點(diǎn)的特征可以看作是圖上的信號(hào)[24]。因此,為了充分利用人體骨架網(wǎng)絡(luò)的拓?fù)涮匦?,本文在每個(gè)時(shí)間片上采用基于頻譜圖理論的圖卷積直接處理信號(hào),挖掘人體骨架網(wǎng)絡(luò)在空間維度上的信號(hào)相關(guān)性。譜方法將圖轉(zhuǎn)化為代數(shù)形式,分析圖的拓?fù)鋵傩裕鐖D結(jié)構(gòu)中的連通性。
在譜圖分析中,圖是用對應(yīng)的拉普拉斯矩陣表示的。通過分析拉普拉斯矩陣及其特征值,可以得到圖結(jié)構(gòu)的性質(zhì)。圖的拉普拉斯矩陣定義為:L=D-A,標(biāo)準(zhǔn)化形式為:L=其中:A表示鄰接矩陣;IN表示單位矩陣;度矩陣D是一個(gè)對角矩陣?yán)绽咕仃嚨奶卣髦捣纸鉃椋篖=FΛUT,其中Λ=diag(λ0,λ1,…,λN-1)為對角矩陣,F(xiàn)為傅里葉基。圖的卷積是利用在傅里葉域中對角化的線性算子代替經(jīng)典的卷積算子實(shí)現(xiàn)的卷積運(yùn)算[25]?;诖耍瑘D上的信號(hào)x可通過核gθ變換進(jìn)行濾波:
其中*G表示圖卷積操作。由于圖形信號(hào)的卷積運(yùn)算等于通過圖形傅里葉變換將這些信號(hào)變換到譜域的乘積,上式可以理解為將gθ的極小部分和x分別在譜域進(jìn)行傅里葉變換,然后將變換后的結(jié)果相乘,再進(jìn)行傅里葉反變換,得到卷積運(yùn)算的最終結(jié)果。但是,當(dāng)圖的尺度較大時(shí),直接對拉普拉斯矩陣進(jìn)行特征值分解的代價(jià)較大,因此,本文采用切比雪夫多項(xiàng)式近似而有效地解決該問題:
其中:γ表示多項(xiàng)式系數(shù)的一個(gè)向量;,λmax是拉普拉斯矩陣的最大特征值。切比雪夫多項(xiàng)式的遞歸定義為Tk(x)=2xTk-1(x)-Tk-2(x),其中:T0(x)=1,T1(x)=x。利用切比雪夫多項(xiàng)式的近似展開求解,對應(yīng)于通過卷積核gθ來提取一圖中以每個(gè)節(jié)點(diǎn)為中心到第(K-1)階鄰域信息。圖的卷積模塊使用經(jīng)過校正的線性單元作為最終的激活函數(shù)。
在對圖進(jìn)行卷積運(yùn)算后,獲取圖上每個(gè)節(jié)點(diǎn)在空間維度上的鄰近信息,在時(shí)間維度上進(jìn)一步堆疊標(biāo)準(zhǔn)卷積層,通過合并相鄰時(shí)間片上的信息來更新節(jié)點(diǎn)的信號(hào)。以最鄰矩陣在第r層的操作為例:
其中:*表示標(biāo)準(zhǔn)卷積操作,Q表示時(shí)間維卷積核的參數(shù),ReLU()表示激活函數(shù)。
綜上所述,時(shí)空卷積模塊能夠很好地捕捉人體行為數(shù)據(jù)的時(shí)空特征。一個(gè)時(shí)空注意力模塊和一個(gè)時(shí)空卷積模塊構(gòu)成一個(gè)時(shí)空塊,將多個(gè)時(shí)空塊疊加,可進(jìn)一步提取更大范圍的動(dòng)態(tài)時(shí)空相關(guān)性。最后,附加一個(gè)全連接層,保證各分量的輸出與預(yù)測目標(biāo)具有相同的維數(shù)和形狀。最后的全連接層使用ReLU作為激活函數(shù)。
為測試時(shí)空注意力圖卷積網(wǎng)絡(luò)在基于骨架的動(dòng)作識(shí)別數(shù)據(jù)集上的表現(xiàn),選用以下兩個(gè)數(shù)據(jù)集:1)Kinetics human action dataset[26],它是目前為止最大的無約束動(dòng)作識(shí)別數(shù)據(jù)集;2)NTU RGB+D[27],它是目前最大的室內(nèi)動(dòng)作識(shí)別數(shù)據(jù)集。為了檢測本文模型對識(shí)別性能的貢獻(xiàn),首先在動(dòng)作識(shí)別數(shù)據(jù)集上進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。為了驗(yàn)證時(shí)空注意力圖卷積網(wǎng)絡(luò)是否有效,本文將識(shí)別結(jié)果與其他最先進(jìn)的方法進(jìn)行了比較。所有實(shí)驗(yàn)都在Pytorch 深度學(xué)習(xí)框架上進(jìn)行,并使用了8 個(gè)TITANX GPUs。
Kinetics 數(shù)據(jù)集包含了從YouTube 上檢索到的大約300 000 個(gè)視頻剪輯。這些視頻覆蓋了多達(dá)400 類人體行為,主要有日常活動(dòng)、體育、復(fù)雜交互動(dòng)作等;每個(gè)視頻片段持續(xù)10 s左右。
該數(shù)據(jù)集只提供了原始視頻剪輯,沒有骨架數(shù)據(jù)。由于本文主要是針對基于骨架的動(dòng)作識(shí)別,因此需要將原始幀轉(zhuǎn)換成關(guān)節(jié)位置序列,主要借用了OpenPose[28]工具箱來進(jìn)行關(guān)節(jié)位置的捕獲。為了獲取關(guān)節(jié)位置,統(tǒng)一將視頻分辨率更改為340×256,并將幀率轉(zhuǎn)換為30 幀每秒(Frames Per Second,F(xiàn)PS)。工具箱給出了像素坐標(biāo)系中的二維坐標(biāo)(X,Y)和18個(gè)人體關(guān)節(jié)的置信度得分D,故可用(X,Y,D)的元組表示每個(gè)關(guān)節(jié),一個(gè)人體骨架被記錄為18 個(gè)元組的數(shù)組。對于多人情況,選取視頻剪輯中平均置信度最高的2 人。通過這種方式,一個(gè)帶有T幀的剪輯被轉(zhuǎn)成這些元組的骨架序列。用(3,T,18,2)維張量表示剪輯,為簡化處理,設(shè)置T=300。
本文根據(jù)數(shù)據(jù)集作者推薦的Top-1 和Top-5 分類精度來評(píng)估識(shí)別性能,將數(shù)據(jù)集劃分為240 000 個(gè)剪輯的訓(xùn)練集和20 000個(gè)剪輯的驗(yàn)證集。
NTU RGB+D 數(shù)據(jù)集是目前最大的人體行為識(shí)別3D 關(guān)節(jié)注釋數(shù)據(jù)集,共包含60 個(gè)動(dòng)作類的56 000 個(gè)動(dòng)作剪輯。這些短片由40位志愿者在一個(gè)實(shí)驗(yàn)室由3個(gè)攝像機(jī)拍攝。所提供的注釋給出了由深度傳感器Kinect 檢測到的關(guān)節(jié)點(diǎn)3D 坐標(biāo)位置(X,Y,Z),其中每個(gè)受試者的骨架序列中含有25個(gè)關(guān)節(jié),每個(gè)短片中最多有兩名受試者。
根據(jù)作者推薦,該數(shù)據(jù)集可劃分為兩類:1)CS(Cross-Subject):包含40 320 個(gè)剪輯的訓(xùn)練集與16 560 個(gè)剪輯的測試集。在這種劃分下,一部分志愿者只出現(xiàn)在訓(xùn)練集,一部分只出現(xiàn)在測試集。2)CV(Cross-View):包含37 920 個(gè)剪輯的驗(yàn)證集與18 960 個(gè)剪輯的測試集。這種劃分下,用于訓(xùn)練的剪輯來自攝像頭2 和3,測試集的剪輯來源于攝像頭1。本文將遵循這個(gè)慣例,并在兩個(gè)劃分上以Top-1 分類精度作為識(shí)別性能評(píng)估指標(biāo)。
本節(jié)共設(shè)計(jì)了四組實(shí)驗(yàn),詳細(xì)驗(yàn)證本文提出的基于時(shí)空注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)在骨架動(dòng)作識(shí)別任務(wù)中的有效性。第一組實(shí)驗(yàn)展示了注意力模型網(wǎng)絡(luò)學(xué)習(xí)的對應(yīng)幀的注意力熱圖的可視化結(jié)果;第二、三組實(shí)驗(yàn)為切片實(shí)驗(yàn),用于單獨(dú)驗(yàn)證空間注意力機(jī)制和時(shí)間注意力機(jī)制的有效性;第四組實(shí)驗(yàn)是將空間注意力機(jī)制和時(shí)間注意力機(jī)制融合到一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)中,實(shí)現(xiàn)端到端的訓(xùn)練,并將其應(yīng)用到動(dòng)作識(shí)別任務(wù)中。該實(shí)驗(yàn)是為了驗(yàn)證在圖卷積神經(jīng)網(wǎng)絡(luò)中同時(shí)引入時(shí)空注意力機(jī)制對動(dòng)作識(shí)別任務(wù)的提升效果。
在第一組實(shí)驗(yàn)中,在視頻序列的每個(gè)時(shí)刻根據(jù)當(dāng)前時(shí)刻的輸入特征和記憶的歷史信息分別生成顯著性熱力圖。
如圖3 所示,該熱力圖顯示了不同關(guān)節(jié)點(diǎn)位置的重要程度。根據(jù)熱力圖可以發(fā)現(xiàn),不同動(dòng)作對關(guān)節(jié)的關(guān)注程度也有所區(qū)別,對于示例(a)來說,其運(yùn)動(dòng)顯著區(qū)域是手及杠鈴周圍,因此對這些部位的關(guān)注程度要高。
圖3 空間注意力熱力圖Fig.3 Heat maps of spatial attention
圖4 展示了示例視頻各時(shí)域片段及其預(yù)測可信度。其中每一個(gè)視頻示例上方的一行展示的是視頻各個(gè)時(shí)域片段的關(guān)鍵幀,下方的紅色長條表示不同視頻時(shí)域片段對應(yīng)的置信度,該置信度由本文提出的時(shí)間注意力機(jī)制學(xué)習(xí)得到。
圖4 視頻時(shí)域片段及其預(yù)測置信度Fig.4 Video time-domain segments and their prediction confidences
圖5 展示了利用時(shí)空注意力模型得到的視頻幀注意力熱力圖及置信度。其中,視頻幀中人體關(guān)節(jié)位置的顏色深度代表不同的重要程度,顏色越深代表該關(guān)節(jié)受重視的權(quán)重越高。而視頻幀下方的紅條代表該幀在視頻片段的置信度,紅色越長,代表該片段對于識(shí)別的判別性越好。
圖5 視頻幀時(shí)空注意熱力圖及置信度Fig.5.Spatiotemporal attention heat maps and confidences of video frames
第二組實(shí)驗(yàn)主要是在Kinetics 和NTU RGB+D 動(dòng)作識(shí)別數(shù)據(jù)集上驗(yàn)證空間注意力機(jī)制的有效性。在該組實(shí)驗(yàn)中,本文比較了基于空間注意力機(jī)制的圖卷積模型與對應(yīng)的圖卷積網(wǎng)絡(luò)基準(zhǔn)模型的識(shí)別精度。ST-GCN 模型在骨架動(dòng)作識(shí)別任務(wù)中取得了較好結(jié)果,本實(shí)驗(yàn)以ST-GCN 模型為基礎(chǔ),在該網(wǎng)絡(luò)模型中引入空間注意力機(jī)制(記作SA),以驗(yàn)證空間注意力機(jī)制在動(dòng)作識(shí)別任務(wù)中的有效性。
如表1 所示,基于空間注意力機(jī)制的行為識(shí)別模型的識(shí)別精度明顯優(yōu)于ST-GCN基準(zhǔn)模型。
表1 驗(yàn)證空間注意力機(jī)制在動(dòng)作識(shí)別的有效性Tab.1 Verification of effectiveness of spatial attention mechanism in action recognition
第三組實(shí)驗(yàn)主要是在動(dòng)作識(shí)別數(shù)據(jù)集上驗(yàn)證時(shí)間注意力機(jī)制的有效性。本組實(shí)驗(yàn)共設(shè)計(jì)了兩種個(gè)不同的基于時(shí)間注意力機(jī)制的卷積模型,均是在基準(zhǔn)模型ST-GCN 基礎(chǔ)之上加入時(shí)間注意力機(jī)制(記作TA)。時(shí)間注意力機(jī)制卷積模型采用不同的視頻時(shí)域分割及選擇方式,以驗(yàn)證不同時(shí)域分割方式及不同分割參數(shù)對行為識(shí)別精度的影響。在該組實(shí)驗(yàn)中基準(zhǔn)模型的訓(xùn)練過程與上一組實(shí)驗(yàn)相同。實(shí)驗(yàn)結(jié)果如表2 所示,其中,平均融合方式(Average Fusion Mode,AFM)是將各個(gè)時(shí)域片段的預(yù)測結(jié)果直接平均后作為整個(gè)視頻的預(yù)測結(jié)果;區(qū)分信任加權(quán)(Discriminative Confidence Weighting,DCW)表示基于預(yù)測可信度加權(quán)的時(shí)域融合方式,即根據(jù)各個(gè)輸入片段的預(yù)測可信度選擇其中最可靠視頻片段,并將這些片段的預(yù)測結(jié)果進(jìn)行加權(quán)作為整個(gè)視頻的預(yù)測結(jié)果。
表2 驗(yàn)證時(shí)間注意力機(jī)制在動(dòng)作識(shí)別中的有效性Tab.2 Verification of effectiveness of temporal attention mechanism in action recognition
從表2 的實(shí)驗(yàn)結(jié)果分析可得出如下兩個(gè)結(jié)論:1)基于時(shí)間注意力機(jī)制的行為識(shí)別模型的分類精度均優(yōu)于基準(zhǔn)模型ST-GCN。在測試中使用DCW 時(shí)域融合方式,在Kinetics 數(shù)據(jù)集上測試時(shí),基于時(shí)間注意力機(jī)制的模型比基準(zhǔn)模型在Top-1和Top-5 上分別提高了3.6 和2.8 個(gè)百分點(diǎn)。這些提升說明了本文提出的時(shí)間注意力機(jī)制在行為識(shí)別任務(wù)中的有效性。2)對基于時(shí)間注意力機(jī)制的行為識(shí)別模型而言,在測試中使用DCW 時(shí)域融合方法的分類精度明顯高于使用AFM 時(shí)域融合方法得到的分類精度。該實(shí)驗(yàn)表明,在訓(xùn)練中使用時(shí)間注意力機(jī)制,測試中DCW 的時(shí)域融合方法比簡單平均融合方法更有效。
第四組實(shí)驗(yàn)用于驗(yàn)證時(shí)空注意力機(jī)制在動(dòng)作識(shí)別任務(wù)中的效果。本組實(shí)驗(yàn)將空間注意力機(jī)制與時(shí)間注意力機(jī)制融合到統(tǒng)一的圖卷積神經(jīng)網(wǎng)絡(luò)框架中,得到基于時(shí)空注意力機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò),并實(shí)現(xiàn)端到端訓(xùn)練。其中ST-GCN 是基準(zhǔn)模型,該模型的訓(xùn)練方法與前兩個(gè)實(shí)驗(yàn)相同,但是在該組實(shí)驗(yàn)中基準(zhǔn)模型融合SN 和TN 兩個(gè)網(wǎng)絡(luò)模型的預(yù)測分布以提升單個(gè)模型的分類精度。表3 列舉了基于時(shí)空注意力機(jī)制的行為識(shí)別模型和基準(zhǔn)模型的分類結(jié)果。
從表3 數(shù)據(jù)可以看出,在圖卷積網(wǎng)絡(luò)中同時(shí)引入時(shí)時(shí)間注意力機(jī)制與空間注意力機(jī)制對提升動(dòng)作識(shí)別精度非常有效,且比單獨(dú)引入空間注意力機(jī)制或者時(shí)間注意力機(jī)制時(shí)識(shí)別精度提升得更加明顯。
表3 驗(yàn)證時(shí)空注意力機(jī)制在動(dòng)作識(shí)別中的有效性Tab.3 Verification of effectiveness of spatiotemporal attention mechanism in action recognition
為了驗(yàn)證STA-GCN 在人體骨架動(dòng)作識(shí)別任務(wù)中的可競爭性性,將基于時(shí)空注意力機(jī)制的圖卷積網(wǎng)絡(luò)訓(xùn)練的模型與當(dāng)前動(dòng)作識(shí)別領(lǐng)域最先進(jìn)(State-Of-the-Art,SOA)方法進(jìn)行對比,包 括:1)Res-TCN(Residue Temporal Convolutional Network)[29],該方法通過重新構(gòu)造具有剩余連接的時(shí)域卷積(Temporal Convolutional Network,TCN)來提高模型的可解釋性。2)STA-LSTM[10],該方法在具有長短時(shí)記憶的遞歸神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上建立時(shí)空注意力LSTM 網(wǎng)絡(luò)模型,可以選擇性關(guān)注輸入幀的關(guān)節(jié)差異,并對不同幀的輸出給予不同程度的關(guān)注,因此可以提取具有區(qū)分性的時(shí)空特征幫助動(dòng)作識(shí)別。3)ST-GCN[12],它突破了以往骨骼建模方法的局限性,將圖卷積應(yīng)用于人體骨架動(dòng)作識(shí)別,并且提出的模型具有較強(qiáng)的泛化能力。4)AS-GCN[13],該方法通過將A-links 及S-links 結(jié)合成一個(gè)廣義骨架圖,進(jìn)一步建立行為結(jié)構(gòu)圖卷積網(wǎng)絡(luò)模型來學(xué)習(xí)空間和時(shí)序特征,能夠更準(zhǔn)確詳細(xì)地捕捉不同動(dòng)作模式。實(shí)驗(yàn)結(jié)果如表4所示。
表4 STA-GCN與當(dāng)前骨架動(dòng)作識(shí)別領(lǐng)域最先進(jìn)方法的比較Tab.4 Comparison between STA-GCN with current state-of-the-art methods in field of skeleton-based action recognition
根據(jù)表4 的實(shí)驗(yàn)結(jié)果分析,可以得出以下結(jié)論:1)由于引入了有效的時(shí)空注意模型與訓(xùn)練策略,能夠提取具有判別力的時(shí)空特征,本文提出的STA-GCN 在這兩個(gè)數(shù)據(jù)集上均獲得了當(dāng)前同類方法中最好的分類精度;2)通過與Res-TCN[29]模型比較,圖卷積相比傳統(tǒng)卷積網(wǎng)絡(luò)更適合基于骨架的動(dòng)作識(shí)別;3)與其他基于LSTM(STA-LSTM[10]和AS-GCN[13])的網(wǎng)絡(luò)模型相比,本文提出的時(shí)空注意力機(jī)制模型不僅能夠有效捕獲骨架數(shù)據(jù)的時(shí)間特征,并且識(shí)別性能更加優(yōu)越。
本文提出了基于時(shí)空注意力圖卷積網(wǎng)絡(luò)(STA-GCN)模型的人體骨架動(dòng)作識(shí)別算法,STA-GCN 模型在骨架序列上構(gòu)造了一組時(shí)空圖卷積,提出的時(shí)空注意力機(jī)制可以同時(shí)捕捉空間構(gòu)造和時(shí)間動(dòng)態(tài)的判別特征,而且可以探索時(shí)空域之間的關(guān)系。在兩個(gè)具有挑戰(zhàn)性的大型數(shù)據(jù)集Kinetics 和NTURGB+D 上與目前具有代表性的SOA 方法進(jìn)行了對比,結(jié)果顯示該模型能獲得最優(yōu)的結(jié)果。STA-GCN 的靈活性也為未來的工作開辟了許多可能方向,例如,如何將場景、物體和交互等上下文結(jié)合,以提升識(shí)別性能。