摘 "要: 人體動作輪廓在視頻中的呈現(xiàn)具有多樣性和連續(xù)性。人體動作不僅涉及到時(shí)間上的變化,還包括空間上的位置關(guān)系,受其姿勢、速度、方向等影響。人體動作時(shí)空信息之間的關(guān)聯(lián)難以充分捕捉,導(dǎo)致動作輪廓識別精度較低。為此,引入時(shí)空圖卷積網(wǎng)絡(luò)(STGCN)算法,提出一種視頻圖像人體動作輪廓?jiǎng)討B(tài)識別方法。文中采用OpenPose模型從視頻圖像中提取描述關(guān)節(jié)點(diǎn)位置的置信圖和描述人體關(guān)節(jié)間連接情況的二維矢量場,構(gòu)建人體動作骨架圖。結(jié)合視頻幀時(shí)間序列組建人體動作骨架時(shí)空圖,將其作為STGCN模型的輸入,通過時(shí)空圖卷積操作充分捕捉人體動作的時(shí)空特征后,采用Softmax層獲取動態(tài)識別到的視頻圖像人體動作輪廓;并在STGCN模型中引入兩種注意力模塊,強(qiáng)化網(wǎng)絡(luò)特征提取能力,提高動作輪廓識別精度。實(shí)驗(yàn)結(jié)果表明,所提方法可以有效實(shí)現(xiàn)視頻圖像人體動作輪廓的動態(tài)識別,引入的兩種注意力模塊對STGCN模型進(jìn)行改進(jìn),可提升其動作輪廓識別效果。
關(guān)鍵詞: 時(shí)空圖卷積網(wǎng)絡(luò)算法; 視頻圖像; 人體動作輪廓; 動態(tài)識別; 注意力機(jī)制; 骨架圖; 人體關(guān)節(jié)點(diǎn)
中圖分類號: TN919.8?34; TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " " " "文章編號: 1004?373X(2024)18?0144?05
STGCN algorithm based dynamic recognition of human motion contour in video image
ZHANG Zong, SHI Lin
(Changzhou University, Changzhou 213164, China)
Abstract: The presentation of human motion contour in video has diversity and continuity. Human motion not only involve changes in time, but also include position relations in space. Due to the influence of posture, speed, direction, etc., the correlation between spatio?temporal information of human motion is difficult to fully capture, resulting in low accuracy of the recognition of motion contour. Therefore, the spatio?temporal graph convolutional network (STGCN) algorithm is introduced, and a method of dynamic recognition for human motion contour in video image is proposed. The OpenPose model is used to extract the confidence graph describing the position of the joint points and the two?dimensional vector field describing the connection between human joints from the video image to build the human motion skeleton graph. In combination with video frame time series, the spatio?temporal graph of human motion skeleton is constructed, which is used as the input of STGCN model. After the spatio?temporal features of human motion are fully captured by the convolution operation of the spatio?temporal graph, the dynamic human motion contours in video images are obtained by means of Softmax layer. Two kinds of attention modules are introduced into STGCN model to strengthen the ability of extracting network feature and improve the accuracy of recognizing motion contour. The experimental results show that the proposed method can effectively realize the dynamic recognition of human motion contour in video images. Two attention modules are introduced to improve the STGCN model, which can improve the recognition effect of human motion contour.
Keywords: spatio?temporal graph convolutional network algorithm; video image; human motion contour; dynamic recognition; attention mechanism; skeleton graph; human joint point
0 "引 "言
在視頻中人體的動作是連續(xù)和多樣的,即連續(xù)動作中包含多種不同的動作類型,并且這些動作之間常常是連貫的。例如,一個(gè)人在跑步的過程中會有各種姿勢和速度的變化,同時(shí)還受到方向等因素的影響。這種多樣性和連續(xù)性使得準(zhǔn)確捕捉人體動作的時(shí)空信息變得尤為困難[1?2]。其次,人體動作不僅涉及到時(shí)間上的變化,還涉及到空間上的位置關(guān)系。人體在視頻中的位置、姿勢、速度和方向等因素都會對動作輪廓造成影響[3]。因此,研究人體動作輪廓識別方法具有重要意義。
付惠琛等人提出改進(jìn)的YOLOv7算法完成健身動作識別[4],在YOLOv7的基礎(chǔ)上通過添加分類功能、引入卷積注意力機(jī)制、采用HorNet網(wǎng)絡(luò)結(jié)構(gòu)等,來提升人體動作識別效果;但是針對視頻圖像而言,人體動作識別通常涉及對連續(xù)幀中人體姿態(tài)和動作的識別,該方法沒有充分考慮到幀間的時(shí)間連續(xù)性,在處理快速變化或復(fù)雜動作的視頻圖像時(shí)會存在應(yīng)用效果較差的問題。文獻(xiàn)[5]利用雙特征雙運(yùn)動網(wǎng)絡(luò)(DD?Net)來識別人體動作識別,通過DD?Net的基礎(chǔ)網(wǎng)絡(luò)提取人體骨架數(shù)據(jù)的動作特征,并通過新增的分支捕獲更全面的動作特征,實(shí)現(xiàn)對不同人體動作的準(zhǔn)確分類和識別。如果動作與全局軌跡的關(guān)聯(lián)較弱,DD?Net將難以準(zhǔn)確區(qū)分這些動作。文獻(xiàn)[6]通過基于Transformer的骨架自注意力子網(wǎng)絡(luò)提取人體骨架數(shù)據(jù)中的運(yùn)動協(xié)同空間特征,利用基于CNN的深度自注意力子網(wǎng)絡(luò)處理深度數(shù)據(jù),以捕捉人體的三維形狀和運(yùn)動信息。結(jié)合自注意力機(jī)制強(qiáng)化關(guān)鍵信息后,通過分類器實(shí)現(xiàn)對多模態(tài)人體行為的準(zhǔn)確識別。該方法結(jié)合了兩種子網(wǎng)絡(luò),計(jì)算復(fù)雜度相對較高。張雪蓮等人通過隨機(jī)裁剪骨架數(shù)據(jù)邊的方式構(gòu)建多尺度骨架圖,并將其作為圖對比自監(jiān)督網(wǎng)絡(luò)輸入,完成人體動作識別,但該方法的構(gòu)建方式對數(shù)據(jù)的質(zhì)量和預(yù)處理要求更高,對于噪聲、遮擋等干擾因素更為敏感,影響最終的動作識別效果[7]。
為了更好地從視頻圖像中識別到人體動作輪廓,本文提出一種基于STGCN算法的視頻圖像人體動作輪廓?jiǎng)討B(tài)識別方法。時(shí)空圖卷積網(wǎng)絡(luò)(Spatio?Temporal Graph Convolutional Network, STGCN)可以從時(shí)、空特征兩個(gè)角度描述人體動作[8],進(jìn)一步提高視頻圖像人體動作識別的準(zhǔn)確性和實(shí)時(shí)性,為相關(guān)領(lǐng)域的應(yīng)用提供有力的技術(shù)支持。
1 "視頻圖像人體動作輪廓?jiǎng)討B(tài)識別
考慮人體動作輪廓的時(shí)空特性,將人體動作視頻圖像作為OpenPose模型的輸入,采用典型卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的VGG網(wǎng)絡(luò)來提取視頻圖像中的人體動作特征,獲取關(guān)節(jié)點(diǎn)位置以及連接邊界,形成人體骨架圖;依據(jù)視頻幀間的時(shí)序關(guān)系生成人體骨架時(shí)空圖;將骨架時(shí)空圖作為STGCN模型的輸入,通過時(shí)空圖卷積操作后,經(jīng)分類器完成對人體動作輪廓的動態(tài)識別。在STGCN模型中引入注意力機(jī)制進(jìn)行改進(jìn),提升對骨架時(shí)空圖的時(shí)間空間特征提取效果,以及人體動態(tài)輪廓?jiǎng)討B(tài)識別效果。視頻圖像人體動作輪廓?jiǎng)討B(tài)識別過程如圖1所示。
1.1 "基于OpenPose的人體骨架圖
OpenPose模型以人體動作視頻圖像為輸入,通過由下至上的關(guān)節(jié)點(diǎn)檢測,輸出全部人體動作關(guān)節(jié)點(diǎn)檢測結(jié)果。首先,在VGG網(wǎng)絡(luò)前10層,通過建立人體動作視頻圖像特征的映射[F],從中提取人體動作特征圖。其次,將獲取的特征圖輸入至多階卷積神經(jīng)網(wǎng)絡(luò)[9?10],通過兩個(gè)分支分別輸出關(guān)節(jié)點(diǎn)位置預(yù)測結(jié)果的二維置信圖(PCM),用集合[S=(S1,S2,…,Sn)]表示,以及人體關(guān)節(jié)間部分親和力場預(yù)測結(jié)果的二維矢量場(PAFs),用集合[L=(L1,L2,…,Ln)]表示,公式為:
[St=ρt(F,St-1,Lt-1), "?t≥2Lt=?t(F,St-1,Lt-1), "?t≥2] (1)
式中:[St]、[Lt]為階段t的PCM、PAFs;[ρt](·)、[?t](·)分別用于描述PCM、PAFs對應(yīng)的預(yù)測網(wǎng)絡(luò)。
OpenPose模型可以將多個(gè)階段進(jìn)行串聯(lián),通過對串聯(lián)形成的多個(gè)階段的卷積神經(jīng)網(wǎng)絡(luò)的反復(fù)預(yù)測,使得獲取的PCM、PAFs結(jié)果更精準(zhǔn)[11]。通過結(jié)合描述關(guān)節(jié)點(diǎn)位置的PCM與描述人體關(guān)節(jié)間連接關(guān)系的PAFs,形成視頻圖像中人體動作骨架圖,用[G(S,L)]表示。
1.2 "人體骨架時(shí)空圖
由于人體動作視頻圖像存在多個(gè)幀,為此將其存在的時(shí)間序列定義為[T=1,2,…,M],結(jié)合描述人體動作空間狀態(tài)的人體動作骨架圖[G(S,L)],得到對應(yīng)的人體動作骨架時(shí)空圖[GST=Gtt∈[1,2,…,M]],其中,[Gt]用于描述時(shí)間序列[t]對應(yīng)的人體動作骨架圖。[GST]中包含了人體動作視頻圖像中的時(shí)間和空間信息,空間信息展現(xiàn)在骨架圖中,時(shí)間信息展現(xiàn)在不同時(shí)刻視頻幀的時(shí)間序列中,將M個(gè)視頻幀在M個(gè)連續(xù)時(shí)間上的人體動作骨架圖視為人體動作骨架時(shí)空圖[12]。人體動作骨架時(shí)空圖如圖2所示。
1.3 "改進(jìn)STGCN網(wǎng)絡(luò)結(jié)構(gòu)
將人體動作時(shí)空骨架圖作為改進(jìn)STGCN模型的輸入,通過時(shí)空特征的提取,識別到人體動作輪廓。STGCN網(wǎng)絡(luò)結(jié)構(gòu)包含9個(gè)由空間和時(shí)間圖卷積模塊組成的基本單元。1.2節(jié)構(gòu)建的人體動作骨架時(shí)空圖經(jīng)BN(批標(biāo)準(zhǔn)化)層歸一化處理后作為基本單元的輸入數(shù)據(jù),經(jīng)基本單元執(zhí)行時(shí)空圖卷積操作,基本單元的輸出通過池化層固定特征向量后,經(jīng)Softmax分類器作用,輸出人體動作輪廓?jiǎng)討B(tài)識別結(jié)果。
為優(yōu)化網(wǎng)絡(luò)的動作輪廓識別效果,同時(shí)在空間圖卷積模塊和時(shí)空圖卷積模塊之間引入通道注意力模塊,使空間圖卷積層獲取可以更好描述人體動作的空間特征[13]。改進(jìn)STGCN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖注意力模塊的加入可使網(wǎng)絡(luò)獲取更好的空間特征,精準(zhǔn)地描述視頻圖像中的人體動作。使用兩個(gè)卷積層將輸入特征圖[f]映射為向量[R]、[Q]。
[R=WR·fQ=WQ·f] " " " " " " " "(2)
式中:[WR]、[WQ]分別用于描述兩個(gè)卷積層的權(quán)值向量。用向量[R]、[Q]在同一時(shí)間步的內(nèi)積描述特征圖關(guān)節(jié)點(diǎn)之間的相關(guān)性,表達(dá)式為:
[h=R,Q] " " " " " " "(3)
經(jīng)歸一化處理后得到相關(guān)度的內(nèi)積歸一化結(jié)果[α]:
[α=exph?St] " " " " " " " (4)
利用歸一化結(jié)果獲取不同人體動作骨架時(shí)空圖樣本,通過學(xué)習(xí)精準(zhǔn)表達(dá)隨機(jī)兩個(gè)人體關(guān)節(jié)點(diǎn)的權(quán)值,更有利于實(shí)現(xiàn)人體動作輪廓識別。
通道注意力模塊的加入有助于STGCN網(wǎng)絡(luò)獲取更好的人體動作特征表示,其主要遵循壓縮和激勵(lì)兩個(gè)步驟,從空間圖卷積模塊獲取的空間特征中學(xué)習(xí)到更重要的特征。壓縮步驟依據(jù)全局池化層實(shí)現(xiàn),經(jīng)全連接層進(jìn)行特征降維處理后,依據(jù)ReLU激活函數(shù)個(gè)性化學(xué)習(xí)特征通道中的非線性關(guān)系表示。再次通過全連接層進(jìn)行特征升維操作,在Sigmoid激活函數(shù)作用下將獲取的權(quán)值與輸入特征圖相乘。通過此過程實(shí)現(xiàn)特征權(quán)重的重新匹配,最大程度處理無用特征,強(qiáng)化有用特征的表達(dá)能力。通過更有效的特征提取,使得網(wǎng)絡(luò)可以更精準(zhǔn)地實(shí)現(xiàn)人體動作輪廓的動態(tài)識別。
2 "實(shí)驗(yàn)分析
實(shí)驗(yàn)選取NTU RGB+D數(shù)據(jù)集以及UCF101數(shù)據(jù)集作為數(shù)據(jù)集。該NTU RGB+D數(shù)據(jù)集中包含60多種類別的人體動作視頻片段樣本,共56 880個(gè),動作種類多、應(yīng)用范圍廣泛;UCF101數(shù)據(jù)集中的動作類別為85個(gè),視頻片段總數(shù)約為13 000個(gè),且大多數(shù)為現(xiàn)實(shí)環(huán)境的視頻片段,其中包含不同光照、遮擋的運(yùn)動現(xiàn)象。將這兩個(gè)數(shù)據(jù)集共同作為實(shí)驗(yàn)數(shù)據(jù)集合,可以最大程度滿足本文方法的識別需求。
將數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測試集。應(yīng)用訓(xùn)練集中的視頻圖像對本文提出的改進(jìn)STGAN模型進(jìn)行訓(xùn)練,訓(xùn)練時(shí)為避免視頻幀參數(shù)的不同而影響后續(xù)訓(xùn)練識別效果,轉(zhuǎn)換所有視頻幀的分辨率為340×256,并設(shè)置訓(xùn)練批次、學(xué)習(xí)參數(shù)、迭代次數(shù)分別為8、0.001、50 000次。模型訓(xùn)練完畢后,隨機(jī)選取體育動作、街舞動作兩種類型視頻圖像進(jìn)行測試,如圖4所示。
在動作輪廓識別過程中應(yīng)用本文方法。利用OpenPose模型構(gòu)建人體動作骨架圖,用于組建人體動作骨架時(shí)空圖進(jìn)行人體動作輪廓識別。各幀視頻圖像的人體動作估計(jì)圖如圖5所示。
由圖5可以看出,本文方法可以精準(zhǔn)獲取各個(gè)視頻幀的動作骨架圖,完成不同類型動作視頻圖像中人體動作姿態(tài)的描述。組合不同視頻幀,獲取兩種動作類型視頻圖像的骨架時(shí)空圖,將其輸入至改進(jìn)STGCN網(wǎng)絡(luò)中進(jìn)行動作輪廓識別,得到的識別結(jié)果見表1。
通過圖4、圖5以及表1的一系列實(shí)驗(yàn)結(jié)果可看出,本文方法可以識別出兩種類型視頻圖像中的人體動作輪廓,判斷視頻中的人體動作類型。該方法具備動作輪廓識別有效性。
為了驗(yàn)證改進(jìn)STGCN網(wǎng)絡(luò)結(jié)構(gòu)對于動作輪廓識別的性能影響,選取Top?1和Top?5作為評價(jià)指標(biāo),在兩個(gè)數(shù)據(jù)集(NTU RGB+D、UCF101)中進(jìn)行實(shí)驗(yàn),分別利用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)、STGCN以及改進(jìn)STGCN網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行如下實(shí)驗(yàn),驗(yàn)證改進(jìn)STGCN網(wǎng)絡(luò)模型的應(yīng)用優(yōu)勢。
Top表示模型在給定的測試數(shù)據(jù)集上正確分類動作輪廓的視頻圖像所占的比例。其中,Top?5準(zhǔn)確率能夠反映出模型在面對類別不平衡問題時(shí),選擇正確類別的能力;而Top?1準(zhǔn)確率則更加關(guān)注模型對于單個(gè)樣本的預(yù)測準(zhǔn)確性。對于每張測試圖像,模型會輸出一個(gè)概率分布,表示該圖像屬于各個(gè)類別的概率。Top?1、Top?5分別是指模型預(yù)測概率排序第一、前五對應(yīng)的類別與實(shí)際標(biāo)簽相符的比例。實(shí)驗(yàn)結(jié)果如表2所示。
分析表2數(shù)據(jù)可以得到,針對兩種數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)顯示,應(yīng)用STGCN模型進(jìn)行動作輪廓識別的Top?1和Top?5數(shù)值上升較為明顯,且同時(shí)引入圖注意力和通道注意力的識別效果更好。原因在于,兩種注意力的引入提升了人體動作骨架特征圖時(shí)空特征的提取效果和識別精度。
3 "結(jié) "論
本文在STGCN模型的基礎(chǔ)上引入了兩種注意力機(jī)制進(jìn)行改進(jìn),利用改進(jìn)后的模型可以更加準(zhǔn)確地識別出視頻圖像中的人體動作輪廓。未來研究將致力于進(jìn)一步優(yōu)化和改進(jìn)現(xiàn)有模型,提升動作輪廓識別的精度和效率。通過引入更先進(jìn)的注意力機(jī)制、設(shè)計(jì)更高效的網(wǎng)絡(luò)結(jié)構(gòu)以及利用多模態(tài)信息融合等方法,可以進(jìn)一步提高模型的識別能力和魯棒性。
參考文獻(xiàn)
[1] 解宇,楊瑞玲,劉公緒,等.基于動態(tài)拓?fù)鋱D的人體骨架動作識別算法[J].計(jì)算機(jī)科學(xué),2022,49(2):62?68.
[2] 趙登閣,智敏.用于人體動作識別的多尺度時(shí)空圖卷積算法[J].計(jì)算機(jī)科學(xué)與探索,2023,17(3):719?732.
[3] 孫琪翔,何寧,張聰聰,等.基于輕量級圖卷積的人體骨架動作識別方法[J].計(jì)算機(jī)工程,2022,48(5):306?313.
[4] 付惠琛,高軍偉,車魯陽.健身行為的人體姿態(tài)估計(jì)及動作識別[J].液晶與顯示,2024,39(2):217?227.
[5] NGUYEN T, PHAM D T, VU H, et al. A robust and efficient method for skeleton?based human action recognition and its application for cross?dataset evaluation [J]. IET computer vision, 2022, 16(8): 709?726.
[6] ZHONG Z K, HOU Z J, LIANG J Z, et al. Multimodal cooperative self?attention network for action recognition [J]. IET image processing, 2023, 17(6): 1775?1783.
[7] 張雪蓮,徐增敏,陳家昆,等.基于跨尺度圖對比學(xué)習(xí)的人體骨架動作識別方法[J].燕山大學(xué)學(xué)報(bào),2023,47(2):164?174.
[8] 楊世強(qiáng),李卓,王金華,等.基于新分區(qū)策略的ST?GCN人體動作識別[J].計(jì)算機(jī)集成制造系統(tǒng),2023,29(12):4040?4050.
[9] 毛國君,王一錦.融合內(nèi)外依賴的人體骨架動作識別模型[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(21):132?140.
[10] 馬璿,張會慶.基于BEMD?MTS算法的肢體動作輪廓智能捕捉方法[J].計(jì)算機(jī)仿真,2023,40(10):224?227.
[11] 劉今越,李慧宇,賈曉輝,等.基于人體模型約束的步態(tài)動態(tài)識別方法[J].計(jì)算機(jī)應(yīng)用,2023,43(3):972?977.
[12] 閆文杰,尹藝穎.基于3D骨架相似性的自適應(yīng)移位圖卷積神經(jīng)網(wǎng)絡(luò)人體行為識別算法[J].計(jì)算機(jī)科學(xué),2024,51(4):236?242.
[13] 呂夢柯,郭佳樂,丁英強(qiáng),等.分段時(shí)間注意力時(shí)空圖卷積網(wǎng)絡(luò)的動作識別[J].小型微型計(jì)算機(jī)系統(tǒng),2024,45(1):62?68.