亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于STGCN算法的視頻圖像人體動作輪廓動態(tài)識別

2024-09-21 00:00:00張宗石林

現代電子技術 2024年18期

摘 "要：人體動作輪廓在視頻中的呈現具有多樣性和連續(xù)性。人體動作不僅涉及到時間上的變化，還包括空間上的位置關系，受其姿勢、速度、方向等影響。人體動作時空信息之間的關聯(lián)難以充分捕捉，導致動作輪廓識別精度較低。為此，引入時空圖卷積網絡（STGCN）算法，提出一種視頻圖像人體動作輪廓動態(tài)識別方法。文中采用OpenPose模型從視頻圖像中提取描述關節(jié)點位置的置信圖和描述人體關節(jié)間連接情況的二維矢量場，構建人體動作骨架圖。結合視頻幀時間序列組建人體動作骨架時空圖，將其作為STGCN模型的輸入，通過時空圖卷積操作充分捕捉人體動作的時空特征后，采用Softmax層獲取動態(tài)識別到的視頻圖像人體動作輪廓；并在STGCN模型中引入兩種注意力模塊，強化網絡特征提取能力，提高動作輪廓識別精度。實驗結果表明，所提方法可以有效實現視頻圖像人體動作輪廓的動態(tài)識別，引入的兩種注意力模塊對STGCN模型進行改進，可提升其動作輪廓識別效果。

關鍵詞：時空圖卷積網絡算法；視頻圖像；人體動作輪廓；動態(tài)識別；注意力機制；骨架圖；人體關節(jié)點

中圖分類號： TN919.8?34； TP391 " " " " " " " " " 文獻標識碼： A " " " " " " " " " "文章編號： 1004?373X（2024）18?0144?05

STGCN algorithm based dynamic recognition of human motion contour in video image

ZHANG Zong， SHI Lin

（Changzhou University， Changzhou 213164， China）

Abstract： The presentation of human motion contour in video has diversity and continuity. Human motion not only involve changes in time， but also include position relations in space. Due to the influence of posture， speed， direction， etc.， the correlation between spatio?temporal information of human motion is difficult to fully capture， resulting in low accuracy of the recognition of motion contour. Therefore， the spatio?temporal graph convolutional network （STGCN） algorithm is introduced， and a method of dynamic recognition for human motion contour in video image is proposed. The OpenPose model is used to extract the confidence graph describing the position of the joint points and the two?dimensional vector field describing the connection between human joints from the video image to build the human motion skeleton graph. In combination with video frame time series， the spatio?temporal graph of human motion skeleton is constructed， which is used as the input of STGCN model. After the spatio?temporal features of human motion are fully captured by the convolution operation of the spatio?temporal graph， the dynamic human motion contours in video images are obtained by means of Softmax layer. Two kinds of attention modules are introduced into STGCN model to strengthen the ability of extracting network feature and improve the accuracy of recognizing motion contour. The experimental results show that the proposed method can effectively realize the dynamic recognition of human motion contour in video images. Two attention modules are introduced to improve the STGCN model， which can improve the recognition effect of human motion contour.

Keywords： spatio?temporal graph convolutional network algorithm; video image; human motion contour; dynamic recognition; attention mechanism; skeleton graph; human joint point

0 "引 "言

在視頻中人體的動作是連續(xù)和多樣的，即連續(xù)動作中包含多種不同的動作類型，并且這些動作之間常常是連貫的。例如，一個人在跑步的過程中會有各種姿勢和速度的變化，同時還受到方向等因素的影響。這種多樣性和連續(xù)性使得準確捕捉人體動作的時空信息變得尤為困難[1?2]。其次，人體動作不僅涉及到時間上的變化，還涉及到空間上的位置關系。人體在視頻中的位置、姿勢、速度和方向等因素都會對動作輪廓造成影響[3]。因此，研究人體動作輪廓識別方法具有重要意義。

付惠琛等人提出改進的YOLOv7算法完成健身動作識別[4]，在YOLOv7的基礎上通過添加分類功能、引入卷積注意力機制、采用HorNet網絡結構等，來提升人體動作識別效果；但是針對視頻圖像而言，人體動作識別通常涉及對連續(xù)幀中人體姿態(tài)和動作的識別，該方法沒有充分考慮到幀間的時間連續(xù)性，在處理快速變化或復雜動作的視頻圖像時會存在應用效果較差的問題。文獻[5]利用雙特征雙運動網絡（DD?Net）來識別人體動作識別，通過DD?Net的基礎網絡提取人體骨架數據的動作特征，并通過新增的分支捕獲更全面的動作特征，實現對不同人體動作的準確分類和識別。如果動作與全局軌跡的關聯(lián)較弱，DD?Net將難以準確區(qū)分這些動作。文獻[6]通過基于Transformer的骨架自注意力子網絡提取人體骨架數據中的運動協(xié)同空間特征，利用基于CNN的深度自注意力子網絡處理深度數據，以捕捉人體的三維形狀和運動信息。結合自注意力機制強化關鍵信息后，通過分類器實現對多模態(tài)人體行為的準確識別。該方法結合了兩種子網絡，計算復雜度相對較高。張雪蓮等人通過隨機裁剪骨架數據邊的方式構建多尺度骨架圖，并將其作為圖對比自監(jiān)督網絡輸入，完成人體動作識別，但該方法的構建方式對數據的質量和預處理要求更高，對于噪聲、遮擋等干擾因素更為敏感，影響最終的動作識別效果[7]。

為了更好地從視頻圖像中識別到人體動作輪廓，本文提出一種基于STGCN算法的視頻圖像人體動作輪廓動態(tài)識別方法。時空圖卷積網絡（Spatio?Temporal Graph Convolutional Network， STGCN）可以從時、空特征兩個角度描述人體動作[8]，進一步提高視頻圖像人體動作識別的準確性和實時性，為相關領域的應用提供有力的技術支持。

1 "視頻圖像人體動作輪廓動態(tài)識別

考慮人體動作輪廓的時空特性，將人體動作視頻圖像作為OpenPose模型的輸入，采用典型卷積神經網絡結構的VGG網絡來提取視頻圖像中的人體動作特征，獲取關節(jié)點位置以及連接邊界，形成人體骨架圖；依據視頻幀間的時序關系生成人體骨架時空圖；將骨架時空圖作為STGCN模型的輸入，通過時空圖卷積操作后，經分類器完成對人體動作輪廓的動態(tài)識別。在STGCN模型中引入注意力機制進行改進，提升對骨架時空圖的時間空間特征提取效果，以及人體動態(tài)輪廓動態(tài)識別效果。視頻圖像人體動作輪廓動態(tài)識別過程如圖1所示。

1.1 "基于OpenPose的人體骨架圖

OpenPose模型以人體動作視頻圖像為輸入，通過由下至上的關節(jié)點檢測，輸出全部人體動作關節(jié)點檢測結果。首先，在VGG網絡前10層，通過建立人體動作視頻圖像特征的映射[F]，從中提取人體動作特征圖。其次，將獲取的特征圖輸入至多階卷積神經網絡[9?10]，通過兩個分支分別輸出關節(jié)點位置預測結果的二維置信圖（PCM），用集合[S=（S1，S2，…，Sn）]表示，以及人體關節(jié)間部分親和力場預測結果的二維矢量場（PAFs），用集合[L=（L1，L2，…，Ln）]表示，公式為：

[St=ρt（F，St-1，Lt-1）， "?t≥2Lt=?t（F，St-1，Lt-1）， "?t≥2] （1）

式中：[St]、[Lt]為階段t的PCM、PAFs；[ρt]（·）、[?t]（·）分別用于描述PCM、PAFs對應的預測網絡。

OpenPose模型可以將多個階段進行串聯(lián)，通過對串聯(lián)形成的多個階段的卷積神經網絡的反復預測，使得獲取的PCM、PAFs結果更精準[11]。通過結合描述關節(jié)點位置的PCM與描述人體關節(jié)間連接關系的PAFs，形成視頻圖像中人體動作骨架圖，用[G（S，L）]表示。

1.2 "人體骨架時空圖

由于人體動作視頻圖像存在多個幀，為此將其存在的時間序列定義為[T=1，2，…，M]，結合描述人體動作空間狀態(tài)的人體動作骨架圖[G（S，L）]，得到對應的人體動作骨架時空圖[GST=Gtt∈[1，2，…，M]]，其中，[Gt]用于描述時間序列[t]對應的人體動作骨架圖。[GST]中包含了人體動作視頻圖像中的時間和空間信息，空間信息展現在骨架圖中，時間信息展現在不同時刻視頻幀的時間序列中，將M個視頻幀在M個連續(xù)時間上的人體動作骨架圖視為人體動作骨架時空圖[12]。人體動作骨架時空圖如圖2所示。

1.3 "改進STGCN網絡結構

將人體動作時空骨架圖作為改進STGCN模型的輸入，通過時空特征的提取，識別到人體動作輪廓。STGCN網絡結構包含9個由空間和時間圖卷積模塊組成的基本單元。1.2節(jié)構建的人體動作骨架時空圖經BN（批標準化）層歸一化處理后作為基本單元的輸入數據，經基本單元執(zhí)行時空圖卷積操作，基本單元的輸出通過池化層固定特征向量后，經Softmax分類器作用，輸出人體動作輪廓動態(tài)識別結果。

為優(yōu)化網絡的動作輪廓識別效果，同時在空間圖卷積模塊和時空圖卷積模塊之間引入通道注意力模塊，使空間圖卷積層獲取可以更好描述人體動作的空間特征[13]。改進STGCN網絡結構如圖3所示。

圖注意力模塊的加入可使網絡獲取更好的空間特征，精準地描述視頻圖像中的人體動作。使用兩個卷積層將輸入特征圖[f]映射為向量[R]、[Q]。

[R=WR·fQ=WQ·f] " " " " " " " "（2）

式中：[WR]、[WQ]分別用于描述兩個卷積層的權值向量。用向量[R]、[Q]在同一時間步的內積描述特征圖關節(jié)點之間的相關性，表達式為：

[h=R，Q] " " " " " " "（3）

經歸一化處理后得到相關度的內積歸一化結果[α]：

[α=exph?St] " " " " " " " （4）

利用歸一化結果獲取不同人體動作骨架時空圖樣本，通過學習精準表達隨機兩個人體關節(jié)點的權值，更有利于實現人體動作輪廓識別。

通道注意力模塊的加入有助于STGCN網絡獲取更好的人體動作特征表示，其主要遵循壓縮和激勵兩個步驟，從空間圖卷積模塊獲取的空間特征中學習到更重要的特征。壓縮步驟依據全局池化層實現，經全連接層進行特征降維處理后，依據ReLU激活函數個性化學習特征通道中的非線性關系表示。再次通過全連接層進行特征升維操作，在Sigmoid激活函數作用下將獲取的權值與輸入特征圖相乘。通過此過程實現特征權重的重新匹配，最大程度處理無用特征，強化有用特征的表達能力。通過更有效的特征提取，使得網絡可以更精準地實現人體動作輪廓的動態(tài)識別。

2 "實驗分析

實驗選取NTU RGB+D數據集以及UCF101數據集作為數據集。該NTU RGB+D數據集中包含60多種類別的人體動作視頻片段樣本，共56 880個，動作種類多、應用范圍廣泛；UCF101數據集中的動作類別為85個，視頻片段總數約為13 000個，且大多數為現實環(huán)境的視頻片段，其中包含不同光照、遮擋的運動現象。將這兩個數據集共同作為實驗數據集合，可以最大程度滿足本文方法的識別需求。

將數據集按照7∶3的比例劃分為訓練集和測試集。應用訓練集中的視頻圖像對本文提出的改進STGAN模型進行訓練，訓練時為避免視頻幀參數的不同而影響后續(xù)訓練識別效果，轉換所有視頻幀的分辨率為340×256，并設置訓練批次、學習參數、迭代次數分別為8、0.001、50 000次。模型訓練完畢后，隨機選取體育動作、街舞動作兩種類型視頻圖像進行測試，如圖4所示。

在動作輪廓識別過程中應用本文方法。利用OpenPose模型構建人體動作骨架圖，用于組建人體動作骨架時空圖進行人體動作輪廓識別。各幀視頻圖像的人體動作估計圖如圖5所示。

由圖5可以看出，本文方法可以精準獲取各個視頻幀的動作骨架圖，完成不同類型動作視頻圖像中人體動作姿態(tài)的描述。組合不同視頻幀，獲取兩種動作類型視頻圖像的骨架時空圖，將其輸入至改進STGCN網絡中進行動作輪廓識別，得到的識別結果見表1。

通過圖4、圖5以及表1的一系列實驗結果可看出，本文方法可以識別出兩種類型視頻圖像中的人體動作輪廓，判斷視頻中的人體動作類型。該方法具備動作輪廓識別有效性。

為了驗證改進STGCN網絡結構對于動作輪廓識別的性能影響，選取Top?1和Top?5作為評價指標，在兩個數據集（NTU RGB+D、UCF101）中進行實驗，分別利用圖卷積神經網絡（Graph Convolutional Network， GCN）、STGCN以及改進STGCN網絡結構進行如下實驗，驗證改進STGCN網絡模型的應用優(yōu)勢。

Top表示模型在給定的測試數據集上正確分類動作輪廓的視頻圖像所占的比例。其中，Top?5準確率能夠反映出模型在面對類別不平衡問題時，選擇正確類別的能力；而Top?1準確率則更加關注模型對于單個樣本的預測準確性。對于每張測試圖像，模型會輸出一個概率分布，表示該圖像屬于各個類別的概率。Top?1、Top?5分別是指模型預測概率排序第一、前五對應的類別與實際標簽相符的比例。實驗結果如表2所示。

分析表2數據可以得到，針對兩種數據集進行的實驗顯示，應用STGCN模型進行動作輪廓識別的Top?1和Top?5數值上升較為明顯，且同時引入圖注意力和通道注意力的識別效果更好。原因在于，兩種注意力的引入提升了人體動作骨架特征圖時空特征的提取效果和識別精度。

3 "結 "論

本文在STGCN模型的基礎上引入了兩種注意力機制進行改進，利用改進后的模型可以更加準確地識別出視頻圖像中的人體動作輪廓。未來研究將致力于進一步優(yōu)化和改進現有模型，提升動作輪廓識別的精度和效率。通過引入更先進的注意力機制、設計更高效的網絡結構以及利用多模態(tài)信息融合等方法，可以進一步提高模型的識別能力和魯棒性。

參考文獻

[1] 解宇，楊瑞玲，劉公緒，等.基于動態(tài)拓撲圖的人體骨架動作識別算法[J].計算機科學，2022，49（2）：62?68.

[2] 趙登閣，智敏.用于人體動作識別的多尺度時空圖卷積算法[J].計算機科學與探索，2023，17（3）：719?732.

[3] 孫琪翔，何寧，張聰聰，等.基于輕量級圖卷積的人體骨架動作識別方法[J].計算機工程，2022，48（5）：306?313.

[4] 付惠琛，高軍偉，車魯陽.健身行為的人體姿態(tài)估計及動作識別[J].液晶與顯示，2024，39（2）：217?227.

[5] NGUYEN T， PHAM D T， VU H， et al. A robust and efficient method for skeleton?based human action recognition and its application for cross?dataset evaluation [J]. IET computer vision， 2022， 16（8）： 709?726.

[6] ZHONG Z K， HOU Z J， LIANG J Z， et al. Multimodal cooperative self?attention network for action recognition [J]. IET image processing， 2023， 17（6）： 1775?1783.

[7] 張雪蓮，徐增敏，陳家昆，等.基于跨尺度圖對比學習的人體骨架動作識別方法[J].燕山大學學報，2023，47（2）：164?174.

[8] 楊世強，李卓，王金華，等.基于新分區(qū)策略的ST?GCN人體動作識別[J].計算機集成制造系統(tǒng)，2023，29（12）：4040?4050.

[9] 毛國君，王一錦.融合內外依賴的人體骨架動作識別模型[J].計算機工程與應用，2023，59（21）：132?140.

[10] 馬璿，張會慶.基于BEMD?MTS算法的肢體動作輪廓智能捕捉方法[J].計算機仿真，2023，40（10）：224?227.

[11] 劉今越，李慧宇，賈曉輝，等.基于人體模型約束的步態(tài)動態(tài)識別方法[J].計算機應用，2023，43（3）：972?977.

[12] 閆文杰，尹藝穎.基于3D骨架相似性的自適應移位圖卷積神經網絡人體行為識別算法[J].計算機科學，2024，51（4）：236?242.

[13] 呂夢柯，郭佳樂，丁英強，等.分段時間注意力時空圖卷積網絡的動作識別[J].小型微型計算機系統(tǒng)，2024，45（1）：62?68.

現代電子技術2024年18期

現代電子技術的其它文章: 基于知識融合和聚類引導的語言模型用于MOFs合成信息分類; 基于改進灰狼優(yōu)化模糊PI的退火爐流量控制系統(tǒng)研究; 基于融合特征的CNN?Transformer墻體瓷磚粘貼空鼓檢測算法; 一種基于改進差分進化的K?Means聚類算法研究; 基于多策略融合斑馬優(yōu)化算法的特征選擇方法; 基于虛擬現實的滅火器使用訓練系統(tǒng)設計與實現