亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于運動流自注意力的3D骨骼行為識別研究

2024-12-31 00:00:00吳博

科技創(chuàng)新與應用 2024年25期

摘" 要：隨著人工智能的發(fā)展，行為識別成為一個重要研究方向。由于骨骼數(shù)據(jù)源于人體骨骼建模，能夠有效規(guī)避由復雜背景引起的問題，基于骨骼的行為識別因其強大的魯棒性而受到青睞。以前的方法在動態(tài)特征捕捉和時序信息建模等方面存在一定的局限性，時序信息建模方面的不足也使得對于運動序列的解釋存在困難。針對此問題該文設計一個運動流自注意力模塊專門用于提取骨骼序列幀間的動態(tài)信息，能更有效地挖掘運動序列的時間信息。該文的方法在大規(guī)模數(shù)據(jù)集NTU-RGB+D上進行充分的實驗驗證，并取得非常令人滿意的性能表現(xiàn)。表明該文提出的方法在骨骼行為識別任務中的有效性和可行性。

關鍵詞：行為識別；骨骼信息；深度學習；自注意力機制；骨骼建模

中圖分類號：TP399" " " 文獻標志碼：A" " " " " 文章編號：2095-2945（2024）25-0072-04

Abstract： With the development of artificial intelligence， behavior recognition has become an important research direction. Because the bone data comes from human bone modeling， which can effectively avoid the problems caused by complex background， bone-based behavior recognition is favored because of its strong robustness. The previous methods have some limitations in dynamic feature capture and time series information modeling， and the deficiency of time series information modeling also makes it difficult to explain the action sequence. In order to solve this problem， an action flow self-attention module is designed to extract the dynamic information between the frames of the bone sequence， which can mine the time information of the motion sequence more effectively. The method proposed in this paper is fully verified by experiments on a large-scale data set NTU-RGB+D， and a very satisfactory performance is achieved. This shows that the proposed method is effective and feasible in the task of bone behavior recognition.

Keywords： behavior recognition; bone information; deep learning; self-attention mechanism; bone modeling

人體3D骨骼數(shù)據(jù)獲取主要依賴深度傳感器設備，相對于RGB數(shù)據(jù)和深度數(shù)據(jù)，骨骼數(shù)據(jù)在人體行為識別上更具優(yōu)勢，避免背景遮擋和光照變化等問題。過去的方法在動態(tài)特征、上下文理解、時序信息建模上有局限，特別是在復雜環(huán)境中應用。然后，光流信息[1]能有效捕捉動態(tài)特征，提供關于物體運動方向和速度的信息，有助于時序關系的建模。注意力機制[2]允許模型非局部關聯(lián)，靈活關注不同位置的信息，提高對整體結(jié)構(gòu)的理解。受到上述的啟發(fā)，本文基于光流信息和注意力機制，提出了一種改進的ST-GCN[3]算法，能夠更有效捕捉動態(tài)特征、加強上下文理解，全面建模時序信息，提高骨骼行為識別的準確性和魯棒性，使其更適用于真實場景中的多樣化和復雜化的人體動作。實驗表明，本文提出的基于運動流自注意力機制的ST-GCN算法優(yōu)于大多數(shù)算法。

1" 基于運動流自注意力機制的人體行為識別

1.1" 整體模型結(jié)構(gòu)

本文的基于運動流自注意力機制的行為識別模型（MF-TR）整體采用ST-GCN網(wǎng)絡作為基線模型，具體由5個部分組成，分別是骨骼數(shù)據(jù)的預處理[4]、骨架圖和運動流的構(gòu)建[5]、ST-GCN模塊提取淺層信息、MFSA模塊提取高級信息、分類預測。如圖1所示，在經(jīng)歷骨骼數(shù)據(jù)的預處理和骨架圖的構(gòu)建之后，模型的初始部分采用ST-GCN作為基礎結(jié)構(gòu)。ST-GCN負責骨骼數(shù)據(jù)的初始特征提取。ST-GCN網(wǎng)絡利用圖卷積和時間卷積來提取其低級特征，并提供基礎特征用于后續(xù)處理。在ST-GCN的輸出特征之后，引入MFSA模塊，以取代ST-GCN模塊。MFSA模塊簡單來說就是用一個運動流自注意力模塊替換掉ST-GCN Layer中的時間卷積，實現(xiàn)對于運動特征的自適應捕獲，有助于更全面地理解全局動作結(jié)構(gòu)。最終，利用一個Softmax層，將模型的輸出映射到動作類別的概率分布上，完成對輸入動作的分類任務。

1.2" 骨架圖和運動特征的構(gòu)建

1.3" 運動流自注意力機制

2" 實驗設置與結(jié)果分析

2.1" 實驗設置

本研究使用PyTorch框架在NTU-60、NTU-120、Kinetics數(shù)據(jù)集上進行模型訓練，共進行了120輪。批大小為32，并采用隨機梯度下降（SGD）作為優(yōu)化策略。初始學習率設置為0.1，在第60輪和90輪時分別降低為原來的1/10。這樣的設置是基于先前的研究，而研究表明，對于使用ST-GCN網(wǎng)絡的任務，這種學習率調(diào)度被證明能夠提供良好的結(jié)果。此外，為了防止過擬合問題，本文還采用了DropAttention[6]技術，該技術在Transformer網(wǎng)絡中被用來規(guī)范化注意力權(quán)重，以增強模型的性能和魯棒性。該技術通過隨機丟棄注意力相關系數(shù)矩陣的列來實現(xiàn)。在實驗中，本文將多頭自注意力的數(shù)量設置為8，并且在每個層中將dq、dv和dk的嵌入維度設置為0.25×Cout，與ST-GCN的設置相同。模型架構(gòu)由9個層組成，通道維度為64、64、64、128、128、128、256、256和256。在輸入層之前應用批歸一化，在Softmax分類器之前應用全局平均池化層，并使用標準交叉熵進行訓練。

2.2" 消融實驗

本研究以ST-GCN為基線模型，并在其基礎上進行合理的調(diào)整，以深入評估運動流自注意力機制的實際效果。此前，Plizzari等的工作也曾在ST-GCN網(wǎng)絡上引入自注意力機制。為了驗證本文提出的運動流自注意力機制的有效性，對比原版ST-GCN網(wǎng)絡模型，添加自注意力機制的ST-GCN網(wǎng)絡模型及本文提出的添加運動流自注意力機制的ST-GCN網(wǎng)絡模型，以研究運動流自注意機制對模型性能的改善效果。

由表1可知，添加了自注意力機制的ST-GCN網(wǎng)絡在跨主體評估（X-Sub）和跨視圖評估（X-View）2個評估標準下的準確率分別提高了4.5%和3%，相較于沒有自注意力機制的原版ST-GCN網(wǎng)絡效果更為顯著，表明自注意力機制對ST-GCN網(wǎng)絡性能的提升起到了積極的作用。此外，本文設計的運動流自注意力機制的ST-GCN網(wǎng)絡相對于僅添加骨骼節(jié)點自注意力機制的ST-GCN網(wǎng)絡，其性能分別再次提升了1.3%和1.2%。這進一步證實了本文提出的運動流自注意力機制模塊相對于單純添加骨骼節(jié)點的自注意力機制模塊效果更為顯著，從而驗證了本文提出的運動流自注意力機制的有效性。

2.3" 模型性能分析

本文基于NTU-60數(shù)據(jù)集對本文提出的方法和現(xiàn)有方法都作了比較。為了保證比較的公平，本文輸入相同的數(shù)據(jù)作比較，分為僅僅包含骨架關節(jié)節(jié)點信息和既包含骨架關節(jié)節(jié)點信息也包含骨骼信息（骨架關節(jié)節(jié)點的差分）。在NTU-60數(shù)據(jù)集上（表2），本文提出的MF-TR模型在僅使用骨骼關節(jié)節(jié)點信息時，相較于其他的模型，表現(xiàn)出了卓越的性能。在跨主體評估（X-Sub）和跨視圖評估（X-View）2個評估標準下都強于SAN模型。其次，在添加了骨骼信息時，本文的方法與MS-G3D方法的效果幾乎持平。而MS-G3D模型是骨骼行為識別領域內(nèi)最先進的模型，但是本文則采用了更簡單的結(jié)構(gòu)。

3" 結(jié)論

本文針對當前基于3D骨骼的行為識別問題動態(tài)特征和時序信息提取不足的問題，在ST-GCN這個基線網(wǎng)絡下，結(jié)合Transformer結(jié)構(gòu)中的自注意力機制和光流信息的理念，提出并加入了一種運動流自注意力模塊。該模塊旨在增強模型對時序信息的處理能力，并改善其性能。MFSA模塊的自注意力機制使得模型能夠動態(tài)地關注骨骼序列的運動信息，從而提高了模型的提取節(jié)點運動上下文信息的能力。實驗結(jié)果表明，引入MFSA模塊替代傳統(tǒng)的時間卷積，顯著減少了復雜性，主要體現(xiàn)在參數(shù)明顯減少。這種簡化有助于提高模型的訓練效率，并且通常伴隨著較好的性能表現(xiàn)，這表明，MFSA模塊在時間建模方面具有優(yōu)越性，為整體結(jié)構(gòu)的優(yōu)化提供了有效的路徑。實驗結(jié)果提示了在時空建模任務中采用自注意力機制的優(yōu)勢，并為未來設計自注意力模塊的模型提供了重要的參考。

參考文獻：

[1] SIMONYAN K， ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// Advances in neural information processing systems， 2014：27.

[2] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need[C]// Advances in neural information processing systems，2017：5998-6008.

[3] SHI L， ZHANG Y， CHENG J， et al. Skeleton-based action recognition with directed graph neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2019：7912-7921.

[4] 陳峰.基于運動序列的人體動作識別研究[D].長沙：湖南大學，2022.

[5] PLIZZARI C， CANNICI M， MATTEUCCI M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding， 2021，208：103219.

[6] ZEHUI L， LIU P， HUANG L， et al. Dropattention： A regularization method for fully-connected self-attention networks[C]// arXiv preprint arXiv，2019.