亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DCFF?Net：基于人體骨骼點的雙流跨級特征融合動作識別網(wǎng)絡(luò)

2024-11-30 00:00:00余翔連世龍

現(xiàn)代電子技術(shù) 2024年23期

摘" 要：在基于骨骼的動作識別任務(wù)中，骨骼點特征對于動作識別來說至關(guān)重要。針對現(xiàn)有方法存在輸入特征不足、特征融合策略粗糙、參數(shù)量大等問題，提出一種基于人體骨骼點的雙流跨級特征融合網(wǎng)絡(luò)。首先，針對特征輸入，用歐氏距離骨架特征（EDSF）和余弦角度骨架特征（CASF）兩種局部關(guān)節(jié)特征來表征人體骨骼序列，幫助網(wǎng)絡(luò)識別不同體態(tài)和體態(tài)相似的人體動作；其次，考慮到部分動作類別的運動軌跡與全局運動的相關(guān)性，引入全局運動特征（GMF）彌補局部關(guān)節(jié)特征在此類動作上識別精度不足的問題；此外，為了加強不同特征之間的信息交互，提出一種跨級特征融合模塊（CLFF），對不同特征層、不同屬性的動作特征進行特征互補，豐富了網(wǎng)絡(luò)的特征形式；最后，網(wǎng)絡(luò)采用一維卷積（Conv1D）進行搭建，減輕了模型的計算負擔。實驗結(jié)果表明，所提模型在JHMDB身體動作數(shù)據(jù)集上獲得了84.1%的識別準確率，在SHREC手勢動作數(shù)據(jù)集上分別獲得了97.4%（粗糙數(shù)據(jù)集）和95%（精確數(shù)據(jù)集）的識別準確率，取得了與先進方法相當?shù)男阅堋?/p>

關(guān)鍵詞：動作識別；骨架特征；運動軌跡；局部關(guān)節(jié)特征；全局運動特征；跨級特征融合

中圖分類號： TN911.73?34； TP391" " " " " " " " " "文獻標識碼： A" " " " " " " " " 文章編號： 1004?373X（2024）23?0081?08

DCFF?Net： Dual?stream cross?level feature fusion network

for skeleton?based action recognition

YU Xiang， LIAN Shilong

（School of Communications and Information Engineering， Chongqing University of Posts and Telecommunications， Chongqing 400065， China）

Abstract： In the skeleton?based action recognition task， skeleton features are crucial for action recognition. In view of the insufficient input features， rough feature fusion strategies， and a large number of parameters in the existing methods， a dual?stream cross?level feature fusion network （DCFF?Net） based on skeleton is proposed. For feature input， two local joint features， Euclidean distance skeleton features （EDSF） and cosine angle skeleton features （CASF）， are used to characterize the human skeleton sequence to help the network identify human body movements in different postures and similar postures. Considering the correlation between the motion trajectories of some action categories and global motion， global motion features （GMF） are introduced to make up for the lack of recognition accuracy of local joint features in such actions. In addition， in order to strengthen the information interaction among different features， a cross?level feature fusion （CLFF） module is proposed to complement the action features of different feature layers and different attributes， which enriches the characteristics of the network form. The network is built with Conv1D， which reduces the computational burden of the model. Experimental results show that the proposed model achieves a recognition accuracy of 84.1% on the body action dataset JHMDB and 97.4% （coarse dataset） and 95% （fine dataset） on the gesture action dataset SHREC. To sum up， the proposed network achieves the performance comparable to the advanced methods.

Keywords： action recognition; skeleton feature; motion trajectory; local joint feature; global motion feature; cross?level feature fusion

0" 引" 言

人體動作識別是計算機視覺領(lǐng)域的熱門研究方向之一，在人機交互、醫(yī)療康復、智能監(jiān)控等領(lǐng)域應用廣泛[1?4]。對于人體動作識別任務(wù)，有不同的數(shù)據(jù)輸入模態(tài)，主要包括RGB視頻、人體骨架序列、深度圖等[5?9]。相較于RGB視頻和深度圖序列，人體骨骼點數(shù)據(jù)只包含人體的動作姿態(tài)信息，具有數(shù)據(jù)量少、復雜度低、不易受背景光照影響等特點，更加符合人體動作在運動中的實際變化[10]。此外，人體骨骼點數(shù)據(jù)可以減少隱私泄露。因此，基于人體骨骼點的動作識別方法受到了越來越多學者的關(guān)注。

目前，基于骨骼點的動作識別任務(wù)還存在著以下挑戰(zhàn)。

1）人體骨骼點數(shù)據(jù)量大且存在冗余信息，現(xiàn)有的方法對于骨骼點特征的表征十分單一，有些只關(guān)注到了局部關(guān)節(jié)特征，而有些只關(guān)注到了全局運動特征（Global Motion Feature， GMF）。所以如何從大量冗余數(shù)據(jù)中找出理想的骨骼點表征形式顯得尤為重要。

2）現(xiàn)有的動作識別方法不能同時兼顧輕量化和準確率兩項指標，所以要探索構(gòu)建出最適合提取骨骼點特征的學習網(wǎng)絡(luò)，同時保證網(wǎng)絡(luò)的參數(shù)量和復雜度較低，來實現(xiàn)高準確率、強魯棒性的輕量化識別模型。

針對以上問題，受到文獻[11]的啟發(fā)，本文提出了一種基于人體骨骼點的雙流跨級特征融合動作識別網(wǎng)絡(luò)（DCFF?Net），主要研究如下。

1）引入了雙流特征輸入，將局部關(guān)節(jié)特征和全局運動特征同時輸入到網(wǎng)絡(luò)，以增加網(wǎng)絡(luò)對于不同動作和相似動作的識別準確率，并且提升網(wǎng)絡(luò)的魯棒性。

2）提出了一種跨級特征融合模塊（Cross?level Feature Fusion， CLFF），將局部特征和全局特征進行跨級融合，增加不同層級特征之間的信息交互，幫助網(wǎng)絡(luò)獲取不同特征之間的細節(jié)信息。

3）網(wǎng)絡(luò)整體采用一維卷積進行搭建，大大減少了模型的參數(shù)量和復雜度。

4）在JHMDB和SHREC數(shù)據(jù)集上的實驗結(jié)果表明，本文所提出的方法滿足輕量化的應用要求，取得了與先進方法相當?shù)男阅堋?/p>

1" 雙流跨級特征融合網(wǎng)絡(luò)

1.1" 總體架構(gòu)

網(wǎng)絡(luò)整體由特征輸入、特征提取、特征融合三部分構(gòu)成，如圖1所示。在特征輸入部分，總共有四種特征輸入流，分別為歐氏距離骨架特征（Euclidean Distance Skeleton Feature， EDSF）、余弦角度骨架特征（Cosine Angle Skeleton Feature， CASF）、全局慢速動作特征（GSMF）、全局快速動作特征（GFMF）。對于EDSF、CASF、GSMF特征，幀數(shù)設(shè)置為32幀，而GFMF特征幀數(shù)設(shè)置為16幀，然后將他們分別輸入特征提取器網(wǎng)絡(luò)中的長幀特征提取模塊（LFFE）和短幀特征提取模塊（SFFE），接著通過Concat操作拼接四種不同的特征，送入特征融合網(wǎng)絡(luò)。在特征融合階段，將LFFE和SFFE模塊提取的各級骨骼點特征通過CLFF模塊與Concat之后的各級特征進行逐層融合，最后經(jīng)過全局平均池化層和全連接層輸出識別結(jié)果。

1.2" 雙流特征輸入

1.2.1" 局部關(guān)節(jié)特征

人體局部關(guān)節(jié)點之間的特征也稱為位置視點不變特征。在人體運動的過程中，相鄰關(guān)節(jié)點之間的聯(lián)系是非常緊密的。如圖2所示，當人體骨架序列進行翻轉(zhuǎn)或者旋轉(zhuǎn)時，關(guān)節(jié)點的坐標發(fā)生了改變，而關(guān)節(jié)點之間的距離和角度其實是沒有發(fā)生改變的，這種特征具有位置視點不變性，能夠很好地表征關(guān)節(jié)點之間的局部特征關(guān)系。

將第[k]幀、第[n]個關(guān)節(jié)點的2D坐標表示為[Jkn=x，y]，同理，關(guān)節(jié)點的3D坐標表示為[Jkn=x，y，z]，那么第[k]幀所有關(guān)節(jié)點的集合表示為[Sk=Jk1，Jk2，…，Jkn]。

通過歐氏距離公式表示任意兩個關(guān)節(jié)點之間的距離，并將其轉(zhuǎn)化為下三角矩陣的形式，那么第[k]幀的EDSF可以用如下矩陣表示：

[EDSFk=Jk1Jk2??Jk1JkN…JkNJkN] （1）

式中：[JkiJkji≠j]表示關(guān)節(jié)點[i]到關(guān)節(jié)點[j]的歐氏距離，[k]代表第[k]幀，每個動作由32幀組成；[N]代表每幀的關(guān)節(jié)點個數(shù)。

CASF特征的引入主要是因為在不同的數(shù)據(jù)集中，對于一些體態(tài)相似的動作，EDSF特征無法達到很好的識別性能。為了進一步論證EDSF特征存在的問題，分析了JHMDB數(shù)據(jù)集中不同動作的視頻幀。圖3a）、圖3b）展示了數(shù)據(jù)集中撿和坐這兩個動作，發(fā)現(xiàn)這兩個動作在運動過程中都會出現(xiàn)一個彎腰的狀態(tài)，而這種情況就會對網(wǎng)絡(luò)的識別造成干擾。為了更加清晰地分析這兩個動作，將其通過2D關(guān)節(jié)點序列進行表征。從圖3c）、圖3d）可以發(fā)現(xiàn)兩個動作的EDSF特征是相近的，但是這兩個動作在彎腰時人體臀腿之間的關(guān)節(jié)角度卻是不一樣的。由此可見，對于相似的動作，EDSF特征不能很好地幫助網(wǎng)絡(luò)進行識別，反而會成為噪聲干擾因素。因此，在網(wǎng)絡(luò)中引入余弦角度骨架特征，幫助網(wǎng)絡(luò)區(qū)分體態(tài)相似的動作類別。

在獲得了關(guān)節(jié)點的坐標向量之后，先計算坐標向量之間的余弦相似度，然后使用反余弦函數(shù)來計算兩個關(guān)節(jié)點之間的角度。第[k]幀兩個關(guān)節(jié)點之間的角度可以用如下公式計算：

[Angle（Jki，Jkj）=DegreearccosJki?JkjJkiJkj] （2）

式中：[Degree（Jki，Jkj）]表示求兩個關(guān)節(jié)點之間的角度；arccos為反余弦函數(shù)；[Jki?JkjJkiJkj]表示求兩個關(guān)節(jié)點向量之間的余弦相似度。

利用[Angle（Jki，Jkj）]求得關(guān)節(jié)點之間的角度后，再將其轉(zhuǎn)化為上三角形矩陣的形式。第[k]幀的CASF表示為如下矩陣：

[CASFk=AngleJk1，Jk2…AngleJk1，JkN??AngleJkN，JkN] （3）

同時，為了將兩種特征進行充分融合，將兩個特征矩陣進行拼接，最終得到如下的特征矩陣形式：

[Feature Matrix=……AngleJk1，JkN-1AngleJk1，JkN???AngleJk2，JkNJkN-1Jk1…??JkNJk1JkNJk2……] （4）

1.2.2" 全局運動特征

局部關(guān)節(jié)特征使得網(wǎng)絡(luò)具備了位置視點不變特性，但是只在網(wǎng)絡(luò)中加入這種特征是單一且不充分的。如圖4所示，當在做揮手這個動作時，手部的各個關(guān)節(jié)點之間的局部特征并沒有發(fā)生變化，相反整個手的關(guān)節(jié)點坐標發(fā)生了改變。所以，當動作涉及到全局的運動軌跡時，僅僅靠局部關(guān)節(jié)特征是不夠的。通過計算動作幀之間的時間間隔來表征全局運動，同時，通過取不同的幀間隔將全局運動特征細分為GFMF特征和GSMF特征。全局運動特征可以通過下面的公式計算得到。

[GFMFk=JCk+2-JCk，" " k∈{1，3，…，k-2}GSMFk=JCk+1-JCk，" " k∈{1，2，…，k-1}] （5）

式中：[k]代表第[k]幀；JC表示每幀關(guān)節(jié)點的笛卡爾坐標。

1.3" 跨級特征融合模塊

雖然在網(wǎng)絡(luò)中同時引入了局部關(guān)節(jié)特征和全局運動特征，但是多特征的輸入形式需要有效的特征融合結(jié)構(gòu)對不同特征進行信息交互?，F(xiàn)有的一些文獻采用特征串聯(lián)或者是簡單地將特征在最后一層進行相連，但是這些方法的融合操作較為粗糙，不能充分挖掘不同層級和不同特征之間的特征信息。由此，設(shè)計了一種跨級特征融合模塊（CLFF），使用跳躍方式連接不同層級之間的特征，這種方式不僅加強了網(wǎng)絡(luò)對于不同關(guān)節(jié)特征的捕捉能力，同時也能將淺層特征和深層特征進行有效地融合，讓網(wǎng)絡(luò)學習到更加復雜的特征表達。對于局部關(guān)節(jié)特征EDSF和CASF與全局運動特征GFMF和GSMF分別設(shè)計了兩個CLFF模塊，每一個CLFF模塊都是由三個卷積塊組成，每一個卷積塊又分別由一維卷積（Conv1D）、批歸一化層（BN）、激活函數(shù)（LeakyReLU）、Dropout函數(shù)、最大池化層（MaxPooling）組成，如圖5所示。

網(wǎng)絡(luò)中特征輸入形式為[（B，C，N）]，其中[B]為batch_size，[C]為特征幀數(shù)，默認為32，[N]代表特征維度，對于JHMDB和SHREC這兩種不同的數(shù)據(jù)集，[N]分別為105和231。CLFF模塊中的三個卷積塊分別對應LFFE模塊和SFFE模塊的三個卷積塊，每個卷積塊都將進行一次跨級特征融合操作，分別與特征融合階段的各層級特征進行融合。LFFE和SFFE模塊內(nèi)部網(wǎng)絡(luò)構(gòu)成如圖6所示。從圖6中可以看到，網(wǎng)絡(luò)中的長短幀特征提取模塊LFFE和SFFE都包含了三個一維卷積塊，主要的不同在于LFFE模塊增加了一個MaxPooling層，以保證兩個特征提取通道的特征保持相同的幀數(shù)，以進行后續(xù)的Concat操作。CLFF模塊中的最大池化層MaxPooling的作用主要是為了設(shè)置不同層級特征的通道數(shù)，方便進行特征融合。對于EDSF和CASF，CLFF模塊中的MaxPooling的步長分別設(shè)置為4、8、4，對于GFMF和GSMF特征，MaxPooling的步長設(shè)置為2、4、4。對于EDSF和CASF，CLFF模塊的處理過程表示為：

[EmBed1（EDSF，CASF）→EmBed2（EDSF，CASF）→EmBed1（EDSF，CASF）] （6）

對于GFMF和GSMF特征，CLFF模塊的處理過程表示為：

[EmBed1（GFMF，GSMF）→EmBed2（GFMF，GSMF）→EmBed1（GFMF，GSMF）] （7）

[EmBed1]和[EmBed2]的定義如下所示：

[EmBed1=MLRBNConv1D（1，x）EmBed2=MLRBNConv1D（3，x）] （8）

式中：數(shù)字1和3代表一維卷積核的大小。

2" 實驗結(jié)果與分析

2.1" 數(shù)據(jù)集

JHMDB數(shù)據(jù)集[12]是對HMDB51數(shù)據(jù)集[13]的二次標注。JHMDB從HMDB51中提取了21個動作類別的928個視頻剪輯，其中每個動作類別包含36～55個視頻剪輯，每個視頻剪輯包含15～40幀。本文選取JHMDB數(shù)據(jù)集中的14個動作類別，并且只使用2D關(guān)節(jié)點坐標進行動作識別。

SHREC數(shù)據(jù)集[14]是一個關(guān)于手勢識別的數(shù)據(jù)集，考慮到手運動和手形狀變化的差異，數(shù)據(jù)集根據(jù)手勢使用手指的數(shù)量細分為14個手勢類別的粗糙數(shù)據(jù)集（Coarse Datasets）和28個手勢類別的精確數(shù)據(jù)集（Fine Datasets）。對于該數(shù)據(jù)集，按照官方[11]的樣本劃分規(guī)則，將1 960段序列樣本作為訓練集，840段序列樣本用作測試集。

2.2" 實驗設(shè)置

本文所有實驗均在PyTorch框架上進行，使用Python 3.9和CUDA 11.7。GPU為NVIDIA" RTX" A5000 24 GB顯存，CPU為Intel[?] CoreTM i9?13900K。選用Adam優(yōu)化器計算移動平均梯度和移動平均平方梯度，其中，[β1]和[β2]兩個參數(shù)用于控制兩個指數(shù)加權(quán)平均的衰減率，分別設(shè)置為[β1]=0.9，[β2]=0.999。對于輸入的骨架序列，設(shè)置為32幀。對于超參數(shù)，設(shè)置初始學習率為0.002，epoch為600，batch_size為512。

2.3" 消融實驗

2.3.1" 雙流特征輸入的有效性實驗

為了驗證雙流特征輸入的有效性，在網(wǎng)絡(luò)中依次加入局部關(guān)節(jié)特征和全局運動特征，觀察單個動作類別準確率的變化，結(jié)果如表1、表2所示。表1顯示了JHMDB數(shù)據(jù)集的部分單個動作的識別率，這些動作涉及到了局部關(guān)節(jié)運動以及全局運動。引入EDSF特征，此時揮手、坐、撿等動作的識別準確率較低。在EDSF特征的基礎(chǔ)上，引入全局運動特征，揮手這個動作的識別準確率有一定程度上的提高，對于涉及全局運動軌跡的動作，如跳躍、引體向上，識別準確率都得到了提高，這說明全局運動特征能夠更好地表征此類動作特征。在網(wǎng)絡(luò)中引入CASF特征，發(fā)現(xiàn)對于坐和撿這兩種體態(tài)相似的動作，網(wǎng)絡(luò)的識別準確率有大幅度的提升，這也驗證了CASF特征能夠彌補EDSF特征的不足，幫助網(wǎng)絡(luò)識別區(qū)分容易混淆的動作，增強網(wǎng)絡(luò)的識別能力。

表2展示了網(wǎng)絡(luò)在SHREC數(shù)據(jù)集14個手勢類別上的識別結(jié)果，當網(wǎng)絡(luò)中只有單一的局部特征時，一些手勢動作的識別準確率并不理想，當網(wǎng)絡(luò)中引入全局運動特征后，部分手勢動作的識別準確率得到了明顯的提高，這說明對于基于關(guān)節(jié)點的動作識別來說，局部關(guān)節(jié)特征和全局運動特征能夠相互彌補特征不足，相比于單通道的特征輸入，雙流特征輸入有利于后期網(wǎng)絡(luò)的特征提取和融合。

2.3.2" CLFF模塊的有效性實驗

本文總共進行兩組實驗來驗證本文模塊的有效性。在本組實驗中，默認在網(wǎng)絡(luò)中引入了局部關(guān)節(jié)特征與全局運動特征，實驗結(jié)果如表3、表4所示。

第一組實驗，首先改變CLFF模塊的層數(shù)，來研究CLFF模塊深度對網(wǎng)絡(luò)性能的影響。CLFF模塊的基本層數(shù)分別設(shè)置為1、2、3。從表3、表4中可以看到，在JHMDB和SHREC兩個數(shù)據(jù)集上，隨著層數(shù)的增加，DCFF?Net的識別準確率在穩(wěn)步提高，在[L]=3時達到飽和，同時網(wǎng)絡(luò)整體的參數(shù)量也在隨之而增加。從中可以看出，CLFF模塊能夠起到融合不同層級間特征的作用，對網(wǎng)絡(luò)的識別性能有積極的正向作用。因為[L]=3時網(wǎng)絡(luò)的識別性能最好，并且參數(shù)量只有一定范圍的增長，所以在實驗中選擇[L]=3。

第二組實驗，為了驗證所提出的跨級特征融合模塊的有效性，比較了三種不同的特征融合策略，結(jié)果如表5所示。其中，網(wǎng)絡(luò)的表示如下：

1） DCFF?NetLocal表示只對局部關(guān)節(jié)特征進行跨級特征融合；

2） DCFF?NetGlobal表示只對全局運動特征進行跨級特征融合；

3） DCFF?NetAll表示對兩種特征進行跨級特征融合。

從表5中可以看到，DCFF?NetAll的識別性能優(yōu)于其他兩種融合策略，這說明了只融合局部關(guān)節(jié)特征或者是全局運動特征并不能達到最理想的識別性能，而本文所提出的特征融合結(jié)構(gòu)是最有效的。同時也證明了在基于人體骨骼點的動作識別任務(wù)中，局部關(guān)節(jié)特征和全局運動特征給網(wǎng)絡(luò)帶來的信息是同等重要的。CLFF模塊通過將不同層級之間不同維度的特征進行跨級融合，從而能夠更好地挖掘局部與全局特征之間的互補特征，幫助網(wǎng)絡(luò)區(qū)分不同和形似的動作形態(tài)。

2.4" 與先進方法的比較實驗

為了進一步驗證本文提出方法的優(yōu)越性，在JHMDB、SHREC數(shù)據(jù)集上將所提出的方法與一些經(jīng)典方法以及先進的動作識別方法進行比較，其中包含了基于CNN網(wǎng)絡(luò)的方法、基于GCN網(wǎng)絡(luò)的方法和基于RNN網(wǎng)絡(luò)的方法，使用這些方法在其原始論文中報告的精度。表6、表7顯示了在兩個數(shù)據(jù)集上的識別準確率比較結(jié)果。其中：R、F、P、H、S、C分別代表RGB?Images、Optical Flow、Pose、Heat Maps、Skeleton and Point Clouds；“—”表示論文沒有提供相應的結(jié)果。

如表6所示，在JHMDB數(shù)據(jù)集上，本文提出的方法的識別準確率達到了84.1%，優(yōu)于現(xiàn)有的方法，達到了最好的識別性能。與經(jīng)典的動作識別方法PoTion[16]和Chained Net[15]相比，識別準確率分別提升了16.2%和27.3%，從中可以看出本文所提出的方法相比于經(jīng)典的人體骨骼點識別方法具有優(yōu)越性。與DD?Net[11]相比，雖在參數(shù)量上有0.2×106參數(shù)量的增加，但是在識別精度上卻提升了6.9%。DD?Net在網(wǎng)絡(luò)結(jié)構(gòu)上沒有使用特征融合策略，忽視了不同層級之間的特征交互。如表7所示，在SHREC數(shù)據(jù)集上，對于14 Gestures類別，本文方法的識別準確率為97.4%，超越了先進方法PSUMNet[25]和MS?ISTGCN[26]。DSTANet[21]在識別性能上與本文方法相當，但是其采用的網(wǎng)絡(luò)完全基于自注意力機制，忽略了骨骼數(shù)據(jù)在時間和空間上的維度信息。雖然其提出了解耦方法來平衡骨骼點序列的時間與空間的獨立性，但是這也使得網(wǎng)絡(luò)產(chǎn)生了更多的參數(shù)量。對于28 Gestures類別，TD?GCN[27]略微優(yōu)于本文的方法，原因主要是前者采用時間相關(guān)的鄰接矩陣來學習人體骨架的拓撲結(jié)構(gòu)，并且此方法使用的GCN網(wǎng)絡(luò)能夠從時間和空間上提取特征，而本文方法基于CNN網(wǎng)絡(luò)，缺乏在時間維度上的特征提取能力。

3" 結(jié)" 語

本文提出一種基于人體骨骼點的雙流跨級特征融合動作識別網(wǎng)絡(luò)（DCFF?Net）。首先，在網(wǎng)絡(luò)特征輸入部分引入了雙流特征輸入，將局部關(guān)節(jié)特征和全局運動特征進行融合，幫助網(wǎng)絡(luò)區(qū)分不同動作和體態(tài)相近的動作，增強了網(wǎng)絡(luò)的魯棒性；其次，在網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計了一種跨級特征融合模塊（CLFF）來構(gòu)建不同層級之間的特征信息交互，使得網(wǎng)絡(luò)能夠獲取更多有用的人體骨骼點信息。實驗結(jié)果表明，本文提出的方法在基于人體骨骼點的動作識別任務(wù)中取得了與先進方法相當?shù)淖R別性能，網(wǎng)絡(luò)的參數(shù)量也較少。但本文方法對于一些復雜相近動作特征的區(qū)分能力不是很強，所以在未來的工作中，將嘗試加入更多的附加特征信息如RGB圖像、熱力圖等，幫助網(wǎng)絡(luò)獲取更多的特征信息，并進一步研究適用于人體結(jié)構(gòu)特征的網(wǎng)絡(luò)結(jié)構(gòu)。

注：本文通訊作者為連世龍。

參考文獻

[1] DUAN H D， ZHAO Y， CHEN K， et al. Revisiting skeleton?based action recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2022： 2959?2968.

[2] ZHENG H， ZHANG B， LIN J， et al. A two?stage modality fusion approach for recognizing human actions [J]. IEEE sensors journal， 2023（22）： 23.

[3] XIN W T， LIU R Y， LIU Y， et al. Transformer for skeleton?based action recognition： A review of recent advances [J]. Neurocomputing， 2023， 537： 164?186.

[4] KE L， PENG K C， Lü S. Towards To?a?T spatio?temporal focus for skeleton?based action recognition [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.： s.n.]， 2022： 1131?1139.

[5] ZHEN R， SONG W C， HE Q， et al. Human?computer interaction system： A survey of talking?head generation [J]. Electronics， 2023， 12（1）： 218.

[6] SINGH K， DHIMAN C， VISHWAKARMA D K， et al. A sparse coded composite descriptor for human activity recognition [J]. Expert systems， 2022， 39（1）： e12805.

[7] 黃鎮(zhèn).基于深度學習的高效動作識別算法研究[D].合肥：中國科學技術(shù)大學，2022.

[8] YOON Y， YU J， JEON M. Predictively encoded graph convolutional network for noise?robust skeleton?based action recognition [J]. Applied intelligence， 2022（3）： 2317?2331.

[9] SáNCHEZ?CABALLERO A， FUENTES?JIMéNEZ D， LOSADA?GUTIéRREZ C. Real?time human action recognition using raw depth video?based recurrent neural networks [J]. Multimedia tools and applications， 2023， 82（11）： 16213?16235.

[10] WANG C L， YAN J J. A comprehensive survey of RGB?based and skeleton?based human action recognition [J]. IEEE access， 2023， 11： 53880?53898.

[11] YANG F， WU Y， SAKTI S， et al. Make skeleton?based action recognition model smaller， faster and better [C]// Proceedings of the 1st ACM International Conference on Multimedia in Asia. New York： ACM， 2019： 1?6.

[12] GHORBANI S， MAHDAVIANI K， THALER A， et al. MoVi： A large multipurpose motion and video dataset [J]. Plos one， 2021， 16（6）： e0253157.

[13] KUEHNE H， JHUANG H， GARROTE E， et al. HMDB51： A large video database for human motion recognition [C]// 2011 International Conference on Computer Vision. [S.l.： s.n.]， 2011： 2556?2563.

[14] LI C K， LI S， GAO Y B， et al. A two?stream neural network for pose?based hand gesture recognition [J]. IEEE transactions on cognitive and developmental systems， 2022， 14（4）： 1594?1603.

[15] ZOLFAGHARI M， OLIVEIRA G L， SEDAGHAT N， et al. Chained multi?stream networks exploiting pose， motion， and appearance for action classification and detection [C]// Proceedings of the IEEE International Conference on Computer Vision. New York： IEEE， 2017： 2923?2932.

[16] CHOUTAS V， WEINZAEPFEL P， REVAUD J， et al. Potion： Pose moTion representation for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2018： 7024?7033.

[17] ASGHARI?ESFEDEN S， SZNAIER M， CAMPS O I. Dynamic motion representation for human action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York： IEEE， 2020： 546?555.

[18] LUDL D， GULDE T， CURIO C. Simple yet efficient real?time pose?based action recognition [C]// 2019 IEEE Intelligent Transportation Systems Conference （ITSC）. New York： IEEE， 2019： 581?588.

[19] SHAH A， MISHRA S， BANSAL A， et al. Pose and joint?aware action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York： IEEE， 2022： 141?151.

[20] MIN Y C， ZHANG Y X， CHAI X J， et al. An efficient PointLSTM for point clouds based gesture recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2020： 5760?5769.

[21] SHI L， ZHANG Y， CHENG J， et al. Decoupled spatial?temporal attention network for skeleton?based action?gesture recognition [C]// Proceedings of the Asian Conference on Computer Vision. Heidelberg： Springer， 2020： 38?53.

[22] SHIN S， KIM W Y. Skeleton?based dynamic hand gesture recognition using a part?based GRU?RNN for gesture?based interface [J]. IEEE access， 2020， 8： 50236?50243.

[23] LIU J B， LIU Y C， WANG Y， et al. Decoupled representation learning for skeleton?based gesture recognition [C]// Procee?dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York： IEEE， 2020： 5750?5759.

[24] SABATER A， ALONSO I， MONTESANO L， et al. Domain and view?point agnostic hand action recognition [J]. IEEE robotics and automation letters， 2021， 6（4）： 7823?7830.

[25] TRIVEDI N， SARVADEVABHATLA R K. PSUMNet： Unified modality part streams are all you need for efficient pose?based action recognition [C]// European Conference on Computer Vision. Heidelberg： Springer， 2022： 211?227.

[26] SONG J H， KONG K， KANG S J. Dynamic hand gesture recognition using improved spatio?temporal graph convolutional network [J]. IEEE transactions on circuits and systems for video technology， 2022， 32（9）： 6227?6239.

[27] LIU J F， WANG X S， WANG C， et al. Temporal decoupling graph convolutional network for skeleton?based gesture recognition [J]. IEEE transactions on multimedia， 2023， 26： 811?823.

作者簡介：余" 翔（1969—），男，重慶人，碩士研究生，教授，研究方向為計算機視覺、人工智能、移動邊緣計算等。

連世龍（2000—），男，江蘇南京人，碩士研究生，研究方向為計算機視覺。

現(xiàn)代電子技術(shù)2024年23期

現(xiàn)代電子技術(shù)的其它文章: 無人機語義分割雙分支范圍松弛匹配學習; 航空光電成像載荷系統(tǒng)級固定噪聲去除方法研究; 一種高PSRR低溫漂無運放帶隙基準; 融合協(xié)同效應的自適應圖卷積網(wǎng)絡(luò)推薦算法; 變負載條件下超聲電源有功功率的整定與測量; 基于支持向量機回歸的道路能見度檢測