亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于姿態(tài)校正與姿態(tài)融合的2D/3D骨架動作識別方法

        2022-01-01 00:00:00曾勝強李琳
        計算機應(yīng)用研究 2022年3期

        摘 要:針對現(xiàn)有的人體骨架動作識別方法對肢體信息挖掘不足以及時間特征提取不足的問題,提出了一種基于姿態(tài)校正模塊與姿態(tài)融合模塊的模型PTF-SGN,實現(xiàn)了對骨架圖關(guān)鍵時空信息的充分利用。首先,對骨架圖數(shù)據(jù)進行預(yù)處理,挖掘肢體和關(guān)節(jié)點的位移信息并提取特征;然后,姿態(tài)校正模塊通過無監(jiān)督學(xué)習(xí)的方式獲取姿態(tài)調(diào)整因子,并對人體姿態(tài)進行自適應(yīng)調(diào)整,增強了模型在不同環(huán)境下的魯棒性;其次,提出一種基于時間注意力機制的姿態(tài)融合模塊,學(xué)習(xí)骨架圖中的短時刻特征與長時刻特征并融合長短時刻特征,加強了對時間特征的表征能力;最后,將骨架圖的全局時空特征輸入到分類網(wǎng)絡(luò)中得到動作識別結(jié)果。在NTU60 RGB+D、NTU120 RGB+D兩個3D骨架數(shù)據(jù)集和Penn-Action、HARPET兩個2D骨架數(shù)據(jù)集上的實驗結(jié)果表明,該模型能夠有效地識別骨架時序數(shù)據(jù)的動作。

        關(guān)鍵詞:圖卷積網(wǎng)絡(luò);注意力機制;特征融合;動作識別;人體骨架

        中圖分類號:TP391.41 文獻標志碼:A

        文章編號:1001-3695(2022)03-045-0900-06

        doi:10.19734/j.issn.1001-3695.2021.07.0286

        基金項目:國家自然科學(xué)基金資助項目(61673277)

        作者簡介:曾勝強(1997-),男,貴州遵義人,碩士研究生,主要研究方向為圖像處理、動作識別;李琳(1983-),女(通信作者),山東淮坊人,副教授,碩導(dǎo),博士,主要研究方向為魯棒控制、多智能體系統(tǒng)控制和圖像處理算法(lilin0211@163.com).

        2D/3D skeleton action recognition based on posture

        transformation and posture fusion

        Zeng Shengqiang,Li Lin?

        (School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)

        Abstract:Aiming at the problems that existing human skeleton action recognition methods couldn’t explore sufficient human body information and extract sufficient temporal feature,this paper proposed a model based on posture transformation module and posture fusion module(PTF-SGN),which realized the utilization of the key spatio-temporal information in skeleton diagram.Firstly,by preprocessing the skeleton diagram,the model mined the displacement information of limbs and joints,and extracted the features.Then it used the posture transformation module to obtain the posture adjustment factors from the skeleton image data in an unsupervised learning manner,and adaptively adjusted the body posture to enhance the robustness of the model in different environments.Secondly,it proposed a posture fusion module based on the time attention mechanism,which learned the short-term features and the long-term features,and fused the time characteristics of long and short moments to strengthen the characterization ability of time characteristics.Finally,it extracted the global spatio-temporal feature of the skeleton feature to input into the classification network to obtain the action recognition result.The experimental results on the two 3D skeleton datasets of NTU60 RGB+D and NTU120 RGB+D and the two 2D skeleton datasets of Penn-Action and HARPET show that PTF-SGN model can effectively recognize actions of skeleton time series data.

        Key words:GCN(graph convolutional network);attention mechanism;feature fusion;action recognition;human skeleton

        0 引言

        人工智能想要提供更好的服務(wù),關(guān)鍵在于理解人類的行為,而不僅僅只是捕捉到人的位置和姿態(tài)[1]。近年來,人體動作識別在機器視覺領(lǐng)域一直受到研究人員的廣泛關(guān)注,并且具有廣闊的應(yīng)用場景,例如在智能安防、智能輔助與康復(fù)機器人以及體育健身等領(lǐng)域的應(yīng)用[2]?;赗GB圖像的動作識別中,除人體本身外,圖像中的植物、家具以及人身上穿戴的各種服裝和服飾都會對動作的識別造成一定的干擾。而人體關(guān)節(jié)點構(gòu)成的骨架圖,排除了圖像中大部分的干擾信息,提煉出了圖像中對行為識別最有用的一部分信息,基于人體骨架的動作識別在近幾年逐漸成為了行為識別領(lǐng)域的重要研究方向之一。與此同時,得益于虛擬現(xiàn)實領(lǐng)域和姿態(tài)識別領(lǐng)域的發(fā)展,通過Kinetic深度相機或姿態(tài)識別算法能夠比較容易地獲取到人體關(guān)節(jié)點數(shù)據(jù),使這一研究方向得到了快速發(fā)展。

        目前基于人體骨架的行為識別主流方法主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[3]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4]。其中,基于RNN的動作識別工作中,Zhu等人[5]采用了深度正則化LSTM(long short-term memory)網(wǎng)絡(luò),通過搭建五個LSTM模塊分別處理人體四肢以及頭部的關(guān)節(jié)點數(shù)據(jù)對人體骨架進行共現(xiàn)特征學(xué)習(xí);Liu等人[6]在時空LSTM網(wǎng)絡(luò)里加入了一種信任門控機制處理骨骼數(shù)據(jù)中的噪聲,分析關(guān)節(jié)點之間的聯(lián)系,提高了識別的準確性。然而,在實踐中RNN的訓(xùn)練往往面臨著梯度消失和梯度爆炸的問題,因此很難訓(xùn)練多層結(jié)構(gòu)的RNN[7]。CNN能夠得到底層相鄰幀與高層相鄰幀之間的長期依賴關(guān)系,有效地捕捉圖片序列間的時空屬性,從而取得更可觀的識別效果[6~8]。Yan等人[9]在骨架行為識別任務(wù)中引入了基于CNN的圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN),并提出了時空圖卷積模型,將人體的關(guān)節(jié)點視做圖的節(jié)點,令不同幀的相同關(guān)節(jié)點之間的連線構(gòu)成時間屬性,避免了RNN需要專門設(shè)計模塊去處理關(guān)節(jié)點數(shù)據(jù)的弊端;Zhang等人[10]挖掘了關(guān)節(jié)點的位移信息并將其特征融入到數(shù)據(jù)流中,提高了模型的表達能力,同時利用GCN分析關(guān)節(jié)點間的聯(lián)系,有效提高了模型的精確度。圖卷積網(wǎng)絡(luò)擅長對人體骨架這種非歐氏數(shù)據(jù)進行建模,能夠有效地學(xué)習(xí)人體骨架各個關(guān)節(jié)點之間的相互聯(lián)系。得益于其特殊的網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)越的建模能力,目前已經(jīng)成為人體骨架行為識別的主流方法。

        實際應(yīng)用中,受到環(huán)境和相機角度的影響,圖像中的人體姿態(tài)會出現(xiàn)傾斜或變形,Zhang等人[11]提出的視角自適應(yīng)方案雖然可以改善姿態(tài)傾斜對行為識別的干擾,但無法解決人體姿態(tài)變形的問題。針對此問題,提出姿態(tài)校正模塊(posture transformation module,PTM),該模塊不僅能對姿態(tài)進行角度的調(diào)整,還能夠?qū)羌軋D進行姿態(tài)的校正,有效地增強了動作識別算法在不同環(huán)境下的魯棒性。雖然Zhang等人[10]挖掘了關(guān)節(jié)點的位移信息,但沒有關(guān)注到人的肢體信息,肢體信息對于分析人的行為同樣非常重要,肢體信息不僅包含了關(guān)節(jié)點之間的相對位置和動態(tài)信息,還包含了四肢的長度信息等,肢體特征的加入有效提高了模型對空間特征的表征能力。

        之前的許多工作[10~13]側(cè)重于挖掘數(shù)據(jù)的空間信息而忽略了不同姿態(tài)之間的聯(lián)系,為了更充分地挖掘動作的時間信息,提出姿態(tài)融合模塊(posture fusing module,PFM),將相鄰三個姿態(tài)的短時刻特征和彼此間隔一個姿態(tài)的三個姿態(tài)的長時刻特征融合在一起,并通過時間注意力機制將融合后的特征加入到時間流特征中,有效地挖掘了動作的時間流信息。

        目前,基于視頻的動作分類中,大量工作基于UCF101、HMDB和NTU60 RGB+D等數(shù)據(jù)集研究了生活場景的動作分類,而基于運動場景動作分類的研究較少[12] 。另外,考慮到目前的應(yīng)用環(huán)境下,2D姿態(tài)的關(guān)節(jié)點坐標更容易獲取,在實驗部分采用了基于運動場景的2D骨架數(shù)據(jù)集Penn-Action和HARPET對具有運動背景的動作識別進行研究。

        針對上述問題,本文提出一種以SGN為骨干網(wǎng)絡(luò)并結(jié)合了姿態(tài)校正與姿態(tài)融合模塊的網(wǎng)絡(luò)(network combining postures transformer and postures fusing module based on semantics-guided neural network,PTF-SGN)模型,主要貢獻如下:a)提出了姿態(tài)校正模塊用來校正因外部因素導(dǎo)致的姿態(tài)傾斜以及變形,增強了模型在不同環(huán)境因素下的魯棒性;b)對骨架數(shù)據(jù)進行預(yù)處理,挖掘了肢體信息,進一步提取骨架的動態(tài)信息和空間特征,有效提高了模型的表達能力;c)提出了姿態(tài)融合策略,分別提取相鄰三個姿態(tài)和間距為一的三個姿態(tài)的特征,通過時間注意力機制進行融合,進一步學(xué)習(xí)了關(guān)節(jié)點時序數(shù)據(jù)的時間特征。在NTU60 RGB+D、NTU120 RGB+D和Penn-Action、HARPET多個數(shù)據(jù)集上進行了實驗驗證,結(jié)果證明所提的PTF-SGN是一種有效的端到端的動作識別模型。

        1 結(jié)合姿態(tài)校正與姿態(tài)融合的圖卷積網(wǎng)絡(luò)

        1.1 整體網(wǎng)絡(luò)設(shè)計

        本文以SGN為骨干網(wǎng)絡(luò)提出了一種結(jié)合姿態(tài)校正模塊與姿態(tài)融合模塊的動作識別模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。模型主體由兩部分組成,分別是空間流模塊和時間流模塊??臻g流模塊針對骨架數(shù)據(jù)的關(guān)節(jié)點層面進行處理,學(xué)習(xí)人體骨架的空間特征;時間流模塊針對骨架數(shù)據(jù)的時序?qū)用?,學(xué)習(xí)關(guān)節(jié)點時序數(shù)據(jù)的時間特征。

        空間流模塊中,首先將骨架數(shù)據(jù)進行預(yù)處理后提取出骨架的肢體信息和關(guān)節(jié)點的位移信息;再利用兩層CNN分別對肢體信息和位移信息進行特征學(xué)習(xí)得到肢體特征和位移特征;然后將原始的骨架數(shù)據(jù)送入姿態(tài)校正模塊學(xué)習(xí),得到姿態(tài)特征;將肢體特征、位移特征和姿態(tài)特征融合后的特征送入圖卷積模塊學(xué)習(xí)姿態(tài)中不同關(guān)節(jié)點間的聯(lián)系。圖卷積模塊由三層GCN組成,GCN能夠基于上一個GCN學(xué)習(xí)的特征進行迭代學(xué)習(xí),進一步強化對于關(guān)節(jié)點特征的表征。

        時間流模塊中,在空間流模塊輸出的骨架特征中融入時序編碼特征,得到姿態(tài)融合模塊的輸入;姿態(tài)融合模塊學(xué)習(xí)相鄰三個姿態(tài)的短時刻特征和間隔為一個姿態(tài)的三個姿態(tài)的長時刻特征,然后利用時間注意力機制融合長短時刻的姿態(tài)特征,并將其加入到骨架的時間流特征中;接著利用空間最大池化層對特征在關(guān)節(jié)點層面進行全局特征提取,關(guān)節(jié)點全局特征通過兩層CNN后再送入到時間最大池化層在時序?qū)用孢M行時間全局特征提??;最后將特征拉直后利用全連接層進行動作識別。

        1.2 肢體特征提取模塊

        關(guān)節(jié)點時序數(shù)據(jù)由三個維度的信息組成,分別是構(gòu)成動作的一系列姿態(tài)和每個姿態(tài)的所有關(guān)節(jié)點以及關(guān)節(jié)點的坐標信息,為了便于表達,將網(wǎng)絡(luò)中的骨架圖定義為

        其中:J代表骨架圖的關(guān)節(jié)點總數(shù);T代表骨架圖的總幀數(shù);Vj,t為在t時刻的關(guān)節(jié)點j。肢體信息的獲取需要對原始骨架圖進行如下的數(shù)據(jù)預(yù)處理:

        其中:Li,t代表由t時刻的第i個點與第i+1個點之間的相對位置組成的肢體信息。在骨架圖中,關(guān)節(jié)點之間的相對位置由關(guān)節(jié)點彼此間的三維坐標確定,在骨架中相鄰兩個關(guān)節(jié)點之間的相對位置存在固定的關(guān)系,比如手肘關(guān)節(jié)點和肩關(guān)節(jié)點代表左臂和右臂,兩臂的肢體長度是基本一致的,肢體信息可以反映出這一特點。不僅如此,動作發(fā)生時姿態(tài)一直在發(fā)生變化,關(guān)節(jié)點間的相對位置也一直在改變,所以肢體信息包含著豐富的動態(tài)信息和語義信息。獲取到肢體信息后,用全0張量彌補維度上的變化,然后利用兩層卷積提取肢體特征,如圖2所示。

        1.3 姿態(tài)校正模塊

        姿態(tài)矯正模塊是受STN(spatial transformer network)[14]和旋轉(zhuǎn)矩陣(rotation matrix)啟發(fā)得來,STN是針對RGB圖片的方法,對圖片進行平移旋轉(zhuǎn)后,根據(jù)坐標的變換進行圖片像素填充,但不適用于關(guān)節(jié)點數(shù)據(jù)。姿態(tài)校正模塊是針對人體骨架數(shù)據(jù)的一種無監(jiān)督學(xué)習(xí)模塊,如圖3所示。

        姿態(tài)校正模塊的校正方法不同于旋轉(zhuǎn)矩陣對整個骨架進行簡單的旋轉(zhuǎn),而是通過計算出自適應(yīng)調(diào)整因子對骨架圖的每個關(guān)節(jié)點進行相對獨立的作用。首先送入姿態(tài)校正模塊的骨架數(shù)據(jù)需要進行如下調(diào)整:

        其中:N代表模型的批次數(shù);D代表關(guān)節(jié)點維度的數(shù)量;J和T代表關(guān)節(jié)點總數(shù)和骨架圖的總幀數(shù)。然后利用兩層CNN學(xué)習(xí)骨架圖的姿態(tài)特征,再用兩層全連接層對flatten后的姿態(tài)特征進行學(xué)習(xí)回歸自適應(yīng)調(diào)整因子。姿態(tài)校正模塊計算出的3D骨架圖的自適應(yīng)姿態(tài)調(diào)整因子如式(4)所示。

        其中:θ、φ、β分別對應(yīng)3D骨架圖x、y、z軸坐標的調(diào)整因子。利用姿態(tài)調(diào)整因子與輸入的骨架數(shù)據(jù)做矩陣乘法得到校正后的骨架圖,然后再對做一次式(3)的反變換即可還原骨架數(shù)據(jù),如式(5)(6)所示。

        1.4 姿態(tài)融合模塊

        姿態(tài)融合模塊是為了學(xué)習(xí)并融合骨架特征在互相間隔一個姿態(tài)的三個姿態(tài)的長時刻特征和相鄰三個姿態(tài)的短時刻特征,通過引入時間注意力機制使模型能夠關(guān)注到動作在不同時刻姿態(tài)的動態(tài)變化,將融合后的特征加入到時間流特征中,使模型能夠從時間流特征中學(xué)習(xí)到不同時刻的姿態(tài)信息,進一步提高了模型對不同動作的表征能力。例如閱讀和書寫,這兩個動作在同一時刻的姿態(tài)非常相似,但是在動態(tài)的表現(xiàn)下,不同時刻的手部變化是完全不一樣的,而通過模型對長時刻與短時刻的姿態(tài)特征學(xué)習(xí),將有助于對動作進行更準確的識別。姿態(tài)融合模塊如圖4所示。

        輸入的骨架圖特征被分別送入兩個膨脹卷積學(xué)習(xí)長時刻特征和短時刻特征。其中長時刻特征由膨脹率為(1,2)、卷積核尺寸為1×3的膨脹卷積得到;短時刻特征由膨脹率為(1,1)、卷積核尺寸為1×3的膨脹卷積得到。然后將長短時刻的特征相融合,如式(7)所示。

        其中:Vl代表長時刻特征;Vs代表短時刻特征。融合后的特征經(jīng)過時間注意力機制,時間注意力機制的計算過程如下:

        式(8)對融合后的特征V1做空間最大池化,提取全局空間特征V2;式(9)中的w1、w2、b1、b2分別是兩個卷積層可學(xué)習(xí)的參數(shù),兩個卷積的卷積核尺寸都為1×1;式(10)利用softmax函數(shù)將V3特征概率化獲取長短時刻特征的時間權(quán)重,然后與V1特征相乘得到時間注意力機制模塊的輸出,最后將學(xué)習(xí)到的不同時刻的動態(tài)特征融入到骨架特征中作為姿態(tài)融合模塊的輸出。

        2 實驗結(jié)果與分析

        2.1 實驗數(shù)據(jù)集及評估指標

        本文使用了NTU60 RGB+D[15]和NTU120 RGB+D[16]兩個3D骨架數(shù)據(jù)集以及Penn-Action[17]和HARPET(hockey action recognition pose estimation temporal)[18]兩個2D骨架數(shù)據(jù)集作為實驗對象。

        a)NTU60 RGB+D。該數(shù)據(jù)集是由新加坡南洋理工大學(xué)提供的公開數(shù)據(jù)集,采集了40個演員執(zhí)行的60種不同的動作,每一個演員有25個關(guān)節(jié)點,一共有56 880個視頻樣本。NTU60 RGB+D數(shù)據(jù)集建立了兩種標準,一種標準稱為CS(cross subject),是將40個演員中的20個演員的樣本作為訓(xùn)練集,剩下的作為測試集;另一種標準稱為CV(cross view),是將三個攝像機視角中的兩個視角的樣本作為訓(xùn)練集,另一個作為測試集。

        b)NTU120 RGB+D。該數(shù)據(jù)集是對NTU60 RGB+D數(shù)據(jù)集的擴充,在NTU60 RGB+D的基礎(chǔ)上增加了60種不同的動作和57 600個視頻,演員人數(shù)也擴充到了106人,視頻樣本總數(shù)達到了114 480個。NTU120 RGB+D數(shù)據(jù)集同樣也有兩個標準,其中一個標準稱為C-Sub(cross subject),是將106個演員中一半演員的樣本作為訓(xùn)練集,剩下的作為測試集:另一個標準稱為C-Set(cross setup),是將相機視角中為偶數(shù)的作為訓(xùn)練集,剩下的作為測試集。

        c)Penn-Action。該數(shù)據(jù)集是由賓夕法尼亞大學(xué)提供的基于運動背景的視頻動作分類數(shù)據(jù)集,包含了15種不同的動作類別和2 326個視頻樣本,每個人有13個關(guān)節(jié)點標簽。

        d)HARPET。該數(shù)據(jù)集是由美國滑鐵盧大學(xué)提供的一個基于冰球運動背景的公開數(shù)據(jù)集,包含四種不同的動作類別,每種類別包含100個圖片序列,每張圖片有18個關(guān)節(jié)點,其中包含了人身上的16個關(guān)節(jié)點標簽和曲棍球的頭尾2個關(guān)鍵點標簽。

        NTU60 RGB+D、Penn-Action和HARPET數(shù)據(jù)集中動作的可視化展示如圖5所示。圖中,(a)(b)源于NTU數(shù)據(jù)集;(c)(d)源于Penn_Action數(shù)據(jù)集;(e)(f)源于HARPET數(shù)據(jù)集。表1展示了四個數(shù)據(jù)集在實驗中的綜合數(shù)據(jù)。

        2.2 實驗說明

        實驗在Python 3.7上實現(xiàn),深度學(xué)習(xí)框架為PyTorch1.6,硬件平臺為 X10DAi:Intel Xeon E5-2678 v3 CPU,主頻為 2.50 GHz,內(nèi)存為 264.00 GB,GPU為GeForce RTX 3090(24G)。

        在Penn-Action、HARPET、NTU60 RGB+D和NTU120 RGB+D四個數(shù)據(jù)集一次訓(xùn)練所選取的批次數(shù)依次是32、16、32和32。采用的優(yōu)化器是Adam,權(quán)重系數(shù)為0.000 1,初始學(xué)習(xí)率為0.001,訓(xùn)練迭代次數(shù)為150,在迭代次數(shù)分別到達90、110和140次時學(xué)習(xí)率都會被下調(diào)到上一次迭代時的10%。訓(xùn)練時采用的損失函數(shù)為交叉熵損失函數(shù),準確率指標采用的是平均準確率(mean average precision,mAP)。

        2.3 姿態(tài)校正模塊效果可視化

        為了分析姿態(tài)校正模塊的有效性,圖6展示了其實驗效果,其中(a)(c)分別為NTU60 RGB+D數(shù)據(jù)集的CS標準在圖像增強前后的實驗效果對比;(b)(d)分別為NTU60 RGB+D數(shù)據(jù)集的CV標準在圖像增強前后的實驗效果對比。圖6(a)~(d)中左邊的圖代表輸入骨架圖,右邊的圖代表姿態(tài)校正模塊輸出。圖像增強是指對骨架圖在(-90°,90°)進行隨機的旋轉(zhuǎn)。從圖6可以看出,姿態(tài)校正模塊不僅對骨架圖進行了三維旋轉(zhuǎn),還能夠?qū)ψ藨B(tài)進行自適應(yīng)的調(diào)節(jié),有效提高了模型對姿態(tài)的表征能力。

        圖7展示了基于姿態(tài)校正模塊與基于旋轉(zhuǎn)矩陣的方法在NTU60 RGB+D的CS標準下的實驗對比?;谧藨B(tài)校正模塊的模型和基于旋轉(zhuǎn)矩陣的模型在CS標準下的平均準確率分別為89.7%和89.3%。姿態(tài)校正模塊在3D骨架圖上有9個自適應(yīng)姿態(tài)調(diào)整因子(在2D骨架圖上是4個自適應(yīng)調(diào)整因子);而基于旋轉(zhuǎn)矩陣的方法,只有用于搭建旋轉(zhuǎn)矩陣所需的3個自適應(yīng)調(diào)整因子。基于旋轉(zhuǎn)矩陣的方法,對動作的學(xué)習(xí)能力有限,并且只能對輸入骨架圖進行三維旋轉(zhuǎn),克服部分的干擾。

        2.4 消融實驗

        為了客觀地分析所提各個模塊的有效性,在NTU60 RGB+D和NTU120 RGB+D數(shù)據(jù)集上進行了消融實驗。不同的模塊單獨在骨干網(wǎng)絡(luò)SGN上的實驗效果如表2所示。其中骨干網(wǎng)絡(luò)SGN被設(shè)置為對照組(baseline);LP(limbs position)表示肢體信息流;PT(posture transformation)表示姿態(tài)校正模塊;PF(posture fusing)表示姿態(tài)融合模塊。

        由表2可以看出,在CV和C-Set中,姿態(tài)校正模塊發(fā)揮的性能要優(yōu)于肢體信息流,因為這兩個標準的訓(xùn)練集和測試集是基于不同的攝像機視角制作的,而姿態(tài)校正模塊能夠克服不同視角對行為識別的影響;在CS和C-Sub中,加入肢體信息流的效果要比姿態(tài)校正模塊的效果好,因為這兩個標準的訓(xùn)練集和測試集是根據(jù)不同的演員制作的,肢體信息流使模型在訓(xùn)練時能學(xué)習(xí)到不同演員的特征。而姿態(tài)融合模塊在幾乎所有的標準下都展現(xiàn)了優(yōu)越的性能,C-Sub因為演員的數(shù)量比CS標準下的更多,使得肢體信息流在這個標準下發(fā)揮了更大的作用。

        為了分析各個模塊對本文模型的影響,驗證了在移除不同模塊后模型的實驗效果,如表3所示。其中:PTF-SGN w/o PF表示移除姿態(tài)融合模塊后的網(wǎng)絡(luò);PTF-SGN w/o PT表示移除姿態(tài)矯正模塊后的網(wǎng)絡(luò);PTF-SGN w/o LP表示移除肢體信息流后的網(wǎng)絡(luò)。由表3可以看出,除了NTU120 RGB+D數(shù)據(jù)集的C-Sub標準外,對識別準確率影響程度最高的都是姿態(tài)融合模塊,其余標準都是在移除姿態(tài)融合模塊后,模型因為沒有獲取到長時刻和短時刻姿態(tài)的特征而導(dǎo)致識別準確率降低最多,其次是姿態(tài)校正模塊。這也說明肢體信息流對模型的作用,在演員數(shù)量越多的情況下,肢體信息流對模型表征能力的提升就會越大。圖8展示了NTU60 RGB+D數(shù)據(jù)集的兩組動作以及表3中四種方法的預(yù)測結(jié)果。圖8中,第一組動作為嘔吐,第二組動作為書寫;(a)~(d)分別代表PTF-SGN、PTF-SGN w/o PF、PTF-SGN w/o PT和PTF-SGN w/o LP。

        2.5 實驗效果與分析

        為了驗證算法的有效性,在NTU60 RGB+D、NTU120 RGB+D、Penn-Action和HARPET四個數(shù)據(jù)集上進行了實驗對比。在NTU60 RGB+D和NTU120 RGB+D數(shù)據(jù)集上與近幾年提出的方法模型的實驗對比分別如表4、5所示。其中,文獻[9]提出時空圖卷積對人體骨架進行建模;文獻[12]提出動作圖卷積和結(jié)構(gòu)圖卷積分別用于提取骨架的動作圖和結(jié)構(gòu)圖;文獻[19]將圖卷積與LSTM融合,提出AGC-LTSM模型;文獻[11]提出的VA-CNN模型對每個視頻樣本的視角進行調(diào)整,克服不同視角對行為識別的干擾;文獻[10]提出基于語義信息的圖卷積網(wǎng)絡(luò)模型,挖掘關(guān)節(jié)點的語義信息;文獻[13]提出局部圖卷積網(wǎng)絡(luò)提取骨架圖的局部特征;文獻[20]提出基于神經(jīng)架構(gòu)搜索的圖卷積,學(xué)習(xí)動態(tài)圖結(jié)構(gòu)對骨架建模;文獻[21]提出空間秩池化方法,提取姿態(tài)的時間特征;文獻[22]提出Logsig-RNN算法對流式數(shù)據(jù)進行學(xué)習(xí),提高了LSTM的性能;文獻[23]基于龐加萊幾何定義提出一種新的圖卷積結(jié)構(gòu),能夠?qū)W習(xí)動態(tài)圖結(jié)構(gòu);文獻[24]提出了多流圖卷積網(wǎng)絡(luò),獲取了更加豐富的關(guān)節(jié)點特征。

        根據(jù)表4和5的實驗結(jié)果分析可得,通過引入肢體特征、位移特征和長短時刻特征,使模型獲取到了豐富的時空信息,從而實現(xiàn)了更高的識別準確率。與文獻[11]相比,姿態(tài)校正模塊不僅克服了視角對識別的干擾,還對變形姿態(tài)進行了校正;與文獻[20,23]比較,本文沒有采用會帶來高昂計算成本的動態(tài)圖結(jié)構(gòu),并以較低的參數(shù)量實現(xiàn)了更優(yōu)越的識別性能。

        最后,為了驗證PTF-SGN在2D關(guān)節(jié)點數(shù)據(jù)領(lǐng)域的行為識別能力,在Penn-Action和HARPET兩個基于運動背景的2D骨架數(shù)據(jù)集上與近幾年提出的方法模型進行了實驗對比,如表6、7所示。其中,文獻[25]提出一種基于稀疏時間采樣策略的時間片段網(wǎng)絡(luò);文獻[26]提出一種結(jié)合了姿態(tài)估計和動作識別的網(wǎng)絡(luò)架構(gòu);文獻[27]提出了基于貝葉斯框架的HDM模型,增強了模型對視頻時空信息的表征能力;文獻[28]提出的STSAMANet模型,利用關(guān)鍵幀機制和顯著性注意力層消除了冗余的圖片幀以及圖片幀中的冗余背景;文獻[18]提出一種結(jié)合光流信息和關(guān)節(jié)點親和場的雙通道網(wǎng)絡(luò);文獻[29]在文獻[18]的基礎(chǔ)上引入了LSTM,實現(xiàn)了更高的準確率。本文方法的準確率高于上述方法,原因是本文方法對人體運動進行了有效的建模,并通過端到端的模塊更充分地提取了姿態(tài)之間的時空特征,實現(xiàn)了更高效的動作識別。

        3 結(jié)束語

        本文以SGN模型為骨干模型,對關(guān)節(jié)點特征提供了額外的肢體信息流,有效挖掘了數(shù)據(jù)的信息;針對外部干擾因素提出了姿態(tài)校正模塊,對送入網(wǎng)絡(luò)的姿態(tài)特征學(xué)習(xí)后進行調(diào)整,有效增強了模型的抗干擾能力;再利用時間注意力機制融合了長時刻與短時刻的姿態(tài)特征,有效提高了模型對不同時刻姿態(tài)信息的表征能力。在Penn-Action和HARPET兩個2D骨架數(shù)據(jù)集上識別準確率分別達到了94.9%和93.75%;在3D骨架數(shù)據(jù)集上,NTU60 RGB+D的CS和CV標準下識別準確率分別達到了89.7%和95.2%,在NTU120 RGB+D的C-Sub和C-Set標準下識別準確率分別達到了81.3%和83.5%。應(yīng)用場景下,關(guān)節(jié)點數(shù)據(jù)需要姿態(tài)估計模型提前處理或者通過姿態(tài)采集設(shè)備獲取,而動作識別的準確率依賴于關(guān)節(jié)點數(shù)據(jù)檢測的準確性,因此,需要一個高效且準確的姿態(tài)估計模型或者姿態(tài)采集設(shè)備進行數(shù)據(jù)預(yù)處理才能夠?qū)崿F(xiàn)準確的動作識別。下一步考慮將基于關(guān)節(jié)點數(shù)據(jù)分類的模型與姿態(tài)檢測模型結(jié)合起來,相互協(xié)作,真正地實現(xiàn)應(yīng)用價值。

        參考文獻:

        [1]鐘秋波,鄭彩明,樸松昊.時空域融合的骨架動作識別與交互研究[J].智能系統(tǒng)學(xué)報,2020,15(3):601-608.(Zhong Qiubo,Zheng Caiming,Piao Songhao.Research on skeleton-based action recognition with spatiotemporal fusion and human-robot interaction[J].CAAI Trans on Intelligent Systems,2020,15(3):601-608.)

        [2]何冰倩,魏維,張斌.基于深度學(xué)習(xí)的輕量型人體動作識別模型[J].計算機應(yīng)用研究,2020,37(8):2547-2551.(He Bingqian,Wei Wei,Zhang Bin.Lightweight human action recognition model based on deep learning[J].Application Research of Computers,2020,37(8):2547-2551.)

        [3]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.

        [4]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

        [5]Zhu Wentao,Lan Cuiliang,Xing Junliang,et al.Co-occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3697-3703.

        [6]Liu Jun,Shahroudy A,Xu Dong, et al.Skeleton-based action recognition using spatio-temporal LSTM network with trust gates[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,40(12):3007-3021.

        [7]Ke Qiuhong,Bennamoun M,An Senjian,et al.A new representation of skeleton sequences for 3D action recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:4570-4579.

        [8]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[C]//Proc of the 34th International Conference on Machine Learning.2017:1243-1252.

        [9]Yan Sijie,Xiong Yuanjun,Lin Dahua,et al.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.

        [10]Zhang Pengfei,Lan Cuiling,Zeng Wenjun,et al.Semantics-guided neural networks for efficient skeleton-based human action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1109-1118.

        [11]Zhang Pengfei,Lan Cuiling,Xing Junliang,et al.View adaptive neural networks for high performance skeleton-based human action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8):1963-1978.

        [12]Liu Hong,Tu Juanhui,Liu Mengyuan.Two-stream 3D convolutional neural network for skeleton-based action recognition[EB/OL].(2017-06-07).https://arxiv.org/ftp/arxiv/papers/1705/1705.08106.pdf.

        [13]Huang Linjiang,Huang Yan,Ouyang Wanli,et al.Part-level graph convolutional network for skeleton-based action recognition[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:11045-11052.

        [14]Jaderberg M,Simonyan K,Zisserman A,et al.Spatial transformer networks[C]//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2015:2017-2025.

        [15]Shahroudy A,Liu Jun,Ng T T,et al.NTU RGB+D:a large scale dataset for 3D human activity analysis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:1010-1019.

        [16]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D 120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2020,42(10):2684-2701.

        [17]Zhang Weiyu,Zhu Menglong,Derpanis K G,et al.From actemes to action:a strongly-supervised representation for detailed action understanding[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Computer Society,2013:2248-2255.

        [18]Cai Zixi,Neher H,Vats K,et al.Temporal hockey action recognition via pose and optical flows[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2543-2552.

        [19]Si Chenyang,Chen Wentao,Wang Wei,et al.An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-36.

        [20]Peng Wei,Hong Xiaopeng,Zhao Guoying,et al.Learning graph convolutional network for skeleton-based human action recognition by neural searching[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:2669-2676.

        [21]Liu Mengyuan,Yuan Junsong.Recognizing human actions as the evolution of pose estimation maps[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1159-1168.

        [22]Liao Shujian,Lyons T,Yang Weixin,et al.Learning stochastic diffe-rential equations using RNN with log signature features[EB/OL].(2019-09-22).https://arxiv.org/pdf/1908.08286.pdf.

        [23]Peng Wei,Shi Jingang,Xia Zhaoqiang, et al.Mix dimension in poincare geometry for 3D skeleton-based action recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press, 2020:1432-1440.

        [24]Song Yifan,Zhang Zhang,Shan Caifeng,et al.Richly activated graph convolutional network for robust skeleton-based action recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2021,31(5):1915-1925.

        [25]Wang Limin,Xiong Yuanjun,Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:20-36.

        [26]Iqbal U,Garbade M,Gall J.Pose for action-action for pose[C]//Proc of the 12th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2017:438-445.

        [27]Zhao Rui,Xu Wanru,Su Hui,et al.Bayesian hierarchical dynamic model for human action recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:7725-7734.

        [28]Jiang Min,Pan Na,Kong Jun.Spatial-temporal saliency action mask attention network for action recognition[J].Journal of Visual Communication and Image Representation,2020,71(8):102846.

        [29]Vats K,Neher H,Clausi D A,et al.Two-stream action recognition in ice hockey using player pose sequences and optical flows[C]//Proc of the 16th Conference on Computer and Robot Vision.Piscataway,NJ:IEEE Press,2019:181-188.

        亚洲国产美女在线观看| 中文字幕一区二区va| 亚洲综合久久中文字幕专区一区| 日日麻批免费高清视频| 99久久久人妻熟妇精品一区二区| 大学生粉嫩无套流白浆| 亚洲av无码一区二区乱孑伦as| 亚洲va中文字幕无码久久不卡| 产国语一级特黄aa大片| av免费在线观看在线观看| 不卡免费在线亚洲av| 国产成人久久精品一区二区三区| 国产精品51麻豆cm传媒| 青草热久精品视频在线观看| 亚洲一区二区三区精品网| 婷婷精品国产亚洲av| 亚洲中文字幕日韩综合| 免费看av在线网站网址| 久久久精品久久波多野结衣av| 啪啪视频一区二区三区入囗| 日产精品一区二区三区免费| 一区二区三区亚洲视频| 国产一精品一av一免费| 欧美成人三级一区二区在线观看| 亚洲午夜久久久久中文字幕久| 国产精品成人久久一区二区| 亚洲啪啪色婷婷一区二区| 成人麻豆日韩在无码视频| 久久久久亚洲av无码专区导航| 亚洲国产精品无码久久九九大片健| 久久99人妖视频国产| 亚洲av精品一区二区三区| 精品国精品国产自在久国产应用| 亚洲深夜福利| 婷婷久久亚洲中文字幕| 亚洲国产成人极品综合| 国产成人无码精品久久二区三区 | 无码中文字幕av免费放| 最新国产激情视频在线观看| 国产精品久久777777| 国产精品天天狠天天看|