亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應多尺度圖卷積網絡的骨架動作識別

        2023-10-17 05:50:16劉寬奚小冰周明東
        計算機工程 2023年10期
        關鍵詞:關節(jié)點骨架尺度

        劉寬,奚小冰,周明東

        (1.上海交通大學 機械與動力工程學院 上海市復雜薄板結構數字化制造重點實驗室,上海 200240;2.上海交通大學醫(yī)學院附屬瑞金醫(yī)院,上海 200240)

        0 概述

        人體動作識別廣泛應用于人機交互、運動輔助、行為檢測等領域?,F(xiàn)有研究對表示人體動作的各類數據模態(tài)進行了探索,如RGB 圖像、深度圖像、光流、人體骨架等。在這些數據模態(tài)中,人體骨架數據只包含骨架關節(jié)點的二維或三維空間坐標,高度抽象的動作表達對動態(tài)環(huán)境和復雜背景具有更強的魯棒性[1]。同時,由于運動傳感器、3D 深度相機和人體姿態(tài)估計算法的不斷發(fā)展,基于骨架數據的動作識別方法吸引了愈來愈多的學者進行研究[2-6]。

        早期的人體骨架動作識別方法多采用手工設計特征方法捕捉骨架關節(jié)點之間的相對位置關系[7-9],該方法主要依賴關節(jié)點之間的相對平移和旋轉提取骨架序列的時空特征,設計復雜的特征提取器限制模型性能[10]。近年來,由于深度學習算法的不斷發(fā)展,基于深度學習的動作識別方法受到廣泛關注?;谏疃葘W習方法的人體骨架動作識別方法主要分為3 類:基于循環(huán)神經網絡的骨架數據動作識別方法[11-17]、基于卷積神經網絡(Convolutional Neural Network,CNN)的骨架數據動作識別方法[18-22]以及基于圖神經網絡(Graph Convolution Network,GCN)的骨架數據動作識別方法[23-34]。基于循環(huán)神經網絡的骨架數據動作識別方法將骨架序列逐幀編碼為向量后輸入到循環(huán)神經網絡單元或長短期記憶網絡單元中,學習序列間的時空特征以進行動作識別。基于卷積神經網絡的骨架數據動作識別方法首先將骨架數據預處理轉化為偽圖像,然后采用卷積神經網絡對偽圖像進行多尺度的特征提取和分類。但是,上述兩類動作識別方法將骨架數據轉化為向量或偽圖像的建模方式忽略了人體骨架的自然拓撲結構,識別效果有限?;趫D神經網絡的骨架數據動作識別方法的圖神經網絡將人體骨架的拓撲結構定義為鄰接矩陣,使用圖結構對骨架序列進行建模以提取人體的時空運動特征。YAN等[23]將圖卷積網絡(STGCN)應用于基于人體骨架數據的動作識別任務中,將自然人體骨架的拓撲結構和時空域中的時間運動依賴性定義為稀疏連接的時空無向圖,模型分別使用空間圖卷積算子和時間圖卷積算子學習骨架序列的空間運動特征和時間運動特征。SHI等[24-25]改進圖卷積網絡,提出自適應注意力模塊學習骨架的拓撲結構圖,并將骨架關節(jié)點和骨架長度一同作為模型的輸入,提升了圖卷積網絡在動作識別任務中的分類性能。SHI等[26]基于自然人體中關節(jié)和骨架之間的運動依賴關系,將骨架數據表示為有向無環(huán)圖并設計了一種有向圖神經網絡,提取骨架序列運動的特征信息。LIU等[27]提出一種時間和空間分離的多尺度圖卷積算子和時間和空間統(tǒng)一的時空圖卷積算子,通過多尺度聚合方法實現(xiàn)有效的動作特征提取。DING等[28]提出語義引導圖卷積網絡,使用拓撲結構圖提取模塊、動作圖推理模塊和注意圖迭代模塊聚合特征信息并捕獲動作的潛在依賴關系。孫琪翔等[29]設計基于圖卷積網絡的非局部網絡模塊,有效獲取全局特征信息,從而提高網絡識別準確率。CHEN等[30]提出通道拓撲細化圖卷積模塊(CTR-GC)以學習骨架拓撲結構并聚合不同通道的骨架關節(jié)點特征,實現(xiàn)基于骨架的動作識別。王小娟等[31]基于空間注意力機制和通道注意力機制,對骨架數據的動作特征進行多粒度卷積和動態(tài)融合。ZHANG等[32]提出SATD-GCN網絡,基于空間自注意力模塊和時間擴展圖卷積模塊,有效減輕了數據冗余問題并增強模型魯棒性。TU等[33]采用骨架關節(jié)點與骨架長度融合的關系驅動圖卷積網絡作為特征提取器并采用姿勢預測模塊實現(xiàn)半監(jiān)督學習。BIAN等[34]提出人物關系圖卷積模塊,以自監(jiān)督的方式學習群體活動識別的骨架動作特征。

        上述圖卷積網絡大多使用預定義的固定拓撲圖表達人體不同部位之間的連接關系,但是人體在執(zhí)行不同動作時,各個部位之間具有不同的關系,比如“脫鞋”動作需要手和腳相互配合才能完成,而上述使用預定義拓撲圖的圖卷積網絡很難捕捉兩者之間的關系,因為預定義的拓撲圖中手與腳并不存在直接的連接關系。此外,固定的拓撲圖無法根據動作調節(jié)人體各部位之間連接關系的強弱,例如“脫帽”動作手和頭之間應該具有更強的關系,而“踢球”動作則應弱化兩者之間的連接關系。上述方法在研究骨架數據的時間維度建模時多采用固定尺寸的單支路時間圖卷積算子,但由于各類動作的持續(xù)時間、重復次數不同,例如“鼓掌”是重復動作,每次“鼓掌”只持續(xù)很短的時間,而“脫鞋”是持續(xù)時間很長的單次動作,因此固定尺寸的單支路時間圖卷積算子難以捕捉具有不同時空粒度的動作特征。

        為了解決上述問題,本文提出基于自適應多尺度圖卷積網絡的人體骨架動作識別方法,自適應多尺度圖卷積網絡包括自適應空間圖卷積層和多尺度時間圖卷積層。自適應空間圖卷積層基于自注意力機制,以數據驅動的方式動態(tài)構建骨架的拓撲結構,根據動作輸入網絡自行調節(jié)人體各部位的連接關系。多尺度時間圖卷積層對單支路時間圖卷積核進行多支路擴展,從而捕獲動作的多粒度時空特征,使得模型具有多尺度的時空感受野。將骨架關節(jié)點、骨架長度、骨架關節(jié)點運動、骨架長度運動四路信息作為模型輸入,并在NTU RGB+D 60 動作識別數據集和NTU RGB+D 120 動作識別數據集上開展實驗驗證所提方法的有效性。

        1 圖卷積網絡

        1.1 人體骨架序列

        人體骨架序列由每幀中每個人體骨架關節(jié)點的二維或三維坐標表示。在具有N個關節(jié)點和T幀的骨架序列上構造無向時空圖G=(V,E),其中V={vti|t=1,2,…,N}表示骨架序列中的所有骨架關節(jié)點,vti代表第t幀的第i個骨架點。根據骨架結構的自然具有的連接特性,建立同一幀內各個骨架點之間的連接關系。骨架邊集E由連接同一幀內人體各個骨架點的骨架邊集ES={vtivtj|(i,j) ∈H}和連接前后兩幀之間相同骨骼點的骨架邊集EF={vtiv(t+1)i}的兩個子集組成,H表示人體骨架點集。

        1.2 空間圖卷積

        圖卷積網絡是針對具有圖結構數據設計的基于神經網絡的特征提取算法,被廣泛應用于有圖性質的推薦系統(tǒng)、社交網絡、交通預測等任務中[35-37]。圖卷積網絡通過式(1)計算:

        空間圖卷積算子對骨架序列的第τ幀進行圖卷積操作,如圖1 黑色框線所示,該幀包含有N個骨架點的骨架點集Vτ和連接該幀內各個骨架點的骨架邊集ES(τ)={vtivtj|τ=t,(i,j) ∈H},空間圖卷積算子表達式為:

        圖1 空間圖卷積算子和時間圖卷積算子Fig.1 Spatial graph convolution operator and temporal graph convolution operator

        其中:fin表示維度為Cin×T×N的輸入骨架序列;fout表示維度Cout×T×N的輸出骨架序列;?為卷積操作;WS表示維度為Cin×Cout×1×1 的空間圖卷積核;A是維度N×N的鄰接矩陣,表達式如式(3)所示:

        式(2)中的Λ為防止圖卷積網絡在反向傳播時出現(xiàn)梯度消失或梯度爆炸問題的度矩陣,表達式為:

        1.3 時間圖卷積

        時間圖卷積算子對骨架序列的第ι個骨架點進行圖卷積操作,如圖1 淺色框線所示,包含T幀中所有該骨架點組成的點集Vι和前后連接該骨架點的骨架邊集EF={vtiv(t+1)i|i=ι}。時間圖卷積算子和空間圖卷積算子類似,時間圖卷積算子表達式為:

        其中:WF表示維度為Cin×Cout×T×1 的時間圖卷積核,是時間圖卷積核的訓練參數。

        2 自適應多尺度圖卷積網絡

        2.1 自適應空間圖卷積層A-GCN

        本文基于自注意力機制[24-25,38]提出自適應空間圖卷積層(A-GCN),根據骨架序列輸入樣本對骨架拓撲結構進行數據驅動的自適應優(yōu)化,將骨架的拓撲結構作為參數與空間圖卷積內核一起作為參數進行學習,流程如圖2 所示。

        圖2 自適應空間圖卷積層的流程Fig.2 Procedure of adaptive spatial graph convolution network

        首先,按每τ幀長度將輸入骨架序列fin劃分為T/τ個不重疊的維度為N×τ×Cin的時空窗口,自適應空間圖卷積層分別在每個時空窗口內計算τ幀內所有骨架關節(jié)點之間的連接關系。

        維度為Cin×Cin/r×1×1 的空間圖卷積核WQ、WK、WV將窗口劃分后的輸入fin分別投射為Q、K、V3 個特征矩陣,提取骨架動作特征的同時將骨架序列的通道維度降維為Cin/r以提升計算效率。

        在骨架序列的每個時空窗口內分別將Q、KT矩陣相乘,得到維度為T/τ×N×τ×N×τ的自適應骨架拓撲結構鄰接矩陣AATTN,將自適應骨架拓撲矩陣AATTN與歸一化后的預定義骨架拓撲鄰接矩陣相加后使用Tanh 激活函數將矩陣元素歸一化到(-1,1)之間,得到最終的骨架拓撲結構矩陣Bk,矩陣元素Bk[i,j]代表第i個骨架點和第j個骨架點之間連接關系的強弱,Ak定義如圖3 所示。每個骨架樣本在不同時空窗口內其拓撲結構都是唯一的、由輸入樣本生成的自適應拓撲結構矩陣,數據驅動的骨架拓撲動態(tài)調整人體各部位的連接關系。AATTN、Bk、Tanh 函數的表達式分別如下所示:

        圖3 k 階鄰接矩陣Fig.3 k-hop adjacency matrix

        基于多頭注意力機制[38],對骨架序列輸入重復r次上述操作。多頭注意力網絡能夠感知并提取骨架不同鄰域范圍的空間信息,加強了人體各關節(jié)點之間的聯(lián)系。

        骨架拓撲結構矩陣Bk與特征矩陣V相乘并經過維度為Cin/r×Cout×1×1 的空間圖卷積核W,將骨架序列的通道維度升維為Cout,最后合并r層骨架動作特征并加入殘差連接[39],窗口還原后得到自適應空間圖卷積層輸出fout。

        2.2 多尺度時間圖卷積層MS-TCN

        自適應空間圖卷積層的各個時空窗口之間相對閉合,信息無法進行有效交互,因此需要對骨架序列的時間維度進行特征建模。本文采用多尺度時間圖卷積層(MS-TCN)將單支路時間圖卷積核進行多支路擴展[27],以捕獲人體動作特征不同粒度的時空模式。多尺度時間圖卷積層的算法流程如圖4 所示。

        圖4 多尺度時間圖卷積層的算法流程Fig.4 Algorithm procedure of multi-scale temporal graph convolution network

        多尺度時間圖卷積層采用瓶頸設計對骨架數據的時間維度進行建模,在6 條支路分別使用維度為Cin×Cin/6×1×1 的時間圖卷積核將骨架序列的通道維度降維為Cin/6 以提升計算效率。其中4 條支路分別使用膨脹率為1、2、3、4 的維度為Cin×Cout×3×1 的時間圖卷積核,分別以3 幀、6 幀、9 幀、12 幀的采樣率對骨架序列進行多種時間粒度的特征提取。為進一步擴張模型的時空感受野,加入維度為Cin×Cin/6×1×1 時間圖卷積支路和最大池化支路。最后在通道維度上對6 條支路的輸出進行拼接將骨架序列的通道維度升維為Cout,并在輸入和輸出之間加入殘差連接[39]得到多尺度時間圖卷積層的最終輸出。

        2.3 時空圖卷積網絡總體架構

        時空圖卷積網絡模型的整體架構如圖5 所示。

        圖5 時空圖卷積網絡模型的整體架構Fig.5 Overall architecture of spatiotemporal graph convolutional network model

        模型輸入數據維度為T×N×3 的骨架序列,線性投影層將骨架序列的通道維度升維為C并將幀數T減半,使用6 層串聯(lián)連接的自適應空間圖卷積層(A-GCN)和多尺度時間圖卷積層(MS-TCN)提取骨架時空特征,在第2 層尾部和第4 層尾部對骨架特征的時間維度進行下采樣,通道數C翻倍的同時幀數T減半。

        原始骨架序列通過6 層A-GCN+MS-TCN 模塊建立維度為T/8×N×8C的多層次骨架動作特征表示,采用Softmax 函數對經過平均池化層和分類頭的骨架特征進行動作預測,最終模型輸出維度為S×1的向量,該向量即代表模型最終得出S類動作的概率分布。

        3 實驗結果與分析

        3.1 數據集

        本文使用NTU RGB+D 60 數據集和NTU RGB+D 120 數據集。

        NTU RGB+D 60 數據集[11]是使用3 臺動作捕捉相機拍攝的動作識別任務的數據集,包含由40 名10~35 歲志愿者完成的共60 類動作以及56 880 個數據樣本。每個骨架樣本數據的維度為T×N×3,其中T表示該骨架序列的總幀數,N表示每幀中的總骨架關節(jié)點數,3 表示每個骨架關節(jié)點都有(x,y,z)3 個坐標值。NTU RGB+D 60 數據集使用人物劃分(Cross-Subject,CS)和視角劃 分(Cross-View,CV)兩種模式劃分訓練集和測試集,其中CS 劃分模式按照志愿者劃分訓練集和測試集,訓練集包含40 320 個樣本,測試 集包含16 560 個樣本;CV 劃分模式按照相機劃分訓練集和測試集,將相機2 和相機3 采集的37 920 個樣本作為訓練集,相機1 采集的19 960 個樣本作為測試集。

        NTU RGB+D 120 數據集[40]是對NTU RGB+D 60數據集的擴展數據集,另外增加包含60 類新動作的57 367 個數據樣本,數據集共包含120 類動作以及113 945 個數據樣本。NTU RGB+D 120 數據集使用CS 和設置劃分(Cross-Setup,CT)兩種模式劃分訓練集和測試集,其中CS 劃分模式按照志愿者劃分訓練集和測試集,訓練集包含63 026 個樣本,測試集包含50 919 個樣本;CT 劃分模式按照相機設置方案劃分訓練集和測試集,訓練集包含54 468 個樣本,測試集包含49 477 個樣本。

        3.2 數據預處理

        為將數據樣本的各維度坐標歸一化到同一區(qū)間,并消除特征間的相關性以便于模型學習,使用如下步驟對原始骨架序列進行預處理[27]:

        1)將骨架序列的第1幀坐標值線性投影到[-1,1]的區(qū)間內,其余幀采取相同線性變換與第1 幀進行對齊;

        2)對骨架序列進行三維坐標旋轉,使骨架的左右肩線平行于x軸,脊柱平行于z軸;通過重新放映骨架動作,將所有的骨架序列幀數統(tǒng)一填充為288幀。預處理前后的骨架序列樣本對比如圖6 所示。

        圖6 原始骨架序列和預處理后骨架序列對比Fig.6 Comparison between original skeleton sample and preprocessed skeleton sample

        3.3 網絡設置與實驗數據預處理

        使用Python 語言PyTorch 深度學習框架建立網絡,NTU RGB+D 數據集預處理方式如第3.2 節(jié)所述,整體網絡模型如第2.3 節(jié)所述。通過大量實驗最終確定使用6 層A-GCN+MS-TCN 搭建自適應多尺度時空圖卷積網絡模型,每層的通道數C分別定義為96、96、192、192、384、384;注意力頭數量r定義為4;時空窗口長度τ定義為1。訓練批數據大小為32,優(yōu)化算法使用帶動量的隨機梯度下降算法,動量設置為0.9。初始學習率為0.05,模型共訓練100輪,在訓練到35 輪和70 輪時學習率乘1/10。損失函數使用交叉熵函數,權重衰減參數設置為0.000 4。為防止模型出現(xiàn)過擬合,在每個模塊的殘差連接部分加入drop path層,drop path 層隨機丟棄概率設置為0.2。使用標簽平滑方法加速訓練同時防止網絡過擬合,標簽平滑參數設置為0.1。

        為驗證本文所提的自適應空間圖卷積層和多尺度時間圖卷積層的有效性,在NTU RGB+D 60 數據集CV 劃分模式下進行消融實驗,網絡僅輸入骨架關節(jié)點坐標,不使用數據增強。實驗結果如表1 所示,采用自適應的空間圖卷積層A-GCN 和固定尺寸的單支路時間圖卷積層TCN,相比于ST-GCN 基線模型,模型的識別準確率提升了5.1 個百分點;同時采用自適應的空間圖卷積層A-GCN 和多尺度時間圖卷積層MS-TCN 時模型識別準確率進一步提升至95.6%。

        表1 NTU RGB+D 60 數據集下的消融實驗結果Table 1 Ablation experiment results under the NTU RGB+D 60 data set %

        圖7 為預定義的骨架拓撲圖和自適應的骨架拓撲圖實例對比,矩陣中元素的灰度表示兩骨架關節(jié)點之間連接關系的強弱。圖7(a)是預定義的骨架拓撲圖,圖7(b)是A-GCN+MS-TCN 模型在NTU RGB+D 60 數據集的CV 劃分模式下學習到的骨架拓撲圖實例。自適應的空間圖卷積算子能夠根據輸入動作自適應調整骨架關節(jié)點之間聯(lián)系的強弱,顯著增強模型的表達能力,有效提升模型的分類性能。

        圖7 預定義骨架拓撲圖和自適應骨架拓撲圖對比Fig.7 Comparison between predefined skeleton topology graph and adaptive skeleton topology graph

        為提高算法模型的動作識別準確率,將骨架關節(jié)點、骨架長度、以及骨架關節(jié)點運動和骨架長度運動共4 路信息輸入模型,在NTU RGB+D 60 數據集CV劃分模式下進行消融實驗,結果如表2 所示,由表2 可知,當僅使用骨架關節(jié)點作為模型輸入時,模型的top-1 準確率為95.6%,將骨架長度和骨架關節(jié)點兩路信息一同輸入模型后準確率提高至96.5%,將骨架關節(jié)點、長度、關節(jié)點運動和長度運動完整4 路信息輸入時模型準確率進一步提升至96.8%,與僅輸入骨架關節(jié)點相比,網絡的識別準確率提高了1.2個百分點。

        表2 多流融合的NTU RGB+D 60 數據集下的消融實驗結果Table 2 Ablation experiment results of multi stream fusion on the NTU RGB+D 60 data set %

        將本文所提的A-GCN+MS-TCN 完整模型與在NTU RGB+D 60 數據集和NTU RGB+D 120 數據集上識別效果較好的其他模型進行對比,如表3、表4所示,表中加粗數字表示該組數據最大值。由表3可知,A-GCN+MS-TCN 模型在NTU RGB+D 60 數據集的CS、CV 劃分模式下分別取得90.5%和96.8%的動作識別準確率,相比于ST-GCN 基線模型,在CS、CV 劃分模式下的識別準確率分別提升了9.0、8.5 個百分點。由 表4可知,A-GCN+MS-TCN模型在NTU RGB+D 120 數據集的CS、CT 劃分模式下分別取得86.0%和88.7%的動作識別準確率。

        表3 不同模型在NTU RGB+D 60 數據集下的結果對比Table 3 Results comparison of different models under the NTU RGB+D 60 data set %

        表4 不同模型在NTU RGB+D 120數據集下的結果對比Table 4 Results comparison of different models under the NTU RGB+D 120 data set %

        以上結果表明,自適應多尺度圖卷積網絡能夠根據輸入動作動態(tài)調節(jié)骨架關節(jié)點間的連接關系提取骨架動作的多粒度的時空特征,具有良好的泛化性能和表達能力,提升了圖卷積網絡的識別性能。

        4 結束語

        本文提出基于自適應多尺度圖卷積網絡的人體骨架動作識別方法。針對預定義骨架拓撲圖連接關系固定導致模型泛化能力不足的問題,提出自適應空間圖卷積層對骨架拓撲結構進行自適應調整,使用數據驅動的骨架拓撲圖提升模型的泛化能力。針對單支路圖卷積核提取特征導致模型表達能力不足的問題,提出多尺度時間圖卷積層對時間圖卷積算子進行多支路擴展,采用動態(tài)融合的骨架序列的時空特征提升模型的表達能力。在NTU RGB+D 60 和NTU RGB+D 120 動作識別數據集上驗證本文模型的有效性,實驗結果表明本文模型相比現(xiàn)有圖卷積網絡動作識別模型顯著提升了分類準確率,具有良好的泛化性和魯棒性。但本文模型僅針對人體骨架進行動作識別,由于忽略了環(huán)境、場景等輔助信息,導致模型對某些特定動作的識別能力較差,因此下一步將對多模態(tài)數據融合的動作識別模型進行研究,以提升模型的動作識別準確率。

        猜你喜歡
        關節(jié)點骨架尺度
        淺談管狀骨架噴涂方法
        基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應用
        關節(jié)點連接歷史圖與卷積神經網絡結合的雙人交互動作識別
        財產的五大尺度和五重應對
        骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
        搞好新形勢下軍營美術活動需把握的關節(jié)點
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        內支撐骨架封抽技術在突出煤層瓦斯抽采中的應用
        中國煤層氣(2014年3期)2014-08-07 03:07:45
        鐵骨架配合物凝膠的合成、表征及催化性能
        大量老肥熟女老女人自拍| 无码国产色欲xxxxx视频| 中文亚洲日韩欧美| 日韩极品视频在线观看免费| 亚洲av成人一区二区| 亚洲av无码国产精品草莓在线| 亚洲不卡中文字幕无码| 九九久久精品大片| 极品粉嫩嫩模大尺度视频在线播放 | WWW拍拍拍| 国产丝袜美腿在线视频| 潮喷失禁大喷水aⅴ无码| 8888四色奇米在线观看| 北岛玲精品一区二区三区| 按摩师玩弄少妇到高潮av| 国产丶欧美丶日本不卡视频| 国产乱子伦露脸在线| 日本国主产一区二区三区在线观看| 视频在线观看免费一区二区| 国产精品无码久久久久成人影院| 亚洲免费不卡| 一本之道加勒比在线观看| 日韩精品 在线 国产 丝袜| 国产精品免费大片| 三级全黄的视频在线观看| 亚洲女同系列在线观看| 色视频综合无码一区二区三区| 亚洲色欲在线播放一区| 在线看不卡的国产视频| 老女老肥熟女一区二区| 无码国产午夜福利片在线观看 | 国产亚洲精品97在线视频一| 久久人妻内射无码一区三区| 亚洲AV无码一区二区三区性色学| 久久久黄色大片免费看| 久久精品女人天堂av免费观看| 国产av影片麻豆精品传媒| 午夜视频福利一区二区三区| 国产亚洲一区二区三区| 日日噜噜噜夜夜爽爽狠狠视频| 久久亚洲成a人片|