亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于全局圖遍歷的ST-GCN人體行為識別算法

2022-07-14 06:37:06劉鎖蘭周岳靖王洪元

揚州大學學報(自然科學版) 2022年2期

劉鎖蘭, 周岳靖, 王洪元*, 張繼, 肖宇

(1. 常州大學計算機與人工智能學院, 江蘇常州 213164; 2. 常州工程職業(yè)技術學院設計與藝術學院, 江蘇常州 213164)

隨著虛擬現(xiàn)實、人工智能以及安防安保等技術在現(xiàn)實生活中的廣泛應用, 人體行為識別研究備受關注．目前主流的方法有基于深度圖像建模的深度長短時記憶網(wǎng)絡(deep long short term memory, Deep-LSTM)[1]、分層次雙向遞歸神經(jīng)網(wǎng)絡(hierarchically bidirectional recurrent neural network, HBRNN)[2], 以及基于骨架關節(jié)點建模的時間卷積網(wǎng)絡(temporal convolutional network, TCN)[3]、視圖適應長短時記憶網(wǎng)絡(view adaptive long short term memory, VA-LSTM)[4]、可微結構搜索方法(differentiable architecture search, DARTS)[5]等．基于骨架關節(jié)點建模的方法由于特征信息直觀清晰且運算便捷而成為研究熱點, 其中時空圖卷積網(wǎng)絡(spatio-temporal graph convolutional network, ST-GCN)[6]在基于骨架行為識別任務中引入空間卷積和時間卷積, 具有良好的魯棒性和新穎性, 引發(fā)了后續(xù)一系列研究．Li等[7]提出動態(tài)不確定性時空圖(dynamic graph convolution network, DGCN)方法, 在動態(tài)圖卷積網(wǎng)絡的基礎上引入拉普拉斯矩陣潛網(wǎng)絡(Laplace matrix latent network, LMLN)提取時空特征,自適應地構建動態(tài)圖矩陣,在小幅增加參數(shù)量的前提下提升了網(wǎng)絡性能, 但計算成本偏高; Xu等[8]采用多尺度骨架自適應加權方法優(yōu)化圖卷積,提升了識別精度,其每秒浮點運算(floating-point operations per second, FLOPs)高達1011次, 計算成本高于傳統(tǒng)GCN(FLOPs為4.0×109)．上述改進算法對于運動過程中非相鄰節(jié)點之間的相互影響關注度較少, 忽略了非相鄰節(jié)點間信息關聯(lián)對識別精度的影響,且所需計算成本高．Jeon等[9]針對傳統(tǒng)卷積網(wǎng)絡計算成本較高的問題, 在幾種經(jīng)典的卷積網(wǎng)絡模型上對卷積過程進行主動移位, 將移位量定義為一個含移位參數(shù)的可學習函數(shù), 通過反向傳播進行端到端的優(yōu)化并提供最優(yōu)的偏移值, 有效降低了計算成本和參數(shù)量．受文獻[9]啟發(fā), 本文擬基于動態(tài)規(guī)劃中Flody算法[10]思想提出一種新的全局圖遍歷自適應ST-GCN人體行為識別方法．

1 ST-GCN及其改進算法

1.1 ST-GCN算法

經(jīng)典的ST-GCN算法流程如圖1所示．首先, 采用OpenPose關節(jié)點提取方法[11]識別出輸入視頻樣本中的骨架關節(jié)點, 并根據(jù)關節(jié)點間的自然連接進行姿態(tài)估計,以骨架關節(jié)點拓撲圖的形式表示每個樣本中的人體;其次,構建關節(jié)點之間的分區(qū)策略: 1) uniform分區(qū)策略. 采取唯一劃分的方式將關節(jié)點與其鄰居節(jié)點劃分成同一個子集進行卷積; 2) distance分區(qū)策略. 基于關節(jié)點間的距離將關節(jié)點與其鄰居節(jié)點劃分成2個子集進行卷積; 3) spatial分區(qū)策略. 根據(jù)人體運動中關節(jié)點的離心運動和向心運動的區(qū)別將關節(jié)點劃分成1個子集, 再將距離人體重心點較近和較遠的鄰居節(jié)點分別劃分成1個子集進行卷積;最后,通過卷積生成更高級的特征圖,用于訓練標準的SoftMax分類器進行行為分類并得到結果．卷積過程主要分為空間卷積(2D卷積)和時間卷積(1D卷積)．空間卷積中,采用傳統(tǒng)的GCN模型, 在單幀圖片上根據(jù)3種關節(jié)點分區(qū)策略獲得不同的卷積核與感受野,將骨架關節(jié)點拓撲圖近似為二維網(wǎng)格點,選擇合適的步長進行卷積,以保持輸出特征圖與原拓撲圖的分辨率相同．時間卷積中,首先采用卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)模型對骨骼關節(jié)點對應的時序關系進行動態(tài)建模,將鄰居節(jié)點轉化成相鄰幀組成的鄰居圖,然后進行卷積. 由于時間序列是有序且穩(wěn)定的,空間鄰居圖的生成數(shù)目可直接通過修改包含連續(xù)幀的數(shù)目來決定．

圖1 ST-GCN算法流程示意圖Fig.1 Flowchart of the ST-GCN method

1.2 改進算法

現(xiàn)基于經(jīng)典ST-GCN算法進行改進, 采用如圖2所示的節(jié)點全局圖遍歷自適應方法建立節(jié)點間的關聯(lián), 同時引入位運算操作表達關聯(lián)強度以降低計算量．在單個關節(jié)點的圖卷積過程中,將所有關節(jié)點根據(jù)其位置劃分為根節(jié)點、鄰居節(jié)點和非相鄰節(jié)點等3組節(jié)點,并采用全局圖遍歷方法建立3組關節(jié)點間的關聯(lián)．卷積過程分為3個階段進行: 階段Ⅰ: 以根節(jié)點o為中心, 遍歷其鄰居節(jié)點a、b、c進行信息關聯(lián); 階段Ⅱ: 遍歷節(jié)點a、b、c的鄰居節(jié)點并與根節(jié)點o進行信息關聯(lián); 階段Ⅲ: 將根節(jié)點o與剩余空白節(jié)點(即非相鄰節(jié)點)進行信息關聯(lián)．相較于傳統(tǒng)GCN卷積過程中根節(jié)點僅與其鄰居節(jié)點進行信息關聯(lián), 本文改進方法能通過對節(jié)點全局信息的遍歷, 搜尋并建立關聯(lián)在行為過程中信息變化較大的節(jié)點, 提高對一些特定動作的識別率,如“擁抱”等雙上肢節(jié)點間聯(lián)系較明顯的動作．

圖2 全局圖遍歷示意圖Fig.2 Schematic diagram of global graph traversal

在空間卷積中, 設卷積算子大小為K×K, 輸入特征f的維度為c, 則o點經(jīng)過全局圖遍歷操作后的特征輸出值

(1)

其中h,w為卷積算子長和寬的遍歷, 抽樣函數(shù)p(·)為o點的相鄰組集合遍歷, 權重函數(shù)w(·)表示c維權重向量, 作用是計算該函數(shù)與輸入特征向量f的內(nèi)積．單個人體骨架模型經(jīng)傳統(tǒng)圖卷積后的輸出特征

(2)

(3)

(4)

其中Q表示c維可學習矩陣．當某一點的位運算操作值賦值為0時, 算法會舍棄該點的值, 有效降低了后續(xù)運算中的參數(shù)量和計算成本．此外, 筆者在建立含骨架關系的圖卷積網(wǎng)絡模型中僅使用了3個鄰接矩陣, 便于在不同通道中對骨架之間的關系進行建模, 有效減小了算法誤差．

在時間卷積中, 采用ST-GCN原始的時間卷積模型, 并設置時間圖卷積的卷積核大小為3×3．

2 實驗結果與分析

2.1 實驗環(huán)境

算法運行環(huán)境為Ubuntu16.04系統(tǒng), CPU為inter i7-6700k, 內(nèi)存為16 GB, GPU為NVIDIA GeForce GTX 1060-6 GB, PyTorch深度學習框架．

2.2 數(shù)據(jù)集選擇

1) NTU-RGB+D數(shù)據(jù)集[12]．NTU-RGB+D數(shù)據(jù)集包含56 880個骨骼動作序列, 所有動作樣本采集源于40名志愿者, 共60個類別．每個樣本包含1個動作, 并保證最多有2名志愿者采用3個Kinect v2攝像機從不同視角同時捕捉．該數(shù)據(jù)集包含2個基準測試: cross-subject(C-Sub)基準: 訓練數(shù)據(jù)來自20名受試者, 測試數(shù)據(jù)來自其他20名受試者; cross-view(C-View)基準: 訓練數(shù)據(jù)來自2個攝像機的拍攝視頻, 測試數(shù)據(jù)來自另一個攝像機的拍攝視頻．

2) Kinetics數(shù)據(jù)集[13]．Kinetics數(shù)據(jù)集中視頻樣本均截取自YouTube, 約400個行為類別, 300 000段剪輯視頻,包含了人與物的互動(如彈奏樂器)以及人與人的互動(如握手)等, 每段視頻時長約10 s．

2.3 實驗過程及結果分析

針對ST-GCN模型中3種分區(qū)策略, 分別采用原始ST-GCN方法與所提全局圖遍歷方法在Kinetics數(shù)據(jù)集和NTU-RGB+D數(shù)據(jù)集上進行對比實驗．設置NTU-RGB+D數(shù)據(jù)集的batchsize為32, Kinetics數(shù)據(jù)集的batchsize為64．以Top-n為評價指標, 檢驗模型輸出預測標簽最靠前的n類中與人工標注標簽相符的準確率．例如, 人工標注標簽為L1, 模型輸出預測結果為L1,L2,L3,L4,L5, 則Top-1,Top-5的準確率都為100%, 模型輸出預測結果為L2,L3,L4,L5,L1, 則Top-1的準確率為0, Top-5的準確率為100%．

在NTU-RGB+D數(shù)據(jù)集C-Sub基準上進行uniform關節(jié)點分區(qū)策略實驗, 優(yōu)化選擇模型學習率．情形1: 固定學習率為0.1,0.05,0.01,0.005,0.001,0.000 5,0.000 1,對應的Top-1識別精度分別為43.16%,55.38%,67.85%,78.35%,74.37%,68.91%,53.89%, 故固定學習率情況下的最優(yōu)學習率為0.005．情形2: 模型訓練中自動調(diào)節(jié)學習率: i) 第1～9輪次為0.1, 第10～29輪次為0.01, 第30～49輪次為0.001, 第50～69輪次為0.000 1, 第70～80輪次為0.000 01, 最終Top-1識別精度為79.28%; ii) 第1～19輪次為0.1,第20～39輪次為0.01,第40～59輪次為0.001, 第60～80輪次為0.000 1, 最終Top-1識別精度為81.51%．由此可見, 調(diào)節(jié)學習率方案下的識別精度高于固定學習率下的最優(yōu)識別精度．故本文模型學習率的設置選擇情形2中方案ii)．

圖3～5分別為在NTU-RGB+D(C-View、C-Sub)和Kinetics數(shù)據(jù)集上ST-GCN和本文算法的識別精度．由圖3～5可知: 1) NTU-RGB+D(C-View)數(shù)據(jù)集上, 由于全局圖遍歷模型加強了非相鄰節(jié)點間的聯(lián)系與信息關聯(lián), 優(yōu)化了模型訓練過程, 故本文算法在uniform、distance、spatial分區(qū)策略下的識別精度高于ST-GCN; 2) NTU-RGB+D(C-Sub)數(shù)據(jù)集上,隨著迭代的進行模型趨于穩(wěn)定, 本文算法的識別精度整體高于ST-GCN．雖然迭代過程中本文算法存在個別精度略低的情況,主要原因在于不同行為主體對同一動作演示的差異較大導致節(jié)點關聯(lián)強度不足,特征提取過程中對圖卷積的響應較弱,但是隨著迭代輪次的增加及其自適應關聯(lián)學習能力的進一步提升,本文算法的識別率逐漸增大; 3) Kinetics數(shù)據(jù)集上,本文算法與ST-GCN算法的Top-1精度相近, 本文算法的識別精度提升不明顯,主要原因在于Kinetics數(shù)據(jù)集中樣本大都由手持攝像機采集,設備的穩(wěn)定性較差,導致身體相對位置與關節(jié)點間的關聯(lián)變化復雜,故2種算法的識別率均較低．

圖3 NTU-RGB+D(C-View)數(shù)據(jù)集上ST-GCN與本文算法的Top-1精度Fig.3 ST-GCN and the Top-1 accuracy of the algorithm in this paper on the NTU-RGB+D(C-Viwe) dataset

圖4 在NTU-RGB+D(C-Sub)數(shù)據(jù)集上ST-GCN與本文算法的Top-1精度Fig.4 ST-GCN and the Top-1 accuracy of the algorithm in this paper on the NTU-RGB+D(C-Sub) dataset

圖5 在Kinetics數(shù)據(jù)集上ST-GCN與本文算法的Top-1精度Fig.5 ST-GCN and the Top-1 accuracy of the algorithm in this paper on the Kinetic dataset

由于uniform分區(qū)策略下不同動作對訓練過程中圖卷積的影響較小, 故本文對比實驗均在uniform分區(qū)策略下進行．表1為NTU-RGB+D(C-View、C-Sub)數(shù)據(jù)集上Deep-LSTM[1]、HBRNN[2]、TCN[3]、VA-LSTM[4]和本文方法在uniform分區(qū)策略下的識別精度．由表1可見: 本文方法在C-View和C-Sub下的識別精度最高,這是由于本文方法注重非相鄰關節(jié)點之間的信息關聯(lián), 增強了模型對一些特定動作的識別率; 同一方法在C-View下的識別精度略高于C-Sub下的, 其原因是C-View以固定視角記錄的行為差異較小, 而C-Sub中不同行為主體完成相同動作時在不同視角下存在的差異較大導致識別誤差大．

表1 NTU-RGB+D數(shù)據(jù)集上uniform分區(qū)策略下的Top-1精度

表2為Kinetics數(shù)據(jù)集上Deep-LSTM[1]、TCN[3]、DARTS[5]和本文方法在uniform分區(qū)策略下的識別精度．由表2可見, 本文算法的識別精度雖高于其他算法的, 但受Kinetics數(shù)據(jù)集自身的限制,整體識別率都偏低．

表2 Kinetics數(shù)據(jù)集上uniform分區(qū)策略下的Top-1和Top-5精度

為了檢驗本文算法的計算成本, 在NTU-RGB+D(C-View)數(shù)據(jù)集上利用uniform關節(jié)點分區(qū)策略進行實驗, 得到原始ST-GCN、改進的Adaptive Non-Local GCN[14]和本文算法的每秒浮點運算次數(shù)分別為4.0×109、5.7×109、1.1×109．由此可見,本文算法的計算成本大幅降低,其主要原因在于采用位運算操作表達節(jié)點關聯(lián)強度,并進一步通過對位運算操作值的判別舍棄部分節(jié)點,從而降低了參數(shù)量．

3 結語

本文在ST-GCN模型基礎上通過采用位運算操作表達節(jié)點的重要程度,提出了一種全局信息遍歷自適應方法．該方法注重關節(jié)點運動對其他節(jié)點尤其是非相鄰節(jié)點的影響,增強了特征的有效性．對空間圖卷積中的特征圖采用全局圖遍歷進行空間特征提取,通過時間卷積進行時間特征提取,再進行更深層次的特征融合,并采用SoftMax分類器進行分類識別．在模型訓練過程中采用自動調(diào)節(jié)的方法設置學習率．相較于已有的一些熱點算法,本文方法在具有挑戰(zhàn)性的人體行為大型數(shù)據(jù)集NTU-RGB+D和Kinetics上的識別精度均有一定程度的提升, 且參數(shù)量和模型的計算成本偏低．