亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新分區(qū)策略的ST-GCN人體動作識別

        2024-01-13 02:06:14楊世強王金華李德信
        計算機集成制造系統(tǒng) 2023年12期
        關(guān)鍵詞:動作策略模型

        楊世強,李 卓,王金華,賀 朵,李 琦,李德信

        (西安理工大學(xué) 機械與精密儀器工程學(xué)院,陜西 西安 710048)

        0 引言

        視頻序列動作識別是計算機視覺領(lǐng)域中一個重要研究內(nèi)容,也是機器視覺、模式識別和人工智能等多個學(xué)科領(lǐng)域的交叉研究課題,在視頻監(jiān)控、人機交互、智能機器人、虛擬現(xiàn)實等領(lǐng)域中被廣泛應(yīng)用[1]。

        基于視頻流的人體行為識別包括基于圖像序列[2]、基于深度圖像序列[3]、基于雙流融合(如RGB+光流)[4]和基于人體骨架序列[5]等多種方法。其中,人體骨架數(shù)據(jù)是人體關(guān)節(jié)和骨骼結(jié)構(gòu)的一種拓撲表示方式,在面對復(fù)雜背景,以及人體尺度、視角和運動速度等變化時具有先天優(yōu)勢。相比其他數(shù)據(jù)模式具有更小的運算消耗,隨著深度傳感器和人體姿態(tài)估計技術(shù)的不斷發(fā)展,可以獲得準確的人體骨架結(jié)構(gòu)數(shù)據(jù)。

        傳統(tǒng)的基于骨架結(jié)構(gòu)方法通常利用手工特征從特定的骨架結(jié)構(gòu)序列中提取運動模式,在一些特定的數(shù)據(jù)集上表現(xiàn)良好,但普適性較差[6-7]。近年來,隨著深度學(xué)習(xí)方法在其他計算機視覺應(yīng)用方面的的發(fā)展,使用骨架結(jié)構(gòu)數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[9]和圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)[10]等模型開始涌現(xiàn)。

        人體動作的骨架結(jié)構(gòu)序列由關(guān)節(jié)點自然時間序列構(gòu)成,而RNN比較適合處理時間序列數(shù)據(jù)。因此,基于RNN及其變種(如長短時記憶網(wǎng)絡(luò)LSTM,門控循環(huán)單元GRU)的骨架結(jié)構(gòu)行為識別方法比較多。當(dāng)CNN處理骨架結(jié)構(gòu)數(shù)據(jù)序列時,通常需要結(jié)合RNN模型,RNN的時序上下文信息和CNN豐富的空間信息相結(jié)合往往可以取得比單一結(jié)構(gòu)模型更好的效果。最近兩年,很多學(xué)者開始將GCN應(yīng)用于骨架結(jié)構(gòu)的行為識別。人體骨架結(jié)構(gòu)序列本身就是一個自然的拓撲圖結(jié)構(gòu),GCN網(wǎng)絡(luò)模型更適合描述骨骼關(guān)鍵點之間空間和時序拓撲信息,比RNN更具優(yōu)勢。時空圖卷積神經(jīng)網(wǎng)絡(luò)(Spatial Temporal Graph Convolutional Networks,ST-GCN)利用人體拓撲結(jié)構(gòu)建立鄰接矩陣,用以描述人體骨架結(jié)構(gòu)的空間結(jié)構(gòu),文獻[10]提出了一種基于距離采樣的函數(shù),將其作用于GCN的卷積層,使神經(jīng)網(wǎng)絡(luò)能更好地學(xué)習(xí)到人體骨骼結(jié)構(gòu)數(shù)據(jù)之間在空間和時序的上下文信息,性能明顯優(yōu)于同時期的RNN算法。許多研究者在ST-GCN的基礎(chǔ)上進行了改進,并提出了一系列基于人體骨架結(jié)構(gòu)的行為識別算法[11-13]。

        本文以ST-GCN為基礎(chǔ),針對ST-GCN網(wǎng)絡(luò)模型中的分區(qū)策略只關(guān)注局部動作的問題,提出了一種新的分區(qū)策略。通過合理劃分關(guān)聯(lián)根節(jié)點與更遠節(jié)點,加強了身體各部分信息的聯(lián)系和局部運動之間的聯(lián)系,提升了模型對整體動作的感知能力。

        1 基于新分區(qū)策略的ST-GCN模型

        ST-GCN模型使用圖卷積隱式地學(xué)習(xí)骨骼結(jié)構(gòu)序列信息特征,代替人工提取特征,模型簡單,性能好。基于ST-GCN的人體動作識別流程如圖1所示。人體動作識別以視頻序列為基礎(chǔ),通過使用人體姿態(tài)估計模型,獲得人體骨架結(jié)構(gòu)變化序列,構(gòu)造骨架結(jié)構(gòu)變化時空圖,隨后輸入ST-GCN網(wǎng)絡(luò)模型,實現(xiàn)人體動作識別。本文在骨架數(shù)據(jù)集的基礎(chǔ)上研究ST-GCN網(wǎng)絡(luò)模型。

        1.1 構(gòu)造骨架時空圖

        ST-GCN網(wǎng)絡(luò)模型需要依據(jù)輸入骨架結(jié)構(gòu)變化序列構(gòu)造的骨架結(jié)構(gòu)變化時空圖,將離散骨骼點構(gòu)造為類似于圖片形式,即對于單幀人體骨骼點,通過連接相鄰兩個骨骼點形成空間骨架;對相鄰兩幀的人體骨骼點連接相同兩個骨骼點形成時間骨架。Kinetics-skeleton數(shù)據(jù)集[14]中,骨骼結(jié)構(gòu)點數(shù)N=18的各骨骼點如圖2所示。在T幀的骨架結(jié)構(gòu)序列上可構(gòu)造一個如圖3所示的骨架結(jié)構(gòu)時空圖G=(V,E),其中:V為骨骼點集合,E為骨架邊集合。

        對于圖3,骨骼點集合為:V={vti|t=1,…,T,i=1,…,N},由人體骨架結(jié)構(gòu)變化序列中的全部骨骼點坐標組成;vti為第t幀上第i個骨骼點;E由骨架時空圖中的骨架邊構(gòu)成,包括ES和EF,Es={vtivtj(i,j)∈H}為空間上相鄰兩個骨骼點形成的骨架邊,vtj為第t幀上第j個骨骼點;EF={vtiv(t+1)i}為相鄰兩幀上相同骨骼點形成的骨架邊,v(t+1)i為第t+1幀上第i個骨骼點。因此,構(gòu)建的骨架結(jié)構(gòu)變化時空圖包含一個動作序列中的骨骼點變化信息,任意一個骨骼點i的變化曲線為EF中所有骨架邊。

        1.2 構(gòu)造時空圖卷積

        ST-GCN模型使用圖卷積處理空間中的離散特征點,在二維卷積的基礎(chǔ)上進行構(gòu)造。對于二維卷積,在一個通道數(shù)為c的輸入特征矩陣fin上使用大小為K×K的濾波器,則特征矩陣上任意位置x的二維卷積公式為:

        (1)

        式中:p為采樣函數(shù)矩陣;采樣區(qū)域為x的鄰域(h,ω),采樣區(qū)域大小與濾波器大小相同;w為權(quán)重函數(shù)矩陣;fout(x)在c維空間中提供了一個權(quán)向量,用于計算與輸入特征矩陣的內(nèi)積(·為內(nèi)積)。通過重新定義采樣函數(shù)p和權(quán)重函數(shù)w,即可構(gòu)造圖卷積公式。

        在骨架結(jié)構(gòu)變化時空圖上,以根節(jié)點vti為中心,其余骨骼點vtj到vti的最短距離為d(vtj,vti)(相鄰兩骨骼點間的距離為1),可以將所有骨骼點劃分為2個集合,分別為:到根節(jié)點vti的最短距離小于等于采樣距離閾值D的骨骼點集合和到根節(jié)點vti的最短距離大于采樣距離閾值D的骨骼點集合??梢栽诘礁?jié)點vti的最短距離小于D的骨骼點vtj的集合B(vti)={vtj|d(vtj,vti)≤D}上定義采樣函數(shù)。若采樣函數(shù)P使用D=2的相鄰區(qū)域B(vti),則采樣函數(shù)p(vti,vtj)為:

        p(vti,vtj)=vtj。

        (2)

        在骨架時空圖上,通過對骨骼點vti的相鄰區(qū)域進行映射操作lti:B(vti)→{0,…,K-1},對骨骼點vti的相鄰區(qū)域賦予不同的權(quán)重參數(shù),即可構(gòu)造權(quán)重函數(shù)w。使用分區(qū)策略可以將骨骼點vti的相鄰區(qū)域B(vti)分解為K個子區(qū)域{0,…,K-1},以此簡化映射變化。權(quán)重函數(shù)w(vti,vtj)為:

        w(vti,vtj)=w′(lti(vtj))。

        (3)

        通過使用式(2)和式(3)定義的采樣函數(shù)和權(quán)重函數(shù),可以重新構(gòu)造式(1),得到空間上的圖卷積公式:

        (4)

        式中規(guī)范化項Zti(vtj)=|{vtk|lti(vtk)=lti(vtj)}|等于相應(yīng)子區(qū)域的基數(shù),該項可平衡不同子區(qū)域?qū)敵龅呢暙I。將式(2)和式(3)代入式(4)后得到圖卷積公式如下:

        (5)

        在構(gòu)建骨架時空圖時,通過連接相鄰兩幀中的兩個相同骨骼點描述時間維度,選定一個時間范圍為Γ的骨架幀序列。通過在這個序列范圍內(nèi)應(yīng)用空間圖卷積,可以將式(5)的空間圖卷積公式推廣到時間維度。時空圖卷積公式為:

        (6)

        式中Γ為相鄰圖中的時間范圍,即時間內(nèi)核大小。

        為實現(xiàn)骨架時空圖上的便捷時空圖卷積運算,在時間維度上,基于采樣函數(shù)和權(quán)函數(shù)定義vti骨骼點相鄰區(qū)域的映射結(jié)果lST為:

        (7)

        式中l(wèi)ti(vtj)為vti處骨骼點的映射結(jié)果。

        以此,構(gòu)造基于骨架時空圖的時空圖卷積。

        1.3 構(gòu)建新分區(qū)策略

        在構(gòu)造權(quán)重函數(shù)w時,使用分區(qū)策略可以將骨骼點vti的相鄰區(qū)域B(vti)分解為K個子區(qū)域{0,…,K-1},通過對每一個子區(qū)域賦予不同的權(quán)重,簡化權(quán)重函數(shù)的構(gòu)建,從而提升建模能力和識別性能。

        ST-GCN有3種分區(qū)策略,如圖4所示。圖4a中,紅色虛線圈為任一骨骼點的采樣區(qū)域,紅色點表示采樣區(qū)域的根節(jié)點vti,其余骨骼點用藍點表示,采樣函數(shù)P使用D=1的相鄰區(qū)域B(vti)。無標簽配置分區(qū)策略圖4b中,根節(jié)點vti的相鄰區(qū)域B(vti)沒有劃分,區(qū)域內(nèi)的所有骨骼點賦予相同的權(quán)重(綠色)。距離配置分區(qū)策略圖4c中,根節(jié)點vti的相鄰區(qū)域B(vti)劃分為根節(jié)點0(綠色)和其余骨骼點(藍色)2個區(qū)域,每個區(qū)域賦予不同的權(quán)重??臻g配置分區(qū)策略圖4d中,以黑色十字表示的骨架重心為參考,將根節(jié)點vti的相鄰區(qū)域B(vti)劃分為根節(jié)點(綠色)、向心節(jié)點(藍色)和離心節(jié)點(黃色)3個區(qū)域。向心節(jié)點到重心的距離小于根節(jié)點到重心的距離,離心節(jié)點到重心的距離大于根節(jié)點到重心的距離,每個區(qū)域賦予不同的權(quán)重。

        空間配置分區(qū)策略為根節(jié)點vti的相鄰區(qū)域B(vti)賦予3種不同權(quán)重,效果最好。這種空間配置分區(qū)策略依據(jù)身體部位的運動可以大致分為同心運動和偏心運動。將鄰域集分為3個子集:①根節(jié)點本身;②向心群:比根節(jié)點更接近骨架重心且與根節(jié)點相鄰的骨骼點;③其余的部分為離心群??臻g配置分區(qū)策略為:

        (8)

        式中:rj為骨骼點j到重心的距離,ri為重心到骨骼點i的平均距離。

        本文采用了新的分區(qū)策略來構(gòu)建ST-GCN模型。所設(shè)計的新分區(qū)策略為:設(shè)置采樣函數(shù)P使用D=2的相鄰區(qū)域B(vti),在原空間配置分區(qū)策略的基礎(chǔ)上增加2個區(qū)域,將根節(jié)點的相鄰區(qū)域分成5個子區(qū)域,如圖5所示。其中:①根節(jié)點本身;②向心群:比根節(jié)點更接近骨架重心,且與根節(jié)點相鄰的骨骼點;③遠向心群:遠離根節(jié)點且與向心群相鄰的骨骼點;④離心群:比根節(jié)點更遠離骨架重心,且與根節(jié)點相鄰的骨骼點;⑤遠離心群:遠離根節(jié)點且與離心群相鄰的骨骼點。

        采樣函數(shù)P使用D=2的相鄰區(qū)域B(vti),圖5中采樣區(qū)域用紅色虛線圈表示。根節(jié)點vti的相鄰區(qū)域B(vti)分解為5個區(qū)域,根節(jié)點(綠色)、向心節(jié)點(藍色)、遠向心節(jié)點(橘色)、離心節(jié)點(黃色)和遠離心節(jié)點(紫色),對每個區(qū)域的骨骼點賦予一種權(quán)重。每個區(qū)域的骨骼點權(quán)重為:

        (9)

        式中:rj為骨骼點j到重心的距離;ri為重心到骨骼點i的平均距離;rk,j為骨骼點k到骨骼點j的距離。

        新的分區(qū)策略不僅考慮了身體局部的運動,還考慮了局部運動間的聯(lián)系。通過關(guān)聯(lián)根節(jié)點與更遠節(jié)點,加強了身體各部分信息的聯(lián)系和局部運動之間的聯(lián)系,提升了模型對整體動作的感知能力,從而提升動作識別的精度。

        1.4 基于新分區(qū)策略的ST-GCN網(wǎng)絡(luò)模型

        在骨架時空圖上,使用時空圖卷積和新的分區(qū)策略即可構(gòu)建基于新分區(qū)策略的ST-GCN模型,如圖6所示,圖6a為空間配置分區(qū)策略的ST-GCN模型,圖6b為新分區(qū)策略的ST-GCN模型。與空間配置分區(qū)策略的ST-GCN模型相比,本文的分區(qū)策略增大了采樣區(qū)域,同時將采樣區(qū)域劃分為更多種權(quán)重參數(shù)。

        新分區(qū)策略的ST-GCN網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。其中包含9個ST-GCN(時空卷積)單元,時空卷積核大小為5×9。每個ST-GCN單元都使用了特征殘差融合方式,可以實現(xiàn)特征的跨區(qū)域融合。在每個ST-GCN單元之后都采用0.5的dropout機制,這樣可以降低模型過擬合的風(fēng)險,同時在第4和第7個ST-GCN單元后使用步長為2的池化層操作,對特征進行下采樣。ST-GCN模型的1~3單元包含64個輸出維度,4~6單元包含128個輸出維度,7~9單元包含256個輸出維度。對最后的輸出維度,通過使用SoftMax分類器即可對輸入骨架序列進行動作分類。對得到的張量進行全局合并,得到每個序列的256維特征向量后,將其輸入SoftMax分類器就可以得到相應(yīng)的人體動作。

        為實現(xiàn)基于ST-GCN骨架的動作識別,本文采用類似于圖卷積的表達形式,單幀內(nèi)骨骼點的自連接由單位矩陣I和表示體內(nèi)連接的相鄰矩陣A表示。在單幀情況下,新分區(qū)策略的ST-GCN使用以下公式實現(xiàn):

        (10)

        其中鄰接矩陣被拆分成幾個矩陣Aj,

        (11)

        A0=I,

        (12)

        A1+A2+A3+A4=A。

        (13)

        在動作變化過程中骨骼點可能出現(xiàn)在空間中的任意位置,新分區(qū)策略的ST-GCN模型使用了和原模型相同的可學(xué)習(xí)掩碼M。通過調(diào)整掩碼權(quán)重參數(shù),進一步提升新分區(qū)策略ST-GCN模型的性能。

        2 實驗及分析

        為驗證新分區(qū)策略ST-GCN模型的性能,本文在Kinetics-skeleton數(shù)據(jù)集[14]和NTU-RGB+D數(shù)據(jù)集[15]上進行模型訓(xùn)練和測試,隨后在真實場景下采集動作序列進行測試。

        2.1 Kinetics-skeleton數(shù)據(jù)集模型訓(xùn)練和測試

        (1)Kinetics-skeleton數(shù)據(jù)集和評估指標

        Kinetics-skeleton數(shù)據(jù)集是在大規(guī)模動作識別數(shù)據(jù)集Kinetics(Kinetics human action dataset)[16]上建立的。Kinetics是迄今為止最大的無約束動作識別數(shù)據(jù)集,包含從YouTube檢索到的約30萬個視頻片段,視頻涵蓋多達400個人類動作,從日?;顒雍腕w育場景,到復(fù)雜的互動動作,視頻中的每個剪輯持續(xù)大約10秒。YAN等[10]通過在Kinetics數(shù)據(jù)集上使用OpenPose[17]來獲得每一幀上18個骨骼點的二維坐標(X,Y)和置信度得分C,且每一幀保留2個骨骼點平均置信度最高的人,對每一個動作選擇300幀作為一個動作骨架序列來建立Kinetics-skeleton數(shù)據(jù)集。該數(shù)據(jù)集提供了24萬個剪輯的訓(xùn)練集和2萬個驗證集。為便于比較,本文在訓(xùn)練集上訓(xùn)練模型,在驗證集上驗證模型的性能。

        Kinetics-skeleton數(shù)據(jù)集上使用Top-1和Top-5的精確度指標驗證新分區(qū)策略ST-GCN模型的識別性能。Top-1為預(yù)測的概率向量中排名第1的類別等于正確類別的概率,即分類的準確率;Top-5為預(yù)測的概率向量中排名前5的類別包含正確類別的概率。Top-1和Top-5的計算公式如下:

        (14)

        (15)

        (2)模型訓(xùn)練和測試結(jié)果

        本文在Kinetics-skeleton數(shù)據(jù)集上進行模型訓(xùn)練和測試,實驗使用1塊P106-100的顯卡,顯存為6 GB,CPU為Intel(R)Core(TM)i5-4460 CPU@3.20 GHz,軟件環(huán)境為Pytorch1.0.0+Cuda9.0+cudnn7.0.0。模型訓(xùn)練使用SGD優(yōu)化器,動量為0.9,權(quán)重衰減為0.0001。設(shè)置Batchsize大小為16,迭代次數(shù)設(shè)為50。初始學(xué)習(xí)率為0.1,當(dāng)?shù)螖?shù)分別到達20、30、40時,將學(xué)習(xí)率依次衰減0.1倍后繼續(xù)迭代。

        在Kinetics-skeleton數(shù)據(jù)集上不同分區(qū)策略ST-GCN模型的性能對比如表1所示。由表1中數(shù)據(jù)可以看出,本文提出的新分區(qū)策略模型與其他4種分區(qū)策略模型相比性能均有所提升,其中,Top-1的性能指標分別提升了11.8%、2%、1.1%和0.4%,Top-5的性能指標分別提升了16%、2.1%、0.9%和0.6%。

        表1 不同分區(qū)策略的ST-GCN模型對比 %

        Kinetics-skeleton數(shù)據(jù)集上新分區(qū)策略模型與其它模型的性能對比如表2所示。由表2中數(shù)據(jù)可以看出,本文模型與ST-GCN模型相比Top-1和Top-5分別提升了0.4%和0.6%,且準確率優(yōu)于Temporal Conv方法。本文模型是對ST-GCN模型的改進,相比于其它優(yōu)秀模型,如AS-GCN、2S-AGCN和GCN-NAS,本文的模型在準確率方面還有所差距。由于Kinetics-skeleton數(shù)據(jù)集視頻采集環(huán)境比較嚴峻,基于骨骼點的動作識別模型在Kinetics-skeleton數(shù)據(jù)集上識別率不高。作為參考,表中列出了基于RGB幀方法和基于光流特征方法的性能。

        表2 新分區(qū)策略的ST-GCN模型與其他模型對比 %

        2.2 NTU-RGB-D數(shù)據(jù)集模型訓(xùn)練和測試

        (1)NTU-RGB+D數(shù)據(jù)集和評估指標

        NTU-RGB+D是目前最大的用于人體動作識別任務(wù)的3D骨骼點數(shù)據(jù)集,包含60類動作,56 000個動作序列。所提供的標注信息是由Kinect深度傳感器檢測到的攝像機坐標系中的三維骨骼點位置(X、Y、Z),每個人提供25個骨骼點。該數(shù)據(jù)集提供了兩個子數(shù)據(jù)集:

        1)X-Sub子數(shù)據(jù)集:包括40 320和16 560個訓(xùn)練和評估剪輯,訓(xùn)練剪輯來自一個演員子集,模型根據(jù)其余演員的剪輯進行評估。

        2)X-View子數(shù)據(jù)集:按攝影機來劃分訓(xùn)練和評估剪輯,包括37 920和18 960個訓(xùn)練和評估剪輯,訓(xùn)練剪輯來自攝影機2和3,評估剪輯都來自攝影機1。

        NTU-RGB+D數(shù)據(jù)集上使用Top-1性能指標如式(14)所示。

        (2)模型訓(xùn)練和測試結(jié)果

        本文在NTU-RGB-D的兩個子數(shù)據(jù)集上進行模型訓(xùn)練和測試,模型訓(xùn)練使用SGD優(yōu)化器,其動量為0.9,權(quán)重衰減為0.000 1;采用dropout機制,設(shè)置其閾值為0.5;設(shè)置batchsize大小為8,迭代次數(shù)設(shè)為80;初始學(xué)習(xí)率為0.1,當(dāng)?shù)螖?shù)到達10、50時將學(xué)習(xí)率依次衰減0.1倍。

        NTU-RGB-D數(shù)據(jù)集上新分區(qū)策略下的ST-GCN模型與其它模型性能對比如表3所示??梢钥闯?在X-Sub和X-View兩個子數(shù)據(jù)集上,本文模型性能優(yōu)于Temporal Conv、GCA-LSTM和ST-GCN,相比于ST-GCN模型識別率提升了2.3%和3.3%;本文模型是對ST-GCN模型的改進,其中,Motif-STGCN方法同樣基于ST-GCN進行改進,與Motif-STGCN方法相比,在X-Sub上本文模型準確率沒有提升,在X-View上準確率提升了1.4%。相比于其它優(yōu)秀模型,如AS-GCN、2S-AGCN和GCN-NAS,本文模型的識別準確率還有所差距。

        表3 新分區(qū)策略的ST-GCN模型與其它模型對比 %

        2.3 真實場景下模型測試結(jié)果

        對于基于二維骨骼點序列的動作識別,本文進行了真實場景下的動作識別,通過使用人體檢測模型YOLO Nano和人體姿態(tài)估計模型HRNet-W32獲得人體骨架序列,實現(xiàn)人體動作識別。識別流程如圖8所示。

        分別使用MV-EM130C相機和手機采集視頻用于實驗,MV-EM130C相機和手機的分辨率分別為1 280×960和1 280×720,由5人分別完成實驗動作,視頻采集設(shè)置如下:

        (1)選擇了6類動作,包括下蹲(squat)、慢跑(jogging)、鼓掌(clapping)、搖頭(shaking head)、引體向上(pull up)和俯臥撐(push up)。

        (2)使用MV-EM130C相機在室內(nèi)場景采集了下蹲、慢跑、鼓掌和搖頭4類動作,每類動作采集了10個10 s左右的動作序列,每個動作序列的幀數(shù)為300左右。

        (3)使用手機在室外場景采集了引體向上和俯臥撐2類動作,每類動作采集了10個10 s左右的動作序列,每個動作序列的幀數(shù)為300左右。

        室內(nèi)下蹲動作的骨架變化過程如圖9所示,每隔10幀選取一幀,共30幀骨架序列。從圖9中可以看出骨架的變化較為準確地表示了動作的變化。

        室內(nèi)下蹲動作識別過程如圖10所示,室外引體向上動作識別過程如圖11所示。當(dāng)前人體動作識別為對前n幀動作序列的識別結(jié)果,整個動作序列識別表達了最終的人體動作。如圖10b中,第10幀的識別結(jié)果為人體動作識別模型對前10幀動作序列的識別結(jié)果,voting result為整個動作序列的識別結(jié)果。本文的人體動作模型可以聚焦運動過程中人體骨骼位置變化的信息,由圖10可以看出,對于下蹲動作,其變化劇烈的骨骼點位置主要集中在上半身,從圖11中可以看出對于引體向上動作,其變化劇烈的骨骼點位置為胳膊和肩膀。整體來看,模型對于關(guān)節(jié)點識別和動作的識別都較為準確地反映了人體動作的實際變化。

        分別使用MV-EM130C相機和手機采集的室內(nèi)和室外自然環(huán)境下6類動作,每類動作含10個動作序列,總體識別率統(tǒng)計如表4所示。可以看出,無論室內(nèi)室外場景,本文模型對動作變化明顯且區(qū)別大的動作如下蹲和慢跑動作,識別率高,分別為90%和100%;對局部運動和動作變化相近的動作如鼓掌和搖頭動作,識別率偏低,分別為40%和60%;室內(nèi)場景下的下蹲和慢跑動作的識別率分別為90%和100%,高于室外場景下的引體向上和俯臥撐動作的識別率,分別為80%和90%。

        表4 動作識別準確率結(jié)果 %

        2.4 討論

        在Kinetics-skeleton數(shù)據(jù)集和NTU-RGB-D數(shù)據(jù)集中,本文模型性能優(yōu)于Temporal Conv、GCA-LSTM 和ST-GCN,但相較于AS-GCN、2S-AGCN和GCN-NAS等模型,準確率還有所差距。分析原因,主要影響因素有:①本文模型基于ST-GCN模型,不同方法有各自優(yōu)缺點,與原ST-GCN相比較,本文模型取得了較好結(jié)果;②Kinetics-skeleton數(shù)據(jù)集視頻采集環(huán)境復(fù)雜,動作的識別可結(jié)合人體任務(wù)、人交互環(huán)境和上下境信息,進一步提升識別率;③結(jié)合真實場景實驗結(jié)果,模型對動作小微處的表達尚有進一步提升的空間。

        真實場景中,采集視頻識別結(jié)果來看,室內(nèi)優(yōu)于室外,大幅動作優(yōu)于小微動作。分析其原因,主要影響因素有:①實驗中采用傳統(tǒng)二維相機,采用基于二維骨架的人體動作識別模型,二維骨架信息相較于三維骨架信息偏少;②室內(nèi)實驗采集數(shù)據(jù)采用工業(yè)相機,采集的視頻質(zhì)量較高,較穩(wěn)定,室外實驗采集的數(shù)據(jù)集使用手持手機拍攝,二維骨骼點位置隨鏡頭變化而變化劇烈,引起關(guān)節(jié)點位置的變化,影響動作識別;③小微動作包含在大動作內(nèi),提取到的特征包含在大動作里,小微動作與大動作尺度變化較大,影響了模型的識別;④室外環(huán)境更為復(fù)雜,背景的復(fù)雜程度會影響人體動作識別模型的識別率。

        3 結(jié)束語

        本文設(shè)計了一種新的分區(qū)策略,將根節(jié)點的相鄰區(qū)域劃分為5個子區(qū)域,構(gòu)建新分區(qū)策略的ST-GCN網(wǎng)絡(luò)模型。新分區(qū)策略不但考慮了身體局部的運動變化,而且關(guān)聯(lián)了根骨骼點與更遠骨骼點,考慮了局部運動之間的聯(lián)系,加強了身體各部分信息聯(lián)系和局部運動之間的聯(lián)系,從而提升模型對整體動作的感知能力。模型在大規(guī)模數(shù)據(jù)集Kinetics-skeleton上獲得了31.1%的Top-1性能指標,相比原模型提升了0.4%。在NTU-RGB+D的兩個子數(shù)據(jù)集上分別獲得了83.7%和91.6%的Top-1性能指標,相比原模型提升了2.3%和3.3%。采集真實場景視頻,實際場景中識別模型對于動作變化明顯且區(qū)別大的動作,如俯臥撐和慢跑識別率高,分別為90%和100%,對于局部運動和動作變化相近的動作,如鼓掌和搖頭,識別率偏低,分別為40%和60%,尚有進一步提高的空間。

        猜你喜歡
        動作策略模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        動作描寫要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫動作
        動作描寫不可少
        3D打印中的模型分割與打包
        国产精品黄页免费高清在线观看| 377p日本欧洲亚洲大胆张筱雨| 中文亚洲av片在线观看| 无码国产激情在线观看| 久久99精品久久久久九色| 亚洲精品中文字幕乱码3 | 国产激情一区二区三区在线| 色费女人18毛片a级毛片视频| 怡红院免费的全部视频| 麻豆AⅤ无码不卡| 亚洲欧美久久婷婷爱综合一区天堂 | 偷拍一区二区三区四区| 久久精品国产精品| 欧美激情αv一区二区三区| 亚洲免费人成网站在线观看| 国产免费一区二区三区精品视频| 国产精品9999久久久久仙踪林| 国产精品久久久久久无码| a在线免费| 亚洲妇女av一区二区| 国内自拍速发福利免费在线观看| 无码中文亚洲av影音先锋| 国产欧美一区二区精品仙草咪| 曰韩精品无码一区二区三区 | 杨幂国产精品一区二区| 国产一区二区黄色网页| 久久精品中文闷骚内射| 韩国19禁主播深夜福利视频| 午夜精品久视频在线观看| 久久99精品综合国产女同| 色偷偷888欧美精品久久久 | 日韩欧美区| 18禁成人免费av大片一区| av在线播放男人天堂| 美女又色又爽视频免费| 精品福利一区| 毛片成人18毛片免费看| 吃奶摸下高潮60分钟免费视频| 精品人妻少妇一区二区三区不卡 | 日韩av中文字幕波多野九色| 人妻洗澡被强公日日澡电影|