亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)輕量級(jí)圖卷積人體骨架行為識(shí)別方法

        2021-04-11 12:49:18蘇江毅宋曉寧吳小俊於東軍
        計(jì)算機(jī)與生活 2021年4期
        關(guān)鍵詞:關(guān)節(jié)點(diǎn)信息流骨架

        蘇江毅,宋曉寧+,吳小俊,於東軍

        1.江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無(wú)錫 214122

        2.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094

        行為識(shí)別是人工智能領(lǐng)域的重要研究方向之一,在視頻監(jiān)督、智能監(jiān)控和人機(jī)交互等方向有著重要的應(yīng)用。行為識(shí)別同時(shí)也是一項(xiàng)具有挑戰(zhàn)性的任務(wù),不僅因?yàn)樘幚硪曨l片段所需的計(jì)算要求更高,而且易受外界環(huán)境因素的影響。這導(dǎo)致了基于RGB 視頻的行為識(shí)別方法往往難以同時(shí)滿(mǎn)足時(shí)效性和準(zhǔn)確度的要求。最近幾年,得益于深度相機(jī)的發(fā)展與普及,例如,MicrosoftKinetic[1],基于深度信息的行為識(shí)別[2]逐漸成為了該領(lǐng)域的重要研究方向之一。與傳統(tǒng)的RGB 數(shù)據(jù)相比,骨架序列因?yàn)椴话伾畔?,所以具有?jiǎn)潔、易校準(zhǔn)、不易受外觀因素影響的特點(diǎn)。

        早期的基于人體骨架的行為識(shí)別方法主要通過(guò)手工設(shè)計(jì)特征的方式來(lái)對(duì)行為進(jìn)行表征[3]。例如Yang等人[4-5]的EigenJoints 方法,從骨架數(shù)據(jù)直接獲得成對(duì)關(guān)節(jié)的靜態(tài)姿勢(shì)和偏移量,通過(guò)主成分分析法(principal components analysis,PCA)來(lái)減少冗余和干擾,最后通過(guò)非參數(shù)樸素貝葉斯最近鄰(Naive Bayes nearest neighbor,NBNN)完成行為分類(lèi)。在深度學(xué)習(xí)方法未被大規(guī)模使用之前,該類(lèi)方法一直是行為識(shí)別領(lǐng)域的主要研究方向。但是,由于手工提取的特征往往表征能力有限并且需要耗費(fèi)大量精力用于調(diào)參優(yōu)化,因此當(dāng)深度學(xué)習(xí)普及以后,一些端對(duì)端的基于深度神經(jīng)網(wǎng)絡(luò)的方法越來(lái)越受到人們的歡迎。

        目前主流的方法可以分為以下三類(lèi):(1)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[6]的方法;(2)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[7]的方法;(3)基于圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)[8]的方法。Du 等人[9]將人體骨架按照軀干與四肢進(jìn)行劃分,共分成了五部分,網(wǎng)絡(luò)級(jí)聯(lián)地輸入和組合人體骨骼各個(gè)部分的運(yùn)動(dòng),從而通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural networks,BRNN)將每個(gè)時(shí)刻的低層次的關(guān)節(jié)點(diǎn)拼成一個(gè)向量,不同時(shí)刻的向量組成一個(gè)序列,并對(duì)生成的序列進(jìn)行處理和學(xué)習(xí)。Liu 等人[10]主要通過(guò)雙流3D 卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural networks,3D CNN)來(lái)同時(shí)對(duì)關(guān)節(jié)點(diǎn)的時(shí)間特性和空間關(guān)系進(jìn)行建模,最后通過(guò)加權(quán)平均的方式融合時(shí)空間特征獲得最終的分類(lèi)結(jié)果。Yan 等人[11]第一次提出了通過(guò)建立骨架序列時(shí)空?qǐng)D的方式,將圖卷積網(wǎng)絡(luò)擴(kuò)展到時(shí)空模型上,從而避免了手工設(shè)計(jì)遍歷規(guī)則的弊端,使得網(wǎng)絡(luò)具有更好的表達(dá)能力和更高的性能。Shi 等人[12]在Yan 等人研究的基礎(chǔ)上融合了基于骨架長(zhǎng)度的信息,從而提出了一種雙流自適應(yīng)圖卷積網(wǎng)絡(luò)用于基于骨架的行為識(shí)別。

        上述三類(lèi)方法,都是目前主流的基于骨架行為識(shí)別的方法,但是都存在一定的問(wèn)題。其中基于RNN的方法,雖然在表征時(shí)間信息方面優(yōu)勢(shì)明顯,但是存在優(yōu)化難度高,而且易丟失原始的關(guān)節(jié)點(diǎn)信息的問(wèn)題;而基于CNN 的方法,雖然可以從不同時(shí)間區(qū)間提取多尺度的特定局部模式,但是存在參數(shù)量過(guò)于龐大,對(duì)計(jì)算要求過(guò)高的問(wèn)題。而基于圖卷積的方法得益于對(duì)非歐氏數(shù)據(jù)(non-Euclidean data)建模的巨大優(yōu)勢(shì),相對(duì)于前兩種方法而言更具優(yōu)勢(shì)。

        此外,基于圖卷積的方法同時(shí)還利用了多模態(tài)學(xué)習(xí)中的相關(guān)方法來(lái)提高精度。首先,多模態(tài)數(shù)據(jù)是指對(duì)同一對(duì)象,因?yàn)槊枋龇椒ú煌?,把描述這些數(shù)據(jù)的每一個(gè)視角叫作一個(gè)模態(tài)。而多模態(tài)表示學(xué)習(xí)(multimodal representation)是指通過(guò)利用多模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示?,F(xiàn)階段的多模態(tài)數(shù)據(jù)融合分析方法主要分為基于階段的數(shù)據(jù)融合、基于特征的數(shù)據(jù)融合和基于語(yǔ)義的數(shù)據(jù)融合。其中基于階段的數(shù)據(jù)融合方法是指在不同階段使用不同的模態(tài)數(shù)據(jù)完成相應(yīng)的數(shù)據(jù)融合;基于特征的數(shù)據(jù)融合方法是指從原始特征中學(xué)習(xí)新的融合特征,然后通過(guò)學(xué)習(xí)到的新的融合特征完成分類(lèi)、預(yù)測(cè)等任務(wù);最后基于語(yǔ)義的數(shù)據(jù)融合方法需要對(duì)每個(gè)模態(tài)數(shù)據(jù)的含義以及不同模態(tài)之間的特征關(guān)系進(jìn)行理解,通過(guò)抽象的語(yǔ)義信息完成跨模態(tài)數(shù)據(jù)的融合。目前,基于圖卷積的方法多采用基于特征的數(shù)據(jù)融合方法,該方法雖然能較大地提升實(shí)驗(yàn)結(jié)果,但是需要針對(duì)不同的特征生成的不同訓(xùn)練集進(jìn)行多次訓(xùn)練,通過(guò)融合不同訓(xùn)練集上的訓(xùn)練結(jié)果的方式得到最終的結(jié)果?;趫D卷積的方法雖然在最終的結(jié)果上有不錯(cuò)的表現(xiàn),但是因?yàn)樾枰诙嗄B(tài)數(shù)據(jù)集上進(jìn)行多次訓(xùn)練,所以同樣存在參數(shù)量過(guò)大和對(duì)計(jì)算要求過(guò)高的問(wèn)題。

        針對(duì)上述這些問(wèn)題,本文提出了一種融合多模態(tài)數(shù)據(jù)的輕量級(jí)圖卷積神經(jīng)網(wǎng)絡(luò)用于基于人體骨架的行為識(shí)別。不同于之前的一些使用GCN 的方法,本文方法雖然同樣使用了基于特征的數(shù)據(jù)融合方法來(lái)提高實(shí)驗(yàn)結(jié)果,但并不需要針對(duì)不同的特征預(yù)先生成不同的訓(xùn)練集,而是直接采用多模態(tài)數(shù)據(jù)融合與自適應(yīng)圖卷積相結(jié)合的方式,僅通過(guò)一次訓(xùn)練就能達(dá)到其他方法在預(yù)先生成的多個(gè)數(shù)據(jù)集上的訓(xùn)練效果??傮w而言,本文方法能夠在兼顧參數(shù)量的同時(shí)取得很好的效果。最后根據(jù)在行為識(shí)別數(shù)據(jù)集NTU60 RGB+D和NTU120 RGB+D 上的測(cè)試結(jié)果表明,該方法能夠以極低的參數(shù)量完成基于人體骨架的行為識(shí)別。

        1 融合多模態(tài)數(shù)據(jù)的輕量級(jí)圖卷積網(wǎng)絡(luò)

        1.1 圖卷積簡(jiǎn)介

        由于圖結(jié)構(gòu)的不規(guī)則性和復(fù)雜性,其節(jié)點(diǎn)的排列方式并不存在明顯的上下左右關(guān)系,因此無(wú)法通過(guò)固定大小的卷積核來(lái)提取相應(yīng)的特征,故傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在這一領(lǐng)域很難發(fā)揮作用。為了解決這一問(wèn)題,研究人員提供了兩條思路:一條是將非歐氏空間的圖轉(zhuǎn)換到歐氏空間,即構(gòu)建偽圖;另一條就是構(gòu)建一種可處理變長(zhǎng)鄰居節(jié)點(diǎn)的卷積核,這也就是GCN 的最初設(shè)計(jì)原理。

        對(duì)于一張給定圖,需要兩種輸入數(shù)據(jù)來(lái)提取特征:一個(gè)是維度為N×F的特征矩陣X,其中N為圖中的節(jié)點(diǎn)數(shù),F(xiàn)為每個(gè)節(jié)點(diǎn)的輸入特征;另一個(gè)是維度為N×N的鄰接矩陣A。因此,GCN 中隱藏層可以表示如式(1)所示:

        其中,l代表層數(shù),代表上一層的輸出,f代表一種傳播規(guī)則,而H(0)=X為第一層的輸入。在每一層中,GCN 會(huì)通過(guò)f將這一層的信息聚合起來(lái),從而形成下一層的特征,不同圖卷積模型的差異點(diǎn)在于f的實(shí)現(xiàn)不同。

        1.2 具有自適應(yīng)性的圖卷積

        本文以SGN(semantics-guided neural networks)[13]中的網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),提出了一種能夠融合多模態(tài)數(shù)據(jù)的自適應(yīng)圖卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。與之前的一些同樣使用圖卷積網(wǎng)絡(luò)的方法相比,最大的區(qū)別在于鄰接矩陣A的構(gòu)成不同。之前的方法,諸如ST-GCN(spatial temporal graph convolutional networks)[11]與2s-AGCN(two-stream adaptive graph convolutional networks)[12],雖然同樣使用了圖卷積來(lái)表征骨架數(shù)據(jù),但是這兩個(gè)方法所使用的鄰接矩陣A均是通過(guò)手工設(shè)計(jì)的方式完成的。手工設(shè)計(jì)的鄰接矩陣A在聚合幀內(nèi)關(guān)節(jié)點(diǎn)數(shù)據(jù)時(shí),往往缺乏自適應(yīng)性,未能進(jìn)行有效的聚合。

        為了解決這個(gè)問(wèn)題,本文提出了一種將多模態(tài)數(shù)據(jù)融合到圖卷積之中的方法。如圖2 所示,通過(guò)將不同模態(tài)的數(shù)據(jù),諸如關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、運(yùn)動(dòng)信息流、速度差信息流和基于速度差的骨長(zhǎng)信息流進(jìn)行融合,一方面可以確保構(gòu)建出一個(gè)具有全局適應(yīng)性的鄰接矩陣,另一方面能夠減少運(yùn)算次數(shù),從而降低運(yùn)算成本,提高運(yùn)算效率,最終實(shí)現(xiàn)網(wǎng)絡(luò)輕量化的目標(biāo)。

        1.3 多模態(tài)數(shù)據(jù)融合

        首先,對(duì)于一個(gè)給定的骨架序列,其關(guān)節(jié)點(diǎn)的定義如式(2)所示:

        Fig.1 Network framework圖1 網(wǎng)絡(luò)框架結(jié)構(gòu)

        Fig.2 Multi-modal data fusion圖2 多模態(tài)數(shù)據(jù)融合

        其中,T為序列中的總幀數(shù),N為總關(guān)節(jié)點(diǎn)數(shù),Vi,t表示為在t時(shí)刻的關(guān)節(jié)點(diǎn)i。因?yàn)樯婕暗蕉嗄B(tài)數(shù)據(jù)的融合,訓(xùn)練開(kāi)始前需要對(duì)集合S進(jìn)行多樣化的預(yù)處理。因?yàn)殛P(guān)節(jié)點(diǎn)信息流可以直接獲取,所以在這里只需要給出骨長(zhǎng)信息流、運(yùn)動(dòng)信息流和基于速度差的骨長(zhǎng)信息流的定義公式。

        骨長(zhǎng)信息流(bone information flow):通常定義靠近人體重心的點(diǎn)為源關(guān)節(jié)點(diǎn),其坐標(biāo)可以定義為Vi,t=(xi,t,yi,t,zi,t),而遠(yuǎn)離重心的點(diǎn)為目標(biāo)關(guān)節(jié)點(diǎn),其坐標(biāo)為Vj,t=(xj,t,yj,t,zj,t),通過(guò)源關(guān)節(jié)點(diǎn)與目標(biāo)關(guān)節(jié)點(diǎn)的差值可以計(jì)算骨長(zhǎng)信息流。因此骨長(zhǎng)信息流的定義如下所示:

        運(yùn)動(dòng)信息流(motion information flow):運(yùn)動(dòng)信息流是通過(guò)計(jì)算相鄰兩個(gè)幀中相同關(guān)節(jié)點(diǎn)之間的差值得到的。本文定義在t幀上的關(guān)節(jié)點(diǎn)i,其坐標(biāo)為Vi,t=(xi,t,yi,t,zi,t),則在t+1 幀上的關(guān)節(jié)點(diǎn)i定義為Vi,t+1=(xi,t+1,yi,t+1,zi,t+1)。因此在關(guān)節(jié)點(diǎn)Vi,t與關(guān)節(jié)點(diǎn)Vi,t+1之間的運(yùn)動(dòng)信息流可以定義如式(4)所示:

        速度差信息流(velocity difference information flow):速度差信息流首先需要計(jì)算前T-1 幀與后T-1 幀的差值,接著通過(guò)填補(bǔ)0 元素的方式擴(kuò)充矩陣,彌補(bǔ)維度上的變化。假設(shè)關(guān)節(jié)點(diǎn)i在前T-1 幀上的定義為Vi,0:T-1=(xi,0:T-1,yi,0:T-1,zi,0:T-1),在后T-1 幀上的定義為Vi,t+1=(xi,1:T,yi,1:T,zi,1:T),因此速度差信息流的定義如下所示:

        基于速度差的骨長(zhǎng)信息流(bone information flow based on velocity difference):基于速度差的骨長(zhǎng)信息流是在速度差信息流的基礎(chǔ)上通過(guò)計(jì)算相鄰兩個(gè)幀中相同骨骼之間的差值得到的。根據(jù)式(2)的骨長(zhǎng)信息流與式(5)的速度差信息流定義,可以定義前T-1 幀上的源關(guān)節(jié)點(diǎn)i到目標(biāo)關(guān)節(jié)點(diǎn)j骨長(zhǎng)的信息流為,后T-1 幀上的骨長(zhǎng)信息流為,因此基于速度差的骨長(zhǎng)信息流如式(6)所示:

        如圖2 所示,根據(jù)式(2)到式(6)中對(duì)于關(guān)節(jié)點(diǎn)信息流、骨長(zhǎng)信息流、運(yùn)動(dòng)信息流、速度差信息流和基于速度差的骨長(zhǎng)信息流的定義,多模態(tài)數(shù)據(jù)融合的定義如下所示:

        1.4 基于密集連接卷積網(wǎng)絡(luò)的空間流模塊

        為了更好地表征骨架序列在時(shí)間維度空間維度上的信息,本文在SGN[13]的基礎(chǔ)上,重新設(shè)計(jì)了時(shí)間流模塊和空間流模塊。

        設(shè)計(jì)空間流模塊的目的主要是為了獲得某一幀內(nèi)不同關(guān)節(jié)點(diǎn)之間的相關(guān)性。在空間流模塊中,通過(guò)使用圖卷積來(lái)探索結(jié)構(gòu)型骨架數(shù)據(jù)中關(guān)節(jié)點(diǎn)的相關(guān)性,如圖3所示,空間流模塊的主體部分主要由三層圖卷積組成。相比于之前一些方法,例如ST-GCN[11],該方法雖然同樣使用圖卷積來(lái)建模骨架數(shù)據(jù),但是這些方法都缺乏自適應(yīng)性,即ST-GCN[11]中的圖的拓?fù)浣Y(jié)構(gòu)是根據(jù)人體的物理結(jié)構(gòu)預(yù)先定義好的,但是通過(guò)這樣的方法定義的圖結(jié)構(gòu)并不一定適用于行為識(shí)別的任務(wù)。此外,由于需要對(duì)不同的動(dòng)作進(jìn)行識(shí)別,如果都使用相同的拓?fù)浣Y(jié)構(gòu)的圖顯然也是不合理的。針對(duì)這些問(wèn)題,一個(gè)合適的解決方法是設(shè)計(jì)一種具有自適應(yīng)的圖卷積網(wǎng)絡(luò)來(lái)建模結(jié)構(gòu)型骨架數(shù)據(jù)。如圖3 所示,通過(guò)計(jì)算t幀的關(guān)節(jié)點(diǎn)i與關(guān)節(jié)點(diǎn)j之間的相關(guān)性來(lái)得到這兩個(gè)節(jié)點(diǎn)之間的邊緣權(quán)重(edge weight),具體公式如下:

        其中,θ與φ主要用來(lái)進(jìn)行維度變換,具體實(shí)現(xiàn)如下所示:

        通過(guò)計(jì)算同一幀中所有關(guān)節(jié)點(diǎn)之間的相關(guān)性,得到了具有所有幀中所有關(guān)節(jié)點(diǎn)的自適應(yīng)鄰接矩陣。

        在SGN[13]的基礎(chǔ)上,本文還采用了密集連接卷積網(wǎng)絡(luò)(densely connected convolutional networks,Dense-Net)[14]中密集連接(dense connection)的方式來(lái)提高模型的泛化效果。本文借用DenseNet 的思想,將第一層GCN 之前的輸出與之后每層GCN 的輸出直接相連。具體的實(shí)現(xiàn)過(guò)程并不是殘差網(wǎng)絡(luò)(residual network,ResNet)[15]中所采用的直接相加的方式,而是采用了連結(jié)結(jié)構(gòu)(concatenate)的方式,這樣能夠以增加少量參數(shù)量為代價(jià),實(shí)現(xiàn)淺層特征的復(fù)用,加強(qiáng)特征在三層GCN 網(wǎng)絡(luò)中的傳播,同時(shí)也能夠避免某些層被選擇性丟棄,造成信息堵塞等。通過(guò)建立不同層之間的密集連接,不僅能夠提高運(yùn)算效率,減少不同層之間的依賴(lài)性;同時(shí)還能加強(qiáng)深層特征與淺層的聯(lián)系,最終達(dá)到復(fù)用淺層特征的目的。

        1.5 基于殘差網(wǎng)絡(luò)的時(shí)間流模塊

        與空間流模塊不同的是,時(shí)間流模塊的設(shè)計(jì)目的是獲得幀與幀之間的相關(guān)性。如圖4 時(shí)間流模塊所示,時(shí)間流模塊主要由空間最大池化層、時(shí)間最大池化層以及兩層CNN 所組成。其中空間最大池化層(spatial maxpooling layer,SMP)用來(lái)聚合同一幀中的關(guān)節(jié)點(diǎn)信息;時(shí)間最大池化層(temporal maxpooling layer,TMP)用來(lái)聚合不同幀之間的信息。第一層CNN 為時(shí)間卷積層,用于對(duì)幀的相關(guān)性進(jìn)行建模;第二層CNN 用于增強(qiáng)其所學(xué)習(xí)到特征的泛化能力。與SGN[13]中的結(jié)構(gòu)相比,本文通過(guò)在雙重卷積層之間引入ResNet[15]中的快捷連接(skip connection)的方式,確保幀內(nèi)信息的多次使用,從而在加強(qiáng)幀與幀之間相關(guān)性的同時(shí),加強(qiáng)特征的表現(xiàn)能力。

        Fig.3 Spatial flow module圖3 空間流模塊

        Fig.4 Temporal flow module圖4 時(shí)間流模塊

        1.6 融合多模態(tài)數(shù)據(jù)的輕量級(jí)圖卷積網(wǎng)絡(luò)的參數(shù)量對(duì)比

        近幾年,雖然基于人體骨架的行為識(shí)別方法成為了主要研究方向之一,但是這些方法往往都存在一些問(wèn)題。一方面是這些方法往往通過(guò)構(gòu)建復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)的方式來(lái)提高實(shí)驗(yàn)精度,針對(duì)人體骨架這種簡(jiǎn)單有效的數(shù)據(jù)而言,過(guò)于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)造成整體計(jì)算效率的低下。另一方面,這些方法在初始數(shù)據(jù)集的基礎(chǔ)上生成多個(gè)派生數(shù)據(jù)集用于訓(xùn)練,通過(guò)將多個(gè)派生數(shù)據(jù)集上的訓(xùn)練結(jié)果進(jìn)行融合的方式獲得更高的精度,這造成了時(shí)間成本的大量浪費(fèi)。

        為了解決這一問(wèn)題,本文提出了一種基于人體骨架的輕量級(jí)行為識(shí)別方法。除了網(wǎng)絡(luò)結(jié)構(gòu)更加高效之外,訓(xùn)練過(guò)程也較為簡(jiǎn)單。不同于之前一些基于圖卷積的方法所采用的方法,該方法并不需要在多個(gè)派生數(shù)據(jù)集上進(jìn)行多次訓(xùn)練。本文通過(guò)多模態(tài)數(shù)據(jù)融合的方式直接將多種信息流進(jìn)行融合,這樣做的好處就是可以避免生成多個(gè)對(duì)應(yīng)的派生數(shù)據(jù)集,將訓(xùn)練次數(shù)減少為一次,從而降低網(wǎng)絡(luò)的整體參數(shù)量。與之前的方法相比,該方法最大的特點(diǎn)就是能夠在參數(shù)量與精度之間達(dá)到很好的平衡,即通過(guò)較少的參數(shù)量達(dá)到甚至超過(guò)之前的一些方法的精度。

        為了驗(yàn)證該方法的具體表現(xiàn),與近兩年的方法在NTU60 RGB+D[15]數(shù)據(jù)集的X-sub 標(biāo)準(zhǔn)上進(jìn)行了比較。如圖5 所示,ST-GCN[11]、2s-AGCN[12]、AS-GCN(actional-structural graph convolutional networks)[16]這三個(gè)方法均是基于GCN 的方法,相比于其他方法可以看出,使用了圖卷積的方法在參數(shù)量和精度方面都有較好的表現(xiàn)。相較于基于CNN 的方法VA-CNN(view adaptive convolutional neural networks)[17]與基于RNN 的方法AGC-LSTM(joint)(attention enhanced graph convolutional LSTM network)[18],雖然同樣取得了不錯(cuò)的結(jié)果,但是參數(shù)量卻遠(yuǎn)超其他方法。通過(guò)對(duì)比可以發(fā)現(xiàn),相比于VA-CNN[17]與AGC-LSTM(joint)[18]這兩類(lèi)非圖卷積方法,本文方法不僅在精度上有很大的提升,同時(shí)參數(shù)量也僅為VA-CNN[17]與AGC-LSTM(joint)[18]的1/100;相比于ST-GCN[11]、2s-AGCN[12]、AS-GCN[16]這三個(gè)均是基于GCN 的方法,本文方法同樣在精度和參數(shù)量上有明顯優(yōu)勢(shì)。此外,通過(guò)與SGN[13]進(jìn)行對(duì)比可以發(fā)現(xiàn),SGN[13]的參數(shù)量為6.9×105,而本文方法參數(shù)量為7.7×105;如果僅從參數(shù)量上看,由于本文方法從結(jié)構(gòu)上對(duì)SGN[13]網(wǎng)絡(luò)中的空間流模塊和時(shí)間流模塊進(jìn)行了優(yōu)化,導(dǎo)致了參數(shù)量比它略多了8×104;但是從精度對(duì)比上看,在NTU60 RGB+D[15]數(shù)據(jù)集上本文提升了約1 個(gè)百分點(diǎn),在NTU120 RGB+D 數(shù)據(jù)集[19]上,提升了約3 個(gè)百分點(diǎn),通過(guò)增加少量的參數(shù)量,得到在精度上的較大提升。通過(guò)綜合比較可以看出,在綜合考慮參數(shù)量與精度的情況下,本文方法均取得了很好的效果。

        Fig.5 Comparison of parameters of different methods圖5 不同方法參數(shù)量對(duì)比

        1.7 算法介紹

        根據(jù)1.3 節(jié)公式的推導(dǎo)過(guò)程與1.4 節(jié)、1.5 節(jié)對(duì)空間流模塊和時(shí)間流模塊的描述,本文算法的具體流程描述如算法1 所示。

        算法1本文算法的具體流程

        輸入:維度為(T×J×C1)的原始骨架序列。

        輸出:最終分類(lèi)結(jié)果。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集

        本文使用了兩個(gè)目前主流的基于人體骨架的數(shù)據(jù)集NTU60 RGB+D 數(shù)據(jù)集[20]和NTU120 RGB+D 數(shù)據(jù)集[19],作為實(shí)驗(yàn)對(duì)象,其樣例如圖6 所示。

        Fig.6 Visualization of three actions(reading,writing and shaking hands)in NTU RGB+D dataset圖6 NTU RGB+D 數(shù)據(jù)集中三種行為(閱讀、書(shū)寫(xiě)、握手)的可視化

        NTU60 RGB+D[15]數(shù)據(jù)集出自新加坡南洋理工大學(xué),該數(shù)據(jù)集由3 個(gè)Microsoft Kinect v2 相機(jī)同時(shí)捕獲完成,具體采樣點(diǎn)的分布如圖7 所示。該數(shù)據(jù)集采集的關(guān)節(jié)點(diǎn)數(shù)為25,相機(jī)擺放位置組合有17 個(gè),由56 880 個(gè)動(dòng)作片段組成,包含有40 名演員執(zhí)行的60個(gè)動(dòng)作分類(lèi)。

        本文采用了該數(shù)據(jù)的兩種評(píng)判標(biāo)準(zhǔn):(1)跨表演人(X-Sub),X-Sub 表示訓(xùn)練集和驗(yàn)證集中的行為來(lái)自不同的演員,其中身份標(biāo)識(shí)為1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38 的演員所演示的行為用于訓(xùn)練,而其余的用作測(cè)試,其中訓(xùn)練集樣本數(shù)為40 320,測(cè)試集樣本數(shù)為16 560。(2)跨視角(X-View),X-View 表示標(biāo)號(hào)為2 和3 的攝像機(jī)所拍攝的行為用作訓(xùn)練集數(shù)據(jù),另一個(gè)用作測(cè)試,其中訓(xùn)練集樣本數(shù)為37 920,測(cè)試集樣本為18 960。

        Fig.7 NTU RGB+D dataset joint point labels圖7 NTU RGB+D 數(shù)據(jù)集關(guān)節(jié)點(diǎn)標(biāo)簽

        NTU120 RGB+D 數(shù)據(jù)集[19]是對(duì)原數(shù)據(jù)集的擴(kuò)充,相機(jī)擺放位置組合由17 個(gè)擴(kuò)充到32 個(gè),動(dòng)作分類(lèi)由原來(lái)的60 類(lèi)行為擴(kuò)充到120 類(lèi),演員人數(shù)擴(kuò)充為106人,動(dòng)作片段擴(kuò)充到114 480,關(guān)節(jié)點(diǎn)數(shù)保持不變。

        本文采用該數(shù)據(jù)集的兩種評(píng)判標(biāo)準(zhǔn):(1)跨表演人(X-Sub),X-Sub 表示訓(xùn)練集和驗(yàn)證集中的行為來(lái)自不同的演員,其中身份標(biāo)識(shí)為1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38、45、46、47、49、50、52、53、54、55、56、57、58、59、70、74、78、80、81、82、83、84、85、86、89、91、92、93、94、95、97、98、100、103 的演員所演示的行為用于訓(xùn)練,而其余的用作測(cè)試。(2)跨相機(jī)擺放位置(X-Set),X-Set 表示將身份標(biāo)識(shí)為偶數(shù)的相機(jī)擺放位置組合用于訓(xùn)練,其余的用作測(cè)試。

        2.2 實(shí)驗(yàn)細(xì)節(jié)

        在實(shí)驗(yàn)過(guò)程中,將batch 設(shè)置為64,模型迭代次數(shù)(epoch)設(shè)置為120,批大小(batch size)為64,初始學(xué)習(xí)率為0.1,當(dāng)?shù)螖?shù)分別為60、90、110 時(shí),學(xué)習(xí)率乘以0.1。為了節(jié)省計(jì)算資源,提高計(jì)算效率,選用Adam 算法對(duì)模型進(jìn)行優(yōu)化,其中權(quán)重系數(shù)(weight decay)為0.000 1。為了防止過(guò)擬合,在訓(xùn)練時(shí)加入了Dropout,并設(shè)置為0.2。所有的模型由一塊GeForce RTX 2080 Ti GPU 訓(xùn)練完成,深度學(xué)習(xí)框架為PyTorch1.3,Python 版本為3.6。

        2.3 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證算法的效果,本文在NTU60 RGB+D[15]與NTU120 RGB+D[19]兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)對(duì)比,同時(shí)為了驗(yàn)證該網(wǎng)絡(luò)在較低參數(shù)量的情況下的具體表現(xiàn),僅選擇近兩年內(nèi)提出的主流方法作為參考比較的對(duì)象。其中在NTU60 RGB+D 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1 所示。

        Table 1 Comparison of accuracy on NTU60 RGB+D dataset表1 NTU60 RGB+D 數(shù)據(jù)集上的實(shí)驗(yàn)精度對(duì)比

        本文方法在NTU60 RGB+D數(shù)據(jù)集上的X-Sub與X-View 兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上的精度分別為89.9%、94.7%。相比于SGN[13],分別提升了0.9 個(gè)百分點(diǎn)與0.2 個(gè)百分點(diǎn)。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法AGC-LSTM(joint)[18]、基于卷積神經(jīng)網(wǎng)絡(luò)的方法VA-CNN[17]相比,無(wú)論是在參數(shù)量上還是在精度上,本文方法都有較大的提升。當(dāng)與基于圖卷積的方法ST-GCN[11]、AS-GCN[10]相比時(shí),本文方法在精度上和參數(shù)量上也較為優(yōu)越。具體的參數(shù)展示如表2 所示,相比于近兩年內(nèi)的其他方法,本文方法綜合表現(xiàn)最為出色。

        Table 2 Comparison of parameters表2 參數(shù)量對(duì)比

        為了更好地證明本文方法的優(yōu)越性,同樣在NTU120 RGB+D 數(shù)據(jù)集[19]上進(jìn)行了比較,具體的實(shí)驗(yàn)結(jié)果如表3 所示。

        在NTU120 RGB+D 數(shù)據(jù)集[19]上的X-Sub與X-Set兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上的精度分別為82.1%、83.8%。相比于SGN[13]方法,分別提升了2.9 個(gè)百分點(diǎn)與2.3 個(gè)百分點(diǎn)。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法Logsin-RNN[21]和基于卷積神經(jīng)網(wǎng)絡(luò)的方法Body Pose Evolution Map[22]相比,本文方法有較明顯的優(yōu)勢(shì)。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法GVFE+AS-GCN with DH-TCN[23]相比,本文方法也有一定的優(yōu)勢(shì)。在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文方法可以在兼顧參數(shù)量的同時(shí)顯著提高實(shí)驗(yàn)精度。

        Table 3 Comparison of accuracy on NTU120 RGB+D dataset表3 NTU120 RGB+D 數(shù)據(jù)集上的實(shí)驗(yàn)精度對(duì)比

        最后,為了更客觀地證明本文中所提出的多模態(tài)數(shù)據(jù)融合與時(shí)空間流模塊的性能和有效性,本文在NTU60 RGB+D 數(shù)據(jù)集[15]與NTU120 RGB+D 數(shù)據(jù)集[19]上分別構(gòu)建了五個(gè)網(wǎng)絡(luò),用來(lái)測(cè)試刪除該模塊后對(duì)整個(gè)實(shí)驗(yàn)結(jié)果的具體影響,具體實(shí)驗(yàn)結(jié)果如表4 所示。其中wo-bone(without bone information flow)表示為數(shù)據(jù)融合中缺少骨長(zhǎng)信息流;wo-motion(without motion information flow)表示為數(shù)據(jù)融合中缺少運(yùn)動(dòng)信息流;wo-diff(without velocity difference information flow)表示為數(shù)據(jù)融合中缺少速度差信息流;wo-diffbone(without bone information flow based on velocity difference)表示為數(shù)據(jù)融合中缺少基于速度差的骨長(zhǎng)信息流。最后一組表示缺少時(shí)空間流模塊中的密集連接與快捷連接。通過(guò)綜合比較NTU60 RGB+D數(shù)據(jù)集[15]與NTU120 RGB+D 數(shù)據(jù)集[19]上各模塊的測(cè)試結(jié)果,發(fā)現(xiàn)在這四類(lèi)數(shù)據(jù)之中,缺少骨長(zhǎng)信息流和速度差信息流會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成較大影響。綜合上述分析,證明了本文提出的多模態(tài)數(shù)據(jù)融合與時(shí)空間流模塊的有效性。

        Table 4 Comparison of different modules表4 各模塊對(duì)比%

        3 結(jié)束語(yǔ)

        針對(duì)傳統(tǒng)的行為識(shí)別方法計(jì)算復(fù)雜度過(guò)高的問(wèn)題,本文提出了一種基于輕量級(jí)圖卷積的人體骨架數(shù)據(jù)的行為識(shí)別方法。該算法通過(guò)多模態(tài)數(shù)據(jù)融合與自適應(yīng)圖卷積相結(jié)合的方式,在兼顧參數(shù)量的同時(shí)取得了很好的效果,同時(shí)通過(guò)密集連接以及快捷連接的方式提高特征的利用率。最后,在行為識(shí)別數(shù)據(jù)集NTU60 RGB+D 和NTU120 RGB+D 上的實(shí)驗(yàn)結(jié)果表明,該方法在較低參數(shù)量的情況下,能達(dá)到較高的實(shí)驗(yàn)精度。美中不足的是,通過(guò)密集連接以及快捷連接的方式雖然能夠大幅提高精度,但是仍然會(huì)對(duì)參數(shù)量造成一定的影響。在未來(lái)的工作中,將繼續(xù)研究基于人體骨架數(shù)據(jù)的行為識(shí)別方法,實(shí)現(xiàn)以更少的參數(shù)量達(dá)到更高的精度這一目標(biāo)。

        猜你喜歡
        關(guān)節(jié)點(diǎn)信息流骨架
        電子樂(lè)園·上旬刊(2022年5期)2022-04-09 22:18:32
        基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
        關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
        基于信息流的作戰(zhàn)體系網(wǎng)絡(luò)效能仿真與優(yōu)化
        骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
        基于信息流的RBC系統(tǒng)外部通信網(wǎng)絡(luò)故障分析
        戰(zhàn)區(qū)聯(lián)合作戰(zhàn)指揮信息流評(píng)價(jià)模型
        搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
        基于任務(wù)空間的體系作戰(zhàn)信息流圖構(gòu)建方法
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        国产一区二区三区青青草| 国产偷国产偷亚洲欧美高清| 久久久久国产精品四虎| 激情亚洲不卡一区二区| 国产精品成熟老女人| 欧美日韩精品一区二区在线观看| 在线观看国产内射视频| 97中文乱码字幕在线| 日韩AV无码乱伦丝袜一区| 久久综合激情的五月天| 国产日韩精品欧美一区喷水| 国产在线精品一区二区不卡| 精品国产迪丽热巴在线| 亚洲精品女同一区二区三区| 国产二级一片内射视频播放| 国产精品一区二区久久| 中日韩字幕中文字幕一区| 亚洲av毛片在线免费看| 国产又爽又黄又刺激的视频| 午夜性刺激免费视频| 国产白浆流出一区二区| 国产亚洲成人av一区| 亚洲av综合日韩| 一区二区三区福利在线视频| 国产精品自拍视频在线| 亚洲av无一区二区三区久久| 欧美一片二片午夜福利在线快| 一本一道久久a久久精品综合蜜桃| h视频在线播放观看视频| 美女无遮挡免费视频网站| 午夜a福利| 国产精品综合女同人妖| 久久综合亚洲色一区二区三区| 亚洲日本va中文字幕久久| 日本少妇比比中文字幕| 国产三级精品视频2021| 三上悠亚久久精品| 国产裸体AV久无码无遮挡| 亚洲综合一区二区三区天美传媒| 国産精品久久久久久久| 91精品日本久久久久久牛牛|