亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于2S-LSGCN的人體動(dòng)作識(shí)別

        2022-03-01 13:13:08邱衛(wèi)根張立臣黃云暉
        關(guān)鍵詞:動(dòng)作特征

        葉 典,邱衛(wèi)根,張立臣,黃云暉

        (廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)

        0 引 言

        隨著網(wǎng)絡(luò)多媒體的快速發(fā)展以及視頻獲取設(shè)備的日漸普及,越來越多的視頻被共享。如何理解和分析這些海量涌現(xiàn)的視頻數(shù)據(jù)具有重大的理論及應(yīng)用價(jià)值[1,2]。一般而言,人類行為可以從多種模式中識(shí)別[3-5],其中人的骨架關(guān)節(jié)圖中包含豐富的動(dòng)作特征信息[6-9]。通過分析動(dòng)態(tài)骨架模態(tài)與運(yùn)動(dòng)模式的關(guān)系,就可以對(duì)人類的動(dòng)作進(jìn)行識(shí)別。

        盡管傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在文本和圖像領(lǐng)域帶來提升[10-13],但是它僅能處理歐氏空間數(shù)據(jù),不能直接處理不規(guī)則的非歐式空間數(shù)據(jù)。最近,Shahroudy等[14]已開發(fā)出嘗試?yán)藐P(guān)節(jié)之間自然連接的方法。Donahue等[15]提出GCA-LSTM用來建模動(dòng)作序列中有效的全局上下文信息,該模型能有效提取人體動(dòng)作的時(shí)序特征,但模型收斂慢,訓(xùn)練難度大。Yan等[16]提出了一種基于距離的采樣函數(shù)來構(gòu)造圖卷積層,然后將其用作基本模塊以構(gòu)建時(shí)空?qǐng)D卷積網(wǎng)絡(luò)。Liu等[17]構(gòu)建基于骨骼特征的全局上下文感知LSTM(GCA-LSTM)網(wǎng)絡(luò),在人體動(dòng)作識(shí)別數(shù)據(jù)集NTU-RGBD上的識(shí)別率達(dá)到77.1%。

        本文從以上問題出發(fā),提出了一種基于GCN與LSTM相結(jié)合的雙流網(wǎng)絡(luò)方法2S-LSGCN。本模型中,GCN網(wǎng)絡(luò)主要用于提取人體骨架中隱含的空間特征信息,采用Bi-LSTM提取完整骨架圖中動(dòng)作的時(shí)間特征信息作為補(bǔ)充,并在輸入LSTM網(wǎng)絡(luò)前加入時(shí)間特征下采樣層,用于提取豐富且抽象的時(shí)序特征。最后分別將雙流網(wǎng)絡(luò)的預(yù)測(cè)輸出進(jìn)行晚融合,得到雙流網(wǎng)絡(luò)最終預(yù)測(cè)輸出值。該方法在具有3D骨骼關(guān)節(jié)點(diǎn)的數(shù)據(jù)集NTU-RGBD上進(jìn)行驗(yàn)證。

        1 相關(guān)原理介紹

        1.1 人體骨架特征的獲取

        在視頻流的人體動(dòng)作識(shí)別任務(wù)中,大多數(shù)研究者關(guān)注的僅僅是RGB視頻流中的像素信息,忽略人的動(dòng)作表現(xiàn),最主要是由骨架和關(guān)節(jié)點(diǎn)間相互牽引協(xié)作共同完成,所以人的骨架關(guān)節(jié)圖中包含豐富的動(dòng)作特征信息。但大多數(shù)動(dòng)作識(shí)別數(shù)據(jù)集,例如HMDB、20BN-jester、Kinetics等,只有RGB視頻或圖像樣本,并沒有標(biāo)注人的關(guān)節(jié)點(diǎn)信息。

        目前主要有兩種方法獲取時(shí)序流的人體關(guān)節(jié)點(diǎn)特征信息:①通過Kinect(3D體感攝影機(jī))捕捉三維空間中人物的運(yùn)動(dòng)的深度信息,進(jìn)而從深度圖像中獲取骨骼點(diǎn)坐標(biāo)組成人體骨架關(guān)節(jié)圖,具體流程如圖1所示;②動(dòng)作RGB視頻流可以使用2D姿態(tài)估計(jì)算法(例如OpenPose),提取其中人物的關(guān)節(jié)點(diǎn)2維坐標(biāo)和關(guān)節(jié)間的骨骼信息。

        圖1 Kinect獲取骨架圖的架構(gòu)

        1.2 圖卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是深層神經(jīng)網(wǎng)絡(luò)一種經(jīng)典而廣泛應(yīng)用的結(jié)構(gòu),其中深層神經(jīng)網(wǎng)絡(luò)是包含多級(jí)非線性變換的層級(jí)機(jī)器學(xué)習(xí)方法,所以CNN在這方面更加超越原始基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的局部連接、權(quán)值共享和池化運(yùn)算可以有效地降低網(wǎng)絡(luò)的復(fù)雜度,減少訓(xùn)練參數(shù)的數(shù)目,使模型在一定程度上對(duì)平移、失真和縮放不變性,具有較強(qiáng)的魯棒性和容錯(cuò)性,且易于訓(xùn)練并進(jìn)行優(yōu)化。

        盡管傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在文本和圖像領(lǐng)域帶來提升,但是它僅能處理歐氏空間數(shù)據(jù),卻不能直接處理不規(guī)則的非歐式空間數(shù)據(jù)。但由人的動(dòng)作可以由關(guān)節(jié)間位置的變化[15,19],抽象成圖結(jié)構(gòu)表示,所以2D或3D關(guān)節(jié)點(diǎn)坐標(biāo)組成的動(dòng)作骨架關(guān)節(jié)圖中,包含了豐富的動(dòng)作特征信息。最近,已開發(fā)出嘗試?yán)藐P(guān)節(jié)之間自然連接的新方法。骨架關(guān)節(jié)圖是圖結(jié)構(gòu)形式,而不是2D或3D網(wǎng)格,這使得很難使用卷積網(wǎng)絡(luò)等經(jīng)過驗(yàn)證的模型。對(duì)于基于骨骼的動(dòng)作識(shí)別任務(wù),Yan等[16]首先應(yīng)用GCN對(duì)骨架數(shù)據(jù)進(jìn)行建模。提出了一種基于距離的采樣函數(shù)來構(gòu)造圖卷積層,然后將其用作基本模塊以構(gòu)建最終的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)。

        由于輸入網(wǎng)絡(luò)的人體骨架時(shí)空?qǐng)D是不規(guī)則的非歐式空間數(shù)據(jù),傳統(tǒng)的卷積網(wǎng)絡(luò)(CNN)不能直接應(yīng)用于提取圖數(shù)據(jù)的特征,因此使用圖卷積提取關(guān)節(jié)點(diǎn)空間上的局部位置特征。對(duì)于骨架時(shí)空?qǐng)D的空間維度,圖卷積(graph convolution operation)對(duì)于各個(gè)頂點(diǎn)vi的卷積運(yùn)算如下

        其中,fout表示特征結(jié)構(gòu)體,vj表示圖中的頂點(diǎn),Bi表示卷積操作在vi上的感受野(定義卷積中心和它鄰居節(jié)點(diǎn)相距1)。 W是權(quán)重函數(shù),與傳統(tǒng)卷積(CNN)的相似。

        1.3 長(zhǎng)短期記憶網(wǎng)絡(luò)

        RNN在視頻時(shí)序類任務(wù)中已經(jīng)成為常用方法,而LSTM是目前效果最好的一種RNN,主要得益于它具有長(zhǎng)時(shí)間的記憶,在處理序列時(shí),該時(shí)刻的輸出特征,將會(huì)與下一個(gè)時(shí)刻的樣本信息一起輸入,如此很好保留了序列的時(shí)間信息,大大提升模型對(duì)動(dòng)作幀間信息的感知能力。

        LSTM通常用來處理依賴時(shí)間的序列問題,但LSTM的記憶能力也是有限的,Bi-LSTM處理時(shí)間序列的能力更強(qiáng)。Bi-LSTM使用兩層不同方向的LSTM相連,用于捕獲三維骨骼坐標(biāo)隨時(shí)間演變的深層時(shí)空特征。LSTM網(wǎng)絡(luò)主要包含:3個(gè)gate門(輸入門it、 遺忘門ft、 輸出門ot), 單元狀態(tài)ct, 隱藏狀態(tài)ht。 其中LSTM從時(shí)間序列中提取關(guān)聯(lián)信息的能力,主要得益于單元狀態(tài)ct, 隱藏狀態(tài)ht的巧妙設(shè)計(jì),這使得LSTM能選擇丟棄或保留具有時(shí)序意義的特征。具體運(yùn)算如下式

        ft=σg(Wfxt+Ufht-1+bf)it=σg(Wixt+Uiht-1+bi)ot=σg(Woxt+Uoht-1+bo)ct=ft°ct-1+it°σc(Wcxt+Ucht-1+bc)ht=ot°σh(ct)

        2 本文的模型

        2.1 總體框架

        在這一節(jié)中,主要介紹本文提出的2S-LSGCN雙流網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)。2S-LSGCN是由長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)與圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)相結(jié)合,其中圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)用于提取骨架圖中節(jié)點(diǎn)的空間關(guān)系特征,并使用時(shí)間記憶能力更強(qiáng)的雙向長(zhǎng)短記憶網(wǎng)絡(luò)(Bi-LSTM),用于提取骨架圖中動(dòng)作序列的時(shí)間特征信息。

        具體的,模型的思路是利用2D姿態(tài)估計(jì)算法,從動(dòng)作視頻流中計(jì)算出人體關(guān)節(jié)點(diǎn),在每一幀空間上的2維坐標(biāo) (x,y,c), 其中x,y分別表示二維坐標(biāo),c表示置信度。并將時(shí)間與空間上的關(guān)節(jié)特征組成的骨架關(guān)節(jié)圖,分別輸入GCN網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)中。由于原始骨架關(guān)節(jié)的時(shí)間序列長(zhǎng)度過長(zhǎng),且每個(gè)視頻樣本的時(shí)長(zhǎng)不一,LSTM網(wǎng)絡(luò)無法有效提取時(shí)間序列前后的特征關(guān)系。通過加入時(shí)間特征下采樣層(subsampled layers),對(duì)骨架關(guān)節(jié)圖中時(shí)間維度進(jìn)行降維處理。最后分別將雙流網(wǎng)絡(luò)的預(yù)測(cè)輸出進(jìn)行晚融合(late fusion),提高單個(gè)網(wǎng)絡(luò)泛化能力不足的問題。本文的模型如圖2所示。

        圖2 2S-LSGCN網(wǎng)絡(luò)結(jié)構(gòu)

        2.2 構(gòu)建骨架關(guān)節(jié)圖

        本文采用圖結(jié)構(gòu)數(shù)據(jù)—骨架關(guān)節(jié)圖,分別作為L(zhǎng)STM和GCN兩個(gè)網(wǎng)絡(luò)的輸入。以下介紹骨架關(guān)節(jié)圖的構(gòu)建方法。首先,本文采用2D姿態(tài)估計(jì)算法,OpenPose獲取視頻中各幀關(guān)節(jié)點(diǎn)的坐標(biāo)信息,并將每一幀關(guān)節(jié)點(diǎn)不同位置的坐標(biāo),組合成骨架關(guān)節(jié)時(shí)空?qǐng)D。

        具體的,需要將所有視頻的分辨率調(diào)整為較小的(340×256),幀率轉(zhuǎn)換為30 FPS。這樣做的目的是,提高姿態(tài)估計(jì)的準(zhǔn)確率,并減小模型的推理時(shí)間。其次,使用OpenPose工具箱來估計(jì)每一幀中18個(gè)關(guān)節(jié)的位置。該工具箱在像素坐標(biāo)系中提供了2D坐標(biāo) (x,y), 并給出了18個(gè)人體關(guān)節(jié)的置信度得分c。 因此,我們用 (x,y,c) 元組表示每個(gè)關(guān)節(jié)的二維坐標(biāo)信息。

        2D姿態(tài)估計(jì)算法僅僅只是獲得關(guān)節(jié)點(diǎn)的坐標(biāo)信息,但關(guān)節(jié)點(diǎn)間的空間和時(shí)間維度并沒有建立聯(lián)系,并不能直接輸入圖卷積神經(jīng)網(wǎng)絡(luò),所以首先要根據(jù)關(guān)節(jié)坐標(biāo)建立完整的骨架關(guān)節(jié)圖。在視頻的一幀中,原始的骨架數(shù)據(jù)始終以向量序列的形式表示,每個(gè)向量代表相應(yīng)人體關(guān)節(jié)點(diǎn)的2D或3D坐標(biāo)。對(duì)于不同的樣本,一個(gè)完整的動(dòng)作包含多個(gè)長(zhǎng)度不同的幀。本文建立的圖結(jié)構(gòu)遵循ST-GCN[16]的工作,采用時(shí)空?qǐng)D來模擬這些關(guān)節(jié)沿空間和時(shí)間維度的結(jié)構(gòu)化信息。圖3顯示了所構(gòu)建的時(shí)空骨架關(guān)節(jié)圖,其中關(guān)節(jié)表示為頂點(diǎn),而它們?cè)谌梭w中的自然連接表示為邊。對(duì)于時(shí)間維度,相鄰兩幀之間的相應(yīng)關(guān)節(jié)與時(shí)間邊緣連接,每個(gè)關(guān)節(jié)的坐標(biāo)矢量設(shè)置為相應(yīng)頂點(diǎn)的屬性。

        圖3 時(shí)空骨架關(guān)節(jié)

        2.3 空間GCN網(wǎng)絡(luò)

        相比于動(dòng)作RGB視頻流動(dòng)作,骨架關(guān)節(jié)圖的特征維度更小。所以基于圖結(jié)構(gòu)作為輸入的網(wǎng)絡(luò),不僅在運(yùn)行速度成倍提升,而且計(jì)算量也遠(yuǎn)遠(yuǎn)小于傳統(tǒng)CNN網(wǎng)絡(luò)。但同樣帶來一個(gè)難題,就是如何在空間拓?fù)浣Y(jié)構(gòu)簡(jiǎn)單和時(shí)間序列信息缺乏的情況下,依然能保持很高的識(shí)別準(zhǔn)確率。也就是如何從少量的低維特征中,提取出抽象的高維特征,進(jìn)而準(zhǔn)確預(yù)測(cè)出動(dòng)作的類別。從這個(gè)問題出發(fā),本文使用多層堆疊的深層神經(jīng)網(wǎng)絡(luò),具體是將多個(gè)輸入輸出維度不同的圖卷積層進(jìn)行堆疊,進(jìn)而提取出豐富的高維特征。其次,人的關(guān)節(jié)點(diǎn)數(shù)目一般小于30個(gè),所以采用3*3尺度小的卷積核,大大縮小感受野,并能更集中地提取到空間依賴性強(qiáng)的關(guān)節(jié)信息。最后,實(shí)驗(yàn)結(jié)果表明小于9層的圖卷積網(wǎng)絡(luò),預(yù)測(cè)結(jié)果會(huì)大大降低,而大于9層后,網(wǎng)絡(luò)的準(zhǔn)確率不僅沒有提高,計(jì)算量反而成倍增加,所以本模型將圖卷積層的數(shù)量確定在9層。

        骨架時(shí)空?qǐng)D中各頂點(diǎn)并沒有固定數(shù)量的鄰居節(jié)點(diǎn),所以在圖結(jié)構(gòu)數(shù)據(jù)中做卷積操作,需要定義映射函數(shù)li, 使得各個(gè)頂點(diǎn)對(duì)應(yīng)唯一的權(quán)重向量。根據(jù)ST-GCN中的結(jié)果顯示,依據(jù)離重心點(diǎn)的距離定義分割策略,得到的映射函數(shù)最優(yōu)。具體運(yùn)算如下式

        該策略將圖卷積核尺寸設(shè)為3,并將感受野Bi分為3個(gè)子集:①S1根節(jié)點(diǎn)本身;②S2向心子集,即該鄰居節(jié)點(diǎn)離重心更近;③S3離心子集,即該鄰居節(jié)點(diǎn)離重心更遠(yuǎn)。

        隨著網(wǎng)絡(luò)深度的加深,多次卷積連乘后梯度越來越小,出現(xiàn)了梯度消散的問題。且輸入維度與輸出維度相差太大,提取特征過于抽象,與原始特征信息相差甚遠(yuǎn),導(dǎo)致動(dòng)作預(yù)測(cè)的準(zhǔn)確率降低。所以本文引入了殘差機(jī)制(skip connect),將卷積層的輸入特征與該層的輸出進(jìn)行融合,計(jì)算模式如下式所示

        xl+1=xl+F(xl,Wl)

        其中,xl,xl+1分別表示為圖卷積層的輸入特征與輸出特征,F(xiàn)表示為該層中一系列的非線性變換,Wl為權(quán)重參數(shù)的集合。若特征經(jīng)過卷積層后,輸出的特征維度發(fā)生變化,則需要在殘差公式中加入上采樣或下采樣處理,視具體情況而定。修改后的公式如下

        xl+1=h(xl)+F(xl,Wl)

        為避免在該層產(chǎn)生過擬合,并降低網(wǎng)絡(luò)的參數(shù)量。將圖卷積網(wǎng)絡(luò)的輸出特征進(jìn)行全局池化,最后損失函數(shù)是ReLu函數(shù),對(duì)輸入進(jìn)行非線性處理,輸出預(yù)測(cè)結(jié)果。

        2.4 時(shí)間LSTM網(wǎng)絡(luò)

        長(zhǎng)短記憶網(wǎng)絡(luò)是一種時(shí)序神經(jīng)網(wǎng)絡(luò)(RNN),能夠記住很長(zhǎng)一段時(shí)間序列的前后特征關(guān)系。由于圖卷積神經(jīng)網(wǎng)絡(luò)僅適用簡(jiǎn)單的時(shí)間卷積核,對(duì)骨架關(guān)節(jié)圖的時(shí)間維度進(jìn)行處理。因此只提取到部分關(guān)節(jié)點(diǎn)前后變化的特征,卻丟失視頻流豐富的時(shí)間信息。所以本文模型選擇使用雙向長(zhǎng)短記憶網(wǎng)絡(luò)(Bi-LSTM)作為補(bǔ)充,Bi-LSTM能夠同時(shí)學(xué)習(xí)順序和逆序的時(shí)間信息,以此增強(qiáng)模型對(duì)時(shí)序信息的提取能力。

        不同于端到端的CNN-LSTM網(wǎng)絡(luò),將CNN提取的高維特征輸入LSTM中。在本文模型中,雙層Bi-LSTM網(wǎng)絡(luò)使用原始未經(jīng)處理的骨架關(guān)節(jié)時(shí)空?qǐng)D作為輸入,因此保留了更加豐富的原始時(shí)序特征。具體的,BL-1、BL-2表示第一層和第二層Bi-LSTM層。即將BL-1與BL-2層堆疊在一起,BL-1的輸出作為BL-2的輸入。具體通過如下公式表示

        fout(x)=fBL-2(fBL-1(x,W1),W2)

        其中,fout為第二層Bi-LSTM的輸出, fBL-1(*) 為第一層Bi-LSTM的特征提取函數(shù), fBL-2(*) 為第二層Bi-LSTM的特征提取函數(shù),W1、W2分別表示BL-1與BL-2層的權(quán)重參數(shù)。

        由于輸入的原始骨架關(guān)節(jié)時(shí)空?qǐng)D中,時(shí)間的特征序列長(zhǎng)度太長(zhǎng),且每個(gè)視頻樣本的時(shí)長(zhǎng)不一。以10 s的跑步視頻V1為例,經(jīng)過30 FPS/S提取出一個(gè)代表視頻的輸入樣本 {x1,x2,x3,…,xt-1,xt}, 其中t=300, 即輸入的時(shí)間特征維度T=300。 若將該樣本數(shù)據(jù)直接輸入Bi-LSTM網(wǎng)絡(luò)中,則網(wǎng)絡(luò)中的輸入維度也必須與樣本特征維度相等。但循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶能力是有限的,Bi-LSTM無法從T=300這么長(zhǎng)的時(shí)間特征中學(xué)習(xí)到前后的相關(guān)性,并且將會(huì)大大增加網(wǎng)絡(luò)的權(quán)重?cái)?shù)量,損耗大量的計(jì)算資源。

        基于上述問題,本文在骨架關(guān)節(jié)圖直接輸入Bi-LSTM網(wǎng)絡(luò)之前,引入下采樣層(subsampled layer),通過對(duì)樣本的時(shí)間維度進(jìn)行下采樣,得到時(shí)間維度更短、特征更抽象的時(shí)間序列。通過調(diào)查研究發(fā)現(xiàn),均值池化(mean-pooling)與1*1卷積(1*1 convolution)兩種常見且有效的下采樣策略。均值池化對(duì)圖像特征進(jìn)行降維的效果優(yōu)異,但由于圖結(jié)構(gòu)數(shù)據(jù)與歐氏空間數(shù)據(jù)最大的區(qū)別在于,圖中各頂點(diǎn)間存在空間拓?fù)潢P(guān)系,而均值池化會(huì)丟失這種重要的拓?fù)溥B接。所以本文采用1*1卷積操作,對(duì)骨架關(guān)節(jié)圖的時(shí)間維度進(jìn)行下采樣降維。具體用T、T′分別表示下采樣層的輸入和輸出時(shí)間維度,其中T=300經(jīng)過下采樣后得到T′=75。 實(shí)驗(yàn)結(jié)果表明,當(dāng)T′=75, Bi-LSTM能學(xué)到更好的時(shí)間特征依賴,具體見實(shí)驗(yàn)部分。

        2.5 雙流2S-LSGCN網(wǎng)絡(luò)

        將2.4節(jié)的GCN與2.5節(jié)改進(jìn)的Bi-LSTM網(wǎng)絡(luò)進(jìn)行融合,形成2S-LSGCN雙流網(wǎng)絡(luò),不僅大大提高了識(shí)別的精度,而且是并行同步運(yùn)行的強(qiáng)大特征提取網(wǎng)絡(luò)。其中GCN用于提取輸入的骨架關(guān)節(jié)點(diǎn)間的空間信息,改進(jìn)的Bi-LSTM提取依賴于時(shí)間的時(shí)間特征,以此補(bǔ)充GCN在時(shí)間敏感性上的不足。將兩個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行晚融合(late fusion),得到雙流網(wǎng)絡(luò)最終的預(yù)測(cè)輸出值。

        具體的,通過相加并行(add connection)策略,結(jié)合GCN與Bi-LSTM兩個(gè)網(wǎng)絡(luò)的檢測(cè)結(jié)果改進(jìn)最終的檢測(cè)性能。具體公式如下

        y2S-LSGCN=yGCN+α*yBi-LSTM

        其中,y2S-LSGCN表示雙流網(wǎng)絡(luò)最終的分類(classification)預(yù)測(cè)結(jié)果,yGCN,yBi-LSTM分別表示GCN和Bi-LSTM網(wǎng)絡(luò)的檢測(cè)結(jié)果。α是通過實(shí)驗(yàn)結(jié)果反饋,可調(diào)整的超參數(shù)。

        3 實(shí)驗(yàn)及其結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文的實(shí)驗(yàn)是在富有挑戰(zhàn)性的NTU-RGBD數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集是目前在人體動(dòng)作識(shí)別領(lǐng)域,最大的具有3D關(guān)節(jié)標(biāo)簽的數(shù)據(jù)集。該數(shù)據(jù)集包含60個(gè)日常動(dòng)作類別,共56 000個(gè)動(dòng)作視頻片段,部分動(dòng)作樣例如圖4所示。這些視頻動(dòng)作樣本是由3個(gè)固定位置的Kinect深度傳感器,在實(shí)驗(yàn)環(huán)境下采集40個(gè)志愿者演示的結(jié)果。其中,每一幀骨架序列包含人體的25個(gè)關(guān)節(jié)點(diǎn)的3D坐標(biāo)信息 (x,y,z)。 除此之外,該數(shù)據(jù)集可按訓(xùn)練與測(cè)試集樣本類型的不同,分為兩個(gè)具有挑戰(zhàn)性的任務(wù)——跨人物(cross-subject,X-Sub)與跨視角(cross-view,X-View)。①X-Sub:訓(xùn)練集共40 320個(gè)樣本,測(cè)試集包含16 560個(gè)樣本。其中訓(xùn)練集均來自同一個(gè)志愿者的動(dòng)作,該任務(wù)要求模型在包含不同人的測(cè)試集上進(jìn)行性能評(píng)估。②X-View:訓(xùn)練集共37 920個(gè)樣本,測(cè)試集18 960個(gè)樣本。其中訓(xùn)練集的動(dòng)作片段,采集自攝像機(jī)2號(hào)與攝像機(jī)3號(hào)。測(cè)試集的樣本全部均有攝像機(jī)1號(hào)采集獲取。

        圖4 NTU-RGBD數(shù)據(jù)集的部分樣例

        3.2 實(shí)驗(yàn)細(xì)節(jié)

        本實(shí)驗(yàn)將雙流網(wǎng)絡(luò)中的GCN與LSTM,分開在兩臺(tái)服務(wù)器上并行運(yùn)行,之后將GCN和Bi-LSTM在NTU-RGBD數(shù)據(jù)集上返回的預(yù)測(cè)結(jié)果,通過晚融合得到雙流網(wǎng)絡(luò)的最終輸出。空間流(GCN)與時(shí)間流(LSTM)網(wǎng)絡(luò)均采用原始的骨架關(guān)節(jié)圖 (N,C,T,V,M) 作為輸入,參數(shù)分別對(duì)應(yīng)(批大小、關(guān)節(jié)點(diǎn)維度、時(shí)序長(zhǎng)度、關(guān)節(jié)點(diǎn)數(shù)量、單幀中人的個(gè)數(shù))。Bi-LSTM網(wǎng)絡(luò)使用的優(yōu)化器為Adam優(yōu)化器,批大小設(shè)置為40。Bi-LSTM中的下采樣層,即1*1卷積層的輸入維度T=300, 輸出維度T′=75。 除此之外,GCN與LSTM網(wǎng)絡(luò)均采用小批量隨機(jī)梯度下降來學(xué)習(xí)網(wǎng)絡(luò)權(quán)重,權(quán)重衰減設(shè)置為10-4,且初始學(xué)習(xí)率與dropout的大小分別為0.1,0.5。兩個(gè)網(wǎng)絡(luò)的激活函數(shù)為ReLu,最后用Softmax函數(shù)實(shí)現(xiàn)最后的輸出。

        本文模型使用基于python的深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),并在Ubuntu16.04系統(tǒng),NVIDIA-P100 32 G顯存的GPU上進(jìn)行實(shí)驗(yàn)。

        3.3 實(shí)驗(yàn)結(jié)果和分析

        在2.4節(jié)中介紹了1*1卷積下采樣層,為了驗(yàn)證下采樣層對(duì)Bi-LSTM網(wǎng)絡(luò)性能提升的有效性。本文在NTU-RGBD數(shù)據(jù)集的跨人物(cross-subject,X-Sub)任務(wù)中,雙層Bi-LSTM網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果見表1。從表中可以看出,當(dāng)不使用下采樣層,即直接使用時(shí)間維度T=300的原始骨架圖作為輸入,網(wǎng)絡(luò)在驗(yàn)證集上的Top1精度僅為54.38%,遠(yuǎn)遠(yuǎn)低于時(shí)間降維后的結(jié)果。其次,在實(shí)驗(yàn)中不斷調(diào)整下采樣層的輸出維度時(shí),發(fā)現(xiàn)時(shí)間維度越高T=125, 雖然保留的特征信息越豐富,但不利于Bi-LSTM 網(wǎng)絡(luò)學(xué)習(xí)時(shí)間特征前后關(guān)系。但時(shí)間維度降維到更抽象的T=50時(shí),卻會(huì)嚴(yán)重丟失時(shí)序信息。而當(dāng)降維使用得恰當(dāng),即T=75能使Bi-LSTM網(wǎng)絡(luò)的預(yù)測(cè)Top1精度達(dá)到最高66.90%。所以本文以下實(shí)驗(yàn)中,統(tǒng)一采用該下采樣層參數(shù)。

        表1 不同下采樣維度的影響

        為分析不同LSTM網(wǎng)絡(luò)對(duì)雙流網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的影響,做了以下對(duì)比實(shí)驗(yàn)。從表2可以看出,當(dāng)沒有LSTM網(wǎng)絡(luò)時(shí),GCN單流網(wǎng)絡(luò)的精度要低于其中任何一個(gè)雙流網(wǎng)絡(luò)。并且,在僅使用簡(jiǎn)單的單層LSTM網(wǎng)絡(luò)作為補(bǔ)充,就能提高預(yù)測(cè)精度。Bi-LSTM相比于LSTM有明顯的改善,在同等條件下精度提升了0.6%。而當(dāng)使用雙層Bi-LSTM時(shí),Top1的精度提升了將近2%,Top5分類的正確率也提高了1%~2%,這主要得益于Bi-LSTM能夠?qū)W習(xí)到時(shí)間的逆序信息。

        表2 LSTM網(wǎng)絡(luò)對(duì)2S-LSGCN的影響

        為了驗(yàn)證本文算法的識(shí)別效果,將本文模型與國內(nèi)外相關(guān)模型進(jìn)行對(duì)比。Liu等將RNN同時(shí)延伸到時(shí)間與空間維度,來同時(shí)從兩個(gè)維度分析數(shù)據(jù)中的動(dòng)作信息,在NTU-RGBD數(shù)據(jù)集X-Sub與X-View上,分別達(dá)到50.1%、52.8%的精度。Yan等提出時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò),在單幀上使用空間卷積,并用時(shí)間卷積提取幀間關(guān)節(jié)點(diǎn)時(shí)序特征,該網(wǎng)絡(luò)達(dá)到81.5%、88.3%。Tang等提出了一種用于基于骨架的視頻中的動(dòng)作識(shí)別的深度漸進(jìn)強(qiáng)化學(xué)習(xí)(DPRL)方法,其旨在提取最具信息性的幀并丟棄序列中的模糊幀以識(shí)別動(dòng)作,分類的精度達(dá)到83.81%和89.8%。具體實(shí)驗(yàn)比較結(jié)果見表3。

        表3 NTU-RGBD數(shù)據(jù)集上的精度對(duì)比/%

        4 結(jié)束語

        本文提出一種基于GCN和LSTM結(jié)合的雙流網(wǎng)絡(luò)方法,用于解決視頻流中動(dòng)作識(shí)別的難題。不同于傳統(tǒng)的利用RGB圖像作為輸入的網(wǎng)絡(luò),2S-LSGCN使用人體關(guān)節(jié)點(diǎn)坐標(biāo)組成的骨架關(guān)節(jié)圖作為輸入,GCN作為空間特征提取器,Bi-LSTM用于提取時(shí)間維度的逆序信息。并在時(shí)序流網(wǎng)絡(luò)中,加入1*1卷積下采樣層,提取豐富且抽象的時(shí)序特征,最后分別將雙流網(wǎng)絡(luò)的預(yù)測(cè)輸出進(jìn)行晚融合,得到雙流網(wǎng)絡(luò)最終的預(yù)測(cè)輸出值。本文2S-LSGCN模型在富有挑戰(zhàn)性的NTU-RGBD數(shù)據(jù)集上分別達(dá)到83.8%、90.2%的精度,結(jié)果表明本文所述識(shí)別算法具有較高的識(shí)別能力,該識(shí)別方法可行。

        猜你喜歡
        動(dòng)作特征
        抓住特征巧觀察
        下一個(gè)動(dòng)作
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        動(dòng)作描寫要具體
        抓住特征巧觀察
        畫動(dòng)作
        讓動(dòng)作“活”起來
        動(dòng)作描寫不可少
        国产视频不卡在线| 国内精品伊人久久久久网站| 日本高清h色视频在线观看| 婷婷四房播播| 色优网久久国产精品| 日本一区二区免费看片| 琪琪色原网站在线观看| 日本公妇在线观看中文版| 国产无套视频在线观看香蕉| 日韩av在线不卡观看| 亚洲国产精品成人av在线不卡| 影音先锋色小姐| 国产一区二区三区四区五区vm| 亚洲乱码一区AV春药高潮 | 亚洲精品岛国av一区二区| 国产激情无码一区二区| 亚洲欧洲精品成人久久曰影片| 久久久久亚洲AV片无码乐播| 一区二区三区亚洲免费| 狠狠色噜噜狠狠狠777米奇| 少妇人妻偷人精品视蜜桃| 伊人狠狠色j香婷婷综合| 免费视频亚洲一区二区三区| 朋友的丰满人妻中文字幕| 色一乱一伦一图一区二区精品| 久久精品国产亚洲AV高清y w| 久久免费亚洲免费视频| 激烈的性高湖波多野结衣| 欧美午夜a级精美理论片| 成人免费毛片在线播放| 国产亚洲精品av久久| 精品国产一区二区三区免费| 调教在线播放黄| 久久精品视频日本免费| 国产夫妇肉麻对白| 欧美黑人又粗又大久久久| 女优免费中文字幕在线| 手机在线亚洲精品网站| 射死你天天日| 九九精品国产99精品| 精品国产一区二区三区av免费|