亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合幾何特征時(shí)空圖卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別①

        2022-11-07 09:08:04鄒浩立
        關(guān)鍵詞:特征融合方法

        鄒浩立

        (華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510631)

        1 引言

        人類動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門話題,其廣泛地應(yīng)用在視頻監(jiān)控、人機(jī)交互和自動(dòng)駕駛等領(lǐng)域中[1].同時(shí),動(dòng)作識(shí)別也是視頻理解方向很重要的一個(gè)問題,至今為止已經(jīng)被研究多年[2].簡單地說,動(dòng)作識(shí)別問題就是: 對于給定的分割好的視頻片段,按照其中的人物動(dòng)作,如: 打球、跑步和揮手,進(jìn)行分類.根據(jù)輸入模型的模態(tài),動(dòng)作識(shí)別通??梢詣澐譃? 基于視頻和RGB 圖片的動(dòng)作識(shí)別和基于骨架數(shù)據(jù)的動(dòng)作識(shí)別.基于視頻和RGB 圖片的動(dòng)作識(shí)別方法通常從RGB 圖像中提取感興趣的特征,如: RGB 圖片/視頻中具有代表性的人體動(dòng)作信息,然后將一個(gè)動(dòng)作視頻轉(zhuǎn)換成一個(gè)特征向量,最后將特征向量輸入分類器中進(jìn)行分類.得益于Microsoft Kinect v2 深度攝像機(jī)的發(fā)展和人體關(guān)鍵點(diǎn)檢測技術(shù)的迅速發(fā)展[3],基于骨架數(shù)據(jù)的動(dòng)作識(shí)別研究也變得火熱.從生物學(xué)角度來說,骨架數(shù)據(jù)是一種具有高級(jí)語義信息的特征,即使沒有外觀信息,人類也能夠通過僅觀察骨架關(guān)節(jié)的運(yùn)動(dòng)過程來識(shí)別動(dòng)作類別[4].特別地,相比于RGB 數(shù)據(jù),骨架數(shù)據(jù)因其對動(dòng)態(tài)環(huán)境和復(fù)雜背景的強(qiáng)適應(yīng)性而受到廣泛研究.本文研究的重點(diǎn)內(nèi)容是基于骨架數(shù)據(jù)的動(dòng)作識(shí)別.

        1.1 基于骨架的動(dòng)作識(shí)別方法

        傳統(tǒng)的基于骨架的動(dòng)作識(shí)別方法通過手工設(shè)計(jì)特征來建模骨架的數(shù)據(jù)依賴,如局部占位特征[5]、時(shí)間聯(lián)合協(xié)方差[6]和李群曲線[7].這些方法是根據(jù)物理直覺設(shè)計(jì)算法來建模人類動(dòng)作的時(shí)空特征,其不能靈活地應(yīng)付大型數(shù)據(jù)集[8].深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動(dòng)的方法,面對大型骨架序列數(shù)據(jù)集能更好地展示其優(yōu)勢.已有的基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法按照模型類型可以分為3 大主流方法: 基于RNN (recurrent neural networks)的方法、基于CNN (convolutional neural networks)的方法和基于GCN (graph convolution networks)的方法.

        1.2 基于RNN 的方法

        RNN 被廣泛地應(yīng)用于時(shí)序任務(wù)上,但RNN 模型通常只能接受矢量序列作為輸入,不能較好地建模骨架關(guān)節(jié)間的空間依賴.為了克服這一缺點(diǎn),Du 等人[9]提出了端到端分層RNN 框架,該方法將骨架劃分為多個(gè)部位并作為每個(gè)RNN 子網(wǎng)絡(luò)的輸入,然后將子網(wǎng)絡(luò)的輸出進(jìn)行分層融合.Zhu 等人[10]提出在LSTM 網(wǎng)絡(luò)中使用組稀疏正則化來自動(dòng)探索骨架關(guān)節(jié)的共同發(fā)生特征.為了同時(shí)建模骨架關(guān)節(jié)間的空間和時(shí)間依賴,空間-時(shí)間LSTM 網(wǎng)絡(luò)將深度LSTM 模型擴(kuò)展到兩個(gè)并發(fā)域,即時(shí)間域和空間域[11].

        1.3 基于CNN 的方法

        CNN 被廣泛地應(yīng)用于圖像分類任務(wù)[12].為了滿足CNN 網(wǎng)絡(luò)輸入的需要(二維網(wǎng)格),研究人員將骨架關(guān)節(jié)編碼為多個(gè)2D 偽圖像,然后將其輸入CNN 網(wǎng)絡(luò)以學(xué)習(xí)時(shí)空特征[13,14].Wang 等人[15]提出了關(guān)節(jié)軌跡圖(joint trajectory maps),該方法通過顏色編碼將關(guān)節(jié)軌跡的空間結(jié)構(gòu)和動(dòng)力學(xué)表示為3 幅紋理圖像.然而,該方法較為復(fù)雜,在映射過程中也失去了骨架內(nèi)部重要意義的空間信息.Li 等人[16]使用了平移比例不變的圖像映射策略,該方法首先根據(jù)人體的物理結(jié)構(gòu)將每個(gè)幀中的人體骨架關(guān)節(jié)劃分為5 個(gè)主要部分,然后將這些部分映射到2D 形式.Li 等人[17]提出了一個(gè)共同發(fā)生特征學(xué)習(xí)網(wǎng)絡(luò)框架(HCN),該方法利用CeN 網(wǎng)絡(luò)來聚合骨架全局上下文特征并且取得了不錯(cuò)的效果.基于GCN 的方法.最近,Yan 等人[18]提出了時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN),該方法將人體骨架數(shù)據(jù)直接建模為圖結(jié)構(gòu),其無需要手工設(shè)計(jì)并劃分骨架部位或制作人體骨架關(guān)節(jié)點(diǎn)遍歷規(guī)則,因此該方法比以前的方法取得了更好的性能[8].隨后,Shi 等人[19]提出了2s-AGCN 網(wǎng)絡(luò),該方法將自適應(yīng)拓?fù)鋱D添加到每個(gè)圖卷積層中增強(qiáng)圖卷積層的遠(yuǎn)距離空間建模能力.Zhang 等人[20]提出了SGN 網(wǎng)絡(luò),該方法利用人體關(guān)節(jié)點(diǎn)和幀的語義信息,豐富了骨架特征的表達(dá)能力,從而提高模型的識(shí)別準(zhǔn)確率.無論如何,RNN 網(wǎng)絡(luò)和CNN 網(wǎng)絡(luò)都不能完全表征骨架數(shù)據(jù)空間結(jié)構(gòu),因?yàn)楣羌軘?shù)據(jù)不是矢量序列或二維網(wǎng)格,其具有人體結(jié)構(gòu)自然連接的圖的結(jié)構(gòu).與前兩者方法相比較,基于GCN 的方法不需要手工劃分骨架為多個(gè)部位和設(shè)計(jì)關(guān)節(jié)遍歷規(guī)則,并且在建模骨架空間和時(shí)間依賴過程中可以保留骨架拓?fù)浣Y(jié)構(gòu),因此,基于GCN 的動(dòng)作識(shí)別方法建模骨架時(shí)空特征更具優(yōu)勢并且逐漸成為該領(lǐng)域的首選框架.

        1.4 骨架幾何特征用于動(dòng)作識(shí)別

        與骨架坐標(biāo)特征相比較,骨架幾何特征具有視覺不變性的優(yōu)勢.早期,骨架幾何特征被研究人員進(jìn)行大量研究,如,Geometric Pose Descriptor[21]、Fusing Geometric Features[22,23]和DD-Net[24].Chen 等人[21]通過手工設(shè)計(jì)了多組骨架幾何特征(關(guān)節(jié)-關(guān)節(jié)距離、關(guān)節(jié)-關(guān)節(jié)角度和關(guān)節(jié)-關(guān)節(jié)平面等等)用于表征人類動(dòng)作信息.Zhang 等人[22]提出了多組簡單的骨架幾何特征,然后將每組特征分別送入一個(gè)3 層LSTM 框架.Li 等人[23]將多組骨架幾何特征分別輸入到LSTM 和CNN中,再將多個(gè)流最后的輸出進(jìn)行融合.Yang 等人[24]提出了DD-Net,該方法分別對fast motion 特征、slow motion 特征和JCD (joint collection distances)特征進(jìn)行嵌入學(xué)習(xí),再將3 種特征進(jìn)行早期融合,最后將融合特征輸入到1D CNN 網(wǎng)絡(luò).事實(shí)上,骨架幾何特征(關(guān)節(jié)-關(guān)節(jié)距離和關(guān)節(jié)-關(guān)節(jié)角度等等)是高效的和無需參數(shù)學(xué)習(xí)的特征,然而,目前基于GCN 的動(dòng)作識(shí)別方法[18-25]忽視了這些骨架幾何特征.為此,本文在STGCN 網(wǎng)絡(luò)框架上研究了每幀骨架中關(guān)節(jié)間的距離特征,將其作為ST-GCN 網(wǎng)絡(luò)的特征補(bǔ)充,并利用骨架幾何建模模塊和早期特征融合方法構(gòu)建了融合幾何特征時(shí)空圖卷積網(wǎng)絡(luò)框架(GEO-GCN).

        2 融合幾何特征時(shí)空圖卷積網(wǎng)絡(luò)框架

        2.1 時(shí)空圖卷積網(wǎng)絡(luò)框架

        骨架序列能夠高效和簡潔地表征人類動(dòng)作的動(dòng)態(tài)信息.基于深度學(xué)習(xí)的骨架動(dòng)作識(shí)別的算法種類繁多,而圖卷積網(wǎng)絡(luò)[26]作為后起之秀,因其可以更好地建模非規(guī)則數(shù)據(jù),因此,本文采用ST-GCN 網(wǎng)絡(luò)框架[18]作為本文的基準(zhǔn)網(wǎng)絡(luò)框架.

        一般地,原始骨架序列數(shù)據(jù)每幀中的位置信息由向量表示.每個(gè)向量表示相應(yīng)人體關(guān)節(jié)的二維或三維坐標(biāo).一個(gè)完整的人類動(dòng)作包含多個(gè)幀,對于不同的動(dòng)作序列樣本具有不同的幀數(shù).本文遵循ST-GCN 網(wǎng)絡(luò)框架,使用時(shí)空人體拓?fù)鋱D來建模骨架關(guān)節(jié)之間的空間和時(shí)間信息.圖1 展示了ST-GCN 構(gòu)建的時(shí)空人體拓?fù)鋱D,其中每個(gè)圓點(diǎn)表示為時(shí)空圖的頂點(diǎn),人體的自然連接表示為每幀骨架空域圖的空域邊.對于時(shí)間維度,兩相鄰幀間對應(yīng)關(guān)節(jié)的連接表示為時(shí)域邊.每個(gè)關(guān)節(jié)的坐標(biāo)向量為對應(yīng)圖頂點(diǎn)的屬性.為了建模時(shí)空骨架圖的時(shí)空特征,ST-GCN 中每層GCN Layer 通過交替堆疊GC-block 和TC-block 來構(gòu)建而成,其中,GCblock 和TC-block 分別沿著關(guān)節(jié)維度(V)和時(shí)間維度(T)聚合特征.對于空間維度上建模,GC-block 可以表示為:

        圖1 ST-GCN 時(shí)空拓?fù)鋱D

        其中,X和Y分別表示輸入和輸出特征.W表示可學(xué)習(xí)矩陣.對于每個(gè)骨架空間配置,A是骨架拓?fù)鋱D的鄰接矩陣,Λ是用于歸一化的對角節(jié)點(diǎn)度矩陣.根據(jù)ST-GCN的空間配置,K表示GC-block 中人體拓?fù)鋱D的數(shù)量,特別地,原始ST-GCN 設(shè)置每個(gè)GC-block 的拓?fù)鋱D數(shù)目K=3.此外,節(jié)點(diǎn)i的階數(shù)由計(jì)算所得,其中Aij表示元素在A中的第i行和第j列中加上一個(gè)常數(shù)α ,以避免A為全零的問題.

        對于時(shí)間維度上建模,由于每個(gè)頂點(diǎn)的鄰域數(shù)固定為2 (兩個(gè)連續(xù)幀中的對應(yīng)關(guān)節(jié)),因此應(yīng)用類似經(jīng)典卷積運(yùn)算的圖卷積是較為簡單的.具體地說,TC-block是內(nèi)核大小為Kt×1的普通卷積層.

        圖2 展示了ST-GCN 網(wǎng)絡(luò)框架,其由10 層GCN Layer 堆疊而成.整體ST-GCN 網(wǎng)絡(luò)可以被劃分為3 個(gè)階段,第1 個(gè)階段包含了4 層GCN Layer,而第2 個(gè)和第3 個(gè)階段都包含了3 層GCN Layer.骨架坐標(biāo)特征通過每個(gè)階段,其通道維度數(shù)量變?yōu)樵瓉淼膬杀?而時(shí)間維度特征數(shù)量減少至原來的一半,這樣做的目的是:增強(qiáng)骨架特征表達(dá)能力,同時(shí)保持張量數(shù)據(jù)的總參數(shù)量不變.模型最終輸出的時(shí)空特征經(jīng)過全局池化層(GAP),再被輸入到Softmax 分類器,以獲得動(dòng)作預(yù)測結(jié)果.

        圖2 中下方展示了GCN Layer 內(nèi)部結(jié)構(gòu),其包含了一個(gè)GC-block 和一個(gè)TC-block.根據(jù)上述可知,骨架坐標(biāo)特征輸入GCN Layer 后,GC-block 首先對輸入骨架坐標(biāo)特征進(jìn)行空間建模,跟隨其后的是一個(gè)BN(batch normalization)層[27]和一個(gè)ReLU 激活層,分別對特征起到正則化和非線性激活作用.骨架坐標(biāo)特征被空間建模后,TC-block 對其進(jìn)行時(shí)間建模,同樣地,BN 層和ReLU 激活層跟隨其后.此外,每個(gè)GCN Layer都包含殘差連接(skip connect)[12],其起到穩(wěn)定網(wǎng)絡(luò)訓(xùn)練的作用.

        圖2 ST-GCN 網(wǎng)絡(luò)框架和GCN Layer 結(jié)構(gòu)圖

        2.2 骨架關(guān)節(jié)幾何特征

        在現(xiàn)實(shí)場景中,人類的動(dòng)作可能會(huì)被任意的相機(jī)視角觀察.為了應(yīng)對視角變化所帶來的挑戰(zhàn),Zhang 等人[22]將多組具有視覺不變性的骨架幾何特征序列分別輸入子LSTM 網(wǎng)絡(luò)中.Yang 等人[24]利用幀內(nèi)關(guān)節(jié)間距離集合的下三角矩陣作為JCD 特征,將其與fast motion 特征和slow motion 特征進(jìn)行早期特征融合.然而,上述方法提出的幾何特征很大程度上依賴于人的先驗(yàn)經(jīng)驗(yàn),這不利于在不同數(shù)據(jù)集間泛化.此外,手工獲取的骨架幾何特征被轉(zhuǎn)換為矢量序列,不能單獨(dú)考慮每個(gè)關(guān)節(jié)點(diǎn)的幾何特征,這不利于模型提取有判別力的時(shí)空特征.為了緩解這些問題,本文引入骨架關(guān)節(jié)幾何特征,即,每幀內(nèi)關(guān)節(jié)與關(guān)節(jié)間的歐幾里得距離,其具有視覺不變性,而且骨架關(guān)節(jié)幾何特征可以依靠時(shí)空拓?fù)鋱D進(jìn)行信息交換.

        更詳細(xì)地說,給定一副骨架序列X∈RT×V×C,其中T表示骨架序列總幀數(shù)(本文默認(rèn)設(shè)置T=48),每幀骨架總共有V個(gè)關(guān)節(jié)點(diǎn),C表示骨架數(shù)據(jù)所處的是三維笛卡爾坐標(biāo)系或者二維笛卡爾坐標(biāo)系.在第t幀骨架中,第v個(gè)關(guān)節(jié)點(diǎn)的三維笛卡爾坐標(biāo)表示為Ptv=(x,y,z),而二維笛卡爾坐標(biāo)表示為Ptv=(x,y).

        通過距離公式,可以計(jì)算每幀內(nèi)任意兩個(gè)關(guān)節(jié)點(diǎn)間的歐幾里得距離,具體公式如下:

        通過式(2),可求得第t幀第i個(gè)關(guān)節(jié)點(diǎn)與第t幀內(nèi)所有關(guān)節(jié)點(diǎn)的歐幾里得距離特征為Dti=RV×V,特別地當(dāng)i=j時(shí),特征值為0.因此,對于給定的一副骨架序列數(shù)據(jù),通過距離公式,可求得該骨架序列的骨架關(guān)節(jié)幾何特征為D∈RT×V×V.特別地,每幀骨架關(guān)節(jié)幾何特征不需要轉(zhuǎn)為矢量序列.

        2.3 早期特征融合與幾何特征建模

        骨架幾何特征和骨架坐標(biāo)特征是不同的模態(tài).模態(tài)融合方法[28]可以分為: 早期融合和晚期融合.在基于視頻的動(dòng)作識(shí)別領(lǐng)域中,Simonyan 等人[29]提出了晚期融合的雙流模型,該方法利用雙流模型分別對RGB 圖像和光流數(shù)據(jù)進(jìn)行建模,對各流模型的最后輸出特征進(jìn)行融合,但雙流模型方法會(huì)導(dǎo)致總模型的參數(shù)量成倍數(shù)增加.Yang 等人[24]提出的DD-Net 利用早期特征融合方法對3 種骨架幾何特征進(jìn)行融合,該方法利用骨架幾何特征提高了模型的準(zhǔn)確率同時(shí)不會(huì)大幅度增加總網(wǎng)絡(luò)的參數(shù)量.本文借鑒DD-Net 的早期特征融合方法,使得ST-GCN 框架融合骨架關(guān)節(jié)幾何特征D同時(shí)不大幅度增加總網(wǎng)絡(luò)的參數(shù)量.然而,DD-Net 方法的嵌入學(xué)習(xí)模塊不能較好地建模骨架關(guān)節(jié)幾何特征的時(shí)空依賴,為此,本文探索了3 種骨架關(guān)節(jié)幾何特征建模方法分別為: 直接融合方法、特征嵌入方法和GCN建模方法.

        (1)直接融合方法.為了驗(yàn)證骨架關(guān)節(jié)幾何特征的有效性,本文提出直接將距離公式計(jì)算所得的骨架關(guān)節(jié)幾何特征D與ST-GCN 網(wǎng)絡(luò)第1 階段輸出的時(shí)空特征在通道維度上進(jìn)行拼接融合,利用一層1×1卷積層對融合特征進(jìn)行降維操作,然后將其作為ST-GCN 剩余網(wǎng)絡(luò)的輸入.值得注意的是,該方法可視為一層單元層.

        (2)特征嵌入方法.一方面,骨架關(guān)節(jié)幾何特征D具有一定的先驗(yàn)經(jīng)驗(yàn),而先驗(yàn)經(jīng)驗(yàn)不利于模型的泛化性.另外一方面,骨架關(guān)節(jié)幾何特征和骨架坐標(biāo)特征是不同的模態(tài),上述方法是通過特征拼接方式對兩種模態(tài)進(jìn)行融合,這在一定程度上不利于ST-GCN 網(wǎng)絡(luò)提取有判別力的時(shí)空特征.為了減少先驗(yàn)經(jīng)驗(yàn)帶來的影響同時(shí)讓骨架關(guān)節(jié)幾何特征更好地融合到ST-GCN 網(wǎng)絡(luò),本文參考DD-Net[24]對骨架幾何特征處理方法,利用兩層全連接層(fully connected layer)對骨架關(guān)節(jié)幾何特征進(jìn)行特征嵌入學(xué)習(xí),再將所得的骨架關(guān)節(jié)幾何嵌入特征和ST-GCN 網(wǎng)絡(luò)第一階段輸出的時(shí)空特征在通道維度上進(jìn)行拼接融合,再利用一層1×1 卷積層對融合特征進(jìn)行降維操作并將輸出作為ST-GCN 剩余階段網(wǎng)絡(luò)的輸入.

        (3)GCN 建模方法.然而,上述兩種方法都忽視了對骨架關(guān)節(jié)幾何特征D時(shí)間維度上的建模.ST-GCN 網(wǎng)絡(luò)第1 階段輸出的是時(shí)空特征,為了讓每幀骨架的幾何特征具備時(shí)間維度上的依賴,本文利用兩層GCN Layer 對骨架序列的幾何特征進(jìn)行時(shí)空建模,其目的是使骨架關(guān)節(jié)幾何特征與ST-GCN 第1 階段所建模的時(shí)空特征更具有一般性.最后,被GCN 模塊建模的骨架關(guān)節(jié)幾何特征如上述兩種方法一樣被拼接融合和降維操作,再將其輸入ST-GCN 的第2 和第3 階段進(jìn)行時(shí)空建模.

        2.4 融合幾何特征時(shí)空圖卷積算法框架

        圖3 展示了本文提出的融合幾何特征時(shí)空圖卷積網(wǎng)絡(luò)框架(GEO-GCN).骨架坐標(biāo)特征作為ST-GCN網(wǎng)絡(luò)第一階段的輸入,同時(shí),通過距離公式計(jì)算所得的骨架關(guān)節(jié)幾何特征D作為骨架幾何建模模塊的輸入.兩模塊的輸出在通道維度上進(jìn)行拼接融合,融合特征被一層1×1 卷積層進(jìn)行降維操作,其目的是與ST-GCN 網(wǎng)絡(luò)第2 階段的輸入適配.值得注意的是,骨架幾何特征建模模塊在最終模型中使用的是GCN建模方法.通過早期特征融合方法,GEO-GCN 的參數(shù)量不會(huì)成倍數(shù)地增加,同時(shí)可以使得ST-GCN 網(wǎng)絡(luò)在保持自身建模能力的情況下,增強(qiáng)了剩余階段網(wǎng)絡(luò)對融合骨架關(guān)節(jié)幾何特征的時(shí)空特征的建模能力,從而增強(qiáng)模型性能.

        圖3 融合幾何特征的時(shí)空卷積網(wǎng)絡(luò)框架(GEO-GCN)

        3 實(shí)驗(yàn)分析

        本文在兩個(gè)大規(guī)模的基于骨架的動(dòng)作識(shí)別基準(zhǔn)數(shù)據(jù)集,即,NTU-RGB+D 數(shù)據(jù)集[30]和NTU-RGB+D 120數(shù)據(jù)集[31],對GEO-GCN 網(wǎng)絡(luò)框架進(jìn)行評(píng)估.本文首先通過充分的消融實(shí)驗(yàn)以驗(yàn)證骨架關(guān)節(jié)幾何特征能作為ST-GCN 網(wǎng)絡(luò)的特征補(bǔ)充,然后驗(yàn)證不同骨架幾何建模模塊對GEO-GCN 網(wǎng)絡(luò)框架的影響.最后,將GEOGCN 網(wǎng)絡(luò)框架與其他動(dòng)作識(shí)別模型進(jìn)行準(zhǔn)確率的比較.

        3.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)集

        本文所有實(shí)驗(yàn)都是在一個(gè)RTX 2080 TI GPU 上進(jìn)行的并且該GPU 采用PyTorch 深度學(xué)習(xí)框架和Python編程語言.

        NTU-RGB+D 是一個(gè)大規(guī)模的人體動(dòng)作識(shí)別數(shù)據(jù)集,包含4 種模態(tài),即RGB 視頻、深度序列、紅外視頻和3D 骨架數(shù)據(jù).3D 骨架序列數(shù)據(jù)由Microsoft Kinect v2 攝像頭捕獲.它總共有56 880 個(gè)視頻,由3 臺(tái)攝像機(jī)從不同角度拍攝.這些動(dòng)作涵蓋60 種人類動(dòng)作類別,包括類別1 到類別49 的單人動(dòng)作和類別50 到類別60 的雙人交互動(dòng)作.數(shù)據(jù)集的發(fā)布方推薦了兩個(gè)評(píng)估基準(zhǔn),即,交叉對象(cross-subject)評(píng)估和交叉視角(cross-view)評(píng)估.在X-Sub 評(píng)估基準(zhǔn)中,訓(xùn)練集包含了來自20 名受試者的40 320 個(gè)視頻,其余16 560 個(gè)視頻片段用于測試.在X-View 評(píng)估基準(zhǔn)中,它包含37 920個(gè)從第2 攝像頭和第3 攝像頭拍攝的視頻,用于訓(xùn)練.從第一個(gè)攝像頭拍攝的視頻包含18 960 個(gè)視頻,用于測試.

        NTU-RGB+D 120 是NTU-RGB+D 的擴(kuò)展,其中類別的數(shù)量擴(kuò)大到120,樣本的數(shù)量擴(kuò)大到114 480.還有兩種推薦的評(píng)估基準(zhǔn),即交叉主體(C-subject)評(píng)估和交叉設(shè)置(C-setup)評(píng)估.在X-Sub 評(píng)估基準(zhǔn)中,來自53 個(gè)受試者的63 026 個(gè)視頻片段被用于訓(xùn)練,其余受試者則被用于測試.在X-Set 評(píng)估基準(zhǔn)中,54 471 個(gè)具有偶數(shù)集合設(shè)置ID 的視頻片段被用于訓(xùn)練,其余具有奇數(shù)設(shè)置ID 的片段被用于測試.

        3.2 實(shí)驗(yàn)細(xì)節(jié)

        為了更加公平地與ST-GCN 網(wǎng)絡(luò)[18]進(jìn)行比較,本文對ST-GCN 網(wǎng)絡(luò)進(jìn)行復(fù)現(xiàn),同時(shí)使得本文的實(shí)驗(yàn)分析更加可靠.原始的ST-GCN 網(wǎng)絡(luò)一共包含了9 層GCN Layer,TC-block 的卷積核大小為9.網(wǎng)絡(luò)框架每個(gè)階段的輸出通道數(shù)量分別為64,128,256.模型輸入樣本幀數(shù)為300.本文參照2s-AGCN[19]官方公布的代碼,所搭建的復(fù)現(xiàn)模型一共包含了10 層GCN Layer,TC-block 的卷積核大小為5.此外,實(shí)驗(yàn)數(shù)據(jù)預(yù)處理方法參照了SGN 模型[20]所提出的方法,并且固定輸入模型的每個(gè)樣本幀數(shù)為48.

        表1 展示了在NTU-RGB+D 的X-View 評(píng)估基準(zhǔn)上,ST-GCN 網(wǎng)絡(luò)的復(fù)現(xiàn)結(jié)果.其中ST-GCN 代表原論文所展示的準(zhǔn)確率,ST-GCN*代表復(fù)現(xiàn)結(jié)果,而帶自適應(yīng)拓?fù)鋱D的ST-GCN*是參照了2s-AGCN 提出的方法.最后,我們選用帶自適應(yīng)拓?fù)鋱D的ST-GCN*網(wǎng)絡(luò)作為本文所有實(shí)驗(yàn)的基準(zhǔn)模型.除非有必要的說明,本文所有消融實(shí)驗(yàn)都是在NTU-RGB+D 數(shù)據(jù)集X-View 評(píng)估基準(zhǔn)上進(jìn)行的.

        表1 不同骨架幾何特征建模模塊的GEO-GCN 模型在NTU-RGB 數(shù)據(jù)集X-View 評(píng)估上的準(zhǔn)確率比較

        本文所有模型使用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化器進(jìn)行訓(xùn)練,并且設(shè)置動(dòng)量為0.9,權(quán)重衰減為0.000 1.訓(xùn)練epochs 設(shè)置為65,在前5 個(gè)epochs 中使用warmup strategy[12],以使訓(xùn)練過程更加穩(wěn)定.設(shè)置初始學(xué)習(xí)率為0.1,并在第30 個(gè)epoch 和第55 個(gè)epoch 時(shí)以0.1 的系數(shù)進(jìn)行學(xué)習(xí)率衰減,batch size 大小設(shè)置為64.

        3.3 不同骨架幾何特征建模模塊的比較

        從表1 可得出,在NTU-RGB 數(shù)據(jù)集中X-View 評(píng)估基準(zhǔn)上,本文提出的3 種骨架幾何特征建模模塊所構(gòu)建的GEO-GCN 模型的準(zhǔn)確率都比帶自適應(yīng)的STGCN*模型的準(zhǔn)確率要高,實(shí)驗(yàn)結(jié)果說明了本文提出的骨架關(guān)節(jié)幾何特征D能有效地融合到ST-GCN 模型中,從而提高ST-GCN 基準(zhǔn)模型的識(shí)別率.特別地,采用GCN 建模模塊的GEO-GCN 模型比基準(zhǔn)模型的準(zhǔn)確率要高出1%.對于3 種不同的幾何特征建模模塊,可以發(fā)現(xiàn): 采用直接融合方法的GEO-GCN 模型的性能提升幅度是最小的,而采用GCN 建模模塊的GEOGCN 模型的準(zhǔn)確率取得了最優(yōu)效果.綜上,可得出結(jié)論: 骨架關(guān)節(jié)幾何特征D(幀內(nèi)關(guān)節(jié)點(diǎn)間的距離)能豐富ST-GCN 模型所建模的時(shí)空特征,并且基于GCN 建模模塊的GEO-GCN 模型是有效方法,該網(wǎng)絡(luò)框架具有高效性和參數(shù)量較少的優(yōu)勢.最后,我們選取基于GCN 建模模塊的GEO-GCN 模型作為后續(xù)實(shí)驗(yàn)的基準(zhǔn)網(wǎng)絡(luò).

        3.4 不同骨架幾何特征數(shù)量的比較

        為了進(jìn)一步分析骨架幾何特征D對GEO-GCN 網(wǎng)絡(luò)的影響,本文對每個(gè)關(guān)節(jié)的幾何特征數(shù)量進(jìn)行了消融實(shí)驗(yàn).圖4 展示了NTU 數(shù)據(jù)集的人體結(jié)構(gòu)關(guān)節(jié)點(diǎn)的序號(hào).在第2.2 節(jié)中,實(shí)驗(yàn)配置對每幀骨架內(nèi)每個(gè)關(guān)節(jié)計(jì)算其與該幀上所有關(guān)節(jié)間的距離,具體來說,對于NTU 數(shù)據(jù)集來說,其關(guān)節(jié)點(diǎn)數(shù)量為25,因此每幀每個(gè)關(guān)節(jié)點(diǎn)共有25 個(gè)距離幾何特征.為此,本文設(shè)置關(guān)鍵關(guān)節(jié)點(diǎn)集合Ji,其中Ji的下標(biāo)表示集合內(nèi)包含元素的個(gè)數(shù),Ji中每個(gè)元素表示NTU 人體結(jié)構(gòu)圖所對應(yīng)的關(guān)節(jié)序號(hào).在給定Ji的情況下,在計(jì)算每幀每個(gè)關(guān)節(jié)的幾何特征時(shí)候,只計(jì)算集合中內(nèi)包含的元素所對應(yīng)的關(guān)節(jié)點(diǎn).表2 展示了不同Ji的元素組成,對于每個(gè)關(guān)鍵關(guān)節(jié)點(diǎn)集合,元素被選取的依據(jù)是: 在“直覺上”與動(dòng)作信息相關(guān)性較大,如,序號(hào)7 (左手腕)關(guān)節(jié)點(diǎn),與人類執(zhí)行動(dòng)作過程的相關(guān)性較大.

        圖4 NTU 數(shù)據(jù)集人體結(jié)構(gòu)圖

        表2 不同關(guān)鍵關(guān)節(jié)點(diǎn)集合Ji 的元素組成

        從表3 實(shí)驗(yàn)結(jié)果可看出,隨著關(guān)鍵關(guān)節(jié)點(diǎn)集合Ji元素的逐漸增加,GEO-GCN 模型的準(zhǔn)確率不是呈線性遞增的,即,骨架關(guān)節(jié)幾何特征數(shù)量與GEO-GCN 模型的性能不是正相關(guān),其原因可能是:Ji中關(guān)鍵關(guān)節(jié)點(diǎn)的選取依賴于人的經(jīng)驗(yàn)和直覺,這導(dǎo)致通過距離公式所得的骨架關(guān)節(jié)幾何特征包含了一定程度的先驗(yàn)知識(shí),從而影響了GEO-GCN 模型的性能.特別地,當(dāng)i=10 和i=25 時(shí)候,模型的性能近乎是一致的.這說明了i=25時(shí),骨架關(guān)節(jié)幾何特征存在特征冗余問題.最后,考慮到i=25 時(shí),GEO-GCN 模型取得了最優(yōu)的準(zhǔn)確率,因此,選取關(guān)鍵關(guān)節(jié)點(diǎn)集合J25作為最終基準(zhǔn)并與其他模型進(jìn)行比較.

        表3 不同關(guān)鍵關(guān)節(jié)點(diǎn)集合Ji 的GEO-GCN 在NTURGB 數(shù)據(jù)集X-View 評(píng)估上的準(zhǔn)確率比較

        3.5 與其他模型方法比較

        表4 和表5 中展示了GEO-GCN 模型與其他模型在NTU RGB+D 和NTU RGB+D 120 上準(zhǔn)確率的比較.從表4 實(shí)驗(yàn)結(jié)果可看出,在NTU RGB+D 兩評(píng)估基準(zhǔn)上,GEO-GCN (joint)單模態(tài)模型的準(zhǔn)確率高于非GCN 的方法,而與基于GCN 的方法(ST-GCN、ASGCN 和SGN)性能相當(dāng).特別地,2s-AGCN[19]采用了模型集成方法,即,關(guān)節(jié)坐標(biāo)特征(joint)和關(guān)節(jié)骨頭特征(bone)分別作為輸入模態(tài),同樣地,本文展示了GEO-GCN 模型集成方法的準(zhǔn)確率.從表4 可看出,GEO-GCN (joint+bone)集成方法的準(zhǔn)確率高于2s-AGCN 的準(zhǔn)確率,在X-Sub 評(píng)估基準(zhǔn)上高了約2%.這說明了本文提出的利用骨架關(guān)節(jié)幾何特征作為STGCN 框架特征補(bǔ)充的方法是高效的.從表5 實(shí)驗(yàn)結(jié)果可看出,在NTU RGB+D 120 兩評(píng)估基準(zhǔn)上,GEOGCN 單模態(tài)模型的準(zhǔn)確率都比2s-AGCN 和SGN 的準(zhǔn)確率高.這說明了本文提出的骨架關(guān)節(jié)幾何特征在大型數(shù)據(jù)集上能更好地提高模型的性能.特別地,在XSub 和X-Set 評(píng)估基準(zhǔn)上,GEO-GCN 集成模型的準(zhǔn)確率比2s-AGCN 分別高了4.1%和3.4%.綜上,可得出結(jié)論: 本文提出的GEO-GCN 網(wǎng)絡(luò)框架,其充分利用了骨架關(guān)節(jié)幾何特征作為ST-GCN 模型的特征補(bǔ)充,提高了框架的準(zhǔn)確率同時(shí)不會(huì)使框架總參數(shù)量成倍數(shù)地增加,是一種非常高效的網(wǎng)絡(luò)框架.

        表4 不同算法在NTU-RGB+D 上的準(zhǔn)確率比較(%)

        表5 不同算法在NTU-RGB+D 120 上的準(zhǔn)確率比較(%)

        4 結(jié)論與展望

        本文提出了融合幾何特征的圖卷積網(wǎng)絡(luò)框架,其稱為GEO-GCN 網(wǎng)絡(luò)框架.該框架利用骨架序列中所蘊(yùn)含的距離幾何特征作為ST-GCN 基準(zhǔn)網(wǎng)絡(luò)的特征補(bǔ)充.然后,本文利用GCN 建模模塊對骨架關(guān)節(jié)幾何特征進(jìn)行建模,充分提取有判別力的時(shí)空特征,并且利用早期特征融合方法,將骨架關(guān)節(jié)幾何特征高效地融合到ST-GCN 網(wǎng)絡(luò)中,與雙流模型方法相比較,本文提出的GEO-GCN 網(wǎng)絡(luò)框架的參數(shù)量保持一個(gè)合適的范圍內(nèi).最后,在NTU-RGB+D 數(shù)據(jù)集和NTU-RGB+D 120 數(shù)據(jù)集上,本文進(jìn)行了充分實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明:與ST-GCN、2s-AGCN 和SGN 等動(dòng)作識(shí)別模型相比,本文所提出的GEO-GCN 網(wǎng)絡(luò)框架取得了更好準(zhǔn)確率的效果.下一步的研究將會(huì)引入時(shí)間維度上的注意力模塊,提高網(wǎng)絡(luò)建模時(shí)空特征能力.

        猜你喜歡
        特征融合方法
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久人人爽人人爽人人片亞洲| 国产激情一区二区三区成人| 天堂网av一区二区三区在线观看| 亚洲av无码专区亚洲av伊甸园| 5级做人爱c视版免费视频| 国产成人AⅤ| 风流熟女一区二区三区| 无码孕妇孕交在线观看| 国产免费又色又爽又黄软件| 尤物AV无码色AV无码麻豆| 久久人妻少妇嫩草av蜜桃| 999精品无码a片在线1级| 精品人妻人人做人人爽| 成人h视频在线观看| 国产超碰人人爽人人做人人添| 久久99久久99精品免观看| 国产精品视频免费的| 国产理论亚洲天堂av| 大又大又粗又硬又爽少妇毛片| 国产成人精品日本亚洲11| 日产精品一区二区三区| 久久久精品少妇—二区| 精品国产免费一区二区三区香蕉| 久久久亚洲色| 久久亚洲精彩无码天堂| 日本在线观看一二三区| 奇米影视第四色首页| 国产成人午夜福利在线观看者| 女同国产日韩精品在线| 成人国产一区二区三区| 97人妻碰碰视频免费上线| 久久福利青草精品资源| 伊人久久大香线蕉av色婷婷| 热99re久久精品这里都是精品免费 | 久久无码精品精品古装毛片| 国产精品一区一区三区| 波多野结衣av一区二区全免费观看 | 国产成人综合日韩精品无码| 精品国产v无码大片在线观看| 国产精品久久一区性色a| 人妻少妇中文字幕久久|