亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于單模態(tài)的多尺度特征融合人體行為識(shí)別方法

        2023-10-21 07:40:26劉鎖蘭田珍珍王洪元林龍王炎
        計(jì)算機(jī)應(yīng)用 2023年10期
        關(guān)鍵詞:子圖骨架全局

        劉鎖蘭,田珍珍,王洪元*,林龍,王炎

        基于單模態(tài)的多尺度特征融合人體行為識(shí)別方法

        劉鎖蘭1,2,田珍珍1,王洪元1*,林龍1,王炎1

        (1.常州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院 阿里云大數(shù)據(jù)學(xué)院 軟件學(xué)院,江蘇 常州 213164; 2.江蘇省社會(huì)安全圖像與視頻理解重點(diǎn)實(shí)驗(yàn)室(南京理工大學(xué)),南京 210094)( ? 通信作者電子郵箱 hywang@cczu.edu.cn)

        針對(duì)人體行為識(shí)別任務(wù)中未能充分挖掘超距關(guān)節(jié)點(diǎn)之間潛在關(guān)聯(lián)的問(wèn)題,以及使用多模態(tài)數(shù)據(jù)帶來(lái)的高昂訓(xùn)練成本的問(wèn)題,提出一種單模態(tài)條件下的多尺度特征融合人體行為識(shí)別方法。首先,將人體的原始骨架圖進(jìn)行全局特征關(guān)聯(lián),并利用粗尺度的全局特征捕獲遠(yuǎn)距離關(guān)節(jié)點(diǎn)間的聯(lián)系;其次,對(duì)全局特征關(guān)聯(lián)圖進(jìn)行局部劃分以得到融合了全局特征的互補(bǔ)子圖(CSGF),利用細(xì)尺度特征建立強(qiáng)關(guān)聯(lián),并形成多尺度特征的互補(bǔ);最后,將CSGF輸入時(shí)空?qǐng)D卷積模塊中提取特征,并聚合提取后的結(jié)果以輸出最終的分類(lèi)結(jié)果。實(shí)驗(yàn)結(jié)果表明,在行為識(shí)別權(quán)威數(shù)據(jù)集NTU RGB+D60上,所提方法的準(zhǔn)確率分別為89.0%(X-sub)和94.2%(X-view);在具有挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集NTU RGB+D120上,所提方法的準(zhǔn)確率分別為83.3%(X-sub)和85.0%(X-setup),與單模態(tài)下的ST-TR(Spatial-Temporal TRansformer)相比,分別提升1.4和0.9個(gè)百分點(diǎn),與輕量級(jí)SGN(Semantics-Guided Network)相比,分別提升4.1和3.5個(gè)百分點(diǎn)??梢?jiàn),所提方法能夠充分挖掘多尺度特征的協(xié)同互補(bǔ)性,并有效提高單模態(tài)條件下模型的識(shí)別準(zhǔn)確率和訓(xùn)練效率。

        人體行為識(shí)別;骨架關(guān)節(jié)點(diǎn);圖卷積網(wǎng)絡(luò);單模態(tài);多尺度;特征融合

        0 引言

        隨著人工智能的興起和智能化時(shí)代的不斷推進(jìn),人體行為識(shí)別技術(shù)在智能安防、自動(dòng)駕駛、異常行為監(jiān)測(cè)、虛擬現(xiàn)實(shí)等方面有許多實(shí)際的應(yīng)用。行為識(shí)別的本質(zhì)是分類(lèi)識(shí)別,即從視頻、RGB圖像或骨架序列中提取一系列人體活動(dòng)時(shí)的動(dòng)作信息,提取特征以識(shí)別它的分類(lèi)類(lèi)別。其中,骨架數(shù)據(jù)排除了視頻和RGB圖像所帶來(lái)的復(fù)雜背景、光照條件、不同視角和設(shè)備運(yùn)動(dòng)等的噪聲干擾,具有良好的抗干擾性;此外,深度采集設(shè)備的應(yīng)用和先進(jìn)的人體姿態(tài)估計(jì)算法使得獲取骨架數(shù)據(jù)變得更容易[1],因此基于骨架數(shù)據(jù)的行為識(shí)別技術(shù)得到了快速的發(fā)展。

        基于傳統(tǒng)深度學(xué)習(xí)的方法將骨架手動(dòng)構(gòu)造為關(guān)節(jié)坐標(biāo)向量序列或偽圖像,并將它輸入遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[2]或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[3]中建模[4]。然而,RNN和CNN只適用于處理具有一定順序的規(guī)則數(shù)據(jù),忽略了人體關(guān)節(jié)節(jié)點(diǎn)之間的自然連接特征和人體動(dòng)作之間的時(shí)空依賴(lài)關(guān)系,因此對(duì)人體行為特征的提取具有局限性。在現(xiàn)實(shí)生活中規(guī)則的結(jié)構(gòu)占比較少,較多為具有復(fù)雜連接關(guān)系的不規(guī)則結(jié)構(gòu)的拓?fù)鋱D,如人體骨骼結(jié)構(gòu)、知識(shí)圖譜、社交網(wǎng)絡(luò)和貿(mào)易網(wǎng)絡(luò)等。骨架本質(zhì)上是非歐幾里得結(jié)構(gòu)的數(shù)據(jù),在空間中表示為拓?fù)鋱D的形式,把關(guān)節(jié)節(jié)點(diǎn)視為圖的頂點(diǎn),關(guān)節(jié)之間的自然連接視為圖的邊,圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)為此類(lèi)拓?fù)鋱D問(wèn)題提供了較好的解決方案。Yan等[5]提出了ST-GCN(Spatial-Temporal Graph Convolutional Network),該模型是GCN在人體骨架行為識(shí)別領(lǐng)域的首次應(yīng)用。使用圖卷積方法構(gòu)造人體骨架拓?fù)鋱D,模擬人體關(guān)節(jié)之間的自然連接,分別從時(shí)域和空域兩個(gè)維度提取特征,從而可以更好地挖掘骨架運(yùn)動(dòng)的特征信息。但是ST-GCN仍然存在許多不足:1)手工定義的拓?fù)鋱D結(jié)構(gòu)忽略了非自然連接的關(guān)節(jié)之間的動(dòng)態(tài)關(guān)聯(lián),如跑步和行走對(duì)于手腳之間的協(xié)調(diào)運(yùn)動(dòng)很重要,在物理空間中不直接連接的手臂與腳有著非常強(qiáng)的關(guān)聯(lián)關(guān)系;2)分區(qū)策略關(guān)注身體部分之間的強(qiáng)關(guān)聯(lián),注重局部的差異性;3)GCN通過(guò)卷積操作建模局部關(guān)系,使得ST-GCN對(duì)遠(yuǎn)距離的關(guān)節(jié)點(diǎn)之間潛在關(guān)系的挖掘能力較弱。

        針對(duì)上述問(wèn)題,本文提出一種基于單模態(tài)的多尺度特征融合的人體行為識(shí)別方法。對(duì)原始人體骨架圖的每個(gè)關(guān)節(jié)點(diǎn)建立全連接,生成全局特征關(guān)聯(lián)圖,即為全局特征;根據(jù)人體固定物理結(jié)構(gòu)將全局特征關(guān)聯(lián)圖劃分成若干子圖,得到互補(bǔ)子圖(Complementary Subgraphs with Global Features, CSGF),即為局部特征。子圖隱式地包含全局特征,同時(shí)顯式地包含局部特征,可以從不同尺度的特征充分挖掘骨架空間運(yùn)動(dòng)信息,全面且敏銳地捕獲相似動(dòng)作的辨別性特征,提高行為識(shí)別的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,在使用單模態(tài)數(shù)據(jù)的條件下,本文方法取得了不錯(cuò)的識(shí)別效果。

        1 相關(guān)工作

        1.1 圖卷積網(wǎng)絡(luò)

        隨著深度學(xué)習(xí)方法的不斷演變和性能的不斷提高,行為識(shí)別得到了快速的發(fā)展。對(duì)于基于深度學(xué)習(xí)方法的行為識(shí)別模型,最初人們使用RNN將骨架數(shù)據(jù)表示為具有預(yù)定義遍歷規(guī)則的序列數(shù)據(jù),并將它輸入基于RNN的模型[6],如長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)和門(mén)控循環(huán)單元(Gated Recurrent Unit, GRU)。但是由于RNN方法本身的局限性,只能獲取相鄰幾幀內(nèi)人體動(dòng)作的短期時(shí)間上下文關(guān)系,未考慮空間方面人體骨架的連接關(guān)系,行為識(shí)別表達(dá)十分有限。CNN的出現(xiàn)彌補(bǔ)了RNN對(duì)空間信息表達(dá)的不足,在處理歐幾里得數(shù)據(jù)(如圖像)方面取得了顯著的成果[7]。但是骨架數(shù)據(jù)的本質(zhì)并不是歐幾里得數(shù)據(jù),而是具有圖形拓?fù)浣Y(jié)構(gòu)的非歐幾里得數(shù)據(jù)。受GCN啟發(fā),人們開(kāi)始廣泛研究基于GCN方法的行為識(shí)別模型。

        主流的GCN分為兩大類(lèi):光譜域GCN[8-9]和空間域GCN[10-11]。光譜域GCN利用于圖傅里葉變換在光譜域上執(zhí)行圖卷積操作,由于此方法使用了圖拉普拉斯特征矩陣的特征值和特征向量,即對(duì)固定的鄰接矩陣使用特征分解操作,使得它只適用于特定結(jié)構(gòu)的圖并且計(jì)算效率和圖的擴(kuò)展都受到了限制。此方法的經(jīng)典之作為Kipf等[12]提出的半監(jiān)督分類(lèi)的譜GCN。與光譜域GCN相比,空間域GCN處理不同鄰域中的節(jié)點(diǎn)的特征信息,更新每個(gè)節(jié)點(diǎn)的特征向量,再聚合自身和相鄰節(jié)點(diǎn)的特征,最后使用激活函數(shù)將合并的特征進(jìn)行激活變換。本文采用空間域GCN的方法。GCN首先作為譜卷積的一階近似被引入[13],之后陸續(xù)出現(xiàn)了許多以此為基線的各種模型。ST-GCN描述了原始人體骨架結(jié)構(gòu),并首次將圖卷積運(yùn)用于行為識(shí)別領(lǐng)域,構(gòu)造了時(shí)空?qǐng)D卷積模型。Cheng等[14]使用Shift算子替代普通卷積算子,提出了時(shí)空移位圖卷積模型Shift-GCN(Shift Graph Convolutional Network)。Song等[15]提出了RA-GCN(Richly Activated Graph Convolutional Network),將網(wǎng)絡(luò)設(shè)計(jì)成多流結(jié)構(gòu),旨在學(xué)習(xí)運(yùn)動(dòng)豐富的鑒別特征,最后使用Softmax激活函數(shù)將多分支聚合。Cho等[16]提出了一種自注意力網(wǎng)絡(luò)(Self-Attention Network, SAN),在時(shí)間域每個(gè)分片中結(jié)構(gòu)化嵌入自注意力以建模長(zhǎng)期語(yǔ)義信息,提升識(shí)別性能。

        ST-GCN將時(shí)空?qǐng)D卷積定義為:

        式(1)可以用鄰接矩陣表示為:

        1.2 特征融合

        在行為識(shí)別領(lǐng)域,基于單一特征訓(xùn)練的網(wǎng)絡(luò)模型的性能有限,這是因?yàn)榫W(wǎng)絡(luò)挖掘單一特征的辨別性差異的能力有限。當(dāng)兩個(gè)動(dòng)作的區(qū)別在某種特征敏感特性上差異較小時(shí),輸出的分類(lèi)結(jié)果就可能產(chǎn)生偏差,導(dǎo)致分類(lèi)準(zhǔn)確率降低。

        通常這類(lèi)類(lèi)內(nèi)方差較小的問(wèn)題的解決思路是使用特征融合的方法,提取不同尺度的特征,實(shí)現(xiàn)特征的互補(bǔ),彌補(bǔ)單一特征對(duì)人體行為動(dòng)作表達(dá)的不足。粗尺度特征用于度量語(yǔ)義相似度,具有較大的感受野,但會(huì)丟失事物部分與整體的關(guān)系;細(xì)尺度特征用于度量細(xì)粒度相似度[17],具有較小的感受野,能夠表征部分和整體的關(guān)系,但是會(huì)產(chǎn)生語(yǔ)義歧義和噪聲干擾。融合這兩種特征可以實(shí)現(xiàn)特征的優(yōu)勢(shì)互補(bǔ),提升模型的性能。

        特征融合方法一般分為三類(lèi),分別是基于貝葉斯決策理論的算法、基于稀疏表示理論的算法和基于深度學(xué)習(xí)理論的算法。隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,基于深度學(xué)習(xí)理論的特征融合算法逐漸成為主流,它的核心思想是在深度卷積神經(jīng)網(wǎng)絡(luò)中加入特征融合過(guò)程,改進(jìn)網(wǎng)絡(luò)模型[18]。ST-GCN將人體動(dòng)作序列中的骨架關(guān)節(jié)點(diǎn)坐標(biāo)信息流抽象為空域和時(shí)域兩個(gè)維度,在GCN中分別提取空域特征和時(shí)域特征進(jìn)行特征融合,從而更全面地提升模型的識(shí)別準(zhǔn)確率;2S-AGCN(two-Stream Adaptive Graph Convolutional Network)[19]在關(guān)節(jié)流[5]的基礎(chǔ)上增加了骨骼流,并將雙流的原始數(shù)據(jù)送入自適應(yīng)圖卷積網(wǎng)絡(luò)中形成高層次的特征表達(dá),最后在決策層進(jìn)行特征融合。鑒于深度學(xué)習(xí)理論的蓬勃發(fā)展,本文亦采用基于深度學(xué)習(xí)理論的特征融合方法。

        2 本文方法

        本文方法的整體流程如圖1所示,首先,將人體的原始骨架圖進(jìn)行全局關(guān)聯(lián),得到具有全局關(guān)聯(lián)信息的特征圖;其次,在全局特征關(guān)聯(lián)圖的基礎(chǔ)上,根據(jù)人體行為特點(diǎn)和骨架的自然連接關(guān)系進(jìn)行局部劃分;再次,將劃分后的子圖分別輸入空間圖卷積模塊中進(jìn)行特征提取,聚合提取后的結(jié)果;最后,送入時(shí)間圖卷積模塊進(jìn)行卷積,輸出最終的分類(lèi)結(jié)果。

        圖1 本文方法的整體流程

        2.1 特征融合

        2.1.1全局特征關(guān)聯(lián)圖

        針對(duì)空間上超距的關(guān)節(jié)點(diǎn)間關(guān)聯(lián)性較弱的問(wèn)題,本文設(shè)計(jì)了全局特征關(guān)聯(lián)圖以關(guān)聯(lián)人體中的所有關(guān)節(jié)點(diǎn),即把感受野擴(kuò)大到整個(gè)人體骨架圖,建立全局域的關(guān)節(jié)相關(guān)性,如圖2(a)所示。

        同時(shí),人體行為可以被表述為一系列關(guān)節(jié)鉸鏈的復(fù)雜聯(lián)動(dòng)系統(tǒng)。為了挖掘人體骨架各關(guān)節(jié)點(diǎn)在不同行為中的貢獻(xiàn)度,設(shè)置了可學(xué)習(xí)的掩碼,可以自適應(yīng)地調(diào)整各關(guān)節(jié)點(diǎn)的權(quán)重,數(shù)學(xué)定義為:

        其中:表示全局特征關(guān)聯(lián)圖;的數(shù)學(xué)定義為+1,表示可學(xué)習(xí)的掩碼。

        2.1.2局部子圖

        全局特征關(guān)聯(lián)圖可以從宏觀上識(shí)別人體行為,但是對(duì)局部細(xì)節(jié)感知較弱,如對(duì)于相似動(dòng)作的識(shí)別,全局的關(guān)注信息不能很好地捕獲它們之間的差異。針對(duì)這個(gè)問(wèn)題,本文設(shè)計(jì)了局部子圖以捕獲相似動(dòng)作的差異性,同時(shí)建立人體物理連接的強(qiáng)相關(guān)性。

        基于生活經(jīng)驗(yàn)可知,每個(gè)身體部分的重要性是不同的,而且人體行為動(dòng)作具有協(xié)調(diào)對(duì)稱(chēng)性。為了探索人體協(xié)調(diào)對(duì)稱(chēng)的有效性,本文將頭頸和軀干合并,將左右臂合并,將左右腿合并,此時(shí)整個(gè)人體骨架圖被視為3個(gè)部分,表示為;為了探索頭頸和軀干的有效性,本文將左右手臂和左右腿分別視為1個(gè)部分,將頭頸和軀干分別視為1個(gè)部分,此時(shí)整體人體骨架圖被視為4個(gè)部分,表示為;為探索人體左側(cè)和右側(cè)單側(cè)的有效性,本文將頭頸和軀干合并為1個(gè)部分,將左手、右手、左腿、右腿分別視為1個(gè)部分,此時(shí)整個(gè)人體骨架圖被視為5個(gè)部分,表示為5subgraph:;為了探索每個(gè)身體部分的有效性,本文將頭頸、左臂、軀干、右臂、左腿、右腿分別視為1個(gè)部分,此時(shí)整個(gè)人體骨架圖被視為6個(gè)部分,表示為6subgraph:。

        2.1.3特征融合模塊

        人體行為動(dòng)作通常與骨架關(guān)節(jié)的相互作用和組合有關(guān),如走路與跑步需要四肢關(guān)節(jié)與骨骼的協(xié)調(diào)聯(lián)動(dòng)以執(zhí)行動(dòng)作,在空間結(jié)構(gòu)上并不直接相連的關(guān)節(jié)與肢體具有很強(qiáng)的動(dòng)作關(guān)聯(lián)性;因此在關(guān)注局部肢體運(yùn)動(dòng)信息的同時(shí),全局特征的關(guān)聯(lián)性也至關(guān)重要。據(jù)此,本文提出全局與局部特征融合策略,以提取不同尺度的空間特征。粗尺度的全局特征建立全局域的關(guān)節(jié)相關(guān)性,關(guān)注全局特征信息,在空間上將感受野擴(kuò)大到整個(gè)人體骨架圖,挖掘遠(yuǎn)距離關(guān)節(jié)點(diǎn)間的潛在關(guān)聯(lián);細(xì)尺度的局部特征建立各肢體之間的運(yùn)動(dòng)相關(guān)性,關(guān)注局部特征信息,在空間上將感受野縮放至肢體部分,挖掘各肢體部分對(duì)人體行為的重要性,有效融合全局與局部特征,以實(shí)現(xiàn)特征的互補(bǔ)。與傳統(tǒng)特征融合策略相比,本文并不是將全局與局部特征進(jìn)行簡(jiǎn)單的連接或者相加操作,而是在全局特征關(guān)聯(lián)圖上挖掘局部特征信息,具體做法是:基于全局特征關(guān)聯(lián)圖劃分子圖,劃分方案見(jiàn)2.1.2節(jié),根據(jù)物理上肢體與軀干的連接關(guān)系,將全局特征關(guān)聯(lián)圖劃分為6個(gè)部分子圖,由此得到的子圖被定義為融合了全局特征的互補(bǔ)子圖(CSGF)。該互補(bǔ)子圖隱式地融合了全局特征信息,具有低層次的關(guān)節(jié)語(yǔ)義信息;同時(shí)顯式地融合了局部特征信息,具有高層次的肢體語(yǔ)義信息。因此,本文通過(guò)提取不同尺度的空間特征,挖掘粗尺度的全局特征和細(xì)尺度的局部特征之間的互補(bǔ)屬性,從多尺度特征層次提高行為識(shí)別對(duì)相似動(dòng)作的判別能力,提升模型的性能。

        由式(3)得到全局特征關(guān)聯(lián)圖,在此基礎(chǔ)上根據(jù)2.1.2節(jié)的子圖劃分方案,得到融合了全局特征的互補(bǔ)子圖集合,形式上可以表示為:

        其中“~”代表全局信息。

        2.2 時(shí)空?qǐng)D卷積模塊結(jié)構(gòu)

        上述特征融合完成之后,將融合后的互補(bǔ)子圖輸入時(shí)空?qǐng)D卷積模塊中訓(xùn)練。本文的時(shí)空?qǐng)D卷積的主干網(wǎng)絡(luò)來(lái)自ST-GCN,由9個(gè)時(shí)空?qǐng)D卷積模塊組成,每個(gè)模塊如圖4所示,由空間子圖卷積和時(shí)間圖卷積這兩個(gè)模塊級(jí)聯(lián)構(gòu)成:空間子圖卷積聚合提取的空間特征,再輸入時(shí)間卷積中提取時(shí)間特征。9個(gè)時(shí)空?qǐng)D卷積模塊的輸出通道數(shù)分別為64、64、64、128、128、128、256、256、256,其中,在第4個(gè)和第7個(gè)模塊時(shí)間卷積之后設(shè)置下采樣,過(guò)濾貢獻(xiàn)度小或者冗余特征,保留重要的特征信息。最后將256維的特征向量送入Softmax激活函數(shù)中預(yù)測(cè)分類(lèi),預(yù)測(cè)的分類(lèi)與實(shí)際標(biāo)簽相同的概率即為該模型最終的識(shí)別準(zhǔn)確率。

        圖4 時(shí)空?qǐng)D卷積模塊

        在單幀中,融合了全局特征信息的互補(bǔ)子圖卷積可以將式(2)改寫(xiě)為:

        因此,時(shí)空?qǐng)D卷積定義為:

        算法1 網(wǎng)絡(luò)訓(xùn)練過(guò)程。

        1) for=1 to 9 //遍歷9層網(wǎng)絡(luò)層

        2) for=1 to//特征轉(zhuǎn)換過(guò)程

        3) for=0 to

        5) end for

        6) end for

        8) for=1 to

        10) 執(zhí)行式(7) //子圖卷積

        11) 執(zhí)行式(8) //子圖聚合

        12) end for

        13) 執(zhí)行式(9) //時(shí)間卷積

        14) end for

        15)重復(fù)1)~14),直至網(wǎng)絡(luò)收斂

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文在兩個(gè)行為識(shí)別領(lǐng)域公開(kāi)的具有權(quán)威性和挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

        NTU RGB+D60[21]是目前應(yīng)用最廣泛的大型行為識(shí)別RGB數(shù)據(jù)集,它包含在室內(nèi)使用3個(gè)Microsoft Kinect v2攝像機(jī)捕獲的不同視圖的行為動(dòng)作片段,由不同年齡段的40名志愿者演繹行為動(dòng)作,包含60個(gè)動(dòng)作類(lèi)別,共計(jì)56 000個(gè)動(dòng)作樣本。其中,最后10個(gè)類(lèi)是2個(gè)對(duì)象之間的互動(dòng),其余都是單人視頻片段,并且每個(gè)視頻片段包含最多2個(gè)人體骨架,每個(gè)人體骨架由25個(gè)關(guān)節(jié)點(diǎn)構(gòu)成。該數(shù)據(jù)集的作者提出了兩個(gè)評(píng)估協(xié)議:1)交叉對(duì)象(X-sub)協(xié)議將其中20個(gè)對(duì)象的40 320個(gè)視頻組成訓(xùn)練集,其余20個(gè)對(duì)象的16 560個(gè)視頻組成測(cè)試集;2)交叉視圖(X-view)協(xié)議將攝像機(jī)2和攝像機(jī)3采集的37 920個(gè)視頻作為訓(xùn)練集,而攝像機(jī)1采集的18 960個(gè)視頻作為測(cè)試集。值得注意的是,實(shí)驗(yàn)中刪除了302個(gè)具有缺失或者不完整骨架數(shù)據(jù)的樣本。

        NTU RGB+D120[22]是NTU RGB+D60的擴(kuò)展版,也是目前最大的基于骨架的室內(nèi)行為識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集用3個(gè)攝像機(jī)拍攝不同視角的106名志愿者的行為動(dòng)作,包含120個(gè)動(dòng)作類(lèi)別,共計(jì)114 480個(gè)動(dòng)作樣本。該數(shù)據(jù)集作者提出了兩個(gè)評(píng)估協(xié)議:1)交叉對(duì)象(X-sub)將對(duì)象分成兩組,分別表示訓(xùn)練集(63 026個(gè)視頻)和測(cè)試集(50 922個(gè)視頻);2)交叉設(shè)置(X-setup)根據(jù)相機(jī)設(shè)置ID進(jìn)行劃分,偶數(shù)ID的樣本組成訓(xùn)練集,奇數(shù)ID的樣本組成測(cè)試集。同樣地,實(shí)驗(yàn)中刪除了該數(shù)據(jù)集中532個(gè)具有缺失或不完整骨架數(shù)據(jù)的不良樣本。

        3.2 實(shí)驗(yàn)設(shè)置

        在實(shí)驗(yàn)的過(guò)程中,批處理大?。╞atch size)設(shè)置為32,模型迭代次數(shù)(epoch)設(shè)置為120,初始學(xué)習(xí)率為0.1,分別迭代到第20、50、70、100輪時(shí),學(xué)習(xí)率逐步衰減原來(lái)的1/10。使用SGD(Stochastic Gradient Descent)優(yōu)化器優(yōu)化模型,在訓(xùn)練時(shí)設(shè)置Dropout為0.5,防止過(guò)擬合。選擇交叉熵作為反向傳播梯度的損失函數(shù),選擇Softmax分類(lèi)器分類(lèi)。所有實(shí)驗(yàn)使用2個(gè)Nvidia GTX 2080Ti GPU完成訓(xùn)練,并且依托于PyTorch的深度學(xué)習(xí)框架[23],版本號(hào)為3.6。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        3.3.1單模態(tài)有效性分析

        多模態(tài)包含多種不同模態(tài)的數(shù)據(jù)類(lèi)型,可以實(shí)現(xiàn)模態(tài)間的信息互補(bǔ),提高模型性能。但是多模態(tài)數(shù)據(jù)也存在諸多局限性:1)數(shù)據(jù)具有異質(zhì)性,模態(tài)對(duì)齊困難;2)模態(tài)融合可能存在冗余和噪聲干擾,融合效果難以預(yù)測(cè)且可解釋性不強(qiáng);3)模型參數(shù)量大且訓(xùn)練需要消耗較大內(nèi)存空間,對(duì)算力有更高的要求。近年來(lái),行為識(shí)別領(lǐng)域的發(fā)展越來(lái)越趨于使用多模態(tài)構(gòu)建網(wǎng)絡(luò),實(shí)驗(yàn)精度有所提高,但同時(shí)網(wǎng)絡(luò)參數(shù)量、算法復(fù)雜度成倍增長(zhǎng),對(duì)算力的要求也越來(lái)越高,造成了時(shí)間成本和資源成本的大幅提高。因此,本文使用單模態(tài)構(gòu)造簡(jiǎn)單高效的網(wǎng)絡(luò)模型,提出一種單模態(tài)下的多特征融合方法。雖然客觀上單模態(tài)數(shù)據(jù)雖只攜帶單一的信息量,但主觀上可以通過(guò)深度學(xué)習(xí)模型豐富單模態(tài)數(shù)據(jù)特征的層次,從而增強(qiáng)單模態(tài)數(shù)據(jù)的特征表達(dá),同時(shí)降低時(shí)間和資源成本。

        與其他方法相比,本文在單模態(tài)下實(shí)現(xiàn)了與多模態(tài)相當(dāng)甚至更優(yōu)的識(shí)別性能。如表1所示,對(duì)比方法有Shift-GCN[14]、RA-GCN[15]、ST-TR(Spatial-Temporal TRansformer)、PL-GCN(Part-Level Graph Convolutional Network)[24]、DGNN(Directed Graph Neural Network)[25]、PB-GCN(Part-Based Graph Convolutional Network)[26]。

        在同等單模態(tài)下,本文方法的準(zhǔn)確率與PL-GCN相當(dāng),但是參數(shù)量更少;與多模態(tài)的DGNN相比,本文方法的準(zhǔn)確率降低了0.9個(gè)百分點(diǎn),但是參數(shù)量低于DGNN的1/6,因此消耗的內(nèi)存資源更少,對(duì)實(shí)驗(yàn)算力的硬件條件要求更低,總體性?xún)r(jià)比較高。與多模態(tài)的RA-GCN相比,本文方法的準(zhǔn)確率和參數(shù)量均具有明顯優(yōu)勢(shì)。綜上所述,本文方法簡(jiǎn)單高效,并且取得了不錯(cuò)的效果,整體性?xún)r(jià)比更高。

        表1 NTU RGB+D60(X-sub協(xié)議)上不同方法的準(zhǔn)確率對(duì)比

        注:“s”表示流(stream)。

        3.3.2單一特征有效性分析

        為了探索全局與局部特征關(guān)聯(lián)圖的單特征有效性,本文在NTU RGB+D60數(shù)據(jù)集的兩個(gè)協(xié)議(X-sub和X-view)上進(jìn)行了相應(yīng)的消融實(shí)驗(yàn)。

        相較于ST-GCN將整個(gè)人體骨架圖輸入網(wǎng)絡(luò)訓(xùn)練,本文分別將全局特征關(guān)聯(lián)圖(Global feature graph)和局部子圖(3subgraph、4subgraph、5subgraph、6subgraph)輸入網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練結(jié)果如表2所示。從表2中可以看出,在兩個(gè)協(xié)議上,與ST-GCN相比,單特征全局特征關(guān)聯(lián)圖分別提升了5.2個(gè)百分點(diǎn)和4.8個(gè)百分點(diǎn),單特征局部子圖(4subgraph)分別提升了5.9個(gè)百分點(diǎn)和5.4個(gè)百分點(diǎn),表明了全局特征關(guān)聯(lián)圖可以突破人體骨架的固定連接,捕獲遠(yuǎn)距離關(guān)節(jié)之間的全局關(guān)系;同時(shí),表明局部子圖可以將模型的注意力集中人體局部特征,捕捉行為的細(xì)粒相似度,提升模型性能。從表2中還可以看出,在4種局部子圖劃分方案中,4subgraph的劃分方案效果最優(yōu),表明頭頸的運(yùn)動(dòng)對(duì)行為識(shí)別具有一定的影響,同時(shí)表明人體行為具有較強(qiáng)的協(xié)調(diào)對(duì)稱(chēng)性。

        3.3.3多特征融合的有效性分析

        為了驗(yàn)證新型多特征融合策略的有效性,本文在NTU RGB+D數(shù)據(jù)集的X-sub和X-view協(xié)議上進(jìn)行實(shí)驗(yàn)。

        根據(jù)2.1.2節(jié)的劃分方案將全局特征關(guān)聯(lián)圖劃分為不同數(shù)量的互補(bǔ)子圖,對(duì)應(yīng)表2所示的多特征融合列舉的4個(gè)方法。

        從表2可以看出,多特征融合后的實(shí)驗(yàn)結(jié)果均高于單特征的Global feature graph方法的結(jié)果。同時(shí),在X-sub和X-view協(xié)議上,與單特征3subgraph方法的實(shí)驗(yàn)結(jié)果相比,多特征融合Global feature graph+3subgraph方法分別提升了2.0和0.9個(gè)百分點(diǎn);與4subgraph方法的實(shí)驗(yàn)結(jié)果相比,Global feature graph+4subgraph方法分別提升了1.6和0.5個(gè)百分點(diǎn);與5subgraph方法的實(shí)驗(yàn)結(jié)果相比,Global feature graph+5subgraph方法分別提升了1.3和0.7個(gè)百分點(diǎn);與6subgraph方法的實(shí)驗(yàn)結(jié)果相比,Global feature graph+6subgraph方法分別提升了1.7和0.4個(gè)百分點(diǎn)。由此可以看出,多特征融合的4個(gè)方法的實(shí)驗(yàn)結(jié)果均高于單特征的4種子圖方法,表明了多特征融合的效果比單特征效果有更高的識(shí)別準(zhǔn)確率,驗(yàn)證了全局和局部特征具有互補(bǔ)性。與此同時(shí),再次證明了4個(gè)子圖劃分方案的有效性,因此,本文采用4個(gè)子圖劃分方案作為最終的實(shí)驗(yàn)結(jié)果。

        表2 NTU RGB+D60數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果 單位:%

        3.3.4與其他方法的對(duì)比

        為了驗(yàn)證方法的有效性,本文在NTU RGB+D60和NTU RGB+D120兩個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。對(duì)比方法有ST-GCN[5]、PB-GCN[26]、Shift-GCN[14]、SAN[16]、RA-GCN[15]、PGCN-TCA(Pseudo Graph Convolutional Network with Temporal and Channel-wise Attention)[27]、ST-TR[28]、SGN(Semantics-Guided Network)[29]、SkeleMixCLR(Contrastive Learning of visual Representation with a spatio-temporal Skeleton Mixing augmentation)[30]、MST-GCN(Multi-scale Spatial Temporal Graph Convolutional Network)[31]。如表3所示,本文方法在NTU RGB+D60數(shù)據(jù)集的兩個(gè)通用協(xié)議X-sub和X-view上的準(zhǔn)確率分別為89.0%和94.2%。

        從表3中可以看出,在無(wú)其他數(shù)據(jù)流的情況下,僅選擇關(guān)節(jié)點(diǎn)相對(duì)坐標(biāo)作為單數(shù)據(jù)流輸入,在X-sub協(xié)議上,本文方法的準(zhǔn)確率比ST-GCN高7.5個(gè)百分點(diǎn),比PB-GCN高1.5個(gè)百分點(diǎn),比Shift-GCN(1s)高1.2個(gè)百分點(diǎn),比ST-TR高0.3個(gè)百分點(diǎn)。與其他輸入額外的多種數(shù)據(jù)流的方法相比,本文方法的識(shí)別準(zhǔn)確率也優(yōu)于其他對(duì)比方法。在X-view協(xié)議上,本文方法優(yōu)于大部分方法,但略低于Shift-GCN(1s)、ST-TR、SGN、MST-GCN。Shift-GCN(1s)方法中的時(shí)間圖卷積和空間圖卷積部分均使用了Shift卷積算子,本文僅在空間圖卷積中運(yùn)用Shift卷積算子,時(shí)間圖卷積部分使用常規(guī)Conv卷積算子(因?yàn)榛诒疚牡奶卣魅诤戏椒ú贿m用時(shí)間Shift卷積算子,沿時(shí)間維度的通道移位會(huì)破壞原有的空間特征關(guān)聯(lián)結(jié)構(gòu),從而導(dǎo)致模型的識(shí)別準(zhǔn)確率下降),但本文方法在NTU RGB+D120的兩個(gè)協(xié)議上的實(shí)驗(yàn)效果均優(yōu)于Shift-GCN(1s)方法;ST-TR中的Transformer注意力機(jī)制具有出色的全局特性和模態(tài)融合能力,但缺點(diǎn)是計(jì)算效率低,且開(kāi)銷(xiāo)巨大;SGN和MST-GCN模型都是輕量,在NTU RGB+D60數(shù)據(jù)集上達(dá)到了不錯(cuò)的識(shí)別效果,但是模型輕量和準(zhǔn)確率不能兼得,所以它在更大的NTU RGB+D120數(shù)據(jù)集上的實(shí)驗(yàn)效果不佳。

        表3 不同方法在NTU RGB+D60數(shù)據(jù)集上的識(shí)別準(zhǔn)確率 單位:%

        綜上所述,本文方法在NTU RGB+D60數(shù)據(jù)集上有不錯(cuò)的實(shí)驗(yàn)效果,表明全局與局部特征能夠從更高層次的語(yǔ)義信息理解人體行為,敏銳地捕獲相似動(dòng)作的辨別性差異。

        如表4所示,本文方法在NTU RGB+D120數(shù)據(jù)集的兩個(gè)通用協(xié)議X-sub和X-setup上的準(zhǔn)確率分別為83.3%和85.0%。對(duì)比方法為GVFE+AS-GCN with DH-TCN(Graph Vertex Feature Encoder and Actional-Structural Graph Convolutional Network with Dilated Hierarchical Temporal Convolutional Network)[32]、Gimme Signals[33]、SGN、Shift-GCN、RA-GCN、ST-TR、SkeleMixCLR和MST-GCN。在無(wú)其他數(shù)據(jù)流的情況下,僅選擇關(guān)節(jié)點(diǎn)坐標(biāo)作為單數(shù)據(jù)流輸入,在X-sub協(xié)議上本文方法比Shift-GCN(1s)的準(zhǔn)確率高2.4個(gè)百分點(diǎn),比單模態(tài)下的ST-TR的準(zhǔn)確率高1.4個(gè)百分點(diǎn);在X-setup協(xié)議上比Shift-GCN(1s)的準(zhǔn)確率高1.8個(gè)百分點(diǎn),比ST-TR的準(zhǔn)確率高0.9個(gè)百分點(diǎn)。與輕量級(jí)模型SGN相比,在兩個(gè)協(xié)議上的準(zhǔn)確率分別高4.1和3.5個(gè)百分點(diǎn);與輕量級(jí)模型MST-GCN(1s)相比,在兩個(gè)協(xié)議上的準(zhǔn)確率均高0.5個(gè)百分點(diǎn)。綜上分析,驗(yàn)證了本文方法的有效性。

        表4 不同方法在NTU RGB+D120數(shù)據(jù)集上的識(shí)別準(zhǔn)確率 單位:%

        4 結(jié)語(yǔ)

        為了提高人體關(guān)節(jié)點(diǎn)之間的全局建模能力,彌補(bǔ)卷積操作以及人體固有連接的局限性,本文提出了一種單模態(tài)條件下的基于多尺度特征融合的人體行為識(shí)別方法,從粗尺度的全局方面捕獲遠(yuǎn)距離的關(guān)節(jié)點(diǎn)之間的關(guān)系,同時(shí)從細(xì)尺度的局部方面關(guān)注人的身體部分的強(qiáng)關(guān)聯(lián),對(duì)人體行為識(shí)別從不同尺度特征形成互補(bǔ)關(guān)系,敏銳捕捉相似行為之間的差異性,提高識(shí)別性能。在具有挑戰(zhàn)性的兩個(gè)大型數(shù)據(jù)集NTU RGB+D60和NTU RGB+D120上的實(shí)驗(yàn)結(jié)果表明,本文方法能達(dá)到較高的識(shí)別精度。近年行為識(shí)別領(lǐng)域蓬勃發(fā)展,識(shí)別精度也越來(lái)越高,但是網(wǎng)絡(luò)的規(guī)模和參數(shù)量也成倍增長(zhǎng),對(duì)實(shí)驗(yàn)算力也提出了更高的要求,在保證識(shí)別精度的前提下,探索更輕量級(jí)的、更少參數(shù)量的、訓(xùn)練更快的網(wǎng)絡(luò)模型是下一步值得深入研究的課題。

        [1] SI C, CHEN W, WANG W, et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1227-1236.

        [2] OORD A van den, KALCHBRENNER N, KAVUKCUOGLU K. Pixel recurrent neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 1747-1756.

        [3] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 3844-3852.

        [4] YANG H, YAN D, ZHANG L, et al. Feedback graph convolutional network for skeleton-based action recognition[J]. IEEE Transactions on Image Processing, 2022, 31: 164-175.

        [5] YAN S, XIONG Y, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 7444-7452.

        [6] SHI L, ZHANG Y, CHENG J, et al. Decoupled spatial-temporal attention network for skeleton-based action recognition[C]// Proceedings of the 2020 Asian Conference on Computer Vision, LNCS 12626. Cham: Springer, 2021: 38-53.

        [7] CHEN Y, ZHANG Z, YUAN C, et al. Channel-wise topology refinement graph convolution for skeleton-based action recognition[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 13339-13348.

        [8] LI C, CUI Z, ZHENG W, et al. Action-attending graphic neural network[J]. IEEE Transactions on Image Processing, 2018, 27(7): 3657-3670.

        [9] PENG W, HONG X, CHEN H, et al. Learning graph convolutional network for skeleton-based human action recognition by neural searching[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 2669-2676.

        [10] ZHAO R, WANG K, SU H, et al. Bayesian graph convolution LSTM for skeleton based action recognition[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6882-6892.

        [11] GAO J, HE T, ZHOU X, et al. Focusing and diffusion: bidirectional attentive graph convolutional networks for skeleton-based action recognition[EB/OL]. (2019-12-24). [2022-08-13].https://arxiv.org/pdf/1912.11521.pdf.

        [12] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22). [2022-09-10].https://arxiv org/pdf/1609.02907.pdf.

        [13] LIU Z, ZHANG H, CHEN Z, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 143-152.

        [14] CHENG K, ZHANG Y, HE X, et al. Skeleton-based action recognition with shift graph convolutional network[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 180-189.

        [15] SONG Y F, ZHANG Z, SHAN C, et al. Richly activated graph convolutional network for robust skeleton-based action recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(5): 1915-1925.

        [16] CHO S, MAQBOOL M H, LIU F, et al. Self-attention network for skeleton-based human action recognition[C]// Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2020: 624-633.

        [17] YU W, YANG K, YAO H, et al. Exploiting the complementary strengths of multi-layer CNN features for image retrieval[J]. Neurocomputing, 2017, 237: 235-241.

        [18] 劉渭濱,鄒智元,邢薇薇. 模式分類(lèi)中的特征融合方法[J]. 北京郵電大學(xué)學(xué)報(bào), 2017, 40(4): 1-8.(LIU W B, ZOU Z Y, XING W W. Feature fusion method in pattern classification[J]. Journal of Beijing University of Posts and Telecommunications, 2017, 40(4): 1-8.)

        [19] SHI L, ZHANG Y, CHENG J, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 12018-12027.

        [20] CHEN Y, ROHRBACH M, YAN Z, et al. Graph-based global reasoning networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 433-442.

        [21] SHAHROUDY A, LIU J, NG T T, et al. NTU RGB+ D: a large scale dataset for 3D human activity analysis[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1010-1019.

        [22] LIU J, SHAHROUDY A, PEREZ M, et al. NTU RGB+ D 120: a large-scale benchmark for 3D human activity understanding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2684-2701.

        [23] PASZKE A, GROSS S, CHINTALA S, et al. Automatic differentiation in PyTorch[EB/OL]. (2017-10-29) [2020-12-01].https://openreview.net/pdf?id=BJJsrmfCZ.

        [24] HUANG L, HUANG Y, OUYANG W, et al. Part-level graph convolutional network for skeleton-based action recognition[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 11045-11052.

        [25] SHI L, ZHANG Y, CHENG J, et al. Skeleton-based action recognition with directed graph neural networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 7904-7913.

        [26] THAKKAR K, NARAYANAN P J. Part-based graph convolutional network for action recognition[EB/OL]. (2018-09-13) [2022-08-13].https://arxiv.org/pdf/1809.04983.pdf.

        [27] YANG H, GU Y, ZHU J, et al. PGCN-TCA: pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition[J]. IEEE Access, 2020, 8: 10040-10047.

        [28] PLIZZARI C, CANNICI M, MATTEUCCI M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding, 2021, 208/209: No.103219.

        [29] ZHANG P, LAN C, ZENG W, et al. Semantics-guided neural networks for efficient skeleton-based human action recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1109-1118.

        [30] CHEN Z, LIU H, GUO T, et al. Contrastive learning from spatio-temporal mixed skeleton sequences for self-supervised skeleton-based action recognition[EB/OL]. (2022-07-07) [2022-10-23].https://arxiv.org/pdf/2207.03065.pdf.

        [31] CHEN Z, LI S, YANG B, et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1113-1122.

        [32] PAPADOPOULOS K, GHORBEL E, AOUADA D, et al. Vertex feature encoding and hierarchical temporal modeling in a spatial-temporal graph convolutional network for action recognition[C]// Proceedings of the 25th International Conference on Pattern Recognition. Piscataway: IEEE, 2021: 452-458.

        [33] MEMMESHEIMER R, THEISEN N, PAULUS D. Gimme signals: discriminative signal encoding for multimodal activity recognition[C]// Proceedings of the 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway: IEEE, 2020: 10394-10401.

        Human action recognition method based on multi-scale feature fusion of single mode

        LIU Suolan1,2, TIAN Zhenzhen1, WANG Hongyuan1*, LIN Long1, WANG Yan1

        (1,,,,213164,;2(),210094,)

        In order to solve the problem of insufficient mining of potential association between remote nodes in human action recognition tasks, and the problem of high training cost caused by using multi-modal data, a multi-scale feature fusion human action recognition method under the condition of single mode was proposed. Firstly, the global feature correlation of the original skeleton diagram of human body was carried out, and the coarse-scale global features were used to capture the connections between the remote nodes. Secondly, the global feature correlation graph was divided locally to obtain the Complementary Subgraphs with Global Features (CSGFs), the fine-scale features were used to establish the strong correlation, and the multi-scale feature complementarity was formed. Finally, the CSGFs were input into the spatial-temporal Graph Convolutional module for feature extraction, and the extracted results were aggregated to output the final classification results. Experimental results show that the accuracy of the proposed method on the authoritative action recognition dataset NTU RGB+D60 is 89.0% (X-sub) and 94.2% (X-view) respectively. On the challenging large-scale dataset NTU RGB+D120, the accuracy of the proposed method is 83.3% (X-sub) and 85.0% (X-setup) respectively, which is 1.4 and 0.9 percentage points higher than that of the ST-TR (Spatial-Temporal TRansformer) under single modal respectively, and 4.1 and 3.5 percentage points higher than that of the lightweight SGN (Semantics-Guided Network). It can be seen that the proposed method can fully exploit the synergistic complementarity of multi-scale features, and effectively improve the recognition accuracy and training efficiency of the model under the condition of single modal.

        human action recognition; skeleton joint; Graph Convolutional Network (GCN); single mode; multi-scale; feature fusion

        This work is partially supported by National Natural Science Foundation of China (61976028), Open Project of Jiangsu Key Laboratory of Image and Video Understanding for Social Security (J2021-2).

        LIU Suolan, born in 1980, Ph. D., associate professor. Her research interests include computer vision, artificial intelligence.

        TIAN Zhenzhen, born in 1997, M. S. candidate. Her research interests include computer vision, pattern recognition.

        WANG Hongyuan, born in 1960, Ph. D., professor. His research interests include image processing, computer vision, artificial intelligence, pattern recognition.

        LIN Long, born in 1998, M. S. candidate. His research interests include computer vision, data augmentation.

        WANG Yan, born in 1999, M. S. candidate. His research interests include computer vision, pattern recognition.

        1001-9081(2023)10-3236-08

        10.11772/j.issn.1001-9081.2022101473

        2022?10?11;

        2022?12?29;

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61976028);江蘇省社會(huì)安全圖像與視頻理解重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(J2021?2)。

        劉鎖蘭(1980—),女,江蘇泰州人,副教授,博士,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺(jué)、人工智能; 田珍珍(1997—),女,河南鄭州人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、模式識(shí)別; 王洪元(1960—),男,江蘇常熟人,教授,博士,CCF會(huì)員,主要研究方向:圖像處理、計(jì)算機(jī)視覺(jué)、人工智能、模式識(shí)別; 林龍(1998—),男,四川德陽(yáng)人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、數(shù)據(jù)增強(qiáng); 王炎(1999—),男,江蘇連云港人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、模式識(shí)別。

        TP391.41

        A

        2023?01?03。

        猜你喜歡
        子圖骨架全局
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        電子樂(lè)園·上旬刊(2022年5期)2022-04-09 22:18:32
        骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
        臨界完全圖Ramsey數(shù)
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        新思路:牽一發(fā)動(dòng)全局
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
        国产精品成熟老女人| 宅男久久精品国产亚洲av麻豆| 牛仔裤人妻痴汉电车中文字幕| 中文字幕在线乱码一区| 亚洲av无码一区二区三区不卡| 1769国产精品短视频| 亚洲二区三区在线播放| 国产91色综合久久高清| 日韩av东京社区男人的天堂| 在线高清精品第一区二区三区| 日韩av在线不卡观看| 蜜臀av毛片一区二区三区| 亚洲精品无人区| āV第三区亚洲狠狠婷婷综合久久| 国产熟女精品一区二区| 少妇无套裸按摩呻吟无呜| 日韩少妇内射免费播放| 五月婷婷激情六月| 字幕网中文字幕精品一区| 日本一道综合久久aⅴ免费 | 国产精品成人观看视频国产奇米| 国产乱xxⅹxx国语对白| 97在线视频免费| 亚洲av综合av国一区二区三区| а√天堂8资源中文在线| 四虎影视永久在线精品| 果冻蜜桃传媒在线观看| 视频在线观看国产自拍| 国产激情久久久久影院老熟女免费| 精品亚洲国产探花在线播放| 亚洲一区二区av免费观看| 国产成人午夜福利在线观看| ā片在线观看| 久久久婷婷综合亚洲av| 男女无遮挡高清性视频| 一本一道av无码中文字幕| 国产成人香蕉久久久久| 麻豆国产精品一区二区三区| 中文字幕无线码| 国产精品亚洲片夜色在线| 日本精品人妻一区二区|