江 勵(lì),周鵬飛,湯健華
(五邑大學(xué)智能制造學(xué)部,廣東 江門 529020)
近年來,基于3D 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的人體動(dòng)作識(shí)別算法受到了廣泛關(guān)注。其中,雙流網(wǎng)絡(luò)(Two-Stream Network)[1]是一種廣泛使用的方法,它分別對(duì)RGB 圖像和光流圖像進(jìn)行處理,并將二者的特征融合起來,獲得了較高地識(shí)別精度。C3D[2]和I3D[3]則是專門針對(duì)視頻數(shù)據(jù)進(jìn)行處理的網(wǎng)絡(luò)模型,通過時(shí)間維度的卷積操作,有效地利用了視頻序列中的時(shí)序信息。盡管這些基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別算法在識(shí)別準(zhǔn)確率方面取得了顯著的進(jìn)展,但仍然存在一些問題。首先,這些算法需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,訓(xùn)練時(shí)間長、計(jì)算復(fù)雜度高,不適用于實(shí)時(shí)應(yīng)用場(chǎng)景。其次,這些算法在面對(duì)復(fù)雜場(chǎng)景、復(fù)雜動(dòng)作時(shí),往往識(shí)別效果較差。
為了解決這些問題,本文提出了一種新的基于高精度Transformer[4]風(fēng)格骨干網(wǎng)絡(luò)的人體動(dòng)作識(shí)別算法,該算法采用時(shí)序移位模塊[5]和輕量級(jí)注意力機(jī)制來提取動(dòng)作時(shí)序信息和增強(qiáng)動(dòng)作特征,實(shí)現(xiàn)更好的識(shí)別效果。具體來說,本文采用骨干網(wǎng)絡(luò)CoTNeXt[6]對(duì)上下文信息進(jìn)行挖掘并進(jìn)行自注意力學(xué)習(xí),從而有效地增強(qiáng)動(dòng)作特征;時(shí)序移位模塊則可以充分提取動(dòng)作時(shí)序信息,進(jìn)一步提高識(shí)別準(zhǔn)確率;融合注意力機(jī)制則可以通過增加正則化項(xiàng)來進(jìn)一步抑制不顯著的特征,突出顯著動(dòng)作特征。在Jester 和Kinetics-400 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法在識(shí)別準(zhǔn)確率和識(shí)別速度方面均優(yōu)于現(xiàn)有的大多數(shù)基于3D卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別算法。
當(dāng)前,基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別算法在機(jī)器人交互中得到了廣泛應(yīng)用。其中,基于3D卷積神經(jīng)網(wǎng)絡(luò)的算法受到了廣泛的關(guān)注。然而,這些算法在實(shí)時(shí)性、訓(xùn)練時(shí)間和計(jì)算復(fù)雜度等方面還存在一些問題。為了克服這些問題,本研究提出了一種新的人體動(dòng)作識(shí)別算法,該算法采用高精度的CoTNeXt骨干網(wǎng)絡(luò)作為特征提取器。CoTNeXt 骨干網(wǎng)絡(luò)可以通過挖掘上下文信息來增強(qiáng)動(dòng)作特征,并通過自注意力機(jī)制來學(xué)習(xí)自身特征,從而有效地提高識(shí)別準(zhǔn)確率。
CoTNeXt-50 是通過將ResNeXt-50[7]的組卷積中所有3×3 卷積核替換為CoT 塊來構(gòu)建的。與典型的卷積相比,當(dāng)組數(shù)C增加時(shí),組卷積核的深度明顯減小。因此,在ResNeXt-50 中,組卷積的計(jì)算量減少了C倍。 為了實(shí)現(xiàn)與ResNeXt-50 相似的參數(shù)數(shù)量和FLOPs,本文還將CoTNeXt-50的輸入特征映射的尺度從32×4d減少到2×48d。最后,CoTNeXt-50 只需要比ResNeXt-50 多1.2 倍的參數(shù)和1.01 倍的FLOPs。CoTNeXt-50 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 CoTNeXt-50網(wǎng)絡(luò)結(jié)構(gòu)
CoT 塊的結(jié)構(gòu)由一個(gè)3×3 卷積層,一個(gè)自注意力層和一個(gè)線性融合層組成。3×3 卷積層用于挖掘靜態(tài)上下文,自注意力層用于獲取動(dòng)態(tài)上下文,而線性融合層則用于動(dòng)態(tài)地融合靜態(tài)和動(dòng)態(tài)上下文。具體來說,3×3 卷積層會(huì)對(duì)輸入的鍵進(jìn)行上下文編碼,從而得到靜態(tài)上下文表示,即捕獲輸入鍵之間的關(guān)系;自注意力層則會(huì)將查詢和上下文編碼的鍵進(jìn)行拼接,從而學(xué)習(xí)動(dòng)態(tài)多頭注意力矩陣,即捕獲查詢和上下文化鍵之間的關(guān)系;最后,線性融合層會(huì)將靜態(tài)和動(dòng)態(tài)上下文表示進(jìn)行融合,從而得到最終的輸出。CoT的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 CoT的網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于輸入2D 特征圖X,CoT 塊首先對(duì)k×k網(wǎng)格內(nèi)的所有相鄰鍵進(jìn)行k×k組卷積,以在空間上對(duì)每個(gè)相鄰鍵表示進(jìn)行上下文化,而不是像典型的自注意力那樣通過1×1 卷積對(duì)每個(gè)鍵進(jìn)行編碼。學(xué)習(xí)到的上下文鍵K1自然地反映了局部相鄰鍵之間的靜態(tài)上下文信息,本文將K1作為輸入X的靜態(tài)上下文表示。之后,在上下文鍵K1和查詢Q拼接的條件下,通過兩個(gè)連續(xù)的1×1 卷積實(shí)現(xiàn)注意力矩陣:
式中:T為注意力矩陣;K1為輸入特征圖X的靜態(tài)上下文信息;Q為查詢(query);Wθ為具有ReLU 激活函數(shù)的1×1卷積;Wδ為不具有激活函數(shù)的1×1卷積。
對(duì)于每個(gè)頭部,每個(gè)空間位置的局部注意矩陣是基于查詢特征和上下文鍵特征學(xué)習(xí)來的,可以通過挖掘的靜態(tài)上下文K1來增強(qiáng)自注意力學(xué)習(xí)能力。接下來,根據(jù)上下文注意力矩陣T,本文像典型的自注意力一樣通過聚合所有值V來計(jì)算出關(guān)注的特征圖K2。具體來說,對(duì)于輸入2D 特征圖X,將值(value)定義為V=XWν,Wν為值(value)的權(quán)重矩陣,然后將上下文注意力矩陣T與值V點(diǎn)相乘得到特征圖X的動(dòng)態(tài)上下文信息K2,計(jì)算公式如下:
式中:K2為輸入特征圖X的動(dòng)態(tài)上下文信息;T為注意力矩陣;V為值(value)。
最后,本文將靜態(tài)上下文信息K1和動(dòng)態(tài)上下文信息K2通過SKNet 中的注意力機(jī)制融合,得到CoT 模塊的輸出Y。
總而言之,CoTNeXt 結(jié)合了Transformer 和CNN 兩種模型的優(yōu)點(diǎn),既能捕捉全局依賴關(guān)系,又能保留局部細(xì)節(jié)信息。這是由于CoTNeXt 骨干網(wǎng)絡(luò)由多個(gè)注意力模塊組成,每個(gè)注意力模塊由一個(gè)局部注意力模塊和一個(gè)全局注意力模塊組成。局部注意力模塊用于捕捉特征之間的局部關(guān)系,而全局注意力模塊用于捕捉特征之間的全局關(guān)系。通過對(duì)特征進(jìn)行逐層加權(quán),CoTNeXt 骨干網(wǎng)絡(luò)可以更好地捕捉輸入數(shù)據(jù)中的信息,利用相鄰鍵之間的上下文信息來增強(qiáng)自注意力機(jī)制,提高特征的表達(dá)能力。同時(shí),CoTNeXt 又具有較低的計(jì)算復(fù)雜度和內(nèi)存消耗,在保證高精度的同時(shí)也具有較高效率。因此,在人體動(dòng)作識(shí)別任務(wù)中,CoTNeXt 骨干網(wǎng)絡(luò)可以用于提取動(dòng)作特征,進(jìn)而實(shí)現(xiàn)準(zhǔn)確的動(dòng)作識(shí)別。具體而言,CoTNeXt 骨干網(wǎng)絡(luò)通過對(duì)上下文信息的挖掘,可以更好地識(shí)別不同動(dòng)作中的關(guān)鍵特征,從而提高識(shí)別準(zhǔn)確率和魯棒性,并在人體動(dòng)作識(shí)別中取得了優(yōu)異的表現(xiàn)。
隨著人體動(dòng)作識(shí)別的研究不斷深入,越來越多的工作開始關(guān)注動(dòng)作的時(shí)序信息。傳統(tǒng)的人體動(dòng)作識(shí)別方法往往只利用單幀圖像或視頻進(jìn)行分析,難以充分利用動(dòng)作中包含的時(shí)間序列信息。而時(shí)序移位模塊(Temporal Shift Module,TSM)作為一種有效的時(shí)序建模方式,可以有效地利用時(shí)序信息,進(jìn)一步提高動(dòng)作識(shí)別的性能。
為了進(jìn)一步提高CoTNeXt 骨干網(wǎng)絡(luò)在人體動(dòng)作識(shí)別任務(wù)上的性能,本文將時(shí)序移位模塊(TSM)融入到了網(wǎng)絡(luò)中。時(shí)序移位模塊是一種能夠有效提高視頻分類和動(dòng)作識(shí)別性能的模塊,其可以學(xué)習(xí)到視頻中時(shí)間維度的關(guān)系,從而提高模型的魯棒性和泛化能力。本文將時(shí)序移位模塊融入CoTNeXt 骨干網(wǎng)絡(luò)中,以進(jìn)一步提高人體動(dòng)作識(shí)別的性能。
時(shí)序移位模塊的主要思想是通過對(duì)輸入的特征圖進(jìn)行時(shí)間維度的移位操作,將相鄰的時(shí)序特征進(jìn)行混合。具體來說,時(shí)序移位模塊將輸入的特征圖沿著時(shí)間軸進(jìn)行劃分,并對(duì)每個(gè)時(shí)間段的特征圖進(jìn)行移位操作,然后將移位后的特征圖按照時(shí)間軸重新組合,生成一個(gè)新的特征圖。時(shí)序移位模塊沿時(shí)間維度移位,如圖3所示。
圖3 時(shí)序移位模塊沿時(shí)間維度移位示意圖
在CoTNeXt 骨干網(wǎng)絡(luò)中,本文將時(shí)序移位模塊放置在每個(gè)residual模塊的第一層卷積之前。具體地說,先將residual模塊的輸入特征圖按照時(shí)間維度分割成不同的子序列,然后對(duì)每個(gè)子序列進(jìn)行移位操作,從而達(dá)到時(shí)序變換的效果,最后再將輸出的特征圖輸入residual 模塊的第一層卷積。時(shí)序移位模塊可以用簡(jiǎn)單的卷積操作實(shí)現(xiàn),同時(shí)具有較少的額外參數(shù),可以很方便地集成到現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)中。CoTNeXt-50融合時(shí)序移位模塊的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 TSM-CoTNeXt網(wǎng)絡(luò)結(jié)構(gòu)圖
通過將時(shí)序移位模塊融入到CoTNeXt 骨干網(wǎng)絡(luò)中,可以更好地利用時(shí)間維度的信息,從而提高模型在人體動(dòng)作識(shí)別任務(wù)上的性能。在實(shí)驗(yàn)中,使用時(shí)序移位模塊后,模型的性能得到了明顯的提高。同時(shí),時(shí)序移位模塊的使用也使得模型在時(shí)間維度上更加魯棒,能夠更好地處理動(dòng)作的時(shí)序信息,從而進(jìn)一步提高模型的泛化能力。
總之,將時(shí)序移位模塊融入到CoTNeXt骨干網(wǎng)絡(luò)中,可以進(jìn)一步提高模型在人體動(dòng)作識(shí)別任務(wù)上的性能。通過實(shí)驗(yàn),證明了該模塊的有效性,并且得到了更好的實(shí)驗(yàn)結(jié)果。
為了提高CoTNeXt 骨干網(wǎng)絡(luò)的性能,本文在模型中融入了Normalization-based Attention Module (NAM)[8]。NAM 的加入旨在增強(qiáng)網(wǎng)絡(luò)對(duì)動(dòng)作序列中關(guān)鍵幀的關(guān)注度,從而提高動(dòng)作識(shí)別的準(zhǔn)確率。
NAM 是一種有效的輕量級(jí)注意力機(jī)制,旨在通過利用訓(xùn)練模型權(quán)重的變化來突出顯著特征。它由通道注意力模塊和空間注意力模塊兩個(gè)子模塊組成。通道注意力模塊使用批量歸一化(BN)[9]的縮放因子來衡量通道的方差,從而表明它們的重要性。具體來說,它使用BN的縮放因子來計(jì)算每個(gè)通道的注意力,并將其乘以輸入特征圖,以便突出顯著特征。空間注意力模塊使用縮放因子來衡量像素的重要性。具體來說,空間注意力子模塊使用卷積層和MLP(多層感知器)來計(jì)算每個(gè)像素的注意力,并將其乘以輸入特征圖,以便突出顯著特征。NAM 將這兩個(gè)子模塊結(jié)合起來,以提高深度神經(jīng)網(wǎng)絡(luò)的性能。此外,為了有效抑制較不顯著的權(quán)重,NAM 在損失函數(shù)中添加了正則化項(xiàng),從而提高模型的準(zhǔn)確性。NAM 的結(jié)構(gòu)簡(jiǎn)單,但具有高效的性能。它的結(jié)構(gòu)可以被稱為“結(jié)構(gòu)化的注意力”,因?yàn)樗鼘⑼ǖ雷⒁饬涂臻g注意力結(jié)合在一起,以提高深度神經(jīng)網(wǎng)絡(luò)的性能。
在CoTNeXt 骨干網(wǎng)絡(luò)中,本文將NAM 嵌入在殘差結(jié)構(gòu)的末尾。在通道注意力子模塊中,使用來自批量歸一化(BN)的縮放因子,如式(3)所示。縮放因子測(cè)量通道的方差,表明它們的重要性。
式中:μB為小批量(mini batch)B的平均值;σB為小批量(mini batch)B的標(biāo)準(zhǔn)差;γ和β均為可訓(xùn)練的仿射變換參數(shù)。
通道注意力模塊如圖5所示。圖中,F(xiàn)1為輸入特征,γ為每個(gè)通道的比例因子,Mc為輸出特征,權(quán)值為ωγ=。
圖5 通道注意力模塊
通道注意力模塊公式如式(4)所示。
在空間注意力子模塊中,將BN 的縮放因子應(yīng)用于空間維度來衡量像素的重要性,這操作稱為像素歸一化(pixel normalization)。
空間注意力模塊如圖6所示。圖中,F(xiàn)2為輸入特征,λ為每個(gè)通道的比例因子,Ms為輸出特征,權(quán)值為ωλ=。
圖6 空間注意力模塊
空間注意力模塊公式如式(5)所示。
最后,為了有效抑制較不顯著的權(quán)重,NAM 在損失函數(shù)中添加了正則化項(xiàng),如式(6)所示。
式中:x為輸入;y為輸出;W為網(wǎng)絡(luò)權(quán)重;l( · )為損失函數(shù);g( · )表為L1 范數(shù)懲罰函數(shù);p為懲罰因子,平衡g(γ)和g(λ)的懲罰。
總之,NAM 模塊是一種有效的輕量級(jí)注意力機(jī)制,可以有效地減少參數(shù)數(shù)量,從而提高模型的效率,并且可以更好地捕捉特征圖的空間關(guān)系,從而更好地突出顯著特征。通過將NAM 模塊融入CoTNeXt 骨干網(wǎng)絡(luò)中,我們可以進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)不同層特征的利用能力,從而提高動(dòng)作識(shí)別任務(wù)的性能。
為了驗(yàn)證本文模型的性能和泛化能力,本文在公共數(shù)據(jù)集Jester和Kinetics-400上對(duì)本文模型進(jìn)行評(píng)估。
Jester 數(shù)據(jù)集是由20bn 公司提供的一個(gè)大規(guī)模視頻數(shù)據(jù)集,它包含了148 092 個(gè)帶有密集標(biāo)簽的視頻剪輯,這些視頻剪輯顯示了人類在筆記本電腦攝像頭或網(wǎng)絡(luò)攝像頭前執(zhí)行預(yù)先定義的27 種手勢(shì)。這些手勢(shì)包括向下滑動(dòng)兩根手指、向左或向右滑動(dòng)以及敲擊手指等。該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集有118 562個(gè)視頻剪輯,驗(yàn)證集有14 787 個(gè)視頻剪輯,測(cè)試集有14 743個(gè)視頻剪輯。Jester數(shù)據(jù)集的部分動(dòng)作視頻的采樣幀如圖7所示。
圖7 Jester的部分動(dòng)作視頻采樣幀
Kinetics-400 數(shù)據(jù)集是由DeepMind 和Google Research 團(tuán)隊(duì)于2017年發(fā)布的一個(gè)大規(guī)模的視頻動(dòng)作識(shí)別數(shù)據(jù)集,旨在推動(dòng)視頻理解領(lǐng)域的研究進(jìn)展。該數(shù)據(jù)集包含400個(gè)人類動(dòng)作類別,每個(gè)類別至少有400個(gè)視頻剪輯,共計(jì)約30 萬個(gè)視頻。每個(gè)視頻剪輯持續(xù)大約10 s,并且取自YouTube 視頻。這些動(dòng)作以人類為中心,涵蓋廣泛的類別,包括演奏樂器、運(yùn)動(dòng)、日?;顒?dòng)等。Kinetics-400數(shù)據(jù)集的部分動(dòng)作視頻的采樣幀如圖8所示。
圖8 Kinetics-400的部分動(dòng)作視頻采樣幀
本文實(shí)驗(yàn)是在Linux 系統(tǒng)搭建的Pytorch 深度學(xué)習(xí)框架下,使用4 張Tesla V100-PCIE-32GB 顯卡完成的。優(yōu)化器采用隨機(jī)梯度下降(SGD)算法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),使用Nesterov 動(dòng)量,動(dòng)量參數(shù)設(shè)置為0.9。對(duì)于公共數(shù)據(jù)集Jester 和Kinetics-400,SGD 優(yōu)化器權(quán)重衰減分別設(shè)置為0.000 5 和0.000 1。其中,批量大?。╞atch-size)設(shè)置為8,Dropout 設(shè)置為0.5。通過ImageNet 上的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)權(quán)重,整個(gè)訓(xùn)練次數(shù)epoch設(shè)置為50。在實(shí)驗(yàn)中,初始化學(xué)習(xí)率lr設(shè)置為0.005,每經(jīng)過20個(gè)epoch,學(xué)習(xí)率下降為到原來的1/10,經(jīng)過50個(gè)epoch后完成全部訓(xùn)練。
對(duì)本文提出的人體動(dòng)作識(shí)別網(wǎng)絡(luò)進(jìn)行評(píng)估,圖9 是本文的人體動(dòng)作識(shí)別網(wǎng)絡(luò)在Jester 數(shù)據(jù)集上訓(xùn)練過程中準(zhǔn)確率和訓(xùn)練損失Loss曲線圖。
圖9 準(zhǔn)確率和訓(xùn)練損失曲線
本次訓(xùn)練總共有50 個(gè)epoch,對(duì)每一個(gè)epoch 得到的模型,在Jester 數(shù)據(jù)集的驗(yàn)證集上進(jìn)行評(píng)估,得到模型Top-1 和Top-5 準(zhǔn)確率的曲線圖。Top-1 和Top-5 準(zhǔn)確率的曲線圖如圖10所示。
圖10 Top-1和Top-5準(zhǔn)確率的曲線
由圖10 可知,本文模型在經(jīng)過第48 個(gè)epoch 時(shí),準(zhǔn)確率達(dá)到了最高值,Top-1 識(shí)別精度為0.974 2,Top-5 識(shí)別精度為0.998 5。本文模型fps 為7.6 video/s,具有良好的實(shí)時(shí)性。實(shí)驗(yàn)結(jié)果表明,CoTNeXt 骨干網(wǎng)絡(luò)、NAM 模塊和TSM 模塊的組合形成了一個(gè)強(qiáng)大的動(dòng)作識(shí)別網(wǎng)絡(luò),在Jester數(shù)據(jù)集上取得了優(yōu)異的性能。
本文的模型算法與其他主流動(dòng)作識(shí)別模型算法在Jester 數(shù)據(jù)集進(jìn)行比較,結(jié)果如表1。從表中可以清晰得知,本文提出的人體動(dòng)作識(shí)別算法優(yōu)于其他主流算法,識(shí)別準(zhǔn)確率更高。
表1 不同模型識(shí)別準(zhǔn)確率對(duì)比(Jester數(shù)據(jù)集)
在Kinetics-400 數(shù)據(jù)集上,對(duì)本文提出的人體動(dòng)作識(shí)別網(wǎng)絡(luò)進(jìn)行評(píng)估,本文的人體動(dòng)作識(shí)別模型在Kinetics-400數(shù)據(jù)集上訓(xùn)練過程中準(zhǔn)確率和訓(xùn)練損失曲線如圖11所示。
圖11 準(zhǔn)確率和訓(xùn)練損失曲線
在CoTNeXt-50 與時(shí)序移位模塊組合形成的新骨干網(wǎng)絡(luò)中,對(duì)于融合NAM注意力模塊對(duì)最終識(shí)別準(zhǔn)確率的影響進(jìn)行對(duì)比。融合NAM 注意力模塊的對(duì)比圖如圖12 所示。由圖可知,融合NAM 注意力模塊的網(wǎng)絡(luò)模型,相比只有CoTNeXt-50 與時(shí)序移位模塊組合成的新骨干網(wǎng)絡(luò),識(shí)別準(zhǔn)確率由75.58%提升至75.94%,這表明NAM 模塊能夠有效地加強(qiáng)人體動(dòng)作識(shí)別模型對(duì)于重要特征的關(guān)注,提高模型的識(shí)別精度和魯棒性。
圖12 融合NAM注意力模塊的對(duì)比圖
本文的模型算法與其他先進(jìn)的動(dòng)作識(shí)別模型算法在Kinetics-400 數(shù)據(jù)集上進(jìn)行比較,如表2 所示。從表2 中可知,本文提出的人體動(dòng)作識(shí)別算法具有較高的識(shí)別準(zhǔn)確率,優(yōu)于其他先進(jìn)算法。
表2 不同模型識(shí)別準(zhǔn)確率對(duì)比(Kinetics 數(shù)據(jù)集)
本文提出了一種新的人體動(dòng)作識(shí)別算法,首先通過骨干網(wǎng)絡(luò)CoTNeXt 對(duì)上下文信息進(jìn)行挖掘并進(jìn)行自注意力學(xué)習(xí),從而有效地增強(qiáng)動(dòng)作特征,更好地識(shí)別不同動(dòng)作中的關(guān)鍵特征,提高人體動(dòng)作識(shí)別算法的識(shí)別準(zhǔn)確率和魯棒性;然后,利用時(shí)序移位模塊對(duì)動(dòng)作時(shí)序信息建模,可以充分提取動(dòng)作時(shí)序信息,進(jìn)一步提高動(dòng)作識(shí)別的性能;最后,融合輕量級(jí)的NAM 注意力機(jī)制,可以通過增加正則化項(xiàng)來進(jìn)一步抑制不顯著的特征,從而突出顯著動(dòng)作特征,進(jìn)一步提升人體動(dòng)作識(shí)別算法的性能。實(shí)驗(yàn)結(jié)果表明,在ImageNet 預(yù)訓(xùn)練模式下,本算法在Jester 數(shù)據(jù)集和Kinetics-400 數(shù)據(jù)集上分別取得了97.42%和75.94%的識(shí)別準(zhǔn)確率,性能優(yōu)于現(xiàn)有大多基于3D 卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別模型。本算法有很好的實(shí)時(shí)性,在未來的工作中,將結(jié)合機(jī)器人,實(shí)時(shí)識(shí)別人體動(dòng)作,將相應(yīng)的動(dòng)作語義反饋到機(jī)器人,實(shí)現(xiàn)更加友好的實(shí)時(shí)人機(jī)交互。