羅會蘭 包中生
摘 要:基于深度模型的視頻動作識別通常先對輸入視頻進行采樣,然后對獲得的視頻幀進行特征表達,輸出動作類別,因此視頻幀采樣方法對動作識別的效果有直接的影響。為了采樣到關鍵有效的特征,同時增強視頻運動信息,提出了一種基于特征級采樣策略的局部—全局運動信息增強的動作識別網(wǎng)絡(localglobal motion enhancement network,LGMeNet)。首先,利用特征級采樣模塊對輸入數(shù)據(jù)進行相同運動信息間隔均勻取幀;其次,局部運動特征提取模塊使用相似性函數(shù)計算單幀短期運動特征;最后,全局運動特征提取模塊利用LSTM網(wǎng)絡計算多尺度長期運動特征。通過實驗評估,LGMeNet在UCF101和SomethingSomethingV1數(shù)據(jù)集上分別取得了97.7%和56.9%的精確度。結果表明,采用LGMeNet能夠有效提升動作識別的效果,對進一步改進相關領域的研究具有重要意義。
關鍵詞:深度學習;動作識別;視頻采樣;時間建模
中圖分類號:TP391.4?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-052-3848-06
doi:10.19734/j.issn.10013695.2023.05.0216
Action recognition method with feature sampling and motion information enhancement
Abstract:Based on deep models,video action recognition typically involves sampling the input video and then extracting features from the obtained video frames to classify actions.Therefore,the video frame sampling method directly affects the effectiveness of action recognition.Aiming to sample key and effective features while enhanced the motion information in videos,this paper proposed a LGMeNet based on a featurelevel sampling strategy.Firstly,it used a featurelevel sampling module to uniformly select frames with the same motion information from the input data.Secondly,it employed a local motion feature extraction module to compute shortterm motion features using a similarity function.Finally,it utilized a LSTM network in the global motion feature extraction module to calculate multiscale longterm motion features.Experimental evaluations show that LGMeNet achieves accuracies of 97.7% and 56.9% on the UCF101 and SomethingSomethingV1 datasets,respectively.The results of this study demonstrate the effectiveness of LGMeNet in enhancing action recognition and highlight its significance for further advancements in related research areas.
Key words:deep learning;action recognition;video sampling;temporal modeling
0 引言
隨著網(wǎng)絡多媒體的快速發(fā)展以及視頻獲取設備的日漸普及,生產(chǎn)和生活中積累了越來越多的視頻數(shù)據(jù)。如何理解和分析這些海量視頻數(shù)據(jù)具有重大的理論研究及應用價值。動作識別的目的是從傳感器獲取的視頻中識別其中包含的動作類別。視頻動作識別在許多領域中具有非常大的應用價值,比如視頻檢索[1,2]、異常檢測[3]、自動駕駛[4]、視頻監(jiān)控[4]和人機交互等[5]。
基于視頻的動作識別可以分為兩大類[6,7],即基于傳統(tǒng)手工特征的方法[8,9]和基于深度學習的方法[10~13]。基于傳統(tǒng)手工特征的動作識別方法通過對視頻采樣點提取特征來表達視頻,然后將特征矢量輸入分類器進行類別預測。文獻[8]利用Kinect相機采集的骨骼動作數(shù)據(jù),將每個關節(jié)的坐標轉(zhuǎn)換為一組特征向量,然后利用主成分分析方法對這些特征向量進行降維,得到一組新的低維特征向量。在降維后的特征空間中,利用SVM分類器對動作進行分類。文獻[9]利用空間和時間的高斯尺度空間信息來提取關鍵點,并利用方向直方圖描述關鍵點的短期紋理方向。傳統(tǒng)算法存在無法自動學習復雜的視頻特征表達,以及特征提取與后續(xù)分類器不能統(tǒng)一學習的問題,因此識別性能較差。隨著深度學習在計算機視覺領域的成功應用,基于深度模型的視頻動作識別方法逐漸成為了主流。根據(jù)時間建模長度的不同,基于深度學習的動作識別方法可以分為短期時序建模方法和長期時序建模方法兩大類。短期時序建模方法通常利用卷積神經(jīng)網(wǎng)絡建模短期運動信息來捕捉短期動作特征。這種方法主要關注短期動作特征,容易捕捉到運動的速度和方向等短期運動信息。例如,文獻[14]將RGB流和光流分別輸入到兩個具有5個卷積層和2個全連接層的卷積神經(jīng)網(wǎng)絡中,分別學習空間特征和光流特征,在測試階段將兩個卷積神經(jīng)網(wǎng)絡的輸出均值作為最后的分類結果。由于獲取光流數(shù)據(jù)的計算量過大以及所需的時間很長,文獻[15]從輸入的視頻中獲取RGB圖像和運動矢量,使用運動矢量代替光流構成了新的雙流網(wǎng)絡結構,不僅獲得了和twostream網(wǎng)絡相媲美的效果,而且處理速度比原始twostream網(wǎng)絡快。文獻[16]通過將二維卷積神經(jīng)網(wǎng)絡擴展為三維卷積神經(jīng)網(wǎng)絡,直接對RGB視頻進行處理,以更準確地捕捉短期動態(tài)特征。在C3D的基礎上,文獻[17]采用時空分離卷積來代替標準的三維卷積,在保持與C3D相當準確率的同時,實現(xiàn)了更小的模型尺寸和更快的訓練速度。在這一研究思路下,一些工作集中于設計更強大的時間模塊,并將其插入到二維卷積神經(jīng)網(wǎng)絡中進行有效的動作識別。文獻[10]將視頻序列分成若干時間段,在每個時間段進行平均池化后,通過時間移位操作將相鄰時間段的特征進行交換,從而在不增加模型參數(shù)的情況下增強模型對運動特征的表達能力。文獻[18]通過在網(wǎng)絡中引入門控機制,實現(xiàn)了對時間維度上特征的重要性加權,從而提高了模型對運動信息的敏感性。
在短期時序建模的基礎上,長期時序建模方法更加關注較長時間范圍的運動信息,旨在捕捉動作的上下文信息和動作之間的關系。例如,文獻[19]將多個RNN模塊連接起來,每個模塊處理視頻序列的一部分,可以處理不同時序尺度的序列數(shù)據(jù),從而適用于處理多種動作識別問題。文獻[20]采用雙向時空卷積提取視頻序列中的時空特征,將特征序列輸入到LSTM模型中,學習序列中的長期依賴關系。文獻[12]將視頻序列分成若干個固定長度的視頻段,在每個視頻段中隨機選取一個時間點作為采樣點,從采樣點的前后若干幀中提取特征,并將這些特征拼接后,輸入到分類器中進行分類預測。文獻[13]提出了長時時間差模塊(longterm TDM),擴展了基本的時間差模塊,使其能夠處理具有不同時間尺度的特征。
由于視頻的長短不一樣,并且視頻中包含了大量的冗余信息,所以現(xiàn)存視頻動作識別方法都是基于幀采樣的,即需要先對輸入視頻采樣固定數(shù)量的視頻幀作為模型的輸入。文獻[17]通過隨機選擇幀作為起始點來獲取視頻片段,然后對視頻中接下來的64個連續(xù)幀進行均勻次采樣。文獻[13,14]沿整個時間維度均勻采樣幀,這種隨機均勻采樣方法不加區(qū)別地對待所有視頻幀,可能會導致采樣到的幀在包含大量冗余信息的同時缺少關鍵運動信息。如圖1跳水動作視頻均勻采樣結果所示,采樣到幀包含了大量的動作準備和結束信息。因此,文獻[21]設計了一種基于累積運動分布的運動均勻采樣策略,以確保采樣幀均勻地覆蓋所有具有高運動顯著性的重要片段。雖然MGSampler改進了均勻采樣方法,但是因為它是將兩幀特征相減作為當前幀的運動信息,所以當處理運動背景變化幅度較大的視頻時,MGSampler不能很好地將運動的背景和前景區(qū)分開來。
針對當前動作識別的采樣方法不能很好地將運動背景和前景區(qū)分開來,導致采樣不到包含豐富運動信息的視頻幀的問題,在提取局部運動特征時沒有考慮到每一幀所關聯(lián)的局部運動信息的重要性不同和每一時刻的運動信息是與參照物有關系的問題,以及在提取全局運動特征時的特征尺度太過單一,不能捕捉更豐富的上下文語義關系的問題,本文提出了一種基于特征級采樣策略的局部—全局運動信息增強的動作識別網(wǎng)絡(LGMeNet)。
1 方法
1.1 LGMeNet結構
LGMeNet的整體框架如圖2所示,共包含視頻采樣、局部運動特征提取和全局運動特征提取三個部分。首先,使用MfS采樣模塊從視頻中采樣T幀作為網(wǎng)絡的輸入,然后對所有采樣到的視頻幀并行進行特征提取。以ResNet50作為骨干網(wǎng)絡為例,圖像分別輸入到殘差塊和局部運動特征提取模塊LME中提取外觀特征和局部運動信息,將每一級外觀特征與局部運動特征相加后分別輸入到下一級殘差塊和局部運動特征提取模塊。LGMeNet只使用了前三個殘差塊提取的低級特征進行局部運動信息的提取與融合,理由是低級特征包含了更多的細節(jié)信息,更能反映出局部運動信息,這一點在后面的消融實驗中也得到了驗證。接下來,所有采樣幀的特征串接融合后,輸入到全局運動特征提取模塊GME、第四殘差塊、GME和第五殘差塊中,進行運動信息和空間信息的提取與融合。最后將提取到的視頻特征輸入到全連接層進行分類學習。
1.2 MfS采樣模塊
為了更好地采樣到包含豐富運動信息的視頻幀,本文提出了MfS采樣模塊。MfS采樣模塊的結構框架如圖3所示。具體的實現(xiàn)細節(jié)如下:
a)先進行運動和空間背景降噪。在這一步中,原始輸入視頻序列首先在空間維度上使用1×1的卷積進行初步特征提取并調(diào)整通道數(shù)。接下來,通過在時間維度上進行卷積核大小為3的1維卷積、時序全局平均池化(temporal global average pooling,TGAP)、空間維度的3×3卷積,獲得全局運動信息。通過將每一幀特征與此全局運動信息相減,消除運動背景的影響。然后,通過空間全局平均池化(spatial global average pooling,SGAP)與輸入數(shù)據(jù)進行點乘去除空間背景噪聲的影響。接下來,把經(jīng)過背景降噪的特征輸入到訓練過的經(jīng)典三維卷積神經(jīng)網(wǎng)絡,如文獻[22]中,提取視頻中的運動特征。最后將提取到的運動特征進行SGAP和CGAP,得到每一幀的時空特征值F(t)(0 b)根據(jù)所獲得的運動信息進行均勻采樣。首先,根據(jù)文獻[21]中的方法計算視頻的累積運動分布,計算方法如式(1)所示,即將從初始幀到第t幀的特征值F(t)累加起來,除以所有幀的特征值和。然后,假設需要從輸入視頻中采樣T幀,則從累積運動分布中查找與1/T、2/T、…、15/T和1最接近的運動信息分布值Diff(t)所對應的T個索引值t,并將這些索引對應的幀作為采樣到的幀。 1.3 LME模塊 為了關注視頻中的局部運動信息,本文引入了LME模塊。注意到每一幀所關聯(lián)的局部運動信息的重要性不同,以及每一時刻的運動信息是與參照物有關系的,本文把當前幀作為參考幀,計算它與前后兩幀間的特征距離,以此距離值作為權值進行局部范圍內(nèi)的運動信息的聚合學習。LME模塊的結構如圖4所示。 以計算t時刻的局部運動信息S(t)為例。首先,通過相鄰兩幀特征I(t)相減的方式,計算t時刻與前后兩幀總共5幀的局部運動信息f(ti),接下來對f(ti)使用步長為2的2×2空間平均池化(spatial average pooling,SAP)擴大局部運動信息的感受野。同時,通過余弦相似性函數(shù)計算t時刻的特征與前后兩幀特征之間的特征級差異性權重μi(0 αi=1-sum(Cosine(I(t),I(t+i))) i∈(- 2,-1,1,2)(2) μi=Softmax(αi)(3) f(ti)=I(t)-I(t+i) i∈(-2,-1,1,2)(4) S(t)=Concat(SAP(f(t1))×μ1,…,SAP(f(t4))×μ4)(5) 其中:Cosine()表示逐點計算余弦相似性;sum()表示將所有點的值求和;Concat()表示沿通道維度串接。接下來,LME使用雙路融合方式豐富網(wǎng)絡學習到的語義信息。在第一條融合支路中,首先采用3×3的卷積操作將加權融合后的局部運動特征與第t幀特征進行通道維度統(tǒng)一。然后,使用上采樣對局部運動特征進行空間維度調(diào)整。最后,將調(diào)整后的局部運動特征與第t幀特征相加作為第一條融合支路的輸出。在第二條融合支路中,通過了3×3卷積操作通道維度統(tǒng)一之后的局部運動特征和第一條支路的輸出都再通過一個殘差卷積層,目的是提取到更大感受野的空間特征。然后,同樣也經(jīng)過上采樣對特征進行空間維度調(diào)整。最后,將處理后的特征相加融合,得到了每一幀的局部運動信息H(t)。 1.4 GME模塊 局部運動信息和全局運動信息是動作識別中兩個互補的信息。局部運動信息對動作識別準確率的提升以及捕獲細粒度的細節(jié)特征有著很大的幫助,但是,全局運動信息對于理解運動語義非常重要。 為了學習視頻中多尺度的全局運動信息,以及捕捉更豐富的上下文語義關系,本文設計了GEM模塊,具體的結構如圖5所示。將所有采樣幀的特征串接融合后獲得X∈Euclid Math TwoRApC×T×H×W作為GEM的輸入。首先,使用1×1卷積和Reshape函數(shù)得到F∈Euclid Math TwoRApCr×T×HW輸入到長短時記憶網(wǎng)絡。長短時記憶網(wǎng)絡可以學習到時間維度上的長期依賴關系。然后,將學習的長期依賴關系的特征與原始輸入特征進行點乘和相加操作,得到全局運動信息激勵后的特征,這個過程如下所示: F=Reshape(Conv 1×1(X))(6) F′=Conv1×1(sigmoid(LSTM(F)))(7) X=X⊙F′+X(8) 接下來,經(jīng)過全局運動信息激勵的特征通過多尺度模塊進行時空特征增強。以t時刻的特征為例,首先將經(jīng)過3×3卷積處理后的特征X(t)和X(t-1)相減,得到運動特征差值g(t)。然后,將它輸入到三個分支中,每個分支從不同的感受野中學習運動信息。最后,將不同分支的信息相加得到了多尺度的全局運動信息G。這個過程用公式描述如下所示: g(t)=Conv3×3(X(t))-Conv3×3(X(t-1))(9) G=Concat(G(t)) t∈(0,T)(10) G(t)1=g(t)(11) G(t)2=Conv3×3 (g(t))(12) G(t)3=UPsample(Conv3×3(SAP(g(t))))(13) G(t)=G(t)1+G(t)2+G(t)3(14) 最后,多尺度的全局運動信息G經(jīng)過平均池化和全連接層輸出最后的分類結果。 2 實驗 為了驗證本文所提出的LGMeNet的有效性,本章在兩個具有不同屬性的大規(guī)模視頻數(shù)據(jù)集上與其他先進方法進行了性能比較實驗;另外,也進行了大量的消融實驗以驗證各關鍵模塊的有效性。 2.1 數(shù)據(jù)集 UCF101[24]是一個廣泛使用的動作識別數(shù)據(jù)集,它有13 000個來自YouTube視頻的片段,平均每個視頻持續(xù)7 s??値瑪?shù)為240萬,分布在101個類別中。視頻的空間分辨率為320 × 240像素,幀率為25 fps。 SomethingSomething[25]數(shù)據(jù)集是用于動作識別的大規(guī)模視頻數(shù)據(jù)集。它包括V1和V2版本,V1大約有110 000個視頻,而V2大約有220 000個視頻,涵蓋了174個細粒度的動作類別,具有多樣化的對象和場景,專注于人類執(zhí)行預定義的基本動作。在該數(shù)據(jù)集中,具有不同的對象執(zhí)行相同的動作,因此模型需要理解基本動作,而不能通過識別對象或背景來分類動作。此外,對象和事件的空間和時間尺度在不同的視頻中變化很大,這適于驗證所提出方法的靈活時空建模能力。 2.2 實現(xiàn)細節(jié) 在實驗中,本文分別使用了ResNet50和ResNet101作為主干實現(xiàn)本文的LGMeNet。視頻幀采樣模塊MfS中的3D CNN使用了預訓練過的網(wǎng)絡文獻[22]。在訓練過程中,將每個視頻幀隨機裁剪為224×224的大小。在UCF101數(shù)據(jù)集上,訓練周期設置為70,批大小為8,dropout設置為0.8,學習率為0.002。在SomethingSomething數(shù)據(jù)集上,訓練周期設置為60,批大小為4,dropout設置為0.8,學習率為0.002。當訓練周期達到30、45、55時,學習率除以10。 2.3 消融實驗 本節(jié)的消融實驗在UCF101數(shù)據(jù)集上進行,每個視頻采樣16幀,以ResNet50為主干,使用top1準確率評價指標進行比較。 a)MfS采樣模塊的消融實驗。MfS采樣模塊主要由兩部分組成。第一部分是背景降噪網(wǎng)絡,在表1中用“BNRN”表示,它用于消除運動噪聲和背景噪聲;第二部分是輕量型三維卷積網(wǎng)絡,在表1中用“3D CNN”表示,用于提取運動信息。通過表1的實驗結果可以發(fā)現(xiàn),當結合背景降噪網(wǎng)絡和三維卷積神經(jīng)網(wǎng)絡時,能更好地學習視頻運動信息,從而獲得更好的采樣幀,實現(xiàn)更好的動作識別性能(性能從95.6%上升到了97.1%)。表1還分析比較不同的3DCNN對采樣效果的影響,結果發(fā)現(xiàn),使用PAN[22]的準確率是最高的,達到了97.1%。所以在后面的實驗中,采樣模塊均使用了PAN。 b)MfS采樣策略和TSN[12]采樣策略對比。為了驗證本文提出的采樣模塊的有效性,表2對比了在TSM[10]、TEA[18]、GSM[28]、TDN[13]和本文方法上分別應用MfS采樣策略和TSN采樣策略后的動作識別準確率。結果表明,MfS采樣策略能夠在不同模型上帶來性能改進。 c)自相似性函數(shù)的選擇。表3顯示了在LME模塊中采用不同的相似性函數(shù)計算t時刻的特征與前后兩幀特征之間的差異性對本文提出模型性能的影響??梢钥闯?,采用余弦相似度函數(shù)效果最好,但是不同的相似性函數(shù)對結果的影響較小。 d)LME和GME的消融實驗。表4對比了LME和GME模塊對模型性能的影響??梢钥闯?,當所有的LME和GME模塊從網(wǎng)絡中移除時,準確率為92.5%。隨著三個LME模塊的依次加入,性能穩(wěn)步增加到96.4%,而結合LME和GME可以將性能提高到97.1%,驗證了兩個模塊的有效性和互補性。 e)LME和GME位置的消融實驗。表5比較了在ResNet50主干網(wǎng)絡的不同位置使用LME和GME的動作識別準確率。可以看出,采用如圖2所示的設置,即在前三個卷積塊中使用局部運動信息提取模塊,后二個卷積塊中使用全局運動信息提取模塊,得到了最好的識別精度。這表明局部運動信息適合在初級特征上提取,而全局運動信息適合在高級特征上提取。 f)MfS采樣模塊與當前主流采樣模塊的實例效果比較。為了更加直觀地驗證本文提出的采樣模塊的有效性,在圖6中展示了MfS模塊采樣的結果和當前主流采樣模塊的采樣結果對比(上面是MfS模塊的采樣視頻幀的結果,下面是主流的采樣模塊采樣視頻幀的結果),可以很明顯地看出,MfS模塊的采樣能力更加優(yōu)秀,采樣出的視頻幀包含的運動信息更多,而主流的采樣模塊的結果覆蓋很多的靜態(tài)視頻幀。因此,表明了MfS模塊在采樣視頻幀的效果上優(yōu)于當前主流的采樣模塊,證明了MfS模塊的有效性。 g)LGMeNet與同類方法在局部、全局階段的特征可視化對比。為了更加直觀地驗證本文在局部和全局階段兩個模塊的有效性,在圖7、8中分別給出了在局部階段和全局階段與同類方法的特征可視化對比。從圖中可以看出,本文的可視化效果會更好一點,證明了本文LGMeNet方法在局部和全局階段都能帶來有效改進。 2.4 與其他先進方法的比較 本節(jié)分別在UCF101和Something V1數(shù)據(jù)集上比較了本文方法和其他先進方法的性能,實驗結果如表6和7所示。由于UCF101數(shù)據(jù)集上的top5準確率都太高,比較不出方法間的差別,所以表6只列出了top1準確率。 可以看出,在UCF101數(shù)據(jù)集上,采用ResNet50作為骨干并采樣16幀時,相比于其他采用同樣骨干網(wǎng)絡并且采樣幀數(shù)大于或等于16幀的先進方法,本文方法獲得了最好的性能,準確率達到了97.1%;當只采樣8幀時,準確率也達到了95.8%。而當采用更大的骨干網(wǎng)絡ResNet101時,性能有了更大的提升,采樣16幀時,準確率達到了97.7%,采樣8幀時,準確率也達到了96.4%。 同樣地,從表7可以看出,在Something V1數(shù)據(jù)集上,采用ResNet50作為骨干并采樣16幀時,相比于其他采用同樣骨干網(wǎng)絡并且采樣幀數(shù)大于或等于16幀的先進方法,本文方法獲得了最好的性能,top1準確率達到了55.7%,top5準確率達到了82.8%;當只采樣8幀時,top1準確率也達到了54.6%,top5準確率達到了81.6%。而當采用更大的骨干網(wǎng)絡ResNet101時,性能有了更大的提升,采樣16幀時,top1準確率達到了56.9%,top5準確率達到了83.9%;采樣8幀時,top1準確率達到了55.6%,top5準確率達到了82.4%。 這些實驗結果驗證了本文方法的有效性和先進性。與基于三維卷積神經(jīng)網(wǎng)絡的動作識別方法進行比較,如I3D、SlowFast、LGD3D相比,本文方法不但獲得了更好的性能,同時計算成本也相對更小。 3 結束語 為了更好地采樣到包含豐富運動信息的視頻幀,同時關注動作的局部和全局上下文特征,本文提出了一種基于特征級采樣策略的局部—全局運動信息增強的動作識別網(wǎng)絡LGMeNet。在去除運動噪聲和背景噪聲后,采用預訓練好的3DCNN提取視頻特征,在此基礎上進行運動信息均勻采樣,提取到關鍵幀;然后將關鍵幀輸入特征提取骨干網(wǎng)絡進行空間維特征提取的同時,在初級特征上利用局部運動信息提取模塊進行短期運動信息增強,在高級特征上利用全局運動信息提取模塊學習多尺度全局時空特征。在Something V1和UCF101上的實驗結果驗證了所提出模塊的有效性,與其他先進方法的比較結果也證明了所提方法的先進性。本文提出的基于運動特征的采樣模塊是利用預訓練好的模塊來進行特征提取的,在模型學習時,此部分參數(shù)沒有進行訓練和微調(diào)。所以,后續(xù)研究將考慮改進此模塊,使其能與主體網(wǎng)絡無縫連接,以便進行統(tǒng)一訓練和學習,進一步提高視頻動作識別性能。 參考文獻: [1]Kilickaya M,Smeulders A W M.Structured visual search via compositionaware learning[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2021:17011710. [2]Tan R,Xu Huijuan,Saenko K,et al.LoGAN:latent graph coattention network for weaklysupervised video moment retrieval[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2021:20832092. [3]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomaly detection–a new baseline[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:65366545. [4]Zhou Yao,Wan Guowei,Hou Shenhua,et al.Da4ad:endtoend deep attentionbased visual localization for autonomous driving[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:271289. [5]Xu Dejing,Zhao Zhou,Xiao Jun,et al.Video question answering via gradually refined attention over appearance and motion[C]//Proc of the 25th ACM International Conference on Multimedia.New York:ACM Press,2017:16451653. [6]羅會蘭,王嬋娟,盧飛.視頻行為識別綜述[J].通信學報,2018,39(6):169180.(Luo Huilan,Wang Chanjuan,Lu Fei.A review of video action recognition[J] .Journal on Communications,2018,39(6):169180.) [7]黃晴晴,周風余,劉美珍.基于視頻的人體動作識別算法綜述[J].計算機應用研究,2020,37(11):32133219.(Huang Qingqing,Zhou Fengyu,Liu Meizhen.A review of videobased human action recognition algorithms[J].Application Research of Computers,2020,37(11):32133219.) [8]Yang Xiaodong,Tian Yingli .Effective 3D action recognition using eigen joints [J].Journal of Visual Communication and Image Representation,2014,25(1):211. [9]Willems G,Tuytelaars T,Van Gool L.An efficient dense and scaleinvariant spatiotemporal interest point detector[C]//Proc of the 10th European Conference on Computer Vision.Berlin :Springer,2008:650663. [10]Lin Ji,Gan Chuang,Han Song.TSM:temporal shift module for efficient video understanding[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:70827092. [11]Huang Guoxi,Bors A G.Busyquiet video disentangling for video classification[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:756765. [12]Wang Limin,Xiong Yuanjun,Wang Zhe,et al.Temporal segment networks:towards good practices for deep action recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:2036. [13]Wang Limin,Tong Zhan,Ji Bin,et al.TDN:temporal difference networks for efficient action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:18951904. [14]Simonyan K,Zisserman A.Twostream convolutional networks for action recognition in videos [EB/OL].(20141112).https://arxiv.org/abs/1406.2199. [15]Zhang Bowen,Wang Limin,Wang Zhe,et al.Realtime action recognition with enhanced motion vector CNNs[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:27182726. [16]Carreira J,Zisserman A.Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:47244733. [17]Qiu Zhaofan,Yao Ting,Mei Tao.Learning spatiotemporal representation with pseudo3D residual networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:55345542. [18]Li Yan,Ji Bin,Shi Xintian,et al.TEA:temporal excitation and aggregation for action recognition [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:906915. [19]Schmidhuber J,Hochreiter S.Long shortterm memory[J].Neural Computation,1997,9(8):17351780. [20]Fu Zirong,Wu Shengxi,Wu Xiaoying,et al.Human action recognition using BILSTM network based on spatial features[J].Journal of East China University of Science and Technology:Natural Science Edition,2021,47(2):225-232. [21]Zhi Yuan,Tong Zhan,Wang Limin,et al.MGSampler:an explainable sampling strategy for video action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:14931502. [22]Zhang Can,Zou Yuexian,Chen Guang,et al.PAN:towards fast action recognition via learning persistence of appearance[EB/OL].(20200808).https://arxiv.org/abs/2008.03462. [23]Shen Zhongwei,Wu X J,Xu Tianyang.FEXNet:foreground extraction network for human action recognition[J].IEEE Trans on Circuits and Systems for Video Technology,2021,32(5):31413151. [24]Soomro K,Zamir A R,Shah M.UCF101:a dataset of 101 human actions classes from videos in the wild [EB/OL].(20121203).https://arxiv.org/abs/1212.0402. [25]Goyal R,Ebrahimi Kahou S,Michalski V,et al.The “something something” video database for learning and evaluating visual common sense[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:58425850. [26]陳遙.基于輕量級三維卷積神經(jīng)網(wǎng)絡的視頻行為識別研究 [D].武漢:華中科技大學,2020.(Chen Yao.Research on video behavior recognition based on lightweight 3D convolutional neural networks[D].Wuhan:Huazhong University of Science and Technology,2020.) [27]Tran D,Bourdev L,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3D convolutional networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:44894497. [28]Sudhakaran S,Escalera S,Lanz O.Gateshift networks for video action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10991108. [29]Gowda S N,Rohrbach M,SevillaLara L.Smart frame selection for action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.2021:14511459. [30]Jiang Boyuan,Wang Mengmeng,Gan Weihao,et al.STM:spatiotemporal and motion encoding for action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:20002009. [31]Feichtenhofer C,F(xiàn)an Haoqi,Malik J,et al.Slowfast networks for video recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:6201-6210. [32]Qiu Zhaofan,Yao Ting,Ngo C W,et al.Learning spatiotemporal representation with local and global diffusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1204812057.