盧修生 姚鴻勛
摘要:隨著移動通訊技術的發(fā)展,網絡上視頻數(shù)據呈爆炸性增長,對于智能視頻分析技術的需求日益增加。隨著深度學習技術的應用,視頻理解和分析領域近年來得到了快速發(fā)展。作為視頻分析領域的核心任務,對動作識別的研究不但能夠提供更好的視頻表達模型,也能夠促進其它視頻相關任務的進展。在本文中,首先給出了視頻中動作識別任務的定義,并區(qū)分了短時動作、動作、行為、事件等概念。其次,從傳統(tǒng)方法和深度學習方法兩方面介紹了動作識別任務的研究進展,其中傳統(tǒng)方法又包括了基于全局表示與局部表示的識別方法。最后,介紹了具有代表性的動作識別數(shù)據集,并著重闡述了數(shù)據集的發(fā)展趨勢。
關鍵詞: 視頻理解; 動作識別; 行為分析; 深度學習
【Abstract】 With the development of mobile communication technology, the online video data is exploding, and the demand for intelligent video analytics is increasing. With the application of deep learning technology, the field of video understanding and analysis has developed rapidly in recent years. As a core task in the field of video understanding, the research on action recognition not only provides better video representation, but also promotes the research of other video-related tasks. In this paper, the definition of action recognition task in videos is given and the four concepts of act, action, behavior, and event are distinguished. Secondly, the research progress of action recognition task is introduced from two aspects: the traditional methods and the deep learning based methods. The traditional methods include the recognition methods based on global representation and local representation. Finally, representative action recognition datasets and the development trend of these datasets are also described.
【Key words】 ?video understanding; action recognition; event analysis; deep learning
0 引 言
人類社會過去幾十年的網絡化與數(shù)字化使得網絡數(shù)據呈現(xiàn)爆炸性增長,并逐漸步入了大數(shù)據時代[1]。隨著移動通訊技術的發(fā)展,人們明顯能夠感受到互聯(lián)網上傳輸數(shù)據的變化。在2G時代通過手機傳輸?shù)闹饕俏谋拘畔ⅲ?G時代圖像信息成為移動數(shù)據的重要組成部分,而在4G時代長視頻、短視頻、直播等視頻流數(shù)據迎來了爆發(fā),并且隨著5G技術的革命,高清視頻、無人駕駛領域所獲取的視頻等數(shù)據的增多將會進一步加速這一趨勢。這些海量的視頻數(shù)據需要智能視頻分析技術的發(fā)展。
近年來,隨著視覺領域迅猛發(fā)展,作為其子領域的研究成果也陸續(xù)涌現(xiàn)[2]。在Karpathy等人[3]首次將卷積神經網絡用于動作識別任務上后:從理論上來看,雙流卷積網絡[4]和3D卷積網絡[5]等重要工作取得突破,由此創(chuàng)建針對動作識別任務新的神經網絡框架;從數(shù)據集上來看,從2004年包含2 391段視頻的KTH動作數(shù)據集[6]到2018年包含大約50萬段視頻的Kinetics-600數(shù)據集[7]的提出,數(shù)據集包含視頻和動作種類的增加使得訓練更深網絡成為可能。而在動作識別研究的基礎上,對事件檢測[8]、動作檢測[9]、視頻標注[10]乃至視頻生成[11]等任務的研究現(xiàn)已成為當下學界的研究熱點。
作為視頻分析領域的基礎任務,對于動作識別的研究有重要的理論和應用價值。本次研究中,首先通過對視頻數(shù)據的分析和網絡模型的設計,能夠構建更好的視頻表達模型,加深對視頻數(shù)據的理解;其次,動作識別研究能夠為動作檢測、事件識別等一系列相關任務提供理論基礎;此外,動作識別研究在視頻監(jiān)控、無人駕駛、游戲等領域還有著廣闊的應用前景?;诖?,本文將會探討視頻中動作識別任務的定義,接下來回顧了近年來動作識別領域的研究進展,最后介紹了一些常用的動作識別公開數(shù)據集。
1 視頻中動作識別任務的定義
在定義動作識別任務前,先要厘清短時動作(Act)、動作(Action)、行為(Activity)、事件(Event)這四個概念。研究對其并沒有嚴格的定義,主要通過運動時間跨度的長短以及運動的復雜度來進行區(qū)分。其中,短時動作是指類似于舉手、抬腿、往前走一步等這種時間跨度較短的運動,其實短時動作的概念與漢語中本身的動作概念很相似。動作是一種約定俗成的翻譯,是指由多個短時動作組成、時間跨度中等的運動,比如跑步,跳遠、騎馬等。而行為又是由多個動作組成的、時間跨度較長的運動,比動作更加復雜,是由多個動作按照時間先后,或者按照參與人數(shù)組合而成,比如多個人之間的互動、一個人走進屋子又走出去等。事件則是多個動作或者行為的組合,比如一場足球賽,一次交通事故等。在本文中綜述的對象是針對動作的識別,而其中提出的一些方法也可以被應用到行為或者事件分類問題中。
在動作識別任務的研究中,除了基于視頻的動作識別之外,還有基于靜態(tài)圖像的動作識別、基于深度數(shù)據的動作識別等。總地來說,基于靜態(tài)圖像的動作識別一般基于SIFT描述子、HOG描述子、GIST描述子等底層特征或者基于人體[12]、人體部件[13]、與動作相關的物體[14]、人體與物體之間的交互關系[15]等高層信息。但是在靜態(tài)圖像中缺少時域信息,這限制了其動作識別的準確度?;谏疃葦?shù)據的動作識別主要思路之一是構建基于深度圖的時空特征,如Oreifej等人[16]提出了HON4D描述子,用直方圖來捕獲時間、深度、空間坐標組成的四維空間的表面法線方向的分布。但是由于深度數(shù)據獲取不易,基于深度數(shù)據的動作識別在應用上也有其局限性,所以目前基于視頻的動作識別是動作識別領域中的主要研究方向。而本文所研究的基于視頻的動作識別可以定義為給定動作視頻,通過動作識別算法處理后輸出視頻中動作類別標簽的過程。
2 視頻中動作識別任務的相關方法
動作識別方法主要可以分為基于傳統(tǒng)方法的動作識別和基于深度學習的動作識別兩大類,其中基于傳統(tǒng)方法的動作識別又可以分為基于全局表示和局部表示的動作識別。對此擬展開研究論述如下。
2.1 基于全局表示的動作識別
與目標識別方法的發(fā)展軌跡類似,動作識別方法也是由初期的全局表示逐漸過渡到更魯棒的局部表示。全局表示是指直接從視頻中提取整個人體的某種表示(比如輪廓[17]或者光流[18]等)。在提取全局表示時先要將包含整個人體的感興趣區(qū)域定位出來,再提取感興趣區(qū)域的形狀、邊緣、光流等特征。全局表示刻畫了視頻中整個人體的運動情況,包含了全面而豐富的視覺信息,但是其缺點在于因為是在整個人體上提取特征,所以容易受到遮擋、視角變化、背景噪聲等影響。
Bobick等人[19]提出的運動能量圖(Motion-energy image, MEI)和運動歷史圖(Motion-history image, MHI)是全局表示中的經典工作。運動能量圖中像素值是二值化的,表示的是視頻序列中運動發(fā)生的位置和觀測視角。運動能量圖中像素值為標量,值的強度為此位置所發(fā)生歷史運動的函數(shù),其中運動發(fā)生越近的像素值越大。運動能量圖和運動歷史圖組合起來就形成了一個值為向量的特定視角時域模板圖,向量的每個元素都是此位置運動信息的函數(shù),這個時域模板也就是視頻中動作的全局表示。
運動能量圖和運動歷史圖都是針對于特定視角的表示,對于動作的視角變化比較敏感。為了解決這個問題,多攝像機被用來采集不同視角的動作信息。在此基礎上,Weinland等人[20]基于只考慮圍繞人體中心垂直坐標軸的視角變化的假設,將運動歷史圖等二維運動模板拓展到三維并提出了運動歷史量(Motion-history volume, MHV)表示,隨后在圓柱坐標系下將傅里葉變換作用于運動歷史量從而得到了對于位置和旋轉具有不變性的最終表示。
前述研究得到的全局表示都是一種二維圖結構,而視頻是由多幀圖像組成的序列,這些圖像沿時間維組合起來就會形成包括兩個空間維和一個時間維的三維時空結構。Blank等人[21]提取時空結構中動作的時空形狀(Space-time shape)來表示這些動作。相較于二維形狀,這些時空形狀一方面包含了人體姿態(tài)的空間信息(比如軀干的位置和方向),另一方面則包含了動態(tài)信息(比如身體運動以及四肢相對于身體的運動)。在得到時空形狀之后再利用泊松方程解的性質來提取時空特征,比如局部時空顯著性、動作動態(tài)、形狀的結構和方向等后,將這些局部特征以加權平均的形式轉化為全局特征。Yilmaz等人[22]提出了另一種利用三維時空量的方法,研究中先通過使用一個兩步圖理論方法來解決相鄰幀中輪廓的對應問題從而生成三維時空量(Spatio-temporal volume, STV),再分析時空量表面的微分幾何特性來得到動作描述子,而這些描述子的集合就構成了對于攝像機具有視角不變性的動作草圖(Action sketch)特征,最終這些視角不變特征被用于進行動作分類。
2.2 基于局部表示的動作識別
不同于全局表示提取了整個人體的輪廓、運動等信息,局部表示更關注視頻中感興趣的局部區(qū)域,并在這些區(qū)域中提取局部描述子來刻畫人體動作。與圖像中目標識別的過程類似,計算視頻局部特征的步驟一般為先使用感興趣點檢測子(如Harris等人[23])或者密集采樣的方式來采樣視頻中的局部時空區(qū)域,而后在這些局部區(qū)域上計算3D SIFT等局部特征。與全局表示相比較,局部表示對視頻中的遮擋、視角變化等問題更加魯棒。
Laptev[24]提出的動作識別方法是局部表示發(fā)展初期的重要工作。研究中,先將空間感興趣點的概念拓展到時空域,基于Harris感興趣點算子來檢測圖像幀的像素值在空間和時間方向上具有顯著局部變化的局部時空結構,也就是所謂的時空感興趣點(Space-time interest points, STIPs)。然后通過最大化在時空尺度上歸一化的時空拉普拉斯算子來估計所檢測到動作的時空范圍,以此來實現(xiàn)特征的尺度自適應。最后在時空感興趣點鄰域內提取局部時空尺度不變的N-射流特征,并基于射流特征進行動作分類。之后動作識別領域局部表示的發(fā)展主要遵循2個思路,一是將圖像領域常用的二維描述子直接推廣到三維,比如3D SIFT描述子[25]、HOG3D描述子[26]等;二是將空域信息和時域信息分開來處理,空域信息由視頻幀得到,時域信息由光流幀得到,也就是說將時域上的運動信息由光流信息來代替。
Wang等人提出了基于密集軌跡的DTF描述子[27]和其改進版本iDT描述子[28],這2個描述子都采用了空域信息和時域信息分開處理的思路,是基于局部表示的動作識別方法的集大成之作,其中DTF描述子的提取過程如圖1所示。當計算DTF描述子時,在對各幀進行密集采樣后,通過密集光流場得到的位移信息來對采樣點進行跟蹤。假設跟蹤L幀,那么就在這L幀軌跡的時空鄰域內提取HOG、HOF和MBH描述子。其中,HOG和HOF描述子通過對梯度和光流的統(tǒng)計分別刻畫了視頻中的表觀和運動信息。而MBH描述子是由Dalal等人[29]在人體檢測任務中提出的運動邊界直方圖描述子,在本質上刻畫了光流場的水平分量和垂直分量的梯度信息。與HOF描述子相比,MBH描述子在一定程度上抑制了背景中的相機運動造成的干擾同時突出了前景的運動,所以HOG、HOF和MBH這三種描述子能夠起到很好的互補作用。
2.3 基于深度學習的動作識別
在深度學習前,動作識別領域已經有一些基于淺層神經網絡的工作。比如Le等人[30]將獨立子空間分析算法(ISA)進行拓展,并從無標簽的視頻數(shù)據中學習得到不變的時空特征。而Karpathy等人[3]首次將融入了數(shù)據增強、ReLU激活函數(shù)、Dropout方法等現(xiàn)代神經網絡技巧的卷積神經網絡模型應用到動作識別領域。研究過程中先將以單視頻幀作為輸入的卷積網絡作為基準網絡,并將卷積網絡中的連接拓展到時域、從而提出了早融合、晚融合、慢融合等多種框架來利用視頻幀間的局部時空信息。
從如何處理視頻中時空信息的角度,基于深度學習的動作識別方法可以分為2種。一種是基于雙流卷積網絡框架[4],如圖2所示。該研究的核心思想使用空間流網絡和時間流網絡來分開處理視頻中的空域和時域信息,其中空間流網絡的輸入為視頻幀,時間流網絡的輸入為光流幀,雙流卷積網絡延續(xù)了局部表示中將空域信息和時域信息分開處理的思路。Feichtenhofer等人[31]在雙流卷積網絡的基礎上探索了多種空域和時域的信息融合方式。在空間信息融合方面,比較了加和、取最大值、連接、卷積、雙線性等多種融合方式;在融合位置方面,比較了單層融合和多層融合等不同融合位置;在時間信息融合方面,探討了3D卷積和3D池化的作用。Wang等人[32]則將稀疏采樣策略與雙流卷積網絡相結合提出了時域分割網絡,來對視頻中長時時域結構進行建模。
另一種基于深度學習的動作識別方法是基于三維卷積神經網絡框架[5],其思想在于將視頻作為時空立方體來處理,即將空域上的2D卷積操作增加時間維自然拓展到時空域的3D卷積操作。三維卷積神經網絡框架與局部表示中將二維描述子直接拓展到三維的思路相一致。三維卷積網絡較大的參數(shù)量限制了可訓練網絡的層數(shù),針對此問題Qiu等人[33]使用了空域上的3*3*1卷積和時域上的1*1*3卷積組成的P3D模塊來近似3*3*3時空卷積,并提出了P3D ResNet網絡,這樣就在模型略小于C3D網絡[5]的同時構建了極深的卷積網絡。
3 具有代表性的動作識別數(shù)據集
回顧近年來動作識別數(shù)據集的變化,在動作表現(xiàn)上從演員表演到越來越貼近自然條件,在動作種類上從幾類發(fā)展到數(shù)百類動作,在視頻數(shù)據量上從幾百發(fā)展到百萬量級視頻,動作數(shù)據集的快速發(fā)展促使了動作識別方法的不斷進步。近年來一些具有代表性的動作識別數(shù)據集見表1。
在動作識別研究的初期識別算法尚未成熟,所以只能分類一些簡單的動作,制作的數(shù)據集一般是由研究人員設計好動作、場景后招募演員來進行表演,這一時期比較著名的數(shù)據集有KTH和Weizmann數(shù)據集等。KTH數(shù)據集[6]中研究者設計了走路、慢跑、跑步、拳擊、揮手、拍手等6種單人動作,室外、室外帶有尺度變化、室外帶有服飾變化、室內等4種場景,分別由25個表演者表演而成,總共包含了600個視頻,經過時間段劃分后得到2 391個序列。Weizmann數(shù)據集[21]中則包含了跑步、走路、向前雙腿跳、原地雙腿跳、揮動雙手、揮動單手等10類動作,由9個表演者表演而成,所以一共包含了90個低分辨率180*144的視頻。
隨著動作識別算法的發(fā)展初期數(shù)據集已經難以滿足需求,研究人員就轉向研發(fā)互聯(lián)網上的視頻以及電影中包含著的大量動作片段,與初期的數(shù)據集相比則更加貼近自然條件下的動作,比如常常包含相機運動、遮擋與視角變換、雜亂背景等,這一時期較為知名的有YouTube action與Hollywood2數(shù)據集等。其中,YouTube action數(shù)據集[34]來源于YouTube網站上的一些在非受控條件下采集的視頻,包含投籃、騎自行車、跳水、顛球等11類動作,數(shù)據集中一共包含了大約1 160段視頻。Hollywood2數(shù)據集[35]是從69部電影中采集得到的視頻片段,在內容上包含了一個動作數(shù)據集和一個場景數(shù)據集。在動作數(shù)據集中共有12類動作,包括接電話、握手、擁抱、接吻等有較為復雜語意的動作,總共有1 707段有干凈動作標簽的視頻。
由于YouTube action與Hollywood2數(shù)據集中包含的動作種類有限,就使其不再適用于訓練和評估更新的識別算法。隨即在2010年后相繼推出了動作識別領域最具有影響力的2個數(shù)據集,即:HMDB51和UCF101數(shù)據集,這兩個數(shù)據集不但包括更多類動作,而且由于相機運動、光照條件、視角和尺度、目標表觀和姿態(tài)等變化所帶來的類內差距使其充滿挑戰(zhàn)。其中,HMDB51數(shù)據集[36]內的動作視頻主要來自于電影,少部分來自于YouTube和Google上面的視頻。整個數(shù)據集包括6 849段視頻,共有51類動作并且每類動作至少包含101段視頻。UCF101數(shù)據集[37]是從YouTube網站上采集得來,包含著101類動作,共有13 320個視頻。
隨著深度學習的進一步發(fā)展,HMDB51和UCF101數(shù)據集等以萬為量級的視頻量不能滿足深度網絡訓練的需求,因而Sports-1M與Kinetics-600這兩個十萬乃至百萬量級的數(shù)據集應運而生。Sports-1M數(shù)據集[3]是第一個大規(guī)模的動作識別數(shù)據集,包含了多達1 M的YouTube視頻,共有487個動作類別,每類有1 000~3 000個視頻。Kinetics-600數(shù)據集[7]最初提出時包含400類動作類型,后來又擴展到600類,每類動作包括至少600個視頻,整個數(shù)據集擁有大約50萬個視頻片段。
4 結束語
視頻中動作識別任務是視頻理解領域的核心任務,對其進行研究能夠深化研究者對于視頻數(shù)據的認識,為事件檢測、視頻標注等視頻任務提供指導,并且在智能安防、暴恐檢測等領域具有巨大的應用價值。在本文中,先闡述了視頻中動作識別任務的簡要定義,繼而梳理了動作識別任務的研究進展,最后給出了相關的動作識別公開數(shù)據集。本文希望通過對動作識別任務的綜述為視頻領域相關及后續(xù)研究發(fā)揮有益的參考與借鑒作用。
參考文獻
[1] CHEN M, MAO S, LIU Y. Big data: A survey[J]. Mobile networks and applications, 2014, 19(2): 171.
[2] POPPE R. A survey on vision-based human action recognition[J]. Image and vision computing, 2010, 28(6): 976.
[3]KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Wachingtm DC:IEEE, 2014: 1725.
[4]SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Computational Linguistics, 2014,1(4): 568.
[5]TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015: 4489.
[6]SCHLDT C, LAPTEV I, CAPUTO B. Recognizing human actions: A local SVM approach[C]//Proceedings of the 17th ?International Conference on Pattern Recognition(ICPR 2004). Cambridge, UK :IEEE, 2004: 32.
[7]KAY W, CARREIRA J, SIMONYAN K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.
[8]XU Z, YANG Y, HAUPTMANN A G. A discriminative CNN video representation for event detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE, 2015: 1798.
[9]PENG X, SCHMID C. Multi-region two-stream R-CNN for action detection[C]//European Conference on Computer Vision. Cham: Springer, 2016: 744.
[10]GAO L, GUO Zhao, ZHANG Hanwang, et al. Video captioning with attention-based LSTM and semantic consistency[J]. IEEE Transactions on Multimedia, 2017, 19(9): 2045.
[11]TULYAKOV S, LIU Mingyu, YANG Xiaodong, et al. MoCoGAN: Decomposing motion and content for video generation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1526.
[12]IKIZLER N, CINBIS R G, PEHLIVAN S, et al. Recognizing actions from still images[C]//2008 19th International Conference on Pattern Recognition.Anchorage, Alaska: IEEE, 2008: 1.
[13]YANG W, WANG Y, MORI G. Recognizing human actions from still images with latent poses[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Francisco, CA:IEEE, 2010: 2030.
[14]LI Lijia, LI Feifei. What, where and who? classifying events by scene and object recognition[C]//2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil:IEEE,2007: 1.
[15]DESAI C, RAMANAN D, FOWLKES C. Discriminative models for static human-object interactions[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, CA, USA :IEEE, 2010: 9.
[16]OREIFEJ O, LIU Z. Hon4d: Histogram of oriented 4d normals for activity recognition from depth sequences[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland, Oregon, USA:IEEE,2013: 716.
[17]VEERARAGHAVAN A, CHOWDHURY A R, CHELLAPPA R. Role of shape and kinematics in human movement analysis[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004( CVPR 2004). Washington DC, USA:IEEE, 2004: 1730.
[18]EFROS A A, BERG A C, MORI G, et al. Recognizing action at a distance[C]//Proc. International Conference on Computer Vision. Nice, France:IEEE, 2003: 726.
[19]BOBICK A F, DAVIS J W. The recognition of human movement using temporal templates[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001,23 (3): 257.
[20]WEINLAND D, RONFARD R, BOYER E. Free viewpoint action recognition using motion history volumes[J]. Computer Vision and Image Understanding, 2006, 104(2-3): 249.
[21]BLANK M, GORELICK L, SHECHTMAN E, et al. Actions as space-time shapes[C]// Proceedings of the IEEE International Conference on Computer Vision. Beijing, China:Institute of Electrical and Electronics Engineers Inc, 2005, 2: 1395.
[22]YILMAZ A, SHAH M. Actions as objects: A novel action representation[C]//Proc. IEEE Conference on Computer Vision and Pattern Recognition. San Diego, California:IEEE, 2005:984.
[23]HARRIS C G, STEPHENS M. A combined corner and edge detector[C]//Proceedings of 4th Alvey Vision Conference.Alvey, UK:[s.n.], 1988, 15(50): 10.
[24]LAPTEV I. On space-time interest points[J]. International Journal of Computer Vision, 2005, 64(2-3): 107.
[25]SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM International Conference on Multimedia. Augsburg, Germany:ACM, 2007: 357.
[26]KLASER A, MARSZAEK M, SCHMID C. A spatio-temporal descriptor based on 3D-gradients[C]//BMVC 2008 19th British Machine Vision Conference. Leeds, UK:British Machine Vision Association, 2008: 275.
[27]WANG H, KLSER A, SCHMID C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision & Pattern Recognition(CVPR 2011). Colorado Springs, Colorado, USA:IEEE, 2011: 3169.
[28]WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney, NSW, Australia:IEEE, 2013: 3551.
[29]DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[M]//LEONARDIS A, BISCHOF H, PINZ A. Computer Vision-ECCV 2006. ECCV 2006. Lecture Notes in Computer Science. Berlin/Heidelberg:Springer, 2006,3952:428.
[30]LE Q V, ZOU W Y, YEUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington, D.C:IEEE Computer Society, 2011:3361.
[31]FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USA:IEEE, 2016: 1933.
[32]WANG Limin, XIONG Yuanjun, WANG Zhe, et al. Temporal segment networks: Towards good practices for deep action recognition[C]//European Conference on Computer Vision. Cham:Springer, 2016: 20.
[33]QIU Zhaofan, YAO Ting, MEI Tao. Learning spatio-temporal representation with pseudo-3D residual networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy:IEEE, 2017: 5533.
[34]LIU Jingen, LUO Jiebo, SHAH M. Recognizing realistic actions from videos in the wild[C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009). Miami, Florida, USA:IEEE,2009:1.
[35]MARSZAEK M, LAPTEV I, SCHMID C. Actions in context[C]//IEEE Conference on Computer Vision & Pattern Recognition(CVPR 2009). Miami Beach, Florida:IEEE Computer Society, 2009: 2929.
[36]KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: A large video database for human motion recognition[C]//2011 IEEE International Conference on Computer Vision. Barcelone, Spain:IEEE, 2011: 2556.
[37]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.