錢慧芳,易劍平,付云虎
西安工程大學 電子信息學院,西安710048
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和視頻獲取設(shè)備的普及,視頻已成為信息的主要載體。視頻數(shù)據(jù)的數(shù)量呈爆炸式增長,如何分析和理解視頻的內(nèi)容顯得越來越重要。人體動作識別作為視頻理解(video understanding)的重要課題之一,已經(jīng)成為了計算機視覺領(lǐng)域研究的焦點。動作識別通過對預(yù)先分割好的時域序列進行時空信息建模,從而學習視頻中所包含的表象(appearance)和運動(motion)信息,以此來建立視頻內(nèi)容與動作類別之間的映射關(guān)系,使得計算機能夠有效地勝任視頻理解的任務(wù)。動作識別在運動分析、智能監(jiān)控、人機交互、視頻信息檢索等方面都具有廣泛的應(yīng)用前景。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1]在圖像分類任務(wù)中的成功應(yīng)用為視頻分類任務(wù)提供了大量的參考。然而,相比于圖像分類任務(wù)而言,視頻中的動作識別多出一個待處理的時序維度。因此,如何捕獲視頻幀之間所包含時序信息是動作識別的重點。本任務(wù)主要的難點在于:
(1)不確定因素
動作數(shù)據(jù)集中往往存在光照不均、背景變化、相機抖動等問題,在人-物交互的這一類型的視頻中,會存在物體形變的現(xiàn)象,在人-人交互這一類視頻中,還會存在目標遮擋的現(xiàn)象。這些不確定因素的干擾,會嚴重影響模型的性能,這也是導致動作識別未能實用化的重要原因。
(2)動作邊界的不確定性
針對未修剪的視頻而言,一段視頻可能包含多個動作,一些動作持續(xù)時間較短,而有些動作持續(xù)時間較長,且速度變化快,難以在時序上對動作的邊界進行精準的定位,模糊的動作邊界將很大程度上影響識別的精度。
(3)動作類間差距較小
在細粒度視頻動作數(shù)據(jù)集上,會存在動作類間差異性小的問題,即不同類別的動作之間只存在細微的差距。然而,要精確地區(qū)分這些動作往往是比較困難的,要求模型能夠編碼更深層次的時間特征,這對于現(xiàn)有的模型而言,極具挑戰(zhàn)性。
目前,動作識別方法主要包括兩類:基于傳統(tǒng)手工特征的方法和基于深度學習的方法。傳統(tǒng)的動作識別方法依據(jù)特征的提取方式不同可以分為基于人體關(guān)節(jié)點[2-5]、基于時空興趣點[6-8]和基于密集軌跡[9-10]的特征提取方法。這類方法需要將手工提取到的特征編碼成高維的特征向量,然后利用特征向量訓練分類器以進行動作識別。然而,在特征向量的提取和編碼的過程中,往往會導致較高的時空復(fù)雜度,這將嚴重影響到算法的性能。隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中的成功應(yīng)用,其精度已經(jīng)明顯超過了傳統(tǒng)手工方法,動作識別也從傳統(tǒng)手工特征的方法轉(zhuǎn)移到基于深度學習的方法。
本文從2D CNN、3D CNN、時空分解網(wǎng)絡(luò)三個主流基線介紹了動作識別領(lǐng)域的最新成果;全面歸納了動作識別領(lǐng)域常用的數(shù)據(jù)集,并細致地探討了各種數(shù)據(jù)集的特點、在動作識別中的應(yīng)用以及改進的建議;著重分析了預(yù)訓練技術(shù)對模型性能的影響;從動作識別最新的研究動態(tài)出發(fā),探討了其未來的發(fā)展方向。
得益于大規(guī)模數(shù)據(jù)集和更強大模型的提出,基于深度學習的方法已經(jīng)成為動作識別任務(wù)的主流。如圖1所示,基于深度學習的動作識別方法以一種端到端的形式,通過網(wǎng)絡(luò)自主地學習視頻中的行為表征來完成分類。目前,根據(jù)主干網(wǎng)絡(luò)的特點而言,基于深度學習的動作識別網(wǎng)絡(luò)主要包括:(1)2D CNN;(2)3D CNN;(3)時空分解網(wǎng)絡(luò)。
Fig.1 Action recognition method based on deep learning圖1 基于深度學習的動作識別方法
基于2D CNN 的動作識別方法主要經(jīng)歷了兩個研究階段:第一階段,在雙流網(wǎng)絡(luò)的基礎(chǔ)上展開研究;第二階段,在2D CNN的基礎(chǔ)上,通過有效地構(gòu)建時間特征提取模塊以捕獲時間的上下文信息,從而避免光流的輸入。
第一階段:針對單流的2D CNN無法建模時間信息的問題,Simonyan等[11]提出了雙流網(wǎng)絡(luò),網(wǎng)絡(luò)的架構(gòu)如圖2所示。雙流網(wǎng)絡(luò)由空間流網(wǎng)絡(luò)(spatial stream)和時間流(temporal stream)網(wǎng)絡(luò)組成??臻g流網(wǎng)絡(luò)以單幀RGB圖像作為輸入,用于建模外觀特征;時間流網(wǎng)絡(luò)以堆疊的光流圖像作為輸入,用于建模運動特征。訓練時,空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)單獨地訓練。測試時,通過平均所有采樣的視頻幀匯總兩個流的softmax得分,從而得到視頻級預(yù)測結(jié)果。
傳統(tǒng)雙流網(wǎng)絡(luò)的缺點在于:(1)由于光流僅表示相鄰幀之間的運動信息,因此雙流網(wǎng)絡(luò)對時間上下文的訪問十分有限,這不利于建模一些時間跨度較大的動作;(2)雙流網(wǎng)絡(luò)只是簡單地融合了空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)分類器的預(yù)測,當視頻中的場景或者運動極其相似時,容易由某一個網(wǎng)絡(luò)的誤判而導致整個視頻級預(yù)測的錯誤。
為了解決上述(1)中雙流網(wǎng)絡(luò)對于長時間結(jié)構(gòu)建模能力較弱的問題,Ng 等[12]提出采用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[13]聚合視頻幀序列的CNN 底層輸出。相比于傳統(tǒng)的雙流網(wǎng)絡(luò),LSTM 能夠更加有效地表達視頻幀在時間序列上的依賴關(guān)系,從而實現(xiàn)對長時間序列進行建模。然而,其對于視頻幀之間底層的時間信息建模是不夠的,會造成時序信息的丟失,并且LSTM的引入會導致大量的計算開銷,不利于網(wǎng)絡(luò)后期的優(yōu)化。因此,Wang等[14]提出了時域分段網(wǎng)絡(luò)(temporal segment networks,TSN),網(wǎng)絡(luò)架構(gòu)如圖3 所示。TSN 在雙流網(wǎng)絡(luò)的基礎(chǔ)上引入了稀疏采樣策略,首先將輸入視頻分割成若干片段,然后從各片段中隨機地采樣一幀,各幀獨立地通過CNN提取時空特征。利用段共識函數(shù)將各個片段的輸出進行組合,以獲得片段之間有關(guān)類別假設(shè)的共識。最后,融合空間流和時間流的類別分數(shù),以得到視頻級預(yù)測的結(jié)果。
Fig.2 Architecture of two-stream圖2 雙流架構(gòu)
Fig.3 Architecture of temporal segment networks圖3 TSN的網(wǎng)絡(luò)架構(gòu)
TSN 的稀疏采樣策略確保輸入幀覆蓋了視頻中的各個時間段,這種視頻級監(jiān)督的方法使得網(wǎng)絡(luò)具備提取全局時空特征的能力,有效地解決了傳統(tǒng)的雙流網(wǎng)絡(luò)缺乏長時間結(jié)構(gòu)建模能力的問題。然而,隨機采樣的片段并不是都包含與動作識別有關(guān)的信息,因此Lan等[15]在TSN的基礎(chǔ)上提出了一種自學習加權(quán)融合的方法,每個片段的權(quán)重由網(wǎng)絡(luò)自主學習得到,有效地解決了TSN的權(quán)重分配不合理的問題。
為了解決上述(2)中分類器級融合所導致的誤分類問題,有兩種常見的改進方案:①改變雙流網(wǎng)絡(luò)的融合方式;②改變雙流網(wǎng)絡(luò)的特征編碼方式,將幀級特征編碼成視頻級特征。
針對方案①,F(xiàn)eichtenhofer 等[16]提出采用卷積網(wǎng)絡(luò)融合雙流特征的方法,通過CNN 學習空間線索和時間線索的對應(yīng)關(guān)系,實現(xiàn)了分類器級融合到特征級融合的轉(zhuǎn)變。Wang等[17]提出采用時空金字塔(spatiotemporal pyramid network)網(wǎng)絡(luò)來融合時空特征。時空金字塔結(jié)構(gòu)支持長期的時間融合和視覺注意力機制[18],并采用時空緊湊雙線性(spatiotemporal compact bilinear,STCB)模塊來實現(xiàn)時空信息的交互,在盡可能地保留時空信息的同時,最大限度地實現(xiàn)空間和時間信息的交互。
針對方案②,Diba 等[19]采用時間線性編碼(temporal linear encoding,TLE)的方式聚合時空特征。TLE從不同幀或片段的長時間結(jié)構(gòu)中捕獲時空信息,將視頻編碼成一個緊湊的視頻級特征表示。此外,Zhu 等[20]提出一種端到端的深度金字塔池(deep networks with temporal pyramid pooling,DTPP)網(wǎng)絡(luò)。DTPP 采用多尺度池將由空間和時間線索組成的幀級特征以金字塔的形式編碼成固定大小的視頻級表示,使得該模型能夠捕獲視頻中全局性、多尺度的時間結(jié)構(gòu)。相比于傳統(tǒng)的雙流網(wǎng)絡(luò),TLE和DTPP旨在學習視頻級特征表示,而不是幀級特征,以期望解決雙流網(wǎng)絡(luò)的部分觀察訓練所導致的誤分類問題。
上述網(wǎng)絡(luò)都是建立在雙流網(wǎng)絡(luò)的基礎(chǔ)上,因此都需要預(yù)計算光流。然而光流的預(yù)計算和存儲都十分昂貴,并且光流會導致設(shè)備延遲,這也會限制它在實時性檢測方面的表現(xiàn)。因此,如何有效地設(shè)計時間特征提取模塊以捕獲時間的上下文,從而避免光流的輸入,一直是動作識別領(lǐng)域研究的熱點。
第二階段:為了避免光流的提取,一種思路是從光流算法的原理出發(fā),通過設(shè)計卷積模塊去隱式地模擬光流的提取過程,從而達到建模時間特征的目的。例如,Zhu 等[21]提出了一種隱式的雙流網(wǎng)絡(luò)(hidden two-stream convolutional network,Hidden Two-Stream)。它可以隱式地去捕捉相鄰幀之間的運動信息,而不需要預(yù)計算光流,在節(jié)省了存儲空間的同時,也加快了算法運行的速度。Sun 等[22]提出了一種光流引導特征(optical flow guided feature,OFF),通過計算特征圖水平和垂直方向的空間梯度和不同特征圖之間的時間梯度,來提取不同層級的光流引導特征,使得CNN 可以直接捕獲不同幀之間的時間信息。此外,Lee 等[23]提出了一種運動特征網(wǎng)絡(luò)(motion feature network,MFNet),用于建模連續(xù)幀之間的時空信息。MFNet 由編碼空間信息的外觀塊和編碼時間信息的運動塊組成。其中,運動塊以相鄰時間的特征圖作為輸入,采用運動濾波器代替空間特征圖之間的移位操作,用于模擬光流的計算過程。
另一種思路是對時間通道上的信息進行有效的處理,以捕獲特征圖之間的時間線索。例如,Lin等[24]提出一種時間移位模塊(temporal shift module,TSM)用于處理時序信息。TSM的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其通過時間域上的通道移位操作將相鄰特征圖上的時間信息混合在一起,時間感受野被相應(yīng)地擴大了兩倍,用于模擬時間內(nèi)核大小為3 的一維卷積,從而達到建模時間特征的目的。同時利用2D卷積通道間融合能力進行原始的時間融合,使得2D CNN具備捕獲時間線索的能力,且不會帶來額外的計算成本。
為了解決2D CNN 在長視頻內(nèi)建模復(fù)雜的運動特征能力較弱的問題,Hussein 等[25]提出時間感受層(timeception layer)的概念。時間感受層采用Inception網(wǎng)絡(luò)[26]的多尺度卷積的思想,通過對原始輸入采用深度可分的時間卷積來捕獲長期時間的依賴關(guān)系。同時借助分組卷積的思想,采用各組通道分別建模的方式來降低跨信道關(guān)聯(lián)的復(fù)雜性。時間感受層參數(shù)復(fù)雜度較小,使得編碼長時間步長的時間模式成為可能。
Fig.4 Architecture of TSM framework圖4 TSM框架的結(jié)構(gòu)
視頻序列中的動作是三維的時空信號,采用三維卷積對時空信號進行建模,為動作識別提供了一種自然且有效的方式。Ji 等[27]首次提出采用三維卷積提取視頻的時空特征。該架構(gòu)從視頻中相鄰幀之間獲取灰度、梯度和光流通道信息,然后對每一個通道分別進行卷積和下采樣操作,最后將所有通道的信息組合起來得到最終的特征表示。
Tran等[28]在此基礎(chǔ)上提出了C3D,C3D的網(wǎng)絡(luò)架構(gòu)如圖5所示。其中,C3D包含了5個卷積層、5個最大值池化層、2 個全連接層和1 個softmax 分類層。C3D 采用三維卷積對時空信號進行建模,得到了相比于2D CNN更緊湊的特征表示。然而,C3D網(wǎng)絡(luò)通過重復(fù)堆疊三維卷積塊用于獲取較大的時間感受野,因此具有以下缺點:(1)3D 卷積會引入大量的參數(shù),這極大地增加了網(wǎng)絡(luò)的時空復(fù)雜度,從而導致內(nèi)存消耗和計算量劇增的后果。(2)3D卷積將時間和空間維度上的信息混合在一起,導致了優(yōu)化的困難和過擬合的風險。
針對C3D的局限性,主要有兩種解決方案:①基于2D CNN 的良好實踐,進行有效的網(wǎng)絡(luò)架構(gòu)探索;②對現(xiàn)有的模型進行精簡、量化和壓縮,以實現(xiàn)高效的網(wǎng)絡(luò)部署。
針對方案①,受殘差網(wǎng)絡(luò)(ResNet)[29]在圖像分類領(lǐng)域中表現(xiàn)出色的啟發(fā),Tran等[30]將C3D架構(gòu)拓展到深度殘差網(wǎng)絡(luò)中,提出了Res3D網(wǎng)絡(luò)。通過改變各卷積層濾波器的個數(shù)來保持網(wǎng)絡(luò)架構(gòu)的參數(shù)一致,從而探討了輸入幀的采樣頻率、空間分辨率以及卷積的類型對模型性能的影響。同時,Res3D的參數(shù)量和計算復(fù)雜度是C3D 的1/2,在Sport-1M 數(shù)據(jù)集[31]上的top-1 和top-5 分別提升了4.5 個百分點和2.6 個百分點。Liu等[32]將TSN和Res3D相結(jié)合,提出了時域三維卷積網(wǎng)絡(luò)(temporal convolutional 3D network,T-C3D)。T-C3D 引入了TSN 的視頻級監(jiān)督方法,同時確保各片段的3D CNN共享權(quán)值,既有利于得到全局的時空特征,又不產(chǎn)生額外的參數(shù)。此外,采用注意力池作為段共識函數(shù),使得網(wǎng)絡(luò)能夠高效地區(qū)分各個輸入片段的重要性,大大提升了模型的性能。Wang 等[33]在Res3D的基礎(chǔ)上,通過在相鄰殘差塊之間部署一支額外的跳躍連接,不僅充分融合了淺層和深層的時空特征,而且有效地緩解了3D CNN隨著網(wǎng)絡(luò)加深容易產(chǎn)生的梯度消失和過擬合問題,進一步提升了Res3D 的性能。Qian 等[34]則通過自定義殘差網(wǎng)絡(luò)的跳躍連接系數(shù),探討了五種凸策略對殘差學習的影響。實驗表明,當跳躍連接系數(shù)呈正態(tài)分布時,網(wǎng)絡(luò)的泛化能力相較于傳統(tǒng)的殘差網(wǎng)絡(luò),有明顯的提升。
Fig.5 Architecture of C3D圖5 C3D的網(wǎng)絡(luò)架構(gòu)
Diba 等[35]將三維卷積和池化操作引入到Dense-Net[36]中,并提出一種時域過渡層(temporal transition layer,TTL),構(gòu)建了T3D(temporal 3D ConvNet)網(wǎng)絡(luò)。TTL由若干個可變的時間深度三維卷積構(gòu)成,采用多尺度時間卷積用于捕獲短期、中期和長期的時間信息,相比于固定的內(nèi)核時間深度,TTL能夠提取更加豐富的時序特征。
Carreira 等[37]采用三維卷積和池化操作擴展了Inception網(wǎng)絡(luò),提出了I3D(inflated 3D ConvNet),I3D網(wǎng)絡(luò)的輸入采用了更大的時空分辨率,并提出了一種新的初始化3D CNN的方法,即通過將ImageNet[38]初始化的2D濾波器的權(quán)重沿時間維度擴展,同時除以擴展的次數(shù)以確保濾波器的維度響應(yīng)相同。同時,在Kinetics[39]數(shù)據(jù)集上進行預(yù)訓練,在UCF101[40]和HMDB51[41]數(shù)據(jù)集上進行微調(diào),分別得到了98.0%和80.7%的準確率。然而,由于I3D 采用了大量的輸入幀和光流圖像進行訓練和測試,因此對于硬件配置的要求極高。
不同于上述網(wǎng)絡(luò)在短剪輯(16幀)中學習時空特征,Varol 等[42]針對局部三維卷積難以在動作持續(xù)時間較長的輸入中建模時空特征的問題,提出了LTC(long-term temporal convolutions)網(wǎng)絡(luò)。其主要思想是通過減小輸入幀的空間分辨率從而增大其時間分辨率,以此來維持參數(shù)上的平衡,驗證了長時間輸入對動作識別模型性能的影響。Gao 等[43]根據(jù)人體質(zhì)心的運動軌跡的周期性定義了原子行為,并針對不同原子行為的特征向量存在維度差異的問題,采用了空間金字塔池化結(jié)構(gòu),將幀級特征編碼成固定大小的視頻級表示,有效地解決了傳統(tǒng)的3D CNN相對固定的局部采樣可能存在的信息冗余問題。
針對方案②,Wang 等[44]在Res3D 的基礎(chǔ)上通過SMART塊構(gòu)建了外觀關(guān)系網(wǎng)絡(luò)(appearance and relation networks,ARTNet)。SMART塊將時空學習模塊分離為用于空間建模的外觀分支和用于時間建模的關(guān)系分支。外觀分支是基于單幀中像素和濾波器響應(yīng)的線性組合來實現(xiàn)的,而關(guān)系分支是基于多幀像素和濾波器響應(yīng)之間的乘法交互[45]來實現(xiàn)的。采用SMART 塊替換ResNet-18 基本的殘差單元,得到了相比于C3D ResNet-34更好的特征表示。
為了降低時空融合的復(fù)雜性,Zhou 等[46]提出了一種混合的二維、三維卷積管(mixed 2D/3D convolutional tube,MiCT),其架構(gòu)如圖6 所示。MiCT 通過2D 卷積和3D 卷積共享空間信息,利用2D 卷積并通過跨域殘差連接的方式來促進3D時空特征的學習。MiCT使得在時空融合之前,每個時空層次上的特征映射更深入,從而促使網(wǎng)絡(luò)能夠在較少的時空融合中獲得更好的性能。與逐層堆疊的3D CNN 相比,MiCT將2D 卷積和3D 卷積集成在一起,不僅增強特征學習,而且大大降低了時空融合的復(fù)雜性。此外,Zolfaghari 等[47]提出ECO(efficient convolutional network)架構(gòu),ECO 網(wǎng)絡(luò)包括兩部分:一部分是底層的2D CNN,用于建??臻g特征;另一部分是2D CNN和3D CNN 的并行分支,用于處理底層2D CNN 的輸出,建模時空特征。并行的2D CNN分支能夠簡化處理以及確保靜態(tài)圖像特征獲得必要的重視,3D CNN則主要負責處理更為復(fù)雜的動作。在推理階段,ECO 只采用了一組經(jīng)過中心裁剪的視頻幀進行預(yù)測,因此對內(nèi)存的消耗較低。然而,ECO犧牲了低層次的時間建模以提高效率,但在時間融合發(fā)生之前,許多有用的信息在特征提取過程中丟失。
Fig.6 Architecture of MiCT圖6 MiCT的網(wǎng)絡(luò)架構(gòu)
針對視頻信號的時空特征演化存在差異性的問題,F(xiàn)eichtenhofer 等[48]提出SFN 網(wǎng)絡(luò)(SlowFast networks),網(wǎng)絡(luò)架構(gòu)如圖7所示。慢路徑以低幀率速度運行,用于捕獲稀疏視頻幀提供的空間語義信息;快路徑以高幀率運行,用于捕獲精細時間分辨率下快速變化的動作信息。同時,快路徑和慢路徑通過橫向連接實現(xiàn)信息交互??炻窂酵ㄟ^降低輸入幀的空間分辨率、去除顏色信息等方式,使得其更加注重時序維度上的信息。此外,通過減少快路徑的通道容量以此來降低模型的復(fù)雜度。實驗表明,SFN網(wǎng)絡(luò)對于建模幅度大、變化快的動作更具優(yōu)勢。
Fig.7 Architecture of SlowFast圖7 SlowFast的網(wǎng)絡(luò)架構(gòu)
3D CNN采用三維卷積同時捕獲時空信息,且一次能夠處理多個輸入幀,因此算法的運行速度較快。然而,三維卷積會引入大量的參數(shù),從而造成較高的計算成本和內(nèi)存開銷。目前基于3D CNN 的方法大都結(jié)合了雙流網(wǎng)絡(luò)的思想,采用光流圖像作為輸入用來增強模型的性能。得益于大型數(shù)據(jù)集的提出以及預(yù)訓練技術(shù)的支持,基于3D CNN的動作識別方法的性能已經(jīng)超過了基于2D CNN的動作識別方法。
時空分解網(wǎng)絡(luò)主要包括解耦時空濾波器的時空分解卷積以及分離時空特征通道的通道分離卷積。其主要思想都是通過將時空特征進行分開建模,以達到減少參數(shù)和易于優(yōu)化的目的。
Sun 等[49]提出了時空分解網(wǎng)絡(luò)(factorized spatiotemporal convolutional network,F(xiàn)stCN),通過將三維卷積解耦為空間上二維卷積和時間上的一維卷積,不僅減少了參數(shù)量,而且可以采用ImageNet 上預(yù)訓練的模型對空間二維卷積進行初始化,從而大大縮短了網(wǎng)絡(luò)訓練的時間。在此基礎(chǔ)上,Qiu 等[50]提出了偽三維殘差網(wǎng)絡(luò)(pseudo 3D residual networks,P3D),通過在1×3×3和3×1×1卷積的兩端引入了瓶頸架構(gòu),用于減小和恢復(fù)輸入特征圖的維度,從而進一步減少了參數(shù)量。如圖8所示,采用級聯(lián)、串行、級聯(lián)和串行三種跳躍連接模式,用于表示空間和時間濾波器之間存在的直接影響或間接影響,構(gòu)建了三種偽三維殘差單元。通過引入瓶頸塊架構(gòu)和時空分解卷積,使得P3D可以嵌入到ResNet-152 中,極大地拓展了網(wǎng)絡(luò)的深度。Du等[51]提出的“R(2+1)D”,進一步驗證了通過解耦后的網(wǎng)絡(luò)模型相比于Res3D,具有更小的損失,更有利于優(yōu)化。Xie等[52]則通過時空分解卷積改造了I3D網(wǎng)絡(luò),提出S3D 網(wǎng)絡(luò)。通過時空解耦的S3D 的網(wǎng)絡(luò)相比于I3D網(wǎng)絡(luò),具有更少的參數(shù)和更小的計算復(fù)雜度。同時,在Kinetics數(shù)據(jù)集和Something-something[53]數(shù)據(jù)集上top-1準確率分別提升了1.1個百分點和1.5個百分點,進一步驗證了時空分解卷積更有利于分配參數(shù)空間,且具有更優(yōu)秀的時空建模能力。
Fig.8 Pseudo 3D residual units圖8 偽3D殘差單元
此外,Li 等[54]提出了一種協(xié)同時空模塊(collaborative spatiotemporal,Cost),通過對可學習的參數(shù)施加權(quán)重共享約束,協(xié)同編碼時空特征。其主要思想是對三個正交視圖(H-W、T-H、T-W)分別執(zhí)行1×3×3、3×3×1、3×1×3的二維卷積,分別學習空間外觀和時間運動線索,最終得到的三個特征圖采用加權(quán)求和的方法進行聚合。通過共享不同視圖的濾波器參數(shù),Cost可以協(xié)同學習空間和時間特征并維持與單視圖二維卷積相同的參數(shù)數(shù)量。此外,基于在不同視圖中學習到的系數(shù),可以量化空間和時間特征的貢獻,使得模型的可解釋性更強。
與上述方法通過解耦時空濾波器來降低網(wǎng)絡(luò)參數(shù)的方式不同的是,采用通道分組卷積能夠有效地減少時空交互的次數(shù),從而降低網(wǎng)絡(luò)的時間復(fù)雜度。Luo等[55]提出一種分組時空聚合(grouped spatialtemporal aggregation,GST)的方法。GST將特征通道并行分解為空間組和時間組,空間組采用二維卷積用于捕獲外觀線索,時間組采用三維卷積用于捕獲時間線索。GST 以一種非對稱的通道分解方式,通過可視化正則化層每個通道的比例因子,可以定性地分析不同階段時間特征和空間特征的重要性,從而了解到空間和時間線索是如何從底層特征編碼到高層特征的。
考慮到時空特征和運動特征的互補性,Jiang等[56]提出了一種時空和運動編碼(spatiotemporal and motion encoding,STM)。STM 包括編碼現(xiàn)時空特征的通道式時空模塊和高效編碼運動特征的通道式運動模塊。通道式時空模塊通過重組輸入通道,采用二維的空間卷積和一維的時間卷積以實現(xiàn)分離建模時空特征;通道式運動模塊在時間維度上對相鄰的特征圖進行特征差分,用于提取相鄰幀之間的特征級運動模式。STM 通過引入時空分解卷積,以極小的計算開銷得到了與光流相媲美的運動特征描述,極大地減少了內(nèi)存的消耗。
針對動作視頻數(shù)據(jù)集存在信息幀冗余的問題,Zhu 等[57]提出了關(guān)鍵卷(key volume)提取框架,該框架與網(wǎng)絡(luò)訓練過程中的正向和反向傳播階段相結(jié)合,通過正向傳播為每一個類別標識關(guān)鍵卷;并在反向傳播過程中,利用提取的關(guān)鍵卷更新參數(shù),使得網(wǎng)絡(luò)能夠自主學習輸入卷的重要性。Kar等[58]提出了一種自適應(yīng)掃描池(adaptive scan pooling,Adascan),Adascan 能夠判別輸入視頻幀對于動作識別的重要性,同時在學習過程中丟棄大部分非信息性幀,在減少冗余信息的同時能夠減少網(wǎng)絡(luò)的計算開銷,從而提高模型的性能。針對短視頻而言,采用剪輯平均的方式進行預(yù)測被認為是合理的。然而,在未修剪的視頻中存在大量的與動作識別無關(guān)的片段,此時若采用剪輯平均的方式進行預(yù)測,則大量的無關(guān)片段會參與到預(yù)測過程中,這將嚴重影響到模型的性能。因此,Korbar等[59]基于注意力機制提出了一種輕量級的clips-sampling 模型,該模型可以有效地識別出視頻中最突出的時間段,并針對最突出的時間段進行分類,從而有效地降低計算的代價。
此外,基于深度圖以及骨骼信息的動作識別方法也取得了一定的進展。例如:Li 等[60]并行地采用VGG-16 網(wǎng)絡(luò)和密集軌跡算法提取深度運動圖中的靜態(tài)特征和RGB視頻幀序列中的運動特征,然后采用Fisher特征編碼方式將提取的靜態(tài)和動態(tài)特征編碼成Fisher 向量,最后將靜態(tài)和動態(tài)特征向量串聯(lián),并采用支持向量機對其進行分類。采用深度運動圖的方式,能夠提取到豐富的深度信息和紋理信息,從而實現(xiàn)其與運動特征的互補,有助于提高精度。Ge 等[61]將輸入幀的骨骼序列表示成行為矩陣,并針對固定尺寸的卷積核無法捕獲相距較遠的骨骼關(guān)節(jié)點之間特征信息的問題,提出了采用多尺度卷積的思想去提取不同層級的語義特征,從而更好地實現(xiàn)行為分類。
跨模態(tài)監(jiān)督在未修剪動作識別中也有著一定的進展。例如,Nagrani 等[62]通過電影視頻中語音與臺詞之間的對應(yīng)關(guān)系構(gòu)建了一個動作識別的分類器,然后采用該模型對大規(guī)模視頻數(shù)據(jù)集進行弱監(jiān)督標注,使用這種標注數(shù)據(jù)訓練的模型在動作識別中表現(xiàn)良好。Gao等[63]提出了一種更輕的輸入模態(tài),即圖像-音頻對。在此基礎(chǔ)上,提出了一種基于注意力機制的長短期記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)在迭代的過程中能夠從未修剪的視頻中挑選出與動作識別高度相關(guān)的圖像-音頻對,減少了長期的時間冗余,從而實現(xiàn)高效的動作識別。
動作視頻數(shù)據(jù)集主要包括以場景為主和以時間為主兩類。兩類數(shù)據(jù)集的相關(guān)介紹如表1和表2所示。
Table 1 Scene-related action video datasets表1 場景相關(guān)的動作視頻數(shù)據(jù)集
Table 2 Temporal-related action video datasets表2 時間相關(guān)的動作視頻數(shù)據(jù)集
如圖9所示,場景相關(guān)的動作數(shù)據(jù)集包含較多與動作識別有關(guān)的場景信息,因此依靠單幀去建??臻g特征就可以完成識別任務(wù)。其中KTH[64]、Weizman[65]、IXMAS[66]三種實驗室數(shù)據(jù)集包含表演者在受限場景下執(zhí)行的一系列簡單動作。三種數(shù)據(jù)集包含的動作都比較規(guī)范,對于動作識別任務(wù)的挑戰(zhàn)性較小。其中,KTH 數(shù)據(jù)集包含尺度、衣著和光照的變化,但背景和拍攝視角相對固定,因此該數(shù)據(jù)集相對簡單,同時其視頻實例數(shù)對于主流的動作識別模型的訓練而言還算豐富,可用于評估基于2D CNN的動作識別方法,但不適用于3D CNN 的動作識別方法。IXMAS數(shù)據(jù)集除了視頻數(shù)據(jù)之外,還包括人體骨骼和體積元等信息,可用于基于人體骨架點的動作識別方法。Weizman數(shù)據(jù)集的視頻實例數(shù)偏少,容易導致深度模型的過擬合,不太適用于深度學習算法,但可從遷移學習的角度對其進行處理。此外,該數(shù)據(jù)集還提供了利用背景建模算法得到的前景掩碼圖像,如圖9所示。因此,該數(shù)據(jù)集比較適用于傳統(tǒng)的機器學習算法,例如模板匹配算法或K臨近算法。總體而言,三類實驗室數(shù)據(jù)集都不需要額外的數(shù)據(jù)預(yù)處理工作就可以很好地完成識別任務(wù),并且視頻的拍攝視角相對固定,不存在相機抖動的因素,因此同樣適用于基于光流的動作識別方法。但三種數(shù)據(jù)集的整體分辨率偏低,因此在基于超分辨的動作識別方法中具有潛在的應(yīng)用價值。
Fig.9 Sample images and foreground mask of Weizman dataset圖9 Weizman數(shù)據(jù)集的動作示例及前景掩碼圖
與三種實驗室數(shù)據(jù)集不同的是,Hollywood2[67]和Olympic sports[68]數(shù)據(jù)集來自于真實的場景,不再局限于受限的環(huán)境。其中,Hollywood2 從電影劇本中自動進行動作注釋,避免了手動注釋的困難。但是,電影鏡頭往往不是表示的單一動作,許多動作混合在一起可能會帶來噪聲干擾,同時由于鏡頭切換,視頻存在光照變化、遮擋、背景不連續(xù)等問題,因此會對模型的訓練造成一定的影響,在模型的魯棒性方面有著極大的考驗。Olympic sports數(shù)據(jù)集最大的特點是存在相機抖動的問題,因此該數(shù)據(jù)集不適用于傳統(tǒng)的光流算法。這兩種數(shù)據(jù)集的共同特點就是包含相機抖動、場景變換、遮擋等問題。因此,在該數(shù)據(jù)集上使用深度學習算法時,可以采用改進的密集軌跡算法[10](improved dense trajectory,iDT)去估計相機運動,或使用深度圖、骨架點等方法,減少雜亂的背景所帶來的干擾信息,進一步提升模型的性能。
UCF101 和HMDB51 是兩種最常見的動作視頻數(shù)據(jù)集,一般被作為動作識別的目標數(shù)據(jù)集,用于評估模型的性能。UCF101[40]數(shù)據(jù)集的示例圖如圖10所示。HMDB51[41]數(shù)據(jù)集和UCF101 數(shù)據(jù)集在動作的組成類別上比較相似,但HMDB51 數(shù)據(jù)集規(guī)模更小,且包含更多的相機運動、光照變化、復(fù)雜背景等因素的影響,因此其識別率相較于前者偏低,更具挑戰(zhàn)性。在HMDB51 數(shù)據(jù)集上進行分類任務(wù)時,數(shù)據(jù)預(yù)處理顯得尤為關(guān)鍵,而目前這方面的工作很少??梢越梃biDT算法的思想來估計相機運動,同時采用高效的前景提取算法,以消除復(fù)雜背景以及光照變化對模型訓練產(chǎn)生的影響。然后,采用預(yù)訓練技術(shù)來減緩由于訓練數(shù)據(jù)不足而可能產(chǎn)生的過擬合現(xiàn)象。
Fig.10 Sample images of UCF101 dataset圖10 UCF101數(shù)據(jù)集示例圖
Sport-1M[31]和Kinetics[39]數(shù)據(jù)集包含大量的標注實例,是時空特征學習的極佳來源,因此這兩種數(shù)據(jù)集被廣泛應(yīng)用于預(yù)訓練和消融實驗環(huán)節(jié)。HACS Clips[69]最近才被提出,其包含約1 550 000個視頻剪輯,是迄今為止規(guī)模最大的動作視頻數(shù)據(jù)集,并且其采用了高效的注釋方式,動作類別的標注噪聲相對較少,因此在未來遷移學習任務(wù)中,HACS Clips 非常具有潛力,有望成為預(yù)訓練以及動作識別的新基準。
時間相關(guān)的動作視頻數(shù)據(jù)集更加關(guān)注運動本身,且動作類間差異性小,例如如圖11 所示,Something數(shù)據(jù)集中的從左向右移動物體和從右向左移動物體,僅僅依靠單幀無法出色地完成推理工作,因此在該類數(shù)據(jù)集上進行的動作識別任務(wù)極具挑戰(zhàn)性。Charades[70]、Epic-Kitchens[71]以及Something[53]數(shù)據(jù)集主要包括日常生活中人與物的一系列交互動作。其中,Charades 數(shù)據(jù)集既包含原始視頻數(shù)據(jù),又包含物體類的標簽信息,可采用基于物體的動作識別方法對其進行分類;Epic-Kitchens 還包含了部分音頻數(shù)據(jù),因此其在多模態(tài)動作識別上具有一定的應(yīng)用價值。Something v1 與Something v2 數(shù)據(jù)集的組成類別一致,但Something v2 與Something v1 相比,具有更少的標注噪聲,更多的實例數(shù),更大的像素分辨率等特點。因此,其識別率較前者平均高出15 個百分點,處理起來更簡單。在以上三種數(shù)據(jù)集上進行動作識別任務(wù)時,應(yīng)該更加關(guān)注時序信息建模,在設(shè)計時空特征學習的模型時,可以采用與文獻[72-73]相結(jié)合的方式,進一步提升時序特征學習能力。
Fig.11 Sample images of Something dataset圖11 Something數(shù)據(jù)集示例圖
Diving-48[74]包含了48 種細粒度的跳水動作,視頻的真實標簽由跳水比賽的信息板中轉(zhuǎn)錄。該數(shù)據(jù)集不同子動作之間具有相似的靜態(tài)視覺屬性和動態(tài)視覺屬性,旨在體現(xiàn)時間層次上進行動作表征的重要性。其中,48 種跳水動作由5 種起跳、3 種飛行、2種入水動作組合而成。由于跳水動作可能在3 個階段中的任何一個階段存在差異,因此需要對長期的時間動力學信息進行建模,這對于當前的動作識別系統(tǒng)是一項極具挑戰(zhàn)性的任務(wù)。同時,跳水視頻一般是通過側(cè)面攝像機錄制,因此存在身體部位遮擋的問題,基于骨架的方法不再適用。但跳水動作都包含3個固定的環(huán)節(jié),即起跳、飛行和入水,且3個環(huán)節(jié)持續(xù)時間大致相同。因此,可以借鑒TSN 的分段稀疏采樣的思想,確保輸入幀覆蓋整個跳水動作的各個環(huán)節(jié),增強模型長時間結(jié)構(gòu)建模的能力。同時,對于長期時間結(jié)構(gòu)建模,可以采用LSTM捕獲視頻幀序列長期的時間依賴關(guān)系。
與上述數(shù)據(jù)集類似于圖像分類的標注機制不同的是,AVA[75]數(shù)據(jù)集以人體為中心,為同一場景下執(zhí)行不同動作的人劃分不同的標簽,如圖12 所示。同時,AVA數(shù)據(jù)集中也存在大量的共現(xiàn)動作對,即活動主體可能同時執(zhí)行至少兩個動作,這為復(fù)雜活動建模提供了可能。Moment in time數(shù)據(jù)集[76]的動作類別可由多個主體完成,視覺差異較大,同時該數(shù)據(jù)集的部分動作需要依賴音頻才能做出識別,這也增加了該數(shù)據(jù)集的挑戰(zhàn)性。Jester數(shù)據(jù)集[77]主要包含了人體手勢動作,該數(shù)據(jù)集包含的噪聲較少,背景相對單一,處理難度小。但該數(shù)據(jù)集不適用隨機翻轉(zhuǎn)的數(shù)據(jù)增強技術(shù),因為會導致部分動作出現(xiàn)混淆,例如向上/向下移動兩根手指。
Fig.12 Sample images of AVA dataset圖12 AVA數(shù)據(jù)集示例圖
FineGym[78]數(shù)據(jù)集從3個語義層級和兩個時間層級對視頻剪輯進行標注,語義層級包括事件(event)、集合(set)和元素(element),時間層級包括動作(action)和子動作(sub-action)。其中,事件主要包括4 種女子體操項目:自由體操、平衡木、跳馬和高低杠。集合是在事件的基礎(chǔ)上將動作細分成若干類子動作,例如平衡木包括手翻類、跳步類、轉(zhuǎn)體類動作。最后,元素對集合內(nèi)的子動作進行進一步劃分,例如:轉(zhuǎn)體類動作包括轉(zhuǎn)體、直體和屈體,空翻包括前空翻和后空翻。FineGym 專注于細粒度的動作識別,元素級(element-level)動作的類內(nèi)、類間差距都極小,這要求模型能夠更加細微地去捕獲動作之間的微小差距。FineGym 有望推動動作識別領(lǐng)域向更深層次的方向發(fā)展。此外,F(xiàn)ineGym為運動分析和體操運動項目的自動打分系統(tǒng)提供了一定的數(shù)據(jù)基礎(chǔ)。
由于雙流網(wǎng)絡(luò)中空間流網(wǎng)絡(luò)的輸入是單幀RGB圖像,因此可以使用ImageNet 上預(yù)訓練的模型進行初始化。然而,時間流網(wǎng)絡(luò)的輸入為多幀光流圖像,其分布與RGB 圖像不同,無法直接使用ImageNet 預(yù)訓練的網(wǎng)絡(luò)模型。為了進一步提升網(wǎng)絡(luò)初始化的效率,Wang 等[79]提出了跨模態(tài)預(yù)訓練(cross modality pre-training),其本質(zhì)是利用RGB 模型對時間流網(wǎng)絡(luò)進行初始化。首先,通過線性變換將光流場的分布離散化為0~255,使得光流場的分布與RGB 圖像相同。然后對RGB 模型3 個通道的權(quán)重進行平均,并通過時間網(wǎng)絡(luò)輸入的通道數(shù)復(fù)制這個平均值。采用跨模態(tài)預(yù)訓練,TSN的時間流網(wǎng)絡(luò)在UCF101數(shù)據(jù)集上的精度從81.7%增加到86.6%,跨模態(tài)預(yù)訓練為雙流風格的網(wǎng)絡(luò)提供了一種非常高效的初始化方式。
當目標數(shù)據(jù)集沒有足夠的訓練樣本時,預(yù)訓練是一種有效的深度卷積初始化方式。預(yù)訓練技術(shù)的優(yōu)點主要包括:(1)經(jīng)過預(yù)訓練之后,模型具備一定的學習時空特征的能力,當對目標數(shù)據(jù)集進行微調(diào)時,可以使得模型快速適應(yīng)目標數(shù)據(jù)集,從而加快模型收斂的速度;(2)預(yù)訓練技術(shù)可以有效地緩解由缺乏訓練數(shù)據(jù)所導致的過擬合問題。動作識別中常見的預(yù)訓練數(shù)據(jù)集的相關(guān)介紹如表3所示。
Table 3 Pre-training datasets表3 預(yù)訓練數(shù)據(jù)集
預(yù)訓練對模型性能的影響如表4 所示。相比于不進行預(yù)訓練,R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-Two-Stream(R(2+1)D-T-S)通過Sport-1M數(shù)據(jù)集預(yù)訓練,在Kinetics數(shù)據(jù)集上的top-1準確率分別提升了2.3個百分點、1.0個百分點和1.5個百分點,top-5的準確率分別提升了1.4 個百分點、0.9 個百分點和1.0 個百分點。RGB-I3D、Flow-I3D、Two-Stream I3D 在ImageNet上進行預(yù)訓練之后,在Kinetics數(shù)據(jù)集上的top-1 準確率分別提升了2.7 個百分點、1.9 個百分點和2.6 個百分點,top-5 準確率分別提升了1.3 個百分點、1.5 個百分點和1.3 個百分點。結(jié)果表明:預(yù)訓練技術(shù)能夠在一定程度上提升動作識別模型的性能。
Table 4 Impact of pre-training on accuracy表4 預(yù)訓練對準確率的影響 %
如表5所示,動作識別模型性能的提升與預(yù)訓練數(shù)據(jù)集的規(guī)模和類型存在聯(lián)系。例如:T-C3D在Kinetics上進行預(yù)訓練與在Sport-1M上進行預(yù)訓練相比,在UCF101 上的平均準確率從89.5%提升到92.5%。R(2+1)D-RGB、R(2+1)D-Flow、R(2+1)D-T-S 在Sport-1M上進行預(yù)訓練,在UCF101和HMDB51上微調(diào),分別得到了93.6%、93.3%、95.0%和66.6%、70.1%、72.7%的準確率。同時,將預(yù)訓練數(shù)據(jù)集更換為Kinetics,在UCF101和HMDB51上的準確率分別提升了3.2個百分點、2.2個百分點、2.3個百分點和7.9個百分點、6.3個百分點、6.0個百分點。結(jié)果表明:Kinetics比Sport-1M 更適合作為網(wǎng)絡(luò)的預(yù)訓練數(shù)據(jù)集,這與Kinetics數(shù)據(jù)集的全面性和相似性有關(guān)。
Table 5 Impact of type of pre-training datasets on accuracy表5 預(yù)訓練數(shù)據(jù)集的類型對準確率的影響%
此外,T-S R(2+1)D-34在Sport-1M上進行預(yù)訓練后,在目標數(shù)據(jù)集上的平均準確率分別為97.3%和78.7%,采用HACS Clips 預(yù)訓練后,在目標數(shù)據(jù)集上的平均準確率分別提升了0.7個百分點和1.1個百分點。同樣,Two-Stream I3D 在HACS Clips 上預(yù)訓練相比于在ImageNet+Kinetics 上預(yù)訓練,在目標數(shù)據(jù)集上的平均準確率分別提升了0.2個百分點和0.6個百分點。這是因為HACS Clips相比于Kinetics具有更多的標注實例,因此進一步證實了數(shù)據(jù)集規(guī)模越大,對于動作識別模型性能的提升更加明顯。同時,TSN的空間流網(wǎng)絡(luò)通過在ImageNet上預(yù)訓練,在UCF101上的準確率為86.4%,通過Kinetics預(yù)訓練后,準確率提升了4.7個百分點。結(jié)果表明:對于動作識別中的預(yù)訓練環(huán)節(jié),選擇動作視頻數(shù)據(jù)集比選擇靜態(tài)圖像數(shù)據(jù)集在模型性能的提升方面更有幫助。進一步證實了模型性能的提升與預(yù)訓練數(shù)據(jù)集和目標數(shù)據(jù)集的相似性有關(guān)。
近年來,從傳統(tǒng)的手工特征方法到深度學習方法,從小規(guī)模數(shù)據(jù)集到大規(guī)模數(shù)據(jù)集,從對網(wǎng)絡(luò)的淺層探索到設(shè)計專門用于時空特征提取的網(wǎng)絡(luò),視頻中的人體動作識別取得了重大的進展。然而,人體動作識別仍有許多值得進一步研究的方向:
(1)細粒度動作識別
2019—2020年,在CVPR、ICCV等頂會中,Something、Charades、Jester、AVA、Epic-Kitchens 等細粒度動作視頻數(shù)據(jù)集所占的比重越來越大,表明動作識別正在由粗粒度向細粒度轉(zhuǎn)變。相比于粗粒度動作識別,細粒度動作識別更加注重運動本身和時間的上下文信息,并且要求模型能夠區(qū)分動作之間存在的微小差距。此外,其在實際應(yīng)用中的局限性更少,例如運動分析和動作打分。然而,目前大多數(shù)的深度學習模型在細粒度數(shù)據(jù)集上的表現(xiàn)未達到先進的水平。在未來,可以采用強監(jiān)督的方式,使用邊界框和局部標注信息,采用注意力機制的方式去獲取動作的顯著特征,從而提高細粒度動作的分類精度?;虿捎萌醣O(jiān)督的方式,通過定位出能判別出動作類別的關(guān)鍵部位,利用判別行特征作為輔助來完成分類。
(2)小樣本學習
大多數(shù)基于深度學習的動作識別方法需要大量的訓練樣本才能使模型達到收斂。然而,當動作識別應(yīng)用于某一個特定的場景時,往往沒有足夠多的訓練樣本,訓練樣本的缺少可能會導致深度學習模型的過擬合問題,這將嚴重影響到模型的泛化能力。目前,小樣本學習已取得一定的進展,例如Ji 等[80]提出的動作基因組的概念,將動作分解為時空場景圖的形式,用于捕獲對象之間及其關(guān)系之間的變化,使得主流的動作識別模型在小樣本學習中獲得了較大的性能提升。此外,Cao等[81]設(shè)計了一種時序校正模塊,通過時序校正有效地利用了視頻數(shù)據(jù)中的時間順序信息,提高了數(shù)據(jù)利用的效率。在小樣本學習方面,可以從多模態(tài)信息利用的角度緩解小樣本學習中標注數(shù)據(jù)少的問題,例如增加深度圖、骨架圖等信息。同時,可以引入新的視頻數(shù)據(jù)增強技術(shù),以及采用生成對抗式網(wǎng)絡(luò),在特征層面做數(shù)據(jù)增強,提升模型的魯棒性。
(3)更精簡的模型
目前,大多數(shù)的深度學習模型仍具有參數(shù)多、時間復(fù)雜度高的特點,這就導致算法對內(nèi)存的消耗較高且運行速度較慢,不能滿足實時性和高效性的要求,也無法在移動設(shè)備上運行。目前,為了同時保證效率和準確率,大多數(shù)輕量級模型都建立在2D CNN的基礎(chǔ)上,通過部署不帶參數(shù)或參數(shù)較少的時序特征提取模塊使得2D CNN具備時空特征學習的能力,例如TSM[24]、GST[55]等。同時,隨著ResNext[82]和Shuffle-Net[83]在圖像分類領(lǐng)域的成功應(yīng)用,在未來的研究中,可以借助通道分組卷積或深度可分離卷積的思想去設(shè)計時序特征提取模塊,從而在保證時空交互的同時,有效地減少網(wǎng)絡(luò)的參數(shù)。此外,采用知識蒸餾的方式,將復(fù)雜、學習能力強的網(wǎng)絡(luò)學習到的知識,即輸入輸出的映射關(guān)系,轉(zhuǎn)移到參數(shù)少、學習能力弱的網(wǎng)絡(luò),能間接起到模型壓縮的效果。
(4)無監(jiān)督學習
視頻數(shù)據(jù)中包含大量的動態(tài)結(jié)構(gòu)信息,是無監(jiān)督學習的極佳素材。無監(jiān)督的視頻學習主要包括時間自編碼器的方法,例如PredNet[84]、PredRNN[85]和PredRNN++[86],但是尚未證實其在大規(guī)模遷移學習中的表現(xiàn)。最近在文獻[87]中提到,通過訓練深度視頻嵌入,以最大化不同視頻之間的距離,最小化相同視頻之間的距離。這種在大量的動作視頻中學習到的視覺表示可以顯著地提高動作識別的精度,但是要在大規(guī)模數(shù)據(jù)集上訓練強大的視頻嵌入視覺特征,往往是比較困難的。在未來,可以借助文獻[35]中的思路,通過兩個網(wǎng)絡(luò)之間正負標簽的對應(yīng)關(guān)系去學習視頻表示,從而實現(xiàn)跨網(wǎng)絡(luò)的監(jiān)督轉(zhuǎn)移。
(5)自適應(yīng)網(wǎng)絡(luò)
動作視頻數(shù)據(jù)集的分辨率表現(xiàn)出強烈的差異性,處理不同的數(shù)據(jù)集應(yīng)該采用不同的輸入方式。然而,目前的動作識別模型大多采用固定的時空分辨率,這種相對固定的輸入方式對于網(wǎng)絡(luò)的訓練而言可能不是最佳的。在未來,在進行廣泛架構(gòu)探索的同時,也應(yīng)該關(guān)注輸入模式的探索,例如分析采樣的輸入幀序列的特點,動態(tài)調(diào)整其時空分辨率,若輸入幀與動作類別高度相關(guān),則增大其分辨率,反之則減小其分辨率,這樣有助于減少冗余和提高效率。此外,通過注意力機制,自適應(yīng)進行網(wǎng)絡(luò)架構(gòu)的探索,也是未來值得研究的方向。
(6)視頻超分辨動作識別
在現(xiàn)實場景中,由于光照不均或監(jiān)控設(shè)備受限等因素的影響,最終呈現(xiàn)的視頻內(nèi)容往往是低質(zhì)量的,低質(zhì)量的視頻內(nèi)容呈現(xiàn)出視頻分辨率低、噪聲以及運動模糊等特點,容易導致模型對動作造成誤判,大大降低動作識別模型的性能。在未來,可以通過設(shè)計模塊進行幀內(nèi)的空間相關(guān)性以及幀間的時間相關(guān)性抽取,然后借鑒圖像超分辨技術(shù)的思想,將抽取到的特征進行通道間融合與放大,實現(xiàn)視頻幀序列的超分辨。最后,基于視頻超分辨的結(jié)果,再對其進行時空特征的學習。視頻超分辨技術(shù)能夠有效地提升動作識別模型在復(fù)雜場景下的性能,是動作識別走向?qū)嵱没倪^程中,非常具有潛力的研究方向。
本文從2D CNN、3D CNN 以及時空分解網(wǎng)絡(luò)三個角度介紹了人體動作識別的最新研究進展,并著重探討了各類方法的優(yōu)缺點。然后,從以場景為主和以時間為主兩方面介紹了動作識別中常用的數(shù)據(jù)集,并著重分析了各類數(shù)據(jù)集的特點及在動作識別中的應(yīng)用。隨后,從預(yù)訓練的角度,探討了預(yù)訓練技術(shù)以及預(yù)訓練數(shù)據(jù)集的規(guī)模和類型對動作識別模型的影響,結(jié)果表明模型性能的提升與預(yù)訓練數(shù)據(jù)集的全面性和相似性有關(guān)。最后,從動作識別的最新動態(tài)出發(fā),探討了其未來研究的方向。