人體行為識別研究綜述

2022-02-23 10:03:00裴利沈劉少博趙雪專

計算機與生活 2022年2期

裴利沈，劉少博+，趙雪專

1.河南財經政法大學計算機與信息工程學院，鄭州450046

2.鄭州航空工業(yè)管理學院智能工程學院，鄭州450046

計算機視覺是由計算機科學和工程、信號處理、統(tǒng)計學和認知科學等多門學科交叉融合的一門綜合性學科。人體行為識別是計算機視覺領域的一個熱門話題，在機器人行為研究、智能人機交互、智能視頻監(jiān)控、仿真虛擬現實、智能安防、運動員輔助訓練等方面具有很大的探索和應用價值，被國內外學者和研究人員廣泛關注。

依據特征提取方式將行為識別劃分為傳統(tǒng)方式法和深度學習法。手工提取特征的傳統(tǒng)方式法在大數據時代具有很大的局限性。卷積神經網絡（convolutional neural network，CNN）在圖像領域中的卓越表現，使得基于視頻的行為研究看到希望。深度神經網絡應用之后，彌補了一些傳統(tǒng)方式的缺陷，在公共數據集上效果優(yōu)異。

早期的靜態(tài)數據集動作單一，場景簡單，隨著行為識別的發(fā)展，數據集趨近于真實生活場景，標簽逐漸多樣化，數據量也迅速增長。數據集的發(fā)展大致經歷了最初的簡單個體——復雜場景多個體——真實場景數據集——大型數據集——面向細粒度動作分析的層次化高質量數據集的過程，數據集的發(fā)展歷程見證和加速著行為識別方式的發(fā)展。

在之前研究的基礎上，本文對已有的主流人體行為識別方法進行歸納與對比，主要從傳統(tǒng)方法、深度學習方法、數據集等方面進行介紹。首先，介紹了行為識別的研究背景，對行為識別簡單概述。然后，按照發(fā)展歷程重點介紹了傳統(tǒng)方法和深度學習方法下的經典算法，闡述了識別算法的主要研究思路和改進之處，簡單介紹了對受限玻爾茲曼機（restricted Boltzmann machines，RBM）和非局部神經網絡（nonlocal neural networks）。其次，總結了常用數據集，對比與分析了主流的人體行為識別方法在不同數據集上的識別精度。最后，對全文進行總結，并對未來進行了預測與展望，期望方便初學者快速入門，激勵研究者發(fā)現新問題與新思路。本文的突出特點是對比介紹，突出不同方式的優(yōu)缺點，同時結合改進的研究方法，對行為識別算法進行新舊與經典的綜合論述。

1 行為識別概述

人體行為識別的成功與否直接取決于特征提取的正確與否，特征處理以及分析理解都建立在特征提取的基礎上。圖1 對比了傳統(tǒng)方法與深度學習方法下行為識別的流程。傳統(tǒng)方式手工提取特征需要一定的相關知識，設計特征時耗費大量的人力物力；深度學習方法下，使用不同的深度特征提取網絡，能夠依據關注點不同適應特征變化。

圖1 傳統(tǒng)方法與深度學習方法流程對比Fig.1 Process comparison between traditional methods and deep learning methods

主流的傳統(tǒng)方法有輪廓剪影（human silhouette）、時空興趣點（space-time interest points）、人體關節(jié)點（human joint point）和運動軌跡（trajectories）。依照網絡結構將基于深度學習行為識別劃分為三大類：雙流網絡（two-stream network）、3D 卷積神經網絡（3D convolution network）和混合網絡（hybrid network）。同時，一些其他的研究思路，如基于骨架識別、受限玻爾茲曼機、非局部神經網絡等也有良好的效果。

傳統(tǒng)方法中的特征表示，可以使用整體表示方法與局部表示方法，兩種方式各具特色，優(yōu)缺點互補。整體表示方式主要包括輪廓剪影方式、背景剪除法等；局部表示主要包括時空興趣點檢測等。在考慮時空特征的深度學習行為識別算法中，雙流網絡代表性算法有Temporal Segments Networks、Temporal Relation Network、SlowFast Network等；3D 卷積神經網絡代表性算法有C3D（convolutional 3D network）、P3D（pseudo-3D residual networks）等；混合網絡代表性算法有CNN-LSTM（convolutional neural network-long short-term memory）、LRCN（long-term recurrent convolutional networks）、VideoLSTM等。行為識別的簡單劃分如圖2 所示。

圖2 行為識別分類Fig.2 Action recognition classification

2 基于傳統(tǒng)方法的人體行為識別

傳統(tǒng)行為識別方法的特點是利用手工設計特征對行為進行表征，利用統(tǒng)計學習的分類方法對行為進行分類識別。特征提取根據人類行為構成和表示方式的不同，可以細分為整體表示和局部表示方法。輪廓剪影方式通過構建各種描述符表達行為信息；時空興趣點方式嘗試突破二維，從三維角度強調時空域信息；人體關節(jié)點方式利用姿勢估計推測關節(jié)點位置與運動信息；運動軌跡方式追蹤動作軌跡。

2.1 整體特征表示

整體特征表示方法把視頻幀認為一個整體，輪廓剪影、人體關節(jié)點等方式使用整體表示方法提取全局特征。提取特征時，需要對前景、噪聲等進行處理。從背景中提取運動前景，一般使用背景剪除法、幀間差分、分流、人體輪廓剪影等方法，然后將獲得的整個人體行為區(qū)域作為行為表征。對于噪聲影響問題，可采用形態(tài)學等處理方法。

整體特征表達方法中，基于視頻幀的信息描述方式有運動能量圖（motion energy image，MEI）、運動歷史圖（motion history image，MHI）、運動網格特征矢量、運動歷史體積模板（motion history volume，MHV）、形狀上下文（shape context，SC）等方法。

傳統(tǒng)方式中對于運動方式的描述至關重要。Bobick 等使用背景剪除法獲取人體輪廓，并重疊輪廓特征獲取圖像幀的差別，從而設計出MEI 和MHI。MEI粗略描述運動的空間分布，MHI表示人體的運動方式，兩者表示運動存在并且解釋視頻幀中人體的運動情況，可以簡單闡述視頻中的有效信息。此種方式的核心和基本思想是編碼圖像的相關運動信息。

時空體積（space-time volume，STV）表示是疊加給定序列的幀，但仍需背景剪除、對齊等。Yilmaz等使用STV 獲取動作描述和動作草圖，并且執(zhí)行圖形識別，結果表明已知運動情況闡述了潛在的運動情況。MHV、STV 等描述方式容易關注于重要區(qū)域，在一些簡單背景中效果良好。

Matikainen 等經過研究，發(fā)現當背景逐漸復雜，出現遮擋、噪聲等時候，輪廓特征提取變得愈發(fā)困難，其闡述了整體方法的局限性，難以解決遮蓋變化、計算效率低、不能捕捉細節(jié)等問題，證明了整體方法并不是最優(yōu)選擇。

基于人體關節(jié)點的傳統(tǒng)行為識別核心思想是對人體運動姿勢進行捕捉，描繪出各姿勢關節(jié)點的位置情況，以及同一關節(jié)點不同時間維度下的位置變化情況，從而推斷出人體行為。

Fujiyoshi 等創(chuàng)造出經典的五關節(jié)星形圖（四肢、頭顱），從視頻流中實時提取人體目標，將人體五關節(jié)與人體重心構成矢量，從骨架化線索中獲取人類活動。使用自適應模型來應對背景改變，需要先對視頻進行背景分離和預處理，最后進行運動分析。對于人體關節(jié)點特征進行提取時，需要實時目標提取，人力物力耗費較大，為了解決這一問題，可以使用深度相機、深度傳感器等技術。

Yang 等利用RGBD 相機的3D 深度數據復刻3D 人體關節(jié)點進行動作識別，效果優(yōu)于其他關節(jié)點特征提取識別算法。卷積神經應用后，人體關節(jié)點方式與深度學習方法進行有效結合，獲得了高效高精度的識別效果。Zhang 等用OpenPose 提取關節(jié)向量的各種特征，使用最近鄰（-nearest neighbor,NN）動作分類，驗證深度特征算法的精進性。

基于人體關節(jié)點的方法通過關節(jié)點構建動作輪廓，在簡單背景下對于大幅度動作識別效果較好，但是受限于人體關節(jié)遮擋、細粒度關節(jié)變化等問題，傳統(tǒng)的人體關節(jié)點行為識別方式在真實場景下難以應用。

2.2 局部特征表示

局部特征表示方法將視頻段落認為一個整體，在處理視角和遮擋變化等方面有更好的效果。時空興趣點和運動軌跡使用局部表示方法獲取特征。有多種局部特征描述符，如梯度直方圖（histogram of oriented gradient，HOG）、運動邊界直方圖（motion of boundary history，MBH）、光流梯度直方圖（histograms of oriented optical flow，HOF）等。

在時空域中提取時域和空域變化都明顯的鄰域點是時空興趣點檢測的核心，時空興趣點檢測是局部表示方法的一種典型例子，將行為信息使用興趣點描述。時空興趣點提取法本質是映射三維函數至一維空間，得到其局部極大值的點。此種方式相比于基于輪廓剪影方式，更適用于一些復雜背景。

Laptev不僅提出時空興趣點，還將Harris 角點興趣點探測器擴展至三維時空興趣點探測器。Harris3D 檢測的鄰域塊大小能夠自適應時間和空間維度，使鄰域像素值在時空域中有顯著變化。

興趣點提取的多少和稀疏情況，是使用基于時空興趣點方法中的關鍵因素。Dollar等指出Laptev的方法存在短板，獲取的穩(wěn)定興趣點過少，因此其團隊在時空域上使用Gabor 濾波器和高斯濾波器，使得興趣點數量過少情況得到適量改善。Wang 等提出使用稠密網格方式提取行為特征，并對于興趣點的稀疏和密集問題做出詳細論證。通常情況下，密集興趣點效果更好，但是時空復雜度較高。Willems等使用Hessian 矩陣改善時空興趣點方法，優(yōu)先找出興趣點所在位置，使得檢索興趣點時間復雜度大幅降低，缺點是興趣點不夠密集。

時空興趣點不再過度依賴于背景，不需要對視頻進行分割處理，因此在一些復雜的背景下識別效果比整體表示方式好，但是對于人體遮擋、興趣點采樣數量等要求較高。

運動軌跡利用光流場獲取視頻片段中的軌跡。基于運動軌跡的手工特征提取方法是通過追蹤目標的密集采樣的點獲得運動軌跡，根據軌跡提取行為識別特征，分類器訓練后，得到識別結果。

HOG 描述符可以展示靜態(tài)的表面信息，MBH 描述符表示光流的梯度，HOF 描述符展示局部運動信息。相對于單一特征，Chen 等連接HOG、光流、重心、3D SIFT（3D scale invariant feature transform）等特征，能適應于更為復雜的場景，有更好的魯棒性和適應性。Wang 等根據之前的對比研究發(fā)現，密集采樣興趣點比稀疏采樣效果好，因此使用“密集軌跡”（dense trajectories）的方式。

基于運動軌跡的行為識別軌跡描述符可以保留運動的全面信息，關注點在于時空域變化下的目標運動，該方法的缺點也很明顯，即相機運動的影響較大，HOF 記錄絕對運動信息，包含相機運動軌跡，MBH 記錄相對運動信息。Wang 等提出更為完善的密集軌跡方法（improved dense trajectories，IDT），通過軌跡的位移矢量來進行閾值處理，如果位移太小，則移除，只保留下來流場變化的信息，這樣能夠消解拍攝時運動的影響，使得HOF 和MBH 組合得到的結果進一步改善。優(yōu)化后的密集軌跡算法可以適當抵消相機光流帶來的影響，對軌跡增加平滑約束，獲得了魯棒性更強的軌跡。盡管IDT 已經有較好的識別效果，外界環(huán)境仍然會對其造成一定程度的影響，可以使用Fisher進行向量編碼，訓練比較耗時。

IDT 算法是傳統(tǒng)手工特征提取所有方法中實際效果最理想、應用場景最多的算法。IDT 以其較好的可靠性和穩(wěn)定性在深度學習應用之前廣泛應用。卷積神經應用后，很多利用深度學習并結合IDT 算法進行行為識別的實驗，呈現優(yōu)異的效果。Li等用深度運動圖進行卷積網絡訓練，利用密集軌跡描述運動信息，高效提取深度信息和紋理信息，能有效判別相似動作，減弱光照等影響，但是復雜度較高，識別速度較慢。表1 總結了基于傳統(tǒng)方式的行為識別方法的對比。

表1 基于傳統(tǒng)方法行為識別對比Table 1 Comparison of action recognition based on traditional methods

在傳統(tǒng)人體行為識別算法中，行為特征提取依靠人工觀察、手工表征。輪廓剪影方法能在簡單背景中表現出良好的性能，但是靈活度低，對于遮擋、噪聲等非常敏感；時空興趣點方法不再對RGB 視頻序列進行前景和后景裁剪，有豐富的興趣點時識別效果更好，但是計算復雜度就相對提高，時間增長，對光線等敏感；人體關節(jié)點方法行為識別時不再要求高像素，但對于拍攝角度等敏感，不過由關節(jié)點發(fā)展而成的骨架，結合深度學習，在人體行為識別領域具有良好的發(fā)展勢頭，目前多數的電影電視特效團隊拍攝時通過關節(jié)和骨架進行取樣；運動軌跡方法是傳統(tǒng)方式中信息保留較好、表征能力較強、識別效果最好的方法，但受到光流的影響。

總之，傳統(tǒng)方法下，人體行為識別技術仍然受到物體之間的遮擋、噪聲、環(huán)境的光照、相機移動、算法魯棒性的影響。對于這些問題，有兩個主要的解決途徑：使用深度圖像和尋找更好的描述符。

深度相機提供了改善部分問題的解決方式，但是深度圖像不容易獲得。微軟新推出的3D 體感傳感器Kinect，可以方便地獲取深度和骨骼位置信息。研究人員設計的輪廓梯度方向直方圖（contour-histogram of oriented gradient，CT-HOG）、邊緣方向直方圖特征（edge orientation histogram，EOH）、局部二值模式特征（local binary pattern，LBP）、梯度局部自相關特征（gradient local auto-correlation，GLAC）等嘗試規(guī)避光照改變和物體之間遮擋等問題帶來的不良影響。這些問題正在被逐步改善。

3 基于深度學習的人體行為識別

深度學習基于對數據進行表征學習，使用特征學習和分層特征提取的高效算法自動提取特征來代替人工獲得特征。深度學習以其強大的學習能力、高適應性、可移植性等優(yōu)點成為熱門。雙流網絡關注時空域特征，識別準確度很高；3D 卷積網絡強調連續(xù)幀之間的信息處理；結合多種網絡架構的混合網絡則側重于優(yōu)點結合。同時，還有一些學者從不同角度利用深度學習探索行為識別，如基于骨架的關節(jié)點識別方式、受限玻爾茲曼機、非局部神經網絡等，也有不錯的效果?；陔p流網絡的改進、對3D 卷積結構的修改和擴展、結合CNN 和LSTM 的混合網絡，都是目前的研究熱點。

3.1 雙流網絡結構

雙流網絡結構（two-stream）將卷積信息分為時域和空域兩部分，兩條網絡流結構相同（CNN 和Softmax 組成）但互不干擾。從單幀RGB 圖像中獲取環(huán)境、物體等空間表面信息；從連續(xù)光流場中獲取目標的運動信息，最終將雙流的訓練結果融合，得到識別結果。Two-stream 網絡基本流程如圖3 所示。

圖3 雙流結構框架Fig.3 Structure framework of two-stream

2014 年Simonyan 等在神經信息處理系統(tǒng)大會NIPS 上提出Two-stream 方法，分別考慮時空維度，設計思路巧妙。從流程的整個過程考慮，視頻幀的分割、單幀RGB 處理、連續(xù)幀的選擇與相關性描述、網絡選擇、雙流融合方式、訓練方式與規(guī)模等都可以選擇不同的方案以達到更好的識別效果，也是后續(xù)雙流網絡完善的主要思路。

CNN 結構深度太淺，用于視頻識別時模型的擬合能力受到影響，同時受限于訓練的數據集規(guī)模較小，容易過擬合，導致訓練效果并不是很好。卷積核尺寸、卷積步長、網絡結構深度的改變產生了性能更好的VGGNet、GoogleNet 等網絡結構，新的網絡結構逐步替代CNN 網絡。使用預訓練、多GPU 并行訓練等方式改善訓練結果，減少內存消耗，識別效果有了很大的提升，但是會增大硬件要求，對于普適應用并不友好。

ConvNet 框架缺乏處理長時間結構的能力，一些解決辦法計算開銷較大，對于超長時間序列的視頻，可能存在著重要信息丟失的風險。Wang和Xiong等基于分段和稀疏化思想提出時域分割網絡（temporal segments networks，TSN），使用系數時間采樣和視頻級別監(jiān)督，對長視頻進行分段，隨機選取短片段使用雙流方法。針對數據樣本量不足問題，應用交叉預訓練、正則化和數據增強技術，降低了復雜性，同時消除相機運動帶來的偏差影響，但比較耗時。

雙流網絡中的局部特征相似，容易導致識別失敗，Zhou 等通過角落裁剪和多尺度結合對數據進行增強，利用殘差塊提取局部特征和全局特征，使用非局部CNN 提取視頻級信息，表征能力更強。Wang等在卷積神經中加入高階注意力模塊，調整各部分權重，強化對局部細微變化的關注。

Feichtenhofer 等沿襲雙流網絡結構時，發(fā)現空間網絡已然能完成大部分行為識別，時間網絡并沒有發(fā)揮很大的作用，于是研究將兩個網絡在特定卷積層進行融合，提出的時空融合架構框架如圖4 所示。結果顯示，在最后一個卷積層，將兩個網絡融合在空間流中，使用3D Conv 融合方式和3D Pooling 將其轉化為時空流，保持雙流持續(xù)運作，相對于截斷時間流，減少了很多參數，進一步提高了識別率。對比傳統(tǒng)的雙流架構，仍增加了參數數量，加大了運算復雜度。

圖4 時空融合架構框架Fig.4 Structure framework of spatiotemporal fusion

基礎雙流模型在時空交互性上的處理影響識別準確度。ResNets 具有更強的表征能力，殘差結果對數據變動更為敏感，因此Feichtenhofer 等對雙流網絡和殘差網絡進行創(chuàng)造性的結合，提出時空殘差網絡模型（spatiotemporal residual networks，STResNet）。STResNet 通過殘差連接進行數據交互，允許通過雙流通道進行時空特性的分層學習。Pan 等提出了一種基于時空交互注意力模型的行為識別方法，在空域上設計空間注意力模型，計算幀的顯著性位置，在時域上設計時間注意力模型，定位顯著幀，更加關注于有效幀和幀的有效區(qū)。時空交互和注意力機制使得各種算法模型識別效果更好，但模型變得復雜難以避免，探索交互方式和高效使用是一個重要的研究方向。

由雙流網絡衍生出多種多流網絡。Wang 等提出一種全局時空三流CNN 架構，傳統(tǒng)的CNN 在時空域上基于局部信息進行動作識別，三流架構從單幀、光流和全局疊加運動特征中開展空間、局部時域和全局時域流分析。Bilen 等引入四流網絡架構，訓練RGB 和光流幀以及對應的動態(tài)圖像，獲得時序演變。多流網絡相對于雙流網絡，加寬了網絡模型，提高了卷積神經網絡在特征提取上的充分性和有效性，但也增大了網絡架構的復雜性。

以雙流網絡為基礎的網絡架構是學者研究的熱點。改進網絡的學習特征表示、多信息流的正確組合、針對過擬合問題的數據增強方案等都是研究人員對于雙流網絡改進的探索。雙流網絡以其強調時空特性而具有較好的準確度，但對于網絡流的訓練硬件要求高、速度慢、視頻預處理等問題嚴重影響雙流網絡的實時應用。

3.2 3D 卷積神經網絡結構

單幀RGB 的二維網絡訓練，容易導致連續(xù)視頻幀間的運動關系被忽略，造成一些重要的視頻信息丟失。Baccouche 等對卷積網絡進行3D 擴展，增加時間維度，使其自動學習時間和空間特征，提升行為識別的準確度和魯棒性。2D 卷積和3D 卷積區(qū)別如圖5 所示。

圖5 2D-CNN 與3D-CNN 對比Fig.5 Comparison of 2D-CNN and 3D-CNN

Ji等于2013 年提出基于3D 卷積神經網絡的行為識別方式，在由疊加多個連續(xù)視頻幀構成的立方體中運用3D 卷積核捕捉連續(xù)幀中的運動信息。3D卷積網絡存在參數過多、數據量嚴重不足等問題。Sun 等將3D 卷積網絡分解為2D 空間卷積和1D 時間卷積學習，提出空間時間分解卷積網絡（factorized spatio-temporal convolutional networks，FCN），大大減少了參數量，但分解之后，也犧牲了一些表達能力。使用偽3D 卷積代替3D 卷積也具有不錯的識別效果。

Tran 等認為基于RGB 的深層特征并不直接適合于視頻序列，其團隊嘗試使用三維卷積實現大規(guī)模學習，通過改變3D 卷積網絡中不同層的卷積核的時間深度來尋找最優(yōu)的3D 卷積核尺寸，提出尺寸卷積核為3×3×3 的C3D 網絡。C3D 卷積網絡是3D 卷積網絡的奠基石?；赗esNet 和C3D 提出Res3D 卷積網絡，減少參數量，同時每秒峰值速度更小，整體上，網絡性能相對于C3D 有明顯的提升。

3×3×3 尺寸的卷積核計算量大，內存要求高，Li等設計出高效3D 卷積塊替換3×3×3 卷積層，進而提出融合3D 卷積塊的密集殘差網絡，降低模型復雜度，減小資源需求，縮短訓練時間，且卷積塊易于優(yōu)化和復用。

網絡訓練數據量不足的問題，一直阻礙著行為識別性能的進一步提升。Carreira 等發(fā)布了一個超大的Kinetics 數據集，用于解決數據局限性問題。同時提出一種由2D-CNN Inception-V1擴張的I3D（twostream inflated 3D ConvNet）模型，將RGB 視頻與堆疊的光流輸入3D 卷積網絡，并將雙流結果融合，使得網絡性能進一步提升。

3D 卷積參數量大、數據需求量大以及對光流的利用要求高等問題，限制了3D 卷積對于長時間信息的充分挖掘與使用。Diba 等嘗試在不同長度視頻范圍內對3D 卷積核進行建模，提出了T3D（temporal 3D ConvNets）。T3D采用TTL（temporal transition layer）替換池化層，能夠模擬可變的卷積核深度，避免造成不必要的損失；采用3D DenseNet 擴展了三維卷積架構DenseNet，避免從頭開始訓練3D 卷積網絡。為了探究持續(xù)長時間輸入視頻對行為建模影響問題，Varol 等提出LTC（long-term temporal convolutions）網絡結構，以不同時長視頻作為實驗輸入，結果顯示隨著視頻長度的增加，識別的準確度也相應增加。T3D 方式雖然能一定程度上在較好的參數空間內初始化網絡，但是參數量的增加使得處理過程復雜耗時，在兩者的取舍上需要進一步考慮。

針對3D 卷積網絡訓練時間長、調參難等優(yōu)化問題，Zhang 等將3D 卷積核拆為時域和空域卷積神經結構，形成可交互的雙流，使用殘差網絡，減少參數量，降低了硬件要求，提高了訓練速度，可廣泛運用于機器人領域。

綜合論述，3D 卷積神經網絡充分關注人體的運動信息，但是3D 卷積中卷積核復雜、參數量大等不利因素嚴重限制其發(fā)展。C3D 存在網絡結構較淺、訓練時間長、提取特征能力有限等問題，盡管在不同方面已經有較好的解決方法，但是沒有統(tǒng)一的方法能夠完美地處理所有問題。使用VGGNet-16、ImageNet預訓練、高效和輕量化三維卷積神經、不同解決方案之間的搭配組合是其重要研究方向。

3.3 混合網絡結構

不同的網絡架構組件具有不同的側重點和優(yōu)點，多種結構的結合使用可以有效提取時空信息，CNN-LSTM 結構是混合網絡的代表。結合方式的多樣性，使得混合結構具有很大的潛力和很高的熱度。

遞歸演進的循環(huán)網絡（recurrent neural network，RNN），允許信息持久化，但其激活函數會導致“梯度消失”問題以及ReLU 函數導致的“梯度爆炸”問題，使得RNN 解決長序列問題時能力不足。Hochreiter等設計出一種帶“門”結構的循環(huán)神經網絡單元LSTM，避免長期依賴。LSTM 的變體在行為識別中應用非常廣泛，但是導致參數增加，訓練難度陡增。RNN 和LSTM 結構區(qū)別如圖6 所示。

圖6 RNN 與LSTM 結構區(qū)別Fig.6 Structural differences between RNN and LSTM

Andrej 等在設計網絡架構時考慮時間連續(xù)性，嘗試輸入幾個連續(xù)的幀，對神經網絡的融合方式進行研究，對比晚融合、早融合以及慢融合進行實驗，證明了慢融合具有最好地效果。LSTM 提取短時信息效率有限，Qi 等使用多維卷積核提取短時間特征，運用LSTM 訓練長時間特征，融合多通道信息，獲得上下文的長期時空信息。融合上下文特征信息的LSTM 具有更好的表征能力。

CNN-LSTM 結構主要思路為：從RGB 中獲取骨架序列，每一幀都對應人體關節(jié)點的坐標位置，若干幀組成一個時間序列，使用CNN 提取空間特征，LSTM 處理序列化數據來挖掘時序信息，最后使用Softmax 分類器分類。CNN-LSTM 結構可以對時序信息進行更完整的學習。Donahue等研究LRCN 循環(huán)卷積結構，將CNN 用于圖像描述板塊中獲取空間特征，LSTM 則獲取時間特征，其在空間運動特征提取、長期依賴等方面有不錯的效果，其框架圖如圖7所示。

圖7 LRCN 框架圖Fig.7 LRCN structure diagram

使用CNN 訓練單幀RGB，并在視頻級上進行平均預測會導致信息收集不完整，從而極易造成行為類別混淆，在細粒度或視頻部分與感興趣部分行為無關的數據集上，此種現象更為明顯。Ng 等為緩解這個問題，提出了一種描述全局視頻級的CNN 描述符，利用特征池和LSTM 網絡學習全局描述。在時間上共享參數，在光流圖上訓練時間模型，達到了比較好的效果。

注意力機制的引入和后續(xù)LSTM 的優(yōu)化，使得雙流CNN 和LSTM 的結合能更好地融合視頻的時空信息。Ma 等使用時空雙流卷積網絡和注意力機制提取特征向量，將其輸入DU-DLSTM 模塊后進行深度解析；Jie 等將基于注意力機制的長短時記憶循環(huán)卷積網絡（Attention-ConvLSTM）和雙流網絡進行結合，更準確地學習非線性特征，分析視頻數據，縮短了訓練時長，提高了識別準確度。

研究者將圖卷積網絡（graph convolutional network，GCN）與LSTM 結合，如Kipf 等提出一個圖卷積網絡，使用圖作為輸入，經過多層特征映射，完成半監(jiān)督學習。但此種方式存在一些計算量大、不支持有向圖等棘手問題。

Li等使用卷積注意力網絡代替注意力網絡，將二維數組輸入LSTM 網絡，提出VideoLSTM。通過引入基于運動的注意映射和動作類標簽，將VideoLSTM的注意力定位動作的時空位置。該方法更加適應視頻媒體要求，提高了空間布局的相關性。

全卷積網絡與多層循環(huán)網絡結合、3D 卷積與GRU 結合、雙流網絡與膨脹3D 網絡結合等都是混合網絡的研究方向。其不再局限于單一的網絡架構，從而降低人工特征依賴，避免復雜的預處理，提高時間信息利用率，加快識別速度。表2 整理了基于深度學習的行為識別的各種網絡架構的優(yōu)缺點。

表2 基于深度學習的行為識別算法比較Table 2 Comparison of deep learning based behavior recognition algorithms

經典的網絡模型框架如圖8 所示。雙流網絡中空間分支處理單幀RGB，時間分支處理堆疊的光流，注重時空信息，識別準確度高，但不同網絡分離訓練，速度慢；3D 卷積網絡依靠卷積核計算運動特征，速度快，但識別效果與參數相關，參數多時，計算量大，硬件要求高，與2D 卷積相比，3D 卷積通過減少輸入幀的空間分辨率，尋求減少內存消耗，從而易丟失信號，識別效果受到影響；CNN-LSTM 結構中CNN的平均池化結果作為LSTM 網絡的輸入，LSTM 獲取時間特征，識別時間快，精度高。

圖8 經典網絡模型框架圖對比Fig.8 Comparison of classical network model framework diagrams

3.4 其他優(yōu)秀的人體行為識別算法

人體行為識別有多種方式，除了關注時空特征的網絡架構外，一些其他的方式也有很好的識別效果?；诠羌艿男袨樽R別，特征明顯，不易受到外觀等因素的影響；受限波爾茲曼機利用其無監(jiān)督學習能力，可以很好地把握運動特性；非局部神經網絡架構能夠獲取更加詳細的特征信息。

Wang 等在三維空間疊加關節(jié)點軌跡，并投影到正交平面上，生成正交編碼圖，使用卷積神經網絡訓練，獲得識別結果，此方法創(chuàng)新于投影關節(jié)點軌跡，更為簡單?；谌梭w骨架的研究并結合卷積神經網絡也是深度學習中行為識別的熱點。Shao 等使用層次模型表達人體局部信息，構建層次旋轉和相對速度描述符，在公共數據集上具有普適性?；诠羌艿男袨樽R別容易忽略骨架數據的噪聲和時序特征，比較難以識別細微的動作以及有意義的差異，使得提取的特征魯棒性不強。為了更好地解決這些問題，基于骨架研究的學者嘗試結合深度圖序列、彩色圖序列等提升識別準確率。一般使用CNN-LSTM進行關節(jié)點估計或者采用深度攝像機提取人體骨架序列，效果較好。

受限玻爾茲曼機（RBM）是一類具有雙層結構、可通過數據集輸入進行概率分布學習的生成網絡模型，具有強大的無督促學習能力。在一定條件下，其通過學習數據集中復雜的規(guī)則，可以處理高維序列數據。

RBM 由于其獨立的連接方式，在網絡學習中計算量更小，速度更快。Taylor 等為了更好地理解視頻中的數據信息，使用卷積門控RBM，順利地學習了表達光流和圖像模擬，以無督促的方式提取了運動敏感特征。Tran 等定義兩個視頻幀之間的減法函數，創(chuàng)建時空顯著圖，從而使用高斯RBM 從顯著圖上學習運動差分特征。此種方式消除了無關性的形狀和背景圖，進而突顯運動特征。

Wang 等在CVPR2018 年提出一個自注意力模型，其并不局限于一個局部特征，而是相當于構造了一個可以維持更多信息的卷積核，從而獲取較為全局的信息。研究者提出的non-local 塊能夠與現有的各種架構進行組合，通過non-local 操作獲取遠程依賴關系，提高了各種架構基準。將non-local 塊置入C2D 或I3D 網絡中，取得了更好的識別結果。

對于長距離空間相關性建模問題，大多數解決方案都存在計算效率較低或者感受野不足的問題，Chi 等提出基于頻譜剩余學習（spectral residual learning，SRL）的快速non-local 網絡結構，利用SRL 實現全局感受野，是視頻分類和人體姿勢估計中的重要研究方向。

表3 簡單分析了兩種識別方法：傳統(tǒng)方式提取特征時設計復雜，實現簡單，可應用于小樣本識別項目，目前已難以適配復雜情景，不能滿足高精度識別和普適性的要求?；谏疃葘W習的行為識別效率高，魯棒性強，更適用于大規(guī)模人體行為、群體行為、長時間序列人體動作等情景，也滿足大數據時代海量數據識別的要求。

表3 行為識別方式對比Table 3 Comparison of action recognition methods

然而，深度學習方法并不是萬能的，甚至帶來了新的難題，例如動作標簽非單一化、維數災難、算法復雜度變大、參數增多、計算量擴大、識別準確度不穩(wěn)定等。一些主要的探索為：（1）對于海量樣本標簽的準確、高效注入問題，弱監(jiān)督或無監(jiān)督網絡模型逐步廣泛應用，節(jié)省大量人力與時間。（2）數據樣本的“維數災難”影響識別精度，Ye 等提出SPLDA 算法可以進行特征約減，去除冗余數據信息，實現降維。（3）為了識別方法的高準確率、高實時性與強魯棒性，現有算法嘗試多視角特征融合。（4）避免耗時、高硬件需求，研究人員開發(fā)基于深度運動圖、局部建模等的高效、輕量化卷積神經網絡。

4 人體行為識別數據集及方法對比

為了評測行為識別中不同算法的性能，現已存在的公共數據集為研究人員提供了良好的測試基礎。

數據集的完善逐漸趨近于真實生活的復雜性，可以簡單分為早期數據集、真實場景數據集、大型數據集。采用雙流網絡、3D 卷積等架構的識別算法仍會在經典的HMDB51 和UCF101 數據集上測試。

4.1 常用數據集及比較

KTH 數據集數據量很少，是最早的一批行為數據集之一，拍攝相機固定，包含一些簡單的單人行為。Weizmann 數據集包含10 個動作，每種動作9 個樣本，是一些場景清晰的單人動作，為適應當時的行為識別方式，標注還包括前景的行為剪影和背景序列。KTH 數據集和Weizmann 數據集都是靜態(tài)數據集。IXMAS 數據集從5 個視角拍攝，包含不同角度的13 種行為180 個視頻序列。這些數據集場景單一，動作簡單，人物唯一，數據量少，目前基本不會再使用，但具有劃時代的意義。

真實場景數據集更貼近日常生活，也為行為識別早日應用奠定了基礎。Hollywood 系列來自好萊塢電影中的動作場景。Hollywood 數據集來自32 部電影，分為8 種類別，不同的演員在不同的場景下進行相同的動作。Hollywood2是對Hollywood 數據集的擴展，從69 部電影中剪切出3 669 個視頻，分為12 種行為類別和10 種場景類別，該數據集包含行為子數據集和場景子數據集。Hollywood Extended 中添加了有序的一段動作序列。

UCF 系列數據集主要從體育廣播電視頻道和視頻網站YouTube 中截取而得，場景豐富，種類繁多。UCF-Sports包含多場景多視角變換的舉重、騎馬、鞍馬等10 類體育運動。UCF YouTube（UCF11）對同組視頻片段設置相似的特征，如背景相似、演員相同，并且增加相機運動、背景雜亂、照明陰暗變化等因素，使得此數據集在當時具有高挑戰(zhàn)性。UCF50將UCF11 的11 種類別擴展到50 種。UCF101是對UCF50 的擴充，動作類別增加至101 種，共計13 320個視頻，每組視頻的動作又可分為5 類。UCF101 數據集延續(xù)了UCF11 的特征相似性和質量高差異性，一直屬于挑戰(zhàn)性較大的數據集。

Olympic Sports數據集來自視頻網站YouTube，包含了16 種運動類別，每種類別約50 個視頻，同時包含物體遮擋、相機運動等。此外，此數據集由機器人幫助注釋標簽。

HMDB51 數據集來自數字化電影和公共資源庫，有51 種類別，6 849 個視頻，數據集來源不唯一、拍攝視角變化、背景雜亂、外觀遮擋等諸多因素，使得數據集識別具有難度。樣例如圖9 所示。

圖9 HMDB51 和UCF101 數據集Fig.9 HMDB51 and UCF101 datasets

Sports-1M 數據集是由Google 采集視頻網站YouTube 上一些視頻序列而得的一個大型數據集，包含487 種運動視頻，1 133 158 個視頻，一些視頻有多個標簽且各類別在葉級層次差異較小。

ActivityNet1.3 是ActivityNet1.2 的延伸，包括日常生活中200 種類型，共計約20 000 個視頻，覆蓋各種復雜的人類活動。Epic-Kitchens 數據集是一個以廚房為主要場景的大型開源數據集，大多以晚飯時間為采集點，收集烹飪、食材準備、洗菜洗碗等動作。表4 對數據集進行簡單對比。

表4 行為識別數據集比較Table 4 Comparison of behavior recognition datasets

Kinetics 系列主要是通過采集視頻網站YouTube上的高質量視頻而得。2017 年的Kinetics400 包含400類動作，每類有約400個視頻。2018年Kinetics600產生，包含600 類動作類別，每類至少600 個視頻序列，每個視頻持續(xù)10 s左右。2019 年，Kinetics數據集再次進行擴充，共計約700 個類，數據量龐之大。

Google 發(fā)布的AVA 數據集是一個精細標簽數據集，每個人物提供多個動作標簽，更加以人為中心，突顯原子動作。2020 年的AVA-Kinetics數據集，通過使用AVA 注釋協(xié)議對Kinetics700 進行注釋，其擴充AVA 數據集，結合AVA 多標簽的優(yōu)點和Kinetics 廣泛的視覺多樣性優(yōu)點，是驗證行為識別方法的得力助手。

FineGym 數據集是一個規(guī)模大、定義清、質量高、標注細粒度的人體動作數據集。在語義上，FineGym 定義三層類別結構：事件、組和元素類別；在時域上，采用兩層結構：動作和子動作。FineGym99收集了99 類數據，FineGym288 對其擴充至288 類，提供了大約6 000 動作數據和3 萬多子動作數據的精確標注，且在持續(xù)進行。

數據集的發(fā)展，經歷了多維度的改變。人物個數上，向群體行為發(fā)展；場景上，趨于真實現實場景；粒度上，細粒度動作日益豐富；標簽類型上，標簽更加層次化、非唯一化；質量上，逐漸高質量化；來源上，不再局限于實驗拍攝等。

4.2 不同方法性能比較

縱向比較不同識別算法性能的測試，一般采用相同數據集進行實驗對比，根據平均精確率mAP 進行評價，也可以橫向比較同一算法在不同數據集下的表現，以檢驗此方法是否適應更新的數據集。新數據集在數據量、標簽多樣化等方面具有優(yōu)勢，具有一定的挑戰(zhàn)性。表5整理了較新數據集上的算法性能。

表5 各算法性能對比Table 5 Performance comparison of different algorithms

運動軌跡具有強大的魯棒性。運動軌跡的描述符的改進可以獲得RGB 中更全面的信息；改進的運動軌跡方式考慮相機運動，注重時空域下的運動信息，因此目前的網絡架構多與IDT 結合，在Olympic Sports*數據集識別率也可以達到91.4%，真實場景數據集Hollywood2 上效果超過64.0%。

傳統(tǒng)方式在大型數據集上表現出局限性。人工特征設計方式不適用于海量的視頻信息，反而適合訓練深度學習分類器。在Sports-1M 中，混合網絡CNN+LSTM 準確率高達73.1%。目前使用深度學習的網絡特征表達性能已經超過了傳統(tǒng)人工設計的特征表達方式。

目前大多數識別算法使用的數據模態(tài)為RGB 和光流OF。兩者結合能夠表現目標的外觀和運動信息，但是尋找特征替換光流是解決噪聲等不利因素的重要研究方向。

HMDB51 和UCF101 仍是使用最廣泛的兩大數據集。各種經典算法都使用此數據集，目前雖然有數據量更大的新數據集，但是UCF101 在種類豐富、背景干擾、相機運動等方面變化較大，十分具有挑戰(zhàn)性。同時，為了對比新算法相對于前期算法的識別率精進情況，新算法一般也會使用此兩大數據集，如表6 所示。

表6 在HMDB51 和UCF101 上的各算法性能對比Table 6 Performance comparison of different algorithms on HMDB51 and UCF101

傳統(tǒng)的經典機器學習算法穩(wěn)定性較好。在HMDB51 和UCF101 數據集上識別準確率穩(wěn)定在60%和88%左右。深度學習中由于各種網絡架構差異性較大，在HMDB51 中準確率在59%和81%之間波動，在UCF101 中準確率在82%和98%之間波動。

基于深度學習的行為識別算法在識別準確率方面有了明顯的改善。Two-stream 架構采用雙流通道，3D 卷積網絡在連續(xù)幀中使用3D 卷積核，因此獲取了更好的時空混合特征。Wang 等基于雙流架構，使用稀疏時間取樣和視頻級別的監(jiān)督策略，在HMDB51和UCF101 數據集上識別精度達到69.4%和94.2%；Jie等在雙流網絡中加入自注意力機制，在HMDB51和UCF101 數據集中識別率達到69.8%和94.6%。

改善3D 卷積神經網絡結構可以有效提高識別精度。3D 卷積具有結構復雜、優(yōu)化困難、參數量大、難以訓練等難題。Qiu 等將3D 結構改造為2D+1D 緩解參數問題，在UCF101 數據集上準確率達到93.7%；Carreira 等對I3D 網絡架構進行預訓練，在UCF101數據集上識別精度高達98.0%，在HMDB51 數據集上準確率達到80.7%；Tran 等將3D 卷積網絡拆分為2D 空間卷積+1D 時間卷積，利于網絡優(yōu)化，在HMDB51 和UCF101 上準確度達到78.7%和97.3%。目前，將GRU、Attention 模塊、Inflation 等加入3D 卷積網絡中也有較好的效果。

IDT 和深度學習網絡結合表現出優(yōu)異的效果。IDT 能夠有效捕捉目標的運動信息，深度學習網絡可以適應大數據。Wang等結合雙流網絡和IDT，使用軌跡池深度卷積描述符TDD，在HMDB51 和UCF101數據集上識別率高達65.9%和91.5%；Varol 等使用LTC 和IDT 結合的方式，識別率比Wang 等高出1.3個百分點和1.2 個百分點。Feichtenhofer 等使用VGG-16 網絡結合IDT，在HMDB51 和UCF101 數據集上識別精度高達69.2%和93.5%。

5 總結與展望

一些簡單的行為識別已經在生活中應用，然而全面的大規(guī)模的應用行為識別仍然有很長的路要走。傳統(tǒng)的行為識別特征描述符表達能力有限，難以適應大數據時代復雜的視頻場景，將深度學習引入動作識別推動了行為識別的發(fā)展，但仍存在很多的挑戰(zhàn)。（1）視頻質量的復雜性：視頻幀率和圖像清晰度、視頻是否修剪分類、視頻長度不一而且視頻中存在多尺度問題、多目標交叉、邊界清晰性確定、類內和類間差異等問題。（2）時域信息的復雜性：環(huán)境光照變化、背景場景變化、視角切換變化、相機移動、運動方向改變、人物幾何特征改變、大動作變化尺度和時間、人物變化時序維度等問題。（3）細粒度識別的復雜性：密集或者快速的動作、肢體細微差別、運動頻率與次數等問題。

傳統(tǒng)方法中，IDT 算法具有很高的可靠性，適用范圍廣，但時間復雜度高，運算速度慢，不適合密集數據識別。深度學習下，雙流算法識別準確度高，表征能力強，但多流網絡需要分開訓練，實時性有待提升；3D 卷積網絡注重時間維度，訓練速度快，泛化性能好，但存在大量參數，不夠靈活；CNN+LSTM 網絡優(yōu)于保存長時間序列信息，縮小計算量，可與注意力機制等結合使用，但網絡結構比較復雜。要想加快生活與工業(yè)化行為識別的節(jié)奏，需要研究輕量級網絡結構，實現自監(jiān)督與無監(jiān)督應用，從而“多快好省”地運用高效算法。

（1）注意力機制成為趨勢。視頻數據中，除了目標信息，還有很多無關信息，網絡模型加入注意力機制，可以將有限的資源用于顯著區(qū)域，加深不同尺度的卷積特征，提高識別準度。軟注意力機制、混合注意力機制的Action 模塊、高階注意力等將成為熱點，但是需要考慮算法的復雜性。

（2）考慮全局語境信息成為重要研究方向。在設計上卷積層是為了更好地提取局部特征，因此全局信息易被忽略。在卷積層之前，將全局語境信息融合到局部特征中，從而調整卷積，更高效地捕捉關鍵信息。例如，使用全局特征交互的語境門限卷積，可以依照全局信息的指引動態(tài)地改變卷積層權重，方便捕捉到有辨別力、有代表性的局部特征。

（3）多模態(tài)信息融合具有良好前景。傳統(tǒng)的RGB信息容易受到環(huán)境差異、動態(tài)背景等的影響，存在很多噪音。轉換角度來看，視頻中的識別依據不只有圖像、運動，還有聲音等，在網絡模型中將視覺特征和聲學特征結合，多視角特征融合可以減少特征參數，提高識別效果。

本文對行為識別的研究做出綜述，詳細介紹了人體行為識別的各種行為識別網絡架構，重點展現出各網絡的發(fā)展情況與優(yōu)缺點比較；同時整理了前期重要的數據集以及最新的數據集；最后闡述了目前的研究痛點并預測了未來的行為識別方向，希望對初學者或其他研究人員有所幫助。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放