劉博,卿粼波,王正勇,劉美,姜雪
基于分塊注意力機制和交互位置關系的群組活動識別
劉博,卿粼波,王正勇*,劉美,姜雪
(四川大學 電子信息學院,成都 610065)( ? 通信作者電子郵箱690728634@sina.com)
復雜場景下的群體活動識別是一項具有挑戰(zhàn)性的任務,它涉及一組人在場景中的相互作用和相對空間位置關系。針對當前復雜場景下群組行為識別方法缺乏精細化設計以及沒有充分利用個體間交互式特征的問題,提出了基于分塊注意力機制和交互位置關系的網絡框架,進一步考慮個體肢體語義特征,同時挖掘個體間交互特征相似性與行為一致性的關系。首先,采用原始視頻序列和光流圖像序列作為網絡的輸入,并引入一種分塊注意力模塊來細化個體的肢體運動特征;然后,將空間位置和交互式距離作為個體的交互特征;最后,將個體運動特征和空間位置關系特征融合為群體場景無向圖的節(jié)點特征,并利用圖卷積網絡(GCN)進一步捕獲全局場景下的活動交互,從而識別群體活動。實驗結果表明,此框架在兩個群組行為識別數據集(CAD和CAE)上分別取得了92.8%和97.7%的識別準確率,在CAD數據集上與成員關系圖(ARG)和置信度能量循環(huán)網絡(CERN)相比識別準確率分別提高了1.8個百分點和5.6個百分點,同時結合消融實驗結果驗證了所提算法有較高的識別精度。
群組活動識別;注意力機制;交互關系;視頻理解;圖卷積網絡
群體活動識別是視頻理解中的一個重要課題[1-2],視頻理解具有許多實際應用,如視頻監(jiān)控、體育視頻分析和社會行為理解等。為了理解多人場景中發(fā)生了什么,設計模型不僅需要描述個體在場景中的行為活動,還需要對多個目標之間存在的復雜交互關系進行建模[3-4],因此群組活動需要挖掘如下信息,包括身體區(qū)域、個體、群體及其相互依賴性,整合3個層次的信息(身體運動區(qū)域、個體行為和群體活動)以及它們的潛在關系并構建統(tǒng)一的群體活動識別框架。
近來,深度學習方法在視頻群組活動識別中顯示出良好的效果[3,5]?,F(xiàn)有的方法[3,6]通常采用卷積神經網絡(Convolutional Neural Network, CNN)提取個體級別特征,然后設計一個全局模塊來聚合個體特征以生成場景級特征。但是空間維度上不靈活的層次關系建模方法和淺層次語義的圖像特征提取方法存在一定的缺陷[3],且還需要預先指定場景中個體數量。時間維度運動特征通常使用遞歸神經網絡(Recurrent Neural Network, RNN)來模擬密集采樣幀的時間變化[7],這些方法受限于場景中的人數和場景復雜多變的情況,而且模型的計算成本很高,有時還缺乏處理群體活動變化的靈活性。同時,一些方法[8-9]不僅不能充分利用個人行為和群體活動特征,而且還打破了個體和身體區(qū)域之間潛在的時空依賴關系。
為此本文采用群組分塊模型捕獲細粒度的單人肢體運動特征,具體地說,可以同時捕獲:1)空間域內上肢與下肢運動特征節(jié)點之間的空間依賴關系;2)時間域內增加了基于融合光流特征的個體時間依賴關系。
除了細化個體運動特征外,本文引入空間位置交互關系特征來捕捉個體之間的空間位置相關性與行為一致性,進而成為群組活動識別的潛在特征。兩個特征模塊具有較高的可移植性,可加入到現(xiàn)有的框架探索群體的時空依賴關系。
最后融合個體運動特征和空間位置關系,將其作為圖卷積網絡(Graph Convolutional Network, GCN)的輸入,從而推理復雜場景中的群體活動。
本文網絡框架如圖1。第一條分支中,場景特征提取模塊的兩路圖像融合特征作為分塊注意力模塊的輸入,用以捕獲個體的運動細節(jié);第二條分支為空間交互關系模塊,基于空間位置處理出交互特征。最后融合兩個分支特征輸入到圖卷積關系融合模塊,用以推理視頻序列的群組活動。本文網絡框架包括的4個主要模塊如下:
場景特征輸入模塊 本文選取原始視頻序列和預處理后的光流序列作為系統(tǒng)輸入,每一幀序列中包括個邊界框。本文采用Inception-v3[10]為每幀圖像提取全局場景特征圖。
分塊注意力特征模塊 采用區(qū)域特征聚集方法(Regions of Interest Align, RoI Align)[11]提取參與者的分塊區(qū)域特征。對分塊區(qū)域特征執(zhí)行全連接層操作,得到每個參與者分塊區(qū)域的512維外觀特征向量。然后,采用注意力機制關注相應分塊區(qū)域的重要程度。
空間交互關系模塊 上述提取到的個體行為特征不包含情景交互信息,比如個體與個體的交互、個體與群組的交互、個體的空間信息等。因此,此模塊引入交互式空間位置特征,包括個體邊界框的位置向量、個體與場景中其他個體的相對距離向量。個體交互式特征向量執(zhí)行全連接層操作得到高維度交互式活動特征。
圖卷積關系融合模塊 將時空個體分塊行為模塊與交互式空間關系模塊的輸出融合作為無向圖的節(jié)點特征,采用圖卷積神經網絡捕獲個體之間的深層次交互關系特征。然后對圖中所有節(jié)點的交互式關系特征進行池化融合,最后通過全連接層決策輸出最終的群組活動識別。
圖1 群組行為識別的網絡框架
個體行為大部分來自個體的肢體細節(jié)動作特征[12],如圖2,本文根據肢體語義將個體的邊界框劃分為兩個肢體運動區(qū)塊(上半身區(qū)域主要包括手臂動作,下半身區(qū)域包括腿部動作),給定每幀序列包含個參與者的邊界框。通過對個體劃分區(qū)塊,得到2×個區(qū)域框。使用RoI Align[11]來提取每個參與者的運動區(qū)塊特征,每個參與者對應2個運動區(qū)塊特征和1個原始區(qū)域特征,然后對參與者的運動特征區(qū)塊分別應用注意力機制,將其作為個體時空運動的行為特征。
圖2 分塊注意力機制
注意力機制為關注的上下肢體運動區(qū)塊特征分配相應的注意力權重,為目標行為提供更加重要的細節(jié)。本文將分割后的肢體運動區(qū)塊特征和原始個體區(qū)域特征傳送到注意力模型中,并將全局的個體特征用于最終的局部肢體運動特征的引導和優(yōu)化。計算式如下:
結合文獻[6],圖結構中各個節(jié)點可以用于模擬空間中個體狀態(tài),各節(jié)點之間邊的連接和邊上的權重可以用于模擬個體之間的交互。圖卷積網絡通過訓練以及節(jié)點間的信息傳遞將個體的狀態(tài)與其他個體交互進而得到高層次的群體活動特征。
圖3 空間交互關系特征模塊
對于圖中的目標節(jié)點與相鄰節(jié)點通過邊的權值學習特征。形式上,一層GCN可以寫成:
首先介紹兩個廣泛使用的數據集以及實驗參數等細節(jié),然后將本文的方法與當前比較先進方法的準確率對比。為驗證各個模塊對實驗結果的貢獻設計了幾個基線網絡,在兩個群體活動數據集進行對比研究。最后,實驗結果表明本文提出兩個模塊與GCN同時使用時在群組行為識別具有一定的優(yōu)越性。
CAD(Collective Activity Dataset)[4]包含44個短視頻序列(大約2 500幀),共包含6種個體行為(無效值(NA)、橫穿(Crossing)、等待(Waiting)、排隊(Queuing)、行走(Walking)和交談(Talking)),其中團體活動標簽是由大多數人參與的活動定義的,將其定義為5種群體活動(橫穿、等待、排隊、行走和交談)。選取1/3的視頻序列進行測試,其余的進行訓練[14]。CAE(Collective Activity Extended)數據集[15]在CAD上作了擴充,增加了2個新的群組活動類型(慢跑、跳舞)。由于將比較模糊的Crossing、Walking合并為Moving群組活動,CAE數據集的群組行為識別的效果明顯提升。
本實驗在pytorch框架下,使用一塊NVIDIA 2080Ti GPU對網絡模型進行訓練,內存大小11×109B。采用RoI Align提取個體的區(qū)塊特征,其維度為1 056×5×5,通過全連接層將區(qū)塊特征維度變?yōu)?12的特征向量,同時將位置和距離向量通過全連接層變?yōu)?28維。在CAD數據集上,訓練集和測試集批量大小分別為8和4,第一階段訓練集迭代了100次,學習率設置為1E-5;第二階段共迭代了80次,學習率設置為1E-4。在CAE數據集上,訓練集設置批量大小為9,測試集為4,兩個階段學習率與CAD數據集基本一致,第一階段共迭代60次,初始學習率為1E-5;第二階段共迭代50次,學習率設置為1E-4。
本文的方法超越了多數現(xiàn)有的方法,SBGAR(Semantics Based Group Activity Recognition)[16]采用兩階段的LSTM(Long Short-Term Memory)預測場景語義描述信息,但此方法不僅需要詞匯標簽而且第一階段的預測詞匯的準確率影響到第二階段活動識別準確率;置信度能量循環(huán)網絡 (Confidence Energy Recurrent Network, CERN)[17]采用置信度和能量層增加了活動識別的松弛條件,但是相比本文在精細化個體特征提取部分存在缺陷;MMRR(Multiple Modality Relation Representation)[18]考慮了將時空特征引入GRU(Gate Recurrent Unit)推理模塊,但是本文在交互特征設計方面優(yōu)于MMRR,因此使用相同的Inception-v3[5]骨架網絡情況下,本文群體活動識別的準確率比MMRR的性能要高1.6個百分點。同時,本文方法優(yōu)于現(xiàn)有的其他基于個體的時間序列[3,14,16]的方法,這主要是因為本文對外觀語義信息和交互位置關系圖進行了有效建模。
與其他先進的方法在CAE數據集對比結果如表2所示,本文方法設計的高層次語義個體特征和群組交互特征的網絡框架在群組活動識別建模中能達到較好的效果。與采用單一靜態(tài)圖像特征的方法RSTV+MRF(Randomized Spatio-Temporal Volume+ Random Forest)[15]相比,本文考慮了增加時間維度的特征,而且融合空間交互式模塊挖掘基于位置的個體關系特征。Hypergraphs Model[21]引入軌跡跟蹤對群組活動建模,因此需要提取視頻軌跡信息,而本文設計的特征模塊方便理解其物理意義且具有較高的可移植性。
表1 不同方法在CAD數據集上的準確率 單位:%
表2 不同方法在CAE數據集上的準確率 單位:%
為了檢驗該方法中每個成分的有效性,本文對各模塊進行了消融研究。
Baseline1為RGB圖和光流圖作為輸入,通過CNN提取RGB和光流視頻特征,并采用RoI Align提取個體特征,最后采用最大池化策略融合場景中所有個體的特征進而識別群組活動。
Baseline2在Baseline1的基礎上將個體特征放入GCN中提取高層次的交互式特征,最后采用最大池化策略融合場景中所有個體的特征進而識別群組活動。
Baseline3為RGB圖+光流圖+個體注意力行為模塊+GCN,在Baseline2的基礎之上增加了分塊注意力特征模塊,從而提取精細化個體行為特征。
Baseline4在Baseline2的基礎之上增加了空間位置交互特征模塊。
本文方法為RGB圖+光流圖+個體注意力行為特征模塊+交互式空間位置關系特征模塊+GCN。
本文設計上述Baseline在群體活動數據集上進行了詳細的消融研究,以了解所提出的模型組件對群組活動關系建模的貢獻,評估群體活動識別精度。
在基線對比實驗中,使用以下兩個指標:1)多類別準確率(MCA),即正確預測的百分比;2)每類平均準確率(MPCA),即每個類別預測的平均準確率。
實驗結果如表3,可以得出以下結論:對比Baseline1、Baseline2、Baseline3、Baseline4可以發(fā)現(xiàn),Baseline2相對于Baseline1的MCA沒有太多提升,GCN提取交互式特征的基礎取決于更高層次和更細微的個體時空行為特征;Baseline3增加的分塊注意力模塊可以提取更加細微的個體時空特征,因此比Baseline2的MCA高1.96個百分點;Baseline4增加了空間位置信息和交互式距離信息,在CAD數據集中具有明顯的效果,同時交互式空間位置關系特征模塊有助于GCN學習到更深層次的交互式特征。同時從交互式空間位置與個體時空信息學習到的特征存在差異性,交互式空間位置模塊可以比較有效地識別橫穿(Crossing)和等待(Waiting)兩種活動。最后本文方法的多類別MCA和MPCA要比Baseline都高,表明融合兩個模塊特征有助于提升群組行為識別的準確率。
表3 本文方法與基線方法在CAD數據集上的準確率對比 單位:%
在CAE數據集做消融實驗得到結果如表4所示,對比Baseline2和Baseline3結果表明增加個體注意力行為模塊可以提升2.1個百分點的準確率,本文方法與Baseline3對比表明空間位置交互模塊可以顯著提升最終群組活動識別效果。
表4 本文方法與基線方法在CAE數據集上的準確率對比 單位:%
圖4為不同方法在訓練過程中的損失函數變化曲線,僅有圖片特征的基線方法(Baseline1、Baseline2、Baseline3)初始的損失值較小,并且容易發(fā)生過擬合且學習不到更多有用的特征;而加入空間位置交互特征模塊(Baseline4)明顯增加了損失初值;同時本文方法與Baseline4相比收斂曲線更加平緩。最后結合表3、4結果,本文方法能有效提取行為和群組關系特征。
由圖5的混淆矩陣分析可知,排隊(Queuing)和交談(Talking)行為識別準確率達到100%,跳舞(Dancing)和慢跑(Jogging)行為識別的準確率達到98%。并結合圖6,表明本文方法在識別這幾類交互特征明顯的行為時具有一定的優(yōu)勢。混淆矩陣結果中靜態(tài)等待(Waiting)行為容易被識別成動態(tài)的移動行為,表明可以進一步設計運動特征提取模塊從而提升動靜態(tài)行為識別的準確度。圖5(a)中顯示橫穿(Crossing)行為識別率最低,容易被識別成行走(Walking)行為,由于這兩種行為主要區(qū)別為背景是否為街道,導致兩種行為識別過程存在一定的誤判。
圖6展示了本文群組識別方法分別在兩個數據集上的部分結果。數據集中排隊(Queuing)、交談(Talking)、跳舞(Dancing)等行為具有明顯的群組結構以及交互關系,但是等待(Waiting)、行走(Walking)和穿行(Crossing)行為多發(fā)生在公園或街道,在場景中具有一定隨機性,如圖6中等待(Waiting)行為的人周圍會有少數行走的人經過。結合群組行為識別結果展示和圖5的混淆矩陣,表明本文方法能高效識別交互特征明顯的行為,同時在較為復雜的場景下也能達到較好的識別準確率。
圖4 不同方法在兩個階段的損失函數演化曲線
圖5 CAD和CAE數據集的混淆矩陣
圖6 本文方法的群組行為識別結果
本文針對淺層個體和關系特征不能有效識別群組活動的問題,首先以個體間的時空精細化特征和空間交互關系為基礎,然后將兩種精細化特征加入圖卷積網絡中做推理,最后構建了群體活動的語義關系模型。綜合消融實驗表明,該方法能夠學習群體活動的關系信息,并且能夠非常有效地理解公共空間場景中高層次語義活動,對于復雜場景交互活動也能得到比較好的效果。未來,將融合全局特征并且探索減少特征干擾的方式,并改進交互式推理方式作為后續(xù)研究的提升方向。
[1] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4489-4497.
[2] WANG L M, LI W, LI W, et al. Appearance-and-relation networks for video classification[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1430-1439.
[3] IBRAHIM M S, MURALIDHARAN S, DENG Z W, et al. A hierarchical deep temporal model for group activity recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1971-1980.
[4] CHOI W, SHAHID K, SAVARESE S. What are they doing?: collective activity classification using spatio-temporal relationship among people[C]// Proceedings of the IEEE 12th International Conference on Computer Vision Workshops. Piscataway: IEEE, 2009: 1282-1289.
[5] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: end-to-end multi-person action localization and collective activity recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 3425-3434.
[6] WU J C, WANG L M, WANG L, et al. Learning actor relation graphs for group activity recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 9956-9966.
[7] YAN R, TANG J H, SHU X B, et al. Participation-contributed temporal dynamic model for group activity recognition[C]// Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 1292-1300.
[8] 楊興明,范樓苗. 基于區(qū)域特征融合網絡的群組行為識別[J]. 模式識別與人工智能, 2019, 32(12): 1116-1121.(YANG X M, FAN L M. Group activity recognition based on regional feature fusion network[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(12): 1116-1121.)
[9] 龔玉婷. 基于注意力機制與深度學習網絡的群組行為識別方法研究[D]. 青島:青島科技大學, 2019:28-29.(GONG Y T. Group activity recognition algorithm research based on attention mechanism and deep learning network[D]. Qingdao: Qingdao University of Science and Technology, 2019:28-29.)
[10] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2818-2826.
[11] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[12] LU L H, DI H J, LU Y, et al. Spatio-temporal attention mechanisms based model for collective activity recognition[J]. Signal Processing: Image Communication, 2019, 74: 162-174.
[13] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22) [2020-11-16].https://arxiv.org/pdf/1609.02907.pdf.
[14] QI M S, QIN J, LI A N, et al. StagNet: an attentive semantic RNN for group activity recognition[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11214. Cham: Springer, 2018: 104-120.
[15] CHOI W, SHAHID K, SAVARESE S. Learning context for collective activity recognition[C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 3273-3280.
[16] LI X, CHUAH M C. SBGAR: semantics based group activity recognition[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2895-2904.
[17] SHU T M, TODOROVIC S, ZHU S C. CERN: confidence-energy recurrent network for group activity recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4255-4263.
[18] XU D Z, FU H, WU L F, et al. Group activity recognition by using effective multiple modality relation representation with temporal-spatial attention[J]. IEEE Access, 2020, 8: 65689-65698.
[19] HU G Y, CUI B, HE Y, et al. Progressive relation learning for group activity recognition[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 977-986.
[20] DENG Z W, VAHDAT A, HU H X, et al. Structure inference machines: recurrent neural networks for analyzing relations in group activity recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4772-4781.
[21] LI W B, CHANG M C, LYU S W. Who did what at where and when: simultaneous multi-person tracking and activity recognition[EB/OL]. (2018-07-03) [2020-10-09].https://arxiv.org/pdf/1807.01253.pdf.
LIU Bo, born in 1997, M. S. candidate. His research interests include computer vision.
QING Linbo, born in 1982, Ph. D., associate professor. His research interests include multimedia communication, information system, artificial intelligence, computer vision.
WANG Zhengyong, born in 1969, Ph. D., associate professor. Her research interests include image processing, pattern recognition, computer vision, intelligent system.
LIU Mei, born in 1996, M. S. Her research interests include computer vision.
JIANG Xue, born in 1998, M. S. candidate. Her research interests include computer vision.
Group activity recognition based on partitioned attention mechanism and interactive position relationship
LIU Bo, QING Linbo, WANG Zhengyong*, LIU Mei, JIANG Xue
(,,610065,)
Group activity recognition is a challenging task in complex scenes, which involves the interaction and the relative spatial position relationship of a group of people in the scene. The current group activity recognition methods either lack the fine design or do not take full advantage of interactive features among individuals. Therefore, a network framework based on partitioned attention mechanism and interactive position relationship was proposed, which further considered individual limbs semantic features and explored the relationship between interaction feature similarity and behavior consistency among individuals. Firstly, the original video sequences and optical flow image sequences were used as the input of the network, and a partitioned attention feature module was introduced to refine the limb motion features of individuals. Secondly, the spatial position and interactive distance were taken as individual interaction features. Finally, the individual motion features and spatial position relation features were fused as the features of the group scene undirected graph nodes, and Graph Convolutional Network (GCN) was adopted to further capture the activity interaction in the global scene, thereby recognizing the group activity. Experimental results show that this framework achieves 92.8% and 97.7% recognition accuracy on two group activity recognition datasets (CAD (Collective Activity Dataset) and CAE (Collective Activity Extended Dataset)). Compared with Actor Relationship Graph (ARG) and Confidence Energy Recurrent Network (CERN) on CAD dataset, this framework has the recognition accuracy improved by 1.8 percentage points and 5.6 percentage points respectively. At the same time, the results of ablation experiment show that the proposed algorithm achieves better recognition performance.
group activity recognition; attention mechanism; interactive relationship; video understanding; Graph Convolutional Network (GCN)
This work is partially supported by National Natural Science Foundation of China (61871278).
TP391.4
A
1001-9081(2022)07-2052-06
10.11772/j.issn.1001-9081.2021060904
2021?06?03;
2021?09?11;
2021?09?24。
國家自然科學基金資助項目(61871278)。
劉博(1997—),男,河南許昌人,碩士研究生,CCF會員,主要研究方向:計算機視覺; 卿粼波(1982—),男,四川成都人,副教授,博士生導師,博士,主要研究方向:多媒體通信、信息系統(tǒng)、人工智能、計算機視覺; 王正勇(1969—),女,四川成都人,副教授,博士,主要研究方向:圖像處理、模式識別、計算機視覺、智能系統(tǒng); 劉美(1996—),女,江西撫州人,碩士,主要研究方向:計算機視覺; 姜雪(1998—),女,山東日照人,碩士研究生,主要研究方向:計算機視覺。