基于改進深度學(xué)習(xí)方法的人體動作識別綜述

2022-01-01 00:00:00朱相華智敏

計算機應(yīng)用研究 2022年2期

摘要： "為了梳理深度學(xué)習(xí)方法在人體動作識別領(lǐng)域的發(fā)展脈絡(luò)，對該領(lǐng)域近年來最具代表性的模型和算法進行了綜述。以人體動作識別任務(wù)流程為線索，詳細闡述了深度學(xué)習(xí)方法在視頻預(yù)處理階段、網(wǎng)絡(luò)結(jié)構(gòu)上的最新成果及其優(yōu)缺點。介紹了人體動作識別相關(guān)的兩類數(shù)據(jù)集，并選取常用的幾種進行具體說明。最后，對人體動作識別未來的研究方向進行了探討與展望。

關(guān)鍵詞： "人體動作識別；深度學(xué)習(xí)；視頻預(yù)處理；網(wǎng)絡(luò)結(jié)構(gòu)；數(shù)據(jù)集

中圖分類號： "TP391.41 """文獻標(biāo)志碼： A

文章編號： "1001-3695（2022）02-003-0342-07

doi：10.19734/j.issn.1001-3695.2021.07.0296

Review of human action recognition based on improved deep learning methods

Zhu Xianghua， Zhi Min

（College of Computer Science amp; Technology， Inner Mongolia Normal University， Hohhot 010022， China）

Abstract： "In order to sort out the development of deep learning methods in the field of human action recognition， this paper summarized the most representative models and algorithms in this field in recent years. Firstly， it described in detail the latest achievements， advantages and disadvantages and network structure of deep learning methods in video pre-processing stage based on the task flow of human action recognition. Then， it introduced two kinds of datasets related to human action recognition. Finally， it discussed and prospected the future research direction of human action recognition.

Key words： "human action recognition; deep learning; video pre-processing; network structure; datasets

人體動作識別一直以來都是計算機視覺領(lǐng)域的熱門課題之一，隨著視頻網(wǎng)絡(luò)信息量的急劇增加，如基于人體關(guān)節(jié)點［1，2］、基于時空興趣點［3，4］和基于密集軌跡［5］等傳統(tǒng)的機器學(xué)習(xí)方法已經(jīng)不能滿足日益增長的應(yīng)用需求，因此動作識別的重心轉(zhuǎn)向基于視頻數(shù)據(jù)的深度學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）［6］已經(jīng)在圖像分類研究中取得優(yōu)良的成果，為視頻分類任務(wù)提供了大量的信息。然而，相對于圖像而言，視頻還存在時間維度問題，如何捕獲到視頻相鄰幀之間的時間維度則是研究重點，其難點主要在于：

a）場景信息的復(fù)雜性。場景信息復(fù)雜性主要是影響動作識別的準(zhǔn)確性，在不同角度、不同光照和不同視角下，場景所呈現(xiàn)的信息往往不同，相同的人體動作通常也會產(chǎn)生較為明顯的差異；此外，對于人體活動尺度較大、不同人的外型和人體自遮掩、部分物體遮掩等問題也都是人體動作識別中場景信息復(fù)雜性的體現(xiàn)，對動作識別準(zhǔn)確性方面有很大影響。

b）動作邊界的不確定性。對于一段未剪輯過的視頻來說，其中可以包括多個動作，并且每個動作的延續(xù)時間長短不同、速度變化快，不能在時間上對動作邊界進行準(zhǔn)確的定位，也不能在時域和時序范圍內(nèi)對人體動作進行更加精細的分析。然而，模糊的動作邊界在很大程度上會減弱動作識別的準(zhǔn)確度，并且對動作識別的高效性也有很大影響。

本文將對改進深度學(xué)習(xí)方法的人體動作識別展開綜述。

1 改進深度學(xué)習(xí)方法的人體動作識別

受益于大規(guī)模數(shù)據(jù)集和更強大的模型的提出，改進深度學(xué)習(xí)方法的人體動作研究已經(jīng)成為識別主流。如圖1所示，人體動作識別的方法大多是通過模型架構(gòu)自動地學(xué)習(xí)視頻中的人體行為表征來完成分類。目前，改進深度學(xué)習(xí)方法可以分為視頻預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)兩方面。

1.1 視頻預(yù)處理

視頻預(yù)處理的目的是從視頻的底層數(shù)據(jù)中選取部分特征信息進行動作識別。受視頻質(zhì)量和場景信息復(fù)雜的影響，特征提取的方法往往也不相同，光流特征、骨骼特征、時空特征是目前人體動作識別中最常用的方法。

1.1.1 光流特征

光流特征是人體動作識別中的重要特征，它是通過視頻序列中的像素點隨時間變化而產(chǎn)生的軌跡特征。Horn和Schunck在1981年首次提出光流的計算，將二維速度場與灰度場相結(jié)合進行計算。隨著卷積神經(jīng)網(wǎng)絡(luò)的提出，光流特征的有效提取也逐漸得以改進。文獻［7］在FlowNet［8］的基礎(chǔ)上引入了翹曲操作，提出了FlowNet2，使用翹曲操作堆疊多個網(wǎng)絡(luò)可以顯著改善結(jié)果，F(xiàn)lowNet2延伸到了全分辨率，這不僅產(chǎn)生了明確的運動邊界，而且在小位移和大位移上都表現(xiàn)得很好。文獻［9］將雙通道光流場轉(zhuǎn)換為與RGB圖像維數(shù)一致的三通道形式，在訓(xùn)練過程中使用在RGB圖像數(shù)據(jù)集上預(yù)先訓(xùn)練好的模型對網(wǎng)絡(luò)進行初始化。其中，光流圖的兩個通道不是RGB圖像的顏色通道，而是兩個速度的矢量通道，目的是將光流信息轉(zhuǎn)換為三通道光流圖像，以提取更有價值的動作特征。文獻［10］將每個連續(xù)的幀饋入PWCNet中計算光流特征，PWCNet結(jié)構(gòu)由翹曲層、成本體積層、光流估計器等六個特征金字塔組成。在每個金字塔層級，使用雙線性插值在相鄰幀之間進行翹曲操作，來處理兩幀間運動差異較大的影響。成本體積層計算第一幀對應(yīng)的像素和第二幀的翹曲特征之間的相關(guān)性，得到更具區(qū)別性的光流表示；然后利用光流估計器生成金字塔級別的光流特征并進行處理得到更精細的特征。

從表1的識別準(zhǔn)確率來看，改進后的方法在公共基準(zhǔn)數(shù)據(jù)集上可以高效地模擬出視頻中的動作信息，但在提取光流特征時存在計算量大、消耗時間長等問題，所以對于實時性苛刻的情況應(yīng)避免采用，這也將是未來研究者進一步改進的突破點。

1.1.2 骨骼特征

骨骼特征是人體動作識別中特征提取的類型之一，因為人體3D骨骼中含有關(guān)節(jié)的位置信息，并且大多數(shù)研究也是基于3D骨骼數(shù)據(jù)來說明不同的人體動作，分析每個關(guān)節(jié)之間的關(guān)系、挖掘出具有典型的一組關(guān)節(jié)特征來完成動作識別。隨著圖卷積神經(jīng)網(wǎng)絡(luò)的提出，改進提取骨骼特征的方法成為了炙手可熱的研究熱點。文獻［11］將完整的人體骨架圖分成四個部分，并且節(jié)點之間是共享的，使用基于零件的GCN學(xué)習(xí)識別模型，結(jié)果表明，與使用全骨架圖的模型相比，不使用3D關(guān)節(jié)坐標(biāo)作為節(jié)點特征而使用相對坐標(biāo)和時間位移能夠提高識別性能。文獻［12］利用注意力增強圖卷積LSTM（AGC-LSTM）網(wǎng)絡(luò)，不但在空間和時間上獲取具有判斷力的特征，而且也能探索兩者之間的共同關(guān)系。為了更好地適應(yīng)動作識別任務(wù)，文獻［13］將骨架數(shù)據(jù)設(shè)計為有向圖神經(jīng)網(wǎng)絡(luò)（DAG）以提取關(guān)節(jié)、骨骼和兩者關(guān)系的線索，并對已獲得的特征信息進行評估預(yù)測，還將其運動信息、空間信息聯(lián)合以提高雙流框架中的性能。文獻［14］提出多尺度聚集方案，消除了不同鄰域節(jié)點特征之間的冗余依賴，使得強大的多尺度聚集器能夠有效地捕捉人類骨骼上的圖形范圍的關(guān)節(jié)關(guān)系，并且將多尺度聚集方案與時空圖卷積G3D相結(jié)合，提供了一個功能強大的特征提取器（MS-G3D），該特征提取器具有跨空間和時間維度的多尺度感受場，使多尺度聚合進一步提高了模型的性能。文獻［15］提出了一種基于時間和信道注意的偽圖卷積網(wǎng)絡(luò)（PGCN-TCA），用可學(xué)習(xí)矩陣代替固定的歸一化鄰接矩陣，通過這種方式，矩陣可以學(xué)習(xí)連接關(guān)節(jié)和非物理連接關(guān)節(jié)之間的依賴關(guān)系；同時，不同層次的可學(xué)習(xí)矩陣可以幫助網(wǎng)絡(luò)獲取空間域的多層次特征。

從表2的識別準(zhǔn)確率來看，改進后的方法在公共基準(zhǔn)數(shù)據(jù)集上得到了先進的結(jié)果。但是基于目前的研究，大多數(shù)方法還存在普適性差、局限于淺層、無法處理有向圖等問題，這也將是研究者下一步的工作重點。

1.1.3 時空特征

在視頻理解領(lǐng)域，為了保留時序信息，需要同時學(xué)習(xí)時間特征和空間特征，從而獲得相鄰幀中的運動信息再進行特征聚合，使得到的特征信息更清晰、更有效。隨著特征提取方法的日益改進，提取具有價值的時空特征也有了顯著進步。

為了共同學(xué)習(xí)時變信息和多模態(tài)特征，文獻［16］提出深度雙線性學(xué)習(xí)框架，此框架中包括了由兩個線性池化層組成的雙線性塊，用于分別從模態(tài)和時間方向上合并輸入立方體特征，從而得到更具價值的動作信息。文獻［17］將特征圖分為空間組和通道組，并且在每個殘差塊中設(shè)計一個雙路徑模塊，使用其中一條路徑來建?？臻g信息，另一條路徑來探索時間信息;然后對時空特征通過并行的方式進行拼接，可以更有效地利用特征。這種時空特征的提取方法不僅減少了參數(shù)，而且便于網(wǎng)絡(luò)在單層中分別學(xué)習(xí)不同的方面（即靜態(tài)和動態(tài)信息）和時間多尺度特征。文獻［18］利用稀疏采樣方法進行特征融合，將得到的視頻RGB圖與光流圖送到VGG16中提取時空特征；再利用時空CNN提取中層特征，并將其送入到C3D CNN中進行分類。文獻［19］使用COTS路由器開發(fā)了一個精確的無設(shè)備動作識別系統(tǒng)，并提出了一種新的深度學(xué)習(xí)框架來挖掘信道狀態(tài)信息（CSI）中的時空線索。具體來說，它將整個動作樣本分割成一系列連貫的子活動片段，然后從原始CSI片段和CSI幀之間的運動中捕獲外觀上的互補特征，進而捕獲到在視頻流中的運動線索。文獻［20］通過自適應(yīng)地重新校準(zhǔn)通道性特征來有效地學(xué)習(xí)人類行為的區(qū)別性特征，采用雙流結(jié)構(gòu)能夠有效地提取時空特征信息，通過使用注意力單元CAU模塊對通道間的關(guān)系進行模型化處理以進一步生成權(quán)重分布，從而有選擇地增強動作特征信息。

從表3所示的識別準(zhǔn)確率來看，現(xiàn)有的改進時空特征提取方法主要以不受約束的方式聯(lián)合學(xué)習(xí)，在公共基準(zhǔn)數(shù)據(jù)集上達到了很好的性能。但是目前的方法普遍引入了大量的參數(shù)，導(dǎo)致了計算負擔(dān)的增加，所以找到既可以降低參數(shù)又能得到較高準(zhǔn)確率的方法是未來研究者主要改進的方向。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

根據(jù)主干網(wǎng)絡(luò)的特點而言，基于傳統(tǒng)的深度學(xué)習(xí)方法的人體動作識別網(wǎng)絡(luò)已經(jīng)不再適用于強大的模型，因此研究人員開始在其基礎(chǔ)上進行改進，并取得了顯著的成效。下面將從2D CNN、3D CNN和上下文推理網(wǎng)絡(luò)的改進進行說明。

1.2.1 "2D CNN改進

隨著人體動作識別研究的不斷發(fā)展，基于2D CNN也經(jīng)歷了兩個發(fā)展歷程：第一個歷程是在傳統(tǒng)2D CNN的基礎(chǔ)上展開具體的研究；第二個歷程是構(gòu)建時間序列，根據(jù)時間上下文來提取動作信息。針對第一個發(fā)展歷程，其中的一個方法是構(gòu)建單流的2D CNN，主要思想是將視頻序列分割成幀，連續(xù)使用大量的卷積層和采樣層，將龐大的信息量圖像逐漸降維以獲得動作信息。但是傳統(tǒng)的單流結(jié)構(gòu)無法在堆疊的局部區(qū)域內(nèi)實現(xiàn)空間旋轉(zhuǎn)的不變性，并且池化層在特征提取時只能獲得局部信息，會丟失大量的動作信息。基于單流的2D CNN存在的上述問題使得2D CNN的發(fā)展進入了第二個發(fā)展歷程，即文獻［21］提出的雙流結(jié)構(gòu)，如圖2所示。這個結(jié)構(gòu)包含一個從每一幀中學(xué)習(xí)靜態(tài)特征的空間2D CNN和一個以光流形式為動作信息建模的2D CNN，雙流分開訓(xùn)練，然后取兩個流的均值作為預(yù)測結(jié)果，識別準(zhǔn)確率也得到了顯著提升。但是傳統(tǒng)的雙流網(wǎng)絡(luò)都存在兩個缺點：a）光流只可以模擬相鄰幀之間的運動信息，對時間跨度較大的動作信息存在局限；b）需要對光流進行額外的計算而且存儲消耗較大。

針對缺點a）對于長時間信息無法有效提取等問題，文獻［22］使用長短期記憶網(wǎng)絡(luò)（LSTM）聚合幀級預(yù)測得到視頻級預(yù)測。與傳統(tǒng)的雙流網(wǎng)絡(luò)框架相比，LSTM具有長時記憶功能，解決了在長時間序列訓(xùn)練的過程中出現(xiàn)的梯度消失和梯度爆炸問題，并且實現(xiàn)起來簡單。文獻［23］對初始的ResNet進行改進，增加了卷積層數(shù)使其能夠更深層次地提取特征，通過與原網(wǎng)絡(luò)及其他的模型進行對比實驗，新網(wǎng)絡(luò)的模型性能得到了較高的識別準(zhǔn)確度。文獻［24］提出長期時空特征提?。↙T-NET），通過將濾波器從正方形膨脹到立方體，將2D卷積轉(zhuǎn)換為3D卷積。該研究選擇C3D作為骨干網(wǎng)絡(luò)，其中主要包括8個卷積層和5個池化層，它可以從堆疊的RGB圖像中捕獲長期的時空特征并且具有很強的表示能力。

針對缺點b）計算光流信息消耗大等問題，文獻［25］提出的representation flow是一個卷積神經(jīng)網(wǎng)絡(luò)（CNN）中完全可微的層，能夠端到端地進行動作識別，實驗證明此方法比傳統(tǒng)的光流算法在速度和性能上都有很大提升。文獻［26］提出STM網(wǎng)絡(luò)，將時空和運動特征融合在統(tǒng)一的2D CNN框架中，不需要額外的3D卷積以及提取光流的預(yù)處理工作，其中包括兩個模塊，CSTM（逐通道時空）模塊學(xué)習(xí)到了時空特征，與輸入相比較更注重動作的主體對象部分；CMM（逐通道運動模塊）模塊則能夠像光流一樣捕捉到邊緣的運動信息。文獻［27］提出了運動激發(fā)（ME）模塊，使用ME模塊來代替?zhèn)鹘y(tǒng)的提取手工光流后輸入基于2D CNN的雙流框架來進行動作識別，該模塊不需要將時空特征分流訓(xùn)練，而是將運動建模直接全部整合到時空特征中學(xué)習(xí)。

從表4中對2D CNN改進前后最新研究成果可以看出，改進后的研究方法在公共基準(zhǔn)數(shù)據(jù)集上不僅識別動作的準(zhǔn)確率得到了顯著的提升，同時還解決了傳統(tǒng)雙流網(wǎng)絡(luò)存在的計算量大等缺點，使算法的運行時間得到了大幅度的下降，相對于單流網(wǎng)絡(luò)有更強的推廣性。

1.2.2 "3D CNN改進

在人體動作識別中，視頻中包含的信息往往都是三維的，傳統(tǒng)的2D CNN已經(jīng)不能達到理想的效果。采用3D CNN對時空信息進行建模，為動作識別提供了非常有效的方式。

基于3D CNN方法最早是由文獻［28］提出的，通過將多個連續(xù)幀堆疊在一起形成立方體，再運用3D卷積核，在這個結(jié)構(gòu)中，卷積層中的每一個時空特征圖都會與上一層中多個相鄰的連續(xù)幀相連，進而提取相鄰幀之間的信息以獲得時空特征。文獻［29］在此基礎(chǔ)上進行改進，提出了C3D，在相鄰幀上使用3D卷積將時空特征以統(tǒng)一的方式建模，網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，其中包括8個卷積層、5個池化層、2個全連接層和1個softmax分類函數(shù)。與傳統(tǒng)的3D CNN相比，C3D更具有普遍性，適用于各種場景而且短小緊湊易于計算。雖然3D CNN可以有效地提取動作特征，但是存在如下缺點：a）大量的卷積操作產(chǎn)生了較多的參數(shù)，增加了時空復(fù)雜度，導(dǎo)致計算的負擔(dān)；b）時間信息和空間信息不易區(qū)分，容易出現(xiàn)過擬合的風(fēng)險。對于上述兩種缺點，本文歸納了兩種改進方案：a）是在2D CNN的基礎(chǔ)上進行深度架構(gòu)的研究；b）對現(xiàn)有的3D CNN模型進行改進，通過精簡、壓縮模型的方式減少復(fù)雜度和計算量。

針對方案a），文獻［30］對于2D CNN中只能對單幀圖像進行特征提取和無法建模長時間運動信息等問題提出了利用3D CNN建模，使其充分捕捉到視頻幀之間的時空信息，并得到了較好的性能。文獻［31］利用2D CNN提出I3D，將2D CNN膨脹為3D CNN卷積，就是將深度圖像分類的濾波器和池化核擴展為3D，使得從視頻信息中直接提取時空特征變成了可能，同時也利用成功的ImageNet架構(gòu)精確地設(shè)計其參數(shù)，并獲得了極好的性能。文獻［32］在3D CNN模型架構(gòu)的基礎(chǔ)上引入輕量級多尺度卷積模塊，首先，輕量級多尺度卷積模塊將中間的特征圖切割成若干個部分，再經(jīng)過3D CNN進行融合，進而得到多尺度特征并賦予通道間不同的權(quán)重值，最后利用softmax分類。文獻［17］提出了協(xié)作時空（CoST）特征網(wǎng)絡(luò)結(jié)構(gòu)，它不僅是基于3D CNN的，而且可以共享權(quán)重來學(xué)習(xí)時空特征信息。除此之外，CoST保留了原始C2D和 C3D各自的優(yōu)勢，即緊湊性和表現(xiàn)能力，大大提升了模型性能。文獻［33］提出了X3D，網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，沿著多個網(wǎng)絡(luò)軸分別在空間、時間、寬度和深度四個方面上逐一展開，形成較小的2D圖像分類體系結(jié)構(gòu)。為了將X3D擴展到特定的目標(biāo)復(fù)雜性，采取漸進式的方法先向前擴張，再向后收縮，X3D在具有高時空分辨率的網(wǎng)絡(luò)中可以執(zhí)行得很好，同時需要更少的乘法和參數(shù)，實現(xiàn)了先進的性能。

針對方案b），文獻［34］將特征圖分解為空間組和信道組，并在每個殘差塊中設(shè)計了一個雙路徑模塊，使用一條路徑來建模空間信息，另一條路徑來探索時間信息，然后對時空特征進行拼接。與P3D網(wǎng)絡(luò)［35］中使用的級聯(lián)分解不同，該研究方法是以并行方式實現(xiàn)的，可以更有效地利用特征。這種時空分解不僅減少了參數(shù)，而且便于網(wǎng)絡(luò)在單層中分別學(xué)習(xí)不同的方面（即靜態(tài)和動態(tài)信息）和時間多尺度特征。文獻［36］提出了三維動態(tài)體素（3DV），3DV的核心思想是通過時間序池將深度視頻中的3D運動信息緊湊地編碼成規(guī)則的體素集，每個可用的3DV體素本質(zhì)上都涉及到3D空間特征和運動特征，然后將每個3DV體素抽象為由其3D位置索引和運動值表征的點并輸入到PointNet+ +中，以端到端的學(xué)習(xí)方式進行3D動作識別，由于PointNet+ +是輕量級的，不僅可以減少參數(shù)，還可以減輕訓(xùn)練的難度和負擔(dān)。文獻［37］通過GateShift模塊（GSM）將空間門技術(shù)引入到3D核時空分解中，其中GSM是輕量級的，它將2D CNN變成了一個高效的時空特征提取器。GSM首先應(yīng)用2D卷積，然后將空間門分解成門控和殘差兩個張量，門控張量通過1D時間卷積，而殘差跳躍連接到其輸出。在網(wǎng)絡(luò)中插入GSM后，2D CNN可以通過自適應(yīng)的特性將它們組合在一起，并且不增加額外參數(shù)和計算開銷，在公共基準(zhǔn)數(shù)據(jù)集上也達到了最先進的結(jié)果。

從表5中對3D CNN改進前后的最新研究成果可以看出，改進后的3D CNN在公共基準(zhǔn)數(shù)據(jù)集上得到了較高的動作識別準(zhǔn)確率。同時，由于3D CNN通過共享卷積核進而產(chǎn)生了多張連續(xù)幀，這些幀還含有時間信息，大大降低了算法的參數(shù)量，進而加快了算法的運行速度。但是3D CNN捕獲的是短時間序列，所以在未來應(yīng)該積極探索捕獲長時間序列的方法，例如在自然語言處理領(lǐng)域火熱的Transformer架構(gòu)。

1.2.3 上下文推理網(wǎng)絡(luò)改進

從視覺世界更深層次的探析，機器不僅需要自動地識別出單一物體的種類，還要檢測出它們之間的相互關(guān)系。然而人類往往在兩者之間位于中心位置，如何確定人與物體之間的關(guān)系則是一個至關(guān)重要的研究問題。于是，研究者提出上下文推理網(wǎng)絡(luò)，在不同物體之間及整個場景之間迭代地傳播信息，有效地提取了全局上下文信息，其主要研究方法為長短期記憶網(wǎng)絡(luò)（LSTM）［38］和圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）［39］。

1）長短期記憶網(wǎng)絡(luò)

傳統(tǒng)的LSTM是引入細胞狀態(tài)專門進行線性的循環(huán)消息傳遞，并且引入門機制作為控制信息傳遞的路徑。雖然在處理順序數(shù)據(jù)方面有很強的能力，但是對人體動作識別缺乏很強的注意能力。其原因是LSTM在感知視頻序列的全局信息方面存在限制，使得在LSTM的每個演變過程中可以使用的都是局部上下文信息。

針對傳統(tǒng)LSTM的缺點，文獻［40］改進了LSTM網(wǎng)絡(luò)，提出了全局上下文感知注意力LSTM。在此網(wǎng)絡(luò)中，全局上下文信息被輸送到各個階段，因此可以利用它來評估在每個步驟中新輸入的信息性分數(shù)，并相應(yīng)地調(diào)整它們的注意力權(quán)重，即：如果新輸入是關(guān)于全局動作的信息，則網(wǎng)絡(luò)導(dǎo)入更多信息；如果它不相關(guān)，則網(wǎng)絡(luò)阻止它輸入。文獻［41］提出了全局上下文的感知注意力LSTM （GCA-LSTM）網(wǎng)絡(luò)，結(jié)構(gòu)如圖5所示，通過全局上下文記憶單元來選擇性地注意各個幀中的信息節(jié)點，并且引入循環(huán)注意力機制從而逐步提高網(wǎng)絡(luò)的性能。文獻［42］在LSTM的基礎(chǔ)上引入Faster R-CNN結(jié)構(gòu)，通過Faster R-CNN劃分為以人為主體的感興趣區(qū)域和以場景信息為輔助區(qū)域的動作信息，然后輸送到LSTM中進行邊框回歸處理并進行動作分類。通過兩者之間的結(jié)合，可以有效地獲得空間特征和時間特征，進而得到更精確的動作分類。

2）圖卷積神經(jīng)網(wǎng)絡(luò)

GCN在基于骨架的人體動作識別研究中獲得了很大的成功。但是圖卷積是局部運算，它不能全面研究對動作識別具有重要意義的非局部關(guān)節(jié)，并且在人體骨骼距離相差較遠的動作中不能確保關(guān)節(jié)能夠很好地融合。

針對圖卷積在人體動作識別中存在的缺點，文獻［43］提出了上下文感知圖卷積網(wǎng)絡(luò)（CA-GCN），網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。它不僅計算了局部圖卷積，而且通過整合所有其他頂點的信息來為每個頂點考慮一個上下文項。因此，關(guān)節(jié)之間的長時間建模自然地集中在上下文信息，進而可以消除堆疊多層存儲的需要，并大大地縮減了網(wǎng)絡(luò)。此外，研究者又進行了改進，利用非對稱相關(guān)性度量和高層表示來計算上下文信息，以獲得更大的靈活性和更好的性能。文獻［44］提出了動態(tài)GCN，引入了上下文編碼網(wǎng)絡(luò)（CeN），通過全局的方式來學(xué)習(xí)上下文的動態(tài)骨架拓撲。特別地，當(dāng)學(xué)習(xí)兩個關(guān)節(jié)之間的依賴性時，來自其余關(guān)節(jié)的上下文特征以全局方式結(jié)合。通過堆疊多個CeN到圖形卷積層中構(gòu)建了動態(tài)GCN，在三個具有挑戰(zhàn)性的數(shù)據(jù)集上實現(xiàn)了最先進的性能。

從表6對改進上下文推理網(wǎng)絡(luò)中LSTM和GCN的最新研究成果可以看出，改進后的LSTM和GCN通過加入人體區(qū)域和場景區(qū)域的線索提高了相似動作的識別準(zhǔn)確率;但是該方法需要識別人體位置，并且判斷人與物體的關(guān)系，使得與其他直接對人體動作識別的方法增加了大量的時間消耗。所以，降低計算量的復(fù)雜度和計算時間的消耗將是研究者的主要工作。

2 相關(guān)數(shù)據(jù)集

在人體動作識別研究領(lǐng)域，基于視頻預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)的改進方法越來越多，但是不同的網(wǎng)絡(luò)框架也需要一個共同的數(shù)據(jù)集來衡量性能的優(yōu)劣。人體動作識別的相關(guān)數(shù)據(jù)集主要分為如表7所示的以場景為主的數(shù)據(jù)集和如表8所示的以時間為主的數(shù)據(jù)集。

2.1 以場景為主的數(shù)據(jù)集

場景信息對確定視頻中的動作標(biāo)簽具有很大作用，以場景為主的數(shù)據(jù)集包含較多與動作識別有關(guān)的場景信息，因此依靠單幀去建模空間特征就可以完成識別任務(wù)。以下主要介紹在人體動作識別中幾種以場景為主的數(shù)據(jù)集：

a）Kinetics。Kinetics數(shù)據(jù)集是具有400個種類的大范圍人體動作識別視頻數(shù)據(jù)集，包含用于訓(xùn)練的236 763個剪輯和用于驗證的19 095個剪輯。這些視頻片段源自于YouTube視頻，種類龐雜，僅提供沒有骨架數(shù)據(jù)的原始視頻剪輯。文獻［59］在此基礎(chǔ)上進行改進，主要使用OpenPose工具箱來剪輯每個幀上的18個關(guān)節(jié)位置，根據(jù)平均聯(lián)合置信度選擇兩個人進行多人視頻剪輯，并將其命名為Kinetics-Skeleton。

b）HMDB-51。HMDB-51共有51種動作類別，且每一類別至少包括了101個片段，共有6 766個視頻片段，每個片段都由至少兩名人類觀察者驗證以確保一致性。額外的元信息允許對測試數(shù)據(jù)的精確選擇以及識別系統(tǒng)的培訓(xùn)和評估。每個片段的元標(biāo)簽包括攝像機視角、攝像機運動的存在或不存在、視頻質(zhì)量和參與動作的演員數(shù)量，這使設(shè)計更靈活的實驗變?yōu)榭赡?，以評估計算機視覺系統(tǒng)的性能，使用選定的數(shù)據(jù)庫子集。

c）UCF101。UCF Sports、UCF11、UCF50和UCF101是UCF按時間順序編譯的四個動作數(shù)據(jù)集，每一個都包括它的前體。UCF101是對UCF50數(shù)據(jù)集進行了兩個小的改進：所有動作的組數(shù)固定為25個，每組最多包含7個剪輯。UCF101作為動作識別中最具挑戰(zhàn)性的數(shù)據(jù)集，是一個相對較小的數(shù)據(jù)集，總共包含101個類別和13 320個剪輯。UCF101是從YouTube下載的不受限制的視頻組成的，因此具有光照差、背景混亂和嚴(yán)重的攝像機抖動等缺點。

2.2 以時間為主的數(shù)據(jù)集

對于以時間為主的數(shù)據(jù)集，對象的時間運動交互是了解動作的關(guān)鍵，如果不考慮時間關(guān)系，就無法識別大多數(shù)動作。以下主要介紹在人體動作識別中幾種常用的以時間為主的數(shù)據(jù)集：

a）Something-Something。Something-Something v1是由大量標(biāo)簽的視頻剪輯組成的，展示了人類與日常對象之間進行的基本交互。該數(shù)據(jù)集包含174個類別、108 499個視頻;Something-Something v2是v1的改進版本，具有更多視頻（總計220 847個），并大大降低了標(biāo)簽噪聲。為了展示組合動作識別的思想，Materzynska等人［60］在Something-Something v2數(shù)據(jù)集的基礎(chǔ)上進行改進，創(chuàng)建了新的注釋和拆分，并將新拆分上的動作識別命名為Something-else數(shù)據(jù)集。

b）Diving。Diving48數(shù)據(jù)集包含用于48個潛水課程的超過18 000個視頻剪輯，用四種屬性組合定義了48種潛水類別：起飛、翻筋斗、扭轉(zhuǎn)和跳水姿勢，分別有4、8、8和4個不同類別。由此可見，跳水運動員表演的動作相當(dāng)復(fù)雜，并且隨著運動時間的變化而變化，這使得捕捉細粒度的表現(xiàn)是必要的，以便捕捉那些微妙的移動以及長期的動態(tài)。與其他基準(zhǔn)數(shù)據(jù)集相比，該數(shù)據(jù)集也在最大程度上減少對靜態(tài)框架的偏見，并促進對動作識別動力學(xué)的研究。

3 未來的研究方向

隨著深度學(xué)習(xí)方法在人工智能的廣泛應(yīng)用，人體動作識別的數(shù)據(jù)集急劇膨脹轉(zhuǎn)向大型數(shù)據(jù)集，從對網(wǎng)絡(luò)淺層的探索轉(zhuǎn)向更深層次的探究?；谝曨l的人體動作識別已經(jīng)取得了較大的進展，但是在人體動作識別研究方法中還有很多值得未來研究者繼續(xù)探索的方向。

1）細粒度動作識別 2020—2021年，在計算機視覺的頂級會議CVPR、ICCV、ECCV中，Stanford Cars、Epic-Kitchens、Stanford Cars、Jester等細粒度動作識別的數(shù)據(jù)集得到了廣泛的使用，這充分表明了人體動作識別也即將從粗粒度轉(zhuǎn)向細粒度，所謂細粒度就是側(cè)重于區(qū)分基本類別中細微的視覺差異。盡管用于一般圖像識別的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)越來越實用，但基于視頻的細粒度動作識別仍然是一項具有挑戰(zhàn)性的任務(wù)，因為動作識別更加注重運動本身和時間的上下文信息，而且要求模型能夠區(qū)分動作之間存在的微小差距，傳統(tǒng)的CNN無法很好地代表。因此在未來，細粒度動作識別的大部分工作都將集中在為這些微妙而有區(qū)別的細節(jié)學(xué)習(xí)更好地表示上。

2）人體動作重識別現(xiàn)有的人體動作重識別方法可以分為基于圖像的［61］和基于視頻的［62］兩類?；趫D像的人體動作重識別是在不考慮時間信息的情況下將一個或多個圖像作為輸入，通常它在很大程度上依賴于與衣服的顏色或質(zhì)地有關(guān)的外觀特征；相反，通過將短視頻剪輯作為輸入，基于視頻的人體動作再識別可以利用更豐富的信息，這可能有利于減輕基于外觀功能的局限性。大多數(shù)基于視頻的方法都采用3DCNN ［63］、RNN/LSTM ［64］或注意力機制［65］進行開發(fā)視頻中的時間關(guān)系，但是這些方法只針對跨不同幀的時間關(guān)系進行建模，忽視了幀內(nèi)或跨幀的人體不同部位之間潛在的隱藏關(guān)系，這些關(guān)系可能包含有關(guān)人體動作重識別的更多判別性和魯棒性信息。盡管近年來視頻中的人體動作重識別取得了很大的進展，但是如何有效地解決視覺相似樣本間的遮掩問題和視覺模糊問題仍然是一個具有挑戰(zhàn)性的問題。

3）小樣本學(xué)習(xí)

深度學(xué)習(xí)在許多多媒體應(yīng)用中都取得了巨大的成功，由于強大的學(xué)習(xí)能力，深度架構(gòu)也已擴展為可處理更復(fù)雜的視頻領(lǐng)域中的任務(wù)，如視頻分類。但是在訓(xùn)練這些模型的過程中需要手動標(biāo)記大量的數(shù)據(jù)，這在現(xiàn)實世界的多媒體應(yīng)用中并不現(xiàn)實。因此，旨在使模型僅用一個或幾個例子就能識別一個新穎的未見概念的小樣本學(xué)習(xí)［66，67］研究引起了越來越多的關(guān)注，并且取得了顯著的進展。例如，文獻［68］提出了小樣本動作識別網(wǎng)絡(luò)，它包括一個編碼器、解碼器和一個注意力機制來模擬短距離和長距離的時間模式，通過結(jié)合自我監(jiān)督的損失和對齊的關(guān)注，使得該模型在小樣本學(xué)習(xí)領(lǐng)域得到較高的識別準(zhǔn)確率。此外，文獻［69］提出了時間對齊模塊，通過時間對齊來顯式地使用視頻序列的時間上下文信息，充分增強了數(shù)據(jù)的利用率。小樣本學(xué)習(xí)在未來還可以從多模態(tài)信息、遷移學(xué)習(xí)等方面進行不斷的深入研究。

4 結(jié)束語

本文基于改進的深度學(xué)習(xí)方法展開了總結(jié)與歸納，從視頻預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)改進兩個方面介紹了人體動作識別的研究進展；分別介紹了以場景為主的數(shù)據(jù)集和以時間為主的數(shù)據(jù)集的特點及應(yīng)用；最后從人體動作識別研究的最新動態(tài)來看，未來可以繼續(xù)從細粒度動作識別、人體動作重識別、小樣本學(xué)習(xí)等方向進行不斷的創(chuàng)新。

參考文獻：

[1] "Jhuang H， Gall J， Zuffi S， "et al . Towards under-standing action re-cognition［C］//Proc of the 14th IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2013：3192-3199.

［2] Yang Xiaodong， Tian Yingli. Effective 3D action recognition using EigenJoints［J］. Journal of Visual Communication and Image Representation ，2014， 25 （1）：2-11.

［3] Dollar P， Rabaud V， Cottrell G W， "et al . Behavior recognition via sparse spatio-temporal features［C］//Proc of the 14th International Conference on Computer Communications and Networks.Washington DC：IEEE Computer Society，2005：65-72.

［4] "Willems G， Tuytelaars T， Van Gool L. An efficient dense and scale-invariant spatio-temporal interest point detector［C］//Proc of the 10th European Conference on Computer Vision.Berlin：Springer，2008：650-663.

［5] Wang Heng， Schmid C. Action recognition with improved trajectories［C］//Proc of IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2013：3551-3558.

［6] Krizhecsky A， Sutskever I， Hinton G. ImageNet classification with deep convolutional neural networks［J］. Communications of the ACM ，2017， 60 （6）：84-90.

［7] Ilg E， Mayer N， Saikia T， "et al . FlowNet 2.0： evolution of optical flow estimation with deep networks［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：2462-2470.

［8] Dosovitskiy A， Fischer P， Ilg E， "et al . FlowNet： learning optical flow with convolutional networks［C］//Proc of IEEE International Confe-rence on Computer Vision. Washington DC：IEEE Computer Society，2015：2758-2766.

［9] Wan Yanqin， Yu Zujun， Wang Yao， "et al . Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features［J］. IEEE Access ，2020， 8 ：85284-85293.

［10] Berlin S J， John M. Spiking neural network based on joint entropy of optical flow features for human action recognition［J/OL］. The Visual Computer .（2020-09-21）.https：//doi.org/10.1007/s00371-020-02012-2.

［11] Thakkar K， Narayanan P J. Part-based graph convolutional network for action recognition［EB/OL］.（2018-09-13）.https：//arxiv.org/pdf/1809.04983.pdf.

［12] "Si Chenyang， Chen Wentao， Wang Wei， "et al . An attention enhanced graph convolutional LSTM network for skeleton-based action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：1227-1236.

［13] Shi Lei， Zhang Yifan， Cheng Jian， "et al . Skeleton-based action re-cognition with directed graph neural networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2019：7912-7921.

［14] Liu Ziyu， Zhang Hongwen， Chen Zhenghao， "et al . Disentangling and unifying graph convolutions for skeleton-based action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：143-152.

［15] Yang Hongye， Gu Yuzhang， Zhu Jianchao， "et al . PGCN-TCA： pseudo graph convolutional network with temporal and channel-wise attention for skeleton-based action recognition［J］. IEEE Access ，2020， 8 ：10040-10047.

［16] Hu Jianfang， Zheng Weishi， Pan Jiahui， "et al . Deep bilinear learning for RGB-D action recognition［C］//Proc of the 15th European Confe-rence on Computer Vision.Cham：Springer，2018：346-362.

［17] Li Chao， Zhong Qiaoyong， Xie Di， "et al . Collaborative spatiotemporal feature learning for video action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2019：7872-7881.

［18] 王倩，孫憲坤，范冬艷.基于深度學(xué)習(xí)的時空特征融合人體動作識別［J］.傳感器與微系統(tǒng)，2020， 39 （10）：35-38.（Wang Qian， Sun Xiankun， Fan Dongyan. Fusion of spatio-temporal features based on deep learning for human action recognition［J］. Transducer and Microsystem Technologies ，2020， 39 （10）：35-38.）

［19] Sheng Biyun， Fang Yuanrun， Xiao Fu， "et al . An accurate device-free action recognition system using two-stream network［J］. IEEE Trans on Vehicular Technology ，2020， 69 （7）：7930-7939.

［20] Chen Lin， Liu Yungang， Man Yongchao. Spatial-temporal channel-wise attention network for action recognition［J］. Multimedia Tools and Applications ，2021， 80 （6）：21789-21808.

［21] Simonyan K， Zisserman A. Two-stream convolutional networks for action recognition in videos［EB/OL］.（2014-11-12）.https：//arxiv.org/abs/1704.00389.

［22] Ng J Y H， Hausknecht M， Vijayanarasimhan S， "et al . Beyond short snippets： deep networks for video classification［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2015：4694-4702.

［23] 呂淑平，黃毅，王瑩瑩.基于雙流卷積神經(jīng)網(wǎng)絡(luò)的人體動作識別研究［J］.實驗技術(shù)與管理，2021， 38 （8）：144-148.（Lyu Shuping， Huang Yi， Wang Yingying. Research on human action recognition based on dual stream convolutional neural network［J］. Experimental Technology and Management ，2021， 38 （8）： 144-148. ）

［24] Wan Yanqin， Yu Zujun， Wang Yao， "et al . Action recognition based on two-stream convolutional networks with long-short-term spatiotemporal features［J］. IEEE Access ，2020， 8 ：85284-85293.

［25] Piergiovanni A J， Ryoo M S. Representation flow for action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2019：9945-9953.

［26] Jiang Boyuan， Wang Mengmeng， Gan Weihao， "et al . STM： spatiotemporal and motion encoding for action recognition［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：2000-2009.

［27] Li Yan， Ji Bin， Shi Xintian， "et al . TEA： temporal excitation and aggregation for action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：909-918.

［28] Ji Shuiwang， Xu Wei， Yang Ming， "et al . 3D convolutional neural networks for human action recognition［J］. IEEE Trans on Pattern Analysis amp; Machine Intelligence ，2013， 35 （1）：221-231.

［29] Tran D， Bourdev L， Fergus R， "et al . Learning spatiotemporal features with 3D convolutional networks［C］//Proc of IEEE International Conference on Computer Vision.Washington DC： IEEE Computer Society，2015：4489-4497.

［30] 朱云鵬，黃希，黃嘉興.基于3D CNN的人體動作識別研究［J］.現(xiàn)代電子技術(shù)，2020， 43 （18）：150-152，156.（Zhu Yunpeng， Huang Xi， Huang Jiaxing. Human action recognition based on 3D CNN［J］. Modern Electronic Technology ，2020， 43 （18）：150-152，156.）

［31] Carreira J， Zisserman A. Quo vadis， action recognition？ A new model and the kinetics dataset［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：6299-6308.

［32] 范銀行，趙海峰，張少杰.基于3D卷積殘差網(wǎng)絡(luò)的人體動作識別算法［J］.計算機應(yīng)用研究，2020， 37 （S2）：300-301，304.（Fan Yinhang， Zhao Haifeng， Zhang Shaojie. Human action recognition algorithm based 3D convolution residual network［J］. Application Research of Computers ，2020， 37 （S2）：300-301，304.）

［33] Feichtenhofer C. X3D： expanding architectures for efficient video recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：203-213.

［34] "Luo Chenxu， Yuille A L. Grouped spatial-temporal aggregation for efficient action recognition［C］//Proc of IEEE/CVF International Confe-rence on Computer Vision.Piscataway，NJ：IEEE Press，2019：5512-5521.

［35] Qiu Zhaofan， Yao Ting， Mei Tao. Learning spatio-temporal representation with pseudo-3D residual networks［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：5533-5541.

［36] Wang Yancheng， Xiao Yang， Xiong Fu， "et al . 3DV： 3D dynamic voxel for action recognition in depth video［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：511-520.

［37] Sudhakaran S， Escalera S， Lanz O. Gate-Shift networks for video action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020.

［38] Hochreiter S， Schmidhuber J. Long short-term memory［J］. Neural Computation ，1997， 9 （8）：1735-1780.

［39] Kipf T N， Welling M. Semi-supervised classification with graph con-volutional networks［EB/OL］.（2017-02-22）.https：//arxiv.org/pdf/1609.02907.pdf.

［40] Liu Jun， Wang Gang， Hu Ping， "et al . Global context-aware attention LSTM networks for 3D action recognition［C］//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2017：1647-1656.

［41] Liu Jun， Wang Gang， Duan Lingyu， "et al . Skeleton-based human action recognition with global context-aware attention LSTM networks［J］. IEEE Trans on Image Processing ，2018， 27 （4）：1586-1599.

［42] 葛鵬花，智敏.基于推理網(wǎng)絡(luò)的人體動作識別［J］.計算機工程與設(shè)計，2021， 42 （3）：853-858.（Ge Penghua， Zhi Min. Human action recognition based on inference network［J］. Computer Engineering and Design ，2021， 42 （3）：853-858.）

［43] Zhang Xikun， Xu Chang， Tao Dacheng. Context aware graph convolution for skeleton-based action recognition［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：14333-14342.

［44] Ye Fanfan， Pu Shiliang， Zhong Qiaoyong， "et al . Dynamic GCN： context-enriched topology learning for skeleton-based action recognition［C］//Proc of the 28th ACM International Conference on Multimedia.New York：ACM Press，2020：55-63.

［45] Sigurdsson G A， Varol G， Wang Xiaolong， "et al . Hollywood in homes： crowdsourcing data collection for activity understanding［C］//Proc of the 14th European Conference on Computer Vision.Cham：Springer，2016：510-526.

［46] Gu Chunhui， Sun Chen， Ross D A， "et al . AVA： a video dataset of spatio-temporally localized atomic visual actions［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：6047-6056.

［47] Goyal R， Kahou S E， Michalski V， "et al . The “something something” video database for learning and evaluating visual common sense［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：5842-5850.

［48] Li Yingwei， Li Yi， Vasconcelos N. RESOUND： towards action recognition without representation bias［C］//Proc of the 15th European Conference on Computer Vision.Cham：Springer，2018：520-535.

［49] Materzynska J， Berger G， Bax I， "et al . The Jester dataset： a large-scale video dataset of human gestures［C］//Proc of IEEE/CVF International Conference on Computer Vision Workshops.Piscataway，NJ：IEEE Press，2019.

［50] "Schuldt C， Laptev I， Caputo B. Recognizing human actions： a local SVM approach［C］//Proc of the 17th International Conference on Pattern Re-cognition. Washington DC：IEEE Computer Society，2004：32-36.

［51] Gorelick L， Blank M， Shechtman E， "et al . Actions as space-time shapes［J］. IEEE Trans on Pattern Analysis amp; Machine Intelligence ，2008， 29 （12）：2247-2253.

［52] Weinland D， Boyer E， Ronfard R. Action recognition from arbitrary views using 3D exemplars［C］//Proc of the 11th IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2007：1-7.

［53] Laptev I， Marszalek M， Schmid C， "et al . Learning realistic human actions from movies［C］//Proc of IEEE Conference on Computer "Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2008：1-8.

［54] Niebles J C， Chen C W， Li Feifei. Modeling temporal structure of decomposable motion segments for activity classification［C］//Proc of the 11th European Conference on Computer Vision.Berlin：Springer-Verlag，2010：392-405.

［55] Kuehne H， Jhuang H， Garrote E， "et al . HMDB： a large video database for human motion recognition［C］//Proc of International Confe-rence on Computer Vision.Piscataway，NJ：IEEE Press，2011：2556-2563.

［56] Soomro K， Zamir A R， Shah M. UCF101： a dataset of 101 human actions classes from videos in the wild［EB/OL］.（2012-12-03）.https：//arxiv.org/pdf/1212.0402v1.pdf.

［57] Kay W， Carreira J， Simonyan K， "et al . The kinetics human action video dataset［EB/OL］.（2017-05-19）.https：//arxiv.org/pdf/1705.06950.pdf.

［58] Zhao Hang， Torralba A， Torresani L， nbsp;et al . HACS： human action clips and segments dataset for recognition and temporal localization［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：8668-8678.

［59] Yan Sijie， Xiong Yuanjun， Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition［C］//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2018.

［60] Materzynska J， Xiao Tete， Herzig R， "et al . Something-else：compositional action recognition with spatial-temporal interaction networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：1049-1059.

［61] Zhao Liming， Li Xi， Zhuang Yueting， "et al . Deeply-learned part-aligned representations for person re-identification［C］//Proc of IEEE International Conference on Computer Vision.Washington DC：IEEE Computer Society，2017：3219-3228.

［62] Fu Yang， Wang Xiaoyang， Wei Yunchao， "et al . STA： spatial-temporal attention for large-scale video-based person re-identification［C］//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8287-8294.

［63] Li Jianing， Zhang Shiliang， Huang Tiejun. Multi-scale 3D convolution network for video based person re-identification［C］//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2019：8618-8625.

［64] Yan Yichao， Ni Bingbing， Song Zhichao， "et al . Person re-identification via recurrent feature aggregation［C］//Proc of the 14th European Conference on Computer Vision.Cham：Springer，2016：701-716.

［65] Li Shuang， Bak S， Carr P， "et al . Diversity regularized spatiotemporal attention for video-based person re-identification［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway，NJ：IEEE Press，2018：369-378.

［66] Snell J， Swersky K， Zemel R S. Prototypical networks for few-shot learning［EB/OL］.（2017-06-19）.https：//arxiv.org/pdf/1703.05175.pdf.

［67] Vinyals O， Blundell C， Lillicrap T， "et al . Matching networks for one shot learning［C］//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2016：3637-3645.

［68] "Zhang Hongguang， Zhang Li， Qi Xiaojuan， nbsp;et al . Few-shot action recognition with permutation-invariant attention［C］//Proc of the 16th European Conference on Computer Vision.Cham：Springer，2020：525-542.

［69] Cao Kaidi， Ji Jingwei， Cao Zhangjie， "et al . Few-shot video classification via temporal alignment［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2020：10618-10627.

計算機應(yīng)用研究2022年2期

計算機應(yīng)用研究的其它文章: 基于法向量投票的點云配準(zhǔn)方法; 基于輪廓分段特征描述的遮擋目標(biāo)識別算法; 基于文本引導(dǎo)對抗哈希的跨模態(tài)檢索方法; 基于高斯密度圖估計的自然場景漢字檢測; 基于局部聚類的改進運動網(wǎng)格統(tǒng)計算法的研究; 基于空間特征提取和注意力機制的雙路徑語義分割

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進深度學(xué)習(xí)方法的人體動作識別綜述