羅會蘭,王嬋娟,盧飛
人體行為識別是指利用模式識別、機器學習等方法,從一段未知的視頻中自動分析識別人體執(zhí)行的行為。最簡單的行為識別也稱為行為分類,它可以將未知視頻中的人體行為分類到預(yù)先定義的幾種行為類別中。較為復(fù)雜的行為識別是指識別視頻中多個人體正在交互進行的群體活動。行為識別的最終目標是自動分析視頻中有什么人,在什么時刻、什么地方做了什么事情。人體行為識別在安防、交通管理、智能看護、娛樂休閑等現(xiàn)實生活中應(yīng)用廣泛。目前,行為識別的研究方法主要有2種:一種是基于手動提取特征的方法,另一種是基于深度網(wǎng)絡(luò)學習特征的方法。2種方法各有長短,基于手動提取特征的方法能夠根據(jù)需要提取相應(yīng)的特征,實現(xiàn)簡單,但行為的表示能力也受所提取特征的限制;基于深度網(wǎng)絡(luò)學習特征的方法能夠自動學習特征,但需要大量數(shù)據(jù)支撐,不適于小型數(shù)據(jù)集處理,且整個過程是端到端的,像個黑盒子,不適于計算視覺領(lǐng)域的研究初學者熟悉圖像、視頻處理的基本技術(shù)和基本步驟。
Moeslund等[1]按照行為的復(fù)雜程度將人體行為分為3個層級:基本動作、行為和活動?;緞幼髦傅氖悄茉谥w層次上描述的基本運動;行為指的是由基本動作構(gòu)成,描述一個可能是周期性的全身運動;活動包含許多后續(xù)動作,并對正在執(zhí)行的動作進行解釋。例如,左腿向前是一個基本動作,跑步是一個行為,跨欄就是一個包括開始、跳躍和跑步動作的一個活動。與此類似,文獻[2]認為行為識別可以分為2類:一類是低層動作的識別,另一類是高層行為的識別,其還認為前者是后者的基礎(chǔ),并依此將行為識別方法分為2類進行綜述。
Ji等[3]按行為識別的步驟將其分成3個子問題:人體檢測、與視覺無關(guān)的姿勢表示和估計、行為理解,并對其進行了綜述。而Dhamsania等[4]按照視頻場景中的目標人物數(shù)對識別方法進行了分類,將其區(qū)分為單人行為識別、雙人或人與物互動的行為識別以及多人行為識別。Candamo等[5]則討論了交通監(jiān)管視頻場景中的行為識別問題:單人游蕩識別、多人打架識別以及人與物體互動識別(如偷車、毀壞公共設(shè)施等)。Poppe等[6]將視頻行為識別的問題轉(zhuǎn)化為圖像序列的識別分類問題,并討論了圖像的各種表示及分類方法。
有些綜述著眼于討論某一特定動作類識別問題。Weinland等[7]著眼于解決全身運動(如踢打、拳擊等)識別問題的方法,并對這些方法按照如何表示動作的時空結(jié)構(gòu)、如何對視頻進行分割以及如何學習獲得行為表示進行分類。Chaudhary等[8]著眼于解決手勢識別問題的方法,比較分析了當前一些流行方法的實驗結(jié)果。
為了讓初學者更好地理解傳統(tǒng)視頻行為識別方法的基本流程及其與最新深度網(wǎng)絡(luò)模型方法的區(qū)別,本文分別綜述了傳統(tǒng)手動提取特征方法和深度網(wǎng)絡(luò)學習方法,并重點論述了基于手動提取特征表示的行為識別方法,按照流程就每個相對獨立的步驟進行了總結(jié)歸納,然后在此基礎(chǔ)上綜述了當前流行的用于行為識別的深度學習模型。主要貢獻如下。
1) 對基于手動提取特征表示的行為識別方法進行了較為系統(tǒng)、全面的研究和分類,并對每類方法中的典型算法進行了闡述和分析。
2) 對2012年以來以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度網(wǎng)絡(luò)學習技術(shù)在行為識別中的應(yīng)用進行了研究和闡述。
3) 對行為識別算法常用的基準數(shù)據(jù)集、算法性能評價指標進行了研究和介紹。
4) 討論了行為識別中目前存在的、亟待解決的主要問題以及未來發(fā)展的趨勢。
基于手動提取特征的行為識別方法一般包含如圖1所示的處理流程,即首先對視頻進行采樣,然后對樣本提取特征,接著對特征進行編碼,再對編碼得到的向量進行規(guī)范化,最后訓(xùn)練分類。
一般而言,提取特征之前需要先對視頻進行興趣點采樣,然后對采樣興趣點進行特征信息的提取。采樣方式有基于興趣區(qū)域的采樣、基于軌跡的采樣和基于身體部分的采樣等。
2.1.1 基于興趣區(qū)域的采樣
圖1 基于手動提取特征的行為識別流程
基于興趣區(qū)域的采樣方法是指利用探測器檢測視頻的興趣區(qū)域,從而提取特征描述的方法。這類方法不需要對行為視頻進行前景背景分割,也不需要對發(fā)生行為的人體進行精確的定位跟蹤。Laptev等[9]提出對Harris角點檢測方法[10]進行時空擴展,在行為視頻中進行 Harris3D興趣點檢測。Harris3D檢測空間維與時間維上都具有顯著變化的點區(qū)域,并自適應(yīng)地選擇興趣點的時間尺度與空間尺度。圖2示例了對UCF101[11]數(shù)據(jù)庫中畫眼妝這個動作的興趣點采樣截圖。Oikonomopoulos等[12]提出了一種基于時空顯著點的行為表征方法:首先計算行為視頻中每個像素點對應(yīng)的時空鄰域的信號直方圖的熵,然后將取得Shannon熵的局部極大值的位置點視為時空顯著點。以上2種方法檢測到的采樣點在空間尺度與時間尺度上都具有顯著變化,但是視頻中滿足條件的采樣點較少,這就導(dǎo)致采樣得到的時空興趣點比較稀疏,對后續(xù)的行為識別有一定的影響。針對這種問題,Dollar等[13]提出了一種基于空間維上的高斯平滑濾波器與時間維上的Gabor濾波器的Cuboid檢測方法,該方法檢測出的時空興趣點較為密集。Rapantzikos等[14]提出使用離散小波變換,通過低通、高通濾波器的響應(yīng)值來檢測時空興趣點。后來 Rapantzikos等[15]又提出引入運動信息與顏色信息進行時空顯著點檢測。這些時空興趣點檢測方法均檢測到了密集的時空興趣點。Willems等[16]提出將二維圖像中的Hessian顯著點檢測方法擴展到三維視頻中,這種方法被命名為 Hessian時空興趣點檢測方法,它使用 3D Hessian矩陣的行列式來評估視頻中各位置點的顯著性。Hessian時空興趣點檢測方法以一種非迭代的方式,自動選擇興趣點的時空位置與尺度。這種方法能夠檢測到更為密集,且尺度不變的時空興趣點。
圖2 原視頻與興趣點采樣對比
2.1.2 基于軌跡的采樣
伴隨著人體運動的發(fā)生,會產(chǎn)生一條運動軌跡。Wang等[17]提出沿著運動軌跡將軌跡鄰域劃分成細小的子空間,然后對每個子空間提取特征描述信息。基于軌跡的采樣方法把時間信息也考慮進來了,通常來說,這種采樣方法會比基于興趣區(qū)域的采樣方法對視頻的表征能力更強。但是因為其沿著軌跡密集采樣,所以采樣得到的興趣點數(shù)目較大,對于計算機的存儲空間和運算速度的要求會更高。為了解決這個問題,文獻[18-19]提出在稠密軌跡的基礎(chǔ)上設(shè)置一些新的限制條件,從而減少稠密軌跡數(shù)。為了消除相機抖動對識別性能的影響,Wang等[20]又提出了改進版的稠密軌跡提取方法,改進版中引入了對背景光流的消除方法,使特征更集中于對人體運動的描述。許多行為識別的研究工作[21-23]都是在改進稠密軌跡基礎(chǔ)上進行的,在深度網(wǎng)絡(luò)方法出現(xiàn)之前,該方法曾一度占據(jù)行為識別領(lǐng)域的領(lǐng)先位置。
2.1.3 基于身體部分的采樣
基于身體部分的采樣方法是通過姿態(tài)估計方法或深度圖姿態(tài)估計方法,獲取人體各部件的位置、關(guān)節(jié)點的位置以及關(guān)節(jié)點的運動信息來表征行為。這類方法一般需要先用前景背景分割、運動檢測或行人檢測跟蹤算法對視頻中的人體進行定位,然后對人體身體部位進行描述。通過這種采樣方法所提取到的特征信息比較完整,對視頻中的人體行為來說是一種良好的表征方式。Ali等[24]利用人體頭部與軀干的5個歸一化節(jié)點的軌跡信息構(gòu)建人體的行為。圖3示例了演員表演9個不同動作時人體5個節(jié)點及其軌跡。Yilma等[25]使用13個人體節(jié)點的軌跡信息進行行為識別。Jhuang等[26]使用人工標記的 14個關(guān)節(jié)點表達的姿態(tài)特征進行行為識別,并通過實驗對比,發(fā)現(xiàn)了這種基于關(guān)節(jié)點的姿態(tài)特征表達比局部特征能獲得更好的識別效果。Singh等[27]使用15個鏈接點來表征人體行為的關(guān)鍵姿態(tài),并利用跟蹤信息進行行為識別。文獻[28-29]則利用神經(jīng)網(wǎng)絡(luò)對自由度為 20的人體行為骨架信息進行行為識別。
圖3 表演9個不同動作時人體5個節(jié)點的運動軌跡
特征提取的目的是收集通用的對背景變換頑健的視頻描述信息。理想的特征應(yīng)該是與尺度變化、旋轉(zhuǎn)、仿射變化、光照變化、視角變化無關(guān)的。從全局來看,可以用外觀、姿勢或語境信息來描述視頻中的人體行為。從局部來說,可以用方向梯度、光流方向等來描述視頻中的人體行為,本文將視頻描述信息分為全局描述符和局部描述符來做進一步闡述。
2.2.1 全局描述符
全局描述符是對通過背景減圖或跟蹤的方法得到整個感興趣的人體進行描述,通常采用的是人體的姿態(tài)、關(guān)節(jié)形狀、剪影輪廓等信息。這些特征對噪聲、部分遮擋、視角的變化比較敏感。
伴隨著人體運動的發(fā)生,人體的姿態(tài)也會發(fā)生變化,因此,人體姿態(tài)也可以作為表征運動的一條線索。Wang等[30]提出一種基于姿態(tài)的行為表示模型,用于描述人體姿勢的時空結(jié)構(gòu)。這類方法的處理流程如下:首先為每一幀估計k個最好的姿勢,然后利用分段線索和時間約束推斷最佳姿勢。該方法在UCF Sports數(shù)據(jù)集和MSR Action3D數(shù)據(jù)集上分別獲得了90%和90.22%的識別準確度,要優(yōu)于同期其他方法。
眾所周知,人體的運動是由關(guān)節(jié)帶動發(fā)生的,因此,關(guān)節(jié)點的位置變化也能從側(cè)面描述視頻的運動信息。Jiang等[31]提出了一種關(guān)節(jié)形狀運動描述子,將光流場的運動模型和外觀模型結(jié)合捕捉運動的不同性質(zhì)。這種方法是將長視頻看作基本動作的序列,然后利用關(guān)節(jié)形狀運動描述子對基本動作進行匹配,從而實現(xiàn)視頻的分類。文獻[32]提出了一種基于關(guān)節(jié)點的元動作描述符,這種方法首先引入單關(guān)節(jié)點部位的動態(tài)聚類,采用關(guān)節(jié)點判別力來動態(tài)確定聚類中心個數(shù)。然后將判別力強的部位聚類個數(shù)增大,反之亦然。之后再引入判別力部位整體聚類,選出高識別率的判別力部位,將每個判別力部位內(nèi)所有的關(guān)節(jié)點視為一個整體,串聯(lián)特征后聚類,得到新的元動作,對于給定的樣本,某個部位的元動作特征定義為該部位基礎(chǔ)特征與各聚類中心歸一化歐氏距離的串聯(lián)。最后分別采用單關(guān)節(jié)點部位動態(tài)聚類和多判別力部位聚類的元動作特征來表示行為。
剪影表征的是人體的輪廓形象,做不同動作時人體的輪廓是不同的,例如,伸平雙手和坐下,因此,行為視頻中人體的剪影也可以作為人體運動的描述,Gorelick等[33]使用背景差分法來提取人體的剪影信息,并據(jù)此將行為表征為時空形狀。然后,基于泊松方程解的性質(zhì),利用提取的時空形狀的方向、突出點、結(jié)構(gòu)等特征的聯(lián)合向量來表征行為。
2.2.2 局部描述符
局部描述符是指對提取出的局部興趣點進行描述的方法,最常用的有梯度方向直方圖(HOG,histogram of oriented gradient)、光流梯度方向直方圖(HOF, histograms of oriented optical flow)、運動邊界直方圖(MBH, motion of boundary history)這3種方法。
HOG[34]描述的是靜態(tài)外觀信息,首先需要將圖像分割成細小的子空間,然后統(tǒng)計每個子空間中各像素點的梯度方向,最后合并每個子空間的統(tǒng)計直方圖并將其作為圖像的HOG特征描述符。為了獲得更好的光照、陰影等不變性,還可以先把這些子空間的局部直方圖在圖像中更大的區(qū)間內(nèi)進行對比度歸一化。
HOF[35]表達的是局部運動信息,首先是將光流圖像分割成許多細小的子空間,然后加權(quán)統(tǒng)計每個子空間的光流方向,得到光流梯度直方圖。由于視頻中發(fā)生行為的人體的尺寸會隨著時間發(fā)生變化,相應(yīng)的光流特征描述子的維度也會變化。所以,光流的計算對背景噪聲、尺度變化以及運動方向都比較敏感。為了使其對運動方向及尺度變化頑健,可以橫軸為基準計算夾角并對得到的光流梯度直方圖進行歸一化。
MBH[36]表達的是相關(guān)運動信息。MBH的計算方法是將x和y方向上的光流圖像視作2張灰度圖像,然后提取這些灰度圖像的梯度直方圖,即MBH特征是分別在圖像的x和y方向的光流圖像上計算HOG特征,實現(xiàn)對運動物體的邊界信息的提取。
從視頻中提取的底層特征以及編碼后的特征向量需要經(jīng)過一些處理技術(shù)防止數(shù)據(jù)過擬合的情況。本文將應(yīng)用于從視頻提取的底層特征上的處理方法稱為預(yù)處理技術(shù),將應(yīng)用于編碼后的特征向量上的處理方法稱為后處理技術(shù)。有一些研究者會忽略對特征數(shù)據(jù)進行預(yù)處理而直接編碼,但最近有研究[37]表明,對特征進行預(yù)處理能提升識別準確度。
常用的預(yù)處理技術(shù)分為2類,一類是降維處理,另一類是白化操作。主成份分析(PCA,principal component analysis)是一個常用的線性降維方法。PCA把原先的n維特征用數(shù)目更少的m維特征取代,通過最大化樣本方差,盡量使新的m個維度互不相關(guān)。白化的目的是去掉數(shù)據(jù)之間的相關(guān)度,是很多算法進行預(yù)處理的步驟。例如,當訓(xùn)練圖片數(shù)據(jù)時,因為圖片中相鄰像素值有一定的關(guān)聯(lián),所以很多信息是冗余的,這時就可以利用白化進行去相關(guān)操作。常見的白化操作有 PCA Whitening和 ZCA Whitening。PCA Whitening的操作流程是先通過PCA消除特征之間的相關(guān)性,然后利用縮放因子使特征具有相同的方差。ZCA Whitening本質(zhì)上是換一種方法實現(xiàn)特征的去相關(guān)及歸一化,將經(jīng)過 PCA Whitening后的數(shù)據(jù)重新變換回原來的空間。對于卷積神經(jīng)網(wǎng)絡(luò)算法來說,因為它對自然圖像的局部特征依賴較大,所以使用和原始數(shù)據(jù)同一空間表達的ZCA Whitening會比PCA Whitening的效果更好。但是對于大多數(shù)其他的機器學習算法來說,兩者的效果相差不大。
編碼后的特征向量往往需要經(jīng)過后處理進行規(guī)范,常用的后處理技術(shù)有池化和歸一化。池化分為最大池化、求和池化和平均池化。最大池化就是取這些描述符的編碼系數(shù)中最大的值作為視頻的全局表示。求和池化就是將所有描述符的編碼系數(shù)求和并將得到的和值作為視頻的全局表示。平均池化就是將所有描述符的編碼系數(shù)求和之后再取平均值并將平均值作為視頻的全局表示。常用的歸一化方式有 4種:L1歸一化、L2歸一化、Power Normalization和 Intra Normalization。假設(shè)v={x1,…,xn}表示一個視頻的編碼向量,則各規(guī)范化策略計算式如下。
L1歸一化:
L2歸一化:
Power Normalization:
Intra normalization:
式(3)中的α為規(guī)范參數(shù),且滿足條件01≤≤α。式(4)中的vk表示和第k個聚類中心或第k個高斯分量相關(guān)的單詞向量。
在對視頻進行特征提取得到視頻的特征集之后,需要對視頻的特征集進行聚類得到后面編碼需要的碼本。視頻動作識別領(lǐng)域常用的聚類方式有K均值聚類和混合高斯模型(Gaussian mixed model)聚類。
K均值聚類是依據(jù)特征點之間的相似性聚類。它初始時隨機選擇K個特征點作為K個簇的均值點或代表點,然后將每個特征點分配給離它最近的均值點代表的簇,分配完畢后重新計算各個簇的均值,這個過程不斷重復(fù),直到準則函數(shù)收斂。它的結(jié)果會受初始選擇的K個均值點的影響。
混合高斯模型指的是多個高斯分布函數(shù)的線性組合,表示為
其中,N(x μk, Σk)表示混合高斯分布中的第k個高斯分量,πk表示混合系數(shù),且πk滿足條件:
采樣視頻興趣點并描述得到訓(xùn)練特征集,然后通過聚類得到特征碼本,還需要對每個視頻的特征進行編碼獲取表示向量。常用的編碼方法有矢量量化(VQ,vector quantization)、稀疏編碼(SC, sparse coding)、費舍爾編碼(FV, Fisher vector)和局部聚合描述符矢量(VLAD, vector of locally aggregated descriptor)。
VQ是一種投票式的硬性編碼方法,投票規(guī)則如下:給定一個 k維的碼本 D=(d1,…,di,…,dk),對于視頻的描述符集X=(x1,…,xj,…,xn),其中,xj表示視頻的第j個描述符,則xj對視覺詞典中第i個視覺單詞di的投票只有2個取值,1或0,如果xj和di的距離最近,則投票值為1,否則為0。通過這種投票方法,第j個描述符就獲得了一個k維的編碼系數(shù)sj,且sj=[…000010000…]。類似地,可獲得視頻描述符集X中每個描述子的編碼系數(shù)。這種編碼方法是一種硬量化,容易導(dǎo)致信息損失。
SC是一種重建型編碼方法,它的目的是使編碼系數(shù) s能依據(jù)聚類得到的字典最大可能重建描述子 x。給定一個大小為 K 的碼本D={dk,k=1,…,K},對于視頻的描述符集X的編碼系數(shù)s,計算式為
其中,s1表示對編碼系數(shù)做L1正則化處理,保證編碼系數(shù)具有稀疏性。
FV是由Perronnin等[38]提出的用于大尺度圖像分類的。因其在圖像分類中的杰出表現(xiàn),逐漸被引入視頻的行為識別中。用描述符集X來描述一段視頻,給定一個大小為K的混合高斯分布模型,視頻描述符集的編碼系數(shù)s可以表示為
其中,
VLAD是費舍爾編碼的一種特殊形式,由Jegou等[39]在圖像搜索中首次提出,這種編碼方法的計算過程如下:假設(shè)在訓(xùn)練特征集上聚類得到大小為K的視覺詞典D,表示為 D = { dk,k = 1,… , K },其中,dk表示碼本中第k個視覺單詞。假設(shè)一個視頻的特征描述集為X,則視頻的編碼系數(shù)s為
其中,
行為識別方法的性能主要取決于視頻特征的表達,與手動提取特征表示方法不同,基于深度網(wǎng)絡(luò)學習特征表示的方法是從原始數(shù)據(jù)中自動學習特征。這種方法是端到端的,輸入視頻,輸出分類結(jié)果。
深度學習中用于行為識別的深度網(wǎng)絡(luò)主要有卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)。卷積神經(jīng)網(wǎng)絡(luò)通常遵循3層體系結(jié)構(gòu),分別是卷積層、池化層和全連接層。比較經(jīng)典的是 Simonyan等[40]提出的用于行為識別的雙流 CNN,其將視頻看作一段圖像序列,空間流計算圖像幀的 CNN特征,時間流計算若干圖像幀間的光流 CNN特征,最后再將兩者進行融合。圖4為雙流CNN工作流程[40]。
這種方法雖然將立體的視頻識別問題轉(zhuǎn)化為平面的圖像識別問題,但卻丟失了動作的時間關(guān)聯(lián)信息。為了彌補雙流架構(gòu)在時間信息上的丟失,Wang等[41]提出了三流CNN架構(gòu)。該架構(gòu)在雙流架構(gòu)的基礎(chǔ)上將時間流進一步細分,分為局部時間流和全局時間流。動作圖像特征和光流特征分別作為空間流和局部時間流的輸入,并將學習運動疊差圖像(MSDI, motion stacked difference image)的CNN特征作為全局時間流的輸入。在 UCF101及HMDB51[42]數(shù)據(jù)庫上的實驗表明,基于三流 CNN架構(gòu)的識別準確度比雙流 CNN[40]方法分別提高了1.7%和1.9%。
圖4 雙流CNN工作流程
還有一些研究者對 CNN特征提取對象做了改進,例如,Gkioxari等[43]提出不對整個圖像幀學習特征,而是在圖像幀上先選擇一個包含人體的包圍盒作為主區(qū)域,然后根據(jù)主區(qū)域定義若干個次區(qū)域,利用最大值函數(shù)計算次區(qū)域包含的信息量并將其得分給主區(qū)域,再利用 RCNN(region-based convolutional network method)對主區(qū)域和次區(qū)域進行訓(xùn)練學習得到視頻的特征表示。該方法在數(shù)據(jù)庫PASAL VOC Action dataset上獲得了90.2%的平均準確度,超出同期其他方法[44-47]。Cheron等[48]提出P-CNN(pose based CNN)方法,該方法是先對輸入的視頻進行姿勢估計,然后對身體不同部分提取CNN特征,再將各個部分的特征融合起來,該方法在數(shù)據(jù)庫JHMDB[26]和MPII Cooking dataset[49]上均領(lǐng)先同期方法[26,49-51]。
遞歸神經(jīng)網(wǎng)絡(luò)[52]也常被用于深度學習模型中,它是將之前若干時刻的數(shù)據(jù)作為當前時刻的數(shù)據(jù)輸入,從而保留了時間維度上的信息。長短時記憶[53](LSTM, long short-term memory)類型的RNN是普通RNN的擴展,主要用于解決RNN中的梯度消亡現(xiàn)象。Niebles等[54]提出了一種非監(jiān)督式的 LSTM模型來計算視頻的表示信息。在文獻[55-56]中,還提出將CNN和RNN結(jié)合起來識別視頻中的人體行為。文獻[57]在此基礎(chǔ)上又提出了一種遞歸混合網(wǎng)絡(luò)模型,該模型首先從彩色圖像和光溜中提取空間特征和短時時間特征,然后對相鄰的P幀特征進行池化并將池化結(jié)果輸入LSTM中(這可以減少幀間的噪聲影響),最后將LSTM 模型學到的特征與視頻的其他 2種特征(STP和IDT)經(jīng)過線性SVM得到的分數(shù)融合獲取視頻分類的最終結(jié)果,在UCF101上獲得了 89.4%的識別準確度,比傳統(tǒng)的LSTM的識別準確度高了2.4%。
本節(jié)主要介紹歷年來較有代表意義的檢驗行為識別算法性能的公用數(shù)據(jù)集,并對前述比較典型的行為識別算法進行了分析、總結(jié)和比較。
判斷一個行為識別算法的優(yōu)劣需要在同一個環(huán)境中和其他的同類算法進行比較,這就促使了一些公開數(shù)據(jù)庫的誕生。表 1[58-67]列出了行為識別研究發(fā)展歷程中常用的一些數(shù)據(jù)庫的信息,包括每個數(shù)據(jù)庫的發(fā)布年份、動作類、簡介以及近3年被引用次數(shù)。由表1中的2015-2017年引用次數(shù)可以看出,隨著深度學習的流行,在選擇測試評估的數(shù)據(jù)集時逐漸傾向選取UCF101、HMDB51這種大型的、與現(xiàn)實環(huán)境一致的數(shù)據(jù)集。且深度學習算法需要用到大量的數(shù)據(jù)進行訓(xùn)練,而小型的數(shù)據(jù)庫不能滿足此類需求。隨著行為識別在智能看護、人機交互等現(xiàn)實場景應(yīng)用的普及,人們對于行為識別算法的準確度、適應(yīng)性、實時性等要求越來越高,固定條件或場景錄制的視頻已很難滿足人們的實際需求。其中,HMDB51的識別難度較高,因為它的視頻片段均來源于真實世界,背景雜亂,視角變化、類內(nèi)差異較大。
本節(jié)在 3個具有代表性的數(shù)據(jù)集 KTH、HMDB51和UCF101上分析比較了一些有代表性的基于手動提取特征的方法以及基于深度學習的方法,分別如表 2~表 4[68-89]所示。由表 2~表 4中 2類方法近幾年的識別準確度來看,基于手動提取特征的方法逐漸走向一個研究瓶頸,很難再開發(fā)出比改進稠密軌跡效果更好的描述子,大多數(shù)的研究都是圍繞改進稠密軌跡展開的,通過不同的編碼方法獲取頑健性更強的獨立表示,但效果并不顯著。相反,基于深度網(wǎng)絡(luò)學習特征的方法雖然最初的識別準確度并不高,但經(jīng)過幾年的發(fā)展,準確度有了很大提升,逐漸超越了基于改進稠密軌跡的方法。Peng等[68]通過對改進稠密軌跡特征進行疊加費舍爾編碼,在HMDB51數(shù)據(jù)集上獲得了66.79%的識別準確度;Duta等[69]通過在改進稠密軌跡特征中融入位置信息進行編碼,在UCF101上獲得了91.5%的識別準確度;四流深度卷積網(wǎng)絡(luò)模型[70]在UCF101和HMDB51數(shù)據(jù)集上取得了目前最高的識別準確度,分別為96%和74.2%。
目前,行為識別的研究雖然取得了一定的進展,但還是面臨很多的挑戰(zhàn),還有許多亟待解決的問題。首先,目前大部分的研究方法需要足夠多的標簽樣本進行訓(xùn)練,才能達到比較好的識別預(yù)測效果。但現(xiàn)實中許多情況下提供不了足夠多的樣本,那么如何依靠現(xiàn)有的少量監(jiān)督樣本達到較高的識別準確度是目前亟待解決的一個問題。其次,相比動作幅度大的人體行為(如踢足球、跳舞等人體行為),比較細微的人體行為識別的難度很大,現(xiàn)存方法的效果非常不理想,例如,根據(jù)眼皮的下沉情況判斷正在駕駛車輛的司機是否有打瞌睡的跡象,或根據(jù)犯罪審問中罪犯的微表情、微動作判斷罪犯是否撒謊從而輔助警察辦案。
表1 歷年來常用數(shù)據(jù)庫簡介
表2 KTH數(shù)據(jù)集上行為識別方法分析比較
未來行為識別的研究發(fā)展將更加貼近實際應(yīng)用,朝著更少樣本、更快速度以及更精細動作識別的研究方向發(fā)展。
人體行為識別在現(xiàn)實生活中有非常大的應(yīng)用需求,受到越來越多的計算機視覺研究者的關(guān)注。為了幫助初學者快速掌握行為識別的流程,把握研究熱點,本文在前人的研究基礎(chǔ)上,綜述了基于手動提取特征的行為識別方法以及典型的多流卷積神經(jīng)網(wǎng)絡(luò)模型。介紹了行為識別研究常用的公開數(shù)據(jù)集,在此基礎(chǔ)上分析比較了傳統(tǒng)手工提取特征方法和深度學習方法的性能。基于改進稠密軌跡特征的行為識別方法是傳統(tǒng)方法中效果較好的,因為改進稠密軌跡依據(jù)光流進行稠密采樣,獲取到的特征信息較為豐富,表征能力較強,缺點是計算量較大。近年來,基于復(fù)雜深度模型的行為識別研究取得了相較于傳統(tǒng)方法更好的效果。未來的行為識別研究可能朝著更實用、更精細、需要更少訓(xùn)練數(shù)據(jù)的方向發(fā)展。
表3 HMDB51數(shù)據(jù)集上行為識別方法分析比較
表4 UCF101數(shù)據(jù)集上行為識別方法分析比較