基于深度信息的人體動(dòng)作識(shí)別研究綜述

2015-02-21 08:10:07陳萬軍張二虎

西安理工大學(xué)學(xué)報(bào) 2015年3期

關(guān)鍵詞：關(guān)節(jié)點(diǎn)人體深度

陳萬軍，張二虎

(西安理工大學(xué) 印刷包裝與數(shù)字媒體學(xué)院，陜西西安 710048)

基于深度信息的人體動(dòng)作識(shí)別研究綜述

陳萬軍，張二虎

(西安理工大學(xué) 印刷包裝與數(shù)字媒體學(xué)院，陜西西安 710048)

隨著低成本深度傳感器的發(fā)明，尤其是微軟Kinect的出現(xiàn)，高分辨率的深度與視覺(RGB)感知數(shù)據(jù)被廣泛使用，并為解決計(jì)算機(jī)視覺領(lǐng)域中的基本問題開拓了新的機(jī)遇。本文針對(duì)基于深度信息的人體動(dòng)作識(shí)別研究，首先提出了一種基于特征和數(shù)據(jù)類型的分類框架，并對(duì)最近幾年提出的相關(guān)方法進(jìn)行了全面回顧。隨后，對(duì)文獻(xiàn)中描述的算法進(jìn)行了性能對(duì)比分析，同時(shí)對(duì)所引用的公共測(cè)試數(shù)據(jù)集進(jìn)行了總結(jié)。最后，筆者對(duì)未來的研究方向進(jìn)行了討論并給出了相關(guān)建議。

人體動(dòng)作識(shí)別；深度傳感器； Kinect；骨架關(guān)節(jié)點(diǎn)；深度數(shù)據(jù)

人類具有從視覺信息感知人體動(dòng)作的非凡能力，能夠定位人、物并跟蹤人體運(yùn)動(dòng)，通過分析人與物體的交互來理解人們?cè)谧鍪裁瓷踔镣茢嗥湟鈭D。自動(dòng)進(jìn)行人體動(dòng)作的理解與識(shí)別對(duì)許多人工智能系統(tǒng)來說是至關(guān)重要的，可廣泛地應(yīng)用于智能視頻監(jiān)控、人機(jī)交互、視頻分析與檢索以及機(jī)器人等領(lǐng)域中。例如，為了建造一個(gè)能智能化地服務(wù)于人類的人機(jī)交互系統(tǒng)，該系統(tǒng)不僅需要感知人體的運(yùn)動(dòng)，而且還要理解人體動(dòng)作的語義并推斷其意圖。

基于視覺(RGB)信息的人體動(dòng)作識(shí)別在過去數(shù)十年間取得了很大進(jìn)展[1-2]，許多方法被相繼提出。這些方法包括人體關(guān)鍵姿態(tài)[3]、運(yùn)動(dòng)模板[4]、剪影[5]和時(shí)-空形狀[6]。最近，時(shí)-空興趣點(diǎn)[7]和密集運(yùn)動(dòng)軌跡[8]由于其出色的性能而備受人們的關(guān)注。盡管這些方法在相關(guān)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上均取得了較好的識(shí)別結(jié)果，但是由于人體動(dòng)作具有高度的靈活性，人體的姿態(tài)、運(yùn)動(dòng)、衣著具有顯著的個(gè)體差異性，相機(jī)視角、相機(jī)的運(yùn)動(dòng)、光照條件的變化、遮擋、自遮擋并同時(shí)包含人-物的交互以及復(fù)雜的時(shí)-空結(jié)構(gòu)等因素的綜合影響，使得人體動(dòng)作識(shí)別仍極具挑戰(zhàn)性[1]。

最近，傳感器技術(shù)的進(jìn)步為我們帶來了低廉的高清晰的深度傳感器，例如微軟公司的Kinect和華碩公司的Xtion PRO LIVE。深度傳感器利用結(jié)構(gòu)光實(shí)時(shí)地感知世界并形成深度映射(Depth Map)圖像。深度映射圖像中的每個(gè)像素記錄著場(chǎng)景的深度值，與普通的RGB圖像中像素所表示的光強(qiáng)度值截然不同。深度傳感器的引入能夠極大地拓展計(jì)算機(jī)系統(tǒng)感知三維世界并提取低層視覺信息的能力，并在計(jì)算機(jī)視覺領(lǐng)域中受到越來越廣泛的應(yīng)用[9]。2013年10月，IEEE會(huì)刊Cybernetics出版了題為“Computer Vision For RGB-D Sensors: Kinect And Its Applications”的?？?，以促進(jìn)深度傳感器在人體動(dòng)作識(shí)別、手勢(shì)識(shí)別及人體姿態(tài)估計(jì)等熱點(diǎn)研究領(lǐng)域的發(fā)展。2014年，國際頂級(jí)會(huì)議——計(jì)算機(jī)視覺與模式識(shí)別(CVPR 2014)也設(shè)立了有關(guān)深度相機(jī)在解決計(jì)算機(jī)視覺領(lǐng)域問題的專題研討會(huì)(Towards solving real-world vision problems with RGB-D cameras)。深度傳感器較傳統(tǒng)RGB相機(jī)在人體動(dòng)作識(shí)別方面具有無可比擬的優(yōu)勢(shì)，即它不受光照條件的影響，具有顏色與紋理不變性，同時(shí)深度信息能極大簡(jiǎn)化目標(biāo)的檢測(cè)與分割任務(wù)。因此，近來人們提出了各種基于深度傳感器的人體動(dòng)作識(shí)別方法。本文依據(jù)這些方法所采用的特征和依賴的原始數(shù)據(jù)類型對(duì)其進(jìn)行分類，具體可分為：基于骨架關(guān)節(jié)點(diǎn)的方法、基于深度映射圖像的方法、基于3D點(diǎn)云的方法、RGB圖像與深度信息融合的多模態(tài)方法以及基于深度學(xué)習(xí)的方法。

1 分類方法

1.1 基于骨架關(guān)節(jié)點(diǎn)的方法

骨架關(guān)節(jié)點(diǎn)是人體的視覺顯著點(diǎn)，其在4D空間中的運(yùn)動(dòng)能夠反映動(dòng)作的語義信息?；陉P(guān)節(jié)點(diǎn)的動(dòng)作識(shí)別研究可追溯至早期Johansson的工作[10]。他們通過實(shí)驗(yàn)表明絕大部分動(dòng)作可僅根據(jù)關(guān)節(jié)點(diǎn)的位置進(jìn)行識(shí)別。這一觀點(diǎn)被后續(xù)大量的研究者采用并逐漸形成人體動(dòng)作識(shí)別方法的一個(gè)重要分支。由于不同時(shí)刻的關(guān)節(jié)點(diǎn)具有自然的對(duì)應(yīng)性，而在傳統(tǒng)的RGB圖像中很難建立起這種對(duì)應(yīng)關(guān)系，因此大多數(shù)基于關(guān)節(jié)點(diǎn)的方法利用它們來顯示建模人體動(dòng)作的時(shí)間動(dòng)態(tài)特性。目前，人們主要通過2種手段來獲得關(guān)節(jié)點(diǎn)的位置信息：基于運(yùn)動(dòng)捕捉系統(tǒng)(Motion Capture system，MoCap)[11]和基于深度映射圖像的關(guān)節(jié)點(diǎn)位置估計(jì)[10]。需要指出的是，這2種方法所獲得的關(guān)節(jié)點(diǎn)位置信息的精度存在一定的差異。MoCap方法利用多相機(jī)并配以關(guān)節(jié)點(diǎn)標(biāo)記來進(jìn)行可靠的關(guān)節(jié)點(diǎn)位置估計(jì)，因而具有更低的嵌入噪聲。而后者由于使用單一的深度相機(jī)而產(chǎn)生的自遮擋或互遮擋問題，往往使得提取的關(guān)節(jié)點(diǎn)位置信息具有較低的質(zhì)量。另外，MoCap是基于標(biāo)記點(diǎn)的，只能在特殊的室內(nèi)環(huán)境中使用，且其價(jià)格昂貴。早期的基于骨架關(guān)節(jié)點(diǎn)的動(dòng)作識(shí)別方法多基于此[12-13]。隨著2009年Kinect深度相機(jī)的問世，使得關(guān)節(jié)點(diǎn)位置的估計(jì)與跟蹤只需一架深度相機(jī)，其裝置簡(jiǎn)單，成本低廉，且具有很強(qiáng)的適用性等優(yōu)點(diǎn)，因而，目前的人體動(dòng)作識(shí)別研究工作更多地集中在基于深度相機(jī)的含噪聲的關(guān)節(jié)點(diǎn)數(shù)據(jù)上。下面，筆者首先介紹基于MoCap數(shù)據(jù)的方法，然后重點(diǎn)討論基于深度相機(jī)的關(guān)節(jié)點(diǎn)數(shù)據(jù)方法。

1.1.1 基于MoCap的方法

利用運(yùn)動(dòng)捕捉系統(tǒng)來采集人體關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)數(shù)據(jù)需要在特定的場(chǎng)景中進(jìn)行，并且需要演員穿上特制的帶有發(fā)光標(biāo)志的衣服。這些發(fā)光標(biāo)志均位于人體的各個(gè)關(guān)節(jié)點(diǎn)上。多個(gè)經(jīng)標(biāo)定后的高精度相機(jī)陣列環(huán)繞排列于場(chǎng)景中用以跟蹤并記錄這些標(biāo)志點(diǎn)的2D圖像，最后經(jīng)由系統(tǒng)精確地重構(gòu)出這些標(biāo)志點(diǎn)(關(guān)節(jié)點(diǎn))的3D坐標(biāo)。為了有效刻畫MoCap數(shù)據(jù)的本質(zhì)特征，Müller等人[12-13]采用關(guān)系運(yùn)動(dòng)特征(Relational Motion Features)來描述運(yùn)動(dòng)姿態(tài)的關(guān)節(jié)點(diǎn)間的幾何(語義)關(guān)系。關(guān)系運(yùn)動(dòng)特征具有全局方向、位置、體型以及姿態(tài)的局部空間變形的不變特性。同時(shí)，為了解決與運(yùn)動(dòng)模板的時(shí)間對(duì)齊問題，他們采用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Temporal Warping，DTW)的模板匹配方法來進(jìn)行動(dòng)作識(shí)別。雖然該方法對(duì)于無噪聲的MoCap數(shù)據(jù)具有很好的擴(kuò)展性和有效性，但是對(duì)于具有高復(fù)雜度的人體動(dòng)作，例如“跳舞”，要定義出具有強(qiáng)判別性和魯棒性的關(guān)節(jié)點(diǎn)間的幾何關(guān)系并非易事。

即使是同類動(dòng)作序列，MoCap數(shù)據(jù)也存在很大的時(shí)-空差異?？臻g上的差異主要來自于動(dòng)作執(zhí)行過程中對(duì)象的位置、角度以及相機(jī)視角等的變化，其可以用一個(gè)剛體變換矩陣來刻畫；而時(shí)間上的非線性差異則主要是由于不同對(duì)象的執(zhí)行過程差異，或者是同一對(duì)象的2次不同節(jié)奏的執(zhí)行。因此，需要有一個(gè)合適的空間表示和時(shí)間對(duì)齊方法來進(jìn)行動(dòng)作的比較?；诖耍墨I(xiàn)[13]提出了一種新的基于距離矩陣的不變特征來表示運(yùn)動(dòng)姿態(tài)。該距離矩陣的每個(gè)元素定義為任意兩個(gè)關(guān)節(jié)點(diǎn)之間的歐式距離。為了克服對(duì)象的個(gè)體外表差異，在計(jì)算距離之前進(jìn)行了歸一化處理。由于剛體變換具有距離保持不變性，因此，具有相等關(guān)節(jié)點(diǎn)的距離矩陣所描述的動(dòng)作姿態(tài)相同。從而使得該特征具有魯棒的空間不變性。最后，文中采用動(dòng)作圖(Action Graph)來描述運(yùn)動(dòng)的動(dòng)態(tài)性，而轉(zhuǎn)移模型通過學(xué)習(xí)獲得，從而有效地解決了時(shí)間差異，即時(shí)間對(duì)齊問題。

1.1.2 基于深度相機(jī)的關(guān)節(jié)點(diǎn)方法

深度相機(jī)能夠感知距離信息，并通過OpenNI算法[14]來實(shí)時(shí)估計(jì)人體的骨架關(guān)節(jié)點(diǎn)位置。但這些關(guān)節(jié)點(diǎn)數(shù)據(jù)含有較大的噪聲，因此，很難將基于MoCap數(shù)據(jù)的方法直接遷移過來。近來，學(xué)術(shù)界提出了不少有效的針對(duì)深度相機(jī)的關(guān)節(jié)點(diǎn)方法, 主要是采用關(guān)節(jié)的位置及其相對(duì)位置關(guān)系來建模人體姿態(tài)。

1) 關(guān)節(jié)點(diǎn)位置

基于關(guān)節(jié)點(diǎn)位置的方法多采用詞袋(Bag of Word，BoW)技術(shù)來建模人體運(yùn)動(dòng)姿態(tài)。文獻(xiàn)[15]首先用關(guān)節(jié)位置處的時(shí)-空描述子來構(gòu)造視覺單詞，每個(gè)視覺單詞表示一個(gè)具有強(qiáng)判別性的運(yùn)動(dòng)姿態(tài)。然后將動(dòng)作實(shí)例用詞典中單詞出現(xiàn)的頻率來表示，從而獲得每個(gè)動(dòng)作的一個(gè)視覺單詞直方圖，并作為SVM的輸入來對(duì)動(dòng)作進(jìn)行分類。Xia等人[16]提出了一種基于關(guān)節(jié)點(diǎn)位置直方圖(Histograms of 3D Joint Locations, HOJ3D))的緊湊人體姿態(tài)表示方法。他們首先采用修正的球坐標(biāo)系統(tǒng)將3D空間劃分84個(gè)特定方向，每個(gè)方向作為直方圖的一個(gè)bin。然后將關(guān)節(jié)點(diǎn)位置投影到這84個(gè)方向bins上構(gòu)成HOJ3D，并采用LDA對(duì)特征空間進(jìn)行降維以獲得更加魯棒的特征表示。隨后，將降維后的特征空間聚類為k個(gè)姿態(tài)視覺單詞并進(jìn)行量化，每個(gè)視覺單詞表示動(dòng)作的一個(gè)原型姿態(tài)。最后，采用離散隱馬爾科夫模型來建模視覺單詞的時(shí)間進(jìn)化過程并進(jìn)行分類。

2) 關(guān)節(jié)點(diǎn)間的時(shí)-空相對(duì)位置關(guān)系

關(guān)節(jié)點(diǎn)間的時(shí)-空相對(duì)位置關(guān)系能夠提供更豐富的動(dòng)作姿態(tài)與運(yùn)動(dòng)信息。文獻(xiàn)[17-18]提出了一種新的名為EigenJoints的特征，它是姿態(tài)特征fcc、運(yùn)動(dòng)特征fcp和偏移特征fci三個(gè)子特征的組合。以單幀圖像內(nèi)關(guān)節(jié)點(diǎn)之間的位置差作為靜態(tài)的姿態(tài)特征，而運(yùn)動(dòng)特征則由關(guān)節(jié)點(diǎn)在前后相鄰兩幀間的位置差構(gòu)成。偏移特征表示為當(dāng)前幀與初始幀內(nèi)對(duì)應(yīng)關(guān)節(jié)點(diǎn)的位置差，前提是假設(shè)初始姿態(tài)為中立姿態(tài)。然后對(duì)這三個(gè)通道的特征進(jìn)行歸一化和PCA降維處理，以獲得低冗余度和低噪聲的EigenJoints描述子。最后采用樸素Bayes最近鄰 (Naive Bayes Nearest Neighbor，NBNN)分類器進(jìn)行分類。與此類似，文獻(xiàn)[19]同樣是采用NBNN分類器，所不同的是其采用關(guān)節(jié)點(diǎn)位置在一定時(shí)間段內(nèi)的偏移作為動(dòng)作的描述特征，并結(jié)合視覺詞袋模型來進(jìn)行動(dòng)作識(shí)別。

3) 低延時(shí)(Low Latency)的動(dòng)作識(shí)別

最近有一些研究者將工作重點(diǎn)轉(zhuǎn)移到處理更具挑戰(zhàn)性的在線動(dòng)作識(shí)別系統(tǒng)或交互式動(dòng)作識(shí)別問題上，即低延時(shí)(Low Latency)的動(dòng)作識(shí)別。所謂延時(shí)，指的是開始執(zhí)行動(dòng)作的時(shí)間與該動(dòng)作被正確識(shí)別出來的時(shí)間之差。該類問題的主要挑戰(zhàn)在于識(shí)別精度與低延時(shí)之間要有一個(gè)合理的權(quán)衡。為此，Ellis 等人[20]提出了一種基于3D關(guān)節(jié)點(diǎn)位置序列的延時(shí)感知(Aware)學(xué)習(xí)方法來漸少動(dòng)作識(shí)別時(shí)的延時(shí)。他們使用一個(gè)具有延時(shí)感知的多實(shí)例學(xué)習(xí)算法來訓(xùn)練一個(gè)基于邏輯回歸的分類器用以自動(dòng)從3D關(guān)節(jié)點(diǎn)數(shù)據(jù)序列中抽取最具強(qiáng)判別性的典型人體姿態(tài)并實(shí)時(shí)用這些姿態(tài)與模板庫中的人體姿態(tài)進(jìn)行比對(duì)以盡可能早地對(duì)動(dòng)作類別進(jìn)行判決。文獻(xiàn)[21]提出一種快速、簡(jiǎn)單且強(qiáng)有力的運(yùn)動(dòng)姿態(tài)(Moving Pose，MP)特征來進(jìn)行低延時(shí)的人體動(dòng)作識(shí)別。MP描述子由關(guān)節(jié)點(diǎn)的位置、速度和加速度信息3個(gè)元素構(gòu)成。前者用于描述動(dòng)作的靜態(tài)姿態(tài)特征，而后兩者對(duì)運(yùn)動(dòng)的動(dòng)態(tài)過程進(jìn)行刻畫。最后采用改進(jìn)的KNN分類器來進(jìn)行識(shí)別。

4) 流形學(xué)習(xí)方法

上述方法均在歐式空間中進(jìn)行人體動(dòng)作識(shí)別，然而，新近出現(xiàn)了一些基于非歐式空間的流形學(xué)習(xí)方法。Devanne 等人[22]提出了一種人體動(dòng)作的緊湊表示方法，將關(guān)節(jié)點(diǎn)的3D坐標(biāo)及其隨時(shí)間的變化表示為動(dòng)作空間中的一條軌跡，從而將動(dòng)作識(shí)別歸結(jié)為在Riemannian流形上計(jì)算軌跡形狀的相似性，并采用KNN分類器進(jìn)行動(dòng)作的分類。該表示能夠同時(shí)捕獲人體動(dòng)作的形狀和動(dòng)態(tài)性，這些特征對(duì)于建模人體動(dòng)作來說至關(guān)重要。與此類似，文獻(xiàn)[23]采用自回歸移動(dòng)平均模型(Auto Regressive and Moving Average model，ARMA)來建模人體關(guān)節(jié)點(diǎn)運(yùn)動(dòng)軌跡的動(dòng)態(tài)過程，最終將動(dòng)作的分類問題轉(zhuǎn)化為ARMA觀測(cè)矩陣的比較問題。ARMA觀測(cè)矩陣的列向量所張成的子空間為Grassmann流形上的一個(gè)點(diǎn)，該點(diǎn)可用局部切叢(Local Tangent Bandle，LTB)來表示。最后將LTB作為SVM分類器的輸入來進(jìn)行動(dòng)作識(shí)別。

1.2 基于深度映射圖像的方法

相對(duì)于精簡(jiǎn)的骨架關(guān)節(jié)點(diǎn)數(shù)據(jù)而言，深度映射圖像能夠提供更豐富的有關(guān)動(dòng)作的形狀和運(yùn)動(dòng)信息?；谏疃扔成鋱D像的人體動(dòng)作識(shí)別技術(shù)可分為整體方法和局部方法2種。下面分別對(duì)其進(jìn)行介紹。

1.2.1 整體方法

整體方法通常使用投影和時(shí)-空體這樣的全局特征來建模人體動(dòng)作姿態(tài)和運(yùn)動(dòng)的動(dòng)態(tài)性。

1) 投影方法

投影方法首先將深度映射序列所構(gòu)成的四維時(shí)-空體投影到特定平面視圖中，然后提取有意義的描述子來建模人體動(dòng)作。Yang等人[24]提出了一種稱為深度運(yùn)動(dòng)映射(Depth Motion Map，DMM)的方法來捕獲時(shí)間聚集的運(yùn)動(dòng)能量。具體來說，首先將深度映射圖像投影到前視圖、頂視圖和側(cè)視圖3正交平面上并歸一化。接著，在每個(gè)投影視圖下計(jì)算前后連續(xù)2幀圖像的差分并閾值化后產(chǎn)生一個(gè)二值映射圖像，并將二值映射圖像累積疊加起來以獲得每個(gè)投影視圖的DMM。然后，方向梯度直方圖(Histogram of Oriented Gradients, HOG)被應(yīng)用到每個(gè)視圖來提取特征，最后將3個(gè)視圖的特征串接起來形成DMM-HOG描述子，并用SVM分類器進(jìn)行識(shí)別。同樣，Chen等人[25]提出的TriViews框架也是基于前、頂和側(cè)視圖投影，分別在3個(gè)投影視圖中提取軌跡形狀、運(yùn)動(dòng)邊界和時(shí)-空興趣點(diǎn)特征，并以概率融合方法(Probabilistic Fusion Approach，PFA)[26]來進(jìn)行多種特征的有效組合，從而形成一種基于3視圖的通用動(dòng)作識(shí)別框架。

2) 時(shí)-空體方法

與投影方法不同，文獻(xiàn)[27]直接將深度映射序列作為一個(gè)時(shí)-空四維體，然后以不同位置和尺寸隨機(jī)采樣該四維體來獲得子體并計(jì)算子體中的占有信息(即落入子體中的像素個(gè)數(shù))，以此構(gòu)成一種新的隨機(jī)占有模式(Random Occupancy Pattern，ROP)特征，隨后對(duì)這些特征進(jìn)行稀疏編碼，其編碼系數(shù)作為SVM的輸入來進(jìn)行人體動(dòng)作識(shí)別。與此類似，Vieira等人[28]提出的時(shí)-空占有模式(Space-Time Occupancy Pattern, STOP)特征也對(duì)子體中的占有信息進(jìn)行編碼，所不同的是，他們采用相同尺寸的網(wǎng)格來采樣四維體。

1.2.2 局部方法

相對(duì)于整體方法，基于深度映射圖像序列的局部特征方法首先提取興趣點(diǎn)，然后在興趣點(diǎn)周圍鄰域內(nèi)計(jì)算一個(gè)局部特征描述子來進(jìn)行動(dòng)作識(shí)別。較整體方法而言，局部方法對(duì)噪聲、視角和遮擋具有更好的魯棒性。由于采集的深度序列圖像中混有噪聲，將RGB圖像中廣泛使用的興趣點(diǎn)檢測(cè)子，如Cuboid、3D Hessian和3D Harris角點(diǎn)，簡(jiǎn)單地拓展到深度圖像中效果并不理想。近來，出現(xiàn)了一些針對(duì)深度數(shù)據(jù)的局部特征描述子。Cheng等人[29]提出一種新的深度信息描述子：比較編碼描述子(Comparative Coding Descriptor)，用于刻畫動(dòng)作體中時(shí)-空點(diǎn)的結(jié)構(gòu)關(guān)系。他們首先使用3D Harris角點(diǎn)檢測(cè)算法提取時(shí)-空興趣點(diǎn)作為顯著點(diǎn)，然后以顯著點(diǎn)為中心構(gòu)造一個(gè)3×3×3的Cuboid，在此Cuboid中比較中心點(diǎn)與其它26個(gè)點(diǎn)的深度值，將差值按順序進(jìn)行編碼從而構(gòu)成CCD特征。文獻(xiàn)[30]構(gòu)建了一種局部深度模式(Local Depth Pattern，LDP)，用它來描述以特征點(diǎn)為中心的局部鄰域內(nèi)像素的深度值差異。最近，Xia等人[31]提出以DCSF(Depth Cuboid Similarity Feature)作為時(shí)-空深度Cuboid的描述子。DCSF主要是基于內(nèi)容的自相似性來描述深度視頻的局部外觀模式，即通過施加共享相同的視覺模式約束來捕獲視頻局部Patch的內(nèi)部幾何分布信息。該方法同樣具有多模態(tài)適應(yīng)性，能夠同時(shí)適用于RGB和深度數(shù)據(jù)。

1.3 基于深度相機(jī)3D點(diǎn)云數(shù)據(jù)的方法

通過深度相機(jī)采集的深度映射圖像可以直接轉(zhuǎn)換為3D點(diǎn)云數(shù)據(jù)。利用點(diǎn)云數(shù)據(jù)的動(dòng)作識(shí)別可分為基于局部占有模式和基于曲面法線2種方法。前者主要是以關(guān)節(jié)點(diǎn)為錨點(diǎn)，計(jì)算其周圍鄰域內(nèi)點(diǎn)云數(shù)據(jù)的局部占有模式(Local Occupancy Pattern，LOP)特征[32]，主要用于描述動(dòng)作的類內(nèi)變異。而基于法線的方法則在3D點(diǎn)云序列中的每個(gè)點(diǎn)的局部時(shí)-空體鄰域內(nèi)提取曲面的法線特征來描述動(dòng)作的幾何和運(yùn)動(dòng)信息[33-35]。目前，這方面的研究相對(duì)較新穎，相關(guān)的文獻(xiàn)也較少。

1.3.1 局部占有模式

人與周圍物體和環(huán)境的交互時(shí)有發(fā)生，使得采集的深度圖像有可能產(chǎn)生嚴(yán)重的遮擋，最終導(dǎo)致跟蹤的關(guān)節(jié)點(diǎn)精度急劇下降甚至完全錯(cuò)誤，從而增加了動(dòng)作的類內(nèi)可變性。為此，文獻(xiàn)[32]提出了一種新的LOP特征。它以關(guān)節(jié)點(diǎn)周圍區(qū)域點(diǎn)云數(shù)據(jù)為基礎(chǔ)，首先將該局部空間劃分為一定大小的網(wǎng)格，然后計(jì)算每個(gè)網(wǎng)格內(nèi)的占有信息，并通過Sigmoid函數(shù)歸一化后構(gòu)成LOP特征向量。除此之外，他們還將關(guān)節(jié)點(diǎn)特征與LOP特征串接起來進(jìn)行短時(shí)傅立葉變換，并將其系數(shù)作為每個(gè)關(guān)節(jié)點(diǎn)的傅里葉時(shí)間金字塔特征。這樣生成的特征無需嚴(yán)格的時(shí)間對(duì)齊，并對(duì)噪聲具有很好的魯棒性。為了獲得對(duì)每個(gè)動(dòng)作有判別性的關(guān)節(jié)點(diǎn)組合，即Actionlet，他們引入了基于先驗(yàn)的數(shù)據(jù)挖掘方法并通過多核學(xué)習(xí)算法來獲得該動(dòng)作的Actionlet集成模型。

1.3.2 曲面法線

與基于局部占有模式的方法不同，Oreifej等人[34]采用直方圖來捕獲點(diǎn)云序列所構(gòu)成的4D曲面法線的方向分布(Histogram of Oriented 4D surface Normals, HON4D)。為了構(gòu)建HON4D，首先將點(diǎn)云序列看作一個(gè)由時(shí)間、深度和空間坐標(biāo)構(gòu)成的4D空間，并用600個(gè)單元、120個(gè)頂點(diǎn)的四維體對(duì)該4D空間進(jìn)行初始量化，每個(gè)頂點(diǎn)稱為一個(gè)投影子(Projector)。接著以差分的方式計(jì)算該4D空間的曲面法線方向并投影到這120個(gè)投影子上。由于計(jì)算HON4D描述子需要在整個(gè)視頻序列上進(jìn)行，不能夠進(jìn)行實(shí)時(shí)動(dòng)作識(shí)別，且該方法首先需要對(duì)動(dòng)作進(jìn)行時(shí)-空對(duì)齊，因此具有一定的局限性。與HON4D特征類似，最近，Yang等人[35]則通過聚類點(diǎn)云序列中每個(gè)點(diǎn)鄰域內(nèi)的4D法線形成新的超級(jí)法向量描述子(Super Normal Vector, SNV)來擴(kuò)展HON4D，它能夠同時(shí)捕獲局部運(yùn)動(dòng)和幾何信息，因此具有更強(qiáng)的描述能力。文獻(xiàn)[33]提出了一種新的點(diǎn)云數(shù)據(jù)描述子：方向主成分直方圖(Histogram of Oriented Principal Components，HOPC)。該方法以3D點(diǎn)云序列中的每個(gè)點(diǎn)P為中心，計(jì)算落入半徑為r的球體內(nèi)所有點(diǎn)的散布矩陣(Scatter Matrix)的3個(gè)特征向量，即3個(gè)主成分向量，并將它們投影到以正20面體的每個(gè)頂點(diǎn)向量所確定的方向上。最后將投影分量串接起來，構(gòu)成一個(gè)大小為60維的描述向量作為該點(diǎn)的HOPC描述子，用于從局部幾何形狀上來刻畫動(dòng)作。該方法本質(zhì)上仍然是對(duì)以3D點(diǎn)云所確立的曲面法線進(jìn)行方向直方圖編碼，因?yàn)榫植壳娴淖钚≈鞒煞质窃撉娣ň€的最小二乘估計(jì)。因此，較基于差分的方法[34-35]，HOPC對(duì)噪聲具有更好的魯棒性。

1.4 RGB圖像與深度信息融合的多模態(tài)(Multi-Modal)方法

微軟Kinect相機(jī)的輸出是一個(gè)多模態(tài)信號(hào)，它能夠同時(shí)提供RGB視頻、深度映射圖像序列以及骨架關(guān)節(jié)點(diǎn)信息，從而有效克服了由于傳統(tǒng)的RGB相機(jī)將3D物理世界投影到2D圖像平面而失去深度信息并導(dǎo)致物體間的空間位置關(guān)系丟失、運(yùn)動(dòng)目標(biāo)檢測(cè)與上下環(huán)境建模的精度顯著下降的問題。同時(shí)，不同模態(tài)下的特征彼此相互獨(dú)立但又具有很強(qiáng)的互補(bǔ)性。為了獲得更好的識(shí)別性能，目前一些研究工作將多模態(tài)下的特征進(jìn)行有效融合并設(shè)計(jì)出了具有高判別性的描述向量，即同時(shí)利用深度、骨架與視覺信息來改進(jìn)識(shí)別結(jié)果。其融合方式可分為特征層和決策層2種融合模式。

1.4.1 特征層融合

特征層融合又稱為早期融合，是一種較簡(jiǎn)單、直接的融合方法，即將不同模態(tài)下提取的特征向量組合起來以形成一個(gè)更具描述力的向量。文獻(xiàn)[36]提出了一種將深度數(shù)據(jù)的骨架特征與RGB圖像中提取的基于剪影的特征進(jìn)行直接串接融合的方法。骨架特征按文獻(xiàn)[37]所描述的方法進(jìn)行了歸一化，使其具有尺度與旋轉(zhuǎn)不變性；而基于剪影的特征則通過徑向提取剪影的輪廓點(diǎn)來生成[38]。該融合方法能夠同時(shí)保留由兩種模態(tài)下的特征所提供的特性信息，融合后的特征仍然是一個(gè)相對(duì)低維的向量，適合實(shí)時(shí)識(shí)別。Shahroudy等人[39]提出了一種無監(jiān)督的結(jié)構(gòu)化稀疏特征融合方法。他們分別提取了RGB通道中的密集軌跡特征與深度通道中的骨架數(shù)據(jù)，然后對(duì)這些特征進(jìn)行加權(quán)組合，權(quán)重為無監(jiān)督的結(jié)構(gòu)化稀疏表示系數(shù)。該方法有效避免了由于不同模態(tài)下的特征直接進(jìn)行組合時(shí)有可能降低其判別性能的問題。

1.4.2 決策層融合

不同于特征層的融合，決策層的融合又稱為后期融合，主要是將針對(duì)各模態(tài)特征分別設(shè)計(jì)的分類器輸出結(jié)果進(jìn)行組合以作最終的判決。文獻(xiàn)[40]分別從RGB圖像中提取3D Harris角點(diǎn)、時(shí)-空梯度自相關(guān)特征[41]和從深度數(shù)據(jù)中提取EigenJoints[17-18]、 HON4D[34]特征進(jìn)行決策層的融合，并詳細(xì)討論了5種不同的決策層融合方法對(duì)識(shí)別性能的影響，具體流程如圖1所示。

1.5 基于深度學(xué)習(xí)(Deep Learning)的方法

深度學(xué)習(xí)是一種無監(jiān)督的學(xué)習(xí)方法，相對(duì)于人工設(shè)計(jì)的特征，它能夠從大量訓(xùn)練樣本數(shù)據(jù)中自主學(xué)習(xí)到具有強(qiáng)判別力和表示能力的特征。隨著深度學(xué)習(xí)在語音識(shí)別、自然語言處理以及計(jì)算機(jī)視覺領(lǐng)域的成功應(yīng)用，人體動(dòng)作識(shí)別研究領(lǐng)域也相繼出現(xiàn)了一些基于該技術(shù)的方法。

Cho Kyunghyun等人[42]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)的人體動(dòng)作識(shí)別方法。他們首先從每幀中抽取以下特征：關(guān)節(jié)點(diǎn)的相對(duì)位置、時(shí)間差分和歸一化的運(yùn)動(dòng)軌跡，然后基于這些特征來訓(xùn)練一個(gè)多層感知機(jī)(Multi Layer Perceptron，MLP)并用于對(duì)輸入數(shù)據(jù)進(jìn)行重構(gòu)和分類。

最近，Wang等人[43]設(shè)計(jì)了一種多層深度運(yùn)動(dòng)映射的CNN架構(gòu)來進(jìn)行人體動(dòng)作識(shí)別。首先，為了有效提取與視角無關(guān)的人體形狀與運(yùn)動(dòng)信息，他們對(duì)原始3D點(diǎn)云數(shù)據(jù)進(jìn)行了旋轉(zhuǎn)并投影到前視圖、頂視圖和側(cè)視圖3正交平面視圖中，然后對(duì)每個(gè)視圖在不同時(shí)間尺度上生成多層深度運(yùn)動(dòng)映射圖(Hierarchical Depth Motion Maps，HDMM)并輸入到CNN網(wǎng)絡(luò)中進(jìn)行特征提取，最后對(duì)3個(gè)視圖通道的識(shí)別結(jié)果進(jìn)行決策層的融合。

1.6 對(duì)各方法的總結(jié)

在此節(jié)中，筆者對(duì)綜述文獻(xiàn)分別從文獻(xiàn)所屬的分類類別、發(fā)表的時(shí)間、文中所使用的特征及對(duì)特征的表示方法、所采用的分類器和實(shí)驗(yàn)中用到的測(cè)試數(shù)據(jù)集5個(gè)指標(biāo)進(jìn)行了總結(jié)，如表1所示。

各種方法所采用的數(shù)據(jù)集和驗(yàn)證策略差別很大，因此很難采用一個(gè)統(tǒng)一標(biāo)準(zhǔn)來對(duì)它們的性能優(yōu)劣做出一個(gè)客觀、真實(shí)的評(píng)價(jià)。由于MSR Action3D[15]數(shù)據(jù)集是最早建立的、使用最廣泛的基于深度相機(jī)的公用測(cè)試集，大多數(shù)方法都將其作為性能評(píng)價(jià)的一個(gè)基準(zhǔn)。但盡管這樣，仍然有許多方法在測(cè)試樣本與訓(xùn)練樣本的劃分方式和數(shù)量上存在很大差異。

因此，筆者以MSR Action3D數(shù)據(jù)集為討論基礎(chǔ)，采用跨目標(biāo)(Cross-subject)和交叉(Cross-validation)驗(yàn)證兩種驗(yàn)證方式以從不同角度來全面匯總和比較各種算法的性能差異。

首先對(duì)MSR Action3D數(shù)據(jù)集做一個(gè)簡(jiǎn)單介紹。MSR Action3D數(shù)據(jù)集包含20個(gè)類別的動(dòng)作數(shù)據(jù)，由10個(gè)演員執(zhí)行，每類動(dòng)作每個(gè)演員執(zhí)行2～3次，總共構(gòu)成567個(gè)樣本序列。該數(shù)據(jù)集的其他描述信息見表2。為了減少測(cè)試時(shí)的計(jì)算復(fù)雜度，數(shù)據(jù)集依據(jù)動(dòng)作的復(fù)雜程度被再次劃分為3個(gè)子集：AS1，AS2和AS3。其中子集AS1和AS2中包含的動(dòng)作復(fù)雜度相對(duì)較低，但每個(gè)子集內(nèi)的動(dòng)作相似度較高。子集AS3中的動(dòng)作復(fù)雜度最高。每個(gè)子集具體包含的動(dòng)作類別如表3所示。

1.6.1 跨目標(biāo)驗(yàn)證(Cross-subject test)

跨目標(biāo)測(cè)試的思想是：訓(xùn)練樣本與測(cè)試樣本分別來自不同演員執(zhí)行的動(dòng)作序列。即使是同類型的動(dòng)作，由于個(gè)體在執(zhí)行時(shí)的差異性，往往使得采集的樣本具有較大的類內(nèi)方差。該類驗(yàn)證機(jī)制可以有效評(píng)估算法的泛化性能和魯棒性。在此數(shù)據(jù)集上，有9篇文獻(xiàn)采用以下策略來進(jìn)行測(cè)試：對(duì)于每個(gè)子集中的樣本數(shù)據(jù)，由1、3、5、7、9號(hào)演員執(zhí)行動(dòng)作所采集的樣本作為訓(xùn)練數(shù)據(jù)，剩余樣本作為測(cè)試數(shù)據(jù)。按照方法、時(shí)間、每類子集上的識(shí)別率(%)、平均識(shí)別率(%)和在整個(gè)數(shù)據(jù)集上的識(shí)別率(%)進(jìn)行匯總與比較，具體內(nèi)容如表4所示。另外，有3篇文獻(xiàn)采用1～5號(hào)演員執(zhí)行動(dòng)作所采集的樣本作為訓(xùn)練數(shù)據(jù)，剩余樣本作為測(cè)試數(shù)據(jù)。其識(shí)別率如表5所示。

說明：1、3、5、7、9號(hào)演員作為訓(xùn)練樣本，其余作為測(cè)試樣本。

說明：1～5號(hào)演員作為訓(xùn)練樣本，其余作為測(cè)試樣本。

1.6.2 交叉驗(yàn)證(Cross-validation)

交叉驗(yàn)證是用來驗(yàn)證分類器性能的一種常用統(tǒng)計(jì)分析方法，基本思想是按照一定的劃分方式將原始數(shù)據(jù)集進(jìn)行分組，一部分作為訓(xùn)練集，另一部分作為驗(yàn)證集。首先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練，再利用驗(yàn)證集來測(cè)試訓(xùn)練得到的模型，以此來作為評(píng)價(jià)分類器的性能指標(biāo)。根據(jù)其劃分方式不同可分為：2-折交叉驗(yàn)證(2-fold cross-validation)和留一法交叉驗(yàn)證(Leave-One-Out cross-validation)等。前者隨機(jī)將原始數(shù)據(jù)均分為2組，將每組分別做一次驗(yàn)證子集和訓(xùn)練子集，這樣會(huì)得到2個(gè)模型，用在2個(gè)模型最終的驗(yàn)證子集的分類精度的平均值作為分類器的性能指標(biāo)。文獻(xiàn)[37]便采用此種驗(yàn)證方式，其識(shí)別性能如表6所示。

而對(duì)于留一法交叉驗(yàn)證，其基本思路是：假設(shè)原始數(shù)據(jù)有N個(gè)樣本，每個(gè)樣本單獨(dú)作為驗(yàn)證集，其余的N-1個(gè)樣本作為訓(xùn)練集，這樣會(huì)得到N個(gè)模型，用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為分類器的性能指標(biāo)。留一法評(píng)估結(jié)果的客觀度和準(zhǔn)確性較前面幾種驗(yàn)證方法均要高，但計(jì)算量也是該方法的致命弱點(diǎn)。文獻(xiàn)[36]采用此種驗(yàn)證方法，其結(jié)果如表6所示。

2 公用測(cè)試數(shù)據(jù)集

人體動(dòng)作識(shí)別技術(shù)的巨大進(jìn)步得益于各種公用標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集的建立。筆者對(duì)綜述文獻(xiàn)中引用的14個(gè)數(shù)據(jù)集從建立的時(shí)間、所包含的動(dòng)作類別數(shù)、樣本數(shù)和特性等角度進(jìn)行了總結(jié)，如表2所示。這些數(shù)據(jù)集中的絕大多數(shù)均采用微軟的Kinect相機(jī)作為采集工具，它們?yōu)楦鞣N動(dòng)作識(shí)別算法的性能分析搭建了一個(gè)公平的環(huán)境，并將繼續(xù)推動(dòng)和促進(jìn)相關(guān)研究工作的進(jìn)一步發(fā)展。

3 未來的研究方向

低成本的深度傳感器為人體動(dòng)作識(shí)別的研究提供了極好的發(fā)展機(jī)會(huì)，在過去的幾年中，基于深度相機(jī)的人體動(dòng)作識(shí)別研究雖然取得了巨大的進(jìn)步，但仍然存在許多挑戰(zhàn)亟待解決。在未來的研究工作中，一方面要從深度和骨架數(shù)據(jù)中設(shè)計(jì)更具判別力和緊致的特征向量來描述人體動(dòng)作，另一方面是拓展當(dāng)前已有的方法來應(yīng)對(duì)更加復(fù)雜的人體動(dòng)作，如交互和群體活動(dòng)等，具體來說，將涉及到以下4個(gè)方面的問題。

1) 交互動(dòng)作與群體活動(dòng)識(shí)別

理解與解釋人-人、人-物之間的交互動(dòng)作/活動(dòng)的語義信息在諸如機(jī)器人和人-機(jī)交互等領(lǐng)域中有著廣泛而實(shí)際的應(yīng)用。交互動(dòng)作中必然會(huì)產(chǎn)生身體部分被遮擋、人與物間的相互遮擋和復(fù)雜背景問題，從而使得各種動(dòng)作描述方法的刻畫、判別能力顯著下降。目前的動(dòng)作識(shí)別方法主要聚焦在手勢(shì)與簡(jiǎn)單的動(dòng)作識(shí)別上，僅有少數(shù)工作針對(duì)較為復(fù)雜的人-人或人-物交互動(dòng)作的識(shí)別。在這方面仍需要深入的研究來取得更好的處理能力以滿足實(shí)際應(yīng)用的需要。另外，在包括多個(gè)人體目標(biāo)的群體活動(dòng)識(shí)別方面，目前還沒有相關(guān)的研究工作，其中一個(gè)主要原因是當(dāng)前的低成本深度傳感器還不具備捕獲大范圍場(chǎng)景數(shù)據(jù)的能力。

2) 多視角與跨視角動(dòng)作識(shí)別

視角變化問題，無論是在傳統(tǒng)的RGB圖像中，還是在深度數(shù)據(jù)中，對(duì)于動(dòng)作識(shí)別來說始終是一個(gè)大的挑戰(zhàn)。在現(xiàn)實(shí)世界的動(dòng)作識(shí)別系統(tǒng)中，視頻序列往往是以任意相機(jī)視點(diǎn)捕獲；因此，系統(tǒng)性能必須具備視角不變性。然而，目前的大多數(shù)算法仍然是基于有約束的視角，如要求演員正對(duì)著相機(jī)執(zhí)行動(dòng)作。此外，當(dāng)前被廣泛使用的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集絕大部分也是在單一視角下拍攝的。由于視角的隨意性、動(dòng)作的多變性以及訓(xùn)練樣本的有限性，實(shí)際應(yīng)用中更一般的情況是在某一視角下的特征仍然適用于其它視角下的識(shí)別任務(wù)，即交叉視角下的動(dòng)作識(shí)別問題。因此，未來需要更復(fù)雜的視角不變算法來應(yīng)對(duì)這些問題。而從深度相機(jī)捕獲的點(diǎn)云數(shù)據(jù)中設(shè)計(jì)與提取視角不變特征將是一種行之有效的方法。

3) 低延時(shí)動(dòng)作識(shí)別

目前的人體動(dòng)作識(shí)別方法在追求高識(shí)別率的同時(shí)其算法的復(fù)雜度也隨之增加，即具有高的計(jì)算延時(shí)性。而作為動(dòng)作識(shí)別的一個(gè)重要應(yīng)用領(lǐng)域，人-機(jī)交互對(duì)算法的實(shí)時(shí)性要求非常高，甚至在一個(gè)動(dòng)作還沒有完全執(zhí)行完整時(shí)就能準(zhǔn)確判斷或預(yù)測(cè)動(dòng)作所傳達(dá)的語義信息，稱之為低觀測(cè)延時(shí)性。因此，設(shè)計(jì)與開發(fā)具有低延時(shí)性的動(dòng)作識(shí)別算法是朝著未來實(shí)用型人-機(jī)交互系統(tǒng)邁出的關(guān)鍵一步。

4) 多模態(tài)特征與融合技術(shù)

不同模態(tài)下的人體動(dòng)作數(shù)據(jù)具有各自的特性，同時(shí)擁有很強(qiáng)的描述互補(bǔ)性，能夠進(jìn)一步提高動(dòng)作識(shí)別系統(tǒng)的性能，這一點(diǎn)已經(jīng)在目前一些基于多模態(tài)特征融合的方法中得到了強(qiáng)有力的證實(shí)。充分利用和挖掘深度傳感器所提供的多模態(tài)數(shù)據(jù)并進(jìn)行強(qiáng)有效的融合仍然是未來設(shè)計(jì)高精度人體動(dòng)作識(shí)別系統(tǒng)的一個(gè)行之有效的途徑。當(dāng)前，仍然沒有一種具有絕對(duì)優(yōu)勢(shì)的特征描述算法來進(jìn)行有效的人體動(dòng)作識(shí)別，能否將不同模態(tài)下的各種動(dòng)作識(shí)別方法統(tǒng)一在一個(gè)框架下進(jìn)行，即設(shè)計(jì)出具有適用于不同模態(tài)數(shù)據(jù)的自適應(yīng)特征檢測(cè)與描述算法將是另一個(gè)新的起點(diǎn)。

總之，人體動(dòng)作識(shí)別系統(tǒng)不僅需要從視覺信號(hào)中提取低層的外觀及運(yùn)動(dòng)信息，而且還需要復(fù)雜的機(jī)器學(xué)習(xí)模型來理解這些信息的語義含義。為此，需要綜合利用多方面的知識(shí)，包括采用兼具視覺與深度信息的多模態(tài)傳感器來精確地獲得視覺信號(hào)，能有效描述高維視覺數(shù)據(jù)的視頻或圖像表示方法，發(fā)掘有意義知識(shí)的模式挖掘技術(shù)以及能夠從大數(shù)據(jù)中進(jìn)行自主學(xué)習(xí)的機(jī)器學(xué)習(xí)算法。

4 結(jié) 語

深度傳感器的發(fā)展，尤其是微軟Kinect相機(jī)的出現(xiàn)，為人體動(dòng)作識(shí)別提供了新的機(jī)遇。越來越多的方法采用深度數(shù)據(jù)來進(jìn)行人體動(dòng)作識(shí)別。本文對(duì)最近幾年中基于深度數(shù)據(jù)的人體動(dòng)作識(shí)別算法進(jìn)行了較全面的綜述。并對(duì)相關(guān)的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集進(jìn)行了較詳細(xì)的描述。最后給出了未來的研究方向。

[1]Ramanathan M, Yau Wei-Yun, Teoh Eam Khwang. Human action recognition with video data: research and evaluation challenges[J]. Human-Machine Systems, IEEE Transactions on, 2014, 44(5): 650-663.

[2]Weinland Daniel, Ronfard Remi, Boyer Edmond. A survey of vision-based methods for action representation, segmentation and recognition[J]. Computer Vision and Image Understanding, 2011, 115(2): 224-241.

[3]Weinland D, Boyer E. Action recognition using exemplar-based embedding[C]//Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, 2008:1-7.

[4]Bobick A F, Davis J W. The recognition of human movement using temporal templates[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2001, 23(3): 257-267.

[5]Guo K, Ishwar P, Konrad J. Action recognition in video by sparse representation on covariance manifolds of silhouette tunnels[C]//Recognizing patterns in signals, speech, images, and videos, 2010: 294-305.

[6]Gorelick L, Blank M, Shechtman E, et al. Actions as space-time shapes[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2007, 29(12): 2247-2253.

[7]Klaser Alexander, Marszalek Marcin. A spatio-temporal descriptor based on 3d-gradients[C]. British Mach. Vision Conf., 2008.

[8]Wang Heng, A Klaser, C Schmid, et al. Action recognition by dense trajectories[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, 2011: 3169-3176.

[9]Han Jungong, Shao Ling, Xu Dong, et al. Enhanced computer vision with microsoft kinect sensor: A review[J]. Cybernetics, IEEE Transactions on, 2013, 43(5): 1318-1334.

[10]Johansson Gunnar. Visual motion perception[J]. Scientific American, 1975, 232(6): 76-88.

[11]Cmu: Carnegie-mellon mocap database[EB/OL].[2014-12-21]. http://mocap.cs.cmu.edu/, 2003.

[12]Müller Meinard, R?der Tido, Clausen Michael. Efficient content-based retrieval of motion capture data[C]//ACM Transactions on Graphics (TOG), 2005: 677-685.

[13]Vieira A W, Lewiner T, Schwartz W R, et al. Distance matrices as invariant features for classifying mocap data[C]//Pattern Recognition (ICPR), 2012 21st International Conference on, 2012: 2934-2937.

[14]Shotton J, Fitzgibbon A, Cook M, et al. Real-time human pose recognition in parts from single depth images[C]//Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, 2011: 1297-1304.

[15]Li Wanqing, Zhang Zhengyou, Liu Zicheng. Action recognition based on a bag of 3d points[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference on, 2010: 9-14.

[16]Xia Lu, Chen Chia-Chih, Aggarwal J K. View invariant human action recognition using histograms of 3d joints[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on, 2012: 20-27.

[17]Yang Xiaodong, Tian Yingli. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on, 2012: 14-19.

[18]Yang Xiaodong, Tian Yingli. Effective 3d action recognition using eigenjoints[J]. Journal of Visual Communication and Image Representation, 2014, 25(1): 2-11.

[19]Lu Guoliang, Zhou Yiqi, Li Xueyong, et al. Efficient action recognition via local position offset of 3d skeletal body joints[J]. Multimedia Tools and Applications, 2015: 1-16(DOI: 10.1007/s11042-015-2448-1).

[20]Ellis Chris, Masood SyedZain, Tappen MarshallF, et al. Exploring the trade-off between accuracy and observational latency in action recognition[J]. International Journal of Computer Vision, 2013, 101(3): 420-436.

[21]Zanfir M, Leordeanu M, Sminchisescu C. The moving pose: An efficient 3d kinematics descriptor for low-latency action recognition and detection[C]//Computer Vision (ICCV), 2013 IEEE International Conference on, 2013: 2752-2759.

[22]Devanne M, Wannous H, Berretti S, et al. 3-d human action recognition by shape analysis of motion trajectories on riemannian manifold[J]. Cybernetics, IEEE Transactions on, 2014, PP(99): 1-1.

[23]Slama Rim, Wannous Hazem, Daoudi Mohamed, et al. Accurate 3d action recognition using learning on the grassmann manifold[J]. Pattern Recognition, 2015, 48(2): 556-567.

[24]Yang Xiaodong, Zhang Chenyang, Tian Yingli. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]//Proceedings of the 20th ACM international conference on Multimedia, 2012: 1057-1060.

[25]Chen Wenbin, Guo Guodong. Triviews: A general framework to use 3d depth data effectively for action recognition[J]. Journal of Visual Communication and Image Representation, 2015, 26: 182-191.

[26]Guo Guodong, Fu Yun, Dyer Charles R, et al. A probabilistic fusion approach to human age prediction[C]//Computer Vision and Pattern Recognition Workshops, 2008. CVPRW'08. IEEE Computer Society Conference on, 2008: 1-6.

[27]Wang Jiang, Liu Zicheng, Chorowski Jan, et al. Robust 3d action recognition with random occupancy patterns[C]//Computer vision-eccv 2012, Springer Berlin Heidelberg, 2012: 872-885.

[28]Vieira Antonio W, Nascimento Erickson R, Oliveira Gabriel L, et al. Stop: Space-time occupancy patterns for 3d action recognition from depth map sequences.[C]//Progress in pattern recognition, image analysis, computer vision, and applications, Springer Berlin Heidelberg, 2012: 252-259.

[29]Cheng Zhongwei, Qin Lei, Ye Yituo, et al. Human daily action analysis with multi-view and color-depth data[C]//Computer Vision-ECCV 2012. Workshops and Demonstrations, 2012: 52-61.

[30]Zhao Yang, Liu Zicheng, Yang Lu, et al. Combing rgb and depth map features for human activity recognition[C]//Signal & Information Processing Association Annual Summit and Conference (APSIPA ASC), 2012 Asia-Pacific, 2012: 1-4.

[31]Lu Xia, Aggarwal J K. Spatio-temporal depth cuboid similarity feature for activity recognition using depth camera[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, 2013: 2834-2841.

[32]Wang Jiang, Liu Zicheng, Wu Ying, et al. Mining actionlet ensemble for action recognition with depth cameras[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, 2012: 1290-1297.

[33]Rahmani Hossein, Mahmood Arif, Huynh Du Q, et al. Hopc: Histogram of oriented principal components of 3d pointclouds for action recognition[C]//Computer vision-eccv 2014, Springer, 2014: 742-757.

[34]Oreifej Omar, Liu Zicheng. Hon4d: Histogram of oriented 4d normals for activity recognition from depth sequences[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, 2013: 716-723.

[35]Yang Xiaodong, Tian Yingli. Super normal vector for activity recognition using depth sequences[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, 2014: 804-811.

[36]Chaaraoui Alexandros Andre, Padilla-López José Ramón, Flórez-Revuelta Francisco. Fusion of skeletal and silhouette-based features for human action recognition with rgb-d devices[C]//Computer Vision Workshops (ICCVW), 2013 IEEE International Conference on, 2013: 91-97.

[37]Chaaraoui Alexandros Andre, Padilla-López José Ramón, Climent-Pérez Pau, et al. Evolutionary joint selection to improve human action recognition with rgb-d devices[J]. Expert Systems with Applications, 2014, 41(3): 786-794.

[38]Chaaraoui Alexandros Andre, Flórez-Revuelta Francisco. Human action recognition optimization based on evolutionary feature subset selection[C]//Proceedings of the 15th annual conference on Genetic and evolutionary computation, 2013: 1229-1236.

[39]Shahroudy Amir, Wang Gang, Ng Tian-Tsong. Multi-modal feature fusion for action recognition in rgb-d sequences[C]//Communications, Control and Signal Processing (ISCCSP), 2014 6th International Symposium on, 2014: 1-4.

[40]Zhu Yu, Chen Wenbin, Guo Guodong. Fusing multiple features for depth-based action recognition[J]. ACM Trans. Intell. Syst. Technol., 2015, 6(2): 1-20.

[41]Kobayashi Takumi, Otsu Nobuyuki. Motion recognition using local auto-correlation of space-time gradients[J]. Pattern Recognition Letters, 2012, 33(9): 1188-1195.

[42]Cho Kyunghyun, Chen Xi. Classifying and visualizing motion capture sequences using deep neural networks[J]. arXiv preprint arXiv:1306.3874, 2013.

[43]Wang Pichao, Li Wanqing, Gao Zhimin, et al. Deep convolutional neural networks for action recognition using depth map sequences[J]. arXiv preprint arXiv:1501.04686, 2015.

[44]Müller Meinard, Baak Andreas, Seidel Hans-Peter. Efficient and robust annotation of motion capture data[C]//Proceedings of the 2009 ACM SIGGRAPH/Eurographics Symposium on Computer Animation, 2009: 17-26.

[45]Müller Meinard, R?der Tido, Clausen Michael, et al. Documentation mocap database hdm05[R].Technical report, No. CG-2007-2, Universit?t Bonn, June 2007.

[46]Fothergill Simon, Mentis Helena, Kohli Pushmeet, et al. Instructing people for training gestural interactive systems[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2012: 1737-1746.

[47]Seidenari Lorenzo, Varano Vincenzo, Berretti Stefano, et al. Recognizing actions from depth cameras as weakly aligned multi-part bag-of-poses[C]//Computer Vision and Pattern Recognition Workshops (CVPRW), 2013 IEEE Conference on, 2013: 479-485.

[48]Kurakin Alexey, Zhang Zhengyou, Liu Zicheng. A real time system for dynamic hand gesture recognition with a depth sensor[C]//Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, 2012: 1975-1979.

[49]Ni Bingbing, Wang Gang, Moulin Pierre. Rgbd-hudaact: A color-depth video database for human daily activity recognition[C]//2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), 2011: 1147-1153.

[50]Jaeyong Sung, Ponce C, Selman B, et al. Unstructured human activity detection from rgbd images[C]//Robotics and Automation (ICRA), 2012 IEEE International Conference on, 2012: 842-849.

[51]Ellis Chris, Masood Syed Zain, Tappen Marshall F, et al. Exploring the trade-off between accuracy and observational latency in action recognition[J]. International Journal of Computer Vision, 2013, 101(3): 420-436.

(責(zé)任編輯王衛(wèi)勛)

A review for human action recognition based on depth data

CHEN Wanjun, ZHANG Erhu

(Faculty of Printing，Packaging Engineering and Digital Media Technology,Xi’an University of Technology，Xi’an 710048，China)

With the invention of the low-cost depth sensors, especially the emergence of Microsoft Kinect, high-resolution depth and visual (RGB) sensing data has become available for widespread use, which opens up new opportunities to solve fundamental problems in computer vision community. This paper presents a comprehensive review of recent depth-based human action recognition algorithms. Firstly, we develop a taxonomic framework according to features and original data type. Following our taxonomy, recent published research on the use of depth data for recognizing human action is reviewed. Then, the publicly available datasets cited in their work are listed. Finally, the authors discuss and suggest future research directions.

human action recognition； depth sensors； Kinect； skeleton joints； depth data

1006-4710(2015)03-0253-12

2015-03-12

國家自然科學(xué)基金資助項(xiàng)目(61073092 )。

陳萬軍，男，博士生，研究方向?yàn)橛?jì)算機(jī)視覺和模式識(shí)別。E-mail: wjchen@xaut.edu.cn。

張二虎，男，教授，博導(dǎo)，研究方向?yàn)閳D像處理、模式識(shí)別與智能信息處理。E-mail: eh-zhang@xaut.edu.cn。

TP391

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度信息的人體動(dòng)作識(shí)別研究綜述

1 分類方法

2 公用測(cè)試數(shù)據(jù)集

3 未來的研究方向

4 結(jié) 語