亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)雜背景下基于定位的人體動作識別算法

2016-12-20 06:29:28劉長征張榮華馬金利

實驗室研究與探索 2016年2期

關(guān)鍵詞：先驗姿態(tài)部位

劉長征，張榮華，郭理，馬金利

(石河子大學(xué) a. 信息科學(xué)與技術(shù)學(xué)院; b. 人事處，新疆石河子 832003)

復(fù)雜背景下基于定位的人體動作識別算法

劉長征a，張榮華a，郭理a，馬金利b

(石河子大學(xué) a. 信息科學(xué)與技術(shù)學(xué)院; b. 人事處，新疆石河子 832003)

當(dāng)前大多數(shù)對人體動作識別算法要求大量訓(xùn)練數(shù)據(jù)或MoCAP來處理多視角問題，且依賴于干凈的人體輪廓。本文提出了一種復(fù)雜背景下單人體動作識別算法，通過從3D動作模型中采樣，并對每個姿態(tài)樣本進(jìn)行定位實現(xiàn)人體姿態(tài)識別。首先通過對2D關(guān)鍵姿態(tài)進(jìn)行注解，然后將其提升為線條畫，再計算3D關(guān)鍵姿態(tài)外形間的變換矩陣。考慮到從粗獷的動作模型中采樣獲得的姿態(tài)可能與觀察不夠匹配，文章提出了一種通過生成姿態(tài)部位模型(PSPM)來實現(xiàn)姿態(tài)高效定位的方法，所生成的PSPM模型用樹結(jié)構(gòu)有效描述了合適的運動學(xué)和遮擋約束。此外，本文提出的方法不需要姿態(tài)的輪廓。最后基于兩種公開數(shù)據(jù)集及一種新的帶有動態(tài)背景的增強型數(shù)據(jù)集，證明本文方法相比以前算法實現(xiàn)了性能提升。

人體動作識別；變換矩陣；姿態(tài)；定位；遮擋約束

0 引言

對單個相機獲得的視頻進(jìn)行單人體動作識別[1]在監(jiān)視、HCI、視頻檢索等多種領(lǐng)域中得到了廣泛應(yīng)用，是近年來的研究熱點。當(dāng)人體外觀發(fā)生變化時，當(dāng)前動作識別方法的效果較優(yōu)，但如何在較低訓(xùn)練要求下對視角變化并處理帶噪動態(tài)背景仍然是個難題[2]。

實現(xiàn)動作識別的直觀方法就是首先估計人體姿態(tài)，然后根據(jù)姿態(tài)動態(tài)特征來推斷出相應(yīng)動作[3]。然而，這些方法的有效性取決于可靠的人體姿態(tài)跟蹤算法。常見方法是避免姿態(tài)跟蹤，利用支持向量機或圖形模型(比如CRF[4]或LDA[5])進(jìn)行動作分類器學(xué)習(xí)，進(jìn)而直接將圖像描述符與動作模型相匹配。然而，這些模型難以獲得時域關(guān)系，并且這些方法往往需要大量多視角訓(xùn)練數(shù)據(jù)。

另一種方法是同時進(jìn)行姿態(tài)跟蹤和動作識別，我們將其稱為聯(lián)合跟蹤和識別方法。這些方法需要學(xué)習(xí)可以描述人體3D姿態(tài)變化的動作模型，并且在推斷期間使用動作先驗知識來跟蹤姿態(tài)，使用估計出來的姿態(tài)來識別動作。這些方法在多視角條件下性能優(yōu)異，其中大多數(shù)方法為了提高模型學(xué)習(xí)的準(zhǔn)確性需要3D MoCAP數(shù)據(jù)[6]，或者假設(shè)背景為靜態(tài)背景，然后利用人體輪廓進(jìn)行定位和匹配[7-8]。文獻(xiàn)[9]提出了一種不需要MoCAP的多視角方法，通過將動作模型采樣獲得的姿態(tài)與人體輪廓相匹配，利用2D關(guān)鍵姿態(tài)注釋來學(xué)習(xí)3D動作模型，進(jìn)而實現(xiàn)動作識別。然而，從這些粗獷模型中采樣獲得的姿態(tài)往往導(dǎo)致嚴(yán)重的匹配誤差，而且這些誤差會隨時間累積，顯著降低了識別效果，在帶噪場景下更是如此。

人們已經(jīng)證明，基于部位的圖形模型可以實現(xiàn)復(fù)雜背景下2D姿態(tài)的準(zhǔn)確定位[10]，但是這些方法沒有對部位間的遮擋現(xiàn)象進(jìn)行建模。部位間遮擋條件下的姿態(tài)定位問題要求同時對人體運動學(xué)特征和部位間遮擋現(xiàn)象進(jìn)行建模，增加了推理難度。當(dāng)前方法使用公因子模型[11]或多個樹來建模這些約束，然后使用無參數(shù)消息傳輸或分支定界法[12]來推斷出姿態(tài)。然而，這些方法要么使用人體輪廓，要求各視角下的訓(xùn)練數(shù)據(jù)，要么跟蹤效率太低。文獻(xiàn)[13]通過訓(xùn)練多個單視角模型來估計走動姿態(tài)。然而，當(dāng)有多個動作時需要訓(xùn)練大量模型。為此，我們提出一種聯(lián)合跟蹤和識別算法，通過從3D動作模型中采樣并對每個姿態(tài)樣本進(jìn)行定位實現(xiàn)人體姿態(tài)識別，最后通過仿真實驗驗證了本文方案的有效性。

1 動作識別

本文提出一種聯(lián)合跟蹤和識別算法，既利用先驗知識進(jìn)行跟蹤，又根據(jù)跟蹤結(jié)果進(jìn)行動作識別。為每個動作在一個尺度和泛正規(guī)化3D空間獲得一個合適的人體動作動態(tài)特征近似模型，實現(xiàn)尺度和視角不變表示。具體是將姿態(tài)縮放到固定大小的已知高度。在進(jìn)行推理時，使用動作受限姿態(tài)空間的一種3D人體模型進(jìn)行跟蹤，進(jìn)而對圖像觀察結(jié)果與動作模型進(jìn)行匹配，找到匹配指數(shù)最高的動作。先討論動作表示和模型學(xué)習(xí)及討論動作和姿態(tài)推理，再分析姿態(tài)定位。

1.1 表示與學(xué)習(xí)

本文為每個動作單獨學(xué)習(xí)可以描述人體姿態(tài)動態(tài)特征的模型。該模型基于如下概念：單人體動作可表示為在多個代表性關(guān)鍵姿態(tài)間進(jìn)行的線性變換所組成的一個序列。受文獻(xiàn)[9]啟發(fā)，將一對關(guān)鍵姿態(tài)間的線性變換看成一個基元。例如，走路動作可以表示為4個基元：左腿向前→右腿越過左腿→右腿向前→左腿越過右腿。在這里，每個基元是身體部位旋轉(zhuǎn)所組成的集合，比如在走動時包括上腿圍繞臀部的旋轉(zhuǎn)和下腿圍繞膝蓋的旋轉(zhuǎn)，因此每個基元可被表示為連接角空間的一個線性變換，見圖1。其中，紅色虛線曲線表示走動姿態(tài)的不同實例；分段曲線(灰色)表示被學(xué)習(xí)的動作模型；關(guān)鍵姿態(tài)用圓表示(黑色)。

圖1 走動姿態(tài)的幾何特征闡述

通過標(biāo)注訓(xùn)練視頻內(nèi)的2D姿態(tài)和基元動作邊界來學(xué)習(xí)動作模型。對每個動作模型，首先人工選擇每個動作的關(guān)鍵姿態(tài)集合；直觀來說，每當(dāng)姿態(tài)動態(tài)特征發(fā)生較大變化時選擇一個關(guān)鍵姿態(tài)；或者當(dāng)3D MoCAP可用時，關(guān)鍵姿態(tài)可自動獲取為姿態(tài)能量中的不連續(xù)點。然后，采取提升策略，根據(jù)2D標(biāo)注學(xué)習(xí)每個關(guān)鍵姿態(tài)的3D模型。對每個基元，通過從動作邊界標(biāo)注中采集基元長度并對高斯變量進(jìn)行擬合來獲得過程中的預(yù)期變化。

1.2 有條件動作網(wǎng)絡(luò)

已知動作模型時，可以將其嵌入動態(tài)條件隨機域，得到有條件動作網(wǎng)絡(luò)(CAN)，如圖2所示。

圖2 有條件動作網(wǎng)絡(luò)二維部位模型

(1)

(2)

其中：P表示姿態(tài)模型的單位集合；xi表示姿態(tài)x的第i個部位。利用余弦距離來對觀察到的光流與每個部位的運動方向進(jìn)行匹配，進(jìn)而計算運動似然概率。

權(quán)重學(xué)習(xí)：假設(shè)不同的動作/基元的躍遷權(quán)重均勻分布，因此權(quán)重學(xué)習(xí)只涉及3個權(quán)重值，每個位勢一個。在本文中，使用文獻(xiàn)[14]中效率較高、部署比較簡單的投票感知算法。利用本文的推斷結(jié)論以及序列的已知動作標(biāo)簽便可以獲得所有幀的實際姿態(tài)估計。

1.3 跟蹤和識別

為了對人體姿態(tài)進(jìn)行準(zhǔn)確地跟蹤和識別，使用粒子濾波算法先從動作模型中采樣姿態(tài)，然后對每個姿態(tài)和場景觀察結(jié)果進(jìn)行匹配。在跟蹤時，首先利用完整人體和頭部-肩部行人檢測器[15]來尋找人體，然后，從動作模型中對姿態(tài)均勻采樣，對姿態(tài)定位，利用檢測響應(yīng)提供的合適位置(頸部)和尺度(人體站立高度)來對觀察結(jié)果進(jìn)行擬合。當(dāng)視角不變時，在多個左右轉(zhuǎn)動角度下對姿態(tài)與觀察現(xiàn)象進(jìn)行匹配。

2 基于3D先驗知識的準(zhǔn)確姿態(tài)定位

本節(jié)給出相對圖像觀察現(xiàn)象如何對假設(shè)姿態(tài)(來自動作模型)進(jìn)行準(zhǔn)確定位。已知尺度和位置等先驗信息后，定位過程主要是搜索姿態(tài)空間以推斷出哪個姿態(tài)最能有效描述圖像證據(jù)。在利用近似動作模型跟蹤姿態(tài)時，關(guān)于姿態(tài)的先驗信息包括粗糙的2D位置和尺度信息及可能包括真實姿態(tài)的姿態(tài)子空間?？杉僭O(shè)在帶噪環(huán)境下，2D位置和尺度先驗信息的噪聲較大。此外，對于快速移動的部位(比如揮手時的手部位置)，動作模型推斷出來的姿態(tài)子空間可能非常大。

為了提高定位的效率，首先將3D姿態(tài)搜索空間投影到二維空間上，以獲得2D姿態(tài)的空間先驗信息，然后使用圖像觀察現(xiàn)象對2D姿態(tài)進(jìn)行定位，進(jìn)而利用經(jīng)過調(diào)整的2D姿態(tài)來估計三維姿態(tài)。為了進(jìn)行二維姿態(tài)定位，使用基于部位的圖形模型方法(與文獻(xiàn)[10]類似)，利用部位來表示人體(見圖3(a))，然后在推論期間對部位施加兩兩約束。這些兩兩約束模擬了部位間的運動學(xué)和部位間遮擋關(guān)系。然而，當(dāng)施加完所有這些約束后，圖形模型將出現(xiàn)循環(huán)(見圖3(b))。即使我們試圖利用帶有循環(huán)的模型來推斷姿態(tài)，它們的計算成本仍然較大。因此，使用樹結(jié)構(gòu)模型更能提高推斷的效率和準(zhǔn)確性。

圖3 二維姿態(tài)的圖形模型

本文中，我們提出了一種樹結(jié)構(gòu)模型自動選擇算法，提高了姿態(tài)已知時定位的準(zhǔn)確性。該算法思想如下：當(dāng)發(fā)生遮擋時，可以對部分動力學(xué)約束進(jìn)行放松，以便對有助于定位的約束進(jìn)行建模。將該模型稱為姿態(tài)部位模型(PSPM)。然后，給出基于樹結(jié)構(gòu)部位模型的二維姿態(tài)定位方法，其次介紹PSPM選擇和學(xué)習(xí)，及基于PSPM的三維姿態(tài)定位。

2.1 基于部位模型的二維姿態(tài)定位

在二維姿態(tài)模型中，每個部位被表示為一個結(jié)點，結(jié)點間的邊緣表示部位間的兩兩約束。在推斷期間，對圖像單獨運行所有部位的檢測器，于是通過使如下聯(lián)合似然概率最大化來獲得最優(yōu)姿態(tài)x：

(3)

2.1.1 部位檢測

高性能的部位檢測器可以顯著提升定位結(jié)果，然而，部位檢測器的計算成本太大。因此，本文利用兩種效率較高的模板展開實驗：

(1) 幾何模板。每個部位用一個簡單的幾何對象來模擬，比如用橢圓模擬頭部，用有向矩形模擬軀干，用一對直線段模擬手臂。通過累積邊界點上的邊緣長度和方向匹配度，可以獲得一個部位的對數(shù)似然概率指數(shù)。

(2) 邊界和區(qū)域模板。每個模板是有向條形濾波器的加權(quán)和，其中的權(quán)重通過使有條件聯(lián)合似然概率最大化來實現(xiàn)。

2.1.2 兩兩約束

與文獻(xiàn)[10]類似，使用高斯分布來定義部位間的兩兩運動學(xué)位勢。為了避免重疊的部位占據(jù)完全相同的地方，我們專門增加排斥約束，以降低被遮擋部位與遮擋部位重疊的概率。對部位xi和xj，若xi遮擋了xj，則我們定義兩兩位勢為：

(4)

2.2 用于定位的姿態(tài)部位模型

已知三維姿態(tài)的空間先驗知識，PSPM模型是個樹結(jié)構(gòu)圖，因此可以在調(diào)整后對具體姿態(tài)進(jìn)行準(zhǔn)確定位。獲得一個姿態(tài)的PSPM模型需要首先選擇模型(部位集合P，結(jié)構(gòu)E)，然后估計出可以實現(xiàn)聯(lián)合似然概率最大化的模型先驗知識，或先驗?zāi)Ｐ?Θ。使式(3)最大化即可實現(xiàn)準(zhǔn)確定位。

(5)

(2) 結(jié)構(gòu)選擇。這一步驟主要是從所有可能樹中選擇可以有效描述定位已知姿態(tài)相關(guān)約束的一個樹。為了定位部分部位被遮擋或所有部位被遮擋的姿態(tài)，放松標(biāo)準(zhǔn)樹模型圖3(a)中的部分運動學(xué)約束，增加一個近似鄰域和非重疊約束，使生成的模型仍然是樹模型。以圖4(a)中的姿態(tài)為例。標(biāo)準(zhǔn)運動學(xué)模型的替代模型將左下側(cè)腿部與右下側(cè)腿部連接起來，生成的姿態(tài)估計高于使用標(biāo)準(zhǔn)運動學(xué)樹模型。因為人體的上部和下部很少發(fā)生耦合(即運動學(xué)上互相關(guān)聯(lián)或遮擋)，所以忽略手臂和腿部間的邊緣。圖3(b)給出了選擇結(jié)構(gòu)時考慮的邊緣。

圖4 基于PSPM模型的姿態(tài)定位

結(jié)構(gòu)的標(biāo)準(zhǔn)選擇方法是尋找可使似然概率在被標(biāo)記數(shù)據(jù)上最大化的樹結(jié)構(gòu)。這需要估計互相連接的兩兩部位的先驗參數(shù)(均值和方差)，然后尋找指數(shù)最低(所有邊緣的方差之和)的樹結(jié)構(gòu)。因為姿態(tài)不同，可使聯(lián)合似然概率最大化的樹結(jié)構(gòu)也不同，所以標(biāo)準(zhǔn)的學(xué)習(xí)方法要求動作模型各個視角所有姿態(tài)的被標(biāo)記數(shù)據(jù)，這樣的數(shù)據(jù)量非常大。在本文中，提出一種基于姿態(tài)幾何特征的模型指數(shù)度量指標(biāo)。

為了獲得合適的指標(biāo)，標(biāo)注200幅圖像的二維和三維姿態(tài)，并對圖3(b)圖形中的所有樹結(jié)構(gòu)模型進(jìn)行窮盡搜索，估計出定位指數(shù)最高的樹模型。請注意，大量樹模型存在可能性。為了縮小搜索空間，只考慮包括運動學(xué)邊緣以及兩兩相連部位發(fā)生重疊的非運動學(xué)邊緣的樹結(jié)構(gòu)。

(6)

(7)

(3) 估計先驗?zāi)Ｐ挺?。我們使用一個高斯變量來定義兩兩位勢(在第3.1.2節(jié))。先前的方法主要針對先驗知識未知時，因此需要從被標(biāo)記的數(shù)據(jù)中學(xué)習(xí)高斯參數(shù)[10]。但是在本文情況中，姿態(tài)的先驗知識是已知的，所以學(xué)習(xí)姿態(tài)參數(shù)更具意義。然而，學(xué)習(xí)姿態(tài)參數(shù)要求大量的姿態(tài)樣本(各視角下的所有姿態(tài))。于是，我們使用關(guān)于三維姿態(tài)的先驗知識來估計這些參數(shù)。

通過將模擬為高斯分布的三維姿態(tài)先驗知識投影到二維空間來估計每個關(guān)節(jié)的參數(shù)(均值和方差)。例如，部位i相對于部位j的平均相對位置μij僅僅表示部位pi末端關(guān)節(jié)中點與部位pj相應(yīng)位置之差。

2.3 基于三維動作先驗知識的姿態(tài)定位

動作的先驗知識包括用高斯分布(每個關(guān)節(jié)一個)表示的姿態(tài)三維先驗知識以及跟蹤器提供的人體近似位置和尺度。有了這些先驗知識后，可以使用PSPM模型獲得該姿態(tài)的準(zhǔn)確二維位置。在推理期間，我們只使用每個部位投影之后的二維位置、方向和尺度領(lǐng)域內(nèi)的部位檢測器。

在定位二維姿態(tài)后，根據(jù)二維關(guān)節(jié)位置來估計三維姿態(tài)。利用二維關(guān)節(jié)來估計三維姿態(tài)可能存在歧義；在本文中，動作模型提供的關(guān)于姿態(tài)的空間先驗知識以及跟蹤信息可以幫助去除這樣的歧義。為了利用已知的部位深度排序和二維姿態(tài)來準(zhǔn)確估計三維姿態(tài)，可利用非線性最小均方來擬合二維估計，同時約束關(guān)節(jié)位于姿態(tài)搜索空間，進(jìn)而估計三維關(guān)節(jié)。本文假設(shè)部位的三維長度不會改變，然后從頸部開始更新每個關(guān)節(jié)的位置。通過對站立姿態(tài)的正則三維模型進(jìn)行尺度縮放來獲得三維部位長度的初始估計，于是模型的高度與觀察到的人體高度相同(通過跟蹤確定)。

3 實驗

首先利用帶有姿態(tài)標(biāo)注的圖像數(shù)據(jù)集來評估本文基于PSPM模型的姿態(tài)定位方法。然后，利用兩個公開數(shù)據(jù)集來評估本文基于PSPM模型的動作識別算法：文獻(xiàn)[6]的完整人體姿態(tài)數(shù)據(jù)集和文獻(xiàn)[9]的手部姿態(tài)數(shù)據(jù)集。這些數(shù)據(jù)集中的視頻背景為帶噪復(fù)雜背景且從多視角拍攝而得。本文還給出了動態(tài)環(huán)境下的手部姿態(tài)數(shù)據(jù)集實驗結(jié)果。

3.1 姿態(tài)定位

從當(dāng)前動作識別數(shù)據(jù)集中選擇部分幀，用具有多種姿態(tài)的195個圖像組成一個集合。對每個圖像，標(biāo)記二維關(guān)節(jié)位置及其相對深度來對人體三維姿態(tài)進(jìn)行標(biāo)注，然后提升到三維(與關(guān)鍵姿態(tài)標(biāo)注類似)。為了定量評估姿態(tài)定位，計算了可見部位的平均定位指數(shù)：如果一個部位與真實部位重疊70%以上，則認(rèn)為該部位被正確定位。

姿態(tài)先驗知識包括跟蹤器提供的近似二維尺度和位置信息以及近似三維姿態(tài)(表示為一組關(guān)于三維關(guān)節(jié)位置的高斯分布)。為了模擬動作模型提供的帶噪先驗知識，設(shè)置每個三維關(guān)節(jié)的方差為部位長度的5%。然后使用這一先驗知識作為各種定位算法的輸入。首先部署本文圖示結(jié)構(gòu)(PS)[10]，該結(jié)構(gòu)是個帶有動力學(xué)邊緣的樹結(jié)構(gòu)模型且使用信息不明的先驗知識。當(dāng)使用邊界模板(BT)時，PS的定位精度可達(dá)44.53%。然后，對PS進(jìn)行修改，只使用先驗知識提供的搜索空間內(nèi)的部位檢測器，利用先驗知識估計出來的參數(shù)進(jìn)運動學(xué)分析。將這稱為帶約束圖示結(jié)構(gòu)(CPS)。使用邊界模板CPS時定位精度可達(dá)63.74%，與PS相比，明顯證明了使用姿態(tài)先驗知識的重要性。然后，利用PSPM模型，定位精度高達(dá)71%，證明了對基于遮擋的約束進(jìn)行建模的重要性。文獻(xiàn)[6]中的方法使用姿態(tài)邊界和canny邊界間的Hausdorff距離作為形態(tài)似然概率度量來定位姿態(tài)，這種方法的精度只有62.71%。

測試了本文方法面對跟蹤時可能出現(xiàn)的姿態(tài)位置和尺度不確定性時的穩(wěn)定性。圖5給出了各種定位算法在不同不確定性程度下的精度曲線，其中，圖5(a)表示位置不確定性條件下不同方法的定位精度(位置誤差與人體高度之比)，圖5(b)表示高度估計(尺度)存在不確定性時不同方法的定位精度。與Hausdorff方法相比，基于PSPM和邊界模板CPS的方法的穩(wěn)定性更高。當(dāng)不確定性較低時，幾何特征模板和邊界模板CPS的精度相當(dāng)，但是當(dāng)不確定性上升時精度下降。在圖5(b)中，邊界模板PSPM方法可以容忍高度估計中出現(xiàn)少量誤差( 10%)。

圖5 不同方法的定位精度

3.2 動作識別

在姿態(tài)定位實驗中，發(fā)現(xiàn)當(dāng)預(yù)測姿態(tài)與真實姿態(tài)距離較近時Hausdorff距離定位方法的效果較好。因此為了提高效率，每5個幀運行一次PSPM模型，并對中間幀運行Hausdorff距離定位方法。此外，為了提高基于PSPM模型定位方法的效率，縮小圖像尺寸，于是人體高度≈100像素。整個系統(tǒng)每秒運行1個幀左右，實驗平臺為運行Windows/C++程序的3GHz Xeon CPU?，F(xiàn)給出3個數(shù)據(jù)集的實驗結(jié)果，見表1。

表1 手部姿態(tài)數(shù)據(jù)集的評估結(jié)果

(1) 手部姿態(tài)數(shù)據(jù)集。該數(shù)據(jù)集是室內(nèi)實驗室環(huán)境下8個不同人體12種動作的5或6個實例，共有各種動作共495個動作序列。雖然背景為無噪聲背景，動作識別的難度仍然較大，因為大量動作的姿態(tài)差異較小。為了展開評估，利用部分人體來訓(xùn)練模型，用其他人體進(jìn)行測試。與文獻(xiàn)[9]中的方法進(jìn)行比較，該文獻(xiàn)中的方法使用了類似的關(guān)節(jié)跟蹤和識別策略，但是基于離散型動作時間模型和基于前景的特征來實現(xiàn)定位和匹配。該文獻(xiàn)中的訓(xùn)練和測試集之比為1∶8和3∶5時識別率分別為78%和90%。當(dāng)訓(xùn)練和測試集之比為1∶8時，本文方法的識別率為92%。如果我們用Hausdorff距離方法來替代PSPM方法，則識別率降低到84%。這表明，即使在不帶噪的干凈背景下，使用PSPM也可以提升動作識別性能。

(2) 增強型手部姿態(tài)數(shù)據(jù)集。為了證明本文方法在帶噪動態(tài)背景下的穩(wěn)定性，從原始數(shù)據(jù)集中選擇45個動作實例嵌入到帶有復(fù)雜動態(tài)背景的視頻中，以生成新的數(shù)據(jù)集(圖6(f)～(k))給出了樣本圖像)。數(shù)據(jù)集有215個視頻，包括3個人體在5種不同場景下的手部姿態(tài)。本文方法的識別準(zhǔn)確率達(dá)91%。為了處理這些視頻，我們使用了基于原始手部姿態(tài)數(shù)據(jù)集訓(xùn)練而得的參數(shù)。此外，還采集了25個視頻，包括動態(tài)場景(攝像機發(fā)生抖動或?qū)ο笤诒尘跋乱苿?下的4個手部姿態(tài)，本文算法經(jīng)過原始數(shù)據(jù)集訓(xùn)練后，成功識別出其中的20個動作實例(≈80%準(zhǔn)確率)。

(3) USC姿態(tài)數(shù)據(jù)集。該數(shù)據(jù)集包括6個在多個平移和傾斜角度下拍攝的完整人體動作視頻，動作類型包括：坐、站在地面、坐在椅子上、從椅子起立、從地面起立和控球姿態(tài)。利用傾斜角為0°的6個不同背景(包括帶噪室內(nèi)場景和室外行駛車輛前場景)下拍攝而得的部分?jǐn)?shù)據(jù)集評估本文方法，數(shù)據(jù)集其余部分在其他傾斜角和相對干凈平穩(wěn)的背景下拍攝而得。被選擇的數(shù)據(jù)集包括相對于人體的5種不同鏡頭平移角度條件下拍攝獲得的動作(0°, 45°, 90°, 270°, 315°)，共有240個動作實例，每個動作要么攝像機平移角度不同，要么人體、背景不同。我們在實驗中利用來自同一人體的兩個動作來訓(xùn)練本文模型，然后利用其他動作展開評估。對被分割的動作實例，本文方法的準(zhǔn)確率達(dá)75.91%。圖6(n-s)給出了樣本結(jié)果。文獻(xiàn)[6]的準(zhǔn)確率為77.35%，但是它假設(shè)坐在椅子上和坐在地面上兩個動作的后續(xù)動作分別為從椅子起立和從地面起立。如果我們也有這一假設(shè)，則本文方法的準(zhǔn)確率達(dá)89.5%，比文獻(xiàn)[6]提升12%。

圖6 各姿態(tài)數(shù)據(jù)集的實驗結(jié)果。(a)～(e)：手部姿態(tài)數(shù)據(jù)集[9]，(f)～(m)：增強型手部姿態(tài)數(shù)據(jù)集，(n)～(s)：USC姿態(tài)數(shù)據(jù)集[6]

姿態(tài)估計覆蓋于每個圖像上(紅色)，利用PSPM模型獲得的相應(yīng)部位分布顯示在旁邊。

4 結(jié) 語

本文提出一種帶噪動態(tài)環(huán)境下的聯(lián)合姿態(tài)跟蹤和動作識別算法，該算法的訓(xùn)練要求較低，不需要三維MoCAP數(shù)據(jù)。仿真實驗結(jié)果表明，本文方法面對手部姿態(tài)和帶噪動態(tài)環(huán)境下的完整人體姿態(tài)USC數(shù)據(jù)集時，具有優(yōu)異的動作識別性能。下一步工作的重點是分析現(xiàn)有的人體動作識別方法只重點關(guān)注視頻的非靜態(tài)部分而忽略大部分靜態(tài)部分，從而影響了動作識別和定位的效果，擬提出新的分層空間-時間分段表示法來進(jìn)一步提高人體動作識別的精度。

[1] 肖玲, 李仁發(fā), 羅娟. 體域網(wǎng)中一種基于壓縮感知的人體動作識別方法[J]. 電子與信息學(xué)報, 2013, 35(1): 119-125.

[2] 郭利, 姬曉飛, 李平, 等. 基于混合特征的人體動作識別改進(jìn)算法[J]. 計算機應(yīng)用研究, 2013, 30(2): 601-604.

[3] Ferrari V, Marin-Jimenez M, Zisserman A. Pose search: retrieving people using their pose[C]∥Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on IEEE, 2009: 1-8.

[4] Morency L, Quattoni A, Darrell T. Latent-dynamic discriminative models for continuous gesture recognition[C]∥Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on IEEE, 2007: 1-8.

[5] Messing R, Pal C, Kautz H. Activity recognition using the velocity histories of tracked keypoints[C]∥Computer Vision, 2009 IEEE 12th International Conference on IEEE, 2009: 104-111.

[6] Natarajan P, Nevatia R. View and scale invariant action recognition using multiview shape-flow models[C]∥Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on IEEE, 2008: 1-8.

[7] Hu Y, Cao L, Lv F,etal. Action detection in complex scenes with spatial and temporal ambiguities[C]∥Computer Vision, 2009 IEEE 12th International Conference on IEEE, 2009: 128-135.

[8] Weinland D, Boyer E, Ronfard R. Action recognition from arbitrary views using 3d exemplars[C]∥Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on IEEE, 2007: 1-7.

[9] Natarajan P, Singh V K, Nevatia R. Learning 3d action models from a few 2d videos for view invariant action recognition[C]∥Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on IEEE, 2010: 2006-2013.

[10] Felzenszwalb P F, Huttenlocher D P. Pictorial structures for object recognition [J]. International Journal of Computer Vision, 2005, 61(1): 55-79.

[11] Lan X, Huttenlocher D P. Beyond trees: Common-factor models for 2d human pose recovery[C]∥Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on IEEE, 2005, 1: 470-477.

[12] Tian T P, Sclaroff S. Fast globally optimal 2d human detection with loopy graph models[C]∥Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on IEEE, 2010: 81-88.

[13] Andriluka M, Roth S, Schiele B. Monocular 3d pose estimation and tracking by detection[C]∥Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on IEEE, 2010: 623-630.

[14] Collins M. Discriminative training methods for hidden markov models: Theory and experiments with perceptron algorithms[C]∥Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 1-8.

[15] Huang C, Nevatia R. High performance object detection by collaborative learning of joint ranking of granules features[C]∥Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on IEEE, 2010: 41-48.

Human Action Recognition Algorithm Based on Localization in Complex Backgrounds

LIUChang-zhenga,ZHANGRong-huaa,GUOLia,MAJin-lib

(a. College of Information Science and Technology; b. Human Resources Dept., Shihezi University, Shihezi 832003, China)

Most existing human action recognition approaches require a large amount training data or MoCAP to handle multiple viewpoints, and often rely on clean actor silhouettes. The paper presents an approach to recognize single actor human actions in complex backgrounds. The method tracks the actor pose by sampling from 3D action models. The action models in our approach are obtained by annotating key poses in 2D, lifting them to 3D stick figures and then computing the transformation matrices between the 3D key pose figures. In addition, poses sampled from coarse action models may not fit the observations well, to overcome this difficulty, we propose an approach for efficiently localizing a pose by generating a pose-specific part model (PSPM), which captures appropriate kinematic and occlusion constraints in a tree-structure. In addition, our approach does not require pose silhouettes. We show improvements to previous results on two publicly available datasets as well as on a novel, augmented dataset with dynamic backgrounds.

human action recognition; transformation matrices; figures; localization; occlusion constraints

2015-07-07

國家社會科學(xué)基金項目(14XXW004)；兵團(tuán)科技攻關(guān)與成果轉(zhuǎn)化項目(2015AD018，2012BA017)；兵團(tuán)社會科學(xué)基金項目(13QN11)；石河子大學(xué)重大科技攻關(guān)計劃項目(gxjs2012-zdgg03)

劉長征(1979-)，男，山東惠民人，碩士，副教授，主要從事計算機應(yīng)用等方面的研究。

Tel.: 18999335349； E-mail: liucz@sina.cn

張榮華(1980-)，女，山東梁山人，碩士，講師，主要從事大數(shù)據(jù)等方面的研究。Tel.: 13325663320； E-mail: zrh_oea@sina.com

TP 391

1006-7167(2016)02-0107-07

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)雜背景下基于定位的人體動作識別算法

0 引 言

1 動作識別

2 基于3D先驗知識的準(zhǔn)確姿態(tài)定位

3 實 驗

4 結(jié) 語

0 引言

3 實驗