亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復雜場景下面向時空模糊性的人體動作檢測方案研究

2016-04-12 00:00:00從繼成

現(xiàn)代電子技術 2016年15期

摘要：與嚴格受控環(huán)境下傳統(tǒng)的人體動作檢測不同，進行復雜場景下的動作檢測時由于背景帶有噪聲、人體遮擋和跟蹤不全導致空間和時間邊界存在時空模糊性。現(xiàn)有的動作檢測方案無法有效解決這一問題，為此，首先采用運動歷史圖像特征和外觀特征對人體運動進行區(qū)分，然后將一個動作的候選區(qū)域看成是一個實例包，提出模擬退火多實例學習支持向量機（SMILE?SVM）算法實現(xiàn)人體動作檢測。仿真結果表明，該算法在公共的CMU運動數(shù)據(jù)集上的性能優(yōu)于現(xiàn)有算法。另外，還提出了一種超市客戶意圖檢測系統(tǒng)，可檢測擁擠的超市中客戶是否有意從貨架上取貨，對于商家研究客戶興趣具有重大價值。

關鍵詞：人體動作檢測；時空模糊性；運動歷史圖像特征；外觀特征；多實例學習

中圖分類號： TN911.73?34； TP391 文獻標識碼： A 文章編號： 1004?373X（2016）15?0038?05

Abstract： Unlike the traditional human motion detection in well?controlled environment， the space and time boundary exists the space?time fuzziness due to the background noise， human body occlusion and incomplete tracking while performing motion detection in complex scene. The available motion detection schemes can′t solve the above problem effectively， therefore the motion history image （MHI） features and appearance features are used to distinguish the human motion. And then the candidate regions of an action are regarded as an instance package， and the simulated annealing multiple instances learning support vector machines （SMILE?SVM） algorithm is proposed for realizing the human motion detection. The simulation results show that the proposed algorithm is superior to the available algorithms in the aspect of public CMU action dataset. In addition， a client intention detection system for supermarkets is proposed， which can detect whether the customers intend to get the merchandise on shelf in crowded supermarket， and has the significant value for merchants to research the customer interests.

Keywords： human motion detection； space?time fuzziness； motion history image feature； appearance feature； multi?instance learning

0 引言

當前大多數(shù)人體數(shù)據(jù)集中，人體動作往往采集于無噪背景下，每個視頻片斷往往只包括一種動作（比如快跑或慢跑）和一個人體，且人體在整個視頻片斷中只有這一種動作。然而，在實際的監(jiān)視場景中，背景往往帶噪，監(jiān)視系統(tǒng)必須要從人群中檢測出感興趣的目標人體動作。

在背景帶噪或人群部分遮擋等復雜場景下，進行人體準確定位的難度很大[1?2]。若沒有人體交互，從復雜場景中修剪一個對象往往會導致嚴重的錯位或偶爾的漂移，此外，還可能存在時域模糊性。真實世界中的大部分動作只發(fā)生一次且持續(xù)時間很短。而人體動作是連續(xù)的，動作屬于同一種類別但速度可能有巨大差異，所以難以確定這些目標動作的起點或終點，以及真實世界中每個動作的持續(xù)時間。另外，未檢測到快跑和慢跑等重復性動作在時域的模糊性，但這些模糊性可能嚴重影響撿東西、拍照、按下電梯按鈕等非重復性動作的檢測性能。這些空間和時間模糊性大大增加了動作檢測的難度。

為了克服這些模糊性，本文提出一種基于多實例學習（MIL）的支持向量機（SVM）處理時域和空域模糊性問題。圖1給出了多實例學習的主要思路。雖然不能精確知道目標動作的發(fā)生位置和時間，但是可以估計出一個包括多個潛在位置和時間片的“包”。這個包可以是正性包（目標動作發(fā)生于包中的某一位置），也可以是負性包（目標動作并未發(fā)生）。正性包中肯定有至少一個正性實例，而負性包中的所有實例均為非動作實例。這種多實例方法既可識別目標動作，又可以確定動作的準確位置和時間段。

1 相關工作

針對人體動作檢測問題，文獻[3]提出一種累積方向?數(shù)量級光流梯度直方圖的人體動作特征表示方法。該方法首先利用Horn?Schunck光流算法計算圖像光流，然后將光流矢量按照不同的方向?數(shù)量級進行直方圖統(tǒng)計，得到單幀圖像的方向?數(shù)量級的光流梯度直方圖，最后將單幀圖像的直方圖特征在時間維上進行累積來表示整個視頻動作的特征。文獻[4]提出一種結合全局的剪影特征和局部的光流特征的混合特征，并用于人體動作識別。該算法對于Weizmann數(shù)據(jù)庫中的動作可以達到100%的正確識別率。文獻[5]提出一種基于主題模型的人體動作識別方法，該方法首先提取時空興趣點來描述人體運動，然后提出使用慢特征分析算法計算興趣點梯度信息不變量最優(yōu)解，最后使用概率潛在語義分析模型識別人體動作。文獻[6]引入壓縮感知和稀疏表示理論，同時解決人體活動監(jiān)測中的動作識別和數(shù)據(jù)壓縮問題，探索如何在達到一定動作識別率的同時降低傳感器節(jié)點的能耗。

另外，文獻[7]提出通過提取密集采樣的局部視頻補丁檢測出背景比較簡單的視頻的不規(guī)則動作。這種方法難以對復雜場景下的非重復性動作執(zhí)行對準操作。文獻[8]提出體積特征，以便將時空形態(tài)與分割后的視頻片斷關聯(lián)起來。與文獻[9]基于流的關聯(lián)算法相結合后，再利用手工分割獲得的動作樣本即可檢測出視頻中的多種動作。然而總的來說，以上方法都還存在著不足：高度依賴人體部位的跟蹤，如果出現(xiàn)遮擋或環(huán)境變化等復雜因素，將無法得到完整的運動信息；當存在時域和空域模糊性時，人體動作檢測精度較低；無法準確獲取動作的時間段或動作意圖模糊。為了解決以上問題，文中提出了一種面向復雜背景下的人體動作檢測方案，并通過仿真實驗驗證了該方案的有效性。

2 系統(tǒng)概述

為了采集數(shù)據(jù)構建動作分類器，本文采取手工方式標識視頻序列，以獲得訓練樣本。只需明確人體頭部的粗略位置以及動作發(fā)生地點的近似幀即可。標識過程結束后，按照幀內的不同位置/尺度及時間線上的不同起始/結束幀號，對標識后的視頻序列做進一步修剪，于是每個動作（稱為包）將生成多個段（稱為實例）。這些陽性和陰性包將提供給本文學習算法以訓練動作檢測器。其中，每個正性包擁有一個目標作為目標動作，而負性包不含。

在測試階段，本文將處理人體動作在時域和空域上的位置模糊性。本文系統(tǒng)允許短序列中的多個候選作為輸入，并推斷目標動作是否發(fā)生。它并不需要準確的跟蹤器或人體檢測。相反，可以利用人臉檢測器或概率檢測器的輸出作為人體估計。同時，它也不需確切知道人體動作的起始或結束幀。相反，它可以考慮多種概率，并估計動作的實際發(fā)生位置。

為了獲得區(qū)分性特征進行動作檢測，本文首先考慮動作特征，以便將目標動作與其他動作區(qū)分開。因為傳統(tǒng)的光流容易受到噪聲影響，所以本文采用運動歷史圖像（MHI）特征[10]，該特征積累了多個幀的運動信息。在本文系統(tǒng)中計算每個實例的MHI特征，然后將其下采樣為10×10像素尺寸，即特征向量長度為100。

本文提出將運動和外觀信息結合起來，以便提高人體運動的區(qū)分性能。采用了兩種外觀特征，并與MHI特征相結合，作為運動識別時的高度區(qū)分性特征。圖2給出了這些特征的多個示例。第1種外觀特征是前景圖像（FI），通過與背景相減獲得；第2種外觀特征是定向梯度特征直方圖（HOG）[11]，它可以描述邊緣和拐角的方向和大小。已知一個實例的圖像區(qū)域，F(xiàn)I特征可正規(guī)化為10×10像素。為了獲得HOG特征，圖像區(qū)域被分為3×4=12個子窗口，然后使用梯度方向的8個容器計算直方圖，為每個實例生成一個96維HOG特征向量。運動特征（MHI）和外觀特征（FI和HOG）可從不同方面描述人體動作，且互為補充。外觀特征可以描述運動期間人體的空間形態(tài)，而運動特征主要是描述正在運動的人體部位的方向和強度。

3 SMILE?SVM算法

下面介紹如何利用多實例學習解決動作檢測在時域和空域上的模糊性，提出了一種模擬退火多實例學習支持向量機（SMILE?SVM）算法。已知一組輸入模式[x1，x2，…，xN]分組到[B1，B2，…，BM]中，且對于已知索引集合[Im?1，2，…，N]有[Bm=xi：i∈Im]。每個包[Bm]關聯(lián)一個標識[Ym，][Ym=1]表示包是正性包，至少有一個實例[xi∈Bm]是類別中的陽性樣本。相反，[Ym=-1]表示包是陰性包，所有實例[xi∈Bm]均是陰性樣本。將每個實例的標識表示為[yi，]則有：如果[Ym=-1，]則對[i∈Im]有[?yi=-1，]其中[m=1，2，…，M。]否則，如果[Ym=1，]則對[i∈Im，][?yi=1]?；赟VM的多實例學習可闡述為如下的目標函數(shù)最小化：

其中，[ξi]表示估計誤差，[w]確定余量的尺寸。傳統(tǒng)的SVM屬于二次優(yōu)化問題，則式（1）最小化是式（2）約束下的混合優(yōu)化問題。因為[yi]的可能選擇數(shù)量太多，所以該目標函數(shù)難以直接最小化。

SMILE?SVM算法的目的是在增加包識別率的同時實現(xiàn)分類器容限最大。因為分類容限的尺寸可由[1w2]衡量[12]，所以定義一種新的目標函數(shù)：

[S=maxw，b，yinc+kw2] （3）

式中：[nc]表示包分類的正確率；[k]表示容限指標權重的控制參數(shù)，部署時將[k]設為0.5。SMILE?SVM采用一種參數(shù)[T]（稱為溫度）控制新的評分[S]被接受的概率。在學習過程的早期步驟中，[T]要設置的足夠大以便候選解能夠轉換為得分較低的另一種狀態(tài)。在學習過程中，[T]逐漸下降，以便降低切換到[S]較低的其他狀態(tài)的概率。當[T]接近0時，系統(tǒng)將會收斂。

SMILE?SVM采取迭代方式尋求最優(yōu)得分[Sopt]。在第[t]次迭代時，SMILE?SVM生成一個相鄰狀態(tài)[y*i，]然后提供給下次迭代以便生成一個新的SVM分類器。為了使新分類器的決策邊界與之前的邊界類似，引入隨機微小擾動以生成一個新的狀態(tài)。

[y*i=-signfti，fti<閾值， i∈Itrandsignfti，else]

式中：[Itrand]表示第[t]次迭代的隨機集合；[fti]表示由[wt，bt]估計的分類置信度。生成相鄰狀態(tài)[y*i]之后，SMILE?SVM就會決定是否將其作為下次迭代的訓練集。首先，驗證式（2）中的約束，如果式（2）滿足，則系統(tǒng)將根據(jù)式（3）及[y*i]訓練出來的分類器計算得分[St]。此時，通過隨機數(shù)和[St]的比較決定將[y*i]作為下次迭代時狀態(tài)[yt+1i]的概率。如果[y*i]未被接受或式（2）未被滿足，則將生成另一個相鄰狀態(tài)。

4 仿真實驗

本文通過兩組實驗評估SMILE?SVM算法的有效性。第一組實驗使用CMU人體運動數(shù)據(jù)集[8]。第二組實驗考慮一種真實應用，以檢測超市中的客戶是否有意從貨架上購買商品。

4.1 CMU運動數(shù)據(jù)集的結果

CMU運動數(shù)據(jù)集中有5種類型的人體運動，包括人體跳躍、撿東西、雙手揮動、單手揮動及按下電梯按鈕。所有視頻的持續(xù)時間約為20 min，包括大約100種目標運動。視頻的分辨率下調為160×120像素。人體運動的方式有較大差異。背景帶有噪聲，且目標運動有時被其他人體遮擋。所有這些變化導致時域和空域存在較大的模糊性。評估時的訓練/測試配置與文獻[8]相同。一個人體進行的一個樣本序列用于所有5種動作的訓練。3～6個其他人體每種動作進行多次測試。采用一對多策略分別訓練和測試5種人體運動檢測器，于是在訓練階段有1個陽性包和4個陰性包，在測試階段的陽/陰性包的分布類似。

圖3給出了使用不同特征進行動作檢測的性能比較結果。從圖3中可以發(fā)現(xiàn)，綜合使用運動和HOG外觀特征（MHI+HOG特征）后的性能優(yōu)于其他種類的特征。

表1比較了文獻[8]中結果與本文算法的性能。對于所有運動，SMILE?SVM均顯著優(yōu)于文獻[8]中的結果，惟一例外便是雙手揮舞動作，這也證明了基于運動和外觀特征的SMILE?SVM算法的有效性。

4.2 真實場景的結果：超市監(jiān)測系統(tǒng)

為了進一步驗證本文算法的有效性，在真實場景下對其性能進行測試，以證明其在監(jiān)測應用場景下的作用。目標運動是擁擠的超市中客戶是否有意從貨架上購買貨物，這種類型的運動包括使用一只手或一雙手指向或觸摸某種商品或者彎腰接近/觀看某種商品。超市希望對這種運動進行跟蹤以便知道客戶的意圖。該數(shù)據(jù)庫采集于典型的超市場景下，在早晨和中午時間比較擁擠。

本文構建了一種目標運動檢測系統(tǒng)，如圖4所示。在該系統(tǒng)中，對卷積神經網(wǎng)絡（CNN）[13]進行訓練以便檢測每一幀中的二維頭部候選。根據(jù)頭部檢測器的輸出，本文運動檢測算法利用CNN人體檢測器輸出的視頻幀中每個人體頭部矩形的位置和尺寸作為輸入，從空間鄰域內這些頭部位置周圍及時間鄰域的相鄰幀中提取出不同位置的多個窗口，然后為這些實例提取視頻特征。以SMILE?SVM算法的識別結果為基礎，如果估計概率超過經過學習的置信度閾值，則檢測到目標運動。如果在時間線上的相鄰區(qū)域內檢測到兩個運動，則將其融合以形成層次更高、時間更長的運動。該系統(tǒng)將運動檢測與三維跟蹤器（比如將立體相機二維跟蹤結果相融合后產生的結果）結合起來，可獲得一些具體信息，比如貨架上哪個部位最能吸引客戶的注意力。這種信息對商家非常有用。

使用20 min左右時長的視頻作為訓練視頻，40 min時間的視頻用作測試視頻，包括大約150個陽性運動樣本。在時域上，每個運動分割為運動期間隨機點上的多個小片斷，每個片斷的尺寸為10幀。在空域上，包含人體頭部和身體的運動區(qū)域按照12種不同尺寸和尺度進行修剪。上述每個時空樣本成為一個實例，且所有實例與包中的一個運動相關聯(lián)。這一過程將分別在訓練和測試數(shù)據(jù)集中生成約50個陽性包（包括25 000個實例）和100個陽性包（包括50 000個陽性實例）。對步行和站立等不感興趣的其他陰性運動（陰性運動樣本），只有10%左右（382個陰性包）被隨機采樣，以便獲得數(shù)量類似的訓練和測試陰性實例（34 000個和79 000個）。

為了保證比較的公平性，對不同算法使用相同的運動特征（MHI）。圖5給了3種算法的精度/召回率曲線?？梢园l(fā)現(xiàn)，多實例學習算法的性能遠優(yōu)于經典SVM算法。此外，文獻[2]中的算法不如本文算法，因為本文模擬退火搜索策略陷入局部最優(yōu)值的概率較小。

通過將運動特征和外觀特征結合起來后，本系統(tǒng)的性能得到進一步提升。如第2節(jié)所示，F(xiàn)I和HOG特征提供的信息與運動特征互補，因此本文分別將運動特征與FI和HOG特征相結合，構建了新的特征。圖6給出了基于3種特征的性能：只有運動特征（MHI），兩種混合特征（（MHI+FI和MHI+HOG）?？梢园l(fā)現(xiàn)，使用混合特征的召回率比只使用MHI平均高出近20%（當精度率為0.6時）。

為了測試本文運動檢測器的通用性，將其用于不同時期、不同時刻在超市中采集的新的視頻序列。新視頻采集于客戶運動更密集的高峰時間。新的測試視頻包含390個目標運動構成的陽性包和591個非目標運動構成的陰性包，大約包括124 000個陽性實例和166 000個陰性實例。

圖7分別給出了采用MHI+FI和MHI+HOG聯(lián)合特征時，原始測試數(shù)據(jù)和高難度測試數(shù)據(jù)的精度/召回率曲線。此時，MFI表示運動（MHI）和外觀（FI）聯(lián)合特征，MHOG表示運動（MHI）和外觀（HOG）聯(lián)合特征?？梢园l(fā)現(xiàn)，由于數(shù)據(jù)不同，算法總體性能略有下降。然而，這種誤差并不明顯，算法在新數(shù)據(jù)集上的性能仍然較好。

如前文所述，非運動包中的所有實例為陰性樣本，運動包中只有部分實例被識別為陽性樣本。利用這些陽性實例，不僅可以識別出目標運動是否發(fā)生于包中，還可以估計出該運動的位置和時間。圖8演示了部分樣本的運動檢測結果，其中陽性示例用紅色方框表示。鑒于本文實例的構建方法，即使人體被部分遮擋（見圖8（c）），本文算法仍可以檢測出目標運動及其時間和位置（見圖8（a）和圖8（b）。

5 結語

本文研究了復雜場景下的人體運動檢測問題，并提出一種多實例學習方法以克服時空模糊性。實驗結果表明，本文方案不僅在公共的CMU運動數(shù)據(jù)集上的性能優(yōu)于其他算法，而且在真實監(jiān)測場景中具有應用價值。下一步工作是對當前系統(tǒng)進行拓展，以便適用于自助餐廳或麥當勞等更多場景。

參考文獻

[1] 李擬臖，程旭，郭海燕，等.基于多特征融合和分層反向傳播增強算法的人體動作識別[J].東南大學學報（自然科學版），2014，44（3）：493?498.

[2] ANDREWS S， TSOCHANTARIDIS I， HOFMANN T. Support vector machines for multiple?instance learning [J]. Advances in neural information processing systems， 2002， 15（2）： 561?568.

[3] 郭利，曹江濤，李平，等.累積方向?數(shù)量級光流梯度直方圖的人體動作識別[J].智能系統(tǒng)學報，2014，9（1）：104?108.

[4] 郭利，姬曉飛，李平，等.基于混合特征的人體動作識別改進算法[J].計算機應用研究，2013，30（2）：601?604.

[5] 譚論正，夏利民，黃金霞，等.基于 pLSA 模型的人體動作識別[J].國防科技大學學報，2013，35（5）：102?108.

[6] 肖玲，李仁發(fā)，羅娟.體域網(wǎng)中一種基于壓縮感知的人體動作識別方法[J].電子與信息學報，2013，35（1）：119?125.

[7] BOIMAN O， IRANI M. Detecting irregularities in images and in video [J]. International journal of computer vision， 2007， 74（1）： 17?31.

[8] KE Y， SUKTHANKAR R， HEBERT M. Event detection in crowded videos [C]// Proceedings of 2007 11th IEEE International Conference on Computer Vision. Rio de Janeiro： IEEE， 2007： 1?8.

[9] EFROS A A， BERG A C， MORI G， et al. Recognizing action at a distance [C]// Proceedings of 2013 Ninth IEEE International Conference on Computer Vision. US： IEEE， 2013： 726?733.

[10] WEINLAND D， RONFARD R， BOYER E. A survey of vision?based methods for action representation， segmentation and recognition [J]. Computer vision and image understanding， 2011， 115（2）： 224?241.

[11] DALAL N， TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego： IEEE， 2005： 886?893.

[12] BOSER B E， GUYON I M， VAPNIK V N. A training algorithm for optimal margin classifiers [C]// Proceedings of the Fifth Annual Workshop on Computational Learning Theory. US： ACM， 2008： 144?152.

[13] 呂國豪，羅四維，黃雅平，等.基于卷積神經網(wǎng)絡的正則化方法[J].計算機研究與發(fā)展，2014，51（9）：1891?1900.

現(xiàn)代電子技術2016年15期

現(xiàn)代電子技術的其它文章: 基于修正型果蠅優(yōu)化算法改進地鐵運行定位系統(tǒng)研究; 半實物仿真平臺中GPS導航信息處理器的設計與實現(xiàn); 基于神經元自適應PID永磁同步電機的仿真與研究; 遺傳算法和神經網(wǎng)絡的DFB激光器溫控系統(tǒng); 基于HART協(xié)議智能閥門定位器的研究; 一種基于動態(tài)調度的數(shù)據(jù)挖掘并行算法