尹坤陽,潘 偉,謝立東,徐素霞
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)
一種基于深度學(xué)習(xí)的人體交互行為分層識別方法
尹坤陽,潘偉,謝立東,徐素霞*
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門361005)
摘要:本文把人體交互行為分解為由簡單到復(fù)雜的4個層次:姿態(tài)、原子動作、復(fù)雜動作和交互行為,并提出了一種分層漸進(jìn)的人體交互行為識別方法.該方法共有3層:第1層通過訓(xùn)練棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)把原始視頻中的人體行為識別為姿態(tài)序列;第2層構(gòu)建原子動作的隱馬爾科夫模型(hidden Markov model,HMM),并利用估值定界法識別第1層輸出的姿態(tài)序列中包含的原子動作;第3層以第2層輸出的原子動作序列為輸入,采用基于上下文無關(guān)文法(context-free grammar,CFG)的描述方法識別原子動作序列中的復(fù)雜動作和交互行為.實(shí)驗(yàn)結(jié)果表明,該方法能有效地識別人體交互行為.
關(guān)鍵詞:人體行為識別;深度學(xué)習(xí);隱馬爾科夫模型(HMM);上下文無關(guān)文法(CFG);Kinect
人體行為識別在計(jì)算機(jī)視覺領(lǐng)域中占有重要地位,它在視頻監(jiān)控、醫(yī)療監(jiān)護(hù)、人機(jī)交互和運(yùn)動分析等諸多領(lǐng)域有著廣泛的應(yīng)用[1].在過去的幾十年中,研究者們提出了大量的行為識別方法,這些方法可以分為2類:單層行為識別方法和分層行為識別方法[2].
單層行為識別方法又可分為時空法[3]和序列法[4].時空法把輸入視頻當(dāng)作一個三維的時空體(XYT),而序列法把輸入視頻視為特征向量序列.單層行為識別方法直接從圖像序列中表示和識別人體行為;而分層行為識別方法往往會有2層或者更多的層次,底層直接處理輸入圖像,高層把低層的識別結(jié)果作為輸入繼續(xù)進(jìn)行識別工作.與單層行為識別方法相比,分層行為識別方法需要較少的訓(xùn)練數(shù)據(jù),更容易融入先驗(yàn)知識.
分層行為識別方法可分為3類:統(tǒng)計(jì)方法[5]、句法方法[6]和基于描述的方法[7].統(tǒng)計(jì)方法通過構(gòu)造基于狀態(tài)模型的連接層次概率表示和識別人體行為;句法方法采用特定的語法規(guī)則對高層行為進(jìn)行建模,常見的語法規(guī)則有上下文無關(guān)文法(context-free grammar,CFG)和隨機(jī)CFG;基于描述的方法通過描述子動作之間的時間、空間和邏輯關(guān)系表示人體行為.與上述2種分層行為識別方法不同,基于描述的方法雖然把復(fù)雜動作當(dāng)作簡單子動作的組合,但只有滿足一定條件的子動作組合才被視為復(fù)雜動作.
很長時間以來,神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究者意識到使用多層非線性的網(wǎng)絡(luò)組合會達(dá)到更好的效果,但在訓(xùn)練時容易陷入局部最優(yōu),多層神經(jīng)網(wǎng)絡(luò)的性能反而更不理想.2006年Hinton等[8]提出逐層初始化降低多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度,掀起機(jī)器學(xué)習(xí)的第2次浪潮.Larochelle等[9]進(jìn)一步提出棧式降噪自編碼神經(jīng)網(wǎng)絡(luò),這種神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中加入噪聲,顯著地提高了學(xué)習(xí)的效果.在基于描述的行為識別方法領(lǐng)域,Allen[10]為描述子動作之間的時間關(guān)系提出了一組時間描述子,后來這些描述子被其他研究者廣泛采用.Ryoo等[11]采用基于CFG的描述方法表示人體行為,提出邏輯描述子(與、或和非)增強(qiáng)空間和時間描述子對子動作關(guān)系的表示能力.但這些識別方法使用彩色相機(jī)采集數(shù)據(jù),光照條件、衣服的紋理甚至人的影子都會影響識別效果.使用Kinect深度相機(jī)采集數(shù)據(jù),可以有效消除光照變化和復(fù)雜背景的影響,提高人體行為識別的魯棒性[12].蘇竑宇等[13]構(gòu)建了基于支持向量機(jī)(support vector machine,SVM)和隱馬爾可夫模型(hidden Markov model,HMM)二級模型識別日常行為,他們使用了Kinect采集的數(shù)據(jù)集,但并未涉及交互行為.
本文提出了一種新的分層行為識別方法.與文獻(xiàn)[11]的方法相比,該方法第1層使用深度神經(jīng)網(wǎng)絡(luò),提高了識別方法的可擴(kuò)展性;第2層提出的估值定界法提高了對原子動作分割的效率和準(zhǔn)確度;第3層設(shè)計(jì)了1組新型空間描述子,引入人臉朝向,增強(qiáng)了對交互行為的描述能力.Kinect提供的骨骼信息是由人體輪廓估算而來,骨骼信息不能有效獲取人體接觸及遮擋信息,因此本文選取輪廓圖像作為輸入,而不采用骨骼信息,同時采用彩色圖像識別人臉朝向.
1識別方法概述
圖1 識別方法框圖Fig.1Processing flow of the recognition system
本文采用分層的交互行為識別方法,算法框架見圖1.該識別方法共有3層:第1層把采集到的視頻圖像進(jìn)行預(yù)處理,提取圖像中包含人體的部分,并轉(zhuǎn)換成同樣的大小,然后輸入采用深度學(xué)習(xí)算法的棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,識別出每幀圖像中的人體行為姿態(tài);第2層把第1層輸出的姿態(tài)序列作為輸入,用估值定界法對姿態(tài)序列進(jìn)行分割,找出原子動作的起止點(diǎn),輸出原子動作序列;第3層的輸入是第2層輸出的原子動作序列,根據(jù)基于CFG的描述規(guī)則,識別原子動作序列中的復(fù)雜動作和交互行為.這種方法需要訓(xùn)練棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)、構(gòu)建原子動作的HMM和基于CFG的描述模型:其中棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)由姿態(tài)圖像訓(xùn)練集圖像預(yù)處理后訓(xùn)練而成;原子動作HMM的訓(xùn)練數(shù)據(jù)來自原子動作訓(xùn)練集,動作視頻圖像預(yù)處理后通過棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,輸出姿態(tài)序列,進(jìn)而構(gòu)建原子動作的HMM;基于CFG的描述模型則根據(jù)復(fù)雜動作和交互行為的子動作之間的時間關(guān)系和執(zhí)行者之間的空間關(guān)系添加規(guī)則,構(gòu)建各個復(fù)雜動作和交互行為的描述模型.
2第1層:基于深度學(xué)習(xí)的姿態(tài)識別
姿態(tài)是對圖像中整個人體的抽象和描述,每幀圖像中的人像都屬于某個姿態(tài).第1層識別工作完成時,每幀圖像就可以用姿態(tài)表示.本文構(gòu)建了一個新型的棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)識別圖像中的人體姿態(tài)[14],識別過程如圖2所示.
圖2 姿態(tài)識別過程圖Fig.2Processing flow of pose recognition
2.1圖像預(yù)處理
Kinect能夠?qū)崟r獲取人體輪廓信息,采集的視頻分辨率為240×320.為了減少計(jì)算量,圖像預(yù)處理時提取圖像中的人體部分并縮放至28×28.具體過程如下:在圖像中找到人體上下左右的邊界點(diǎn),去掉超出邊界點(diǎn)的部分,對剩余的矩形采用線性插值法,縮放至28×28,把這784個像素點(diǎn)的數(shù)值作為一個行向量保存起來.至此,圖像預(yù)處理工作完成.
2.2構(gòu)建棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)
棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)采用深度學(xué)習(xí)算法,由多層稀疏自編碼器組成,每層的輸出是后一層的輸入.構(gòu)建棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)需要設(shè)計(jì)隱層層數(shù)及每層節(jié)點(diǎn)數(shù),同時設(shè)計(jì)良好的學(xué)習(xí)率能加快學(xué)習(xí)過程.
圖3 不同參數(shù)對深度學(xué)習(xí)性能的影響Fig.3The different building performance on human action dataset
為了選取合適的節(jié)點(diǎn)數(shù),先構(gòu)建一個3層BP神經(jīng)網(wǎng)絡(luò),其中輸入層節(jié)點(diǎn)數(shù)為784.隱層的節(jié)點(diǎn)數(shù)從10遞增到1 100,迭代次數(shù)從25遞增到100.從圖3(a)可以看出,當(dāng)節(jié)點(diǎn)數(shù)小于200時(上下層節(jié)點(diǎn)數(shù)比例約為0.25),神經(jīng)網(wǎng)絡(luò)性能良好,當(dāng)節(jié)點(diǎn)數(shù)大于600時,神經(jīng)網(wǎng)絡(luò)性能就變得很差.因此對每個隱層節(jié)點(diǎn)數(shù)選為上一層節(jié)點(diǎn)數(shù)的25%左右,這樣,整個網(wǎng)絡(luò)結(jié)構(gòu)像一個金字塔,從輸入層到輸出層節(jié)點(diǎn)數(shù)依次減少.
學(xué)習(xí)率的不同會影響深度學(xué)習(xí)的收斂速度,為了使深度神經(jīng)網(wǎng)絡(luò)能更快的收斂,本文使用自適應(yīng)學(xué)習(xí)率更新算法:
LR(i+1)=
(1)
LR(0)=F;
(2)
(3)
其中LR(i)表示i時刻的學(xué)習(xí)率,C和F分別為學(xué)習(xí)率的上限值和下限值,f(i)是i時刻的均方誤差,f′(i)是i時刻和i-1時刻均方誤差的差值.
為了保證學(xué)習(xí)率在合適的范圍內(nèi),選取C=3,F=0.1.圖3(b)中有幾種固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率時神經(jīng)網(wǎng)絡(luò)的性能對比,可以看出采用自適應(yīng)學(xué)習(xí)率能顯著提高神經(jīng)網(wǎng)絡(luò)性能.
2.3姿態(tài)識別實(shí)驗(yàn)結(jié)果
對構(gòu)建的深度學(xué)習(xí)方法與其他機(jī)器學(xué)習(xí)算法進(jìn)行比較,進(jìn)行比較的算法有采用徑向基核(radial basis function,RBF)的監(jiān)督學(xué)習(xí)算法SVM、集成學(xué)習(xí)算法隨機(jī)森林(random forest)、深度學(xué)習(xí)算法RBF神經(jīng)網(wǎng)絡(luò)(network)和深度信念網(wǎng)絡(luò)(deep belief network,DBN).所有算法使用同一個數(shù)據(jù)集,即姿態(tài)圖像訓(xùn)練集,包含待識別原子動作中的全部姿態(tài)圖像.表1表明棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)(ours)相對其他算法識別性能有很大的提升.
表1 不同算法識別準(zhǔn)確率的比較
3第2層:基于估值定界法的原子動作識別
原子動作是人體部分肢體就能完成的動作,比如伸手就是一個原子動作.它們由多個姿態(tài)組成,往往不能進(jìn)一步分解為更小的有意義的動作.為了提高姿態(tài)序列中原子動作及其起始點(diǎn)的效率和準(zhǔn)確度,本文提出了估值定界法.
3.1原子動作的識別
經(jīng)過第1層的姿態(tài)識別后,人體行為視頻就變成了一個姿態(tài)序列.基于原子動作訓(xùn)練集的姿態(tài)序列,本文采用Baum-Welch算法構(gòu)建了12個動作的HMM(即表2中的原子動作).識別時把似然度值最大的類別作為識別結(jié)果,以收回手臂(hand_withdraw)為例.表2是該動作各HMM下的似然度值,其中最大的是-15.700 8,即識別結(jié)果是hand_withdraw.整個測試集的識別準(zhǔn)確率為85.29%.
3.2原子動作的起止點(diǎn)
如果視頻流中包含多個原子動作,可以采用HMM估值問題,對連續(xù)幀動作依據(jù)似然匹配度進(jìn)行劃分.參考文獻(xiàn)[11]的前向后看算法,本文加入靜態(tài)原子動作的判定標(biāo)準(zhǔn),提出了估值定界法.
表2 原子動作hand_withdraw的似然度值
注:-Inf表示似然度值超出數(shù)值范圍.
前向后看算法在找到動作的終止點(diǎn)前和前向算法一樣,若HMM似然度值在t幀超過閾值,就把t幀當(dāng)作原子動作的終止點(diǎn).找到終止點(diǎn)后,該算法用后向算法尋找原子動作的起始點(diǎn).當(dāng)找到原子動作起止點(diǎn)后,該算法從t+1幀開始識別視頻中的下一個動作.如果碰到站立(stand)這種既能當(dāng)作原子動作又能和其他姿態(tài)組成新的原子動作,前向后看算法識別結(jié)果往往不盡如人意.估值定界法有效地解決了這個問題:如果在t幀時視頻的某HMM似然度值一直小于靜態(tài)閾值且達(dá)到一定時間,就認(rèn)為視頻中發(fā)生了該HMM所表示的動作,動作的終止點(diǎn)設(shè)為t-3,不需要執(zhí)行后向算法,直接從t-2開始識別視頻流中的下一個動作.
對于輸入的視頻,識別方法在第1層識別圖像中的人體姿態(tài),輸入視頻就變成了一個姿態(tài)序列.接著采用估值定界法識別姿態(tài)序列中的原子動作并找出它們的起止點(diǎn),最后融合間隔小于閾值的相鄰相同動作,輸出最后的識別結(jié)果.
用符號表示姿態(tài),其中1表示stand,2表示hand_stay_stretch,伸手圖像序列表示為:
[1,1,1,1,1,1,1,2,2,2,2,2,2,2].
用估值定界法識別上面的符號序列,最終結(jié)果如表3所示.
表3 原子動作的分割與識別
4第3層:基于CFG的交互行為識別
單人動作可以分為原子動作和復(fù)雜動作.復(fù)雜動作是指由2個或以上原子動作組成的動作,它的子動作可以是原子動作或者其他復(fù)雜動作,但只能由一個人完成.如果一個動作有2個或以上的參與者,那么這個動作就是交互行為.該層用基于CFG的描述方法表示和識別交互行為.
4.1基于CFG的行為表示
本文參考了文獻(xiàn)[11]提出的基于CFG的行為表示方法,重新設(shè)計(jì)了一組空間描述子描述動作執(zhí)行者的空間關(guān)系,并引入人臉朝向增強(qiáng)對行為的表示能力.
4.1.1時間、空間和邏輯描述子
時間描述子描述子動作之間的時間關(guān)系.Allen[10]提出的時間描述子有:“before”、“meets”、“overlaps”、“starts”、“during”和“finishes”.若a和b是兩個動作,起始和終止用下標(biāo)表示,時間描述子定義如下:
空間描述子描述動作執(zhí)行者之間的空間關(guān)系.Ryoo等[11]定義了2個空間描述子:“near”和“touch”.Aksoy等[15]在他們的語義場景圖中定義了4種空間描述子:“absence”、“no connection”、“overlapping”和“touching”.本文融合兩者提出一組新的空間描述子:“far”、“near”、“touch”和“overlap”.
邏輯描述子包含與、或和非,可以加強(qiáng)時間描述子和空間描述子對行為的表示能力.它們的定義和傳統(tǒng)數(shù)理邏輯中的定義一致.
4.1.2人臉朝向
人臉朝向也能增強(qiáng)描述子對行為的描述能力,當(dāng)2人的動作是相互靠近或者相互離開時,人臉朝向可以作為執(zhí)行者所做動作的方向.Face++在多項(xiàng)世界人臉識別比賽中名列前茅,他們的核心算法使用深度學(xué)習(xí)[16].本文采用Face++提供的云API識別人臉朝向,通過云API,每個頭像會返回83個關(guān)鍵點(diǎn)信息,把這83個信息點(diǎn)用九宮格分為9個區(qū)域,統(tǒng)計(jì)每個區(qū)域關(guān)鍵點(diǎn)的數(shù)量,則形成一個九維的特征向量.人臉朝向分為3類:左、中和右.實(shí)驗(yàn)中人臉數(shù)據(jù)共有6 000幀,取自拍攝的姿態(tài)圖像訓(xùn)練集和原子動作訓(xùn)練集中的圖像,采用隨機(jī)森林進(jìn)行訓(xùn)練識別,識別精度達(dá)到97.63%.
4.2單人復(fù)雜動作的識別
單人復(fù)雜動作的識別,即識別視頻中的子動作及它們之間的時間關(guān)系.以握手(handshake)為例,這個復(fù)雜動作可以分為3個子動作:“hand_stretch”、“hand_stay_stretch”和“hand_withdraw”.
經(jīng)過姿態(tài)識別后,復(fù)雜動作握手的圖像序列變?yōu)樽藨B(tài)序列,用符號表示為:
[1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,1,
1,1,1].
接著用估值定界法找出上述序列中子動作的起止點(diǎn),此處前向閾值為-7,后向閾值為-10,靜態(tài)連續(xù)幀個數(shù)為5.表4為最終輸出結(jié)果.
表4 復(fù)雜動作分割示例
注:以握手的子動作為例.
3個子動作的時間關(guān)系滿足:
meets(hand_stretch,hand_stay_stretch)&
meets(hand_stay_stretch,hand_withdraw)
符合基于CFG的描述方法對握手這個動作的定義,從而識別出握手這個行為.
4.3交互行為的識別
通過單人復(fù)雜動作的識別,得到每個人的動作在時間上的關(guān)系;根據(jù)人臉朝向,得到動作執(zhí)行者所做動作的方向;再加上空間描述信息,就能準(zhǔn)確表示交互行為.以交互行為ShakeHands為例(圖4).
圖4 交互行為ShakeHands的圖像和剪影序列Fig.4The images and silhouettes of interactive ShakeHands
圖5中PR表示圖像右邊的人,PL表示圖像左邊的人.識別單個人的動作時,發(fā)現(xiàn)PR和PL都有一個握手的復(fù)雜動作,并且在hand_stay_stretch階段,2人相互接觸,他們的關(guān)系描述如下:
很明顯這些子動作之間的關(guān)系滿足ShakeHands的定義,并由人臉朝向可知,2人的動作分別指向?qū)Ψ?即在這段視頻中識別出交互行為ShakeHands.
4.4實(shí)驗(yàn)結(jié)果
采集的交互動作數(shù)據(jù)集共有10組,每組都包括“Approach”、“Depart”、“Hello”、“ShakeHands”和“Punch”,還有1個動作“Point”作為干擾.Approach是2人走近,Depart是2人走遠(yuǎn),它們的子動作均是walk,需要的空間描述子分別為far和near.Hello是2人打招呼,可以不需要空間描述子.ShakeHands是2人握手,而Punch是一人拳打另一人,兩者都需要空間描述子touch.
第1層識別出每幀圖像中的人體姿態(tài),第2層用估值定界法識別出原子動作和它們的起止點(diǎn),第3層采用基于CFG描述的方法識別交互行為.表5是最終的識別結(jié)果,可以看出雖然視頻數(shù)據(jù)集較小,但仍能達(dá)到很好的識別結(jié)果,數(shù)據(jù)集總體識別準(zhǔn)確率為82%.
圖5 交互行為ShakeHands識別示意圖Fig.5Illustration of ShakeHands recognition
交互動作次數(shù)識別數(shù)準(zhǔn)確率/%Approach10770Depart10990ShakeHands10990Hello10880Punch10880總數(shù)504182
5結(jié)論
本文提出了一種分層的交互行為識別方法.該方法針對普通攝像機(jī)采集數(shù)據(jù)進(jìn)行人體行為識別時難以提取圖像中的人體部分,容易受到光照條件和背景色彩的影響,且不易消除人影等問題,使用能獲取深度信息的Kinect采集數(shù)據(jù).Kinect利用深度信息能有效解決上述問題,實(shí)時跟蹤視野中的人體.本文還采用棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)識別圖像中人體姿態(tài),由于深度學(xué)習(xí)能自動學(xué)習(xí)數(shù)據(jù)特征,提高了行為識別方法的可擴(kuò)展性和適應(yīng)性.在對姿態(tài)序列進(jìn)行分割時,該方法對靜態(tài)原子動作的識別進(jìn)行了優(yōu)化,提出的估值定界法提高了原子動作分割的效率和準(zhǔn)確率.針對數(shù)據(jù)集較小的問題,該方法采用基于描述的分層行為識別方法,方便融合先驗(yàn)知識,引入人臉朝向增強(qiáng)了描述子對行為的描述能力,實(shí)驗(yàn)結(jié)果顯示提出的方法能有效識別人體交互性行為.
單個Kinect采集數(shù)據(jù)時,視覺范圍和角度都有一定的局限,遮擋問題難以消除,對人體行為識別影響較大.因此在未來的工作中,我們將采用多個Kinect采集數(shù)據(jù),以減少遮擋和角度等因素的影響.
參考文獻(xiàn):
[1]POPPE R.A survey on vision-based human action recognition[J].Image and Vision Computing,2010,28(6):976-990.
[2]AGGARWAL J K,Ryoo M S.Human activity analysis:a review[J].Acm Computing Surveys,2011,43(3):1-43.
[3]SHEIKH Y,SHEIKH M,SHAH M.Exploring the space of a human action[C]∥2005 IEEE International Conference on Computer Vision(ICCV).Beijing:IEEE,2005:144-149.
[4]NATARAJAN P,NEVATIA R.Coupled hidden semi markov models for activity recognition[C]∥2007 IEEE Workshop on Motion and Video Computing(WMVC).Austin:IEEE,2007:10.
[5]OLIVER N,HORVITZ E,GARG A.Layered representations for human activity recognition[C]∥2002 IEEE International Conference on Multimodal Interfaces(ICMI).Pittsburgh,PA:IEEE,2002:3-8.
[6]JOO S W,CHELLAPPA R.Attribute grammar-based event recognition and anomaly detection[C]∥2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).New York:IEEE,2006:107.
[7]GUPTA A,SRINIVASAN P,JIANBO S,et al.Understanding videos,constructing plots learning a visually grounded storyline model from annotated videos[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Miami,FL:IEEE,2009:2012-2019.
[8]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[9]VINCENT P,LAROCHELLE H,LAJOIE I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11:3371-3408.
[10]ALLEN J F.Rethinking logics of action and time[C]∥2013 International Symposium on Temporal Representation and Reasoning (TIME).Pensacola,FL:IEEE,2013:3-4.
[11]RYOO M S,AGGARWAL J K.Recognition of composite human activities through context-free grammar based representation[C]∥2006 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). New York:IEEE,2006:1709-1718.
[12]ZHANG Z.Microsoft kinect sensor and its effect[J].IEEE Multimedia,2012,19(2):4-10.
[13]蘇竑宇,陳啟安,吳海濤.基于 SVM 和 HMM 二級模型的行為識別方案[J].計(jì)算機(jī)與現(xiàn)代化,2015,5:1-8.
[14]XIE L,PAN W,TANG C,et al.A pyramidal deep learning architecture for human action recognition[J].International Journal of Modelling Identification and Control,2014,21(2):139-146.
[15]AKSOY E E,ABRAMOV A,WORGOTTER F,et al.Categorizing object-action relations from semantic scene graphs[C]∥2010 IEEE International Conference on Robotics and Automation (ICRA).Anchorage,AK:IEEE,2010:398-405.
[16]FAN H,CAO Z,JIANG Y,et al.Learning deep face representation[EB/OL].[2014-03-12].http:∥arxiv.org/abs/1403.2802.
A Hierarchical Approach Based on Deep Learning for Human Interactive-action Recognition
YIN Kunyang,PAN Wei,XIE Lidong,XU Suxia*
(Fujian Key Lab of Brain-like Intelligent Systems,School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
Abstract:This paper discusses the recognition of interaction-level human activities with a hierarchical approach.We classify human activities into four categories:pose,atomic action,composite action,and interaction.In the bottom layer,a new pyramidal stacked de-noising auto-encoder is adopted to recognize the poses of person with high accuracy.In the middle layer,the hidden Markov models (HMMs) of atomic actions are built, and evaluation demarcation algorithm is proposed to detect atomic actions and speed up calculations.In the top layer,the context-free grammar (CFG) is used to represent and recognize interactions.In this layer,a new spatial predicate set is proposed and face orientation is introduced to describe activities.We use Kinect to capture activity videos.The experimental result from the dataset shows that the system possesses the ability to recognize human actions accurately.
Key words:human action recognition;deep learning;hidden Markov model (HMM);context-free grammar (CFG);Kinect
doi:10.6043/j.issn.0438-0479.2016.03.019
收稿日期:2015-08-29錄用日期:2015-11-20
基金項(xiàng)目:國家自然科學(xué)基金(60975084)
*通信作者:suxiaxu@xmu.edu.cn
中圖分類號:TP 391
文獻(xiàn)標(biāo)志碼:A
文章編號:0438-0479(2016)03-0413-07
引文格式:尹坤陽,潘偉,謝立東,等.一種基于深度學(xué)習(xí)的人體交互行為分層識別方法.廈門大學(xué)學(xué)報(自然科學(xué)版),2016,55(3):413-419.
Citation:YIN K Y,PAN W,XIE L D,et al.A hierarchical approach based on deep learning for human interactive-action recognition.Journal of Xiamen University(Natural Science),2016,55(3):413-419.(in Chinese)