楊天金 侯振杰, 2 李興 梁久禎 宦娟 鄭紀(jì)翔
人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域和模式識(shí)別領(lǐng) 域的一個(gè)重要的分支,應(yīng)用范圍十分廣泛,在智能監(jiān)控、虛擬現(xiàn)實(shí)等應(yīng)用中表現(xiàn)十分優(yōu)秀[1-5].傳統(tǒng)的人體行為識(shí)別使用的是彩色攝像機(jī)[6]生成的RGB圖像序列,而RGB 圖像受光照、背景、攝像器材的影響很大,識(shí)別穩(wěn)定性較差.
隨著技術(shù)的發(fā)展,特別是微軟Kinect 體感設(shè)備的推出,基于圖像序列的人體行為識(shí)別研究得到了進(jìn)一步的發(fā)展.相比于彩色圖像序列,深度圖序列更有優(yōu)勢(shì).不僅可以忽略光照和背景帶來的影響,還可以提供深度信息,深度信息表示為在可視范圍內(nèi)目標(biāo)與深度攝像機(jī)的距離.深度圖序列相較于彩色圖序列,提供了豐富的人體3D 信息,胡建芳等[7]詳細(xì)描述了RGB-D 行為識(shí)別研究進(jìn)展和展望.至今已經(jīng)探索了多種基于深度圖序列的表示方法,以Bobick等[8]的運(yùn)動(dòng)能量圖(Motion energy images,MEI)、運(yùn)動(dòng)歷史圖(Motion history images,MHI)作為時(shí)空模板的人體行為識(shí)別的特征提取方法,提高了識(shí)別的穩(wěn)健性;蘇本躍等[9]采用函數(shù)型數(shù)據(jù)分析的行為識(shí)別方法;Anderson等[10]基于3 維Zernike的圖像數(shù)據(jù)嘗試行為分類,并且該分類對(duì)于具有低階矩的行為是有效的;Wu等[11]基于3 維特征和隱馬爾科夫模型對(duì)人體行為動(dòng)作進(jìn)行分類并加以識(shí)別;Wang等[12]從深度視頻中提取隨機(jī)占用模式(Random occupancy pattern,ROP)特征,并用稀疏編碼技術(shù)進(jìn)行重新編碼;Zhang等[13]使用梯度信息和稀疏表達(dá)將深度和骨骼相結(jié)合,用于提高識(shí)別率;Zhang等[14]從深度序列中提取的動(dòng)作運(yùn)動(dòng)歷史圖像(Sub-action motion history image,SMHI)和靜態(tài)歷史圖像(Static history image,SHI);Liu等[15]利用深度序列和相應(yīng)的骨架聯(lián)合信息,采用深度學(xué)習(xí)的方法進(jìn)行動(dòng)作識(shí)別;Xu等[16]提出了深度圖和骨骼融合的人體行為識(shí)別;Wang等[17-19]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人體行為識(shí)別;Yang等[20]提出了深度運(yùn)動(dòng)圖(Depth motion maps,DMM),將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖,得到三個(gè)2 維地圖,在此基礎(chǔ)上差分堆疊整個(gè)深度序列動(dòng)作能量圖生成DMM.DMM雖然展現(xiàn)出人體行為豐富的空間信息,但是無法記錄人體行為的時(shí)序信息.針對(duì)現(xiàn)有深度序列特征圖時(shí)序信息缺失的問題,本文提出了一種新的深度序列表征方式,即深度時(shí)空?qǐng)D(Depth space time maps,DSTM).
DMM 側(cè)重于表征人體行為的空間信息,而DSTM 側(cè)重于表征人體行為的時(shí)序信息.通過融合空間信息與時(shí)序信息進(jìn)行人體行為識(shí)別,可以提高人體行為識(shí)別的魯棒性,其中融合算法的可靠性直接影響了識(shí)別的精確度.在一些實(shí)際應(yīng)用中,多模態(tài)數(shù)據(jù)雖然通過不同方式收集,但表達(dá)的是相同語義.通過分析多模態(tài)的數(shù)據(jù),提取與融合有效特征,解決快速增長的數(shù)據(jù)量問題.常見的融合方法有子空間學(xué)習(xí),例如Li等[21]將典型性相關(guān)分析(Canonical correlation analysis,CCA)應(yīng)用于基于非對(duì)應(yīng)區(qū)域匹配的人臉識(shí)別,使用CCA 來學(xué)習(xí)一個(gè)公共空間,測量兩個(gè)非對(duì)應(yīng)面部區(qū)域是否屬于同一面部的可能性;Haghighat等[22]改進(jìn)CCA 提出的判別相關(guān)分析(Discriminant correlation analysis,DCA);Rosipal等[23]將偏最小二乘法(Partial least squares,PLS)用于執(zhí)行多模態(tài)人臉識(shí)別;Liu等[24]的字典學(xué)習(xí)(Dictionary learning method)廣泛應(yīng)用于多視圖的人臉識(shí)別;Zhuang等[25]使用基于圖的學(xué)習(xí)方法(Graph-based learning method)進(jìn)行多模態(tài)的融合;Sharma等[26]將線性判別分析(Linear discriminant analysis,LDA)和邊際Fisher 分析(Marginal Fisher analysis,MFA)擴(kuò)展到它們的多視圖對(duì)應(yīng)物,即廣義多視圖LDA (Generalized multi-view LDA,GMLDA)和廣義多視圖MFA(Generalized multi-view MFA,GMMFA),并將它們應(yīng)用于跨媒體檢索問題;Wang等[27]對(duì)子空間學(xué)習(xí)進(jìn)行改進(jìn),同樣將它們應(yīng)用于跨媒體的檢索問題.本文提出多聚點(diǎn)子空間學(xué)習(xí)算法以用于融合空間信息與時(shí)序信息進(jìn)行人體行為識(shí)別.
1.1.1 運(yùn)動(dòng)能量圖和運(yùn)動(dòng)歷史圖
Bobick等[8]通過對(duì)彩色序列中相鄰幀進(jìn)行圖片差分,獲得人體行為的區(qū)域,在此基礎(chǔ)上進(jìn)行二值化后生成二值的圖像序列D(x,y,t),進(jìn)一步獲得二值特征圖MEI,計(jì)算式為
其中,Eτ(x,y,t)為視頻序列中t幀處的能量,由τ幀序列生成的MEI.
同時(shí),Bobick等[8]在MEI的基礎(chǔ)上,為了表示出行為的時(shí)序性,提出了MHI.在MHI 中像素亮度是該點(diǎn)處運(yùn)動(dòng)的時(shí)間歷史函數(shù).MHI 通過簡單的替換和衰減運(yùn)算獲得,計(jì)算式為
其中,Hσ(x,y,t)的初始像素亮度為σ,D(x,y,t)為整個(gè)圖像序列.
1.1.2 深度運(yùn)動(dòng)圖
Yang等[20]提出將深度序列中的深度幀投影到笛卡爾直角坐標(biāo)平面,獲取3D 結(jié)構(gòu)和形狀信息.在整個(gè)過程中提出了深度運(yùn)動(dòng)圖(DMM)描述行為,每個(gè)深度幀在投影后獲得主視圖、側(cè)視圖和俯視圖三個(gè)2 維投影圖,表示為mapv.假設(shè)一個(gè)有N幀的深度圖序列,DMMv特征計(jì)算式為
其中,i表示幀索引,表示第i幀深度幀在v方向上的投影,f表示主視圖,s表示側(cè)視圖,t表示俯視圖.
子空間學(xué)習(xí)的本質(zhì)是龐大的數(shù)據(jù)集樣本背后最質(zhì)樸的特征選擇與降維.子空間學(xué)習(xí)的基礎(chǔ)是Harold Hotelling 提出的典型性相關(guān)分析(CCA)[15],CCA的主要思想是在兩組隨機(jī)變量中選取若干個(gè)有代表性的綜合指標(biāo)(變量的線性組合),這些指標(biāo)的相關(guān)關(guān)系來表示原來的兩組變量的相關(guān)關(guān)系.假設(shè)有兩組數(shù)據(jù)樣本X和Y,其中X為x1×m的樣本矩陣,Y為x2×m的樣本矩陣,對(duì)X,Y做標(biāo)準(zhǔn)化后CCA的計(jì)算式為
其中,a,b分別為X,Y的投影矩陣,X′=aTX,Y ′=aTY,cov為協(xié)方差,cov(X′,Y ′)協(xié)方差和方差的計(jì)算式為
CCA的優(yōu)化目標(biāo)計(jì)算式為
以CCA 為基礎(chǔ)的子空間學(xué)習(xí)將大規(guī)模的數(shù)據(jù)樣本進(jìn)行優(yōu)化,但它的計(jì)算復(fù)雜度很高,無法消除階級(jí)間的相關(guān)性并無法限制類內(nèi)的相關(guān)性.
針對(duì)DMM 時(shí)序信息的缺失的問題,本文提出一種深度圖序列表示算法DSTM.DSTM 反映的是人體3D 時(shí)空行為在空間直角坐標(biāo)軸上的分布隨著時(shí)間變化的情況,人體所在空間直角坐標(biāo)系三個(gè)軸分別為寬度軸(w)代表寬度方向、高度軸(h)代表高度方向、深度軸(d)代表深度方向,圖1 為DSTM的流程圖.
如圖1 所示,首先將深度幀投影在三個(gè)笛卡爾正交面上,獲得主視圖、側(cè)視圖和俯視圖三個(gè)2 維投影圖,表示為mapv,v∈{f,s,t}.然后根據(jù)每個(gè)2 維投影圖得到兩個(gè)軸的行為分布情況.任選兩個(gè)2 維投影圖即可得到寬度軸、高度軸、深度軸的行為分布情況.
圖1 DSTM 流程圖Fig.1 DSTM flowchart
對(duì)a軸上的投影列表為
其中,a∈{w,h,d},W,H分別表示2 維投影圖的寬度和高度.suma表示2 維投影圖序列在a軸上投影列表.對(duì)2 維投影圖序列在a軸上的投影列表進(jìn)行二值化,即
其中,lista表示對(duì)2 維投影圖序列在a軸上的投影列表進(jìn)行二值化,a∈{w,h,d},ε表示二值化的閾值.假設(shè)有N幀投影,DSTM的計(jì)算式為
最后對(duì)DSTM進(jìn)行感興趣區(qū)域(Region of interest,ROI)處理,根據(jù)感興趣區(qū)域的主旨,對(duì)圖片進(jìn)行裁剪、大小歸一化處理.
子空間學(xué)習(xí)存在著計(jì)算復(fù)雜度高,無法消除階級(jí)間相關(guān)性的缺陷,本文提出了多聚點(diǎn)子空間學(xué)習(xí)的方法,在約束平衡模態(tài)間樣本關(guān)系的同時(shí),通過構(gòu)建同類別各樣本的多個(gè)投影聚點(diǎn),疏遠(yuǎn)不同類別樣本的類間距離,降低了投影目標(biāo)區(qū)域維度.多聚點(diǎn)子空間學(xué)習(xí)算法的思想可表示為
其中,Xp表示未經(jīng)投影各模態(tài)樣本,即原空間樣本;Up,p=1,···,M表示各模態(tài)樣本的投影矩陣;表示經(jīng)投影后各模態(tài)樣本,即子空間樣本;L表示類別總數(shù);Y為子空間內(nèi)目標(biāo)投影矩陣,由各類別樣本目標(biāo)投影聚點(diǎn)yi組成;Gc為多個(gè)各模態(tài)同一類別樣本新建目標(biāo)投影點(diǎn)矩陣;λ1,λ2,λ3為各項(xiàng)超參.
本文將傳統(tǒng)子空間學(xué)習(xí)稱為單聚點(diǎn)子空間學(xué)習(xí).多聚點(diǎn)子空間學(xué)習(xí)與單聚點(diǎn)子空間學(xué)習(xí)的主要區(qū)別是聚點(diǎn)個(gè)數(shù)的不同,具體定義如下:
1)單聚點(diǎn)子空間學(xué)習(xí).通過學(xué)習(xí)每種模態(tài)數(shù)據(jù)的投影矩陣,將不同類別數(shù)據(jù)投影到公共子空間.投影矩陣的學(xué)習(xí)通常是最小化投影后樣本與各類數(shù)據(jù)唯一主聚點(diǎn)的距離得到,計(jì)算式為
其中,Y為子空間內(nèi)目標(biāo)投影矩陣,由各類別樣本目標(biāo)投影聚點(diǎn)yi組成,可表示為Y=[y1,y2,···,yN]T,
圖2 為單聚點(diǎn)子空間學(xué)習(xí).通過最小化子空間樣本與各類別投影聚點(diǎn)之間距離來減少樣本的類內(nèi)距離.
圖2 單聚點(diǎn)子空間學(xué)習(xí)Fig.2 Subspace learning
2)多聚點(diǎn)子空間學(xué)習(xí).多聚點(diǎn)子空間學(xué)習(xí)是對(duì)單聚點(diǎn)子空間學(xué)習(xí)的優(yōu)化,都是通過學(xué)習(xí)每種模態(tài)數(shù)據(jù)的投影矩陣,將不同類別數(shù)據(jù)投影到公共子空間.不同的是,投影矩陣的學(xué)習(xí)由同時(shí)最小化投影后樣本與各類數(shù)據(jù)唯一主聚點(diǎn)以及與多個(gè)副聚點(diǎn)的總距離得到,計(jì)算式為
其中,Gc為各類別樣本的第c個(gè)副投影聚點(diǎn)集合矩陣.副投影聚點(diǎn)為其他類別投影聚點(diǎn)關(guān)于當(dāng)前類別目標(biāo)投影聚點(diǎn)的對(duì)稱聚點(diǎn).Gc的構(gòu)建算法步驟如下.
算法 1.Gc的構(gòu)建算法
圖3 為多聚點(diǎn)子空間學(xué)習(xí).通過為各類別樣本構(gòu)建多個(gè)投影聚點(diǎn)并使用模態(tài)內(nèi)、模態(tài)間數(shù)據(jù)相似度關(guān)系,使得子空間樣本向多個(gè)投影目標(biāo)點(diǎn)附近的超平面聚攏,有效增大了子空間樣本之間的距離,降低了投影目標(biāo)區(qū)域的維度,使投影目標(biāo)區(qū)域從n維的超球體變?yōu)閚-1 維的超平面,同類別的子空間樣本更為緊湊,從而有效地提高了算法的特征優(yōu)化效果.因此結(jié)合使用數(shù)據(jù)模態(tài)內(nèi)、模態(tài)間相似度關(guān)系的多聚點(diǎn)子空間學(xué)習(xí)可表示為
圖3 多聚點(diǎn)子空間學(xué)習(xí)Fig.3 Multi-center subspace learning
本文以式(14)第1 項(xiàng)為基準(zhǔn)確定式中各項(xiàng)超參,設(shè)定子空間樣本與目標(biāo)投影聚點(diǎn)之間約束程度等同于同類別子空間樣本之間約束程度.第1 項(xiàng)中子空間樣本與目標(biāo)投影點(diǎn)之間約束共有F1個(gè),F1計(jì)算式為
其中,M為模態(tài)數(shù),N為樣本數(shù).
式(14)第3 項(xiàng)中子空間樣本之間約束共有F2個(gè),其中同一模態(tài)子空間樣本相似度的約束共有Fa個(gè),不同模態(tài)同一類別的子空間樣本之間的相似度的約束共有Fb個(gè),F2,Fa,Fb計(jì)算式為
式(14)第4 項(xiàng)中子空間樣本與目標(biāo)投影聚點(diǎn)之間約束共有F3個(gè),F3計(jì)算式為
在子空間樣本與目標(biāo)投影聚點(diǎn)之間約束程度等同于同類別子空間樣本之間約束.根據(jù)F1,F2,F3比例關(guān)系,可以確定式(14)的第3 項(xiàng)和第4 項(xiàng)超參的計(jì)算式為
最后本文通過實(shí)驗(yàn),以最終識(shí)別率為依據(jù),確定λ1.
對(duì)于式(16)中的幾項(xiàng)可進(jìn)行優(yōu)化,式(16)中的第2 項(xiàng)是對(duì)各模態(tài)的數(shù)據(jù)樣本投影矩陣的約束項(xiàng),防止算法過擬合.第2 項(xiàng)中含有l(wèi)2,1范數(shù),它是非平滑且不能得到的一個(gè)閉式解[28].對(duì)于投影矩陣,其l2,1范數(shù)定義為
式(14)中第3 項(xiàng)是不同模態(tài)同一類別的子空間樣本之間的約束.第3 項(xiàng)可以通過如下方式進(jìn)行推導(dǎo)
本節(jié)通過下述算法步驟求解線性系統(tǒng)問題來計(jì)算式(26)的最優(yōu)解.
算法 2.計(jì)算子空間學(xué)習(xí)的最優(yōu)解
通過算法2 進(jìn)行求解,先計(jì)算出拉普拉斯矩陣,然后求解出并代入式(27)進(jìn)行重復(fù)求解,直至收斂.
文獻(xiàn)[30]對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)的研究,本文采用的是由Kinect 攝像頭采集的MSR-Action3D[31]數(shù)據(jù)庫和UTD-MHAD[32]數(shù)據(jù)庫.
MSR-Action3D (MSR)數(shù)據(jù)庫由10 個(gè)人20個(gè)動(dòng)作重復(fù) 2~3 次,共計(jì)557 個(gè)深度圖序列,涉及人的全身動(dòng)作.詳情如表1 所示.
表1 MSR 數(shù)據(jù)庫中的人體行為Table 1 Human actions in MSR
UTD-MHAD (UTD)數(shù)據(jù)庫由8 個(gè)人(4男4 女)27 個(gè)動(dòng)作重復(fù)4 次,共計(jì)861 個(gè)深度圖序列.詳情如表2 所示.
表2 UTD 數(shù)據(jù)庫中的人體行為Table 2 Human actions in UTD
為了驗(yàn)證時(shí)序信息在人體行為中的重要性,本文將與原深度圖序列順序相反的行為稱為反序行為.本文中的反序行為是通過將正序行為的深度圖序列進(jìn)行反序排列操作得到新數(shù)據(jù)庫D1,D2,其中D1 為MSR 數(shù)據(jù)庫及MSR 反序數(shù)據(jù)庫,D2 為UTD 數(shù)據(jù)庫及UTD 反序數(shù)據(jù)庫.D1 正反高拋動(dòng)作如圖4 所示.
圖4 正反高拋動(dòng)作Fig.4 Positive and negative high throwing action
本文采用10×10 像素的圖像單元分割圖像,每2×2 個(gè)圖像單元構(gòu)成一個(gè)圖像塊,以10 像素為步長滑動(dòng)圖像塊來提取圖像的方向梯度直方圖(Histogram of oriented gradient,HOG)[26]特征.采用采樣半徑為2,采樣點(diǎn)數(shù)為8的參數(shù)設(shè)置來提取圖像局部二值模式 (Local binary patterns,LBP)[33]特征.尺寸歸一化后DMMf大小為320×240,DMMs大小為500×240,DMMt大小為320×500,所以DMM-HOG的特征數(shù)量為120 924.DMMLBP的特征數(shù)量為276 800.同樣尺寸歸一化后DSTMw大小為320×60,DSTMh大小為240×60,DSTMd大小為500×60,所以DMM-HOG的特征數(shù)量為18 540.DMM-LBP的特征數(shù)量為63 600.
實(shí)驗(yàn)中分為兩個(gè)設(shè)置.設(shè)置1 在MSR 數(shù)據(jù)庫上將20 個(gè)行為分為3 組(AS1、AS2、AS3)[33],行為分布情況如表1,其中AS1 和AS2 組內(nèi)相似度較高,AS3 組內(nèi)相似度較低.如表3 所示.
表3 MSR-Action3D 數(shù)據(jù)分組Table 3 MSR-Action3D data grouping
設(shè)置2 在MSR 數(shù)據(jù)庫和UTD 數(shù)據(jù)庫上選取全部的動(dòng)作.
在設(shè)置1 和設(shè)置2 中可采用4 種測試方法.測試1:1/3 作為訓(xùn)練數(shù)據(jù),2/3 作為測試數(shù)據(jù);測試2[12]:1/2 作為訓(xùn)練數(shù)據(jù),1/2 作為測試數(shù)據(jù);測試3:2/3 作為訓(xùn)練數(shù)據(jù),1/3 作為測試數(shù)據(jù);測試4:采用5 折交叉驗(yàn)證
在本文提出的人體識(shí)別的模型中,首先要確定參數(shù)λ1,λ2,λ3的值.在進(jìn)行子空間學(xué)習(xí)的時(shí)候,參數(shù)對(duì)于結(jié)果有著巨大的影響,需要優(yōu)先估計(jì)最優(yōu)的參數(shù).通過選擇不同的參數(shù),并以識(shí)別率作為評(píng)判標(biāo)準(zhǔn).識(shí)別率=預(yù)測正確測試樣本數(shù)/總測試樣本數(shù).通過采用設(shè)置1 測試1的方法和HOG 特征進(jìn)行實(shí)驗(yàn).根據(jù)式(20)和式(21)分別可以得到λ2=1/13 847,λ3=1/19.根據(jù)圖5 可知,當(dāng)λ1=20時(shí),本文算法具有較高的人體識(shí)別性能.
圖5 參數(shù)選擇Fig.5 The parameter of selection
4.4.1 分類器選擇
對(duì)同一種特征圖而言,采用不同的分類器識(shí)別效果會(huì)有較大的差異.為了選擇對(duì)特征圖識(shí)別效果較好的分類器,本實(shí)驗(yàn)通過比較DSTM 在不同的分類器的識(shí)別效果,最終以識(shí)別率作為標(biāo)準(zhǔn),采用設(shè)置1 測試3的方法,如圖6 所示.
從圖6 中可以發(fā)現(xiàn)HOG 特征采用了不同的分類器,得到的識(shí)別率差異較大,不同特征圖采用同一分類器,與同一特征圖采用不同分類器,支持向量機(jī)(Support vector machine,SVM)的識(shí)別效果較好,下面實(shí)驗(yàn)均采用SVM 作為分類器.
圖6 DSTM 在不同分類器識(shí)別效果Fig.6 DSTM recognition of different classifiers
4.4.2 特征選擇
為了篩出空間信息和時(shí)序信息的特征圖,采用設(shè)置1,在MSR 數(shù)據(jù)庫上使用測試1、測試2、測試4的方法進(jìn)行實(shí)驗(yàn),并且對(duì)3 組實(shí)驗(yàn)結(jié)果設(shè)置了平均值;采用設(shè)置2,在UTD 數(shù)據(jù)庫上使用測試1、測試2、測試3的方法進(jìn)行實(shí)驗(yàn).通過個(gè)體識(shí)別率和平均識(shí)別率來篩出空間信息和時(shí)序信息的特征圖.
表4 和表5 使用HOG 和LBP 兩個(gè)特征圖序列.由表4 中的單個(gè)識(shí)別率或平均識(shí)別率以及表5中所有動(dòng)作的識(shí)別率可以得出結(jié)論:在同一特征圖中,HOG 特征較LBP 特征有著更高的識(shí)別率.LBP 特征反映的是像素周圍區(qū)域的紋理信息;HOG 特征能捕獲輪廓、弱化光照,對(duì)于深度圖有著更佳的表現(xiàn),有著更好的識(shí)別效果.就本文實(shí)驗(yàn)而言.HOG特征更適合于本實(shí)驗(yàn).
在表4 和表5 中選擇同為HOG 特征的特征圖,從表中的識(shí)別率可以得出,DMM 和DSTM 與MEI 和MHI 相比有更高的識(shí)別率.主要原因是MEI 將深度幀二值化后進(jìn)行疊加,掩蓋了時(shí)序圖中每張圖的輪廓信息,丟失了時(shí)序圖自身的深度信息,但反映出一定的輪廓信息,保留了一定的空間信息;MHI 雖然通過圖像的亮度衰減,增加了一部分時(shí)序信息,但由于人為干預(yù)圖像的亮度,導(dǎo)致了圖像自身的深度信息的丟失.
表4 MSR 數(shù)據(jù)庫上不同特征的識(shí)別率(%)Table 4 Different of feature action recognition on MSR (%)
表5 UTD 數(shù)據(jù)庫上不同特征的識(shí)別率(%)Table 5 Different of feature action recognition on UTD (%)
使用DSTM 和DMM的優(yōu)勢(shì)主要有以下幾點(diǎn):1)DMM 是將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖三個(gè)2 維地圖,在此基礎(chǔ)上差分堆疊整個(gè)深度序列動(dòng)作能量圖.相較于MEI,DMM 充分地使用了時(shí)序圖的深度信息,豐富了特征中的空間信息,很大程度上保留了輪廓信息,并且從三個(gè)方向上可以很明顯地看出行為動(dòng)作,充分展現(xiàn)了空間信息.2)DSTM 是將深度幀投影到笛卡爾直角坐標(biāo)平面上,生成主視圖、俯視圖、側(cè)視圖三個(gè)2 維地圖,提取任意兩個(gè)2 維地圖投影到3 個(gè)正交軸上獲取三軸坐標(biāo)投影,將獲得的坐標(biāo)投影二值化后按時(shí)間順序進(jìn)行拼接.DSTM 將深度幀的時(shí)序信息很好地保留了下來,相較于MHI 有了很大程度上的改善.DSTM 較好地保存了時(shí)序信息.
時(shí)序信息在行為識(shí)別中有著重要的作用.對(duì)比DMM,DSTM 蘊(yùn)含著重要的時(shí)序信息.本文在D1和D2 數(shù)據(jù)庫上采用設(shè)置2,使用測試1的方法
通過對(duì)比表6的識(shí)別率和表7的時(shí)間復(fù)雜度,在D1 與D2 數(shù)據(jù)庫的實(shí)驗(yàn)證明,DMM 由于未含有時(shí)序信息,與DSTM 識(shí)別率差異較大.另外DMM相較于DSTM 時(shí)間復(fù)雜度較高,DSTM的時(shí)序信息在行為識(shí)別中起著重要的作用.
表6 DMM 和DSTM 對(duì)比實(shí)驗(yàn)結(jié)果(%)Table 6 Experimental results of DMM and DSTM (%)
表7 DMM 和DSTM 平均處理時(shí)間(s)Table 7 Average processing time of DMM and DSTM (s)
4.4.3 特征選擇實(shí)驗(yàn)結(jié)果
本文選取的深度運(yùn)動(dòng)圖代表的空間信息與深度時(shí)空?qǐng)D代表的特征圖使用多聚點(diǎn)子空間學(xué)習(xí)的算法(簡稱本文方法).為了表征本文方法對(duì)于單一特征有著更高的識(shí)別率以及本文方法對(duì)于融合方法同樣有著更高的識(shí)別率,將本文方法與當(dāng)前主流單一算法和融合算法進(jìn)行比較.在MSD-Action3D 上采用設(shè)置2 測試2、設(shè)置2 測試4的方法;在UTD-MHAD上采用設(shè)置2 測試4的方法.
表8 均采用文獻(xiàn)[12]方法中的實(shí)驗(yàn)設(shè)置,其中文獻(xiàn)[34-40]方法使用了深度學(xué)習(xí)的模型框架.識(shí)別率最高為91.45.本文的識(shí)別率達(dá)到了90.32%,接近文獻(xiàn)[34]中的最優(yōu)結(jié)果,主要原因是:本文提出的DSTM 算法可以將深度幀的時(shí)序信息很好地保留下來,獲得的特征信息更加豐富和完善.多聚點(diǎn)子空間的方法構(gòu)建了多個(gè)投影聚點(diǎn)并使用了模態(tài)內(nèi)、模態(tài)間數(shù)據(jù)相似度關(guān)系,使得子空間樣本向多個(gè)投影目標(biāo)點(diǎn)附近的超平面聚攏,有效增大了子空間樣本之間的距離,所以在行為識(shí)別中表現(xiàn)出了較為優(yōu)越的性能.表9 和表10 在多聚點(diǎn)子空間學(xué)習(xí)加單個(gè)特征圖的識(shí)別率有一定的提升,但相較于融合DSTM 特征和DMM 特征圖略有不足.本文在采用不同的融合方法時(shí),識(shí)別率也有一定提升.本文方法的識(shí)別率在MSR 數(shù)據(jù)庫達(dá)到98.21%和UTD數(shù)據(jù)庫達(dá)到98.84%.為了更深層次的了解本文方法的識(shí)別效果,本文給出了本文方法的每個(gè)動(dòng)作識(shí)別效果的混淆矩陣.
表8 M SR-Action3D1 上的實(shí)驗(yàn)結(jié)果Table 8 Experimental results onMSR-Action3D1
表9 M SR-Action3D2 上的實(shí)驗(yàn)結(jié)果Table 9 Experimental results onMSR-Action3D2
表10 UTD-MHAD 在設(shè)置2 測試4 上的實(shí)驗(yàn)結(jié)果Table 10 Experimental results on UTD-MHAD
本文通過融合DMM的空間信息和DSTM的時(shí)序信息的兩種特征圖后,得到空間時(shí)序特征.多聚點(diǎn)子空間學(xué)習(xí)是通過為各類別樣本構(gòu)建了多個(gè)投影聚點(diǎn).圖7(a)和圖7(b)為MSR的混淆矩陣.其中,MSR-Action3D1采用設(shè)置2 測試2;MSR-Action3D2采用設(shè)置2 測試4.從中可以看出整體識(shí)別率,圖中顯示本文方法將畫叉識(shí)別成畫圈,將發(fā)網(wǎng)球識(shí)別成了畫勾.兩類動(dòng)作差異性小,因此較容易出錯(cuò).圖7 (c)為UTD的混淆矩陣,圖中顯示本文方法將慢跑變成走路.出現(xiàn)錯(cuò)誤原因是動(dòng)作行為軌跡相似性較大.
圖7 混淆矩陣Fig.7 Confusion matrix
針對(duì)現(xiàn)有的深度圖序列特征圖冗余過多、時(shí)序和空間信息缺失等問題,本文提出一種新的深度序列表示方式DSTM 和多聚點(diǎn)子空間學(xué)習(xí),并在此基礎(chǔ)上進(jìn)行了人體行為識(shí)別研究.深度幀投影二值化后按時(shí)間順序進(jìn)行拼接生成DSTM,對(duì)每張DSTM 提取HOG 特征以獲得時(shí)序信息.對(duì)DMM提取HOG 特征以獲得空間信息.多聚點(diǎn)子空間學(xué)習(xí),在約束平衡模態(tài)間樣本關(guān)系的同時(shí),構(gòu)建同類別各樣本的多個(gè)副投影聚點(diǎn),疏遠(yuǎn)不同類別樣本的類間距離,降低了投影目標(biāo)區(qū)域維度,最后送入分類器進(jìn)行人體行為識(shí)別.本實(shí)驗(yàn)表明本文提出的DSTM 和多聚點(diǎn)子空間學(xué)習(xí)的方法能夠減少深度序列的冗余,保留豐富的空間信息和良好的時(shí)序信息,有效地提高行為識(shí)別的準(zhǔn)確性.