周思超,夏利民
(中南大學(xué)信息科學(xué)與工程學(xué)院, 湖南長(zhǎng)沙 410075)
基于稠密軌跡聚類的人體交互行為識(shí)別
周思超,夏利民
(中南大學(xué)信息科學(xué)與工程學(xué)院, 湖南長(zhǎng)沙 410075)
摘 要:由于稠密軌跡對(duì)快速不規(guī)則運(yùn)動(dòng)的魯棒性較強(qiáng),對(duì)視頻運(yùn)動(dòng)信息的覆蓋度較好,近年來基于稠密軌跡的人體運(yùn)動(dòng)表征方法已經(jīng)越來越多地運(yùn)用于行為識(shí)別等領(lǐng)域。但軌跡提取受視頻噪聲影響較大,采用詞袋(BOW)模型分類的參數(shù)難以確定,分類算法復(fù)雜,前述方法仍有些許不足。為此,提出了一種空間金字塔稠密軌跡聚類(PDDC)的人體交互行為識(shí)別方法。在金字塔不同空間層提取人體交互運(yùn)動(dòng)軌跡,并對(duì)所提取軌跡進(jìn)行聚類,利用時(shí)空情境特征構(gòu)建行為描述符,最后通過多示例學(xué)習(xí)(MIL)對(duì)交互行為進(jìn)行分類識(shí)別。在UT-Interaction與WEB-Interaction數(shù)據(jù)集上進(jìn)行了測(cè)試,證明了該方法的有效性。
關(guān)鍵詞:交互行為識(shí)別;稠密軌跡;多示例學(xué)習(xí)
人體行為識(shí)別是計(jì)算機(jī)實(shí)現(xiàn)全自動(dòng)場(chǎng)景理解的重要一步,在監(jiān)視系統(tǒng)、人機(jī)交互、計(jì)算機(jī)智能等方面都有廣闊的應(yīng)用前景。兩人交互行為在日常生活中廣泛存在,如握手、擁抱、打架等,這些行為包含信息巨大。識(shí)別交互行為對(duì)視頻理解、信息決策等都有著極大的意義與價(jià)值。
近幾年,兩人交互行為識(shí)別的研究已經(jīng)取得豐碩的成果,研究對(duì)象也逐漸從單一背景、視角固定的數(shù)據(jù)集向背景雜亂、視角變化的數(shù)據(jù)集轉(zhuǎn)變。用特征包(BOF)框架來表征局部時(shí)空特征的方法在交互行為識(shí)別領(lǐng)域被廣泛采用[1-10]。
已有的方法在不同數(shù)據(jù)集上獲得了良好的實(shí)驗(yàn)結(jié)果的同時(shí),也存在著一些不足。如:STIP+BOW識(shí)別方法對(duì)圖像的關(guān)鍵點(diǎn)顯著點(diǎn)與文本關(guān)鍵字出現(xiàn)的頻率信息進(jìn)行統(tǒng)計(jì),卻忽略了時(shí)空興趣點(diǎn)的空間信息以及各局部區(qū)域之間的聯(lián)系,同時(shí)使用K-means聚類的詞袋模型在建立視覺碼本的時(shí)候會(huì)損失大量重要信息。而經(jīng)典軌跡法識(shí)別交互行為時(shí)軌跡計(jì)算負(fù)擔(dān)較大,并且由于噪聲的影響,算法會(huì)提取部分無關(guān)軌跡,該類軌跡對(duì)分類識(shí)別過程沒有幫助,在建立視覺碼本的時(shí)候還會(huì)產(chǎn)生一定的干擾。
本文提出了基于空間金字塔稠密軌跡聚類的方法來識(shí)別人體交互行為。在不同的分辨率下通過稠密采樣獲得交互雙方共同的運(yùn)動(dòng)軌跡后,根據(jù)不同交互行為整體動(dòng)作的差異性以及相同交互行為身體不同部位動(dòng)作的差異性,通過已有時(shí)空軌跡聚類算法對(duì)所得軌跡進(jìn)行聚類,有著類似運(yùn)動(dòng)以及類似運(yùn)動(dòng)趨勢(shì)的軌跡被聚類成一組。通過聚類,大部分的無關(guān)軌跡被剔除,而保留的經(jīng)過聚類的軌跡能夠更好地表征運(yùn)動(dòng)特征。聚類后軌跡的質(zhì)心投影在交互階段第一幀上,可以認(rèn)為這些質(zhì)心組成的區(qū)域是交互行為中區(qū)分程度較高的區(qū)域,求取聚類后軌跡周圍空間的時(shí)空CoHOG、CoHOF與CoMBH特征,結(jié)合以上特征作為行為的局部描述符。圖像空間金字塔是以多分辨率解讀圖像的一種結(jié)構(gòu),在某種分別率下無法發(fā)現(xiàn)的特性,在另一種分辨率下將很容易被發(fā)現(xiàn)。因此本文采用空間金字塔結(jié)構(gòu)進(jìn)行特征提取,在有限增加計(jì)算成本的情況下能夠顯著增加特征描述的多元性,提高分類器的分類準(zhǔn)確率。最后,本文舍棄了傳統(tǒng)軌跡運(yùn)算的分類方法,采用多示例學(xué)習(xí)分類算法作為分類方法。實(shí)驗(yàn)表明,本文提出的方法有著較高的識(shí)別率。
大部分交互行為能夠被看做4個(gè)有序階段的組合:個(gè)體階段(Individual Stage)、目標(biāo)階段(Targeting Stage)、交互階段(Interacting Stage)、(恢復(fù))個(gè)體階段(Individual Stage recur)。將視頻看做多幀的聯(lián)合時(shí),不同的交互行為中個(gè)體階段、目標(biāo)階段與(恢復(fù))個(gè)體階段是類似的,4個(gè)階段中只有交互階段提供了交互行為識(shí)別最主要的信息。本文采用Yang[11]等人的方法提取交互階段。如圖1所示,馬鞍形曲線為灰度值差異曲線(gray-value difference curve),兩個(gè)波峰分別代表了交互階段的起始幀和終止幀。兩幀之間的部分為后續(xù)提取特征部分。
圖1 交互階段提取過程
空間金字塔模型是一系列以金字塔形狀排列的、分辨率逐步降低的圖像集合。金字塔的底部是待處理圖像的高分辨率表示,當(dāng)向金字塔上層移動(dòng)時(shí),尺寸和分辨率不斷降低,每一層的尺寸和分辨率都是上一層的一半,如圖2所示。
圖2 間金字塔模型
金字塔的分辨率越低,伴隨的細(xì)節(jié)就越少,但低分辨率級(jí)別用于分析大的結(jié)構(gòu)和圖像整體內(nèi)容時(shí)能夠取得較好的結(jié)果,而高分辨率圖像適合分析圖像的細(xì)節(jié)特性。因此本文通過多分辨率對(duì)視頻序列進(jìn)行描述,使用低通高斯平滑濾波器對(duì)所提取交互階段的每一幀進(jìn)行處理,產(chǎn)生交互階段視頻的低分辨率近似,對(duì)不同分辨率的交互階段進(jìn)行軌跡提取以及特征表示,聯(lián)合不同分辨率的特征描述符形成空間金字塔描述符。本文實(shí)驗(yàn)對(duì)取不同層級(jí)金字塔對(duì)識(shí)別準(zhǔn)確率的影響進(jìn)行了測(cè)試。
在視頻軌跡提取方面,典型的軌跡提取方法可以分為稀疏興趣點(diǎn)軌跡提取與稠密軌跡提取。以KLT與STIP為代表的前一種方法產(chǎn)生的軌跡數(shù)量較少,在行為描述時(shí)不能夠很好地對(duì)交互行為進(jìn)行表征,同時(shí)KLT軌跡提取法包含了相當(dāng)數(shù)量的噪聲,表現(xiàn)為許多不相關(guān)軌跡。而稠密采樣能夠產(chǎn)生足夠多的行為空間描述,并且由于限制了軌跡提取階段,因此無需規(guī)定軌跡長(zhǎng)度就能夠避免由于長(zhǎng)時(shí)跟蹤造成的軌跡漂移現(xiàn)象。本文采用Wang[12]等人的方法提取稠密軌跡。
傳統(tǒng)的通過軌跡識(shí)別交互行為是通過運(yùn)動(dòng)描述符與詞袋模型結(jié)合的策略實(shí)現(xiàn)的。通過K-means聚類產(chǎn)生的視覺碼本會(huì)損失諸如空間信息等大量重要信息,對(duì)于不同種類的交互行為K值也難以確定。而在提取的軌跡中,并非所有的軌跡都是描述交互行為所必要的,一些無關(guān)軌跡會(huì)對(duì)生成視覺碼本產(chǎn)生影響。
由于以上諸多不足,本文提出了一種新的思路來識(shí)別交互行為。首先對(duì)提取的稠密軌跡聚類。通過時(shí)空軌跡聚類,能夠提取時(shí)空軌跡數(shù)據(jù)的相似與異常,將具有相似行為的時(shí)空對(duì)象劃分到一起,將具有相異行為的時(shí)空對(duì)象劃分開來。Thomas Brox[13]等人在通過點(diǎn)軌跡分析進(jìn)行目標(biāo)分割時(shí),提出了一種軌跡聚類方法:先定義一個(gè)親和矩陣,再利用譜聚類實(shí)現(xiàn)軌跡聚類。他們的思想是為同時(shí)運(yùn)動(dòng)的點(diǎn)賦予較高的親和度,并同時(shí)考慮點(diǎn)之間的距離信息??紤]兩條軌跡A和B,定義某一時(shí)刻它們之間的距離:
dsp(A,B)表示共同時(shí)間窗口下A與B的平均空間歐氏距離。與空間距離相乘能夠保證相近的點(diǎn)能夠產(chǎn)生高親和度。ut:=xt+5-xt與vt:=yt+5-yt可以對(duì)跨越多幀的點(diǎn)的運(yùn)動(dòng)進(jìn)行更好的估計(jì)。之后再利用σt對(duì)這些距離進(jìn)行標(biāo)準(zhǔn)化:
使用標(biāo)準(zhǔn)指數(shù)函數(shù)將標(biāo)準(zhǔn)化后的距離d2(A,B)轉(zhuǎn)化成親和度:
因此,整個(gè)視頻鏡頭會(huì)產(chǎn)生一個(gè)n×n的親和度矩陣W,n表示軌跡的數(shù)量。λ為一個(gè)固定尺度值,此處設(shè)為0.1。
譜聚類的聚類策略是將點(diǎn)映射到特征空間,再使用傳統(tǒng)聚類算法進(jìn)行聚類。利用圖形拉普拉斯算子特征分解獲得特征映射:特征向量v0,v1,...,vm與特征值λ1,λ2,...,λm
一一對(duì)應(yīng)。最后通過求取包含空間規(guī)則項(xiàng)的能量函數(shù)(energy function)的最小值進(jìn)行聚類判斷:
其中N(a)表示基于軌跡平均空間距離的一組臨近軌跡,va表示m個(gè)特征向量中的第a個(gè)特征向量,μk表示聚類k的中心。述符和時(shí)間情境描述符。
空間情境描述符分為S-CoHOG,S-CoHOF與S -CoMBH。S-CoHOG將成對(duì)的方向梯度作為一個(gè)單元,利用共現(xiàn)矩陣表示圖像,它能夠描述原始圖像結(jié)構(gòu)。S-CoHOF將成對(duì)的光流方向作為單元,它能夠描述運(yùn)動(dòng)結(jié)構(gòu)。S-CoMBH將水平和豎直方向的成對(duì)的光流梯度作為單元,它能夠捕捉光流的梯度結(jié)構(gòu)。
依照文獻(xiàn)[6]的方法,以軌跡的每個(gè)點(diǎn)為中心,沿著軌跡取塊,大小為N×N×L,對(duì)視頻塊進(jìn)行網(wǎng)格劃分,分為nσ×nσ×nτ個(gè)網(wǎng)格,再對(duì)每個(gè)網(wǎng)格進(jìn)行特征提取,如圖3所示。由于視頻中的像素點(diǎn)并不是孤立的,對(duì)一個(gè)像素前后時(shí)空區(qū)域的聯(lián)合編碼會(huì)取得更好的表征效果,故本文選取時(shí)空共現(xiàn)情景描述符對(duì)稠密軌跡進(jìn)行描述。
空間共現(xiàn)方向梯度直方圖(CoHOG)最早由Tomoki Watanabe等人[14]提出用作行人檢測(cè)。Peng等人[15]擴(kuò)展了時(shí)空情境描述符CoHOF與CoMBH進(jìn)行行為特征描述。以上描述符可以分為空間情境描
圖3 稠密軌跡描述符的提取
時(shí)間情境描述符分為T-CoHOG、T-CoHOF與T-CoMBH。由圖4可知,獲得時(shí)間共現(xiàn)描述符的基本單元至少需要3幀圖像。T-CoHOG能夠描述隨著時(shí)間變化外觀的改變。類似地,T-CoHOF描述隨著時(shí)間變化的運(yùn)動(dòng)方向改變,T-CoMBH能夠提取時(shí)間變化造成的光流梯度方向的改變。
圖4 時(shí)間共現(xiàn)描述符
除了時(shí)空情境描述符,每條軌跡也能夠提取出一個(gè)軌跡特征向量S',對(duì)局部動(dòng)作模式進(jìn)行編碼有:
綜上,一個(gè)視頻可以由若干簇聚類后的軌跡進(jìn)行表示,而這些軌跡能夠通過聯(lián)合時(shí)空情境描述符與軌跡特征進(jìn)行表示。
傳統(tǒng)軌跡法用作交互行為識(shí)別時(shí)的一般策略是使用運(yùn)動(dòng)描述符與詞袋模型結(jié)合[12],例如,在基于軌跡的交互行為識(shí)別方法中,先計(jì)算每條軌跡的HOG、HOF以及MBH,再對(duì)訓(xùn)練集中所有的描述符使用K-means聚類,產(chǎn)生視覺碼本。將視頻序列中所有的特征根據(jù)歐氏距離映射到碼本中離其最近的碼字,每個(gè)視頻就可以使用一個(gè)標(biāo)準(zhǔn)化的特征向量來表示。最后使用標(biāo)準(zhǔn)支持向量機(jī)進(jìn)行分類。但該模型存在不少缺陷:詞袋模型在復(fù)雜場(chǎng)景下表現(xiàn)欠佳,K-means聚類魯棒性較低,受聚類數(shù)據(jù)量以及數(shù)據(jù)輸入順序等因素影響較大,K值難以確定,碼本大小也難以確定。因此,本文選取多示例學(xué)習(xí)作為分類方法。
在多示例學(xué)習(xí)問題中,每個(gè)包里的示例是沒有標(biāo)簽的,但每個(gè)包均有標(biāo)簽,其訓(xùn)練集是由多個(gè)示例構(gòu)成的包。在多示例學(xué)習(xí)模型中,未知包的標(biāo)記依賴于某個(gè)中間函數(shù),該函數(shù)以包中各個(gè)示例為自變量,通過計(jì)算取各個(gè)示例的最大輸出值來決定標(biāo)記的屬性[16]。其中每個(gè)負(fù)包中的示例都為負(fù)示例,正包中至少存在一個(gè)正示例。本文將視頻序列看作包,將軌跡聚類的各個(gè)區(qū)域看作示例。但由于訓(xùn)練集中部分不同交互行為具有較高的相似度,如推人(PUSH)和拳擊(PUNCH),這樣會(huì)導(dǎo)致負(fù)包中并不全是負(fù)示例而造成誤判。
因此,本文選取MILES(植入示例選擇)作為分類算法。作為對(duì)DD-SVM算法的改進(jìn),MILES并沒有強(qiáng)制要求負(fù)包中的示例全為負(fù)示例。因此相比于其他多示例學(xué)習(xí)算法,MILES更加適用于計(jì)算機(jī)視覺領(lǐng)域的分類,分類準(zhǔn)確率與計(jì)算效率更高,對(duì)標(biāo)簽不確定性的魯棒性也更好。該算法先將訓(xùn)練包中所有示例組成示例空間,再通過簡(jiǎn)單的映射將所有包都投影到示例空間中。所有的示例組成一個(gè)集合{x1,x2,...,xn},n表示訓(xùn)練包中示例的總數(shù)。對(duì)于某一個(gè)包Bi,定義映射如下:
計(jì)算s(xk,Bi)時(shí),只需選取Bi中與示例xi最接近的一個(gè)示例作為Bi與xi的相似概率:
其中,σ為預(yù)設(shè)的尺度參數(shù)。
因此整個(gè)訓(xùn)練集的包全部可以通過該映射形成如下映射矩陣:
該矩陣的每一個(gè)列向量都代表一個(gè)包中的特征。采用1范數(shù)支持向量機(jī)在特征空間中訓(xùn)練分類器,能夠有效地抵制標(biāo)簽噪聲。完成訓(xùn)練后,通過支撐向量可以將對(duì)應(yīng)的特征從特征空間中挑選出來。
對(duì)交互行為數(shù)據(jù)集UT-Interaction與WEB-Interaction[17]進(jìn)行了識(shí)別效果的測(cè)試。如圖5所示,其中UT-Interaction數(shù)據(jù)集包含了6種不同行為的交互視頻,分別是握手、擁抱、踢人、指人、推人、拳擊,共120個(gè),視頻背景相對(duì)單一。該數(shù)據(jù)集分為SET1、SET2兩個(gè)子數(shù)據(jù)集。子數(shù)據(jù)集視頻平均長(zhǎng)度在4 s左右。WEB Interaction數(shù)據(jù)集源自新聞、在線監(jiān)控視頻、社交網(wǎng)絡(luò)等媒體,更多地貼近現(xiàn)實(shí)場(chǎng)景,背景雜亂,視角多變,部分視頻還包含了商業(yè)標(biāo)識(shí)或新聞評(píng)論,交互行為共有追逐、交換物品、握手、擊掌、搶奪等9種,每一類行為有50個(gè)視頻,共450個(gè),視頻平均長(zhǎng)度在5 s左右。實(shí)驗(yàn)環(huán)境為2.5GHz Intel Core i5處理器、4G RAM筆記本電腦。
圖5 UT-Interaction數(shù)據(jù)集與WEB-Interaction數(shù)據(jù)集
4.1評(píng)估空間金字塔對(duì)識(shí)別準(zhǔn)確率的影響
就空間金字塔對(duì)識(shí)別準(zhǔn)確率的影響進(jìn)行了實(shí)驗(yàn)。參數(shù)選取文獻(xiàn)[6]中的默認(rèn)值,即N=32,nσ= 2,nτ=3,軌跡長(zhǎng)度L=15,稠密采樣步長(zhǎng)W=5。改變金字塔層數(shù),分別取金字塔1~5層提取稠密軌跡,并對(duì)每一層提取的軌跡進(jìn)行聚類,提取并融合特征后利用多示例學(xué)習(xí)MILES算法進(jìn)行分類。需要注意,由于WEB-Interaction數(shù)據(jù)集視角變化,背景雜亂,本文第二部分所述方法難以提取交互階段,故此處對(duì)完整視頻提取空間金字塔稠密軌跡。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 空間金字塔層數(shù)對(duì)識(shí)別準(zhǔn)確率的影響
實(shí)驗(yàn)結(jié)果表明,對(duì)空間金字塔多層進(jìn)行稠密軌跡提取相比于單層視頻稠密軌跡提取識(shí)別準(zhǔn)確率有著明顯提高,尤其當(dāng)空間金字塔取兩層時(shí),最終識(shí)別率相比于單層增加明顯。并且隨著層數(shù)增加,視頻幀由粗到細(xì)的分析更加精確,更能夠良好描述交互動(dòng)作定位與交互動(dòng)作細(xì)節(jié),但同時(shí)也伴隨著計(jì)算成本的增加。根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行權(quán)衡,本文在后續(xù)實(shí)驗(yàn)取金字塔層數(shù)為兩層。
4.2UT-Interaction數(shù)據(jù)集測(cè)試
在UT-Interaction數(shù)據(jù)集上對(duì)本文方法進(jìn)行了測(cè)試,其中空間金字塔取兩層。實(shí)驗(yàn)結(jié)果可以表示為圖7中的混淆矩陣,圖7(a)、圖7(b)分別表示SET1與SET2的識(shí)別結(jié)果。
由圖7可以看出,本文方法對(duì)“擁抱”、“踢人”以及“推人”3種交互行為識(shí)別率較高,“握手”與“拳擊”由于交互區(qū)域較小,視頻動(dòng)作歧義性會(huì)比另外幾種動(dòng)作高,識(shí)別率會(huì)相對(duì)偏低,但本文方法的平均識(shí)別率也在85%以上?!爸溉恕笔窃摂?shù)據(jù)集中比較特殊的行為,交互雙方只有一個(gè)人執(zhí)行動(dòng)作,屬于不對(duì)稱交互行為的一種,但本文方法依然適用,識(shí)別率在90%以上。由于SET2子數(shù)據(jù)集存在鏡頭晃動(dòng)與背景雜亂等干擾因素,SET2在“握手”與“推人”行為識(shí)別上識(shí)別率要略低于SET1。
圖7 數(shù)據(jù)集混合矩陣
本文還將各類交互行為識(shí)別率與前人研究方法進(jìn)行對(duì)比,結(jié)果如表1所示。其中Ryoo等人使用動(dòng)態(tài)詞包模型,將人體行為的序列特性進(jìn)行特征編碼;Patron-Perez等人選取頭部方向與它周圍的時(shí)空特征作為特征描述符,運(yùn)用結(jié)構(gòu)化輸出SVM分類行為;Kong等人使用交互短語對(duì)行為進(jìn)行語義描述;Vahdat采用關(guān)鍵姿勢(shì)序列模型分類交互行為;Yang等人則采用基于群體稀疏性優(yōu)化的特征選擇模型來識(shí)別交互行為。實(shí)驗(yàn)結(jié)果表明本文方法不僅對(duì)視覺特征明顯的行為如“擁抱”“踢人”識(shí)別率很高,對(duì)行為歧義性較大的“拳擊”與“推人”的識(shí)別準(zhǔn)確率也高于前人方法5%到10%。但本文方法對(duì)握手的識(shí)別率并沒有達(dá)到預(yù)期水平,略低于前人研究結(jié)果。原因主要是交互興趣區(qū)域過小,交互時(shí)間過短,所提取的稠密軌跡難以準(zhǔn)確表征交互行為,由此造成誤判。因此該行為的識(shí)別也一直是交互行為識(shí)別的難點(diǎn)。最終的平均準(zhǔn)確率為92.5%,略低于Yang等人的方法,但文獻(xiàn)[11]所用方法模型較為復(fù)雜,其較高的識(shí)別率需要建立在良好的檢測(cè)跟蹤效果之上,因此該方法對(duì)復(fù)雜背景、視角變換情境下的交互行為識(shí)別效果較低,相比之下,本文所采用的稠密軌跡法不需要對(duì)交互者進(jìn)行檢測(cè)跟蹤,對(duì)復(fù)雜環(huán)境下的交互行為識(shí)別適應(yīng)性更強(qiáng)。故本文方法在一定程度上仍具有優(yōu)越性。
表2為子數(shù)據(jù)集SET1、SET2上識(shí)別準(zhǔn)確率的對(duì)比,結(jié)果表明,本文方法在復(fù)雜度更低普適度更高的情況下,識(shí)別表現(xiàn)僅僅略低于Yang等人的方法,而比其余前人方法更優(yōu)。
表1 多種方法各類準(zhǔn)確率對(duì)比 /%
表2 子數(shù)據(jù)集上識(shí)別準(zhǔn)確率對(duì)比 /%
4.3WEB-Interaction數(shù)據(jù)集測(cè)試
由于WEB-Interaction數(shù)據(jù)集較新,對(duì)該數(shù)據(jù)集測(cè)試的已有文獻(xiàn)較少,本文分別利用傳統(tǒng)軌跡法與時(shí)空興趣點(diǎn)法與本文方法作對(duì)比。其中傳統(tǒng)軌跡法使用DT提取稠密軌跡,計(jì)算軌跡的MBH特征,時(shí)空興趣點(diǎn)法使用Harris3D算子提取時(shí)空興趣點(diǎn),計(jì)算時(shí)空興趣點(diǎn)的HOG/HOF特征。以上兩種方法均使用詞袋模型,通過K-Means聚類,詞典大小設(shè)為500,最后使用標(biāo)準(zhǔn)SVM進(jìn)行分類。
由圖8可知,在更貼近現(xiàn)實(shí)的WEB-Interaction數(shù)據(jù)集上,本文方法要明顯優(yōu)于傳統(tǒng)軌跡法與時(shí)空興趣點(diǎn)法。在追逐(Chase)、握手(Handshake)、擁抱(Hug)、接吻(Kiss)、拍打(Pat)行為上表現(xiàn)要高于另外兩種方法,而對(duì)其他行為的識(shí)別率也與另外兩種方法持平或略低。本文方法的平均識(shí)別率(47. 27%)也明顯高于傳統(tǒng)軌跡法(39.9%)與時(shí)空興趣點(diǎn)法(39.73%),證明了本文方法在復(fù)雜場(chǎng)景下相比前人方法也有了更高的識(shí)別率。而文獻(xiàn)[17]中提及的最高識(shí)別率為44.2%,平均識(shí)別率為38%,本文方法也要明顯高于該識(shí)別率。
圖8 WEB-Interaction數(shù)據(jù)集上3種方法識(shí)別準(zhǔn)確率對(duì)比
針對(duì)傳統(tǒng)軌跡法在交互行為識(shí)別上存在的無關(guān)軌跡多、分類算法粗糙等問題,提出了一種基于空間金字塔的稠密軌跡聚類的方法來識(shí)別人體交互行為。首先從視頻中提取交互階段以降低計(jì)算成本,再通過對(duì)多分辨率視頻稠密軌跡提取與聚類,得到具有較好的行為描述度的聚類軌跡區(qū)域。本文采用的時(shí)空情境描述符CoHOG、CoHOF與CoMBH相比于傳統(tǒng)HOG、HOF與MBH描述符能夠更好地表征交互行為。最后選取多示例學(xué)習(xí)MILES算法進(jìn)行分類,該算法訓(xùn)練速度較快,分類精度高于傳統(tǒng)詞袋模型。在UT-Interaction數(shù)據(jù)集與WEB-Interaction數(shù)據(jù)集上的測(cè)試證明了本文方法的有效性。
參考文獻(xiàn):
[1]Laptev I.On Space-Time Interest Points[J].International Journal of Computer Vision,2005,64(2-3):432-439.
[2]Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]//2005 IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance.IEEE Computer Society,2005:65-72.
[3]Messing R,Pal C,Kautz H.Activity recognition using the velocity histories of tracked keypoints.In:IEEE ICCV[C]//Proceedings IEEE International Conference on Computer Vision.IEEE International Conference on Computer Vision,2009:104-111.
[4]Matikainen P,Hebertm,Sukthankar R.Trajectons:Action Recognition Through themotion Analysis of Tracked Features[C]// Computer Vision Workshops(ICCV Workshops).2009 IEEE 12th International Conference on.IEEE,2009:514-521.
[5]Sun J,Wu X,Yan S,et al.Hierarchical spatio-temporal contextmodeling for action recognition.[C]//Proceedings CVPR,IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2009:2004-2011.
[6]Wang H,Klaser A,Schmid C,et al.Action recognition by dense trajectories[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2011:3169-3176.
[7]Wang H,Kl?ser A,Schmid C,et al.Dense Trajectories andmotion Boundary Descriptors for Action Recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[8]Vrigkasm,Karavasilis V,Nikou C,et al.Matchingmixtures of curves for human action recognition[J].Computer Vision&Image Understanding,2014,119(2):27-40.
[9]Hao Z,Zhang Q,Ezquierdo E,et al.Human action recognition by fast dense trajectories[C]//Proceedings of the 21st ACM international conference onmultimedia.ACM,2013:377-380.
[10]Beaudry C,Peteri R,Mascarilla L.Action Recognition In Videos Using Frequency Analysis Of Critical Point Trajectories[C]// Image Processing(ICIP),2014 IEEE International Conference on.IEEE,2014:1445-1449.
[11]Yang L,Gao C,Meng D,et al.A Novel Group-Sparsity-Optimization-Based Feature Selectionmodel for Complex Interaction Recognition[M]//Computer Vision--ACCV 2014.Springer International Publishing,2015:508-521.
[12]Wang H,Kl?ser A,Schmid C,et al.Dense Trajectories andmotion Boundary Descriptors for Action Recognition[J].International Journal of Computer Vision,2013,103(1):60-79.
[13]Brox T,Malik J.Object segmentation by long term analysis of point trajectories[C]//In Proc.European Conference on Computer Vision,2010:282-295.
[14]Watanabe T,Ito S,Yokoi K.Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection[M]//Advances in Image and Video Technology.Springer Berlin Heidelberg,2009:37-47.
[15]Peng X,Qiao Y,Peng Q,et al.Exploringmotion Boundary based Sampling and Spatial-Temporal Context Descriptors for Action Recognition[C]//Britishmachine Vision Conference,2013.
[16]Sener F,Ikizler-Cinbis N.Two-Person Interaction Recognition via Spatialmultiple Instance Embedding[J].Journal of Visual Communication&Image Representation.,2015(32):63-73.
[17]Gao C,Yang L,Du Y,et al.From constrained to unconstrained datasets:an evaluation of local action descriptors and fusion strategies for interaction recognition[J].World Wide Web-internet&Web Information Systems,2015:1-12.
[18]Ryoom S.Human Activity Prediction:Early Recognition of Ongoing Activities from Streaming Videos[J].Proceedings,2011,24 (4):1036-1043.
[19]Alonso P P,Marcinm,Ian R,et al.Structured Learning of Human Interactions in TV Shows[J].IEEE Transactions on Software Engineering,2012,34(12):2441-2453.
[20]Kong Y,Jia Y,F(xiàn)u Y.Interactive Phrases:Semantic Descriptionsfor Human Interaction Recognition[J].Pattern Analysis&Machine Intelligence IEEE Transactions on,2014,36(9):1775-1788.
[21]Vahdat A,Gao B,Ranjbarm,et al.A discriminative key pose sequencemodel for recognizing human interactions[C]//Computer Vision Workshops(ICCV Workshops),2011 IEEE International Conference on.IEEE,2011:1729-1736.
收稿日期:(2016-03-02)
作者簡(jiǎn)介:周思超(1991-),男,在讀碩士研究生,主研方向:圖像處理與模式識(shí)別,Email:zhousc91@163.com。