丁松濤, 曲仕茹
(西北工業(yè)大學(xué) 自動化學(xué)院, 陜西 西安 710129)
?
基于改進(jìn)時空興趣點(diǎn)檢測的人體行為識別算法
丁松濤, 曲仕茹
(西北工業(yè)大學(xué) 自動化學(xué)院, 陜西 西安 710129)
提出了一種基于改進(jìn)時空興趣點(diǎn)檢測的人體行為識別算法。旨在針對復(fù)雜環(huán)境的時空特性,在傳統(tǒng)興趣點(diǎn)檢測算法的基礎(chǔ)上,加入背景點(diǎn)抑制和時空興趣點(diǎn)約束,以減少無用興趣點(diǎn)對有效興趣點(diǎn)信息的干擾。為此,首先對Harris-Laplace 算法進(jìn)行改進(jìn),以克服興趣點(diǎn)檢測過程中遇到的多尺度問題和冗余點(diǎn)過多問題,提取篩選后的有效興趣點(diǎn)作為目標(biāo)的運(yùn)動坐標(biāo)信息。然后基于Bag-of-words模型思想,使用HOG算子對興趣點(diǎn)進(jìn)行特征提取,建立視覺詞典,使用AIB算法合并詞義相近的視覺詞匯,作為單詞表中的基礎(chǔ)詞匯。最后使用SVM進(jìn)行人體行為分類并實(shí)現(xiàn)復(fù)雜環(huán)境下的人體行為識別。為了驗證新算法的有效性,分別在現(xiàn)有的公開人體行為基準(zhǔn)數(shù)據(jù)庫和一些復(fù)雜場景下進(jìn)行實(shí)驗。試驗結(jié)果表明,通過對無用興趣點(diǎn)的抑制,能夠有效降低單幀圖像的計算復(fù)雜度,減少特征提取時間,提高行為識別準(zhǔn)確度。
人體行為識別;時空抑制;HOG算子;AIB算法
人體行為識別是機(jī)器視覺、模式識別、圖像處理領(lǐng)域中一個非常重要的研究方向。在復(fù)雜場景下(背景擾動、光流變化、視角移動)的人體行為識別已逐漸成為研究熱點(diǎn)。與其他圖像識別方法相似,人體行為識別可以大致分為:圖像顯著區(qū)域檢測、底層人體特征提取和人體運(yùn)動表征、簡單動作識別、高層復(fù)雜行為抽象和復(fù)雜場景理解等基本過程。一些經(jīng)典的人體行為識別算法(如Rober等[1]提出的基于HMM的行為識別方法,HMM是一種常用于人體行為識別的建模方法),并涉及到行為理解。Vasu等[2]提出二維視角不變空間,以解決行為識別的視角問題。Li[3]提出使用光流方向直方圖描述人體行為的方法,這些方法都已在簡單場景下取得了理想的識別效果。復(fù)雜場景下目標(biāo)檢測和特征提取過程受到遮擋、背景、視角和光線變化等因素的影響,已成為一項具有挑戰(zhàn)性的工作。
雖然復(fù)雜場景下不同的人體行為識別算法所采用的識別策略不同,但其關(guān)注點(diǎn)多集中在復(fù)雜場景下的目標(biāo)檢測和行為理解,以及基于視頻序列的時空信息分析解算。例如,Laptev[4]將Harris角點(diǎn)擴(kuò)展到三維空間,這些時空特征點(diǎn)鄰域的像素值在時間和空間都有顯著變化,并能夠自適應(yīng)時間維和空間維。Dollar等[5]則指出上述算法存在一種缺陷,即檢測出來的穩(wěn)定有效興趣點(diǎn)數(shù)量太少,進(jìn)而提出改進(jìn)方法,先分別在時間維和空間維進(jìn)行Gabor濾波,使得被檢測到的興趣點(diǎn)數(shù)目會隨著時間和空間局部尺度的改變而變化,并且滿足對興趣點(diǎn)的數(shù)量需求。Park等[6]提出了一種基于貝葉斯網(wǎng)絡(luò)的個體姿態(tài)估計方法,對個體行為建模,最后模擬出一種交互行為決策樹,進(jìn)行行為分類。將興趣點(diǎn)檢測應(yīng)用于復(fù)雜場景下,會產(chǎn)生大量的背景興趣點(diǎn)。這些無用的興趣點(diǎn)會增加系統(tǒng)計算成本和行為識別的錯誤率。針對這個問題,Bregonzio等[7]提出了將時空興趣點(diǎn)作為人體行為識別的特征描述子。通過計算前后一幀的不同,來估計視覺注意的焦點(diǎn),然后利用Gabor濾波在這些子區(qū)域來檢測顯著點(diǎn)。基于全局或局部特征的時空興趣點(diǎn)檢測方法,各有利弊,都在一定程度上取得了不錯的實(shí)驗效果,但依然不能很好解決復(fù)雜背景下的人體目標(biāo)識別和行為理解問題。
針對上述方法中存在的問題和不足,本文在傳統(tǒng)2D-Harris角點(diǎn)檢測算法的基礎(chǔ)上做出改進(jìn),將多尺度信息引入Harris檢測中,通過冗余點(diǎn)剔除、空間尺度選擇、時間尺度抑制方法,極大減少了背景興趣點(diǎn)的產(chǎn)生,提高了圖像處理速度,減輕了計算負(fù)擔(dān),對光線變化、物體遮擋、復(fù)雜背景具有良好的適應(yīng)能力。圖1是傳統(tǒng)興趣點(diǎn)檢測和本文算法處理過后的興趣點(diǎn)分布對比圖。場景選擇在較為復(fù)雜的人體行為數(shù)據(jù)庫Hollywood2中,經(jīng)過冗余點(diǎn)剔除、時空抑制的興趣點(diǎn)能夠較為準(zhǔn)確地定位運(yùn)動人體附近的重要信息,并且將無關(guān)興趣點(diǎn)剔除,可極大提高特征提取速度和目標(biāo)檢測精度。
圖1 復(fù)雜場景中人體目標(biāo)興趣點(diǎn)檢測優(yōu)化對比
本文采用基于碼本的Bag-of-words模型和HOG算子,對處理過的時空興趣點(diǎn)進(jìn)行特征提取。這種方法最初被應(yīng)用在圖像檢索算法中,后來逐漸形成“視覺詞匯”的概念。本文使用HOG算子提取局部特征向量;然后使用AIB貪婪算法對特征向量進(jìn)行合并,得到具有旋轉(zhuǎn)不變性的“視覺詞匯”。這些“視覺詞匯”作為一個整體構(gòu)成字典;最后使用SVM進(jìn)行訓(xùn)練,得到Bag-of-words特征分類模型,對待測圖像提取相應(yīng)的特征進(jìn)行行為類別預(yù)測。為了驗證本文方法的有效性,我們選用目前一些較權(quán)威的人體行為識別數(shù)據(jù)庫,如KTH人體行為數(shù)據(jù)庫、羅切斯特大學(xué)的Activities of Daily Living數(shù)據(jù)庫、UCF 、Hollywood場景數(shù)據(jù)庫,YouTube行為識別數(shù)據(jù)庫等進(jìn)行實(shí)驗。
1.1 冗余點(diǎn)剔除
基于局部特征的時空興趣點(diǎn)檢測方法在應(yīng)對移動背景、光流場變化、視角變化等情況時,展現(xiàn)了其優(yōu)越的性能。但是,由于傳統(tǒng)Harris角點(diǎn)檢測中不包含尺度信息,其檢測結(jié)果中包涵大量無用的背景信息點(diǎn)。Yaron等[8]利用圖像邊緣濾波對圖像序列進(jìn)行檢測。在一次目標(biāo)檢測實(shí)驗中,有近82%的興趣點(diǎn)屬于背景興趣點(diǎn);只有約18%的興趣點(diǎn)是不需要進(jìn)行背景抑制處理的有效興趣點(diǎn)。大量無用的干擾數(shù)據(jù)會增加計算量,影響目標(biāo)識別精度。圖2a)~圖2d)分別是在羅切斯特大學(xué)的Activities of Daily Living數(shù)據(jù)庫、UCF人體運(yùn)動數(shù)據(jù)庫、Hollywood2場景數(shù)據(jù)庫、KTH基準(zhǔn)數(shù)據(jù)庫上進(jìn)行傳統(tǒng)興趣點(diǎn)檢測的結(jié)果,檢測到大量無用的興趣點(diǎn)。興趣點(diǎn)檢測與顯著區(qū)域檢測的目的相似,都希望獲得更少的興趣點(diǎn)以及更準(zhǔn)確的區(qū)域劃分,為后期特征提取和行為識別提供有效的數(shù)據(jù)支持。
圖2 不同數(shù)據(jù)庫進(jìn)行傳統(tǒng)興趣點(diǎn)檢測,產(chǎn)生大量無用興趣點(diǎn)
為了解決這一問題,本文提出了一種基于改進(jìn)的Harris-Laplace算法進(jìn)行時空興趣點(diǎn)采集,對采集到的興趣點(diǎn)進(jìn)行冗余點(diǎn)剔除,以提高特征提取效率和準(zhǔn)確度。Harris角點(diǎn)檢測對光線和對比度的改變具有魯棒性,但對尺度變化敏感。不同的尺度空間是通過輸入視頻序列與不同低通濾波器進(jìn)行卷積得到的。在實(shí)際運(yùn)算中,以變換高斯核函數(shù)尺度因子獲得濾波器然后與視頻序列卷積得到不同尺度空間的圖像序列。
(1)
式中,L(x,y,σ)表示尺度空間,I(x,y)表示輸入圖像,G(x,y,σ)為帶有尺度因子σ的高斯核函數(shù),多尺度高斯核函數(shù)G(x,y,σ)為
(2)
式中,σ為尺度因子,Harris-Laplace多尺度檢測自相關(guān)矩陣為
圖3 基于改進(jìn)時空興趣點(diǎn)檢測的人體行為識別算法流程圖
M=μ(x,y,σI,σD)
(3)
式中,x,y代表圖像的像素坐標(biāo),σI為積分尺度,σD為微分尺度。一般σI=sσD,通??稍O(shè)定經(jīng)驗值s=0.6。多尺度Harris檢測每個尺度空間圖像上點(diǎn)的響應(yīng)值
(4)
式中,α=0.04-0.06,T為閾值用來控制提取角點(diǎn)的數(shù)目,R越大越有可能是角點(diǎn)。局部檢測得到的特征點(diǎn)會隨著尺度變化向著梯度方向發(fā)生位移,這種改變是非常微小的,且表達(dá)相似的局部特征結(jié)構(gòu)。這樣就產(chǎn)生了非常多表達(dá)相同結(jié)構(gòu)、差異很小的冗余點(diǎn),這些冗余點(diǎn)增加了計算量。本文提出一種在各尺度候選點(diǎn)中選擇最具代表性特征點(diǎn)的方法,具體算法如下:
Step1 多尺度興趣點(diǎn)檢測。首先對輸入視頻幀按照公式(1)進(jìn)行不同尺度上的高斯濾波生成尺度空間L(x,y,σ)。然后按照公式(4)多尺度響應(yīng)值檢測算法設(shè)定閾值,將響應(yīng)值大于設(shè)定閾值的興趣點(diǎn)作為候選興趣點(diǎn)。
Step2 構(gòu)建選擇矩陣。構(gòu)建候選興趣點(diǎn)響應(yīng)矩陣M(m,n)和候選點(diǎn)尺度矩陣K(m,n),初始化M(x,y)=0,K(x,y)=0。將檢測到的興趣點(diǎn)響應(yīng)值和對應(yīng)尺度賦給M(x,y)與K(x,y)。
Step3 興趣點(diǎn)篩選。利用半徑為3的像素統(tǒng)計濾波器,對候選興趣點(diǎn)矩陣進(jìn)行濾波,通過比較領(lǐng)域內(nèi)候選點(diǎn)響應(yīng)值,得到半徑閾值范圍內(nèi)響應(yīng)最大值MaxValue1和次最大值MaxValue2的候選點(diǎn)。對Step1中的每一點(diǎn)(x,y)在不同尺度下得到的興趣點(diǎn)進(jìn)行判斷。如果對應(yīng)區(qū)域的響應(yīng)值MaxValue2>T(閾值)且滿足區(qū)域點(diǎn)屬于M(m,n)則保留,不滿足對應(yīng)位置清0。這樣最終保留下來的興趣點(diǎn)組成了候選興趣點(diǎn)矩陣。
通過上述方法的改進(jìn),在興趣點(diǎn)檢測階段剔除了大量冗余點(diǎn),減少了后續(xù)特征提取計算量、降低了特征向量分類時的干擾,提高了圖像興趣點(diǎn)采集精度。
1.2 背景興趣點(diǎn)抑制
本文首先在最終采集到的興趣點(diǎn)上采用鄰域抑制標(biāo)記(neighborhood suppression label),然后選出中心點(diǎn)并對周圍的領(lǐng)域點(diǎn)進(jìn)行角點(diǎn)強(qiáng)度響應(yīng)值評估,最后通過中心點(diǎn)附近的領(lǐng)域點(diǎn)評估結(jié)果來判斷是否應(yīng)該對這個中心點(diǎn)進(jìn)行抑制。引入影響因子θσ(X,Xu,v)
(5)
式中,θσ(X)和θσ(Xu,v)分別代表點(diǎn)X≡(x,y)和X≡(x-u,y-v)的梯度。u、v分別指代整個鄰域的范圍尺度。當(dāng)θσ(X)和θσ(Xu,v)逐漸趨近時,影響因子逐漸達(dá)到最大值,相互正交時影響因子是最小的。對于每一個中心點(diǎn)Mσ(X),我們定義權(quán)重參數(shù)tσ(X)作為梯度值的和
(6)
式中,Ω代表坐標(biāo)取值范圍,其中β為抑制強(qiáng)度因子,對候選興趣點(diǎn)進(jìn)行鄰域抑制
(7)
式中,f為激活函數(shù),當(dāng)z≥0,f(z)=z,z<0時則忽略z值。β在這里用來控制鄰域抑制強(qiáng)度,根據(jù)實(shí)驗得出β在[0.8-1.6]范圍內(nèi)取得最好的抑制效果。當(dāng)β持續(xù)變大時,抑制效果增強(qiáng)興趣點(diǎn)數(shù)量減少,最后將獲得的興趣點(diǎn)放入鄰域抑制響應(yīng)集Mσ,β中。
1.3 時間空間抑制
為了進(jìn)一步移除與運(yùn)動目標(biāo)不相關(guān)的興趣點(diǎn),需要進(jìn)行時空興趣點(diǎn)抑制。本文采用T.Lindeberg的尺度選擇算法[9],其中尺度Sσ=N×σ,這種方法能夠進(jìn)行多尺度興趣點(diǎn)優(yōu)化選擇。在目標(biāo)檢測階段,為了去除圖像中大量的冗余點(diǎn),抑制靜態(tài)興趣點(diǎn)的產(chǎn)生是一種行之有效的方法。在進(jìn)行運(yùn)動目標(biāo)檢測時,靜態(tài)興趣點(diǎn)可以當(dāng)成背景點(diǎn)進(jìn)行抑制[10],靜態(tài)興趣點(diǎn)抑制算法為
(8)
通過對冗余點(diǎn)的剔除、背景點(diǎn)抑制,再通過基于空間和時間約束的算法進(jìn)一步剔除無用靜態(tài)興趣點(diǎn),最后得到帶有尺度信息的運(yùn)動目標(biāo)顯著區(qū)域興趣點(diǎn)集合。
表1 時間約束算法
圖4~圖6分別是在不同數(shù)據(jù)庫下使用未經(jīng)算法優(yōu)化的興趣點(diǎn)提取方法與本文興趣點(diǎn)提取方法的對比??梢钥闯?改進(jìn)后的興趣點(diǎn)明顯減少,雖然興趣點(diǎn)數(shù)量減少,但都圍繞或者包裹重要目標(biāo)本身,這樣十分有利于直接進(jìn)行特征提取。圖6還嘗試了更為復(fù)雜的生活環(huán)境和運(yùn)動觀察視角,實(shí)驗結(jié)果可以為顯著區(qū)域預(yù)測提供直接幫助,縮小特征提取區(qū)域的搜索范圍。
圖4 KTH數(shù)據(jù)庫中多尺度興趣點(diǎn)實(shí)驗結(jié)果對比 圖5 YouTube數(shù)據(jù)庫識別實(shí)驗結(jié)果對比 圖6 移動視角下的人體行為實(shí)驗結(jié)果對比
(9)
(10)
式中,Gx(x,y)、Gy(x,y)、H(x,y)分別表示輸入圖像中像素點(diǎn)(x,y)處的水平方向梯度、垂直方向梯度和像素值。像素點(diǎn)在(x,y)處的梯度幅值G和梯度方向α分別為
(11)
(12)
根據(jù)像素點(diǎn)的幅值和方向,計算梯度投影直方圖,將整個圖像幀的梯度直方圖保存下來。與傳統(tǒng)HOG不同的是,加入時間軸t作為縱深信息,構(gòu)成一個特征立方體。將特征立方體(x,y,t)按照(4∶4∶3)的比例劃分,分割成一系列小區(qū)域。目的在于提高目標(biāo)識別魯棒性的同時,盡量提取更多有用的特征信息。
需要注意的是在這里并不直接使用特征立方體本身充當(dāng)特征描述子,不同的人進(jìn)行相同動作行為時,外觀和運(yùn)動多少都會有所不同,特征立方體的數(shù)目也不盡相同,但是特征立方體的類型相對不多。所以在這里將特征立方體映射到一個與它最接近的原型向量上來,讓原型特征立方體來代替與其相近的其他特征立方體。這樣數(shù)目巨大的特征立方體就被縮減成類型特征立方體,通過對類型特征立方體進(jìn)行梯度直方圖計算獲得特征描述子。
本文使用BoV模型從局部運(yùn)動特征中提取視覺詞匯,采用類似金字塔分級特征空間分割方法,但在這里按時空興趣點(diǎn)分布進(jìn)行分層。這樣做可以讓局部特征分組問題變得簡單且具有魯棒性。最后在每一層中對視覺詞匯進(jìn)行壓縮以減少特征空間的維度。
取T時刻視頻圖像IT,PT代表T時刻興趣點(diǎn)集。我們將這些興趣點(diǎn)按照水平或者垂直的方法進(jìn)行區(qū)域劃分,水平方向劃分可以幫助進(jìn)行上肢和下肢的動作識別,垂直方向劃分可以幫助進(jìn)行左右兩側(cè)肢體動作的識別。
這里采用AIB[11]視覺詞匯壓縮算法,主要思想是圖像分層處理,對相同分層的視覺單詞進(jìn)行距離計算,計算公式如下
(13)
式中,{wi}和{wj}分別代表相鄰的視覺單詞,通過不斷迭代方法計算相同分層中不同視覺單詞之間的dij,當(dāng)dij為最小時,將相應(yīng)的2個視覺單詞進(jìn)行合并。AIB本質(zhì)是一種貪婪算法將局部相似詞簇進(jìn)行優(yōu)化合并,在完成視覺單詞的層級壓縮之后,計算視覺單詞直方圖,最后將直方圖信息輸入SVM中進(jìn)行學(xué)習(xí)、訓(xùn)練最后采用打分機(jī)制得到不同行為的分類。圖7顯示了運(yùn)用分層結(jié)構(gòu)和詞匯壓縮對識別率的影響,圖7a)將不同算法組合實(shí)驗,證明具有分層結(jié)構(gòu)和進(jìn)行詞匯壓縮處理的行為識別率更高。圖7b)顯示算法在不同數(shù)據(jù)庫上實(shí)驗的識別率。
圖7 平均識別率與詞匯尺度之間的影響關(guān)系
為了驗證算法有效性,選取KTH人體行為數(shù)據(jù)庫、羅切斯特大學(xué)的Activities of Daily Living數(shù)據(jù)庫、UCF、Hollywood場景數(shù)據(jù)庫,YouTube行為識別數(shù)據(jù)庫等進(jìn)行實(shí)驗。KTH是行為識別基準(zhǔn)數(shù)據(jù)庫,由4種不同場景下25個人分別作出6種不相同的動作:行走、慢跑、快跑、拳擊、揮手、拍手,視頻總數(shù)超過了2 000個[12]。將其中7個人的視頻作為訓(xùn)練集使用,再7個人作為驗證集,11個人作為測試集,在KTH數(shù)據(jù)庫上本文算法識別率達(dá)到了98.65%。
圖5選取更為復(fù)雜的YouTube數(shù)據(jù)庫,目標(biāo)運(yùn)動速度更快,背景復(fù)雜,與真實(shí)的環(huán)境基本一致,通過對比看到經(jīng)過算法處理的興趣點(diǎn)數(shù)量大大減少,并且緊密附著在運(yùn)動目標(biāo)周圍。這樣既減輕了計算量,又不會丟失重要目標(biāo)的信息。隨著人體的快速運(yùn)動,興趣點(diǎn)坐標(biāo)不會受到運(yùn)動、光照、背景紋理的影響而發(fā)生漂移。
圖6選取了Hollywood2數(shù)據(jù)庫中的視頻片段,目標(biāo)和鏡頭都處于運(yùn)動狀態(tài)下。時空興趣點(diǎn)組成的顯著區(qū)域大量附著在重要運(yùn)動目標(biāo)周圍,在進(jìn)行特征提取的時候,可以根據(jù)這些興趣點(diǎn)密度分布利用聚類算法進(jìn)行重要目標(biāo)區(qū)域預(yù)測,建立特征提取區(qū)域。表2展示了本文算法和其他不同算法在KTH、UCF和YouTube數(shù)據(jù)庫上的識別率對比。
表2 算法在不同行為數(shù)據(jù)庫上與其他算法識別率對比(%)
本文提出了一種基于改進(jìn)時空興趣點(diǎn)的復(fù)雜場景下,人體行為識別方法。在傳統(tǒng)興趣點(diǎn)檢測算法的基礎(chǔ)上,對采集到的興趣點(diǎn)進(jìn)行背景點(diǎn)抑制和時空域條件約束。目的在于盡量消除無用興趣點(diǎn)對重要目標(biāo)檢測產(chǎn)生的干擾,以便能夠準(zhǔn)確、快速提取人體目標(biāo)的特征信息。在去除無用興趣點(diǎn)方面效果明顯,通過對不同行為識別數(shù)據(jù)庫的實(shí)驗,證明本文算法能夠較大幅度提高在復(fù)雜背景下的人體行為識別準(zhǔn)確率,并且對移動視角下的運(yùn)動目標(biāo)檢測也具有較好的檢測效果。
[1] Robertson N, Reid I. Behaviour Understanding in Video: A Combined Method[C]∥10th IEEE International Conference on computer Vision, 2005: 808-815
[2] Parameswaran V, Chellappa R. View Invariance for Human Action Recognition[J]. International Journal of Computer Vision, 2006, 66(1): 83-101
[3] Li X. HMM Based Action Recognition Using Oriented Histograms of Optical Flow Field[J]. Electronics Letters, 2007, 43(10): 560-561
[4] Laptev I. On Space-Time Interest Points[J]. International Journal of Computer Vision, 2005, 64(2/3): 432-439
[5] Dollar P, Rabaud V, Cottrell G, et al. Behavior Recognition via Sparse Spatio-Temporal Features[C]∥2005 IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance, 2005: 65-72
[6] Park S, Aggarwal J K. A Hierarchical Bayesian Network for Event Recognition of Human Actions and Interactions[J]. Multimedia Systems, 2004, 10(2): 164-179
[7] Bregonzio M, Gong S, Xiang T. Recognising Action as Clouds of Space-Time Interest Points[C]∥IEEE Conference on Computer Vision & Pattern Recognition, 2009: 1948-1955
[8] Yaron O, Sidi M. A Combined Corner and Edge Detector[C]∥Proc of Fourth Alvey Vision Conference, 1988: 147-151
[9] Lindeberg T. Feature Detection with Automatic Scale Selection[J]. International Journal of Computer Vision, 1998, 30(2): 77-116
[10] Chakraborty B, Holte M B, Moeslund T B, et al. A Selective Spatio-Temporal Interest Point Detector for Human Action Recognition in Complex Scenes[C]∥2011 International Conference on Computer Vision, 2011: 1776-1783
[11] Slonim N, Tishby N. Agglomerative Information Bottleneck[C]∥Advances in Neural Information Processing Systems, 1999: 617-623
[12] Schuldt C, Laptev I, Caputo B. Recognizing Human Actions: A Local SVM Approach[C]∥17th International Conference on Pattern Recognition, 2004: 32-36
An Improved Interest Point Detector for Human Action Recognition
Ding Songtao, Qu Shiru
(School of Automation, Northwestern Polytechnical University , Xi′an 710072 , China)
In this paper, we present a human action recognition algorithm based on interest points in spatial and temporal constraints. In order to overcome the problems of available information interference cause by complex background cenes, We proposed the improved Spatio-Temporal Interest Points (STIP) detection approach by surround suppression combined with local and temporal constraints. Firstly, the improved Harris-Laplace algorithm is proposed to solve the multi-scale problems. Then, based on the bag of words model, the HOG descriptor is used to extract feature vectors and Agglomerative Information Bottleneck(AIB) algorithm to combine the visual vocabulary. The Support Vector Machine (SVM) is trained for action classification and prediction. In order to validate the effectiveness of the proposed method, experiments were carried out under the existing disclosure benchmark datasets of human action and other more complex scenes. Experiment results demonstrate that the proposed human action recognition algorithm is both effective and efficient in a great variety of complex scenes.
human action recognition; Spatio-Temporal suppression; HOG; AIB
2016-04-05 基金項目:教育部高等學(xué)校博士學(xué)科點(diǎn)專項科研基金(20096102110027)、航天科技創(chuàng)新基金(CASC201104)與航空科學(xué)基金(2012ZC53043)資助
丁松濤(1984—),西北工業(yè)大學(xué)博士研究生,主要從事圖像處理及深度學(xué)習(xí)的研究。
TP391.41
A
1000-2758(2016)05-0886-07