亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合時空特征描述子的人體動作識別

        2018-03-05 02:37:01范曉杰宣士斌
        計算機技術(shù)與發(fā)展 2018年2期
        關(guān)鍵詞:特征方法

        范曉杰,宣士斌,唐 鳳

        (廣西民族大學(xué) 信息科學(xué)與工程學(xué)院,廣西 南寧 530006)

        0 引 言

        近年來,人體行為識別已成為計算機視覺領(lǐng)域的重要研究方向,并在視頻監(jiān)控、人機交互等眾多領(lǐng)域得到了廣泛的應(yīng)用[1]。隨著機器視覺得到越來越多的關(guān)注,作為其中的熱點之一,人體行為識別成為一個重要的研究課題。

        人體行為識別中一個至關(guān)重要的問題就是人體行為的描述。人體行為描述是從人體動作中提取部分特征信息來描述人體行為。根據(jù)當(dāng)前的研究方法,人體行為識別研究可以分為兩類:基于整體運動信息的方法和基于局部特征的行為識別方法。

        基于整體運動信息的方法通常采用光流和形狀、邊緣、輪廓形狀等信息對檢測出的整體感興趣的人體區(qū)域進行描述。盡管整體運動信息對實際環(huán)境中的行為比較適合,但也面臨許多問題,如對遮擋、噪聲以及視角的變化比較敏感等。Wang等[2]利用軌跡特征模擬連續(xù)幀間的時間關(guān)系;Zhen等[3]對運動歷史圖像(MHI)和三個正交平面(TOPS)提取的時空立方體的運動和結(jié)構(gòu)信息進行編碼,并采用二維拉普拉斯金字塔編碼描述符。

        基于局部特征方法是通過在視頻中定位一個局部視頻塊,通過視頻塊描述人體運動信息。例如,Mota等[4]利用3D-HOG特征和光流特征來描述視頻行為;Tang等[5]提取了視頻序列中的3D-SIFT特征;LAPTEV等[6]結(jié)合HOG特征和HOF特征來描述視頻序列中的時空立方體;張飛燕等[7]利用HOF特征來描述時空立方體,取得了很好的識別效果。

        Li Nijun等[8]結(jié)合使用HOG3D與SOM能夠有效地進行行為識別,但沒有充分提取時空興趣點運動信息。HOG3D作為一種興趣點描述方法,能夠?qū)εd趣點周圍的形態(tài)信息進行描述,但該方法所包含的運動信息較少。為了能更全面高效地描述興趣點信息,文中提出一種新的多向投影光流特征直方圖(multidirectional projection optical flow histogram,DPHOF)。不僅能有效地表示光流的特征,還能體現(xiàn)興趣點及其鄰域的運動情況,并通過實驗對該方法的有效性進行驗證。

        1 局部時空特征提取

        文中算法的第一步就是提取時空興趣點。為了獲得較多的不同尺度的興趣點,采用比Laptev[9]的STIP(space-time interest points)更稠密的Dollar[10]的STIP作為局部特征。局部時空特征的計算是對視頻的局部區(qū)域進行計算,局部區(qū)域的選擇在時空興趣點的周圍,以時間和空間尺度為標(biāo)準(zhǔn)選取興趣點的鄰域塊。興趣點的表示是對其鄰域塊進行描述形成特征向量。最終的視頻描述由一些不同位置、不同尺度特征點的特征向量來表示。

        1.1 3D有向梯度直方圖(HOG3D)

        由于遵循了HOG3D[11]的提取流程,因此有必要簡單介紹一下HOG3D的基本思想。STIP的鄰域立方體塊被劃分為一系列的胞腔(cell),同樣一個胞腔被劃分成一系列的塊(block)。利用“積分視頻(integral video)”計算每個塊中的3D平均梯度向量,每個梯度方向的量化通過常規(guī)的多面體來進行,得到每個塊的直方圖后,疊加一個胞腔所有塊的直方圖得到胞腔直方圖。最后,級聯(lián)STIP鄰域立方體中所有胞腔的直方圖得到HOG3D描述子。

        假設(shè)STIP鄰域立方體中x和y方向上有M個胞腔,t方向上有N個胞腔,每個胞腔的直方圖維數(shù)是d,則級聯(lián)所有胞腔直方圖得到M2Nd維的HOG3D描述子。實驗取M=4,N=3,梯度方向量化到Klaser[11]推薦的正20面體的面法向量構(gòu)成的20×3的投影矩陣P中,即d=20,因此HOG3D描述子維數(shù)是960。

        1.2 多向投影光流直方圖(DPHOF)

        傳統(tǒng)的光流直方圖方法是首先對圖像塊計算光流,然后統(tǒng)計多個方向的光流分布情況。但傳統(tǒng)的HOF描述方法僅能體現(xiàn)光流在興趣點的特征,不能體現(xiàn)出其鄰域的運動情況。為了保證特征對行為的高描述性,提出一種新的多向投影光流特征直方圖(DPHOF),用金字塔Lucas-Kanade[12]光流算法來計算光流。光流特征計算完成后,把對光流方向分布的統(tǒng)計轉(zhuǎn)化為光流在多方向上投影分布的統(tǒng)計,這樣不僅能統(tǒng)計光流的方向分布情況,也能按照投影的大小對速度分量進行加權(quán)。不同行為的光流特征在其速度分量上的分布是有很大區(qū)別的,用投影的方法對其進行加權(quán)更能準(zhǔn)確高效地描述光流的特征。下面對DPHOF時空立方體描述符的構(gòu)造進行詳細(xì)描述。

        在DPHOF描述方法中,光流場的計算和HOF的計算方式一樣,選用金字塔Lucas-Kanade光流算法來計算光流特征。光流特征計算完成后,開始計算時空興趣點鄰域立方體的描述符,受HOG3D描述符生成方法的啟示,按照同樣的流程生成多方向投影光流直方圖。實驗中,在興趣點的x和y方向上取M=4個胞腔,在t方向上取N=3個胞腔,每個胞腔由2×2×2個塊構(gòu)成,計算出每個塊中的平均光流fb=[vxmeanvymean],每個塊中光流的量化是通過將其投影到5×2的投影矩陣P中,生成光流直方圖hb:

        hb=P·fb

        (1)

        P=(cosα,sinα)T

        (2)

        其中,α的取值范圍為[0°,180°],并將其平分成5個扇形區(qū)域。統(tǒng)計每個塊的平均光流在各個區(qū)域的投影,得出每個塊的投影光流直方圖后,疊加一個胞腔中所有的塊直方圖得到胞腔直方圖。胞腔直方圖的維數(shù)為d=5。最后,級聯(lián)STIP鄰域立方體中所有胞腔的直方圖得到時空立方體的DPHOF描述子。因此DPHOF描述子的維數(shù)就是240,可以有效減輕“維數(shù)災(zāi)難”效應(yīng)。

        由上述計算過程可以看出,利用DPHOF在構(gòu)造光流特征的時空立方體描述子時更加緊湊高效,通過投影量化使得在統(tǒng)計光流特征時,不僅體現(xiàn)了光流方向的分布情況,還更加精確地利用投影大小對光流速度分量加入權(quán)值,保證了特征對立方體信息的高描述性。而且采用的5個方向的投影矩陣,很大程度上減輕了“維數(shù)災(zāi)難”。

        2 基于自組織特征映射(SOM)的全局描述子

        2.1 SOM網(wǎng)絡(luò)

        SOM網(wǎng)絡(luò)是由芬蘭Helsinki大學(xué)的Kohonen T教授提出的,又稱Kohonen網(wǎng)絡(luò)。Kohonen認(rèn)為,一個神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時,將會分為不同的對應(yīng)區(qū)域,各區(qū)域?qū)斎肽J接胁煌捻憫?yīng)特征,而這個過程是自動完成的。SOM網(wǎng)絡(luò)正是根據(jù)這一看法提出的,其特點與人腦的自組織特性相類似。SOM是一個兩層的全連接網(wǎng)絡(luò)(見圖1),圓圈代表神經(jīng)元,線段標(biāo)記直接相連的神經(jīng)元?!案偁?competition)”、“合作(cooperation)”和“自適應(yīng)(self-adaptation)”是SOM的3個核心過程。

        2.2 全局視頻描述子的構(gòu)造

        提取完時空特征后,就要從所有動作類中隨機選取HOG3D描述子和DPHOF描述子分別訓(xùn)練SOM網(wǎng)絡(luò)。訓(xùn)練完成后,把所有HOG3D描述子送入由HOG3D描述子訓(xùn)練的網(wǎng)絡(luò),這樣每個HOG3D描述子就會激活一個神經(jīng)元。最后統(tǒng)計測試結(jié)果就可以得到一個神經(jīng)元擊中率直方圖,將這個直方圖稱為該視頻的HOG3D擊中率直方圖。對于DPHOF描述子,以同樣的方法送入由DPHOF描述子訓(xùn)練的網(wǎng)絡(luò)進行測試,同樣會得到一個擊中率直方圖,稱為DPHOF擊中率直方圖。最后把HOG3D擊中率直方圖和DPHOF擊中率直方圖進行歸一化處理,并將兩種描述方法的視頻歸一化直方圖級聯(lián)在一起作為該視頻最終的全局描述符,就由局部的時空特征得到了全局的視頻描述子。

        3 識別過程和算法

        在測試過程中,最終的判決結(jié)果由最終全局描述符的最鄰近分類得到,采用χ2距離作為度量。動作識別流程如圖1所示。

        圖1 基于時空特征融合和SOM的動作識別流程

        基于HOG3D、DPHOF和SOM的行為識別如下所述:

        算法1:基于HOG3D、DPHOF和SOM的行為識別。

        輸入:有標(biāo)簽的訓(xùn)練視頻序列、測試視頻序列;

        輸出:測試視頻的標(biāo)簽。

        (1)從所有的訓(xùn)練和測試視頻中提取多尺度的Dollar的STIP。

        (2)計算每個STIP的HOG3D描述子和DPHOF描述子。

        (3)分別用從訓(xùn)練集中隨機選取的HOG3D描述子和DPHOF描述子訓(xùn)練SOM網(wǎng)絡(luò)。

        ①初始化具有已知結(jié)構(gòu)的SOM網(wǎng)絡(luò);

        ②利用在線學(xué)習(xí)機制將訓(xùn)練樣本輸入網(wǎng)絡(luò);

        ③找到對應(yīng)于當(dāng)前樣本的獲勝神經(jīng)元;

        ④更新獲勝神經(jīng)元及其鄰域神經(jīng)元的權(quán)值;

        ⑤重復(fù)步驟②~④,直至收斂或達到最大迭代次數(shù)。

        (4)分別用訓(xùn)練好的SOM網(wǎng)絡(luò)計算所有訓(xùn)練和測試視頻的神經(jīng)元擊中率歸一化直方圖。

        (5)將兩種描述方法生成的視頻歸一化直方圖進行級聯(lián)作為視頻的最終全局描述符。

        (6)用基于χ2距離的NN分類器分類神經(jīng)元擊中率直方圖得到識別結(jié)果。

        4 實驗結(jié)果與分析

        4.1 實驗環(huán)境和數(shù)據(jù)庫

        在3.0 GHz CPU、32位Windows操作系統(tǒng)、Matlab 2012a的實驗環(huán)境下,在UCF-YouTube、KTH兩個數(shù)據(jù)庫上對文中方法進行驗證。兩種數(shù)據(jù)庫均采用5-折疊交叉驗證。

        4.2 UCF YouTube數(shù)據(jù)庫

        對于UCF-YouTube[13]體育活動數(shù)據(jù)集,其數(shù)據(jù)具有復(fù)雜的環(huán)境和場景變化,還有視角、尺度、光照等的變化,是一個極具挑戰(zhàn)的行為識別數(shù)據(jù)庫。該數(shù)據(jù)庫包含11種行為,每種行為在25種不同的場景下完成。實驗中訓(xùn)練集的大小為11×25×100,采用5-折疊交叉驗證,采用迭代200次的12×12的SOM網(wǎng)絡(luò)進行測試。分別用HOG3D、DPHOF以及混合兩種特征在數(shù)據(jù)庫上進行測試,結(jié)果如圖2所示。

        圖2 不同方法在UCF-YT數(shù)據(jù)集上的混淆矩陣

        從圖2中可看出,提出的DPHOF特征對于復(fù)雜的UCF-YT數(shù)據(jù)集更具有辨別性,能大大地提高行為識別精度。這是因為對于UCF-YT數(shù)據(jù)庫,由于其復(fù)雜的背景,加上相機運動會造成背景中許多不感興趣的STIP,從而影響了SOM構(gòu)造的全局視頻描述符的準(zhǔn)確性,而HOG3D描述子易受相機運動的影響,會給識別過程帶來許多干擾。而DPHOF描述子作為一種優(yōu)越的運動特征描述方法,對光照、相機運動的干擾有很好的魯棒性。并且多向投影方法使得不同行為的光流特征更具辨別力。所以文中的描述方法可以更準(zhǔn)確全面地描述興趣點特征,而且使用SOM訓(xùn)練擊中率直方圖來表示視頻,不僅具有局部特征,還包含全局特征。所以文中方法取得了更好的識別效果。

        4.3 KTH數(shù)據(jù)庫

        KTH數(shù)據(jù)庫包含6種行為,每種行為在25種不同的場景下完成。實驗中訓(xùn)練集的大小為6×25×100,采用5-折疊交叉驗證,采用迭代100次的10×10的SOM網(wǎng)絡(luò)進行測試,結(jié)果如圖3所示。

        圖3 不同方法在KTH數(shù)據(jù)集上的混淆矩陣

        圖3表明,在同一數(shù)據(jù)庫下,使用DPHOF描述方法要比單獨使用HOG3D的效果好很多,且兩種局部描述子與SOM結(jié)合構(gòu)造的全局描述符更能高效表示視頻特征。能取得較好的識別率,一方面是由于提出的DPHOF描述子能高效表示空間局部特征;另一方面是與SOM結(jié)合構(gòu)造的全局視頻描述符能更好地表示視頻特征。使用全局和局部混合特征來進行人體行為識別可以達到更好的識別效果。

        5 結(jié)束語

        提出一種基于混合時空特征和SOM網(wǎng)絡(luò)的新的行為識別框架,該框架不需要人體檢測、跟蹤等復(fù)雜的預(yù)處理步驟。提出一種新的時空特征描述方法(DPHOF),用HOG3D和DPHOF來描述局部空間信息,并結(jié)合SOM來構(gòu)造全局的視頻描述符。實驗結(jié)果表明,提出的DPHOF描述符能高效表示時空興趣點,且由SOM構(gòu)造出的全局視頻描述子可以高效地表示視頻特征?;赟OM的識別框架在識別精確度上取得了很好的效果。

        [1] 李瑞峰,王亮亮,王 珂.人體動作行為識別研究綜述[J].模式識別與人工智能,2014,27(1):35-48.

        [2] WANG H,SCHMID C.Action recognition with improved trajectories[C]//IEEE international conference on computer vision.[s.l.]:IEEE,2013:3551-3558.

        [3] ZHEN X T,SHAO L.A local descriptor based on Laplacian pyramid coding for action recognition[J].Pattern Recognition

        Letters,2013,34(15):1899-1905.

        [4] MOTA V F,PEREZ E A,MACIEL L M,et al.A tensor motion descriptor based on histograms of gradients and optical flow[J].Pattern Recognition Letters,2014,39(4):85-91.

        [5] TANG X Q,XIAO G Q.Action recognition based on maximum entropy fuzzy clustering algorithm[M]//Foundations of intelligent systems.Berlin:Springer,2014:155-164.

        [6] LAPTEV I,MARSZALEK M,SCHMID C,et al.Learning realistic human actions from movies[C]//26th IEEE conference on computer vision and pattern recognition.Anchorage,AK,United States:IEEE,2008:1-8.

        [7] 張飛燕,李俊峰.基于光流速度分量加權(quán)的人體行為識別[J].浙江理工大學(xué)學(xué)報,2015,33(1):115-123.

        [8] LI Nijun,CHENG Xu,ZHANG Suofei,et al.Realistic human action recognition by Fast HOG3D and self-organization feature map[J].Machine Vision and Applications,2014,25(7):1793-1812.

        [9] LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123.

        [10] DALLAR P,RABAUD V,COTTRELL G,et al.Behavior recognition via sparse spatio-temporal features[C]//IEEE international workshop on performance evaluation of tracking and surveillance.Beijing,China:IEEE,2005:65-72.

        [11] KLASER A,MARSZALEK M,SCHMID C.A spatio-temporal descriptor based on 3D-gradients[C]//British machine vision conference.[s.l.]:[s.n.],2008.

        [12] BOUGUET J Y.Pyramidal implementation of the Lucas Kanade feature tracker:description of the algorithm[R].[s.l.]:Intel Corporation Microprocessor Research Labs,2000.

        [13] LIU J,LUO J,SHAN M.Recognizing realistic actions from videos “in the wild”[C]//Proceedings of the computer vision and pattern recognition.[s.l.]:[s.n.],2009.

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達“特征”
        不忠誠的四個特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        免费一级淫片日本高清| 欧美日韩a级a| 日本熟妇精品一区二区三区| 青青草在线免费观看视频| 91热国内精品永久免费观看| 蜜桃av福利精品小视频| 性感女教师在线免费观看| 人妻丰满熟妇av无码区| 亚洲av无码资源在线观看| 国产在线h视频| 人妻少妇粉嫩av专区一| 9久久婷婷国产综合精品性色| 天天躁夜夜躁天干天干2020| 久久丫精品国产亚洲av| 亚色中文字幕| 亚洲av日韩精品一区二区| 无码 人妻 在线 视频| 另类内射国产在线| 国产第一页屁屁影院| 无码人妻中文中字幕一区二区| 自拍av免费在线观看| 国产丝袜美腿精品91在线看| 性生交大全免费看| 亚洲AV秘 无码二区在线| 亚洲一区二区成人在线视频| 亚洲国产av一区二区三区| 亚洲精品夜夜夜妓女网| 欧美日韩亚洲色图| 国产精品美女自在线观看| 丝袜美腿av在线观看| 国产精品久久久久久婷婷| 亚州AV无码乱码精品国产| 国产亚洲精品视频网站| 超碰色偷偷男人的天堂| 色一情一乱一伦一区二区三欧美| 国产精品开放小视频| 亚洲中文字幕精品一区二区| 国产乱码精品一区二区三区久久 | 日韩亚洲在线观看视频| 国产精品白浆在线观看免费| 亚洲精品自产拍在线观看|