亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進信息增益的人體動作識別視覺詞典建立

        2017-10-21 08:10:04峰,王
        計算機應(yīng)用 2017年8期
        關(guān)鍵詞:詞頻詞典增益

        吳 峰,王 穎

        (北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)

        (*通信作者電子郵箱wangying@mail.buct.edu.cn)

        基于改進信息增益的人體動作識別視覺詞典建立

        吳 峰,王 穎*

        (北京化工大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100029)

        (*通信作者電子郵箱wangying@mail.buct.edu.cn)

        針對詞袋(BoW)模型方法基于信息增益的視覺詞典建立方法未考慮詞頻對動作識別的影響,為提高動作識別準確率,提出了基于改進信息增益建立視覺詞典的方法。首先,基于3D Harris提取人體動作視頻時空興趣點并利用K均值聚類建立初始視覺詞典;然后引入類內(nèi)詞頻集中度和類間詞頻分散度改進信息增益,計算初始詞典中詞匯的改進信息增益,選擇改進信息增益大的視覺詞匯建立新的視覺詞典;最后基于支持向量機(SVM)采用改進信息增益建立的視覺詞典進行人體動作識別。采用KTH和Weizmann人體動作數(shù)據(jù)庫進行實驗驗證。相比傳統(tǒng)信息增益,兩個數(shù)據(jù)庫利用改進信息增益建立的視覺詞典動作識別準確率分別提高了1.67%和3.45%。實驗結(jié)果表明,提出的基于改進信息增益的視覺詞典建立方法能夠選擇動作識別能力強的視覺詞匯,提高動作識別準確率。

        人體動作識別;詞袋模型;信息增益;詞頻

        0 引言

        人體動作識別作為計算機視覺的一個重要研究方向,廣泛應(yīng)用于智能監(jiān)控、人機交互、虛擬現(xiàn)實等領(lǐng)域[1]。詞袋(Bag-of-Words, BoW)模型與局部特征相結(jié)合的人體動作識別方法[2-3]將人體動作局部特征表征為文本中的詞匯,不同比例詞匯的組合對應(yīng)不同的動作?;谠~袋模型的動作識別過程如圖1所示:首先提取人體動作局部特征,將局部特征聚類映射為不同的視覺詞匯;所有視覺詞匯構(gòu)成視覺詞典;將視覺詞匯在視頻圖像中出現(xiàn)的概率分布作為描述人體動作的特征向量輸入分類器進行動作識別。該方法將大量局部特征映射為視覺詞匯,降低了用于動作識別的特征維數(shù),具有良好的抗噪性,近年來受到廣泛關(guān)注。視覺詞典將描述人體動作的局部特征表示成低維向量,其大小及識別能力會影響動作識別的準確率。視覺詞典過小,表征不同動作信息的特征被聚類成同一視覺詞匯導(dǎo)致視覺詞典的識別力差;視覺詞典過大,視頻圖像中的噪聲易被誤聚類為表征動作的視覺詞匯導(dǎo)致視覺詞典對噪聲敏感。Lazebnik等[4]采用傳統(tǒng)聚類方法通過統(tǒng)計不同聚類數(shù)目建立的視覺典的動作識別結(jié)果確定視覺詞典大小。該方法需要大量的實驗,且傳統(tǒng)聚類方法僅基于特征向量的表觀相似性建立視覺詞典,導(dǎo)致視覺詞典中一些詞匯動作識別能力較弱。為提高視覺詞典中視覺詞匯的動作識別能力,Liu等[5]提出了基于最大互信息的聚類方法,通過融合傳統(tǒng)聚類中心得到互信息最大的視覺詞匯,但存在融合準則確定困難及計算復(fù)雜度高等問題。

        與基于聚類法建立視覺詞典不同,一些學(xué)者應(yīng)用文本分類中信息熵、互信息、期望交叉熵、信息增益等特征選擇方法[6-8]評價視覺詞匯的動作識別能力,從初始視覺詞典中選擇動作識別能力強的視覺詞匯建立視覺詞典以提高動作識別準確率。Kim等[9]基于信息熵從初始視覺詞典中選擇對動作識別最有效的視覺詞匯建立視覺詞典。Yang等[10]基于信息增益建立視覺詞典,提高了動作識別準確率。但傳統(tǒng)信息增益僅考慮了視覺詞匯出現(xiàn)與否對動作識別的作用,忽略了視覺詞匯出現(xiàn)頻率對動作識別的影響,不能選擇最能表征人體動作的視覺詞匯建立視覺詞典。

        圖1 局部特征與詞袋模型相結(jié)合的動作識別方法

        Fig. 1 Actions recognition method based on local features and BoW model

        為克服傳統(tǒng)信息增益未考慮視覺詞匯出現(xiàn)頻率的不足,本文提出一種基于改進信息增益的視覺詞典建立方法:引入描述視覺詞匯出現(xiàn)頻率的類內(nèi)詞頻集中度、類間詞頻分散度兩個參數(shù)對傳統(tǒng)信息增益進行改進,以提高視覺詞典中視覺詞匯對動作的識別能力。

        1 人體動作局部特征提取

        時空興趣點作為描述視頻圖像中表征時間和空間發(fā)生明顯變化的局部特征點,常被用于人體動作識別?;?D Harris[11]的時空興趣點提取方法是Harris角點檢測算法在時空域的擴展,具有抗噪性好、不易受到視角變化影響等優(yōu)點。3D Harris時空興趣點提取過程如下:

        對于視頻序列f,將其與高斯核函數(shù)作卷積得到圖像序列的尺度空間L:

        (1)

        其中高斯核函數(shù)

        (2)

        其中:x、y為圖像的空間二維坐標,t為幀序,σl和τl為相互獨立的圖像空間和時間尺度。對尺度空間L分別在x、y、t方向求一階導(dǎo)數(shù)Lx、Ly和Lt,利用一階導(dǎo)數(shù)建立時空二階矩陣μ:

        (3)

        H=λ1λ2λ3-k(λ1+λ2+λ3)

        (4)

        式中:λ1、λ2和λ3為μ的特征值; 時空興趣點為H取得局部極大值的點;k通常取值為0.005。

        2基于改進信息增益建立視覺詞典

        基于詞袋模型進行人體動作識別需將提取的時空興趣點聚類建立初始視覺詞典?;谛畔⒃鲆孢M行特征選擇能夠選擇初始視覺詞典中最能表征人體動作的視覺詞匯,但傳統(tǒng)信息增益未考慮詞頻對動作識別的影響,本章將引入類內(nèi)詞頻集中度和類間詞頻分散度改進信息增益,并利用改進信息增益建立視覺詞典以進一步提高動作識別準確率。

        2.1 傳統(tǒng)視覺詞匯信息增益

        信息增益表征視覺詞匯對動作識別所提供的信息量[12]。視覺詞匯的信息增益越大,對動作識別提供的信息量越多。設(shè)Ci為某類動作,m為動作類別數(shù),則視覺詞匯t的信息增益IG(t)為:

        (5)

        由式(5)知傳統(tǒng)信息增益僅考慮了視覺詞匯在訓(xùn)練樣本中出現(xiàn)與否對動作識別的影響,當(dāng)視覺詞匯在訓(xùn)練樣本中出現(xiàn)與不出現(xiàn)的視頻數(shù)相同時,無論其出現(xiàn)頻率高低,信息增益均相同。實際上,當(dāng)視覺詞匯在視頻中出現(xiàn)的頻率不同時,盡管信息增益相同,但其動作識別能力不同,導(dǎo)致傳統(tǒng)信息增益無法對不同視覺詞匯的動作識別能力作出準確評價。

        用詞頻表征視覺詞匯在動作視頻中出現(xiàn)的頻率。設(shè)視覺詞匯t在某一個動作視頻中出現(xiàn)a次,表征該動作視頻的視覺詞匯總數(shù)為b,則視覺詞匯t在該動作視頻中出現(xiàn)的詞頻TF(t)為:

        TF(t)=a/b

        (6)

        表1給出了視覺詞匯t1、t2和t3在跑步、揮手兩類人體動作共計10個視頻中(每類動作各有5個視頻)的詞頻和傳統(tǒng)信息增益。由于t1、t2和t3在訓(xùn)練視頻每類動作中出現(xiàn)與不出現(xiàn)的視頻數(shù)相同,它們的信息增益值亦相同,均為0.017。

        表1 視覺詞匯詞頻分布表Tab. 1 Term frequency distribution of visual words

        但對比視覺詞匯t1、t2,t1在跑步視頻中的平均詞頻大于揮手視頻中的平均詞頻,而t2在跑步、揮手兩類視頻中的平均詞頻幾乎相同。因此t1相比t2能更好地識別跑步和揮手。同樣,對比t1、t3,雖然它們在跑步、揮手視頻中的平均詞頻相同,但t1在同一類的不同訓(xùn)練視頻中詞頻大小更接近,而t3在跑步類的第二個訓(xùn)練視頻中詞頻突然增大,表明該視覺詞匯可能表征的是此視頻中出現(xiàn)的噪聲,因此t1相比t3能更好地識別跑步和揮手。

        2.2 改進的視覺詞匯信息增益

        引入類內(nèi)詞頻集中度、類間詞頻分散度這兩個描述詞頻的參數(shù)改進傳統(tǒng)信息增益,以選擇動作識別力更強的視覺詞匯。

        2.2.1 類內(nèi)詞頻集中度

        類內(nèi)詞頻集中度表征視覺詞匯在相同動作類所有訓(xùn)練視頻中的詞頻與平均詞頻的差異。視覺詞匯t對應(yīng)的類內(nèi)詞頻集中度α(t)為:

        (7)

        2.2.2 類間詞頻分散度

        類間詞頻分散度表征視覺詞匯在不同類人體動作訓(xùn)練視頻中的詞頻分布差異。視覺詞匯t的類間詞頻分散度β(t)為:

        (8)

        2.2.3 改進信息增益

        為選取動作識別能力最大的視覺詞匯,引入類內(nèi)詞頻集中度、類間詞頻分散度改進信息增益,改進信息增益為:

        IG′(t)=IG(t)×(β(t)/α(t))

        (9)

        由式(9)知,視覺詞匯類內(nèi)詞頻集中度越小,類間詞頻分散度越大,其改進信息增益值越大,動作識別能力越強。表1中視覺詞匯t1的改進信息增益大于t3、t2,表明其動作識別能力更強。因此將改進信息增益作為評價指標,能夠選擇具有更強動作識別能力的視覺詞匯建立視覺詞典。

        3 實驗結(jié)果與分析

        為驗證本文提出的視覺詞典建立方法對于人體動作識別的有效性,選取KTH和Weizmann單人動作數(shù)據(jù)庫利用CPU 2.0 GHz、4 GB內(nèi)存計算機基于Matlab 2014b平臺進行實驗驗證。KTH數(shù)據(jù)庫包含拳擊、鼓掌、跑步、行走、揮手、慢跑6個常見動作,每種動作包含25個人在4個不同場景中的100個視頻圖像序列,視頻幀速為25幀/s,每個動作視頻的幀數(shù)為300~1 000不等。Weizmann數(shù)據(jù)庫包括90段視頻,分別為9個人的向前跳、向上跳、跑步、推舉、彎腰、雙手揮、單腳跳、橫向動、單手揮、走路共10個動作。圖2給出KTH和Weizmann數(shù)據(jù)庫部分動作視頻圖像示例。

        基于改進信息增益進行動作識別的總體流程如下:首先,提取所有訓(xùn)練視頻人體動作視頻時空興趣點,采用HOG3D描述器[13]描述時空興趣點;然后對時空興趣點聚類建立初始視覺詞典;計算視覺詞典中所有視覺詞匯的改進信息增益值并排序,選擇滿足條件的視覺詞匯建立新的視覺詞典;提取測試視頻時空興趣點,基于訓(xùn)練視頻建立的視覺詞典,得到測試人體動作視頻的視覺詞匯分布直方圖,基于支持向量機(Support Vector Machine, SVM)方法進行動作識別。

        兩個數(shù)據(jù)庫的人體動作視頻的3D Harris時空興趣點提取結(jié)果如圖3所示。

        圖2 數(shù)據(jù)庫不同動作示例Fig. 2 Different action samples of databases

        圖3 時空興趣點提取結(jié)果Fig. 3 Results of spatio-temporal interest points extraction

        KTH數(shù)據(jù)庫每個動作選取80個動作視頻為訓(xùn)練樣本,其余20個視頻為測試樣本進行動作識別;Weizmann數(shù)據(jù)庫則采用留一交叉驗證確定訓(xùn)練視頻樣本和測試視頻樣本。對提取的訓(xùn)練視頻中的時空興趣點采用K均值聚類方法建立初始詞典,不同初始視覺詞典大小時KTH和Weizmann數(shù)據(jù)庫的動作識別結(jié)果如表2所示。

        表2 不同大小初始視覺詞典動作識別準確率Tab. 2 Accuracy of human actions recognition with different size of initial visual dictionary

        由表2知,對于KTH和Weizmann數(shù)據(jù)庫,當(dāng)初始視覺詞典大小為800和200時,人體動作識別準確率最高,因此選取初始詞典大小分別為800和200。

        計算并選取初始視覺詞典中改進信息增益值大的視覺詞匯建立新的視覺詞典。圖4給出了不同視覺詞典大小時,基于改進信息增益、傳統(tǒng)信息增益、期望交叉熵及互信息視覺詞匯選擇方法建立的視覺詞典的動作識別結(jié)果。

        由圖4可知,采用改進信息增益建立視覺詞典相比采用傳統(tǒng)信息增益及其他特征選擇方法建立的視覺詞典進行動作識別,人體動作識別準確率得到提高,對于兩個數(shù)據(jù)庫,當(dāng)視覺詞典大小為650和160時最高動作識別準確率為89.17%和98.62%。

        圖4 不同特征選擇方法及詞典大小動作識別準確率比較Fig. 4 Comparision of human actions recognition accuracy with different method of feature selection and dictionary size

        表3給出兩個數(shù)據(jù)庫采用不同動作識別方法得到的動作識別準確結(jié)果。

        以KTH數(shù)據(jù)庫為例,表4給出基于改進信息增益建立的視覺詞典對不同類動作的最終識別結(jié)果。其中縱向為真實動作,橫向為識別動作,對角線為各類動作的識別準確率,其他位置值為動作識別混淆率。

        表3 不同動作識別方法的動作識別結(jié)果 %Tab. 3 Action recognition results with different methods %

        表4 KTH數(shù)據(jù)庫各類動作的識別準確率 %Tab. 4 Accuracy of human actions recognition with different kinds of actions with KTH database %

        4 結(jié)語

        本文提出了一種基于改進信息增益建立視覺詞典的方法。針對傳統(tǒng)信息增益未考慮詞頻的不足,引入詞頻描述參數(shù)詞頻類內(nèi)集中度及詞頻類間分散度改進信息增益,以提高視覺詞典中視覺詞匯對動作的表征能力。實驗結(jié)果表明,相比傳統(tǒng)信息增益及其他特征選擇方法,本文提出的基于改進信息增益的視覺詞典建立方法,能夠選擇更具有動作識別力的詞匯建立視覺詞典,提高了人體動作識別準確率。

        References)

        [1] 石祥濱,劉拴朋,張德園.基于關(guān)鍵幀的人體動作識別方法[J]. 系統(tǒng)仿真學(xué)報,2015,27(10):2401-2408. (SHI X B, LIU S P, ZHANG D Y. Human action recognition method based on key frames [J]. Journal of System Simulation, 2015, 27(10): 2401-2408.)

        [2] KHAN R, BARAT C, MUSELET D, et al. Spatial orientations of visual word pairs to improve bag-of-visual-words model [C]// BMVC 2012: Procedings of the 2012 British Machine Vision Conference. Durham, UK: BMVA Press, 2012: 1-11.

        [3] FARAKI M, PALHANG M, SANDERSON C. Log-Euclidean bag of words for human action recognition [J]. IET Computer Vision, 2016, 9(3): 331-339.

        [4] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// CVPR ’06: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 2169-2178.

        [5] LIU J, SHAH M. Learning human actions via information maximization [C]// CVPR ’08: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society. Washington, DC: IEEE Computer Society, 2008: 2971-2978.

        [6] LI Z, LU W, SUN Z, et al. A parallel feature selection method study for text classification [J]. Neural Computing & Applications, 2016, 27: 1-12.

        [7] 賈隆嘉,孫鐵利,楊鳳芹,等.基于類空間密度的文本分類特征加權(quán)算法[J]. 吉林大學(xué)學(xué)報(信息科學(xué)版),2017,35(1):92-97. (JIA L J, SUN T L, YANG F Q, et al. Class space density based weighting scheme for automated text categorization[J]. Journal of Jilin University (Information Science Edition), 2017, 35(1): 92-97.)

        [8] UYSAL A K. An improved global feature selection scheme for text classification [J]. Expert Systems with Applications, 2016, 43(C):82-92.

        [9] KIM S, KWEON I S, LEE C W. Visual categorization robust to large intra-class variations using entropy-guided codebook [C]// Proceedings of the 2007 IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE, 2007: 3793-3798.

        [10] YANG J, JIANG Y-G, HAUPTMANN A G, et al. Evaluating bag-of-visual-words representations in scene classification [C]// MIR ’07: Proceedings of the International Workshop on Workshop on Multimedia Information Retrieval. New York: ACM, 2007: 197-206.

        [11] LAPTEV I. On space-time interest points [J]. International Journal of Computer Vision, 2005, 64(2/3): 107-123.

        [12] 李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38(8):37-40. (LI X M, LI H R, XUE L, et al. TFIDF algorithm based on information gain and information entropy [J]. Computer Engineering, 2012, 38(8): 37-40.)

        [14] LAPTEV I, MARSZALEK M, SCHMID C, et al. Learning realistic human actions from movies [C]// CVPR ’08: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

        [15] LERTNIPHONPHAN K, ARAMVITH S, CHALIDABHONGSE T H. Human action recognition using direction histograms of optical flow [C]// ISCIT 2011: Proceedings of the 2011 11th International Symposium on Communications and Information Technologies. Piscataway, NJ: IEEE, 2011: 574-579.

        This work is partially supported by the National Natural Science Foundation of China (61340056).

        WUFeng, born in 1992, M. S. candidate. His research interests include digital image processing, human actions recognition.

        WANGYing, born in 1969, Ph. D., assoicate professor. Her research interests include photoelectric inspection, machine vision inspection, artificial intelligence detection.

        Visualdictionaryconstructionforhumanactionsrecognitionbasedonimprovedinformationgain

        WU Feng, WANG Ying*

        (CollegeofInformationScienceandTechnology,BeijingUniversityofChemicalTechnology,Beijing100029)

        Since term frequency is not considered by traditional information gain in Bag-of-Words (BoW) model, a new visual dictionary constructing method based on improved information gain was proposed to improve the human actions recognition accuracy. Firstly, spatio-temporal interest points of human action video were extracted by using 3D Harris, then clustered byK-means to construct initial visual dictionary. Secondly, concentration of term frequency within cluster and dispersion of term frequency between clusters were introduced to improve the information gain, which was used to compute the initial dictionary; then the visual words with larger information gain were selected to build a new visual dictionary. Finally, the human actions were recognized based on Support Vector Machine (SVM) using the improved information gain. The proposed method was verified by human actions recognition of KTH and Weizmann databases. Compared with the traditional information gain, the actions recognition accuracy was increased by 1.67% and 3.45% with the dictionary constructed by improved information gain. Experimental results show that the visual dictionary of human actions based on improved information gain increases the accuracy of human actions recognition by selecting more discriminate visual words.

        human actions recognition; Bag-of-Words (BoW) model; information gain; term frequency

        TP391.4; TN911.73

        A

        2017- 02- 24;

        2017- 04- 12。

        國家自然科學(xué)基金資助項目(61340056)。

        吳峰(1992—),男,黑龍江綏化人,碩士研究生,主要研究方向:數(shù)字圖像處理、人體動作識別; 王穎(1969—),女,天津人,副教授,主要研究方向:光電檢測、機器視覺檢測、人工智能檢測。

        1001- 9081(2017)08- 2240- 04

        10.11772/j.issn.1001- 9081.2017.08.2240

        猜你喜歡
        詞頻詞典增益
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        基于單片機的程控增益放大器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        欲求不満の人妻松下纱荣子| 少妇av免费在线播放| 亚洲女同性恋激情网站| 中文字幕久久波多野结衣av不卡| 人妻激情另类乱人伦人妻| 好吊妞人成免费视频观看| 亚洲区福利视频免费看| 大香蕉av一区二区三区| 亚洲色欲色欲大片www无码| 国产一区曰韩二区欧美三区| 亚洲国产精品亚洲高清| 在线观看国产视频你懂得| 日韩欧美成人免费观看| 久久久男人天堂| 亚洲综合久久久中文字幕| 亚洲麻豆视频免费观看| 毛片a级毛片免费观看| 无码熟妇人妻AV影音先锋| 一区二区三区日本在线| 东北女人啪啪对白| 无码精品人妻一区二区三区人妻斩 | 亚洲自偷自拍熟女另类| 蜜桃在线播放免费一区二区三区| 精品国产av一区二区三区| 久久精品中文字幕| 亚洲色偷拍区另类无码专区| 亚洲成av人无码免费观看| 精品少妇人妻av一区二区蜜桃| 女人被狂躁c到高潮视频| y111111少妇影院无码| 最新亚洲av日韩av二区一区| 蜜桃成熟时在线观看免费视频| 国产综合无码一区二区色蜜蜜| 日本a在线免费观看| 国产黄色一区二区三区av| 亚洲女同一区二区| 99久久婷婷国产综合亚洲91| 国产亚洲激情av一区二区| 天天做天天爱夜夜夜爽毛片 | 亚洲日韩乱码中文无码蜜桃臀| 久久中文字幕av第二页|