亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        概率隱含語義分析模型在行為識別中的編碼與歸一化方法研究

        2018-07-25 11:11:24徐勤軍周同馳吳鎮(zhèn)揚
        信號處理 2018年7期
        關鍵詞:局域矢量分配

        徐勤軍 周同馳 周 琳 吳鎮(zhèn)揚

        (1. 東南大學信息科學與工程學院,江蘇南京 210096; 2. 閩南師范大學物理與信息工程學院, 福建漳州 363000;3. 中原工學院電子信息學院,河南鄭州 451191)

        1 引言

        在過去十多年里,視頻中的行為識別研究由于應用廣泛得到了越來越多的關注。文獻[1-2]對近年來的行為識別研究取得的進展做了總結,目前對于簡單場景下的單人行為識別問題已經(jīng)基本解決,但仍然存在著許多開放課題,譬如復雜場景下的行為識別、交互行為的識別以及群體行為等亟待進一步研究[3-5]。

        自Sivic等[6]將文本分析中的單詞包模型(Bag of words)引入到目標識別的研究中以后,在計算機視覺領域得到了廣泛的應用。單詞包模型雖然簡單,但在目標識別、跟蹤以及行為識別和探測方面均取得了較好的性能。當然,其缺陷是很明顯的,由于忽視了視覺單詞間的空間和時間關系,該模型的判別力相應受到影響。另一方面,由于普遍采用矢量量化,造成了量化損失,這不可避免地影響到視覺單詞的判別性。

        近來,源自文本分析的主題模型被引入到計算機視覺的研究中,Li等[7]首先將概率隱含語義分析模型(pLSA: probabilistic latent semantic analysis)以及隱含狄利克雷指派模型(LDA: latent Dirichlet allocation)引入到靜態(tài)圖像的場景理解中,在此基礎上Niebles等[8]在視頻的行為識別中應用pLSA模型取得了較好的性能。在此之后,有許多研究者致力于改進主題模型,以提升分類精度。Shang等[9]擴展了LDA模型以建模人臉表情的動態(tài)模型。文獻[10]采用動態(tài)主題模型以挖掘視頻中的行為模式。上述文獻均在提取底層特征后,采用K均值聚類形成碼本,然后采用矢量量化的方法對特征進行編碼,將某一特征賦予與其距離最近的聚類中心(一般是歐氏距離)。Chatfield等[11]分析比較了各類特征編碼方法以及池化方法(pooling)在靜態(tài)圖像中目標識別的性能,實驗證明軟分配、稀疏編碼等明顯優(yōu)于矢量量化。

        主題模型將視頻或者圖片的單詞包表示作為輸入,這使得特征的編碼與歸一化方法影響模型的表示能力。目前,還沒有文獻討論在主題模型下,各類編碼與歸一化方法對于分類性能的影響。

        本文考察了歸一化方法和編碼方法對于概率隱含語義分析模型的分類性能的影響,在KTH和UT-interaction數(shù)據(jù)庫上的實驗結果表明,分類性能一定程度上依賴于合適的編碼和歸一化方法組合。在前期工作的基礎上[12],我們還探討了采用主成份分析方法預處理原始特征對于最終分類性能的作用。

        2 評估框架

        如圖1所示,我們的評估方法流程包含以下過程:首先,從視頻中提取底層特征,采用諸如HOG/HOF等描述符來表示特征;然后,應用k-means算法形成碼本;將所有特征編碼并歸一化,經(jīng)求和池化得到每個視頻的單詞包表示;通過EM算法學習主題分布模型;最后得到每個視頻的主題概率分布表示,應用SVM進行分類識別。

        圖1 評估流程圖Fig.1 The pipeline of our evaluation framework

        2.1 特征提取和表示

        特征的提取與表示是各類識別任務的第一步,對于識別的性能提升具有關鍵性的作用。目前在視頻中的行為識別研究中用得最多的特征提取方法為時空特征點(STIPs: spatio-temporal interest points)[13]和軌跡特征[14],在多個數(shù)據(jù)庫上,這兩類方法都取得了優(yōu)越的性能。本文中采用了這兩類方法提取視頻的特征,以下給出了簡短的介紹。

        Laptev等[15]把Harris角點探測器擴展到了3維視頻中,首先計算一個二階矩矩陣:

        (1)

        正如Wang等[14]指出的,視頻的2維空間域與時間域的特性是截然不同的,所以跟蹤時間域的特征點相比較于探測時空興趣點是一個更好的選擇。受圖像識別中密集采樣取得的成就所啟發(fā),他們采用了密集采樣的軌跡而不是KLT跟蹤器(Kanade-Lucas-Tomasi Feature Tracker)來捕捉運動信息。通過跟蹤密集采樣的特征點,多尺度的密集軌跡被提取了出來。在光流場ω中,第t幀的采樣點Pt=(xt,yt) 通過中值濾波器被跟蹤到第t+1幀。

        (2)

        由于需要跟蹤密集采樣的大量的興趣點,密集軌跡方法[14]在計算和內存耗費上代價較高,Peng等[16]提出了基于運動邊界的采樣策略修正了密集軌跡方法,通過計算相鄰兩幀的光流梯度得到運動邊界圖,去除不在運動前景中的點,在不損害判別性的前提下,大大降低了軌跡的數(shù)量。實驗中我們采用文獻[16]的方法跟蹤軌跡,然后提取5類描述符:shape(30維),HOG(96維), HOF(108維), MBH(motion boundary histogram, 192維), HNF(204維)。

        2.2 特征編碼與歸一化

        在單詞包模型中應用最廣的特征編碼方法為矢量量化(Vector quantization),通過K均值聚類等方法得到碼本后,采用最近鄰方法找到與待編碼特征距離最近的碼字作為該特征的編碼。

        與矢量量化不同,軟分配編碼[17](Soft Assignment)根據(jù)每個特征與每一個聚類中心的距離得到一個表示其歸屬某一聚類的程度的因子μij:

        (3)

        很明顯,上述方法需要計算特征點與所有聚類中心的距離,這無疑是很耗時的。為了減少計算量,文獻[18]提出了局域軟分配編碼方法(LSA: Localized Soft Assignment),只考慮特征點的k個最近鄰的單詞進行編碼,而把特征點與其他單詞的距離設為無窮大,其中k經(jīng)驗值為5,如果k為1,則退化為矢量量化方法了。

        文獻[18]指出,池化方法對于性能有顯著影響,一般而言,最大池化配合稀疏編碼方法很有效。本文采用主題模型建模視覺單詞的共現(xiàn)模式,而最大池化后直方圖只能表明該碼字是否出現(xiàn)過,沒有出現(xiàn)頻率等信息,因而本文不考慮最大池化方法。在實驗中,采用求和池化,將視頻的所有特征的編碼直接相加,得到每個視頻的特征直方圖表示。

        在視頻中行為識別的研究中,通常歸一化方法對于性能的影響一直被忽視。Peronnin等[19]采用指數(shù)歸一化和2歸一化結合Fisher核方法在圖像分類中取得了較好的識別率,說明選擇合適的歸一化方法可助益于性能的提升。在本文中,我們比較了5種歸一化方法,設特征F維數(shù)為K,第k維為fk,

        (4)

        (5)

        指數(shù)歸一化:

        fk=sign(fk)|fk|α

        (6)

        其中α經(jīng)驗值為0.5。

        圖2 pLSA模型。其中d表示視頻,是視頻中的視覺單詞,均為觀測變量。是主題,為隱變量。視頻數(shù)據(jù)集的大小為M,視頻d中的單詞數(shù)目為NdFig.2 pLSA model. Observed random variables are shaded and unobserved ones are unshaded. d represents video, is visual word in d, and is topic among words. The size of videos is M, and the number of words in d is Nd

        2.3 概率隱含語義分析模型

        (7)

        (8)

        3 實驗結果與分析

        在視頻中的行為識別中,數(shù)據(jù)庫中視頻樣本間的差異,包括尺度、光照、拍攝背景以及拍攝視角的不同等,大幅增加了準確識別行為類別的難度。實驗中我們采用了兩個數(shù)據(jù)庫:KTH數(shù)據(jù)庫和UT-interaction數(shù)據(jù)庫。其中,KTH數(shù)據(jù)庫是較早提出也是引用最高的數(shù)據(jù)庫之一,背景相對比較簡單,所包含的視頻均為單人行為,在四個不同場景下25個人完成的6類動作共計599個視頻樣本,視頻拍攝時的相機固定,拍攝視角不變,但視頻樣本中包含了尺度變化、衣著變化和光照變化。UT-interaction 數(shù)據(jù)庫,包含有6類人人交互的動作:shaking hands, pointing, hugging, pushing, kicking, punching,總共120段樣本,視頻拍攝時的視角變化較大,尤其是數(shù)據(jù)集2,包含了更多的相機運動,部分視頻中還有無干系的行人,這給分類識別帶來了很大的困難。由于樣本有限且類內差異大,UT-interaction數(shù)據(jù)庫中的行為分類是個很困難的任務[20-21]。

        實驗中,采用了時空興趣點和軌跡特征。為公平起見,碼本的大小均設為1000,采用線性SVM進行分類識別。實驗硬件環(huán)境為Intel core(TM)i5,內存4G,軟件平臺采用Matlab2013b。

        3.1 KTH數(shù)據(jù)庫上的實驗

        實驗采用留一組法進行,在每一輪實驗中,用24組視頻做訓練,利用所得模型測試最后一組,然后平均25輪實驗的分類精度。如表1所示,矢量量化和局域軟分配得到的結果相差不多。指數(shù)歸一化、指數(shù)加2歸一化加強了矢量量化和局域軟分配的識別能力,而軟分配則更適合與2歸一化匹配。歸因于密集軌跡的判別力,當采用矢量量化和局域軟分配編碼時,軌跡比時空興趣點的分類精度提高了大約6個百分點。與此相反,當采用軟分配編碼時,采用時空興趣點時得到的結果更好一些。對碼本中的每一個單詞,軟分配編碼根據(jù)特征與單詞的距離分配因子,這平滑了特征間的差異,從而降低了特征的判別性,尤其是當采用MBH描述符時。我們采用時空興趣點特征得到的分類精度為89.63%,比文獻[8]的結果提高了6個百分點??梢院侠淼丶僭O,相似的行為具有相似的特征和主題分布。很明顯,用混合主題概率分布描述行為優(yōu)于把一個主題對應于一類行為的方法。主題模型的一個優(yōu)勢是可以把主題視為一個中層的語義特征,然后用主題來描述更復雜的行為。在不同的行為中,不可避免的存在相似的形體動作,例如拳擊和拍手都有著類似的上肢運動。因此不同的行為分享相同的主題,每個特定的行為擁有自己的主題分布,這增強了特征的判別性。

        表1 在KTH數(shù)據(jù)庫中不同編碼和歸一化方法的分類結果(%)

        3.2 UT-interaction數(shù)據(jù)庫上的實驗

        UT-interaction數(shù)據(jù)庫分為兩個數(shù)據(jù)集,其中數(shù)據(jù)集1是在停車場拍攝的,而數(shù)據(jù)集2是在有風的草地場景下拍攝的,比較而言,數(shù)據(jù)集2包含有更多的相機抖動。文獻[22]中綜合比較了各類方法的性能,其中在數(shù)據(jù)集1上,最好的結果為88%,數(shù)據(jù)集2上為77%。兩個數(shù)據(jù)集的結果相差11%,由此可見由于背景噪聲、拍攝視角和相機抖動的原因使得數(shù)據(jù)集2的識別要困難的多。實驗中參照文獻[22]中的設置,采用10折疊的留一組法,平均10輪后的結果作為最終的識別結果。

        3.2.1 采用時空興趣點的實驗結果

        實驗結果如圖3所示,在三種編碼方法中局域軟分配編碼取得了最高的準確度。在數(shù)據(jù)集1中,軟分配和矢量量化的結果類似。而在數(shù)據(jù)集2上,軟分配的結果比矢量量化最大下降了10個百分點,這可能歸因于兩個數(shù)據(jù)集不同的復雜度。在兩個數(shù)據(jù)集上的精確度最高分別為94.24%、83.67%,這比文獻[22]的結果分別提升了6.24、6.67個百分點。需要特別指出的是,在數(shù)據(jù)集1上的結果接近于當前最好的結果。當主題數(shù)目大約是行為類別數(shù)的10倍時,性能達到最高,這與數(shù)據(jù)庫的復雜度有關。當行為的復雜度提升時,需要有更多的主題來描述視頻中行為的細節(jié)。

        圖3 UT-interaction數(shù)據(jù)庫中不同的編碼和歸一化方法性能比較,采用STIPs特征,描述符為HNF。其中(a)~(c),(d)~(f)是在數(shù)據(jù)集1和數(shù)據(jù)集2上分別采用VQ,LSA, SA得到的結果Fig.3 Comparison of different encoding and normalization with HNF of STIPs on UT-interaction sets.(a)~(c), (d)~(f) are results on UT-set1 and set2 respectively using VQ, LSA and SA

        局域軟分配是軟分配的一個簡化,從計算的角度而言,局域軟分配在矢量量化和軟分配之間取了一個折衷,只計算與最近鄰的幾個中心的距離,卻得到了更好的性能,這說明將某個特征關聯(lián)到幾個近鄰中心比關聯(lián)所有的聚類中心更能提升其判別性,這也是與預期相符的,與某特征距離較遠的聚類中心,與該特征的相關性可忽略不計,而軟分配編碼卻為其分配了一個不為零的系數(shù),從而模糊了其特質。

        3.2.2 采用軌跡特征的實驗結果

        實驗中我們首先比較了軌跡5類不同的描述符的性能。其中矢量量化和1歸一化結合,局域軟分配和指數(shù)加2歸一化相結合。由表2可以看出,MBH和HNF要優(yōu)于shape,HOG,HOF,這與文獻[14, 16]所得結論是相符的。一般而言,多個特征級聯(lián)會優(yōu)于單個特征的性能,HNF將HOG,HOF鏈接起來,聯(lián)合了兩類描述符的優(yōu)勢,性能有了較大提升。MBH最初是用于人體探測的,通過獨立的計算光流在水平和垂直方向上的梯度,可移除局域的相機運動而保留了光流場的局部變化信息,因而其對相機運動更具有魯棒性,也更有判別性。接下來的實驗將只采用HNF和MBH描述符。

        表2 軌跡特征不同的描述符間的比較。#1和#2分別表示數(shù)據(jù)集1和數(shù)據(jù)集2上的結果

        表3 UT-interaction數(shù)據(jù)庫中不同的編碼和歸一化方法的性能比較(%),主題數(shù)為100

        在表3中,我們比較了不同編碼方法結合歸一化方法的性能。當采用HNF描述符時,矢量量化和局域軟分配性能相差很小。與此相反,采用MBH描述符時,局域軟分配編碼相比矢量量化而言弱化了特征的判別性,這在數(shù)據(jù)集1上更明顯。需要著重指出的是,歸一化方法對于分類性能有著顯著的影響,最大可相差5個百分點。

        3.2.3 主成份分析預處理特征對性能的影響

        以上實驗中,所有的特征均未作預處理。Jegou等[23-24]指出,主成份分析(PCA)通過選擇子空間的解耦的正交基向量,最小化了降維產(chǎn)生的信息損失,在靜態(tài)圖像識別的實驗表明,對原始特征作PCA預處理,降低了特征的維度的同時,還提高了識別精度。受此啟發(fā),我們比較了不同的PCA維度下的行為分類結果。

        如圖4所示,很明顯,當PCA維數(shù)很低,如小于16時,識別率受到影響較大,但在維數(shù)達到32以后,識別率的變化趨緩,也就是說,當PCA降維到32時,保留了原來特征的大部分信息。大多數(shù)情況下,隨著維數(shù)增大,識別率在達到最高值后有下降的趨勢。

        當特征為STIPs時,采用LSA編碼所得分類精度明顯高于VQ;而當特征為DT時,則正好相反,VQ更高一些,但是,LSA和VQ兩者的差距明顯縮小。對于數(shù)據(jù)集1,采用STIPs和DT得到的最好的結果分別是93.57%、96.1%,均接近于未作PCA預處理時的結果。值得注意的是,在數(shù)據(jù)集2上,我們分別得到了84.33%、95%的分類準確度,高于未作PCA預處理時0.66、1.67個百分點。由于數(shù)據(jù)集2上的特征包含有更多的噪聲,采用PCA后在一定程度上抑制了噪聲的影響,因此提升了識別率。而數(shù)據(jù)集1上背景相對單一,PCA降低了特征的維度,而噪聲的抑制不足以彌補特征的信息損失,性能稍有降低。

        在表4中我們與其他文獻的性能做了比較,在數(shù)據(jù)集1和數(shù)據(jù)集2上分別高于當前最好的性能1.94、3.3個百分點。值得指出的是,文獻[21]在數(shù)據(jù)集2上聯(lián)合了HOG,HOF,shape,MBH等四類描述符才取得了91.7%的準確度,而我們的實驗中是獨立采用了MBH、HNF兩類描述符。

        表4 與其他文獻的比較結果(%)。#1和 #2 分別表示數(shù)據(jù)集1和數(shù)據(jù)集2上的結果

        3.3 分析

        上述實驗結果表明,在采用時空特征點的HNF描述符時,局域軟分配可獲得優(yōu)于矢量量化和軟分配的性能。尤其是在UT-interaction數(shù)據(jù)庫中,效能提升顯著,這說明在樣本少,特征點稀疏的情況下,挖掘特征間的共現(xiàn)模式尤為重要。正如上節(jié)所示,密集軌跡相比時空興趣點描述力更強,但我們的方法可以縮小兩者的差距,尤其是在UT-interaction數(shù)據(jù)集1上,兩者精度接近相等。

        不同的歸一化方法選擇,對矢量量化和局域軟分配而言最大可以產(chǎn)生5個百分點的差距,而對于軟分配最大可達到30個百分點。從實驗結果看,密集軌跡較之時空興趣點更易受到歸一化方法的影響。

        采用主成份分析方法預處理原始特征,對于提升識別的性能有重要影響。主成份分析將原始特征向特征分量上投影,客觀上可以一定程度的抑制噪聲,但與此同時,不可避免的帶來信息的損失。這兩方面的影響相互抵消,如果噪聲成分大,抑制噪聲取得的效用大,則帶來識別率的上升,而信息損失效應大,相應的性能有所下降。另一方面,由于密集采樣特征的性能優(yōu)越,需要處理的特征數(shù)越來越多,尤其是對于視頻信號來講,計算量尤其大。而如果采用PCA預處理原始特征,將特征維數(shù)大幅降低而又保留大部分信息致使分類性能下降不多,這將大大降低計算量,提升反應速度,對于需要實時處理信號的應用而言,意義重大。

        圖4 不同的PCA維度下的分類精度對照圖。其中第一、二行為UT-interaction數(shù)據(jù)集1和2采用STIPs時的結果,第三、四行為采用軌跡特征時的結果。每一列分別對應1歸一化、2歸一化、 指數(shù)歸一化、 指數(shù)加2歸一化(P2-norm)、 指數(shù)加1歸一化(P1-norm)Fig.4 Comparison of different PCA dimension. The first row and second are results of set1 and set2 with STIPs respectively, and the third row and fourth are of set1 and set2 with DT. Each column is corresponding one normalization method, such as 1-norm, 2-norm, power-norm, P2-norm and P1-norm

        主題模型能夠挖掘出隱含于眾多特征點間的共現(xiàn)模式,這可以看作是中間層的語義描述符,以此來表示視頻中的行為,增強了特征的判別性。由于我們采用了標準的單詞包框架,沒有納入任何特征點的時空信息,所以我們還不能確定挖掘出的隱主題對應的實際的元動作,但無疑,這類高于底層特征的高層語義,有效提升了識別性能。如何引入特征的時間以及空間信息到模型中,有待于進一步的研究。

        4 結論

        為了提升概率隱含語義分析模型在行為識別中的分類精度,本文詳細考察了編碼和歸一化方法對于性能的影響,實驗表明合適的編碼和歸一化方法組合將顯著改進模型的分類性能,在UT-interaction數(shù)據(jù)庫的兩個數(shù)據(jù)集上取得了當前最好的性能。另外,我們還檢驗了主成份分析預處理原始特征對于性能的影響,當原始特征包含有較多的噪聲時分類性能甚至有所提升。接下來的研究將放在如何把隱主題和元動作,即不同肢體運動聯(lián)系起來。

        猜你喜歡
        局域矢量分配
        矢量三角形法的應用
        應答器THR和TFFR分配及SIL等級探討
        遺產(chǎn)的分配
        一種分配十分不均的財富
        績效考核分配的實踐與思考
        局域積分散列最近鄰查找算法
        電子測試(2018年18期)2018-11-14 02:30:34
        基于矢量最優(yōu)估計的穩(wěn)健測向方法
        三角形法則在動態(tài)平衡問題中的應用
        PET成像的高分辨率快速局域重建算法的建立
        基于局域波法和LSSVM的短期負荷預測
        電測與儀表(2015年7期)2015-04-09 11:39:50
        国产成人AV乱码免费观看| 日韩人妻精品视频一区二区三区| 一区二区在线观看视频亚洲| 一二区视频免费在线观看| 国产成年女人特黄特色毛片免| 日韩av免费在线不卡一区| 97人妻中文字幕总站| 蜜桃夜夜爽天天爽三区麻豆av| 新视觉亚洲三区二区一区理伦| 亚洲乱码av乱码国产精品| 日本区一区二区三视频| 免费无码又爽又刺激网站直播| 无码一区二区三区中文字幕| 亚洲av日韩aⅴ无码色老头| 影视av久久久噜噜噜噜噜三级 | 国产精品丝袜在线不卡 | 国产一区二区三区再现| 精品国产精品三级在线专区| 亚洲综合中文字幕综合| 色中文字幕在线观看视频| 日韩av精品视频在线观看| 亚洲色一区二区三区四区| 欧美成人www在线观看| 国产成人无码免费视频在线| 国产女主播喷水视频在线观看| 人妻丰满熟妇av无码区免| 处破痛哭a√18成年片免费| 国产精成人品| 在线免费欧美| 日韩少妇高潮在线视频| 日本综合视频一区二区| 日本免费一区二区三区影院| 国产激情一区二区三区| 性生交大全免费看| 在线观看av国产自拍| 18禁国产美女白浆在线| 日本av一区二区三区四区| 亚洲精品国产av日韩专区| 国产乱码一区二区三区精品| 少妇中文字幕乱码亚洲影视| 精品国内自产拍在线观看|