方朝暉+鐘平
摘要:大范圍視頻中人的行為識(shí)別主要面臨視頻場(chǎng)景大、目標(biāo)小、分辨率低、特征不明顯等難點(diǎn)。充分利用視頻圖像中包含的圖像特征和空-時(shí)上下文信息是解決這些難點(diǎn)問(wèn)題的有效途徑。隱條件隨機(jī)場(chǎng)模型(HCRF)包含的隱變量層使其具有豐富的表示能力,同時(shí)自身還具有統(tǒng)一對(duì)觀察圖像和標(biāo)記中的上下文信息建模的能力。因此將HCRF模型引入大范圍視頻中人的行為識(shí)別,重點(diǎn)研究通過(guò)l_2和l_1正則化訓(xùn)練方法得到的HCRF模型在解決過(guò)擬合和實(shí)現(xiàn)稀疏化時(shí)的性能。在此基礎(chǔ)上,引入l_(1/2)正則化訓(xùn)練方法,提出新的面向人的行為識(shí)別的HCRF模型,進(jìn)一步提高模型的稀疏化和識(shí)別性能。利用典型的大范圍視頻數(shù)據(jù)庫(kù)UT-TOWER對(duì)研究的方法進(jìn)行了全面測(cè)試,實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的l_(1/2)正則化HCRF模型在提高識(shí)別正確率、模型稀疏性和計(jì)算效率方面的優(yōu)勢(shì)。
關(guān)鍵詞:大范圍視頻;人的行為識(shí)別;隱條件隨機(jī)場(chǎng)
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)01-0076-02
近年來(lái),大范圍視頻由于其場(chǎng)景直觀、發(fā)現(xiàn)問(wèn)題及時(shí)、信息量充足、利于取證保存的特點(diǎn)正越來(lái)越多地被應(yīng)用于軍事和生活領(lǐng)域。許多發(fā)達(dá)國(guó)家還針對(duì)大范圍視頻的研究,建立了無(wú)人機(jī)視頻系統(tǒng)、高層建筑視頻監(jiān)控系統(tǒng)等大量的數(shù)據(jù)平臺(tái)。而對(duì)視頻圖像中的目標(biāo)進(jìn)行行為識(shí)別,就能夠在不耗費(fèi)人力資源的情況下從視頻中獲取大量的信息,這是現(xiàn)階段研究大范圍視頻的關(guān)鍵。而且在對(duì)視頻中的目標(biāo)進(jìn)行行為識(shí)別時(shí),往往面臨大范圍視頻場(chǎng)景大、目標(biāo)小、分辨率低、特征不明顯等難點(diǎn)。充分利用視頻圖像中的空間和時(shí)間的上下文信息進(jìn)行行為建模和識(shí)別是解決上述難點(diǎn)問(wèn)題的有效途徑。
本文主要研究和正則化訓(xùn)練方法對(duì)HCRF模型用于大范圍視頻中人的行為識(shí)別的影響。在此基礎(chǔ)上研究HCRF模型訓(xùn)練的正則化方法和高效實(shí)現(xiàn)。本文接下來(lái)的內(nèi)容包括:第二章構(gòu)建面向大范圍視頻中人的行為識(shí)別的HCRF模型;第三章研究構(gòu)建的HCRF模型的不同正則化訓(xùn)練方法,并提出新的基于正則化的HCRF模型;第四章利用實(shí)際數(shù)據(jù)測(cè)試研究方法的性能;第五章對(duì)研究工作進(jìn)行總結(jié)與展望。
1 面向大范圍視頻中人的行為識(shí)別的HCRF模型
1.1 HCRF模型的構(gòu)建
面向大范圍視頻中人的行為識(shí)別主要實(shí)現(xiàn)對(duì)輸入的一段包含幀的視頻數(shù)據(jù),估計(jì)其包含的目標(biāo)對(duì)應(yīng)的行為語(yǔ)義標(biāo)記x。假設(shè)隱變量序列,HCRF模型構(gòu)建給定觀測(cè)數(shù)據(jù),語(yǔ)義標(biāo)記和隱變量的聯(lián)合后驗(yàn)概率為
其中每個(gè)h_j,j∈[1,m]屬于隱標(biāo)記空間H,隱變量它可能表示的是視頻各幀所對(duì)應(yīng)的基元?jiǎng)幼黝?lèi)型,φ(x,h,y;θ)為定義在基團(tuán)上的勢(shì)函數(shù),θ為模型(勢(shì)函數(shù))中包含的模型參數(shù)利用公式(1),可以得到給定觀察數(shù)據(jù),對(duì)應(yīng)的標(biāo)記的后驗(yàn)概率為
結(jié)合大范圍視頻圖像的特點(diǎn),本文定義的勢(shì)函數(shù)為
其中V1表示視頻幀節(jié)點(diǎn)特征向量的元素索引,V2表示無(wú)向圖中邊特征向量的元素索引,f(1,l),f(2,l)表示節(jié)點(diǎn)特征和雙位置邊特征的提取函數(shù),θ(1,l),θ(2,l)∈θ分別表示節(jié)點(diǎn)參數(shù)和邊參數(shù)。特征函數(shù)f_1在模型中依賴(lài)于單隱變量,特征函數(shù)f2則依賴(lài)于兩個(gè)隱變量。
1.2 HCRF模型的訓(xùn)練
給定包含個(gè)訓(xùn)練樣本的訓(xùn)練集,HCRF模型訓(xùn)練就是估計(jì)使如下目標(biāo)函數(shù)極大的模型參數(shù):
(4)式中表示的是對(duì)數(shù)似然函數(shù),R(θ)是正則化項(xiàng),由參數(shù)(θ)的先驗(yàn)分布構(gòu)建。利用梯度法尋找最優(yōu)的參數(shù)值,關(guān)鍵是計(jì)算似然函數(shù)項(xiàng)和正則化項(xiàng)關(guān)于參數(shù)的梯度。
經(jīng)過(guò)推導(dǎo),似然函數(shù)L_i (θ)關(guān)于θ_(1,l)的偏導(dǎo)數(shù)為:
似然函數(shù)L_i (θ)對(duì)θ_(2,l)求偏導(dǎo)為:
(5)式和(6)式中的各項(xiàng)邊緣概率可以通過(guò)置信度傳播方法(BP算法)高效計(jì)算。
1.3 HCRF模型的推斷
HCRF模型推斷是給定一個(gè)新的測(cè)試樣本,利用訓(xùn)練得到的模型參數(shù),通過(guò)如下公式得到測(cè)試樣本的標(biāo)記:
其中邊緣分布可由公式(2)和BP算法計(jì)算得到。
2 實(shí)驗(yàn)結(jié)果
在采用HCRF對(duì)視頻建模之前,實(shí)驗(yàn)采用3DHOG算法提取表述每一視頻幀的圖像特征。另外,HCRF模型中隱變量的狀態(tài)數(shù)也是一個(gè)重要的參數(shù)。設(shè)置隱變量的狀態(tài)數(shù)為3,5,7,10,15和20,通過(guò)大量實(shí)驗(yàn)表明,當(dāng)隱變量的狀態(tài)數(shù)為10時(shí)實(shí)驗(yàn)結(jié)果較優(yōu),因此之后的實(shí)驗(yàn)都采用該設(shè)置。
2.1 不同正則化方法性能比較
當(dāng)HCRF模型的訓(xùn)練過(guò)程不包含正則化項(xiàng)時(shí),在UT-Tower數(shù)據(jù)庫(kù)上行為識(shí)別的準(zhǔn)確率為89.81%。推斷錯(cuò)誤的行為種類(lèi)比較分散,除c1和c7外,其余都出現(xiàn)了標(biāo)記錯(cuò)誤的情況。通過(guò)l_2正則化訓(xùn)練得到的HCRF模型的性能:在UT-Tower數(shù)據(jù)庫(kù)上行為識(shí)別的準(zhǔn)確率為91.67%。相比于非正則化的情況,在標(biāo)記的整體準(zhǔn)確率上有著顯著的提高,但出錯(cuò)的行為類(lèi)別還是很多,除c1,c3,c7外,其余類(lèi)別均出現(xiàn)了推斷錯(cuò)誤的情況。通過(guò)l_1正則化訓(xùn)練得到的HCRF模型的性能:在UT-Tower數(shù)據(jù)庫(kù)上行為識(shí)別的準(zhǔn)確率為91.67%。相比于l_2正則化訓(xùn)練得到的HCRF模型,l_1正則化雖然在整體準(zhǔn)確率上并沒(méi)有顯著提高,但出錯(cuò)的行為類(lèi)別數(shù)有明顯的減少,只有c4,c6和c8出現(xiàn)了標(biāo)記錯(cuò)誤。提出的l_(1/2)正則化HCRF模型,在UT-Tower數(shù)據(jù)庫(kù)上行為識(shí)別的準(zhǔn)確率為93.52%,相比于l_2和l_1正則化方法來(lái)說(shuō),其不僅是在整體準(zhǔn)確率還是在出錯(cuò)的行為類(lèi)別方面,其功能都有著較為明顯的提高。
2.2 正則化參數(shù)對(duì)結(jié)果的影響
進(jìn)一步通過(guò)實(shí)驗(yàn)研究正則化參數(shù)對(duì)結(jié)果的影響。針對(duì)l_2正則化方法,對(duì)λ=0.1,0.3,0.5,0.7,0.9等多種情況進(jìn)行了實(shí)驗(yàn)。針對(duì)l_1正則化和l_(1/2)正則化方法,研究了正則化參數(shù)取值為0.01,0.1,0.2,1,10等數(shù)值時(shí)的模型性能。從結(jié)果中可以看出:隨著λ的增加,模型的準(zhǔn)確率表現(xiàn)出先增后減少的趨勢(shì),l_2正則化方法在λ=0.7左右達(dá)到準(zhǔn)確率的最大值,而l_1正則化和l_(1/2)正則化方法在λ=0.1左右取得最優(yōu)的結(jié)果。
針對(duì)l_1正則化和l_(1/2)正則化,進(jìn)一步分析訓(xùn)練得到模型的稀疏性,即根據(jù)正則化參數(shù)λ的變化,統(tǒng)計(jì)模型中參數(shù)的為零的個(gè)數(shù)。結(jié)果表明:在λ值相等的情況下通過(guò)l_(1/2)正則化得到的模型的稀疏性要高于通過(guò)l_1正則化得到的模型,并且隨著λ值的增加,無(wú)論是l_1還是l_(1/2)正則化方法得到的模型會(huì)越來(lái)越稀疏。針對(duì)l_1和l_(1/2)正則化,隨著λ值的增加,模型的參數(shù)越來(lái)越稀疏,而準(zhǔn)確率卻是先增后減:剛開(kāi)始的準(zhǔn)確率的增加是由于參數(shù)的稀疏化減少了過(guò)擬合現(xiàn)象的發(fā)現(xiàn),但隨著λ值進(jìn)一步的增加,參數(shù)會(huì)越來(lái)越稀疏,導(dǎo)致一部分有用的參數(shù)也被稀疏掉,使得有用的信息丟失,導(dǎo)致準(zhǔn)確率降低。
3 結(jié)語(yǔ)
本文研究了基于HCRF模型的大范圍視頻中人的行為識(shí)別方法。大量的實(shí)驗(yàn)表明,本文提出的l_(1/2)正則化HCRF模型取得了優(yōu)于通過(guò)l_1和l_2正則化方法得到的模型的識(shí)別性能。下一步的工作,可以進(jìn)一步擴(kuò)充實(shí)驗(yàn)場(chǎng)景和數(shù)據(jù),進(jìn)一步驗(yàn)證研究方法的推廣性能。另外,對(duì)HCRF模型的隱變量進(jìn)行多樣化,提高隱變量的表達(dá)能力,從而提高行為識(shí)別的準(zhǔn)確率,也是一個(gè)值得深入研究的課題。
參考文獻(xiàn)
[1]劉建磊,馮大政,張莉.基于梯度信息的C-V模型圖像分割算法[J].光電子.激光,2010(03).
[2]田國(guó)會(huì),吉艷青,黃彬.基于多特征融合的人體動(dòng)作識(shí)別[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2009(05):43-47.
[3]敦文杰,穆志純.基于特征融合的人臉人耳多生物身份鑒別[J].天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2009(07):636-641.