范玉紅 魏向鑫
摘要:對于視頻場景中的一些異常行為(暴力行為)識別技術(shù),本文重點研究深度學習鄰接層間的度量機制和跨層學習方法,建立深度暴力特征網(wǎng)絡(luò)框架,以及研究基于改進的稀疏表達分類的檢測框架,實現(xiàn)進一步提升識別能力并達到實際監(jiān)控應(yīng)用。
關(guān)鍵詞:視頻場景;暴力行為;識別技術(shù)
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)25-0116-02
社會焦點問題之一就是如何保障公共安全問題。如今攝像頭廣泛地應(yīng)用于銀行、車站、辦公樓、小區(qū)等各種公共場所。因此,研究能夠自動檢測異常事件(如暴力事件)的智能視頻監(jiān)控系統(tǒng)是非常重要的。如果能解決這一問題,無疑將為社會保障增加更多籌碼,它也將對促進人工智能技術(shù)的發(fā)展起到巨大的作用。
本文重點研究深度學習鄰接層間的度量機制和跨層學習方法,建立深度暴力特征網(wǎng)絡(luò)框架,以及研究基于改進的稀疏表達分類的檢測框架,實現(xiàn)進一步提升識別能力并達到實際監(jiān)控應(yīng)用。
1 異常識別
異常行為的解釋基于不同的應(yīng)用場景。異常行為識別的研究分為兩個步驟:1)對視頻序列進行處理,包括前景背景分離和特征提取;2)目標行為模式識別與分類。目前,常用的前景和背景分離方法包括高斯混合模式[7],相鄰幀差分法[8],等等這些方法可以實現(xiàn)良好的檢測效果與小燈對比變化在靜態(tài)場景中,但是他們會被各種干擾因素在動態(tài)場景。它對光的變化、葉片的擾動、陽光下性狀的反射和水面的波動非常敏感。在人體輪廓圖像序列特征提取這一方面,大多數(shù)研究者使用全局表示法,其中Bobick等[7]通過構(gòu)造運動能量圖和改進的運動歷史圖來描述運動變化。Souvenir 等人[10]通過將一系列人體剪影圖像構(gòu)建成三維時空體塊來描述運動。Gorelick等[11]根據(jù)動作行為發(fā)生的時間序列和順序,將人體剪影圖像序列進行排列,構(gòu)建人體的時空形態(tài),以表征行為。上面的方法添加高緯度數(shù)據(jù)信息,如時間序列或時空二維的基礎(chǔ)上深度信息來描述時空運動更準確,但有許多后續(xù)處理,如提取目標運動的地區(qū)利益和優(yōu)化降維的高維運動數(shù)據(jù)。
2 本文方法
2.1 建立基于深度學習的暴力特征網(wǎng)絡(luò)模型和其優(yōu)化方案
“高層特征提取”問題是個難點。我們嘗試研究分析人眼視覺在此問題上的一些機理。如數(shù)個人在一起打架,人眼能夠認識到這些是一體的行為,屬于同一個整體。一般打架行為都會存在多個個體之間的交互行為;從語義上可推理識別出來的,訓練庫中也包含這類的樣本。因而需要研究模擬相關(guān)視覺機理的模型或算法,并研究充分利用上下文和肢體的各種 語義條件,及研究分析訓練庫中已知打架行為特征模式圖。具體地,對每個肢體子集建立可見肢體配對的圖模型,融入視覺機理的模型和語義信息,然后研究進行匹配識別的理論模型,提出相應(yīng)的特征提取算法。并且考慮到視頻數(shù)據(jù)量大,不宜設(shè)計層數(shù)多的網(wǎng)絡(luò)模型。
我們擬提出以下深度模型框架:
如圖1所示,考慮到視頻數(shù)據(jù)的高維特征,我們擬設(shè)計一個三層的網(wǎng)絡(luò)結(jié)構(gòu)來刻畫暴力的深度特征。[W1,W2,W3,W4]分別代表層與層之間的加權(quán)值,[R2]分別描述輸入層與輸出層之間的誤差,[R1]描述初級層與高級層之間的誤差。通過設(shè)計這樣一個帶有圖結(jié)構(gòu)網(wǎng)絡(luò)模型,我們希望可以降低網(wǎng)絡(luò)層的重構(gòu)誤差,讓高級層學習得到的特征更加具有代表性,為了幫助學習,在每一層之間我們設(shè)置了加權(quán)值進行歸一化處理。
此外,為了更好地挖掘暴力行為的序列幀特征,我們擬設(shè)計如圖2 所示的結(jié)果,它可以看作是一個高斯的馬爾科夫結(jié)構(gòu)狀態(tài)過程,該模型具有更好的可伸縮性,與以往的序列特征模型算法相比,它可以很容易地從更長的時間序列中學習到判別性的特征。因此,在本項目的研究中,如何對上述結(jié)構(gòu)更好地模擬建模是需要著重研究的內(nèi)容。
2.2 聯(lián)合優(yōu)化準則或算法
在此框架下,為了有效地發(fā)揮深度學習的特性來提升特征的區(qū)分能力,我們重點研究深度學習鄰接層間的度量機制和跨層學習方法,及深入思考基于深度學習對暴力行為特征提取的理論模型和框架,提出相應(yīng)的優(yōu)化準則和算法。
1)研究基于稀疏表示的分類算法
由于暴力行為具備特有的特征,本課題研究基于特定類的稀疏分類的方法??紤]加入使得不同類的字典相互獨立的條件,研究在原模型中加入約束項來增強學習的能力,及整個字典學習和優(yōu)化方法。
2) 設(shè)計稀疏分類模型
3) 設(shè)計優(yōu)化策略
我們可以證明式(5)是非凸的,這是一個看似不可解的問題。但當其他變量固定時,求解變量D、W或Z是凸的,本文將求解問題分解為三個子問題,即交替求解Z、D或W:變化Z(固定D和W),變化D(固定W和Z),變化W(固定D和Z)。在未來的理論研究中,還需要研究基于稀疏分類的優(yōu)化算法,為上述模型優(yōu)化問題的子問題尋找最合理的解決方案。
2.3結(jié)果驗證
基于深度學習的特征提取和基于稀疏表示的分類思路符合識別的內(nèi)在本質(zhì),能有效感知及描述異常行為的特征。本文提出更靈活的深度模型及其優(yōu)化算法、稀疏降維模型及其優(yōu)化算法和稀疏分類模型及其優(yōu)化算法,經(jīng)實驗驗證,是可行的。
參考文獻:
[1] Christine T. Clarin, M. Dionisio, Michael T. Echavez. DOVE: Detection of Movie Violence using Motion Intensity Analysis on Skin and Blood[J]. Pcsc, 2005.
[2] Fillipe D. M. de Souza, Guillermo C. Chavez, Eduardo A. do Valle Jr., Arnaldo de A. Araujo. Violence Detection in Video Using Spatio-Temporal Features.[C]. 2012 25th SIBGRAPI Conference on Graphics, Patterns and Images. IEEE, 2010:224-230.
[3] Hassner T,Itcher Y,Kliper-Gross O.Violent flows:Real-time detection of violent crowd behavior[C]//2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.June 16-21,2012,Providence,RI,USA.IEEE,2012:1-6.
[4] 舒毅,邢玉娟.基于i-向量和PCA字典學習稀疏表示的說話人確認[J].計算機工程與應(yīng)用,2016,52(18):144-147,166.
【通聯(lián)編輯:王力】