付 偉 ,王金橋,滕可振
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;
2.中國科學院自動化研究所 模式識別國家重點實驗室,北京 100190)
?
基于深度學習的監(jiān)控視頻目標檢索
付偉1,王金橋2,滕可振2
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;
2.中國科學院自動化研究所 模式識別國家重點實驗室,北京 100190)
摘要基于內(nèi)容的目標檢索一直是視頻監(jiān)控領域最重要的研究內(nèi)容之一。面向視頻監(jiān)控應用場景,提出了基于深度自動編碼機的目標檢索方法。通過在訓練過程加入掩膜圖像輔助信息和人工噪聲,提高了深度神經(jīng)網(wǎng)絡特征表示的魯棒性。實驗結果證明了該方法在監(jiān)控視頻目標檢索任務中的有效性和優(yōu)越性。
關鍵詞目標檢索;深度學習;視頻監(jiān)控
DeepLearningforObjectRetrievalinSurveillanceVideos
FUWei1,WANGJin-qiao2,TENGKe-zhen2
(1.The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China;
2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
AbstractThecontent-basedobjectretrievalisoneofthemostimportantresearchtopicsinvideosurveillance.Thispaperpresentsanovelobjectretrievalapproachbasedondeepautoencoder.Thisapproachtakesadvantageofthemaskinformationtoassistobjectrepresentation,andintroducesmanualnoiseintothelearningapproach,whichenhancestherobustnessoffeaturerepresentationinthedeepneuralnetwork.Theexperimentalresultsprovetheeffectivenessandsuperiorityofthisapproach.
Keywordsobjectretrieval;deeplearning;videosurveillance
0引言
現(xiàn)代社會,平安城市的建設如火如荼,并逐步向智慧城市邁進[1]。作為城市智能感知的重要一環(huán),視頻監(jiān)控系統(tǒng)已經(jīng)被廣泛地應用于機場、廣場、商店、銀行和公路等公共場合。無處不在的監(jiān)控終端每天都在產(chǎn)生海量的圖像數(shù)據(jù),來不及看、錯看漏看已經(jīng)成為制約智能監(jiān)控發(fā)展的瓶頸?;趦?nèi)容的目標檢索技術[2-4]可以一定程度上解決這一問題,一直是計算機視覺領域的研究熱點。
然而,如何設計一種面向監(jiān)控視頻的高效的檢索系統(tǒng)仍然面臨著巨大的挑戰(zhàn)。監(jiān)控視頻目標檢索系統(tǒng)涉及背景建模、運動目標分割與提取和目標表示等子問題,每個子問題的性能都會制約檢索系統(tǒng)的整體性能:監(jiān)控場景下環(huán)境復雜多變,對目標的特征表達和描述必然引入背景噪聲等因素的干擾;監(jiān)控視頻本身的低分辨率、目標在運動中的相互遮擋等問題對目標檢索提出挑戰(zhàn)。
針對目標表示和遮擋問題,提出了一種掩膜輔助的多模態(tài)目標編碼方法。掩膜圖像的引入有助于目標在圖像中的準確定位,以減小背景的噪聲影響。另外,在深度神經(jīng)網(wǎng)絡的訓練過程中采取原始圖像樣本重構的策略,來應對遮擋情況對目標檢索的影響。
1基于深度學習的目標檢索方法
在面向視頻監(jiān)控的應用場景中,行人與車輛是最為關注的運動目標。Calderara等人[5]針對多攝像頭無重疊的監(jiān)控場景采用多高斯模型對行人的顏色分布概率進行估計,設計了一個針對行人的目標檢索系統(tǒng)。Perrott等人[6]在MPEG-7和標準描述定義語言的基礎上實現(xiàn)了面向CCTV錄像的基于內(nèi)容的實時檢索系統(tǒng)。Annesley等人[7]也進一步驗證了MPEG-7的顏色描述子在監(jiān)控視頻檢索中的效果。Feris等人[8]提出了一種基于屬性的車輛檢索方法。
在他們的方法中,屬性被定義為車輛顏色、速度及類型等語義特征。類似的,Thornton等人[9]對行人提取其性別、發(fā)型、衣服顏色、提包位置和顏色等屬性,提出了一種基于生成式模型的檢索方法。一方面,屬性一般由人工指定,其定義的好壞直接影響檢索的效果;其次,屬性可看作是一種中層特征描述,僅僅依靠幾個人工定義的屬性對目標表示的描述能力是有限的。
近年來,深度學習受到學術界和工業(yè)界的廣泛關注和研究。深度學習模擬人類大腦的結構,對數(shù)據(jù)有很強的學習能力,已在語音識別、圖像分類和自然語言處理等方面取得了巨大的成功[10]。在計算機視覺領域,越來越多的工作表明,深度學習的方法通過構建深度神經(jīng)網(wǎng)絡可以從海量圖像數(shù)據(jù)中學習得到更好的特征表達[11]。受此啟發(fā),本文提出了一種基于深度學習的監(jiān)控視頻目標檢索方法,將背景建模后得到的前景目標圖像和掩膜圖像經(jīng)深度神經(jīng)網(wǎng)絡非線性映射到低維二值編碼空間,并使相似的圖像具有相似的編碼。
該系統(tǒng)框架由離線訓練和在線檢索2部分構成。在離線訓練階段,一個用于存儲所有目標編碼的數(shù)據(jù)庫被建立。首先,利用背景建模算法從監(jiān)控視頻中提取運動目標,如行人和車輛。對每個目標提取了2張圖像,即原始目標圖像和二值掩膜圖像。然后一個多模態(tài)的深度神經(jīng)網(wǎng)絡被訓練來將目標和掩膜編碼為二值向量。在線檢索階段,用戶從監(jiān)控視頻圖像中交互式地手動框選待檢索的目標,繼而用之前訓練得到的自動編碼機把該目標及其掩膜圖像編碼為二值向量,最后采用漢明距離度量與數(shù)據(jù)庫中圖像的二值向量間的距離,得到檢索結果。
2基于深度自動編碼機的目標表示方法
2.1深度自動編碼機
自從2006年Hinton等人[12]提出受限玻爾茲曼機(RBM)的有效訓練算法后,深度學習因其優(yōu)越的特征學習性能,迅速成為機器學習領域的一個新方向。深度學習模擬人類大腦感知機制,通過將多個受限玻爾茲曼機逐層疊加,構建深度神經(jīng)網(wǎng)絡,對輸入數(shù)據(jù)逐級提取從底層到高層的特征,從而建立從底層信號到高層語義的非線性映射。在視頻監(jiān)控的應用背景下,為快速準確地檢索運動目標,采用深度自動編碼機將運動目標映射到低維的二值編碼空間來尋找其特征表示。
作為深度神經(jīng)網(wǎng)絡的基礎結構,受限玻爾茲曼機將輸入向量非線性地由可視特征空間轉換到隱含特征空間。受限玻爾茲曼機結構如圖1所示。
圖1 受限玻爾茲曼機結構
由可視節(jié)點v和隱含節(jié)點h兩部分構成,在任意2個不同類型的節(jié)點之間有連接(連接矩陣為W),其他節(jié)點之間沒有連接。每一個節(jié)點上的數(shù)據(jù)都被認為符合某種分布,例如高斯分布和二值分布??梢暪?jié)點被輸入數(shù)據(jù)或者上一層受限玻爾茲曼機的輸出數(shù)據(jù)初始化。它們之間的關系為:
深度自動編碼機作為深度神經(jīng)網(wǎng)絡的一種,同樣由多個受限玻爾茲曼機級聯(lián)構成,其結構如圖1所示。輸入信號經(jīng)自動編碼機處理后,編碼對原始信號的重建誤差最小。
深度自動編碼機的訓練過程分為2個階段:非監(jiān)督的預訓練和受監(jiān)督的參數(shù)調(diào)整。在非監(jiān)督的預訓練階段,深度自動編碼機的編碼部分被生成式的逐層訓練,當前層的輸出作為下一層的輸入,各層分別優(yōu)化從而得到解碼部分的參數(shù)。進而根據(jù)編碼和解碼部分的對稱性得到整個深度網(wǎng)絡的初始化參數(shù)。最后,為了充分利用數(shù)據(jù)中的類別信息,還需要使用監(jiān)督的方法,采用誤差反向傳播算法對參數(shù)進行調(diào)整。具體的訓練過程可參看文獻[13]。深度自動編碼機示意圖如圖2所示。
圖2 深度自動編碼機示意
2.2目標表示的多模態(tài)方法
視頻監(jiān)控場景下,一方面由于光照變化和色差等因素的影響,背景建模算法存在一定的局限性;另一方面,不同運動目標也會發(fā)生相互遮擋的情況。因此監(jiān)控視頻中目標的分割與提取過程不可避免地引入了噪聲。
(1)
然而,去噪的自動編碼機對監(jiān)控視頻目標檢索問題來說并不合適。主要原因有:① 去噪的自動編碼機被用來提高針對全局噪聲的魯棒性,而非背景區(qū)域的噪聲;② 如果在訓練去噪的自動編碼機時,僅針對背景添加噪聲,會破壞前景和背景在相同客觀條件下表現(xiàn)的一致性,從而影響自動編碼機的效果。
假設輸入圖像中的前景部分和背景部分分別由f和b來表示,前景和背景的外觀分別由隱含變量α和β表示,環(huán)境因素如光照變化、色差和隨機噪聲等由隱含變量θ表示。于是,有如下關系成立:
(2)
深度自動編碼機在編碼時更注重前景部分的外觀α,同時考慮背景部分的光照、噪聲等環(huán)境因素θ。基于此一種多模態(tài)的學習策略被采納。具體的說,在輸入部分,將訓練數(shù)據(jù)拷貝使其加倍,其中的一半包括目標物體圖像和原始的掩膜圖像,另一半包括目標物體圖像和全黑的掩膜圖像;在輸出部分,使用目標前景圖像和原始的掩膜圖像進行監(jiān)督。這種訓練方法迫使神經(jīng)網(wǎng)絡能夠在掩膜圖像不完整或不存在的情況下,依然能夠有效地辨別出輸入圖像中的前景目標并對其進行編碼。掩膜圖像作為目標觀測的上下文信息,記為m,則該目標前景的編碼表示α可由以下求解過程得到:
(3)
在深度神經(jīng)網(wǎng)絡框架下,對上式的優(yōu)化等價于求解如下最小化問題:
(4)
為了展示多模態(tài)的學習框架,不同的模態(tài)設置如圖3所示。圖3(a)為直接從原始圖像上學習目標編碼;圖3 (b)為通過將背景區(qū)域置零,僅從目標區(qū)域學習目標編碼;圖3(c)為使用原始的去噪自動編碼機學習目標編碼;圖3 (d)為將目標圖像和掩膜圖像結合起來,學習目標編碼;圖3(e)為通過拷貝訓練集將其數(shù)量翻倍,其中一半訓練數(shù)據(jù)T保持不變,另外一半T′的掩碼圖像全部置零。在預訓練階段,T和T′同時使用,在誤差反傳階段,用T同時對T和T′進行監(jiān)督。經(jīng)過訓練,即便用戶沒有輸入掩膜圖像,多模態(tài)的自動編碼機仍然能夠通過目標圖像將其重構出來。這種訓練方法使得深度自動編碼機不僅能夠編碼目標本身,而且能夠將其從背景噪聲中分離出來。
圖3 掩膜輔助的多模態(tài)目標表示
2.3遮擋情況的處理
多模態(tài)目標表示方法可以考慮遮擋情況的處理,如圖3(f)所示。目標圖像被規(guī)整的劃分為圖像塊,對于每一張圖像,隨機選擇一個圖像塊轉換為黑色。然后,這些已添加噪聲的圖像和未添加噪聲的圖像組成了整個訓練集。所有的圖像都以未添加噪聲的圖像作為監(jiān)督信息。通過這種訓練方法,即便目標圖像中的物體受到遮擋,也能夠通過深度自動編碼機網(wǎng)絡重構出未遮擋的圖像。
3實驗分析與評價
為驗證所提方法的性能,實驗在中國科學院自動化研究所發(fā)布的視頻數(shù)據(jù)集上進行。該數(shù)據(jù)集的視頻均采集自學校、小區(qū)等實際監(jiān)控場景的攝像頭終端,經(jīng)背景建模后共提取12 676個車輛和57 134個行人目標。
實驗中所有目標前景圖像與掩膜圖像均被調(diào)整到32×32像素大小。為了在訓練中得到更多的訓練數(shù)據(jù),所有的圖像都被左右翻轉以便將訓練數(shù)據(jù)集加倍。深度神經(jīng)網(wǎng)絡的結構如圖3所示,第1層受限玻爾茲曼機擁有4 096個可視節(jié)點和8 192個隱含節(jié)點。所有剩余的受限玻爾茲曼機各有4N個可視節(jié)點和N 個隱含節(jié)點,直到達到最終的維度。共有243個目標被挑選用來評價不同方法的表現(xiàn),評價標準為平均準確度(mAP)。各種方法的平均準確率如表1所示。
表1 不同方法的平均準確率(%)
與傳統(tǒng)的基于哈希方法如局部敏感哈希(LSH)[15]、譜哈希(SH)[16]相比,基于自動編碼機的方法引入了較多的語義信息,因此可以更好地刻畫和檢索目標。
實驗還比較了圖3中不同模態(tài)策略下檢索的結果。從實驗結果可以看到,當掩膜圖像信息被引入時,即便是單模態(tài)訓練,與未添加掩膜圖像相比,檢索的準確度提升了12.09%。對于多模態(tài)的實驗設置,噪聲條件下的平均準確度提升了4.55%,在16×16遮擋塊的條件下,相對于“一半掩膜圖像置零”平均準確度提升了6.28%。這也表明了該方法對遮擋問題處理的有效性。
4結束語
基于深度學習的目標檢索算法將原始圖像和對應的掩膜圖像聯(lián)合映射為二值編碼,刻畫了目標的局部關系。該方法已在實際工程應用中表現(xiàn)出其在處理監(jiān)控視頻中目標遮擋和低分辨率問題方面的優(yōu)越性,為深度學習理論在視頻監(jiān)控領域的進一步應用提供了一定的借鑒意義。
參考文獻
[1]喬宏章,付長軍.“智慧城市”發(fā)展現(xiàn)狀與思考[J].無線電通信技術,2014,40(6):1-5.
[2]ARANDJELOVIC R,ZISSERMAN A.Three Things Everyone Should Know to Improve Object Retrieval[C]∥Computer Vision and Pattern Recognition,IEEE Conference on,2012:2 911-2 918.
[3]DATTA R,LI J,WANG J Z.Content-based Image Retrieval: Approaches and Trends of the New Age[C]∥ACM SIGMM International Workshop on Multimedia Information Retrieval,2005:253-262.
[4]SIVIC J,ZISSERMAN A.Video Google: A Text Retrieval Approach to Object Matching in Videos[C]∥Computer Vision,IEEE International Conference on,2003:1 470-1 477.
[5]CALDERARA S,CUCCHIARA R,PRATI A.Multimedia Surveillance: Content-based Retrieval with Multi Camera People Tracking[C]∥ACM international Workshop on Video Surveillance and Sensor Networks,2006:95-100.
[6]PERROTT A,LINDSAY A T,PARKES A P.Real-time Multimedia Tagging and Content-based Retrieval for CCTV Surveillance Systems[C]∥The Convergence of Information Technologies and Communications,International Society for Optics and Photonics,2002:40-49.
[7]ANNESLEY J,ORWELL J,RENNO J P.Evaluation of MPEG7 Color Descriptors for Visual Surveillance Retrieval[C]∥Visual Surveillance and PerformanceEvaluation of Tracking and Surveillance,2005:105-112.
[8]FERIS R,SIDDIQUIE B,ZHAI Y,et al.Attribute-based Vehicle Search in Crowded Surveillance Videos[C]∥ACM International Conference on Multimedia Retrieval,2011:18.
[9]THORNTON J,BARAN-GALE J,BUTLER D,et al.Person Attribute Search for Large-area Video Surveillance[C] ∥Technologies for Homeland Security,IEEE International Conference on,2011:55-61.
[10]余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1 799-1 804.
[11]鄭胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014,19(2):175-184.
[12]HINTON G E,SALAKHUTDINOV R R,Reducing the Dimensionality of Data with Neural Networks [J].Science,2006,313(5786):504-507.
[13]KRIZHEVSKY A,HINTON G E.Using very Deep Autoencoders for Contentbased Image Retrieval [C] ∥ ESANN,2011.
[14]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and Composing Robust Features with Denoising Autoencoders[C] ∥International Conference on Machine Learning,2008:1 096-1 103.
[15]CHARIKAR M.Similarity Estimation Techniques from Rounding Algorithm [C] ∥ ACM symposium on Theory of Computing,2002:380-388.
[16]WEISS Y,TORRLABA A,FERGUS R,Spectral Hashing[C]∥Advances in Neural Information Processing System,2009:1 753-1 760.
付偉男,(1986—),博士,工程師。主要研究方向:模式識別、圖像處理。
王金橋男,(1978—),博士,副研究員。主要研究方向:模式識別、視頻與圖像處理、多媒體計算。
作者簡介
基金項目:國家自然科學基金面上項目(61273034)資助。
收稿日期:2015-09-09
中圖分類號TP391
文獻標識碼A
文章編號1003-3106(2015)12-0016-05
doi:10.3969/j.issn.1003-3106.2015.12.05
引用格式:付偉,王金橋,滕可振.基于深度學習的監(jiān)控視頻目標檢索[J].無線電工程,2015,45(12):16-20.