黃少年 文沛然 全琪
關(guān)鍵詞:人群異常事件;深度學(xué)習(xí);無監(jiān)督學(xué)習(xí)
0 引言
由于人群聚集的情況經(jīng)常在各種城市公共場所中出現(xiàn),一旦在人群聚集的公共場所出現(xiàn)突發(fā)異常事件,很容易造成因人群擁擠引發(fā)的災(zāi)難性事件。另一方面,隨著視頻監(jiān)控系統(tǒng)的日益普及,基于監(jiān)控視頻內(nèi)容分析技術(shù)對公共場所的人群行為進(jìn)行分析、挖掘和管理成為可能。因此,分析并建模城市公共場所下密集人群的行為動態(tài),預(yù)警并檢測人群場景的突發(fā)異常事件,避免人群災(zāi)難性事件的發(fā)生,成為亟待解決的一個研究課題。
本文從監(jiān)控視頻場景下的人群異常事件檢測的定義出發(fā),對現(xiàn)有的視頻異常檢測方法進(jìn)行綜述,詳細(xì)闡述了其研究現(xiàn)狀及各類方法的優(yōu)劣,介紹視頻異常檢測常用的數(shù)據(jù)集及評價指標(biāo),最后面向監(jiān)控視頻的人群異常檢測的未來的發(fā)展方向進(jìn)行總結(jié)和展望。
1 人群異常事件檢測概述
1.1 人群異常事件定義
面向監(jiān)控視頻的人群異常事件檢測技術(shù)是指:從海量監(jiān)控視頻數(shù)據(jù)中檢測出與大多數(shù)人不一致的少量異常事件。如:在養(yǎng)老院等機構(gòu)的監(jiān)控系統(tǒng)中,實現(xiàn)對老人跌倒事件的遠(yuǎn)程監(jiān)控;在機場、車站以及地鐵站等公共安防監(jiān)控系統(tǒng),檢測打架斗毆、異常奔跑、包裹滯留以及逃票等異常事件;在智能交通監(jiān)控系統(tǒng)中,實現(xiàn)對超速、闖紅燈、逆行等交通違章事件的檢測等;在不同的人群場景下,其人群異常事件的含義可能不同。
1.2 人群異常事件分類
根據(jù)應(yīng)用場景的不同,現(xiàn)有研究將通常把人群異常事件分成4種類型[1]:
(1) 外觀異常。如:人行道上的騎自行車者,或馬路上的障礙物。
(2) 短期運動異常。這類異常可被認(rèn)為是場景中不尋常的物體運動。如:一個人在圖書館跑步。
(3) 長期軌跡異常。這類異常通常在場景中具有不尋常的物體軌跡。如:在人行道上拐來拐去的人,或在車流中不斷加塞的汽車。
(4) 群體異常。這類異常在場景中具有不尋常的相互作用。如:一群人突然向四周跑動。
2 基于深度學(xué)習(xí)的視頻異常檢測方法
相較于計算機視覺領(lǐng)域其他檢測任務(wù),視頻異常事件檢測任務(wù)的挑戰(zhàn)性在于:異常事件定義具有場景依賴性、異常事件的稀少性、異常樣本的不確定性及視頻信息的多樣性[2-3]。不同于圖像以及文本數(shù)據(jù),視頻數(shù)據(jù)不僅僅具備空間信息同時也具備極強的時序信息。伴隨著深度學(xué)習(xí)的發(fā)展,針對視頻異常檢測任務(wù)所面臨的挑戰(zhàn),利用深度學(xué)習(xí)方法可以在一定程度上弱化異常檢測任務(wù)對場景地依賴性,增加模型的泛化能力。同時,無監(jiān)督的方法也能一定程度上解決樣本不均衡引發(fā)的問題。目前,利用無監(jiān)督的深度學(xué)習(xí)方法對視頻進(jìn)行異常事件檢測已成為主流的研究趨勢?,F(xiàn)有的無監(jiān)督視頻異常檢測方法可大致分為基于重構(gòu)的方法、基于預(yù)測的方法及混合方法。
2.1 基于重構(gòu)的方法
基于重構(gòu)的方法通常假設(shè)異常事件具有較高的重構(gòu)誤差,并根據(jù)重構(gòu)誤差的閾值判斷異常。該類方法基于大量的正常樣本訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)正常事件的特征模式;測試時,由于異常事件模式難以被網(wǎng)絡(luò)很好的重構(gòu),生成較大的重構(gòu)誤差,從而被判定為異常。
自動編碼器(Auto Encoder,AE) 是基于重構(gòu)方法的常見結(jié)構(gòu),通過采用編碼器提取正常事件模式進(jìn)行編碼,采用解碼器將編碼后的特征表示解碼回它的原始形式,形成對正常事件進(jìn)行重構(gòu)。Hasan等[4]通過訓(xùn)練全連接自動編碼器進(jìn)行視頻序列重構(gòu),并基于重構(gòu)誤差計算異常分?jǐn)?shù)。Luo等[5]則采用卷積長短期記憶網(wǎng)絡(luò)(Convolutional Long Short Term Memory , ConvLSTM)) 作為卷積AE的主干結(jié)果進(jìn)行視頻序列重構(gòu)。Hu等[6]提出了一種時空融合的視頻異常檢測方法。首先通過對象檢測網(wǎng)絡(luò)進(jìn)行對象提取,然后提取光流信息和可視信息,并基于時空雙流網(wǎng)絡(luò)進(jìn)行視頻幀的重構(gòu)。Ber?gaoui等[7]提出了一種以對象為中心的正常事件模式學(xué)習(xí)模型,采用基于對象動作特征的cosine距離函數(shù)進(jìn)行異常估計,并在重構(gòu)框架引入了幾何限制。通過記憶模塊平衡對象的外觀信息和運動信息,從而捕獲事件的原型模式。Wang等[8]針對現(xiàn)有基于重構(gòu)方法的時序依賴性差和訓(xùn)練樣本過擬合問題,提出時空Trans?formmer編碼器進(jìn)行連續(xù)幀重構(gòu)。采用可學(xué)習(xí)的卷積自注意力模塊學(xué)習(xí)時序相關(guān)性。在測試過程中提出了一種新的基于重建的輸入擾動策略,以進(jìn)一步區(qū)分異常幀。Ouyang等[9]提出了一種無需離線訓(xùn)練模型的視頻異常檢測方法。采用隨機初始化多層感知機的方法進(jìn)行視頻幀重構(gòu)?;谙噜弾g的信息偏移,采用增量學(xué)習(xí)進(jìn)行參數(shù)更新,在線訓(xùn)練模型。
除AE模型之外,生成對抗模型GAN和變分編碼器模型VAE也被引入到視頻異常檢測問題中。Rav?anbakhsh等[10]提出了基于GAN的視頻異常檢測方法, 基于對抗損失生成器與判別器, 使得異常幀具有較大的重構(gòu)誤差。Dong等[11]提出了一種雙判別器生成對抗網(wǎng)絡(luò),基于半監(jiān)督學(xué)習(xí)方式進(jìn)行視頻異常檢測。Feng等[12]針對視頻異常檢測中正常模式的時空有效性問題,提出了基于雙對抗生成網(wǎng)絡(luò)的卷積Trans?former模型。Fang等[13]提出了一種基于全卷積VAE的端-端視頻異常檢測框架,基于高斯混合模型對正常事件模式進(jìn)行編碼,并采用雙流網(wǎng)絡(luò)提取視頻的可視特征及運動特征進(jìn)行異常檢測。
2.2 基于預(yù)測的方法
由于異??梢员灰暈椴环夏承╊A(yù)期的事件,研究者認(rèn)為基于預(yù)測的方法可能是看待異常檢測問題的更自然的方式。基于預(yù)測的方法采用過去一段時間內(nèi)視頻幀的特征預(yù)測當(dāng)前幀;為增強預(yù)測效果,通?;谝曨l幀間的時序依賴性增強特征表示。
Huang等[14]基于幀可視信息與光流運動信息的一致性進(jìn)行視頻異常檢測。采用雙流編碼器編碼可視信息與運動信息,并引入一致性損失增強語義特征的一致性,從而使得具有較低可視、運動信息一致性的異常事件能被檢測。最后,結(jié)合一致性損失與預(yù)測損失進(jìn)行異常檢測。Leery等[15]提出了一種自監(jiān)督的同步預(yù)測模型。與現(xiàn)有的單幀預(yù)測方法不同的是,該模型可以一次性預(yù)測連續(xù)幀中的遮擋幀,因此該模型可以充分考慮視頻的上下文信息。這種同時進(jìn)行自我監(jiān)督的未來幀預(yù)測有助于模型產(chǎn)生預(yù)測輸出更加接近訓(xùn)練數(shù)據(jù)分布,而不是簡單地學(xué)習(xí)特征函數(shù),從而緩解了泛化的問題。針對基于重構(gòu)的方法均假設(shè)異常事件具有較大的重構(gòu)誤差的問題,Zhao等[16]設(shè)計了卷積LSTM自動編碼器預(yù)測網(wǎng)絡(luò)增強時空記憶交換。雙向網(wǎng)絡(luò)結(jié)構(gòu)通過前向預(yù)測和反向預(yù)測學(xué)習(xí)時序規(guī)律,獨特的高階機制進(jìn)一步加強了編碼器和解碼器之間的空間信息互動。并采用注意力模塊進(jìn)行預(yù)測。針對現(xiàn)有工作現(xiàn)有考慮幀級局部一致性以及時序動態(tài)的全局相關(guān)性問題,F(xiàn)eng等[17]提出了基礎(chǔ)雙生成對抗網(wǎng)絡(luò)的卷積Transformer模型。首先采用卷積Trans?former進(jìn)行將來幀預(yù)測;再采用雙生成對抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練,該網(wǎng)絡(luò)判別器在保持圖像幀局部一致性的同時,增強視頻的時序全局一致性。
基于預(yù)測的視頻異常檢測方法可以對運動信息進(jìn)行建模,并且可以學(xué)習(xí)到不同類型的時空依賴。但這類方法局限于序列數(shù)據(jù)異常檢測,并且序列預(yù)測的計算成本高,由于其潛在目標(biāo)是序列預(yù)測而不是異常檢測,因此學(xué)習(xí)的結(jié)果可能是次優(yōu)的。
2.3 混合方法
部分研究者采用混合方法實現(xiàn)視頻異常檢測,取得了較好的檢測效果。Cao等[18]提出了一種根據(jù)測試事件和正常事件知識一致性的異常事件檢測方法,采用基于上下文恢復(fù)和知識檢索的雙流框架進(jìn)行異常檢測。在上下文恢復(fù)分支中,采用時空U-Net網(wǎng)絡(luò)預(yù)測將來幀,并提出了最大恢復(fù)誤差機制緩解由前景對象引起的較大恢復(fù)誤差問題。在知識檢索分支中,采用Siamese 網(wǎng)絡(luò)和交互差異損失,基于可學(xué)習(xí)的locality-sensitive hashing 策略,從而編碼正常事件知識并存儲在hash表中。測試事件和知識表示的差異被用來進(jìn)行異常檢測。Wang等[19]提出了一種基于時空拼圖的視頻異常檢測方法,將視頻異常檢測問題作為一個多標(biāo)簽的細(xì)粒度分類問題來解決。時空拼圖分別負(fù)責(zé)捕捉高辨識度的外觀和運動特征。完整的排列組合被用來提供豐富的涵蓋不同難度的拼圖,使網(wǎng)絡(luò)能夠區(qū)分正常和異常事件之間微妙的時空差異。Barbalau等[20]提出了一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的視頻異常檢測框架。首先采用Yolov3進(jìn)行目標(biāo)檢測,并采用卷積transformer網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。同時,引入自監(jiān)督學(xué)習(xí)任務(wù)提升模型性能,如:通過知識蒸餾解決拼圖問題,預(yù)測人體姿態(tài)等。
基于預(yù)測重構(gòu)的混合方法也引起了研究者的興趣。Liu等[21]提出了一種基于記憶增強重構(gòu)和光流幀重構(gòu)的視頻異常檢測方法,首先進(jìn)行可視特征及預(yù)測特征的重構(gòu),然后采用條件變分自動編碼器進(jìn)行幀預(yù)測。Morais 等[22]則基于行人的骨架軌跡特征同時進(jìn)行預(yù)測和重構(gòu),并學(xué)習(xí)正常時間模式。Zhao等[23]提出了一種時空自動編碼器(STAE) ,并同時采用重構(gòu)損失和預(yù)測損失訓(xùn)練3D卷積網(wǎng)絡(luò)。Ye等[24]提出了基于預(yù)測編碼網(wǎng)絡(luò)的視頻異常檢測方法,引入誤差修正單元對預(yù)測誤差進(jìn)行重構(gòu),從而提升預(yù)測精度。以上基于預(yù)測重構(gòu)混合的方法均取得了較好的檢測性能,但模型較復(fù)雜。
3 常用數(shù)據(jù)集與評價標(biāo)準(zhǔn)
3.1 常用數(shù)據(jù)集
基準(zhǔn)數(shù)據(jù)集在計算機視覺任務(wù)中起到重要作用,包括:定義問題范圍、為算法性能比較提供途徑等?;鶞?zhǔn)數(shù)據(jù)集的建立需要考慮數(shù)據(jù)集大小、數(shù)據(jù)大小、標(biāo)簽數(shù)據(jù)的可獲得性及數(shù)據(jù)多樣性等多種因素。由于實際監(jiān)控場景中,人群的異?;顒虞^少見,因此,人群異常行為基準(zhǔn)數(shù)據(jù)集的數(shù)量較少。常見的人群異?;鶞?zhǔn)數(shù)據(jù)集包括:UCSD行人數(shù)據(jù)集①、Avenue數(shù)據(jù)集② 、UMN 數(shù)據(jù)集③ 、Street Scene 數(shù)據(jù)集④ 、ShanghaiTech數(shù)據(jù)集⑤、UCF Crime數(shù)據(jù)集⑥、RLVS數(shù)據(jù)集⑦。本文從數(shù)據(jù)集場景、視頻數(shù)目、分辨率、異常樣例、是否包含像素級標(biāo)注等方面對以上數(shù)據(jù)集進(jìn)行描述,表1 展示了常見人群異常數(shù)據(jù)集的具體特性。
3.2 評價標(biāo)準(zhǔn)
通常來說,人群異常檢測和定位的性能評估標(biāo)準(zhǔn)有3種:(1)幀級標(biāo)準(zhǔn):以幀為單位判斷幀中是否存在異常;(2) 像素級標(biāo)準(zhǔn):至少40%真實異常區(qū)域的像素被檢測為異常;(3) 雙像素級標(biāo)準(zhǔn):至少10%真實異常區(qū)域的像素被檢測為異常。人群異常檢測的定量評價指標(biāo)則一般采用接收器操作特性曲線(receiver oper?ating characteristic curve,ROC) 及其對應(yīng)的曲線下面積(Area Under Curve,AUC) 兩種形式[25]。此外,等錯誤率(Equal Error Rate,EER) 也被用來作為異常檢測評價的性能指標(biāo),EER 是指當(dāng)假陽性率(False PositiveRate,F(xiàn)PR) 等于假陰性率(False Negative Rate失誤率)時,被錯誤分類的幀的百分比。
最近,一些研究者還提出了基于區(qū)域的異常檢測標(biāo)準(zhǔn)和基于軌跡的異常檢測標(biāo)準(zhǔn)[26]?;趨^(qū)域的檢測標(biāo)準(zhǔn)即計算所有異常區(qū)域被正確檢測的比率;而基于軌跡的檢測標(biāo)準(zhǔn)則計算行人異常軌跡被正確檢測的比率。以上兩種評價標(biāo)準(zhǔn)均需要進(jìn)行異常區(qū)域和異常軌跡的標(biāo)注,且同樣采用ROC和AUC進(jìn)行定量評價。
4 總結(jié)
人群異常事件檢測是現(xiàn)階段視頻監(jiān)控領(lǐng)域的重要應(yīng)用,本文對基于深度學(xué)習(xí)的人群視頻異常檢測問題的常用方法、主流數(shù)據(jù)集及評價標(biāo)準(zhǔn)進(jìn)行了概述?;谏疃葘W(xué)習(xí)的異常行為檢測在常用數(shù)據(jù)集上展現(xiàn)出優(yōu)異的性能,展現(xiàn)出深度學(xué)習(xí)模型在人群異常事件檢測中的巨大優(yōu)勢。但多數(shù)模型僅針對特定場景下的異常檢測,更具泛化性能的模型有待進(jìn)一步研究。