亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        監(jiān)控視頻的異常檢測(cè)與建模綜述

        2021-12-14 11:32:50於志文
        計(jì)算機(jī)研究與發(fā)展 2021年12期
        關(guān)鍵詞:像素陽(yáng)性文獻(xiàn)

        楊 帆 肖 斌 於志文

        1(西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 西安 710129) 2(香港理工大學(xué)工程學(xué)院 香港 999077)

        隨著監(jiān)控?cái)z像機(jī)的大量部署,視頻監(jiān)控在安防、態(tài)勢(shì)檢測(cè)、行為分析、刑偵等領(lǐng)域具有應(yīng)用.室內(nèi)外監(jiān)控?cái)z像機(jī)產(chǎn)生了大量監(jiān)控視頻,視頻分析和異常檢測(cè)成為研究熱點(diǎn).如何在監(jiān)控視頻中有效找到感興趣的目標(biāo)對(duì)象是其中的一個(gè)研究分支.基于視頻的異常檢測(cè)技術(shù)發(fā)展尤為迅猛,利用這項(xiàng)技術(shù)可以及時(shí)發(fā)現(xiàn)監(jiān)控區(qū)域中的異常事件,提高相關(guān)部門的干預(yù)和執(zhí)行效率,從而有效減少人身和財(cái)產(chǎn)損失.

        視頻異常檢測(cè)的任務(wù)是在一個(gè)空間定位異常和在視頻中確定異常時(shí)間,異常是不同于正常模式的活動(dòng).異常也被稱為新奇、離群和其他類似的術(shù)語(yǔ).視頻異常具體可以是機(jī)場(chǎng)無(wú)人看管的行李,一個(gè)在大樓外徘徊的男人或者一個(gè)摔倒的老人.

        視頻異??梢员徽J(rèn)為是不尋常的外觀或運(yùn)動(dòng)屬性的出現(xiàn),或在不尋常的位置或時(shí)間出現(xiàn)尋常的外觀或運(yùn)動(dòng)屬性.這個(gè)定義隱含的意思是視頻異常是依賴于場(chǎng)景的.一個(gè)事件在一個(gè)場(chǎng)景是異常,在另一個(gè)場(chǎng)景可能就不是,完全取決于在特定場(chǎng)景中所約定的異常含義.由于在現(xiàn)實(shí)場(chǎng)景中,異常是相對(duì)稀少的,并且異常的范圍和樣本是無(wú)法預(yù)知的,所以,視頻異常檢測(cè)算法以無(wú)監(jiān)督算法為主.異常標(biāo)注數(shù)據(jù)稀少難以訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)去分離正常類和異常類.模型訓(xùn)練通常需要正常的視頻(即不包含任何異常的視頻)來(lái)表達(dá)在特定場(chǎng)景中可能發(fā)生的各種正?;顒?dòng).在訓(xùn)練過(guò)程中設(shè)計(jì)或?qū)W習(xí)一個(gè)正常的模型,測(cè)試監(jiān)控視頻數(shù)據(jù)時(shí),和正常模式有明顯偏差的就被認(rèn)定為異常、比如異常的外觀、異常時(shí)間段、異常行為等.

        監(jiān)控視頻異常檢測(cè)面臨的主要挑戰(zhàn):1)異常事件定義與特定場(chǎng)景的依賴性[1-2];2)異常事件的稀少性、多樣性、不可窮舉性[3];3)訓(xùn)練樣本中包含噪聲[4],對(duì)訓(xùn)練有干擾;4)數(shù)據(jù)的隱私性,目前可用的公開(kāi)數(shù)據(jù)集較少[5].

        圖1和圖2顯示了視頻異常檢測(cè)典型算法的訓(xùn)練和測(cè)試過(guò)程.首先,在訓(xùn)練階段,從不包含異常事件的一個(gè)或多個(gè)視頻中提取特征來(lái)學(xué)習(xí)正?;顒?dòng)的模型.然后在測(cè)試階段,給出來(lái)自同一場(chǎng)景的新視頻,并從中提取特征.利用特征和模型為輸入視頻的每個(gè)像素或者視頻塊給出異常分?jǐn)?shù).最后對(duì)異常值進(jìn)行閾值處理,得到異常結(jié)果.

        Fig.1 Training stage of video anomaly detection

        Fig.2 Testing stage of video anomaly detection

        異常檢測(cè)和相應(yīng)的場(chǎng)景是相關(guān)的,對(duì)應(yīng)不同的場(chǎng)景,應(yīng)該有異常的約定.例如,每一個(gè)正常的視頻可能只顯示人們走路.測(cè)試視頻中的任何其他活動(dòng)(比如人們打架、騎自行車或開(kāi)小汽車)都應(yīng)該被檢測(cè)為異常.跨多個(gè)場(chǎng)景構(gòu)建單一模型可能沒(méi)有意義,除非場(chǎng)景在某種意義上是一致的.一種情況是,一個(gè)場(chǎng)景中的異常在另一個(gè)場(chǎng)景中也是異常.例如,在一個(gè)大型超市的不同位置的幾個(gè)主要監(jiān)控偷竊的攝相機(jī)是“一致的”[6].

        另一種情況是,考慮2個(gè)攝像機(jī)的情況,其中第1個(gè)攝像機(jī)的場(chǎng)景包含一個(gè)不允許人通過(guò)的保護(hù)草地區(qū)域(因此在該區(qū)域行走是不正常的),而第2個(gè)攝像機(jī)的草地區(qū)域不是受限區(qū)域.在2個(gè)場(chǎng)景中檢測(cè)異常的單一模型將無(wú)法檢測(cè)在第1個(gè)場(chǎng)景中是異常的走草地活動(dòng),因?yàn)樗鼘牡?個(gè)場(chǎng)景中學(xué)到在草地上行走是正常的.這個(gè)例子說(shuō)明了位置相關(guān)異常與單場(chǎng)景視頻異常檢測(cè)兼容,而與多場(chǎng)景視頻異常檢測(cè)不兼容.依賴所在異常(如亂穿馬路、人行道行人騎自行車、開(kāi)車在錯(cuò)誤的方向等),包括正?;顒?dòng)發(fā)生在不尋常的地方,隨處可見(jiàn)的單場(chǎng)景視頻異常檢測(cè),由于缺乏在不同場(chǎng)景的對(duì)應(yīng)位置,所以不兼容多場(chǎng)景方法.與多場(chǎng)景數(shù)據(jù)集相比,以位置依賴方式執(zhí)行的方法在單場(chǎng)景數(shù)據(jù)集上表現(xiàn)的更好.

        現(xiàn)有的許多研究論文并沒(méi)有明確說(shuō)明他們使用的是哪種場(chǎng)景模式.這導(dǎo)致了關(guān)于應(yīng)該測(cè)試哪些數(shù)據(jù)集以及應(yīng)該比較哪些方法顯得含糊和混亂;它還會(huì)導(dǎo)致對(duì)不同方法性能的不同理解.我們認(rèn)為明確在視頻異常檢測(cè)中使用的問(wèn)題構(gòu)建是很重要的.在本文中,我們面向單一場(chǎng)景的視頻異常檢測(cè),因?yàn)樗恍┏R?jiàn)的場(chǎng)景,并且有許多實(shí)際應(yīng)用.

        已有的綜述文獻(xiàn)存在3方面不足:1)文獻(xiàn)覆蓋不全面,每篇綜述僅覆蓋了一個(gè)發(fā)展階段的文獻(xiàn);2)不同綜述采用不同的算法分類策略,沒(méi)有對(duì)算法進(jìn)行表示形式的關(guān)聯(lián)分析;3)沒(méi)有匯總已有算法的異常檢測(cè)效果,對(duì)檢測(cè)模型沒(méi)有總結(jié)歸納.

        針對(duì)這3方面不足,本文對(duì)監(jiān)控視頻異常檢測(cè)領(lǐng)域的算法進(jìn)行全面綜述,注重將不同算法的特征表示和建模進(jìn)行對(duì)比分析:

        1)全面綜述該領(lǐng)域的算法,并依據(jù)算法的特征表示、算法的模型進(jìn)行分類;

        2)將不同類別的算法進(jìn)行關(guān)聯(lián),分析了不同算法的特征表示以及每種模型的特性;

        3)提煉了該領(lǐng)域常用的模型假設(shè)與相關(guān)知識(shí),匯總分析了不同算法的異常檢測(cè)效果.

        本文首先按照視頻異常檢測(cè)的特征表示和模型構(gòu)建對(duì)算法分類;然后逐類概述相關(guān)算法,通過(guò)對(duì)比分析不同算法模型、不同算法的特點(diǎn);最后介紹該領(lǐng)域的常用公共數(shù)據(jù)集、評(píng)估標(biāo)準(zhǔn),并匯總不同算法的檢測(cè)效果,對(duì)未來(lái)的研究趨勢(shì)進(jìn)行探討.

        1 視頻異常分類及檢測(cè)概述

        1.1 視頻異常分類

        根據(jù)一些公開(kāi)的視頻數(shù)據(jù)集和對(duì)監(jiān)控視頻的特點(diǎn)分析,把視頻異常分成5種類型:

        1)外觀異常

        這些異??梢员徽J(rèn)為是場(chǎng)景中不尋常的物體出現(xiàn).例如人行道上的騎自行車者,或馬路上的紙箱.檢測(cè)這些異常只需要檢查1幀視頻的局部區(qū)域.

        2)短期運(yùn)動(dòng)異常

        這些異??梢员徽J(rèn)為是場(chǎng)景中不尋常的物體運(yùn)動(dòng).例如一個(gè)人在圖書(shū)館跑步,或在軍事基地附近閑逛.檢測(cè)這些異常通常只需要在短時(shí)間內(nèi)檢查視頻的局部區(qū)域.外觀異常和短期運(yùn)動(dòng)異??梢赃M(jìn)一步稱為局部異常,因?yàn)樗鼈兙哂蓄~外的屬性.

        3)長(zhǎng)期軌跡異常

        這些異??梢员徽J(rèn)為是場(chǎng)景中不尋常的物體軌跡.例如在人行道上拐來(lái)拐去的人,或在車流中不斷加塞的汽車.檢測(cè)軌跡異常需要檢查較長(zhǎng)時(shí)間的視頻片段.

        4)群體異常

        群體異常可以被認(rèn)為是場(chǎng)景中不尋常的物體相互作用.比如一群人突然向四周跑動(dòng).檢測(cè)群體異常需要分析視頻中2個(gè)或多個(gè)區(qū)域之間的關(guān)系.

        5)時(shí)間異常

        這種異常與所有其他類型的異常是正交的.使這些活動(dòng)異常的是它們發(fā)生的時(shí)間.這些異常在本質(zhì)上與前面討論的位置相關(guān)異常非常相似,只是相關(guān)的上下文是時(shí)間而不是空間.舉個(gè)例子,人們?cè)诶杳鲿r(shí)分進(jìn)入游樂(lè)場(chǎng).通常,檢測(cè)這些異常只需要在一天的不同時(shí)間使用不同的正常狀態(tài)模型.

        1.2 關(guān)于視頻異常檢測(cè)的概述

        對(duì)于一個(gè)應(yīng)用來(lái)說(shuō),并不是所有這些不同類型的異常都需要檢測(cè).因此,視頻異常檢測(cè)進(jìn)一步依賴于所處環(huán)境.事實(shí)上,在我們所描述的用于檢測(cè)視頻異常的公開(kāi)數(shù)據(jù)集中,主要只有外觀異常和短期運(yùn)動(dòng)異常.我們還應(yīng)該注意到,不同類型的反?,F(xiàn)象并不相互排斥.實(shí)際上,很難找到上面列出的某些類型的示例.對(duì)于異常人們通常認(rèn)為是一個(gè)二分類場(chǎng)景,但實(shí)際上視頻中的異常是有連續(xù)性的,它要維持一定的時(shí)間.當(dāng)2個(gè)活動(dòng)相似時(shí),找到與我們的直覺(jué)概念相對(duì)應(yīng)的特征是創(chuàng)建較好的視頻異常檢測(cè)算法的關(guān)鍵.

        Wang等人[5]的工作把視頻異常檢測(cè)分為不同發(fā)展階段,以及每個(gè)階段分為一些具有共性的模型類型.Ramachandra等人[6]的工作從表示主題和方法評(píng)估給出了總結(jié).Sodemann等人[7]的綜述文獻(xiàn)是在深度學(xué)習(xí)興起的2012年之前寫(xiě)的,所以沒(méi)有把一些近幾年的重要工作包含進(jìn)去.2篇只關(guān)注基于深度學(xué)習(xí)的視頻異常檢測(cè)綜述[8-9],但是大量的過(guò)去的工作沒(méi)有利用深度學(xué)習(xí),都是用特征描述子去提取視頻特征.本文對(duì)過(guò)去一些經(jīng)典的工作和最近幾年的相關(guān)工作做了一個(gè)總結(jié).從視頻異常檢測(cè)的特征表示和模型構(gòu)建進(jìn)行分類和評(píng)估比較.

        2 視頻異常檢測(cè)方法分類

        從視頻的高級(jí)語(yǔ)義層面看,以往的視頻異常檢測(cè)工作可以分為基于距離的、基于概率的和基于重構(gòu)的3種方法[6].了解這些方法的工作原理以及它們之間細(xì)微的相似性和差異.我們回顧了在一些視頻異常檢測(cè)數(shù)據(jù)集上評(píng)估性能的代表性工作,同時(shí)也對(duì)該領(lǐng)域的重要成果進(jìn)行了一些分析.這些方法并不是相互排斥的,似乎以距離為基礎(chǔ)的方法很容易用概率解釋.基于圖1和圖2所示的視頻異常檢測(cè)背后的本質(zhì),我們進(jìn)一步根據(jù)它們所采用的特征表示和建模策略對(duì)方法進(jìn)行分類.

        2.1 基于特征表示的主題

        總體來(lái)說(shuō),視頻異常檢測(cè)方法使用了2類表示,手工制作的特征和以CNN為基礎(chǔ)的深度特征.手工特征包括時(shí)空梯度[10]、動(dòng)態(tài)紋理[11-12]、梯度直方圖(histogram of gradient, HOG)[13-14]、光流直方圖(histogram of optical flow, HOF)[15-16]、前景掩膜(foreground masks)[17-18].深度學(xué)習(xí)的特征表示方法是從一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)[19-23]提取特征,或者是優(yōu)化特定任務(wù)相關(guān)的異常檢測(cè),例如自編碼器(auto-encoder, AE)優(yōu)化重構(gòu)誤差[24-29].

        特征表示中的另一個(gè)考慮是異常檢測(cè)處理的原子單位.算法處理的原子單元從圖像塊(image patch)[15,17,27]到視頻塊(video patch)[2,9-11,13,15,21,25,27,29-36]再到單一完整的視頻幀[19,20,37-39]到多尺度固定大小的塊[17,27,40]再到任意大小的候選區(qū)域[41].

        2.2 檢測(cè)方法的建模

        視頻異常檢測(cè)方法有一些不同的建模方法,有使用one-class支持向量機(jī)(one-class support vector machine, OC SVM)[2,19,27,29].一些研究工作只關(guān)注視頻幀級(jí)異常定位,在大多數(shù)情況下,這意味著該目標(biāo)[15]已內(nèi)置于模型中,因此模型無(wú)法執(zhí)行足夠的空間定位[1,13,42-44].有些研究沒(méi)有特別說(shuō)明異常的位置依賴性[15,22,25,37].例如,使用完整幀或視頻片段作為原子處理單元的方法往往忽略了這一特性.這些方法無(wú)法區(qū)分在學(xué)校外閑逛和在學(xué)校旁邊的公園閑逛[1,13,44].另一些人用2種方式之一來(lái)解釋異常的位置特殊性:1)根據(jù)體素在視頻幀中的位置來(lái)給出異常得分[14,30-31,36];2)以來(lái)自鄰近體素的信息形式提供額外的上下文進(jìn)行評(píng)分[12,35,40].

        3 基于距離的方法

        基于距離的方法是使用訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建一個(gè)正常模型,并從這個(gè)模型中測(cè)量偏差來(lái)確定異常的分?jǐn)?shù).通常,這些模型本身非常簡(jiǎn)單,但是巧妙地表示會(huì)帶來(lái)良好的性能.以距離為基礎(chǔ)的方法可以被視為概率和基于重建的方法的一種更一般的形式.

        文獻(xiàn)[14]中作者以異常具有局部時(shí)空特征為前提,使其在局部正常數(shù)據(jù)的聯(lián)合概率分布下具有較低的可能性.他們提取交疊的固定大小的視頻塊,并用低級(jí)運(yùn)動(dòng)描述符表示它們.他們使用時(shí)空濾波器對(duì)這些表示進(jìn)行統(tǒng)計(jì),并計(jì)算每個(gè)訓(xùn)練和測(cè)試視頻中每個(gè)位置的視頻塊的K近鄰(K-nearest neighbor,K-NN)距離.然后,他們通過(guò)聚合加權(quán)的K-NN距離來(lái)計(jì)算一個(gè)綜合得分.對(duì)訓(xùn)練和測(cè)試視頻的所有視頻塊的綜合分?jǐn)?shù)進(jìn)行排序,進(jìn)而完成最終的檢測(cè).

        文獻(xiàn)[38]中作者從視頻片段中提取了一組社會(huì)力[45],HOG[46],HOF[47]和密集軌跡[48-49],使用線性徑向基函數(shù)(radial basis function, RBF)或多項(xiàng)式核來(lái)執(zhí)行異常檢測(cè).在文獻(xiàn)[27]中,Xu等人提出了使用學(xué)習(xí)表示與深度網(wǎng)絡(luò)進(jìn)行視頻異常檢測(cè)的首創(chuàng)方法.他們利用堆疊去噪自編碼器(denoising auto-encoders, DAE)的2種流(RGB和光流)在多尺度固定大小的重疊視頻塊上學(xué)習(xí)低維表示.然后,利用帶有RBF核的OC SVM[50]中DAE的潛在編碼,對(duì)異常檢測(cè)進(jìn)行分類.他們進(jìn)一步提出了2種方式來(lái)實(shí)現(xiàn)融合,分別是在特征表示階段和后面的異常得分階段.

        文獻(xiàn)[19]提出了利用預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)進(jìn)行視頻異常檢測(cè).這是使用單幀作為原子處理單元的方法之一,在每一幀上訓(xùn)練一個(gè)OC SVM,線性核是在VGG-f網(wǎng)絡(luò)中提取的深度特征上得到的[51].他們利用時(shí)空濾波器平滑評(píng)分圖,并通過(guò)將視頻分割成固定大小的視頻塊,簡(jiǎn)單地將異常分?jǐn)?shù)聚合到補(bǔ)丁區(qū)域來(lái)進(jìn)行定位.在文獻(xiàn)[26]中,作者首先將視頻分割成固定大小的小視頻塊.在級(jí)聯(lián)方案的第1階段,使用一個(gè)簡(jiǎn)單的2層稀疏自編碼器和嵌入弱高斯分類器拒絕正常塊.在第2階段,他們將剩下的小塊作為時(shí)空興趣點(diǎn),從其鄰域中提取較大的視頻塊,由一個(gè)更深層次的4層稀疏自編碼器組成,該自編碼器按照分層方式訓(xùn)練,并在潛在層中嵌入類似的弱高斯分類器.對(duì)于未分類成正常類的視頻塊,使用每個(gè)中間表示接收到的馬氏距離進(jìn)行打分,如果4個(gè)馬氏距離都大于一個(gè)閾值,則認(rèn)為是異常.

        文獻(xiàn)[28]中作者從訓(xùn)練視頻訓(xùn)練了一個(gè)簡(jiǎn)單的2層稀疏自編碼器重構(gòu)非重疊的固定尺寸視頻塊.他們認(rèn)為稀疏表示層是一個(gè)全局描述符.對(duì)于局部描述符,它們用一個(gè)結(jié)構(gòu)相似度度量向量[52]來(lái)表示每個(gè)patch對(duì)其時(shí)空鄰居的關(guān)系.通過(guò)計(jì)算馬氏距離來(lái)檢測(cè)異常,訓(xùn)練高斯估計(jì)函數(shù),并且只有特征表示和指定異常時(shí)的高斯分布有較大的馬氏距離時(shí)才確定異常.

        文獻(xiàn)[53]中提出了一種使用卷積贏者通吃自動(dòng)編碼器的方法[54],從固定尺寸的視頻塊的光流場(chǎng)中學(xué)習(xí)運(yùn)動(dòng)特征表示.然后,他們使用學(xué)習(xí)到的運(yùn)動(dòng)特征表示來(lái)構(gòu)建依賴位置的OC SVM來(lái)進(jìn)行異常評(píng)分.

        文獻(xiàn)[55]中作者提出了一種獨(dú)特的幾何方法來(lái)檢測(cè)異常.他們使用來(lái)自訓(xùn)練幀的密集軌跡來(lái)創(chuàng)建一個(gè)擴(kuò)展凸包的集合[56],在測(cè)試時(shí)使用多曲面包含測(cè)試來(lái)識(shí)別異常,推測(cè)使用它們到凸殼的距離來(lái)為單個(gè)軌跡打分.他們還聚類潛在的異常軌跡,以檢測(cè)異常區(qū)域和過(guò)濾出小的假陽(yáng)性檢測(cè).

        文獻(xiàn)[57]中作者使用生長(zhǎng)的Neural Gas[58]算法對(duì)從視頻片段或視頻塊中提取的STIP特征[59]建立了正常模型.他們認(rèn)為,過(guò)去的方法沒(méi)有充分處理不斷變化的場(chǎng)景,并提出以插入、刪除、學(xué)習(xí)率自適應(yīng)和停止標(biāo)準(zhǔn)的方式在線更新GNG模型.在GNG模型中,通過(guò)研究距離的分布,簡(jiǎn)單地判斷新模式是否與最近鄰存在顯著差異,就可以進(jìn)行檢測(cè).

        文獻(xiàn)[23]也使用了預(yù)先訓(xùn)練好的深度網(wǎng)絡(luò)的特征,但采用了2步級(jí)聯(lián)異常檢測(cè)方法.首先,作者從一個(gè)預(yù)先訓(xùn)練好的CNN中提取一個(gè)視頻片段的特征圖(feature map),并對(duì)訓(xùn)練數(shù)據(jù)上的特征圖進(jìn)行高斯估計(jì),評(píng)估其馬氏距離.在這個(gè)階段,他們通過(guò)簡(jiǎn)單地回滾特征圖中像素的接受域來(lái)生成分?jǐn)?shù)圖.對(duì)于那些馬氏距離在中間范圍的進(jìn)一步通過(guò)位置無(wú)關(guān)的裁剪特征映射到一個(gè)稀疏自編碼器,訓(xùn)練裁剪產(chǎn)生更多不同的特性,并使用一個(gè)近似高斯分布的假設(shè)區(qū)分異常.

        文獻(xiàn)[21]中作者提出了另一種預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)AlexNet,并從中提取圖像特征的方法[60].作者還提出了一種雙流模型,在外觀特征和光流場(chǎng)上運(yùn)行.利用CNN提取的特征,作者通過(guò)一個(gè)預(yù)先訓(xùn)練好的二分類全卷積網(wǎng)絡(luò)并使用迭代量化Hash[61]來(lái)為每一幀生成二進(jìn)制映射.然后作者開(kāi)發(fā)了一個(gè)時(shí)間CNN模式(temporal CNN pattern, TCP)度量,一個(gè)隨著時(shí)間變化的外觀特征的統(tǒng)計(jì)數(shù)量測(cè)量,2個(gè)流的融合產(chǎn)生了最終的異常分?jǐn)?shù)圖.

        文獻(xiàn)[29]提出了一種使用對(duì)抗性訓(xùn)練來(lái)檢測(cè)視頻異常的方法.他們使用一個(gè)判別器(discriminator, D)網(wǎng)絡(luò)來(lái)區(qū)分原始的圖像塊和由去噪自編碼器網(wǎng)絡(luò)(R)得到有噪聲的圖像塊的重構(gòu).由于R只在訓(xùn)練數(shù)據(jù)的圖像塊上進(jìn)行訓(xùn)練,所以它可以去除異常值,使得D可以很容易地從重構(gòu)的圖像塊中辨別出異常值.

        文獻(xiàn)[2]中作者提出了一種2階段異常檢測(cè)算法.他們從訓(xùn)練視頻中提取固定大小的視頻塊并添加位置、外觀(從預(yù)訓(xùn)練的CNN中提取特征圖)和運(yùn)動(dòng)信息(以3D梯度的形式).對(duì)于第1階段的檢測(cè),他們執(zhí)行k-means聚類和消除小聚類對(duì)應(yīng)的噪聲/異常值,以創(chuàng)建一個(gè)魯棒的表示.第2階段檢測(cè)是建立K個(gè)OC SVM(每簇一個(gè)),建立一個(gè)縮小的正常聚類模型,在測(cè)試時(shí)將這K個(gè)OC SVM下的一個(gè)測(cè)試塊的最大得分作為異常得分.

        文獻(xiàn)[24]中作者在文獻(xiàn)[2]工作的基礎(chǔ)上,將異常檢測(cè)問(wèn)題轉(zhuǎn)化為K個(gè)多類one-rest分類問(wèn)題.他們利用特征金字塔網(wǎng)絡(luò)[62]對(duì)作物進(jìn)行提取,對(duì)這些裁剪框的外觀和梯度特征進(jìn)行卷積自動(dòng)編碼器的訓(xùn)練,以學(xué)習(xí)潛在表示,然后進(jìn)行k-means聚類,訓(xùn)練K個(gè)OC SVM進(jìn)行二值單對(duì)剩余分類.在測(cè)試時(shí),他們簡(jiǎn)單地使用K個(gè)分類分?jǐn)?shù)最大值的倒數(shù)作為異常分?jǐn)?shù).它們不報(bào)告空間定位性能.

        文獻(xiàn)[18]中作者提出了2種基準(zhǔn)算法,以便將來(lái)在他們新發(fā)布的數(shù)據(jù)集Street Scene上進(jìn)行比較.他們使用簡(jiǎn)單的最近鄰位置相關(guān)的異常檢測(cè)方案,使用手工制作的視頻塊表示(光流場(chǎng)或模糊的前景掩模)和手工制作的距離測(cè)量(分別為L(zhǎng)1或L2歸一化體素方向的距離).通過(guò)從訓(xùn)練數(shù)據(jù)中構(gòu)建一個(gè)簡(jiǎn)潔的代表性范例模型,極大地減少了距離計(jì)算的次數(shù).有趣的是,這些簡(jiǎn)單的方法能夠在其他數(shù)據(jù)集上勝過(guò)以前的一些先進(jìn)的方法,這可能表明算法已經(jīng)發(fā)展出了針對(duì)特定數(shù)據(jù)集的傾向.

        文獻(xiàn)[30]中作者通過(guò)訓(xùn)練一個(gè)Siamese神經(jīng)網(wǎng)絡(luò)[63],將手工制作的表示和距離函數(shù)替換為學(xué)習(xí)的表示和距離函數(shù),建立了簡(jiǎn)單的最近鄰方案.Siamese網(wǎng)絡(luò)通過(guò)訓(xùn)練將視頻塊對(duì)分類為相似或不同,并用來(lái)找到與所有訓(xùn)練視頻塊不同的測(cè)試視頻塊,因此判定是異常的.從目標(biāo)數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)一個(gè)樣本模型(包含所有唯一的正常視頻塊).最后,使用經(jīng)過(guò)訓(xùn)練的Siamese網(wǎng)絡(luò)中的測(cè)試視頻塊和樣本之間的最近鄰居評(píng)分來(lái)為每個(gè)測(cè)試視頻塊分配異常評(píng)分.

        4 基于概率的方法

        概率方法是在一定的概率空間中計(jì)算模型下的估計(jì)值.這些方法通常旨在承認(rèn)建模到一個(gè)概率框架,如概率圖模型(probabilistic graphical models, PGMs)或概率分布的高維混合.

        文獻(xiàn)[36]中作者在攝像機(jī)框架上使用固定位置的監(jiān)視器,該監(jiān)控器有一個(gè)固定大小的存儲(chǔ)緩沖區(qū)用來(lái)存儲(chǔ)光流場(chǎng).當(dāng)給定相應(yīng)的監(jiān)視器緩沖,那些測(cè)試光流以低可能性呈現(xiàn),他們把模型作為一個(gè)柱狀圖觀測(cè)或使用核密度估計(jì)進(jìn)而認(rèn)定為異常.文獻(xiàn)[64]中作者介紹了首次利用社會(huì)力模型[45]的建模方法.他們?cè)谝曨l上放置一個(gè)粒子網(wǎng)格,并用來(lái)自視頻的光流來(lái)引導(dǎo)它們,估計(jì)社會(huì)力的相互作用,這大致是一個(gè)像素的光流和其附近的平均光流之間的差異.它的理念是,一個(gè)像素與其相鄰像素不同的原因是由于粒子之間的相互作用.這些社會(huì)力的相互作用被映射到成像平面上,從而產(chǎn)生一個(gè)稱為力流的映射.然后,他們?cè)诿總€(gè)視頻片段的隨機(jī)訓(xùn)練視頻塊上創(chuàng)建一個(gè)潛在的狄里克雷分配(latent Dirichlet allocation, LDA)[65]詞袋模型(其中單詞是力流的時(shí)空區(qū)域),并在模型下將檢測(cè)低似然幀作為異常,通過(guò)簡(jiǎn)單地檢測(cè)高力流區(qū)域來(lái)實(shí)現(xiàn)定位.

        文獻(xiàn)[43]中作者通過(guò)簡(jiǎn)單的背景減除計(jì)算每個(gè)像素的二值運(yùn)動(dòng)標(biāo)簽.利用每個(gè)像素點(diǎn)周圍的時(shí)空鄰域計(jì)算正常數(shù)據(jù)的運(yùn)動(dòng)標(biāo)簽表示的共現(xiàn)統(tǒng)計(jì)量,并利用共現(xiàn)矩陣作為Markov隨機(jī)場(chǎng)的勢(shì)函數(shù),通過(guò)似然比測(cè)試進(jìn)行異常檢測(cè).文獻(xiàn)[34]中作者用時(shí)空梯度表示視頻.他們使用多元高斯函數(shù)來(lái)建模視頻塊的分布,并用混合高斯函數(shù)來(lái)表示視頻幀中給定位置的視頻塊的分布.最后,他們使用一個(gè)耦合的隱Markov模型來(lái)合并視頻塊之間的時(shí)空相關(guān)性的影響[66].

        文獻(xiàn)[35]的混合物,將每個(gè)視頻片段表示為圖中的1個(gè)節(jié)點(diǎn).作者通過(guò)計(jì)算測(cè)試時(shí)正常的最大后驗(yàn)估計(jì)來(lái)檢測(cè)異常,還展示了模型是如何不斷更新以適應(yīng)環(huán)境變化和概念漂移的.文獻(xiàn)[11]中作者提出通過(guò)訓(xùn)練視頻塊學(xué)習(xí)混合動(dòng)態(tài)紋理(mixture of dynamic textures, MDT)[67-68],并在更大的區(qū)域共享混合紋理.作者檢測(cè)異常的方式,就像鑒別顯著性標(biāo)準(zhǔn)所給出的那些具有高中心-環(huán)繞顯著性的區(qū)域[69]一樣.文獻(xiàn)[12]中作者建立在MDT表示的基礎(chǔ)上,使用條件隨機(jī)場(chǎng)[70]框架從多個(gè)尺度整合時(shí)空異常分?jǐn)?shù).

        文獻(xiàn)[17]的作者使用了一個(gè)相當(dāng)獨(dú)特的前提,通過(guò)使用從訓(xùn)練數(shù)據(jù)中獲得的信息來(lái)解釋測(cè)試數(shù)據(jù)中的正常模式,間接地進(jìn)行異常檢測(cè).他們尋求一種視頻分析方法,同時(shí)發(fā)現(xiàn)前景目標(biāo)假說(shuō),共同解釋前景在一個(gè)框架和那些匹配的正常樣本假說(shuō).那些在測(cè)試時(shí)需要解釋前景但與正常訓(xùn)練數(shù)據(jù)中的樣本假設(shè)不匹配的對(duì)象假設(shè)是不正常的.文獻(xiàn)[40]中作者通過(guò)考慮靈活的視頻管道而不僅僅是圖像塊樣式的對(duì)象假設(shè)進(jìn)一步建立了這個(gè)想法.文獻(xiàn)[16]用k-means聚類形成碼本,檢測(cè)到距離第k個(gè)最近鄰居距離大的局部異常.對(duì)于全局異常,作者考慮STIP特征的集合來(lái)構(gòu)建交互模板的高級(jí)碼本,并用RBF核為每個(gè)模型構(gòu)建高斯過(guò)程回歸(Gaussian process regression, GPR)模型[71].然后,作者將第k個(gè)最鄰近的GPR模型下的低似然測(cè)試集指定為異常.

        文獻(xiàn)[20]中作者提出了一種獨(dú)特的方法來(lái)敘述被檢測(cè)到的異常事件.作者首先訓(xùn)練一個(gè)Fast-RCNN[72]模型來(lái)預(yù)測(cè)大規(guī)模分類數(shù)據(jù)集COCO[73]和視覺(jué)基因組[74]圖像數(shù)據(jù)集中的對(duì)象、動(dòng)作和屬性類.然后對(duì)每一幀從倒數(shù)第2層全連接層提取感興趣區(qū)域的特征,并利用與訓(xùn)練樣本的最近鄰距離、基于RBF核的OC SVM或基于RBF核密度估計(jì)的似然值進(jìn)行異常檢測(cè).通過(guò)簡(jiǎn)單地觀察對(duì)象、動(dòng)作和屬性類的最大預(yù)測(cè)來(lái)進(jìn)行.

        文獻(xiàn)[75]從正常圖像塊的3維梯度中提取深層特征表示.然后,作者使用深層GMM[76-77]來(lái)建模正常模式的生成過(guò)程,最大化對(duì)數(shù)似然的下限.深度GMM模型簡(jiǎn)單地產(chǎn)生測(cè)試模式的似然分?jǐn)?shù),用作異常分?jǐn)?shù).

        5 基于重構(gòu)的方法

        視頻異常檢測(cè)領(lǐng)域,重構(gòu)方法的目的是將輸入視頻幀進(jìn)行特征提取和分解,然后將它們重新組合起來(lái)以重構(gòu)輸入.原理是基于這樣一個(gè)前提:與分布內(nèi)的正常數(shù)據(jù)相比,分布外的輸入(如異常)在本質(zhì)上更難重建,因此證明使用重構(gòu)誤差作為異常分?jǐn)?shù)的判別是合理的.

        文獻(xiàn)[13]中作者訓(xùn)練了一個(gè)卷積自編碼器以像素級(jí)L2損失重構(gòu)訓(xùn)練視頻片段.在測(cè)試視頻片段重構(gòu)誤差,標(biāo)準(zhǔn)化每個(gè)視頻序列,作為視頻序列的異常分?jǐn)?shù),視頻序列不執(zhí)行空間定位,關(guān)注的是時(shí)間定位.通過(guò)幾個(gè)數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)作者還訓(xùn)練了一個(gè)通用的自編碼器,并顯示出良好的泛化性能.

        文獻(xiàn)[25]中作者在文獻(xiàn)[13]中卷積自編碼器架構(gòu)之上,通過(guò)卷積保持幀的時(shí)序順序,并在瓶頸層使用專門的convolutional LSTM[78]層對(duì)時(shí)序信息建模,得到了時(shí)空特征信息.文獻(xiàn)[37]中作者嘗試首次使用生成對(duì)抗網(wǎng)絡(luò)(GANs)[79]進(jìn)行視頻異常檢測(cè).作者訓(xùn)練了2種條件GANs,將其(x,z)幀和噪聲向量對(duì)作為輸入,并生成一個(gè)不同模態(tài)的對(duì)應(yīng)幀y(在2個(gè)GANs上,作者使用原始幀到光流,反之亦然).判別器對(duì)(x,y)幀的真實(shí)或虛假給出表示.假設(shè)異常不能很好地重構(gòu),則融合2種模式的重構(gòu)誤差,將光流誤差加權(quán)設(shè)為原始視頻幀的2倍,并對(duì)每個(gè)視頻進(jìn)行歸一化,實(shí)現(xiàn)異常的檢測(cè)評(píng)分和像素級(jí)定位.

        文獻(xiàn)[80]中作者使用限制玻爾茲曼機(jī)(restricted Boltzmann machines, RBMs)[81]對(duì)固定大小的原始視頻塊進(jìn)行特征學(xué)習(xí)和重構(gòu),在測(cè)試階段,結(jié)合從不同金字塔層級(jí)和重疊視頻塊的重構(gòu)誤差,得到一個(gè)異常分?jǐn)?shù).文獻(xiàn)[3]中作者認(rèn)為對(duì)于異?;顒?dòng),預(yù)測(cè)視頻片段的未來(lái)幀要比預(yù)測(cè)正常的幀更難,因此設(shè)計(jì)了一個(gè)未來(lái)幀預(yù)測(cè)框架.作者訓(xùn)練了一個(gè)U-net樣式的網(wǎng)絡(luò)[82],網(wǎng)絡(luò)以長(zhǎng)度為t的訓(xùn)練視頻片段為輸入,并預(yù)測(cè)時(shí)間為t+1的未來(lái)幀.此外,作者使用Flow Net[83]估計(jì)時(shí)刻t的幀與時(shí)刻t+1的真實(shí)幀或重構(gòu)幀之間的光流映射對(duì).重構(gòu)的光流圖、像素強(qiáng)度梯度和方向梯度之間的L1損失,以及在時(shí)刻t+1區(qū)分真實(shí)幀和重構(gòu)幀的對(duì)抗損失,然后對(duì)每個(gè)視頻的誤差進(jìn)行歸一化,形成它們的異常分?jǐn)?shù).

        文獻(xiàn)[84]中作者通過(guò)在一個(gè)雙流模型中學(xué)習(xí)共同對(duì)象的外觀及其相關(guān)運(yùn)動(dòng)的對(duì)應(yīng)關(guān)系來(lái)解決這個(gè)問(wèn)題.使用單一幀作為輸入,使用一個(gè)與預(yù)測(cè)運(yùn)動(dòng)的U-net解碼器以及由重構(gòu)誤差損失項(xiàng)控制的重構(gòu)輸入幀的反卷積解碼器耦合,構(gòu)成單一編碼器.作者認(rèn)為整個(gè)網(wǎng)絡(luò)是條件型GAN中的生成器,其中判別器是另一個(gè)小網(wǎng)絡(luò),用于區(qū)分輸入幀和相應(yīng)的由二值分類損失控制的真實(shí)/估計(jì)流場(chǎng).作者以交替的方式優(yōu)化這個(gè)cGAN框架.對(duì)于測(cè)試幀,作者計(jì)算塊級(jí)上的損失分?jǐn)?shù),并使用每個(gè)視頻的歸一化分?jǐn)?shù)作為最終幀級(jí)異常得分.文獻(xiàn)[85]中作者認(rèn)為過(guò)去的基于重構(gòu)的方法在很大程度上是在底層特征上操作的.作者試圖通過(guò)僅對(duì)抽象特征執(zhí)行異常檢測(cè)來(lái)解決這個(gè)問(wèn)題.首先,作者在原始視頻片段和相應(yīng)的光流場(chǎng)訓(xùn)練去噪自編碼器.然后,作者在多個(gè)層提取特征表示,并訓(xùn)練類似于文獻(xiàn)[37]中的條件GANs.最后,作者將來(lái)自多個(gè)層次的重構(gòu)誤差映射合并在一起,得到每一幀的一致性得分圖.在文獻(xiàn)[86]中,作者認(rèn)為預(yù)測(cè)和重構(gòu)可以結(jié)合起來(lái),利用兩者的優(yōu)勢(shì),平衡兩者的劣勢(shì).作者試圖通過(guò)創(chuàng)建一個(gè)生成器,操作視頻片段組成的2個(gè)連續(xù)U-net架構(gòu),第1個(gè)預(yù)測(cè)一個(gè)生成的中間幀,用第2個(gè)預(yù)測(cè)不久的將來(lái)幀,通過(guò)在強(qiáng)度和梯度模式最小化重構(gòu)誤差訓(xùn)練端到端網(wǎng)絡(luò).作者還在ground truth future和predicted future幀對(duì)上或在一個(gè)類似Patch GAN[78]的更精細(xì)的網(wǎng)絡(luò)上使用了對(duì)抗損失.

        通過(guò)以上3種方法的分類和比較,本文把一些經(jīng)典的方法的特點(diǎn)進(jìn)行了提煉,并對(duì)使用的特征表示或所用模型給出了分析.以表格形式把3種方法和其所使用的建模方法進(jìn)行了匯總.在表1中對(duì)某一個(gè)方法從特征表示和建模2個(gè)維度進(jìn)行劃分,在每一個(gè)分類中,又包含了具體的方法,屬于基于距離、概率和重構(gòu)3種之中的某一種.方便研究者根據(jù)具體的研究問(wèn)題,從中選擇合適的特征表示和建模策略.

        Table 1 Approaches Grouping by Representation and Modeling Strategies Taken

        6 常用數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)

        6.1 數(shù)據(jù)集

        基準(zhǔn)數(shù)據(jù)集對(duì)計(jì)算機(jī)視覺(jué)中任何問(wèn)題的研究都起著重要的作用.基準(zhǔn)數(shù)據(jù)集有助于定義問(wèn)題的范圍,并提供了一種方法來(lái)公平地比較不同算法的特征.對(duì)于視頻異常檢測(cè),有一些公共可用的常用基準(zhǔn)數(shù)據(jù)集.根據(jù)ground truth標(biāo)注的風(fēng)格、大小和數(shù)據(jù)集的總體效用提供建議.表2提供了這些數(shù)據(jù)集的特征信息.

        Table 2 Characteristics of Video Anomaly Detection Datasets

        監(jiān)控視頻常用檢測(cè)數(shù)據(jù)集有5個(gè):

        1)Subway數(shù)據(jù)集[36].包含地鐵站的入口(Subway entrance)和地鐵站出口(Subway exit)兩個(gè)視頻文件,異常事件主要有逃票、錯(cuò)誤的方向、徘徊等.

        2)UCSD數(shù)據(jù)集[11].包含Ped1和Ped2兩個(gè)子數(shù)據(jù)集.數(shù)據(jù)集中的異常事件有騎自行車的人、滑板、手推車、汽車等.

        3)CUHK Avenue數(shù)據(jù)集[10].有21個(gè)視頻序列,異常事件包括跑、扔書(shū)包、扔文件、徘徊等.

        4)UMN數(shù)據(jù)集[86].共有3個(gè)場(chǎng)景,在每個(gè)場(chǎng)景中,是以正常的狀態(tài)開(kāi)始,人突然向四周跑動(dòng)為異常事件.

        5)Street Scene數(shù)據(jù)集[18].是一個(gè)較新的數(shù)據(jù)集,包含46個(gè)訓(xùn)練片段和35個(gè)測(cè)試片段,分辨率為1 280×720,是采集自包含自行車道和人行道的雙行道場(chǎng)景.數(shù)據(jù)集很有挑戰(zhàn)性,因?yàn)榘l(fā)生了各種各樣的活動(dòng),例如汽車駕駛、轉(zhuǎn)彎、停車、步行、慢跑和推嬰兒車的行人,還有騎自行車的人.此外,視頻還包括變化的陰影、移動(dòng)的背景,如旗幟和在風(fēng)中飄揚(yáng)的樹(shù)木以及樹(shù)木和大型車輛造成的遮擋.異常包括橫穿馬路和非法掉頭以及在訓(xùn)練集中不會(huì)發(fā)生的事情,例如遛寵物和1名交警給1輛汽車開(kāi)罰單.

        6.2 評(píng)估標(biāo)準(zhǔn)

        一般而言,異常是與場(chǎng)景相關(guān)的,是否是異常完全由測(cè)試時(shí)發(fā)生的活動(dòng)決定的,但是在訓(xùn)練集(定義正?;顒?dòng)的樣本集)中缺失了這些活動(dòng).此外,雖然異常是一個(gè)流動(dòng)的概念,但真實(shí)標(biāo)注在本質(zhì)上是二元的.確定訓(xùn)練視頻中缺少哪些活動(dòng)通常會(huì)導(dǎo)致歧義.例如,訓(xùn)練視頻中可能會(huì)出現(xiàn)2個(gè)人并排走在人行道上,四五個(gè)人手牽手走在路上的情況.后者應(yīng)該被標(biāo)記為異常嗎?異常從哪一幀開(kāi)始?應(yīng)該把包括2名行人在內(nèi)的整個(gè)區(qū)域標(biāo)記為不正常,還是只在牽手區(qū)域周圍標(biāo)示一個(gè)緊密區(qū)域?這個(gè)任務(wù)的每個(gè)數(shù)據(jù)集和標(biāo)注都是不完美的,并且會(huì)存在類似這樣的歧義.在理想的情況下,對(duì)于比較細(xì)微的一些姿態(tài)和動(dòng)作變化,評(píng)估措施將嘗試在實(shí)踐中不可避免的模糊性的標(biāo)簽給出一個(gè)現(xiàn)實(shí)的定性算法.

        6.2.1 傳統(tǒng)標(biāo)準(zhǔn)

        從大量先前的工作來(lái)看,這一領(lǐng)域的研究使用幀級(jí)和像素級(jí)曲線下面積(area under the curve, AUC)標(biāo)準(zhǔn)來(lái)評(píng)估性能,文獻(xiàn)[11]首次描述了這一標(biāo)準(zhǔn),同時(shí)也提出了UCSD行人數(shù)據(jù)集.在文獻(xiàn)[11]中,作者沒(méi)有充分描述評(píng)價(jià)措施.具體地說(shuō),作者將幀中檢測(cè)到的真正異常像素至少為40%的幀定義為真陽(yáng)性,否則定義為假陽(yáng)性.在文獻(xiàn)[12]中,作者澄清了假陽(yáng)性只能被計(jì)算在不包含任何異常注釋的幀中,也就是說(shuō),在有異常的幀中檢測(cè)到的像素少于40%時(shí),不應(yīng)該計(jì)算為假陽(yáng)性.這一澄清大大減少了誤報(bào)的數(shù)量.我們認(rèn)為一些早期的工作可能在對(duì)這個(gè)評(píng)估指標(biāo)的錯(cuò)誤解讀下給出了結(jié)果,導(dǎo)致被報(bào)告的像素級(jí)AUC值較低.

        幀級(jí)標(biāo)準(zhǔn).檢測(cè)到的幀指定為得分大于給定異常分?jǐn)?shù)閾值的幀中至少有一個(gè)像素的幀.如果檢測(cè)到的幀根據(jù)ground truth判別為異常,則視為真陽(yáng)性,反之視為假陽(yáng)性.陽(yáng)性和陰性的總數(shù)由幀級(jí)標(biāo)注決定,并用于計(jì)算真陽(yáng)性和假陽(yáng)性率.幀級(jí)標(biāo)準(zhǔn)不能評(píng)估是否已經(jīng)實(shí)現(xiàn)了足夠的空間定位,只是對(duì)某一時(shí)段提供了是否有異常.

        像素級(jí)標(biāo)準(zhǔn).檢測(cè)值為得到的異常分?jǐn)?shù)大于給定異常分?jǐn)?shù)閾值的幀內(nèi)所有像素.如果在1幀中檢測(cè)到超過(guò)40%為異常標(biāo)注像素,那么就會(huì)計(jì)算為異常.如果1幀沒(méi)有異常標(biāo)注,即使檢測(cè)到1個(gè)像素,也算假陽(yáng)性.在這個(gè)標(biāo)準(zhǔn)下,即使考慮了空間定位,真陽(yáng)性和假陽(yáng)性的計(jì)數(shù)仍然在幀級(jí)別上.陽(yáng)性和陰性的總數(shù)與幀級(jí)標(biāo)準(zhǔn)一樣.這會(huì)產(chǎn)生4方面的影響:

        1)即使1個(gè)幀中存在多個(gè)異常,有可能計(jì)算了1個(gè)異常,40%的閾值適用于1幀中所有帶標(biāo)注的像素;

        2)1個(gè)包含異常標(biāo)注的幀不被認(rèn)為是假陽(yáng)性,無(wú)論該幀中是否出現(xiàn)錯(cuò)誤檢測(cè);

        3)即使幀中有多個(gè)不同的檢測(cè)區(qū)域,沒(méi)有異常標(biāo)注的幀只能判斷為1個(gè)假陽(yáng)性;

        4)該準(zhǔn)則不懲罰松散的檢測(cè).也就是說(shuō),只要檢測(cè)到40%的標(biāo)注像素,將檢測(cè)掩膜更改為整個(gè)幀并不會(huì)影響性能.

        通過(guò)改變異常值的臨界值,可以得到假陽(yáng)性率與真陽(yáng)性率的ROC曲線.ROC曲線下面積(AUC)或等錯(cuò)誤率(equal error rate, EER)用于刻畫(huà)ROC曲線.

        一個(gè)方法的幀級(jí)AUC在像素級(jí)AUC上施加了一個(gè)上限.文獻(xiàn)[30]的作者觀察,上面的2)和3)點(diǎn)承認(rèn)一個(gè)簡(jiǎn)單的后處理步驟,使得進(jìn)行像素級(jí)AUC完全達(dá)到上限:擴(kuò)張檢測(cè)掩膜與相同大小的一個(gè)過(guò)濾器框架(即如果在1幀里1個(gè)像素檢測(cè)到異常,使得該幀所有像素異常).這只能提高檢測(cè)率,而不改變根據(jù)像素級(jí)準(zhǔn)則的假陽(yáng)性率.雖然這些標(biāo)準(zhǔn)可以用于對(duì)不同的視頻異常檢測(cè)算法進(jìn)行排序,但它們現(xiàn)在已經(jīng)飽和于較小的數(shù)據(jù)集(在過(guò)去幾年幀級(jí)AUC在UMN數(shù)據(jù)集上多次大于99%),顯然存在嚴(yán)重的缺陷.

        6.2.2 一些新標(biāo)準(zhǔn)

        隨著對(duì)數(shù)據(jù)評(píng)估準(zhǔn)確性和全面性的考慮,一些研究人員已經(jīng)認(rèn)識(shí)到幀級(jí)和像素級(jí)標(biāo)準(zhǔn)的缺陷,一些研究人員試圖提出新的標(biāo)準(zhǔn)來(lái)解決這些問(wèn)題.文獻(xiàn)[26]的作者提出了雙像素級(jí)判據(jù),該判據(jù)為像素級(jí)判據(jù)增加了額外的約束.除了所述檢測(cè)像素需要覆蓋至少40%的標(biāo)注的異常像素外,所述檢測(cè)像素的至少10%需要被標(biāo)注為異常的像素覆蓋.換句話說(shuō),檢測(cè)到的像素不能包含太多的正常像素(從而阻止了上述后處理濾波的幫助).雖然這是一種改進(jìn),但在多個(gè)異常、真陽(yáng)性和假陽(yáng)性檢測(cè)以及多個(gè)假陽(yáng)性檢測(cè)的幀中,仍然不能正確計(jì)算真陽(yáng)性和假陽(yáng)性.文獻(xiàn)[87]的作者也意識(shí)到像素級(jí)準(zhǔn)則是有缺陷的,并使用目標(biāo)檢測(cè)風(fēng)格的交并比(intersection over union, IOU)來(lái)懲罰對(duì)CUHK Avenue數(shù)據(jù)集的檢測(cè)的變化.這并沒(méi)有解決真陽(yáng)性或假陽(yáng)性多次計(jì)數(shù)的問(wèn)題.此外,由于標(biāo)注格式的差異,他們不能在其他數(shù)據(jù)集上使用這個(gè)基于IOU的標(biāo)準(zhǔn).

        文獻(xiàn)[30]的作者提出了2個(gè)新的標(biāo)準(zhǔn),基于區(qū)域的和基于軌跡的,以取代以前的標(biāo)準(zhǔn).新的標(biāo)準(zhǔn)為算法在實(shí)踐中的表現(xiàn)提供了更為現(xiàn)實(shí)的情形.他們提出觀點(diǎn),評(píng)估方案應(yīng)該設(shè)計(jì)成這樣一種方式,以考慮到任何異常檢測(cè)數(shù)據(jù)集中可能出現(xiàn)的歧義、偏差和不一致.為了修復(fù)舊標(biāo)準(zhǔn)的問(wèn)題,他們基本上采取了2個(gè)步驟.

        1)通過(guò)提出一種松散目標(biāo)檢測(cè)風(fēng)格的IOU標(biāo)準(zhǔn)來(lái)判斷空間定位,解釋了異常事件標(biāo)注和檢測(cè)中固有的模糊性.另外,基于軌跡的準(zhǔn)則只要求在異常軌跡中檢測(cè)到固定百分比幀的異常.

        2)把原子檢測(cè)的真陽(yáng)性和假陽(yáng)性計(jì)算在內(nèi),而不是按照原子來(lái)計(jì)算幀.這意味著在他們的標(biāo)準(zhǔn)下,一幀可以有不止一個(gè)真陽(yáng)性或假陽(yáng)性結(jié)果,這符合基本直覺(jué).

        基于區(qū)域的標(biāo)準(zhǔn).檢測(cè)值為所有大于給定異常分?jǐn)?shù)閾值的像素.被檢測(cè)區(qū)域是被檢測(cè)像素的連接部分.如果檢測(cè)區(qū)域具有IOU至少為β的ground truth邊界框,則為真陽(yáng)性.對(duì)于每一個(gè)檢測(cè)到的不滿足任意ground truth邊界框的IOU為β的區(qū)域,是一個(gè)假陽(yáng)性.此外,通過(guò)跨越多個(gè)ground truth邊界框,一個(gè)被檢測(cè)區(qū)域可能占到多個(gè)真陽(yáng)性計(jì)數(shù),但一個(gè)ground truth邊界框可能只占一個(gè)真陽(yáng)性計(jì)數(shù).為了解釋空間標(biāo)注的歧義,以及單個(gè)檢測(cè)區(qū)域可能跨越多個(gè)邊界框標(biāo)注的事實(shí),文獻(xiàn)[30]作者建議將β設(shè)置為較低值0.1,這似乎在現(xiàn)有數(shù)據(jù)集的實(shí)踐中表現(xiàn)得很好.檢測(cè)率的計(jì)算方法為真陽(yáng)性的數(shù)量除以ground truth標(biāo)注的邊界框的數(shù)量.每幀的假陽(yáng)性率計(jì)算為總假陽(yáng)性率除以測(cè)試幀數(shù).

        基于軌跡的標(biāo)準(zhǔn).對(duì)于基于區(qū)域的判斷,檢測(cè)區(qū)域定義為異常分?jǐn)?shù)超過(guò)閾值的像素的連通分量.如果所述異常軌跡中的大于α%的異常標(biāo)注與高維空間IOU為至少β的檢測(cè)區(qū)域重疊,則檢測(cè)出異常標(biāo)注的軌跡.假陽(yáng)性與基于區(qū)域的標(biāo)準(zhǔn)一樣,即檢測(cè)到的區(qū)域與任何ground truth邊界框不重疊.基于軌跡標(biāo)準(zhǔn)的檢測(cè)率為成功檢測(cè)到標(biāo)注的異常軌跡的比例.與基于區(qū)域的標(biāo)準(zhǔn)一樣,每一幀都會(huì)計(jì)算誤報(bào).作者建議在最初設(shè)置α=10來(lái)解釋時(shí)間標(biāo)注中的歧義.這個(gè)標(biāo)準(zhǔn)是目前最能反映真實(shí)世界異常檢測(cè)性能的準(zhǔn)則.另一個(gè)不錯(cuò)的特性是,當(dāng)這項(xiàng)措施開(kāi)始飽和于現(xiàn)有的數(shù)據(jù)集和研究轉(zhuǎn)移到更嚴(yán)格的數(shù)據(jù)集時(shí),用于報(bào)告結(jié)果的數(shù)據(jù)分析可以增加.由于假陽(yáng)性是按幀計(jì)算的,所以這2種標(biāo)準(zhǔn)的最大可能假陽(yáng)性率都可能超過(guò)1.0.文獻(xiàn)[30]建議通過(guò)計(jì)算每幀假陽(yáng)性率(從0~1.0)來(lái)總結(jié)ROC曲線.使用這些新標(biāo)準(zhǔn)的結(jié)果是,作者為UCSD Ped1,UCSD Ped2,CUHK Avenue,Street Scene數(shù)據(jù)集提供了具有獨(dú)特異常IDs的邊界框標(biāo)注和軌跡IDs.

        最后,人們還應(yīng)該考慮到AUC這樣的度量方法只提供了對(duì)性能的一個(gè)狹隘觀點(diǎn)的總結(jié),并且有很多缺點(diǎn).鑒于這些原因,研究人員應(yīng)對(duì)檢測(cè)結(jié)果提供定性分析和可視化.特別重要的是用不同方法預(yù)測(cè)的假陽(yáng)性的質(zhì)量,如果沒(méi)有視覺(jué)檢查是無(wú)法捕捉的.一種在測(cè)試數(shù)據(jù)中產(chǎn)生假陽(yáng)性結(jié)果的方法與另一種產(chǎn)生貌似隨機(jī)的假陽(yáng)性結(jié)果的方法(訓(xùn)練數(shù)據(jù)中不存在這種情況)相對(duì)應(yīng),當(dāng)其他數(shù)值測(cè)量比如AUC在它們之間具有可比性時(shí).在3個(gè)常用數(shù)據(jù)集上的傳統(tǒng)評(píng)估標(biāo)準(zhǔn)如表3所示,基于軌跡和基于區(qū)域的新評(píng)估標(biāo)準(zhǔn)如表4和表5所示.

        Table 3 Traditional Evaluation Criteria on the UCSD Ped1,USD Ped2 and CUHK Avenue Datasets

        Table 4 Track Region-Based Area Under the ROC Curve for False Positive Rate up to 1.0 on 3 Datasets

        Table 5 Track-Based, Region-Based, Pixel-Level, and Frame-Level AUC on Street Scene

        7 總結(jié)與展望

        本文對(duì)基于監(jiān)控視頻的異常檢測(cè)及建模研究進(jìn)行了綜述.我們建立了一個(gè)直觀的分類,并將過(guò)去的研究工作相互關(guān)聯(lián).同時(shí),本文也希望能夠理清不同問(wèn)題方案、數(shù)據(jù)集使用、評(píng)估標(biāo)準(zhǔn)之間的一些誤解以及如何比較使用相容問(wèn)題方案和評(píng)估標(biāo)準(zhǔn)的假設(shè)方法.為以后的研究做一些參考,我們提供了一份該領(lǐng)域經(jīng)典工作在各種數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn)上的表現(xiàn),如表3~5中的匯總.我們現(xiàn)在提供了一些好的實(shí)踐,并闡述了該領(lǐng)域在表示和建模方面的總體趨勢(shì)的一些觀察結(jié)果,因?yàn)樗鼈兣c數(shù)據(jù)集規(guī)模的增加和設(shè)備計(jì)算能力的增強(qiáng)有關(guān).

        7.1 表示的趨勢(shì)

        視頻異常檢測(cè)算法的輸入表示主要以原始的、固定大小的圖像塊為主.一些異常需要分析時(shí)間信息,因此研究人員轉(zhuǎn)向使用視頻塊,這需要更多的計(jì)算能力.最近,研究人員已經(jīng)開(kāi)始使用視頻塊的多模態(tài)表示,使用原始幀以及估計(jì)光流場(chǎng)到現(xiàn)在的端到端深度學(xué)習(xí)方法自動(dòng)提取特征.有些方法甚至試圖利用GPU的先進(jìn)計(jì)算能力來(lái)使用整個(gè)幀和視頻片段作為輸入.我們預(yù)計(jì),隨著在原始視頻上使用3D和膨脹的3D卷積(放棄昂貴的光流場(chǎng)計(jì)算),輸入表示的復(fù)雜性增加趨勢(shì)將會(huì)逆轉(zhuǎn),這在視頻動(dòng)作識(shí)別中已經(jīng)很流行[90].

        7.2 模型的趨勢(shì)

        隨著技術(shù)的發(fā)展,建模的趨勢(shì)有所不同.首先,研究人員使用非常簡(jiǎn)單的手工制作的特征,這些特征的分布可以通過(guò)簡(jiǎn)單的假設(shè)很好地建模.不久,研究人員通過(guò)更復(fù)雜的模型、更復(fù)雜的假設(shè)和許多巧妙的工程設(shè)計(jì),取得了更好的結(jié)果.最近,這一趨勢(shì)發(fā)生了逆轉(zhuǎn),人們更多地依賴于從數(shù)據(jù)中學(xué)習(xí)內(nèi)在表示,從而更直接地優(yōu)化一種巧妙設(shè)置的優(yōu)化方案和優(yōu)雅的建模方法.我們預(yù)計(jì)這種數(shù)據(jù)主導(dǎo)的趨勢(shì)將繼續(xù)下去,特別是當(dāng)更大、更復(fù)雜的數(shù)據(jù)集變的可用時(shí).

        7.3 展 望

        一方面,視頻異常檢測(cè)的研究已經(jīng)取得了長(zhǎng)足的進(jìn)展;另一方面,以往的研究也忽視了視頻異常檢測(cè)中一些更具有挑戰(zhàn)性的問(wèn)題.在現(xiàn)有的數(shù)據(jù)集中,徘徊類型的異常并沒(méi)有在具體的建模中被解決.事實(shí)上,大多數(shù)過(guò)去的方法都無(wú)法檢測(cè)到這類異常,因?yàn)樗鼈儑?yán)重依賴于運(yùn)動(dòng)軌跡而忽略了視頻的處理部分.研究一種算法,以保留任何最新技術(shù)的優(yōu)點(diǎn),同時(shí)也能夠檢測(cè)徘徊異常,這是一個(gè)成熟的貢獻(xiàn)領(lǐng)域.視頻異常檢測(cè)方法的另一個(gè)挑戰(zhàn)是處理罕見(jiàn)但正常活動(dòng)的能力.這種活動(dòng)在正常的訓(xùn)練視頻中可能很少出現(xiàn),經(jīng)常導(dǎo)致假陽(yáng)性異常檢測(cè).這類活動(dòng)的一個(gè)例子是一個(gè)行人停下來(lái)系鞋帶.這種情況可能不會(huì)經(jīng)常發(fā)生,而且當(dāng)異常檢測(cè)器發(fā)出警報(bào)時(shí),保安可能不希望它發(fā)出警報(bào).所以從正常視頻中學(xué)到的模型應(yīng)該不僅包括最常見(jiàn)的正?;顒?dòng),也包括罕見(jiàn)的正?;顒?dòng).

        在異常的類型方面,異常的群組、軌跡和時(shí)間在很大程度上還沒(méi)有被處理,因?yàn)榘@些異常的數(shù)據(jù)集還不存在.我們期待其他研究人員在不久的將來(lái)貢獻(xiàn)具有這些特性的數(shù)據(jù)集.隨著研究人員從注重規(guī)模較小、不那么復(fù)雜數(shù)據(jù)集的精度變得飽和到更大、更復(fù)雜的數(shù)據(jù)集和更多種類的異常類型,他們將被推到發(fā)明新的視頻表示,新模型可以實(shí)現(xiàn)高檢測(cè)率低誤判率為實(shí)際應(yīng)用服務(wù).

        為了提高視頻異常檢測(cè)的效率,多種方式的檢測(cè)方法可能會(huì)出現(xiàn),其中一種新型的檢測(cè)方法是人機(jī)協(xié)作模式,人參與少量的反饋,使得檢測(cè)模型更新,并且對(duì)于一些復(fù)雜場(chǎng)景(遮擋情況),人可以很好地辨識(shí)而不需要算法去迭代更新.

        猜你喜歡
        像素陽(yáng)性文獻(xiàn)
        趙運(yùn)哲作品
        藝術(shù)家(2023年8期)2023-11-02 02:05:28
        像素前線之“幻影”2000
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        幽門螺桿菌陽(yáng)性必須根除治療嗎
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        “像素”仙人掌
        拋開(kāi)“陽(yáng)性之筆”:《怕飛》身體敘事評(píng)析
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        MALDI-TOF MS直接鑒定血培養(yǎng)陽(yáng)性標(biāo)本中的病原菌
        欧美人妻少妇精品久久黑人| 久久国产高潮流白浆免费观看| 国内精品久久人妻互换| 97超碰精品成人国产| 337p人体粉嫩胞高清视频| 亚洲最大日夜无码中文字幕| 人妖另类综合视频网站| 国产白浆一区二区三区佳柔| 天天做天天爱夜夜夜爽毛片| 亚洲av成人中文无码专区| 亚洲日韩一区二区一无码| 人妻风韵犹存av中文字幕| 久久精品人搡人妻人少妇| 99精品国产一区二区三区| 色综合久久丁香婷婷| 激情五月婷婷六月俺也去| 亚洲高清在线免费视频| 亚洲一区 日韩精品 中文字幕| 国产免费av片在线观看麻豆 | 国产精品亚洲一区二区三区妖精| 在线免费观看黄色国产强暴av | 欧洲无码一级毛片无遮挡| 国产高清一区二区三区三州| 香蕉免费一区二区三区| 日本夜爽爽一区二区三区| 麻豆av一区二区天堂| 最新日本人妻中文字幕| 免费无码又黄又爽又刺激| 欧美二区视频| 麻豆成年人视频在线观看| 国产一精品一av一免费爽爽| 亚州少妇无套内射激情视频| 九九久久精品大片| 久久精品无码鲁网中文电影| 国产裸体AV久无码无遮挡| 国产国拍精品亚洲av在线观看| 中文字幕无线码| 久久精品—区二区三区无码伊人色| 牛仔裤人妻痴汉电车中文字幕| 欧美嫩交一区二区三区| 亚洲精品国偷拍自产在线观看蜜臀|