申栩林,李超波,李洪均,2
1.南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通 226019
2.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,南京 210093
近年來(lái),社會(huì)公共安全和治安穩(wěn)定問(wèn)題逐漸成為社會(huì)公眾的關(guān)注焦點(diǎn)。監(jiān)控視頻因其具有可記錄性、可分析性等特點(diǎn),在維護(hù)社會(huì)治安方面發(fā)揮了巨大作用,為相關(guān)安保部門(mén)提供了眾多有價(jià)值的破案線索,并大幅度推進(jìn)了智慧城市、平安城市的建設(shè)進(jìn)程[1]。因此,智能視頻監(jiān)控技術(shù)應(yīng)運(yùn)而生,并迅速成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。
隨著以深度學(xué)習(xí)[2]為代表的人工智能技術(shù)的快速發(fā)展,基于人工智能技術(shù)的智能視頻監(jiān)控系統(tǒng)已經(jīng)在行人、車(chē)輛檢測(cè)以及人臉識(shí)別等領(lǐng)域取得較大突破。但受限于跨場(chǎng)景監(jiān)控視頻的拍攝質(zhì)量以及高層視覺(jué)算法智能程度較低等問(wèn)題,監(jiān)控系統(tǒng)的智能化程度遠(yuǎn)未達(dá)到實(shí)際應(yīng)用的需求。有效的視頻異常行為檢測(cè)技術(shù),可以準(zhǔn)確地檢測(cè)出被監(jiān)控區(qū)域發(fā)生的異常行為,還能及時(shí)地發(fā)出相應(yīng)的警報(bào),最大可能地降低突發(fā)異常事件帶來(lái)的生命財(cái)產(chǎn)損失。該技術(shù)徹底改變了以往需要大量的人員對(duì)監(jiān)控畫(huà)面進(jìn)行觀看和分析的方式,它通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等算法,自動(dòng)學(xué)習(xí)視頻行為特征,建立異常行為檢測(cè)模型從而檢測(cè)異常,有效降低了誤檢和漏檢現(xiàn)象,節(jié)省出大量的人力物力財(cái)力。
基于深度學(xué)習(xí)的異常行為檢測(cè)分為有監(jiān)督、弱監(jiān)督以及無(wú)監(jiān)督三類。有監(jiān)督學(xué)習(xí)通常需要大量的標(biāo)簽樣本對(duì)模型進(jìn)行訓(xùn)練,弱監(jiān)督方法可利用視頻級(jí)標(biāo)注進(jìn)行學(xué)習(xí),而無(wú)監(jiān)督方法則完全無(wú)需任何標(biāo)簽數(shù)據(jù)。由于數(shù)據(jù)標(biāo)注代價(jià)昂貴,需要大量人工參與,甚至需要專業(yè)知識(shí)的支撐,現(xiàn)實(shí)中往往較難收集到大量有標(biāo)注的樣本。相對(duì)來(lái)說(shuō),無(wú)標(biāo)注的樣本更容易獲得,因此,基于無(wú)監(jiān)督的異常行為檢測(cè)逐漸成為研究熱點(diǎn)[3-6]。無(wú)監(jiān)督方法通常使用一定的度量來(lái)研究樣本之間的關(guān)系,從而對(duì)未標(biāo)記的樣本進(jìn)行分類和歸屬。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[7]作為近年來(lái)無(wú)監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu)的代表,因其強(qiáng)大的生成能力而受到學(xué)術(shù)界的廣泛關(guān)注。在異常行為檢測(cè)領(lǐng)域中,通過(guò)使用GAN來(lái)對(duì)視頻幀進(jìn)行重構(gòu)或預(yù)測(cè),然后根據(jù)重構(gòu)誤差檢測(cè)異常,有效緩解了因標(biāo)簽數(shù)據(jù)不足而導(dǎo)致模型欠擬合、檢測(cè)精度低的問(wèn)題。
值得一提的是,視頻異常行為的檢測(cè)主要取決于環(huán)境復(fù)雜度和異常類型,而環(huán)境復(fù)雜度與場(chǎng)景中運(yùn)動(dòng)目標(biāo)的密度息息相關(guān)。根據(jù)場(chǎng)景中人口的密度,具體可分為稀疏密度場(chǎng)景、中等密度場(chǎng)景和擁擠密度場(chǎng)景[8]。在稀疏密度場(chǎng)景中常常是基于個(gè)體進(jìn)行異常行為檢測(cè),如游蕩、跌倒等,或是兩個(gè)人不尋常的交互,如打架。而暴力、暴亂等行為通常發(fā)生在中等密度環(huán)境中,在擁擠密度的場(chǎng)景中通常發(fā)生踩踏、人群恐慌、人群四散等異常行為。中等密集和擁擠密集場(chǎng)景下發(fā)生的異常也被稱為群體異常[9]。
本文從人群密集度研究GAN的視頻異常行為檢測(cè)技術(shù),首先簡(jiǎn)要介紹了生成對(duì)抗網(wǎng)絡(luò)框架結(jié)構(gòu),然后,根據(jù)場(chǎng)景密度以及行為發(fā)生對(duì)象,從個(gè)體行為異常、群體異常兩個(gè)方面論述了GAN在視頻異常檢測(cè)領(lǐng)域的研究現(xiàn)狀。其次,對(duì)異常行為檢測(cè)常用數(shù)據(jù)集進(jìn)行了簡(jiǎn)要介紹。最后,對(duì)基于GAN的視頻異常行為檢測(cè)的未來(lái)研究方向作了展望。
GAN是一種通過(guò)對(duì)抗訓(xùn)練來(lái)評(píng)估生成模型的新框架,它由兩個(gè)網(wǎng)絡(luò)組成,分別是生成器G和判別器D,G和D都可以是非線性的映射函數(shù),比如多層感知機(jī)。它的主要思想是先將一組隨機(jī)噪聲向量輸入生成器中,生成一張圖像,然后把生成的圖片與數(shù)據(jù)集中的圖片同時(shí)輸入判別器中,由判別器來(lái)判斷輸入的是真實(shí)圖片還是生成圖片,最后輸出一個(gè)概率值。當(dāng)輸入的圖片為真時(shí),輸出為1,當(dāng)輸入圖片為假時(shí),輸出為0。同時(shí)輸出的結(jié)果反饋回兩個(gè)模型,經(jīng)過(guò)不斷對(duì)抗、競(jìng)爭(zhēng),兩個(gè)模型的性能越來(lái)越完善,理想狀態(tài)下可達(dá)到納什平衡。GAN模型結(jié)構(gòu)如圖1所示。
圖1 生成對(duì)抗網(wǎng)絡(luò)Fig.1 Generative adversarial network
為了學(xué)習(xí)真實(shí)數(shù)據(jù)x的分布p g,生成器首先會(huì)構(gòu)建從先驗(yàn)噪聲分布p z(z)到數(shù)據(jù)空間的映射函數(shù)G(z;θg),其中G是由參數(shù)為的多層感知機(jī)D(x;θd)表示的可微函數(shù)。此外,判別器D同樣由另一個(gè)多層感知機(jī)表示,它的輸出為單個(gè)標(biāo)量,D(x)表示x來(lái)自數(shù)據(jù)的概率。在訓(xùn)練過(guò)程中,G和D是同時(shí)訓(xùn)練的,D的作用是最大化將標(biāo)簽正確分配給訓(xùn)練樣本和來(lái)自G的樣本概率,同時(shí)G也要將生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的相似度最大化。因此,GAN的目標(biāo)函數(shù)定義為:給定隨機(jī)噪聲向量z和真實(shí)圖像x,在公式(1)中,G的優(yōu)化目標(biāo)是最小化lb(1-D(G(z))),而D的優(yōu)化目標(biāo)是最大化lb(D(x))。本質(zhì)上,當(dāng)鑒別器D達(dá)到最優(yōu)時(shí),生成器G的損失函數(shù)將生成數(shù)據(jù)分布p g(x)和真實(shí)數(shù)據(jù)分布p r(x)之間的JS散度最小化。與其他生成模型相比,GAN只利用反向傳播來(lái)獲得梯度,無(wú)需利用馬爾科夫鏈反復(fù)采樣,無(wú)需設(shè)計(jì)遵循任何種類的因式分解的模型,可以隨意選擇生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò),在學(xué)習(xí)過(guò)程中無(wú)需進(jìn)行推斷,避免了計(jì)算概率的問(wèn)題。
根據(jù)行為發(fā)生的對(duì)象,可將異常行為分為個(gè)體異常行為和群體異常行為[10]。個(gè)體異常行為是指某些個(gè)體的行為異于其他個(gè)體的行為,例如散步的人群中突然出現(xiàn)的奔跑者、跌倒等,或是人行道中出現(xiàn)的自行車(chē)、汽車(chē)等。而群體異常行為是由很多個(gè)體組成的群體集體性發(fā)生的異常,如人群恐慌和四處逃逸等。一些具體的實(shí)例如圖2所示。針對(duì)這兩類異常,基于重構(gòu)和預(yù)測(cè)的方法對(duì)近幾年的研究技術(shù)進(jìn)行總結(jié)。
圖2 異常行為示例Fig.2 Examples of abnormal behaviors
在個(gè)體異常行為檢測(cè)中,通常是先對(duì)輸入視頻幀的感興趣區(qū)域進(jìn)行檢測(cè),然后進(jìn)行特征的提取,根據(jù)行為特征進(jìn)行異常行為的檢測(cè)及分類。
2.1.1 基于重構(gòu)的個(gè)體異常行為檢測(cè)
重構(gòu)方法的思想是重構(gòu)網(wǎng)絡(luò)僅在正常樣本上工作,無(wú)法重構(gòu)異常樣本,因此對(duì)異常樣本的重構(gòu)誤差較大,以此用來(lái)區(qū)分正異常樣本。文獻(xiàn)[11]的生成器能對(duì)視頻幀進(jìn)行重構(gòu)同時(shí)隱式地修補(bǔ)異常區(qū)域,判別器判斷視頻幀中的不同區(qū)域塊為異常的可能性,兩個(gè)網(wǎng)絡(luò)輸出的交集則是最終的異常檢測(cè)結(jié)果,該網(wǎng)絡(luò)能夠?qū)Ξ惓P袨檫M(jìn)行定位。然而,由于GAN強(qiáng)大的生成能力以及異常事件僅占幀中圖像像素的很小部分,在對(duì)異常幀重構(gòu)時(shí)不能保證對(duì)異常幀有很大的重構(gòu)誤差。為此,引入高斯噪聲,增強(qiáng)網(wǎng)絡(luò)的重構(gòu)能力,降低了對(duì)異常樣本的錯(cuò)誤重構(gòu)[12]。GAN中鑒別器通常用來(lái)識(shí)別真實(shí)數(shù)據(jù)和生成數(shù)據(jù),為了生成更高質(zhì)量的幀,文獻(xiàn)[13]通過(guò)將鑒別器的基本作用從區(qū)分真假數(shù)據(jù)轉(zhuǎn)換為識(shí)別重構(gòu)數(shù)據(jù)的質(zhì)量,來(lái)訓(xùn)練對(duì)抗性網(wǎng)絡(luò)進(jìn)行異常檢測(cè),整個(gè)網(wǎng)絡(luò)以對(duì)抗反饋循環(huán)[14]的方式不斷優(yōu)化,最終生成穩(wěn)定且高質(zhì)量的數(shù)據(jù)。為了挖掘行為魯棒性特征,引入多級(jí)特征檢測(cè)方法,檢測(cè)視頻中不同語(yǔ)義特征級(jí)的異常對(duì)象,但其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且冗余,計(jì)算量大,難以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)[15]。為了提高重構(gòu)網(wǎng)絡(luò)的泛化能力,提出噪聲調(diào)制對(duì)抗學(xué)習(xí)的思想,將服從正常樣本分布的噪聲圖作為負(fù)樣本輸入鑒別器網(wǎng)絡(luò),以便調(diào)節(jié)對(duì)重構(gòu)網(wǎng)絡(luò)的訓(xùn)練[16]。
由于異常行為具有多義性,引入遷移學(xué)習(xí),使網(wǎng)絡(luò)具備有效的時(shí)空特征,提高了算法自適應(yīng)性[17]。此外,還可通過(guò)遷移學(xué)習(xí)解決標(biāo)記數(shù)據(jù)短缺的問(wèn)題,文獻(xiàn)[18]以GAN的鑒別器為基礎(chǔ)模型,將遷移學(xué)習(xí)應(yīng)用于異常分類器,由于GAN可以生成數(shù)據(jù)集中不存在的數(shù)據(jù),因此基礎(chǔ)模型可以對(duì)與真實(shí)數(shù)據(jù)相似的數(shù)據(jù)進(jìn)行學(xué)習(xí),解決了標(biāo)記數(shù)據(jù)不足的問(wèn)題。然而,GAN的鑒別器不能有效地提取數(shù)據(jù)特征,導(dǎo)致提取的特征不適用于分類器。3D卷積神經(jīng)網(wǎng)絡(luò)具有較好的提取時(shí)空特征的能力,因此將3D卷積神經(jīng)網(wǎng)絡(luò)作為目標(biāo)模型可以提取適合分類器的特征,提高模型性能[19]。
由于GAN自身強(qiáng)大的學(xué)習(xí)能力,使得對(duì)異常樣本也能進(jìn)行較好的重構(gòu),因而對(duì)正異常樣本的區(qū)分力不足,在訓(xùn)練過(guò)程中加入噪聲可以有效緩解這個(gè)問(wèn)題。另外,重構(gòu)網(wǎng)絡(luò)雖然可以處理異常樣本,但也可能會(huì)將新的正常樣本識(shí)別為異常樣本。因此,需要添加額外的約束來(lái)控制網(wǎng)絡(luò)對(duì)新正常樣本的泛化能力。盡管對(duì)正異常樣本的區(qū)分能力較差而備受爭(zhēng)議,但它能為視頻幀提供具有更高空間分辨率的多尺度特征表示,并且不依賴于任何先驗(yàn)知識(shí)和標(biāo)簽,因此該方法在實(shí)際生活中有較好的應(yīng)用價(jià)值。
2.1.2 基于預(yù)測(cè)的個(gè)體異常行為檢測(cè)
基于預(yù)測(cè)的個(gè)體異常行為檢測(cè)遵循正常事件可預(yù)測(cè)而異常事件不可預(yù)測(cè)的思想,通過(guò)將測(cè)試幀與預(yù)測(cè)幀進(jìn)行比較來(lái)區(qū)分正異常行為,相比于重構(gòu),它能突破重構(gòu)誤差的限制,增大正常幀與異常幀之間的差距,具體可分為單向預(yù)測(cè)和雙向預(yù)測(cè)。單向預(yù)測(cè)利用輸入幀的前幾幀對(duì)其進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)誤差檢測(cè)異常。Liu等人[20]利用U-Net作為GAN的生成器進(jìn)行預(yù)測(cè),然后估計(jì)相應(yīng)的光流,該模型根據(jù)預(yù)測(cè)幀和原始幀之間的差異以及對(duì)抗性損失進(jìn)行優(yōu)化,U-Net的跨層傳輸特性能夠有效保留輸入幀的基本結(jié)構(gòu)特性,使得網(wǎng)絡(luò)的訓(xùn)練更加注意輸出幀和輸入幀之間的區(qū)別[21]。為了實(shí)現(xiàn)端到端的訓(xùn)練,僅對(duì)單幀圖像進(jìn)行光流預(yù)測(cè),以確定外觀和運(yùn)動(dòng)之間的聯(lián)系[22]。為了平衡時(shí)空信息,通過(guò)級(jí)聯(lián)兩個(gè)自編碼器,分別用于學(xué)習(xí)時(shí)間特征和空間特征,將空間網(wǎng)絡(luò)的輸出與輸入進(jìn)行疊加后作為時(shí)間網(wǎng)絡(luò)的輸入,此外,在時(shí)間網(wǎng)絡(luò)中添加了一個(gè)光流門(mén),提高了預(yù)測(cè)幀的質(zhì)量[23]。
雙向預(yù)測(cè)模型通過(guò)利用輸入幀的前后幾幀進(jìn)行預(yù)測(cè),可以有效地對(duì)正常行為的時(shí)空特征進(jìn)行編碼,因此,可以檢測(cè)出具有時(shí)空異常模式的場(chǎng)景。Lee等人[24]結(jié)合GAN和LSTM,將給定幀的前后五幀分別輸入前向ConvLSTM和后向ConvLSTM,提取時(shí)空特征,然后根據(jù)LSTM的輸出生成中間幀,將預(yù)測(cè)幀與真實(shí)幀之間的均方誤差與鑒別器輸出的加權(quán)和作為異常得分。針對(duì)場(chǎng)景中尺度變化和復(fù)雜運(yùn)動(dòng)問(wèn)題,結(jié)合特征聚合網(wǎng)絡(luò),利用多尺度編碼學(xué)習(xí)不同尺度下的正常模式,提高了檢測(cè)復(fù)雜事件的魯棒性[25]。針對(duì)運(yùn)動(dòng)特征提取不足的問(wèn)題,文獻(xiàn)[26]根據(jù)目標(biāo)幀及雙向預(yù)測(cè)幀構(gòu)造損失函數(shù),提出基于滑動(dòng)窗口的異常評(píng)估方法,將注意力集中在預(yù)測(cè)幀的前景目標(biāo)上,有效地抑制了預(yù)測(cè)誤差圖中的噪聲,提高了檢測(cè)模型的準(zhǔn)確性和魯棒性。單向預(yù)測(cè)模型結(jié)構(gòu)簡(jiǎn)單,但未能充分利用視頻幀之間的時(shí)間信息,而雙向預(yù)測(cè)模型能夠有效提取時(shí)空特征,因此與單向預(yù)測(cè)相比有較高的檢測(cè)精度,但該模型只能在異常行為發(fā)生后檢測(cè),難以實(shí)時(shí)檢測(cè)。
與基于重構(gòu)的方法相比,幀預(yù)測(cè)方法不僅考慮了外觀和位置上的異常,還考慮了運(yùn)動(dòng)中的異常。但預(yù)測(cè)方法高度依賴于先驗(yàn)知識(shí),因此前面幀的任意變化對(duì)檢測(cè)結(jié)果都有很大影響,從而導(dǎo)致魯棒性比重構(gòu)方法低。近年來(lái),文獻(xiàn)[27-28]將這兩種方法結(jié)合起來(lái),其中預(yù)測(cè)可以增大樣本的差距,而重構(gòu)能增強(qiáng)模型的預(yù)測(cè)能力。將重構(gòu)與預(yù)測(cè)相結(jié)合的方法提高了檢測(cè)精度和模型的泛化性能,但由于模型結(jié)構(gòu)復(fù)雜冗余,計(jì)算復(fù)雜度高,因此實(shí)時(shí)性能較低。表1總結(jié)了個(gè)體異常行為檢測(cè)的方法;表2給出了幾種代表性方法的優(yōu)缺點(diǎn)分析。
表1 個(gè)體異常行為檢測(cè)方法總結(jié)Table 1 Summary and contribution of individual abnormal behavior detection methods
表2 個(gè)體異常行為檢測(cè)代表性算法優(yōu)缺點(diǎn)總結(jié)Table 2 Summary of advantages and disadvantages of representative algorithms for individual abnormal behavior detection
隨著城市人口的大規(guī)模增長(zhǎng),公共區(qū)域的人口密度越來(lái)越大,過(guò)多的人口聚集為公共區(qū)域的安全帶來(lái)了隱患,當(dāng)人群聚集程度超過(guò)一定閾值時(shí),發(fā)生踩踏事故的可能性較大,此外交通事故,打架斗毆等事件時(shí)有發(fā)生,甚至還有恐襲事件發(fā)生。特別是進(jìn)入21世紀(jì)后,發(fā)生了美國(guó)“9·11恐怖襲擊事件”、俄羅斯“莫斯科劇院人質(zhì)事件”、中國(guó)“上海外灘踩踏事件”等一系列安全事例,這些慘痛的事例給人們敲了警鐘,人們的安全觀念受到了極大的沖擊,強(qiáng)烈地催生了人們對(duì)公共安全問(wèn)題的關(guān)注和對(duì)提高人身安全性的各種需求。
在群體異常行為檢測(cè)中,由于人群密度大,行人之間存在嚴(yán)重遮擋,對(duì)單個(gè)目標(biāo)檢測(cè)難度大,因此通常將人群看作一個(gè)整體進(jìn)行處理,從視頻中提取代表群體異常行為的特定信息,如人群密度和群體運(yùn)動(dòng)軌跡,通過(guò)對(duì)這些特定信息的處理分析能夠檢測(cè)群體異常行為并及時(shí)發(fā)出警報(bào)[34]。
2.2.1 基于重構(gòu)的群體異常行為檢測(cè)
群體的運(yùn)動(dòng)可以通過(guò)隨時(shí)間不斷變化的光流來(lái)捕獲,基于重構(gòu)的群體行為檢測(cè)通過(guò)學(xué)習(xí)正常人群行為的外觀和運(yùn)動(dòng)特征,對(duì)正常行為的外觀和運(yùn)動(dòng)有較好的重構(gòu),而在測(cè)試時(shí),由于無(wú)法重構(gòu)異常行為,因此可以通過(guò)重構(gòu)幀與原始幀之間的像素差檢測(cè)異常。文獻(xiàn)[35-36]提出基于兩個(gè)條件生成對(duì)抗網(wǎng)絡(luò)的框架學(xué)習(xí)人群的正常行為特征,一個(gè)網(wǎng)絡(luò)通過(guò)原始圖像重構(gòu)出光流圖,另一個(gè)網(wǎng)絡(luò)由對(duì)應(yīng)的光流圖重構(gòu)出RGB圖,結(jié)合光流差和語(yǔ)義差異圖得到最終的異常圖。但該網(wǎng)絡(luò)對(duì)估計(jì)的光流圖質(zhì)量敏感,對(duì)遮擋場(chǎng)景不具有魯棒性,在遮擋場(chǎng)景中很難較好地估計(jì)光流圖。同時(shí)提取視頻的外觀和運(yùn)動(dòng)特征可以提高網(wǎng)絡(luò)對(duì)遮擋問(wèn)題的魯棒性,文獻(xiàn)[37]提取梯度圖和光流圖分別作為外觀和運(yùn)動(dòng)特征,與原始視頻幀進(jìn)行融合,生成器對(duì)融合后的特征圖進(jìn)行重構(gòu)之后與原融合特征一并輸入鑒別器,通過(guò)計(jì)算重構(gòu)誤差檢測(cè)異常。
擁擠場(chǎng)景中對(duì)異常行為的檢測(cè)和定位是一項(xiàng)極具挑戰(zhàn)性的任務(wù),文獻(xiàn)[38]以變分自編碼器作為GAN的生成器,采用雙流結(jié)構(gòu)分別重構(gòu)原圖以及密集光流場(chǎng),利用重構(gòu)誤差以及對(duì)抗損失優(yōu)化網(wǎng)絡(luò),然而由于密集光流計(jì)算量較大,導(dǎo)致該網(wǎng)絡(luò)異常檢測(cè)和定位不夠精準(zhǔn)且檢測(cè)結(jié)果有延時(shí)。為了減小運(yùn)算復(fù)雜度,提出了基于GAN的深度時(shí)空轉(zhuǎn)換網(wǎng)絡(luò)[39],利用GAN對(duì)級(jí)聯(lián)后的原始幀和背景移除幀重構(gòu)密集光流,通過(guò)計(jì)算真實(shí)光流圖與重構(gòu)光流圖的像素差異檢測(cè)異常。
群體異常行為往往伴隨著目標(biāo)的運(yùn)動(dòng)速度變化,而光流作為一種有效的目標(biāo)運(yùn)動(dòng)描述符,受到廣泛應(yīng)用,然而光流里包含了很多噪聲,且光流信息作為低層的視覺(jué)特征,盡管能詳細(xì)描述目標(biāo)局部的運(yùn)動(dòng),計(jì)算復(fù)雜度低,但卻無(wú)法直觀表達(dá)更高層次的語(yǔ)義信息?;谥貥?gòu)的群體異常檢測(cè)方法通常使用單幀圖像訓(xùn)練,未能充分利用視頻幀之間的相關(guān)信息,且人群中復(fù)雜的背景和遮擋問(wèn)題較難保證對(duì)人群行為有很好的重構(gòu)。此外,由于GAN只學(xué)習(xí)正常的人群行為,當(dāng)測(cè)試過(guò)程中出現(xiàn)新的正常行為時(shí),常常會(huì)將該種行為誤判為異常行為,這嚴(yán)重影響了模型的檢測(cè)性能。
2.2.2 基于預(yù)測(cè)的群體異常行為檢測(cè)
人群的異常事件常常伴隨著視頻幀模糊、顏色失真、光流突變等問(wèn)題,因此結(jié)合前一幀進(jìn)行視頻預(yù)測(cè)能充分利用視頻幀之間的聯(lián)系,從而更有效地描述人群特征。文獻(xiàn)[40]將人群中行人的光流信息作為運(yùn)動(dòng)特征,首先利用光流法提取群體行為的動(dòng)態(tài)特征,然后使用U-Net和Flownet進(jìn)行光流預(yù)測(cè)并區(qū)分人群的正常行為和異常行為,此外還結(jié)合遷移學(xué)習(xí)提高了檢測(cè)速率。為了實(shí)現(xiàn)在擁擠場(chǎng)景中對(duì)異常行為的實(shí)時(shí)檢測(cè),減低模型的復(fù)雜度,通過(guò)計(jì)算真實(shí)運(yùn)動(dòng)幀和生成運(yùn)動(dòng)幀之間的像素差來(lái)檢測(cè)異常[41]。在鑒別器和生成器中使用相同的結(jié)構(gòu)可以有效地避免生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練中的不穩(wěn)定性,使用光流提取視頻的時(shí)間信息,同時(shí)使用潛在空間約束、梯度約束和強(qiáng)度約束可以提高生成的預(yù)測(cè)幀的質(zhì)量[42]。然而光流對(duì)光照極其敏感,光線的變化對(duì)識(shí)別效果有較大影響,且在現(xiàn)實(shí)情況中,群體行為的發(fā)生常常伴隨著較大距離的運(yùn)動(dòng),僅利用光流進(jìn)行人群的跟蹤通常會(huì)因?yàn)樗俣日`差積累而影響檢測(cè)準(zhǔn)確率[43]。人群運(yùn)動(dòng)軌跡作為常見(jiàn)的高層語(yǔ)義特征,可以表示人群行為的連續(xù)性,借助GAN對(duì)群體軌跡進(jìn)行預(yù)測(cè),每條軌跡表示一個(gè)目標(biāo)的運(yùn)動(dòng),將偏離正常行為的軌跡認(rèn)定為異常行為[44],然而在遮擋十分嚴(yán)重的場(chǎng)景中,該類方法檢測(cè)精度容易受到影響。
在人群密度較大的場(chǎng)景中,往往會(huì)因?yàn)槌叨茸兓蛧?yán)重遮擋的問(wèn)題而導(dǎo)致檢測(cè)性能低下,為了提高人群異常行為檢測(cè)算法的魯棒性和準(zhǔn)確性,出現(xiàn)了利用多尺度特征生成人群密度圖[45]、人群密度估計(jì)結(jié)合非負(fù)矩陣分解方法[46]與生成對(duì)抗網(wǎng)絡(luò)的融合模型,用于人群異常行為檢測(cè)。由于視頻幀的先驗(yàn)知識(shí)通常是有限的或不可用的,且先前的工作缺乏對(duì)幀序列的局部連續(xù)性和視頻序列中的時(shí)間動(dòng)態(tài)的全局相關(guān)性的考慮,文獻(xiàn)[47]提出了基于卷積注意力機(jī)制的雙鑒別器生成對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行視頻異常檢測(cè)。具體地說(shuō),首先利用卷積注意力模塊進(jìn)行未來(lái)幀預(yù)測(cè),然后通過(guò)基于雙鑒別器的對(duì)抗性訓(xùn)練來(lái)增強(qiáng)未來(lái)幀預(yù)測(cè),最后,利用預(yù)測(cè)誤差識(shí)別異常視頻幀。該模型利用雙鑒別器結(jié)構(gòu)可以保持預(yù)測(cè)幀的局部連續(xù)性和先前幀的全局相關(guān)性,但對(duì)場(chǎng)景的自適應(yīng)性較差。表3總結(jié)了群體異常行為檢測(cè)方法;表4給出了幾種代表性方法的優(yōu)缺點(diǎn)分析。
表3 群體異常行為檢測(cè)方法總結(jié)Table 3 Summary of group abnormal behavior detection methods
表4 群體異常行為檢測(cè)代表性算法優(yōu)缺點(diǎn)總結(jié)Table 4 Summary of advantages and disadvantages of representative algorithms for group abnormal behaviors detection
綜上所述,群體異常行為通常具有運(yùn)動(dòng)速度快、加速度突然增加、軌跡混亂等特點(diǎn),速度、加速度、方向以及運(yùn)動(dòng)幅度等特征可以用光流表示。通過(guò)人群軌跡可感知人群的整體運(yùn)動(dòng)趨勢(shì),然而人群軌跡等特征的提取較為復(fù)雜,因此可采用合成光流特征描述符獲取人群運(yùn)動(dòng)軌跡[51]?;陬A(yù)測(cè)的方法對(duì)群體異常行為進(jìn)行檢測(cè),通過(guò)結(jié)合前一幀能充分利用視頻幀之間的關(guān)系,更好地提取人群的運(yùn)動(dòng)和外觀特征,此外,與遷移學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)等模型的結(jié)合在一定程度上提高了檢測(cè)精度和魯棒性。但預(yù)測(cè)方法對(duì)于先驗(yàn)知識(shí)過(guò)度依賴,且對(duì)噪聲極其敏感,因此魯棒性較差。
視頻異常行為檢測(cè)是一個(gè)較新的研究領(lǐng)域,且由于現(xiàn)實(shí)中的異常行為具有偶然性和多樣性,目前用于該領(lǐng)域的數(shù)據(jù)集較少。為了更好地進(jìn)行異常行為檢測(cè),開(kāi)發(fā)了各種數(shù)據(jù)集。根據(jù)持續(xù)時(shí)間、大小、分辨率、監(jiān)視環(huán)境、覆蓋場(chǎng)景、數(shù)據(jù)集提供的挑戰(zhàn)、應(yīng)用場(chǎng)景、涉及的異常事件和標(biāo)簽的可用性等重要因素,每個(gè)數(shù)據(jù)集之間存在一定的差異,選擇合適的測(cè)試數(shù)據(jù)集是評(píng)估各算法性能的基礎(chǔ)。常用的數(shù)據(jù)集主要有UCSD[52]、UMN[53]、Subway[54]、CUHK Avenue[55]、UCF-Crime[56]、Shanghai-Tech[57]、LV data[58]。表5匯總了各數(shù)據(jù)集的規(guī)模、異常行為類型、視頻分辨率、應(yīng)用對(duì)象以及存在的不足。
由表5可看出,目前用于群體異常行為的數(shù)據(jù)集較少,大多數(shù)公開(kāi)可用的數(shù)據(jù)集用于個(gè)體異常行為檢測(cè)。與個(gè)體行為識(shí)別的數(shù)據(jù)集相比,群體數(shù)據(jù)集通常存在行為種類單一、視頻質(zhì)量差、視頻數(shù)目少和數(shù)據(jù)標(biāo)記困難等不足。在上述數(shù)據(jù)集中,主要包含了模擬的異常行為、真實(shí)的異常行為、使用預(yù)定義腳本錄制的視頻、來(lái)自不同攝像機(jī)拍攝的訓(xùn)練和測(cè)試樣本,以及大多數(shù)在理想環(huán)境下的視頻。然而基于深度學(xué)習(xí)的視頻異常行為檢測(cè)需要大量的數(shù)據(jù)集來(lái)不斷貼近真實(shí)場(chǎng)景中的異常行為。近年來(lái),一些數(shù)據(jù)集如LV data、ShanghiTech以及UCF-Crime的提出,因其更貼近現(xiàn)實(shí)場(chǎng)景中發(fā)生的行為而被廣泛使用。端到端的異常行為檢測(cè)在現(xiàn)實(shí)生活中有很大的應(yīng)用價(jià)值,然而端到端的檢測(cè)方法需要大量樣本進(jìn)行學(xué)習(xí),這對(duì)于早期的小規(guī)模數(shù)據(jù)集,如UCSD數(shù)據(jù)集和UMN數(shù)據(jù)集來(lái)說(shuō)可能是一個(gè)問(wèn)題,大規(guī)模數(shù)據(jù)集的提出,如UCF-Crime和ShanghiTech,幫助解決了這個(gè)問(wèn)題。
表5 常用視頻異常檢測(cè)數(shù)據(jù)集Table 5 Characteristics of video anomaly detection datasets
在選擇數(shù)據(jù)集進(jìn)行模型性能評(píng)估時(shí),往往更傾向選擇標(biāo)注更精確的數(shù)據(jù)集,對(duì)樣本的標(biāo)注主要分為三類:像素級(jí)標(biāo)注、幀級(jí)標(biāo)注和視頻級(jí)標(biāo)注。上述提到的七個(gè)數(shù)據(jù)集中,基于像素級(jí)標(biāo)注的數(shù)據(jù)集主要用于個(gè)體異常行為檢測(cè),如UCSD和CUHK Avenue數(shù)據(jù)集,而對(duì)于人口密度大,人流量較多的場(chǎng)景視頻則采用了幀級(jí)標(biāo)注和視頻級(jí)標(biāo)注,如UMN和Subway數(shù)據(jù)集,該類數(shù)據(jù)集主要用于群體異常行為檢測(cè)。基于視頻級(jí)標(biāo)注的數(shù)據(jù)集,如UCF-Crime標(biāo)注工作量小,但不適合作為實(shí)時(shí)檢測(cè)的訓(xùn)練集,相比之下,幀級(jí)標(biāo)注和像素級(jí)標(biāo)注的數(shù)據(jù)集更適合進(jìn)行實(shí)時(shí)檢測(cè),但這兩種標(biāo)注往往需要消耗大量物力人力。偽標(biāo)簽技術(shù)[59]的提出使得無(wú)需手工標(biāo)注數(shù)據(jù),只需要基于有標(biāo)簽數(shù)據(jù)給出一個(gè)近似的標(biāo)簽即可獲得大量標(biāo)注數(shù)據(jù),將該技術(shù)結(jié)合到GAN中,利用GAN強(qiáng)大的生成能力生成精度更高的偽標(biāo)簽,并與有監(jiān)督方法結(jié)合進(jìn)行異常行為檢測(cè)是未來(lái)研究的重點(diǎn)。
此外,現(xiàn)有的數(shù)據(jù)集通常只有畫(huà)面而沒(méi)有音頻,這為基于視聽(tīng)融合的異常行為檢測(cè)帶來(lái)了挑戰(zhàn)。大多數(shù)情況下,視覺(jué)信息可以準(zhǔn)確地識(shí)別和定位事件,但有時(shí)視覺(jué)信息卻是無(wú)效的,而這時(shí)音頻信號(hào)可以區(qū)分視覺(jué)上判斷模糊的事件,如伴隨爆炸聲劇烈震動(dòng)的視頻中,僅通過(guò)畫(huà)面很難判斷發(fā)生了什么,而在這種情況下,音頻信號(hào)是主要的判別信號(hào)。因此,視聽(tīng)融合可以充分利用互補(bǔ)信息,提高異常事件檢測(cè)的準(zhǔn)確率。再者,由于攝像機(jī)總是固定在一個(gè)位置拍攝,監(jiān)控視野范圍小,使得拍攝到的視頻多為單視角,容易存在視野重疊的問(wèn)題。隨著監(jiān)控設(shè)備的不斷升級(jí)更新,獲取同一場(chǎng)景的多視角視頻已不是問(wèn)題,利用多攝像頭之間的運(yùn)動(dòng)目標(biāo)交接方法不僅能提高異常行為檢測(cè)的魯棒性,也能實(shí)現(xiàn)對(duì)行為的實(shí)時(shí)檢測(cè),解決基于多視角協(xié)同的異常行為檢測(cè)問(wèn)題,因此建立音視頻融合和多視角視頻的數(shù)據(jù)集對(duì)異常行為檢測(cè)有重大意義。
本文概述了GAN在視頻異常行為檢測(cè)中的研究進(jìn)展,根據(jù)人群密集度將目前的異常行為分為個(gè)體異常和群體異常,分別從基于重構(gòu)和預(yù)測(cè)的方法對(duì)這兩種異常類型的檢測(cè)方法展開(kāi)研究??梢园l(fā)現(xiàn),由于GAN具有強(qiáng)大的學(xué)習(xí)能力,重構(gòu)方法不能保證對(duì)異常行為有較大的重構(gòu)誤差,因此很難設(shè)置合適的重構(gòu)誤差閾值來(lái)判斷一幀是否包含異常事件。而預(yù)測(cè)方法可以增大正常幀和異常幀之間的差距,提高檢測(cè)精度,但將光流約束添加到框架中,導(dǎo)致魯棒性比重構(gòu)方法更差。生成對(duì)抗網(wǎng)絡(luò)是這兩種方法得以發(fā)展的關(guān)鍵,通過(guò)與其他網(wǎng)絡(luò)框架的聯(lián)合學(xué)習(xí),在檢測(cè)性能方面有較為顯著的提升,其中,與3D CNN的結(jié)合不僅能解決標(biāo)記數(shù)據(jù)缺乏的問(wèn)題,還能提取樣本的高層次特征?;贕AN的異常行為檢測(cè)算法在某種程度上對(duì)分辨率較低的樣本中異常行為的檢測(cè)能力較差,主要是由于GAN需要在重構(gòu)損失與對(duì)抗損失之間尋求平衡,從而導(dǎo)致模糊的預(yù)測(cè)和重構(gòu)。通過(guò)以上對(duì)比分析和總結(jié),重構(gòu)和預(yù)測(cè)作為基于生成對(duì)抗網(wǎng)絡(luò)的異常行為檢測(cè)的兩種方法,能在檢測(cè)精度和速度方面實(shí)現(xiàn)互補(bǔ)。盡管GAN在視頻異常行為領(lǐng)域取得了較好的成就,解決了標(biāo)記數(shù)據(jù)不足、提取特征不完全等問(wèn)題,但仍存在一些問(wèn)題亟待解決。
(1)小尺度目標(biāo)檢測(cè)問(wèn)題:在復(fù)雜的現(xiàn)實(shí)場(chǎng)景中,由于拍攝設(shè)備距離較遠(yuǎn)導(dǎo)致視頻中的檢測(cè)目標(biāo)尺寸較小,且常常會(huì)伴隨著光照變化、目標(biāo)遮擋以及目標(biāo)尺度變化問(wèn)題,導(dǎo)致對(duì)這類目標(biāo)的檢測(cè)難度大、檢測(cè)精度低,而當(dāng)前大多數(shù)檢測(cè)小目標(biāo)方法[60]復(fù)雜度高且不具備通用性,因此運(yùn)用GAN的對(duì)抗學(xué)習(xí)降低計(jì)算復(fù)雜度和提高泛化能力是未來(lái)的研究方向之一。針對(duì)此問(wèn)題,可以結(jié)合有監(jiān)督方法中提高小尺度目標(biāo)檢測(cè)精度的方法,在檢測(cè)模型中加入多尺度特征融合網(wǎng)絡(luò),低層特征編碼視覺(jué)特征,高層特征描述語(yǔ)義信息,融合后的特征具有更強(qiáng)的描述性,有利于小目標(biāo)的檢測(cè)。
(2)動(dòng)作幅度小的異常行為檢測(cè):在現(xiàn)實(shí)場(chǎng)景中,除了會(huì)發(fā)生具有大幅度動(dòng)作的異常行為,還存在很多動(dòng)作幅度小的異常行為[61],通常該類行為在整個(gè)監(jiān)控畫(huà)面中占據(jù)的畫(huà)幅過(guò)小,導(dǎo)致很難被檢測(cè)到。微小異常行為檢測(cè)的關(guān)鍵在于對(duì)大量樣本的學(xué)習(xí)和運(yùn)動(dòng)特征的提取,然而目前用于該領(lǐng)域的數(shù)據(jù)集過(guò)于稀少,因此開(kāi)發(fā)包含微小動(dòng)作異常行為的數(shù)據(jù)集以及利用GAN強(qiáng)大的學(xué)習(xí)能力進(jìn)行微動(dòng)作異常行為特征的學(xué)習(xí)將成為一個(gè)熱門(mén)研究趨勢(shì)。
(3)正常行為誤報(bào)問(wèn)題:當(dāng)監(jiān)控畫(huà)面中出現(xiàn)突然變化的正常物體,如閃爍的車(chē)燈、變化的交通燈等,或是快速闖入鏡頭的正常物體以及少見(jiàn)的正常行為時(shí),會(huì)將該類事件誤報(bào)為異常事件。針對(duì)該問(wèn)題,可考慮忽略存在于畫(huà)面邊緣的事件,選取畫(huà)面中央作為感興趣區(qū)域進(jìn)行檢測(cè)。在算法模型中加入注意力機(jī)制模塊,能使模型集中注意感興趣區(qū)域,以此提升檢測(cè)效果。