亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用注意力機制的多示例學(xué)習(xí)視頻異常檢測

        2022-12-06 10:08:44魏思倩吉根林劉宇杰
        小型微型計算機系統(tǒng) 2022年12期
        關(guān)鍵詞:排序特征檢測

        魏思倩,吉根林,許 振,劉宇杰

        (南京師范大學(xué) 計算機與電子信息學(xué)院,南京 210023)

        1 引 言

        隨著人們的安全意識逐漸提高,監(jiān)控攝像機在公共場所(如商場、銀行、交通路口等)的日益普及,迫切需要開發(fā)一種能夠自動檢測出監(jiān)控視頻中異常事件并發(fā)出警報的技術(shù),以節(jié)省人工勞動力,減少經(jīng)濟和人員損失,以及增加社會安全性.因此,自動檢測監(jiān)控視頻中異常事件在交通監(jiān)控和安全控制等領(lǐng)域至關(guān)重要.目前,主要將視頻中的異常廣泛定義為不尋常的行為或事件,即發(fā)生頻率較少的事件[1],而視頻的異常檢測就是從監(jiān)控視頻中發(fā)現(xiàn)并定位異常事件.該任務(wù)具有如下挑戰(zhàn)性:1)現(xiàn)實中正常和異常行為復(fù)雜、多樣,無法窮舉;2)正常和異常行為之間的邊界是模糊的,即在不同的場景下,對于異常的定義是不確定的,異常檢測系統(tǒng)難以泛化;3)由于視頻數(shù)據(jù)巨大,獲得精準的幀級和像素級異常標注代價非常昂貴;4)正負樣本的不均衡性,即異常樣本的數(shù)量遠遠小于正常樣本的數(shù)量,難以獲得足夠多的異常樣本用來學(xué)習(xí)和訓(xùn)練模型[2-5].

        多示例學(xué)習(xí)[6]是目前較先進的弱監(jiān)督視頻異常檢測方法,但其所提取的C3D特征不能很好的同時描述視頻中表觀和運動特征,從而導(dǎo)致異常檢測性能較低.為此,本文提出了利用注意力機制的多示例學(xué)習(xí)視頻異常檢測算法(Attention mechanism based Multiple Instance Learning video anomaly detection algorithm,A-MIL).首先將視頻轉(zhuǎn)換成幀并平均劃分為多個示例;接著提取C3D特征和光流圖;然后通過注意力機制獲取兩種特征相應(yīng)的權(quán)重參數(shù),通過MIL排序模型進行訓(xùn)練,使異常示例的異常分數(shù)遠大于正常示例并設(shè)置閾值;最后將大于閾值的視頻分類為異常.該方法的主要創(chuàng)新點如下:

        1)提出了利用注意力機制的多示例學(xué)習(xí)視頻異常檢測算法A-MIL.在提取特征之后加入注意力機制,學(xué)習(xí)C3D特征和光流特征對視頻異常分數(shù)的貢獻程度,從而提高檢測的準確率;并在UCF-Crime數(shù)據(jù)集上進行實驗,實驗結(jié)果顯示本文方法的AUC指標比基準方法提升了2.79%.

        2)在A-MIL中引入了新的排序損失函數(shù),解決了max函數(shù)僅考慮最大異常分數(shù)示例而忽略較小異常分數(shù)示例的問題,充分利用了每個示例的異常分數(shù),利于在訓(xùn)練過程中區(qū)分正常和異常樣本.

        2 相關(guān)研究工作

        隨著深度學(xué)習(xí)廣泛應(yīng)用于視頻異常檢測領(lǐng)域,許多基于神經(jīng)網(wǎng)絡(luò)的模型或算法被提出,Hasan等人[7]利用卷積自編碼器CAE重構(gòu)誤差檢測異常;2015年Olaf等人提出了U-Net,與AE相比,它通過跳躍連接減少降維帶來的信息損失,Liu等人[8]利用U-Net的優(yōu)勢提出的未來幀預(yù)測方法GAN+U-Net.由于像素級別和幀級別的注釋昂貴,基于視頻級注釋的弱監(jiān)督方法多示例學(xué)習(xí)MIL模型被提出[6].MIL模型的輸入是包含正常和異常的視頻樣本,將視頻看做是一個包,視頻中的片段看做是包中的示例,然后計算每個示例的異常分數(shù),通過MIL排序算法進行訓(xùn)練,最后通過分類方法進行異常檢測.文獻[6]首先將輸入的視頻平均劃分成32個示例,提取三維特征C3D,接著通過3層全連接層(3FC)計算出每個示例的異常分數(shù),然后通過排序模型選擇示例中最大的分數(shù)作為視頻的異常分數(shù),最后采用支持向量機SVM進行分類.C3D特征簡單且易于提取,但是它不能同時描述視頻的表觀和運動特征,這使得提取的特征并不足以清楚的描述視頻特征,從而導(dǎo)致檢測率不高.文獻[9]觀察到運動信息是異常檢測中的關(guān)鍵,于是提出了temporal augmented network提取運動特征,僅這一特征就能獲得不錯的檢測性能.此外,文獻[6,9]將異常檢測作為一個回歸問題,即將特征向量映射成異常分數(shù)(歸一化為0-1),采用排名損失使得異常視頻示例比正常示例獲得更高的異常分數(shù).

        人類在觀察事物時根據(jù)需求將注意力集中到特定的部分,受到這一啟發(fā),注意力機制在視覺圖像領(lǐng)域被提出,Google DeepMind團隊[10]在RNN 模型上使用注意力機制來進行圖像分類.隨后,Bahdanau等人[11]將類似注意力機制用在機器翻譯任務(wù)上,這是首次將注意力機制應(yīng)用在自然語言處理領(lǐng)域中.在異常檢測任務(wù)中,也有許多基于注意力機制的模型被提出,如Song等人[12]提出了一種結(jié)合注意力模型的自動編碼器,并利用對抗學(xué)習(xí)來發(fā)掘正常視頻的模式.Zhu等人[9]在多示例學(xué)習(xí)排序模型中加入了注意力模塊,其學(xué)習(xí)到的權(quán)重可以更好的區(qū)分正常和異常視頻片段,增加檢測性能.Lai等人[13]提出將基于梯度的軟注意力機制與基于重構(gòu)和預(yù)測的模型相結(jié)合用于視頻異常檢測,以提高視頻預(yù)測性能.注意力機制是一種能讓模型對重要信息重點關(guān)注并充分學(xué)習(xí)的技術(shù),其工作原理就是對輸入的每一個部分學(xué)習(xí)不同的概率值,給予每一個部分不同的權(quán)重參數(shù),然后對這些輸入做加權(quán)線性組合,從而實現(xiàn)對重要信息重點關(guān)注的效果.

        3 視頻異常檢測算法A-MIL

        本文將異常檢測作為回歸問題,即將提取的特征向量映射成一個異常分數(shù),采用排序損失的方式進行訓(xùn)練,使異常視頻的分數(shù)盡可能大于正常視頻的分數(shù).異常檢測分為2個階段:訓(xùn)練和測試.1)訓(xùn)練過程:圖1是本文所提出的異常檢測算法訓(xùn)練階段框架圖.給定正樣本(異常視頻)和負樣本(正常視頻),首先將視頻轉(zhuǎn)換成幀后均等劃分成多個示例;再通過C3D網(wǎng)絡(luò)提取三維特征C3D,通過PWC-Net提取光流特征圖,將光流圖輸入到卷積自編碼器(Conv-AE)中輸出其特征向量;分別將三維特征C3D和光流特征輸入至3層全連接神經(jīng)網(wǎng)絡(luò)(3FC)計算出這兩種特征異常分數(shù);然后將示例的異常分數(shù)輸入到注意力機制模塊中獲得特征的權(quán)重參數(shù);最后使用MIL排序模型進行訓(xùn)練,使正樣本異常分數(shù)盡可能大于負樣本異常分數(shù);2)測試過程:使用和訓(xùn)練過程同樣的方法提取測試視頻的特征,輸入已訓(xùn)練好的MIL排序模型中,輸出該視頻的異常分數(shù),將大于閾值的樣本判斷為異常,小于閾值的樣本判斷為正常.

        圖1 異常檢測算法訓(xùn)練框架

        3.1 問題描述

        設(shè)存在若干個訓(xùn)練視頻樣本,其中包含異常的視頻稱為正樣本,不包含任何異常行為的視頻稱為負樣本.多示例學(xué)習(xí)排序視頻異常檢測算法涉及的相關(guān)概念如下:

        定義1.包.在多示例學(xué)習(xí)中,將正樣本視為一個正包Ba,將負樣本視為一個負包Bn.

        定義2.示例.視頻中不同時間片段是包內(nèi)獨立的示例.正包內(nèi)示例(a1,a2,…,am)∈Ba,且正包內(nèi)至少包含一個異常示例;負包內(nèi)示例(n1,n2,…,nm)∈Bn,且負包內(nèi)所有示例均為正常.其中m是包內(nèi)示例的總數(shù).

        定義3.異常分數(shù).正樣本的異常分數(shù)記為Va,負樣本的異常分數(shù)記為Vn,該值是示例分數(shù)總和,表示視頻的異常程度.

        模型訓(xùn)練時,已知訓(xùn)練樣本的視頻級標簽(即正包Ba和負包Bn),但是包中每個示例ai和ni的標簽不可知.利用3FC計算視頻特征的異常分數(shù),并且通過MIL排序算法不斷訓(xùn)練,使得正樣本異常分數(shù)盡可能大于負樣本異常分數(shù),在正負樣本之間選擇合適的閾值.測試時,輸入一個視頻樣本并計算其異常分數(shù),與閾值比較,若大于閾值,則判定該樣本為異常,從而求解出該視頻是否異常.

        3.2 特征提取

        異常主要分兩類:表觀異常和運動異常.其中,表觀異常是指與正常樣本的外觀不同或者罕見的事物,如在人行道上出現(xiàn)的自行車或卡車,如圖2所示.運動異常是指不符合正常行為運動模式的事物,如交通事故或打架斗毆等,如圖3所示.

        圖2 表觀異常樣例

        圖3 運動異常樣例

        對于真實世界的異常檢測,應(yīng)提取表觀與運動相融合的特征,才能給機器更好的視頻數(shù)據(jù)特征表示,從而提高異常檢測的準確率.C3D[14]網(wǎng)絡(luò)易于訓(xùn)練和提取特征,它前期先是專注提取表觀特征,后期提取較突出的運動特征,因此C3D特征表示表觀信息的能力不如單一表觀特征提取網(wǎng)絡(luò),表示運動信息的能力不如單一運動特征提取網(wǎng)絡(luò),因此僅C3D特征表示無法達到最先進的性能.通過觀察和實驗表明,運動信息對于檢測打架斗毆、車輛失控、偷竊縱火等行為尤為重要.因此,在基準[8]的基礎(chǔ)上將C3D與運動信息融合,加強運動信息在特征提取中的比重,以更好的檢測運動異常.此外,本文對現(xiàn)有常用的光流提取網(wǎng)絡(luò)做了調(diào)查研究,F(xiàn)lowNet2[15]提取的光流特征最好,但是提取速度太慢,而PWC-Net提取的速度遠遠快于FlowNet2且準確率較高,因而采用預(yù)訓(xùn)練好的PWC-Net[16]提取光流特征.

        3.3 異常檢測過程

        C3D特征是保留視頻時間信息的緊湊特征,但難以有效描述視頻運動信息,本文方法同時提取三維特征C3D和光流特征,但是,由兩種特征計算出的異常分數(shù)對最終異常判斷的貢獻程度并不均等.為了解決這個問題,本文加入注意力機制來學(xué)習(xí)兩種特征的權(quán)重參數(shù).以計算異常視頻異常分數(shù)舉例,計算方法見公式(1):

        (1)

        其中,wα和wβ是注意力機制學(xué)習(xí)的權(quán)重參數(shù)且wα+wβ=1.f是一個將特征向量映射成異常分數(shù)(0-1)的函數(shù),在實驗中設(shè)計為3FC神經(jīng)網(wǎng)絡(luò).若已知每個示例標簽,那么排序損失見公式(2):

        (2)

        但弱監(jiān)督方法只提供了視頻級標簽,示例標簽未知,因此上述的排序損失并不適合MIL異常檢測模型.為解決上述問題,文獻[8]提出了如下排序損失,見公式(3):

        (3)

        由于單個正樣本(異常視頻)至少包含一個異常示例,可能包含多個異常示例,僅使用max函數(shù)只能把取得最大異常分數(shù)的示例判定為異常,忽略了其他取得稍小異常分數(shù)的示例,未能充分利用每個異常示例的異常分數(shù);負樣本(正常視頻)的每個示例都是正常的,相比于異常視頻,每個示例分數(shù)均遠小于正樣本中示例.因此,異常視頻的m個片段的異常分數(shù)之和應(yīng)遠大于正常視頻的異常分數(shù),這樣可以更好地區(qū)分正負樣本,從而更好的判斷異常.于是本文提出以下排序損失,見公式(4):

        (4)

        本文采用支持向量機SVM分類方法,并使用其替代損失函數(shù)的hinge損失,見公式(5).相比于正常行為,異常行為出現(xiàn)的頻率較小,具有稀疏性.因此在hinge損失函數(shù)中加入了稀疏限制,最終的排序損失函數(shù)見公式(6):

        (5)

        (6)

        其中,λ1是稀疏限制的損失權(quán)重.在這個MIL排序損失中,誤差是從正包和負包的所有片段(因為取得是所有示例的異常分數(shù)之和)向后傳播的.通過810個正樣本(異常視頻)和800個負樣本(正常視頻)的訓(xùn)練,本文方法能夠為正樣本預(yù)測高分,為負樣本預(yù)測較低的分數(shù),即正負樣本之間的間隔越大越好.最后,訓(xùn)練總損失函數(shù)如下:

        (7)

        其中,W表示的是模型的權(quán)重.

        通過異常分數(shù)區(qū)分正負樣本,基于此選擇合適的閾值∈用以判斷視頻是否異常.測試時,輸入測試視頻,計算其異常分數(shù)f(V)=∑i∈Bf(Vi),判定規(guī)則如下:若f(V)>表示該視頻是異常的,f(V)<表示該視頻為正常.

        A-MIL算法的訓(xùn)練過程如算法1所示.

        算法1.A-MIL訓(xùn)練過程

        輸入:訓(xùn)練視頻(正包Ba和負包Bn)

        輸出:A-MIL異常檢測模型

        過程:

        1.提取正包Ba和負包Bn中每個示例的C3D特征和光流特征;

        2.將C3D特征和光流特征輸入至3FC;

        3.利用注意力機制計算兩種特征的權(quán)重參數(shù)wα和wβ;

        4.計算Ba和Bn中每個示例的異常分數(shù);

        5.將上述的異常分數(shù)輸入至MIL排序損失中進行訓(xùn)練;

        6.返回訓(xùn)練模型

        4 實驗與結(jié)果分析

        4.1 數(shù)據(jù)集

        本文選用UCF-Crime數(shù)據(jù)集(1)http://crcv.ucf.edu/projects/real-world/,它有1900個視頻(其中950個正常視頻和950個異常視頻),長達128個小時,涵蓋虐待、逮捕、縱火、襲擊、交通事故、入室盜竊、爆炸、打架、搶劫、射擊、偷竊、入店行竊和暴力行為等13種異常事件.訓(xùn)練集為800個正常視頻和810個異常視頻,測試集為150個正常視頻和140個異常視頻.

        4.2 實驗環(huán)境和參數(shù)設(shè)置

        實驗使用的GPU為NVIDIA GTX Titan XP,在深度學(xué)習(xí)PyTorch框架下實現(xiàn).在提取特征前先將每幀的大小調(diào)整為112×112像素.將視頻劃分成32個不重疊的片段(即m=32),并把視頻看做包,每個視頻片段視為包中的一個示例.對于提取C3D特征:從C3D網(wǎng)絡(luò)的全連接FC6層提取每16幀視頻片段的C3D特征(4096D),若片段中有多個16幀的視頻片段,取平均值,然后進行L2歸一化.對于提取光流特征:首先使用PWC-Net提取每16幀視頻片段的15張光流圖,然后通過卷積自編碼器的隱藏層獲取其特征向量,若片段中有多個16幀視頻片段,取平均值,然后進行L2歸一化.將卷積自編碼器設(shè)置為3層編碼層,1層瓶頸層,3層解碼層.輸入圖像大小為112×112,且為RGB三通道,因此輸入圖像大小為112×112×45.卷積核大小為3×3,采用最大池化,stride為2,所有卷積層的激活函數(shù)都是ReLU,提取出隱藏層的4096×1的特征向量.將C3D特征和光流特征向量輸入到3FC神經(jīng)網(wǎng)絡(luò)獲取示例異常分數(shù),其中每一層分別為512、32和1個神經(jīng)元,采用60% Dropout Regularization,第1層使用ReLU激活函數(shù),最后一層使用Sigmoid激活函數(shù),以及Adagrad優(yōu)化器,初始學(xué)習(xí)率為0.001.為訓(xùn)練MIL排序模型,隨機選取30個正包和30個負包作為一個mini-batch,超參數(shù)λ1=8×10-5,λ2=0.01.

        4.3 實驗結(jié)果

        本文方法A-MIL與其他異常檢測方法的ROC曲線對比結(jié)果和AUC對比結(jié)果分別如圖4和表1所示.從表1可以看出,本文方法的AUC值分別高于Lu等[17]、Hasan等[7]、Zhu等[9]和Sultani等[6]27.6%、 12.69%、5.99%和2.79%.

        圖4 ROC曲線對比結(jié)果

        表1 AUC對比結(jié)果

        圖5為UCF-Crime數(shù)據(jù)集上的異常事件檢測結(jié)果可視化示例.本文方法為異常視頻片段得出較高的異常分數(shù),為正常視頻片段得出較低的分數(shù).橫坐標表示的是視頻幀,縱坐標表示的是每個示例的異常分數(shù)(0-1),陰影部分表示的是出現(xiàn)異常的時間段.圖5(a)-圖5(f)為成功檢測出異常事件的示例,其中圖5(a)-圖5(e)分別為包含虐待、交通事故、逮捕、縱火和突擊的異常視頻,圖5(f)是正常視頻;圖5(g)和圖5(h)為誤檢情況.

        圖5 預(yù)測結(jié)果的可視化

        5 總 結(jié)

        本文提出了利用注意力機制的多示例學(xué)習(xí)視頻異常檢測算法,將視頻數(shù)據(jù)的三維特征C3D和光流特征相融合,并利用注意力機制獲取兩種特征對視頻異常分數(shù)的貢獻程度,從而更準確地計算示例的異常分數(shù).模型訓(xùn)練時,在MIL排序算法中引入了改進的排序損失函數(shù)以更好的區(qū)分正負樣本.UCF-Crime數(shù)據(jù)集上的實驗結(jié)果表明,本文異常檢測方法的性能優(yōu)于基準方法.該工作是以粗粒度方式進行異常檢測,未來將以細粒度方式對視頻異常檢測展開研究.

        猜你喜歡
        排序特征檢測
        排序不等式
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        恐怖排序
        如何表達“特征”
        不忠誠的四個特征
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        抓住特征巧觀察
        精品亚洲乱码一区二区三区| 日日噜噜夜夜狠狠久久无码区| 久久久久久久久久久熟女AV| 开心激情站开心激情网六月婷婷| 国产91精品一区二区麻豆亚洲 | 男人的天堂av网站| 97久久天天综合色天天综合色hd | 国产成人精品免费久久久久| 国产成人一区二区三区影院动漫 | 国模91九色精品二三四| 亚洲日韩国产一区二区三区| 少妇极品熟妇人妻无码| 亚洲国产综合精品久久av| 日本五十路人妻在线一区二区| 成人午夜视频精品一区 | 少妇被粗大猛进进出出男女片| 亚洲日韩精品无码专区网址| 装睡被陌生人摸出水好爽| 中文字幕大乳少妇| 青青草好吊色在线观看| 亚洲国产精品国自产拍av| 国产精品露脸张开双腿| 亚洲一区二区三区av色婷婷| 日本最新一区二区三区视频观看| 亚洲色无码国产精品网站可下载| 亚洲情a成黄在线观看动漫尤物| 成人亚洲av网站在线看| 免费无码专区毛片高潮喷水| 人妻 日韩精品 中文字幕| 亚洲伦理一区二区三区| 亚洲av日韩专区在线观看| √新版天堂资源在线资源| 亚洲红怡院| 99视频偷拍视频一区二区三区| 国产精品久久国产精品99 gif| 婷婷丁香五月中文字幕| 无码丰满熟妇浪潮一区二区av| 日本少妇一区二区三区四区| 久久久久成人片免费观看蜜芽| 国产精品一区二区av片| 日韩激情视频一区在线观看|