亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時間和空間注意力機制的視頻異常檢測

        2023-08-15 02:02:06付孟丹宣士斌李培杰
        計算機技術與發(fā)展 2023年8期
        關鍵詞:特征檢測方法

        付孟丹,宣士斌,,王 婷,李培杰

        (1.廣西民族大學 電子信息學院,廣西 南寧 530006;2.廣西民族大學 人工智能學院,廣西 南寧 530006)

        0 引 言

        隨著網(wǎng)絡技術的快速發(fā)展,社會進入了嶄新的數(shù)字化時代。面對生活中的海量信息,傳統(tǒng)的監(jiān)控系統(tǒng)只負責存儲記錄視頻信息,便于以后調查,需要大量的人工,耗時耗力,而監(jiān)控視頻中的異常事件以及人體異常行為的檢測能夠有效降低檢測成本,所以視頻異常檢測技術成為人工智能應用領域的一個重要研究方向。

        視頻異常檢測是指通過算法檢測視頻中不符合預期的行為,比如人行道上的車輛等異常事件[1]?;谝曨l的異常檢測存在諸多難點:視頻幀內具有很強的空間連續(xù)性和時間連續(xù)性;異常事件具有不可預測性、多樣性等特點;也具有很強的場景依賴性,不同的場景對異常行為的定義不同,部分場景下的異常事件在其他的場景下可能會變成正常事件。因此,往往通過半監(jiān)督或者無監(jiān)督的方法進行異常檢測,先對僅包含正常樣本的訓練集進行訓練,利用訓練好的模型,再對測試集進行檢測。

        ViT(vision transformer)成功將自然語言處理的Transformer用于計算機視覺。該方法將輸入的圖片分成多個塊(patch),每個塊投影成固定長度的向量,獲取這些塊的線性嵌入序列后,輸入到Transformer編碼器中進行圖像分類的訓練。

        該文引入基于時間和空間注意力機制[2]的異常檢測學習方法。相較于處理圖片數(shù)據(jù)的ViT,該方法增加了時間和空間注意力機制,先從各個視頻幀圖片中分離出圖像塊,再將這些塊的線性嵌入序列輸入到Transformer編碼器。Transformer自注意力需要計算所有標記對(token)的相似性,由于視頻中存在大量的圖像塊,為了降低相似性計算的復雜度,在時空體積上引入了可擴展的自注意力機制,同時學習視頻幀上圖像塊序列的時空特征。尤其在視頻數(shù)據(jù)集的實際檢測過程中,異常現(xiàn)象總是出現(xiàn)在某一時間段內,引入時間注意力能更好地關注異常時間片段,從而提高檢測效率。視頻中的異常區(qū)域作為前景,正常區(qū)域作為背景,在檢測過程中容易出現(xiàn)背景沖淡異常區(qū)域的現(xiàn)象,因此模型應該更加側重于學習前景區(qū)域的特征,抑制無關背景的特征,提取整個圖片的興趣點,更好地關注局部區(qū)域,則引入空間注意力,提高檢測效率。實驗結果表明,在UCSD Ped2[3]、The CUHK Avenue[4]數(shù)據(jù)集上,該方法取得了較好的效果。

        貢獻如下:

        (1)針對MNAD(learning Memory-guided Normality for Anomaly Detection)[5]中的記憶模塊容量受到限制,特征信息易丟失的問題,以及記憶模塊與Transformer關注的信息相沖突,在原模型中引入時空注意力模塊代替記憶模塊,學習高層特征信息和圖像局部信息。

        (2)考慮到異常檢測任務精度取決于時間和空間兩個因素,在原模型中加入時間注意力和空間注意力,關注時間和空間上下文信息。關注異常時間片段,同時集中關注局部區(qū)域,從而提高檢測效率。

        1 相關基礎

        (1)傳統(tǒng)的異常檢測方法。

        傳統(tǒng)異常檢測使用手工提取特征空間,然后用機器學習方法檢測異常。常用的特征提取方法有:方向直方圖、光流直方圖等,將提取的視頻事件特征表示作為輸入,利用經(jīng)典的機器學習方法進行建模。比如,文獻[6]將表示異常事件的特征向量輸入單類別支持向量機(support vector machine,SVM)建立異常檢測模型。

        (2)基于深度學習的異常檢測方法。

        深度學習網(wǎng)絡在圖像和視頻的復雜數(shù)據(jù)中自動學習特征,并使用端到端的神經(jīng)網(wǎng)絡模型檢測異常。主要分為兩種:①基于重構的異常檢測方法,如遞歸神經(jīng)網(wǎng)絡[7];②基于預測的方法。

        在異常檢測過程中,傳統(tǒng)方法并不能很好地處理高維數(shù)據(jù)的復雜分布問題。為了提升異常檢測效率,目前很多方法都結合CNN,并提出重構模型進行訓練。由于卷積神經(jīng)網(wǎng)絡具有強大的表征能力,容易造成數(shù)據(jù)的誤判。針對捕捉序列數(shù)據(jù)的長期依賴關系,利用長短期記憶以及本地存儲單元的方法,然而,記憶性能有限。針對這些問題,Gong等人[8]利用增強自動編碼器(MemAE)進行異常檢測,使用CNN功能。盡管這些方法已經(jīng)取得了好的效果,但是沒有考慮正常樣本的多樣性。而MNAD[5]使用連續(xù)的內存表示和鍵值對讀/寫存儲器,提出特征緊湊性明確區(qū)分記憶項目,充分利用正常樣本的多樣性,同時削弱神經(jīng)網(wǎng)絡的表示能力,達到區(qū)分正常幀和異常幀的目的。該方法存在容量受限,信息丟失問題。

        (3)Transformer。

        Transformer結構[9]在捕捉單詞之間的長期依賴關系以及訓練可伸縮性方面表現(xiàn)很出色,因此也引入到圖像分類、目標檢測等領域。文獻[10]將Transformer運用到圖像分類中,利用監(jiān)督方法對模型進行圖像分類訓練。

        記憶模塊更多關注的是全局信息,而Transformer關注的是視頻幀的局部和全局的時序信息,兩者作用產生沖突,并不能很好地處理局部特征信息。因此,引入基于Transformer的時間和空間注意力機制[2]取代記憶模塊部分,將注意力集中于各視頻幀主要的特征部分,各視頻幀之間的聯(lián)系更加緊密,有助于更好地預測,避免特征信息丟失。并且能夠很好地結合空間和時間上下文信息,應用于視頻,將注意力機制從圖像空間擴展到時空三維空間。

        2 文中方法

        模型主要由兩部分組成:編碼器、解碼器。圖1(a)展示了預測任務的模型框架,圖1(b)展示了Time-Space Transformer block(Temporal and Spatial attention mechanism)模塊,從數(shù)據(jù)集中取出連續(xù)的五幀視頻幀,輸入前四幀視頻幀到編碼器,每幀圖像大小為H×W×C,由CNN提取特征,輸出H×W×C的特征圖。為了得到圖像中的關鍵區(qū)域,將特征圖分解為N個不重疊的特征塊(patch),每個小塊的大小為P×P,將每個塊投影成固定長度的向量,然后將這些塊的線性嵌入序列輸入到Time-Space Transformer block的編碼器中,對數(shù)據(jù)序列進行歸一化處理以及時間和空間注意力機制的加權處理,能夠提取全局的時間和空間上的關鍵信息,多層感知機(MLP)將輸出轉換為與輸入同樣大小的維度,然后輸入到解碼器進行重構,計算第五幀和輸出預測下一幀之間的誤差。對于重構任務,輸入單個視頻幀到CNN中提取特征,得到特征圖后,經(jīng)過注意力模塊提取全局的關鍵信息,然后讀取到解碼器中重構視頻幀,計算重構視頻幀與輸入視頻幀之間的誤差。圖1展示了模型框架,重構輸入幀和預測下一幀,以便進行無監(jiān)督的異常檢測。然后連續(xù)輸入四個視頻幀來預測第五個視頻幀。由于可以利用之前的預測對未來框架進行重構,因此使用幾乎相同的網(wǎng)絡結構,下文將描述重構任務細節(jié)。

        圖1 基于時間和空間注意力機制的異常檢測

        2.1 網(wǎng)絡架構

        2.1.1 編碼器和解碼器

        提出的模型利用U-Net[11]架構(廣泛用于重構[12]和未來幀預測[13])從輸入視頻幀中提取特征元素,并獲取重構幀。由于ReLU截斷了負值,限制不同的特征表示,因此編碼器前半部分的CNN層應用該架構,并刪除最后一批歸一化[14]和ReLU層[15],添加了L2正則化層,使特征具有共同的比例。另外,U-Net架構中的跳躍連接無法從視頻幀中提取有用的特征。因此,移除重構任務的跳躍連接,同時保留輸入視頻幀來預測未來的幀。

        2.1.2 時間和空間注意力

        每個Space-Time Transformer block中的計算過程主要由Attention和MLP兩部分組成。其主要流程如圖2所示。

        圖2 時間和空間注意力機制

        2.1.3 Attention部分

        原模型編碼器提取特征后輸出是批次、幀數(shù)*通道數(shù)(channel)、寬、高,為了更好地關注局部和全局信息,文中方法利用MLP來處理維度之間變換,將幀數(shù)和通道數(shù)分開處理,方便注意力機制層對視頻幀的操作,分別從時間和空間關聯(lián)角度對視頻幀提取特征信息。

        視頻幀的輸入:時間和空間注意力模塊[3]從原始視頻中采樣,模型輸入為X∈RH×W×3×F,表示大小H×W的F幀RGB圖像。

        分解成塊:將每一幀分解為N個大小為P×P的非重疊塊的序列,即N=HW/P2。然后將這些塊拉平為向量x(p,t)∈R3P2,其中p=1,2,…,N表示空間位置,t=1,2,…,F表示坐標系上的索引。

        (1)

        (2)

        (3)

        (4)

        (5)

        (6)

        softmax操作結束后,把得到的注意力值a和value值相乘、求和,按照公式(7)計算得到當前的塊與相鄰空間和時間上塊的關聯(lián)信息。

        最后,時間和空間注意力模塊中的每個編碼器中都對應多個多頭注意力的加權和,并經(jīng)由殘差神經(jīng)網(wǎng)絡輸出。其中,把單個注意力結構的s連接起來,然后乘上權重Wo,與第l-1個編碼器輸出的z(l-1)相加,如公式(8)。

        (8)

        MLP部分按公式(9)計算,通過感知機嵌套LN計算得到的值與計算注意力得到的z'(l)值相加,得到輸出值z(l)

        (9)

        對于z(l),所提方法剔除類別值,轉置后,利用MLP轉換維度,然后輸入到解碼器中進行重構。

        (10)

        (11)

        εt分數(shù)高于閾值γ時,將其視為異常樣本,并且該權重函數(shù)能夠關注重構誤差較大的區(qū)域。

        2.2 損失函數(shù)

        (12)

        2.3 異常分值

        異常分值[16]表示量化視頻幀的正常或異常程度的一種度量。在檢測視頻幀的異常分值時,公式(13)重新計算輸入視頻與其對應重構幀之間的峰值信噪比(Peak Signal to Noise Ratio,PSNR),N表示視頻幀的像素數(shù),視頻幀出現(xiàn)異常情況時,PSNR值會很低,利用最小-最大均方差將誤差歸一化到[0,1]范圍內。最終,視頻幀的異常分值st可按公式(15)計算。其中公式(14)中g(·)為整個視頻幀的最小最大歸一化公式:

        (13)

        (14)

        (15)

        3 實 驗

        3.1 實驗數(shù)據(jù)集

        在兩個基準數(shù)據(jù)集USCD Ped2和The CUHK Avenue上進行評估。USCD Ped2行人數(shù)據(jù)集[3]包含ped1和ped2,分別為16個訓練視頻以及12個測試視頻,每幀像素為240×360。該文使用ped2數(shù)據(jù)集,其中包含12個不規(guī)則事件,包括騎自行車、滑板等。The CUHK Avenue數(shù)據(jù)集[4]包含由16個訓練視頻和21個測試視頻組成的47個異常事件,比如錯誤行走方向、跑步等,像素大小為360×640。

        3.2 實驗環(huán)境

        將每個視頻幀的大小調整為256×256,將其標準化為[-1,1]的范圍。設定特征圖的高度H和寬度W,以及特征通道數(shù)C,分別為32、32、512。使用Adam Optimize[16],β1=0.9和β2=0.999。在UCSD Ped2[3]、The CUHK Avenue[4]上epoch分別設置為40、60,batch_size設置為1,設置重構任務的初始學習率分別為2e-5和2e-4。重構任務和預測任務,分別設置第一次步長為1和5,結合余弦退火法[17],設置閾值分別是γ=0.015和γ=0.1。所有模型都使用Quadro RTX 8000進行端到端訓練。

        3.3 評價指標

        在視頻異常檢測領域中,為了進行定量比較,實驗中通常計算相應受試者工作的特征曲線ROC(receiver operating characteristic)下的面積AUC(area under the corresponding ROC curve)和等錯誤率EER(equal error rate)來評估性能。

        曲線下面積(area under curve,AUC):用于測量ROC曲線下的面積。取值在0~1,值越大,分類性能越好。ROC曲線橫坐標為假陽率(FPR),縱坐標為真陽率(TPR)。其中,P、N代表實際值為正例和反例,TP:預測為正例實際為正例的樣本個數(shù),FP:預測為正例實際為反例的樣本個數(shù),FN:預測為反例實際為正例的樣本個數(shù),TN:預測為反例實際為反例的樣本個數(shù),如公式(16)和公式(17):

        (16)

        (17)

        AUC計算如公式(18):

        (18)

        其中,(xi,yi)為ROC曲線坐標,xi代表FPR,yi代表TPR。

        等錯誤率:FPR與假陰性率(false negative rate,FNR)相等時的錯誤率。當分類器中真陽率和假陽率滿足FPR=1-TPR時,被錯分的視頻幀數(shù)量占所有視頻數(shù)量的比例,其數(shù)值越小表明方法的性能越好。

        3.4 結果分析

        模型在UCSD Ped2和The CUHK Avenue上與異常檢測的最新技術進行了比較?!啊敝姓故玖似渌麢z測方法的結果,“Recon”和“Pred”表示重構和預測任務,表1展示了實驗結果對比。

        表1 視頻異常檢測算法AUC對比 %

        (1)不同方法對比。

        在UCSD Ped2[3]和The CUHK Avenue[4](Avenue)數(shù)據(jù)集上,文中的模型任務達到了最好的效果,平均AUC分別是95.4%和85.8%,展示了利用基于時間和空間上的注意力機制進行異常檢測的方法的有效性。在The CUHK Avenue數(shù)據(jù)集上,與其他重構方法相比,文中模型的重構能力具有更強的競爭性。

        UCSD Ped2數(shù)據(jù)集包括的異常事件主要有汽車、騎自行車等情景。提出模型的預測能力在該數(shù)據(jù)集上表現(xiàn)得尤為突出,但是在重構任務中表現(xiàn)欠佳,主要原因是由于注意力機制具有單向性或對某些環(huán)境不敏感。

        文獻[25]中提出了加入注意力的模型,對特征圖重新分配權重,達到抑制無關背景區(qū)域,突出前景運動的目標,沒有有限的時間軸相關性的局限性。該文提出的時間和空間注意力模塊能很好地關注異常時間段中異常運動目標,提升模型的檢測效果。在The CUHK Avenue數(shù)據(jù)集中,文中檢測模型的視頻異常檢測效果更好,AUC精度會高出0.5%,由于視頻中環(huán)境的差異性和模型適用性,在UCSD Ped2數(shù)據(jù)集中,文獻[25]提出的模型檢測精度好一些。

        文獻[7]提出了一種時間相干稀疏編碼(TSC)強制使用相似的重建系數(shù)對相似的相鄰幀數(shù)進行編碼,用堆疊遞歸神經(jīng)網(wǎng)絡映射TSC優(yōu)化了參數(shù)并加速了異常預測,適用于一段時間內的特征處理。該文結合Transformer的思想,在異常檢測過程中增加時間和空間注意力的方法,解決了時間軸相關性的局限性,適用于處理中長視頻,對中長時間的時空特點進行建模。在兩個數(shù)據(jù)集的實驗表明,提出的方法能夠提高異常判別性和樣本檢測效率。

        圖3和圖4是關于數(shù)據(jù)集UCSD Ped2評估指標(曲線下面積ROC、等錯誤率)的對比。

        圖3 繪制ROC曲線

        圖4 繪制等錯誤率的曲線

        如圖3所示,關于曲線下面積的對比,左圖為文中方法,右圖為文獻[5]的方法,橫坐標代表FPR,縱坐標代表TPR。經(jīng)過實驗對比,文中方法的檢測效果會更好。如圖4所示,關于等錯誤率的對比,左圖為文中方法,右圖為文獻[5]的方法,縱軸代表誤識率,橫軸代表拒識率。EER是ROC曲線與ROC空間中對角線的交點。由實驗對比可知,文中方法的錯誤率值更小,表示方法的性能好,檢測效果更好。

        (2)可視化展示。

        針對文獻[5]中記憶模塊容量受限,相關特征信息丟失,造成誤判,在檢測中發(fā)現(xiàn)很多異常數(shù)據(jù)樣本的異常得分很低等現(xiàn)象,提出帶有時間和空間注意力機制的異常行為識別模型。檢測結果可視化如圖5所示。

        圖5 關于UCSD Ped2數(shù)據(jù)集和The CUHK Avenue數(shù)據(jù)集視頻序列的下一幀預測的實驗結果(左面為輸入幀,右面標記出了不正常的區(qū)域,其余的為正常區(qū)域)

        圖5清晰展示了UCSD Ped2數(shù)據(jù)集中04和06視頻序列,The CUHK Avenue數(shù)據(jù)集中03和11視頻序列關于模型預測任務的實驗結果,結果展示了視頻序列里面的一些異常現(xiàn)象,例如人行道中的汽車、自行車等異常情況。在MNAD檢測方法會出現(xiàn)連續(xù)幀中的異常檢出率低,并且有的視頻幀異常分數(shù)得分很低的情況,而文中方法能夠很好地將連續(xù)幀中的異常區(qū)域突顯出來,在The CUHK Avenue數(shù)據(jù)集03視頻序列中的間隔幀中的異常區(qū)域也預測的很好,說明了文中方法的有效性,有效緩解因容量受限,信息丟失造成的誤判、漏檢等問題。

        為了進行可視化,利用文獻[16]的像素異常得分,當異常得分較大的區(qū)域大于幀內平均值時就將其標記。

        (3)消融實驗。

        圖6給出了所提模型在訓練時不同的注意力關注特征信息的不同模式。在表2中,展示了所提模型在UCSD Ped2數(shù)據(jù)庫上重構和預測任務模型的消融實驗AUC性能變化。

        表2 實驗結果AUC %

        圖6 不同方式計算每個塊注意力值的效果

        圖6展示了基于空間的注意力以及基于時間和空間注意力的模式。空間注意力:只取視頻里同一幀內的圖像塊進行注意力機制。分散時空注意力:先對不同幀中相同位置的塊進行注意力機制,再對同一幀中所有圖像塊進行注意力機制。說明前者只能關注一幀圖片上的局部信息,忽視了連續(xù)視頻幀的相關性。后者加入時間相關性,能夠更好的關注視頻幀的時間上下文信息。

        如表2所示,在記憶模塊的基礎上加入了時間和空間的注意力機制,結果使用PSNR計算異常分數(shù)94.8%,而所提模型的效果在這個基礎上提高0.6%。這是由于Transformer更多的是關注視頻幀圖像中局部的特征信息,而記憶模塊更多是關注視頻里面的全局信息,導致兩者共同作用時發(fā)生沖突。(1)如果只有空間上下文提取信息,在表2中第一行可以看到異常檢測效果降低了很多,說明了時間注意力的重要性。(2)第二行則是沒有記憶模塊部分,加入時間和空間的注意力機制,結果顯示,該文提出的方案會比上面的方案更有效。在使用時,會有時間和空間注意力順序問題,實驗發(fā)現(xiàn),只有時間先的方式,效果要略好一些。

        基于文中模型框架,將只加入空間注意力機制和加入基于時間和空間的注意力機制相比,基于時間和空間的注意力機制效果更好,它提供了0.6%的AUC增益。從以上實驗得出,基于時間和空間注意力機制相輔相成,其中異常評分St,使用PSNR量化異常的程度發(fā)揮到更好。

        4 結束語

        考慮到基于記憶的異常檢測模型中的記憶模塊容量有限,在加入Transformer時會產生沖突的實際情況,提出基于時間和空間的自注意力機制來替換記憶模塊。在公共數(shù)據(jù)集上展示了該方法的有效性,實驗表明,該模型優(yōu)于最新技術。該模型具有以下優(yōu)點:(1)基于Transformer的理念,相對簡單且容易理解;(2)通過提取空間上下文信息來建立視頻幀中的目標之間的聯(lián)系實現(xiàn);(3)可以應用于長期視頻建模。但是模型的重構任務在適用環(huán)境上受到限制。因此,該模型并不能同時滿足所有的場景,有待進一步完善。

        猜你喜歡
        特征檢測方法
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        可能是方法不對
        小波變換在PCB缺陷檢測中的應用
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        亚洲国产成人久久精品一区| 亚洲国产成人AⅤ片在线观看| 白白视频在线免费观看| 美女被黑人巨大入侵的的视频 | 少妇被又大又粗又爽毛片久久黑人| a级毛片免费观看在线| 98色花堂国产精品首页| 日韩在线中文字幕一区二区三区 | 国产午夜手机精彩视频| 国产成人精品成人a在线观看| 国产在视频线精品视频二代| 日本淫片一区二区三区| 亚洲精品第一国产综合精品| 久久精品国内一区二区三区| 国产精品麻豆A啊在线观看| 91国产熟女自拍视频| 97久人人做人人妻人人玩精品| 亚洲精品国产av成拍色拍| 北岛玲日韩精品一区二区三区 | 国产精品美女久久久网站三级| 亚洲av鲁丝一区二区三区黄| 日韩www视频| 97国产精品麻豆性色| 男女18视频免费网站| 4399理论片午午伦夜理片| 99热精品国产三级在线观看| 成人短篇在线视频夫妻刺激自拍| 日韩精品第一区二区三区 | 国产高清在线精品一区二区三区| 亚洲av无码乱码在线观看牲色| 亚洲 欧美 激情 小说 另类| 美女精品国产一区二区三区| 亚洲国产中文字幕精品| 国产精品无码一区二区在线看| 国产又色又爽又刺激视频| 国产一级一片内射视频在线| 无码专区人妻系列日韩精品| 无码精品国产va在线观看| 免费视频成人 国产精品网站| 国产激情一区二区三区成人| 北条麻妃国产九九九精品视频 |