亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度特征預(yù)測的異常事件檢測

        2022-07-15 08:10:24
        電子科技大學(xué)學(xué)報 2022年4期
        關(guān)鍵詞:尺度注意力卷積

        王 軍

        (電子科技大學(xué)中山學(xué)院機(jī)電工程學(xué)院 廣東 中山 528402)

        隨著公共安全體系建設(shè)的不斷發(fā)展,監(jiān)控攝像頭被廣泛應(yīng)用在各種公共場合中,如商場、街道、銀行等。由于監(jiān)控視頻內(nèi)容龐大,人工進(jìn)行異常事件檢測會耗費(fèi)大量的人力物力[1-4]。因此,如何建立一個高效的自動異常事件檢測系統(tǒng)非常重要,這也是計算機(jī)視覺研究的一個重要方向。

        異常事件檢測大體可分為基于手工特征的方法和基于深度學(xué)習(xí)的方法,近年來基于深度學(xué)習(xí)的方法被廣泛研究[1,5-10]。由于深度神經(jīng)網(wǎng)絡(luò)卓越的生成能力,基于重建和預(yù)測的異常事件檢測方法被廣泛地使用。文獻(xiàn)[1]開創(chuàng)性地將U-net 網(wǎng)絡(luò)引入異常事件檢測領(lǐng)域中,根據(jù)歷史時刻的視頻幀預(yù)測未來幀,并根據(jù)預(yù)測誤差進(jìn)行異常檢測。文獻(xiàn)[5]對UNet 網(wǎng)絡(luò)進(jìn)行改進(jìn),將其變化為一個雙流網(wǎng)絡(luò),網(wǎng)絡(luò)的兩個流分別對視頻幀進(jìn)行重建和預(yù)測,并引入生成對抗的思想進(jìn)行訓(xùn)練,以生成更加逼真的圖像,最后根據(jù)重建誤差進(jìn)行異常判斷??紤]到視頻是由一系列關(guān)聯(lián)性很強(qiáng)的圖像組成,不少學(xué)者提出時間信息的概念,并將其用于視頻異常事件檢測中。文獻(xiàn)[7]利用3D 卷積提取輸入視頻片段中的空間特征和時間信息特征,并使用兩個3D 反卷積分別進(jìn)行重建和預(yù)測。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)及其變體由于其優(yōu)秀的時間信息編碼能力被用于異常事件檢測中。文獻(xiàn)[8]將LSTM 網(wǎng)絡(luò)與軟硬注意力相結(jié)合提出行人軌跡預(yù)測網(wǎng)絡(luò),該網(wǎng)絡(luò)不僅關(guān)注行人的歷史軌跡,同時還關(guān)注該行人的鄰域?qū)ζ滠壽E的影響。文獻(xiàn)[9]將卷積自編碼器與ConvLSTM 相結(jié)合,利用卷積自編碼器獲取空間特征的變化,利用ConvLSTM 記錄特征隨時間的變化,并將光流作為補(bǔ)充信息,從全局?局部的角度分析異常。此外,由于監(jiān)控視頻的視角大多是固定的,視頻中可能會出現(xiàn)不同大小的物體,因此多尺度特征被引入到檢測模型中。文獻(xiàn)[10]提出一種雙邊多尺度聚合網(wǎng)絡(luò),該網(wǎng)絡(luò)利用不同膨脹率的空洞卷積提取不同大小感受野的特征,利用ConvLSTM 進(jìn)行雙邊時間信息編碼。

        雖然視頻異常檢測已經(jīng)取得了一些成就,但依然存在一些問題。如視頻中物體大小的變化、復(fù)雜背景的影響以及不同場景下異常的定義不同等。為了解決以上問題,本文提出一種充分利用多尺度特征和時間?空間信息的異常事件檢測方法。首先,利用經(jīng)過預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)提取特征,構(gòu)建多尺度特征融合模塊獲取更多不同大小感受野的信息,以獲得對輸入視頻幀的完備表示。其次,使用一種輕量化的通道注意力模塊來強(qiáng)調(diào)視頻中重要的前景信息,以減少背景信息對檢測的影響。在此基礎(chǔ)上,根據(jù)歷史時刻特征預(yù)測當(dāng)前時刻的特征,這將有助于彌補(bǔ)前文模塊中對上下文信息和時間信息利用不足的缺陷。在訓(xùn)練階段,最小化預(yù)測特征與真實特征之間的歐式距離使整個網(wǎng)絡(luò)收斂。在測試階段,本文認(rèn)為僅包含正常事件的視頻幀可以很好地預(yù)測,而包含異常事件的視頻幀將會產(chǎn)生很大的預(yù)測誤差。因此,在測試時將根據(jù)預(yù)測誤差進(jìn)行異常判斷。在USCD Ped2 和UMN 兩個基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實驗,實驗結(jié)果表明了提出方法的有效性。

        1 基于空洞卷積的多尺度特征提取

        為了編碼盡可能多的空間信息,使用空洞卷積網(wǎng)絡(luò)構(gòu)建一種多尺度特征融合模塊,以獲得包含輸入視頻幀的全局?局部信息的特征圖。

        由于視頻幀中存在不同大小的對象,所以不同大小感受野的信息在異常事件檢測中非常重要,而空洞卷積[11]可以通過調(diào)整膨脹率來獲得不同大小感受野的特征語義,因此本文利用空洞卷積設(shè)計了一種具有多分支結(jié)構(gòu)的多尺度特征融合模塊,用于提取視頻的多尺度特征,其結(jié)構(gòu)如圖1 所示。輸入的視頻幀首先經(jīng)過一個預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)進(jìn)行特征提取,取VGG16 第三個池化層的輸出作為多分支結(jié)構(gòu)的輸入。輸入的特征圖被送入4 個不同的分支中進(jìn)行處理。第一個分支用于保留原始特征信息,其余3 個分支通過具有不同膨脹率的空洞卷積提取多尺度特征。第二、第三、第四分支的膨脹率分別為1、3、5,則其卷積核對應(yīng)的感受野分別為3×3、 7×7、 1 1×11。由于空洞卷積的存在,可以在不做池化損失信息的情況下,增大特征圖的感受野,讓卷積的輸出包含較豐富的信息。

        圖1 多尺度特征融合模塊結(jié)構(gòu)

        在4 個分支中,小膨脹率的卷積核有利于提取視頻幀中小物體的特征,而大膨脹率的卷積核有助于提取視頻幀中大物體的特征。本文在空洞卷積的前后增加了1×1 的卷積來調(diào)整特征圖的通道數(shù),以減少模型的參數(shù)量和運(yùn)算量。最后,將4 個分支的特征圖在通道上進(jìn)行拼接,獲得一個包含全局?局部信息的特征表示U。

        2 基于通道注意力的背景抑制

        在視頻異常事件檢測中,監(jiān)控攝像頭通常是固定的,因此畫面中可能存在大量靜止的區(qū)域。異常事件通常發(fā)生在運(yùn)動變化的前景物體上,因此希望網(wǎng)絡(luò)能夠重點關(guān)注運(yùn)動變化的前景物體。在特征圖中,不同的通道包含著不同的語義信息,有的通道包含著靜止的背景信息,有的通道包含著變化的前景信息。為了減少背景信息對檢測的影響,強(qiáng)調(diào)當(dāng)前幀中重要的前景物體的信息,本文引入通道注意力機(jī)制。通道注意力通過計算各個通道中包含的信息以及通道之間的關(guān)系生成通道的權(quán)重,并將權(quán)重賦予其對應(yīng)的通道。本文基于SENet 設(shè)計了一種輕量化通道注意力模型,包含擠壓、激活、重新分配權(quán)重3 個步驟,其結(jié)構(gòu)如圖2所示。其中,擠壓(squeeze)是通過在輸入特征圖的每個通道上執(zhí)行全局平均池化得到特征圖的全局壓縮特征向量;激活(excitation)是通過兩組1×1 卷積、批正則化、激活函數(shù)獲得輸入特征圖中每個通道的權(quán)值;重新分配權(quán)重操作(reassign weights)是將權(quán)值對輸入的特征進(jìn)行加權(quán)。

        圖2 輕量化通道模塊注意力結(jié)構(gòu)

        首先在擠壓操作中,輸入特征圖U經(jīng)過全局平均池化從H×W的大小池化成一個一維向量,該過程可表示為:

        式中,Uc(i,j)表 示輸入特征U的第c個通道 (i,j)位置上的空間信息;Fsq(Uc) 表 示擠壓操作;zc表示空間描述符。

        擠壓操作之后是激活操作,現(xiàn)有的通道注意力機(jī)制通常使用全連接層來計算通道之間的關(guān)系和權(quán)重,這無疑會增加運(yùn)算的復(fù)雜度并且可能會導(dǎo)致過擬合。本文使用兩個1×1 的卷積來替換全連接層,以減少運(yùn)算量。在每一個卷積層之后使用批正則化層進(jìn)行正則化,以重新調(diào)整數(shù)據(jù)的分布,保證訓(xùn)練過程中梯度的有效性。在兩個批正則化后面,分別使用ReLU 和Hard-sigmoid 函數(shù)作為激活函數(shù)。激活操作可表示為:

        式中,z表示經(jīng)過擠壓后得到的一維向量;W1和W2分別表示兩個卷積層的權(quán)重;N表示批正則化;σ和 δ分別表示hard-sigmoid 激活函數(shù)和ReLU 激活函數(shù);Fex(z)表 示激活操作;S表示通道注意力權(quán)值,為一維向量,維度等于輸入特征圖的通道數(shù)512。權(quán)值中某個維度的值越高,表明其對應(yīng)的通道的重要性越高。

        最后,在重新分配權(quán)重中,將輸入特征圖U與通道權(quán)重相乘,強(qiáng)調(diào)輸入特征圖中重要的通道信息。

        重新調(diào)整通道權(quán)重:

        式中,Sc表 示第c個通道的注意力權(quán)重;Uc表示輸入的第c個通道的特征圖;Fscale(U,S)表示重新調(diào)整權(quán)重操作;Fatt表示進(jìn)行注意力計算后的通道注意力特征圖。

        3 基于特征預(yù)測的異常事件檢測

        正常事件狀態(tài)變化比較平穩(wěn),可以預(yù)測,而異常事件狀態(tài)通常會出現(xiàn)突變,不可預(yù)測。因此可以通過比較某幀的預(yù)測特征和真實特征來判斷事件是否異常。

        監(jiān)控視頻是由一系列關(guān)聯(lián)性很強(qiáng)的視頻幀組成,為了充分利用視頻幀之間的時間信息,本文構(gòu)建了深度特征預(yù)測模塊。該模塊根據(jù)歷史時刻的特征圖預(yù)測當(dāng)前時刻的特征圖。將經(jīng)過注意力模塊后獲得的連續(xù)5 個歷史時刻的特征圖在通道上進(jìn)行拼接,組成深度特征預(yù)測模塊的輸入Xt。由于輸入的特征圖通道數(shù)較高,因此本文設(shè)計了一個僅包含1×1 卷積核、ReLU 激活函數(shù)的特征預(yù)測模塊,該模塊由編碼器、解碼器組成,其具體結(jié)構(gòu)如表1所示。

        表1 特征預(yù)測模塊的結(jié)構(gòu)

        在深度特征預(yù)測模塊中,編碼器計算不同時刻特征圖之間的關(guān)系,并將其映射到一個低維空間中,解碼器根據(jù)低維空間中的特征預(yù)測當(dāng)前時刻的特征圖。預(yù)測特征圖與真實特征圖之間的差異將被用于異常判斷。

        訓(xùn)練時,在僅包含正常數(shù)據(jù)樣本的訓(xùn)練集中對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最小化預(yù)測特征與真實特征之間的歐式距離來對整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

        在測試時,根據(jù)當(dāng)前時刻VGG16 提取的特征圖與預(yù)測特征圖之間的差異來進(jìn)行異常判斷,計算預(yù)測特征圖與VGG16 第三個池化層輸出特征圖之間的歐式距離,若誤差大于設(shè)定的閾值α,則說明輸入的視頻片段中存在異常。公式為:

        式中,st表示測試時當(dāng)前時刻的異常得分。

        4 實驗與結(jié)果

        在兩個公開數(shù)據(jù)集UCSD Ped2[19]和UMN[14]上驗證本文方法的有效性。它們的訓(xùn)練數(shù)據(jù)都僅包含正常樣本。

        4.1 實驗數(shù)據(jù)

        UCSD 數(shù)據(jù)集通過學(xué)校里固定在較高位置上俯瞰人行道的攝像機(jī)獲得,本文僅使用Ped2 進(jìn)行實驗。Ped2 中含有騎自行車、滑旱冰、小汽車等異常事件,共有16 個訓(xùn)練視頻樣本和12 個測試視頻樣本。

        UMN 數(shù)據(jù)集包含3 個不同的場景和11 個視頻片段,訓(xùn)練集包含3300 幀,測試集包含4439幀。其異常事件主要包括人群單方面跑動、人群四散等。

        4.2 實驗設(shè)置

        使用的深度學(xué)習(xí)訓(xùn)練框架為Pytorch,所有的實驗都基于NVIDIA RTX2080Ti。將輸入的視頻幀大小調(diào)整到224×224 以滿足vgg16 的輸入標(biāo)準(zhǔn)。訓(xùn)練時使用隨機(jī)梯度下降法進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率設(shè)置為1×10?4,并在訓(xùn)練100 輪后將其降低至1×10?5。選取幀級別的ROC 曲線及ROC 曲線下面積AUC作為異常行為的評價指標(biāo),在該評估方法中,只要當(dāng)前幀中存在異常特征,則立即判斷該視頻幀為異常幀。

        4.3 消融實驗

        4.3.1 多尺度特征的影響

        為了證明多尺度特征融合的有效性,在基線網(wǎng)絡(luò)U-Net[1]的瓶頸層中添加多尺度模塊來進(jìn)行消融實驗。

        實驗中修改U-Net 的輸入為單個視頻幀,輸入視頻幀經(jīng)過一系列的卷積層進(jìn)行特征提取,利用反卷積和跳轉(zhuǎn)連接進(jìn)行圖像重建。計算重建圖像與輸入圖像的歐式距離來判斷輸入視頻幀是否存在異常。在評價指標(biāo)上,對比了平均正常得分和平均異常得分之差 ?s, ?s的值越大,模型對正常事件和異常事件的區(qū)分能力越強(qiáng),從而說明特征在異常事件檢測中的可分性越好。實驗結(jié)果如表2 所示,與基線網(wǎng)絡(luò)相比,使用多尺度特征融合后平均正常得分與平均異常得分的差值更大,這說明在U-Net 的瓶頸層添加的多尺度模塊編碼了更多的空間特征,解碼器可以利用更多的特征來對圖像進(jìn)行重建。因此添加了多尺度模塊的基線網(wǎng)絡(luò)可以獲得更好的效果。

        表2 不同方法在USCD Ped2 和UMN 上的 ?s對比結(jié)果

        4.3.2 通道注意力的影響

        為了證明所提出的通道注意力的有效性,本文在結(jié)合了多尺度特征的基線網(wǎng)絡(luò)上進(jìn)行通道注意力的實驗。實驗首先在基線網(wǎng)絡(luò)U-Net 上添加多尺度特征融合模塊,其次在多尺度特征融合模塊后面添加通道注意力進(jìn)行對比實驗。與前一節(jié)的實驗評價方法一樣,對比平均正常得分與平均異常得分之間的差值。

        實驗結(jié)果如表3 所示。由實驗結(jié)果可知,在不使用注意力的情況下,網(wǎng)絡(luò)對特征圖中的所有通道同等看待,容易受到淺層特征中噪聲以及背景等因素的干擾,因此獲得的檢測效果較差。而在多尺度特征融合模塊后面添加注意力機(jī)制后,正常得分與異常得分之間的差值變大,這表明通道注意力可以有效地減少背景冗余信息,增加運(yùn)動變化的前景物體信息在特征圖中的權(quán)重。此外,在SENet 中使用多層感知機(jī)來計算不同通道間的關(guān)系來獲取各個通道的權(quán)重,這不可避免地容易造成過擬合,使得檢測效果下降,而本文利用兩個1×1 的卷積來替換多層感知機(jī),并在其后面添加批正則化來保證訓(xùn)練過程中梯度的有效性,避免了過擬合的現(xiàn)象,同時減少了模型的參數(shù)量,因此獲得的實驗結(jié)果較好。

        表3 不同通道注意力的對比實驗結(jié)果

        4.4 對比實驗

        在幀級別的評估方法下,將提出的方法與已有方法在Ped2 數(shù)據(jù)集上進(jìn)行對比,其中包括基于手工特征的方法以及基于深度學(xué)習(xí)的方法[13-18]。在異常檢測中,將異常判斷的閾值設(shè)置為0.1、0.2、0.3、0.5、0.8,可以計算出5 組不同的假陽率(false positive rate, FPR)和真陽率(true positive rate,TPR)。以FPR 為橫坐標(biāo),TPR 為縱坐標(biāo),繪制出ROC 曲線,ROC 曲線下的面積即為AUC,面積越大,則檢測的效果越好。

        在Ped2 數(shù)據(jù)集上的實驗結(jié)果(ROC 曲線)如圖3 所示,本文方法在幀級別下,獲得了最好的效果。Social Fore[14]僅使用了手工特征的方法,因此其得到的幀級別AUC 僅為0.556。文獻(xiàn)[13]將外觀特征和運(yùn)動特征結(jié)合起來,幀級別下AUC 提升至0.850,但其遺漏了時間信息。其他方法如Unmasking[15]、Hashing[16]、spatiotemporal saliency detector[18]以及文獻(xiàn)[19]使用使用MDT(mixtures of dynamic textures)方法在幀級別下AUC 分別獲得了0.822、0.910、0.877、0.875 的檢測效果。以上方法的數(shù)據(jù)均來自于文獻(xiàn)原文。本文方法由于考慮了視頻中全局?局部特征,并充分利用了時間信息,因此獲得了更好的檢測效果,幀級別下AUC達(dá)到了0.925。

        圖3 不同方法在Ped2 上的幀級別ROC 曲線對比

        在UMN 數(shù)據(jù)集上驗證本文方法,并將所得的結(jié)果與上面的方法進(jìn)行幀級別ROC 比較,結(jié)果(ROC 曲線)如圖4 所示。本文方法同樣獲得了最好的結(jié)果,幀級別AUC 達(dá)到了0.991?;谑止ぬ卣鞯姆椒⊿ocial Fore[14]獲得的幀級別AUC 為0.96,將外觀特征與運(yùn)動特征相結(jié)合的方法Motion-appearance model[13]獲得的幀級別AUC 為0.983;將Unmasking 遷移至異常事件檢測的方法[15]獲得的幀級別AUC 為0.951;基于Hashing filter[16]的方法,基于spatiotemporal saliency detector[18]的方法以及文獻(xiàn)[19]的方法分別獲得的幀級別AUC為0.987、0.938、0.961。

        圖4 不同方法在UMN 上的幀級別ROC 曲線對比

        5 結(jié) 束 語

        本文提出了一種充分利用視頻中多尺度信息和時間信息的異常事件檢測網(wǎng)絡(luò),該網(wǎng)絡(luò)不僅關(guān)注視頻中的全局?局部信息,還考慮了空間?時間信息。該網(wǎng)絡(luò)利用空洞卷積獲取多個不同大小的感受野的信息并進(jìn)行融合以獲得整個視頻幀的全局?局部表示,并且引入一種輕量化通道注意力機(jī)制,通過計算特征圖中不同通道所含信息的重要程度,提升重要通道的權(quán)重,抑制背景和噪聲等干擾因素的影響。最后,為了充分利用時間信息,使用自編碼器編碼歷史時刻的特征序列并預(yù)測當(dāng)前時刻的特征,預(yù)測特征與真實特征之間的誤差將被用于異常判斷。在兩個基準(zhǔn)數(shù)據(jù)集上與幾種方法進(jìn)行了對比實驗,實驗結(jié)果證明了本文方法的有效性。

        猜你喜歡
        尺度注意力卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        財產(chǎn)的五大尺度和五重應(yīng)對
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        激情久久黄色免费网站| 国产亚洲精品日韩综合网| 美女被射视频在线观看91| 少妇人妻精品久久888| 中文字幕人妻无码视频| 九九视频在线观看视频6| 开心五月激情综合婷婷| 囯产精品无码va一区二区| 亚洲国产精品色一区二区| 亚洲av无一区二区三区久久蜜桃| 无码中文字幕免费一区二区三区| 无码不卡高清毛片免费| 亚洲成av在线免费不卡| 一道本久久综合久久鬼色| 肥臀熟女一区二区三区| 久久久亚洲欧洲日产国产成人无码| 亚洲一区二区日韩在线| 国产女人好紧好爽| 18禁超污无遮挡无码免费游戏| 波多野结衣一区二区三区免费视频| 亚洲国产av一区二区不卡| 狠狠人妻久久久久久综合蜜桃 | 美丽人妻被按摩中出中文字幕 | 在线观看老湿视频福利| 广东少妇大战黑人34厘米视频| 免費一级欧美精品| 国产一区二区三区在线视频观看| 午夜精品久久久久久99热| 国产精品亚洲A∨天堂| 日韩va高清免费视频| 亚洲va韩国va欧美va| 熟女俱乐部五十路二区av| 一区二区三区在线观看日本视频| 亚洲久悠悠色悠在线播放| 亚洲熟女乱色综合亚洲图片| 国内成人精品亚洲日本语音| 日本一区二区三区清视频| 国产午夜伦鲁鲁| 久久久久久久中文字幕| 国产精品午夜福利亚洲综合网 | 亚洲国产成人AⅤ片在线观看|