鄭 重,楊曉文,謝劍斌,歐陽(yáng)楠楠,忽欣諭,王晉濤
(1.中北大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030051;2.中北大學(xué) 機(jī)器視覺與虛擬現(xiàn)實(shí)山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030051;3.山西省視覺信息處理及智能機(jī)器人工程研究中心,山西 太原 030051;4.湖南中科助英智能科技研究院,湖南 長(zhǎng)沙 410076)
隨著計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,深度學(xué)習(xí)在視頻異常檢測(cè)領(lǐng)域取得了巨大的成功[1]。U-net網(wǎng)絡(luò)被廣泛應(yīng)用在視頻異常檢測(cè)中,Tang等[2]通過(guò)構(gòu)建生成器實(shí)現(xiàn)將預(yù)測(cè)與重構(gòu)相結(jié)合,生成器由兩個(gè)連續(xù)的U-net組成,第一個(gè)U-net預(yù)測(cè)過(guò)渡時(shí)刻的幀,第二個(gè)U-net利用該幀預(yù)測(cè)未來(lái)時(shí)刻的幀,通過(guò)強(qiáng)度值與梯度值最小化重構(gòu)誤差。Mem-AE[3]提出了一種存儲(chǔ)記憶模塊,并在U-net網(wǎng)絡(luò)中嵌入存儲(chǔ)記憶模塊存儲(chǔ)正常數(shù)據(jù)的潛在特征,降低了模型的“泛化”能力。Hao等[4]提出了一種外觀運(yùn)動(dòng)一致性網(wǎng)絡(luò),利用外觀和運(yùn)動(dòng)信息的先驗(yàn)知識(shí)在特征空間中捕獲其對(duì)應(yīng)關(guān)系?;谥貥?gòu)或預(yù)測(cè)方法的視頻異常檢測(cè),U-net網(wǎng)絡(luò)的跳連接能使重構(gòu)或預(yù)測(cè)圖像獲得較高的分辨率,但也會(huì)導(dǎo)致異常行為區(qū)域被清晰的重構(gòu)或預(yù)測(cè)。
為提高模型對(duì)樣本正常行為特征的提取能力,同時(shí)抑制異常行為的生成,本文提出了一種融合混合注意力的自編碼器視頻異常檢測(cè)網(wǎng)絡(luò),包含編碼器、解碼器、混合注意力模塊(channel spatial cross fusion attention module,CSCFAM)、存儲(chǔ)記憶模塊(Memory)4個(gè)部分。在編碼器和解碼器之間的跳連接上逐層融合本文提出的CSCFAM模塊,訓(xùn)練時(shí)對(duì)正常樣本以高權(quán)重聚焦重要信息,測(cè)試時(shí)異常行為特征的提取不符合此權(quán)重,因此一定程度上抑制了異常行為的生成。同時(shí),在瓶頸結(jié)構(gòu)處引入Memory模塊記錄正常樣本不同模式的深層語(yǔ)義特征,進(jìn)而使異常樣本產(chǎn)生更高的預(yù)測(cè)誤差。
基于深度學(xué)習(xí)的視頻異常檢測(cè)方法主要分為基于重構(gòu)和基于預(yù)測(cè)的方法[5]。基于重構(gòu)的方法核心思想是異常樣本比正常樣本產(chǎn)生更大的重構(gòu)誤差。胡海洋等[6]提出了一種融合自編碼器和one-class支持向量機(jī)的異常事件檢測(cè)模型,結(jié)合了傳統(tǒng)模型與深度學(xué)習(xí)模型,使視頻異常事件檢測(cè)結(jié)果更加準(zhǔn)確。Deepak等[7]等提出了一種殘差時(shí)空自動(dòng)編碼器模型,通過(guò)對(duì)正常樣本的時(shí)空表示進(jìn)行無(wú)監(jiān)督學(xué)習(xí),并利用殘差塊緩解梯度消失問題。Dong等[8]提出了一種基于雙鑒別器生成對(duì)抗性網(wǎng)絡(luò)結(jié)構(gòu)的半監(jiān)督算法,該算法利用幀鑒別器和運(yùn)動(dòng)鑒別器以生成更真實(shí)的幀。Luo等[9]提出了一種時(shí)間相干稀疏編碼TSC網(wǎng)絡(luò),使用時(shí)間相干保持兩個(gè)相似幀之間的相似性,減少優(yōu)化字典和稀疏系數(shù)交替更新的計(jì)算成本。目前基于重構(gòu)的方法由于模型的“泛化”能力太強(qiáng),異常行為也可能被很好重構(gòu),因此并不能保證正常樣本的重構(gòu)誤差小于異常樣本的重構(gòu)誤差。
基于未來(lái)幀預(yù)測(cè)的視頻異常檢測(cè)方法通過(guò)給定幾個(gè)連續(xù)幀以訓(xùn)練模型預(yù)測(cè)下一個(gè)未來(lái)幀。Lu等[10]受半監(jiān)督生成模型的啟發(fā),提出了一種基于未來(lái)幀預(yù)測(cè)結(jié)構(gòu)的序列生成模型,將ConvLSTM與VAE相結(jié)合預(yù)測(cè)未來(lái)幀,從而提升了異常檢測(cè)精度。Yang等[11]提出了多尺度結(jié)構(gòu)相似性(multi-scale structural similarity,MS_SSIM)損失緩解前景背景不平衡問題,使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更關(guān)注前景的邊界。為增強(qiáng)傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)的時(shí)空利用率和檢測(cè)效果,劉成明等[12]在生成對(duì)抗網(wǎng)絡(luò)中融入門控自注意力機(jī)制抑制與異常檢測(cè)任務(wù)不相關(guān)背景區(qū)域的特征表達(dá)。目前基于未來(lái)幀預(yù)測(cè)的方法大多未考慮正常樣本的多樣性,并且無(wú)法有效的抑制異常行為的生成。
注意力機(jī)制[13]可以為特征圖中不同目標(biāo)分配不同的權(quán)重,有用信息分配高權(quán)重,噪音、冗余等無(wú)用信息分配低權(quán)重,并且可不斷調(diào)整權(quán)重,具有較高的可擴(kuò)展性和魯棒性。為直接建模權(quán)重向量和輸入之間的對(duì)應(yīng)關(guān)系,Wang等[14]提出了通道注意力機(jī)制(efficient channel attention,ECA),該機(jī)制只考慮每個(gè)信道與其k近鄰之間的直接交互,從而控制模型的復(fù)雜性。Woo等[15]提出了卷積塊注意力模塊(convolutional block attention module,CBAM),該模塊將通道注意力和空間注意力串聯(lián),通道注意力特征圖和空間注意力特征圖解耦以提高計(jì)算效率,并通過(guò)引入全局池化獲得空間全局信息。Liu等[16]提出了一種全局注意力機(jī)制(global attention mechanism,GAM),通過(guò)減少信息的損失和提高全局特征的交互,提高了深度神經(jīng)網(wǎng)絡(luò)的性能。Li等[17]提出了一種基于注意力機(jī)制的未來(lái)幀預(yù)測(cè)的視頻異常檢測(cè)框架,在自編碼器中引入注意力機(jī)制實(shí)現(xiàn)了更高異常檢測(cè)精度。
本文提出了一種融合混合注意力的自編碼器視頻異常檢測(cè)算法,如圖1所示,整個(gè)網(wǎng)絡(luò)由4個(gè)部分組成:編碼器、解碼器、混合注意力模塊(CSCFAM)、存儲(chǔ)記憶模塊(Memory)。在編碼器和解碼器的跳連接上融合本文提出的CSCFAM模塊,并在瓶頸結(jié)構(gòu)處引入Memory機(jī)制。編碼器中,每層特征先進(jìn)行兩次卷積(Conv、BN、Relu)使特征圖的通道數(shù)量翻倍,然后通過(guò)CSCFAM模塊獲得混合注意力特征,再使用最大池化下采樣將其尺寸大小減半。為了保證空間信息的結(jié)構(gòu)和完整,編碼器的最后一層不使用BN和Relu,Memory模塊讀取從編碼器提取的查詢項(xiàng)特征并更新其存儲(chǔ)項(xiàng)特征,再將查詢項(xiàng)特征和存儲(chǔ)項(xiàng)特征拼接傳遞至解碼器中。解碼器中使用反卷積進(jìn)行特征圖尺寸大小翻倍和通道減半,并與混合注意力特征拼接。本文是基于視頻幀預(yù)測(cè)的方法,將連續(xù)的4幀作為輸入以獲取第5幀的預(yù)測(cè),根據(jù)預(yù)測(cè)幀與真實(shí)幀的差異判斷真實(shí)幀是否異常。
為充分學(xué)習(xí)正常樣本的局部和全局信息,并抑制測(cè)試時(shí)異常行為的生成,本文提出了混合注意力模塊(CSCFAM),并將其融合至跳連接層。CSCFAM體系結(jié)構(gòu)如圖2所示,包含通道注意力(channel attention,CA)、空間注意力(spatial attention,SA)、交叉融合模塊(cross fusion block,CFB)3個(gè)部分。先分別提取輸入特征圖Fin的通道注意力特征Fch和空間注意力特征Fsp, 再將Fch和Fsp交叉融合傳遞到解碼中。
圖2 混合注意力CSCFAM模塊
(1)通道注意力。通道注意力用于分配每個(gè)特征通道的重要性,如圖2中通道注意力模塊所示,將原始輸入特征圖Fin通過(guò)全局平均池化獲得聚合特征,再用動(dòng)態(tài)卷積核大小為k的1維卷積提取其特征,并使用Sigmoid函數(shù)得到各個(gè)通道分配的權(quán)重,最后將權(quán)重與原始輸入特征圖對(duì)應(yīng)通道的元素相乘,以此實(shí)現(xiàn)通道注意力。動(dòng)態(tài)卷積核大小為k的定義如式(1)
(1)
式中:k表示卷積核大小,C表示通道數(shù),|·|odd表示k只能取奇數(shù),γ和b用于改變通道數(shù)C和卷積核大小和之間的比例。
(2)空間注意力??臻g注意力用于提取圖像中感興趣的區(qū)域,忽略無(wú)關(guān)緊要的區(qū)域。如圖2中空間注意力模塊所示,為關(guān)注空間信息,使用3個(gè)不同尺度的卷積層進(jìn)行多尺度空間信息融合。首先通過(guò)卷積核為1×1的卷積縮減通道數(shù)量,減小計(jì)算量;然后先后經(jīng)過(guò)卷積核3×3和5×5的卷積操作;再使用1×1的卷積增加通道數(shù)量,保持與原始輸入通道數(shù)量的一致,并經(jīng)過(guò)Sigmoid輸出空間注意力特征圖;最后將注意力特征圖與原始輸入特征圖對(duì)應(yīng)元素相乘,得到最終的輸出特征圖。
(3)交叉融合模塊。交叉融合模塊用于將通道注意力特征和空間注意力特征融合形成交叉注意力特征。交叉融合模塊運(yùn)算如式(2)~式(4)所示
(2)
(3)
(4)
圖3 矢量化特征運(yùn)算VO
本文實(shí)驗(yàn)結(jié)果表明,跳連接融合CSCFAM模塊增強(qiáng)了模型的性能,顯著提高了對(duì)視頻異常事件檢測(cè)的準(zhǔn)確率。在第3節(jié)消融實(shí)驗(yàn)中,進(jìn)行了CSCFAM中通道注意力、空間注意力、交叉融合3個(gè)模塊不同組合的性能比較。
為降低自編碼器的模型的“泛化”能力,本文在自編碼器的瓶頸結(jié)構(gòu)處引入存儲(chǔ)記憶模塊[18]來(lái)記錄正常行為的潛在特征。如圖4所示,首先將編碼器輸出的特征圖C×H×W分成K個(gè)查詢項(xiàng) (q1,q2,…,qK), 其中K=H×W, 每個(gè)查詢項(xiàng)的大小為C×1×1, 共有M個(gè)C×1×1大小的存儲(chǔ)項(xiàng),存儲(chǔ)項(xiàng)用于記錄正常數(shù)據(jù)的潛在特征。存儲(chǔ)記憶模塊主要由讀取模塊和更新模塊組成,其工作原理是:讀操作首先計(jì)算每個(gè)查詢項(xiàng)與所有存儲(chǔ)項(xiàng)的余弦相似度,再將其歸一化后作為查詢項(xiàng)與存儲(chǔ)項(xiàng)對(duì)應(yīng)的讀取權(quán)重,通過(guò)權(quán)重的加權(quán)平均值讀取存儲(chǔ)項(xiàng)。
圖4 存儲(chǔ)記憶模塊
更新操作則與之相反,計(jì)算每個(gè)存儲(chǔ)項(xiàng)與所有查詢項(xiàng)的余弦相似度并歸一化后作為相應(yīng)的更新權(quán)重,進(jìn)而更新存儲(chǔ)項(xiàng)的特征,通過(guò)讀操作和更新操作實(shí)現(xiàn)存儲(chǔ)記憶功能。
2.4.1 強(qiáng)度約束
(5)
式中:|·|2表示歐幾里得距離,用于計(jì)算強(qiáng)度損失。
2.4.2 多尺度梯度幅度相似性約束
為抑制僅使用強(qiáng)度損失Lint導(dǎo)致預(yù)測(cè)幀的模糊性,使用多尺度梯度幅度相似性損失(multi-scale gradient magnitude similarity,MSGMS)[19],MSGMS損失是基于梯度強(qiáng)度相似性損失(gradient magnitude similarity,GMS)改進(jìn)的多尺度梯度幅度相似性損失,能獲得更清晰的預(yù)測(cè)幀。首先計(jì)算真實(shí)幀的梯度強(qiáng)度,如式(6)所示
(6)
式中:hx和hy是沿x和y維度3×3的濾波器,*表示卷積操作。真實(shí)幀與預(yù)測(cè)幀之間的梯度相似度,如式(7)所示
(7)
(8)
2.4.3 存儲(chǔ)記憶模塊的特征緊湊性約束和特征分離性約束
(1)特征緊湊損失使查詢項(xiàng)和存儲(chǔ)項(xiàng)的特征距離更小,所有查詢都在存儲(chǔ)項(xiàng)中緊密映射,因此能更好查詢各種正常模式的潛在特征。如式(9)所示
(9)
(10)
(2)特征分離損失存使類似的查詢項(xiàng)分配給同一存儲(chǔ)項(xiàng),以減少存儲(chǔ)項(xiàng)的數(shù)量和內(nèi)存大小,且避免存儲(chǔ)器失去記錄各種正常模式的能力。如式(11)所示
(11)
式中:α表示裕度,n的定義如式(12)所示
(12)
在訓(xùn)練階段,網(wǎng)絡(luò)學(xué)習(xí)目的是使得預(yù)測(cè)幀與真實(shí)幀的差異最小,為達(dá)到更好的訓(xùn)練效果,因此本文結(jié)合了強(qiáng)度損失、多尺度梯度損失以及存儲(chǔ)記憶模塊的特征緊湊和特征分離損失,目標(biāo)函數(shù)如式(13)所示
(13)
式中:L為綜合損失,Lint為強(qiáng)度損失,Lg為多尺度梯度損失,Lcompact為存儲(chǔ)器特征緊湊損失,Lseparate為存儲(chǔ)器特征分離損失;λint,λg,λc,λs代表各部分的權(quán)重參數(shù)。
由于存儲(chǔ)記憶模塊錄了正常數(shù)據(jù)的原型模式,假設(shè)從正常視頻幀獲得的查詢項(xiàng)與存儲(chǔ)項(xiàng)類似,計(jì)算每個(gè)查詢項(xiàng)與最近的存儲(chǔ)項(xiàng)之間的L2距離,如式(14)所示
(14)
(15)
式中:N為每幀像素個(gè)數(shù),當(dāng)PNSR越小,表明預(yù)測(cè)幀異常的概率越大。
(16)
(17)
最終使用式(16)和式(17)兩個(gè)度量的和作為最終異常分?jǐn)?shù),如式(18)所示
(18)
式中:λ為平衡兩者的權(quán)重參數(shù)。
為驗(yàn)證本文提出的融合混合注意力的視頻異常檢測(cè)算法的可行性,實(shí)驗(yàn)中使用兩個(gè)公開數(shù)據(jù)集UCSD Ped2、CUHK Avenue進(jìn)行訓(xùn)練和測(cè)試。
UCSD Ped2數(shù)據(jù)集[20]包含16個(gè)訓(xùn)練視頻和12個(gè)測(cè)試視頻,訓(xùn)練視頻共2550幀全部為正常樣本,測(cè)試視頻共2010幀正常樣本和異常樣本,其中異常樣本包含騎自行車、駕駛車輛和滑板等異常類型。
CUHK Avenue數(shù)據(jù)集[21]包含16個(gè)訓(xùn)練視頻和21個(gè)測(cè)試視頻,訓(xùn)練視頻共15 328幀全部為正常樣本,測(cè)試視頻15 324幀正常樣本和異常樣本,其中異常樣本包含跑步、投擲物體、游蕩等異常行為。
本文所有實(shí)驗(yàn)均在單張NVIDIA GeForce RTX 2080 Ti顯卡上完成,輸入視頻幀統(tǒng)一調(diào)整為256×256大小,且每幀都標(biāo)準(zhǔn)化為[-1,1]的范圍,采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.0002,并使用余弦退火方法對(duì)其進(jìn)行衰減,batch size設(shè)置為4。對(duì)式(13)中各部分損失對(duì)應(yīng)的權(quán)重λint,λg,λc,λs分別設(shè)置為1、0.2、0.1、0.1;對(duì)式(18)中的參數(shù)λ設(shè)置為0.6。UCSD Ped2、CUHK Avenue數(shù)據(jù)集上都訓(xùn)練60個(gè)epoch,都用連續(xù)4幀預(yù)測(cè)第5幀,Memory模塊中的存儲(chǔ)項(xiàng)個(gè)數(shù)全部設(shè)置為10。
根據(jù)式(18)計(jì)算的異常分?jǐn)?shù),參照文獻(xiàn)[2,7,17]的評(píng)價(jià)方法,使用ROC曲線下的面積(area under curve,AUC)作為評(píng)價(jià)指標(biāo),AUC越大說(shuō)明異常檢測(cè)效果越好。
將本文算法與現(xiàn)有視頻異常檢測(cè)算法進(jìn)行對(duì)比,表1中列出了不同方法在UCSD Ped2、CUHK Avenue數(shù)據(jù)集上得到的幀級(jí)AUC結(jié)果。本文方法在UCSD Ped2數(shù)據(jù)集上AUC達(dá)到97.3%,在CUHK Avenue數(shù)據(jù)集上達(dá)到87.0%。
表1 本文方法與其它方法在不同數(shù)據(jù)集的
如表1所示,在兩個(gè)數(shù)據(jù)集中本文算法幀級(jí)AUC指標(biāo)均最高。與第二名的STCEN[4]相比,在UCSD Ped2和CUHK Avenue數(shù)據(jù)集上幀級(jí)AUC均提高了0.4%。本文在編碼器和解碼器的跳連接上添加通道空間混合注意力CSCFAM模塊,能更好提取特征圖的全局和局部信息,因只有正常數(shù)據(jù)參與訓(xùn)練,所以對(duì)于測(cè)試集中的異常行為特征CSCFAM混合注意力機(jī)制往往是不能很好提取,避免了編碼器特征直接拼接到解碼器中導(dǎo)致異常行為也能很好的生成。瓶頸處的存儲(chǔ)器機(jī)制記錄正常數(shù)據(jù)的原型模式,在測(cè)試中可以對(duì)異常行為特征進(jìn)行約束,降低了模型的泛化能力,也提高了準(zhǔn)確率。
如圖5所示,方框內(nèi)表示異常行為,圖5(a)、圖5(b)
圖5 UCSD-ped2數(shù)據(jù)集和CUHK Avenue
分別展示了本文算法在UCSD Ped2和CUHK Avenu測(cè)試數(shù)據(jù)集上部分連續(xù)幀上的真實(shí)標(biāo)簽和異常分?jǐn)?shù),標(biāo)簽為0表示正常樣本,為1表示異常樣本。由圖5(a)可知,對(duì)于UCSD Ped2數(shù)據(jù)集正樣本的異常分?jǐn)?shù)大多數(shù)小于0.15,異常樣本的異常分?jǐn)?shù)大多數(shù)大于0.15;由圖5(b)可知,對(duì)于CUHK Avenue數(shù)據(jù)集正樣本的異常分?jǐn)?shù)大多數(shù)小于0.1,異常樣本的異常分?jǐn)?shù)大多數(shù)大于0.1。圖中連續(xù)異常幀的異常分?jǐn)?shù)波動(dòng)較大,主要是因?yàn)轵T自行車、駕駛車輛、跑步等異常行為存在被正常行為如正常行走的人遮擋。
圖6展示了本文算法在UCSD Ped2(圖6(a)、圖6(b)) 和CUHK Avenue(圖6(c)、圖6(d))測(cè)試數(shù)據(jù)集上預(yù)測(cè)幀和真實(shí)幀之間誤差圖的可視化結(jié)果。由圖6(b)和圖6(d)可知,本文算法對(duì)于正常行為區(qū)域的誤差比異常行為區(qū)域的誤差要小,能很好定位自行車、奔跑中的人等異常行為區(qū)域。
(1)有效性比較。為驗(yàn)證存儲(chǔ)記憶模塊和混合注意力模塊的作用,以UCSD Ped2數(shù)據(jù)集為例,在本文網(wǎng)絡(luò)中逐一增加存儲(chǔ)器記憶模塊和CSCFAM模塊來(lái)驗(yàn)證其有效性。如表2所示,Memory模塊使幀級(jí)AUC提升了0.7個(gè)百分點(diǎn),CSCFAM模塊使幀AUC提升1.8個(gè)百分點(diǎn),驗(yàn)證了在編碼器和解碼器的瓶頸結(jié)構(gòu)處融合Memory模塊、跳躍連接處融合CSCFAM模塊能夠有效提升視頻異常檢測(cè)的效果。
表2 在UCSD Ped2數(shù)據(jù)集上有/無(wú)Memory和
圖7展示了跳連接層有無(wú)CSCFAM模塊的預(yù)測(cè)誤差圖,圖8展示了有無(wú)Memory和CSCFAM模塊的ROC曲線。由圖7可知:對(duì)于正常幀而言,有無(wú)CSCAFM模塊對(duì)預(yù)測(cè)誤差圖的結(jié)果影響不大,預(yù)測(cè)誤差圖中的誤差都較?。坏珜?duì)于異常幀而言,有CSCAFM模塊使得預(yù)測(cè)誤差圖中的異常行為區(qū)域更加明顯,驗(yàn)證了跳連接層融合CSCFAM模塊能夠一定程度上抑制異常行為的生成,具有更好的檢測(cè)效果。
圖7 有/無(wú)CSCFAM模塊的預(yù)測(cè)誤差圖結(jié)果對(duì)比
圖8 有/無(wú)Memory和CSCFAM模塊的ROC曲線
(2)CSCFAM中通道注意力(CA)、空間注意力(SA)和交叉融合(CFB)3個(gè)模塊不同組合方式結(jié)果比較。如表3所示,serial表示串聯(lián),paralle表示并聯(lián)。由表3可知,CA模塊和SA模塊并聯(lián)并將其注意力特征直接相加融合的幀級(jí)AUC為96.5%,而并聯(lián)后使用CFB模塊交叉融合的幀級(jí)AUC達(dá)到97.3%,提高了0.8%。
表3 在UCSD Ped2數(shù)據(jù)集上CSCFAM中各模塊不同組合方式的消融實(shí)驗(yàn)
(3)不同損失函數(shù)結(jié)果比較。如表4所示,為驗(yàn)證不同損失函數(shù)的影響,在L2損失的基礎(chǔ)上以UCSD Ped2數(shù)據(jù)集為例,通過(guò)逐步消融不同的損失函數(shù)驗(yàn)證了存儲(chǔ)記憶模塊的特征緊湊性損失Lcompact、 特征分離性損失Lseparate和多尺度梯度損失Lg對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果表明,本文的模型加入多個(gè)約束條件使得幀級(jí)AUC更高。
表4 在UCSD Ped2數(shù)據(jù)集不同損失函數(shù)的消融實(shí)驗(yàn)
為提高視頻異常檢測(cè)算法的性能,本文提出了一種融合混合注意力的自編碼器視頻異常檢測(cè)算法。通過(guò)在編碼器和解碼器的跳連接層上融合混合注意力模塊(CSCFAM)來(lái)增強(qiáng)模型對(duì)正常行為的征提取能力,并一定程度上抑制異常行為的生成。同時(shí),在自編碼器的瓶頸處引入存儲(chǔ)記憶模塊(Memory)來(lái)記錄正常樣本的潛在特征,降低了模型的“泛化”能力。在UCSD Ped2和CUHK Avenue公共數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),驗(yàn)證了本文算法的有效性,與近年其它視頻異常檢測(cè)算法相比性能有所提升。下一步,將探索視頻連續(xù)幀之間的關(guān)系以及如何高效提取視頻連續(xù)幀的時(shí)空特征,進(jìn)一步提高性能。