武光利, 郭振洲, 李雷霆, 王成祥
(1. 甘肅政法大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,蘭州 730070;2. 西北民族大學(xué) 中國民族語言文字信息技術(shù)教育部重點實驗室,蘭州 730070)
在大數(shù)據(jù)時代,智能監(jiān)控技術(shù)在分析與處理視頻數(shù)據(jù)方面發(fā)揮著極其重要的作用.視頻異常事件檢測是智能監(jiān)控技術(shù)的一個重要應(yīng)用方向[1].人工檢測是傳統(tǒng)的視頻異常檢測方法,但人工檢測方法的缺點顯而易見.一方面,工作人員長時間觀察監(jiān)控視頻會出現(xiàn)視覺疲勞和注意力不集中等狀況,進而導(dǎo)致錯檢、漏檢[2];另一方面,人工檢測方法較依賴于工作人員的日常經(jīng)驗和反應(yīng)能力[3].與深度學(xué)習(xí)相結(jié)合的智能視頻監(jiān)控技術(shù)在一定程度上彌補了傳統(tǒng)檢測方法的不足[4],在節(jié)省人力的同時,也更為準(zhǔn)確高效.國內(nèi)外研究人員大致基于兩個研究方向解決視頻異常事件的檢測問題.
(1) 幀級檢測.使用不同的方法提取特征,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[5]、支持向量機等模型并計算每一個視頻幀是否發(fā)生異常事件的概率.何傳陽等[6]針對人群異常行為提出一種改進的Lucas-Kanande光流方法.柳晶晶等[7]提出一種融合光流場和梯度的方法.都桂英等[8]提出一種改進的光流計算方法,在原方法的基礎(chǔ)上融合加權(quán)光學(xué)能量特征(HOFO).Chen等[9]利用運動能量模型來表示人群中的局部運動模式.Luo等[10]提出一種與時間相關(guān)的稀疏編碼(TSC),使用時間相關(guān)項保留兩個相鄰幀之間的相似性.雷麗瑩等[11]提出一種基于AlexNet模型的異常檢測模型,其幀級檢測準(zhǔn)確率較高,但并不能體現(xiàn)異常事件發(fā)生的具體區(qū)域和內(nèi)容.
(2) 像素級檢測.通過改進全卷積神經(jīng)網(wǎng)絡(luò)[12]、生成式對抗網(wǎng)絡(luò)(GAN)等模型結(jié)構(gòu)對輸入對象中的每一個元素進行檢測.周培培等[13]利用ViBE算法結(jié)合光流強度信息對視頻背景進行建模和提取運動區(qū)域.Wang等[14]提出兩個基于局部運動的視頻描述符,分別是SL-HOF(Spatially Localized Histogram of Optical Flow)描述符和ULGP-OF(Uniform Local Gradient Pattern Based Optical Flow)描述符.Ravanbakhsh等[15]利用生成式對抗網(wǎng)絡(luò)對視頻異常事件進行檢測和定位.Sabokrou等[16]最先將全卷積神經(jīng)(FCN)網(wǎng)絡(luò)應(yīng)用于異常檢測,提出一種級聯(lián)的方式檢測和定位異常區(qū)域.Fan等[17]提出Gaussian混合全卷積變分自編碼器(GMFC-VAE),采用雙流網(wǎng)絡(luò)框架對RGB圖像和光流進行特征提取和融合.然而,像素級檢測雖然可以顯示異常區(qū)域,但無法體現(xiàn)視頻幀之間的時間相關(guān)性.
本文提出一種融合全卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(FCN-LSTM)的視頻異常事件檢測模型.首先,該模型利用卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀的圖像特征,并輸出3個不同深度的中間層結(jié)果,這些中間層結(jié)果代表著視頻幀圖像的淺層紋理特征和深層邏輯特征.然后,把中間層結(jié)果分別輸入記憶網(wǎng)絡(luò)中,以時間為軸線分析前后幀之間語義信息的相關(guān)性.最后,利用殘差結(jié)構(gòu)融合不同深度的圖像特征和語義信息,構(gòu)成不同層級的多模態(tài)特征,并通過跳級結(jié)構(gòu)和上采樣把多模態(tài)特征擴大成與原視頻幀大小相同的預(yù)測圖.
全卷積神經(jīng)網(wǎng)絡(luò)語義分割算法是由Shelhamer等[18]在2015年提出的,F(xiàn)CN模型通過將原始卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為卷積核為1×1的卷積層來實現(xiàn)全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).由于1×1卷積在FCN網(wǎng)絡(luò)模型里的主要作用是降維,融合不同通道上的特征,既可以減少模型參數(shù)、減少計算量,也可以對不同特征進行尺寸的歸一化.通過1×1卷積和跳級結(jié)構(gòu),F(xiàn)CN網(wǎng)絡(luò)可以將來自多個不同深度的特征圖通過求和的方式進行融合并進行上采樣,即對圖像中的每個像素點進行預(yù)測,最終輸出一個與輸入圖像大小相同的預(yù)測圖.FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中數(shù)字代表每一層卷積核的個數(shù).
圖1 FCN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of FCN network
圖2 LSTM網(wǎng)絡(luò)細胞結(jié)構(gòu)圖Fig.2 Cell structure diagram of LSTM network
由圖2可知,LSTM網(wǎng)絡(luò)的細胞狀態(tài)受到3個門的控制,也就是圖2中的σ,σ的本質(zhì)是Sigmoid激活函數(shù),輸出一個0~1之間的向量.LSTM在訓(xùn)練時第1步需要判斷是否激活遺忘門,通過上一個時刻的輸出和當(dāng)前時刻的輸入決定細胞狀態(tài)要遺忘前一時刻的哪些數(shù)據(jù).當(dāng)ft=0時,前一時刻的細胞狀態(tài)Ct-1被遺忘;當(dāng)ft=1時,Ct-1被全部保留;當(dāng)ft=0~1時,Ct-1被部分遺忘.公式表示如下:
ft=σ(Wf×[ht-1,xt]+bf)
(1)
式中:ht-1為前一時刻的輸出;xt為當(dāng)前時刻的輸入;Wf為遺忘門權(quán)重;bf為遺忘門偏置.
it=σ(Wi×[ht-1,xt]+bi)
(2)
(3)
式中:Wi為輸入門權(quán)重;bi為輸入門偏置;Wc為新數(shù)據(jù)權(quán)重;bc為新數(shù)據(jù)偏置.
第3步更新細胞狀態(tài),通過遺忘門和輸入門分別控制著上一時刻的細胞狀態(tài)Ct-1是否被遺忘和更新.符號“○”表示兩個向量對應(yīng)位置的元素相乘.則
(4)
最后判斷是否激活輸出門,通過上一個時刻的輸出和當(dāng)前時刻的輸入決定細胞狀態(tài)要輸出哪些狀態(tài)特征,并利用tanh函數(shù)計算出要輸出的狀態(tài)特征.當(dāng)輸出門ot=1時,細胞狀態(tài)Ct全部被輸出;當(dāng)ot=0時,Ct不被輸出;當(dāng)ot=0~1之間時,Ct部分被輸出.
式中:Wo為輸出門權(quán)重;bo為輸出門偏置.
FCN-LSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)可以分為3個部分:圖像特征提取部分、語義信息提取部分、特征處理部分.其中,圖像特征提取部分由卷積層、池化層組成;語義信息提取部分由LSTM層組成;特征處理部分由反卷積層、跳級結(jié)構(gòu)、殘差結(jié)構(gòu)組成.模型結(jié)構(gòu)如圖3所示,其中1/8、1/16、1/32為卷積池化后獲得的特征圖與原圖的比例.
圖3 FCN-LSTM模型結(jié)構(gòu)圖Fig.3 Structure diagram of FCN-LSTM model
1.2.1圖像特征提取部分 圖像特征提取部分使用了5個卷積塊,每個卷積塊由2個卷積層和1個最大池化層組成.每個卷積塊利用卷積層提取視頻幀的圖像特征,利用池化層采樣突出局部特征,進而提取出更有效的特征.使用卷積核為1×1的卷積層分別作用在第3、4、5個卷積塊的輸出結(jié)果上,獲得維度相同、不同深度的圖像特征,這些特征圖的大小分別是原圖像的1/8、1/16、1/32,代表原圖像的淺層紋理特征和深層邏輯特征.
1.2.2語義信息提取部分 語義信息提取部分的主體是3個獨立的LSTM層.為了能對不同的中間層結(jié)果提取語義信息,隱藏狀態(tài)的大小分別被設(shè)置為3個中間層輸出結(jié)果的特征圖大小,這樣就能夠以特征平面為信息、以維度為序列,由淺到深地提取3個層次的語義相關(guān)性.
1.2.3特征處理部分 特征處理部分是整個模型的核心,采用了多種特征處理方式,充分利用每個特征的優(yōu)勢,使輸出結(jié)果更為精確.首先引用殘差結(jié)構(gòu),分別將3個層次的圖像特征和語義信息融合在一起,融合后的特征呈多元化,既保留了各方面的重要特征,又衍生出新特征.然后,利用跳級結(jié)構(gòu)集成不同層次的融合特征,多模態(tài)特征可以充分體現(xiàn)出不同深度的特點,集成在一起不僅可以使不同特征之間粗細結(jié)合、優(yōu)勢互補,還可以使特征更完整、攜帶信息更準(zhǔn)確.最后,利用反卷積將特征擴大,獲得與原圖像大小相同的預(yù)測圖.
結(jié)合以上3個部分,本文提出了融合FCN和LSTM的視頻異常事件檢測模型.該模型把輸入的視頻逐幀分割,并通過圖像特征提取部分對視頻幀進行提取,獲得視頻幀大小為1/8、1/16、1/32不同深度的圖像特征.然后,通過語義信息提取部分對3個圖像特征進行分析,獲得深淺不同的3個層次的語義信息.最后,通過特征處理部分將相同深度的圖像特征和語義信息相融合,將不同深度的特征集成,再利用反卷積獲得與原圖像大小相同的預(yù)測圖.
1.2.4模型的詳細配置 圖像特征提取部分由14個卷積層、5個最大池化層和Relu激活函數(shù)組成.14個卷積層的輸出維度依次為32、32、64、64、128、256、512、512、256、128、64、2、2、2,卷積核大小均為3×3,步長均為1,填充均為1.池化層的核大小均為2,步長均為2.
語義信息提取部分是由3個LSTM層組成,其輸入維度依次為49、196、784,隱藏狀態(tài)大小依次為98、392、1568,均為單層單向.
特征處理部分是由3個反卷積層和歸一化函數(shù)組成.3個反卷積層的輸出大小依次為14×14×2、28×28×2、224×224×2,步長依次為2、2、8,卷積核大小依次為4、4、16.
所提FCN-LSTM模型分別在加州大學(xué)圣地亞哥分校(UCSD)異常檢測數(shù)據(jù)集的ped 2子集和明尼蘇達大學(xué)(UMN)人群活動數(shù)據(jù)集上進行訓(xùn)練,以80%作為訓(xùn)練集,以20%作為測試集.訓(xùn)練時使用交叉熵損失函數(shù)和Adam優(yōu)化器,且學(xué)習(xí)率為0.001,通過不斷迭代求得最優(yōu)解或局部最優(yōu)解.異常檢測是通過模型的輸出結(jié)果獲得的,模型的輸出結(jié)果是與輸入圖像大小相同的預(yù)測圖,空間形狀為224×224×2.第0維表示每個像素是正常的概率,第1維表示每個像素屬于異常的概率,由此可以準(zhǔn)確定位圖像中的異常區(qū)域.
UCSD數(shù)據(jù)集是由加利福尼亞大學(xué)圣地亞哥分校創(chuàng)建,通過對準(zhǔn)人行橫道的攝像機采集,主要的異常行為是其他實體通過人行道.異常種類包括在行人乘坐輪椅、行人踩滑板滑行、機動車通過人行道、行人騎自行車等,數(shù)據(jù)集一共有98個視頻,單獨一個視頻可以分為200幀,每幀圖像大小為238像素×158像素.4張UCSD數(shù)據(jù)集中異常事件的圖片如圖4所示.
UMN數(shù)據(jù)集是由明尼蘇達州大學(xué)創(chuàng)建,通過攝像機拍攝不同場景下的人群,并人為安排了一些異常行為.人群的異常行為有:人群的驟聚和驟散、人群的單向跑動.數(shù)據(jù)集一共有11個場景,每個場景都是先正常再異常.4張UMN數(shù)據(jù)集中異常事件的圖片如圖5所示.
圖4 UCSD數(shù)據(jù)集中的部分異常事件Fig.4 Some abnormal events in UCSD dataset
圖5 UMN數(shù)據(jù)集中的部分異常事件Fig.5 Some abnormal events in UMN dataset
所提FCN-LSTM模型以F1分數(shù)、等錯誤率(EER)e和曲線下面積(AUC)S作為評價指標(biāo),并在像素級下使用3種評價指標(biāo)與其他方法進行比較.
2.2.1F1分數(shù) 在介紹F1分數(shù)之前,簡要描述一下混淆矩陣.混淆矩陣也稱誤差矩陣,以類別個數(shù)n構(gòu)造n×n的矩陣來表示精度,主要用于對分類任務(wù)的預(yù)測結(jié)果統(tǒng)計.
在二分類的混淆矩陣中,分為真實標(biāo)簽:真、假,預(yù)測標(biāo)簽:陽、陰,如表1所示.其中:真陽例(TP)代表真例的數(shù)據(jù)被標(biāo)記為正例;偽陽例(FP)代表假例的數(shù)據(jù)被標(biāo)記為正例;真陰例(TN)代表假例的數(shù)據(jù)被標(biāo)記為負例;偽陰例(FN)代表真例的數(shù)據(jù)被標(biāo)記為負例.
表1 二分類混淆矩陣Tab.1 Binary confusion matrix
單一的精準(zhǔn)率p和召回率r只能表征模型某方面,F(xiàn)1分數(shù)可看作為精準(zhǔn)率和召回率的一種調(diào)和平均,可以較全面地評價模型.三者的計算公式為
(7)
(8)
(9)
2.2.2曲線下面積 曲線下面積是指接收者操作特征曲線(ROC)與橫軸之間所圍成的面積.AUC是一種評價二分類模型好壞的指標(biāo),其取值范圍為0.5~1,數(shù)值越大說明模型性能越好.
ROC曲線是以偽陽例率(Pfp)為橫軸,真陽例率(Ptp)為縱軸得到的圖像,可以直觀地反映出偽陽例率和真陽例率的關(guān)系,進而判斷模型的優(yōu)劣.
根據(jù)表1計算偽陽例率和真陽例率,可表示為
(10)
(11)
2.2.3等錯誤率 等錯誤率是指錯誤接受率(FAR)和錯誤拒絕率(FRR)相等時的值.ROC曲線(像素級)如圖6所示.由圖6可知,EER的值為ROC曲線與(0,1)(1,0)所在直線交點的橫坐標(biāo),即交點對應(yīng)的偽陽例率.
圖6 ROC曲線(像素級)Fig.6 ROC curve (pixel-level)
所提FCN-LSTM模型分別在UCSD和UMN數(shù)據(jù)集上進行訓(xùn)練,以80%作為訓(xùn)練集,以20%作為測試集.在訓(xùn)練集上,通過迭代不斷更新參數(shù),尋求最優(yōu)解;在測試集上,通過訓(xùn)練好的模型對數(shù)據(jù)進行預(yù)測,并根據(jù)預(yù)測結(jié)果計算3種評價指標(biāo)的值.為了減小計算的開銷成本,在計算評價指標(biāo)時利用隨機抽樣的方法在每個視頻幀中抽取500個符合均勻分布的像素點作為樣本.由于樣本符合均勻分布,這就使得每個像素點被抽到的概率是相同的,被抽取的樣本可以代表整個數(shù)據(jù)空間的特征.通過式(7)~(9)計算模型的F1分數(shù),通過式(10)~(11)計算樣本的偽陽例率和真陽例率并畫出樣本的ROC曲線.通過ROC曲線獲得e和S.實驗結(jié)果如表2所示,ROC曲線見圖6.
由表2可知,F(xiàn)CN-LSTM模型在兩個數(shù)據(jù)集上均表現(xiàn)出較好的性能,獲得了較高的S和F1,說明模型具有泛化能力.其中,在UCSD數(shù)據(jù)集上,e低至6.6%,S達到了98.2%,F(xiàn)1達到了94.96%;在UMN數(shù)據(jù)集上e低至7.1%,S達到了93.7%,F(xiàn)1達到了94.46%.由圖6可知,兩個數(shù)據(jù)集的ROC曲線在交點之前的部分均陡直上升,交點之后的部分都保持較高的值,說明偽陽例率的值對真陽例率的值影響較小,模型有較好的預(yù)測能力.
表2 實驗結(jié)果(像素級)Tab.2 Experiment results (pixel-level)
FCN-LSTM模型與其他幾種達到像素級預(yù)測的先進方法在UCSD數(shù)據(jù)集上進行比較,分別為周培培等[13]提出的HOF-HOG模型、Wang等[14]提出的OCELM模型、Sabokrou等[16]提出的FCN模型、Fan等[17]提出的GM-FCN模型、Hinami等[19]提出的MT-FRCN模型,對比結(jié)果如表3所示.由表3可知,F(xiàn)CN-LSTM的e小于其他模型(降低了8.4%),并且S大于其他模型(提高了8.0%),說明FCN-LSTM比其他模型擁有更好的預(yù)測能力.
表3 各模型對比分析(像素級)Tab.3 Comparative analysis of different models (pixel-level)
在訓(xùn)練階段保存訓(xùn)練好的模型及模型參數(shù),在預(yù)測階段只需把全新數(shù)據(jù)(訓(xùn)練集和測試集之外的數(shù)據(jù))傳入模型就可以獲得預(yù)測結(jié)果,如圖7所示.
圖7(a)為UCSD ped1數(shù)據(jù)集中的4張視頻幀圖像和模型的預(yù)測結(jié)果.視頻幀中異常事件依次是一個人在玩滑板,一輛汽車在人行道上駛過,一個人推著手推車,一個人在騎自行車,預(yù)測圖中白色部分標(biāo)示異常事件輪的廓和位置.
圖7(b)為UMN數(shù)據(jù)集中的4張視頻幀圖像和模型的預(yù)測結(jié)果.視頻幀中異常行為依次是人群聚散、人群單向跑動、人群聚散、人群單向跑動,預(yù)測圖中的白色部分為跑動的人的輪廓和位置.
圖7 兩個數(shù)據(jù)集中的部分預(yù)測結(jié)果Fig.7 Partial prediction results in two datasets
本文提出融合FCN和LSTM的視頻異常事件檢測模型FCN-LSTM.該模型不僅繼承了全卷積神經(jīng)網(wǎng)絡(luò)的像素級精度,還體現(xiàn)了記憶網(wǎng)絡(luò)的長期依賴關(guān)系,故該模型擁有多角度的處理視頻數(shù)據(jù)的能力.在UCSD數(shù)據(jù)集上e低至6.6%、S達到98.2%、F1達到94.96%;在UMN數(shù)據(jù)集上e低至7.1%、S達到93.7%、F1達到了94.46%.
在未來的工作中,將嘗試不同的方法提取不同的特征來完善所提模型FCN-LSTM,使模型預(yù)測的輪廓和位置更精準(zhǔn),如加入條件隨機場、加入注意力機制等方法.另外,還將嘗試不同的數(shù)據(jù)集以及自己學(xué)校的監(jiān)控視頻,不斷完善本模型,使其更泛化、性能更好.