賀濤,羅兵,郭會(huì)文
(1.五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020;2.中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 集成所智能仿生中心,廣東 深圳 518055)
基于張量分解的跑動(dòng)行為檢測(cè)
賀濤1,羅兵1,郭會(huì)文2
(1.五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020;2.中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 集成所智能仿生中心,廣東 深圳 518055)
異常行為檢測(cè)是智能安全監(jiān)控的重要內(nèi)容,而異常行為特征的提取是一個(gè)難點(diǎn). 張量作為高維數(shù)據(jù)的自然表現(xiàn)形式能有效保留數(shù)據(jù)的結(jié)構(gòu)信息提取到運(yùn)動(dòng)目標(biāo). 本文將張量分解應(yīng)用于數(shù)字視頻處理,然后對(duì)稀疏前景張量時(shí)間軸方向上的纖維束做頻域處理進(jìn)一步優(yōu)化運(yùn)動(dòng)前景;最后使用多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)運(yùn)動(dòng)目標(biāo)的跑動(dòng)行為進(jìn)行識(shí)別. 仿真對(duì)比實(shí)驗(yàn)證明了基于張量分解的方法比傳統(tǒng)方法處理效果更好、在實(shí)測(cè)視頻中本文跑動(dòng)行為識(shí)別率達(dá)到81.4%.
張量分解;高維信號(hào)處理;卷積神經(jīng)網(wǎng)絡(luò);跑動(dòng)檢測(cè)
視頻監(jiān)控中的異常行為檢測(cè)一直是安防領(lǐng)域的重要研究?jī)?nèi)容. 基于視頻的異常行為檢測(cè)主要包含三部分內(nèi)容:運(yùn)動(dòng)目標(biāo)提取、行為特征的提取和表示以及異常行為檢測(cè).
近幾十年來(lái),靜態(tài)相機(jī)下的運(yùn)動(dòng)目標(biāo)檢測(cè)一般是根據(jù)背景像素點(diǎn)在時(shí)間上像素的值變化緩慢,而空間上背景像素點(diǎn)之間位置相對(duì)不變的特點(diǎn)實(shí)現(xiàn)的. 目前常用的方法有:幀間差分法[1],光流法[2],背景減除法[3]等. 幀間差分法優(yōu)點(diǎn)是方法簡(jiǎn)單且計(jì)算速度快,滿足實(shí)時(shí)性的要求,但提取的目標(biāo)因?yàn)闊o(wú)法檢測(cè)出重疊部分容易出現(xiàn)空洞,三幀差法是這種方法最經(jīng)典的改進(jìn). 光流法能適用于一定的動(dòng)態(tài)背景,但該方法對(duì)光照、陰影和遮擋等敏感,計(jì)算較復(fù)雜. 背景減除法的重點(diǎn)是利用先驗(yàn)條件建立背景模型并不斷更新,用原圖減去背景得到運(yùn)動(dòng)目標(biāo),常用的是混合高斯模型[4],該方法適用于復(fù)雜環(huán)境,但計(jì)算量較大,對(duì)動(dòng)態(tài)背景過(guò)分依賴高斯分布.
張量形式的數(shù)據(jù)表示有不同于矩陣的特性,能更好地表達(dá)高階數(shù)據(jù)復(fù)雜的本質(zhì)結(jié)構(gòu),這種本質(zhì)結(jié)構(gòu)信息往往能很好地反映視頻的時(shí)空特性,在視頻處理中意味著更多的信息量. 本文研究了現(xiàn)有的基于張量分解的各類運(yùn)動(dòng)目標(biāo)提取方法,比較了各種方法的性能,為這些張量分解算法的實(shí)際應(yīng)用提供參考;此外根據(jù)張量數(shù)據(jù)的形式和特性,本文提出了基于稀疏前景視頻的張量表示和一維快速傅里葉變換的特征優(yōu)化方法,以較低的計(jì)算復(fù)雜度,得到了很好的運(yùn)動(dòng)目標(biāo)提取效果. 我們將該方法用于行人的跑動(dòng)檢測(cè)中,同時(shí)結(jié)合形態(tài)學(xué)處理、卷積神經(jīng)網(wǎng)絡(luò)等方法實(shí)現(xiàn)行人的跑動(dòng)檢測(cè).
一個(gè)算法是否有實(shí)際價(jià)值,除了考慮該算法的魯棒性,還應(yīng)該考慮實(shí)時(shí)性. 高維數(shù)據(jù)包含了巨大的計(jì)算量,那么實(shí)時(shí)性將成為選擇算法的一個(gè)重要因素. 本文研究比較了現(xiàn)有的各種基于張量分解的運(yùn)動(dòng)目標(biāo)提取方法,將快速有效的張量分解方法應(yīng)用于基于視頻的跑動(dòng)檢測(cè)的運(yùn)動(dòng)目標(biāo)提取中.
目前張量分解有多種分解結(jié)構(gòu),傳統(tǒng)的方法有CP分解和Tucker分解,近年來(lái)也出現(xiàn)了一些新的分解方法如:TTD/QTTD. Tensor Network等. 但就用于運(yùn)動(dòng)目標(biāo)提取的張量分解方法而言,主要是基于傳統(tǒng)CP分解和Tucker分解算法的改進(jìn).
假設(shè)是三階的張量,表示為,進(jìn)行Tucker分解后,可將這個(gè)三階張量分解為一個(gè)核張量和三個(gè)因子矩陣U,V,W的n模式乘積,其中,表達(dá)式如下:
其中,矩陣U的大小為矩陣V的大小為矩陣W的大小為I3×K3,因子矩陣是相互正交的,三階張量的Tucker分解如下圖1所示.
圖1 三階張量的Tucker分解
與Tucker分解相比,CP分解更加側(cè)重于核張量的對(duì)角形式而不是因子矩陣的正交性. 三階張量的CP分解中,張量被分解為一組秩一張量的線性組合. 假設(shè)CP分解的成分個(gè)數(shù)為M,為了便于計(jì)算,通常在CP分解中假設(shè)因子矩陣的列是單位長(zhǎng)度的,并引入一個(gè)權(quán)重向量λ∈RM,使CP分解表示為:
式中λm∈R且1≤m≤M,的秩為M可能的最小值. 三階張量的CP分解如圖2所示.
Sobral和Bouwmans等人在2016年發(fā)布了用于視頻中的背景建模和減除的低秩和稀疏工具集LRSLibrary[6],該工具集共收集了104種基于矩陣和張量的算法,主要用于圖像和視頻處理. 本文對(duì)比了基于張量分解的11種可用于灰度圖像的方法在跑動(dòng)檢測(cè)數(shù)據(jù)庫(kù)中的前景提取效果以及各個(gè)算法的計(jì)算速度.
在對(duì)比實(shí)驗(yàn)中采用的原始實(shí)驗(yàn)視頻為640*480像素的彩色視頻,為便于實(shí)驗(yàn)對(duì)比,將視頻縮放并灰度化處理成80*60像素的灰度視頻,幀數(shù)為43,處理后視頻第16幀的稀疏前景效果如圖3所示,二值化分割之后效果如圖4所示.
圖3 張量分解后稀疏前景圖
圖4 稀疏前景圖二值化分割結(jié)果
各個(gè)張量分解算法處理時(shí)間對(duì)比如表1,采集該實(shí)驗(yàn)數(shù)據(jù)的電腦配置為:CPU為Intel Core i5-2410M,內(nèi)存為4GB,軟件環(huán)境為Windows 10+Matlab2015b. 分析圖4和表1得出如下結(jié)論:圖4-e、g、h、k、i對(duì)應(yīng)的算法提取運(yùn)動(dòng)目標(biāo)的效果較好. 處理時(shí)間上,CP-ALS、OSTD、Tucker-ALS 3種算法耗時(shí)最短,能取得近似實(shí)時(shí)的效果. 二者綜合比較,11種張量分解算法提取運(yùn)動(dòng)目標(biāo)效果以Tucker-ALS算法效果最好,所用時(shí)間最短,在實(shí)驗(yàn)視頻上能取得10 fps的處理速度.
表1 各種張量分解算法計(jì)算時(shí)間對(duì)比
在張量形式的視頻處理中,三階張量視頻數(shù)據(jù),固定一個(gè)下標(biāo),得到矩陣稱為張量切片[7],如圖5-a是圖片大小為480*640,幀數(shù)為43幀視頻的張量切片表示. 當(dāng)固定兩個(gè)下標(biāo),只變動(dòng)一個(gè)下表,將得到一維數(shù)據(jù)稱為張量纖維(Fibers).
分析圖5中的張量切片圖像,我們發(fā)現(xiàn)該圖片的行掃描線上的兩處突變分別對(duì)應(yīng)視頻中不同時(shí)間兩個(gè)從鏡頭中跑過(guò)的人,圖5-b為傅里葉譜圖和對(duì)應(yīng)的三維柱狀圖,譜圖像素點(diǎn)代表頻率值,柱狀圖的幅值由像素點(diǎn)亮度變碼而得. 圖5-b中頻譜圖中最大值是直流分量,傅里葉譜圖中越亮的點(diǎn),對(duì)應(yīng)于灰度圖中對(duì)比越強(qiáng)烈的點(diǎn). 去除圖5-b中傅里葉譜圖的直流分量,得到圖5-c中的譜圖,去除直流分量后傅里葉譜圖的亮度圖像中的高頻部分指梯度大的點(diǎn),在切片圖中,亮度大的點(diǎn)對(duì)應(yīng)的正是運(yùn)動(dòng)目標(biāo),如圖5-c所示.
圖5 三維張量的高度—時(shí)間切片(Slices)
通過(guò)圖5-b、5-c切片圖的對(duì)比,去除了頻域直流分量的切片圖能準(zhǔn)確反映出運(yùn)動(dòng)目標(biāo)的位置. 一個(gè)二維傅里葉變換是一維傅里葉變換在每一個(gè)行掃描線和列掃描線上的傅里葉變換的疊加,進(jìn)一步分析,當(dāng)對(duì)稀疏前景張量數(shù)據(jù)時(shí)間軸方向上的纖維束做一維快速傅里葉變換,頻譜圖如圖6-a中右圖所示. 圖中頻譜圖中最大值是直流分量. 將圖6中傅里葉譜圖中的直流分量設(shè)置為0,得到圖6-b中頻譜圖譜圖以及張量切片圖.
圖6 張量纖維(Fibers)的傅里葉頻譜圖去除直流分量前后對(duì)比
經(jīng)過(guò)上述處理,將視頻張量纖維重新整合為張量數(shù)據(jù),再還原視頻幀,分離出的傅里葉直流分量還原的視頻第23幀,如圖8所示,用對(duì)應(yīng)幀的原圖減去圖8得到包含運(yùn)動(dòng)前景的圖9.
圖7 原視頻第23幀
圖8 變換后直流分量視頻幀
圖9 變換后非直流分量視頻幀
將該方法與混合高斯背景建模以及原始的Tucker-ALS算法處理的前景目標(biāo)提取效果對(duì)比如圖10所示,圖10-a為混合高斯背景建模的運(yùn)動(dòng)前景以及二值化結(jié)果,圖10-b為張量分解Tucker-ALS算法的稀疏運(yùn)動(dòng)前景以及二值化結(jié)果,圖10-c為張量分解Tucker-ALS算法與傅里葉變換融合的運(yùn)動(dòng)前景以及二值化結(jié)果. 圖中對(duì)比結(jié)果表明我們提出的方法更為有效. 在實(shí)時(shí)處理中,為提高處理速度,用簡(jiǎn)單的FIR低通濾波器代替頻域處理.
圖10 運(yùn)動(dòng)目標(biāo)前景提取效果對(duì)比
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,該網(wǎng)絡(luò)直接以圖片數(shù)據(jù)作為輸入,避免了特征提取等復(fù)雜操作. 本文使用典型的5層卷積神經(jīng)訓(xùn)練分類器,該卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功運(yùn)用于許多領(lǐng)域[8]. 經(jīng)過(guò)多次參數(shù)調(diào)試,確定本文采用卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示:
圖11 CNN網(wǎng)絡(luò)模型
卷積神經(jīng)的輸入層是80*40的圖片,圖片包括跑動(dòng)和非跑的目標(biāo). 該網(wǎng)絡(luò)包含2個(gè)卷積層、2個(gè)下采樣層以及1個(gè)全鏈接層. 輸出分類結(jié)果,表示行人處于跑動(dòng)或非跑動(dòng)狀態(tài).
本文所用的行人跑動(dòng)數(shù)據(jù)均由普通攝像頭在室外環(huán)境中獲取,采集環(huán)境包括馬拉松比賽場(chǎng)地、體育館跑道、街道等. 采集圖片分辨率為640*480,共獲得數(shù)萬(wàn)個(gè)正樣本,從中精選了16 000個(gè)跑動(dòng)的人的正樣本作為訓(xùn)練數(shù)據(jù)集,另外測(cè)試正負(fù)樣本的數(shù)量各為2 000個(gè). 圖12是實(shí)驗(yàn)中用到的部分跑動(dòng)檢測(cè)正樣本. 訓(xùn)練達(dá)到10次時(shí),識(shí)別率達(dá)到98%,如圖13所示為訓(xùn)練次數(shù)和訓(xùn)練識(shí)別率的關(guān)系圖.
圖12 部分跑動(dòng)檢測(cè)正樣本數(shù)據(jù)
圖13 識(shí)別率變化圖
本系統(tǒng)基于Tucker-ALS張量分解方法[9]做特征提取,使用CNN訓(xùn)練得到的分類器對(duì)檢測(cè)到的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè),系統(tǒng)框架如圖14所示.
因張量算法計(jì)算量大,實(shí)驗(yàn)中將所有視頻從原來(lái)的640*480下采樣至160*120,以此進(jìn)一步提高運(yùn)算速度. 檢測(cè)系統(tǒng)所用攝像頭設(shè)置為20 fps,在系統(tǒng)中,當(dāng)每次視頻滑動(dòng)塊的視頻幀數(shù)過(guò)少,則檢測(cè)出的運(yùn)動(dòng)前景中噪聲多,運(yùn)動(dòng)目標(biāo)提取效果差,而幀數(shù)過(guò)多,增大了計(jì)算量,影響處理速度. 實(shí)際系統(tǒng)中設(shè)置輸入的視頻滑動(dòng)塊的幀數(shù)N為40.
圖14 跑動(dòng)檢測(cè)系統(tǒng)框架
在KTH人體行為數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)背景簡(jiǎn)單,相機(jī)固定,我們以其中的walking和running兩類行為的視頻為測(cè)試的實(shí)驗(yàn)數(shù)據(jù),我們檢測(cè)出了running視頻數(shù)據(jù)類中所有跑動(dòng)的人,并且正常行走的視頻中無(wú)誤檢情況.
在背景更加復(fù)雜的實(shí)測(cè)環(huán)境中所有跑動(dòng)的人以矩形框標(biāo)識(shí). 我們測(cè)試了30個(gè)視頻,視頻考慮了背景、時(shí)間、光照以及行人跑動(dòng)方向等因素. 每個(gè)測(cè)試視頻中均有跑動(dòng)的人,視頻中跑動(dòng)總?cè)藬?shù)為43人,跑動(dòng)的人在視頻中出現(xiàn)時(shí)間平均約為10 s. 檢測(cè)出35人,檢測(cè)率為81.4% . 如圖15為部分跑動(dòng)檢測(cè)結(jié)果,包含不同背景、不同人數(shù)和跑動(dòng)方向的檢測(cè)效果.
圖15 跑動(dòng)檢測(cè)部分結(jié)果
與傳統(tǒng)的幀間差分法加卷積神經(jīng)網(wǎng)絡(luò)方法相比,檢測(cè)速度提高了大約5%,運(yùn)動(dòng)目標(biāo)檢測(cè)精度提高了10%以上,總體跑動(dòng)行為檢測(cè)準(zhǔn)確度提高了6.9%. 為了驗(yàn)證使用卷積神經(jīng)網(wǎng)絡(luò)的分類器的性能,使用正負(fù)樣本訓(xùn)練數(shù)據(jù)訓(xùn)練SVM分類器與CNN分類器做實(shí)驗(yàn)對(duì)比. 在實(shí)測(cè)視頻中檢測(cè)準(zhǔn)確率對(duì)比結(jié)果如表2所示.
表2 檢測(cè)準(zhǔn)確率對(duì)比
實(shí)測(cè)中,由于只使用了圖像局部特征,要準(zhǔn)確區(qū)分出跑動(dòng)和正常行走,使得檢測(cè)產(chǎn)生誤檢較少.本文訓(xùn)練分類器所選跑動(dòng)的正樣本具有顯著特征,正樣本中跑動(dòng)動(dòng)作大部分步幅大,或者具有高抬腿的典型跑動(dòng)特征. 這樣做能避免跑動(dòng)步幅較小時(shí)被認(rèn)為只是正常行走的誤檢情況,但產(chǎn)生了更多的漏檢情況. 此外如圖15中最后一張圖片所示,當(dāng)攝像頭視角方向與人的運(yùn)動(dòng)方向角度較小時(shí)無(wú)法檢測(cè)出跑動(dòng)的人,主要原因是腿部的跑動(dòng)特征在這種狀態(tài)下不明顯,而且該檢測(cè)方法的特征沒(méi)有深度信息,如何解決這個(gè)問(wèn)題是跑動(dòng)檢測(cè)值得深入研究的一個(gè)難點(diǎn).
本文研究了基于張量分解的運(yùn)動(dòng)目標(biāo)提取算法,從處理時(shí)間上和運(yùn)動(dòng)目標(biāo)提取效果對(duì)比得到Tucker-ALS算法性能最優(yōu),這種對(duì)比分析有利于張量分解算法的實(shí)際應(yīng)用. 針對(duì)Tucker-ALS算法分離的稀疏前景的三階張量數(shù)據(jù)纖維束表示形式和特性,本文提出的基于頻域的優(yōu)化方法優(yōu)于傳統(tǒng)張量分解算法并在此基礎(chǔ)上使用多層卷積神經(jīng)網(wǎng)絡(luò)完成跑動(dòng)行為識(shí)別. 后續(xù)工作中,基于張量分解高維特性,將研究如何將張量分解算法用于彩色圖像、深度圖像或多光譜圖像的運(yùn)動(dòng)目標(biāo)提取. 此外,在靜態(tài)相機(jī)下張量分解的運(yùn)動(dòng)目標(biāo)提取方法能取得非常好的效果,但此類方法不適用于動(dòng)態(tài)相機(jī),動(dòng)態(tài)相機(jī)下的運(yùn)動(dòng)目標(biāo)提取和異常行為檢測(cè)是一個(gè)值得研究的方向.
[1] FORESTI G L. Object recognition and tracking for remote video surveillance [J]. Circuits & Systems for Video Technology IEEE Transactions on, 1999, 9(7)∶ 1045-1062.
[2] BAKER S, SCHARSTEIN D, LEWIS J P, et al. A database and evaluation methodology for optical flow [J].International Journal of Computer Vision, 2011, 92(1)∶ 1-31.
[3] BOUWMANS T. Traditional and recent approaches in background modeling for foreground detection∶ An overview [J]. Computer Science Review, 2014(s 11-12)∶ 31-66.
[4] STAUFFER C, GRIMSON W E L. Learning patterns of activity using real-time tracking [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8)∶ 747-757.
[5] 彭立中, 張帆, 周丙寅. 圖像與視頻處理的張量方法[J]. 數(shù)學(xué)進(jìn)展,2016, 45(6)∶ 840-860.
[6] BOUWMANS T, SOBRAL A, JAVED S, et al. Decomposition into low-rank plus additive matrices for background/ foreground separation∶ A review for a comparative evaluation with a large-scale dataset [J].Computer Science Review, 2016, 23(c)∶1-71.
[7] CICHOCKI A, ZDUNEK R, PHAN A H, et al. Nonnegative matrix and tensor factorizations∶ applications to exploratory multi-way data analysis and blind source separation [J]. 2009, 25(Q2)∶ 1-3.
[8] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用的研究[D]. 杭州:浙江大學(xué),2012.
[9] GU Fanglin, ZHANG Hang, WANG Wenwu, et al. Generalized generating function with tucker decomposition and alternating least squares for underdetermined blind identification [J]. Journal on Advances in Signal Processing, 2013(1)∶ 1-9.
[責(zé)任編輯:韋 韜]
A Running Detection System Based on Tensor Decomposition
HE Tao1, LUO Bing1, GUO Hui-wen2
(1.School of Information Engineering, Wuyi University, Jiangmen 529020, China;2.ShenZhen Institutes of Advanced Technology, Chinese Academy of Science, Shenzhen 518055, China)
Anomaly detection is an important part of intelligent security monitoring, and the extraction of abnormal behavior characteristics is relatively difficult. As a natural representation of high-dimensional data, tensors can effectively preserve the structural information of data and extract the moving objects in video. In this paper, tensor decomposition is applied to digital video processing,and then the frequency domain of sparse tensor is processed in a frequency domain to further optimize the motion foreground. Finally, a multilayer convolutional neural network structure is used to train the classifier to detect the running behavior of moving targets. The simulation experiment shows that the tensor decomposition method is better than the traditional method, and the detection rate of running behavior is 81.4% in the realistic scene.
tensor decomposition; high dimensional signal processing; convolution neural networks;running detection
TP391.41
A
1006-7302(2017)04-0049-08
2017-03-14
賀濤(1989—),男,湖北宜昌人,在讀碩士生,主要研究方向是數(shù)字圖像處理;羅兵,教授,博士,碩士生導(dǎo)師,通信作者,主要研究方向是機(jī)器視覺(jué)技術(shù)及應(yīng)用.