汪 鵬,張大蔚,陸正軍,李林昊
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)),天津 300401;3.河北省數(shù)據(jù)驅(qū)動(dòng)工業(yè)智能工程研究中心(河北工業(yè)大學(xué)),天津 300401;4.軍事科學(xué)院 國防工程研究院,北京 100036)
運(yùn)動(dòng)目標(biāo)檢測是視頻處理的基礎(chǔ)任務(wù)之一,同時(shí)也是目標(biāo)追蹤、行為識別等上層計(jì)算機(jī)視覺任務(wù)的預(yù)處理步驟。視頻中的對象可以分為背景和前景兩大類:背景指相對穩(wěn)定不變的事物,例如房屋;前景指具有運(yùn)動(dòng)顯著性的目標(biāo),例如行人。運(yùn)動(dòng)目標(biāo)檢測的目的是提取視頻中的前景。
近年來,低秩和稀疏表示常應(yīng)用于運(yùn)動(dòng)目標(biāo)檢測任務(wù),低秩-稀疏分解(Low-Rank and Sparse Decomposition,LRSD)和低秩矩陣因子分解(Low-Rank Matrix Factorization,LRMF)是兩種主流的算法框架。二者的主要區(qū)別是分解形式不同:LRSD將視頻同時(shí)分解為低秩背景和稀疏前景,兩種成分交替優(yōu)化,直到分解完成,例如魯棒性主成分分析(Robust Principal Component Analysis,RPCA)[1-2];LRMF 重點(diǎn)關(guān)注背景恢復(fù),用兩個(gè)低秩矩陣的乘積表示背景,其余成分(前景和干擾成分)視為離群噪聲,再通過其他約束從中提取前景,其中的權(quán)重項(xiàng)起到修正背景的作用,從而使模型恢復(fù)出更準(zhǔn)確的背景。
對于前景建模,普遍的改進(jìn)策略是對前景施加空間平滑約束和時(shí)間連續(xù)約束。文獻(xiàn)[3-4]中提出采用3D 全變分(Total Variation,TV)范數(shù),在時(shí)空維度上約束前景;Zhu 等[5]采用2D TV 范數(shù)作為空間連續(xù)性的正則化項(xiàng);Liu 等[6]將傳統(tǒng)的l1范數(shù)替換為組稀疏誘導(dǎo)范數(shù);在此基礎(chǔ)上,Zhang等[7]加入了噪聲建模的工作;馬爾可夫隨機(jī)場(Markov Random Field,MRF)是一種常用的約束稀疏性和空間連續(xù)性的方法[8-9],在消除動(dòng)態(tài)背景和增強(qiáng)前景完整性方面表現(xiàn)出了良好性能。
對于背景建模,主要有兩種改進(jìn)方案。針對核范數(shù)不能準(zhǔn)確逼近秩函數(shù)的問題,研究人員提出多種核范數(shù)的變體[10-12]:在LRMF 中,文獻(xiàn)[13]利用混合高斯分布建模復(fù)雜噪聲(背景減除后的殘差)形成能進(jìn)一步修正背景的權(quán)重,從而降低離群噪聲對背景估計(jì)的干擾;Li 等[14]提出廣義自適應(yīng)閾值收縮算子來自適應(yīng)且準(zhǔn)確地稀疏奇異值,從而比常用的收縮算子在估計(jì)低秩背景方面具有更高的性能。但是,上述研究工作往往忽略了低秩矩陣的秩對移動(dòng)目標(biāo)檢測任務(wù)的影響。秩數(shù)即矩陣秩的數(shù)值控制著視頻背景的相關(guān)強(qiáng)度。隨著秩數(shù)的增大,背景模型能捕捉更多的動(dòng)態(tài)背景;反之,背景模型會(huì)盡可能消除前景。所以,秩數(shù)很難平衡這兩方面。這也制約了現(xiàn)有的模型檢測精度的提升。
針對以上問題,部分研究者利用光流法提取的運(yùn)動(dòng)信息構(gòu)造獨(dú)立于秩的權(quán)重項(xiàng)[15-16],進(jìn)一步促進(jìn)前景和背景的分離。然而,光流法的計(jì)算復(fù)雜度高,其效果受限于嚴(yán)格的假設(shè)條件,也無法適應(yīng)間歇性運(yùn)動(dòng)。本文提出一種新的解決思路。傳統(tǒng)LRMF 中,噪聲的形成涉及與秩數(shù)有關(guān)的背景迭代解,所以不合理的秩數(shù)才可能導(dǎo)致噪聲建模失效,進(jìn)而權(quán)重難以發(fā)揮修正背景的作用。本文設(shè)計(jì)了一種可靠性低秩矩陣因子分解模型(Reliability Low-Rank Matrix Factorization,RLRMF),其中的權(quán)重不受秩數(shù)的制約,攜帶了運(yùn)動(dòng)信息即持續(xù)性運(yùn)動(dòng)信息和間歇性運(yùn)動(dòng)信息,且可描述前景與背景之間的差異。構(gòu)建權(quán)重的過程并不復(fù)雜且無嚴(yán)格的限制性假設(shè)。另外,部分研究工作對前景的時(shí)間和空間約束采用聯(lián)合優(yōu)化的方式,增加了算法的時(shí)間復(fù)雜度。所以,本文對前景依次施加時(shí)間和空間約束,降低了優(yōu)化過程的時(shí)間開銷。
本文主要的工作如下:
1)提出一種可靠性低秩矩陣因子分解模型用于綜合背景的估計(jì)(含有動(dòng)態(tài)背景)。權(quán)重的構(gòu)建僅依靠中值靜態(tài)背景和噪聲建模的結(jié)果,使權(quán)重和秩數(shù)相互獨(dú)立,形成的權(quán)重更為可靠且攜帶前景的運(yùn)動(dòng)信息。此外,綜合背景的秩處于較高的數(shù)值范圍。因此,該模型既能適應(yīng)間歇性運(yùn)動(dòng),也可準(zhǔn)確刻畫動(dòng)態(tài)背景進(jìn)而降低其對前景檢測的干擾。
2)在時(shí)間約束方面,針對直接最小化相鄰前景幀的距離會(huì)擴(kuò)增前景邊緣的問題,同時(shí)考慮到相鄰視頻幀的差異性,提出泛化差異性差分約束來更準(zhǔn)確刻畫前景的時(shí)間連續(xù)性。具體而言,將相鄰原始幀的差分建模結(jié)果作為附加條件,即賦予前景邊緣和其他差異較大位置一個(gè)較小的權(quán)重,減小執(zhí)行時(shí)間連續(xù)約束時(shí)的誤差。
3)在靜態(tài)背景建模方面,針對中值背景模型無法適應(yīng)間歇性運(yùn)動(dòng)的問題,提出一種基于偏態(tài)分布的中值背景模型,利用偏態(tài)分布的性質(zhì)選取不含或含有少量前景像素的子序列,降低了離群值對中值的干擾,所以計(jì)算該子序列的中值可估計(jì)出干凈的靜態(tài)背景,有助于前景模型捕捉間歇性運(yùn)動(dòng)的目標(biāo)。
4)在噪聲建模方面,考慮到噪聲呈偏態(tài)分布,對稱的概率分布不適合對該類噪聲建模;同時(shí),噪聲中包含較多的離群值,高斯分布對離群值更為敏感,也無法逼近真實(shí)的噪聲分布。鑒于此,提出基于非對稱拉普拉斯分布的噪聲模型。
給定連續(xù)n幀的視頻序列,然后將所有幀向量化為列向量再重組為觀測矩陣D∈Rm×n,其中m=height×width,height和width分別表示視頻幀的高度和寬度。低秩背景B∈Rm×n可以通過如下LRMF 模型來獲得:
其 中:U∈Rm×r和V∈Rr×n是低秩矩陣,r為秩數(shù)且r?min{m,n}。W是與噪聲D-UV有關(guān)的權(quán)重矩陣。權(quán)重值與噪聲強(qiáng)度呈負(fù)相關(guān)。在獲取U和V的最優(yōu)解后,利用背景減除獲得噪聲,最后通過稀疏約束或結(jié)構(gòu)化約束提取前景。
視頻中的光照變化、動(dòng)態(tài)背景和前景等非穩(wěn)定因素都會(huì)使噪聲變得十分復(fù)雜,而混合分布在理論上能擬合任意的復(fù)雜未知分布。所以,Meng 等[13]在低秩背景建模的同時(shí),利用混合高斯分布建模復(fù)雜噪聲。此后,在低秩因子分解過程中,Cao 等[17]提出基于混合冪指分布建模的LRMF[18]和受馬爾可夫隨機(jī)場約束的混合冪指分布。Yong 等[19]提出在線更新的混合高斯分布(采用TV 范數(shù)提取前景),通過混合噪聲模型推導(dǎo)出LRMF,其中的權(quán)重由混合分布的參數(shù)構(gòu)成且表示了圖像中各位置受噪聲影響的程度。
本文模型涉及三個(gè)部分:首先,基于偏態(tài)分布的中值背景模型可估計(jì)出干凈的靜態(tài)背景;然后,利用非對稱拉普拉斯分布建模靜態(tài)背景減除后的偏態(tài)噪聲,將經(jīng)TV 范數(shù)平滑后的噪聲建模結(jié)果作為可靠性低秩因子分解模型的權(quán)重,該因子分解模型用以估計(jì)綜合背景(含動(dòng)態(tài)背景);最后,通過泛化差異性差分和組稀疏誘導(dǎo)范數(shù)提取前景。
傳統(tǒng)中值背景建模的步驟是:在固定時(shí)間內(nèi),分別計(jì)算每個(gè)位置的像素序列的中值,最后獲取靜態(tài)背景。在統(tǒng)計(jì)學(xué)上,雖然中值相較均值更能抵抗離群像素的干擾,但在前景發(fā)生間歇性運(yùn)動(dòng)或慢運(yùn)動(dòng)時(shí),被前景遮擋的位置積累了大量的離群像素,導(dǎo)致部分或全部前景也會(huì)被錯(cuò)誤估計(jì)成背景。本文的改進(jìn)思路是:在有序排列的像素序列中,選取一個(gè)不含或少量含有前景像素的穩(wěn)定序列;然后,計(jì)算穩(wěn)定序列的中值。依次選取和計(jì)算m個(gè)像素序列會(huì)增大時(shí)間開銷。本文利用均值將m個(gè)有序序列融合為一個(gè)新的序列h∈R1×n,通過計(jì)算h的穩(wěn)定序列間接找到m個(gè)原始序列的公共穩(wěn)定序列,減少了時(shí)間消耗。
對于不同場景,h中的元素可形成單峰分布或多峰復(fù)雜分布,但本文將它簡單視為偏態(tài)分布:前景像素作為離群值,位于整個(gè)分布的尾部;背景像素相對更稠密且聚集在分布的最高峰附近。若整體為左偏分布,說明大量前景像素積累在整體分布的左側(cè),那么穩(wěn)定序列會(huì)在最高峰位置的右側(cè);若整體為右偏分布,也同理。
本文首先利用混合高斯模型給出h中元素分布的概率密度函數(shù),并計(jì)算函數(shù)的峰值位置p,混合分布的參數(shù)采用常用的期望最大算法求解[13];其次,利用偏態(tài)分布中均值和中值的相對位置關(guān)系判斷分布的偏態(tài)性;然后,以p為中心、q為搜索半徑,定位到公共穩(wěn)定序列所在的區(qū)間;最后,計(jì)算穩(wěn)定序列的中值。完整的流程如算法1 所示。
算法1 基于偏態(tài)分布的中值背景算法。
輸入 觀測矩陣D∈Rm×n,搜索半徑q;
輸出 靜態(tài)背景b∈Rm×1。
綜上,本文創(chuàng)造性地利用像素分布的偏態(tài)性,基本消除了大量前景離群像素對中值估計(jì)的干擾,最終生成干凈的靜態(tài)背景;而且,在基于偏態(tài)分布的中值背景建模中,本文利用均值融合了m個(gè)有序序列,有利于加速靜態(tài)背景的估計(jì)。
算法1 獲取的靜態(tài)背景是列向量,它還需要按列的方向擴(kuò)展成為靜態(tài)背景矩陣Bst∈Rm×n,再通過減除法獲取復(fù)雜噪聲矩陣,即
這種噪聲分布也具有偏態(tài)性,而且大量的稠密噪聲聚集在數(shù)值0 附近。簡單的對稱分布或主流的混合對稱分布無法有效擬合偏態(tài)分布;同時(shí)考慮到噪聲中含有較多的離群值,所以本文采用均值為0 的非對稱拉普拉斯分布建模這種噪聲,它的概率密度函數(shù)如下:
其中η和βη分別是左右兩側(cè)的尺度參數(shù)。當(dāng)β=1 時(shí),該分布退化為拉普拉斯分布。該分布的對數(shù)似然函數(shù)如下:
本文采用極大似然估計(jì)法交替求解出η和β。對于η,通過對式(4)求一階偏導(dǎo)并置為0,獲取它的解
其中:如果Eij<0,θij=1;否則θij=0。對于β的更新,首先對式(4)計(jì)算一階偏導(dǎo)并置為0,即
其次,將求解β的問題轉(zhuǎn)換為求解方程f(β)=0 的問題:
函數(shù)f對β的導(dǎo)數(shù)為,所以函數(shù)f必有零點(diǎn)??捎门nD迭代法計(jì)算β的數(shù)值解β(t+1)。
在噪聲建模完成后,需要構(gòu)造可靠性低秩因子分解模型的權(quán)重W∈Rm×n。目前研究人員將光流法提取的運(yùn)動(dòng)信息整合為權(quán)重項(xiàng)[15-16],以促進(jìn)前景和背景的分離。然而,一方面,光流法所要求的假設(shè)條件在現(xiàn)實(shí)中難以滿足且計(jì)算復(fù)雜度高;另一方面,光流法僅能提取持續(xù)性運(yùn)動(dòng)的前景信息,無法適應(yīng)間歇性運(yùn)動(dòng)的情況,而噪聲E自然攜帶了視頻的運(yùn)動(dòng)信息即持續(xù)性運(yùn)動(dòng)和間歇性運(yùn)動(dòng)信息,并且可描述前景與背景之間的差異,其建模過程并不復(fù)雜,因此可用E的建模結(jié)果形成可靠性權(quán)重。具體而言,該權(quán)重矩陣由非對稱拉普拉斯分布的概率密度值構(gòu)成,具體表達(dá)如下:
其中:η*和β*是已估計(jì)出的分布參數(shù)。MinMax(·)是最大最小歸一化方法,將概率密度值放縮到[0,1]區(qū)間。是2D 全變分(TV)范數(shù)的近端算子[5],增強(qiáng)了各密度值在空間上的連續(xù)性,可利用快速梯度投影法求解[20]。本文需要將W的每列重新展開到原始的二維空間上再執(zhí)行該算子。是硬閾值算子,用來稀疏與前景對應(yīng)的小權(quán)重,從而進(jìn)一步降低前景對背景估計(jì)的干擾。以下是可靠性低秩因子分解的數(shù)學(xué)表達(dá):
其中:B∈Rm×n表示綜合背景(含有動(dòng)態(tài)背景),本文通過等式B=UV約束了背景的低秩性;W為可靠性權(quán)重矩陣。通過經(jīng)空間平滑后的噪聲E(干凈靜態(tài)背景減除結(jié)果)建模結(jié)果形成了不受秩影響的權(quán)重,同時(shí)綜合背景矩陣的秩維持在較高數(shù)值范圍,故可靠性低秩因子分解模型可估計(jì)干凈的、含有背景細(xì)節(jié)特征(動(dòng)態(tài)背景)的綜合背景,有利于緩解動(dòng)態(tài)背景對前景檢測任務(wù)的干擾。需要強(qiáng)調(diào)的是,在可靠性權(quán)重的表達(dá)式中,E是靜態(tài)中值背景的減除結(jié)果,而基于偏態(tài)分布的中值背景算法可估計(jì)出干凈的靜態(tài)背景且不需要嚴(yán)格的條件假設(shè);此外,本文假設(shè)噪聲E服從特定分布,這僅是對噪聲分布的描述同時(shí)也是將噪聲轉(zhuǎn)化為權(quán)重的步驟之一,而E本身已具有描述前景和背景差異的能力,因此這種分布假設(shè)并不限制綜合背景的估計(jì)。相較于由光流信息所形成的權(quán)重,本文的權(quán)重具有不受嚴(yán)格假設(shè)條件限制的優(yōu)勢,能夠適應(yīng)地解決間歇性運(yùn)動(dòng)的問題。
式(9)定義了一個(gè)線性約束下的凸優(yōu)化問題。本文采用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。利用增廣拉格朗日乘子去掉式(9)中的等式約束,獲取增廣拉格朗日優(yōu)化問題為:
其中:Z∈Rm×n為拉格朗日乘子,μ>0。
對于V、U和B,可通過在式(10)中分別對這3 個(gè)變量求一階偏導(dǎo)并置為0,獲取它們的閉式解:
另外,拉格朗日乘子Z和μ的更新如下:
ADMM 迭代求解的停止準(zhǔn)則為達(dá)到最大迭代次數(shù)或者滿足不等式。本文設(shè)置最大迭代次數(shù)為80,ε=1E-5。
前景的持續(xù)運(yùn)動(dòng)導(dǎo)致了相鄰幀在前景邊緣處的像素距離增大。所以,約束前景的時(shí)間連續(xù)性時(shí),直接最小化這兩幀的距離會(huì)使前景的邊緣處發(fā)生較大估計(jì)誤差,即檢測到的前景邊緣處出現(xiàn)擴(kuò)增現(xiàn)象。換言之,直接最小化相鄰兩幀的一階差分(例如TVRPCA)并非是合理的時(shí)間約束方法。
為避免出現(xiàn)以上問題并設(shè)計(jì)更合理的時(shí)間約束項(xiàng),本文在距離度量中引入相鄰視頻幀的差異信息。該信息由相鄰原始視頻幀的差分建模結(jié)果表示并形成差異性矩陣,該矩陣包含了相鄰原始視頻幀上各位置的相似度。在約束前景的時(shí)間連續(xù)性時(shí),可通過這種相似度調(diào)整約束力度,即提高前景內(nèi)部的時(shí)間約束力度,同時(shí)降低前景邊緣的估計(jì)誤差。離群噪聲基本位于前景邊緣且占據(jù)較小的比例,因而選用高斯分布建模。為了簡化計(jì)算,時(shí)間和空間約束可以依次執(zhí)行。
在可靠性低秩因子分解模型獲取綜合背景B后,本文通過背景減除獲得噪聲成分H∈Rm×n,再對H中的前景成分施加基于泛化差異性差分的時(shí)間約束,即
其中:S∈Rm×n是經(jīng)時(shí)間約束后的前景;S:k-1和S:k分別是S的第k-1 列和第k列。M∈Rm×n是差異性矩陣,M:k是M的第k列。該矩陣的表達(dá)式為:
其中:S'∈Rm×n是經(jīng)Ω(?)約束的前景。S'的第k列(S')k∈Rm×n包含m個(gè)元素,索引為{1,2,…,m}。將(S')k重新排列成一幅完整的圖像,它的像素可通過步長為1 的滑動(dòng)窗口劃分成互相重疊的分組,本文選取3×3 大小的滑動(dòng)窗口。表示S'的第k列中的第g個(gè)重疊組?!?‖∞表示無窮范數(shù)即計(jì)算每組中最大絕對值。Ω(?)可看作是各組無窮范數(shù)的l1范數(shù)約束,它迫使同組內(nèi)的像素具有相似的值并保持稀疏性,從而保證前景檢測的完整性。式(21)需轉(zhuǎn)換成二次最小代價(jià)流的問題來求解[7]。在實(shí)驗(yàn)中,式(21)可直接調(diào)用稀疏工具包Spams 中的ProximalGraph 函數(shù)求解。由于時(shí)間和空間約束被依次執(zhí)行,故此時(shí)可啟動(dòng)該函數(shù)的并行計(jì)算功能,加速各幀前景的估計(jì)。
本文將背景與前景依次建模,總體的流程為三部分,如圖1 所示。
圖1 總體建模流程Fig.1 Overall modeling process
1)靜態(tài)背景建模:以觀測視頻D為輸入,基于偏態(tài)分布的中值背景模型估計(jì)出干凈的靜態(tài)背景b。
2)基于噪聲分析的綜合背景建模:由b獲取偏態(tài)噪聲E后,基于非對稱拉普拉斯分布的模型對E進(jìn)行建模,并利用TV 范數(shù)和硬閾值算子分別約束噪聲建模結(jié)果的空間平滑性和稀疏性,以此獲得可靠性低秩因子分解模型中結(jié)構(gòu)化的權(quán)重,執(zhí)行低秩因子分解以獲取綜合背景B。
3)結(jié)構(gòu)化前景建模:分別執(zhí)行基于泛化差異性差分的時(shí)間約束和基于組稀疏誘導(dǎo)范數(shù)的空間約束提取噪聲(D-B)中的前景成分。
為驗(yàn)證本文算法的視頻建模性能,在I2R數(shù)據(jù)集[21]的9段視頻中進(jìn)行測試,并與PCP(Principal Component Pursuit)[1]、DECOLOR(DEtecting Contiguous Outliers in the Low-Rank Representation)[8]、LSD(Low-rank and structured Sparse Decomposition)[6]、TVRPCA(Total Variation regularized RPCA)[3]、E-LSD(Extended LSD)[7]和GSTO(Generalized Shrinkage Thresholding Operator)[14]算法從客觀評價(jià)指標(biāo)和檢測的視覺效果兩方面進(jìn)行比較。本文算法、LSD和E-LSD的實(shí)驗(yàn)環(huán)境是Linux 系統(tǒng)中的Python3.7,其余算法的實(shí)驗(yàn)環(huán)境是Matlab 2014b。設(shè)備配置為Intel Core i9-10900X CPU和128 GB RAM。
在仿真實(shí)驗(yàn)中批量處理連續(xù)的220 幀。鑒于所提算法的超參數(shù)數(shù)量較多且各超參數(shù)可能會(huì)存在依賴關(guān)系,因此本文采用貝葉斯調(diào)參工具來設(shè)置各超參數(shù)數(shù)值或最佳取值范圍。本文算法的各項(xiàng)參數(shù)如下:q∈{10,50},r=10,λ1=0.2,λ2∈{0.05,0.15},λ3=1,λ4=0.3,λ5∈[0.02,0.09]。
不同算法的可視化檢測效果對比如圖2 所示。視頻WaterSurface 和Fountain 的背景均含有水的非剛體運(yùn)動(dòng);Curtain 中含有搖擺的窗簾;Campus的背景是大面積的晃動(dòng)樹葉;Escalator 是自動(dòng)扶梯的監(jiān)控場景,這種動(dòng)態(tài)背景非常容易誤檢為前景;Lobby 視頻中的目標(biāo)會(huì)有較長時(shí)間的停留;其余三個(gè)視頻都是靜態(tài)背景且或多或少存在間歇性運(yùn)動(dòng)的目標(biāo)。
圖2 不同算法針對不同視頻序列的實(shí)驗(yàn)結(jié)果比較Fig.2 Experimental results comparison of different algorithms for different video sequences
由圖2 分析比較可知,PCP 受動(dòng)態(tài)背景的干擾最為嚴(yán)重,提取到的前景摻雜較多的噪聲,因?yàn)樗皇菍η熬笆┘恿撕唵蔚南∈杓s束。另外,WaterSurface 和Curtain 中前景在某段時(shí)間內(nèi)的運(yùn)動(dòng)幅度較小或處于短暫停留,這增大了檢測難度。而PCP 無法應(yīng)對這種情況,提取的前景出現(xiàn)大面積缺失。其余對比算法在這兩段視頻中的性能有不同程度的改善,但前景也會(huì)存在較多缺失。而本文算法能較為完整地提取這類復(fù)雜運(yùn)動(dòng)的前景。DECOLOR 雖然可消除動(dòng)態(tài)背景干擾,但會(huì)過度平滑前景邊緣。LSD 和E-LSD 都使用了組稀疏誘導(dǎo)范數(shù)約束前景的空間連續(xù)性,前者提取到的前景較為完整,但消除動(dòng)態(tài)背景方面表現(xiàn)欠佳;而后者以及TVRPCA 的表現(xiàn)與其相反。GSTO 利用靈活的奇異值收縮算子恢復(fù)靜態(tài)背景,再以字典學(xué)習(xí)方法更加細(xì)致刻畫動(dòng)態(tài)背景,最后在時(shí)空鄰域上引用MRF,相較于其他對比算法,該算法提高對動(dòng)態(tài)背景干擾的抑制能力,與E-LSD 相比,進(jìn)一步捕捉間歇性運(yùn)動(dòng)的前景。然而,在Lobby 視頻中,GSTO 捕捉間歇性運(yùn)動(dòng)前景的能力依然有限,而且前景邊緣的提取較為粗糙。本文算法不必引入其他動(dòng)態(tài)背景建模方法,僅通過調(diào)高秩數(shù)將動(dòng)態(tài)成分納入所估計(jì)的背景中,簡化了建模過程,并借助可靠性權(quán)重細(xì)致修正背景,因而不僅能消除或降低動(dòng)態(tài)背景的干擾,而且能提取更完整、邊緣更精細(xì)的前景。在Lobby 視頻中,本文算法與LSD 能基本提取到較長時(shí)間停留的前景,且提取效果接近。TVRPCA 和本文算法均引入了空間和時(shí)間連續(xù)約束,前者采用3DTV 范數(shù)約束了視頻在水平、豎直和時(shí)間方向上的連續(xù)性,雖然能有效抑制動(dòng)態(tài)背景,但前景檢測結(jié)果中出現(xiàn)了較多的缺失;后者結(jié)合組稀疏誘導(dǎo)范數(shù)和泛化差異性時(shí)間差分,既能強(qiáng)有力地約束空間連續(xù)性,而且有效刻畫了前景的時(shí)間連續(xù)性,最終提取更完整的前景。
為了定量評估各算法的性能,本文使用查準(zhǔn)率(Precision,P)、查全率(Recall,R)以及它們的調(diào)和平均數(shù)F-measure 來評價(jià)檢測效果。查準(zhǔn)率和查全率的定義如下:
其中:TP表示檢測到的正確前景像素?cái)?shù)量,F(xiàn)P表示錯(cuò)檢為前景的背景像素?cái)?shù)量,F(xiàn)N表示錯(cuò)檢為背景的前景像素?cái)?shù)量。查準(zhǔn)率可衡量算法的抗干擾性,而查全率考量的是算法的前景提取能力。為綜合考慮算法的檢測效果,可采用二者的調(diào)和平均數(shù),即
表1 是不同算法在5 個(gè)含有動(dòng)態(tài)背景的視頻中查全率、查準(zhǔn)率和F-measure 的對比結(jié)果。在WaterSurface 視頻中,動(dòng)態(tài)背景是起伏的海浪。大多數(shù)算法的F-measure 值在0.90 左右,說明該視頻的檢測難度較小。相較于具有強(qiáng)競爭力的GSTO,本文算法在輕微損失查全率的情況下,有效提高查準(zhǔn)率,從而增強(qiáng)了算法的抗干擾性。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約1 個(gè)百分點(diǎn)。
表1 不同算法的指標(biāo)對比Tab.1 Indicators comparison of different algorithms
在Fountain 視頻中,動(dòng)態(tài)背景是噴泉。本文算法、GSTO、DECOLOR 和E-LSD 的查準(zhǔn)率均在0.85 以上,說明其中動(dòng)態(tài)背景具有較弱的干擾性,大多數(shù)算法均可對其抑制。從查全率來看,GSTO 等5 個(gè)對比算法的結(jié)果在0.85 以下。本文算法在這兩個(gè)指標(biāo)上表現(xiàn)均衡且均在較高水平,因而獲得最優(yōu)的F-measure 值。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約1 個(gè)百分點(diǎn)。
在Curtain 視頻中,動(dòng)態(tài)背景是飄動(dòng)的窗簾,而且前景出現(xiàn)較長時(shí)間的駐足狀態(tài)。從查準(zhǔn)率來看,DECOLOR 獲得最優(yōu)結(jié)果,E-LSD 獲得次優(yōu)結(jié)果,GSTO 的結(jié)果略低但也達(dá)到了0.93,說明這些算法(包括本文算法)可適應(yīng)抵抗飄動(dòng)窗簾的干擾。從查全率來看,僅有本文算法和LSD 的結(jié)果在0.90以上,也說明了其中駐足的前景難以被準(zhǔn)確提取。雖然GSTO 和本文算法的F-measure 均達(dá)到了最優(yōu)0.91,與次優(yōu)算法LSD 相比,提高了約6 個(gè)百分點(diǎn),但是本文算法的查準(zhǔn)率和查全率更為均衡。
在Campus 視頻中,動(dòng)態(tài)背景是大面積搖擺的樹葉,其呈聚集分布。從查準(zhǔn)率來看,這給前景提取造成非常強(qiáng)烈的干擾,TVRPCA 獲得了最優(yōu)的結(jié)果0.91,GSTO 的結(jié)果達(dá)到次優(yōu)值0.90,而本文算法的結(jié)果位列第三。從查全率來看,DECOLOR 和E-LSD 均取得了最優(yōu)值0.91,LSD 和本文算法的結(jié)果為次優(yōu)值。但是,由于本文算法表現(xiàn)出的均衡性,故其獲得了最優(yōu)的F-measure 值0.85。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約4 個(gè)百分點(diǎn)。
在Escalator 視頻中,動(dòng)態(tài)背景是運(yùn)行的自動(dòng)扶梯,相較于搖擺的樹葉,更具干擾性。TVRPCA 獲得了最優(yōu)的查準(zhǔn)率0.82,GSTO 獲得次優(yōu)值0.75,大多數(shù)算法的結(jié)果均在0.70以下。從查全率來看,DECOLOR 獲得了極為突出的結(jié)果0.95,但也能看出其表現(xiàn)非常不均衡,本文算法獲得了次優(yōu)的結(jié)果0.87。此外,從GSTO 和本文算法的對比發(fā)現(xiàn),在該視頻中,二者側(cè)重于不同方面,前者的抗干擾性較高,而后者的前景提取能力較強(qiáng)。但是,從F-measure 來看,本文算法的綜合能力更占優(yōu)。與次優(yōu)算法TVRPCA 相比,本文算法的F-measure 提高了約1 個(gè)百分點(diǎn)。
通過對表1 的詳細(xì)分析可知,大多數(shù)對比算法的查全率和查準(zhǔn)率并不均衡。例如,LSD 和DECOLOR 的查全率普遍高于查準(zhǔn)率,說明其更側(cè)重提取前景;TVRPCA 和E-LSD 的查準(zhǔn)率普遍高于查全率,說明其更側(cè)重抑制動(dòng)態(tài)背景。然而對于前景檢測任務(wù)而言,抗干擾性和前景提取能力同等重要。GSTO 在這兩個(gè)指標(biāo)上的表現(xiàn)較為均衡,且F-measure 基本處于次優(yōu)值,所以具有更強(qiáng)的競爭性。本文算法不僅在5個(gè)含有不同動(dòng)態(tài)背景的視頻中獲得最優(yōu)的F-measure 值,而且相較于所列的對比算法,其查準(zhǔn)率和查全率的數(shù)值更為接近且處于較高水平(除Escalator 視頻外),即本文算法的抗干擾性和前景提取能力均較強(qiáng),這也是本文算法的F-measure達(dá)到最優(yōu)值的主要原因。
本文提出一種基于可靠性低秩因子分解和泛化差異性差分的運(yùn)動(dòng)目標(biāo)檢測模型。在背景建模方面,本文以低秩因子分解為基礎(chǔ),通過基于偏態(tài)分布的中值背景模型獲得干凈的靜態(tài)背景;以非對稱拉普拉斯分布建模偏態(tài)噪聲,可靠性低秩因子分解中的權(quán)重來自經(jīng)空間平滑后的噪聲建模結(jié)果,提高了矩陣因子分解模型的穩(wěn)定性和背景估計(jì)的準(zhǔn)確度。在前景檢測方面,泛化差異性差分項(xiàng)更合理約束前景的時(shí)間連續(xù)性并消除了前景邊緣擴(kuò)增的潛在問題。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)算法以及近年來的算法相比,本文算法在綜合評價(jià)指標(biāo)和視覺效果上都具有較強(qiáng)的優(yōu)勢,可在降低動(dòng)態(tài)背景干擾的同時(shí)也能更精確檢測出間歇性運(yùn)動(dòng)的前景,提取到的運(yùn)動(dòng)前景更具完整性。