丁潔 肖江劍 況立群 宋康康 彭成斌
背景建模是計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方法,在智能視頻監(jiān)控、智能交通、人機(jī)交互等領(lǐng)域有廣泛應(yīng)用.現(xiàn)有背景模型主要分為基于時(shí)域信息的模型和基于時(shí)空域信息融合的模型[1].基于時(shí)域信息的模型通常利用過(guò)去一小段時(shí)間內(nèi)像素的統(tǒng)計(jì)特性來(lái)預(yù)測(cè)該像素短期未來(lái)的狀態(tài),而基于時(shí)空域信息融合的模型在利用時(shí)域信息的同時(shí)也關(guān)注像素在空間域上的分布特性.這些模型又可以分為參數(shù)化模型和非參數(shù)化模型.參數(shù)化模型是利用含參模型對(duì)每個(gè)像素點(diǎn)建模,非參數(shù)化模型是使用已觀察的像素值對(duì)該像素點(diǎn)建模[2].
Wren等[3]提出的單高斯背景模型是利用時(shí)域信息建立的參數(shù)化模型,該方法對(duì)光照緩變適應(yīng)性較強(qiáng),但在發(fā)生背景擾動(dòng)時(shí),處理情況較差,這主要是因?yàn)閱胃咚贡尘澳P蜔o(wú)法處理多模態(tài)變化.此后,Stauffer等[4]提出混合高斯背景模型(Mixture of Gaussian,MOG)來(lái)處理多模態(tài)變化,它也是一個(gè)只利用時(shí)域信息的參數(shù)化模型.與單高斯模型不同的是,它對(duì)圖像每個(gè)像素點(diǎn)建立多個(gè)不同權(quán)重的高斯模型.它可以有效地處理多模態(tài)場(chǎng)景,但是如果背景中同時(shí)呈現(xiàn)高低頻變換,它的靈敏度調(diào)節(jié)困難,會(huì)導(dǎo)致前景像素融入背景模型、丟失高頻目標(biāo).另外,條件隨機(jī)場(chǎng)[5]、碼書(shū)[6]等方法也被用于基于時(shí)間域信息的背景建模,然而發(fā)生變化(如風(fēng)吹樹(shù)枝)時(shí),受模型更新速度的影響,算法會(huì)產(chǎn)生大量的虛警數(shù).此后,Barnich等[7]通過(guò)利用像素的空間關(guān)系提高模型更新速度,提出融合時(shí)空特性的非參數(shù)化模型—ViBe(Visual background extractor)模型,該模型利用像素點(diǎn)的鄰居像素來(lái)對(duì)模型更新,使其對(duì)變化場(chǎng)景可以較快適應(yīng).然而在非平穩(wěn)變化(如光照突變)下,使用該模型仍然會(huì)產(chǎn)生大量的虛警數(shù).2014年,St-Charles等提出SuBSENSE(Self-balanced sensitivity segmenter)算法[8],該算法對(duì)ViBe算法顏色空間以及距離公式進(jìn)行改進(jìn),可以有效填補(bǔ)ViBe算法目標(biāo)內(nèi)部空洞并提高更新速率,然而該算法運(yùn)算效率較低且容易出現(xiàn)大范圍閃爍現(xiàn)象.
分析以上背景建模方法,無(wú)論是只使用時(shí)間域信息的模型還是使用時(shí)空域信息融合的模型都只考量狹小時(shí)間段內(nèi)的統(tǒng)計(jì)特性.然而,在整個(gè)背景建模的過(guò)程中,場(chǎng)景背景的變化有周期性重現(xiàn)的特點(diǎn)(如光線的變化情況等),如果僅在小時(shí)段時(shí)空域上研究,必定會(huì)丟失周期性信息,使更新受限.如果將周期性信息合理記錄,構(gòu)成帶記憶的模型.在發(fā)生非平穩(wěn)變化時(shí),直接在記憶字典中找到對(duì)應(yīng)變化特點(diǎn)的背景作為此時(shí)背景,并使用它更新模型,必定能大幅度降低虛警數(shù).為了充分利用背景長(zhǎng)時(shí)間周期性重現(xiàn)特點(diǎn),搭建一個(gè)合理融合大時(shí)空域信息的基于長(zhǎng)時(shí)間視頻序列的背景建??蚣?并在其上研究背景建模方法.設(shè)計(jì)該框架時(shí)有以下幾個(gè)難點(diǎn):1)如何將大量長(zhǎng)時(shí)間背景信息合理描述;2)如何訓(xùn)練生成簡(jiǎn)單并兼顧實(shí)時(shí)性的背景字典;3)如何在背景詞典中查找所需背景;4)如何使背景字典長(zhǎng)久的適用于場(chǎng)景;5)如何將長(zhǎng)時(shí)間的時(shí)空域信息與短時(shí)間的時(shí)空域信息結(jié)合,即如何將長(zhǎng)時(shí)間記憶模型與短時(shí)間記憶模型融合.
針對(duì)1),本文通過(guò)對(duì)長(zhǎng)時(shí)間視頻剪輯、求平均背景生成背景圖片,并對(duì)圖像降采樣、降維[9],產(chǎn)生有意義的背景描述子;針對(duì)2),本文采用譜聚類[10]對(duì)背景粗分類,并使用K-means[11]對(duì)背景進(jìn)一步細(xì)分類,使用類別中典型圖建立樹(shù)形字典,從而訓(xùn)練出簡(jiǎn)單可兼顧實(shí)時(shí)性的背景字典;針對(duì)3),計(jì)算原圖向量與背景詞典向量之間的歐氏距離,距離小的即為所需背景;針對(duì)4),本文增加背景字典更新模塊;針對(duì)5),本文設(shè)計(jì)突發(fā)變化判斷機(jī)制,如果是平穩(wěn)變化則使用現(xiàn)有短時(shí)空域信息模型,如果是突發(fā)變化則利用帶記憶的長(zhǎng)時(shí)空域信息模型.
本文首先介紹該框架的建立方法,然后介紹該框架與短時(shí)空域信息背景模型[12]的融合方法,重點(diǎn)測(cè)試突發(fā)變化發(fā)生時(shí)的運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果.實(shí)驗(yàn)結(jié)果表明:該框架可顯著提高背景模型(如ViBe或MOG算法)對(duì)突發(fā)變化(主要測(cè)試光照突變)的適應(yīng)性和魯棒性,有效實(shí)現(xiàn)對(duì)前景目標(biāo)的較準(zhǔn)確檢測(cè).
本文以長(zhǎng)時(shí)間定視角視頻序列為研究對(duì)象,給出同時(shí)滿足運(yùn)動(dòng)目標(biāo)檢測(cè)實(shí)時(shí)性、準(zhǔn)確性以及突發(fā)變化適應(yīng)性(如光照突變)要求的長(zhǎng)時(shí)間背景建??蚣?
長(zhǎng)時(shí)間背景建??蚣苋鐖D1所示,其內(nèi)容可以分為三塊:背景字典訓(xùn)練模塊、圖像檢索模塊以及背景字典更新模塊.背景字典訓(xùn)練模塊包括視頻背景信息描述(預(yù)處理與PCA(Principal components analysis)降維)和生成背景字典(譜聚類、K-means再聚類以及字典生成);圖像檢索模塊包括非平穩(wěn)變化判斷、原圖像合理描述與檢索判斷方法;背景字典更新模塊包括模型效果判斷機(jī)制與更新方法.下文將圍繞以上三個(gè)模塊展開(kāi).
訓(xùn)練背景字典部分包括背景合理描述與生成背景字典兩部分.這部分將完成背景模型的記憶功能.
這部分本質(zhì)為特征提取,通過(guò)對(duì)長(zhǎng)時(shí)間視頻預(yù)處理以及降維,生成背景描述子,并以向量的組合描述長(zhǎng)時(shí)間視頻圖像序列.
根據(jù)長(zhǎng)時(shí)間視頻數(shù)據(jù)量大,而每一分鐘背景變化差異不大的特點(diǎn),對(duì)采集的定視角視頻做預(yù)處理.
輸入:所采集的定視角視頻(本文采集24小時(shí)定視角視頻).
輸出:預(yù)處理結(jié)果向量集{i}.
步驟1.將視頻剪輯為一分鐘短視頻(24×60=1440個(gè));
步驟2.依次對(duì)每一分鐘的視頻使用已有背景建模方法建立背景模型并求得背景(本文使用高斯背景建模算法來(lái)建立背景模型);
圖1 長(zhǎng)視頻背景建模框架Fig.1 Long time background modeling framework
步驟3.求每分鐘的平均背景圖(共1440張,即背景記憶庫(kù));
步驟4.背景圖像降采樣,主要目的是減小訓(xùn)練算法運(yùn)算量.(將原圖像(Data1分辨率352×288)變?yōu)榉直媛?60×120的圖像);
步驟5.將圖像轉(zhuǎn)換為向量形式,此后運(yùn)算都以該向量集為基礎(chǔ).(1×160×120維的向量集
通過(guò)預(yù)處理所得高維向量數(shù)據(jù)集為{i},在其之上直接處理,會(huì)造成維數(shù)災(zāi)難[13],因此使用降維算法對(duì)其降維.本文采用被廣泛使用的主成分分析法(PCA)對(duì)數(shù)據(jù)集降維,主成分分析法的優(yōu)點(diǎn)是概念簡(jiǎn)單、計(jì)算方便、重構(gòu)誤差小.
使用PCA算法,計(jì)算合適的投影矩陣Ud,將圖像數(shù)據(jù)集合{i}降到低維空間變?yōu)橛?jì)算公式:
其中,i是i降維后對(duì)應(yīng)的向量,是{i}的均值向量.在降維后的空間,背景數(shù)據(jù)集變?yōu)閧i},它就是背景描述子.降維的維數(shù)是通過(guò)保留信息量以及聚類結(jié)果確定的,其確定方法在第6節(jié)闡述.
這部分主要闡述背景記憶庫(kù)中的向量分類方法、背景字典生成方法以及組織方式.因?yàn)楸疚奶幚淼亩ㄒ暯且曨l序列有如下特點(diǎn):1)數(shù)據(jù)量較大;2)場(chǎng)景典型類別少.本文利用聚類算法探索背景向量之間的關(guān)系并分類.譜聚類算法對(duì)背景向量粗聚類,K-means算法對(duì)背景向量細(xì)聚類.與此同時(shí),使用類中典型圖生成背景字典,并根據(jù)粗細(xì)分類合理組織背景字典.
由于譜聚類算法有對(duì)不規(guī)則誤差數(shù)據(jù)不敏感,計(jì)算復(fù)雜度較小,收斂于全局的優(yōu)點(diǎn),本文使用該算法對(duì)數(shù)據(jù)聚類[14].2014年,Zhu等[15]提出一種通過(guò)有效計(jì)算高維復(fù)雜數(shù)據(jù)之間相似度以改進(jìn)相似度矩陣的方法,大幅度提高高維譜聚類性能.本文使用該方法計(jì)算相似度矩陣.
本文譜聚類流程:
輸入:背景描述向量集{i}.
輸出:聚類結(jié)果向量(指明每個(gè)向量的類別).
步驟1.計(jì)算這n個(gè)描述向量的相似度矩陣an×n,其元素aij為數(shù)據(jù)i與j的相似度;
步驟2.計(jì)算矩陣D,D為對(duì)角矩陣,除對(duì)角元素外都為0,D的對(duì)角元素為
其中,D的對(duì)角元素為an×n對(duì)應(yīng)列的所有元素之和;
步驟3.計(jì)算規(guī)范拉普拉斯矩陣L,其中I是單位矩陣;
步驟4.求L的特征值并按從小到大排列:γ1≤γ2≤···≤γn(對(duì)稱矩陣有n個(gè)實(shí)值的特征值);
步驟5.對(duì)于k類聚類(k的選擇由第6節(jié)闡述),原算法選取前k個(gè)特征值所對(duì)應(yīng)的特征向量,按列組成新的矩陣R,它是n×k維矩陣,本文算法根據(jù)經(jīng)驗(yàn)選取前k+3個(gè)特征值對(duì)應(yīng)的特征向量,按列組成新的矩陣R,它為n×(k+3)維矩陣;
步驟6.把矩陣R的每行元素作為新數(shù)據(jù)(共n個(gè),每個(gè)數(shù)據(jù)k+3維),使用K-means聚類.如果R的第i行元素被聚類到子類Kj,那么原n個(gè)數(shù)據(jù)中的第i個(gè)數(shù)據(jù)屬于子類j.
本文計(jì)算相似度矩陣an×n的方法 (由 Zhu等[15]提出)如下:
如圖2所示,γ為根節(jié)點(diǎn).假如一對(duì)樣本從根節(jié)點(diǎn)開(kāi)始直到到達(dá)它們各自的葉子節(jié)點(diǎn)li與lj.最后由根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn)組成的一條路徑(如圖粗體部分所示)會(huì)被生成.
圖2 隨機(jī)決策樹(shù)Fig.2 Random decision tree
分別表示遍歷的中間節(jié)點(diǎn).如果pi和pj經(jīng)過(guò)相同的λ個(gè)節(jié)點(diǎn),則
(i,j)的相似度表示為
其中,b=argmax|pb|且b∈{i,j},b表示到達(dá)葉子節(jié)點(diǎn)lb的數(shù)據(jù)樣本集,分子表示i,j共同經(jīng)過(guò)的權(quán)重和,分母為整體權(quán)重.這種表達(dá)方式可以有效表達(dá)數(shù)據(jù)點(diǎn)之間的相似性.由aij構(gòu)成的矩陣即為相似度矩陣an×n.
根據(jù)上一部分的譜聚類算法,背景圖片可以分為k類,類中的圖片相似度較高.由于背景圖片量大,假如直接使用新的視頻圖像向量與k類中每個(gè)背景向量比較則計(jì)算量太大.而如果只與該類典型圖片向量比較,則比較向量太少,會(huì)導(dǎo)致檢索出的背景不夠準(zhǔn)確.因而,本文通過(guò)對(duì)每類向量(由第2.2.1節(jié)可知,該向量為k+3維)K-means再聚類,聚為10個(gè)小類.這樣背景描述向量就又被分為10類.
建立的背景字典需滿足兩個(gè)要求:第一,能有效代表所有背景;第二,檢索速度快.針對(duì)這兩個(gè)要求,設(shè)計(jì)如圖3所示的字典生成方法,由第2.2.1節(jié)可知,譜聚類將背景圖聚為k類,我們找到這k類的典型圖,之后再按第2.2.2節(jié)中K-means再聚類,分別找到每部分10個(gè)類的典型圖.典型圖是每類的載體,背景字典由圖3中淺色箭頭虛線所連典型圖構(gòu)成.由圖3可知,此背景字典為樹(shù)形結(jié)構(gòu),因而可加快檢索速度.
圖3 背景字典生成圖Fig.3 Map of background dictionary
圖像檢索部分主要討論檢索時(shí)機(jī),檢索背景字典的方法.本文使用非平穩(wěn)變化判斷機(jī)制確定檢索時(shí)機(jī),通過(guò)計(jì)算歐氏距離檢索背景字典.
本文實(shí)驗(yàn)的非平穩(wěn)變化是光線突變,因而設(shè)計(jì)關(guān)于光線的非平穩(wěn)變化判斷機(jī)制.
根據(jù)光線突變時(shí)絕大多數(shù)像素點(diǎn)變?yōu)榍熬暗奶攸c(diǎn),本文通過(guò)關(guān)注前景像素點(diǎn)占總像素點(diǎn)的比例來(lái)統(tǒng)籌設(shè)計(jì)判斷機(jī)制.
光線突變時(shí),前景像素比例迅速增大,當(dāng)大于臨界值T時(shí),則認(rèn)為發(fā)生了光線突變.如式(7)其中Ro為前景像素比例,flag1=1說(shuō)明非平穩(wěn)變化發(fā)生,反之,則不是.
當(dāng)判斷結(jié)果為flag1=1時(shí),將此時(shí)原圖經(jīng)過(guò)第2.1.1節(jié)中步驟4、步驟5兩步變?yōu)榕ci維數(shù)一致的高維向量,將映射到與i同一個(gè)空間中,變?yōu)橄蛄?計(jì)算公式:
其中,是第2.1.2節(jié)中的投影矩陣,向量nnn就是原圖像的合理描述.
該處步驟與特征臉?biāo)惴╗16]類似,通過(guò)計(jì)算向量與背景字典中i的歐氏距離,距離最小的即為對(duì)應(yīng)的背景向量.將該向量的索引返回,該索引背景就是此時(shí)背景,并采用該背景初始化背景模型.
這部分討論模型效果判斷機(jī)制以及更新方法.
檢索替換生成新模型之后,前景像素比例Ro應(yīng)該迅速下降.如果下降較小,說(shuō)明場(chǎng)景與記憶場(chǎng)景差距較大,此時(shí)需要更新背景字典.根據(jù)這個(gè)特點(diǎn)設(shè)計(jì)判斷機(jī)制如式(9):
Mp表示原來(lái)模型,Ma為新模型.Tu為閾值,flag2=0代表不需要更新背景字典,flag2=1代表需要更新背景字典.
結(jié)合本文第2.1.1節(jié)中背景的生成方法,再考慮快速的背景字典更新,最終從判斷結(jié)果為flag2=1的當(dāng)前幀開(kāi)始累計(jì)100幀背景計(jì)算其平均背景,將平均背景作為新的背景,添加到背景庫(kù)中.同時(shí),與譜聚類典型圖對(duì)應(yīng)向量比較,找到在背景字典合適的位置,將該向量加入.如果檢索位置已滿,則根據(jù)被檢索頻率的高低來(lái)替換背景向量,如果一個(gè)向量長(zhǎng)時(shí)間沒(méi)有被檢索,則被替換的概率高.
以上三部分就是本文框架的建立方法,由于本文框架主要處理非平穩(wěn)變化,而非平穩(wěn)變化并非常態(tài),因而設(shè)計(jì)將現(xiàn)有短時(shí)空域的背景建模與本文長(zhǎng)時(shí)空域背景建模融合.這樣可以提高背景建模速度.
在第3.1節(jié)中,我們談到非平穩(wěn)變化判斷機(jī)制,如果判斷為flag1=0,則使用現(xiàn)有短時(shí)空域背景建模算法實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)檢測(cè).如果判斷為flag1=1,則使用長(zhǎng)時(shí)空域背景建模來(lái)建立背景模型.使用該模型后,當(dāng)它轉(zhuǎn)換為平穩(wěn)變化后,則繼續(xù)使用短時(shí)空域背景建模算法,這樣既可以保證準(zhǔn)確性又可以保障實(shí)時(shí)性.
當(dāng)長(zhǎng)時(shí)空域背景建立的背景模型要轉(zhuǎn)換為短時(shí)空域背景模型時(shí),需要注意:初始轉(zhuǎn)換時(shí),增加更新速度可以達(dá)到更好的效果.這主要是因?yàn)楸尘白值渲袌D片與新的視頻背景會(huì)有些許小差異,這會(huì)引入一定的ghost區(qū)域.
首先通過(guò)保留信息量的多少來(lái)選擇一個(gè)預(yù)定維數(shù),再根據(jù)聚類結(jié)果對(duì)其做小范圍調(diào)整.降維中,低維空間表達(dá)高維空間信息的程度是一個(gè)重要的衡量標(biāo)準(zhǔn),本文稱為貢獻(xiàn)率.
如圖4所示(以Data1為例),背景圖片降至2維就可表達(dá)90%的信息量,本文選取維數(shù)可以達(dá)到99%以上的信息量.由圖可知,在降至30維時(shí)其貢獻(xiàn)率第一次大于99%,因此,預(yù)估降為30維.
圖4中,橫坐標(biāo)是降到的維數(shù),縱坐標(biāo)是貢獻(xiàn)率.
圖4 貢獻(xiàn)率圖Fig.4 Contribution rate
首先通過(guò)譜聚類特點(diǎn)預(yù)估聚類個(gè)數(shù),再通過(guò)最終聚類結(jié)果對(duì)其調(diào)整.Ng等提出的NJW譜聚類算法[17],譜聚類的個(gè)數(shù)通過(guò)拉普拉斯特征值的特點(diǎn)來(lái)選取.該算法認(rèn)為:對(duì)于存在k個(gè)理想的彼此分離簇的有限數(shù)據(jù)集,可以證明拉普拉斯矩陣的前k個(gè)最大特征值為1,第k+1個(gè)特征值則嚴(yán)格小于1,二者之間的差距取決于這k個(gè)聚類的分布情況.當(dāng)聚類內(nèi)部分布得越密,各聚類間分布得越開(kāi)時(shí),第k+1個(gè)特征值就越小.
然而,本文中的聚類數(shù)據(jù)是圖像的特征,由圖5可知,如果直接按照上述方法來(lái)判斷,在第二個(gè)特征值時(shí)就嚴(yán)格小于1,那么圖像只為一類,這與聚類的目的相悖.這也表明圖像特征的區(qū)分特點(diǎn)沒(méi)有普通數(shù)據(jù)明顯,此時(shí)結(jié)合聚類的目標(biāo)對(duì)NJW 譜聚類算法中聚類個(gè)數(shù)的判斷進(jìn)行拓展.首先,此處聚類的目標(biāo)是得到內(nèi)部數(shù)據(jù)緊湊的幾類,而上述方法提到當(dāng)聚類內(nèi)部分布的越密,各聚類間分布的越開(kāi),特征值差異就越大,就可以通過(guò)觀察特征值拐點(diǎn)的方法來(lái)取合適的個(gè)數(shù).在圖5中(以Data1為例),可以看到前3個(gè)特征值差距較大,因而取3個(gè)較為合適.
圖5 譜聚類中拉普拉斯矩陣特征值圖Fig.5 Laplacian eigenvalues graph of spectral clustering
通過(guò)聚類結(jié)果圖,根據(jù)聚類的目標(biāo)來(lái)調(diào)整降維維數(shù)與聚類個(gè)數(shù).本文中主要是判斷開(kāi)關(guān)燈影響,經(jīng)驗(yàn)理想值應(yīng)該為夜晚、白天、開(kāi)燈的三種情況(經(jīng)訓(xùn)練的背景圖片信息按照時(shí)間順序排列(該數(shù)據(jù)集為晚上0點(diǎn)開(kāi)始至第二天0點(diǎn)結(jié)束,圖6的橫坐標(biāo)即為按時(shí)間排列的圖像)).圖6(以Data1為例)為不同維數(shù)的聚類結(jié)果圖,觀察該對(duì)比圖:發(fā)現(xiàn)在原來(lái)第6.1節(jié)所得維數(shù)的基礎(chǔ)上再加兩維可以達(dá)到聚類內(nèi)部緊湊、類間分離的目標(biāo),而在維數(shù)太大的情況下,由于所展現(xiàn)的特征的不同,出現(xiàn)過(guò)擬合,反而達(dá)不到目標(biāo)的效果.圖7是降維至32維時(shí),取不同的聚類個(gè)數(shù)的效果,可以看到在聚為三類時(shí),它將上午、下午聚為一類,中午以及晚上開(kāi)燈情況分為一類,其余一類是夜晚、晚上未開(kāi)燈情況,根據(jù)數(shù)據(jù)集本身特點(diǎn)顯示,該種情況符合研究特點(diǎn).而在聚為二類、四類時(shí),夜晚關(guān)燈后的背景的圖像不符合研究特點(diǎn).因而,最終取32維、聚為三類.
圖6 不同維數(shù)的聚類效果Fig.6 Cluster results of different dimension
圖7 不同聚類個(gè)數(shù)效果圖(32維)Fig.7 Cluster results of different cluster number(32)
通過(guò)統(tǒng)計(jì)短時(shí)空域背景建模算法(以ViBe算法為例)光線突變前、后前景像素點(diǎn)比例(針對(duì)本文的四個(gè)數(shù)據(jù)集),如圖8~10所示,對(duì)光線突變閾值T更新背景字典閾值Tu取值.本文中T取0.42,取Tu為0.35.
圖8 光線突變閾值T的確定Fig.8 Determination of sudden illumination change threshold T
圖8是分別對(duì)關(guān)燈、開(kāi)燈四個(gè)數(shù)據(jù)集光線突變前后30幀的前景像素統(tǒng)計(jì)圖,前26幀表示未發(fā)生光線突變,后4幀表示已經(jīng)發(fā)生光線突變.在圖8(a)中,未發(fā)生光線突變時(shí),除Data2數(shù)據(jù)集,前景比例均很小接近0,Data2有波動(dòng)是由于視頻幀中有大目標(biāo)出現(xiàn),而突變后,前景比例最低的Data4接近0.45;在圖8(b)中,除Data4數(shù)據(jù)集,其余前景比例均很小接近0,Data4中波動(dòng)主要是由于開(kāi)燈時(shí)日光燈的閃爍造成的,而突變之后,前景比例最低的Data3接近0.6.綜上所述,結(jié)合開(kāi)關(guān)燈突變像素比例變化,開(kāi)燈日光燈閃爍,大目標(biāo)出現(xiàn)三方面影響,取T為0.4左右.
圖9 閾值T的邏輯回歸分析Fig.9 Logistic regression analysis of threshold T
圖10 更新背景字典閾值Tu的確定Fig.10 Determination of threshold Tufor updating background dictionary
在實(shí)踐中,我們采用邏輯回歸的方法最終確定閾值T.將生成圖8的訓(xùn)練集(像素點(diǎn)比例集)作為樣本,是對(duì)應(yīng)的二值隨機(jī)變量的集合,每個(gè)元素值為0或1(0表示突變前狀態(tài),1表示突變后的狀態(tài));如下式(10)、(11)所示:
式(11)中,是輸入訓(xùn)練樣本向量,其中每個(gè)樣本都可以得到一個(gè)hi,β是參數(shù)向量,p表示hi為1的可能性,是Sigmod函數(shù).通過(guò)回歸模型獲得的hi為1的概率與的對(duì)應(yīng)關(guān)系如圖9所示.若p=0.5,hi是0或1(當(dāng)前狀態(tài)是突變前或突變后)的可能性是相同的.因此,我們?nèi)=0.5對(duì)應(yīng)的f的值作為臨界點(diǎn)T的取值,即0.42.
圖10是使用本文方法后,前景像素比例的變化圖.圖中展示不同數(shù)據(jù)集在第四幀處,使用本文方法像素的變化情況,也是背景適應(yīng)程度的展現(xiàn).由圖8可知,正常情況下使用本文方法后,前景像素比例降幅明顯.本文的衡量方法就是觀察突變后,不同算法的前景像素比例變化情況(如圖12、14).由圖10(a)、圖10(b)展現(xiàn)的均為背景字典中背景能代表場(chǎng)景的情況(實(shí)際場(chǎng)景變化如圖11、圖13),其比例變化最小值接近0.5.而根據(jù)實(shí)驗(yàn)結(jié)果圖觀察,被認(rèn)為替換效果不佳的比例變化最大接近0.3,因此,根據(jù)經(jīng)驗(yàn)將Tu定為0.35,也可采用邏輯回歸對(duì)其驗(yàn)證.
為了驗(yàn)證該框架的性能,將該框架用于ViBe算法以及MOG算法,在多個(gè)測(cè)試數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比較這兩種算法與本文融合框架后算法在光線突變發(fā)生時(shí)的運(yùn)動(dòng)目標(biāo)檢測(cè)情況.
實(shí)驗(yàn)在Intel(R)C@2.40GHz 8.0GB的計(jì)算機(jī)上,VS2013、OpenCV2.4.9和MATLABR2013a環(huán)境下實(shí)現(xiàn),在實(shí)驗(yàn)中ViBe維持原論文中參數(shù),MOG采用Opencv實(shí)現(xiàn)版.本文算法未對(duì)視頻做形態(tài)學(xué)等預(yù)處理以及后處理.
本文討論長(zhǎng)時(shí)間視頻背景建模方法,數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集.訓(xùn)練數(shù)據(jù)集用于構(gòu)建記憶背景字典,測(cè)試數(shù)據(jù)集用于檢索并實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)檢測(cè).
本文訓(xùn)練數(shù)據(jù)集有四個(gè),第一個(gè)是由監(jiān)控?cái)z像頭拍攝的實(shí)驗(yàn)室2015年11月27日整天視頻數(shù)據(jù)(后續(xù)稱為Data1,分辨率為352×288);第二個(gè)是通用數(shù)據(jù)集WallFlower dataset[18]中LightSwitch數(shù)據(jù)集(稱為Data2,分辨率為160×120);第三個(gè)是WallFlower dataset中TimeOfDay數(shù)據(jù)集(稱為Data3,分辨率為160×120);第四個(gè)是由焦距2.6mm攝像頭拍攝的室內(nèi)2016年4月20日整天定視角視頻(稱為Data4,分辨率為640×320).
Data1測(cè)試數(shù)據(jù)集為2015年11月25日的視頻序列(共778幀)、2015年11月26日視頻序列(共2474幀);Data2測(cè)試數(shù)據(jù)集是LightSwitch數(shù)據(jù)集中未訓(xùn)練的開(kāi)關(guān)燈圖片序列(開(kāi)燈測(cè)試序列共378幀,關(guān)燈測(cè)試序列共1625幀);Data3測(cè)試數(shù)據(jù)集是TimeOfDay數(shù)據(jù)集模擬的開(kāi)關(guān)燈數(shù)據(jù)集(開(kāi)燈測(cè)試序列共576幀,關(guān)燈測(cè)試序列共132幀);Data4的測(cè)試數(shù)據(jù)集是2016年4月20日(共1473幀)、2016年4月19日視頻序列(共1113幀).
圖11 運(yùn)動(dòng)目標(biāo)檢測(cè)效果對(duì)比圖(ViBe關(guān)燈)Fig.11 Moving object detection comparison charts(ViBe turns offthe lights)
圖12 運(yùn)動(dòng)目標(biāo)檢測(cè)效果對(duì)比圖(ViBe開(kāi)燈)Fig.12 Moving object detection comparison charts(ViBe turns on the lights)
圖13 前景像素比例變化對(duì)比圖(對(duì)應(yīng)圖11(a)~(b))Fig.13 Comparison chart of foreground pixel ratio(Corresponding to Fig.11(a)~(b))
圖11、圖12、圖15、圖16是四個(gè)不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比圖.圖11、圖15是關(guān)燈情況,圖12、圖16是開(kāi)燈情況;圖11、圖12、圖15、圖16中a、b、c、d 子圖分別對(duì)應(yīng)Data1、Data2、Data3、Data4實(shí)驗(yàn)結(jié)果,a、b、c、d四個(gè)子圖中每個(gè)子圖第一排是原視頻圖像,圖11、圖12的第二排是ViBe運(yùn)動(dòng)目標(biāo)檢測(cè)前景,圖15圖16的第二排是MOG運(yùn)動(dòng)目標(biāo)檢測(cè)前景,第三排是本文提出算法的運(yùn)動(dòng)目標(biāo)檢測(cè)前景,F表示視頻序列的第幾幀(忽略日光燈閃爍幀、攝像頭適應(yīng)幀).從圖中可以看到:在發(fā)生光線突變時(shí),大量的背景點(diǎn)被誤判為前景點(diǎn),原ViBe、MOG算法恢復(fù)模型較慢,使虛警數(shù)(False positive,FP)[19]在長(zhǎng)時(shí)間內(nèi)較高;結(jié)合本文框架可以使它迅速適應(yīng)光照突變,大大降低虛警數(shù),從而更為準(zhǔn)確地偵測(cè)運(yùn)動(dòng)目標(biāo).
圖13、 圖14分別是圖 11(a)~(b)、 圖13(c)~(d)相應(yīng)的前景點(diǎn)比例變化比較圖,圖15、圖16的相應(yīng)的前景變化比例可類似得到.這兩幅圖通過(guò)前景像素點(diǎn)比例形象的表示光線突變后背景模型的適應(yīng)情況.
圖17為室外場(chǎng)景的測(cè)試效果,首先使用8月16日的視頻背景數(shù)據(jù)來(lái)建立背景字典,測(cè)試數(shù)據(jù)集為8月15日傍晚室外開(kāi)燈序列視頻(共273幀).圖17(a)為ViBe算法與結(jié)合本文框架后算法的對(duì)比圖,其中第一排表示原圖,第二排表示ViBe算法目標(biāo)檢測(cè)效果圖,第三排為結(jié)合本文框架的目標(biāo)檢測(cè)效果圖.圖17(b)為混合高斯背景建模算法與結(jié)合本文框架后的算法的對(duì)比圖,其中第一排表示原圖,第二排表示混合高斯背景建模算法目標(biāo)檢測(cè)效果圖,第三排為結(jié)合本文框架的目標(biāo)檢測(cè)效果圖.由圖可知,對(duì)室外光線突變場(chǎng)景,結(jié)合本文記憶字典模型可以顯著提高模型適應(yīng)能力,有效降低虛警數(shù).
總結(jié)圖11~17知,本文算法有效提高短時(shí)空域算法光照突變適應(yīng)能力,降低原有算法誤檢率,可以更好地偵測(cè)運(yùn)動(dòng)目標(biāo).
圖14 前景像素比例變化對(duì)比圖(對(duì)應(yīng)圖12(c)~(d))Fig.14 Comparison chart of foreground pixel ratio(Corresponding to Fig.12(c)~(d))
本文使用虛警數(shù)FP以及漏檢數(shù)FN來(lái)定量評(píng)估.虛警數(shù)FP是本身為背景像素卻被誤判為前景的像素個(gè)數(shù),漏檢數(shù)FN是本身為前景像素卻被誤判為背景的像素.本文框架相當(dāng)于是在原算法發(fā)生光照突變之后做的處理,那么在未發(fā)生光照突變時(shí),本文算法與原算法的虛警數(shù)與漏檢數(shù)一致;而在發(fā)生光照突變后,由圖13、圖14知,本文算法大大地降低了虛警數(shù),而漏檢數(shù)與原算法未發(fā)生光照突變時(shí)一致,也就是比此時(shí)原算法的漏檢數(shù)少.
圖15 運(yùn)動(dòng)目標(biāo)檢測(cè)效果對(duì)比圖(MOG關(guān)燈)Fig.15 Moving object detection comparison charts(MOG turns offthe lights)
圖16 運(yùn)動(dòng)目標(biāo)檢測(cè)效果對(duì)比圖(MOG開(kāi)燈)Fig.16 Moving object detection comparison charts(MOG turns on the lights)
本文采取了訓(xùn)練、測(cè)試模式,存在訓(xùn)練時(shí)間以及測(cè)試時(shí)間.在運(yùn)動(dòng)目標(biāo)檢測(cè)時(shí)相當(dāng)于處于測(cè)試階段,本文與之密切相關(guān)的為檢索時(shí)間,因而與原算法比較,本文算法主要增加了額外的檢索時(shí)間,本文在檢索部分的耗時(shí)運(yùn)算為13次歐氏距離的計(jì)算(參考圖3結(jié)構(gòu),其中3次為圖像描述子與三類典型圖描述子之間的歐氏距離,求得最近的典型圖之后,計(jì)算原圖描述子與該典型類中再聚類10個(gè)典型圖描述子之間的歐氏距離).在未采取優(yōu)化機(jī)制的情況下,Data1、Data2、Data3、Data4檢索一次背景字典的時(shí)間分別為 0.137s、0.051s、0.105s、0.123s.由此可以推想到,視頻中檢索背景字典的頻數(shù)對(duì)實(shí)時(shí)性有影響,即突變?cè)筋l繁,檢索背景字典次數(shù)越多,對(duì)實(shí)時(shí)性影響越大.然而在一般場(chǎng)景中,開(kāi)關(guān)燈情況并不頻繁.本文以每300幀(大約10s)發(fā)生一次檢索來(lái)計(jì)算實(shí)時(shí)性,與原算法的對(duì)比效果圖如表1所示.在更新背景字典時(shí),使用另外一個(gè)線程來(lái)生成新的背景圖,不影響主線程的實(shí)時(shí)性.
圖17 室外情況運(yùn)動(dòng)目標(biāo)檢測(cè)情況Fig.17 Moving object detection of outdoor
由表1可知,本文通過(guò)前期對(duì)視頻集做背景訓(xùn)練,在之后的目標(biāo)檢測(cè)中對(duì)實(shí)時(shí)性的影響很小,而由圖11~17可知,該方法可以有效降低誤檢率,明顯改善運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果.
表1 算法處理速度(fps)Table 1 Processing times of algorithm(fps)
利用固定攝像頭定視角視頻背景周期性重現(xiàn)(比如白天、夜晚周期性變換)特點(diǎn),搭建基于長(zhǎng)時(shí)間視頻序列的背景建??蚣懿⒀芯糠椒?首先通過(guò)對(duì)長(zhǎng)時(shí)間背景序列預(yù)處理、降維,得到背景描述子;然后,通過(guò)聚類(包括譜聚類、K-means聚類)來(lái)訓(xùn)練背景字典;再設(shè)計(jì)非平穩(wěn)變化下的檢索替換機(jī)制,并在效果差時(shí)對(duì)背景字典更新;設(shè)計(jì)長(zhǎng)短時(shí)空域模型的融合機(jī)制增強(qiáng)實(shí)時(shí)性,可以有效改善運(yùn)動(dòng)目標(biāo)檢測(cè).通過(guò)搭建這樣一個(gè)可以嵌入現(xiàn)有背景建模算法中的框架,可以解決室內(nèi)場(chǎng)景難題.將ViBe或MOG算法與該框架融合,測(cè)試非平穩(wěn)變化(本文主要測(cè)試光照突變),實(shí)驗(yàn)結(jié)果表明,該框架可以使ViBe、MOG算法迅速適應(yīng)光線突變,明顯提高運(yùn)動(dòng)目標(biāo)檢測(cè)的準(zhǔn)確性,有效降低ViBe、MOG算法的誤檢率.
由于本文主要針對(duì)定視角室內(nèi)場(chǎng)景,僅對(duì)室內(nèi)非平穩(wěn)變換(光照突變)以及簡(jiǎn)單室外光照突變的情形進(jìn)行測(cè)試.如果是復(fù)雜室外場(chǎng)景,則要考慮相機(jī)抖動(dòng)、動(dòng)態(tài)場(chǎng)景等情形,未來(lái)將通過(guò)對(duì)相機(jī)抖動(dòng),動(dòng)態(tài)場(chǎng)景等訓(xùn)練學(xué)習(xí),探索更為通用的長(zhǎng)時(shí)間域背景建模方法.
References
1 Chu Jun,Yang Fan,Zhang Gui-Mei,Wang Ling-Feng.A stepwise background subtraction by fusion spatio-temporal information.Acta Automatica Sinica,2014,40(4):731?743(儲(chǔ)珺,楊樊,張桂梅,汪凌峰.一種分步的融合時(shí)空信息的背景建模.自動(dòng)化學(xué)報(bào),2014,40(4):731?743)
2 Niu Hua-Kang,He Xiao-Hai,Wang Xiao-Fei,Zhang Feng,Wu Xiao-Qiang.An improved ViBe object detection algorithm.Journal of Sichuan University(Engineering Science Edition),2014,46(S2):104?108(?;?何小海,汪曉飛,張峰,吳小強(qiáng).一種改進(jìn)的ViBe目標(biāo)檢測(cè)算法.四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2014,46(S2):104?108)
3 Wren C R,Azarbayejani A,Darrell T,Pentland A P.P finder:real-time tracking of the human body.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780?785
4 Stauffer C,Grimson W E L.Adaptive background mixture models for real-time tracking.In:Proceedings of the 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,Co,USA:IEEE,1999,2:252
5 Wang Y,Loe K F,Wu J K.A dynamic conditional random field model for foreground and shadow segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(2):279?289
6 Kim K,Chalidabhongse T H,Harwood D,Davis L.Background modeling and subtraction by codebook construction.In:Proceedings of the 2004 International Conference on Image Processing.Singapore:IEEE,2004,5:3061?3064
7 Barnich O,Van Droogenbroeck M.ViBe:a universal background subtraction algorithm for video sequences.IEEE Transactions on Image Processing,2011,20(6):1709?1724
8 St-Charles P L,Bilodeau G A,Bergevin R.Subsense:a universal change detection method with local adaptive sensitivity.IEEE Transactions on Image Processing,2015,24(1):359?373
9 van der Maaten L J P,Postma E O,van den Herik H J.Dimensionality reduction:a comparative review.Journal of Machine Learning Research,2007,10(1):66?71
10 Huang H C,Chuang Y Y,Chen C S.Affinity aggregation for spectral clustering.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA:IEEE,2012.773?780
11 Arthur D,Vassilvitskii S.k-means++:the advantages of careful seeding.In:Proceedings of the 18th annual ACMSIAM Symposium on Discrete Algorithms.Philadelphia,PA,USA:ACM,2007.1027?1035
12 Goyette N,Jodoin P M,Porikli F,Konrad J,Ishwar P.Changedetection.net:a new change detection benchmark dataset.In:Proceedings of the 2012 IEEE Computer Society Conference on Workshop on Computer Vision and Pattern Recognition Workshops.Providence,RI,USA:IEEE,2012.1?8
13 Su Ya-Ru.Research on Dimensionality Reduction of High-Dimensional Data[Ph.D.dissertation],University of Science and Technology of China,China,2012(蘇雅茹.高維數(shù)據(jù)的維數(shù)約簡(jiǎn)算法研究[博士學(xué)位論文],中國(guó)科學(xué)技術(shù)大學(xué),中國(guó),2012)
14 Cai Xiao-Yan,Dai Guan-Zhong,Yang Li-Bin.Survey on spectral clustering algorithms.Computer Science,2008,35(7):14?18(蔡曉妍,戴冠中,楊黎斌.譜聚類算法綜述.計(jì)算機(jī)科學(xué),2008,35(7):14?18)
15 Zhu X T,Loy C C,Gong S G.Constructing robust affinity graphs for spectral clustering.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.1450?1457
16 Smiatacz M.Eigenfaces, Fisherfaces, Laplacianfaces,Marginfaces—how to face the face veri fication task.In:Proceedings of the 8th International Conference on Computer Recognition Systems CORES.Switzerland:Springer,2013.187?196
17 Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and an algorithm.In:Proceedings of Advances in Neural Information Processing Systems 14:Proceedings of the 2001 Conference.Vancouver,British Columbia,Canada:MIT Press,2001,14:849?856
18 Toyama K,Krumm J,Brumitt B,Meyers B.Wall flower:principles and practice of background maintenance.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1991,1:255?261
19 Chen Y T,Chen C S,Huang C R,Huang Y P.Efficient hierarchical method for background subtraction.Pattern Recognition,2007,40(10):2706?2715