齊玉娟,牛瀟然,王延江
(中國石油大學信息與控制工程學院,山東青島266580)
基于人類記憶機制的碼本建模方法研究
齊玉娟,牛瀟然,王延江
(中國石油大學信息與控制工程學院,山東青島266580)
碼本模型在實際應用時需要提前進行離線訓練構建碼本,在一定程度上限制了碼本模型的實時應用。為此,將人類三階段記憶機制引入到碼本建模過程,基于記憶機制進行在線碼本建模。每個像素點的時序信息被抽象成碼本中不同的碼字,并通過在瞬時、短時和長時記憶空間模擬記憶、遺忘、回憶等認知行為,實時地對碼字進行分類。實驗結果表明,提出的新算法不僅提高了模型的實時性而且對場景突變的適應能力也強于原始模型;同時,新算法在交通監(jiān)測等現(xiàn)實應用中也能取得良好的效果。
碼本模型;三階段記憶模型;基于記憶的碼本模型;背景建模;運動目標檢測
運動目標檢測是計算機視覺領域的基礎性任務,對運動目標跟蹤、行為分析等后續(xù)處理非常重要,檢測結果直接影響后續(xù)處理的效果。目前,常用的目標檢測算法有光流法、相鄰幀差法和背景減除法[1]。其中,背景減除法由于檢測準確性高,處理速度快而被廣泛應用。背景減除法通過計算當前幀與背景模型的差實現(xiàn)運動目標的檢測,因此背景建模是背景減除法的關鍵。目前常用的背景建模方法有單高斯模型(GM)、混合高斯模型(MOG)、隱馬爾科夫模型(HMM)[2],以及近些年來被廣泛研究的碼本模型(CB)。碼本模型最初由Kim[3]提出,該模型不僅可以像混合高斯模型一樣對像素值的動態(tài)變化建立準確的模型,而且對于光照變化也具有較強的適應能力。然而,原始碼本模型也存在著不足,研究者針對具體問題做出了相應的改進。例如,對于運動目標暫停運動、場景突變以及全局光照變化,Kim[3]提出了層次建模以及自適應更新;為了解決原始模型計算量大的問題,Guo等[4]提出了層次碼本模型,對像素塊統(tǒng)計量的動態(tài)變化建立碼本模型以節(jié)省計算消耗;為了降低誤檢率,Li等[5]提出了基于高斯的碼本模型,使用高斯假設作為碼字的量化標準;Qiu等[6]提出了一種基于box的碼本模型,降低了碼本模型的復雜性,能夠在復雜場景下準確、快速地提取運動目標;郭春生等[7]使用Mean Shift對碼本中碼字和方差進行更新,并利用歸一化的Mann-Whitney秩和統(tǒng)計量自適應調(diào)整閾值,提高了運動目標檢測的精度;范振濤等[8]將平均亮度與原算法中的亮度范圍相融合,使亮度范圍能夠隨像素值的變化正常更新,提高了模型對光照漸變的適應性;莫林等[9]引入了信號能量分析的思想,對與碼字匹配的像素進行能量累積統(tǒng)計,提高了算法對復雜背景環(huán)境的適應性,并且在陰影的抑制方面也有較強的魯棒性。由于原始碼本模型算法要先進行離線訓練構建碼本,因此離線訓練結果的好壞直接影響運動目標檢測的魯棒性;而且在離線訓練過程中不能進行前、背景分割,限制了碼本模型算法的推廣應用;此外,若場景發(fā)生突變,原始碼本算法不能及時更新背景模型,會導致誤檢測。針對這些問題,筆者受人類記憶機制的啟發(fā),將三階段記憶模型引入到碼本的建立與更新過程,提出一種能夠在線學習的基于記憶機制的碼本建模方法。
研究表明,記憶系統(tǒng)在人類的認知過程中發(fā)揮著至關重要的作用[11]。以視覺感知為例,人類能夠在復雜環(huán)境下魯棒地識別、跟蹤、理解、解釋感興趣目標及其所處的場景,這與視覺系統(tǒng)、人腦記憶、學習、推理等功能的協(xié)同工作是密不可分的。其中,記憶系統(tǒng)執(zhí)行將可能發(fā)生形變或有遮擋以及殘缺的注意目標與記憶模式進行匹配等任務[12]。作為人腦信息存儲的一個器官,記憶機制在自然科學、生物心理學、認知科學等領域得到廣泛關注,研究者提出了多個記憶模型。其中由Atkinson和Shiffrin于20世紀60年代提出的記憶信息三級貯存模型被認為是認知心理學中的經(jīng)典模型,經(jīng)過后續(xù)研究人員的發(fā)展完善形成了三階段記憶理論[11],其模型框圖如圖1所示。
從圖1中可以看出,記憶空間被劃分為瞬時記憶空間、短時記憶空間和長時記憶空間,對應著信息處理流程的3個階段。其中瞬時記憶空間容量最小,信息保存時間最短,存儲著神經(jīng)系統(tǒng)傳來的感知信息;短時記憶空間是進行信息編碼、解碼、轉換等處理的主要工作場所,并且控制著信息流的方向;長時記憶空間容量最大,信息保存時間最長,存儲著經(jīng)驗知識等具有概念性質(zhì)的信息?!皬褪觥睕Q定著信息是否可以長時存儲,而“提取”將長時記憶中的激活信息傳送到短時記憶。
圖1 三階段記憶模型Fig.1 Three-store memory model
近年來,人類記憶機制被成功應用于短時交通流量預測[13]、人工魚認知建模[14]、入侵檢測建模[15]、計算機視覺[16-19]等領域。特別是在計算機視覺領域的研究中,王延江等[16-17]將三階段記憶模型引入到視覺信息處理過程,提出了基于記憶機制的視覺信息處理的認知建模,用于模擬人腦的一些認知過程,并將其應用于背景建模和運動目標跟蹤算法的研究中[10,18-20],較好地解決了復雜場景下的背景突變、目標姿態(tài)突變以及目標被嚴重遮擋等問題。
碼本模型采用量化和聚類的技術思路從像素值的動態(tài)變化中抽取出背景模型。具體來說,對于像素點Pj,定義Cj={c1,c2,…,cL}為Pj的碼本空間,其中,L是碼本中含有的碼字個數(shù),不同像素點的碼本空間中碼字的數(shù)量互不相關,僅取決于各點自身亮度值的變化情況。每個碼字是相應像素點的時變信息聚類的結果,由一個顏色向量vi=(Ri,Gi,Bi)和一個六元組構成。其中,vi表示碼字ci的RGB顏色向量基準,六元組auxi則封裝了該碼字的動態(tài)統(tǒng)計信息,如表1所示。
基于碼本模型的運動目標檢測算法由訓練階段和前、背景分割階段組成。在訓練階段,Pj的不同狀態(tài)被抽象為不同的碼字,構成碼本空間。在前、背景分割階段,在碼本中搜索能夠與新的像素值xt匹配的碼字,匹配準則如下:
其中,colordist(xt,vi)代表了顏色失真度,具體定義
為
表1 原始模型中碼字六元組中各參數(shù)含義Table 1 Meanings of parameters in six-tuple of one code word in original model
如果xt與ci匹配成功,則將該像素點劃分為背景,并更新ci,更新方式如下:
如果xt與碼本中的所有碼字均不匹配,則將該像素點劃分為前景。
3.1 基于三階段記憶機制的碼本模型
根據(jù)三階段記憶模型的信息處理流程,本文中將碼本空間分割為3部分,即瞬時、短時、長時記憶空間,如圖2所示。在T時刻,瞬時空間存儲著碼本所對應像素點在T-1時刻的RGB向量xT-1以及激活碼字cact,即在T-1時刻發(fā)生過匹配的碼字或新建碼字;短時空間存儲著在近段時間內(nèi)發(fā)生過匹配的碼字,其中既有背景碼字也有前景碼字;長時空間中存放著長時間未發(fā)生過匹配的背景碼字。各空間均擁有自身的遺忘機制和決策機制,并按一定的規(guī)則對碼字進行更新、傳遞。
基于三階段記憶機制的碼本模型中,碼字ci仍然由xi和auxi組成。但六元組auxi改為{,,fi, λi,qi,lablei},各參數(shù)的具體含義見表2。
圖2 基于三階段記憶模型的碼本模型Fig.2 Three-stage memory based codebook model
表2 改進模型中碼字六元組各參數(shù)的含義Table 2 Meanings of parameters in six-tuple of one code word in improved model
3.2 算法描述
運動目標檢測時,基于三階段記憶的碼本模型的碼本自身能夠實時地學習背景,并存儲在記憶空間中,從而不斷適應場景的變化。新一幀的像素值首先與瞬時空間存儲的像素值進行比較,并根據(jù)比較結果嘗試分類。如果得出了分類結果,接下來只需要對各空間進行更新;如果未得出分類結果,則需要在短時和長時空間中搜索能夠與之匹配的碼字,以確定新像素值的類別。碼字的匹配標準和更新方式如式(1)~(4)。算法流程如圖3所示。
圖3 本文算法框圖Fig.3 Flowchart of proposed algorithm
(1)初始化。第一幀圖像序列時,清空短時空間和長時空間。瞬時空間中存入當前幀的像素值x1,并構造一個新的碼字作為激活碼字。構造新碼字的方式如下:
(2)對第T幀圖像序列,新的像素值xT與瞬時空間中存儲的像素值xT-1進行比較,比較函數(shù)如下:
如果式(6)的結果為1,轉向步驟(3.1);如果式(6)的結果為0,直接轉向步驟(3.2)。
(3)像素分類。
(3.1)式(6)的結果為1,表明新的像素與瞬時空間中的激活碼字cact相匹配,則進行分類。分類公式為
其中,lableact是cact的類別標記變量。
(3.2)在短時空間中搜索能夠匹配的碼字。如果存在,將其作為新的激活碼字替換瞬時空間中原激活碼字,同時按式(7)所示,將新的像素劃入激活碼字的類別中,并直接轉向步驟4;如果短時空間中沒有與新的像素相匹配的碼字,轉向步驟(3.3)。
(3.3)在長時空間中搜索能夠匹配的碼字。由于長時空間中存儲的均是背景碼字,若存在匹配碼字,將新的像素分類為背景;否則,分類為前景,并以新的像素為基準建立新碼字。同時,將匹配碼字或新建碼字作為新的激活碼字提取至瞬時空間,原激活碼字被傳送到短時空間。
(4)記憶空間模型更新。
更新瞬時空間,即更新激活碼字,并用xT取代xT-1。
更新短時空間包括類別轉換、遺忘與記憶,具體操作為
其中,式(8)是類別轉換函數(shù),將發(fā)生匹配次數(shù)足夠多的前景碼字轉換為背景碼字;式(9)為遺忘函數(shù),將匹配次數(shù)不足且近段時間內(nèi)未發(fā)生匹配的碼字清除;式(10)為記憶函數(shù),將發(fā)生匹配次數(shù)足夠多但在近段時間內(nèi)未發(fā)生匹配的背景碼字存入長時空間。
更新長時空間,融合其中相似的碼字,融合方式為
為驗證本文中所提模型及算法的有效性和實用性,用兩段標準視頻在主頻為Core 2.3GHz、內(nèi)存為2G的計算機上進行測試,并與原始碼本算法以及參考文獻[3]的層次碼本算法(layered codebook modeling and detection)進行了對比。實驗中所用標準視頻大小均為320×240,幀頻分別為29幀/s和14幀/s。
4.1 對場景變化的適應性對比實驗
第一個序列采用一段拍攝于停車場的標準視頻。圖4(a)展示的是前景目標暫停運動的情況:兩輛汽車先后駛入鏡頭中并停止運動。在停止運動一段時間后,兩輛車均應被視為背景。圖4(b)、(c)和(d)分別是原始碼本算法、層次碼本算法以及本文所提算法的分割結果。圖5(a)描述了背景突變的情景:一輛停泊的汽車重新啟動行駛,同時另一輛停泊的汽車中走出一名乘客,而后乘客與行駛的汽車匯合并停止運動。圖5(b)、(c)和(d)分別是原始碼本算法、層次碼本算法以及本文所提算法的分割結果。
圖4 前景目標暫停運動時的分割結果Fig.4 Segmentation results when moving objects stop
從圖4以及圖5中看出:原始碼本算法不能將停止運動后的目標自適應地轉化為背景,難以處理場景突變的情況;層次碼本算法可以自適應地處理場景突變的情況,但檢測結果中存在著被誤檢為前景的區(qū)域;相比原始碼本與改進后的層次碼本,本文算法的誤檢率更低,并且對場景突變的適應速度也快于層次碼本模型。
圖5 場景突變時的分割結果Fig.5 Segmentation results when background changes suddenly
4.2 離線訓練與在線學習對比實驗
第二個序列采用一段拍攝于高速公路的標準視頻,圖6(b)、(c)和(d)分別給出了原始碼本算法、層次碼本算法和本文算法的運動目標分割結果(序列第10、30、60、120、240和400幀)。實驗中,用序列前30幀訓練原始碼本模型算法。
從圖6(b)、(c)可以看出,原始碼本算法及層次碼本算法在訓練階段無法分割前景和背景,且由于訓練階段有運動物體的干擾,訓練不夠徹底,因此背景分割時將路面誤檢為前景(圓圈圈出的區(qū)域)。此外,場景越復雜,原始碼本和層次碼本算法需要離線訓練的時間就越長。相比之下,本文中提出的算法用在線學習替代了離線訓練,自始至終能夠進行運動目標檢測,如圖6(d)所示;同時也避免了因訓練不充足造成誤檢。
圖6 視頻‘highway’的分割結果Fig.6 Segmentation results of'highway'
在本實驗中,本文算法的處理速度為10.7幀/ s,高于原始算法的6.2幀/s。
4.3 改進模型的其他應用
為了驗證提出的模型和算法的實用性,采用本文中實驗視頻作為實時交通監(jiān)測的對象,并選取坐標為(120,60)的像素點為監(jiān)測點,根據(jù)不同參數(shù)的變化情況判斷交通狀況。
圖7 交通監(jiān)測中各參數(shù)的變化Fig.7 Parameters used in monitoring
圖7(a)、(b)、(c)分別描述了前景碼字數(shù)量、短時記憶空間中背景碼字數(shù)量、長時記憶空間中碼字數(shù)量的變化趨勢。上述三者判斷場景中的交通狀況如表3(其中,a、b、c分別對應圖7(a)、(b)、(c)中碼字數(shù)量的變化,“↑”代表增加,“-”代表沒有變化)所示,并以此為根據(jù)采取相應的措施。
為了能夠精確地監(jiān)測交通流量,圖7(d)記錄了監(jiān)測點碼本中激活碼字的類別標記變量lableact的跳變次數(shù),該參數(shù)的1/2即通過監(jiān)測點汽車的數(shù)量。從圖中可以看出,截止到第500幀(圖7(d)虛線標注),總共有12輛汽車駛過了監(jiān)測點。
本文實驗中僅設定了一個監(jiān)測點以驗證算法的效果,如果同時對多個點進行監(jiān)測,則會取得更為詳盡的視頻分析。
表3 碼字數(shù)量變化對應的各種交通狀況Table 3 Different traffic condition corresponding to number of code words
針對離線訓練對碼本模型的約束,將三階段記憶模型引入到碼本的建立與更新過程,提出一種能夠在線學習的碼本模型。該模型不需要離線訓練,在瞬時、短時和長時記憶空間中模擬記憶、遺忘、回憶等認知行為對碼字進行實時分類。實驗結果表明,提出的算法不僅提高了模型的實時性,而且對場景突變的適應能力強于原始模型;同時,該算法也能應用于交通監(jiān)測領域。
[1] 萬纓,韓毅,盧漢清.運動目標檢測算法的探討[J].計算機仿真,2006,23(10):221-226. WAN Ying,HAN Yi,LU Hanqing.The methods for moving object detection[J].Computer Simulation,2006,23(10):221-226.
[2] YILMAZ A,JAVED O.Object tracking:a survey[J]. ACM Computing Survey,2006,38(4):1-45.
[3] KIM K,CHALIDABHONGSE T H,HARWOOD D,et al.Real-time foreground-background segmentation using codebook model[J].Real-Time Imaging,2005,11(3):172-185.
[4] GUO J M,LIU Y F,CHIH-HSIEN H,et al.Hierarchical method for foreground detection using codebook model[J].IEEE Trans Circuits Syst Video Techn,2011,21(6):804-815.
[5] LI Y B,CHEN F,XU W L,et al.Gaussian-based codebook model for video background subtraction:proceedings of Second International Conference of ICNC,Xi'an,China,Step.24-28,2006[C].Berlin Heidelberg:Springer,c2006.
[6] QIU T,XU Y P,ZHOU M L.Box-based codebook model for real-time objects detection:proceedings of 7th World Congress on Intelligent Control and Automation,2008[C].Piscataway:Institute of Electrical and Electronics Engineers Inc,c2008.
[7] 郭春生,王盼.一種基于碼本模型的運動目標檢測算法[J].中國圖象圖形學報,2010,15(7):1079-1083. GUO Chunsheng,WANG Pan.An algorithm based on codebook model to moving objects detection[J].Journal of Image and Graphics,2010,15(7):1079-1083.
[8] 范振濤,陳曉竹,陳亮.基于碼本算法中亮度范圍的改進策略[J].中國計量學院學報,2013,24(3):266-271. FAN Zhentao,CHEN Xiaozhu,CHEN Liang.Improvement strategy based on brightness ranges in codebook algorithms[J].Journal of China University of Metrology,2014,24(3):266-271.
[9] 莫林,周贊,雷禹,等.基于YUV空間碼本模型的運動檢測[J].計算機工程與應用,2012,48(25):180-183. MO Lin,ZHOU Zan,LEI Yu,et al.Motion detection method based on YUV codebook model[J].Computer Engineering and Applications,2012,48(25):180-183.
[10] 齊玉娟,王延江,李永平.基于記憶的混合高斯背景建模[J].自動化學報,2010,36(11):1520-1526. QI Yujuan,WANG Yanjiang,LI Yongping.Memorybased Gaussian mixture background modeling[J].Acta Automatica Sinica,2010,36(11):1520-1526.
[11] 艾森克M W,基恩M T.認知心理學[M].5版.上海:華東師范大學出版社,2009:223-230.
[12] 羅四維.視覺信息認知計算理論[M].北京:科學出版社,2010.
[13] HUANG S,SADEK A W.A novel forecasting approach inspired by human memory:the example of short-term traffic volume forecasting[J].Transportation Research Part C:Emerging Technologies,2009,17(5):510-525.
[14] 張淑軍,班曉娟,陳勇,等.基于記憶的人工魚認知模型[J].計算機工程,2007,33(19):33-35. ZHANG Shujun,BAN Xiaojuan,CHEN Yong,et al. Memory-based cognitive model of artificial fish[J]. Computer Engineering,2007,33(19):33-35.
[15] 黃光球,趙煜.基于生物記憶原理的入侵檢測模型[J].計算機應用,2009,29(5):1279-1284.HUANG Guangqiu,ZHAO Yu.Approach to intrusion detection model based on biological memory principles[J].Journal of Computer Applications,2009,29(5):1279-1284.
[16] 王延江,齊玉娟.基于記憶機制的視覺信息處理認知建模[J].模式識別與人工智能,2013,26(2):144-150. WANG Yanjiang,QI Yujuan.Memory-based cognitive modeling for visual information processing[J].Pattern Recognition and Artificial Intelligence,2013,26(2):144-150.
[17] WANG Yanjiang,QI Yujuan,LI Yongping.Memory-based multiagent coevolution modeling for robust moving object tracking[J].The Scientific World Journal,2013[2014-10-11]http://dx.doi.org/10.1155/2013/793013.
[18] 齊玉娟,王延江,索鵬.一種基于混合高斯的雙空間自適應背景建模方法[J].中國石油大學學報:自然科學版,2012,36(5):175-178,183. QI Yujuan,WANG Yanjiang,SUO Peng.A doublesubspace adaptive background modeling method based on Gaussian mixture model[J].Journal of China University of Petroleum(Edition of Natural Science),2012,36(5):175-178,183.
[19] 齊玉娟,王延江.基于人類記憶模型的粒子濾波魯棒目標跟蹤算法[J].模式識別與人工智能,2012,25(5):810-816. QI Yujuan,WANG Yanjiang.Robust object tracking algorithm by particle filter based on human memory model[J].Pattern Recognition and Artificial Intelligence,2012,25(5):810-816.
[20] WANG Y J,QI Y J.Memory-based cognitive modeling for robust object extraction and tracking[J].Applied Intelligence,2013,39(3):614-629.
(編輯 修榮榮)
Memory-based codebook modeling for real-time object detection
QI Yujuan,NIU Xiaoran,WANG Yanjiang
(College of Information and Control Engineering in China University of Petroleum,Qingdao 266580,China)
Codebook modeling builds codebook through offline training before segmentation,which will affect its real-time application to some extent.In order to tackle this problem,in this paper,three-stage memory mechanism is introduced into the construction and updating process of codewords and a memory-based codebook model(MCB)which is capable of online learning is proposed.The sequential information of each pixel is abstracted into codewords which are classified by imitating some cognitive behaviors such as memorization,forgetting,and recall.Experimental results demonstrate that our method not only improves real timing but also is much more adaptive to the scenes with sudden changes than the original model.In addition,the proposed method can be applied in traffic monitoring.
codebook;three-stage memory model;memory-based codebook;background modeling;object detection
TP391
A
1673-5005(2015)04-0178-07
10.3969/j.issn.1673-5005.2015.04.025
2014-10-20
國家自然科學基金項目(61271407,61301242);山東省自然科學基金項目(ZR2013FQ015);中央高?;究蒲袠I(yè)務費專項(R1405008A);中國石油大學(華東)研究生創(chuàng)新工程項目(YCX2014056)
齊玉娟(1977-),女,講師,博士,研究方向為計算機視覺、模式識別。E-mail:qiyj@upc.edu.cn。
王延江(1966-),教授,博士,博士生導師,研究方向為計算機視覺、模式識別。E-mail:yjwang@upc.edu.cn。
引用格式:齊玉娟,牛瀟然,王延江.基于人類記憶機制的碼本建模方法研究[J].中國石油大學學報:自然科學版,2015,39(4):178-184.
QI Yujuan,NIU Xiaoran,WANG Yanjiang.Memory-based codebook modeling for real-time object detection[J].Journal of China University of Petroleum(Edition of Natural Science),2015,39(4):178-184.