寇萬里,車 嶸,嚴(yán)麗娜
(國防科技大學(xué)信息通信學(xué)院試驗(yàn)訓(xùn)練基地,陜西 西安 710106)
隨著多媒體技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,基于視頻的應(yīng)用已經(jīng)越來越受到人們的重視。作為視頻處理領(lǐng)域中的重要支撐技術(shù),研究視頻對象分割具有深遠(yuǎn)的現(xiàn)實(shí)意義和重大的應(yīng)用價(jià)值。
視頻對象分割是進(jìn)一步進(jìn)行視頻壓縮、視頻分析、視頻檢索[1]等高級應(yīng)用的基礎(chǔ),是指在時(shí)空域上將視頻分割成為一些視頻語義對象的組合,這種有語義的實(shí)體在數(shù)字視頻中稱為視頻對象。
自20世紀(jì)90年代初開始,視頻對象分割就引起了許多學(xué)者的興趣。近年來,視頻對象分割算法已經(jīng)成為多媒體領(lǐng)域的熱點(diǎn)研究課題。在國外,歐美國家的一些研究機(jī)構(gòu),諸如美國微軟亞洲研究院、Sarnoff實(shí)驗(yàn)室、Columbia大學(xué)等,亞洲的日本索尼和松下、韓國三星等公司,在視頻對象分割、壓縮、檢索方面做了大量研究。在國內(nèi),清華大學(xué)、中國科學(xué)技術(shù)大學(xué)等也進(jìn)行了相關(guān)研究[2-3]。雖然提出了多種分割算法,每種算法有其優(yōu)點(diǎn),但是也都有它們的局限性。分割算法還需進(jìn)一步的研究。
關(guān)于視頻對象分割的分類很多,其中根據(jù)分割過程所利用的信息不同,視頻分割算法可分為時(shí)域分割算法、空域分割算法和時(shí)空聯(lián)合的分割算法。時(shí)域分割技術(shù)主要利用視頻序列的運(yùn)動信息,通過變化檢測、光流法[4]或運(yùn)動矢量場估計(jì)等方法進(jìn)行時(shí)域的分割??沼蚍指罴夹g(shù)的實(shí)質(zhì)是傳統(tǒng)的圖像分割技術(shù),即按照一定的空間信息(包括顏色、灰度、邊沿、紋理等)、變換域信息、統(tǒng)計(jì)信息和先驗(yàn)知識(對特殊視頻序列)等,對圖像中的一致性區(qū)域進(jìn)行分割。時(shí)空聯(lián)合分割技術(shù)一般通過時(shí)間分割標(biāo)識運(yùn)動對象,然后與空間分割得到的對象邊界融合在一起,以得到更精確的分割結(jié)果。時(shí)空分割由于同時(shí)利用了時(shí)間和空間信息,因此可以取得更好的效果,是目前主流的分割算法。當(dāng)前,視頻分割算法的研究趨勢之一,是如何更好地將時(shí)間分割與空間分割融合。
本文在研究多種算法的基礎(chǔ)上,提出了一種基于形態(tài)學(xué)重建及邊界融合的視頻對象分割方法,流程如圖1所示。該方法很好地融合了時(shí)域分割與空域分割結(jié)果,提取效果較好,且計(jì)算復(fù)雜度低。對多個(gè)測試序列進(jìn)行實(shí)驗(yàn),該方法取得了較好的分割結(jié)果。
在空間域的分割中,本文采用分水嶺變換進(jìn)行分割,如圖1的右上方虛線框。分水嶺變換非常容易受到噪聲的干擾而出現(xiàn)“過分割”現(xiàn)象。因此,在進(jìn)行空間分割前,首先對原圖像進(jìn)行形態(tài)學(xué)重建濾波,強(qiáng)調(diào)整體,模糊細(xì)節(jié),以使圖像簡單化,減少噪聲的干擾。
圖1 視頻分割流程
對于圖像f,其形態(tài)學(xué)梯度圖像表示為:
其中,g為圓盤形結(jié)構(gòu)元素。
經(jīng)過形態(tài)學(xué)梯度處理后,圖像中的灰度躍變急劇增強(qiáng)。較一般的梯度算子雖也對噪聲敏感,但不會在檢測邊緣的同時(shí)增強(qiáng)或放大噪聲。
由于圖像本身灰度分布的不規(guī)則以及結(jié)構(gòu)元素尺寸的影響,重建濾波后圖像的梯度圖中仍然存在一些局部的“谷底”和“山峰”,導(dǎo)致對濾波后的圖像進(jìn)行分割得到的結(jié)果仍然存在大量的小區(qū)域。然后,經(jīng)過閾值判別后的形態(tài)學(xué)梯度圖像作為分水嶺變換的輸入,把圖像分割成不同的區(qū)域。為時(shí)空融合的需要,將各個(gè)區(qū)域及其邊界進(jìn)行標(biāo)記。此方法很好地避免了“過分割”現(xiàn)象,合理降低了區(qū)域數(shù)量,避免了區(qū)域融合或減小了區(qū)域融合的難度和復(fù)雜度。
在時(shí)間域分割中,采用變化檢測的方法,如圖1的左上方虛線框所示。它能夠檢測出視頻序列中運(yùn)動的對象。視頻序列的噪聲的統(tǒng)計(jì)量一般符合高斯特性,而運(yùn)動對象則有很強(qiáng)的結(jié)構(gòu)性,屬于非高斯信號[5]。因此,分離運(yùn)動目標(biāo)與背景的問題即可轉(zhuǎn)化為在高斯數(shù)據(jù)中分離非高斯數(shù)據(jù)的問題。
設(shè)幀差圖像為d(s,t),以(x,y)為中心,取移動窗口η(x,y),移動窗口大小Nη=9,窗口內(nèi)幀差圖像的四階矩為:
其中,窗口內(nèi)幀差圖像的平均值為:
其中,噪聲方差定義為:
M屬于背景的一塊區(qū)域,一般在邊緣地帶選取。本文選取4個(gè)角區(qū)域作為背景區(qū)域估算噪聲方差,能得到較好的效果。需要逐像素計(jì)算四階矩,并與閾值相比較,閾值與此幀差圖像的噪聲方差的平方成正比,可寫成c(δ2)2的形式,大于閾值的像素確定為運(yùn)動像素;否則,確定為背景部分。
邊界融合也是本算法的關(guān)鍵步驟,如圖1的下方虛線框所示,包括基于邊界的四階矩高斯檢驗(yàn)和基于邊界比重的運(yùn)動區(qū)域判定。
基于邊界的四階矩高斯檢驗(yàn)是將時(shí)間的連續(xù)性和空間的相似性結(jié)合,能較好地獲得運(yùn)動區(qū)域和準(zhǔn)確的邊界。時(shí)域分割中,四階矩方法能夠有效濾除高斯噪聲,但速度慢;而邊界的運(yùn)動最為顯著,邊界上包含的運(yùn)動信息更為可靠??沼蚍指钪幸讯ㄎ粶?zhǔn)確的邊界,所以僅對空域分割中邊界像素進(jìn)行四階矩高斯檢驗(yàn)。
基于邊界比重的運(yùn)動區(qū)域判定是,若邊界像素的四階矩大于設(shè)定的閾值,則判定當(dāng)前像素為運(yùn)動像素,同時(shí)累加該區(qū)域運(yùn)動像素的個(gè)數(shù),對每個(gè)區(qū)域邊界上的所有像素的運(yùn)動判定完畢后,根據(jù)累加運(yùn)動像素的個(gè)數(shù)與該區(qū)域邊界上的像素總和的比值(本文選取的比值為70%),判定當(dāng)前區(qū)域是否運(yùn)動。
論文為了提高算法的速度,克服時(shí)域中四階矩濾除噪聲慢的缺點(diǎn),采用基于邊界的融合方法,提升運(yùn)算效率,得到了較好的效果。
下面以Claire序列為例說明本文視頻對象檢測的過程。圖2(a)為Claire序列的第56幀原圖;圖2(b)是采用對圖2(a)圖進(jìn)行形態(tài)學(xué)重建后的分水嶺效果,很大程度上減少了過分割現(xiàn)象;圖2(c)是為了指導(dǎo)時(shí)域工作,對圖2(b)進(jìn)行區(qū)域及邊界的標(biāo)識圖像;圖2(d)是在圖2(c)的指導(dǎo)下,對幀差圖像的邊界進(jìn)行四階矩高斯檢驗(yàn),濾除背景噪聲,僅對邊界點(diǎn)進(jìn)行高斯檢驗(yàn),大大減少了參與運(yùn)算像素?cái)?shù)目;圖2(e)是利用邊界比重法得到的最終檢測模板;圖2(f)是圖2(a)的最終檢測結(jié)果。
圖2 Claire序列視頻對象檢測結(jié)果
在空間域通過對形態(tài)學(xué)的研究,實(shí)現(xiàn)了一種基于形態(tài)學(xué)重建及形態(tài)學(xué)梯度閾值判別的改進(jìn)分水嶺算法,有效抑制了“過分割”現(xiàn)象,取得了較好的效果。時(shí)間域采用變化檢測的方法初步確定運(yùn)動區(qū)域,采用高階統(tǒng)計(jì)量的方法進(jìn)行高斯檢驗(yàn),有效去除了視頻序列存在的背景噪聲。為了避免傳統(tǒng)高階統(tǒng)計(jì)量高斯檢驗(yàn)速度慢的缺點(diǎn),利用空域的分割邊界作為指導(dǎo),提出了基于邊界的四階矩,用以濾除噪聲。較最初的四階矩方法,該方法的運(yùn)算效率提升了65%以上。最后,利用邊界比重融合方法進(jìn)行最后的時(shí)空融合獲得視頻運(yùn)動對象,取得了良好的效果。
參考文獻(xiàn):
[1] 王美珍.最優(yōu)視頻子集與視頻時(shí)空檢索[J].計(jì)算機(jī)學(xué)報(bào),2017(11):1-21.WANG Mei-zhen.Optimized Video Subset and Video Spatio-temporal Retrieval[J].Chinese Journal of Computers,2017(11):1-21.
[2] 余欣緯.復(fù)雜場景下視頻目標(biāo)自動分割算法研究[D].合肥: 中國科學(xué)技術(shù)大學(xué),2017.YU Xin-wei.Research on Automatic Video Target Segmentation in Complex Scene[D].Hefei:University of Science & Technology China,2017.
[3] WANG Yu-hang,LIU Jing,LI Yong.Hierarchically Supervised Deconvolutional Network for Semantic Video Segmentation[J].Pattern Recognition,2017(04):437-445.
[4] 王大雷.基于LDOF光流算法的視頻對象分割方法[J].南昌航空大學(xué)學(xué)報(bào):自然科學(xué)版,2016(12):18-25.WANG Da-lei.Video Object Segmentation Method Based on LDOF Optical Flow Algorithm[J].Journal of Nanchang Aeronautical University(Natural Science Edition),2016(12):18-25.
[5] 張文啟.基于特征提取的通信信號識別研究[D].蘭州:蘭州理工大學(xué),2016.ZHANG Wen-qi.Research on Recognition of Communication Signals Based on Feature Extraction[D].Lanzhou:Lanzhou University of Technology,2016.