余欣緯,柯余洋,熊 焰,黃文超
1(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)2(合肥學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,合肥 230000)
面向多種場(chǎng)景的視頻對(duì)象自動(dòng)分割算法①
余欣緯1,柯余洋2,熊 焰1,黃文超1
1(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)2(合肥學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,合肥 230000)
針對(duì)當(dāng)前應(yīng)用于視頻對(duì)象分割的圖割方法容易在復(fù)雜環(huán)境、鏡頭移動(dòng)、光照不穩(wěn)定等場(chǎng)景下魯棒性不佳的問(wèn)題,提出了結(jié)合光流和圖割的視頻對(duì)象分割算法.主要思路是通過(guò)分析前景對(duì)象的運(yùn)動(dòng)信息,得到單幀圖像上前景區(qū)域的先驗(yàn)知識(shí),從而改善分割結(jié)果.論文首先通過(guò)光流場(chǎng)采集視頻中動(dòng)作信息,并提取出前景對(duì)象先驗(yàn)區(qū)域,然后結(jié)合前景和背景先驗(yàn)區(qū)域建立圖割模型,實(shí)現(xiàn)前景對(duì)象分割.最后為提高算法在不同場(chǎng)景下的魯棒性,本文改進(jìn)了傳統(tǒng)的測(cè)地顯著性模型,并基于視頻本征的時(shí)域平滑性,提出了基于混合高斯模型的動(dòng)態(tài)位置模型優(yōu)化機(jī)制.在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提算法與當(dāng)前其他視頻對(duì)象分割算法相比,降低了分割結(jié)果的錯(cuò)誤率,有效提高了在多種場(chǎng)景下的魯棒性.
視頻對(duì)象分割;光流;圖割;測(cè)地顯著性;混合高斯模型
近年來(lái),隨著計(jì)算機(jī)存儲(chǔ)和處理能力、網(wǎng)絡(luò)帶寬和多媒體顯示以及拍攝設(shè)備的不斷發(fā)展,人們拍攝和獲取視頻的能力不斷增強(qiáng).視頻由于其信息的豐富性和生動(dòng)性而被越來(lái)越多的人所接受,成為人們?cè)谏钪袏蕵?lè)、學(xué)習(xí)、記錄的重要傳播載體.這些不斷增長(zhǎng)的海量視頻數(shù)據(jù)資源帶來(lái)了信息冗余和如何高效管理的問(wèn)題.因此,不斷增長(zhǎng)的大規(guī)模視頻數(shù)據(jù)及其應(yīng)用也促使了獲取、分析以及理解這些視頻數(shù)據(jù)的需求日益增長(zhǎng).如何降低視頻內(nèi)容理解難度,提取出視頻中的關(guān)鍵信息成為學(xué)術(shù)界和工業(yè)界關(guān)心的焦點(diǎn).而視頻對(duì)象分割因?yàn)槠渚哂心軌蛴行幚硪曨l中主要信息的特點(diǎn)在視頻摘要、視頻檢索、視頻活動(dòng)分析等領(lǐng)域擁有廣泛的應(yīng)用.視頻對(duì)象自動(dòng)分割算法因?yàn)椴恍枞斯⑴c,可以在多種大規(guī)模視頻數(shù)據(jù)處理場(chǎng)景中應(yīng)用的特點(diǎn),成為近年來(lái)的研究熱點(diǎn).
當(dāng)前,自動(dòng)化視頻對(duì)象分割方法有諸多研究思路,包括:基于對(duì)象候選集篩選的方法、基于點(diǎn)追蹤和聚類的方法以及基于圖割的方法.基于圖割的方法主要是通過(guò)將圖像或視頻分割問(wèn)題轉(zhuǎn)換為圖的最小割問(wèn)題,實(shí)現(xiàn)對(duì)圖像或視頻的前景對(duì)象分割.Khoreva等[1]提出了使用分類器計(jì)算圖中邊權(quán)值的方法,優(yōu)化并提升了現(xiàn)有方法的分割結(jié)果.Ma等[2]利用在圖的最大團(tuán)算法,針對(duì)多處前景對(duì)象候選區(qū)域評(píng)分,得到分割結(jié)果.Zhang等[3]構(gòu)造了一個(gè)分層的有向無(wú)環(huán)圖來(lái)選取最終的目標(biāo)區(qū)域,并利用視頻幀間的光流信息對(duì)目標(biāo)區(qū)域進(jìn)行擴(kuò)張,目標(biāo)分割精度有所提升.但該方法是以像素點(diǎn)作為基本單元構(gòu)建馬爾科夫隨機(jī)場(chǎng),分割效率較低.盡管現(xiàn)有的自動(dòng)化分割方法能夠有效地檢測(cè)并分割出視頻前景對(duì)象區(qū)域,但在精度和場(chǎng)景魯棒性上仍有較大提升空間.
為解決現(xiàn)有圖割方法在多種場(chǎng)景中分割能力不佳的問(wèn)題,本文提出了一個(gè)在多種場(chǎng)景中具有更好準(zhǔn)確性和魯棒性的視頻對(duì)象分割算法.首先,通過(guò)分析視頻中的運(yùn)動(dòng)信息,獲得前景對(duì)象的先驗(yàn)知識(shí),為之后的分割過(guò)程提供重要信息.在得到前景對(duì)象先驗(yàn)知識(shí)的基礎(chǔ)上進(jìn)行分割,能夠較好地排除因背景因素導(dǎo)致的干擾,提高不同場(chǎng)景下的分割精度.然后,本文改進(jìn)了傳統(tǒng)的測(cè)地顯著性計(jì)算模型[4],結(jié)合前景和背景先驗(yàn)區(qū)域計(jì)算得到分割結(jié)果.最后,為了解決一些場(chǎng)景中分割結(jié)果不佳的問(wèn)題,本文基于混合高斯模型建立了動(dòng)態(tài)位置模型優(yōu)化機(jī)制,利用前景對(duì)象本征的位置平滑性優(yōu)化分割結(jié)果.
本文利用視頻的動(dòng)作信息分析得到前景對(duì)象的動(dòng)作輪廓,在動(dòng)作輪廓中包含的區(qū)域即為所求前景區(qū)域先驗(yàn)知識(shí).相較于背景區(qū)域,符合人類認(rèn)知特點(diǎn)的前景對(duì)象一般在圖像和動(dòng)作特征上具有獨(dú)特性.首先,本文采用光流(Optical flow)計(jì)算得到視頻序列中的動(dòng)作模型.通過(guò)對(duì)光流向量梯度計(jì)算得到前景對(duì)象動(dòng)作輪廓.針對(duì)傳統(tǒng)梯度計(jì)算模型產(chǎn)生的背景噪聲干擾問(wèn)題,本文提出考慮向量長(zhǎng)度和方向的混合梯度計(jì)算模型,能夠較好地排除背景噪聲和鏡頭動(dòng)作的干擾.然后,本文改進(jìn)了點(diǎn)包容性(Point in Polygon,PIP)算法[5,6]解決從不完整連續(xù)動(dòng)作輪廓中提取前景先驗(yàn)區(qū)域的問(wèn)題.最后,在某些場(chǎng)景中可能因?yàn)殓R頭抖動(dòng)、背景遮擋或前景對(duì)象本身動(dòng)作信息不明顯而導(dǎo)致光流計(jì)算出現(xiàn)錯(cuò)誤.針對(duì)上述問(wèn)題,本文提出基于時(shí)域平滑性的前景區(qū)域優(yōu)化方案,確保算法在上述場(chǎng)景中的魯棒性.
圖1 本文算法流程圖
為了精確地提取視頻中的動(dòng)作信息,本文采用了光流場(chǎng)算法[7]建立視頻的動(dòng)作模型.光流是指時(shí)變圖像中的模式運(yùn)動(dòng)速度.因?yàn)楫?dāng)物體在運(yùn)動(dòng)時(shí),它在圖像上對(duì)應(yīng)點(diǎn)的亮度模式也在運(yùn)動(dòng).光流表達(dá)了圖像的變化,由于它包含了目標(biāo)運(yùn)動(dòng)的信息,因此可被觀察者用來(lái)確定目標(biāo)的運(yùn)動(dòng)情況.由光流的定義可以引申出光流場(chǎng),它是指圖像中所有像素點(diǎn)構(gòu)成的一種二維瞬時(shí)速度場(chǎng),其中的二維速度矢量是景物中可見(jiàn)點(diǎn)的三維速度矢量在成像表面的投影.因此光流可以較為準(zhǔn)確地描述被觀察物體的運(yùn)動(dòng)信息.
本文對(duì)視頻序列中相鄰的幀圖像計(jì)算得到光流場(chǎng).光流場(chǎng)由光流向量組成,每個(gè)光流向量描述了對(duì)應(yīng)像素點(diǎn)在相鄰幀之間運(yùn)動(dòng)的方向和程度.
式為:
然而,上述傳統(tǒng)梯度計(jì)算方法更容易受到鏡頭移動(dòng)或晃動(dòng)、背景噪聲的干擾.在圖2中,源圖像序列中的動(dòng)作信息包含:前景對(duì)象的跑動(dòng)動(dòng)作、背景噪聲以及鏡頭的持續(xù)移動(dòng).根據(jù)(b)中梯度計(jì)算結(jié)果可以發(fā)現(xiàn),式(1)雖然能夠較好地提取出前景對(duì)象的運(yùn)動(dòng)輪廓,但同樣容易受到鏡頭運(yùn)動(dòng)和背景噪聲的干擾.使得(1)無(wú)法從光流圖像中得到正確的前景對(duì)象先驗(yàn)知識(shí).
圖2 梯度計(jì)算模型對(duì)比結(jié)果
圖3 點(diǎn)包容性算法原理圖
本文將光流向量的方向納入計(jì)算模型中,提出了混合梯度計(jì)算模型,較好地排除了鏡頭和背景因素的干擾.基于對(duì)像素點(diǎn)光流向量特性的觀察,本文認(rèn)為:當(dāng)某一像素點(diǎn)處于不同物體的輪廓上時(shí),由于不同物體的運(yùn)動(dòng)特征不一致,因而該像素點(diǎn)對(duì)應(yīng)的光流向量應(yīng)與相鄰像素點(diǎn)的向量方向有較大的夾角.反之,如果某一像素點(diǎn)與相鄰像素點(diǎn)都處于同一物體內(nèi)部,則該像素點(diǎn)對(duì)應(yīng)的光流向量方向會(huì)與相鄰像素點(diǎn)一致.因此,本文提出基于向量方向的梯度計(jì)算公式:
式中,N代表像素點(diǎn)p的相鄰像素點(diǎn)集合;代表光流向量之間夾角的L2范數(shù)值;C表示像素點(diǎn)p的相鄰像素個(gè)數(shù),在本文方法中,C的值默認(rèn)設(shè)定為4.通過(guò)式(2)可知,光流向量與相鄰向量夾角越大,對(duì)應(yīng)像素點(diǎn)計(jì)算得到的梯度值越大.
本文方法中結(jié)合了兩種計(jì)算方法的混合梯度計(jì)算模型如下:
式中,HT代表較高的閾值,作用是將強(qiáng)烈的動(dòng)作信息與可能出現(xiàn)混淆的像素點(diǎn)區(qū)分開.梯度值低于HT的像素點(diǎn)被認(rèn)為難以分辨是否處于前景對(duì)象輪廓邊緣,因而需要結(jié)合式(2)進(jìn)一步計(jì)算.LT代表較低的閾值,作用是判斷像素點(diǎn)是否存在動(dòng)作信息,梯度值低于LT的像素點(diǎn)將被視為噪聲干擾.HT與LT均為自適應(yīng)閾值.通過(guò)使用混合梯度計(jì)算模型,能夠較好地得到前景對(duì)象運(yùn)動(dòng)輪廓.
在不設(shè)約束的任意視頻中,人們難以預(yù)測(cè)前景對(duì)象的動(dòng)作模式.由于動(dòng)作模式的不確定性,通過(guò)梯度計(jì)算模型得到前景對(duì)象輪廓通常是不連續(xù)的.為從運(yùn)動(dòng)輪廓中標(biāo)注出所需的前景先驗(yàn)區(qū)域,我們改進(jìn)了點(diǎn)包容性算法[5,6].算法原理如圖3所示,從平面上某一點(diǎn)向任意方向發(fā)出射線,如果射線與平面上的多邊形邊的交點(diǎn)個(gè)數(shù)均為奇數(shù),則該點(diǎn)處于某一多邊形內(nèi)部;若交點(diǎn)個(gè)數(shù)均為偶數(shù),則處于任意多邊形的外部.針對(duì)動(dòng)作輪廓不連續(xù)的問(wèn)題,本文參照點(diǎn)包容性算法原理,對(duì)每個(gè)像素點(diǎn)計(jì)算水平、垂直、斜45度等八個(gè)方向的射線交點(diǎn)數(shù),并采用多數(shù)投票法實(shí)現(xiàn)了正確的標(biāo)注.
為解決特殊場(chǎng)景下光流圖像錯(cuò)誤率較高導(dǎo)致無(wú)法提取先驗(yàn)區(qū)域的問(wèn)題,本文提出了前景先驗(yàn)區(qū)域優(yōu)化方案.在真實(shí)拍攝的視頻中,容易出現(xiàn)鏡頭移動(dòng)速度過(guò)快、鏡頭劇烈晃動(dòng)、對(duì)焦不清出現(xiàn)模糊等問(wèn)題.這些干擾會(huì)對(duì)光流計(jì)算產(chǎn)生較大影響,導(dǎo)致光流圖像錯(cuò)誤率較高,無(wú)法準(zhǔn)確地得到前景對(duì)象先驗(yàn)區(qū)域.針對(duì)這一問(wèn)題,本文提出的優(yōu)化方案能夠利用前景對(duì)象的時(shí)域平滑性較好地優(yōu)化先驗(yàn)區(qū)域.由于前景對(duì)象在視頻序列的時(shí)域上具有平滑性,因而可以利用相鄰幀中先驗(yàn)區(qū)域結(jié)果補(bǔ)全錯(cuò)誤幀的先驗(yàn)區(qū)域.本文考慮到在利用連續(xù)性補(bǔ)全的過(guò)程中,越是相鄰的幀的先驗(yàn)區(qū)域越有更高的置信度.因而本文以需要優(yōu)化的錯(cuò)誤幀為對(duì)稱軸建立高斯模型,更接近錯(cuò)誤幀的幀圖像像素點(diǎn)具有更高的權(quán)重.優(yōu)化方案計(jì)算公式如下:
圖4 前景先驗(yàn)區(qū)域優(yōu)化示意圖
測(cè)地顯著性模型屬于圖割模型的一種.傳統(tǒng)測(cè)地顯著性模型[4]通過(guò)在圖像上建立圖結(jié)構(gòu),計(jì)算節(jié)點(diǎn)到背景區(qū)域的測(cè)地距離,根據(jù)距離大小實(shí)現(xiàn)前景區(qū)域的分割.在中心偏移假設(shè)[8]的基礎(chǔ)上,傳統(tǒng)模型將圖像的邊緣區(qū)域標(biāo)記為背景先驗(yàn)區(qū)域,并計(jì)算其他節(jié)點(diǎn)到邊緣節(jié)點(diǎn)的距離.由于前景對(duì)象相較于背景區(qū)域在外觀、動(dòng)作和位置等方面具有特征獨(dú)特性,因而與邊緣背景區(qū)域距離越遠(yuǎn)的節(jié)點(diǎn),其前景顯著值越高.本文改進(jìn)了傳統(tǒng)測(cè)地顯著性模型,基于前景和背景先驗(yàn)區(qū)域分別計(jì)算距離,并提出了新的顯著值計(jì)算模型.首先,本文對(duì)單幀圖像進(jìn)行過(guò)分割處理得到超像素圖像,并在此基礎(chǔ)上建立圖結(jié)構(gòu).然后,通過(guò)計(jì)算和比較未標(biāo)記節(jié)點(diǎn)分別到前景和背景先驗(yàn)區(qū)域的距離,實(shí)現(xiàn)對(duì)前景區(qū)域的分割.為了解決某些場(chǎng)景下中心偏移假設(shè)效果不佳的問(wèn)題,本文提出了多重顯著值計(jì)算模型,使得算法在一些特殊場(chǎng)景下仍有較好的分割結(jié)果.
本文采用超像素作為單幀圖像中進(jìn)行前景區(qū)域分割的最小單位.超像素由一系列位置相鄰且顏色、亮度、紋理等特征相似的像素點(diǎn)組成的小區(qū)域,這些小區(qū)域最大程度上保證了區(qū)域內(nèi)所有像素點(diǎn)都屬于同一個(gè)物體.在一些復(fù)雜場(chǎng)景下,以超像素為單位實(shí)現(xiàn)前景對(duì)象分割能夠較好地保留物體的邊緣特性,獲得更好的分割結(jié)果.本文采用圖割模型實(shí)現(xiàn)前景區(qū)域分割,以超像素為節(jié)點(diǎn)構(gòu)圖能夠顯著降低圖結(jié)構(gòu)的復(fù)雜度,提高建模和優(yōu)化的效率.本文采用SLIC算法[9]實(shí)現(xiàn)超像素過(guò)分割處理,SLIC能夠較好地保持圖像局部的形狀完整性和外觀相似性.
在單幀圖像Ti上,本文以超像素為節(jié)點(diǎn),相鄰超像素建立邊建立了圖結(jié)構(gòu).其中Vi代表Ti上的超像素集合,Ei代表圖中相鄰節(jié)點(diǎn)之間邊的集合.在本文中,Ei中每條邊的權(quán)值由超像素間外觀特征差異決定.權(quán)值計(jì)算公式如下:
式中,xj和xk分別代表在節(jié)點(diǎn)j和k內(nèi)部的平均顏色特征值.本文通過(guò)對(duì)節(jié)點(diǎn)包含的所有像素點(diǎn)RGB顏色空間值求均值得到平均顏色特征值.N(j)代表節(jié)點(diǎn)j的相鄰節(jié)點(diǎn)集合.為方便計(jì)算,本文建立的鄰接矩陣Wi以存儲(chǔ)Ei中的邊權(quán)值.
基于中心偏移假設(shè)[8],本文將圖像的邊緣節(jié)點(diǎn)結(jié)合標(biāo)記為背景先驗(yàn)區(qū)域B.結(jié)合先前對(duì)動(dòng)作信息分析得到的前景先驗(yàn)區(qū)域F,傳統(tǒng)測(cè)地顯著性模型[4]通過(guò)計(jì)算和比較剩余未標(biāo)記節(jié)點(diǎn)集合U分別與B和F之間的測(cè)地距離,實(shí)現(xiàn)對(duì)前景對(duì)象的分割.單幀圖像i中節(jié)點(diǎn)j的顯著值計(jì)算公式如下:
式中,C代表歸一化的常數(shù)參數(shù).代表節(jié)點(diǎn)之間的測(cè)地距離.λ是常系數(shù),用于平衡兩項(xiàng)距離值對(duì)所得顯著值的貢獻(xiàn)比,在本文方法中被設(shè)置為1.從式(7)中可以看出,的大小與到達(dá)B的距離成正比,與到達(dá)F的距離成反比.因而如果圖中節(jié)點(diǎn)與背景先驗(yàn)區(qū)域特征相差較大且與前景先驗(yàn)區(qū)域特征接近,則該節(jié)點(diǎn)會(huì)獲得較高的顯著值,符合前景區(qū)域的特點(diǎn).節(jié)點(diǎn)s和t之間的測(cè)地距離■計(jì)算公式如下:
圖5 多重顯著值模型對(duì)比圖
在實(shí)際場(chǎng)景中,一些視頻中的前景對(duì)象會(huì)部分出現(xiàn)在單幀圖像邊緣上.對(duì)于包含這些場(chǎng)景的視頻,應(yīng)用傳統(tǒng)模型無(wú)法得到正確的分割結(jié)果.針對(duì)這一問(wèn)題,本文提出了多重顯著值計(jì)算模型.通過(guò)分別計(jì)算未標(biāo)記節(jié)點(diǎn)到每一條邊緣的測(cè)地距離,得到四幅顯著值圖像,將其融合后得到最終的顯著值圖像.因而本文改進(jìn)了式(7)中背景測(cè)地距離計(jì)算項(xiàng).
式中,Sup、Sdown、Sleft、Sright分別代表以單幀圖像四條邊緣為先驗(yàn)背景區(qū)域而計(jì)算得到的顯著值圖像,這些圖像通過(guò)(7)計(jì)算得到.
此外,本文觀察到圖像邊緣中的前景區(qū)域一般來(lái)說(shuō)并不大.因而在多重顯著值計(jì)算之前,本文加入了對(duì)圖像邊緣的預(yù)處理,以提高背景先驗(yàn)區(qū)域的準(zhǔn)確性.本文基于顏色和空間特征對(duì)每條圖像邊緣進(jìn)行聚類,并將一部分顏色特征相異于大多數(shù)節(jié)點(diǎn)的簇舍去,取剩下的節(jié)點(diǎn)作為先驗(yàn)背景區(qū)域.在本文方法中,采用了基于密度的DBSCAN聚類算法實(shí)現(xiàn).
本文采用多幀差分的混合高斯模型(Gaussian Mixture Model,GMM)建立了前景對(duì)象的動(dòng)態(tài)位置模型,以提高算法在多種場(chǎng)景下的魯棒性.Stauffer等[10]提出了基于混合高斯模型的背景建模方法,通過(guò)在每個(gè)像素點(diǎn)上建立K個(gè)高斯分布,實(shí)現(xiàn)圖像分割.在某一時(shí)刻,像素點(diǎn)的歷史像素值集合為:
式中,i為視頻序列,Xi為像素點(diǎn)在i時(shí)刻的像素值.當(dāng)前像素點(diǎn)觀測(cè)值的概率為:
式中,K代表混合高斯模型中分布數(shù)量;代表第j個(gè)分布在時(shí)刻t的權(quán)重值;代表第j個(gè)高斯模型的均值和協(xié)方差,代表對(duì)應(yīng)分布的標(biāo)準(zhǔn)差;代表高斯概率密度函數(shù),計(jì)算公式為:
式中,n代表Xt的維度.
首先,文獻(xiàn)[10]將混合高斯模型中的若干個(gè)分布按照優(yōu)先級(jí)從大到小排列.然后,用像素點(diǎn)當(dāng)前值Xt按序與混合高斯模型中所有分布相比較.若滿足公式(13),則認(rèn)為該像素點(diǎn)與其中某一分布匹配,并對(duì)匹配分布的參數(shù)、和進(jìn)行更新.其他不匹配的分布只改變自身權(quán)重值.
式中,δ一般取值為2.5~3.5.
若與混合高斯模型中所有分布均不匹配,則算法將根據(jù)當(dāng)前像素值建立一個(gè)新的高斯分布(均值為Xt,初始化標(biāo)準(zhǔn)差及權(quán)重).如果當(dāng)前分布數(shù)小于K,則新的高斯分布直接添加到混合高斯模型中.如果當(dāng)前分布數(shù)等于K,則新的分布將取代優(yōu)先級(jí)最小的分布.
本文采用混合高斯模型對(duì)視頻序列建模,用單個(gè)或多個(gè)高斯分布表示前景對(duì)象的動(dòng)態(tài)位置.此外,本文加入多幀差分優(yōu)化建模結(jié)果,保證了動(dòng)態(tài)位置模型的時(shí)域平滑性.
為了驗(yàn)證本文算法的有效性和魯棒性,在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集SegTrack和SegTrack v2上對(duì)本文算法和其他若干最優(yōu)算法做了對(duì)比實(shí)驗(yàn).SegTrack和SegTrack v2共包含14個(gè)不同的視頻序列及超過(guò)1000幅幀圖像,并涵蓋了多種不同場(chǎng)景的視頻,如:鏡頭快速移動(dòng)、復(fù)雜環(huán)境和光照不佳等.能夠較為全面地衡量算法在不同場(chǎng)景下的分割能力.實(shí)驗(yàn)中,本文選取文獻(xiàn)[3]和[11]中算法的結(jié)果作對(duì)比.上述算法均為基于圖割的視頻對(duì)象分割算法并有較好分割能力.本文實(shí)驗(yàn)環(huán)境為:Intel i5-3450 @3.10 GHZ,8 GB內(nèi)存,Windows 10環(huán)境下使用MATLAB 2015a實(shí)現(xiàn)算法.
圖6 復(fù)雜環(huán)境場(chǎng)景的分割結(jié)果
圖6中,前景對(duì)象處于復(fù)雜環(huán)境中,且背景環(huán)境中存在外觀和紋理特征與前景物體相似的區(qū)域.文獻(xiàn)[11]中算法嚴(yán)重受到了背景噪聲的干擾,無(wú)法正確定位前景對(duì)象的位置.文獻(xiàn)[3]算法結(jié)果未能完整分割出前景物體輪廓.本文算法分割結(jié)果較為完整準(zhǔn)確.
圖7和圖8中,視頻序列的拍攝鏡頭隨前景對(duì)象快速移動(dòng),會(huì)產(chǎn)生大量的背景噪聲.文獻(xiàn)[11]的結(jié)果受到了噪聲的較多影響,在前景對(duì)象周邊產(chǎn)生了模糊.相較于文獻(xiàn)[3],本文的分割結(jié)果更為完整,且較好地排除了噪聲的干擾.
圖7 鏡頭快速移動(dòng)場(chǎng)景的分割結(jié)果
圖8 前景對(duì)象動(dòng)作特征復(fù)雜的分割結(jié)果
圖9中,視頻中整體光照條件不佳,且不同的區(qū)域明暗對(duì)比較為明顯.本文算法在光照條件變動(dòng)較為劇烈的情況下,仍保持了較好的準(zhǔn)確性和魯棒性.
圖9 光照條件不佳的分割結(jié)果
此外,以識(shí)別誤差為標(biāo)準(zhǔn)在SegTrack數(shù)據(jù)集上比較了本文算法與文獻(xiàn)[3]和[12]中算法的結(jié)果.識(shí)別誤差計(jì)算公式如下:
式中,S代表任一算法的最終分割結(jié)果;GT代表數(shù)據(jù)集中提供的真實(shí)分割對(duì)照;F代表視頻序列中幀圖像的數(shù)量.通過(guò)計(jì)算每種算法在單個(gè)幀圖像上的平均錯(cuò)分類像素個(gè)數(shù),識(shí)別誤差能夠較好地衡量不同算法的分割能力.在同等實(shí)驗(yàn)條件下比較結(jié)果如表1所示.
表1 SegTrack數(shù)據(jù)集上平均每幀錯(cuò)誤率對(duì)比
實(shí)驗(yàn)結(jié)果表明,通過(guò)前景先驗(yàn)區(qū)域提取和改進(jìn)后的測(cè)地顯著性模型相結(jié)合,能夠在前景對(duì)象動(dòng)作模式較復(fù)雜的情況下較好地獲得前景信息,也增強(qiáng)了算法在鏡頭移動(dòng)或晃動(dòng)場(chǎng)景中的魯棒性,同時(shí)提高了算法在復(fù)雜背景環(huán)境中的分割能力.
綜上所述,本文提出的算法相較于以前提出的圖割算法具有更好的準(zhǔn)確性.同時(shí)對(duì)多種視頻中復(fù)雜環(huán)境、鏡頭移動(dòng)以及光照變化的場(chǎng)景有較好的魯棒性.
提出了一種面向多種場(chǎng)景的視頻對(duì)象自動(dòng)分割算法.針對(duì)當(dāng)前圖割方法容易受到復(fù)雜環(huán)境、背景噪聲等因素影響的問(wèn)題,通過(guò)分析視頻動(dòng)作信息獲得前景先驗(yàn)區(qū)域,為圖割建模提供了重要的先驗(yàn)知識(shí).同時(shí)改進(jìn)了傳統(tǒng)測(cè)地顯著性模型,使算法能夠應(yīng)用于更多場(chǎng)景中.建立了動(dòng)態(tài)位置模型,減少了背景因素對(duì)分割結(jié)果的干擾.實(shí)驗(yàn)結(jié)果證明了本文所提算法準(zhǔn)確性相較于當(dāng)前圖割算法有了較好的提升,并在多種場(chǎng)景的視頻中有更魯棒的分割結(jié)果.
1 Khoreva A,Galasso F,Hein M,et al.Classifier based graph construction for video segmentation.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.2015.951–960.
2 Ma TY,Latecki LJ.Maximum weight cliques with mutex constraints for video object segmentation.Proc.of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA.2012.670–677.
3 Zhang D,Javed O,Shah M.Video object segmentation through spatially accurate and temporally dense extraction of primary object regions.Proc.of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Portland,OR,USA.2013.628–635.
4 Wei YC,Wen F,Zhu WJ,et al.Geodesic saliency using background priors.Proc.of the 12th European conference on computer vision.Florence,Italy.2012.29–42.
5 Sutherland IE,Sproull RF,Schumacker RA.A characterization of ten hidden-surface algorithms.ACM Computing Surveys,1974,6(1):1–55.[doi:10.1145/356625.356626]
6 Shimrat M.Algorithm 112:Position of point relative to polygon.Communications of the ACM,1962,5(8):434.
7 Liu C.Beyond pixels:Exploring new representations and applications for motion analysis[Ph.D.Thesis].Cambridge,MA:Massachusetts Institute of Technology,2009.
8 Tatler BW.The central fixation bias in scene viewing:Selecting an optimal viewing position independently of motor biases and image feature distributions.Journal of Vision,2007,7(14):4.[doi:10.1167/7.14.4]
9 Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods.IEEE Trans.on Pattern Analysis and Machine Intelligence,2012,34(11):2274–2282.[doi:10.1109/TPAMI.2012.120]
10 Stauffer C,Grimson WEL.Learning patterns of activity using real-time tracking.IEEE Trans.on Pattern Analysis and Machine Intelligence,2000,22(8):747–757.[doi:10.1109/34.868677]
11 Papazoglou A,Ferrari V.Fast object segmentation in unconstrained video.Proc.of the 2013 IEEE International Conference on Computer Vision (ICCV).Sydney,NSW,Australia.2013.1777–1784.
12 Wang WG,Shen JB,Porikli F.Saliency-aware geodesic video object segmentation.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,USA.2015.3395–3402.
Automatic Video Object Segmentation Algorithm for Multiple Scenes
YU Xin-Wei1,KE Yu-Yang2,XIONG Yan1,HUANG Wen-Chao11(School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)2(Department of Computer Science and Technology,Hefei University,Hefei 230000,China)
Aiming at the problems of poor robustness in the complex environment,lens movement and light instability,a video object segmentation algorithm combining optical flow and graph cutting is proposed.The main idea is to improve the segmentation result by analyzing the motion information of the foreground object and obtaining the prior knowledge of the foreground area on the single frame image.Firstly,the motion information in the video is collected by the optical flow field,and the prior knowledge of the foreground object is extracted.Then,the foreground object segmentation is realized by combining the priori areas of foreground and background.Finally,in order to improve the robustness of the algorithm in different scenarios,this paper improves the traditional geodesic saliency model,and employs the dynamic position model optimization mechanism based on Gaussian Mixture Model based on the intrinsic temporary smoothness of video.Experimental results on two benchmark datasets show that the proposed algorithm reduces the error rate of the segmentation results compared with other video object segmentation algorithms,which effectively improves the robustness in many scenarios.
video object segmentation;optical flow;graph cut;geodesic saliency;Gaussian mixture model
余欣緯,柯余洋,熊焰,黃文超.面向多種場(chǎng)景的視頻對(duì)象自動(dòng)分割算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(11):152–158.http://www.c-sa.org.cn/1003-3254/6044.html
2017-02-21;修改時(shí)間:2017-03-09;采用時(shí)間:2017-03-13
?