韓艷茹,尹夢(mèng)曉,2,楊 鋒,2,鐘 誠(chéng),2
1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004) 2(廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
在圖像和視頻處理中,基于像素級(jí)的圖像和視頻分析處理計(jì)算量較大且耗時(shí),而將圖像和視頻分割為超像素[1]或提取顯著點(diǎn)[2]的預(yù)處理能使圖像和視頻更易于操作,這已成為圖像和視頻處理的標(biāo)準(zhǔn)方式[3].
Ren等[1]首次提出對(duì)共享類似低級(jí)特征(如顏色或紋理)的空間相干像素進(jìn)行像素分組得到超像素,并將得到的超像素作為圖像分析和處理的基元.超像素使用更豐富(基于區(qū)域)的特征集,大幅減少圖像基元的數(shù)量,從而有效地提高后續(xù)處理步驟的計(jì)算效率以及分割質(zhì)量.超像素廣泛應(yīng)用于各種視覺(jué)任務(wù),例如圖像分割[4-6],圖像解析[7],跟蹤[8,9]及場(chǎng)景分類[10]等.同樣,視頻超像素在視頻分割[11-14]和顯著性檢測(cè)[15-18]等視頻分析和處理任務(wù)中也具有很大的應(yīng)用潛力.
通常,超像素是通過(guò)最小化代價(jià)函數(shù)將圖像劃分而得到的,這使得每個(gè)超像素各自為單個(gè)對(duì)象而不互相重疊.然而,如果將獲取超像素的方法直接獨(dú)立地應(yīng)用于視頻序列中的每一幀,將導(dǎo)致超像素可能在時(shí)間上不具有連續(xù)性,這樣即使連續(xù)幀之間僅有輕微變化,超像素也會(huì)出現(xiàn)閃爍.近年來(lái)有研究者將超像素從靜止圖像擴(kuò)展到視頻序列來(lái)生成視頻超像素[19-40],根據(jù)視頻處理時(shí)視頻的加載方式分為離線方法和流式方法.
離線方法要求提前提供視頻數(shù)據(jù),需要一次性加載整個(gè)視頻,然后再進(jìn)行后續(xù)操作.由于加載完整的視頻需要較大的計(jì)算機(jī)運(yùn)行內(nèi)存,因此用離線方法處理的視頻要盡可能短.相關(guān)的離線方法有:基于層次圖(GBH)[19]、加權(quán)聚合分割(SWA)[20-22]、Nystr?m標(biāo)準(zhǔn)化切割(NCut)[23,24]、均值漂移[25-27]以及文獻(xiàn)[28]的方法.其中SWA和Ncut都將標(biāo)準(zhǔn)化切割準(zhǔn)則作為基礎(chǔ)代價(jià)函數(shù),與Ncut不同的是,SWA分層次地最小化代價(jià)函數(shù)得到分層分割,基于層次圖的GBH同樣可以實(shí)現(xiàn)分層分割.
流式方法不需要一次性加載整個(gè)視頻,故能夠不受計(jì)算機(jī)運(yùn)行內(nèi)存的限制,處理任意長(zhǎng)度的視頻.流式方法按照解決時(shí)間一致性問(wèn)題的方式可分為三類:圖像超像素直接擴(kuò)展法[29,30]、超體素方法[31,32]以及時(shí)間一致性超像素方法[33-40].圖像超像素直接擴(kuò)展法[29,30]直接擴(kuò)展圖像超像素方法進(jìn)行視頻處理,沒(méi)考慮視頻中對(duì)象移動(dòng)的問(wèn)題.超體素方法[31,32]主要處理3D體積數(shù)據(jù)(例如醫(yī)學(xué)影像),將時(shí)間維度按空間維度處理,把視頻序列看做3D視頻體進(jìn)行處理.時(shí)間一致性超像素[33-40]則是利用光流信息傳播運(yùn)動(dòng)矢量,將第一幀的超像素分割擴(kuò)展到視頻的后續(xù)幀中,以流式方式計(jì)算視頻超像素.超體素和時(shí)間一致性超像素密切相關(guān),他們之間的關(guān)系可以描述為:具有時(shí)間一致性的超像素按幀堆疊得到超體素;超體素按幀進(jìn)行切片得到具有時(shí)間一致性的超像素.但當(dāng)按幀切片的超體素橫截面分割為非連續(xù)段時(shí),以上關(guān)系不成立[36].本文主要對(duì)時(shí)間一致性超像素方法進(jìn)行梳理和總結(jié),對(duì)超體素僅作簡(jiǎn)單介紹,詳細(xì)總結(jié)請(qǐng)參閱文獻(xiàn)[3].
超像素分割在計(jì)算機(jī)視覺(jué)領(lǐng)域得到廣泛研究和關(guān)注,已有相關(guān)綜述文獻(xiàn)大多是關(guān)于圖像超像素分割的,如文獻(xiàn)[5,9]以圖像分割為應(yīng)用背景對(duì)超像素方法進(jìn)行分析總結(jié).現(xiàn)有的視頻超像素的綜述文獻(xiàn)[3,41]沒(méi)有區(qū)分超體素方法和時(shí)間一致性超像素方法.超體素主要處理3D體積數(shù)據(jù),而時(shí)間一致性超像素針對(duì)視頻數(shù)據(jù)[35].本文對(duì)現(xiàn)有的時(shí)間一致性超像素方法進(jìn)行總結(jié),對(duì)評(píng)測(cè)指標(biāo)進(jìn)行更為完整的歸納,在此基礎(chǔ)上給出未來(lái)可以研究改進(jìn)的幾點(diǎn)建議.
論文其余部分安排如下:2.1節(jié)和2.2節(jié)介紹視頻超像素方法,2.3節(jié)分析評(píng)測(cè)基準(zhǔn)指標(biāo),第3節(jié)介紹在視頻處理領(lǐng)域的應(yīng)用,最后第4節(jié)進(jìn)行總結(jié)展望.
視頻超像素作為一種有效的視頻表示方式,將原始視頻分割為視頻超像素已經(jīng)成為許多計(jì)算機(jī)視覺(jué)系統(tǒng)中重要的預(yù)處理步驟,受到研究者們的廣泛關(guān)注,各種用于視頻分析和處理的視頻超像素提取方法被提出.本文將獲取視頻超像素的方法分為離線和流式兩類方法進(jìn)行介紹.
本節(jié)介紹GBH[19]、SWA[20-22]、Nystr?m標(biāo)準(zhǔn)化切割NCut[23,24]、均值漂移[25-27]以及文獻(xiàn)[28]等幾種具有代表性的離線視頻超像素方法.
GBH是由Grundmann等[19]提出的一種基于層次圖的分層視頻分割方法,該方法在基于層次圖的圖像分割[42]的基礎(chǔ)上,將相鄰的體素合并成小體素組,并從中得到顏色直方圖.計(jì)算顏色直方圖之間的卡方距離并在區(qū)域級(jí)迭代,由此將體素組進(jìn)一步合并到較大的時(shí)空區(qū)域,再通過(guò)跟蹤合并得到分層視頻分割.
Sharon等[21,20]提出的SWA是一種優(yōu)化標(biāo)準(zhǔn)切割準(zhǔn)則的方法,該方法使用自適應(yīng)代數(shù)多重網(wǎng)格算法[43]選擇頂點(diǎn)子集,來(lái)遞歸地粗化初始圖,由此生成多層次分割,使得精細(xì)級(jí)別上的每個(gè)頂點(diǎn)都與粗級(jí)別上的一個(gè)頂點(diǎn)耦合.層次結(jié)構(gòu)中的每個(gè)頂點(diǎn)表示一個(gè)潛在的分割,且層次結(jié)構(gòu)便于算法捕捉圖像的多尺度特征.Akselrod[22]首次將SWA擴(kuò)展到3D領(lǐng)域解決多發(fā)性硬化的分割問(wèn)題,使用SWA算法對(duì)輸入的三維多通道和各向異性數(shù)據(jù)進(jìn)行分層分割,得到有意義的解剖結(jié)構(gòu)和病變相對(duì)應(yīng)的區(qū)域.
Fowlkes等[24]提出一種基于Nystr?m Normalized cuts[23]的圖像和視頻超像素分割的譜劃分方法.該方法首先使用歸一化割集的多特征向量將每個(gè)體素嵌入到一個(gè)低維歐幾里德空間中,然后使用k-means算法對(duì)這些數(shù)據(jù)進(jìn)行最后的分區(qū).
Mean shift是一種模式搜索算法,最早由Fukunaga等[44]提出.Comaniciu等[25]將Mean shift用于圖像分割,每個(gè)像素都與一個(gè)特征點(diǎn)相關(guān)聯(lián),把核函數(shù)應(yīng)用到特征點(diǎn)的局部結(jié)構(gòu)中,產(chǎn)生的分割可以看作是用高斯核估計(jì)特征點(diǎn)密度的模式[25,26].Paris等[27]基于文獻(xiàn)[26]的方法,利用因果時(shí)空核估計(jì)特征點(diǎn)密度,使超像素跨越空間和時(shí)間實(shí)現(xiàn)了時(shí)間相干性,從而將超像素推廣到視頻流中.
Veksler 等[28]提出第一種生成超體素的方法,該方法通過(guò)構(gòu)造一個(gè)包含圖像梯度的能量函數(shù),并使用圖切割算法優(yōu)化該能量函數(shù),以達(dá)到對(duì)每個(gè)體素分配一個(gè)標(biāo)簽的目的.該方法用重疊的立方體覆蓋視頻序列,每個(gè)立方體的體積決定了產(chǎn)生的超體素的最大體積,體積較大的立方體對(duì)應(yīng)超體素間更高的時(shí)間一致性.
本節(jié)將介紹三類流式方法:圖像超像素直接擴(kuò)展法[29,30],超體素方法[31,32],時(shí)間一致性超像素方法[33-40].
2.2.1 圖像超像素直接擴(kuò)展法
Achanta等[29]通過(guò)將視頻序列視為3D信號(hào)進(jìn)行k-means優(yōu)化,通過(guò)直接擴(kuò)展用于2D圖像的SLIC算法,沿時(shí)間軸連接2D圖像獲得視頻超像素.
Van等[30]對(duì)文獻(xiàn)[45]中的超像素方法進(jìn)行擴(kuò)展,使用顏色直方圖來(lái)表示超像素,并設(shè)置一個(gè)目標(biāo)函數(shù)來(lái)進(jìn)行優(yōu)化,其中如果每個(gè)直方圖的填充區(qū)數(shù)最小化,則該函數(shù)最大化.在分割過(guò)程中,通過(guò)將每個(gè)超像素中的單個(gè)像素或像素塊超像素進(jìn)行重新分配來(lái)優(yōu)化之前的超像素分割效果,如果新的分配可以增加目標(biāo)函數(shù)的值,則接受此次分配的更改.受參數(shù)超像素率的影響,該方法會(huì)對(duì)某些幀執(zhí)行超像素終止或分裂操作,即為了保持超像素的數(shù)量隨時(shí)間恒定,在對(duì)目標(biāo)函數(shù)值的影響最低的情況下,通過(guò)從一個(gè)超像素中分離出一個(gè)部分,來(lái)為終止的超像素創(chuàng)建一個(gè)新的超像素.
這類方法因?yàn)闆](méi)有考慮對(duì)象移動(dòng)因素,當(dāng)場(chǎng)景中存在快速移動(dòng)的對(duì)象時(shí)可能會(huì)失效,不能有效地解決移動(dòng)對(duì)象的時(shí)間一致性問(wèn)題.
2.2.2 超體素方法
針對(duì)上文提到的GBH方法在計(jì)算過(guò)程中需要訪問(wèn)整個(gè)視頻的問(wèn)題,Xu等[31]對(duì)其進(jìn)行了擴(kuò)展,以流媒體的方式來(lái)處理任意長(zhǎng)的視頻同時(shí)保持層次分割.該方法將時(shí)間馬爾可夫假設(shè)應(yīng)用于視頻流重疊塊的分割,在分割過(guò)程中該方法只需要一個(gè)子幀,并允許在任何給定時(shí)間內(nèi)將少量幀加載到存儲(chǔ)器中.
Yi等[32]提出基于視頻流形均勻細(xì)分的內(nèi)容敏感超像素生成方法,并通過(guò)擴(kuò)展內(nèi)容敏感超像素來(lái)處理長(zhǎng)視頻.該方法將輸入視頻映射到嵌入R6中的三維流形,利用三維流形的體積元素可以很好地度量視頻中的內(nèi)容密度的優(yōu)勢(shì),通過(guò)類勞埃德的分裂合并方案來(lái)計(jì)算三維流形上的均勻細(xì)分,從而生成視頻的內(nèi)容敏感超像素.
2.2.3 時(shí)間一致性超像素方法
Alex等[33]首次提出生成時(shí)間一致性超像素的方法,該方法基于文獻(xiàn)[46]中的TurboPixels超像素方法,使用光流信息傳送超像素中心點(diǎn)來(lái)初始化后一幀的種子點(diǎn),進(jìn)而生成具有時(shí)間一致性超像素.文獻(xiàn)[46]中提出的TurboPixels超像素算法使用水平集將均勻分布的種子點(diǎn)生長(zhǎng)為非重疊的超像素.為了得到時(shí)間一致性超像素,文獻(xiàn)[33]首先使用TurboPixels算法提取第一幀的超像素,然后利用Lucas-Kanade算法計(jì)算連續(xù)幀之間每個(gè)像素點(diǎn)的運(yùn)動(dòng)向量.計(jì)算每個(gè)超像素包含的所有像素點(diǎn)運(yùn)動(dòng)向量的加權(quán)平均值,其中越接近超像素中心其權(quán)重越大,最后根據(jù)計(jì)算得到的平均向量將每個(gè)超像素中心映射到下一幀,以此來(lái)初始化下一幀初始種子點(diǎn)進(jìn)而生成超像素分割.對(duì)視頻中所有幀重復(fù)上述過(guò)程,獲得整個(gè)視頻的時(shí)間一致性超像素分割結(jié)果.
Liang 等[34]應(yīng)用了類似文獻(xiàn)[33]的傳送方法,提出了一種基于部分隨機(jī)游走算法[47]和時(shí)空信息的視頻超像素分割方法.該方法首先使用延遲隨機(jī)游走算法[48]獲得第一幀的初始種子點(diǎn),這些種子點(diǎn)被置于規(guī)則的矩形網(wǎng)格上,且由用戶指定初始種子點(diǎn)數(shù)量,然后基于種子點(diǎn)執(zhí)行融合了拉普拉斯優(yōu)化矩陣的PARW分割算法生成初始超像素分割,并通過(guò)調(diào)整初始種子點(diǎn)的位置使超像素邊界與物體邊緣更加貼合,最后再次執(zhí)行PARW分割算法生成最終的超像素分割,并通過(guò)光流傳播超像素中心以初始化下一幀的種子點(diǎn).重復(fù)此分割-傳播-分割過(guò)程生成視頻的時(shí)間一致性超像素分割.
Chang等[35]擴(kuò)展了SLIC超像素算法,構(gòu)建時(shí)間一致性超像素的生成模型.該模型的每個(gè)像素用五維特征建模:三通道顏色和二維位置.這個(gè)超像素模型在已知方差的高斯分布下,利用混合模型對(duì)單個(gè)特征進(jìn)行聚類來(lái)生成超像素.在為第一幀生成超像素后,通過(guò)光流信息初始化的高斯過(guò)程來(lái)模擬幀與幀之間的超像素移動(dòng),并基于雙邊核對(duì)運(yùn)動(dòng)矢量進(jìn)行細(xì)化.為了解決相鄰幀間結(jié)構(gòu)變化的問(wèn)題,Chang等提出拆分,合并和切換操作,拆分即一個(gè)超像素可以分成幾部分形成幾個(gè)標(biāo)簽不同的超像素,合并則是幾個(gè)不同的超像素合在一起生成一個(gè)超像素,切換就是改變超像素的標(biāo)簽.僅當(dāng)新的分割結(jié)果增加聯(lián)合對(duì)數(shù)似然函數(shù)的值時(shí),才對(duì)初始分割執(zhí)行操作生成新的分割.
Reso等[36,37]介紹了一種混合聚類方法,利用混合聚類策略對(duì)多維特征空間執(zhí)行能量最小化聚類,它將文獻(xiàn)[38]的五維特征空間分成全局顏色子空間和多個(gè)局部子空間.此外,它引入了基于新輪廓演化的策略以確保生成的超像素具有時(shí)間一致性.Reso等采用包括多個(gè)連續(xù)幀的滑動(dòng)窗口將幀分組為不可變的過(guò)去幀和可變的當(dāng)前幀以及未來(lái)幀,雖然未來(lái)幀可以適應(yīng)視頻量的變化,但過(guò)去幀是不可變的且試圖保留被分配的顏色聚類.滑動(dòng)窗口方法還可以產(chǎn)生短延遲流并具有處理任意長(zhǎng)視頻序列的能力.文獻(xiàn)[36]通過(guò)像素方向的前向光流傳播超像素中心標(biāo)簽來(lái)完成分割傳播,而文獻(xiàn)[37]使用像素方向的反向光流查找前一幀中的超像素標(biāo)簽來(lái)優(yōu)化分割.后一種方法產(chǎn)生更穩(wěn)定的分割結(jié)果,因?yàn)樗瑫r(shí)傳播超像素的相對(duì)位置和形狀以保持超像素的一致性.為了處理視頻中的結(jié)構(gòu)變化,兩種方法都依賴于像素中包含的像素的數(shù)量.前者使用線性假設(shè)預(yù)測(cè)正負(fù)增長(zhǎng),而后者設(shè)置最小和最大閾值以識(shí)別需要終止或分裂的超像素從而控制超像素的大小.
盡管文獻(xiàn)[33-37]的時(shí)間一致性超像素方法可以基于運(yùn)動(dòng)信息跟蹤對(duì)象,但是需要利用光流算法來(lái)估計(jì)每個(gè)超像素的運(yùn)動(dòng)向量.一方面獲取所有像素的稠密光流向量需要高的計(jì)算復(fù)雜度,另一方面上述方法沒(méi)有給出解決遮擋問(wèn)題的有效方案,如表1所示.
表1 時(shí)間一致性超像素方法
Table 1 Temporal superpixels methods
文獻(xiàn)光流時(shí)間一致性遮擋方 法Alex[33]稠密√×利用光流將前一幀的每個(gè)超像素中心映射到下一幀,作為下一幀的初始種子點(diǎn)進(jìn)而執(zhí)行超像素分割Liang[34]稠密√×融合拉普拉斯矩陣來(lái)優(yōu)化PARA算法生成超像素分割,通過(guò)光流傳播種子點(diǎn)來(lái)保持時(shí)間一致性Chang[35]稠密√√使用光流信息初始化超像素的運(yùn)動(dòng)矢量,然后基于雙邊核來(lái)細(xì)化運(yùn)動(dòng)矢量Reso[36]稠密√√執(zhí)行K-means算法來(lái)分配超像素標(biāo)簽,在計(jì)算每個(gè)超像素的平均顏色時(shí)采用時(shí)間滑動(dòng)窗口,該窗口包含過(guò)去幀,未來(lái)幀及當(dāng)前幀Reso[37]稠密√√基于輪廓構(gòu)建EM框架對(duì)超像素邊界處的像素執(zhí)行優(yōu)化,并利用光流信息反向傳播超像素標(biāo)簽來(lái)初始化新幀,同時(shí)傳播超像素的相對(duì)定位和形狀Lee[38]稀疏√√從塊到像素級(jí)別分層次細(xì)化每個(gè)區(qū)域的超像素標(biāo)簽,在每個(gè)級(jí)別,使用代價(jià)函數(shù)強(qiáng)制執(zhí)行輪廓約束Lee[39]稀疏√√通過(guò)相鄰超像素以及目標(biāo)超像素的塊匹配距離構(gòu)造鄰近加權(quán)塊匹配,并使用由顏色,空間,輪廓和時(shí)間一致性項(xiàng)組成的代價(jià)函數(shù)來(lái)約束邊界像素的超像素標(biāo)簽的更新Reso[40]稠密√√使用加權(quán)平均光流傳播整個(gè)超像素來(lái)隨時(shí)間保持超像素分割的形狀,同時(shí)檢測(cè)被遮擋的超像素和被遮擋的圖像區(qū)域
Lee等[38]提出了輪廓約束超像素(CCS)算法,該算法通過(guò)使用光流算法傳送前一幀的超像素標(biāo)簽來(lái)初始化當(dāng)前幀的超像素標(biāo)簽,因而可以一致地標(biāo)記連續(xù)幀中的相同區(qū)域.Lee等首先在規(guī)則網(wǎng)格中初始化超像素區(qū)域,然后從塊級(jí)別到像素級(jí)別分層次地細(xì)化每個(gè)區(qū)域的超像素標(biāo)簽,在每個(gè)級(jí)別,使用成本函數(shù)來(lái)明確地執(zhí)行輪廓約束,如果在它們之間存在對(duì)象輪廓,則兩個(gè)相鄰區(qū)域應(yīng)該屬于不同的超像素.為了使超像素邊界與對(duì)象輪廓兼容,Lee等提出了輪廓模式匹配的概念,并構(gòu)造了包括輪廓約束的目標(biāo)函數(shù).此外,Lee等通過(guò)擴(kuò)展CCS算法生成用于視頻處理的時(shí)間一致性超像素,使用光流傳輸前一幀中的超像素標(biāo)簽來(lái)初始化后續(xù)幀中的超像素標(biāo)簽,然后執(zhí)行時(shí)間一致性超像素標(biāo)記,使超像素在時(shí)間上一致,并與對(duì)象輪廓兼容.
Lee等[39]提出了一種基于鄰近加權(quán)塊匹配(TS-PPM)的時(shí)間一致性超像素算法,該算法通過(guò)考慮相鄰超像素以及目標(biāo)超像素的塊匹配距離構(gòu)造鄰近加權(quán)塊匹配(PPM),來(lái)穩(wěn)健地估計(jì)超像素的運(yùn)動(dòng)矢量.在每幀中,通過(guò)使用PPM運(yùn)動(dòng)向量傳遞前一幀的超像素標(biāo)簽來(lái)初始化當(dāng)前幀的超像素分割,然后基于成本函數(shù)更新邊界像素的超像素標(biāo)簽,該成本函數(shù)由顏色、空間、輪廓和時(shí)間一致性項(xiàng)組成.最后執(zhí)行超像素分割、合并和重新標(biāo)記操作,以規(guī)范超像素尺寸并減少不正確的超像素標(biāo)簽.
盡管文獻(xiàn)[38,39]通過(guò)稀疏地執(zhí)行塊匹配來(lái)估計(jì)每個(gè)超像素的運(yùn)動(dòng)向量降低了計(jì)算復(fù)雜度,但是沒(méi)有有效地解決遮擋問(wèn)題.
Reso等[40]提出了一種處理結(jié)構(gòu)變化的新方法,該方法建立輪廓演化期望最大化框架,利用有效的標(biāo)簽傳播方案來(lái)促進(jìn)超像素形狀的保持及其隨時(shí)間的相對(duì)定位,從而精確地檢測(cè)在超像素傳播到新幀期間的遮擋并去除遮擋邊界.該方法通過(guò)將傳播的超像素的重疊部分分類為被遮擋或遮擋區(qū)域,獲知實(shí)際遮擋邊界所在的位置,這能夠終止被遮擋的超像素并創(chuàng)建新出現(xiàn)的超像素.另外,Reso等通過(guò)對(duì)超像素遮擋區(qū)域的進(jìn)一步優(yōu)化來(lái)提升超像素與視頻場(chǎng)景中存在的光流的一致性.
文獻(xiàn)[40]有效解決了由對(duì)象和自遮擋引起的視頻體中的結(jié)構(gòu)變化問(wèn)題,但其計(jì)算稠密光流向量來(lái)保持超像素時(shí)間一致性的做法增加了計(jì)算復(fù)雜度.
時(shí)間一致性超像素的評(píng)價(jià)是該領(lǐng)域研究的重要內(nèi)容之一,目前衡量算法的評(píng)價(jià)指標(biāo)可大致分為:3D欠分割錯(cuò)誤率指標(biāo)[41]、3D分割準(zhǔn)確度指標(biāo)[41]、邊界召回距離指標(biāo)[35]、緊湊度指標(biāo)[49]、時(shí)間范圍指標(biāo)[35]、標(biāo)簽一致性指標(biāo)[35]、解釋方差指標(biāo)[41]、面積方差指標(biāo)[50].
2.3.1 3D欠分割錯(cuò)誤率(3D UE,3D Undersegmentation Error)
該指標(biāo)首次由文獻(xiàn)[41]提出,是用來(lái)衡量超像素邊界與真值邊界貼合的程度,將真值分割(ground truth,通過(guò)手工分割得到)的面積和有部分與其重疊的所有超像素的并集進(jìn)行比較,分割外超像素的面積越大,分割誤差就越高.形象地說(shuō),它是超像素區(qū)域“溢出”真值區(qū)域邊界的比例.定義如下式所示:
(1)
其中,gm是真值分割,sn是超像素分割結(jié)果,N是超像素總數(shù),sn|sn∩gm≠φ表示超像素分割sn與真值分割gm沒(méi)有重疊,|·|表示分割的數(shù)量.
2.3.2 3D分割準(zhǔn)確度(3D SA,3D Segmentation Accuracy)
該指標(biāo)也是由文獻(xiàn)[41]提出,表示正確標(biāo)記的超像素?cái)?shù)量占真值分割數(shù)量的比例,該指標(biāo)越高說(shuō)明超像素分割與真值分割越接近.定義如下式所示:
(2)
其中,M是真值分割的數(shù)量,Nm表示超像素標(biāo)簽與真值分割標(biāo)簽一致的集合.
2.3.3 邊界召回距離(BRD,Boundary Recall Distance)
文獻(xiàn)[35]提出了邊界召回距離,它用來(lái)衡量真值分割中與下一個(gè)邊界的平均距離.與2DBR[45]不同,BRD不需要用戶選擇固定閾值.對(duì)于每幀k,計(jì)算如下:
(3)
其中,Sb,gr,k和Sb,seg,k分別表示真值分割和超像素分割的邊界像素集合.d(i,j)表示兩個(gè)像素點(diǎn)的歐式距離.
2.3.4 緊湊度(CO,Superpixel Compactness)
文獻(xiàn)[49]中提出使用超像素緊湊度作為基準(zhǔn)指標(biāo),該指標(biāo)用來(lái)衡量超像素的緊密度,它是通過(guò)加權(quán)超像素n的等周商Qn(如文獻(xiàn)[50]中所定義)和相對(duì)超像素大小計(jì)算的,如下所示:
(4)
2.3.5 時(shí)間范圍(TEX,Temporal Extent)
該指標(biāo)在文獻(xiàn)[35]中引入,通過(guò)計(jì)算時(shí)空分割的平均持續(xù)時(shí)間來(lái)評(píng)估隨時(shí)間跟蹤區(qū)域的能力.通過(guò)結(jié)合3DUE或3DSA來(lái)使用此指標(biāo),它提供了一個(gè)合適的度量來(lái)判斷超像素分割在視頻體中顯示的時(shí)間一致性的程度.該指標(biāo)僅描述超像素是否跨越了對(duì)象邊界(真值分割所定義的).但該指標(biāo)完全忽略其時(shí)間一致性或其在對(duì)象邊界內(nèi)的相對(duì)位置,為了評(píng)測(cè)這種類型的時(shí)間一致性,需使用文獻(xiàn)[35]中提出的標(biāo)簽一致性指標(biāo).
2.3.6 標(biāo)簽一致性(Label Consistency)
該指標(biāo)度量超像素流與原圖像移動(dòng)的一致性,并懲罰超像素形狀以及超像素組中的任何時(shí)間不一致性.它利用光流信息將分割幀的超像素標(biāo)簽傳送到下一幀,并確定傳送的標(biāo)簽與算法生成的分割之間的一致像素?cái)?shù).標(biāo)簽一致性表示為一致的像素?cái)?shù)與所有幀上平均每幀的像素總數(shù)之比.
2.3.7 解釋方差(EV,Explained Variation)
文獻(xiàn)[51]提出了EV指標(biāo)來(lái)評(píng)價(jià)超像素分割,它是一種與人無(wú)關(guān)的度量,不易受到標(biāo)注者感知變化的影響.它顯示過(guò)分割作為較低細(xì)節(jié)的表示方式,它如何來(lái)表示原始圖像,文獻(xiàn)[41]首次將其擴(kuò)展到視頻域,計(jì)算方式如下:
(5)
2.3.8 面積方差(VoA,Variance of Area)
文獻(xiàn)[35]指出,超像素應(yīng)是局部的,這樣才是有意義的表示方式,隨著超像素的增大,會(huì)失去代表性.因此,所有幀的超像素大小應(yīng)該大致相等,為了度量這一性質(zhì),文獻(xiàn)[50]提出VoA指標(biāo).對(duì)于第k幀,計(jì)算如下:
(6)
時(shí)間一致性超像素作為新的視頻表示方式,使用更豐富(基于區(qū)域)的特征集,有效地提高了視頻分析和處理任務(wù)的后續(xù)步驟的計(jì)算效率,將視頻用時(shí)間一致性超像素表示已成為計(jì)算機(jī)視覺(jué)領(lǐng)域許多應(yīng)用所依賴的預(yù)處理步驟.
視頻對(duì)象分割視頻分割技術(shù)利用時(shí)間一致性超像素來(lái)獲得時(shí)間相干性信息.文獻(xiàn)[11]首先使用文獻(xiàn)[46]提出的超像素方法將視頻幀分割為時(shí)間一致性超像素,然后將其作為輸入生成視頻分割.超像素的使用大大降低了計(jì)算復(fù)雜度和內(nèi)存使用,使視頻分割算法能夠運(yùn)用到更長(zhǎng)的視頻.文獻(xiàn)[52]提出一種基于超像素的3D時(shí)空?qǐng)D形切割方法,該方法將移動(dòng)對(duì)象分割視為對(duì)時(shí)空域中圖像超像素的分組,以此來(lái)提取移動(dòng)前景對(duì)象.文獻(xiàn)[53]通過(guò)使用譜聚類形成超像素分割來(lái)代替原始像素?cái)?shù)據(jù)進(jìn)行無(wú)監(jiān)督視頻分割,分割的超像素具有的時(shí)間一致性、時(shí)空運(yùn)動(dòng)特征、形狀相似性等特性,能提高算法運(yùn)行性能以及分割質(zhì)量.文獻(xiàn)[54]提出基于譜聚類的視頻對(duì)象分割技術(shù),該技術(shù)擴(kuò)展李等[55]的超像素算法將光流向量包含到特征向量,以得到視頻中每一幀超像素之間的時(shí)空關(guān)系,進(jìn)而執(zhí)行視頻分割.文獻(xiàn)[40]將時(shí)間一致性超像素分割作為基礎(chǔ)分割進(jìn)而執(zhí)行交互式視頻分割,時(shí)間一致性超像素的準(zhǔn)確性以及高效性有利于實(shí)現(xiàn)高質(zhì)量的最終分割結(jié)果且可大大減少用戶等待時(shí)間.文獻(xiàn)[13]提出一種基于時(shí)間一致性超像素視頻表示方式的半監(jiān)督視頻分割方法,該方法利用時(shí)間一致性超像素跨時(shí)間跟蹤同一對(duì)象在不同視頻幀中的相同部分,以此來(lái)為視頻中的運(yùn)動(dòng)對(duì)象構(gòu)造具有一致的運(yùn)動(dòng)模式、相似的外觀和緊密的時(shí)空關(guān)系的超軌跡,進(jìn)而執(zhí)行半監(jiān)督視頻分割.
視頻顯著性檢測(cè)如果將圖像顯著性檢測(cè)技術(shù)獨(dú)立地應(yīng)用于視頻中的每個(gè)幀,則所得到的顯著性圖存在在時(shí)間上不兼容的情況,而時(shí)間一致性超像素來(lái)獲得時(shí)間上兼容的映射.文獻(xiàn)[15]提出一種基于超像素的視頻顯著性檢測(cè)時(shí)空特征模型,該模型基于視頻幀的超像素表示,在超像素級(jí)別和幀級(jí)別分別提取運(yùn)動(dòng)直方圖和顏色直方圖作為局部特征和全局特征.然后,結(jié)合超像素的運(yùn)動(dòng)顯著性和時(shí)間顯著性預(yù)測(cè)及調(diào)整方案來(lái)度量超像素的時(shí)間顯著性,并通過(guò)評(píng)估超像素的全局對(duì)比度和空間稀疏性來(lái)度量超像素的空間顯著性.文獻(xiàn)[16]提出基于超像素級(jí)別軌跡的時(shí)空顯著性檢測(cè)模型,通過(guò)輸入視頻生成的時(shí)間一致性超像素來(lái)得到超像素級(jí)的運(yùn)動(dòng)軌跡,并將其作為初始估計(jì)進(jìn)而執(zhí)行顯著性檢測(cè).文獻(xiàn)[56]針對(duì)運(yùn)動(dòng)復(fù)雜、場(chǎng)景復(fù)雜的無(wú)約束視頻,提出一種時(shí)空顯著性模型,該模型首先對(duì)視頻幀的超像素分割結(jié)果進(jìn)行特征提取,得到運(yùn)動(dòng)直方圖和顏色直方圖并將其作為顯著性度量的特征,然后構(gòu)造超像素級(jí)圖來(lái)測(cè)量超像素的運(yùn)動(dòng)顯著性,進(jìn)而生成時(shí)空顯著性圖.文獻(xiàn)[57]提出一種基于交叉幀元胞自動(dòng)機(jī)的視頻顯著目標(biāo)檢測(cè)方法,該方法用超像素來(lái)表示給定的視頻幀,根據(jù)幀內(nèi)和相鄰幀之間的外觀相似性和時(shí)間相干性來(lái)構(gòu)造顯著性傳播網(wǎng)絡(luò),并通過(guò)外觀特征和運(yùn)動(dòng)特征的融合對(duì)其進(jìn)行初始化,然后利用元胞自動(dòng)機(jī)在超像素之間傳播顯著性來(lái)迭代細(xì)化顯著性圖.文獻(xiàn)[18]提出一種視頻顯著目標(biāo)檢測(cè)模型,該模型以時(shí)間一致性超像素為基礎(chǔ),提取顏色梯度和運(yùn)動(dòng)梯度并以此得到超像素級(jí)的時(shí)空顯著性和時(shí)間一致性信息,進(jìn)而識(shí)別視頻中的顯著區(qū)域.
時(shí)間一致性超像素還可以應(yīng)用在其他視頻處理任務(wù),Cai等[58]將其應(yīng)用到視頻對(duì)象跟蹤,通過(guò)將目標(biāo)分割成幾個(gè)超像素來(lái)利用物體的內(nèi)部幾何結(jié)構(gòu)信息進(jìn)行對(duì)象跟蹤.Yudistira等[59]通過(guò)在運(yùn)動(dòng)空間中引入運(yùn)動(dòng)超像素并跟蹤超像素中心來(lái)獲得時(shí)間信息并將其用于視頻分類和識(shí)別.Gangapure等[60]提出一種適用于實(shí)時(shí)監(jiān)控任務(wù)的基于超像素的因果多傳感器視頻融合算法.
本文介紹了時(shí)間一致性超像素的發(fā)展現(xiàn)狀,對(duì)近年來(lái)具有代表性的方法進(jìn)行了著重分析.時(shí)間一致性超像素是一種良好的視頻表示方式,是視頻處理和計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要預(yù)處理工具.但由于分割場(chǎng)景的復(fù)雜性,現(xiàn)有的時(shí)間一致性超像素還存在一定的局限性,至今尚未出現(xiàn)能兼顧分割質(zhì)量和效率的時(shí)間一致性超像素生成方法.
時(shí)間一致性超像素依賴于超像素,超像素分割質(zhì)量直接影響時(shí)間一致性超像素的分割效果;時(shí)間一致性超像素通過(guò)光流信息來(lái)保持時(shí)間一致性,而當(dāng)視頻中有遮擋時(shí)光流不穩(wěn)定,且稠密光流比較耗時(shí).綜上所述,目前關(guān)于時(shí)間一致性超像素的研究主要包括以下幾個(gè)方面:降低提取光流信息的計(jì)算復(fù)雜度,提高算法效率[38,39];結(jié)合顏色和輪廓信息,提高分割準(zhǔn)確率[39];約束保持超像素形狀,檢測(cè)及去除遮擋[40].未來(lái)的研究可以考慮以下幾點(diǎn):
1)改進(jìn)輪廓特征提取方法.由于輪廓信息用于約束超像素的分割,輪廓信息直接影響分割的準(zhǔn)確性,完整且有效的輪廓信息有助于提升分割準(zhǔn)確性.
2)優(yōu)化光流信息.在視頻的超像素分割過(guò)程中,依靠光流信息來(lái)估計(jì)像素的運(yùn)動(dòng).將視頻看成一個(gè)整體,考慮視頻的所有幀,生成視頻的整體光流圖,可以更準(zhǔn)確的估計(jì)像素運(yùn)動(dòng)矢量.
3)完善評(píng)測(cè)指標(biāo).視頻超像素的分割結(jié)果要兼顧準(zhǔn)確性和時(shí)間一致性.現(xiàn)有的評(píng)測(cè)指標(biāo)大多針對(duì)分割準(zhǔn)確性,而準(zhǔn)確性高的分割,其時(shí)間一致性不一定高.進(jìn)一步研究像素運(yùn)動(dòng)矢量,提出更加準(zhǔn)確的時(shí)間一致性測(cè)評(píng)指標(biāo).
4)擴(kuò)展視頻超像素的應(yīng)用范圍.現(xiàn)有的方法具有各自的優(yōu)勢(shì)與不足,可針對(duì)特定問(wèn)題,選擇合適方法達(dá)到最優(yōu)效果.