亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于魯棒高階條件隨機(jī)場(chǎng)的視頻自動(dòng)分割

2015-08-22 08:18:41程婷婷郭立君黃元捷

計(jì)算機(jī)工程 2015年7期

關(guān)鍵詞：高階前景分類器

程婷婷，郭立君，黃元捷

（寧波大學(xué)信息科學(xué)與工程學(xué)院，浙江寧波315211）

·圖形圖像處理·

基于魯棒高階條件隨機(jī)場(chǎng)的視頻自動(dòng)分割

程婷婷，郭立君，黃元捷

（寧波大學(xué)信息科學(xué)與工程學(xué)院，浙江寧波315211）

針對(duì)交互式分割方法存在用戶標(biāo)注繁瑣和過分割現(xiàn)象，以及僅考慮二元項(xiàng)不能獲得圖像中準(zhǔn)確的物體邊界等問題，結(jié)合魯棒高階條件隨機(jī)場(chǎng)，提出一種視頻自動(dòng)分割方法。采用基于超像素顯著性特征的分割方法對(duì)視頻初始幀進(jìn)行自動(dòng)分割，其結(jié)果作為初始化種子建立模型。根據(jù)顏色信息設(shè)計(jì)高斯混合模型，基于紋理、形狀等特征，利用聯(lián)合Boosting算法訓(xùn)練Jointboost強(qiáng)分類器模型，通過條件隨機(jī)場(chǎng)提高分割準(zhǔn)確度。引入基于超立體像素的高階項(xiàng)，增加像素與區(qū)域的關(guān)聯(lián)，提高分割邊界的平滑度。實(shí)驗(yàn)結(jié)果表明，該方法明顯地提高了分割效果。

視頻自動(dòng)分割；高階勢(shì)；超立體像素；條件隨機(jī)場(chǎng)；雙模型融合；特征融合

中文引用格式：程婷婷，郭立君，黃元捷.基于魯棒高階條件隨機(jī)場(chǎng)的視頻自動(dòng)分割［J］.計(jì)算機(jī)工程，2015，41（7）：261?268.

英文引用格式：Cheng Tingting，Guo Lijun，Huang Yuanjie.Automatic Video Segmentation Based on Robust Higher Order Conditional Random Field［J］.Computer Engineering，2015，41（7）：261?268.

1 概述

視頻分割在計(jì)算機(jī)視覺領(lǐng)域具有廣泛應(yīng)用，包括目標(biāo)檢索、視頻壓縮、智能監(jiān)控等。近年來，視頻分割迅速發(fā)展，主要分為交互式分割［1?4］和自動(dòng)分割［5?7］。前者一般指根據(jù)用戶手動(dòng)標(biāo)記的若干前景和背景像素建立模型以實(shí)現(xiàn)分割的方法，后者主要指基于時(shí)空特征聚類的分割方法和自動(dòng)獲取關(guān)鍵對(duì)象的分割方法。

本文提出一種基于高階條件隨機(jī)場(chǎng)（Conditional Random Field，CRF）的視頻前景對(duì)象自動(dòng)分割方法。針對(duì)自動(dòng)提取主要對(duì)象的分割方法時(shí)間復(fù)雜度高和無法在線分割的問題，采用基于超像素顯著性特征的分割方法對(duì)視頻初始幀進(jìn)行自動(dòng)分割。初始幀分割結(jié)果只包含前景和背景兩類，避免了過分割現(xiàn)象，令其作為種子點(diǎn)訓(xùn)練概率模型，考慮到前景和背景顏色相近時(shí)，在顏色特征基礎(chǔ)上增加局部特征能有效提高分割精度，在使用混合高斯模型描述顏色分布的同時(shí)，增加基于局部二值模式（Local Binary Pattern，LBP）、局部特征texton和尺度不變特征變換（Scale Invariant Feature Transform，SIFT）的Jointboost分類器，利用上述雙模型聯(lián)合驗(yàn)證前景和背景種子點(diǎn)，并將雙模型融入條件隨機(jī)場(chǎng)框架中的一元能量函數(shù)。在條件隨機(jī)場(chǎng)中加入高階勢(shì)能，增加像素和超立體像素的時(shí)空約束關(guān)系，以提高分割邊界準(zhǔn)確度。

2 背景介紹

在交互式分割領(lǐng)域，文獻(xiàn)［8］最早將圖割算法用于灰度圖像前景提取。該算法首先需用戶手動(dòng)標(biāo)注一部分像素作為前景和背景，然后在滿足手動(dòng)標(biāo)注限制的條件下尋找最優(yōu)解以實(shí)現(xiàn)分割。文獻(xiàn)［9］利用混合高斯模型分別對(duì)彩色圖像前景和背景像素的顏色特征建模，該概率模型用于計(jì)算能量函數(shù)中的一元項(xiàng)，根據(jù)鄰域系統(tǒng)中每對(duì)像素空間和顏色的混合距離，計(jì)算能量函數(shù)中的二元項(xiàng)以平滑分割邊界。文獻(xiàn)［10］在提出Grabcut方法，該方法總體上仍基于圖割算法和混合高斯模型框架，區(qū)別在于用戶交互時(shí)增加一個(gè)矩形框，并通過迭代圖割方式達(dá)到能量函數(shù)最小。以上算法只考慮了像素的顏色特征而忽略了其他特征，如紋理、形狀等。文獻(xiàn)［11］在圖像中增加紋理通道，建立基于顏色和紋理特征的混合高斯模型，并在計(jì)算能量函數(shù)二元項(xiàng)時(shí)加入結(jié)構(gòu)張量以有效利用紋理特征。但上述方法均需用戶交互，甚至在分割不準(zhǔn)確的情況下需再次交互以得到準(zhǔn)確分割，這不僅增加了交互負(fù)擔(dān)，而且前景和背景模型的建立對(duì)用戶標(biāo)記的差異敏感，所以傳統(tǒng)的交互式圖像分割方法只適用于以編輯為目的的視頻應(yīng)用，并不適用于以自動(dòng)分割為基礎(chǔ)的其他視頻應(yīng)用。

出于應(yīng)用的考慮，視頻自動(dòng)分割技術(shù)得到重視，出現(xiàn)了基于時(shí)空特征一致性的視頻自動(dòng)分割方法［12?13］，其主旨為令光亮和運(yùn)動(dòng)一致的像素組合使其成為立體區(qū)域，但在前景和背景無明顯界限時(shí)，視頻幀中前景對(duì)象被分割成多個(gè)區(qū)域，出現(xiàn)過分割問題。最近出現(xiàn)的基于對(duì)象性檢測(cè)的自動(dòng)視頻分割方法解決了過分割問題，文獻(xiàn)［6］使用譜聚類的方法從視頻相鄰幀的對(duì)象假設(shè)中檢測(cè)出主要對(duì)象作為先驗(yàn)，但其缺乏相鄰幀的對(duì)象形狀預(yù)測(cè)，所以不能準(zhǔn)確地分割快速移動(dòng)的對(duì)象。而文獻(xiàn)［5］采用有向無環(huán)圖從視頻幀的所有對(duì)象假設(shè)中提取主要對(duì)象并通過光流預(yù)測(cè)對(duì)象的形狀，從而能夠處理快速移動(dòng)對(duì)象，但該方法提取視頻所有幀中對(duì)象假設(shè)的過程非常耗時(shí)，使得整個(gè)算法的時(shí)間復(fù)雜度很高，另外，提取主要對(duì)象涉及整個(gè)視頻從而無法在線分割。

3 先驗(yàn)信息初始化

建立前景和背景概率模型時(shí)需要種子點(diǎn)作為初始化信息。針對(duì)圖 1（a）所示的原始圖，使用SLIC［14］方法對(duì)初始幀進(jìn)行無監(jiān)督分割，獲得如圖1（b）所示的超像素。假定圖像中只有二類對(duì)象（前景和背景），并設(shè)定其模型為基于顯著性特征的有參函數(shù)Rf和Rb，根據(jù)每個(gè)超像素的得分給予前景或背景的標(biāo)號(hào)，通過模型更新和超像素標(biāo)號(hào)2個(gè)子過程迭代優(yōu)化，取所有超像素標(biāo)號(hào)劃分中得分最大的組合作為分割結(jié)果。最終得到如圖1（c）所示的前景和背景粗分割，將其作為初始化先驗(yàn)信息。由于初始化信息中包含分割錯(cuò)誤的前景和背景像素，因此需使用概率模型迭代優(yōu)化以提高分割精度。

圖1 初始化示意圖

4 高階CRF結(jié)構(gòu)

分割問題常被視為隨機(jī)場(chǎng)中像素標(biāo)記問題，即為圖像中像素配置適當(dāng)?shù)臉?biāo)簽使得隨機(jī)場(chǎng)的后驗(yàn)概率最大。本文將視頻分割理解為CRF中二值標(biāo)記問題，假設(shè)｛f1，f2，…，ft，…，fn｝是視頻幀序列，條件隨機(jī)場(chǎng)X由頂點(diǎn) V ＝｛x1，x2，…，xN｝、鄰域系統(tǒng) ε和子團(tuán)（clique）C組成。頂點(diǎn)為取值范圍L＝｛0，1｝的隨機(jī)變量，0代表背景，1代表前景，鄰域系統(tǒng)由所有像素在同一幀的8鄰域組成，子團(tuán)由超立體像素S構(gòu)成。

根據(jù)Hammersley Clifford隨機(jī)場(chǎng)定理可知，馬爾科夫隨機(jī)場(chǎng)的后驗(yàn)概率分布即為Gbbis分布：

而條件隨機(jī)場(chǎng)［15］本質(zhì)上是給定了觀察值集合的馬爾科夫隨機(jī)場(chǎng)，解決了其他判別式模型難以避免的標(biāo)記偏置問題。

4.1 CRF中的一元項(xiàng)

視頻分割中顏色是一項(xiàng)重要的特征，本文運(yùn)用混合高斯模型描述像素的RGB顏色分布?？紤]到前景和背景顏色相近時(shí)，增加局部特征texton、LBP和SIFT能有效提高分割精度，故基于這些局部特征訓(xùn)練一個(gè)Jointboost分類器。針對(duì)不同視頻圖像，將上述雙模型以不同的權(quán)重結(jié)合計(jì)算一元項(xiàng)。

4.1.1 基于局部特征的Jointboost分類器

本文采用一種改進(jìn)型的聯(lián)合 Boosting算法［16］學(xué)習(xí)一個(gè)二類強(qiáng)分類器。選取的特征包括：（1）用于學(xué)習(xí)視頻圖像形狀上下文信息的 texton特征［17］；（2）用于處理對(duì)象尺度和旋轉(zhuǎn)變化的 SIFT特征；（3）用于描述紋理信息的LBP特征。圖2即為這些特征的映射圖。

圖2 特征映射圖

聯(lián)合Boosting算法在每次迭代r中找到一個(gè)最佳弱分類器hr（li），R個(gè)弱分類器疊加形成強(qiáng)分類器，其形式如下：

其中，每個(gè)弱分類器是一個(gè)決策樹樁。

其中，δ（·）是取值為{0，1}的指示函數(shù)；S（N）是N的子集；是像素 i的特征值；θ為閾值。利用softmax轉(zhuǎn)換方法，將式（3）變成概率形式：

因此關(guān)于texton，LBP和SIFT特征的勢(shì)能方程為：

4.1.2 混合高斯模型

文獻(xiàn)［5?6，9］均使用高斯混合模型（GMM）描述像素RGB顏色空間分布，可見GMM能有效地描述顏色特征并具有判別性。本文根據(jù)初始化種子像素的顏色特征，分別建立前景高斯混合模型和背景高斯混合模型。定義 PGMM（xi）為像素 xi屬于前景（xi＝1）或背景（xi＝0）的概率，一元項(xiàng)中采用該模型的負(fù)對(duì)數(shù)形式：

在不同視頻圖像中以上2個(gè)模型重要性有差異，因此設(shè)置參數(shù)α（0＜α＜1）控制其權(quán)重，在CRF中一元項(xiàng)的形式為：

在本文實(shí)驗(yàn)中設(shè)置α＝0.3時(shí)，使得顏色特征權(quán)重大于形狀、紋理特征，其分割效果最佳。

在CRF結(jié)構(gòu)中，根據(jù)先驗(yàn)信息得到的概率模型作為一元項(xiàng)初始化，結(jié)合下文的二元項(xiàng)和高階項(xiàng)，使用迭代圖割方法更新模型，直至能量函數(shù)最小。

在圖3中，像素亮度越大表示屬于前景概率越大，可以看出模型結(jié)合后前景分割更準(zhǔn)確。

圖3 概率映射圖

4.2 CRF中的二元項(xiàng)

在CRF能量函數(shù)中二元項(xiàng)的作用是去除鋸齒、平滑邊界。在基于圖割的分割方法中，二元項(xiàng)作用于相鄰像素促進(jìn)邊界平滑，其形式如下：

其中，第1項(xiàng)是二值函數(shù)，當(dāng)li≠lj時(shí)為1，反之為0，li≠lj表示像素xi，xj在分割邊界上；函數(shù)dist（）用來度量像素 xi，xj的歐式距離；是二范式，計(jì)算相鄰像素顏色差異；參數(shù)β控制分割邊界平滑性與準(zhǔn)確度，可用如下公式計(jì)算：

其中，EP（）是相關(guān)數(shù)據(jù)的期望函數(shù)。

4.3 CRF中的高階項(xiàng)

考慮到條件隨機(jī)場(chǎng)中二階項(xiàng)在提高分割精度的同時(shí)導(dǎo)致過平滑現(xiàn)象，引入高階項(xiàng)，通過增加像素與所屬區(qū)域約束關(guān)系以緩解二元項(xiàng)帶來的負(fù)面影響。

本文將高階項(xiàng)建立在時(shí)空一致的超立體像素上，實(shí)現(xiàn)視頻分割中時(shí)空邊界一致性。假設(shè)超立體像素具備2個(gè)屬性：（1）每個(gè)supervoxel只屬于一個(gè)對(duì)象；（2）每個(gè)supervoxel時(shí)空邊界一致。首先使用streamGBH算法［18］對(duì)視頻進(jìn)行分割，獲得如圖4所示時(shí)空邊界一致的超立體像素，然后創(chuàng)建高階項(xiàng)約束超立體像素，使其內(nèi)部像素標(biāo)注保持一致。

圖4 視頻超立體像素

高階項(xiàng)最初是以Potts模型引入計(jì)算機(jī)視覺。圖像分割時(shí)在能量函數(shù)中增加高階勢(shì)能的作用是促使子團(tuán)里所有像素標(biāo)注一致，其形式如下：其中，表示子團(tuán)c中像素個(gè)數(shù)，在本文中使用圖4所示的超立體像素s作為子團(tuán)，式（11）表明只有s中所有像素標(biāo)注一樣時(shí)高階項(xiàng)為0，反之為。盡管這樣可以促使標(biāo)注一致，但式（11）太過嚴(yán)格與苛刻，假設(shè) s中含有像素｛x1，x2，x3，x4，x5，x6，x7｝，在標(biāo)注分別為｛1，1，1，1，1，0，1｝和｛1，0，1，0，1，0，1｝的情況下，其代價(jià)函數(shù)是一樣的。當(dāng)視頻聚類后獲得的超立體像素屬于不同對(duì)象或者時(shí)空邊界不一致時(shí)，采用式（11）的高階勢(shì)函數(shù)作為像素和超立體像素間的標(biāo)注約束將導(dǎo)致分割邊界錯(cuò)誤。為緩解這一問題，本文采用魯棒的Potts模型［19］，其定義如下：

基于魯棒的Potts模型和原始的Potts模型的高階項(xiàng)均促使超立體像素中像素標(biāo)注一致，但前者允許一部分像素的標(biāo)注和超立體像素的主要標(biāo)注不一致，其高階勢(shì)函數(shù)和標(biāo)注不一致的像素個(gè)數(shù)成線性關(guān)系，而后者只要出現(xiàn)一個(gè)像素的標(biāo)注和主要標(biāo)注不一致將給予最大代價(jià)值，實(shí)驗(yàn)表明，魯棒的Potts模型能有效改善分割邊界。

因此高階條件隨機(jī)場(chǎng)框架中每幀的能量函數(shù)為以下形式：

4.4 抗噪性分析

在CRF能量函數(shù)中一元項(xiàng)是最為關(guān)鍵的一項(xiàng)，本文訓(xùn)練雙模型以計(jì)算一元項(xiàng)，其中基于 texton，LBP，SIFT特征訓(xùn)練Jointboost分類器，而SIFT特征對(duì)旋轉(zhuǎn)、尺度變換、噪聲保持一定的穩(wěn)定性。另外，在CRF中引入基于超立體像素的高階項(xiàng)，使得圖像分割不僅與其像素特征相關(guān)，而且與其所屬超立體像素相關(guān)，增加了像素與時(shí)空鄰域像素的約束關(guān)系，提高了本文方法的抗噪性。圖5（a）為加入密度為0.02椒鹽噪聲的圖像，圖5（b）是本文方法的分割結(jié)果，圖5（c）是經(jīng)濾波處理后的圖像，而圖5（d）為濾波處理后本文方法的分割結(jié)果，通過圖5（b）和圖5（d）對(duì)比可知，本文方法對(duì)存在噪聲污染的圖像分割具有抑制噪聲的能力，而且抑制效果比通過濾波預(yù)處理更佳。

圖5 椒鹽噪聲圖像及分割結(jié)果

5 實(shí)驗(yàn)結(jié)果與分析

本文以Visual Studio 2012與OpenCV 2.43為開發(fā)平臺(tái)，在CPU為Intel Corei3?2130 3.40 GHz，內(nèi)存為4 GB的計(jì)算機(jī)上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)所用數(shù)據(jù)庫(kù)為來自文獻(xiàn)［20］的5個(gè)視頻序列和公開的SegTrack［21］數(shù)據(jù)庫(kù)中g(shù)irl和parachute視頻。圖6分別為文獻(xiàn)［20］中5個(gè)視頻序列（名稱分別為 AN119T，DO01013，DO01030，DO01014，DO02001）的初始幀圖像及其初始化結(jié)果，每個(gè)視頻序列中包含至少一個(gè)前景對(duì)象。

這5個(gè)視頻序列的分割難點(diǎn)分別在于：AN119T中牛在行進(jìn)過程中頭部鉆入草叢引起的遮擋問題，DO01013中多匹馬多前景對(duì)象問題，DO01030中向日葵復(fù)雜的邊緣，DO010014中狐貍的影子，DO02001中滑雪人的快速移動(dòng)。

為驗(yàn)證本文方法中模型的融合作用以及CRF中高階項(xiàng)的作用，首先在5個(gè)視頻序列的實(shí)驗(yàn)中分別比較了基于單模型的CRF方法（包括單獨(dú)應(yīng)用GMM模型的CRF_GMM方法、單獨(dú)應(yīng)用Jointboost分類器模型的CRF_Boost方法），雙模型融合的CRF方法（CRF_GMM_Boost）以及本文提出的雙模型融合加高階項(xiàng)的方法。表1給出了上述4個(gè)方法在5個(gè)視頻序列上分割結(jié)果，圖像分辨率為352×288像素。表中使用平均錯(cuò)誤像素?cái)?shù)avg_err和錯(cuò)誤像素率err_rate的方法衡量分割精確度，其計(jì)算方式如下：

其中，fi表示第i幀圖像分割結(jié)果；XOR為異或操作；GT為第i幀的地面情況；n是視頻總幀數(shù)；resolution指圖像的分辨率。

從表1可以看出，雖然在DO01014視頻中不含高階項(xiàng)的方法效果更佳，但在AN119T，DO01013，DO01030和DO02001視頻序列中本文方法的平均錯(cuò)誤像素?cái)?shù)均低于不含高階項(xiàng)的方法，這表明高階項(xiàng)能有效提高分割準(zhǔn)確度。此外前2種方法的平均錯(cuò)誤像素?cái)?shù)均少后2種方法，這表明同時(shí)考慮顏色、紋理和 SIFT特征的模型能顯著改善分割結(jié)果。

表1 錯(cuò)誤像素?cái)?shù)量和錯(cuò)誤率統(tǒng)計(jì)

為進(jìn)一步驗(yàn)證本文方法的分割效果，實(shí)驗(yàn)中還將本文方法和其他相近的方法進(jìn)行比較，包括Textonboost［17］，ALE方法［19］和 Akamine方法［20］。為了公平對(duì)比，Textonboost和ALE方法均為條件隨機(jī)場(chǎng)框架下的分割方法，采用和本文同樣的自動(dòng)化方法獲得初始化信息。而Akamine的方法［20］是基于顯著性特征獲得初始化先驗(yàn)。表2為本文方法與上述3種方法在5個(gè)視頻序列中的定量對(duì)比結(jié)果。從中可以看出，本文方法的錯(cuò)誤率均低于Akamine方法［20］、ALE［19］和 Textonboost［17］。圖7為使用本文方法的視頻分割效果圖，提取的牛、馬和向日葵等前景皆更準(zhǔn)確。

表2 定量分析結(jié)果對(duì)比 %

圖7 本文方法分割結(jié)果

本文還在公開數(shù)據(jù)庫(kù)SegTrack上測(cè)試本文方法的有效性，并與其他最新的有監(jiān)督［21，23］和無監(jiān)督［5?6，22］分割方法做定量對(duì)比實(shí)驗(yàn)。圖8顯示了本文方法的分割結(jié)果。表3為各種方法的定量分析對(duì)比，其中，girl視頻中本文的分割結(jié)果優(yōu)于其他方法的結(jié)果，而在parachute視頻中文獻(xiàn)方法［6］的結(jié)果最優(yōu)，這是因?yàn)楸疚姆椒ㄌ幚砉庹兆兓囊曨l分割存在一定的局限性。

圖8 本文方法在SegTrack數(shù)據(jù)庫(kù)中的分割結(jié)果

表3 各種方法在SegTrack數(shù)據(jù)集上的錯(cuò)誤像素對(duì)比

本文采用圖割算法求解CRF中能量函數(shù)最小，其時(shí)間復(fù)雜度為O（mn2），n和m分別為圖中頂點(diǎn)數(shù)和邊數(shù)，分別對(duì)應(yīng)CRF中隨機(jī)變量數(shù)和隨機(jī)變量間相關(guān)邊數(shù)。表4統(tǒng)計(jì)了實(shí)驗(yàn)中每個(gè)視頻分割所用的總時(shí)間，各視頻總幀數(shù)和分辨率存在差異，故所用時(shí)間也存在差異。

表4 各視頻分割時(shí)間統(tǒng)計(jì)

6 結(jié)束語(yǔ)

本文提出一種基于魯棒高階條件隨機(jī)場(chǎng)的雙模型視頻自動(dòng)分割方法。通過基于超像素顯著性特征的方法分割視頻初始幀以獲得初始化先驗(yàn)信息。根據(jù)初始幀圖像的texton，LBP和SIFT特征使用聯(lián)合Boosting算法訓(xùn)練一個(gè)強(qiáng)分類器模型，同時(shí)基于像素的RGB顏色信息學(xué)習(xí)GMM模型，使用雙模型聯(lián)合計(jì)算CRF中能量函數(shù)的一元項(xiàng)，并在CRF中加入基于超立體像素的高階項(xiàng)，最后使用迭代圖割算法使得高階CRF中的能量函數(shù)達(dá)到最小。在與同類方法的對(duì)比實(shí)驗(yàn)中驗(yàn)證了本文方法在分割準(zhǔn)確性方面的優(yōu)勢(shì)。在未來的工作中，可以研究將本文中的前景和背景分割擴(kuò)展到語(yǔ)義分割，進(jìn)而為視頻場(chǎng)景分析打下基礎(chǔ)。

［1］ Price B L，Morse B S，Coheb S.LIVEcut：Learning?based Interactive Video Segmentation by Evaluation of Multiple Propagated Cues［C］／／Proceedings of International Conference on Computer Vision.Washington D.C.，USA：IEEE Press，2009：779?786.

［2］ Bai Xue，Wang Jue，Simons D，et al.Video SnapCut：Robust Video Object Cutout Using Localized Classifiers［J］.ACM Transactions on Graphics，2009，28（3）：1?11.

［3］ Zhong Fan，Qin Xueying，Peng Qunsheng，et al.Discontinuity?aware Video Object Cutout［J］.ACM Transactions on Graphics，2012，31（6）：1?10.

［4］吳琳，李海燕.面向生物醫(yī)學(xué)圖像的交互式分割算法［J］.計(jì)算機(jī)工程，2010，36（16）：208?209，212.

［5］ Zhang Dong，Javed O， Shah M.Video Object Segmentation Through Spatially Accurate and Temporally Dense Extraction of Primary Object Regions［C］／／Proceedings of Conference on Computer Vision and Pattern Recognition.Washington D.C.，USA：IEEE Press，2013：628?635.

［6］ Lee Y J，Kim J，Grauman K.Key?segments for Video Object Segmentation［C］／／Proceedings of International Conference on Computer Vision.Washington D.C.，USA：IEEE Press，2011：1995?2002.

［7］郭寶龍，侯葉.基于圖切割的圖像自動(dòng)分割方法［J］.模式識(shí)別與人工智能，2011，24（5）：604?609.

［8］ Boykov Y Y，Jolly M P.Interactive Graph Cuts for Optimal Boundary and Region Segmentation of Objects in ND Images［C］／／Proceedings of International Conference on Computer Vision.Washington D.C.，USA：IEEE Press，2001：105?112.

［9］ Blake A，Rother C，Brown M，et al.Interactive Image Segmentation Using an Adaptive GMMRF Model［M］.Berlin，Germany：Springer，2004.

［10］ Rother C，Kolmogorov V，Blake A.Grabcut：Interactive Foreground Extraction Using Iterated Graph Cuts［J］.ACM Transactions on Graphics，2004，23（3）：309?314.

［11］ Zhou Hailing，Zheng Jianm in，Wei Lei.Texture Aware Image Segmentation Using Graph Cuts and Active Contours［J］.Pattern Recognition，2013，46（6）：1719?1733.

［12］ Cheng Hsien?Ting， Ahuja N.Exploiting Nonlocal Spatiotemporal Structure for Video Segmentation［C］／／Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.，USA：IEEE Press，2012：741?748.

［13］ Lezama J，Alahari K，Sivic J，et al.Track to the Future：Spatio?temporal Video Segmentation with Long?range Motion Cues［C］／／Proceedings of Conference on Com?puter Vision and Pattern Recognition.Washington D.C.，USA：IEEE Press，2011：20?25.

［14］ Achanta R，Shaji A，Smith K，et al.SLIC Superpixels Compared to State?of?the?Art Superpixel Methods［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，34（11）：2274?2282.

［15］ Lafferty J，Mccallum A.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data［C］／／Proceedings of the 18th Inter?national Conference on Machine Learning.San Francisco，CA，USA：Morgan Kaufmann，2001：282?289.

［16］ Torralba A，Murphy K P，F(xiàn)reeman W T.Sharing Features：Efficient Boosting Procedures for Multiclass Object Detection［C］／／Proceedings of Conference on Computer Vision and Pattern Recognition.Washington，D.C.，USA：IEEE Press，2004：762?769.

［17］ Shotton J，W inn J，Rother C，et al.Textonboost：Joint Appearance，Shape and ContextModeling for Multi?class Object Recognition and Segmentation［M］.Berlin，Germany：Springer，2006.

［18］ Xu Chenliang，Xiong Caim ing，Corso J J.Stream ing Hierarchical Video Segmentation［M］.Berlin，Germany：Springer，2012.

［19］ Kohli P，Torr P H.Robust Higher Order Potentials for Enforcing Label Consistency［J］.International Journal of Computer Vision，2009，82（3）：302?324.

［20］ Akam ine K，F(xiàn)ukuchi K，Kimura A，et al.Fully Automatic Extraction of Salient Objects from Videos in Near Real Time［J］.The Computer Journal，2012，55（1）：3?14.

［21］ Tsai D，F(xiàn)lagg M，Rehg JM.Motion Coherent Tracking w ith Multi?label MRF Optim ization［J］.International Journal of Computer Vision，2012，100（2）：190?202.

［22］ Ma Tianyang，Latecki L J.Maximum Weight Cliquesw ith Mutex Constraints for Video Object Segmentation［C］／／Proceedings of Conference on Computer Vision and Pattern Recognition.Washington D.C.，USA：IEEE Press，2012：670?677.

［23］ Chockalingam P，Pradeep N，BitchfieldI S.Adaptive Fragments?based Tracking of Non?rigid Objects Using Level Sets［C］／／Proceedings of International Conference on Computer Vision.Washington D.C.，USA：IEEE Press，2009：1530?1537.

編輯顧逸斐

Automatic Video Segmentation Based on Robust Higher Order Conditional Random Field

CHENG Tingting，GUO Lijun，HUANG Yuanjie
（College of Information Science and Engineering，Ningbo University，Ningbo 315211，China）

This paper presents an automatic video segmentation method based on robust higher order Conditional Random Field（CRF），which alleviates the problem that interactive segmentation is time?consum ing and labor?intensive，and oversegmentation is generated in unsupervised segmentation，and simple pairw ise?pixel segmentation cannot get accurate boundary.It utilizes the saliency based segmentation of the first frame of video as initial seeds instead of user labeling.The Gaussian m ixturemodel and a strong jointboost classifier model are respectively learned on the features of color，texture and shape，the combination of both in CRF improves the accuracy of segmentation.It adds higher order potential based on supervoxel to solve the shortcom ing of oversmoothing of pairw ise?pixel segmentation.Experimental results demonstrate that themethod ismore effective and efficient than the state?of?artmethods.

automatic video segmentation；higher order potential；supervoxel；Conditional Random Field（CRF）；double model fusion；feature fusion

1000?3428（2015）07?0261?08

TP391

10.3969／j.issn.1000?3428.2015.07.050

國(guó)家自然科學(xué)基金資助項(xiàng)目（61175026）；寧波市自然科學(xué)基金資助項(xiàng)目（2014A610031，2014A610032）；“信息與通信工程”浙江省重中之重學(xué)科開放基金資助項(xiàng)目（xkxl1426）；寧波大學(xué)胡嵐優(yōu)秀博士基金資助項(xiàng)目（ZX2013000319）；寧波大學(xué)人才工程基金資助項(xiàng)目（20111537）。

程婷婷（1989-），女，碩士，主研方向：計(jì)算機(jī)視覺；郭立君，副教授、博士；黃元捷，碩士。

2015?01?04

2015?02?19E?mail：guolijun＠nbu.edu.cn