摘要:本文研究了一種基于CRF的判別模型來學(xué)習(xí)不同類別標(biāo)簽的后驗(yàn)條件概率分布,并通過最大化該后驗(yàn)概率來得到最佳標(biāo)簽。CRF能量函數(shù)紋理模塊利用形狀濾波器來描述圖像的底層紋理特征以及基于周圍像素紋理特征的上下文信息;采用Joint-boosting算法迭代構(gòu)造一個(gè)強(qiáng)分類器對(duì)圖像進(jìn)行初步的標(biāo)注。在MRSC 21-object class數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來評(píng)估我們建立的模型的性能。實(shí)驗(yàn)結(jié)果表明,該模型基于像素點(diǎn)的分割精度能達(dá)到71.6%,在識(shí)別準(zhǔn)確率以及分割效果方面,具有較強(qiáng)的競(jìng)爭(zhēng)力。
關(guān)鍵詞:語(yǔ)義分割;條件隨機(jī)場(chǎng);分段訓(xùn)練
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 09-0000-03
一、引言
近些年,關(guān)于對(duì)象識(shí)別與分割的領(lǐng)域相當(dāng)活躍。CRF模型是一種基于無向圖的概率模型,用來對(duì)序列數(shù)據(jù)進(jìn)行標(biāo)記,具有很強(qiáng)的概率推理能力。與經(jīng)典的馬爾可夫隨機(jī)場(chǎng)模型(MRF)相比,CRF模型主要有兩個(gè)優(yōu)點(diǎn):第一,對(duì)觀測(cè)序列沒有獨(dú)立性要求;第二,能對(duì)長(zhǎng)間隔序列的復(fù)雜上下文關(guān)系進(jìn)行描述。因此在本文中我們使用CRF模型來解決多類對(duì)象的識(shí)別與分割問題。我們的實(shí)驗(yàn)是在MSRC 21-object class數(shù)據(jù)集上完成的。該數(shù)據(jù)集由分屬于21類對(duì)象(包括:建筑物、草地、樹、牛、羊、天空、花、標(biāo)志、鳥、書、椅子、路、貓、狗等)的591張圖像組成。我們?cè)跀?shù)據(jù)庫(kù)隨機(jī)地選取45%的圖像作為訓(xùn)練集,10%的圖像作為驗(yàn)證集,10%的圖像作為測(cè)試集。
二、基于條件隨機(jī)場(chǎng)的多特征模型
給定一幅圖像,我們使用CRF模型來學(xué)習(xí)類別標(biāo)簽的條件分布。使用CRF我們能將形狀、紋理、顏色、位置和邊緣信息結(jié)合在整個(gè)的模型里。為了計(jì)算方便,我們對(duì)公式兩邊同時(shí)取對(duì)數(shù):
其中 表示紋理模塊, 表示顏色模塊, 表示位置模塊, 表示邊緣模塊, 是對(duì)應(yīng)于各部分的參數(shù)集。
(一)模塊描述與參數(shù)訓(xùn)練
該模型綜合考慮紋理、邊緣、顏色、位置四個(gè)特征,采用分段訓(xùn)練[11]的方法對(duì)模型中各模塊的參數(shù)進(jìn)行單獨(dú)的學(xué)習(xí),我們通過為各個(gè)模塊設(shè)置固定的權(quán)值來減輕各模塊組合構(gòu)成整個(gè)模型時(shí)出現(xiàn)的過擬合的問題。在本文中,我們?yōu)槲恢煤皖伾K增加了權(quán)值參數(shù),并且對(duì)它們分別進(jìn)行優(yōu)化。
1.紋理模塊
在本文中,紋理特征使用一種新穎的描述方法——形狀濾波器來描述像素點(diǎn)的底層紋理特征以及周圍像素點(diǎn)的基于紋理上下文信息,并對(duì)基于該特征的多個(gè)弱分類器通過Joint-boosting算法得到一個(gè)強(qiáng)分類器。紋理模塊作為單獨(dú)的一元模塊進(jìn)行處理。紋理模塊的特征函數(shù)描述如下:
其中參數(shù)集的定義以及學(xué)習(xí)過程在第三節(jié)將會(huì)有詳細(xì)描述。
2.邊緣模塊
在本文中,我們使用Potts模型來對(duì)邊緣特征建模。邊緣模塊的函數(shù)表達(dá)為:
其中, 是邊緣特征的特征函數(shù),用來描述相鄰像素間顏色值的差異。
通過在整數(shù)集中人工將兩個(gè)相關(guān)參數(shù)進(jìn)行比對(duì)并選擇的方法,以使在驗(yàn)證集上的錯(cuò)誤率盡可能低來獲得,在本實(shí)驗(yàn)中,取 。
3.顏色模塊
在本文中,使用混合高斯模型(HMM)對(duì)顏色特征進(jìn)行建模,采用EM算法將圖像中顏色特征近似的像素點(diǎn)聚類為 個(gè)高斯部分。像素點(diǎn) 的顏色特征的條件概率由下式給出:
其中, 是用來表示像素點(diǎn) 所屬高斯部分的隨機(jī)變量, 與Σk分別是第 個(gè)高斯部分的均值與方差。顏色模塊的函數(shù)表達(dá)形式為:
其中,參數(shù) 表示第 個(gè)高斯部分屬于標(biāo)記為類別 的概率分布; 表示像素點(diǎn) 屬于第 個(gè)高斯部分的概率分布。
由于我們需要對(duì)每張圖像的顏色模塊的參數(shù)分別進(jìn)行學(xué)習(xí),每張圖像對(duì)應(yīng)得到的參數(shù)都是互不影響的,因此顏色模塊參數(shù)的學(xué)習(xí)工作不需要在訓(xùn)練集上完成。在測(cè)試時(shí),使用條件迭代模式(ICM)對(duì)每幅圖像的顏色模塊參數(shù) 迭代地進(jìn)行學(xué)習(xí)。首先給定出一個(gè)初始的類別標(biāo)簽 ,然后顏色參數(shù) 使用下式進(jìn)行更新。參數(shù)被重新設(shè)定后,會(huì)推斷出新的類別標(biāo)簽,并反復(fù)迭代這個(gè)過程。
需要說明的是,為了避免過擬合的發(fā)生,我們對(duì)顏色模塊參數(shù) 和位置模塊參數(shù) 進(jìn)行狄利克雷平滑。在實(shí)驗(yàn)中, 經(jīng)過2次迭代得到。其中,對(duì)顏色特征進(jìn)行高斯混合建模時(shí),通過比對(duì),我們?cè)O(shè)置高斯部分的數(shù)目K=15;設(shè)置公式中狄利克雷平滑項(xiàng) =0.1,權(quán)值項(xiàng) =3。
4.位置模塊
在本文中,我們使用位置特征來描述類別標(biāo)簽對(duì)像素絕對(duì)位置的弱依賴關(guān)系,不同類別的對(duì)象在圖像中的絕對(duì)位置信息用位置特征來表示。位置模塊的函數(shù)表達(dá)形式為:
其中, 是像素點(diǎn)在歸一化圖像中的位置,由于我們采用相同尺寸大小的圖像集來進(jìn)行實(shí)驗(yàn),因此, 即圖像中像素點(diǎn)的絕對(duì)位置 。參數(shù) 表示在歸一化位置 處的各類別標(biāo)簽的概率分布。
對(duì)位置模塊參數(shù)的學(xué)習(xí),我們采用統(tǒng)計(jì)的方法來得到:
其中, 為訓(xùn)練集里所有圖像中在位置 處且類別標(biāo)簽為 的像素點(diǎn)的數(shù)目; 為訓(xùn)練集里所有圖像中在位置 處的像素點(diǎn)的數(shù)目;同樣的,通過手動(dòng)比對(duì),我們?cè)O(shè)置狄利克雷平滑項(xiàng) =1,權(quán)值項(xiàng) =0.1。
(二)使用CRF模型進(jìn)行推理
使用CRF模型對(duì)參數(shù)集進(jìn)行學(xué)習(xí)后,我們通過最大化條件概率來得到各像素的最佳標(biāo)簽。在我們研究的CRF模型中,初始的類別標(biāo)簽由紋理模塊的標(biāo)注結(jié)果來給出,然后使用圖割理論[10]對(duì)模型進(jìn)行優(yōu)化,從而實(shí)現(xiàn)準(zhǔn)確的分割。圖割是一種基于圖論的組合優(yōu)化技術(shù),能用來在對(duì)象識(shí)別中求解能量函數(shù)最小化的問題。利用圖割理論能將圖像映射為網(wǎng)絡(luò)圖,并建立關(guān)于類別標(biāo)簽的能量函數(shù),運(yùn)用最大流最小割算法對(duì)圖像進(jìn)行準(zhǔn)確分割。圖割能使能量函數(shù)的解收斂到全局最小。
CRF模型的條件后驗(yàn)概率 (公式3-5)的最大化等價(jià)于CRF模型能量值的最小化。因此我們將能量函數(shù)設(shè)置為:
其中μ為權(quán)重參數(shù)。對(duì)上式中能量函數(shù) 的最小化的工作,可用圖割理論中的alpha-expansion算法來高效解決。
三、紋理模塊的特征描述與分類器構(gòu)造
在CRF能量函數(shù)中,最重要的部分是我們描述紋理特征的模塊,在這個(gè)模塊中,不僅包含圖像的紋理特征,還包括基于紋理的上下文信息。
(一)紋理特征
使用紋理特征來實(shí)現(xiàn)圖像的語(yǔ)義分割。首先,用一個(gè)17維的濾波器組對(duì)訓(xùn)練集中的所有圖像進(jìn)行卷積運(yùn)算來進(jìn)行濾波,也就是對(duì)圖像進(jìn)行紋理編碼。然后對(duì)訓(xùn)練集中的所有圖像使用馬氏距離根據(jù)濾波器響應(yīng)進(jìn)行K均值聚類,圖像中的每個(gè)像素都被分配到最近的聚類中心,對(duì)每幅圖像中所有像素點(diǎn)標(biāo)記其相應(yīng)的聚類中心編號(hào),得到相應(yīng)的紋理圖像。
像素點(diǎn)所屬的類別不只取決于本身的紋理信息,還取決于周圍像素的紋理信息,即紋理上下文信息。比如,某個(gè)像素周圍有類別“bird”的紋理特征出現(xiàn),那么該像素分類為“sky”的概率就比較大。
因此,我們建立一個(gè)既包括第i個(gè)位置的像素點(diǎn)自身紋理特征,又包括與周圍像素紋理上下文信息的一個(gè)特征函數(shù),定義如下:
其中,
其中,分類器 由多個(gè)弱分類器相加得到的。
(二)特征提取與分類器構(gòu)造方法
我們使用Joint-boosting算法來實(shí)現(xiàn)形狀濾波器參數(shù)的優(yōu)化選取以及強(qiáng)分類器 的構(gòu)造。該算法迭代地產(chǎn)生多個(gè)弱分類器,并求和得到一個(gè)強(qiáng)分類器。
利用形狀濾波器來描述像素點(diǎn)自身的底層紋理特征,以及周圍像素點(diǎn)的紋理特征的上下文信息,從而得到強(qiáng)分類器 。每個(gè)形狀濾波器由一個(gè)三元組 來描述,其中t紋理編號(hào),r為矩形區(qū)域,能用一個(gè)四元組 來表示這個(gè)矩形區(qū)域,其中width和height為矩形的寬度和長(zhǎng)度,x和y為矩形左上角相對(duì)于像素點(diǎn)i的偏移量,矩形r的四個(gè)頂點(diǎn)都是從固定的邊界集中隨機(jī)選取的。對(duì)應(yīng)于像素點(diǎn)i的形狀濾波器的響應(yīng)值為:
其中, 表示對(duì)應(yīng)于像素點(diǎn)i的紋理編號(hào), 表示矩形區(qū)域的面積。
強(qiáng)分類器 的構(gòu)造,是通過Joint-boosting算法來得到的。我們將M個(gè)帶權(quán)值的弱分類器求和得到強(qiáng)分類器 :
其中,每個(gè)弱分類器 都是一個(gè)決策函數(shù):
其中, 為優(yōu)化選取得到的紋理特征, 為控制特征值的閾值函數(shù),N為共享該紋理特征的類別標(biāo)簽的集合。 在這里用來減弱各類別在樣本中分布不均勻的影響。每次迭代都會(huì)產(chǎn)生一個(gè)弱分類器 。我們能對(duì)下面的目標(biāo)函數(shù)進(jìn)行優(yōu)化:
其中,n為訓(xùn)練集中所有像素點(diǎn)的個(gè)數(shù), 為訓(xùn)練樣本中像素點(diǎn)i的類別標(biāo)簽,當(dāng)屬于共享標(biāo)簽集N時(shí),其值為1;當(dāng)不屬于共享標(biāo)簽集N時(shí),其值為-1。 權(quán)重控制項(xiàng),,對(duì)分錯(cuò)的樣本相應(yīng)設(shè)置一個(gè)較大的權(quán)值,對(duì)分對(duì)的樣本相應(yīng)設(shè)置一個(gè)較小的權(quán)值,從而提高整個(gè)分類器的準(zhǔn)確率。
通過Joint-boosting算法就能迭代得到強(qiáng)分類器 ,并優(yōu)化得到參數(shù)集 。
在訓(xùn)練階段,逐個(gè)像素進(jìn)行訓(xùn)練需要大量的存儲(chǔ)空間和訓(xùn)練時(shí)間,這是不切實(shí)際的。因此,有效的取樣和隨機(jī)特征選擇是必不可少的。通過設(shè)置Δ×Δ網(wǎng)格(本文中選取5×5網(wǎng)格),計(jì)算網(wǎng)格的濾波器響應(yīng)將會(huì)大大減少計(jì)算開銷。在測(cè)試階段,形狀濾波器能逐個(gè)像素進(jìn)行計(jì)算以使每個(gè)像素都能實(shí)現(xiàn)準(zhǔn)確的分類。上述采樣過程會(huì)產(chǎn)生小程度的平移,將會(huì)導(dǎo)致對(duì)象分割時(shí)邊界的不準(zhǔn)確性。但是,但應(yīng)用在CRF中時(shí),邊緣模塊和顏色模塊都會(huì)準(zhǔn)確確定對(duì)象的邊緣。
即使采用子采樣方式,在boosting的每一次迭代中對(duì)所有的紋理特征進(jìn)行窮舉搜索都是不可能實(shí)現(xiàn)的。但是,我們的算法只對(duì)特征中的一小部分(τ?1)進(jìn)行搜索,并在每一次迭代中隨機(jī)選取。設(shè)定τ=0.003,幾千次的迭代后,基本上能保證對(duì)所有的特征都至少測(cè)試過一次。