陳 琳 盧湖川
(大連理工大學(xué)信息與通信工程學(xué)院 大連 116024)
在圖像分類和圖像檢索技術(shù)應(yīng)用越來越廣泛的今天,圖像目標(biāo)識(shí)別技術(shù)成為了最熱門的研究方向之一。圖像大小、目標(biāo)尺度、場(chǎng)景內(nèi)容及光照、角度等因素的不確定性,對(duì)目標(biāo)識(shí)別算法構(gòu)成了很大的挑戰(zhàn)?,F(xiàn)有的目標(biāo)識(shí)別方法盡管取得了一定的成功,但是也存在一定的問題:(1)由于目標(biāo)尺度和形狀的不確定性,基于滑動(dòng)窗的方法會(huì)引入大量的背景噪聲,且計(jì)算量太大。(2)在一系列先分割再識(shí)別的方法框架下,當(dāng)分割結(jié)果很不理想時(shí),后續(xù)的工作(無論邊界/形狀匹配)都是很難進(jìn)行的。
針對(duì)以上問題,Russell等人[1]將多次改變計(jì)算參數(shù)的多分割方法用在了圖像識(shí)別中,其優(yōu)點(diǎn)是多尺度分割可以避免目標(biāo)尺度、圖像大小的變化問題;區(qū)域可以包含更豐富的特征信息。但是該方法的假設(shè)往往不成立,因?yàn)榧词狗指畹拇螖?shù)再多,也有無法得到正確目標(biāo)的情況發(fā)生。文獻(xiàn)[2]提出了分割-識(shí)別-再分割的一個(gè)識(shí)別過程,該算法避免了因?yàn)槟骋徊椒指罱Y(jié)果的錯(cuò)誤而導(dǎo)致整個(gè)識(shí)別結(jié)果失敗的現(xiàn)象。但是該方法對(duì)格外突出的物體部分比較敏感(比如天鵝的脖子,蘋果商標(biāo)的葉子等),當(dāng)突出部分形變較大時(shí)匹配困難且此方法對(duì)一般物體推廣性還不夠強(qiáng)。通過以上分析,要做好目標(biāo)識(shí)別必須解決以下幾個(gè)問題:(1)盡量避免圖像大小、目標(biāo)尺度變化對(duì)識(shí)別的影響;(2)在盡量多的特征空間上描述目標(biāo);(3)能夠穩(wěn)定地對(duì)圖像庫的類別結(jié)構(gòu)進(jìn)行建模;(4)識(shí)別過程與分割過程既要相互依賴又要相對(duì)獨(dú)立。
鑒于此,本文提出一種基于多尺度的概率潛在語義分析(ML-pLSA)模型的目標(biāo)識(shí)別算法。該算法選取多種分割方法對(duì)圖像進(jìn)行多尺度分割,然后利用詞袋方法(BOW)結(jié)合pLSA模型及分類器對(duì)每一個(gè)分割區(qū)域進(jìn)行類別估計(jì),最終將多個(gè)尺度、多個(gè)方法的區(qū)域估計(jì)結(jié)果結(jié)合到一起,根據(jù)這一綜合結(jié)果提取出目標(biāo),達(dá)到目標(biāo)識(shí)別的目的。本文方法不需要假設(shè)分割出的區(qū)域至少有一個(gè)是正確的,也允許分類器有判斷的錯(cuò)誤。我們的每一步都是弱分類、弱學(xué)習(xí),但是數(shù)據(jù)的疊加和相互依賴可以不斷增強(qiáng)目標(biāo)的位置信息和類別信息。
概率潛在語義分析(pLSA)模型[3]原本是用于文本檢索的概率生成模型。相比標(biāo)準(zhǔn)潛在語義分析(LSA),pLSA模型來自線性代數(shù)和執(zhí)行奇異值分解共生表,是基于一個(gè)(從潛在的類模型的)混合體的分解,具有更牢固的數(shù)學(xué)基礎(chǔ)。如圖1所示。
圖1 pLSA圖形化模型
圖1(a)中,節(jié)點(diǎn)被包含在的某個(gè)框中,表示該節(jié)點(diǎn)被迭代左上角的符號(hào)所標(biāo)識(shí)的次數(shù)。實(shí)心圓表示觀測(cè)到的隨機(jī)變量;空心圓表示未觀測(cè)到的隨機(jī)變量。pLSA的目的是找到特定主題中字的分布P(w|z),以及使特定文件中字的分布P(w|d)組合起來的相應(yīng)的特定文件的混合比例P(z|d),如圖1(b)。pLSA模型已在檢索和信息過濾、自然語言處理、機(jī)器學(xué)習(xí)的文本和相關(guān)領(lǐng)域廣泛應(yīng)用[4,5]。
基于 ML-pLSA模型的目標(biāo)識(shí)別算法示意圖如圖2所示。其中,圖2(a)表示在不同的特征空間原圖像突出不同的特征。圖2(b)用多種分割方法對(duì)圖像進(jìn)行分割,可以盡量多地利用不同特征空間信息。圖2(c)利用pLSA模型和分類器得到每個(gè)區(qū)域的置信值。圖2(d)表示多種分割方法的置信圖的合并圖。圖2(e)根據(jù)合并圖提取的目標(biāo)。從方法示意圖可以看出,圖2(b)-(c)在簡(jiǎn)單分割的基礎(chǔ)上進(jìn)行識(shí)別判斷。圖2(d)-(e)在一定識(shí)別的基礎(chǔ)上進(jìn)行提取、分割。整個(gè)識(shí)別過程中分割與識(shí)別相互依賴,位置與類別的信息在不斷的增強(qiáng)。
為了建立圖像局部區(qū)域的描述,使其對(duì)視角、光照等的變化具有一定的魯棒性,本文選擇快速SIFT(quick Scale Invariant Feature Transform,SIFT)描述符[6],結(jié)合BOW進(jìn)行直方圖視覺詞描述。本文以局部區(qū)域?yàn)闃颖荆瑢?duì)區(qū)域內(nèi)的像素點(diǎn)密集提取 SIFT特征,然后形成區(qū)域特征直方圖,這樣可以更完整地描述局部特征。
圖2 ML-pLSA方法示意圖
本文給每個(gè)輸入圖像產(chǎn)生足夠的分割,為了能夠產(chǎn)生盡量多樣的好的區(qū)域(所謂的好區(qū)域就是指盡量多的包含目標(biāo))。但是有的圖像偏重于顏色特征,而有些圖像則更偏重的是紋理特征,若只用一種分割方法對(duì)圖像庫進(jìn)行分割的話,得到的分割效果參差不齊。所以本文決定選擇多種分割方法對(duì)圖像庫的每張圖像進(jìn)行分割,利用每種方法依賴的特征(cues)不同來彌補(bǔ)這方面的不足;還選擇在不同尺度上進(jìn)行分割,這樣會(huì)防止由于目標(biāo)大小不同而對(duì)分割產(chǎn)生的影響。這樣一來,得到的分割區(qū)域大小形狀各有不同、依據(jù)的特征各有不同,可以很好地克服因?yàn)椴煌瑘D像庫目標(biāo)尺度變化大、圖像特征復(fù)雜而帶來的問題。
文獻(xiàn)[7]中給出了目前較流行的分割方法的比較。綜合數(shù)據(jù),本文選擇歸一化分割(Normalized cuts,Ncut)[8]、快速漂移算法(Quick shift)[9]、簡(jiǎn)單線性迭代聚類算法(SLIC)[7]3種分割方法。Ncut方法是基于全局最優(yōu)的分割算法,已被成功用于人體模型估計(jì)等領(lǐng)域[10,11]。它對(duì)一次性分割出整個(gè)目標(biāo)的可能性是最大的,所以選擇Ncut方法進(jìn)行大尺度分割;SLIC算法是3種方法中速度最快的,而且由于他產(chǎn)生的超像素大小、形狀基本相同,不會(huì)過分注意一些沒意義的拐角/線,所以選擇SLIC方法進(jìn)行小尺度分割;至于中間尺度的分割則由快速漂移算法來完成,這樣既可以發(fā)揮它的特點(diǎn)(把不規(guī)則的、有意義的區(qū)域分割出來),又不會(huì)產(chǎn)生過小的超像素??焖倨扑惴ㄒ褟V泛應(yīng)用于圖像識(shí)別和視頻識(shí)別[12,13]。根據(jù)他們的特點(diǎn),本文設(shè)定超像素的個(gè)數(shù)分別為K_ncut=[5,9,13,17,21,25],K_quick=[43,41,39,37,35,33](分割塊數(shù)大概是 30-60),K_slic=[70,80,90,100,110,120],使分割塊數(shù)基本覆蓋了每張圖片5-120塊左右。
在快速漂移算法中,本文將用于聚類的濾波器組[14]用于提取局部紋理特征。濾波器組由3個(gè)高斯濾波器(方差σ分別為1,2,4),4個(gè)拉普拉斯高斯濾波器(方差σ分別為 1,2,4,8),以及 4個(gè)高斯一階導(dǎo)數(shù)濾波器。首先,對(duì)輸入圖像進(jìn)行顏色空間轉(zhuǎn)換;將輸入圖像由RGB顏色空間轉(zhuǎn)換到CIE-LAB顏色空間;(1)用上述3個(gè)不同尺度的高斯核對(duì)L,A,B 3個(gè)顏色通道分別進(jìn)行卷積產(chǎn)生9組濾波響應(yīng);(2)用4個(gè)不同尺度的拉普拉斯高斯濾波器僅僅對(duì)L通道進(jìn)行卷積產(chǎn)生4組濾波響應(yīng);(3)4個(gè)高斯一階導(dǎo)數(shù)濾波器對(duì)L通道進(jìn)行濾波產(chǎn)生4組濾波響應(yīng);所以最終每幅圖像的每一個(gè)像素會(huì)得到一個(gè) 17維的特征向量。濾波器的形狀如圖3所示。
圖3 17維濾波器組形狀示意圖
pLSA模型原本是用于文本檢索的概率生成模型。通過利用視覺詞(量化的顏色特征,紋理特征以及SIFT特征等區(qū)域描述子),pLSA模型可以被應(yīng)用于圖像領(lǐng)域。本文嘗試?yán)胮LSA模型對(duì)分層分割區(qū)域進(jìn)行分析并發(fā)現(xiàn)其中的“主題”,把對(duì)象類別作為發(fā)現(xiàn)的“主題”(如草,屋),把圖像包含多個(gè)對(duì)象實(shí)例建模為主題的混合物。對(duì)于每張圖片可能存在多目標(biāo)類的這種情況,pLSA提供了正確用于聚類的統(tǒng)計(jì)模型。
下面,運(yùn)用圖像處理的語言對(duì) ML-pLSA模型進(jìn)行一下描述。ML-pLSA模型中的原始術(shù)語“文件-d”對(duì)應(yīng)區(qū)域樣本,“字-w”對(duì)應(yīng)區(qū)域樣本特征,“主題-z”對(duì)應(yīng)目標(biāo)類別,它是一個(gè)潛在的中間變量。
假設(shè)有一組M個(gè)訓(xùn)練樣本{d1,…,dM},每個(gè)樣本對(duì)應(yīng)一個(gè)局部區(qū)域,這些區(qū)域被量化為包含W個(gè)視覺單詞的詞匯表{w1,…,wW},因此訓(xùn)練圖像的集合就可以由一個(gè)單詞圖像的互共現(xiàn)矩陣Nij=n(wi,dj)來表示,其中n(wi,dj)表示的是文件dj中字wi出現(xiàn)的次數(shù)。假設(shè)共有K個(gè)潛在主題變量{z1,…,zK},那么每個(gè)文件dj中的每個(gè)字wi的出現(xiàn)都有一個(gè)潛在的主題變量zk與之相關(guān)聯(lián)。
我們假設(shè)聯(lián)合概率P(wi,dj,zk)擁有圖1(a)所示的圖模型的形式。對(duì)主題zk進(jìn)行邊緣求和確定出條件概率P(wi|dj):
其中P(zk|dj)為主題zk在文件dj中出現(xiàn)的概率;P(wi|zk)為字wi在特定主題zk中出現(xiàn)的概率。
式(1)將每個(gè)文件表示為K個(gè)主題向量的凸合并。這相當(dāng)于進(jìn)行一次圖1(b)所示的矩陣分解,其中要求對(duì)向量和混合系數(shù)進(jìn)行歸一化從而使他們依概率分布。本質(zhì)上說,每個(gè)文件d都是不同主題z的混合體,某個(gè)特定文件d的直方圖是由每個(gè)主題z所對(duì)應(yīng)的直方圖相混合而組成的。
圖4 ML-pLSA算法模型
在具體實(shí)現(xiàn)過程中,如圖4,本文首先對(duì)P(w|dtrain)進(jìn)行奇異值分解,得到降維后矩陣P(z|dtrain)和概率P(w|z)。然后采用迭代操作,固定概率P(w|z),計(jì)算測(cè)試圖像的潛在主題表示P(z|dtest)。最后對(duì)P(z|dtest)與P(z|dtrain)進(jìn)行相似性的度量。
本文在常用的 GRAZ-02數(shù)據(jù)庫進(jìn)行了一系列的實(shí)驗(yàn)。GRAZ-02數(shù)據(jù)庫包含 3個(gè)類別:車類共300張圖片;人類共 311張圖片;自行車類共 365張圖片。每張圖片大小480×640。示例圖片如圖5所示??梢姡珿RAZ-02圖像庫中包括大目標(biāo)、小目標(biāo)、目標(biāo)遮擋、多目標(biāo)、光照變化、角度旋轉(zhuǎn)(分別對(duì)應(yīng)圖5中第1列至第6列)等一系列圖片,對(duì)目標(biāo)識(shí)別具有很大的挑戰(zhàn)。
圖5 GRAZ-02數(shù)據(jù)庫實(shí)例圖
我們選擇圖像庫每類單數(shù)的150張圖像來生成字典,同時(shí)總共取出100張圖像作為驗(yàn)證集合。在驗(yàn)證集合上我們得到的最優(yōu)字典大小是 70萬至80萬左右。本文每張圖片提取 5000個(gè)樣本點(diǎn)(正負(fù)各半)的SIFT特征,然后對(duì)矩陣進(jìn)行k-means聚類,K=400。
選擇每類圖像的單數(shù)150張圖片進(jìn)行訓(xùn)練,雙數(shù)的所有圖片進(jìn)行測(cè)試。對(duì)于訓(xùn)練圖像,先以一種分割的一種參數(shù)(以分割塊數(shù)Ncut_p=5為例)對(duì)圖片進(jìn)行分割,然后在每一個(gè)區(qū)域中提取SIFT特征,將每一個(gè)區(qū)域的 SIFT特征直方圖投影到字典上,得到K×5維的區(qū)域特征直方圖。通過計(jì)算每個(gè)區(qū)域中正/負(fù)像素點(diǎn)的個(gè)數(shù)給出每個(gè)區(qū)域的標(biāo)簽。每張圖片選出正/負(fù)區(qū)域個(gè)數(shù)相等的共n個(gè)區(qū)域,那么Ncut_ p=5時(shí)的訓(xùn)練樣本矩陣P(w|dtrain)維數(shù)就是K×N,其中N是訓(xùn)練圖片提取的區(qū)域總個(gè)數(shù)。對(duì)于一張測(cè)試樣本,我們使用同樣的方法得到K×5維的區(qū)域特征直方圖P(w|dtest)。我們利用ML-pLSA模型(如圖4)對(duì)訓(xùn)練樣本矩陣P(w|dtrain)進(jìn)行分解,得到K×Z維矩陣(w|z)和Z×N維矩陣(z|dtrain)。其中變量Z表示潛在主題個(gè)數(shù)。然后采用迭代操作,固定(w|z)矩陣,計(jì)算出測(cè)試圖片的Z×5維矩陣P(z|dtest)。最后利用近鄰方法對(duì)(z|dtest)與P(z|dtrain)進(jìn)行相似性的度量。
接下來,本文將不同參數(shù)下得到的帶有標(biāo)簽的圖片以每個(gè)像素為單位進(jìn)行疊加,這樣就得到了一張圖片的帶有位置信息、類別信息的權(quán)值圖。最后通過閾值法將置信值高的部分提取出來。
在本文中使用了3種評(píng)價(jià)方法,一是像素準(zhǔn)確率,即所有判斷正確的像素點(diǎn)個(gè)數(shù)除以圖片像素總個(gè)數(shù)。二是平均像素準(zhǔn)確率,即目標(biāo)被正確分類的像素個(gè)數(shù)除以真值像素個(gè)數(shù)與目標(biāo)被錯(cuò)誤分類的像素個(gè)數(shù)之和(即,其中R表示識(shí)別結(jié)果區(qū)域,G表示真值區(qū)域)。三是像素查準(zhǔn)查全率曲線(簡(jiǎn)稱 pr曲線),其中精確率(Precision)p=/G,回歸率(Recall)r=/R。本文將最終得到的權(quán)值圖量化到0-255上,然后分為30層對(duì)整個(gè)圖像庫識(shí)別結(jié)果進(jìn)行度量。當(dāng)為l層時(shí),所有大于256/l的灰度值都被當(dāng)做是前景,其余的為背景,此時(shí)p=r的值即為l層時(shí)pr曲線取值。
本文分別做了3組實(shí)驗(yàn):
實(shí)驗(yàn) 1以自行車類為例,先分別用每一種分割方法對(duì)測(cè)試圖片進(jìn)行實(shí)驗(yàn)。然后又使用ML-pLSA方法對(duì)150張測(cè)試圖片進(jìn)行實(shí)驗(yàn)。4組數(shù)據(jù)的平均像素準(zhǔn)確率比較見圖6,pr曲線結(jié)果比較見圖7。
從圖6,圖7實(shí)驗(yàn)數(shù)據(jù)可以看出,ML-pSLA算法在測(cè)試時(shí)的平均像素準(zhǔn)確率和pr曲線都要好于用單一方法的實(shí)驗(yàn)結(jié)果。進(jìn)一步說明多種分割方法的使用是合理的、有效的,不論單張圖片的識(shí)別率還是整個(gè)圖像庫的整體表現(xiàn)都要好于使用單一分割方法。
圖6 ML-pLSA與X-pLSA平均像素準(zhǔn)確率比較曲線圖
圖7 ML-pLSA與X-pLSA pr曲線比較結(jié)果
表1 ML-pLSA與X-pLSA識(shí)別率比較(%)
表1列出了實(shí)驗(yàn)1的相關(guān)識(shí)別率,ML-pSLA算法的平均像素準(zhǔn)確率和pr曲線分別比X-pLSA算法(X代表單獨(dú)一種分割方法)高出17.25%,5.04%。
實(shí)驗(yàn)2ML-pLSA算法在GRAZ-02數(shù)據(jù)庫的結(jié)果。圖8給出了部分測(cè)試圖片中間結(jié)果圖。其中第1列為原圖,第2列為真值圖像,第3至5列分別為Ncut,Quick shift,SLIC分割方法對(duì)應(yīng)的權(quán)值圖,第6列為本文方法得到的最終結(jié)果圖。其中原圖包含了大目標(biāo)、小目標(biāo)、多個(gè)目標(biāo)、角度旋轉(zhuǎn)及光照變化的圖片,對(duì)算法具有一定的挑戰(zhàn)。但從結(jié)果圖可見,ML-pLSA算法的效果還是很理想的。
圖8 ML-pLSA算法在GRAZ-02數(shù)據(jù)庫的部分過程示意圖
ML-pLSA算法在GRAZ-02數(shù)據(jù)庫3類目標(biāo)識(shí)別率見表2。從表中可見,ML-pLSA算法在自行車類中識(shí)別效果是最好的。
圖9為利用ML-pLSA算法得到的目標(biāo)識(shí)別結(jié)果。
實(shí)驗(yàn)3ML-pLSA算法與其他算法的比較這里將ML-pLSA算法分別與Marszalek[15]得出的結(jié)果和 ECCV2008 Fulkerson[16]得出的結(jié)果進(jìn)行了比較。這兩篇文章評(píng)價(jià)標(biāo)準(zhǔn)與本文平均像素準(zhǔn)確率標(biāo)準(zhǔn)相同,數(shù)據(jù)庫也是GRAZ-02數(shù)據(jù)庫(見表3)。
結(jié)果表明,ML-pLSA算法在車類和人類的識(shí)別結(jié)果都要遠(yuǎn)遠(yuǎn)高于其他目標(biāo)識(shí)別方法;ML-pLSA算法在自行車類的識(shí)別率也接近其他算法的最優(yōu)值。
圖9 ML-pLSA方法結(jié)果圖
表2 本方法在圖像庫中的識(shí)別率(%)
表3 ML-pLSA算法與其他算法的比較(%)
本文提出的 ML-pLSA模型的目標(biāo)識(shí)別算法是一種魯棒性很強(qiáng)的算法。首先,相對(duì)其他識(shí)別算法來說本方法識(shí)別率高,因?yàn)樗鼘⒉煌叨鹊?、豐富的特征空間結(jié)合在一起,更充分地利用了圖像的特征信息;第二,本方法不局限于先分割再識(shí)別的順序,而是使整個(gè)過程的分割與識(shí)別即相互依賴又相互獨(dú)立,避免了分割誤差對(duì)識(shí)別過程的影響。第三,由于使用了多種分割和 SIFT特征,所以對(duì)目標(biāo)尺度的變化和光照角度變化也有很好的魯棒性。本文在 GRAZ-02數(shù)據(jù)庫做了大量實(shí)驗(yàn),取得了不錯(cuò)的效果。
在本方法中,如何提高算法速度、如何更好的融合多特征是本文作者以后要研究的內(nèi)容。
[1]Russell B C,Freeman W T,Alexei A,et al..Using multiple segmentations to discover objects and their extent in image collections[C].IEEE Conference on Computer Vision and Pattern Recognition,NY,USA,June 17-22,2006:1605-1614.
[2]Gu Chun hui,Lim J J,Arbelaez P,et al..Recognition using regions[C].IEEE Conference on Computer Vision and Pattern Recognition,Florida,USA,June 20-25,2009:1030-1037.
[3]Hofmann T,et al..Probabilistic latent semantic analysis[C].Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence,Stockholm,Sweden,July 30-August 1,1999:289-296.
[4]Hofmann T,et al..Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42 (1/2):177-196.
[5]Bosch A,Zisserman A,Munoz X,et al..Scene classification via pLSA[C].European Conference on Computer Vision,Graz,Austria,May 7-13,2006:517-530.
[6]Csurka G,Dance C,Fan L,et al..Visual categorization with bags of keypoints[C].European Conference on Computer Vision,Prague,Czech Republic,March 27,2004,(1):1-22.
[7]Achanta R,Shaji A,Smith K,et al..SLIC superpixels[R].EPFL Technical Report,June 2010.
[8]Shi Jianbo,Malik J,et al..Normalized cuts and image segmentation[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.
[9]Vedaldi A,Soatto S,et al..Quick shift and kernel methods for mode seeking[C].European Conference on Computer Vision,Marseille,France,October 12-18,2008:705-718.
[10]Levinshtein A,Sminchisescu C,Dickinson S J,et al..Optimal contour closure by superpixel grouping[C].European Conference on Computer Vision,Heraklion,Crete,Greece,September 5-11,2010:480-493.
[11]Sapp B,Jordan C,Taskar B,et al..Adaptive pose priors for pictorial structures[C].IEEE Conference on Computer Vision and Pattern Recognition,San Francisco,CA,USA,June 13-18,2010:422-429.
[12]Fulkerson B,Vedaldi A,Soatto S,et al..Class segmentation and object localization with superpixel neighborhoods[C].International Conference on Computer Vision,Kyoto,Japan,September 27-October 4,2009:670-677.
[13]Ravichandran A,Favaro P,Vidal R,et al..A Unified approach to segmentation and categorization of dynamic textures[C].Asian Conference on Computer Vision,Queenstown,New Zealand,November 8-12,2010:425-438.
[14]Winn J M,Criminisi A,Minka T P,et al..Object categorization by learned universal visual dictionary[C].International Conference on Computer Vision,Beijing,China,October 17-20,2005:1800-1807.
[15]Marszalek M,Schmid C,et al..Accurate object localization with shape masks[C].IEEE Conference on Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA,June 18-23,2007:1-8.
[16]Fulkerson B,Vedaldi A,Soatto S,et al..Localizing objects with smart dictionaries[C].European Conference on Computer Vision,Marseille,France,October 12-18,2008:179-192.