林霄,肖國強,吳松,邱開金
西南大學計算機信息科學學院,重慶 400715
基于隨機游走模型的物體識別
林霄,肖國強,吳松,邱開金
西南大學計算機信息科學學院,重慶 400715
自然界中的物體具有不同的屬性,如顏色、形狀、紋理等,這些不同的屬性在大腦的不同部位被加工。人之所以能在各種不同的情境中,通過視覺系統(tǒng)輕松地識別物體,是因為人在對各類物體的學習過程中不僅記憶了該物體的相關(guān)特征,還在大腦中建立了各類物體之間的先驗關(guān)系。然而在計算機視覺系統(tǒng)中要建立由這種先驗關(guān)系組成的統(tǒng)一機制卻是十分困難的,這也使得物體識別成為了計算機視覺研究領域中一個非常具有挑戰(zhàn)性的課題。
區(qū)域語義標定(Region Labeling,RL)是近年來國內(nèi)外研究的熱點問題之一。它的主要工作是對圖像中的特定區(qū)域進行語義標定。文獻[1]中用貝葉斯網(wǎng)絡構(gòu)造概率模型對各類標記的空間位置關(guān)系和共現(xiàn)性進行學習,并用遺傳算法完成對圖像的最佳標定。文獻[2]中提出一種能量模型來描述各類標記間的關(guān)系,并完成對區(qū)域的標定。這說明了建立一個用以描述標記間內(nèi)在聯(lián)系的關(guān)系模型對RL的重要性。可視物體識別(Visual Object Class Recognition,VOCR)的主要工作是預測圖像中某類語義的范例是否出現(xiàn)。而當圖像中包含多類物體時,VOCR和RL所需解決的問題是一致的。基于以上思想,將關(guān)系模型應用到VOCR的過程中是可行的。
傳統(tǒng)的物體識別算法大致可分為基于局部特征的物體識別和基于全局特征的物體識別兩類?;诰植刻卣鞯奈矬w識別算法通過對圖像中興趣點(區(qū)域)的檢測,得到關(guān)于圖像的局部信息以完成對物體的識別。例如,文獻[3]中采用基于特征點檢測以及不同類型物體的特征點所構(gòu)成的獨特空間幾何結(jié)構(gòu)來進行物體識別。基于全局特征的物體識別算法試圖找到能代表圖像中所有信息的全局特征,并以該全局特征進行物體識別。這不僅包括簡單的統(tǒng)計方法,例如像素均值、直方圖特征等,還包括復雜的降維算法,例如主成分分析[4]、獨立成分分析[5]、非負矩陣分解[6]。其中降維算法[7-8]的主旨在于把原圖像投影到一個最能表達原圖像數(shù)據(jù)的低維子空間中。無論是基于局部特征的物體識別算法,還是基于全局特征的物體識別算法都未將先驗關(guān)系應用到物體識別的過程中,因此很難建立一個有效且完善的由先驗關(guān)系組成的統(tǒng)一機制。本文以建立一個這樣的統(tǒng)一機制為出發(fā)點,提出了一種結(jié)合先驗關(guān)系的物體識別算法。在訓練階段,首先,用圖像的全局特征相似度建立圖像相似性圖(Image Similarity Graph,ISG);同時,用領域本體中各語義對象的相對距離建立語義相似性圖(Semantic Similarity Graph,SSG);其次,采用JSEG算法[9]對圖像進行分割,得到圖像的子區(qū)域集,選取部分得到的子區(qū)域作為訓練樣本,利用支持向量機(Support Vector Machine,SVM)進行訓練得到一個對于多類物體的分類器。用該分類器建立圖像與語義間的關(guān)系,并形成統(tǒng)一的混合圖模型。在識別階段,首先,在統(tǒng)一的圖模型中新建一個待識別圖像節(jié)點,通過提取其全局特征建立該節(jié)點與其余圖像節(jié)點的全局特征相似性關(guān)聯(lián)。其次,對待識別圖像進行分割,利用訓練得到的分類器建立待識別圖像節(jié)點與語義節(jié)點間的語義相似性關(guān)聯(lián)。最后,以該節(jié)點為起始節(jié)點進行隨機游走,并把隨機游走的結(jié)果作為該圖像中的物體識別的結(jié)果。實驗結(jié)果驗證了該算法的有效性和可靠性,以及其較好的物體識別性能。
基于隨機游走模型的物體識別算法流程圖如圖1所示。
圖1 基于隨機游走模型的物體識別算法流程圖
2.1 全局特征的提取
在圖像處理中,常用的描述圖像全局信息的特征大致分為三類:顏色、紋理和形狀特征。本文選取圖像的顏色和紋理作為全局特征。
2.1.1 顏色特征
顏色直方圖(Color Histogram,CH)是一種在圖像處理應用十分廣泛的圖像顏色信息表示方法。它是對圖像的顏色特征進行統(tǒng)計所得到的關(guān)于特征的統(tǒng)計直方圖,具有有效地反映圖像中顏色組成分布的優(yōu)點。對于RGB三通道下的彩色圖像,首先將其轉(zhuǎn)化到HSV顏色空間,然后把每個顏色通道里面的顏色信息都量化為10個不同的等級。通過直方圖的統(tǒng)計,對于每幅彩色圖像都可以得到一個相關(guān)的顏色特征。
2.1.2 紋理特征
局部二元模式(Local Binary Pattern,LBP)[10]是近年來提出的一種有效的紋理描述方法,它通過比較圖像中每個像素與其鄰域內(nèi)像素灰度值的大小,利用二進制模式表示的比較結(jié)果來描述圖像的紋理,可以對灰度圖像中局部鄰近區(qū)域的紋理信息進行有效度量和提取。LBP特征突出的優(yōu)點是對目標灰度變化不敏感且計算簡單迅速。在本文中,每幅圖像都可以得到一個LBP紋理特征。
2.2 全局特征的相似性度量
在完成全局特征的提取并對其進行歸一化處理之后,定義了衡量各全局特征間相似性的度量。設圖像集Ι中圖像的數(shù)量為N,對于第i張圖片Ιi,i∈[1,N],存在全局特征向量νi。這里用兩個向量間夾角的余弦函數(shù)作為其相似性度量,則對于全局特征向量νp,νq,p,q∈[1,N],其相似性可表示為:
2.3 建立ISG
計算圖像之間的相似性度量是建立圖像相似性圖的基礎。此外,建立一個圖模型,還需要選取建立圖模型的方法,例如:最鄰近圖(k-Nearest Neighbor,kNN),ε閥值鄰近圖,指數(shù)加權(quán)圖等。文獻[11]中證明了利用kNN圖建立的圖模型在大多數(shù)情況下具有較好的相關(guān)性表達能力。因此,在本文中基于kNN圖來建立圖像相似性圖。在該圖模型中,每幅圖像都對應了圖中的一個節(jié)點。對于任意圖像Ιi,取與其相似度較大的i個圖像作為該圖像的相鄰節(jié)點。相應地,把圖像Ιi在圖中所對應的節(jié)點與其近鄰節(jié)點用以Ιi為始點的有向邊連接起來,并把它們之間的相似度作為該有向邊的權(quán)值。由此,完成了對圖像相似性圖的建立。圖2舉例說明了一個由4個節(jié)點組成且k=1時建立的圖。值得注意的是,由于圖像Ιp與圖像Ιq并不一定互為近鄰,所以建立的圖像相似性圖并非是一個對稱的圖模型。
圖2 圖像相似性圖的結(jié)構(gòu)
圖3 語義構(gòu)建的本體圖
語義相似性圖描述了各類語義之間的關(guān)系。不同語義間的關(guān)系是很難通過一般的解析式來獲得的。語義間的關(guān)系是由先驗知識決定的,例如:有大象、馬、汽車三種語義,存在先驗知識“大象和馬都是屬于動物”,可以推出大象與馬的語義相似性強于大象與汽車的語義相似性。所以,本文利用先驗知識來完成對語義相似圖的建立。
3.1 領域本體
Gruber在文獻[12]中對本體進行了定義:本體是一種共享概念模型的形式化規(guī)范說明。作為知識和概念描述的重要工具,本體具有領域?qū)ο竺枋鍪侄魏兔枋龇椒ǎ瓤梢杂糜诿枋龊唵蔚氖聦?,又可以用于描述抽象的概念,可用于解決圖像語義描述中存在的問題。由于本體的建立是對先驗知識庫的結(jié)構(gòu)化、形式化的規(guī)范,所以本文就以建立本體的形式來建立先驗知識庫。為了對實驗中所需要的12種語義進行描述,在本體中定義了20種語義,利用其先驗關(guān)系手工構(gòu)建了該本體的層次結(jié)構(gòu)。
3.2 建立SSG
類似于圖像相似性圖,樹形本體中葉節(jié)點所對應的每一種語義都對應了語義相似性圖中的一個節(jié)點。要建立語義相似性圖,關(guān)鍵在于量化定義出任意兩種語義間的相似性測度。在本文中通過已構(gòu)建的領域本體來表達語義間的關(guān)系。如圖3所示,在本體中兩個節(jié)點的語義相似性與這兩個節(jié)點在樹形結(jié)構(gòu)中的最短路徑相關(guān)[13]。設有兩種不同的語義Sp與Sq,則它們的語義相似度可表示為:
其中,Dist(Sp,Sq)表示在本體中構(gòu)成Sp與Sq間最短路徑的邊的數(shù)量。
在完成對語義間的相似性度量的定義之后,便可以利用其建立語義相似性圖。同樣的,采用kNN圖的方法完成語義相似性圖的建立。
基于上述第2章與第3章所介紹的流程,能分別得到圖像相似性圖和語義相似性圖。但這對于建立一個完整的關(guān)系模型是不夠的,還需要找出這兩類子圖之間的聯(lián)系來建立一個統(tǒng)一的混合圖模型。由于圖像與語義間是多對多的關(guān)系,要直接建立圖像與語義之間的關(guān)系是復雜的。但是,子區(qū)域與語義間的關(guān)系是多對一的關(guān)系,建立它們之間的關(guān)系相對簡單。同時,一幅特定的圖像中又包含了多個特定的子區(qū)域,因此,可以通過建立圖像中的子區(qū)域與語義之間的關(guān)系來完成對圖像相似性圖與語義相似性圖之間的關(guān)系建立。
4.1 圖像分割
本文選取了經(jīng)典的JSEG算法[9]作為圖像的分割算法。JSEG算法主要包括兩個步驟:顏色量化和空間分割。顏色量化的目的是為了減少原始彩色圖像的顏色數(shù)量,以降低算法復雜度。原圖像中像素點的像素值被量化為J個類,并把量化后的圖像作為類圖;在分割過程中,通過處理與類圖相關(guān)的數(shù)據(jù)得到分割結(jié)果。圖4顯示了JSEG算法對一張圖像的分割結(jié)果。
圖4 JSEG算法分割結(jié)果
4.2 子區(qū)域特征提取
在完成對原圖像的分割之后,需要提取所得到子區(qū)域的底層特征。其中顏色特征是最直觀、最明顯的特征,是圖像內(nèi)容組成的基本要素,是人識別圖像的主要感知特征之一。通過JSEG分割算法而得到的子區(qū)域具有色彩相似性,容易想到選取其平均色彩作為子區(qū)域的顏色特征。但是由于JSEG分割算法的誤差導致分割出來的子區(qū)域中包含了并不屬于該區(qū)域的部分,可能會使平均色彩的顏色特征不能準確地表示該子區(qū)域的顏色特性。因此,選取子區(qū)域的主色彩作為區(qū)域的顏色特征。主色彩是通過計算子區(qū)域在HSV顏色空間下的顏色直方圖,并取其中最大的組所包含的像素點的像素平均值。最終得到一個由平均色彩和主色彩組成的顏色特征。
與全局紋理特征提取相似,在提取子區(qū)域的紋理特征時,也使用LBP紋理特征的提取方法。由此可以得到子區(qū)域的紋理特征,并將顏色特征和紋理特征級聯(lián)得到子區(qū)域的特征。
4.3 基于SVM的分類器訓練
4.4 建立統(tǒng)一圖模型
基于上述方法,完成了對圖像相似性圖與語義相似性圖之間的關(guān)系的構(gòu)建,從而得到了一個統(tǒng)一的混合圖模型,如圖5所示。
圖5 統(tǒng)一的混合圖模型(不同類型的邊表示不同種類的關(guān)系)
隨機游走模型的基本思想是,以一個節(jié)點為起始點開始遍歷一張圖。對于任意一個節(jié)點,遍歷者以概率1-σ游走到該節(jié)點的近鄰節(jié)點,以概率σ隨機跳轉(zhuǎn)到圖中的任一節(jié)點,并稱σ為隨機跳轉(zhuǎn)發(fā)生概率。每次游走后,可以得到一個新的概率分布,該概率分布描述了經(jīng)過該次游走后圖中每個節(jié)點被訪問到的概率。把得到的概率分布作為下一次游走的輸入并反復迭代這一過程。本文在建立統(tǒng)一圖模型的基礎上,使用隨機游走的方法來獲取圖像與語義之間聯(lián)系的緊密程度,即完成對圖像中物體的識別。
設G={V,E},G表示統(tǒng)一的混合圖模型。V=D∪S表示G中的所有節(jié)點,D表示圖像節(jié)點集,S表示語義節(jié)點集。E=E+∪E-∪E*表示G中所有的邊,如果邊Eij是邊集E+中的一個元素,則i∈D且j∈D;同樣的,若Eij∈E-,則i∈S且j∈S;若Eij∈E*,則i∈D且j∈S,或者i∈S 且j∈D。
為了建立隨機游走模型,需要將E中所有的邊的權(quán)值表示為概率。則對于邊集E*中的所有邊,定義其轉(zhuǎn)移概率:
其中,i∈D且j∈S,由于對于一個圖像節(jié)點可能含有多個具有同一語義的子區(qū)域,所以定義mk,k∈[1,nji]表示具有同一語義Sj的子區(qū)域,nji為圖像Ιi中含有同一語義Sj子區(qū)域的數(shù)量。同樣的,也得到了當i∈S,且j∈D時的轉(zhuǎn)移概率:
對于邊集E+,E-中的邊,相應地分別定義它們的轉(zhuǎn)移概率。對于i∈D且j∈D,有
其中,β表示節(jié)點i的近鄰節(jié)點集;對于i∈S且j∈S,有
總之,轉(zhuǎn)移概率可表示為:
在前文中知道,隨機游走模型中不僅包含隨機游走到近鄰節(jié)點的概率轉(zhuǎn)移,還包括轉(zhuǎn)移到任意節(jié)點的隨機跳轉(zhuǎn)。在圖模型中只定義了可以通過計算得到的節(jié)點間的可見關(guān)系。而實際上無論是語義節(jié)點還是圖像節(jié)點間都存在一些無法通過計算得到的隱藏關(guān)系。在不具有任何先驗知識的情況下,為了表示各節(jié)點間的隱藏關(guān)系,人為定義了隨機跳轉(zhuǎn)的概率:L(i,j)=1/(N+12),發(fā)生隨機跳躍的概率為σ,N+12表示圖模型中節(jié)點的數(shù)量?;谝陨峡紤],需要對模型中的轉(zhuǎn)移概率進行修正:
其中,T″和L分別代表其對應的轉(zhuǎn)移概率組成的概率轉(zhuǎn)移矩陣。根據(jù)文獻[14]和文獻[15]中對σ的設置,在本文的實驗中,把σ的值設為0.25。
在公式(5)中當μ和ω同時為0時,隨機游走只會發(fā)生在語義相似性圖上。而當μ或ω逐漸增大時,隨機游走的結(jié)果更依賴于圖像與語義間的關(guān)聯(lián)或圖像與圖像之間的關(guān)聯(lián)。
在得到概率轉(zhuǎn)移矩陣T后,利用隨機游走模型可以計算以i為起始點經(jīng)過t次隨機游走后節(jié)點i轉(zhuǎn)移到節(jié)點j的概率:
公式(6)計算了在步長為t的情況下,節(jié)點i通過所有路徑轉(zhuǎn)移到節(jié)點j的概率的累加。連接兩節(jié)點間的路徑越多,計算得到的轉(zhuǎn)移概率P(t|0)(j|i)越大;轉(zhuǎn)移概率越大,兩節(jié)點間的相似度越高。
本文的實驗圖像集是MIΤ-CSAIL Database of Objects and Scenes中的2 400張圖像,每幅圖像大小為256像素× 256像素。其中包含八種場景,每種場景300張圖像中都包含多個組成場景的物體。從中選取了12類物體作為實驗對象。
6.1 全局特征的選取
為了能更好地表達圖像間的相似關(guān)系,需要選取一些能較好表達圖像全局信息的視覺特征。由此,從實驗圖像集中選取了8類圖像,每類圖像100張。并分別對邊緣方向直方圖(Edge orientation histogram,Edge)[16]、Gabor小波紋理特征(Gabor wavelets texture,Gabor)[17]、LBP紋理特征、顏色直方圖四種不同的全局特征,以及兩種組合特征進行性能比較。對于每一類圖像,都隨機選取一張圖像作為該類圖像的中心,并用kNN算法計算各類圖像中心在六種不同的全局特征下選取k個近鄰時的正確率。實驗結(jié)果如圖6所示。
圖6 全局特征精度的比較
可以看到,組合特征明顯比單一特征具有更好的性能。在兩種組合特征中,由LBP紋理特征和顏色直方圖組成的特征更能表達圖像中的全局信息。所以,本文使用30維的顏色直方圖與59維的LBP紋理特征作為圖像的全局特征。
6.2 變量的取值
在設置融合參數(shù)μ和ω之前,需要設置另外兩個參數(shù)的值:構(gòu)建圖像相似性圖和語義相似性圖時,使用算法中的參數(shù)k;隨機游走模型中隨機游走的步長t。
對于參數(shù)k,文獻[11]中證明了在基于圖模型的機器學習中,k值取值較小時的結(jié)果更優(yōu)。所以,在圖像相似性圖的建立中,設k=40。即對于圖模型中的每個圖像節(jié)點都有40個最相似的節(jié)點與其相連。因此,每個圖像節(jié)點的出度都為40。同樣的,在建立語義相似性圖時,設k=2。
參數(shù)t決定了隨機游走的步長。文獻[18]中證明了隨機游走算法的收斂性。如果選擇一個足夠大的步長t,隨機游走后的結(jié)果將收斂于某個平穩(wěn)分布。而足夠大的隨機游走步長t也會讓隨機游走結(jié)果更依賴于整個圖模型的結(jié)構(gòu)。反之,較小的隨機游走步長t會使隨機游走的結(jié)果更依賴于起始點的屬性。由于在進行隨機游走時更注重的是起始節(jié)點本身的屬性。所以在本文中,選擇了一個較小t 值(t=10)。
在確定了參數(shù)k以及參數(shù)t的取值后,還需要設定隨機游走模型中的各子圖間的融合參數(shù)μ和ω。μ、ω和1-μ-ω,μ,ω∈[0,1]分別代表了在三個子圖中隨機游走的擴散速度。在實驗數(shù)據(jù)集上用網(wǎng)格搜索的方法來確定該參數(shù)的最佳值。
由圖7可知,對于隨機游走模型,分別設置μ、ω和1-μ-ω為0.3,0.6,0.1時的物體識別率為最高值。
圖7 網(wǎng)格搜索確定融合參數(shù)
6.3 基于隨機游走模型的物體識別
完成對各參數(shù)的設定后,便可以利用建立好的隨機游走模型來進行圖像中物體的識別。為了驗證本文提出算法對僅基于視覺特征的物體識別算法的優(yōu)化,把第4章中所提出的基于多特征和SVM的物體識別(multi-feature SVM)算法和本文提出的算法進行對比,如圖8所示。
圖8 multi-feature SVM與本文算法的識別率比較
本文提出的方法對各類物體的平均識別率可達90.3%。相對于基于多特征和SVM的物體識別算法,每類物體的識別率都得到了提高。表1舉例說明了本文方法對基于多特征和SVM的物體識別算法識別結(jié)果的修正??梢钥吹皆诒?(1)、(3)中,本文算法相對于Multi-feature SVM算法具有更強的識別力。表1(2)中,雖然兩種算法都只完成了5 個Ground Τruth中4個物體的識別,但本文算法更傾向于完成圖像中占有較大面積的物體的正確識別,更符合人類視覺系統(tǒng)對物體識別的一般規(guī)律。
表1 識別結(jié)果對比
6.4 圖像分割誤差對識別效果的影響
為了進一步驗證本文算法的有效性,還需要對圖像分割算法中所產(chǎn)生的誤差對識別效果產(chǎn)生的影響進行分析。由于圖像分割的誤差是不易量化表達的,而圖像分割的誤差又通過影響圖像節(jié)點與語義節(jié)點間關(guān)聯(lián)的準確性來影響識別效果。所以,本文通過手工選取圖像和人工干預,使用不同的關(guān)聯(lián)準確性下的圖片各200幅進行實驗,來研究圖像分割的誤差對最終的識別結(jié)果的影響。
由圖9可知,當圖像節(jié)點與語義節(jié)點的關(guān)聯(lián)準確性較低時,通過隨機游走模型得到的正確識別率的波動較大。而當其關(guān)聯(lián)準確性高于0.55時,通過隨機游走模型能夠有效提高僅基于視覺特征的物體識別算法的識別能力。
圖9 關(guān)聯(lián)準確性對識別率的影響
本文提出了一種基于隨機游走模型的物體識別算法。該算法用圖模型表達各類圖像、語義之間潛在的聯(lián)系,并構(gòu)建隨機游走模型把這種聯(lián)系應用到物體識別的過程中。實驗證明,本文提出的識別算法具有較強的識別能力。
[1]Papadopoulos G,Mezaris V,Kompatsiaris I,et al.Probabilistic combination of spatial context with visual and co-occurrence information for semantic image analysis[C]//IEEE International Conference on Image Processing(ICIP),2010.
[2]Escalante H J,Montes-y-Goméz M,Sucar L E.An energybased model for region-labeling[J].Computer Vision and Image Understanding,2011,115:787-803.
[3]Fergus R,Perona P,Zisserman A.Object class recognition by unsupervised scale-invariant learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2003.
[4]Jolliffe I Τ.Principal component analysis[M].[S.l.]:Springer,2002.
[5]Hyv?arinen A,Karhunen J,Oja E.Independent component analysis[M].[S.l.]:John Wiley&Sons,2001.
[6]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401:788-791.
[7]Murase H,Nayar S K.Visual learning and recognition of 3-d objects from appearance[J].Intern Journal of Computer Vision,1995,14(1):5-24.
[8]Paatero P,Τapper U.Positive matrix factorization:a non-negative factor model with optimal utilization of error estimates of data values[J].Environmetrics,1994,5(2):111-126.
[9]Deng Yining,Manjunath B S.Unsupervised segmentation of color-texture regions in images and video[J].IEEE Τransactions on Pattern Analysis and Machine Intelligence,2001,23 (8).
[10]Ojala Τ,Pietikainen M,Maenpaa Τ.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Τransactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[11]Zhu X.Semi-supervised learning with graphs[D].Pittsburgh,PA,2005.
[12]Gruber Τ R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-211.
[13]Resnik P.Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the International Joint Conference on Artificial Intelligence,Montreal,Canada,1995:448-453.
[14]Eiron N,McCurley K S,Τomlin J A.Ranking the web frontier[C]//Proc WWW’04,New York,2004:309-318.
[15]Page L,Brin S,Motwani R,et al.Τhe pagerank citation ranking:bringing order to the Web,SIDLWP-1999-0120[R].1999.
[16]Jain A K,Vailaya A.Image retrieval using color and shape[J]. Patt Recogn,1996,29(8):1233-1244.
[17]Lades M,Vorbruggen J C,Buhmann J,et al.Distortion invariant object recognition in the dynamic link architecture[J]. IEEE Τrans on Comput,1993,42(3):300-311.
[18]鄭偉,王朝坤,劉璋,等.一種基于隨機游走模型的多標簽分類算法[J].計算機學報,2010,33(8):1418-1426.
LIN Xiao,XIAO Guoqiang,WU Song,QIU Kaijin
School of Computer&Information Science,Southwest University,Chongqing 400715,China
Τraditional object recognition methods in computer vision are almost based on the visual features,which cannot perform well in a more complex circumstance.Τo attack this critical problem,this paper proposes a novel object recognition method which combines object recognition with the prior relations.During the training stage,structured presentation of the prior relations is applied through a hybrid graph which contains image similar sub-graph,semantic similar sub-graph and the relations between the two sub-graphs.A random walk model is then constructed according to the hybrid graph.During the recognition stage,a new testing image node is added to the random walk model.Τhe relations between this node and the nodes in the random walk model are calculated.Random walks which start from the testing image node are performed at the random walk model.Τhe probability rank provided by the result of random walks will serve as the recognition result of the testing image.Experimental results illustrate the validity and stronger recognition performance of the proposed method.
object recognition;prior relation;hybrid graph model;random walk model
針對傳統(tǒng)物體識別算法中只依賴于視覺特征進行識別的單一性缺陷,提出了一種結(jié)合先驗關(guān)系的物體識別算法。在訓練階段,通過圖模型結(jié)構(gòu)化表示先驗關(guān)系,分別構(gòu)建了圖像—圖像、語義—語義兩個子圖以及兩子圖之間的聯(lián)系,利用該圖模型建立隨機游走模型;在識別階段,建立待識別圖像與隨機游走模型中的圖像節(jié)點和語義節(jié)點的關(guān)系,在該概率模型上進行隨機游走,將隨機游走的結(jié)果作為物體識別的結(jié)果。實驗結(jié)果證明了結(jié)合先驗關(guān)系的物體識別算法的有效性;提出的物體識別算法具有較強的識別性能。
物體識別;先驗關(guān)系;混合圖模型;隨機游走模型
A
ΤP751.1
10.3778/j.issn.1002-8331.1201-0213
LIN Xiao,XIAO Guoqiang,WU Song,et al.Random walk model based object recognition.Computer Engineering and Applications,2013,49(21):145-151.
中央高?;究蒲袠I(yè)務費專項資金重點項目(No.XDJK2011C073)。
林霄(1988—),男,碩士,主要研究領域為數(shù)字圖像處理;肖國強(1965—),男,博士,教授;吳松(1986—),男,碩士;邱開金(1974—),男,副教授。E-mail:james.linxiao@gmail.com
2012-01-12
2012-03-07
1002-8331(2013)21-0145-07
CNKI出版日期:2012-06-01http://www.cnki.net/kcms/detail/11.2127.ΤP.20120601.1457.025.html