王挺進,趙永威,李弼程
(信息工程大學信息系統(tǒng)工程學院,鄭州450002)
基于顯著圖加權視覺語言模型的圖像分類方法
王挺進,趙永威,李弼程
(信息工程大學信息系統(tǒng)工程學院,鄭州450002)
傳統(tǒng)基于視覺語言模型(VLM)的圖像分類方法在參數(shù)估計階段,通常采用最大似然估計的方式統(tǒng)計視覺單詞的分布,忽略了圖像背景噪聲對該模型參數(shù)估計的影響。為此,提出一種新的圖像分類方法。利用基于視覺注意的顯著性檢測算法提取圖像中的顯著區(qū)域和背景區(qū)域,構建的圖像帶有顯著圖標識的視覺文檔,訓練視覺單詞的顯著度權重和條件概率,并使用顯著圖加權視覺語言模型進行圖像分類。實驗結果表明,與傳統(tǒng)VLM等方法相比,該方法能有效克服圖像背景噪聲的影響,增強視覺單詞的區(qū)分性,提高分類準確率。
圖像信息;視覺語言模型;圖像分類;背景區(qū)域;顯著圖
隨著計算機和網絡技術的快速發(fā)展,圖像信息呈爆炸式增長。面對大規(guī)模的圖像數(shù)據(jù),如何利用計算機進行高效、有序的組織并進行圖像的分類和檢索,已然成為當前計算機視覺領域的研究熱點和難點之一。而圖像分類結果的好壞直接影響著后續(xù)的高層次處理結果,比如物體定位和行為檢測等。
傳統(tǒng)的圖像分類方法通常對圖像進行整體描述,提取顏色、邊緣、紋理等全局特征構成圖像直方圖進行表示。近年來,由于“詞袋模型”在文本處理領域取得了巨大的成功,其思想被研究者們移植到計算機視覺領域,將圖像表示成一系列視覺關鍵詞的直方圖。但是傳統(tǒng)的“詞袋模型”忽略了視覺單詞之間的聯(lián)系,為了獲得更好的性能,研究者們開始對“詞袋模型”進行改進:在特征提取方面,文獻[1]提出一種改進的尺度不變特征變換(Scale Invariant Feature Transform, SIFT)特征用來構建視覺詞袋進行圖像分類,極大降低了特征維數(shù)和計算復雜度;在視覺詞典生成方面,文獻[2]提出一種基于上下文語義信息的圖像塊視覺
單詞生成方法,在一定程度上提高了視覺單詞的區(qū)分性;文獻[3]提出一種基于隨機化視覺詞典組的方法,降低了視覺單詞的同義性和歧義性,增強了目標的區(qū)分性;在語義表達方面,文獻[4]提出了一種多方向上下文特征結合空間金字塔模型的場景分類,該方法將圖像塊在特征域的相似性同空間域的上下文關系有機地結合起來并加以類別區(qū)分;文獻[5]提出一種基于視覺詞組包模型的圖像分類方法,將圖像的局部特征聚成視覺詞組,再通過詞袋模型進行分類,取得了不錯的效果;文獻[6]提出一種隨機化的視覺詞組物體搜索方法,提高了復雜背景條件下的區(qū)分性。為了克服底層視覺特征與高層語義之間的語義鴻溝,還有的學者用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型等主題分析模型來找出圖像最可能屬于的主題或者潛在語義,從而完成圖像分類。
然而,上述改進方法忽略了圖像特征之間的分布規(guī)律,圖像集合類內和類間的統(tǒng)計信息也無法獲得。鑒于此,越來越多的人開始從概率統(tǒng)計的角度進行研究。比較有代表性的是文獻[7]提出的視覺語言模型(Visual Language Model,VLM),該方法借鑒文本處理領域統(tǒng)計語言模型的思想,將其移植到計算機視覺領域,認為圖像和文本類似,也是由某種視覺單元按照一定的視覺語法排列而成。文獻[8]在視覺語言模型的基礎上提出了尺度不變視覺語言模型,解決了圖像分類過程中尺度匹配問題;同年,文獻[9]將視覺語言模型用于場景識別,取得了比較好的結果;文獻[10]在將視覺語言模型運用到物體姿態(tài)和結構估計上,又進一步擴大了該模型的運用范圍;文獻[11]在專利中進一步完善并詳細的描述了視覺語言模型的整個訓練和分類過程;文獻[12]給出一種基于視覺語言模型的圖像語義挖掘方法,該方法是在二元視覺語言模型的基礎上通過視覺單詞的權重進行選擇,然后構建圖像的視覺語言模型,最后進行圖像分類,取得了不錯的效果。由此可見,視覺語言模型在計算機圖像處理領域已經逐漸開始發(fā)展起來,受到越來越多的研究者的青睞,并成為一個新的研究熱點。
然而,傳統(tǒng)的視覺語言模型完全借鑒了統(tǒng)計語言模型的方法,將整幅圖像劃分成同等重要的視覺單詞集合,只是對視覺單詞排列的視覺語法進行假設,簡單地通過視覺單詞或視覺單詞組合出現(xiàn)的頻次進行統(tǒng)計。但是,這樣的處理并沒有考慮到圖像和文本的本質不同,圖像的背景復雜多變,不同的物體可以有相同的背景,同一類物體背景往往不是單一的,分布在背景中的視覺單詞對圖像內容表達的貢獻程度比在前景目標上的要小得多。針對上述問題,本文提出一種基于顯著圖加權視覺語言模型的圖像分類方法。利用基于視覺注意的顯著性檢測技術實現(xiàn)圖像前景和背景的劃分,將不同區(qū)域的同一視覺單詞賦予不同的顯著度權重,增強視覺單詞的區(qū)分性。
視覺語言模型的思想來源于文本處理中的統(tǒng)計語言模型,是一種通過統(tǒng)計視覺單詞間的概率分布,以達到分析圖像塊之間空間相關信息的模型。文本處理中的最小單位是具有特定含義的單詞,而圖像中最小的單位為像素,無法表達具體的內容,因此,通常采用具有多個像素的圖像塊來進行描述。
給定一幅圖像I,首先把圖像分成m×n個大小相等、互不遮擋的圖像塊,每一個圖像塊都根據(jù)它的視覺特征用一個視覺單詞表達。這樣,圖像I就可以表達成一個視覺文檔I={w00,w01,…,wmn},其中,wij表示圖像中第i行、第j列的視覺單詞。然后,每一幅圖像就可以利用文本處理領域中的概率分布估計方法獲得圖像塊語義之間的相互依賴關系。比較常用的是一元視覺語言模型和二元視覺語言模型,其中,一元視覺語言模型假設圖像中的視覺單詞都是獨立的,二元視覺語言模型假設圖像中的視覺單詞都是兩兩相關的,即每一個視覺單詞只依賴于它的左最近鄰,其條件概率估計方法如下:
其中,Ck表示圖像集中的第k個類別;count(wij|Ck)表示在圖像類別Ck中視覺單詞wij出現(xiàn)的次數(shù);count(wij,wi,j-1|Ck)表示在圖像類別Ck中相鄰視覺單詞對(wij,wi,j-1)出現(xiàn)的次數(shù)。
然而,由于條件概率的計算方法采用了極大似然估計,可能會出現(xiàn)零概率的現(xiàn)象,即數(shù)據(jù)的稀疏性問題,因此訓練過程中通常需要采用相應的平滑算法對統(tǒng)計結果進行平滑避免零概率事件的出現(xiàn)。
最后,每一個待分類圖像按照訓練過程一樣將其轉換成一個視覺文檔表示,按照圖像視覺單詞和類別間的聯(lián)合概率來估計待分類圖像的類別。根據(jù)貝葉斯公式有:
其中,C?為圖像最終所屬的類別。
由于光照、尺度、物體遮擋以及復雜背景等各種因素的影響,使得圖像分類一直是一個非常具有挑戰(zhàn)性的難題。傳統(tǒng)視覺語言模型通過分塊的方法將圖像轉換成視覺文檔,利用文檔處理領域中統(tǒng)計語言模型的方法分析視覺單詞間的空間位置信息。然而,文本中每一個單詞都具有特定的含義,對于圖像分類而言,同一個視覺單詞可能在背景區(qū)域,也可能在前景區(qū)域,使得映射到同一個視覺單詞上的圖像塊可能對圖像語義的表達具有不同的重要性。而通常情況下人們只關心圖像中最為顯著的目標,通過分析該目標的內容進行類別判定,背景區(qū)域中的視覺單詞屬于類別判定依據(jù)的輔助信息,不當?shù)睦迷撔畔⑸踔量赡軙绊懛诸惤Y果的準確率。為了克服圖像背景噪聲的影響,文獻[13]利用圖像背景噪聲的隨機性,通過EMD(Earth Mover Distance)[14]來計算圖像局部特征和圖像之間的相關性程度,并賦予一定的權重,然后濾除掉設定的權重閾值以下的局部特征,以達到降低圖像背景噪聲影響的目的,并取得了不錯的效果。文獻[15]指出了圖像背景中的視覺詞組(Visual Phrases,VP)對圖像內容的識別具有負面影響,利用標注信息將背景中的視覺詞組直接去除。文獻[16]分析了同一類物體可能出現(xiàn)在不同的位置和不同的背景當中,復雜多變的背景信息會干擾圖像相似度的計算,降低圖像分類準確率。
因此,圖像背景和前景中的視覺單詞對于圖像的描述應該具有不同的貢獻程度,前景目標中的視覺單詞應該被優(yōu)先考慮,并且適當提高它的權重。圖1為2幅不同類別,且視覺單詞分布的區(qū)域也不相同的圖像,但2幅圖中的每一個視覺單詞卻具有相同的頻次。其中,實心小矩形、三角和圓圈代表不同區(qū)域的特征;中間的空心圓形區(qū)域代表前景目標;其他區(qū)域代表背景。以一元視覺語言模型為例,傳統(tǒng)視覺語言模型按式(1)會估計出圓點代表的視覺單詞在2幅圖像中的條件概率相同。然而,可以看出圓點代表的視覺單詞在圖1(a)中比在圖1(b)中更能表達該類圖像的語義,應該具有更高的權重。
圖1 頻次相同但顯著位置不同的圖像示例
綜上所述,為了有效降低圖像背景噪聲的影響,提高視覺語言模型參數(shù)估計的準確性和視覺單詞的區(qū)分性,進而提高該模型的語義表達能力和圖像分類準確率,本文提出一種顯著圖加權視覺語言模型的圖像分類方法,實現(xiàn)流程如圖2所示,其中,虛框表示參數(shù)訓練過程。該方法首先采用基于視覺注意的顯著性檢測算法提取圖像中受人眼關注的顯著區(qū)域,然后根據(jù)圖像區(qū)域顯著度的不同,賦予視覺單詞一定的權重,并對視覺語言模型估計的參數(shù)進行加權處理。
圖2 顯著圖加權視覺語言模型的圖像分類實現(xiàn)流程
3.1 顯著區(qū)域的提取
圖像顯著度表示的是圖像特征的顯著程度?;谝曈X注意的顯著性檢測對于圖像內容的表達和分析過程有著非常重要的意義,它能夠模仿人類所具有的感知選擇能力判斷圖像中哪些區(qū)域對于人眼來說是顯著的,檢測完以后用灰度進行量化,最終可以得到顯著圖,利用顯著圖不同的顯著程度能夠提高現(xiàn)有圖像處理的分析能力。如2012年,文獻[17]利用顯著圖提取和層次時間記憶(Hierarchical Temporal Memory,HTM)用來進行物體識別和分類,2013年,文獻[18]提出一種顯著性引導視覺匹配的近似重復圖像檢索,在詞袋模型的基礎上提高
了平均準確率。
1998年提出的Itti算法文獻[19]是一種經典的顯著性檢測算法,大致分為高斯濾波、計算底層空間特征圖和計算顯著圖3個階段。而本文采用的基于圖論的視覺顯著(Graph Based Visual Saliency, GBVS)算法[20]是在Itti算法的基礎上引入了圖論的知識把圖像轉換為有向完全圖,并用馬爾科夫鏈生成顯著圖,提取的顯著區(qū)域比Itti算法更加準確。GBVS算法的特征提取階段和Itti算法類似,都是利用顏色、亮度、方向3個特征生成多個尺度的特征圖,GBVS算法的顯著圖生成階段按如下步驟進行:
(1)定義2個特征圖M:[n]2→R,特征圖中節(jié)點的距離定義如下:
(2)將特征圖M中的所有節(jié)點兩兩相連得到有向完全圖G,并且節(jié)點M(i,j)到節(jié)點M(p,q)所在的邊按下式賦予一定的權重:
(3)將從同一個節(jié)點出發(fā)的邊的權重歸一化到區(qū)間[0,1]。在圖G上定義馬爾科夫鏈,從節(jié)點兩兩對比中得到顯著值,并對顯著值歸一化后得到最終的顯著圖SM[21]。有了顯著圖SM以后,對原圖像提取顯著區(qū)域:
其中,SMp表示顯著圖SM中的第p百分位數(shù)(將一組n的觀測值按數(shù)值大小進行排列,處于第p%位置的數(shù)值稱為第p百分位數(shù));R表示提取的顯著區(qū)域。百分位數(shù)p的值越大,提取的顯著區(qū)域越小,當p的值為0時,提取的顯著區(qū)域就為整幅圖像。圖3是當p=75時,GBVS算法和Itti算法提取的顯著區(qū)域結果對比。
圖3 GBVS算法和Itti算法顯著區(qū)域提取結果對比
3.2 顯著圖加權視覺語言模型的構建
對于圖像庫中的每一幅圖像I,首先,根據(jù)視覺語言模型的假設,將其分成m×n個大小相等、互不遮擋的圖像塊,對每一個圖像塊按照文獻[8]方法提取8維的紋理直方圖特征,該特征不僅對旋轉具有很好的魯棒性,而且相比SIFT特征、RGB和HSV顏色特征而言維度更低,計算更為方便;再將所有的特征通過k-means聚類,生成視覺詞典V;然后,將圖像中每一個圖像塊對應的特征向量映射到視覺詞典中具體的視覺單詞上,這樣,圖像I就可以按式(1)表示成一個視覺文檔;最后,將處在圖像中不同區(qū)域的視覺單詞進行顯著度標識。不失一般性,每一個視覺文檔可以表示成m×n個帶有顯著圖標識的視覺單詞的集合,即:
其中,wi對應視覺詞典V中的視覺單詞;yi表示該視覺單詞所處的區(qū)域,y=1表示該視覺單詞處在顯著區(qū)域,y=-1表示該視覺單詞處在背景區(qū)域。然后每一個視覺單詞的條件概率根據(jù)所處的區(qū)域加上不同的顯著度權重,其參數(shù)估計和顯著度權重計算表達式如下:
此外,本文還考慮到另外2種情況:(1)當視覺單詞wi的顯著權重αi,k為1的時候,非顯著權重βi,k就為0(或者非顯著權重βi,k為1的時候,顯著權重αi,k就為0),就會使得式(11)(或者式(12))中的乘積為0。為了避免這種情況的出現(xiàn),本文也對顯著度權重進行簡單的平滑處理;(2)當視覺單詞wi沒有出現(xiàn)在類別Ck中時候,顯著度權重就沒法通過式(13)~式(15)獲得。因此,本文假設這樣的視覺單詞在類別Ck中顯著權重和非顯著權重是相等的,都取值為0.5,在沒
有先驗知識或者訓練數(shù)據(jù)不夠充分的情況下這樣的假設也是合理的。
對于一幅待分類圖像,按照訓練過程將其生成對應帶有顯著圖標識的視覺文檔,然后按照貝葉斯公式計算該圖像屬于各個類別的概率,以最大值所屬類別判為該圖像的最終分類結果。對應一元視覺語言模型和二元視覺語言模型的分類計算方法分別為:
其中,ωwi,k表示第k個類別中第i個視覺單詞wi的顯著度權重,處于顯著區(qū)域時取值為顯著權重αi,k,處于背景區(qū)域時取值為非顯著權重βi,k。特別要說明的是,當圖像的所有區(qū)域都定義為顯著區(qū)域時,即默認所有的視覺單詞都是顯著的,這樣每一個視覺單詞的顯著權重都為1,非顯著權重都為0,則本文方法退化為傳統(tǒng)的視覺語言模型,所以,可以說傳統(tǒng)視覺語言模型是本文方法的一個特例。
本文實驗數(shù)據(jù)采用構建的Callech-101圖像庫[22],共包含了101個物品分類共8 677幅圖像。這里從圖像庫中選取6個類別進行實驗,分別為飛機、汽車、人臉、鋼琴、蝴蝶和消防車共6個類別,每一個類別的圖像的數(shù)量在90~800不等,且每一個類別的圖像都具有較大的類內差異和復雜的背景信息,更能驗證本文改進方法的性能。圖4給出了每一類圖像的示例。
圖4 6類實驗圖像示例
為了獲取可靠的實驗結果,將所選擇的圖像類別隨機分為訓練集和測試集2個部分,每一類的圖像隨機選擇80幅圖像進行實驗,其中,50幅圖像作為訓練集,30幅圖像作為測試集。此外,為了方便圖像進行多種分塊處理,將所有圖像大小均統(tǒng)一重置成200×200像素。最后重復進行10次獨立實驗,并將所有類別的平均準確率(Mean Average Precision,MAP)作為最終的性能評價指標,其定義如下:
本文分析不同視覺詞典大小對視覺語言模型分類結果的影響。分別采用4種不同的視覺單詞數(shù)目,包括{50,100,200,300},圖像的分塊數(shù)量為20× 20塊,其分類性能的比較情況如圖5所示。
圖5 不同詞典大小對分類結果的影響
實驗結果表明,選取合適的詞典大小的確對分類性能有一定的影響:一方面,視覺單詞數(shù)目太少時,不能有效地表達圖像內容的復雜性,且容易造成同一視覺單詞表示不同圖像內容的情況,即視覺單詞的歧義性問題;另一方面,增大視覺詞典的規(guī)模的確能在一定程度上提高分類的性能,但是,當視覺詞典規(guī)模達到一定程度時對分類效果的提升并不明顯,并且隨著視覺單詞數(shù)目的增多,也容易造成視覺單詞的同義性問題。此外,視覺語言模型參數(shù)估計的復雜度也將隨之增大,更容易產生數(shù)據(jù)的稀疏問題。因此,本文在實驗中采用分類性能較高的視覺單詞數(shù)目200。
本文分析不同的圖像分塊規(guī)則對視覺語言模型分類結果的影響。實驗結果如圖6所示,其中,分塊規(guī)則的條件為p=60。由圖6可以看出,分塊數(shù)目也是決定視覺語言模型分類性能的一個重要參數(shù),分塊數(shù)目較小時造成圖像塊描述圖像比較粗糙,對圖像語義的表達帶來很多冗余的信息,影響了圖像分類的結果,然而分塊數(shù)目過多也容易造成生成的圖
像塊太小,描述過于精細對圖像語義的表達又不準確。針對不同的圖像庫選擇合適的分塊數(shù)目能有效增強圖像語義的表達能力,提高視覺語言模型的分類準確率。從實驗結果可以看出,不同的分塊數(shù)目條件下本文方法的分類準確率都要優(yōu)于傳統(tǒng)視覺語言模型。
圖6 不同分塊數(shù)目下2種方法的平均準確率對比
本文再分析不同的百分位數(shù)對視覺語言模型分類結果的影響。實驗結果如圖7所示。特別要說明的是當百分位數(shù)取值為0時,提取的顯著區(qū)域為整幅圖像,此時,本文方法退化為傳統(tǒng)視覺語言模型。在圖7的實驗結果中,百分位數(shù)取值為0時表示取整幅圖為顯著區(qū)域,即傳統(tǒng)的視覺語言模型。隨著百分位數(shù)的增大,提取的顯著區(qū)域就越小,然而不同圖像類別的前景目標在圖像中所占的顯著比例是不一樣的。一方面,提取的顯著區(qū)域越精準,訓練的權重就越可靠,分類的結果越好;另一方面,提取的顯著區(qū)域太粗糙時,也有可能造成圖像語義表達的冗余,降低了視覺語言模型的分類準確率。如百分位數(shù)取值為25時,提取的顯著區(qū)域過大,百分位數(shù)取值為90時,提取的顯著區(qū)域又過小,2種情況的分類結果反而比傳統(tǒng)視覺語言模型要低。但是由圖7的實驗結果已經充分說明了在合適的百分位數(shù)條件下(如p取值為60時)本文提出的顯著圖加權視覺語言模型可以通過挖掘圖像中視覺單詞的顯著性程度,有效地提高視覺單詞的語義區(qū)分性,改善了視覺語言模型的分類性能。
圖7 不同p下2種方法的平均準確率對比
將顯著圖加權視覺語言模型的圖像分類和傳統(tǒng)視覺語言模型的圖像分類方法以及文獻[10,14]中的視覺語言模型改進方法的實驗結果做了對比,如表1所示。文獻[10]方法采用多尺度視覺語言模型解決了分類目標的尺度匹配問題,文獻[14]方法則利用視覺單詞的頻次和圖像頻數(shù)對視覺單詞的權重進行了優(yōu)化,兩者從不同的角度在一定程度上彌補了傳統(tǒng)視覺語言模型的不足,但在參數(shù)估計時仍然忽略了圖像背景噪聲的影響,在圖像背景較為復雜的情況下減弱了參數(shù)估計的準確性,降低了圖像分類的性能。而本文提出的顯著圖加權視覺語言模型針對視覺單詞所區(qū)域的不同,增加了估計參數(shù)的顯著度權重,有效降低了圖像背景噪聲的影響。從表1可以看出,本文方法的性能優(yōu)于其他方法。
表1 4種方法平均準確率比較%
本文提出一種基于顯著圖加權視覺語言模型的圖像分類方法。該方法將基于視覺注意的顯著性檢測算法與視覺語言模型相結合,采用顯著圖加權機制挖掘視覺單詞的顯著性。實驗結果表明,該方法具有較好的分類性能,其分類準確率得到提高。然而,本文方法的性能依賴于顯著圖提取的準確性,提取顯著區(qū)域的參數(shù)需要人為設定,在一定程度上降低了該方法的自適應性,因此,如何準確地分割前景目標和提高其自適應性是今后的研究重點。
[1]Gao Haolin,Dou Linhui,Chen Weijin.Image Classification with Bag-of-Words Model Based on Improved SIFT Algorithm[C]//Proceedings of the 9th Asian Control Conference.[S.l.]:IEEE Press,2013:1-6.
[2]劉碩研,須 德.一種基于上下文語義信息的圖像塊視覺單詞生成算法[J].電子學報,2010,38(5):1156-1161.
[3]趙永威,郭志剛,李弼程,等.基于隨機化視覺詞典組和上下文語義信息的目標檢索方法[J].電子學報, 2012,40(12):2472-2480.
[4]胡正平,涂瀟蕾.多方向上下文特征結合空間金字塔模型的場景分類[J].信號處理,2011,27(10): 1536-1542.
[5]張琳波,王春恒,肖柏華,等.基于Bag-of-Phrases的圖像表示方法[J].自動化學報,2012,38(1):46-54.
[6]Jiang Yang,Meng Ji,Yuan Jin.Randomized Visual Phrases for Object Search[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE Press,2012:3100-3107.
[7]Wu Lei,Li Meng,Li Zi,et al.Visual Language Modeling for Image Classification[C]//Proceedings of International WorkshoponWorkshoponMultimediaInformation Retrieval.Pairs,France:IEEE Press,2007:115-124.
[8]Wu Lei,Hu Yong,Li Meng,et al.Scale-invariant Visual Language Modeling for Object Categorization[J].IEEE Transactions on Multimedia,2009,11(2):286-294.
[9]Pham T T,MaisonnasseL,MulhemP,etal.Visual Language Model for Scene Recognition[C]//Proceedings of Singaporean-French Ipal Symposium.New York,USA: ACM Press,2009:76-85.
[10]Narayanaswamy S,BarbuA,SiskindJM.A Visual Language Model for Estimating Object Pose and Structure in a Generative Visual Domain[C]//Proceedings of IEEE International Conference on Robotics and Automation.Landon,UK:IEEE Press,2011:4854-4860.
[11]Li Minjin,MaWuyang.VisualLanguageModeling for Image Classification:USA,US008126274B2[P].2012-02-28.
[12]金 聰,劉金安,金樞煒.基于視覺語言模型的圖像語義挖掘研究[J].圖書情報工作,2013,57(5): 120-123.
[13]Liu Shi,Bai Xia.Discriminative Features for Image Classification and Retrieval[J].Pattern Recognition Letters,2012,33(6):744-751.
[14]Rubner Y,Tomasi C,Guibas L J.The Earth Mover’s Distance as a Metric for Image Retrieval[J].International Journal of Computer Vision,2000,40(2):99-121.
[15]Chen Tao,Kang Ya,Zhang Deng.Discriminative Soft Bagof-Visual Phrase for Mobile Landmark Recognition[J].IEEE Transactions on Multimedia,2013,16(3):612-622.
[16]Yan Yupeng,Tian Xinmei,Yang Linjun,et al.Semanticspatial Matching for Image Classification[C]//Proceedings of IEEE International Conference on Multimedia and Expo.New York,USA:IEEE Press,2013:1-6.
[17]Kostavelis I,Nalpantidis L,Gasteratos A.Object Recognition Using Saliency Maps and HTM Learning[C]//Proceedings of IEEE International Conference on Imaging Systems and Techniques.Paris,France:IEEE Press,2012:528-532.
[18]Li Lin,Jiang Shan,Zha Zheng,et al.Partial-duplicate Image Retrieval via Saliency-guided Visually Matching[J].IEEE Transactions on Multimedia,2013,20(3):13-23.
[19]Itti L,Koch C,Niebur E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE TransactionsonPatternAnalysisandMachine Intelligence,1998,20(11):1254-1259.
[20]Harel J,KochC,PeronaP.Graph-basedVisual Saliency[C]//ProceedingsofAdvancesinNeural Information Processing Systems.Washington D.C.,USA: IEEE Press,2006:545-552.
[21]馬儒寧,涂小坡,丁軍娣,等.視覺顯著性凸顯目標的評價[J].自動化學報,2012,38(5):870-876.
[22]Li Feifei,Fergus R,Perona P.Learning Generative Visual Models from Few Training Examples:An Incremental Bayesian Approach Tested on 101 Object Categories[J].Computer Vision and Image Understanding,2007,106(1): 59-70.
編輯 劉 冰
Image Classification Method Based on Weighted Visual Language Model for Saliency Map
WANG Tingjin,ZHAO Yongwei,LI Bicheng
(Institute of Information System Engineering,Information Engineering University,Zhengzhou 450002,China)
At the parameter estimation stage of the image classification method based on the traditional Visual Language Model(VLM),the distribution of visual words is usually analysed via maximum likelihood estimation,which ignores the adverse effect of image background noise.In view of the problem,an image classification method of weighted VLM for saliency map is put forward.The salient regions and background regions are extracted via saliency detection algorithm based on visual attention,the visual documents of images with salient labels are constructed,and the salient weights and conditional probability are estimated in the training phase.The images are classified with weighted VLM for saliency map.Experimental results show that,this method can effectively reduce the influence of image background noise,and enhances the discrimination performance of visual words,so as to improve the performance of image classification based on VLM.
image information;Visual Language Model(VLM);image classification;background region;saliency map
王挺進,趙永威,李弼程.基于顯著圖加權視覺語言模型的圖像分類方法[J].計算機工程,2015, 41(3):204-210.
英文引用格式:Wang Tingjin,Zhao Yongwei,Li Bicheng.Image Classification Method Based on Weighted Visual Language Model for Saliency Map[J].Computer Engineering,2015,41(3):204-210.
1000-3428(2015)03-0204-07
:A
:TP391
10.3969/j.issn.1000-3428.2015.03.039
王挺進(1988-),男,碩士研究生,主研方向:圖像分析與處理;趙永威,博士研究生;李弼程,教授、博士、博士生導師。
2014-03-21
:2014-04-28E-mail:363078125@qq.com