歐陽寧,羅曉燕,莫建文,張彤
1.桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林 541004
2.桂林電子科技大學(xué)圖像信息研究所,廣西桂林 541004
3.桂林電子科技大學(xué)機(jī)電工程學(xué)院,廣西桂林 541004
基于決策融合的圖像自動(dòng)標(biāo)注方法
歐陽寧1,2,羅曉燕1,莫建文1,2,張彤3
1.桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林 541004
2.桂林電子科技大學(xué)圖像信息研究所,廣西桂林 541004
3.桂林電子科技大學(xué)機(jī)電工程學(xué)院,廣西桂林 541004
圖像自動(dòng)標(biāo)注是根據(jù)圖像的低層視覺特征,推理出圖像的語義內(nèi)容,用一個(gè)或多個(gè)詞語描述圖像內(nèi)容[1-2]。為了減弱圖像低層視覺特征與圖像語義內(nèi)容之間的“語義鴻溝”[3],提高圖像標(biāo)注的性能,低層視覺特征、圖像分割區(qū)域的聚類、語義映射模型是三個(gè)關(guān)鍵的因素。Li[4]等人根據(jù)MPEG-7標(biāo)準(zhǔn)中的視覺描述子提取圖像的顏色、紋理和形狀特征,采用雙編碼遺傳算法選擇最優(yōu)的特征子集并確定其權(quán)重;Feng[5]等人利用多重伯努利相關(guān)模型MBRM (Multiple-Bernoulli Relevance Model)估計(jì)關(guān)鍵詞的概率分布,實(shí)現(xiàn)圖像低層特征和語義關(guān)鍵詞之間的關(guān)聯(lián)。在此基礎(chǔ)上不少學(xué)者研究圖像標(biāo)注的改善[6-7],去除在基本的標(biāo)注結(jié)果中不相關(guān)的詞匯或者填補(bǔ)上可能遺漏的詞匯。如Wang[8]在融合全局特征和局部特征的模型上,利用文本上下文信息改善標(biāo)注結(jié)果;Yohan[9]等人提出了基于知識(shí)和圖算法的圖像標(biāo)注改善方法,其核心是將圖像標(biāo)注改善問題轉(zhuǎn)化為圖的分割問題,用候選標(biāo)注詞及其語義關(guān)系構(gòu)建帶權(quán)圖,用最大分割算法將圖的頂點(diǎn)分為兩部分,選擇其一作為最終標(biāo)注結(jié)果。
上述Li的算法中,其通過雙編碼遺傳算法選擇最優(yōu)的特征子集,在一定程度上優(yōu)化了圖像標(biāo)注性能。但此算法中存在兩個(gè)問題:一是最優(yōu)特征子集的選擇是根據(jù)特征對(duì)整個(gè)圖像訓(xùn)練集的識(shí)別能力,忽略了特征對(duì)每個(gè)語義類圖像的識(shí)別能力;二是它只能為待標(biāo)注的每幅圖像標(biāo)注一個(gè)關(guān)鍵詞。為此,本文分別采用MPEG-7的顏色和紋理描述子為每個(gè)主題下的圖像建立MM混合模型,利用決策融合實(shí)現(xiàn)了圖像自動(dòng)標(biāo)注。在此基礎(chǔ)上,提出了一種局部的加權(quán)決策融合方式,該方法更充分地利用了顏色和紋理信息對(duì)每個(gè)主題圖像的描述能力,圖像自動(dòng)標(biāo)注過程如圖1所示。
圖1 基于局部決策融合的圖像自動(dòng)標(biāo)注過程
2.1 圖像低層視覺特征的提取
其中,minβm為訓(xùn)練集中第m維特征的最小值,maxβm為其的最大值。
MPEG-7視覺描述工具包括的基本描述子為:顏色、紋理、形狀、運(yùn)動(dòng)、定位和人臉識(shí)別[10]。本文在實(shí)驗(yàn)中采用的顏色和紋理描述子如表1所示。對(duì)于任意一幅圖像Ι,其低層視覺特征為β,β∈([βc,βt]),其中βc為顏色特征,βt為紋理特征。β=(β1,β2,…,βm,…,βD),其中D為特征向量的維數(shù),β根據(jù)式(1)進(jìn)行了內(nèi)部歸一化。
表1 MPEG-7顏色和紋理描述子
2.2 MM混合模型的建立
2.2.1 模型原理
假設(shè)1每個(gè)主題中包含的圖像與其原型的距離關(guān)系服從λ分布。λ分布(λ:b,s)的密度函數(shù)為[11]:
其中,Γ(.)是λ函數(shù)。
假設(shè)2在空間Ω局中,每個(gè)主題下的圖像近似看做空間Rk,屬于某個(gè)原型的圖像被看做由一個(gè)多變量正態(tài)分布產(chǎn)生,正態(tài)分布N(u,σ2I)的密度函數(shù)為:
其中,u為均值,σ2I為協(xié)方差矩陣。
其中,D(β,α)表示圖像β到原型α的距離,β為圖像的低層視覺特征。
其中,ωη指屬于原型αη的圖像數(shù)量占整個(gè)訓(xùn)練集圖像的比例。利用圖像到其所屬原型的距離來估計(jì)式中的參數(shù)s 和b。
2.2.2 MPEG-7_MM建模
由于顏色和紋理是對(duì)圖像信息的不同度量,簡單地把兩幅圖像間的相似性定義為顏色特征與紋理特征的距離之和不能充分表達(dá)圖像的信息。為此,本文單獨(dú)利用顏色特征、紋理特征為每個(gè)主題的圖像建立MM模型。
假設(shè)在給定訓(xùn)練圖像集中,共有M個(gè)主題的圖像,每個(gè)主題包含幾個(gè)關(guān)鍵詞,如在主題為“horse”下的一類圖像包含的關(guān)鍵詞為:“horse”、“field”、“tree”、“grass”。在訓(xùn)練集中,設(shè)主題的集合為{1,2,…,M},分別為每類圖像建立兩個(gè)MM混合模型,一個(gè)基于顏色特征的MM模型,一個(gè)基于紋理特征的模型,模型建立的過程如下:
步驟1根據(jù)MPEG-7描述子提取圖像的低層特征β,β∈(βc,βt)。
步驟2通過K均值聚類得到一組原型α,即原型為K均值的聚類中心,計(jì)算每張圖像到其所屬原型的距離,本文采用歐式距離。
步驟3計(jì)算參數(shù)s和bj。
步驟4通過方程(5)為每個(gè)主題建立一個(gè)混合模型。假設(shè)主題m包含原型集{1,2,…,Mm},則m的模型滿足分布:
2.3 基于決策融合的圖像自動(dòng)標(biāo)注實(shí)現(xiàn)
其中,pci為在顏色模型下關(guān)鍵詞i的平均查準(zhǔn)率,pti為在紋理模型下關(guān)鍵詞i的平均查準(zhǔn)率。假設(shè)關(guān)鍵詞i在CSD_ MM模型下的平均查準(zhǔn)率pci為0.787 8,在HΤD_MM模型下的平均查準(zhǔn)率pti為0.590 9。則在CSD和HΤD描述子下的局部加權(quán)融合過程中,關(guān)鍵詞i在顏色模型CSD下的加權(quán)系數(shù)rci為0.787 8/(0.787 8+0.590 9),即0.571。
2.3.2 基于局部決策融合的圖像自動(dòng)標(biāo)注的實(shí)現(xiàn)
假設(shè)訓(xùn)練集中M個(gè)主題包含所有關(guān)鍵詞的集合為W= {W1,W2,…,WN},共N個(gè)關(guān)鍵詞,包含關(guān)鍵詞Wi的語義概念的集合為ε。通過方程(6)為每個(gè)主題建立了兩個(gè)模型,則標(biāo)注一張未知圖像Ι的過程如下:
步驟1提取待標(biāo)注圖像Ι的低層特征β,β∈(βc,βt)。
步驟2分別計(jì)算在顏色和紋理MM混合模型下,圖像
2.3.1 局部決策融合
(4) 圖2中,小腸在吸收營養(yǎng)物質(zhì)時(shí),小腸絨毛內(nèi)有豐富的____________和毛細(xì)淋巴管,有利于食物中的營養(yǎng)成分通過消化道壁進(jìn)入血液。
假設(shè)待標(biāo)注圖像在顏色模型和紋理下,每個(gè)關(guān)鍵詞屬于它的概率分別為qβc、qβt。在決策融合算法中[11],每個(gè)關(guān)鍵詞最終標(biāo)注圖像的概率是通過在兩個(gè)模型下得到的概率進(jìn)行可信度加權(quán)得到,即:q(β)=rc.qβc+rt.qβt。在傳統(tǒng)的決策融合過程中,rc+rt=1,rc,rt∈[0,1],rc、rt分別表示顏色和紋理混合模型的可信度??尚哦燃訖?quán)是根據(jù)某種準(zhǔn)則為顏色和紋理MM混合模型賦予一定的權(quán)重,提高系統(tǒng)的標(biāo)注能力。此處討論的rc和rt屬于全局可信度,如果在某個(gè)模型下,關(guān)鍵詞的平均標(biāo)注性能比較強(qiáng),則賦予該模型一個(gè)較大的權(quán)值,標(biāo)注性能弱,則賦予一個(gè)較小的權(quán)值。假設(shè),在顏色模型下的平均每個(gè)關(guān)鍵詞的標(biāo)注性能高于紋理模型,則賦予顏色模型一個(gè)高的可信度rc,這意味著在顏色模型下得到的每個(gè)關(guān)鍵詞的概率同時(shí)被rc加權(quán)。然而,在顏色模型下,關(guān)鍵詞的平均標(biāo)注性能比較強(qiáng)并不意味著其每個(gè)關(guān)鍵詞的標(biāo)注性能都比紋理模型的強(qiáng),這樣的全局加權(quán)可能會(huì)降低某個(gè)關(guān)鍵字的標(biāo)注性能。
由于傳統(tǒng)的決策融合方法并不能很好地充分利用顏色和紋理對(duì)每個(gè)關(guān)鍵詞的識(shí)別能力。為此,提出局部加權(quán)的決策融合算法來實(shí)現(xiàn)圖像自動(dòng)標(biāo)注。其rc=(rc1,rc2,…,rci,…,rcN),rt=(rt1,rt2,…,rti,…,rtN),N為訓(xùn)練集中關(guān)鍵詞的總數(shù),rci為顏色模型下第i個(gè)關(guān)鍵詞的可信度。這樣,在一個(gè)模型下的關(guān)鍵詞概率會(huì)得到不同的加權(quán)??尚哦萺ci的計(jì)算公式如下:Ι屬于每個(gè)主題的概率Pm(βc)、Pm(βt):
其中,ρm為每個(gè)主題的先驗(yàn)概率。
步驟3分別計(jì)算在顏色和紋理MM混合模型下每個(gè)關(guān)鍵詞標(biāo)注圖像Ι的概率qβc(βc,wi)、qβt(βt,wi):
步驟4融合在顏色和紋理MM模型下的標(biāo)注結(jié)果。
步驟5選擇概率最大的4個(gè)詞來標(biāo)注圖像Ι。
本文選用在圖像自動(dòng)標(biāo)注領(lǐng)域中普遍使用的Corel圖像庫。選取的1 000幅圖像中包含10個(gè)主題,每個(gè)主題有100幅圖像。隨機(jī)選擇每個(gè)主題下的80幅圖像作為訓(xùn)練樣本,剩下的20幅圖像作為測試樣本。訓(xùn)練集中的每幅圖像被標(biāo)注1~4個(gè)關(guān)鍵詞,總共有30個(gè)關(guān)鍵字。為了權(quán)衡圖像自動(dòng)標(biāo)注的性能,本文采用查準(zhǔn)率precision和查全率recall[12]。其定義分別如下:
在實(shí)驗(yàn)中取后驗(yàn)概率最大的4個(gè)關(guān)鍵詞作為每幅圖像的標(biāo)注結(jié)果,測試集中關(guān)鍵詞的平均查準(zhǔn)率、平均查全率如表2所示。
表2 圖像自動(dòng)標(biāo)注性能比較(%)
在實(shí)驗(yàn)中,利用圖像的低層視覺特征為每個(gè)主題下的圖像建立兩個(gè)MM混合模型,如:SCD_MM、CSD_MM、HΤD_ MM和EHD_MM。在決策融合過程中,分別選擇一個(gè)顏色和一個(gè)紋理模型。通過對(duì)本文算法和其他兩種算法進(jìn)行比較,可知顏色模型和紋理模型的決策融合能更好地實(shí)現(xiàn)圖像低層視覺特征到高層語義的映射,且本文提出的局部決策融合算法的標(biāo)注性能最優(yōu),其平均查準(zhǔn)率比特征融合算法分別提高了3.07%、8.36%、0.501%、1.52%。由此說明本文提出的局部決策融合算法,更好地結(jié)合了顏色和紋理特征對(duì)每個(gè)主題圖像的描述能力。
表3 部分圖像標(biāo)注結(jié)果比較
實(shí)驗(yàn)中,將本文算法與現(xiàn)有的三種經(jīng)典標(biāo)注模型:ΤM[1]、CMRM[2]和MBRM[5]進(jìn)行了比較,表3給出了部分圖像的標(biāo)注結(jié)果。
本文通過利用MPEG-7顏色和紋理描述子提取圖像低層視覺特征,為每個(gè)主題下的圖像單獨(dú)建立顏色和紋理的MM混合模型,從而實(shí)現(xiàn)了基于決策融合的圖像自動(dòng)標(biāo)注,并在此基礎(chǔ)上提出了一種局部加權(quán)的決策融合方式。在core1數(shù)據(jù)集上的測試表明該算法充分結(jié)合了圖像的顏色和紋理這兩種特征對(duì)圖像語義內(nèi)容的描述能力,更有效地實(shí)現(xiàn)了多標(biāo)簽的圖像自動(dòng)標(biāo)注。
[1]Duygulu P,Barnard K,F(xiàn)reitasn N,et al.Object recognition as machine translation learning a lexicon for a fixed image vocabulary[C]//Proceedings of the 7th European Conference on Computer Vision(ECCV’02),Part IV,Berlin:Springer,2002:97-112.
[2]Jeon J,Lavrenko V,Manmatha R.Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedingsofthe26th AnnualInternational ACMSIGIR Conference on Reseach and Development in Information Retrieval.New York:ACM Press,2003:119-126.
[3]Hanbury A.A survey of methods for image annotation[J]. Journal of Visual Languages&Computing,2008,19:617-627.
[4]李冉,趙天忠,張亞非,等.基于遺傳特征選擇和支持向量機(jī)的圖像標(biāo)注[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(6):180-183.
[5]Feng S,Manmatha R,Lavrenko V.Multiple bernoulli relevance models for image and video annotation[C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition.Washington,DC:IEEE,2004:1002-1009.
[6]Lin Weichao,Oakes M,Τait J.Improving image annotation via representative feature vector selection[J].Neurocomputing,2010,73:1774-1782.
[7]Hentschel C,Stober S,Nürnberger A.Automatic image annotation using a visual dictionary based on reliable image segmentation[C]//Lecture Notes in Computer Science,2008,4918:45-56.
[8]Wang Y,Mei Τ,Gong S G,et al.Combining global regional and contextual features for automatic image annotation[J]. Pattern Recognition,2009,42(2):259-266.
[9]Jin Y,Khan L,Prabhakaran B.Knowledge based image annotation refinement[J].Signal Process Systems,2010,58(3):387-406.
[10]Kapela R,Sniatela P,Rybarczyk A.Real-time visual content description system based on MPEG-7 descriptors[J].Multimedia Τools and Applications,2011,53(1):119-150.
[11]Li Jia,Wang J Z.Real-time computerized annotation of pictures[J].Τranslation on Pattern Analysis and Machine Intelligence,2008,30(6):985-1002.
[12]Kalashnikov D V,Mehrotra S,Xu Jie.A semantics-based approach for speech annotation of images[J].IEEE Τransactions on Knowledge and Data Engineering,2011,23(9):1373-1386.
OUYANG Ning1,2,LUO Xiaoyan1,MO Jianwen1,2,ZHANG Τong3
1.School of Information&Communication,Guilin University of Electronic Τechnology,Guilin,Guangxi 541004,China
2.Institute of Image Information,Guilin University of Electronic Τechnology,Guilin,Guangxi 541004,China
3.School of Mechatronic Engineering,Guilin University of Electronic Τechnology,Guilin,Guangxi 541004,China
A method for automatic image annotation based on decision fusion is proposed combining the Multimedia Description Interface(MPEG-7)and MM(Mixture Model).In the process of image annotation,two independent MM mixture models are estimated for the images belonging to a theme and mapping is setted up from low-level features to high-level semantics space.Automatic image annotation is achieved by fusing the annotation results from color and text MM mixture model in the way of local decision fusion.Τhe way of local decision fusion is proven to utilize fully the color feature and texture feature and improve the performance of image annotation by the experiments on the image data sets.
automatic image annotation;MPEG-7 descriptor;Mixture Model(MM);decision fusion
結(jié)合多媒體描述接口(MPEG-7)和MM(Mixture Model)混合模型,實(shí)現(xiàn)了基于決策融合的圖像自動(dòng)標(biāo)注。在圖像標(biāo)注過程中,分別利用顏色描述子和紋理描述子為每個(gè)主題下的圖像建立MM混合模型,實(shí)現(xiàn)低層視覺特征到高層語義空間的映射,利用局部決策融合方式融合在顏色和紋理MM混合模型下的標(biāo)注結(jié)果,實(shí)現(xiàn)圖像自動(dòng)標(biāo)注。通過在corel圖像數(shù)據(jù)集上的實(shí)驗(yàn),表明提出的局部決策融合方式能更充分利用圖像的顏色和紋理信息,提高了圖像標(biāo)注性能。
圖像自動(dòng)標(biāo)注;MPEG-7描述子;混合模型;決策融合
A
ΤP391
10.3778/j.issn.1002-8331.1201-0214
OUYANG Ning,LUO Xiaoyan,MO Jianwen,et al.Method of automatic image annotation based on decision fusion. Computer Engineering and Applications,2013,49(21):156-159.
廣西自然科學(xué)基金(No.2011GXNSFA018158);廣西科技開發(fā)項(xiàng)目(桂科攻11107006-45)。
歐陽寧(1972—),男,博士,教授,主要研究方向?yàn)閳D像數(shù)據(jù)處理、數(shù)據(jù)融合、智能信號(hào)處理等;羅曉燕,碩士研究生;莫建文,博士,副教授;張彤,副教授。E-mail:luoxiaoyan51@163.com
2012-01-12
2012-04-23
1002-8331(2013)21-0156-04
CNKI出版日期:2012-06-01http://www.cnki.net/kcms/detail/11.2127.ΤP.20120601.1457.024.html