宋海玉,李雄飛,包翠竹,金 鑫,岳青宇
(1.大連民族學院計算機科學與工程學院,遼寧大連116605;2
.吉林大學計算機科學與技術(shù)學院,吉林長春 130012)
基于視覺內(nèi)容與語義相關(guān)的圖像標注模型
宋海玉1,2,李雄飛2,包翠竹1,金 鑫1,岳青宇1
(1.大連民族學院計算機科學與工程學院,遼寧大連116605;2
.吉林大學計算機科學與技術(shù)學院,吉林長春 130012)
針對當前標注系統(tǒng)的不足,設(shè)計了一種高效的標注模型,其標注步驟包括標注和標注改善,標注算法采用加權(quán)的正反例標志向量法,標注改善采用NGD方法。實驗表明,標注效率遠優(yōu)于經(jīng)典的標注模型,標注質(zhì)量優(yōu)于大多數(shù)標注模型。
圖像標注;標注改善;歸一化Google距離
近年來,隨著計算機技術(shù)、數(shù)碼技術(shù)、存儲技術(shù)的迅速發(fā)展,以及計算機網(wǎng)絡(luò)的普及,每天大量的圖像由數(shù)碼產(chǎn)品制作,并在網(wǎng)絡(luò)上存儲、傳播。如何有效地訪問和管理這些數(shù)據(jù)成為一項亟需解決的課題。近年來涌現(xiàn)出了很多經(jīng)典的基于內(nèi)容的圖像檢索系統(tǒng)(CBIR),例如 IBM QBIC,MIT PhotoBook等。它們都是通過計算圖像的底層視覺信息(如顏色、紋理)確定相似圖像。盡管CBIR系統(tǒng)取得了很大進展,但其檢索效果和方式依然不能令人滿意。其主要原因是計算機所使用的低層視覺特征與人所理解的高層語義之間存在著巨大的語義鴻溝[1]。人們更習慣于提交待檢索目標對象的名稱或者相關(guān)的語義描述作為檢索線索,而不是提交一幅完整圖像。此外,CBIR僅僅解決了圖像檢索問題,而作為無結(jié)構(gòu)化的圖像數(shù)據(jù),其存儲、管理等依然是一個有待于解決的問題。自動圖像標注是上述問題的可行解決方案。通過對圖像標注文本詞匯,很容易采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫方式組織和管理圖像數(shù)據(jù)。自1999年提出圖像標注以來,自動圖像標注已經(jīng)逐漸成為圖像檢索、計算機視覺、機器學習等領(lǐng)域非?;钴S的研究熱點。
當前主流的圖像標注方法主要有兩種:概率模型方法、分類方法。
第一種方法是學習圖像與關(guān)鍵詞之間相關(guān)的概率模型,使用概率模型方法完成圖像標注。概率模型的最早的方法是Mori于1999年提出的共生模型[2],此后,Duygulu 和Kobus于ECCV2002上提出翻譯模型[3],Jeon于 ACM SIGIR2003提出著名的跨媒體相關(guān)模型(Cross-Media Relevance Model,CMRM)[4]。CMRM 是概率模型的代表性模型,它對后續(xù)的標注模型產(chǎn)生了很大的影響。諸如著名的Continuous Relevance Model(CRM)和Multiple Bernoulli Relevance Model(MBRM)等都可以認為是 CMRM 的后續(xù)模型[5-6]。
第二種方法把圖像標注問題視為圖像分類問題,每個概念或文本標注詞可視為分類系統(tǒng)中的類標簽。對每一個類,在訓練階段通過從有類別標簽的訓練圖像集中學習并獲得相應(yīng)模型后,在測試階段就可以為新圖像(測試圖像)生成類別標簽,即完成測試圖像的標注。代表性作品有Bayes,SVM,2D -HMM 等用于圖像標注中[7]。
共生模型、翻譯模型的標注效果較差(F1分別為2%和4%),CMRM以較低的代價取得了較好的效果(F1為9.47%)。CMRM的后續(xù)算法CRM、MBRM性能有了極大的提升(F1分別為17%,23%),但他們系統(tǒng)開銷極大,很難用于大規(guī)模數(shù)據(jù)處理。分類方法最大的優(yōu)點在于可以應(yīng)用現(xiàn)有的成熟的機器學習模型,但其缺點是訓練代價大,而且,由于分類數(shù)非常有限,很難用于幾百、幾千個概念的多類分類。
Jin于2005年率先提出了標注改善方法[8],他提出了利用語義網(wǎng)(WordNet)來計算標注詞之間的語義關(guān)系,以去除噪音標注詞的標注改善算法。在圖像標注改善中,包括Jin在內(nèi)的幾乎所有的基于語義網(wǎng)的標注改善方法,在計算概念的語義相似度時候,都簡化了語義知識。并且,以WordNet為代表的語義網(wǎng),僅僅給出概念之間是否相關(guān)的定性評判,不能給出概念的語義相似度的定量測量。圍繞如何定量表示語義相似度,研究人員給出了很多嘗試,但沒有一種完美的方法,而且往往容易與人的理解相矛盾。另外,WordNet還存在詞匯不可擴展性,若WordNet中不包含候選標注詞的話,則無法使用。
由于基于語義網(wǎng)的標注改善算法關(guān)注的詞匯之間的語義相近程度,而不是詞匯相關(guān)性,標注改善沒有取得預期效果。很多學者提出了利用訓練集中圖像標注詞的共存性計算詞匯相關(guān)性,標注改善性能有一定提升。但受到訓練集中圖像數(shù)量的限制,很多詞匯之間的關(guān)聯(lián)性無法通過訓練集體現(xiàn)出來。
本文所提出的模型如圖1,該系統(tǒng)由兩部分組成。第一部分完成模型訓練,即為圖像集中所有關(guān)鍵詞構(gòu)造標志性特征向量。訓練集中所有圖像均實現(xiàn)標注詞的人工標注。訓練集中所有圖像柵格化為固定大小的圖塊(patch),根據(jù)特征選擇和表示算法提取每個圖塊的視覺特征。通過聚類算法使得相似的圖塊聚成一類,每一聚類稱為一個可視詞匯(visual word),并由該可視詞匯代表該聚類內(nèi)的所有圖塊的視覺特征。這樣就實現(xiàn)了圖塊特征從連續(xù)向量到離散向量的轉(zhuǎn)變。借鑒文本檢索模型中的bag-of-model,每幅圖像就可以視為一組可視詞匯的集合。統(tǒng)計圖像中可視詞匯的分布,并使用直方圖方式表示,每幅圖像可以表示為可視詞匯的直方圖(Histogram of Word,HOW)向量。由圖像的HOW向量可以構(gòu)造出每個標注關(guān)鍵詞的HOW向量,即標志向量。
第二部分標注工作。對于一副無標注詞匯的測試圖像,首先,生成其可視詞匯直方圖向量,方法同訓練階段。然后,通過計算HOW向量得出測試圖像與關(guān)鍵詞的相似度。取相似度最大的前若干個詞匯,即為該測試圖像的標注詞匯。
圖1 系統(tǒng)體系結(jié)構(gòu)
由于基于區(qū)域的特征表示質(zhì)量過于依賴于圖像分割質(zhì)量,而即使當前最優(yōu)秀的圖像分割算法也無法取得令人滿意的分割效果[9]?;跂鸥窕男阅芡鶅?yōu)于基于區(qū)域的方法。而且,考慮到圖像分割的時間開銷較大,本文采用柵格化方法。提取柵格化圖塊的視覺特征,包括12維的顏色信息(RGB和Lab共6個通道的均值和方差)和128維的SIFT紋理信息,使用K-means算法分別對顏色和紋理聚類成500和1000類。每幅圖像最終可以表示為1500維的HOW向量。
針對傳統(tǒng)相關(guān)模型等存在的不足,我們提出了一種非常簡單的標注模型,它無需復雜的訓練過程和參數(shù)學習。該方法根據(jù)每個概念(標注詞)所對應(yīng)的正例圖像與反例圖像,為每個概念構(gòu)造視覺特征向量,通過圖像向量與概念向量的相似度來確定該概念U與圖像的相關(guān)性或隸屬度,稱為正反例標志向量法[10],其基本思想是通過正例與反例圖像特征向量的差異來構(gòu)造代表該詞匯的視覺向量,即表示詞匯w的正例向量均值表示詞匯w的反例向量均值,該算法詳細步驟見參考文獻[10]。在該算法基礎(chǔ)之上,本文提出了加權(quán)的正反例標志向量法,其詞匯視覺向量為
鑒于WordNet等方法標注改善存在的不足,我們采用歸一化Google距離(NGD)方法作為詞匯相關(guān)性的定量度量。NGD把任何兩個詞匯的相關(guān)性問題轉(zhuǎn)化兩個詞匯在Web頁面中共存的概率關(guān)系[11]。NGD計算方法為
其中,w1和w2分別代表兩個文本詞匯。f(w1)和f(w2)分別代表Google搜索引擎分別檢索出包含查詢詞w1和w2詞匯的網(wǎng)頁個數(shù),而f(w1,w2)代表檢索出同時包含w1和w2兩個詞匯的網(wǎng)頁個數(shù)。M是Google搜索引擎所涵蓋的網(wǎng)頁的總個數(shù)。僅從NGD的定義可知,它側(cè)重的是詞匯在上下文的相關(guān)性,而基于WordNet的方法關(guān)注的是概念的語義。另外,標注改善關(guān)注的應(yīng)該是詞匯之間的相容性,而不是同義詞。因此,NGD是一種更適合于標注改善的詞匯相關(guān)性度量方法。通過調(diào)用Google提供的接口,可以計算出包含任何詞匯的網(wǎng)頁個數(shù)。
由于每個詞匯對應(yīng)網(wǎng)頁數(shù)量在一段時期內(nèi)相對穩(wěn)定,詞匯對應(yīng)網(wǎng)頁的數(shù)量及NGD(w1,w2)可以事先保存起來,此后,周期性更新即可。在后續(xù)的標注改善過程中,可以直接訪問NGD(w1,w2)信息,而無需在每次標注圖像時調(diào)用Google接口。
為了評價所提出的模型,我們與主流的標注算法進行對比。性能指標包括查準率、查全率、N+,以及算法復雜度和時間開銷等,為公平起見,所有模型實驗都在相同的圖像數(shù)據(jù)集上完成。
Corel5K數(shù)據(jù)集已經(jīng)成為圖像檢索和標注領(lǐng)域最常用的標準數(shù)據(jù)集,該數(shù)據(jù)集包括5000幅圖像、371個標注詞匯,平均每幅圖像包含詞匯個數(shù)為3.5個。與原始CMRM/CRM/MBRM算法數(shù)據(jù)劃分一樣,我們?nèi)?500幅圖像作訓練集,500圖像作測試集,其中訓練集與測試集中相交詞匯260個。在CMRM/CRM等基于區(qū)域方法中,采用N-cut圖像分割算法,且每幅圖像分割為1-10個區(qū)域。柵格化方法中,每幅圖像被等分為16*16像素的柵格。
采用查準率(Precison)、查全率(Recall)、F1和N+作為標注質(zhì)量評價指標。N+為查全率不為0的詞匯個數(shù)。其他指標定義為
其中,r代表算法正確標注的詞匯個數(shù),n代表人工標注的實際個數(shù),w代表算法錯誤標注出的詞匯個數(shù)。
實驗平臺為HP筆記本,硬件配置為2.2GHz的Intel Duo CPU,3.0G內(nèi)存,操作系統(tǒng)為Windows XP,軟件環(huán)境為Matlab7.1以及NGD API包。與CMRM、MBRM等算法一樣,標注算法為每幅圖像生成5個標注詞匯。本文所實現(xiàn)系統(tǒng)的標注效果與真實(手工)標注結(jié)果的對比見表1。本文方法與經(jīng)典的標注模型性能對比見表2。
表1 標注結(jié)果對比
表2 算法性能對比表
表2中,視覺特征列中,C代表顏色,T代表紋理,S代表形狀。算法復雜度列中,|W|代表數(shù)據(jù)集中詞匯的個數(shù),|D|代表訓練圖像個數(shù),N代表圖像分割后區(qū)域的個數(shù),M是圖像區(qū)域特征向量的維數(shù)。系統(tǒng)中數(shù)據(jù)集大時候,|D|會非常大,因此CRM和MBRM的時間開銷會非常大;而即便系統(tǒng)的圖像數(shù)據(jù)集再大,詞匯個數(shù)|W|也非常有限;只要特征選擇方法確定后,特征向量維數(shù)M是常量,與數(shù)據(jù)集大小無關(guān)。因此,越是訓練集大的系統(tǒng),本文方法優(yōu)勢越明顯。本文所采用的加權(quán)正反例方法最優(yōu)參數(shù)α、β分別是0.98和0.79。
通過調(diào)用Google接口獲取網(wǎng)頁數(shù)量的時間開銷很大程度上取決于網(wǎng)絡(luò)狀況,且無需每次都調(diào)用Google接口,因此,表2中算法復雜度和平均耗時沒有包括NGD的時間開銷。
針對當前圖像標注模型存在的不足,本文設(shè)計了一種非常高效的標注模型,通過NGD方法對圖像候選標注詞進行標注改善,有效地保證了標注系統(tǒng)的總體質(zhì)量。該系統(tǒng)既可以作為一個獨立標注系統(tǒng)運行,也可以作為復雜系統(tǒng)的相關(guān)模塊。
[1] RITENDRA DATTA,DHIRAJ JOSHI,JIA LI ,et al.Image Retrieval:Ideas,Influences,and Trends of the New Age[J].ACM Computing Surveys,2008,40,(2):1-60.
[2]MORI Y,TAKAHASHI H,OKA R.Image-to-word transformation based on dividing and vector quantizing images with words[C]∥ In MISRM'99 First International Workshop on Multimedia Intelligent Storage and Retrieval Management,1999.
[3]DUYGULU P,BARNARD K,DE FREITAS N,et al.Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary[J].Proc.of Seventh European Conference on Computer Vision,2002:97 -112.
[4]JEON J,LAVRENKO V,MANMATHA R.Automatic Image Annotation and Retrieval using Cross-Media Relevance Models,Proc.of the 26th annual international ACM SIGIR conference on Research and development in information retrieval,2003:119 -126.
[5]LAVRENKO V ,MANMATHA R,JEON J.‘A model for learning the semantics of pictures’[C]∥Advances in Neural Information Processing Systems,2003.
[6]FENG S L,MANMATHA R,LAVRENKO V.‘Multiple Bernoulli Relevance Models for Image and Video Annotation’[C]∥IEEE Conf.Computer Vision and Pattern Recognition,2004.
[7]CHIH -FONG TSAI1,CHIHLI HUNG.Automatically Annotating Images with Keywords:A Review of Image Annotation Systems,Recent Patents on Computer Science,2008,1(1):55 -68.
[8]JIN Y,KHAN L,WANG L,et al.Image annotations by combining multiple evidence & wordNet[J].In Proceedings of ACM Multimedia,706-715,2005
[9]SHI J,MALIK J.Normalized cuts and image segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,22(8):888–905,2000.
[10]SONG Haiyu,LI Xiongfei,BAO Cuizhu,et al.An Efficient and Effective Automatic Image Annotation using Positive and Negative Example Images,ICIC -EL,2011,5(8):2927-2932.
[11]CILIBRASI R,VITANYI P.The Google similarity distance.IEEE Transactions on Knowledge and Data Engineering 19(3),370–383,2007.
An Image Annotation and Refinement Model Based on Visual Content and Semantic Correlation
SONG Hai- yu1,2,LI Xiong - fei2,BAO Cui- zhu1,JIN Xin1,YUE Qing - yu1
(1.College of Computer Science and Engineering,Dalian Nationalities University,Dalian Liaoning 116605,China;
2.College of Computer and Technology,Jilin University,Changchun Jilin 130012,China)
The efficiency and qulaity of image annotation system determine the ability to manage images in the fields of computer vision and image retrieval.To overcome the drawback of current annotation system,an efficient annotation system is designed,including annotation and refinement stages by weighted positive and negative symbol vector method and NGD method respectively.The experiments demonstrate our proposed system perfomance,whose efficiency outperforms classicial image annotation models and qulity outperforms most current image annotation models.
image annotation;annotation refinement;normalized Google distance
TP391
A
1009-315X(2012)01-0067-05
2011-11-07;最后
2011-11-23
中央高?;究蒲袠I(yè)務(wù)費專項資金項目(DC10040111);遼寧省教育科學“十二五”規(guī)劃立項課題“應(yīng)用型院校中本科生研究性學習模式的研究與實踐”(JG11DB062)。
宋海玉(1971-),男,河南安陽人,副教授,主要從事圖像分析與理解、計算機視覺、信息檢索研究。
(責任編輯 劉敏)