摘 要:常規(guī)基于內(nèi)容圖像檢索的方法是提取圖像的顏色、紋理等物理特征,運(yùn)用相似性度量準(zhǔn)則從圖像庫(kù)中查詢相似的圖像。為了提高圖像檢索的正確率,這里提出改進(jìn)的方法。具體方法是:提取圖像的物理特征,并將特征作為支持向量機(jī)(SVM)的輸入向量,對(duì)圖像進(jìn)行分類,然后利用分類結(jié)果,對(duì)檢索圖像進(jìn)行相似性匹配,從同類圖像中找出相似的圖像。實(shí)驗(yàn)結(jié)果顯示,該方法的檢索結(jié)果優(yōu)于常規(guī)方法。
關(guān)鍵詞:圖像檢索;圖像分類;支持向量機(jī);相似性匹配
中圖分類號(hào):TN911.73; TP317.4 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1004-373X(2008)22-115-03
New Method for Image Retrieval
ZHANG Yuhui,LI Jie,ZHENG Buqin,ZHOU Yingchun
(Suqian College,Suqian,223800,China)
Abstract:The normal method for Content-based Image Retrieval (CBIR) is to extract color and texture features of images,then uses similarity measure to find out those similar images.In order to improve the accuracy of image retrieval,an improved method is proposed,which uses image visual features as input vector for Support Vector Machine (SVM).Based on the result of image classification and matching of similarity measurement,images from the same class are found out.Experiment results indicate that the method is superior to CBIR.
Keywords:image retrieval;image classification;support vector machine;similarity match
1 引 言
伴隨著網(wǎng)絡(luò)和多媒體技術(shù)的發(fā)展,圖像信息迅速膨脹,圖像檢索成為當(dāng)前的一個(gè)研究熱點(diǎn)。如何從大量的圖像信息中檢索出用戶需要的圖像,是圖像檢索需要解決的問(wèn)題。近年,基于內(nèi)容的圖像檢索(CBIR) 技術(shù)逐漸成熟。CBIR從圖像中提取圖像的顏色、紋理、形狀等視覺(jué)信息,運(yùn)用相似性度量準(zhǔn)則,從圖像庫(kù)中找到相似的圖像。但是,CBIR的檢索準(zhǔn)確率并
不高,如何提高檢索效果是一個(gè)值得研究的問(wèn)題。
2 圖像視覺(jué)特征
圖像的視覺(jué)特征有很多,主要有顏色、紋理、形狀和對(duì)象空間位置等。
2.1 HSV非均勻量化顏色特征
HSV是最常用的顏色空間之一,它相比較于其他顏色空間更加符合人類的視覺(jué)感知,因此更適合應(yīng)用于圖像相似性比較。
文獻(xiàn)[1]將H,S,V三個(gè)分量根據(jù)人的顏色感知進(jìn)行非等間隔量化,分別劃分成8份、3份、3份。并將量化后的3個(gè)分量合成一維特征矢量。
l=HQsQv+SQv+V(1)
其中Qs,Qv分別是S和V的量化級(jí)數(shù),這里2個(gè)值都取3,則得到72維顏色特征。
l=9H+3S+V(2)
2.2 共生矩陣
圖像的紋理特征記錄了圖像的空間信息,灰度共生矩陣是一種有效的紋理特征。它是表示灰度像素之間方向和距離的矩陣,即記錄相隔(Δx,Δy)的灰度像素對(duì)出現(xiàn)的概率。Δx,Δy由像素的間距δ和方向θ表示,Δx=δcos θ,Δy=δsin θ。
作為對(duì)灰度共生矩陣的一種改進(jìn),提取RGB顏色空間的R分量和G分量,以及HSV顏色空間的H分量和V分量。對(duì)R,G,V三個(gè)分量等間隔分成8份,H分量非均勻量化為8份(同HSV非均勻量化)。再求出每個(gè)分量的(1,0),(1,1),(0,1),(-1,1)四個(gè)方向的矩陣。分別記錄上述共生矩陣的統(tǒng)計(jì)量:反差、能量、熵和相關(guān)[2]。最后對(duì)特征歸一化,得到32維特征向量作為圖像的紋理特征。
3 支持向量機(jī)(SVM)
SVM是數(shù)據(jù)挖掘的一種新方法,是借助最優(yōu)化方法解決機(jī)器學(xué)習(xí)問(wèn)題的新工具。其主要思想是針對(duì)2類分類問(wèn)題,在高維空間尋找一個(gè)最優(yōu)分類超平面作為分類平面,以保證最小的分類錯(cuò)誤率[3]。
分類問(wèn)題的類型主要有線性可分和非線性可分2種。能使兩類正確分開(kāi)且類間距最大的平面稱為最優(yōu)分類超平面,記為(w·x)+b=0。類間距為2/‖w‖2。
最優(yōu)分類超平面滿足最大間隔原理:
min ‖w‖2/2(3)
s.t. yi((w·xi)+b)≥1,i=1,2,…,n(4)
3.1 非線性支持向量機(jī)
設(shè)已知訓(xùn)練集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,yi∈{-1,1},i=1,2,…,n,Rn 為n維歐氏空間。選擇適當(dāng)?shù)暮撕瘮?shù)K(x,x′),構(gòu)造并求解最優(yōu)化問(wèn)題:
minα12∑ni=1∑nj=1yiyjαiαjK(xi,xj)-∑nj=1αj(5)
s.t. ∑ni=1yiαi=0(6)
0≤α≤C ,i=1,2,…,n(7)
得到最優(yōu)解α*={α1*,α2*,…,αn*}T,選擇α*的一個(gè)正分量α*j∈(0,C),計(jì)算表達(dá)式:
b* = yj -∑ni = 1yi α*iK(xi ,xj)(8)
然后,構(gòu)造決策函數(shù)
f(x) =sgn∑ni = 1α*iyiK(xi,xj)+b*(9)
式(5)中的C是懲罰系數(shù),它控制最大間隔和最小分類錯(cuò)誤之間的矛盾。
3.2 核函數(shù)和支持向量
當(dāng)存在一個(gè)從輸入空間到特征空間的映射:Φ:x→Φ(x),使得K(x,x′)= K(Φ(x),Φ(x′)),則,K(x,x′)是核函數(shù)。K(x,x′)是輸入空間和特征空間之間的映射,選擇不同的核函數(shù)意味著采取不同的標(biāo)準(zhǔn)對(duì)相似性和相似程度進(jìn)行估計(jì)。
常用的核函數(shù)有:高斯徑向基核(Gaussian RBF)、多項(xiàng)式核(Poly)、 Sigmoid核,表達(dá)式如下:
RBF:
K(x,x′)=exp-‖x-x′‖22σ2(10)
Poly:
K(x,x′)=((x·x′)+1)d(11)
Sigmoid:
tanh(κ(x·x′)+ν),k>0,ν<0(12)
3.3 多類分類
在實(shí)際分類時(shí),類的數(shù)目可能超過(guò)2類,對(duì)于這種情況,SVM可以應(yīng)用不同的策略以達(dá)到分類效果。常見(jiàn)的多分類策略有[4]:
(1) One Per Class (OPC):對(duì)于K類分類情況,為每一類訓(xùn)練一個(gè)SVM,即訓(xùn)練K個(gè)SVM,確定某個(gè)對(duì)象的類別時(shí),選擇輸出值最大的SVM所對(duì)應(yīng)的類為該對(duì)象的類別。
(2) Pairwise Coupling (PWC):該策略每2個(gè)類需要訓(xùn)練1個(gè)SVM。則對(duì)于K類分類問(wèn)題,共需要K(K-1)/2個(gè)SVM。
4 實(shí) 驗(yàn)
實(shí)驗(yàn)所用的圖像來(lái)自Corel圖像庫(kù)(http://wang.ist.psu.edu/docs/related/),選擇4類圖像,每類100幅,分別是玫瑰、馬、建筑和公交車,總共400幅圖像。隨機(jī)地選擇每類的60%圖像用作訓(xùn)練集,訓(xùn)練SVM。把余下的40%圖像作為測(cè)試集,用訓(xùn)練得來(lái)的多類分類SVM對(duì)圖像進(jìn)行分類。
實(shí)驗(yàn)提取測(cè)試集中160幅圖像的顏色特征(HSV非均勻量化)和紋理特征(共生矩陣)。在檢索時(shí),從測(cè)試集的每類圖像中隨機(jī)選出10幅圖像,共40幅圖像作為查詢圖像集合。對(duì)查詢圖像集合中的每一幅圖像依次實(shí)行檢索,并記錄檢索結(jié)果。
第1輪檢索為基于內(nèi)容的檢索,分別實(shí)現(xiàn)顏色特征檢索、紋理特征檢索以及綜合顏色和紋理特征的檢索。第2輪檢索為SVM檢索,即先對(duì)測(cè)試集的圖像進(jìn)行分類,然后在分類基礎(chǔ)上結(jié)合上述3種基于內(nèi)容的圖像檢索方法[5,6]。
評(píng)價(jià)檢索效果最常用的標(biāo)準(zhǔn)是準(zhǔn)確率(Precision)和查全率(Recall),本文將采用這2種方法作為評(píng)價(jià)標(biāo)準(zhǔn)。
部分實(shí)驗(yàn)結(jié)果如圖所示,圖中左上角為要查詢的圖像,圖1和圖3是利用綜合顏色和紋理圖像檢索出來(lái)的圖像,圖2和圖4是先進(jìn)行圖像分類然后在分類的基礎(chǔ)上,再進(jìn)行檢索的結(jié)果。
從圖中可以看出,本文提出的方法明顯優(yōu)于傳統(tǒng)的基于內(nèi)容的圖像檢索。分析原因應(yīng)是:在檢索之前先對(duì)圖像庫(kù)進(jìn)行圖像分類,可以把圖像的檢索范圍有效地減少,在屬于同一類的子圖像集上再進(jìn)行特征相似性比較,所取得的檢索結(jié)果理論上和實(shí)際上都比直接在圖像集上進(jìn)行特征相似性匹配要好。當(dāng)然,可以看出,先進(jìn)行分類后檢索,對(duì)圖像分類的結(jié)果依賴很大。但是,實(shí)驗(yàn)證明,用SVM對(duì)圖像分類,分類正確率很高,在本實(shí)驗(yàn)中,分類正確率更是達(dá)到90%以上。因而,在檢索之前先進(jìn)行圖像分類是可行的,而且可以看出結(jié)果令人滿意。
圖1 綜合顏色和紋理特征的檢索玫瑰結(jié)果
圖2 利用綜合特征結(jié)合SVM檢索玫瑰的結(jié)果
圖3 綜合顏色和紋理特征的檢索建筑結(jié)果
表1列出了分別用圖像的顏色特征、紋理特征和綜合顏色和紋理特征進(jìn)行圖像檢索,每種特征檢索,還分為直接特征檢索(CBIR)和本文提取的方法(SVM)兩種檢索方法,總共6種圖像檢索。表中的值表示平均檢索準(zhǔn)確率。從表1中可以看出SVM方法比CBIR方法結(jié)果優(yōu)越
圖5比較了上述6種檢索的平均準(zhǔn)確率。從圖中可以看出,利用綜合特征結(jié)合SVM分類的方法,檢索準(zhǔn)確率近90%。
表1 檢索準(zhǔn)確率
類別
顏色紋理綜合
CBIRSVMCBIRSVMCBIRSVM
玫瑰0.250.330.570.970.480.97
馬0.740.830.550.620.650.82
建筑0.360.850.460.350.430.8
公交車0.810.950.760.820.840.98
圖4 利用綜合特征結(jié)合SVM檢索建筑的結(jié)果
圖5 平均檢索正確率
5 結(jié) 語(yǔ)
本文提出在進(jìn)行圖像檢索前,先進(jìn)行圖像分類,然后在分類的基礎(chǔ)上再進(jìn)行檢索的方法。這樣,就可以有效減小圖像檢索時(shí)的范圍,在小范圍內(nèi)再進(jìn)行相似性匹配,可以有效提高檢索的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果顯示,該方法效果很好。
參考文獻(xiàn)
[1]曹莉華,柳偉,李國(guó)輝.基于多種主色調(diào)的圖像檢索算法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,1999,36(1):96-100.
[2]劉忠偉,章毓晉.綜合利用顏色和紋理特征的圖像檢索[J].通信學(xué)報(bào),1999,20(5):36-40.
[3]Vapnik Vladimir N.The Nature of Statistical Learning Theory [M].Springer-Verlag,New York,Inc,2000.
[4]Edward Chang,King Shy Goh,Gerard Sychay,et al.CBSA:Content-Based Soft Annotation for Multimodal Image Retrieval Using Bayes Point Machines[J].IEEE Transactions on Circuits and Systems for Video Technology,2003,13(1):26-38.
[5]張瑜慧,胡學(xué)龍,陳琳.基于支持向量機(jī)的圖像分類[J].揚(yáng)州大學(xué)學(xué)報(bào):自然科學(xué)版,2007,10(2):42-46.
[6]King Shy Goh,Edward Y Chang,Beitao Li.Using One-class and Two-class SVMs for Multiclass Image Annotation[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(10):1 333-1 346.
作者簡(jiǎn)介 張瑜慧 女,1979年出生,江蘇啟東人,碩士。研究方向?yàn)閳D像處理與多媒體技術(shù)。
李 潔 女,1980年出生,江蘇宿遷人,碩士。研究方向?yàn)楸倔w與信息檢索。
鄭步芹 女,1981年出生,江蘇鹽城人,學(xué)士。研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文