摘 要:在本文中,我們提出了一種新穎的特征描述符用于圖像檢索,即基元結(jié)構(gòu)直方圖。它使用了顏色和邊緣方向信息來(lái)描述圖像的基元結(jié)構(gòu)信息。在特征提取時(shí),我們使用更符合人眼的視覺(jué)認(rèn)知機(jī)制的HSV顏色空間。在相關(guān)反饋階段,我們對(duì)權(quán)重進(jìn)行不斷的更新,以達(dá)到更好的檢索效果。
關(guān)鍵詞:特征提取;基元結(jié)構(gòu)直方圖;相關(guān)反饋
中圖分類號(hào):TP391.3
1 基元結(jié)構(gòu)直方圖
1.1 HSV顏色空間及量化
相對(duì)RGB顏色空間,HSV顏色空間更加符合人眼的視覺(jué)認(rèn)知機(jī)制。H指色相,即色彩的基本屬性;S是飽和度,即色彩的純度;V是明度,即明亮程度。為了提取顏色信息并且簡(jiǎn)化操作,我們將大小為M×N的圖像的H,S,V三個(gè)通道分別均勻的量化成3個(gè)級(jí)別,共獲得27種顏色級(jí)別。設(shè)C(x,y)為量化后的圖像,其中x=[0,1,…,M-1],y=[0,1,…,N-1],C(x,y)的取值范圍為[0,1,…,26]。
1.2 邊緣方向的提取和量化
我們使用Sobel算子計(jì)算一幅全彩色圖像的紅,綠,藍(lán)三個(gè)通道的梯度值。設(shè)a=(Hx,Sx,Vx),b=(Hy,Sy,Vy),其中Hx,Sx,Vx分別表示H,S,V三個(gè)通道沿著水平方向的梯度,Hy,Sy,Vy表示垂直方向的梯度。
a,b之間的角度為:
(1)
當(dāng)一幅圖像每個(gè)像素點(diǎn)的紋理方向都計(jì)算出來(lái)之后,我們將其均勻的量化成18個(gè)級(jí)別,每個(gè)級(jí)別的角度間隔為10°。
1.3 基元結(jié)構(gòu)圖
在圖像的一個(gè)2×2的方格,如果有兩個(gè)像素點(diǎn)的值相同,則認(rèn)為這些像素點(diǎn)形成一種基元,構(gòu)建基元圖時(shí),使用的是量化后的顏色索引圖,將2×2方格在圖像上以2為步長(zhǎng)遍歷,判斷是否有基元出現(xiàn)在方格中,如果方格中的數(shù)值符合其中的一個(gè)基元模型,方格中的四個(gè)數(shù)值全部保留;若不符合任何一個(gè)模型,則方格中的所有數(shù)值都置為0。
1.4 特征表示
本文充分融合了共生矩陣和直方圖的優(yōu)點(diǎn),提出一種新的直方圖[4],基元結(jié)構(gòu)直方圖。假設(shè)基元圖像T(x,y)的值T(p)=w,w∈{0,1,…,W-1},像素點(diǎn)的位置為p=(x,y),如果p1=(x1,y1),p2=(x2,y2),T(p1)=w1,T(p2)=w2。在邊緣方向索引圖像θ(x,y)中,θ(p)=v,v∈{0,1,…,V-1},θ(p1)=v1,θ(p2)=v2。設(shè)在2×2的方塊中,w1和w2共同出現(xiàn)的次數(shù)為F1,v1和v2共同出現(xiàn)的次數(shù)為F2,基元結(jié)構(gòu)直方圖定義為:
Hcolor(T(x,y))=F1{θ(p1)=v1Λθ(p2)=v2} 當(dāng)θ(p1)=θ(p2)=v1=v2時(shí) (2)
Hori(θ(x,y))=F2{T(p1)=w1ΛT(p2)=w2} 當(dāng)T(p1)=T(p2)=w1=w2時(shí) (3)
2 相關(guān)反饋
數(shù)據(jù)庫(kù)中的圖像I和待檢索圖像Q之間的相似性度量由加權(quán)的閔可夫距離給出:
(4)
其中,fiI,fiQ是I和Q的第i個(gè)特征分量,wi是權(quán)重因子。相關(guān)反饋時(shí),我們使用反饋回來(lái)的樣本對(duì)權(quán)重進(jìn)行更新。權(quán)值如下:
(5)
其中,σkNr,i是第k次迭代返回的Nr個(gè)檢索出來(lái)的圖像的標(biāo)準(zhǔn)差,σkrel,i是第k次迭代返回的相關(guān)圖像的標(biāo)準(zhǔn)差。文獻(xiàn)[1][2]中,如果一個(gè)特征分量經(jīng)過(guò)相關(guān)樣本產(chǎn)生很小的變化,那么它將得到相對(duì)較高的權(quán)重因子。文獻(xiàn)[3]使用一個(gè)判別比來(lái)決定特征分量從不相關(guān)的圖像中區(qū)分相關(guān)圖像的能力:
(6)
分子指第i個(gè)特征分量在第k輪迭代負(fù)樣本落在了正樣本取值區(qū)間內(nèi)的個(gè)數(shù),分母指第i個(gè)特征分量在第k輪中負(fù)樣本的個(gè)數(shù)。當(dāng)沒(méi)有一個(gè)負(fù)樣本落在正樣本取值區(qū)間范圍內(nèi)時(shí),最大的權(quán)重將賦給這一特征分量。
(7)
Weight-type3結(jié)合了判別比和公式(7)的權(quán)重因子。達(dá)到了從不相關(guān)的樣本中分離出相關(guān)圖像的效果。如公式(8)
(8)
3 實(shí)驗(yàn)結(jié)果
本文使用的是兩個(gè)Corel數(shù)據(jù)集:Corel_1000數(shù)據(jù)集,十類圖像,每類100張,共1000張圖像;Corel_5000數(shù)據(jù)集,50類共5000張圖像。
圖1 三輪相關(guān)反饋的檢索結(jié)果
實(shí)驗(yàn)部分,圖1為Corel_5000數(shù)據(jù)集中的一幅圖像經(jīng)過(guò)3輪反饋的檢索效果,圖1(a)為一幅圖像使用基元結(jié)構(gòu)直方圖進(jìn)行檢索的結(jié)果,其精準(zhǔn)率為66.67%;圖1(b)表示的是三次反饋的檢索結(jié)果,精準(zhǔn)率為100%。
如表1所示,在Corel_1000數(shù)據(jù)集中,經(jīng)過(guò)三輪的相關(guān)反饋,平均精準(zhǔn)率提高了12.89%,在Corel_5000數(shù)據(jù)集中平均精準(zhǔn)率提高了14.90%。
表1 Corel數(shù)據(jù)集經(jīng)過(guò)三輪反饋的平均精準(zhǔn)率和召回率
數(shù)據(jù)集性能指標(biāo)第一次檢索第一輪反饋第二輪反饋第三輪反饋
Corel_1000精準(zhǔn)率(%)77.8285.3486.9290.71
召回率(%)9.3410.2410.4110.86
Corel_5000精準(zhǔn)率(%)48.9958.0358.1763.89
召回率(%)5.876.966.987.67
參考文獻(xiàn):
[1]Aksoy,S.,Haralick,R.M.:A Weighted Distance Approach to Relevance Feedback, International Conference on Pattern Recognition,Barcelona Spain(September 2000).
[2]Hore,E.S,Ray,S.:A Sum-result Indexing Algorithm for Feature Combining in Content-Based Image Retrieval, Proceedings of the Fourth IASTED International Conference Signal and Image Processing, Hawaii USA (August 2002)283-287.
[3]Wu,Y.Zhang,A.:A Feature Re-weighting Approach for Relevance Feedback in Image Retrieval,Special issue on Segmentation,Description, and Retrieval of Video Content,Rochester New York(September 2002).
[4]Liu G H,Zhang L,Hou Y K, etal.Image retrieval based on multi-texton histogram[J].Pattern Recognition,2010,43(7):2380-2389.
作者簡(jiǎn)介:余武(1987-),男,湖南岳陽(yáng)市人,理學(xué)碩士,計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),研究方向:數(shù)字圖像處理;張曉雪(1987-),女,吉林松原市人,理學(xué)碩士,計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),研究方向:數(shù)字圖像處理。
作者單位:東北師范大學(xué),長(zhǎng)春 130117