鮑振華,康寶生,張 雷,2,張 婧
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,西安 710127; 2.運(yùn)城學(xué)院 公共計(jì)算機(jī)教學(xué)部,山西 運(yùn)城 044000)
基于草圖局部幾何不變矩的圖像檢索方法
鮑振華1,康寶生1*,張 雷1,2,張 婧1
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,西安 710127; 2.運(yùn)城學(xué)院 公共計(jì)算機(jī)教學(xué)部,山西 運(yùn)城 044000)
(*通信作者電子郵箱bskang@163.com)
利用草圖進(jìn)行圖像檢索的難點(diǎn)在于對不同尺度、位置、旋轉(zhuǎn)及形變圖像的有效檢索。為了更準(zhǔn)確地識別并檢索不同尺度、位置和旋轉(zhuǎn)的圖像,提出一種基于草圖局部幾何不變矩的圖像檢索方法(SBIRULGMI)。首先,利用圖像的幾何特征分別確定各圖像的坐標(biāo)系;然后,在生成的坐標(biāo)系中對圖像進(jìn)行平均分塊并計(jì)算各塊的幾何不變矩作為特征向量;接著,用改進(jìn)的歐氏距離計(jì)算目標(biāo)圖像與數(shù)據(jù)庫圖像的相似度;最后,采用蟻群(ACO)算法對按照相似度排序后的檢索結(jié)果進(jìn)行優(yōu)化。所提方法在MPEG-7shape1partB圖像數(shù)據(jù)庫的檢索識別準(zhǔn)確率比形狀上下文(SC)、邊緣分布直方圖(EOH)、局部線性高波特征(GALIF)及MindFinder方法平均提高了17個百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明該方法對不同平移、縮放和翻轉(zhuǎn)的圖像有較好的識別效果,對圖像一定程度的旋轉(zhuǎn)和形變具有更好的魯棒性。
圖像分塊;幾何不變矩;草圖;檢索;蟻群算法
作為人類社會最常用的信息載體,圖像數(shù)據(jù)以其豐富的信息含量和快捷有效的表達(dá)方式已成為人們?nèi)粘I钪斜夭豢缮俚慕M成部分。如何從海量的圖像數(shù)據(jù)中找到想要的結(jié)果一直是研究人員所關(guān)注的重點(diǎn)。20世紀(jì)90年代,Kato等[1]提出的基于內(nèi)容的圖像檢索[2]技術(shù)在以圖找圖方面取得了突破性的進(jìn)展。然而,由于需要用戶提供準(zhǔn)確的圖片來進(jìn)行檢索,該方法極大地限制了用戶輸入的自由性。近年來,隨著可穿戴設(shè)備以及觸屏設(shè)備的廣泛使用,基于手繪草圖的圖像檢索(Sketch-Based Image Retrieval, SBIR)技術(shù)得到了研究人員的廣泛重視。
草圖檢索的重點(diǎn)在于手繪草圖的識別與判斷,現(xiàn)有的草圖檢索系統(tǒng)主要從輪廓特征和區(qū)域特征兩個方面進(jìn)行草圖特征描述。Eitz等[3-4]采用局部線性高波特征(GAbor Local lIne-based Feature, GALIF)作為局部描述符,利用詞袋模型方法進(jìn)行檢索;Cao等[5-6]使用Chamfer匹配法計(jì)算草圖的相似度并采用倒排索引方法進(jìn)行檢索,這種方法檢索和匹配速度快,但對于仿射變換的魯棒性較差,無法找到大小和位置相差較大的圖片。Bhattacharjee等[7]、Hu等[8]通過提取圖像塊的特征向量來識別整體圖像,但分塊方法單一,對圖像中物體位置未作考慮。
針對草圖特征提取中對形變的魯棒性差,識別準(zhǔn)確率低的問題,本文首先根據(jù)圖像的形心、長軸及最小長方形包圍盒對圖像進(jìn)行定位,保證對不同位置、方向和大小圖像的分塊不出現(xiàn)偏移;然后對圖像進(jìn)行分塊,以具有良好旋轉(zhuǎn)、平移及伸縮不變性的幾何不變矩作為各塊及整體圖像的特征描述符;最后采用蟻群算法對檢索結(jié)果進(jìn)行優(yōu)化。本文所提方法稱為基于草圖局部幾何不變矩的圖像檢索方法(Sketch-based Image Retrieval method Using Local Geometry Moment Invariant, SBIRULGMI)。與EItz 等[9]的形狀上下文(Shape Context, SC)、邊緣分布直方圖(Edge Orientation Histogram, EOH)以及文獻(xiàn)[3]方法、文獻(xiàn)[5]方法相比,SBIRULGMI在MPEG-7 shape1 part B 圖像數(shù)據(jù)庫的檢索識別準(zhǔn)確率為49.35%,平均提高了17個百分點(diǎn)。
矩用來表征圖像區(qū)域的幾何特征,具有良好的旋轉(zhuǎn)、平移、尺度不變性,所有又稱為不變矩。最早的幾何矩由Hu[10]提出,數(shù)字圖像f(x,y)的(p+q)階矩定義為:
(1)
其中:p為圖像x方向的階數(shù);q為圖像y方向的階數(shù)。
將矩特征量mpq進(jìn)行位置歸一化得到中心矩:
(2)
其中:μpq(p,q=0,1,…)表示圖像f(x,y)的平移不變量;M、N為圖像的行數(shù)和列數(shù);(x0,y0)為形心坐標(biāo)。(x0,y0)的計(jì)算公式為:
(3)
再將μpq數(shù)值歸一化得到歸一化中心矩:
(4)
其中:ypq表示圖像f(x,y)的平移和尺度不變量;r=(p+q+2)/2(p,q=0,1,…)。
為了保持表示圖像時的旋轉(zhuǎn)、平移和尺度不變性,Hu[10]利用代數(shù)不變矩理論構(gòu)造了七個不變矩。由于幾何矩是把二維連續(xù)函數(shù)f(x,y)投影到xnym上,而整個基本集{xn,ym}是完備的。張偉等[11]利用該原理得到了7個Hu不變矩的信息冗余性,并指出第6、7個不變矩與前5個存在信息冗余。本文在使用I1、I2、I3、I4、I5五個Hu不變矩的同時,用文獻(xiàn)[11]提出的不變矩多項(xiàng)式空間基表示定理補(bǔ)充了I6、I7兩個沒有信息冗余的四階不變矩。具體如下:
(5)
其中:ypq(p,q=0,1,…)為該圖像的各歸一化中心矩。
幾何不變矩在連續(xù)圖像條件下具有良好的旋轉(zhuǎn)、平移和尺度不變性,但單個幾何矩?cái)?shù)值范圍小,在大規(guī)模圖像檢索時重復(fù)率較高。為此,本文對圖像進(jìn)行分塊,計(jì)算各塊及整體的七階幾何不變矩作為特征向量并采用改進(jìn)的歐氏距離進(jìn)行相似性匹配。
2.1 圖形分塊
2.1.1 確定坐標(biāo)系
為保證圖形檢索時的旋轉(zhuǎn)不變性,本文利用各草圖的形心、長軸及最小長方形包圍盒三個幾何特征分別確定坐標(biāo)系,根據(jù)圖像的坐標(biāo)系對草圖進(jìn)行分塊。
首先,由式(3)計(jì)算草圖(參見圖1)的形心坐標(biāo)(x0,y0)作為坐標(biāo)系原點(diǎn)坐標(biāo)。
然后,以(x0,y0)為坐標(biāo)系原點(diǎn)建立坐標(biāo)系,具體步驟如下:
步驟1 過坐標(biāo)原點(diǎn)找到圖形的長軸位置。
步驟2 以長軸方向?yàn)槌跏颊较蚪⒆鴺?biāo)系,記錄初始的草圖長方形包圍盒的面積s0。
步驟3 將坐標(biāo)系順時針旋轉(zhuǎn)a°,記此時草圖的長方形包圍盒面積為s1。如果:
(s0-s1)/s1≥ε
(6)
記錄s0=s1,并記錄此時的坐標(biāo)系方向。式(6)中,閾值ε表示坐標(biāo)系定位的精確程度,ε越小,坐標(biāo)系定位得越精確,但計(jì)算越復(fù)雜,定位時間越長。綜合考慮,在實(shí)驗(yàn)的基礎(chǔ)上,本文設(shè)ε為0.1。
步驟4 重復(fù)步驟3直到na°>360°(n=0,1,…)。
2.1.2 分塊
根據(jù)確定好的坐標(biāo)系,從Y軸正方向開始,以45°為一個間隔順時針旋轉(zhuǎn)從原點(diǎn)向外作射線將圖形分為8個部分,依次記為:1,2,…,8,如圖1所示。
圖1 不同草圖分塊結(jié)果
2.2 計(jì)算特征向量
以式(5)的計(jì)算方法提取特征向量,對于一幅草圖圖像,分別計(jì)算其8個圖像塊及整體圖像共9個圖像塊的幾何不變矩構(gòu)成草圖圖像的特征向量,待查詢草圖圖像Q的特征向量VQ表示為:
VQ=(V1,V2,V3,V4,V5,V6,V7)
(7)
其中:V1、V2、V3、V4、V5、V6、V7分別表示各圖像塊的一到七階幾何不變矩特征向量,每一維的特征向量包含9個元素,分別為8個分塊后的圖像塊及整體圖像。各維特征計(jì)算如下:
Vi=(Ii1,Ii2,Ii3,Ii4,Ii5,Ii6,Ii7,Ii8,Ii9)
(8)
其中:Vi表示第i階幾何不變矩特征向量;Ii1、Ii2、Ii3、Ii4、Ii5、Ii6、Ii7、Ii8分別表示分塊后的八個圖像塊ψ1、ψ2、ψ3、ψ4、ψ5、ψ6、ψ7、ψ8的第i階幾何不變矩;Ii9表示整體圖像的第i階幾何不變矩,使用式(5)計(jì)算。
3.1 輸入草圖
實(shí)驗(yàn)中采用256×256大小的畫布,要求用戶在繪制圖形時盡可能地簡便,省去圖形內(nèi)部的復(fù)雜紋理。對用戶輸入的圖形,采用鐘龍招[12]提出的草圖預(yù)處理方法,分別對輸入草圖進(jìn)行冗余比畫消除、簡化聚點(diǎn)和間隙閉合處理,減輕用戶輸入的隨意性對檢索結(jié)果的干擾。
3.2 數(shù)據(jù)庫組成
幾何不變矩的數(shù)值簡單,檢索速度快,但面對大規(guī)模圖像檢索時重復(fù)率較高。在構(gòu)建數(shù)據(jù)庫時,根據(jù)七階不變矩不同構(gòu)造方法分別建立七個數(shù)據(jù)庫D1、D2、D3、D4、D5、D6、D7,Di中每一行存儲圖像數(shù)據(jù)庫中一幅圖像的ψ1、ψ2、ψ3、ψ4、ψ5、ψ6、ψ7、ψ8、ψ9九個圖像塊的第i階幾何不變矩Vij(j=1,2,…,9)。
3.3 匹配
3.3.1 相似性度量
對經(jīng)過預(yù)處理的手繪草圖按照2.1節(jié)方法分塊,并用式(8)提取第i階幾何不變矩作為查詢向量VQi。計(jì)算其與第i個數(shù)據(jù)庫中某幅圖像img的特征向量VDi的歐氏距離:
(9)
由于圖像各塊所表示的信息重要度不同,對各圖像塊的計(jì)算結(jié)果賦予不同的權(quán)值γk,γk的取值與查詢圖像Q中各圖像塊像素點(diǎn)總數(shù)占整體圖像比例有關(guān),計(jì)算如下:
γk=sumk/(2sum)
(10)
(11)
按照Disti大小對單個數(shù)據(jù)庫中的圖像進(jìn)行相似度排序。
記圖像img在第i個數(shù)據(jù)庫中的排名為Pi(img),在各個數(shù)據(jù)庫中匹配結(jié)果的排名平均值為P(img):
(12)
其中:P(img)表示圖像的總體相似度,P(img)越小,相似度越高。按照P(img)的大小對圖像匹配結(jié)果排序。
3.3.2 結(jié)果優(yōu)化
為了精準(zhǔn)查找,對按式(12)所得的排序結(jié)果采用蟻群算法[13-14]進(jìn)行優(yōu)化。蟻群算法是對自然界中蟻群覓食行為的一種模擬。螞蟻在覓食過程中,會沿途留下信息素,一條路徑上,走過的螞蟻越多,路徑上的信息素強(qiáng)度增大,對螞蟻就越有吸引力。而某些路徑上通過的螞蟻較少時,路徑上的信息素會逐漸消散。本文用信息素表示兩幅圖像之間的關(guān)聯(lián)度,為數(shù)據(jù)庫中的N幅圖像建立N×N大小的信息素矩陣τ,初始化τ為單位陣。每次用戶檢索圖像后根據(jù)反饋信息更新信息素矩陣,若第i幅圖像和第j幅圖像都被選取,t時刻它們之間的信息素更新如下:
τij(t)=ρ×(1-τij(t-1))/num+τij(t-1)
(13)
其中:τij(t)∈[0,1],表示t時刻第i幅圖像和第j幅圖像之間的關(guān)聯(lián)度,該值越大,兩幅圖像越相似;ρ是信息素增長因子;num是本次查詢中用戶選擇的滿意的圖像總數(shù)。
經(jīng)過多次迭代檢索,信息素矩陣τ便可作為一個有效的圖像關(guān)聯(lián)度矩陣。對數(shù)據(jù)庫中的某一張圖像img在用式(12)初步排序后,根據(jù)關(guān)聯(lián)度矩陣τ調(diào)整圖像的優(yōu)先級:
(14)
其中:n表示排序在該圖像前面的圖像個數(shù);τimg,m是圖像img與第m張圖像的關(guān)聯(lián)度;P(m)是第m張圖像的初始總體相似度;P(img)表示圖像img的初始總體相似度,P′(img)表示圖像img最終相似度。根據(jù)P′(img)的值進(jìn)行排序,P′(img)越小,該圖像優(yōu)先級越高。
為了更好地檢測算法的有效性,本文使用MPEG-7shape1partB圖像數(shù)據(jù)庫,庫內(nèi)包含動物、植物、交通工具、日常用品等70類圖像,每類圖像20幅。該數(shù)據(jù)庫中的圖像繪制清晰、噪聲點(diǎn)少且圖像中沒有多余的物體,排除這些因素對檢索結(jié)果的影響。實(shí)驗(yàn)前對數(shù)據(jù)庫中的各圖像作隨機(jī)角度的旋轉(zhuǎn)及相對自身大小的0.5至1.5倍的縮放,然后將處理后的圖像隨機(jī)放置于256×256大小的畫布中,這樣數(shù)據(jù)庫圖像中的草圖便具有了不同的位置、尺度及旋轉(zhuǎn)角度。處理后得到的部分圖像如圖2所示。
圖2 圖像庫示例
這些圖像并不是由單像素構(gòu)成的邊緣圖,為此在檢索匹配前先使用Prewitt算子提取圖像的邊緣信息作為草圖圖像。實(shí)驗(yàn)環(huán)境為InterPC(3.6GHzCPU,8GB內(nèi)存),Windows10,編程工具為MatlabR2014a。
4.1 檢索結(jié)果評價標(biāo)準(zhǔn)
為了實(shí)驗(yàn)結(jié)果數(shù)值化,本文使用查全率(precision)和查準(zhǔn)率(recall)[15]對結(jié)果進(jìn)行評價。定義如下
(15)
(16)
查全率反映算法檢索出相關(guān)信息的能力,查準(zhǔn)率反映算法拒絕非相關(guān)信息的能力。相同條件下,查全率、查準(zhǔn)率圖中的曲線越高,查找效果越好。
4.2 旋轉(zhuǎn)角度的確定
2.1.1節(jié)圖像坐標(biāo)系的確定中需要對圖像進(jìn)行旋轉(zhuǎn),每次旋轉(zhuǎn)的角度a決定了坐標(biāo)系能否精確定位,a越小,定位效果越好,但計(jì)算量會大幅增加,通過實(shí)驗(yàn),選取適當(dāng)?shù)腶使算法精確定位圖像坐標(biāo)系的同時盡可能地減少計(jì)算量。實(shí)驗(yàn)中隨機(jī)選取20類草圖圖像,每類圖像選取10幅,按照2.1.1節(jié)中的算法步驟,na°=360°中的n初值取1,并依次遞增,而a便從360開始逐次減小,記錄各圖像在a取不同值時循環(huán)運(yùn)算后得到的長方形包圍盒面積占最初面積的比例,當(dāng)比例不再減小時便得到最佳a(bǔ)值,實(shí)驗(yàn)結(jié)果如圖3所示。圖3中橫坐標(biāo)表示取不同的n值及對應(yīng)的a角度,縱坐標(biāo)表示旋轉(zhuǎn)角度取a時得到的最小圖像長方形包圍盒面積與最初面積的比例,每個點(diǎn)處取同一類別10幅圖像計(jì)算后的平均值。
圖3 不同角度下獲得包圍盒面積比
從圖3中可以看出,隨著a的增大,各類圖像的包圍盒面積比例趨于平穩(wěn),不同類別的圖像由于形狀特征不同,在不同的a值處開始平穩(wěn),但所有曲線都會在a取36之前進(jìn)入平穩(wěn)狀態(tài),因此,在2.1.1節(jié)中a定為36。
4.3 原點(diǎn)偏移魯棒性實(shí)驗(yàn)
為了驗(yàn)證本文方法對坐標(biāo)系原點(diǎn)偏移的魯棒性,隨機(jī)選取20類草圖圖像,每類圖像選擇10幅,分別將各圖像的坐標(biāo)原點(diǎn)沿0°、45°、90°、135°、180°、225°、270°、315°共8個方向作圖像大小5%、15%、25%、35%的偏移,以按照不同原點(diǎn)所提取的特征向量相對于按照初始原點(diǎn)所提取的特征向量差值比例作為判斷標(biāo)準(zhǔn),對比結(jié)果如圖4所示。
從圖4可以看出,偏移角度對特征向量的提取影響不大,輕微的偏移也沒有大的影響,但隨著偏移程度的增大,特征向量的偏差呈現(xiàn)極大幅度的增大。本方法對原點(diǎn)坐標(biāo)輕微程度的偏移可以容忍,但對大幅度偏移的魯棒性較差。
4.4 旋轉(zhuǎn)坐標(biāo)系有效性判斷
方法的第一步是對各草圖圖像建立對應(yīng)的坐標(biāo)系,并在此坐標(biāo)系中對草圖圖像分塊。為了驗(yàn)證該實(shí)驗(yàn)步驟的有效性,進(jìn)行一組對比實(shí)驗(yàn),將本文方法第一步中通過旋轉(zhuǎn)對比長方形包圍盒建立坐標(biāo)系過程去掉,直接提取草圖圖像各塊的幾何不變矩特征向量,與本文方法SBIRULGMI的實(shí)驗(yàn)結(jié)果對比如圖5所示。
圖4 原點(diǎn)偏移后差值比例
圖5 本文方法與無旋轉(zhuǎn)坐標(biāo)系方法特征匹配結(jié)果對比
由圖5可以看出查全率較低時兩種方法的檢索效果相差不多,但隨著查全率的增大,由于旋轉(zhuǎn)草圖的增多,進(jìn)行坐標(biāo)系旋轉(zhuǎn)后得到的檢索結(jié)果要明顯優(yōu)于不進(jìn)行坐標(biāo)系旋轉(zhuǎn)的方法。
4.5 不同分塊方法對比
文中2.1.2節(jié)分塊過程中,從原點(diǎn)開始向外作射線,射線間隔角度不同,各圖像塊大小不同,過小的圖像塊難以表示草圖特征,圖像塊過大又容易出現(xiàn)重復(fù)特征值。按照不同的分塊間隔作對比實(shí)驗(yàn),分別采用整體圖像、90°、45°、30°、22.5°間隔將圖像分成1塊、4塊、8塊、12塊及16塊,按照5種分塊方法計(jì)算特征向量并進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)中隨機(jī)選取駱駝、鳥、杯子、松樹和五角形圖案等20類圖像作為查詢目標(biāo),對每類圖像,由研究人員手繪10幅不同草圖進(jìn)行查詢,取10幅草圖的平均查準(zhǔn)率作為該次查全率所對應(yīng)的查詢結(jié)果,匹配結(jié)果如圖6所示。
由圖6可以看出,隨著圖像分塊數(shù)的增長,檢索匹配的結(jié)果越來越好,當(dāng)分為8塊時,檢索結(jié)果最佳;但當(dāng)分塊數(shù)增加到12和16時,分塊數(shù)量過多,各圖像塊所包含的信息較少,難以表示某一圖像的特征部分,識別過程中存在較多的相似圖像塊,無法準(zhǔn)確判斷,造成準(zhǔn)確度大幅下降。
4.6 不同方法對比
形狀上下文(SC)對于非剛性物體的識別有較好的魯棒性,邊緣分布直方圖(EOH)對邊緣信息敏感,在目標(biāo)識別方面應(yīng)用廣泛,而文獻(xiàn)[3]和文獻(xiàn)[5]方法都在草圖檢索領(lǐng)域取得了較大進(jìn)步。將本文方法與SC、EOH以及文獻(xiàn)[3]方法、文獻(xiàn)[5]方法的檢索結(jié)果進(jìn)行比較。
實(shí)驗(yàn)中同樣選取駱駝、鳥、杯子、松樹和五角形圖案等20類圖像作為查詢目標(biāo),對每類圖像,由研究人員重新手繪10幅不同草圖進(jìn)行查詢,同樣取10幅草圖的平均查準(zhǔn)率作為該次查全率所對應(yīng)的查詢結(jié)果,檢索結(jié)果如圖7所示。
圖6 不同分塊方法檢索結(jié)果對比
圖7 不同方法檢索結(jié)果對比(一)
從圖7可以看出:文獻(xiàn)[5]中的EI-S(EdgelIndex-Structure)方法由于識別不同尺度及旋轉(zhuǎn)角度圖像時魯棒性較差,檢索準(zhǔn)確率最低且下滑最快;使用邊緣分布直方圖(EOH)、形狀上下文(SC)、文獻(xiàn)[3]中的GALIF檢索結(jié)果依次變好;本文方法圖像定位準(zhǔn)確,分塊合理,且特性提取算法對圖像形變及旋轉(zhuǎn)、伸縮變換的魯棒性更好,在查全率為1的情況下,查準(zhǔn)率較其他四種方法平均提高17個百分點(diǎn)以上。實(shí)驗(yàn)證明本文方法進(jìn)行檢索時性能更好,對草圖圖像的檢索結(jié)果更加準(zhǔn)確。本文方法對茶杯和駱駝的檢索結(jié)果示例如圖8所示,圖8(a)為用戶輸入草圖示例,圖8(b)為前10個檢索結(jié)果圖像,按匹配優(yōu)先度從左到右、從上到下順序排列。
由圖8(b)的檢索結(jié)果可以看出,本文方法不僅對不同尺度、位置和旋轉(zhuǎn)的圖像有較好的匹配結(jié)果,也可以接受圖像在一定程度上的形變。
為了保證對比結(jié)果的有效性,使用文獻(xiàn)[3]的草圖數(shù)據(jù)庫再次進(jìn)行不同方法對比實(shí)驗(yàn),該數(shù)據(jù)庫中草圖圖像結(jié)構(gòu)更加復(fù)雜,但在旋轉(zhuǎn)和尺度方面的變化不明顯,部分草圖如圖9所示。
實(shí)驗(yàn)方法與使用MPEG-7圖像庫相同,檢索結(jié)果如圖10所示。由圖10看出,本文方法的識別效果仍然最好,但由于圖像庫旋轉(zhuǎn)和尺度變化不明顯,文獻(xiàn)[5]方法的識別效果有了明顯提升。
圖8 檢索結(jié)果示例
圖9 文獻(xiàn)[3]圖像庫示例
圖10 不同方法檢索結(jié)果對比(二)
4.7 蟻群算法檢索結(jié)果優(yōu)化實(shí)驗(yàn)
實(shí)驗(yàn)中以圖10中本文方法的檢索結(jié)果為例,信息素增長因子ρ設(shè)為0.3,每次檢索完后人工選定正確的檢索結(jié)果并反饋給系統(tǒng),系統(tǒng)自動更新信息素矩陣并開始再次檢索。各次的檢索結(jié)果曲線如圖11所示。
圖11 蟻群算法優(yōu)化結(jié)果
從圖11可以看出,隨著用戶反饋次數(shù)的增多,相似圖像之間的關(guān)聯(lián)性越緊密,各階段的查準(zhǔn)率都在逐步提升,且隨著查全率的增大,關(guān)聯(lián)度矩陣得到更全面的使用,優(yōu)化效果更加明顯。根據(jù)蟻群算法建立的圖像關(guān)聯(lián)度矩陣對草圖圖像檢索的準(zhǔn)確率有較好的提升效果。
為了檢驗(yàn)優(yōu)化算法的時間性能,分別對不同大小數(shù)據(jù)庫在用戶反饋后的信息素更新時間及不同反饋次數(shù)時對不同數(shù)量檢索圖像進(jìn)行優(yōu)化所需的時間進(jìn)行對比實(shí)驗(yàn)。
當(dāng)圖像數(shù)據(jù)庫的圖像數(shù)量分別為500幅、2 000幅、5 000幅時,其信息素更新時間分別為0.005 0s、0.027 0s、0.113 0s,由此可以看出,數(shù)據(jù)庫圖像數(shù)量越多信息素更新時間會增加,但每次信息素更新時間仍較短,對方法的性能不會造成明顯影響。
表1給列出了在不同數(shù)圖像量的數(shù)據(jù)庫中,各次反饋后對圖像進(jìn)行檢索優(yōu)化所需時間。由表1可以看出,隨著反饋次數(shù)以及圖像數(shù)量的增多,關(guān)聯(lián)圖像隨著增加,因此優(yōu)化所需時間有少量增長,但總體時間較短,對方法的性能不會造成明顯影響。
表1 不同圖像數(shù)量各次反饋后的檢索優(yōu)化時間
本文為了提高使用草圖進(jìn)行圖像檢索的識別準(zhǔn)確率,增強(qiáng)特征提取算法對不同尺度、位置、旋轉(zhuǎn)及形變草圖的魯棒性,提出了基于草圖局部幾何不變矩的圖像檢索方法(SBIRULGMI),通過對圖像進(jìn)行分塊,計(jì)算各塊的幾何不變矩作為特征向量,然后進(jìn)行相似度匹配并優(yōu)化結(jié)果。通過對不同草圖數(shù)據(jù)庫檢索實(shí)驗(yàn)可以看出,SBIRULGMI對草圖各種變化的魯棒性較好,檢索準(zhǔn)確率較高,在不規(guī)則草圖的識別與檢索、圖像匹配等領(lǐng)域都可以有效應(yīng)用。但是由于局部分塊方法的交互性不夠,在對較為復(fù)雜或者簡單的草圖識別中準(zhǔn)確率有所下降,以后可以從圖像的分塊方面進(jìn)行深入的研究。
)
[1]KATOT,KUTITAT,OTSUN,etal.Asketchretrievalmethodforfullcolorimagedatabase-querybyvisualexample[C]//Proceedingsofthe11thIAPAInternationalConferenceonPatternRecognition.Washington,DC:IEEEComputerSociety, 1992: 530-533.
[2]SMCULDCRSAWM,WORRINGM,SANTINIS,etal.Content-basedimageretrievalattheendoftheearlyyears[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2000, 22(12): 1349-1380.
[3]EITZM,RICHTERR,BOUBEKEURT,etal.Sketch-basedshaperetrieval[J].ACMTransactiononGraphics, 2012, 31(4):ArticleNo. 31.
[4]EITZM,HILDEBRANDK,BOUBEKEURT,etal.Sketch-basedimageretrieval:benchmarkandbag-of-featuresdescriptors[J].IEEETransactionsonVisualizationandComputerGraphics, 2011, 17(11): 1624-1636.
[5]CAOY,WANGCH,ZHANGL,etal.Edgelindexforlarge-scalesketch-basedimagesearch[C]//Proceedingsofthe2011IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2011: 761-768.
[6]CAOY,WANGCH,WANGC,etal.MindFinder:interactivesketch-basedimagesearchonmillionsofimages[C]//MM’10:Proceedingsofthe18thACMInternationalConferenceonMultimedia.NewYork:ACM, 2010: 1605-1608.
[7]BHATTACHARJEESD,MITTALA.Part-baseddeformableobjectdetectionwithasinglesketch[J].ComputerVisionandImageUnderstanding, 2015, 139(C) :73-87.
[8]HUR,WANGTH,COLLOMOSSEJ.Abag-ofregionsapproachtosketch-basedimageretrieval[C] //Proceedingsofthe18thIEEEInternationalConferenceonImageProcessing.Piscataway,NJ:IEEE, 2011: 3661-3664.
[9]EITZM,HILDEBRANDK,BOUBEKEURT,etal.Anevaluationofdescriptorsforlarge-scaleimageretrievalfromsketchedfeaturelines[J].Computer&Graphics, 2010, 34(5): 482-498.
[10]HUMK.Visualpatternrecognitionbymomentinvariant[J].IRETransactionsonInformationTheory, 1962, 8(2): 179-187.
[11] 張偉,何金國.Hu不變矩的構(gòu)造和推廣[J].計(jì)算機(jī)應(yīng)用,2010,30(9):2449-2452.(ZHANGW,HEJG.ConstructionandgeneralizationofHumomentinvariants[J].JournalofComputerApplications, 2010, 30(9): 2449-2452.)
[12] 鐘龍招.基于草圖的圖像檢索技術(shù)研究及系統(tǒng)實(shí)現(xiàn)[D].廈門: 廈門大學(xué),2014:22-24.(ZHONGLZ.Researchandsystemimplementationofsketch-basedimageretrieval[D].Xiamen:XiamenUniversity, 2014: 22-24.)
[13]ZARCHIMS,MONADJEMIA,JAMSHIDIK.Asemanticmodelforgeneralpurposecontent-basedimageretrievalsystems[J].ComputersandElectricalEngineering, 2014, 40(7): 2062-2071.
[14] 陳光鵬,楊育彬.利用蟻群算法的記憶式圖像檢索方法[J].計(jì)算機(jī)科學(xué)與探索,2011,5(1):32-37.(CHENGP,YANGYB.Memory-typeimageretrievalmethodbasedonantcolonyalgorithm[J].JournalofFrontiersofComputerScienceandTechnology, 2011, 5(1): 32-37.)
[15] 徐慶,楊維維,陳生潭.基于內(nèi)容的圖像檢索技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,18(1):126-128,131.(XUQ,YANGWW,CHENST.Content-basedimageretrievaltechnology[J].ComputerTechnologyandDevelopment, 2008, 18(1): 126-128, 131.)
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61272286),theNaturalScienceBasicResearchPlaninShaanxiProvince(2014JM8346).
BAO Zhenhua, born in 1992, M. S. candidate. His research interests include image recognition and retrieval.
KANG Baosheng, born in 1961, Ph. D., professor. His research interests include graphics and image processing.
ZHANG Lei, born in 1980, Ph. D, lecturer. His research interests include graphics and image processing.
ZHANF Jing, born in 1988, Ph. D. candidate. His research interests include 3D model retrieval.
Sketch-based image retrieval method using local geometry moment invariant
BAO Zhenhua1, KANG Baosheng1*, ZHANG Lei1,2, ZHANG Jing1
(1.CollegeofInformationScienceandTechnology,NorthwestUniversity,Xi’anShaanxi710127,China; 2.CollegeofPublicComputerTeaching,YunchengUniversity,YunchengShanxi044000,China)
The difficulty in sketch-based image retrieval is the effective recognition of images with different scales, positions, rotations and deformations. In order to identify and retrieve images of different scales, positions and rotations more accurately, a Sketch-Based Image Retrieval method Using Local Geometry Moment Invariant (SBIRULGMI) was proposed. Firstly, the geometric characteristics of image were used to determine the coordinate system of image. Secondly, the geometry moment invariant of image blocks which were divided averagely based on the generated coordinate system was calculated to form a eigenvector. Then, the similarities between query sketch and images in database were calculated based on Euclidean distance. Finally, the retrieval results were obtained from the similarity ranking and optimized according to Ant Colony Optimization (ACO). Compared with Shape Context (SC), Edge Orientation Histogram (EOH), GAbor Local lIne-based Feature (GALIF) and MindFinder, the retrieval accuracy of the proposed method in image database of MPEG-7 shape1 part B was increased by 17 percentage points on average. The experimental results show that the proposed method not only has a better recognition effect on the images after translation, scaling and flipping transformation, but also has better robustness to a certain degree of rotation and deformation.
image block; geometry moment invariant; sketch; retrieval; Ant Colony Optimization (ACO) algorithm
2016- 12- 09;
2017- 02- 16。
國家自然科學(xué)基金資助項(xiàng)目(61272286);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2014JM8346)。
鮑振華(1992—),男,山西運(yùn)城人,碩士研究生,主要研究方向:圖像識別和檢索; 康寶生(1961—),男,陜西咸陽人,教授,博士,主要研究方向:圖形圖像處理; 張雷(1980—)男,山西臨猗人,講師,博士,主要研究方向:圖形圖像處理; 張婧(1988—)女,陜西西安人,博士研究生,主要研究方向:三維模型檢索。
1001- 9081(2017)06- 1753- 06
10.11772/j.issn.1001- 9081.2017.06.1753
TP
A