江 曼,張皓翔,程德強(qiáng),2*,郭 林,寇旗旗,趙 雷
融合HSV與方向梯度特征的多尺度圖像檢索
江 曼1,張皓翔1,程德強(qiáng)1,2*,郭 林1,寇旗旗3,趙 雷1
1中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇 徐州 221116;2中國(guó)礦業(yè)大學(xué)地下空間智能控制教育部工程研究中心,江蘇 徐州 221116;3中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116
針對(duì)現(xiàn)有彩色圖像檢索算法存在旋轉(zhuǎn)變化魯棒性差、特征維度高和檢索時(shí)間長(zhǎng)的問(wèn)題,通過(guò)融合主曲率的改進(jìn)方向梯度特征與HSV顏色特征,提出了一種創(chuàng)新的多尺度圖像檢索方法。該方法從多個(gè)尺度將圖像表面的幾何曲率信息融合到FHOG描述符中,得到基于主曲率的改進(jìn)方向梯度算法(P-FHOG),在此基礎(chǔ)上進(jìn)一步融合圖像的顏色信息,得到基于顏色特征與改進(jìn)方向梯度特征的多尺度圖像檢索方法(CP-FHOG)。在Corel-1000與Coil-100數(shù)據(jù)集上與先進(jìn)的圖像檢索方法進(jìn)行對(duì)比實(shí)驗(yàn),分別取得了85.89%和93.38%的平均準(zhǔn)確率,該算法相比其他算法準(zhǔn)確率更高、旋轉(zhuǎn)變化魯棒性更強(qiáng)、檢索時(shí)間更短,提高了檢索效率。
圖像檢索;顏色信息;方向梯度;多尺度;特征融合
圖像檢索的目的是從大規(guī)模數(shù)字圖像數(shù)據(jù)庫(kù)中查看、搜索和恢復(fù)圖像,隨著計(jì)算機(jī)視覺(jué)與數(shù)字媒體的迅速發(fā)展,圖像檢索已廣泛應(yīng)用于搜索引擎、數(shù)字圖書(shū)館、醫(yī)學(xué)圖像管理等領(lǐng)域[1]。圖像檢索方法可以分為兩類(lèi):基于文本的圖像檢索(text-based image retrieva,TBIR)方法和基于內(nèi)容的圖像檢索(content-based image retrieva,CBIR)方法。TBIR方法通過(guò)人工標(biāo)注將關(guān)鍵字、字幕等描述作為屬性添加到圖像中,圖像所附的屬性很大程度上取決于標(biāo)注者的主觀感知,無(wú)法涵蓋查詢(xún)的全部范圍,該方法不僅耗費(fèi)人力,且無(wú)法準(zhǔn)確檢索圖像。CBIR方法從圖像中提取顏色、紋理和形狀等視覺(jué)特征[2],以此作為標(biāo)準(zhǔn)結(jié)合機(jī)器學(xué)習(xí)進(jìn)行圖像檢索,無(wú)需人工標(biāo)注,提高了檢索準(zhǔn)確率,節(jié)省檢索時(shí)間,成為該領(lǐng)域的研究熱點(diǎn)。
特征提取是通過(guò)圖像整體和局部的特征信息,獲取特征描述符用于檢索[3],是CBIR方法的關(guān)鍵步驟,決定著檢索的效率與準(zhǔn)確率。近年來(lái),尺度不變特征(scale-invariant feature transform,SIFT)、加速魯棒特征(speeded up robust features,SURF)、方向梯度直方圖(histogram of oriented gradient,HOG)、局部二值模式(local binary pattern,LBP)、區(qū)域特征提取算法(maximally stable external regions,MSER)、高斯差分算子(difference of Gaussian,DoG)等特征描述符表現(xiàn)優(yōu)秀,在CBIR中得到了廣泛的應(yīng)用[4]。Agarwal等[5]將方向梯度直方圖(HOG)應(yīng)用于CBIR方法中,有效地提高了檢索的準(zhǔn)確率。Rui等[6]提取梯度場(chǎng)方向梯度直方圖(gradient field histogram of oriented gradient,GF-HOG)實(shí)現(xiàn)了有效的草圖檢索。Joolee等[7]將梯度方向的三值直方圖(ternary histogram of oriented gradient,THOG)用于視頻檢索,達(dá)到了良好的效果?;诿枋龇乃惴▽?duì)檢索精度有很大程度的提高,但由于圖像中包含多種視覺(jué)特征,僅使用一種特征難以達(dá)到精確的檢索效果。為了解決這一問(wèn)題,學(xué)者提出了將多種特征融合的圖像檢索系統(tǒng)。其中,顏色特征作為最常用的視覺(jué)特征,在圖像檢索中發(fā)揮重要的作用。Cheng等[8]提出一種基于結(jié)合顏色特征與HOG特征結(jié)合的圖像檢索算法,取得了不錯(cuò)的效果。Pavithra等[9]利用顏色矩信息、LBP特征和Canny邊緣檢測(cè)方法,提取圖像的紋理和邊緣特征,實(shí)現(xiàn)了對(duì)相似圖像的快速響應(yīng)和有效檢索。Bella等[10]提出了一種基于灰度共生矩陣和HSV(Hue, Saturation, Value)顏色矩的圖像檢索系統(tǒng),融合圖像的信息特征,增強(qiáng)了系統(tǒng)的檢索性能。Dhiman等[11]利用RGB通道對(duì)圖像進(jìn)行離散小波變換,再利用灰度共生矩陣與改進(jìn)的LBP特征進(jìn)行紋理信息融合,達(dá)到了高效的圖像檢索效果。Danapur等[12]將RGB顏色空間轉(zhuǎn)換為HSV顏色空間,利用旋轉(zhuǎn)局部二值模式(robust local binary pattern,RLBP)描述符提取紋理特征。Khwildi等[13]提出了一種基于HSV顏色直方圖和顏色矩的高動(dòng)態(tài)范圍(high dynamic range imaging,HDR)圖像檢索方法,利用曼哈頓距離度量圖像之間的相似度,具有很強(qiáng)的穩(wěn)定性。隨著CBIR方法的快速發(fā)展,將其與深度學(xué)習(xí)算法相結(jié)合逐漸成為圖像檢索的主流。搭建網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí)圖像特征,利用網(wǎng)絡(luò)的多層次性將圖像特征關(guān)聯(lián),并完成圖像分類(lèi)。AlexNet使用非線性激活函數(shù),提取豐富的特征,提高檢索準(zhǔn)確率。VGGNet加深網(wǎng)絡(luò)結(jié)構(gòu)提升性能,通過(guò)足量數(shù)據(jù)刻畫(huà)模型在空間上的分布。ResNet與Inception系列模型共同展示了基于深度學(xué)習(xí)的圖像檢索新模式。
將改進(jìn)的顏色特征與其他特征相結(jié)合的系統(tǒng)雖然有較好的魯棒性,但由于待檢索圖像存在目標(biāo)相似、背景復(fù)雜等問(wèn)題,導(dǎo)致圖像的多特征信息提取時(shí)間長(zhǎng)、特征維度高。并且對(duì)于不同角度旋轉(zhuǎn)變化的數(shù)據(jù)集,圖像的紋理特征難以提取,導(dǎo)致現(xiàn)有的圖像檢索系統(tǒng)對(duì)此類(lèi)數(shù)據(jù)集檢索性能不佳。針對(duì)目前圖像檢索算法存在的旋轉(zhuǎn)變化魯棒性差、特征維度高和檢索時(shí)間長(zhǎng)的問(wèn)題,本文提出一種基于顏色特征與改進(jìn)方向梯度特征的多尺度圖像檢索方法。首先,考慮到傳統(tǒng)HOG方法在檢索過(guò)程中對(duì)圖像旋轉(zhuǎn)變化的不適應(yīng)性,本文引入融合主曲率的多尺度改進(jìn)方向梯度直方圖算法(principal curvatures-fast histogram of oriented gradients,P-FHOGs),在多尺度高斯空間內(nèi)分析圖像表面的局部幾何曲率信息,以提高檢索對(duì)于目標(biāo)物體不同角度的旋轉(zhuǎn)魯棒性。同時(shí),利用HSV顏色空間提取圖像整體的顏色信息,并將顏色特征與改進(jìn)方向梯度特征融合,得到基于顏色與改進(jìn)方向梯度特征的圖像檢索方法(color and principal curvatures-fast histogram of oriented gradients,CP-FHOG),進(jìn)一步提高了特征提取的有效性。實(shí)驗(yàn)證明,本文提出的方法可以達(dá)到快速、有效的檢索需求,在圖像標(biāo)準(zhǔn)數(shù)據(jù)集中檢索準(zhǔn)確率顯著提高。
2.1.1 多尺度主曲率
在三維歐氏空間中,給定曲面上一個(gè)點(diǎn)0,它的法向量的切平面在一個(gè)可微曲面上是唯一的。在點(diǎn)0上有無(wú)窮多個(gè)包含法向量平面,在所有的法向量平面與曲面的交線中,有兩條交線的曲率在所有曲率中最大與最小,分別用1和2表示,這兩個(gè)曲率稱(chēng)為主曲率(principal curvatures,PCs)。如圖1所示為0點(diǎn)的空間主曲率示意圖,表征了圖像旋轉(zhuǎn)不變的特征信息,即無(wú)論圖像以任何角度旋轉(zhuǎn),主曲率都將保持不變。
圖1 圖像某一點(diǎn)的空間主曲率
要得到彩色圖像的主曲率特征,首先要計(jì)算每個(gè)像素點(diǎn)的海森矩陣,然后根據(jù)矩陣的行列式和跡得出特征值,進(jìn)而計(jì)算圖像表面幾何結(jié)構(gòu)的主曲率信息。對(duì)于灰度圖像(,)上任意一點(diǎn)的海森矩陣定義如下:
海森矩陣特征值的和等于矩陣的跡,矩陣特征值的乘積等于矩陣的行列式:
利用的行列式和跡可以得到兩個(gè)特征值:
海森矩陣的特征值1和2即為主曲率。經(jīng)過(guò)不同高斯空間后得到不同尺度的主曲率信息,主曲率描述了紋理特征的局部極大值與極小值,反映了圖像多個(gè)尺度的宏觀和微觀紋理信息。
2.1.2 FHOG描述符
HOG描述符自提出以來(lái),在目標(biāo)檢測(cè)與圖像檢索領(lǐng)域得到了廣泛的應(yīng)用。HOG描述符對(duì)圖像的幾何形變和光學(xué)形變具有很好的魯棒性,將圖像分割成許多小單元格,并計(jì)算每個(gè)小單元格中的梯度和像素,通過(guò)合并小單元格提取像素信息來(lái)構(gòu)建圖像的方向梯度直方圖。HOG描述符為了保證提取紋理特征的準(zhǔn)確性,常常要減小滑動(dòng)圖像塊的步長(zhǎng),這樣會(huì)導(dǎo)致最終提取的特征維數(shù)高、時(shí)間長(zhǎng)和過(guò)擬合。
為了解決上述問(wèn)題,F(xiàn)elzenszwalb等[15]提出了快速的方向梯度直方圖(fast histogram of oriented gradients,F(xiàn)HOG),最初應(yīng)用于目標(biāo)檢測(cè)中,通過(guò)把高維特征融入到相關(guān)濾波框架中來(lái)有效地提取特征,事實(shí)證明,F(xiàn)HOG描述符可以更少的計(jì)算時(shí)間獲得優(yōu)于傳統(tǒng)HOG描述符的性能。如圖3所示為FHOG描述符提取特征的流程圖。FHOG描述符的滑動(dòng)圖像塊中,九個(gè)小單元格被分成四組,在每組中都能提取兩個(gè)9維有符號(hào)HOG特征向量和一個(gè)9維無(wú)符號(hào)HOG特征向量,組合成一個(gè)27維特征向量,四組特征向量組合成一個(gè)4×27特征矩陣。
圖2 圖像某一點(diǎn)處的海森矩陣
圖3 FHOG描述符提取特征流程圖
將該矩陣的列相加得到1×27的列向量,矩陣的行相加得到4×1的行向量。通過(guò)連接該行向量與列向量得到一個(gè)降維后的31維特征向量,此向量即描述了具有9個(gè)小單元格的滑動(dòng)圖像塊的特征。
2.1.3 HSV顏色空間
顏色特征是圖像檢索中最常用的特征之一,對(duì)圖像平移、失真等相關(guān)變化具有很強(qiáng)的魯棒性。顏色特征通常在顏色空間中用顏色直方圖來(lái)描述,常用的顏色空間有HSV、RGB、YCbCr、Lab、Luv等,顏色直方圖是圖像顏色特征檢索的關(guān)鍵,有較強(qiáng)的穩(wěn)定性。
HSV顏色空間由三個(gè)分量組成:色調(diào)H、飽和度S和亮度V。由于H和S兩個(gè)分量十分接近人類(lèi)視覺(jué)感知的顏色,HSV顏色空間被廣泛應(yīng)用于圖像檢索中。V分量與其他兩個(gè)分量分開(kāi),使得顏色表示更加直觀,因此HSV顏色空間更具有統(tǒng)一性、整體性、緊湊性和自然性。彩色圖像從RGB顏色空間轉(zhuǎn)換到HSV顏色空間的公式如下:
在HSV顏色空間中,H描繪色調(diào),S描繪飽和度,V描繪亮度[12]。
2.2.1 CP-FHOG算法流程
為了解決現(xiàn)有彩色圖像檢索算法旋轉(zhuǎn)變化魯棒性差、特征維度高和檢索時(shí)間長(zhǎng)等問(wèn)題,本文提出了基于多尺度主曲率方向梯度與顏色特征融合的圖像檢索算法。首先,為了更好地表征圖像的紋理特征,提出基于主曲率的方向梯度特征描述符,并構(gòu)造多層高斯尺度空間,提高特征描述符的旋轉(zhuǎn)與尺度魯棒性;其次,將圖像的顏色特征與改進(jìn)的方向梯度特征描述符融合,提高檢索描述符的穩(wěn)定性。
如圖4所示為CP-FHOG算法流程圖,首先,輸入的彩色圖像通過(guò)高斯空間轉(zhuǎn)換為灰度高斯圖像,計(jì)算灰度高斯圖像的主曲率信息融入FHOG描述符,同時(shí)對(duì)主曲率信息進(jìn)行多采樣構(gòu)造基于主曲率的混合采樣方向梯度特征(P-FHOG1、P-FHOG2、P-FHOG3),再將三個(gè)尺度的特征融合得到圖像的多尺度方向梯度特征直方圖P-FHOGs。其次,將RGB彩色圖像通過(guò)HSV顏色空間進(jìn)行量化,提取圖像的顏色信息以構(gòu)造顏色特征直方圖。最后,將圖像的方向梯度特征與顏色特征相融合,得到圖像的特征融合直方圖。
2.2.2 多尺度主曲率的方向梯度特征
如圖4所示,輸入圖像分別通過(guò)三個(gè)尺度的高斯空間得到灰度圖像,進(jìn)而提取灰度圖像的主曲率信息,F(xiàn)HOG描述符通過(guò)不同尺度的采樣窗口提取灰度圖像的方向梯度信息,P-FHOG算法將主曲率信息與方向梯度信息融合,得到圖像的方向梯度特征直方圖。
圖4 CP-FHOG算法流程圖
關(guān)于海森矩陣的計(jì)算方法,已在本文2.1.1節(jié)中詳細(xì)敘述,海森矩陣的特征值1和2即為圖像的主曲率,代表每個(gè)像素點(diǎn)的最大值與最小值曲率,描述了圖像幾何旋轉(zhuǎn)不變的性質(zhì)。得到圖像的主曲率信息之后,為了提高區(qū)分度與對(duì)比度,便于計(jì)算融合主曲率的方向梯度信息,利用比值公式與冪指數(shù)轉(zhuǎn)換公式[16]對(duì)1和2進(jìn)行量化:
將P-FHOG算法在三個(gè)尺度空間中進(jìn)行聯(lián)接,從而構(gòu)建P-FHOGs算法模型。P-FHOG算法在每個(gè)尺度空間內(nèi)有90維特征向量,則三個(gè)不同的尺度空間構(gòu)建的P-FHOGs算法共統(tǒng)計(jì)270維特征向量:
2.2.3 顏色特征
為了提取圖像的顏色特征,首先在HSV顏色空間中進(jìn)行量化。色調(diào)、飽和度和亮度分別在[0,360]、[0,1]和[0,1]的范圍內(nèi)。HSV顏色空間的量化式[17]如下:
2.2.4 特征融合
融合主曲率的方向梯度特征直觀地反映了圖像局部的紋理信息,對(duì)旋轉(zhuǎn)變化、尺度變化有很強(qiáng)的魯棒性,其提取的灰度信息不能完整反映圖像的全局特征。圖像的顏色直方圖屬于全局特征,對(duì)圖像整體的平移、幾何變化有更強(qiáng)的穩(wěn)定性。如圖6所示,本文將基于主曲率的方向梯度特征與顏色特征,經(jīng)過(guò)同比例級(jí)聯(lián)加權(quán)融合,得到最終的圖像特征,提高了檢索精度。
本文利用Matlab2019在兩個(gè)公開(kāi)的圖像檢索數(shù)據(jù)集Corel-1000[18]和COIL-100[19]上進(jìn)行對(duì)比實(shí)驗(yàn),來(lái)驗(yàn)證CP-FHOG算法的有效性。采用檢索準(zhǔn)確率AP,平均準(zhǔn)確度mAP,平均召回率Recall,特征提取時(shí)間SFET,檢索時(shí)間RT,特征維度Dimension作為算法性能的評(píng)價(jià)指標(biāo),數(shù)據(jù)集采用的評(píng)價(jià)方法為歐氏距離。
實(shí)驗(yàn)數(shù)據(jù)集Corel-1000,包含1000張圖像,由10個(gè)不同的類(lèi)別組成,每類(lèi)包含100幅大小為256 pixels′348 pixels或348 pixels′256 pixels的圖像,廣泛應(yīng)用于圖像檢索和分類(lèi)。如圖7所示,數(shù)據(jù)集包括背景和復(fù)雜對(duì)象,如African,sea,architecture,bus,dinosaur,elephant,flower,horse,mountain,food,類(lèi)別間有很強(qiáng)的相似性,通常用來(lái)測(cè)試算法的檢索精度和效率。
實(shí)驗(yàn)數(shù)據(jù)集Coil-100,包含7200張圖像,由100個(gè)不同的類(lèi)別組成,每個(gè)圖像類(lèi)別都包含72幅大小為128 pixels′128 pixels,0~360°不同視角下旋轉(zhuǎn)的相同對(duì)象。由于這種類(lèi)別中旋轉(zhuǎn)視角的差異,該數(shù)據(jù)庫(kù)常用于圖像檢索的準(zhǔn)確性評(píng)價(jià)[20]。如圖8所示為數(shù)據(jù)集中statue,car,frog,white cup,rolaids,mud pot,truck,cat,tomato,jug,pink cup,stick類(lèi)別的成像情況。
圖5 顏色特征提取。(a) 輸入圖像;(b) RGB轉(zhuǎn)換圖像;(c) HSV轉(zhuǎn)換圖像
圖6 特征融合級(jí)聯(lián)直方圖
圖7 Corel-1000數(shù)據(jù)集的樣本圖像
圖8 Coil-100數(shù)據(jù)集的樣本圖像
圖9 不同的d和m對(duì)準(zhǔn)確率的影響
適當(dāng)增加有利于像素塊內(nèi)的特征提取,平均準(zhǔn)確率有較大的上升,而過(guò)大時(shí)直方圖對(duì)像素塊的分辨率產(chǎn)生影響,從而準(zhǔn)確率下降,當(dāng)方向直方圖數(shù)量=30 bins時(shí),得到算法最佳的平均準(zhǔn)確率,可得CP-FHOG算法的最佳參數(shù)設(shè)置如表1所示。
為了評(píng)估CP-FHOG算法對(duì)圖像檢索的性能,本文分別在兩個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),在數(shù)據(jù)集中通過(guò)歐氏距離,取與查詢(xún)圖像最接近的top20張圖像分析實(shí)驗(yàn)結(jié)果,對(duì)比實(shí)驗(yàn)的結(jié)果如表2~5所示。
圖10 不同的b對(duì)準(zhǔn)確率的影響
表1 實(shí)驗(yàn)參數(shù)設(shè)置
3.3.1 特征融合的有效性
對(duì)于Corel-1000數(shù)據(jù)集,將CP-FHOG算法與其他CBIR先進(jìn)算法進(jìn)行對(duì)比試驗(yàn),并取每種算法檢索結(jié)果的前20張進(jìn)行性能評(píng)價(jià)。如圖11所示為CP-FHOG算法在African,flower類(lèi)別中的檢索結(jié)果,表2和表3可見(jiàn)每個(gè)類(lèi)別圖像的檢索準(zhǔn)確率與召回率。CP-FHOG算法提取顏色和紋理特征用于彩色圖像檢索,在超過(guò)半數(shù)的圖像類(lèi)別中都具有較好的精度,尤其在African,bus,dinosaur類(lèi)別中獲得了最高的準(zhǔn)確率。對(duì)比Pavithra等[9]提出的融合紋理特征與邊緣特征的算法,CP-FHOG算法加入了顏色特征,有更有效的特征表達(dá)。其他算法在一些類(lèi)別中也得到了很好的檢索結(jié)果,如Kundu等[22]的算法在大象這一類(lèi)別中有更高的準(zhǔn)確率。
如圖12所示為單一特征HSV顏色空間、改進(jìn)方向梯度直方圖特征P-FHOGs算法與融合特征CP-FHOG算法的實(shí)驗(yàn)結(jié)果對(duì)比圖。由圖可以看出,當(dāng)使用單一特征進(jìn)行檢索時(shí),效果遠(yuǎn)不如特征融合后的算法結(jié)果。同時(shí)對(duì)比表2的最后三列,當(dāng)僅使用HSV空間提取顏色特征進(jìn)行檢索時(shí),各類(lèi)別的準(zhǔn)確率均低于CP-FHOG算法檢索的準(zhǔn)確率。當(dāng)去除顏色特征僅使用P-FHOG算法進(jìn)行檢索時(shí),除sea類(lèi)別之外其余類(lèi)別的準(zhǔn)確率仍低于CP-FHOG算法。而sea類(lèi)別由于場(chǎng)景中顏色特征提取相對(duì)較弱,因此融合顏色之后的效果不如單獨(dú)使用方向梯度特征。由此可以看出,將顏色特征與改進(jìn)方向梯度方向融合,顯著提高了圖像檢索的準(zhǔn)確率,達(dá)到了精準(zhǔn)檢索的目的。
表2 數(shù)據(jù)集Corel-1000上的各類(lèi)別檢索準(zhǔn)確率/%
表3 數(shù)據(jù)集Corel-1000上的各類(lèi)別檢索召回率/%
表4 數(shù)據(jù)集Corel-1000上的各參數(shù)對(duì)比
表5 數(shù)據(jù)集Corel-1000上與深度學(xué)習(xí)算法對(duì)比各類(lèi)別檢索準(zhǔn)確率/%
在數(shù)據(jù)集Corel-1000上對(duì)各檢索算法的平均準(zhǔn)確率、召回率、單張?zhí)卣魈崛r(shí)間、單張檢索時(shí)間、特征維度進(jìn)行比較。如表4所示,CP-FHOG算法的平均準(zhǔn)確率達(dá)到了最優(yōu),相比HSV顏色特征與P-FHOGs算法分別提升了8.35%、10.67%。僅使用HSV顏色空間的體征提取時(shí)間最短,僅使用P-FHOGs時(shí)的檢索時(shí)間最短。Dubey等[23]算法引入了基于局部二進(jìn)制模式的多通道加法器和解碼器用于圖像檢索,導(dǎo)致特征維度過(guò)大,檢索用時(shí)最長(zhǎng)。與該算法相比,CP-FHOG算法利用多尺度高斯濾波輸出灰度圖像,迭代次數(shù)更少,提取特征維度降低至342維,檢索時(shí)間明顯減少。總的來(lái)看,特征融合后的CP-FHOG算法不僅檢索精度高,在檢索時(shí)間、特征維度方面也都有顯著的改善。
如表5所示,將融合后的算法與AlexNet、GoogleNet、VGGNet、ResNet這些經(jīng)典的深度學(xué)習(xí)算法進(jìn)行對(duì)比實(shí)驗(yàn),CP-FHOG算法檢索明顯高于AlexNet[24]與GoogleNet模型的準(zhǔn)確率,與VGG-19網(wǎng)絡(luò)對(duì)比,本文算法在大多數(shù)類(lèi)別也取得了較高的準(zhǔn)確率,與ResNet網(wǎng)絡(luò)相對(duì)比,本文算法與其在不同類(lèi)別各有所長(zhǎng),且總體平均準(zhǔn)確率略高,可以看出本文算法用于圖像檢索的有效性。
3.3.2 多尺度主曲率的旋轉(zhuǎn)魯棒性
如圖13所示,數(shù)據(jù)集Coil-100包含不同旋轉(zhuǎn)角度的檢索目標(biāo)。任意選取數(shù)據(jù)集中12類(lèi)的檢索結(jié)果,將CP-FHOG算法與主流的檢索算法SIFT、SURF、LBP進(jìn)行比較。
如表6所示為數(shù)據(jù)集Coil-100上各類(lèi)別的檢索準(zhǔn)確率與平均準(zhǔn)確率,結(jié)果表明CP-FHOG算法在大多數(shù)類(lèi)別中具有最高的檢索精度,并且在cat,statue,rolaids,mud pot,pink cup,white cup類(lèi)別中準(zhǔn)確率達(dá)到100%。對(duì)比經(jīng)典的SIFT,SURF,MSER等圖像檢索算法,CP-FHOG算法結(jié)合主曲率,提取的特征保留了顯著的紋理信息,有效地抵抗旋轉(zhuǎn)變化,性能有很大的提升,獲得了更準(zhǔn)確的檢索結(jié)果。對(duì)比Ahmed等[27]提出的算法,同樣結(jié)合了顏色和紋理特征,但是對(duì)于該數(shù)據(jù)集中存在視角差異,CP-FHOG算法結(jié)合主曲率,提取的特征保留了顯著的紋理信息,更有效地抵抗旋轉(zhuǎn)變化,獲得了更準(zhǔn)確的檢索結(jié)果。對(duì)比HSV,P-FHOGs,CP-FHOG算法的結(jié)果,HSV顏色空間在此數(shù)據(jù)集上的檢索平均準(zhǔn)確率為90.5%,融合P-FHOGs后得到的CP-FHOG算法準(zhǔn)確率為93.4%,提升了2.9%。不難發(fā)現(xiàn),相比于使用單一特征進(jìn)行檢索,特征融合后的檢索準(zhǔn)確率有明顯的提升,性能也更加穩(wěn)定,進(jìn)一步證明了本文算法的旋轉(zhuǎn)魯棒性以及檢索有效性。
圖11 Corel-1000數(shù)據(jù)集的檢索結(jié)果。(a) Africans;(b) Flowers
圖12 消融實(shí)驗(yàn)結(jié)果對(duì)比圖
圖13 不同旋轉(zhuǎn)角度的檢索目標(biāo)
表6 數(shù)據(jù)集Coil-100上的各類(lèi)別檢索準(zhǔn)確率/%
針對(duì)目前彩色圖像檢索存在的特征提取時(shí)間長(zhǎng)、特征維度高,對(duì)于不同視角的樣本數(shù)據(jù)集檢索性能差的問(wèn)題,本文提出了一種基于改進(jìn)方向梯度與顏色特征融合的多尺度圖像檢索方法,通過(guò)HSV顏色空間獲取圖像的顏色信息,有效提取圖像的整體特征。針對(duì)提取單一顏色特征存在的局部特征信息丟失的問(wèn)題,在多個(gè)尺度空間中將主曲率信息融入FHOG描述符中,在保留顏色特征的同時(shí)提取圖像局部紋理特征,有效地區(qū)分了相似類(lèi)別間顏色差異,同時(shí)避免了圖像紋理信息的混淆,降低了特征的維度。利用歐氏距離在Corel-1000和Coil-100數(shù)據(jù)集上檢索,將提出的算法與主流的特征提取和圖像檢索算法進(jìn)行比較與性能評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文提出的CP-FHOG算法與HSV和P-FHOGs算法相比,提取的細(xì)節(jié)特征更加豐富,旋轉(zhuǎn)魯棒性更強(qiáng),在包含復(fù)雜背景與不同旋轉(zhuǎn)角度目標(biāo)的數(shù)據(jù)集中檢索準(zhǔn)確率得到了顯著的提升,檢索時(shí)間與特征維度也有很大的改善。下一步研究?jī)?nèi)容是提取圖像的邊緣特征并結(jié)合機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)更高效的彩色圖像檢索。
[1] Yan C G, Gong B, Wei Y X,. Deep multi-view enhancement hashing for image retrieval[J]., 2021, 43(4): 1445–1451.
[2] Kou Q Q, Cheng D Q, Yu W J,. Texture target classification with CLBP and local geometric features[J]., 2019, 46(11): 180604.
寇旗旗, 程德強(qiáng), 于文潔, 等. 融合CLBP和局部幾何特征的紋理目標(biāo)分類(lèi)[J]. 光電工程, 2019, 46(11): 180604.
[3] Liu F, Wu Z W, Yang A Z,. Multi-scale feature fusion based adaptive object detection for UAV[J]., 2020, 40(10): 1015002.
劉芳, 吳志威, 楊安喆, 等. 基于多尺度特征融合的自適應(yīng)無(wú)人機(jī)目標(biāo)檢測(cè)[J]. 光學(xué)學(xué)報(bào), 2020, 40(10): 1015002.
[4] Celik C, Bilge H S. Content based image retrieval with sparse representations and local feature descriptors: a comparative study[J]., 2017, 68: 1–13.
[5] Agarwal M, Maheshwari R P. HOG feature and vocabulary tree for content-based image retrieval[J]., 2011, 3(4): 246–254.
[6] Hu R, Barnard M, Collomosse J. Gradient field descriptor for sketch based retrieval and localization[C]//, Hong Kong, China, 2010: 1025–1028.
[7] Joolee J B, Lee Y K. Video retrieval based on image queries using THOG for augmented reality environments[C]//, Shanghai, China, 2018: 557–560.
[8] Cheng D Q, Zhang H X, Jiang M,. Color image retrieval method fusing principal curvature and color information[J]., 2021, 33(2): 223–231.
程德強(qiáng), 張皓翔, 江曼, 等. 融合主曲率與顏色信息的彩色圖像檢索算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2021, 33(2): 223–231.
[9] Pavithra L K, Sharmila T S. An efficient framework for image retrieval using color, texture and edge features[J]., 2018, 70: 580–593.
[10] Bella M I T, Vasuki A. An efficient image retrieval framework using fused information feature[J]., 2019, 75: 46–60.
[11] Garg M, Dhiman G. A novel content-based image retrieval approach for classification using GLCM features and texture fused LBP variants[J]., 2020, 33(4): 1311–1328.
[12] Danapur N, Dizaj S A A, Rostami V. An efficient image retrieval based on an integration of HSV, RLBP, and CENTRIST features using ensemble classifier learning[J]., 2020, 79(33): 24463–24486.
[13] Khwildi R, Ouled Zaid A. HDR image retrieval by using color-based descriptor and tone mapping operator[J]., 2020, 36(8): 1111–1126.
[14] Farid H, Simoncelli E P. Differentiation of discrete multidimensional signals[J]., 2004, 13(4): 496–508.
[15] Felzenszwalb P F, Girshick R B, McAllester D,. Object detection with discriminatively trained part-based models[J]., 2010, 32(9): 1627–1645.
[16] Kou Q Q, Cheng D Q, Zhuang H D,. Cross-complementary local binary pattern for robust texture classification[J]., 2018, 26(1): 129–133.
[17] Zhang H X, Jiang M, Kou Q Q. Color image retrieval algorithm fusing color and principal curvatures information[J]., 2020, 8: 184945–184954.
[18] Wang J Z, Li J, Wiederhold G. SIMPLIcity: semantics-sensitive integrated matching for picture libraries[J]., 2001, 23(9): 947–963.
[19] Nene S A, Nayar S K, Murase H. Columbia object image library (COIL-100)[R]. New York: Columbia University, 1996.
[20] Kavitha H, Sudhamani M V. Object Based Image Retrieval from Database Using Combined Features[C]//PIEEE, Bangalore, INDIA ,2014: 161–165.
[21] Lv C, Cheng D Q, Kou Q Q,. Target tracking algorithm based on YOLOv3 and ASMS[J]., 2021, 48(2): 200175.
呂晨, 程德強(qiáng), 寇旗旗, 等. 基于YOLOv3和ASMS的目標(biāo)跟蹤算法[J]. 光電工程, 2021, 48(2): 200175.
[22] Kundu M K, Chowdhury M, Bulo S R. A graph-based relevance feedback mechanism in content-based image retrieval[J]., 2015, 73: 254–264.
[23] Dubey S R, Singh S K, Singh R K. Multichannel decoded local binary patterns for content-based image retrieval[J]., 2016, 25(9): 4018–4032.
[24] Sun Q P. Research on image retrieval based on deep learning[J]., 2018, 33(3): 15–18.
孫奇平. 基于深度學(xué)習(xí)的圖像檢索研究[J]. 景德鎮(zhèn)學(xué)院學(xué)報(bào), 2018, 33(3): 15–18.
[25] Somnugpong S, Khiewwan K. Content-based image retrieval using a combination of color correlograms and edge direction histogram[C]//, Khon Kaen, Thailand, 2016: 1–5.
[26] Xiao Y, Wu J X, Yuan J S. mCENTRIST: a multi-channel feature generation mechanism for scene categorization[J]., 2014, 23(2): 823–836.
[27] Ahmed K T, Ummesafi S, Iqbal A. Content based image retrieval using image features information fusion[J]., 2019, 51: 76–99.
Multi-scale image retrieval based on HSV and directional gradient features
Jiang Man1, Zhang Haoxiang1, Cheng Deqiang1,2*, Guo Lin1, Kou Qiqi3, Zhao Lei1
1School of Information and Control Engineering, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China;2Engineering Research Center of Intelligent Control for Underground Space, Ministry of Education, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China;3School of Computer Science and Technology, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China
Feature fusion cascade histogram
Overview:With the rapid development of computer vision and digital media, image retrieval has been successfully applied to search engines, digital libraries, medical image management, and other fields. For current color image retrieval, the extraction of a single image feature is often too limited, and it is difficult to achieve the purpose of efficient and fast retrieval. Color feature and directional gradient feature are two important features of an image, which are widely used in the field of image retrieval. Color information represents the overall features of the image, and the directional gradient feature represents the partial features information of the image by extracting the texture information of the image. Aiming at the problems of poor rotation change robustness, high feature dimension, and long retrieval time in current retrieval methods, a color image retrieval method that combines color feature with improved directional gradient feature is proposed. First, the input color image is converted into a grayscale image through Gaussian space, and the surface geometric curvature information and texture information of the grayscale image are extracted and integrated into the FHOG descriptor, and the main curvature information is multi-sampled to construct a mixed sampling direction gradient feature (P-FHOG1, P-FHOG2, P-FHOG3) based on the main curvature, and the improved directional gradient feature (P-FHOGs) based on the main curvature is obtained by merging the features of three scales. At the same time, the image is converted from RGB color space to HSV color space and the color information of the image is extracted after quantization to construct the color feature histogram, and the color feature of the image is obtained. On this basis, the two features are merged to obtain an image retrieval method based on color feature and improved direction gradient feature (CP-FHOG). The experiment was compared with the advanced image retrieval methods on the Corel-1000 and Coil-100 data sets, and the average accuracy rates of 85.89% and 93.38% were achieved, respectively. On the Corel-1000 data set, the features extraction time and retrieval time of the algorithm in this paper are 0.067 s and 0.048 s, respectively, which are improved by 0.075 s and 1.06 s, respectively, compared with the second-performing algorithm. At the same time, ablation experiments were performed in the two data sets to verify the effectiveness of the fusion algorithm. The experimental results show that, compared with HSV and P-FHOGs algorithms, CP-FHOG extracts richer detailed features, has stronger rotation robustness, and significantly improves retrieval accuracy in datasets containing complex backgrounds and targets with different rotation angles. Besides, retrieval time and feature dimension have also been greatly improved. The color image retrieval method proposed in this paper introduces main curvature information and color information based on FHOG descriptors, combines the advantages of color feature and directional gradient feature, and extracts rich overall and detailed features. The experimental result proves that the retrieval accuracy of the method in this paper is higher and the method has rotation robustness.
Jiang M, Zhang H X, Cheng D Q,Multi-scale image retrieval based on HSV and directional gradient features[J]., 2021, 48(11): 210310; DOI:10.12086/oee.2021.210310
Multi-scale image retrieval based on HSV and directional gradient features
Jiang Man1, Zhang Haoxiang1, Cheng Deqiang1,2*, Guo Lin1, Kou Qiqi3, Zhao Lei1
1School of Information and Control Engineering, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China;2Engineering Research Center of Intelligent Control for Underground Space, Ministry of Education, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China;3School of Computer Science and Technology, China University of Mining and Technology, Xuzhou, Jiangsu 221116, China
Aiming at the problems of poor robustness of rotation change, high feature dimension, and long retrieval time of existing color image retrieval algorithms, this paper proposed an innovative image retrieval method by fusing color features and improved directional gradient features. It proposed an improved directional gradient algorithm based on the principal curvatures (P-FHOG) by combining the geometric curvature information of the image surface into the FHOG descriptor from multiple scales. At the same time, the color information of the image was further fused to obtain the multi-scale image retrieval method based on the color features and the improved directional gradient features (CP-FHOG). The experiment was compared with the advanced image retrieval methods on the Corel-1000 and Coil-100 data sets, and the average accuracy rates of 85.89% and 93.38% were achieved, respectively. The results show that the proposed algorithm is more accurate and robust (in rotation change) than other algorithms.
image retrieval; color information; directional gradient; multiple scales; features fusion
10.12086/oee.2021.210310
TP391.4
A
National Natural Science Foundation of China (51774281)
* E-mail: cdqcumt@126.com
江曼,張皓翔,程德強(qiáng),等. 融合HSV與方向梯度特征的多尺度圖像檢索[J]. 光電工程,2021,48(11): 210310
Jiang M,Zhang H X, Cheng D Q,Multi-scale image retrieval based on HSV and directional gradient features[J]., 2021, 48(11): 210310
2021-09-24;
2021-11-05
國(guó)家自然科學(xué)基金資助項(xiàng)目(51774281)
江曼(1996-),女,碩士研究生,主要從事圖像處理與模式識(shí)別方面的研究。E-mail:jiangman@cumt.edu.cn
程德強(qiáng)(1979-),男,博士,教授,博士生導(dǎo)師,主要從事機(jī)器視覺(jué)與模式識(shí)別、圖像處理與視頻編碼、圖像智能檢測(cè)與信息處理方面的研究。E-mail:cdqcumt@126.com