徐 佳 曲懷敬 張志升 王紀委 魏亞南 張漢元
(山東建筑大學信息與電氣工程學院 濟南 250101)
基于內容的圖像檢索(Content-based Image Retrieval,CBIR)近些年來被廣泛地應用于計算機視覺、醫(yī)學、教育、交通和安全等領域。通常,CBIR通過匹配目標圖像與數(shù)據(jù)庫中的圖像來進行圖像查詢,它由特征提取和相似性測度兩個重要部分組成[1]。對于特征提取部分,所提取的圖像特征包括顏色[2]、紋理[3]、形狀[4]等可視特征,以及人類不易直觀的、反映圖像像素分布的統(tǒng)計特征[5]、空間特征[6]等。另一方面,檢索系統(tǒng)的性能還取決于與特征相匹配的、并能有效地反映人類視覺感知的相似性測度。通過相似性測度將得到的特征進行一定規(guī)則的排序,并得到候選的圖像,進而篩選出所需要的圖像,最終完成圖像的檢索過程。CBIR系統(tǒng)的性能主要取決于所提取的特征。早期的CBIR系統(tǒng)使用單一的特征表示圖像,但這往往不能充分地刻畫圖像的信息,因而檢索的效果不佳。后來,研究者將顏色、紋理、形狀等低層特征融合成新的特征用于圖像檢索,并因其能較全面地表示圖像而得到較好的檢索性能[7]。
對于顏色特征,2018年Mistry等[2]將空間信息與顏色直方圖相結合的顏色自相關圖用作顏色特征進行圖像檢索。2020年Bedi等[3]、Singh等[4]分別采用級聯(lián)和組合的方式量化不同通道的數(shù)據(jù),最后將顏色直方圖作為特征。通常,人類對于色調的視覺感知具有不均勻性,這說明均勻量化方案存在特征表示自適應性差的不足,因此需要采用非均勻量化的方式進行顏色特征的提取。
圖像的紋理特征是一種難以描述、但又十分重要的圖像描述符,在CBIR研究領域得到了廣泛的應用。其中,在全局紋理特征方面,2010年Kwitt等[8]使 用 雙 樹 復 小 波 變 換(Dual-Dree Complex Wavelet Transform,DTCWT)分析紋理圖像,并使用廣義高斯分布、Gamma分布和Weibull分布對其子帶進行建模,在紋理圖像檢索中取得了較好的效果。2020年Qu等[9]在該變換域提出新的全局特征,較Kwitt等人的方法有更好的檢索效果。此外,在局部紋理特征方面,2010年Ojala等[10]提出用于紋理分類的局部二值模式(Local Binary Pattern,LBP),并在紋理圖像檢索方面也有著優(yōu)良的表現(xiàn)。2017年Manisha等[11]提出局部鄰域差異模式(Local neighborhood difference pattern,LNDP),并與LBP相結合,從而能夠更加充分地提取局部紋理特征用于紋理圖像檢索。上述這些方法都是使用單個紋理特征,并未融合全局紋理特征與局部紋理特征以充分利用它們之間的互補性。受Wang等[12]方法的啟發(fā),本文將全局紋理特征與局部紋理特征進行有機結合,并有效地用于彩色紋理圖像的檢索。
針對上述問題,同時考慮到目前在彩色紋理圖像檢索系統(tǒng)中主要存在結構復雜且時間成本高的問題,在本文中提出一種新的結合顏色特征和紋理特征的彩色紋理圖像檢索方法。
在基于內容的彩色紋理圖像檢索系統(tǒng)中,選擇一個合適的顏色空間往往有利于提高系統(tǒng)的檢索性能。通常,在HSV顏色空間中獲得的彩色特征相對于RGB顏色空間更有效[4]。在HSV空間中,H用來表示一幅圖像的色調,S用來表示一幅圖像的飽和度,V用來表示一幅圖像的亮度,同時V分量可以視為該彩色圖像的灰度圖像[2]。
在空域中,二維Gabor濾波器是復正弦平面波調制的高斯核函數(shù)[13],其定義如式(1)~(3)所示。
式中,f是正弦波的頻率;θ代表法線相對Gabor函數(shù)平行條紋的方向;φ是相位偏移;σ是高斯包絡的標準偏差;γ是空間縱橫比,用來決定Gabor函數(shù)形狀的橢圓度。
在LBP的基礎上,Manisha等結合LBP的計算方式,提出了LNDP[11]。LNDP描述如下,首先,在3×3窗口中,計算中心像素的鄰域像素之間的大小關系,然后,為每一個鄰域像素分配一個二進制數(shù),最后,賦予鄰域位置的不同的二進制數(shù)相應的權重,從而獲得局部紋理信息。
對于大小為M*N的圖像,其LNDP直方圖計算方式可由式(4)~(5)表示。即
式中,P為鄰域像素的數(shù)量,對于3×3窗口,P=8。
本文基于符合人類視覺感知的HSV顏色空間和Gabor濾波器組,提出一個融合顏色特征、全局紋理特征和局部紋理特征的彩色紋理圖像檢索系統(tǒng)。所提出的系統(tǒng)包括特征提取和相似性測度兩個主要部分。在本文中,所提出的特征提取框架如圖1 所示。下面針對各部分特征的提取方法進行詳細的描述。
圖1 特征提取框架
在HSV顏色空間,H、S、V三個通道的量化方式如式(6)~(8)所示。
量化后,采用如下映射方法進行直方圖量化:
式中,LS、LV分別為S、V通道數(shù)據(jù)量化的級別數(shù)。此時,Vec可以改寫為
結合式(6)~(10)可知,HSV顏色直方圖的均勻采樣區(qū)間為[0,71],它是長度為72bin的一維特征向量。
同時,V通道未量化的數(shù)據(jù)可以視為彩色紋理圖像對應的灰度圖像。在下文中,如無特別說明,所述的灰度圖像均指V通道未量化的數(shù)據(jù),并被用于全局和局部紋理特征的提取。
經(jīng)過Gabor濾波器處理的圖像共有24個(3尺度×8方向)復值子帶,對每一個復值子帶可以用廣義高斯分布、Gamma分布以及Von Mises分布分別進行建模。對于幅值子帶的Gamma分布[8],其概率密度函數(shù)為
式中,子帶系數(shù)x的取值范圍為(0,∞),α>0為形狀參數(shù),β>0為尺度參數(shù)。
對于相位子帶系數(shù)θ,可由兩參數(shù)的Von Mis?es分布[14]進行統(tǒng)計建模,其概率密度函數(shù)為
式中,θ為子帶系數(shù),μ為平均方向參數(shù),v為集中程度參數(shù),I0是第一類零階修正貝塞爾函數(shù),且
在本文中,使用最大似然估計得到的兩種模型參數(shù)作為全局紋理特征。同時使用熵差率Re對估計得到的參數(shù)進行評估[9],Re的值越小,說明估計得到的參數(shù)越接近于真實分布參數(shù),對模型的估計也越準確[8]。本文選取了VisTex庫中第161幅紋理圖像,對其子帶分布進行擬合實驗,實驗結果如圖2所示。從實際熵差率Re可以看出,采用上述模型進行統(tǒng)計建??梢院芎玫胤献訋禂?shù)的真實分布。
圖2 三種分布用于子帶建模的擬合圖及熵差率
通常,LNDP可以更為全面地捕捉局部窗口內中心像素與鄰域像素之間的紋理信息。因此,本文將整幅圖像的LNDP直方圖作為局部紋理特征。
Manhattan距離[11]用于計算兩個顏色直方圖或者兩個LNDP直方圖之間的距離。
式中,Idb和Iq分別為數(shù)據(jù)庫中的備選圖像與查詢圖像(下文各式中相同符號含義相同,不再贅述),F(xiàn)db和Fq分別為特征數(shù)據(jù)庫中的備選特征向量以及查詢圖像的特征向量,L、M為特征向量的長度。
具有閉式形式的Kullback-Leibler(K-L)距離通常用于比較兩個統(tǒng)計分布的相似性[8]。對于Gamma分布,其閉式K-L距離為[8]
式中,ψ()·表示Digamma函數(shù),αdb、βdb和αq、βq分別為備選特征數(shù)據(jù)庫和查詢圖像Gamma分布模型的兩個參數(shù)特征。
對于Von Mises分布,其K-L距離為[14]
式中,μ1、v1和μ2、v2分別為備選特征數(shù)據(jù)庫和查詢圖像Von Mises分布模型的兩個參數(shù)特征;I1是第一類一階修正貝塞爾函數(shù),且
在本文中,由于圖像的特征是由不同的特征融合而成,因此在計算兩個融合特征之間的相似性測度時需要對不同類型的特征按不同的距離分別計算,然后將各個距離通過采用凸線性優(yōu)化組合的方式得到一個總的距離。對于兩個融合特征之間的距離,使用式(17)進行計算。
本文所提出的彩色紋理圖像檢索算法如下。
為了驗證本文所提出的彩色紋理圖像檢索方法的有效性,使用了VisTex中的40幅圖像[15]以及包含476幅圖像的STex彩色紋理圖像庫[16]作為實驗所使用的彩色紋理圖像庫。
對于VisTex庫和STex庫中的圖像,首先將每一幅512×512像素的RGB彩色原圖像分割成無重疊的16幅128×128像素的RGB子圖像。這樣VisTex庫(后稱DB1)與STex庫(后稱DB1)分別包含640幅和7616幅實驗圖像。
在本文的檢索實驗中,檢索的性能采用平均檢索率(Average Retrieval Rate,ARR)來評價[12],ARR的計算如式(18)所示。
式中,N為數(shù)據(jù)庫中圖像的總數(shù),si為第i次檢索得到的正確圖像數(shù),M為每次檢索返回圖像的數(shù)量,在本文的相關實驗中取M=16。
考慮到由Gabor濾波器產生的一組3尺度、8方向的24個復值子帶間具有較高的信息冗余;同時,不同的HSV組合直方圖的量化數(shù)量可能對實驗結果產生不同的影響,因此對比了幾種不同方案的實驗結果以選取最優(yōu)的方案進行實驗。
本文使用了四種不同的Gabor子帶選擇方案:方案1,所有尺度的所有子帶;方案2,每個尺度的奇數(shù)子帶;方案3,每個尺度的偶數(shù)子帶;方案4,奇數(shù)尺度的奇數(shù)子帶與偶數(shù)尺度的偶數(shù)子帶。同時,在DB1與DB2兩個數(shù)據(jù)庫上進行實驗,得到的結果如圖3所示。
由圖3可以看出,在不同的數(shù)據(jù)庫上,使用不同的Gabor子帶方案得到不同的檢索結果。其中,方案2在DB1數(shù)據(jù)庫上的表現(xiàn)最好,而使用方案1在DB2數(shù)據(jù)庫上的表現(xiàn)最好。
圖3 不同的實驗方案在DB1、DB2數(shù)據(jù)庫上的表現(xiàn)
為了驗證本文所提出方法(PM)的有效性和可行性,在檢索性能上對比了近年來所提出的用于彩色紋理圖像檢索的典型方法。對于DB1數(shù)據(jù)庫,本文方法分別與Li等使用的GC+GW(Gaussian Cop?ula+Gabor Wavelet)[15]、Guo等使用 的DDBTC[16]、EDBTC[17]、Madhumanti提出的LEPVP+CH[18]以及Manisha等 提 出 的LECoP[19]等 方 法 進 行 了 包 括ARR、特征維度以及時間成本等不同方面的檢索性能比較。首先,圖4(a)給出了本文方法與上述方法在DB1上的ARR比較。
圖4 本文方法與現(xiàn)有典型方法的ARR比較
從圖4(a)可以看出,本文所提出方法較現(xiàn)有典型方法的ARR有著不同程度的提高,說明了本文所提出方法的有效性。為了進一步驗證本文提出方法的有效性,在DB2數(shù)據(jù)庫上,與一些現(xiàn)有典型方法的ARR進行比較,實驗結果如圖4(b)所示。由圖4(b)中的數(shù)據(jù)可以看出,本文提出方法分別較現(xiàn)有典型方法在檢索準確性方面具有不同程度的提升,這說明本文的檢索方法在大型彩色紋理圖像數(shù)據(jù)庫DB2上也是一種有效的方法。
此外,本文和一些重要文獻中所提方法的特征長度進行了對比,如表1所示。從表1中的數(shù)據(jù)可以看出,本文所提方法的特征長度在所有的方法中是較長的,這是因為本文所提方法的特征中包含直方圖特征(長度328)。然而,這種特征雖然長度較長,但在相似性測度方面耗時卻不多。
表1 不同方法的特征長度比較
最后,本文方法還和一些典型方法進行了耗時情況的比較,實驗結果如表2所示。從表2中的數(shù)據(jù)可以看出,本文提出的方法在特征提取(FE)和相似性測度(SM)方面的耗時上具有較為明顯的優(yōu)勢。因此,綜合考量ARR、特征長度與時間成本三個方面,本文所提方法較現(xiàn)有典型方法具有一定的優(yōu)勢,驗證了本文方法的有效性和可行性。
表2 單幅圖像特征提?。‵E)與相似性測度(SM)時間(t)消耗比較(S)
需要說明的是,上述實驗是在搭配16G RAM的具有六個核心的英特爾I5處理器的系統(tǒng)平臺、以及Matlab 2016b軟件平臺上完成。通過與現(xiàn)有方法在ARR、特征長度以及時間成本三個指標上的綜合對比,實驗結果表明,本文提出的方法取得了較好的檢索性能。
本文針對目前的彩色紋理圖像檢索系統(tǒng)復雜度高、時間消耗大等問題提出了一種新的檢索系統(tǒng)。該系統(tǒng)結合顏色特征和紋理特征用于彩色紋理圖像檢索。首先,將圖像轉換到HSV顏色空間,同時分別將三個通道的數(shù)據(jù)進行量化,并對H、S、V通道的量化數(shù)據(jù)構建組合直方圖作為顏色特征。然后,在V通道的灰度圖像中進行基于Gabor復變換域的全局統(tǒng)計特征與基于空域的局部特征的提取,同時結合顏色特征構成最終的特征向量。最后,采用凸線性優(yōu)化組合的相似性測度完成檢索任務。分別在VisTex和STex兩個彩色紋理圖像數(shù)據(jù)庫上的實驗結果表明,本文所提出的檢索系統(tǒng)的平均檢索率較現(xiàn)有典型方法有一定的提升,并且檢索時間的消耗更低,從而驗證了本文所提出的檢索方法的有效性和可行性。