裴 蓓, 王朔中, 倪麗佳
(上海大學(xué)通信與信息工程學(xué)院,上海200072)
隨著圖像獲取手段和互聯(lián)網(wǎng)的快速發(fā)展,數(shù)字圖像的數(shù)量激增,對(duì)海量圖像進(jìn)行快速而準(zhǔn)確的搜索成為一個(gè)重要課題.目前百度和Google等搜索引擎仍采用基于文本(索引)的圖像檢索(text-based image retrieval,TBIR)方法.這種方法常搜索出大量的無關(guān)圖像,在許多情況下難以滿足實(shí)際需求,因此,研究者針對(duì)基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)展開了廣泛的研究.
圖像Hash又稱為圖像摘要或圖像指紋,它是從數(shù)字圖像中提取的基于內(nèi)容特征的認(rèn)證碼,是一種單向映射.與密碼學(xué)Hash函數(shù)有所不同,在密碼學(xué)中,明文的任何微小改變都會(huì)使Hash值發(fā)生重大變化;而對(duì)于圖像,Hash應(yīng)該對(duì)不改變內(nèi)容的常規(guī)處理具有穩(wěn)健性,故又可稱為“感知Hash”.圖像Hash應(yīng)該滿足感知魯棒性、安全性和穩(wěn)健性的要求,即對(duì)于感知相似的兩幅圖像,不管內(nèi)部數(shù)據(jù)是否一致,二者的Hash值相同或十分接近的概率很大.當(dāng)圖像內(nèi)容發(fā)生重要改變時(shí),其對(duì)應(yīng)的Hash值應(yīng)當(dāng)出現(xiàn)重大變化.在獲得圖像Hash值的情況下,無法成功恢復(fù)原始圖像.利用這種性質(zhì),圖像Hash算法可用于圖像的完整性認(rèn)證[1]以及圖像的檢索[2].本實(shí)驗(yàn)的重點(diǎn)是研究一種能代表顏色特征和圖像中顯著內(nèi)容結(jié)構(gòu)形態(tài)的圖像Hash,以用于圖像檢索.
CBIR是將提取的圖像特征作為索引表,對(duì)不同特征采用不同的相似性算法,通過加權(quán)以達(dá)到檢索的目的.用圖像Hash作為檢索庫的索引表能很好地反映圖像內(nèi)容,減少檢索時(shí)間,取得良好的檢索效果.
人們利用圖像的統(tǒng)計(jì)特征來提取圖像Hash,例如,用圖像Euclidean距離之和與分塊直方圖[3]來表示圖像信息.Venkatesan等[4]從圖像小波分解的子帶中提取統(tǒng)計(jì)向量,用密鑰隨機(jī)分割子帶,將量化的統(tǒng)計(jì)量輸入Reed-Muller糾錯(cuò)碼的解碼器,產(chǎn)生Hash值.Fridrich等[5]選擇離散余弦變換(discrete cosine transform,DCT)低頻系數(shù).Mihcak等[6]使用迭代法,將3層Haar小波分解的最低頻分量二值化,用來表示圖像信息,因?yàn)樗鼈冊(cè)诒3謭D像基本內(nèi)容不變的情況下較為魯棒.Monga等[7]采用非負(fù)矩陣分解(non-negative matrix factorization,NMF),將Hash生成看成圖像矩陣的隨機(jī)降維.
本研究提出了一種圖像Hash方法,在顏色分類的基礎(chǔ)上提取亮度、形狀等重要信息作為中間Hash值,再對(duì)其進(jìn)行加權(quán),根據(jù)得到的Hash,形成圖像庫的索引表.對(duì)一個(gè)經(jīng)典圖像庫[8]進(jìn)行實(shí)驗(yàn),將本方法的檢索效果與幾種已有的方法進(jìn)行比較.實(shí)驗(yàn)結(jié)果表明,本研究所提出的Hash方法在用于CBIR時(shí)的性能令人滿意.
在彩色圖像中,顏色的分布包含了與內(nèi)容有關(guān)的豐富信息,從顏色出發(fā)對(duì)圖像進(jìn)行分析是CBIR廣泛采用的方法.用于圖像檢索的顏色特征包括顏色直方圖[9]、累積顏色直方圖[10]和顏色距[11]等.本研究通過對(duì)顏色進(jìn)行分類,提取圖像Hash,實(shí)現(xiàn)基于內(nèi)容的圖像檢索.
將圖像從RGB顏色空間轉(zhuǎn)換到更符合視覺特性的HSV顏色空間,并由此將彩色圖像的像素歸為11類,分別為白色、灰色、黑色、紅色、橙色、黃色、綠色、青色、藍(lán)色、紫色和玫紅色,分割方法如表1所示.對(duì)彩色圖像進(jìn)行高斯平滑濾波,并將尺寸規(guī)范化為256×256,對(duì)預(yù)處理后的圖像按顏色類別提取11種顏色成分,如圖1所示.
表1 顏色分類范圍Table 1 Classification of colors
圖1 彩色圖像及11類顏色成分Fig.1 Color image and its 11 color components
將圖像轉(zhuǎn)變?yōu)?1幅尺寸為256×256的顏色分量后,可從中提取出能反映圖像內(nèi)容的重要信息構(gòu)成特征矩陣,作為中間Hash.
1.2.1 顏色特征
提取圖像中每類顏色的像素?cái)?shù)目 ni(i=1,2,…,11)為參數(shù),∑ni為圖像的總像素?cái)?shù).為了反映顏色和亮度分布的更多信息,將各類顏色的亮度均值yi作為另一個(gè)參數(shù).由于圖像內(nèi)容的差異,每一類顏色構(gòu)成的連通域個(gè)數(shù)與圖像的結(jié)構(gòu)特性有關(guān).每類顏色的連通域數(shù)量ki與像素?cái)?shù)目有一定的關(guān)聯(lián)性,可用如下的特征量mi來表征圖像內(nèi)容的結(jié)構(gòu)特性:
由于圖像尺寸已規(guī)格化為256×256,所以ki∈[0,65 535],若某類顏色不存在,則ki=0.取對(duì)數(shù)可提高較小ki值的貢獻(xiàn).mi的值越大表示該類顏色的復(fù)雜度越高,值越小則表示該類顏色越單一.
根據(jù)上述顏色分類法,圖2(a)~圖2(c)中紅色部分的像素?cái)?shù)量占總像素?cái)?shù)目的比例分別為16.7%,16.5%和18.8%.如果僅以ni為特征,內(nèi)容完全不同的圖2(a)和圖2(b)之間比同一個(gè)物體的圖2(b)和圖2(c)之間的相似程度還要高,這顯然不符合事實(shí).圖2(a)~圖2(c)的連通域個(gè)數(shù)分別為1,72和91.根據(jù)式(1),3幅圖像紅色成分的mi值分別為0.11,0.71和0.84,拉開了不同內(nèi)容圖像之間的距離,拉近了相同內(nèi)容圖像間的距離.由11個(gè)顏色成分的ni,yi和mi,可得到反映顏色分布的3個(gè)特征向量N,Y,M.
圖2 顏色分類結(jié)果Fig.2 Classification of color components
1.2.2 形態(tài)特征
目標(biāo)的大小和形狀是人類視覺系統(tǒng)識(shí)別物體的關(guān)鍵信息之一,它不隨周圍環(huán)境(如亮度等)的變化而變化,是物體的穩(wěn)定信息,可在CBIR中加以利用.用于描述形狀的量有Hu不變矩[12]、Fourier形狀描述子[13]等.本研究通過分析各顏色分量中包含的信息來提取形態(tài)特征.為了突出各顏色分量中起主導(dǎo)作用的內(nèi)容,僅以其中的最大連通域作為關(guān)注對(duì)象,忽略比較分散的其余像素,從各顏色分量最大連通域的大小和形狀兩方面得到反映形態(tài)特征的向量.具體做法如下.
首先,提取每一顏色類的最大連通域,再用Canny算子對(duì)其進(jìn)行邊緣檢測(cè),對(duì)邊緣所包圍區(qū)域的像素?cái)?shù)ei進(jìn)行統(tǒng)計(jì).例如,考慮紅色分量,圖3(a)為原始圖像,圖3(b)為紅色分量,其最大連通域示于圖3(c).將圖3(c)與整幅圖像的邊緣圖相乘,得到紅色分量的最顯著塊,稱為 Canny邊緣顯著圖(edge saliency map,ESM),如圖3(d)所示.由此求出圖像中11個(gè)顏色分量的ei(i=1,2,…,11),構(gòu)成向量E.
圖3 紅色分量最大連通域的邊緣檢測(cè)Fig.3 Canny edge of the largest connected area of the red component
其次,尋求邊緣顯著圖的形狀特征,分別計(jì)算每一類顏色邊緣連通域ESM圖的圓形率和矩形率.令第i類ESM圖中所有像素到其質(zhì)心的距離集合為Di={dj|j=1,2,…,ei},其中ei為以上得到的第i個(gè)ESM圖中的總像素?cái)?shù).畫出質(zhì)心距離直方圖,將頻率最大的距離值記為,則圓形率為
各類ESM圖的圓形率構(gòu)成向量C={ci|i=1,2,…,11}.圓形率可近似看作幾何圖形內(nèi)切圓與外接圓的半徑之比.對(duì)于圓而言,這兩個(gè)半徑相等,故圓形率為1.圖4(a)為根據(jù)圖像中的圓(半徑歸一化為1)求得的質(zhì)心距離直方圖,其圓形率為0.98,近似于理論值1,誤差是由數(shù)字圖像的離散性所致.圖4(b)和圖4(c)分別為等邊三角形和長(zhǎng)寬比為2∶1的矩形的質(zhì)心距離直方圖,其圓形率分別約為0.45和0.25.圖5為兩幅實(shí)際圖像中藍(lán)色和綠色分量ESM圖的質(zhì)心距離直方圖,計(jì)算得到的圓形率分別為0.72和0.33.可見,圓形率具有區(qū)別物體形狀的能力.
用同樣方法計(jì)算各類顏色邊緣連通域ESM圖的矩形率.第i類顏色ESM圖中的總像素?cái)?shù)為ei,所在外切矩形的像素?cái)?shù)為hi(i=1,2,…,11),則其矩形率為
矩形的矩形率顯然為1.圖5中的兩幅實(shí)際圖像在所研究的顏色類中的矩形率分別為0.81和0.11.圖中可見,矩形率也可用來表征物體形狀.各類ESM圖的矩形率也可構(gòu)成向量R={ri|i=1,2,…,11}.
綜上所述,得到了反映圖像內(nèi)容的6個(gè)特征向量,合并后構(gòu)成中間Hash:H=[N Y M E C R],并對(duì)中間Hash賦予不同的權(quán)值.本實(shí)驗(yàn)中取顏色特征2倍于形狀特征的量(其實(shí)驗(yàn)認(rèn)證將在下一節(jié)中加以說明),并組成66維的最終圖像Hash.
圖4 不同形狀的質(zhì)心距離直方圖Fig.4 Centroid distance histograms of different shapes
圖5 不同圖像藍(lán)色和綠色類ESM圖及其質(zhì)心距離直方圖Fig.5 Centroid distance histograms of ESMs for the bule and green components of different images
在CBIR中,用Hash值之間的歐氏距離來度量查詢圖像與從圖像庫中返回圖像的相似程度,并按從小到大的距離依次排列.實(shí)驗(yàn)使用的數(shù)據(jù)庫[8]包含有1 000幅大小為256×384(或384×256)的圖像,分為10類,每類100幅.
本研究以一種早期的經(jīng)典顏色直方圖CH方法[9]和一種近期的CVPCM_CPCM方法[14]為比較對(duì)象,后者的性能優(yōu)于早先提出的 CH_BPH[15]和BCCP_BPH[16]方法.根據(jù)CH特性,對(duì)每幅圖像在HSV空間上提取一個(gè)72維的顏色直方圖.對(duì)于CVPCM_CPCM,使用4個(gè)大小為64的碼書,以由Y分量得到的64×64大小的CVPCM矩陣和由Cb和Cr分量得到的64×64大小的CPCM矩陣作為圖像特征.對(duì)3種方法的測(cè)試結(jié)果分別計(jì)算查準(zhǔn)率(precision)和查全率(recall),即
式中,相關(guān)圖像是指同一場(chǎng)景或物體在不同角度或光線下拍攝的圖像.
對(duì)于顏色特征和形態(tài)特征的權(quán)值,本研究分別進(jìn)行了權(quán)值比為0.5,2.0和4.0的實(shí)驗(yàn)比較,結(jié)果如圖6所示.圖中可見,顏色特征分量比形態(tài)特征分量更重要,權(quán)值為2.0時(shí)的檢索效果最好,因此,本實(shí)驗(yàn)中權(quán)值比取2.0.
圖6 不同權(quán)值情況下的Precision-Recall曲線圖Fig.6 Precision-Recall curves of different weights
圖7為使用不同方法進(jìn)行圖像檢索的實(shí)驗(yàn)實(shí)例,其中圖7(a)為查詢圖像.用3種方法分別從數(shù)據(jù)庫中提取12幅圖像,將搜索結(jié)果按各自的相似性測(cè)度順序排列,結(jié)果如圖7(b)~圖7(d)所示.CH方法在第9~第12幅圖出現(xiàn)了誤判,CVPCM_CPCM在第10和第11幅圖出現(xiàn)了誤判,而用本方法搜索的前12幅圖均與查詢圖像相關(guān).
圖7 不同方法的搜索結(jié)果Fig.7 Query results of different algorithms
根據(jù)查準(zhǔn)率和查全率得到的Precision-Recall曲線如圖8所示.在查全率相同的條件下,本方法的查準(zhǔn)率高于CH和CVPCM_CPCM兩種方法.實(shí)驗(yàn)中使用CH,CVPCM_CPCM和本方法對(duì)1 000幅圖像提取特征,每幅圖像所需的平均時(shí)間分別為0.11,2.78和1.07 s.與CH方法相比,本方法提取特征的計(jì)算量較大,這是因?yàn)镃H僅考慮了顏色因素而忽略了形狀特征,性能不夠理想;而且對(duì)圖像庫的特征提取通常是事先完成,存入索引表的,對(duì)于檢索速度并無多大影響.另外在檢索速度方面,每幅圖像的平均檢索時(shí)間分別為0.01,0.11和0.01 s.本方法的檢索速度與CH相當(dāng),比CVPCM_CPCM快約10倍.
圖8 不同方法的Precision-Recall曲線Fig.8 Precision-Recall curves of different algorithms
本研究通過HSV空間顏色分類并結(jié)合圖像形態(tài)特征提取圖像Hash,實(shí)現(xiàn)了基于內(nèi)容的圖像檢索.由于HSV顏色空間中的H分量反映了圖像彩色信息,因此,由它得到了11類顏色的分量圖,并在此基礎(chǔ)上提取了與顏色、亮度、形態(tài)特征有關(guān)的參數(shù).由于本方法利用了顏色和形狀的平移、旋轉(zhuǎn)不變性,充分體現(xiàn)了視覺特性,所提取的反映圖像重要內(nèi)容的信息構(gòu)成了特征矩陣,并基于實(shí)驗(yàn)對(duì)不同特征進(jìn)行加權(quán),因此,所構(gòu)成的圖像Hash能較好地反映圖像內(nèi)容特征.相比之下,CH和CVPCM_CPCM方法完全忽略了內(nèi)容的分布和形態(tài)信息,容易出現(xiàn)誤判.實(shí)驗(yàn)結(jié)果表明,本方法具有良好的檢索效果,而且所提取的特征向量(Hash)較短,有利于提高檢索效率.
[1] 鐘曉燕,馮前進(jìn),陳武凡,等.基于Hash函數(shù)敏感性的醫(yī)學(xué)圖像精確認(rèn)證[J].中國(guó)圖象圖形學(xué)報(bào),2008,13 (2):204-208.
[2] 張維克,孔祥維,尤新剛.安全魯棒的圖像感知哈希技術(shù)[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2007,37(1):188-192.
[3] SCHNEIDERM,CHANGS F.A robust content based digital signature forimage authentication[C]∥Proceedings of the IEEE International Conference on Image Processing.1996:227-230.
[4] VENKATESANR,KOONS M,JAKUBOWSKIM H,et al.Robust image hashing[C]∥ Proceedings of the IEEE International Conference on Image Processing.2000:664-666.
[5] FRIDRICHJ,GOLJANM.Robust hash functions for digital watermarking[C]∥ Proceedings of the IEEE InternationalConference on Information Technology:Coding and Computing.2000:178-183.
[6] MIHCAKK,VENKATESANR.New iterative geometric techniques for robust image hashing[C]∥ Proceedings of the ACM Workshop on Security and Privacy in Digital Rights Management.2001:13-21.
[7] MONGAV,MIHCAKM K.Robust and secure image hashing via non-negative matrix factorizations[J].IEEE Transactions on Information Forensics and Security,2007,2(3):376-390.
[8] LIJ.Photography image database[EB/OL].[2011-12-01].http:∥www.stat.psu.edu/~jiali/index.download.html.
[9] SWAIN M, BALLARD D. Color indexing [J].International Journal of Computer Vision,1991,7(1):11-32.
[10] KOTOULASL,ANDREADISI.Color histogram contentbased image retrieval and hardware implementation[J].IEEE Transactions on Circuits,Devices and Systems,2003,150(5):387-393.
[11] BAIX,LIUW J.Research of image retrieval based on color[C]∥ International Forum on Computer Science Technology and Applications.2009:283-286.
[12] CHENQ,PETRIUE,YANGX L.A comparative study of Fourier descriptors and Hu’s seven moment invariants for imagerecognition[C]∥ Canadian Conference on Electrical and Computer Engineering.2004:103-106.
[13] MAG Z,TONGQ.Shape feature extraction using Fourier descriptorswith brightnessin content-based medical image retrieval[C]∥International Conference on Intelligent Information Hiding and Multimedia Signal Processing.2008:71-74.
[14] YUF X,LUOH,LUZ M.Colour image retrieval using pattern co-occurrence matrices based on BTC and VQ[J].Electronics Letters,2011,47(2):100-101.
[15] QIUG.Color image indexing using BTC[J].IEEE Transactions on Image Processing,2003,12(1):93-101.
[16] GAHROUDIM R,SARSHARM R.Image retrieval based on texture and color method in BTC-VQ compressed domain[C]∥ 9th International Symposium on Signal Processing and Its Applications.2007:1-4.