徐望明,方康玲
(武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081)
責(zé)任編輯:任健男
圖像特征被廣泛應(yīng)用于圖像處理與分析中作為圖像的有效表達(dá)方式,其典型應(yīng)用之一就是基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)。給定查詢圖像,CBIR直接從圖像庫中查找與之視覺特征相似的圖像,這種“圖找圖”式的依據(jù)視覺特征相似度給出圖像檢索結(jié)果的方法克服了傳統(tǒng)的基于關(guān)鍵字的圖像檢索技術(shù)“字找圖”式的不足,成為當(dāng)前智能信息檢索領(lǐng)域的研究熱點[1]。
近年來,圖像局部特征因其良好的可重復(fù)性、可分辨性和魯棒性得了廣泛重視和飛速發(fā)展,很多圖像局部特征被相繼提出(如SIFT[2],HOG[3]等),并用于CBIR等視覺任務(wù)中,彌補(bǔ)了圖像全局統(tǒng)計特征(如顏色、形狀、紋理等)的不足。然而,圖像上所提取的局部特征因其數(shù)量較多、維數(shù)較高也給大規(guī)模圖像檢索任務(wù)帶來了新挑戰(zhàn)。這種“高維局部特征集”表示圖像的方式,由于進(jìn)行相似性度量的時間和空間復(fù)雜度高而難以適應(yīng)大規(guī)模數(shù)據(jù)庫環(huán)境下的圖像檢索任務(wù),而圖像的全局表示形式(Holistic Representation)用一個向量表示一幅圖像,在這方面則有其天然優(yōu)勢,因為任何兩幅圖像的相似性直接可用向量之間的距離函數(shù)來度量。
為了使圖像的表示形式既能像局部特征一樣有描述圖像細(xì)節(jié)信息的能力,又能像全局特征一樣簡潔明了,本文提出利用“稀疏學(xué)習(xí)”的思想,從訓(xùn)練圖像的特征數(shù)據(jù)中建立超完備視覺詞典,采用局部稀疏編碼(Local Sparse Coding)和最大值合并(Max Pooling)將圖像“高維局部特征集”轉(zhuǎn)化為更高維的稀疏特征向量[4],然后通過直接計算向量相似性得到圖像相似性,并應(yīng)用于CBIR系統(tǒng)中。另外,本文不是使用單一局部特征,而是選取了信息互補(bǔ)的不同局部特征構(gòu)成異質(zhì)局部特征,從而能從多角度描述圖像的內(nèi)容,在CBIR系統(tǒng)中能得到比單一局部特征更好地檢索結(jié)果。
如何從原始“像素級”表示的圖像中提取有更強(qiáng)表示能力的圖像特征一直是圖像分析任務(wù)首先要解決的問題,也一直是計算機(jī)視覺和模式識別領(lǐng)域的研究熱點。
為了適應(yīng)大規(guī)模圖像數(shù)據(jù)庫環(huán)境下的應(yīng)用,可借助學(xué)習(xí)機(jī)制將提取的圖像底層局部特征的集合通過“多對一”映射(編碼)成為一種全局表達(dá)方式,即用一個向量來表示一幅圖像,以便在圖像檢索任務(wù)中使用通用的相似性度量方法來比較圖像的相似性,迅速返回檢索結(jié)果。不同于通常所說的顏色、形狀、紋理等全局統(tǒng)計特征,這是一種構(gòu)造在局部特征基礎(chǔ)上的全局特征,它仍能保留接近于圖像底層的細(xì)節(jié)信息,可看作是較高一層的特征表示,這就向著“語義層”特征表示又前進(jìn)了一步。目前這類特征中比較典型的例子是BoVW(Bag of Visual Words)[5],S.Lazebnik等人則使用SPM(Spatial Pyramids Matching)[6]方法對其進(jìn)行了改進(jìn),在一定程度上加入了局部特征的空間分布信息。
另外,壓縮傳感和稀疏表達(dá)理論近年來在信號處理、模式識別和計算機(jī)視覺領(lǐng)域中掀起新一輪熱潮,在人臉識別、場景分類等諸多應(yīng)用中都取得了較好效果。其中一個核心的概念就是稀疏編碼,最早源自Barlow等人對生物視覺系統(tǒng)研究而提出的有效編碼假設(shè)[7]。Olshausen和Field則進(jìn)一步提出了著名的稀疏編碼模型[8],該模型通過基向量(或基函數(shù))線性相加表示輸入圖像,在最小均方差意義下使重構(gòu)圖像盡可能地與原圖像相似,同時要求表示系數(shù)盡量稀疏化。在此基礎(chǔ)上,很多研究者在稀疏編碼模型的理論和應(yīng)用方面做了大量的工作,取得了豐碩成果,也提出了許多改進(jìn)的稀疏編碼模型。
對于圖像數(shù)據(jù),這些稀疏編碼模型大多是從自然圖像中“隨機(jī)”選取若干圖像塊(按像素灰度值排列成多維向量)構(gòu)成一個訓(xùn)練集合,加以訓(xùn)練學(xué)習(xí)后得到基向量和對應(yīng)圖像的稀疏表示(編碼)。隨機(jī)采樣的子圖像塊作為樣本會給學(xué)習(xí)過程帶來不穩(wěn)定性(比如引入背景或非目標(biāo)區(qū)域噪聲、對圖像尺度、方向、視覺、亮度變化敏感等),從而學(xué)習(xí)到的基向量不一定具有代表性,并可能存在大量噪聲信息冗余。針對以上這些問題,考慮到目前流行的圖像局部特征(如SIFT等)本身就是對圖像中感興趣區(qū)域(圖像塊)的一種優(yōu)于“像素級”的多維向量表示形式,因此,直接以圖像局部特征作為訓(xùn)練樣本,并采用稀疏編碼模型學(xué)習(xí)基向量和圖像的稀疏表示,是特征學(xué)習(xí)方法研究的新趨勢。研究者們最近幾年來在這方面做了一些嘗試,并在圖像重構(gòu)、圖像分類等應(yīng)用中取得了較好效果[9-11]。
但其訓(xùn)練數(shù)據(jù)(局部特征)大多是在圖像上密集采樣的結(jié)果,一般都只使用單一的視覺特征。密集采樣得到的特征數(shù)比基于興趣點檢測得到的特征數(shù)要多得多,而且極易引入背景和非目標(biāo)區(qū)域噪聲,另外單一視覺局部特征一般是精心設(shè)計的,是對圖像塊某一屬性的描述,如果還能聯(lián)合其他信息互補(bǔ)的局部特征,如基于興趣點檢測的特征加上基于局部紋理或形狀描述的特征,則描述能力會更強(qiáng)。
本文正是以此為突破點,運(yùn)用稀疏學(xué)習(xí)的思想,將SIFT(Scale Invariant Feature Transform)[2]、LBP(Local Binary Patterns)[12]和HOG(Histograms of Oriented Gradients)[3]等3種信息互補(bǔ)的圖像局部特征視為異質(zhì)局部特征進(jìn)行融合,最終以一個高維稀疏向量的全局表示形式描述圖像多角度的視覺內(nèi)容,并將其應(yīng)用于CBIR任務(wù)中。
圖像的局部特征可以看作是對圖像某一采樣區(qū)域特性的向量描述。例如,SIFT特征是基于“團(tuán)點”檢測的,對圖像縮放、旋轉(zhuǎn)、光照變化甚至遮擋和裁剪等均保持著較好的不變性;LBP特征反映了圖像上像素點與其近鄰像素點灰度值的大小關(guān)系,描述了圖像的局部紋理特性;HOG特征則描述了圖像內(nèi)容的局部形狀或邊緣特性。
圖像局部特征稀疏學(xué)習(xí)的目的,是利用學(xué)習(xí)機(jī)制將圖像底層局部特征的集合通過“多對一”映射(編碼)成為圖像的全局稀疏表示形式,以便在圖像檢索任務(wù)中使用通用的相似性度量方法來比較圖像的相似性。圖像局部特征的稀疏學(xué)習(xí)過程如圖1所示。
圖1 圖像局部特征的稀疏學(xué)習(xí)
一方面,選取圖像庫中的部分圖像作為訓(xùn)練圖像,提取底層局部特征,通過聚類方法得到初始的超完備視覺詞典,然后利用初始化的視覺詞典和訓(xùn)練圖像的局部特征,交替使用詞典學(xué)習(xí)方法和稀疏分解算法,通過不斷的訓(xùn)練學(xué)習(xí)得到優(yōu)化的超完備視覺詞典和圖像庫中圖像的稀疏特征(即全局稀疏表示);另一方面,應(yīng)用系統(tǒng)的輸入圖像(如CBIR系統(tǒng)的查詢圖像)的局部特征被提取,并利用訓(xùn)練好的詞典對其進(jìn)行稀疏學(xué)習(xí),得到輸入圖像的稀疏特征。隨后,這些稀疏特征可被用于各種具體計算機(jī)視覺應(yīng)用中。
記X=[x1,x2,…,xn](x1∈Ra×1)為輸入矩陣(每列是一個輸入向量),表示在d維空間中的一組包含n個局部特征向量的集合,B=[b1,b2,…,bk](b1∈Ra×1)為基矩陣(每列是一個基向量),表示由K個基向量構(gòu)成的視覺詞典,S=[s1,s2,…,sn](s1∈RK×1)為系數(shù)矩陣(每列是一個系數(shù)向量),表示利用視覺詞典進(jìn)行稀疏分解(局部稀疏編碼)得到輸入矩陣X的稀疏編碼矩陣,則以上稀疏學(xué)習(xí)的過程可以表示成下面的優(yōu)化問題
式中:‖x1-Bsi‖2表示重構(gòu)誤差;是稀疏性的懲罰函數(shù);λ為規(guī)則化參數(shù),用于權(quán)衡重構(gòu)誤差和稀疏約束。該優(yōu)化問題在S保持不變時是關(guān)于B的凸優(yōu)化問題,在B保持不變時是關(guān)于S的凸優(yōu)化問題。一般通過交替固定B和S之一的同時優(yōu)化另一個的方法來優(yōu)化上述目標(biāo)函數(shù)。
對于學(xué)習(xí)基矩陣B(即學(xué)習(xí)視覺詞典),此時固定S,該優(yōu)化問題等價于平方約束最小二乘問題)
對于學(xué)習(xí)系數(shù)矩陣S(即局部稀疏編碼,學(xué)習(xí)局部特征的稀疏編碼矩陣),此時固定B,該優(yōu)化問題等價于L1規(guī)則化最小二乘問題
為了將圖像用一個向量表示,對學(xué)習(xí)到的局部特征的稀疏編碼矩陣,還要進(jìn)行一個合并操作,一般采用最大值合并(Max Pooling)方法[9]
式中:scj是sc(最終的高維稀疏向量)的第j行元素;Sj是S的第j行第i列的矩陣元素;n是局部特征向量的數(shù)目。最大值合并相當(dāng)于在對應(yīng)基向量位置的最強(qiáng)響應(yīng),許多圖像分類任務(wù)已證實該方法行之有效[4],故本文也采用最大值合并方法來合并各個稀疏編碼,從而得到整幅圖像的稀疏表示。
不同的局部特征,其設(shè)計思路不同,對圖像底層細(xì)節(jié)信息描述的角度也就不同。這種信息互補(bǔ)的特征組合可視為異質(zhì)局部特征(Heterogeneous Local Features)。本文從眾多的圖像局部特征中,選擇了如前所述的SIFT(128維)、LBP(采用P=8,R=1統(tǒng)一模式LBP,58維)和HOG(36維)來構(gòu)成異質(zhì)局部特征加以研究。
為了融合圖像的異質(zhì)局部特征,采用如圖2所示的稀疏學(xué)習(xí)方法。
圖2 圖像異質(zhì)局部特征的稀疏學(xué)習(xí)
從圖像數(shù)據(jù)庫中選擇一部分圖像作為訓(xùn)練圖像,分別提取SIFT,LBP,HOG特征組成3個訓(xùn)練特征集,分別得到3個超完備視覺詞典B_sift,B_lbp,B_hog。對于訓(xùn)練好的每一個視覺詞典,利用其對圖像的局部特征矩陣進(jìn)行局部稀疏編碼和最大值合并,分別得到稀疏特征sc_sift,sc_lbp,sc_hog,最后按照一定的權(quán)重進(jìn)行首尾相連并進(jìn)行歸一化就能得到一個信息融合后的稀疏特征——單位向量sc_slh,即為該圖像的最終全局稀疏表示形式。
這樣,每幅圖像僅用一個包含圖像多角度局部信息的高維稀疏向量描述。圖像相似性可直接用向量相似性來衡量。用這個稀疏特征向量來描述圖像的特征,相比單一特征對圖像進(jìn)行了更全面的描述,又具備全局特征的形式,因而這樣的特征既具備了較強(qiáng)的圖像局部信息描述能力,又能夠適應(yīng)大規(guī)模數(shù)據(jù)庫檢索的需求。
將按以上稀疏學(xué)習(xí)方法得到的圖像稀疏表示應(yīng)用于基于內(nèi)容的圖像檢索(CBIR)任務(wù)中。
采用標(biāo)準(zhǔn)圖像庫ZuBud[13]。該庫包含201棟建筑物的1 005幅圖像,每個建筑物各有5幅圖像,原始分辨率為640×480(本文實驗中將其縮小到320×240以減少數(shù)據(jù)量),是在不同季節(jié)和天氣條件下從不同視角由兩個不同相機(jī)拍攝的,還特別拍攝一些被樹木遮擋的圖像。采用該庫來做圖像檢索實驗?zāi)軌蚍奖愕卦u估圖像特征的性能,如尺度不變性、方向(旋轉(zhuǎn))不變性、視角不變性、光照不變性以及抗干擾能力等。
為減少計算量,對每建筑物各取1幅圖作為訓(xùn)練圖像集,對這201幅圖像提取SIFT,LBP,HOG特征分別組成訓(xùn)練特征集,通過K-Means聚類得初始化視覺詞典,并按式(2)進(jìn)行詞典學(xué)習(xí),分別得到3個具有K(K=1 000)個基向量的超完備視覺詞典。
對于學(xué)習(xí)好的每個視覺詞典,利用其對全部1 005幅圖像的局部特征矩陣按式(3)和式(4)進(jìn)行局部稀疏編碼和最大值合并,先將每幅圖像用一個K維的稀疏向量進(jìn)行表示;然后,通過加權(quán)聯(lián)接的方式融合3個稀疏向量,并進(jìn)行歸一化,從而形成圖像的最終全局稀疏表示,即3K維的稀疏單位向量。
為了便于統(tǒng)計結(jié)果和評價檢索性能,本文取每幅庫圖像作為查詢圖像,這樣圖像檢索過程簡化為,用兩個稀疏單位向量的內(nèi)積(夾角余弦)的來衡量兩幅圖像的相似度(內(nèi)積越大越相似),并按相似度從大到小返回指定數(shù)量的圖像作為檢索結(jié)果。根據(jù)ZuBud庫特點,指定返回結(jié)果圖像數(shù)T=5,即等于實際相關(guān)圖像數(shù),故本文實驗中單次檢索的查準(zhǔn)率與查全率相同。這里采用平均查準(zhǔn)率(Average Precision,AP)作為性能評價標(biāo)準(zhǔn),即
式中:ni是第幅查詢圖像檢索出的相關(guān)圖像數(shù)目,N=1 005。
表1為按6種不同的加權(quán)系數(shù)進(jìn)行稀疏特征融合時圖像檢索實驗的平均查準(zhǔn)率。
表1 ZuBud圖像庫上6組圖像檢索實驗的平均查準(zhǔn)率
圖3和圖4分別是實驗中某幅查詢圖像利用單一SIFT稀疏特征及按0.5∶0.3∶0.2的權(quán)值進(jìn)行異質(zhì)特征融合后的5-近鄰(5-NN)檢索結(jié)果。
由此可見,在本文設(shè)定的實驗條件下,相比單一局部特征,綜合利用異質(zhì)局部特征進(jìn)行圖像檢索,能夠得到更高的查準(zhǔn)率,異質(zhì)局部特征對圖像局部信息具有更全面的描述與區(qū)分能力。另外,每幅圖像均由一個高維的稀疏向量來表示,因而只需要存儲該向量中非零系數(shù)的值和索引,且圖像間的相似性直接用稀疏向量的距離函數(shù)來度量,明顯降低了直接用“局部特征集”表示圖像時度量圖像相似性的時空復(fù)雜度。
本文提出了一種將圖像的異質(zhì)局部特征通過稀疏學(xué)習(xí)映射為圖像全局稀疏表示形式的方法,并將之應(yīng)用于基于內(nèi)容的圖像檢索任務(wù)中。文中選取了SIFT,LBP,HOG這3種典型的圖像局部特征形成圖像異質(zhì)局部特征,它們分別描述了圖像的興趣點特性、局部紋理特性和局部形狀特性,加權(quán)融合后對圖像視覺內(nèi)容形成了多角度、更全面的描述。
在ZuBud數(shù)據(jù)庫上進(jìn)行的圖像檢索實驗驗證了該方法的有效性和高效性。實驗結(jié)果表明:利用圖像異質(zhì)局部特征,相比于單一局部特征,能夠從多角度更全面地描述圖像的視覺內(nèi)容;對提取的異質(zhì)局部特征進(jìn)行稀疏學(xué)習(xí),能得到表征圖像本質(zhì)內(nèi)容的全局稀疏表示,即高維稀疏向量,同時具備了局部特征和全局特征的優(yōu)勢,在表征圖像細(xì)節(jié)信息的同時,避免了“局部特征集”相似性匹配的計算瓶頸,大大減少了時空復(fù)雜度,從而便于適應(yīng)大規(guī)模圖像檢索的需求。
[1]周明全,耿國華,韋娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.
[2]LOWE D G.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[3]DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proc.CVPR 2005.San Diego,CA,USA:[s.n.],2005:886-893.
[4]YANG Jianchao,YU Kai,GONG Yihong,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//Proc.CVPR,2009.Miami,F(xiàn)L,USA:[s.n.],2009:1794-1801.
[5]SIVIC J,ZISSERMAN A.Video Google:a text retrieval approach to object matching in videos[C]//Proc.ICCV,2003.Nice,F(xiàn)rance:[s.n.],2003:1470-1477.
[6]LAZEBNIK S,SCHMID C,PONCE J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[EB/OL].[2013-01-05].http://ieeexplore.ieee.org/xpl/articleDetails.jsp?tp=&arnumber=1641019&queryText%3DBeyond+bags+of+features%3A+Spatial+pyramid+matching+for+recognizing+natural+scene+categories.
[7]BARLOW H.Possible principles underlying the transformation of sensory messages[EB/OL].[2013-01-05].http://wenku.baidu.com/view/676f2351f01dc281e53af0b2.html.
[8]OLSHAUSEN B A,F(xiàn)IELD D J.Sparse coding with an overcomplete basis set:a strategy employed by V1[J].Vision Research,1997,37(23):3311-3325.
[9]LEE H,BATTLE A,RAINA R,et al.Efficient sparse coding algorithms[C]//Proc.Advances in Neural Information Processing Systems.[S.l.]:MIT Press,2007:801-808.
[10]WANG Jinjun,YANG Jianchao,YU Kai,et al.Locality-constrained linear coding for image classification[C]//Proc.CVPR,2010.San Diego,CA,USA:[s.n.],2010:3360-3367.
[11]ZHANG C,LIU J,TIAN Q.Image classification by non-negative sparse coding,low rank and sparse decomposition[C]//Proc.CVPR,2011.Providence,RI:[s.n.],2011:1673-1680.
[12]OJALA D T,PIETIKINEN M,MAENPAA T.Multi-resolution gray scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[13]Zurich Building Image Database[EB/OL].[2013-01-20].http://www.vision.ee.ethz.ch/showroom/zubud/.