羅濱+朱長(zhǎng)仁+++任云
摘 要: 特征提取是目標(biāo)檢測(cè)與識(shí)別領(lǐng)域的研究熱點(diǎn)之一,HOG(Histogram of Oriented Gradient)特征由于其對(duì)圖像局部信息良好的幾何和光照不變性,在行人檢測(cè)、車牌和人臉識(shí)別等計(jì)算機(jī)視覺鄰域得到了廣泛應(yīng)用,但是HOG不具有旋轉(zhuǎn)不變的特性,使得該特征在實(shí)際應(yīng)用中存在著一些局限性。針對(duì)該問題,提出一種具有旋轉(zhuǎn)不變性的HOG特征提取方法,首先根據(jù)圖像梯度信息提取主方向并設(shè)置為參考方向,接著旋轉(zhuǎn)主方向至參考方向,在旋轉(zhuǎn)后的圖像上得到旋轉(zhuǎn)不變的HOG特征。并且設(shè)計(jì)了一種面向圖像匹配的相似性度量準(zhǔn)則,它以單個(gè)圖像塊(Block)特征向量為基元,與待匹配圖像中對(duì)應(yīng)塊及其鄰域塊特征向量的相似度共同作為度量標(biāo)準(zhǔn),增強(qiáng)了旋轉(zhuǎn)圖像在像素平移情況下的匹配效果。實(shí)驗(yàn)結(jié)果表明,提出的改進(jìn)HOG特征具有良好的旋轉(zhuǎn)不變特性。
關(guān)鍵詞: 梯度方向直方圖(HOG); 方向標(biāo)準(zhǔn)化; 圖像匹配; 相似性度量
中圖分類號(hào): TN911.73?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)22?0084?04
0 引 言
隨著信息產(chǎn)業(yè)的高速發(fā)展,物質(zhì)生活日益豐富的同時(shí),人們對(duì)計(jì)算機(jī)視覺技術(shù)的需求也越來越高。圖像特征提取作為計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的研究方向,在醫(yī)學(xué)、刑偵和軍事等方面都發(fā)揮著重要的作用,吸引著大量的國(guó)內(nèi)外研究者。對(duì)于圖像特征,至今為止都沒有一個(gè)精確的定義,包括性能的衡量往往由具體問題或者應(yīng)用所決定,但是作為模式識(shí)別的起點(diǎn),對(duì)圖像的描述都應(yīng)具有精確性、獨(dú)特性和魯棒性等特點(diǎn)。
近年來,研究者們提出了大量圖像特征描述子,Lowe提出了SIFT(Scale?invariant feature transform,尺度不變特征轉(zhuǎn)換)特征[1],在尺度空間中尋找具有尺度、旋轉(zhuǎn)、位置等不變性的極值點(diǎn),這些特征點(diǎn)構(gòu)成對(duì)圖像的不變性描述,取得了良好的效果,作者隨后在2004年對(duì)其進(jìn)行了完善[2]。SIFT算法穩(wěn)定,可以檢測(cè)到較多的特征點(diǎn),但是計(jì)算復(fù)雜度高,Bay等針對(duì)上述問題提出了SURF(Speeded?Up Robust Features,快速魯棒特征)特征[3],利用積分圖、Hessian矩陣快速構(gòu)造圖像尺度空間,大幅提升了檢測(cè)速度。SIFT和SURF都具有尺度、光照和旋轉(zhuǎn)不變性,但是構(gòu)造描述子的過程繁雜,效率依舊難以滿足實(shí)時(shí)性的應(yīng)用需求。Dalal在2005年的CVPR上提出了HOG[4](Histogram of Oriented,梯度方向直方圖)特征應(yīng)用于行人檢測(cè),并達(dá)到了2006年P(guān)ASCAL人體檢測(cè)挑戰(zhàn)賽最佳結(jié)果,獲得了極大的成功。受此啟發(fā),國(guó)內(nèi)外許多研究者將目光轉(zhuǎn)向了HOG特征,其中包括許多HOG特征的改進(jìn)[5?12]。
HOG的優(yōu)勢(shì)在于它有很好的幾何和光學(xué)不變性,并且計(jì)算效率高。但是,HOG本身存在一些局限:
(1) 計(jì)算梯度前不能進(jìn)行平滑使得 HOG不具備多尺度分析能力。Zhu等使用積分圖[5]加速HOG特征的計(jì)算,實(shí)現(xiàn)了多尺度分析;Bosh等結(jié)合空域金字塔核提出了PHOG(Pyramid of Histogram of Orientation Gradient,方向直方圖金字塔)特征[6],通過對(duì)ROI區(qū)域的多分辨率分割,構(gòu)建金字塔圖層,加權(quán)連接各圖層的梯度方向直方圖得到PHOG;Pedro等結(jié)合HOG特征,提出了用于目標(biāo)檢測(cè)的判別訓(xùn)練、多尺度可變部件模型[7?8](DPM),將一種挖掘難例的間隔敏感方法與隱藏變量SVM(Latent variables SVM)結(jié)合起來,實(shí)驗(yàn)證明其方法在平均精度上達(dá)到HOG特征人體檢測(cè)的2倍。
(2) HOG不具備旋轉(zhuǎn)不變性。湯彪等提出了基于旋轉(zhuǎn)不變HOG特征的圖像匹配算法[12],該算法改進(jìn)了Block劃分方式,用環(huán)形圖像區(qū)域劃分方式代替常規(guī)的方形圖像區(qū)域劃分方式,并對(duì)梯度進(jìn)行RGT (Radial Gradient Transform)變化,獲得旋轉(zhuǎn)不變的直方圖信息,在角度差異圖像間的匹配取得了不錯(cuò)的效果。但是,這種算法舍去了目標(biāo)本身的方向信息,縮小了適用范圍。
本文提出了一種基于主方向的旋轉(zhuǎn)不變HOG特征方法,并優(yōu)化了特征的相似性度量。在特征提取方面,首先根據(jù)梯度信息計(jì)算得到圖像主方向,然后以主方向作為歸一化參考方向,獲取旋轉(zhuǎn)不變的HOG特征。在相似性度量方面,本文以單個(gè)圖像塊(BLOCK)特征向量為基元,與待匹配圖像中對(duì)應(yīng)塊及其鄰域塊特征向量的相似度共同作為度量標(biāo)準(zhǔn),增強(qiáng)了存在少許相位差異的旋轉(zhuǎn)圖像之間的匹配效果。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)HOG特征相比,利用本文提出的改進(jìn)HOG特征在圖像間存在角度差異的時(shí)候,依然能夠保證匹配的準(zhǔn)確度。
下面首先簡(jiǎn)要介紹HOG特征提取基本思路,然后描述基于梯度信息的主方向提取算法,其次敘述基于主方向HOG特征的圖像匹配算法,最后給出相關(guān)實(shí)驗(yàn)與結(jié)果分析。
1 HOG特征提取基本思路
梯度方向直方圖是一種稠密的統(tǒng)計(jì)特征描述,其主要思想是:將一幅圖像分成許多連通區(qū)域,分別計(jì)算和統(tǒng)計(jì)各區(qū)域的梯度信息構(gòu)成直方圖,最后將直方圖連接起來就可得到HOG特征。
4 結(jié) 語
本文方法通過統(tǒng)計(jì)圖像全局的梯度方向信息,得到梯度主方向,并以此作為參考方向?qū)D像進(jìn)行方向歸一化,提取圖像的HOG特征,使之具有較好的旋轉(zhuǎn)不變性。圖像匹配的實(shí)驗(yàn)結(jié)果表明,在圖像存在角度差異的情況下,本文算法具有良好的匹配效果,總體性能明顯優(yōu)于傳統(tǒng)的HOG特征。
參考文獻(xiàn)
[1] LOWE D. Object recognition from local scale?invariant features [C]// Proceedings of the 7th the IEEE International Conference on Computer Vision. Kerkyra: IEEE, 1999: 1150?1157.
[2] LOWE D. Distinctive image features from scale?invariant key points [J]. International Journal of Computer, 2004, 11(60): 91?110.
[3] BAY H, TUYTELAARS T, ESS A. Speeded up robust features (SURF) [J]. Computer Vision and Image Understanding, 2008, 110(3): 346?359.
[4] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886?893.
[5] ZHU QIANG, AVIDAN S, MEI Y, et al. Fast human detection using a cascade of histograms of oriented gradients [C]// Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 1491?1498.
[6] BOSH A, ZISSERMAN A, MUNOZ X. Representing shape with a spatial pyramid Kemel [C]// Proceedings of the 6th ACM Intemational Conference on Image and Video Retrieval. New York, USA: ACM Press, 2007: 1091?1096.
[7] FELZENSZWALB P. A discriminatively trained, multiscale, deformable part model [C]// Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK: IEEE, 2008: 1?8.
[8] FELZENSZWALB P. Object detection with discriminatively trained part based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627?1645.
[9] 芮挺,曹鵬,張金林,等.基于高斯混合建模的多尺度HOG行人頭肩特征檢測(cè)[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2013,32(2):90?93.
[10] 霍亞松,張錕.非重疊低維度梯度方向直方圖[J].模式識(shí)別與人工智能,2014,27(3):242?247.
[11] 吳博.HOG特征紅外圖像匹配技術(shù)研究[D].武漢:華中科技大學(xué),2011.
[12] 湯彪,左崢嶸,李明.基于旋轉(zhuǎn)不變HOG特征的圖像匹配算法[EB/OL].[2013?01?24].http://www.paper.edu.cn/releasepaper/content/201301?1025.