王飛宇,邸 男,賈 平
(1.中國科學院 長春光學精密機械與物理研究所 中國科學院航空光學成像與測量重點實驗室,吉林 長春 130033;2.中國科學院 長春光學精密機械與物理研究所,吉林 長春 130033;3.中國科學院大學,北京 100049)
特征匹配是計算機視覺應用的一個基本步驟。很多計算機視覺應用,包括圖像匹配、目標識別、運動跟蹤、3D結構重建、同步定位等等,都依賴于對圖像中的具有代表性特征的利用[1-5]。因此,對于穩(wěn)定、獨特、魯棒的圖像特征的研究成為近年來計算機視覺領域研究的重要方向[6]。
目前,應用最為廣泛的特征是Lowe[7]的SIFT,該特征具有良好的獨特性,并且對各種圖像變換具有一定程度的不變性,但代價是龐大的計算量。此后的一系列研究以SIFT的性能為參照標準,致力于在理想的性能和較低的計算復雜度之間尋求一個令人滿意的折衷。Bay等人[8-9]的SURF是一個典型的例子。SURF的匹配率與SIFT接近,其運算速度提高至大約SIFT的3倍。文獻[9]從理論上證明了SURF特征具有比SIFT特征更強的噪聲魯棒性。
另一方面,基于二值化描繪器的特征因為其較低的計算復雜度而更加適合如移動電話、PDA等低級終端平臺上的應用,從而成為最近幾年新興的研究熱點。Leutenegger等人[10]提出的BRISK特征能夠抵抗尺度變化和平面旋轉,其計算比SURF更加快速。
本文的研究工作集中于適用于遠距離目標識別的特征。這類目標的一個共同特點是目標區(qū)域內特征數(shù)量少且位置相互接近,因而對這些目標的識別需要所使用方法的關鍵點檢測器能夠檢測到大量的準確且穩(wěn)定的關鍵點。所以,本文研究所希望得到的特征,應當能夠在圖像中的細節(jié)密集的區(qū)域高效地獲取穩(wěn)定的關鍵點,減少對圖像中平滑區(qū)域的關鍵點提??;更重要地,關鍵點算法應當能夠進行精確的尺度空間檢測。特征描繪器應當能夠為關鍵點指定方向,具有平面旋轉不變性、尺度不變性和一定范圍的三維視角不變性,并提供噪聲魯棒性。
SURF的基于快速海森矩陣關鍵點檢測方法對圖像的高斯模糊及二階偏微商進行了近似的計算,其平滑作用在過濾噪聲的同時,使得圖像損失很多高頻細節(jié)信息,這對于遠距離目標的識別尤其不利。同時,SURF檢測器容易在平滑區(qū)域的邊緣提取出大量的關鍵點,在這些關鍵點位置生成的特征其自身獨特性較差,容易造成誤匹配。FAST角點檢測器避免了這些問題,但它在獲取高頻信息區(qū)域關鍵點的同時,也容易受到高頻噪聲的干擾。
與SURF等網(wǎng)格描繪器相比,二值特征描繪器的描繪力較弱。快速海森矩陣檢測器和BRISK描繪器的性能上的不足將在第3節(jié)中得到論證。
根據(jù)這些設計需求和方法因素,本文提出將尺度空間FAST角點檢測方法與SURF描繪器結合的特征方法。
Mikolajczyk在文獻[11]中的研究指出,高斯-拉普拉斯算子(LoG)響應的極值點比灰度梯度、海森矩陣、Harris等方法所獲取的關鍵點更加穩(wěn)定。為了提高計算速度,SIFT利用高斯差分算子(DoG)近似LoG。
根據(jù)文獻[12],基于海森矩陣的關鍵點檢測器比Harris角點檢測器具有更好的穩(wěn)定性和重復性。SURF的快速海森矩陣檢測器利用高斯濾波后的圖像像素的海森矩陣行列式值作為顯著性依據(jù);同時采用積分圖像與箱式濾波器結合的方法近似海森矩陣,從而提高了運算速度。
Rosten和Drummond[13]提出的FAST是一種最新的角點檢測器,其顯著性判據(jù)很好地結合了相應的機器學習方法,這使得角點檢測的時間消耗達到毫秒級別,運算速度超過快速海森矩陣數(shù)十倍。因此,F(xiàn)AST在具有比較高的實時要求的應用中得到越來越多的使用。Leutenegger等人在BRISK方法中使用了尺度空間FAST檢測器,該方法在圖像空間和尺度空間中利用FAST分數(shù)作顯著性衡量標準來檢測局部極值。本文研究采用這種角點檢器。
SIFT描繪器通過計算并統(tǒng)計采樣區(qū)域內16×16采樣點的灰度梯度的方法獲得128維特征向量,其計算消耗很高。SURF的設計理念與SIFT類似,它使用Haar小波響應代替了SIFT中的相鄰4像素梯度。Alahi等人[14]的研究表明,相比于單像素點匹配,利用類似于SIFT或SURF的網(wǎng)格描繪器進行圖像匹配能夠獲得更高的準確率。Mikolajczyk和Schmid[12]提出的GLOH描繪器將SIFT的特征圖像塊改用極坐標表示,GLOH有更高的獨特性但計算更為復雜。除此之外,文獻[12]中的大量實驗工作表明,在GLOH、PCA-SIFT、矩不變量等10種描繪器中,SIFT具有最好的召回率—準確率特性。
二值化描繪器BRIEF[15]在關鍵點鄰域內按照預先隨機決定的像素位置選取像素對,比較這些像素對的灰度值大小并用二進制數(shù)表示比較結果,然后將比較結果編入二值字符串描繪器。這種法方通過計算二值描繪器之間的漢明距離、并據(jù)此判定特征的相似度來進行特征匹配,相比于計算描繪向量的馬氏距離或歐氏距離的方法計算消耗降低了很多。BRISK提供了一種固定的像素對采樣模式,由該模式下長距離像素對的位置和灰度值來計算關鍵點方向和特征描繪器,實現(xiàn)了二值特征對于平面旋轉、尺度變化和視角變化的不變性。BRISK描繪器在一般場景下的特征匹配率與SURF接近,但在存在大量相似特征的場景下其誤匹配率高于SURF。
雖然文獻[9]通過在一組帶有平面旋轉的圖像下的實驗證明了快速海森關鍵點的重復性略優(yōu)于海森-拉普拉斯關鍵點,但海森矩陣及快速海森矩陣在非水平且非豎直方向的圖像邊緣上具有較高的響應值,通過非極大值抑制后仍然能夠在圖像邊緣及附近區(qū)域提取大量關鍵點,如圖1所示。一部分邊緣關鍵點的鄰域圖像塊因為其區(qū)域內除邊緣以外的部分較為平滑而不具有獨特性。從而,大量的邊緣關鍵點容易造成誤匹配。
FAST提取的關鍵點如圖2所示。FAST避免了在圖像邊緣區(qū)域提取大量關鍵點的問題,同時能夠在細節(jié)區(qū)域提取更多的關鍵點。FAST僅在單一尺度的圖像上進行角點檢測,且未提供角點方向。
圖1 720×540圖像中的840個快速海森矩陣關鍵點Fig.1 840 Fast-Hessian key-points in a 720×540 pixel image
圖2 同一圖像中的1 106個尺度空間FAST角點Fig.2 1 106 scale-space FAST corners in the same image
與SIFT和SURF所使用的尺度空間關鍵點檢測器相似地,尺度空間FAST角點檢測器首先通過一系列的降采樣獲得圖像尺度空間金字塔,并在各圖像層中利用FAST獲得角點的粗略位置和尺度;然后利用文獻[16]提出的尺度空間插值方法,根據(jù)FAST顯著度和對數(shù)尺度值計算角點的亞像素級精確位置和精確尺度,并采用局部非極大值抑制。
BRISK描繪器的采樣模式包括60個經過高斯濾波的采樣點及512個灰度比較點對。同一采樣點參與多次比較,導致二值描繪器的部分位因信息相關而冗余。
SURF描繪器的采樣模式包括400個均勻分布于方向標準化的正方形采樣區(qū)域中的采樣點。在采樣區(qū)域中劃分出4×4子區(qū)域,計算各子區(qū)域內的5×5采樣點的水平、豎直方向的Haar小波響應之和,再將各子區(qū)域的響應統(tǒng)計信息依次序編入64維描繪向量。這種描繪方式包含的信息比二值描繪器所采用的采樣點灰度值比較結果所包含的信息更加豐富,因此SURF描繪器具有比二值描繪器更強的獨特性。
根據(jù)前文對關鍵點檢測器和描繪器的敘述及其性能上的論證和比較,本文結合尺度空間FmmmAST角點檢測器和SURF描繪器,提出新的特征方法。概括本文方法如下:
(1)尺度空間關鍵點檢測:利用FAST從圖像空間和尺度空間上獲取角點作為關鍵點。在圖像金字塔的每一層和每一內層中進行角點檢測,然后通過連續(xù)域上的插值來確定每個角點的精確位置和尺度。
(2)關鍵點描繪器:對關鍵點描繪器的采樣點計算Haar小波響應,根據(jù)水平和豎直兩個方向的響應的統(tǒng)計信息決定關鍵點方向;然后,在與關鍵點方向一致的采樣模式上重新計算各采樣點的Haar響應,這些響應值的局部統(tǒng)計信息被依次編入描繪向量。
尺度空間FAST角點檢測器的重復性及SURF描繪器對各種圖像變換的不變性已經在文獻[8-10]中得到實驗證明。
為了檢驗本文提出的特征的在遠距離目標識別中的性能,本節(jié)針對低分辨率、帶有視角變化和光照變化的圖像進行了大量的目標識別實驗,其中使用的圖像數(shù)據(jù)組來自ALOI和COIL-100網(wǎng)絡數(shù)據(jù)庫。ALOI圖像為384×288像素的png圖像,COIL-100圖像為128×128像素的png圖像。這些圖像能夠有效地驗證本文方法對于遠距離目標識別的適用性,其低分辨率以及其不同對象之間的高相似度給識別帶來了難度。實驗環(huán)境為Intel i5 2.67 GHz CPU,Windows系統(tǒng),MATLAB、VC++平臺。
識別方法為,通過特征匹配將檢測圖與所有基準圖進行比較,以匹配數(shù)最多的基準圖的對象的類別作為測試圖像目標的所屬類別。實驗還將這些識別結果與利用SIFT、SURF、BRISK算法獲得的識別結果進行了比較。
常用的匹配策略包括基于閾值的匹配、基于最近鄰準則的匹配(NN,nearest neighbor matching)以及基于最近鄰距離比例的匹配(NNDR,matching based on the nearest neighbor distance ratio)。這3種匹配策略都要求將基準圖的每個特征描繪器與測試圖的所有特征描繪器逐一比較。文獻[12]中的實驗表明,特征匹配策略的不同對所有10種描繪器的性能的相對水平幾乎沒有影響。除此之外,Lowe還提出了一種近似k-d樹算法[17]的最優(yōu)節(jié)點優(yōu)先算法(BBF),這種方法在提高匹配速度的同時對正確匹配數(shù)目造成損失。
本文所有實驗采用基于歐氏距離的NNDR匹配,設定距離比例閾值為0.7;同時,對于以下情況,基準圖像中的多個位置的特征與變換圖像中同一關鍵位置上的一個或多個尺度下的特征匹配,本文實驗中僅保留其中描繪器間距離最小的匹配。
視角變化圖像按照不同的圖像對象分為8組,各組包含36幅COIL-100圖像,圖像對象的視角依次相差10°。再從各組中分別選取對象視角為0°、90°、180°、270°的圖像作為基準圖,如圖3所示;各組其余32幅作為測試圖。識別結果如表1所示。
圖3 視角變化實驗的基準圖Fig.3 Reference images used in tests against view-point change
Tab.1 Recognition results of the test images with change in view-point
基準圖關鍵點數(shù)識別正確率/%組平均識別時間/msSIFT201869.927224SURF172465.633301BRISK635350.00472.3本文方法240370.703149
表1所示識別結果表明,與快速海森矩陣算法相比,尺度空間FAST算法在圖像中提取出更多的關鍵點,但因此帶來的匹配時間的增加被FAST的高速計算抵消。
FAST角點檢測器依賴檢測閾值,因此易受光照變化影響。為了驗證SURF描繪器能夠使特征獲得對光照變化的不變性,本文利用帶有光照變化的圖像組進行了識別實驗。
圖4 光照變化實驗的基準圖Fig.4 Reference images used in tests against illumination change
基準圖關鍵點數(shù)識別正確率/%組平均識別時間/msSIFT366998.9115989SURF188994.025227BRISK403293.48890.3本文方法250995.314854
光照變化圖像按照不同的圖像對象分為8組,圖像對象受到不同強度和角度的光照,各組包含24幅ALOI圖像。選取各組中對象受到正面中等強度光照的1幅圖像作為基準圖,如圖4所示;各組其余23幅作為測試圖。識別結果如表2所示。
尺度變化圖像按照不同的圖像對象分為8組,各組均為帶有視角變化的ALOI圖像。從各組中分別選取視角為0°、90°、180°、270°的圖像作為基準圖,如圖5所示;再按照20°的視角間隔從各組分別選取視角為0 ~ 340°的18幅圖像,對這些圖像進行一系列的降采樣,以模擬帶有不同的尺度變化的目標,得到測試圖。識別結果如圖6所示。
圖5 尺度變化實驗的基準圖Fig.5 Reference images used in tests against scale change
圖6 尺度變化測試圖的識別結果Fig.6 Recognition results of the test images with change in scale
圖7 尺度變化測試圖的識別結果Fig.7 Recognition results of the test images with change in scale
為了進一步驗證本文特征在遠距離目標識別應用中的優(yōu)勢,實驗還對更低分辨率的測試圖進行了識別,結果如圖7所示。當測試圖的尺度被縮小到ALOI原圖像的1/4以下時,BRISK算法在部分測試圖中得到的匹配特征數(shù)目為零,而實驗未將此類情況歸類為誤匹配;縮小到1/7以下時SIFT算法出現(xiàn)相同的情況。因此,本文特征相比于其他幾種特征更適用于遠距離目標識別。
在基于標準圖像庫的檢驗性識別實驗之后,本文還給出了提出的方法在實際景物圖像匹配中的應用示例,如圖8所示,設定FAST閾值為60。該組圖像具有尺度變化、不同程度的景物視角變化以及復雜背景。
圖8 本文方法的特征匹配示例,角點檢測閾值設定為60Fig.8 Matching example of the proposed method,a corner detection threshold of 60 is used
提出了將尺度空間FAST角點檢測器與SURF描繪器結合的特征方法,這種方法能夠精確地估計關鍵點的尺度,保留了FAST角點的快速性、穩(wěn)定性以及SURF描繪器的描繪力,對光照變化、視角變化和尺度變化具有魯棒性。相比于目前廣泛使用的特征,本文提出的特征在目標識別實驗中的性能優(yōu)于SIFT、SURF和BRISK,且計算速度與SURF接近,適用于遠距離目標識別應用。
[1] 賈平,徐寧,張葉.基于局部特征提取的目標自動識別[J].光學 精密工程,2013,21(7):1898-1905.
Jia P,Xu N,Zhang Y. Automatic target recognition based on local feature extraction [J].Opt.PrecisionEng.,2013,21(7):1898-1905. (in Chinese)
[2] 丘文濤,趙建,劉杰.結合區(qū)域分割的SIFT圖像匹配方法[J].液晶與顯示,2012,27(6):827-831.
Qiu W T,Zhao J,Liu J. Image matching algorithm combining SIFT with region segmentation [J].ChineseJournalofLiquidCrystalsandDisplays,2012,27(6):827-831. (in Chinese)
[3] 楊云,岳柱.基于融合圖像輪廓矩和Harris角點方法的遮擋人體目標識別研究[J].液晶與顯示,2013,28(2):273-277.
Yang Y,Yue Z.Human body target recognition under occlusion based on fusion of image contour moment and harris angular points [J].ChineseJournalofLiquidCrystalsandDisplays,2013,28(2):273-277. (in Chinese)
[4] 趙建川,王弟男,陳長青,等.紅外激光主動成像和識別[J] .中國光學,2013,6(5):795-802.
Zhao J C,Wang D N,Chen C C,etal. Infrared laser active imaging and recognition technology [J].ChineseOptics,2013,6(5):795-802. (in Chinese)
[5] 閆輝,許廷發(fā),吳青青,等.多特征融合匹配的多目標跟蹤[J].中國光學,2013,6(2):163-170.
Yan H,Xu T F,Wu Q Q,etal. Multi-object tracking based on multi-feature joint matching [J].ChineseOptics,2013,6(2):163-170. (in Chinese)
[6] 唐永鶴,盧煥章.基于灰度差分不變量的快速局部特征描述算法[J].光學 精密工程,2012,20(2):447-454.
Tang Y H,Lu H Z. Fast local featuredescription algorithm based on greyvalue differential invariants [J].Opt.PrecisionEng.,2012,20(2):447-454. (in Chinese)
[7] Lowe D. Distinctive image features from scale-invariant keypoints [J].InternationalJournalofComputerVision,2004,60(2):91-110.
[8] Bay H,Tuytelaars T,Van Gool L.SURF:Speeded up robust features [C]//ProceedingsoftheEuropeanConferenceonComputerVision,2006:404-417.
[9] Bay H,Ess A,Tuytelaars T,etal. Speeded-up robust features(SURF) [J].InternationalJournalonComputerVisionandImageUnderstanding,2008,110(3):346-359.
[10] Leutenegger S,Chli M,Siegwart R. BRISK:Binary robust invariant scalable keypoints [C].IEEEInternationalConferenceonComputerVision,2011:2548-2555.
[11] Mikolajczyk K. Scale and Affine Invariant Interest Point Detectors [D]. INRIA Grenoble,2002.
[12] Mikolajczyk K,Schmid C. A performance evaluation of local descriptors [J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2005,10(27):1615-1630.
[13] Rosten E,Drummond T. Machine learning for high-speed corner detection [C].ProceedingsoftheEuropeanConferenceonComputerVision,2006:430-443.
[14] Alahi A,Vandergheynst P,Bierlaire M,etal. Cascade of descriptors to detect and track objects across any network of cameras [J].InternationalJournalonComputerVisionandImageUnderstanding,2010,114(6):624-640.
[15] Calonder M,Lepetit V,Strecha C,etal. BRIEF:Binary robust independent elementary features [C].ProceedingsoftheEuropeanConferenceonComputerVision,2010:778-792.
[16] Brown M,Lowe D. Invariant features from interest point groups [C].British Machine Vision Conference,2002:656-665.
[17] Friedman J H,Bentley J L,F(xiàn)inkel R A. An algorithm for finding best matches in logarithmic expected time [J].ACMTransactionsonMathematicalSoftware,1977,3(3):209-226.