趙宏偉,陳 霄,石景海,馬凌蛟
(吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長春130012)
隨著車輛的不斷增多和公路不斷擴(kuò)展,交通標(biāo)志成為交通中不可缺的組成部分。未來城市交通趨勢逐漸傾向無人自主駕駛,因此理解交通標(biāo)示成為自主駕駛機(jī)器人必備的功能[1-4]。傳統(tǒng)的基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)只能滿足人們對簡單目標(biāo)數(shù)據(jù)的檢索識別,取而代之的是一種基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR),它以其高效的檢索速度以及準(zhǔn)確的查詢精度越來越被研究者們所關(guān)注,也成為解決交通標(biāo)志快速識別問題的重要途徑。
基于內(nèi)容的圖像檢索其目標(biāo)是圖像本身,建立索引的方法是通過提取圖像的底層特征(如顏色、形狀、紋理等),然后通過計(jì)算比較這些特征和查詢條件之間的距離,以決定兩幅圖像的相似程度,最終把相似度達(dá)到設(shè)定閾值的圖像數(shù)據(jù)反饋給查詢用戶。本文所提出的基于顏色和形狀特征的圖像檢索技術(shù)正是這一領(lǐng)域的研究內(nèi)容,并將該方法應(yīng)用于自主移動(dòng)機(jī)器人,可以快速準(zhǔn)確地辨別重要的交通標(biāo)志。
顏色特征是圖像檢索中最基礎(chǔ)、最廣泛的特征,因?yàn)轭伾侵苯哟碳と祟愐曈X的第一感官,而且不同的顏色往往營造出不同的氛圍,有時(shí)不同的顏色更會(huì)影響人對同一事物的理解[5]。如在交通標(biāo)志中,紅色代表禁止,黃色代表警告,綠色代表允許,藍(lán)色代表輔助。此外,顏色特征有著與生俱來的優(yōu)越性,因?yàn)樵谟?jì)算機(jī)識別過程中,顏色特征被量化為各種向量和各種矩陣,這樣就把整幅圖片完全用數(shù)學(xué)符號表示出來,更容易被我們計(jì)算和識別。顏色特征具有很強(qiáng)的魯棒性,它不受空間位置等條件的約束,同時(shí),能很好地表示圖像的明暗變化與飽和程度等許多有助于人們理解的高級語義。所以,顏色特征是最基礎(chǔ)的特征,又是最重要的特征。然而,顏色特征也是有缺點(diǎn)的,它沒有辦法表示圖像的空間信息,即對顏色分布相同,而空間分布不同的圖像,沒有辦法識別。由于顏色本身的特征,現(xiàn)在一般采用顏色直方圖、顏色矩、顏色熵等方法進(jìn)行特征提取。
RGB(Red,Green,Blue)顏色空間是最基本的、應(yīng)用最廣泛的顏色空間,幾乎所有的其它空間都可以通過RGB空間進(jìn)行轉(zhuǎn)換[6-7]。RGB空間是一種基于笛卡爾坐標(biāo)系統(tǒng)的顏色空間,采用了神經(jīng)心理學(xué)中三基色,即紅、綠、藍(lán)作為整個(gè)空間的三維單位坐標(biāo)。當(dāng)三基色的亮度都為零時(shí),此時(shí)為空間的原點(diǎn),表示黑色;當(dāng)三基色的亮度達(dá)到最大時(shí),此時(shí)為空間最大值點(diǎn),表示白色;其它頂點(diǎn)分別是當(dāng)兩個(gè)值達(dá)到最大,一個(gè)值達(dá)到最小時(shí)的點(diǎn),分別表示品紅(紅加藍(lán))、藍(lán)綠(綠加藍(lán))和黃(紅加綠)。RGB各通道之間有著極大的相關(guān)性,R、G之間的相關(guān)性系數(shù)為0.98,R、B之間的相關(guān)性系數(shù)為0.74,B、G之間的相關(guān)性系數(shù)為0.94。RGB顏色空間對圖像的空間分布和平移、旋轉(zhuǎn)具有魯棒性;但反應(yīng)圖像的信息不夠直觀,不符合人類視覺的感知。
HSV(Hue,Saturation,Value)顏色空間是一種面向人類視覺感知的顏色空間模型[7-8]。它不像RGB顏色空間那樣是從硬件的角度出發(fā),而是從人類視覺感知的角度出發(fā),所以更符合人類的感知。
Hue色度是指光的顏色,主要取決于波長; Saturation飽和度是指圖像顏色的深淺程度,主要取決于色調(diào)的純度;Value亮度是指光的明暗程度,主要取決于物體的反射率。
HSV顏色空間模型為圓錐體。圓錐的頂面為一圓形,當(dāng)V=1時(shí),代表的顏色較亮的區(qū)域。當(dāng)色彩H繞V軸旋轉(zhuǎn)時(shí),每經(jīng)過120°會(huì)變換一種基色。其中紅色對應(yīng)0°,綠色對應(yīng)120°,藍(lán)色對應(yīng)240°。在HSV顏色空間模型中,每種顏色在旋轉(zhuǎn)180°后為它的顏色補(bǔ)色。因?yàn)轱柡投萐的取值是從0到1,所以,圓錐頂面的半徑為單位1。圓錐的頂點(diǎn)代表黑色。圓錐的頂面中心處代表白色。從數(shù)學(xué)的角度上說,HSV模型中的V軸對應(yīng)于RGB顏色空間中的主對角線。HSV顏色空間比RGB顏色空間的優(yōu)越性在于:(1)亮度分量不依靠圖像本身的顏色信息;(2)飽和度分量與人類視覺感受符合度高。因此,HSV顏色空間更加符合人類視覺的感知(見圖1)。在基于顏色的圖像檢索實(shí)驗(yàn)中,HSV空間方法性能總體要比RGB顏色空間性能優(yōu)秀。
圖1 RGB與HSV檢索結(jié)果對比圖Fig.1 RGB and HSV retrieval result contrast chart
形狀是圖像最重要的可視化內(nèi)容,是人類視覺系統(tǒng)進(jìn)行物體識別時(shí)所需要的關(guān)鍵信息之一[9]。它不隨周圍環(huán)境,如亮度等的變化而變化,是物體的穩(wěn)定信息。形狀特征較顏色特征具有更高一級的語義特征,這使檢索結(jié)果更加令人滿意。同時(shí)在交通標(biāo)志里,形狀特征也伴隨著一些語義特征,如圓形代表警示,三角形代表禁止,配合顏色特征更加有助于人們對圖像的理解。可以說,形狀是人們視角語義上的第一印象,對形狀的理解往往決定了人們對整幅圖像涵義的理解。但是,形狀特征提取目前還沒有找到統(tǒng)一、相對優(yōu)越的方法。目前,研究者們一般只能根據(jù)所要檢索的圖片設(shè)計(jì)相應(yīng)的算法,而且所檢索的圖像都相對簡單,當(dāng)遇到復(fù)雜圖像時(shí),往往束手無策。目前形狀特征提取方法主要分為兩種方法:基于邊緣的特征提取和基于輪廓的特征提取。但無論采用哪種方法,其核心思想都是圖像分割法。
(1)幾何不變矩
矩是指分量值與該分量所具有的權(quán)值的乘積。1962年,Hu等提出了不變矩理論以及基于代數(shù)不變量的矩不變量,并將一組線性無關(guān)的幾何矩組成非線性矩組,通過該矩組導(dǎo)出了一組具有平移、旋轉(zhuǎn)和尺度變化不變性的矩,稱之為不變矩。不變矩是一種圖像統(tǒng)計(jì)特征,該特征從圖像的灰度分布的多個(gè)不同階矩表示圖像在灰度值方面的分布特征。
設(shè)f(x,y)為一離散數(shù)字圖像,則其p+q階矩定義為
其p+q階中心矩定義為
式中:x-=m10/m00,y-=m01m00表示該區(qū)域的重心坐標(biāo)。中心矩表示圖像中不同級的像素圍繞其重心的分布情況。為了使中心矩具有縮放無關(guān)性,可以對中心矩進(jìn)行標(biāo)準(zhǔn)化操作,稱標(biāo)準(zhǔn)化后的中心矩為標(biāo)準(zhǔn)中心矩。可表示為
(2)ART描述
ART(Angular Radial Transform)是一種基于區(qū)域的形狀描述符,同時(shí)也是一種基于矩的圖像描述符。它通過角半徑變換方法將形狀信息轉(zhuǎn)換為一組角半徑變換系數(shù),通過該角半徑變換系數(shù)組描述圖像的形狀信息[10]。ART既可以描述單個(gè)連通區(qū)域,也可以描述多個(gè)不連通區(qū)域,并具有良好的魯棒性,能夠很好地識別并提取目標(biāo)對象的旋轉(zhuǎn)變換。
ART變換的系數(shù)可以表示為:
式(5)中:Fnm是在序數(shù)(n,m)的ART系數(shù),f(ρ,θ)是基于極坐標(biāo)的圖像灰度值方程,是ART的核函數(shù)(kernel function)。V*nm(ρ,θ)是其復(fù)共軛函數(shù),其具體表示為:
其中
綜合多特征檢索其概念是廣義的,它既包括同一特征之間的多特征綜合,也包括圖像各種特征(如顏色、形狀、紋理或空間位置等)之間的綜合特征。本文根據(jù)實(shí)際需要,設(shè)計(jì)并實(shí)驗(yàn)了一種綜合顏色特征和形狀特征相結(jié)合的匹配算法。算法首先計(jì)算圖像的特征向量,然后分配給各個(gè)特征權(quán)重關(guān)系,最后通過調(diào)整各種向量特征之間的權(quán)重比,從而達(dá)到效果最佳的目的。
設(shè)HR、HG、HB分別為圖像q的對應(yīng)紅、綠、藍(lán)分量的歸一化的直方圖,相似性匹配可以用直方圖歐氏距離來計(jì)算。而形狀特征則采用輪廓方向直方圖。
通過結(jié)合顏色直方圖的相似度與輪廓方向直方圖的相似度,可以將基于顏色的圖像檢索與基于形狀的圖像檢索結(jié)果相結(jié)合。設(shè)q為目標(biāo)圖像,t為數(shù)據(jù)庫中圖像,Dc代表基于顏色直方圖的相似度,Ds代表基于輪廓方向直方圖的相似度。則兩幅圖像間的綜合相似性計(jì)算如下:
其中,ωc和ωs分別為對顏色的加權(quán)和對形狀的加權(quán)。為了驗(yàn)證結(jié)合顏色和形狀檢索的優(yōu)越性,可對僅用顏色特征、僅用形狀特征以及結(jié)合使用顏色與形狀特征的檢索算法進(jìn)行試驗(yàn)比較。為了檢驗(yàn)旋轉(zhuǎn)不變性,將庫中每幅圖像都任意縮放和旋轉(zhuǎn)作為查詢圖像進(jìn)行檢索。
在研究綜合多特征的匹配技術(shù)時(shí),首先將其進(jìn)行歸一化處理,然后根據(jù)不同特征向量的重要程度分配不同的權(quán)值。一般情況下,如果在沒有合適想法,會(huì)默認(rèn)地將兩種特征向量平均分配,即各占0.5。然后根據(jù)每種特征的優(yōu)劣及重要性,調(diào)整權(quán)值的比例系數(shù)。這就可以對某個(gè)特定查詢動(dòng)態(tài)地調(diào)整權(quán)重,以反映特征的不同的重要性。如何調(diào)整Wij特征之間的權(quán)重將是人們亟待解決的問題。
對應(yīng)于Wij不同的特征向量,Rij反映了在整個(gè)權(quán)值分配過程中,研究者對不同特征的傾向程度。它提供了一種人機(jī)交互的反饋方式,能夠使研究者在最短的時(shí)間內(nèi),調(diào)整和改進(jìn)算法。
假設(shè)RT是第一次檢索中由總相似度S得出的NRT幅相似圖像所組成的集合
令Score是用戶對圖像RTi所給出的反饋得分值組成的集合:
理論上講,相關(guān)性越強(qiáng),采用的技術(shù)手段越多,反饋越精確,效果越好。但采用的相關(guān)技術(shù)多會(huì)給研究者和系統(tǒng)之間的交互帶來不便。試驗(yàn)證明,5級相關(guān)性是簡便性與精確性的最佳平衡點(diǎn)。
此外,根據(jù)其中的任一特征的rij相似度S(rij)計(jì)算所得的與Q最相似的NRT幅圖像所組成的集合為:
計(jì)算rij的權(quán)值。不難發(fā)現(xiàn),如果RT集和RTij集重合越多,則相應(yīng)的Wij值也越大。即,更大程度上適合研究者需要的特征,將被賦予更大的權(quán)值系數(shù),即獲得更大的重視程度。
在本文中,假設(shè)顏色特征與形狀特征的權(quán)值為λ1和λ2,則有如下關(guān)系:
解得λ=0.618。
下面將在實(shí)驗(yàn)部分驗(yàn)證λ的權(quán)重比傳統(tǒng)0.5權(quán)重的性能更優(yōu)越。
實(shí)驗(yàn)在 Windows XP系統(tǒng)下采用 Visual C++6.0編譯環(huán)境(見圖2)。選取國家標(biāo)準(zhǔn)GB5768-1999道路交通標(biāo)志中的的警告標(biāo)志,禁令標(biāo)志和指示標(biāo)志共116幅作為標(biāo)準(zhǔn)數(shù)據(jù)集,實(shí)驗(yàn)數(shù)據(jù)集通過旅行家自主移動(dòng)機(jī)器人配套2自由度云臺(tái)收集。實(shí)驗(yàn)分為兩組:一組通過標(biāo)準(zhǔn)數(shù)據(jù)集檢測顏色形狀特征權(quán)重問題;另一組通過實(shí)景圖像中交通標(biāo)志驗(yàn)證算法性能。
圖2 模擬實(shí)驗(yàn)結(jié)果示意圖Fig.2 Simulation results schemes
通過實(shí)驗(yàn)驗(yàn)證分析λ權(quán)值,將交通標(biāo)志圖像每次分辨率遞減至原來的1/2,構(gòu)成5層金字塔結(jié)構(gòu)表示待識別交通標(biāo)志距離漸遠(yuǎn),上文中所提當(dāng)權(quán)值為λ=0.618時(shí),綜合多特征的檢索算法在查全率與查準(zhǔn)率都比權(quán)重λ=0.5時(shí)高。兩種特征權(quán)值檢索結(jié)果對比圖如圖3所示。
圖3 兩種特征權(quán)值檢索結(jié)果對比圖Fig.3 Two feature weight retrieval result contrast
利用上文將采樣圖像最為實(shí)驗(yàn)數(shù)據(jù)與基于顏色特征和基于形狀特征的檢索算法進(jìn)行對比。從圖4可以看出,本文方法在查全率和查準(zhǔn)率上性能高于單一其他兩種方法。
圖4 3種特征檢索結(jié)果對比圖Fig.4 Three feature retrieval result contrast chart
利用自主移動(dòng)機(jī)器人上云臺(tái)攝像頭實(shí)際采集的200幅實(shí)景圖像進(jìn)行實(shí)驗(yàn)(見圖5)。本文算法雖然花費(fèi)了相對較多的運(yùn)算時(shí)間,但在檢索準(zhǔn)確性能上要高于其他兩種方法。
圖5 三種特征檢索精度和響應(yīng)時(shí)間對比圖Fig.5 Three feature retrieval precision and response time contrast chart
本文在深入研究綜合多特征的匹配算法后,經(jīng)過數(shù)學(xué)分析及理論研究,計(jì)算出了一種顏色特征與形狀特征相結(jié)合的權(quán)值系數(shù)。實(shí)驗(yàn)表明,該權(quán)重系數(shù)比已有方法更加適合旅行家機(jī)器人平臺(tái),能達(dá)到更精確更快速的目的。此外本文以Visual C++6.0為開發(fā)平臺(tái),設(shè)計(jì)并實(shí)現(xiàn)了道路交通標(biāo)志識別的模擬系統(tǒng)。該系統(tǒng)能夠?qū)D片進(jìn)行低級的圖像處理工作,并根據(jù)本文所改進(jìn)的算法檢索圖片。本文通過現(xiàn)有機(jī)器人配件獲取圖像數(shù)據(jù),以SQL Server 2000為數(shù)據(jù)庫,創(chuàng)造了測試所需要的圖像庫。通過實(shí)驗(yàn)證明,改進(jìn)的算法提高了圖像的查全率和查準(zhǔn)率,同時(shí),算法在檢索時(shí)間上也有明顯提高。
[1]Cyganek B.Circular road signs recognition with affine moment invariants and the probabilistic neural classifier[C]//M Inter national Conference on Adaptive Natural Computing Algorithms.2007:508-516.
[2]Wang Tao,Zheng Nan-ning,Xin Jing-min,etal.Integratingmillimeter wave radar with amonocular vision sensor for on-Road obstacle detection applications[J].Sensors,2011,11(9):8992-9008.
[3]Miura J,Kanda T,Shirai Y.An active vision system for real time traffic sign recognition[C]//MIEEE Intelligent Transpor tation Systems.2000:52-57.
[4]Fleyeh H.Shadow and highlight invariant color segmentation algorithm for traffic signs[C]//IEEE Conference on Cybernetics and Intelligent Systems.2006: 1-7.
[5]Gevers T,Smeuder A W M.Evaluating color and shape invariant image indexing of consumer photograph[C]// Proceedings of the1st International Conference on Visual Information Systems.Melbourne,Astralia,1996:254-261.
[6]Gevers T,Smeuder A W M,Content-based image retrieval by viewpoint-invariant image indexing[C]//Image and Vision Computing.1999:475-488.
[7]Zhang Y J,Liu ZW,He Y.Comparision and improvement of color-based image retrieval techniques[C]// Storage and Retrieval for Image and Video Databases VI.SIPE,1997:371-382.
[8]Bergholm F.Edge focusing[C]//IEEE Trans Pattern A-nalysis and Machine Intelligence.1987:726-741.
[9]Chellappa R,Bagdazian.Fourier coding of image boundaries[C]//IEEE Trans.Pattern Anal Mach Intell. 1984:102-105.