羅雨欣 韓忠愿
摘要:交通標(biāo)志的檢測(cè)在智能汽車(chē)駕駛的系統(tǒng)中是一個(gè)十分重要的環(huán)節(jié)。在該文中,介紹一種有效的方法,在視頻或圖像中檢測(cè)到交通禁止標(biāo)志的存在,提取出確定包括標(biāo)志的圖像區(qū)域,為進(jìn)一步的分類(lèi)識(shí)別算法提供可靠的數(shù)據(jù)源。由于交通標(biāo)志通常在各地都擁有醒目的圖形和顏色,該文中首先利用顏色和形狀的經(jīng)驗(yàn)?zāi)P蛯?duì)一幀圖像進(jìn)行預(yù)處理,分析出可能存在交通標(biāo)志的感興趣區(qū)域,作為候選(Candidate)。再對(duì)這一候選區(qū)域進(jìn)行判斷是否是交通標(biāo)志,此處利用了圖像的HOG特征,和SVM分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,這一方法有效地避免了光照條件、輕微遮擋等因素的干擾,準(zhǔn)確的檢測(cè)到圖像中的交通標(biāo)志所處的位置。
關(guān)鍵詞: 檢測(cè);感興趣區(qū)域;特征提取;機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7777-06
Abstract:Detection of Traffic Signs plays one of the most important roles in Intelligent Driving Systems. In this article, we introduce an efficient method to detect prohibitive traffic signs in images or videos. We extract convincing regions of the signs, providing reliable resources for further classification Algorithm. Traffic Signs usually possess regular shapes and eye-catching colors, which gives us strong hints on the establishment of experienced models in the previous stages of detection. We analyze every single frame of the video to find out the possible regions of interests as candidates, and decide whether the contents are traffic signs or not with features of HOG and tools of SVM. The results turn out to be accurate despite of various illumination and slight obstruction.
Key words: detection; region of interests; feature extraction; machine learning
1 概述
提高駕駛的安全性是汽車(chē)電子系統(tǒng)發(fā)展的一個(gè)重要方向,重要交通標(biāo)志的檢測(cè)和識(shí)別系統(tǒng)可以幫助駕駛員及時(shí)地對(duì)路況做出反應(yīng),規(guī)避了潛在風(fēng)險(xiǎn),甚至可以在將來(lái)無(wú)人駕駛系統(tǒng)中發(fā)揮很大的作用。交通標(biāo)志被設(shè)計(jì)的醒目易懂,在道路環(huán)境中,可以較為清晰地出現(xiàn)在駕駛者的視野中,提供有用的信息。比如說(shuō)禁止標(biāo)識(shí),通常使用邊緣為紅色圓環(huán)的圓形標(biāo)識(shí),告訴我們此路段的限速信息、禁停信息、禁鳴信息等等。然而,不同的光照,朝向,觀察(攝像機(jī)拍攝)的角度,甚至部分的遮擋都給交通標(biāo)志的檢測(cè)問(wèn)題帶來(lái)了很大的挑戰(zhàn)。
本文使用的是GTSDB(德國(guó)交通標(biāo)志檢測(cè)數(shù)據(jù)庫(kù)),此數(shù)據(jù)庫(kù)收集了42種交通標(biāo)志的1213個(gè)實(shí)例,是在不同天氣,時(shí)段,光照,方位,角度使用同一車(chē)載攝像頭在道路駕駛時(shí)實(shí)時(shí)記錄中截取的視頻幀。該數(shù)據(jù)庫(kù)收集的圖片比較全面而且十分符合現(xiàn)實(shí)中遇到的實(shí)際情況,具有很強(qiáng)的研究?jī)r(jià)值和實(shí)際指導(dǎo)意義。
在本方法中,利用計(jì)算機(jī)對(duì)圖像中交通標(biāo)志的檢測(cè),主要有3個(gè)需要解決的方向。一是對(duì)圖像中特定顏色的分析和提?。欢菍?duì)特定形狀的識(shí)別和定位;三是對(duì)區(qū)域圖像的訓(xùn)練和判斷。下文大致就按照這樣的順序介紹和研究,提出相應(yīng)的算法,來(lái)解決這一系列的問(wèn)題,并且需要兼顧到實(shí)時(shí)計(jì)算的要求,即對(duì)每一幅圖像的處理速度不應(yīng)過(guò)長(zhǎng)。這樣,為下一步的具體分類(lèi)識(shí)別提供了準(zhǔn)確性和穩(wěn)定性的保證,同樣也提供了一定的實(shí)際應(yīng)用價(jià)值。
2 基于顏色的分析
2.1 不同解決方案的比較與分析
對(duì)于顏色的預(yù)處理,研究者們也提出了很多針對(duì)性很強(qiáng)的算法,試圖在提取顏色區(qū)域的準(zhǔn)確性和時(shí)間復(fù)雜度之間尋求平衡(包括之后的圖形識(shí)別也是如此)。區(qū)域的提取,并不像其他有針對(duì)性的應(yīng)用中,比如交通燈、車(chē)牌的識(shí)別,可以在一個(gè)圖像特定的區(qū)域做篩選。交通標(biāo)志的安放位置更為靈活,不能對(duì)圖像做隨意的分割,對(duì)于感興趣區(qū)域的提取就顯得尤為重要和有意義,也是影響系統(tǒng)性能的關(guān)鍵一步。
HSI顏色空間反映了人們視覺(jué)系統(tǒng)感知彩色的方式,以色調(diào)、飽和度和強(qiáng)度這3種基本特征量來(lái)描述一種顏色。由于圖像在HSI空間有出色的抗光照特性,我們可以利用其中的色度來(lái)提取交通標(biāo)志的顏色信息,特別是在光照條件很差的情況下,此方法有一定的針對(duì)性。
但是,在這一空間中,我們不能對(duì)其中的紅色色調(diào)做精確的量化,當(dāng)交通標(biāo)志處于圖像中陰暗區(qū)域時(shí),與其之后的暗色背景在色度空間上還是會(huì)有所重合,而且難以通過(guò)量化區(qū)分。這樣交通標(biāo)志還是易與背景混淆,在初始的預(yù)處理階段就導(dǎo)致了感興趣區(qū)域成為了一般區(qū)域,會(huì)對(duì)交通標(biāo)志的提取造成了遺漏。利用HSI空間另一缺點(diǎn)就是,對(duì)于圖像中的每一個(gè)像素點(diǎn),都要做非線性的變換,無(wú)疑是較為耗時(shí)的。在最初的階段,耗費(fèi)一定的時(shí)空代價(jià),且不能精確的解決光照的問(wèn)題和重要區(qū)域的劃分,并不能成為一個(gè)首要的選擇。
對(duì)于以上的困擾,有人利用人類(lèi)觀察的感官作為啟發(fā)提出了基于醒目區(qū)域的提取方法。在彩色通道、灰色圖像和紋理圖像(灰度圖像經(jīng)Gabor濾波器卷積而得)上建立高斯金字塔,計(jì)算金字塔間的差值,再經(jīng)DoG濾波器濾波,按一定的權(quán)值疊加,得到視覺(jué)上顯著的區(qū)域。這里,高斯金字塔的差值得到了在不同通道上的顯著性的量化值,DoG濾波器是一個(gè)抑制局部極大值,放大全局最大值的濾波器,Winner-take-all的特性決定了我們可以將區(qū)域鎖定在最為顯著的候選區(qū)域。但是,交通標(biāo)志雖為顯著,可是并不一定是在一定特征上,最為顯著地區(qū)域,例如,在紅色通道上,我們并不是要比哪一片區(qū)域在圖像中是最紅的,況且正如上文所說(shuō)的,標(biāo)志牌上的紅色在很多情況下,并不是在圖像中最為鮮艷的紅,其他如汽車(chē)尾燈,晚霞等都會(huì)在圖像最大值的競(jìng)爭(zhēng)中勝出,也造成了判斷的錯(cuò)誤和漏檢。而對(duì)于智能搜索算法,也并沒(méi)有什么很好的啟發(fā)式目標(biāo),或者說(shuō)優(yōu)化函數(shù),可以對(duì)二位離散的數(shù)字圖像搜索到一個(gè)符合期望的數(shù)值較為平穩(wěn)的區(qū)域(感興趣區(qū)域)。
有的研究者想出了使用AdaBoost的強(qiáng)化學(xué)習(xí)方法來(lái)識(shí)別圖像中交通標(biāo)志上的紅色。其思想是收集交通標(biāo)志在不同天氣光照下的特定顏色,進(jìn)行分類(lèi)和訓(xùn)練。但是即使將顏色轉(zhuǎn)換成了其他空間,所能描述一個(gè)顏色的特征數(shù)實(shí)在是較少,而且交通標(biāo)志上的顏色與其他的近似顏色區(qū)別度并不大,在計(jì)算機(jī)中由于攝像和存儲(chǔ)精度的原因,也并不能作出很好的分類(lèi),所以說(shuō)對(duì)于背景復(fù)雜的視頻或者圖像來(lái)說(shuō),也并不是一個(gè)精煉的方法。
在得到的二值圖像上,仍然存在一些零星的散點(diǎn),肯定不失我們希望重點(diǎn)關(guān)心和研究的像素,不希望讓這些點(diǎn)占用之后的算法空間和時(shí)間。這些噪聲最符合的噪聲模型即為椒鹽噪聲,使用中值濾波,能很有效的濾除這些點(diǎn)。但這里需要注意的是,尤其是在禁止標(biāo)志的檢測(cè)中,紅色區(qū)域只占了交通標(biāo)志較小的一部分,是一個(gè)較窄的圓環(huán),如果交通標(biāo)志在圖像中所占的區(qū)域十分小的情況下,例如14*15個(gè)像素,在增強(qiáng)過(guò)后的紅色通道中,其紅色的邊緣像素點(diǎn)往往呈現(xiàn)為鏈?zhǔn)降倪B接,而不是聚集的點(diǎn),如果過(guò)大邊長(zhǎng)的中值濾波掩膜算子,很可能就會(huì)將這些點(diǎn)也同時(shí)濾除了,造成了性能的下降。所以這里取中值濾波的掩膜邊長(zhǎng)為3。
3 圖形識(shí)別算法
因?yàn)閰^(qū)域的輪廓信息往往即可以表達(dá)一個(gè)區(qū)域的覆蓋,所以在霍夫變換之前,需要對(duì)中值濾波之后的圖像做一次邊緣檢測(cè),使用邊緣點(diǎn)來(lái)判斷圖像中存在的形狀。再一次減少圖中的有效像素個(gè)數(shù),而同時(shí)又不失含有重要信息的有效像素點(diǎn),因?yàn)檫吘墮z測(cè)仍然保留了區(qū)域的形狀信息。
3.1霍夫變換檢圓
利用霍夫變換在數(shù)字圖像的圖形提取中,其實(shí)是一個(gè)離散化的搜索([a0,b0,r0])的過(guò)程,令r按一定的步長(zhǎng)增加,在a-b平面對(duì)應(yīng)的每個(gè)像素點(diǎn)設(shè)立計(jì)數(shù)器,在圖像區(qū)域內(nèi)搜索有效像素點(diǎn)的圓心(在一定半徑下,像素點(diǎn)在參數(shù)空間水平面上的聚集點(diǎn))。因?yàn)槲覀兿M谲?chē)輛行駛的過(guò)程中,一旦攝像頭捕捉到可以分辨的交通標(biāo)志時(shí),就識(shí)別出其位置信息,盡早地給予交通駕駛員提醒,所以在本例中,在1380*800的分辨率下,半徑的搜索起點(diǎn)以10個(gè)像素起;如果交通標(biāo)志的徑長(zhǎng)達(dá)到較大長(zhǎng)度時(shí),系統(tǒng)才能檢測(cè)出交通標(biāo)志的位置,對(duì)于以較快速度通過(guò)的車(chē)輛中的人員來(lái)說(shuō),沒(méi)有很大的提醒意義了,所以r的搜索上限在本例中設(shè)為100個(gè)像素長(zhǎng)。在一定半徑的情況下,我們搜索圓心,采用極坐標(biāo)更為方便。半徑的搜索步長(zhǎng)為1,在已知半徑下,圓心的偏轉(zhuǎn)角度的步長(zhǎng)為[π18]。
每按半徑r搜索完一次,就需要統(tǒng)計(jì)一次a-b平面上的計(jì)數(shù)器,當(dāng)某一些點(diǎn)上的計(jì)數(shù)大于某一閾值時(shí),則可以認(rèn)為是一個(gè)半徑為r的圓形的圓心。經(jīng)過(guò)大量的實(shí)驗(yàn),發(fā)現(xiàn)在濾波過(guò)后剩下的n個(gè)像素點(diǎn)時(shí),計(jì)數(shù)器的閾值設(shè)為[countthresh=lnn*2],擁有最佳的檢測(cè)性能。當(dāng)然,由于步長(zhǎng)較小,實(shí)際圖像中的一個(gè)圓形可能會(huì)對(duì)應(yīng)到a-b-r參數(shù)空間上不同但是十分相近的點(diǎn)上,所以計(jì)算統(tǒng)計(jì)出的點(diǎn)之間的歐式距離,如果小于30,就把它們歸為同一個(gè)圓形的實(shí)例,也避免了檢測(cè)的重合。
3.2 性能優(yōu)化
Hough變換應(yīng)用廣泛,但其效率不高是需要注意的,特別是在這樣一個(gè)實(shí)時(shí)性較高的系統(tǒng)中。這樣對(duì)于一個(gè)有效的像素點(diǎn),需要搜索的次數(shù)為91*36,則全局搜索的次數(shù),設(shè)有n個(gè)需要驗(yàn)證的像素點(diǎn),則約需要3200*n次。在本次試驗(yàn)中,n一般的數(shù)量級(jí)在[103],則大約做了[106]數(shù)量級(jí)次的搜索。在計(jì)算a,b時(shí),計(jì)算三角函數(shù)的非線性運(yùn)算是十分耗時(shí)的,但我們注意到這些角度,因?yàn)椴介L(zhǎng)恒定,都是固定的值,所以可以列出一個(gè)三角函數(shù)表,在實(shí)際運(yùn)行時(shí),程序計(jì)算三角函數(shù),只需查表即可,縮減了時(shí)間復(fù)雜度。而一幅圖像的所有像素點(diǎn)也是[106],所以說(shuō)相當(dāng)于對(duì)圖像全局做了幾次線性的運(yùn)算,其計(jì)算復(fù)雜度是可以承受的。
但通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),上述的算法需耗時(shí)500ms左右,處理速度仍跟不上實(shí)時(shí)處理的要求,需要進(jìn)一步的減少搜索空間。我們發(fā)現(xiàn)圓心一定是落于邊緣點(diǎn)的法線方向上的,這樣利用邊緣點(diǎn)的梯度信息,就可以控制參數(shù)空間的擴(kuò)張方向。在一個(gè)二維空間中標(biāo)記出法線上的點(diǎn),同樣采取統(tǒng)計(jì)方法選取出法線的交叉點(diǎn)作為圓心的候選,在其周邊的圖像空間中統(tǒng)計(jì)半徑為10-100像素的直方圖,即可以得出該圓心的半徑,從而檢測(cè)出一個(gè)圓形。通過(guò)如此算法的改進(jìn),使得搜索空間大大降低,減小了存儲(chǔ)空間,也使得在時(shí)間復(fù)雜度上滿(mǎn)足實(shí)時(shí)處理的要求,在VS2010的release編譯環(huán)境下,平均一幀圖像可以達(dá)到80ms的處理時(shí)間。(CPU:AMD A4-3400, 2.7GHz)
4 機(jī)器學(xué)習(xí)
通過(guò)之前的顏色和形狀的啟發(fā)式信息,可以提取出圖像中感興趣的區(qū)域。但是這些區(qū)域不一定就是交通標(biāo)志所在的區(qū)域,比如說(shuō)車(chē)的尾燈或者一些其他的干擾物體也會(huì)有同樣的顏色、形狀特性。這里,我們希望的是可以通過(guò)一個(gè)分類(lèi)器,先判斷這個(gè)提取的區(qū)域是不是交通標(biāo)志,如果是肯定的,可以做進(jìn)一步分類(lèi),為今后的識(shí)別提供準(zhǔn)確的數(shù)據(jù)源;如果不是,則可以降低誤檢率。
4.1 HOG特征
在提取了我們關(guān)心的區(qū)域后,對(duì)于圖像的顏色和圖形信息不再感興趣,這就需要對(duì)于局部圖像提取可以描述其特征的算子(向量)。我們更關(guān)心的是圖像的紋理特征,結(jié)構(gòu)特征,通過(guò)這些特征向量可以區(qū)分內(nèi)容不同的圖像也可以識(shí)別出內(nèi)容相似的圖像。
HOG特征就是這樣一個(gè)針對(duì)圖像內(nèi)容的描述算子,它的提取需要把訓(xùn)練圖像和測(cè)試圖像統(tǒng)一到一個(gè)尺度下,這里都將它們重新調(diào)整到32*32個(gè)像素大?。╬itch)的灰度圖像。以8*8個(gè)像素作為一個(gè)單元(cell),計(jì)算每個(gè)單元中的梯度方向直方圖,一般設(shè)為9個(gè)方向,凡是4個(gè)單元組成一個(gè)正方形16*16的塊(block)。這樣,一幅樣本圖像可以容納9個(gè)塊,每個(gè)塊中有4個(gè)單元,每個(gè)單元有9維特征,串聯(lián)在一起可以提取出一個(gè)324維的特征向量。
4.3 數(shù)據(jù)組織和參數(shù)尋優(yōu)
在使用SVM時(shí),需要對(duì)數(shù)據(jù)歸一化處理,才能將數(shù)據(jù)統(tǒng)一到一定的范圍內(nèi)分類(lèi)。值得注意的是,不同于一般的應(yīng)用在每一維度上歸一化,這里將每一個(gè)向量歸一化處理。因?yàn)槠渌囊话銘?yīng)用中,每一個(gè)維度代表著物體的某一屬性,是相互獨(dú)立的;而本例中,我們關(guān)心的是圖像的結(jié)構(gòu),HOG特征正是描述這樣結(jié)構(gòu)的算子,對(duì)每一個(gè)HOG向量而不是維度做歸一化處理,就不會(huì)破壞原有的結(jié)構(gòu)描述。
在程序上,SVM算法分為離線訓(xùn)練和在線識(shí)別2個(gè)部分。為了可以最大程度的規(guī)避誤檢,離線訓(xùn)練數(shù)據(jù)配比需要做到合理。因?yàn)樵趯?shí)際應(yīng)用中,非交通標(biāo)志的局部圖像千差萬(wàn)別,所以在訓(xùn)練時(shí),數(shù)據(jù)庫(kù)中有1213幅交通標(biāo)志樣本作為true數(shù)據(jù)(標(biāo)簽為1),而需要盡可能多的false數(shù)據(jù)(標(biāo)簽為-1),實(shí)際上,false的數(shù)據(jù)量越大,系統(tǒng)的性能就越優(yōu)秀,誤檢率越低,此次試驗(yàn)的true,false數(shù)據(jù)比為1:100。
當(dāng)然,之前介紹的SVM支持向量[xi]是在高維空間中的,提取出的HOG特征需要經(jīng)歷向高維轉(zhuǎn)換并且內(nèi)積計(jì)算的過(guò)程,尤其是從低維到高維空間的轉(zhuǎn)換,是原始空間1-324階的所有組合,這一計(jì)算量是巨大的。支持向量機(jī)算法中核函數(shù)的作用就是計(jì)算兩個(gè)向量在隱式映射過(guò)后的空間中的內(nèi)積,先通過(guò)內(nèi)積,再進(jìn)行核函數(shù)變換,不僅節(jié)省了相當(dāng)?shù)挠?jì)算量,也能達(dá)到相同的效果。
通常情況下,比較方便也運(yùn)用最為廣泛的是徑向基核函數(shù):[kx1,x2= e-x1-x222σ2]。這里將[12σ2]看做參數(shù)g,此外還有一個(gè)懲罰因子參數(shù)c,為了有更精確的分類(lèi)準(zhǔn)確度,需要設(shè)置合理的g和c的值。另外采用交叉認(rèn)證的方法,可以進(jìn)一步地提高分類(lèi)的精確度,即將訓(xùn)練數(shù)據(jù)分成k份,k-1份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練,而剩下的一份用來(lái)檢驗(yàn)精確度。所以利用網(wǎng)格化搜索,同時(shí)結(jié)合交叉認(rèn)證的方法, 能得到使分類(lèi)系統(tǒng)效果最好的參數(shù)值。在每一個(gè)g和c的取值下,計(jì)算和評(píng)價(jià)交叉認(rèn)證中的精確度,選取平均準(zhǔn)確度高,且方差小的一組參數(shù)。如圖6,顯示了參數(shù)關(guān)于分類(lèi)的平均準(zhǔn)確率的等高線和增長(zhǎng)趨勢(shì)。
4.4 綜合測(cè)試
參考文獻(xiàn):
[1] Stallkamp J,Schlipsing M,almen J S.The German Traffic Sign Recognition Benchmark:A multi-class classification competition[C].Proceedings of the IEEE International Joint Conference on Neural Networks,2011:1453-1460.
[2] Fatin Zaklouta,Bogdan Stanciulescu.Real-time traffic sign recognition in three stages[J].Robotics and Autonomous Systems,2014(62):16-24.
[3] Yuan Xie.Unifying Visual Saliency with HOG Feature Learning for Traffic Sign Detection[R].Fujian:XiaMen University,2008.
[4] Nello Christianini,John Shawe-Taylor.An Introduction to Support Vector Machine and Other Kernel-based Learning Methods[M].London:Cambridge University Press,2000.
[5] Karla Brki'c.An overview of traffic sign detection methods.Zagreb, Croatia: Department of Electronics, Microelectronics, Computer and Intelligent Systems.
[6] Hasan Fleyeh.Road and Traffic Sign Color Detection and Segmentation[C]. IAPR Conference on Machine VIsion Applications,2005.
[7] Gary Overett and Lars Petersson.Large Scale Sign Detection using HOG Feature Variants[R].Baden-Baden, Germany,2011.
[8] 王剛毅. 交通標(biāo)志檢測(cè)與分類(lèi)算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013:1-109.
[9] Laurent Itti,Christof Koch.A saliency-based search mechanism for overt and covert shifts of visual attention.Vision Research,2000(40):1489—1506.
[10] Tao Zhang,Jingqin Lv,Jie Yang.Road Sign Detection Based on Visual Saliency and Shape Analysis.Institute of Image Processing and Pattern Recognition,Shanghai Jiaotong University.
[11] L.-W.Tsai.Road sign detection using eigen colour[J].IET Computer Vision,2008,2(3):164-177.
[12] Yuen H K,Princen J,Illingworth J.A Comparative Study of Hough Transform Methods for Circle Finding.Department of Electronics and Electrical Engineering, University of Surrey, Guildford, U.K.