姚漢利,趙金金,鮑文霞
(安徽大學(xué) 電子信息工程學(xué)院,安徽 合肥 230601)
交通標(biāo)志識(shí)別系統(tǒng)主要包括交通標(biāo)志的檢測(cè)、跟蹤定位以及識(shí)別[1]。文中主要研究的是交通標(biāo)志識(shí)別,它的功能是將檢測(cè)到的交通標(biāo)志準(zhǔn)確地識(shí)別為具體的類別。在自然場(chǎng)景中,快速而準(zhǔn)確地識(shí)別出交通標(biāo)志是重要且艱巨的??偨Y(jié)國(guó)內(nèi)外學(xué)者的多年研究,主要從三個(gè)方面來(lái)提高識(shí)別率和系統(tǒng)的實(shí)時(shí)性:
(1)底層特征與分類器相結(jié)合。由于底層特征與分類器相結(jié)合有利于控制交通標(biāo)志識(shí)別的準(zhǔn)確率與實(shí)時(shí)性,因此受到眾多學(xué)者的關(guān)注。INI-RTCV組織[2]將HOG特征與線性判別分析(linear discrimination analysis,LDA)相結(jié)合,取得了95.68%的分類準(zhǔn)確率。Tang S S等[3]提取交通標(biāo)志圖像的HOG、Gabor、LBP特征并進(jìn)行融合,再使用線性SVM進(jìn)行分類識(shí)別。底層特征與分類器的結(jié)合方式還有很多,在一定場(chǎng)合下,分類性很好,但都有自身的缺陷。
(2)底層特征再表達(dá)。根據(jù)稀疏編碼理論,圖像底層特征經(jīng)過(guò)稀疏編碼會(huì)有效地保留底層特征的主要信息,因此,在模式識(shí)別領(lǐng)域中得到了廣泛的應(yīng)用,其中包括交通標(biāo)志識(shí)別。Liu等[1]對(duì)局部約束線性編碼(locality-constrained linear coding,LLC)進(jìn)行了改進(jìn),提出稀疏編碼組的學(xué)習(xí)方法。該方法主要使用K-means生成的初始碼本中的原子對(duì)交通標(biāo)志的sift特征進(jìn)行稀疏編碼,該編碼特征既保留了局部性,也促進(jìn)了相似的描述子共享相似的稀疏編碼模式。Fan等[4]對(duì)交通標(biāo)志類別間的固有區(qū)分信息進(jìn)行有效的分層稀疏編碼,取得了較好的分類識(shí)別率。Liu等[5]對(duì)多類別交通標(biāo)志進(jìn)行擴(kuò)展稀疏表示,對(duì)存在遮擋的標(biāo)志有較好的識(shí)別效果。
(3)基于機(jī)器學(xué)習(xí)的識(shí)別。深度學(xué)習(xí)在模式識(shí)別的各領(lǐng)域均取得了不錯(cuò)效果,其中一些學(xué)者也將其應(yīng)用到交通標(biāo)志識(shí)別中。例如,IDSIA[6]采用多層卷積神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志圖像進(jìn)行學(xué)習(xí),在GTSRB數(shù)據(jù)集上取得了99.46%的準(zhǔn)確率。Sermanet等[7]使用多尺度卷積神經(jīng)網(wǎng)絡(luò)獲得較優(yōu)的識(shí)別效果。Zeng等[8]利用深度卷積網(wǎng)絡(luò)提取交通標(biāo)志圖像的特征,再結(jié)合極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)分類器,也取得了不錯(cuò)的識(shí)別效果。
基于機(jī)器學(xué)習(xí)的識(shí)別效果雖很高,但需要大量的訓(xùn)練樣本,調(diào)參繁瑣且速度慢等。文中提出的方法主要包括兩部分:提取交通標(biāo)志的HOG與GIST特征,并使用廣義典型相關(guān)分析算法(GCCA)求取融合特征[9];使用K-SVD字典學(xué)習(xí)算法對(duì)融合特征進(jìn)行稀疏表示。最后通過(guò)實(shí)驗(yàn)驗(yàn)證其有效性。
HOG特征[10]是通過(guò)統(tǒng)計(jì)圖像局部區(qū)域的梯度信息來(lái)表征該局部區(qū)域的細(xì)節(jié)信息。HOG特征提取的步驟是:
(1)將交通標(biāo)志圖像等分成連續(xù)而不重疊的m個(gè)細(xì)胞單元,且每個(gè)細(xì)胞單元被均勻劃分為n個(gè)梯度方向區(qū)間;
(2)計(jì)算每個(gè)細(xì)胞單元內(nèi)所有像素的梯度方向,并進(jìn)行統(tǒng)計(jì),且每個(gè)方向區(qū)間的值是通過(guò)梯度幅值加權(quán)求和得到的,因此,每個(gè)細(xì)胞單元的特征可以有一個(gè)n維向量表示;
(3)將2×2個(gè)相鄰細(xì)胞單元的特征向量聯(lián)結(jié)得到塊區(qū)域特征向量,并進(jìn)行歸一化處理;
(4)以局部塊為單位,細(xì)胞單元為步長(zhǎng)對(duì)整個(gè)標(biāo)志圖像掃描計(jì)算塊的歸一化方向梯度直方圖,級(jí)聯(lián)所有塊的特征向量得到整幅圖像的HOG特征向量。
由于交通標(biāo)志與行人存在一定的屬性差異,原有的HOG特征不能很好地對(duì)交通標(biāo)志進(jìn)行表示。通過(guò)多次對(duì)比實(shí)驗(yàn)選取各參數(shù)對(duì)其進(jìn)行改進(jìn),改進(jìn)的HOG描述子的主要參數(shù)設(shè)置為:細(xì)胞單元的大小為5×5,塊的大小為10×10;每個(gè)細(xì)胞單元被劃分為16個(gè)有方向的梯度方向區(qū)間;梯度算子為Sobel算子;塊的歸一化方式為L(zhǎng)2-Hys。因此交通標(biāo)志的HOG特征維數(shù)為7 744。
GIST描述子通常用于場(chǎng)景分類[11]。該描述子是通過(guò)多尺度多方向的Gabor濾波器組對(duì)圖像濾波獲取結(jié)構(gòu)信息。
1.2.1 Gabor濾波器組
1985年,Daugman將1維Gabor函數(shù)擴(kuò)展為2維,定義如式(1)所示:
cos(2πf0x+φ)
(1)
其中,x和y是像素坐標(biāo);σx和σy分別是x和y方向Gaussian因子的方差;f0為濾波器中心頻率;φ為該諧波因子的相位差。
多尺度多方向Gabor濾波器組是在二維Gabor函數(shù)g(x,y)基礎(chǔ)上通過(guò)尺度和旋轉(zhuǎn)變換擴(kuò)展而成的,是一種自相似Gabor小波,即
(2)
其中,a-m為母小波膨脹的尺度因子;θ為旋轉(zhuǎn)角度;m、n分別為Gabor濾波器組的尺度數(shù)與方向數(shù),通過(guò)改變m、n的值可以得到不同的Gabor濾波器組。
1.2.2 GIST特征提取
將一幅大小為r×c的灰度圖像f(x,y)劃分成ng=np×np的規(guī)則網(wǎng)格。各網(wǎng)格塊按行依次記作Pi,i=1,2,…,ng。網(wǎng)格塊大小為r'×c',其中r'=r/np,c'=c/np。
用nc個(gè)通道的濾波器對(duì)每個(gè)網(wǎng)格塊進(jìn)行濾波,并將各通道的濾波結(jié)果級(jí)聯(lián)得到塊的GIST特征,即
(3)
(4)
文中將GIST描述子應(yīng)用到交通標(biāo)志識(shí)別中,并將以交通標(biāo)志為中心的區(qū)域分成為10×10網(wǎng)格,Gabor濾波器組的方向和尺度數(shù)分別為4和8。因此,最終GIST特征的維數(shù)是3 200(10×10×4×8)。
文中將廣義典型相關(guān)分析(GCCA)[12]應(yīng)用到交通標(biāo)志識(shí)別中,并實(shí)現(xiàn)HOG特征與GIST特征的融合。GCCA是在典型相關(guān)分析(CCA)判據(jù)準(zhǔn)則函數(shù)的基礎(chǔ)上加入訓(xùn)練樣本的類別信息,使類內(nèi)更加緊聚。
1.3.1 廣義典型相關(guān)分析
假設(shè)A和B是樣本空間Ω上的兩組特征集。任意的模式樣本ξ∈Ω,對(duì)應(yīng)的兩個(gè)特征矢量分別為x∈A,y∈B。令Cwx,Cwy分別為訓(xùn)練樣本空間A和B的類內(nèi)散布矩陣,如下所示:
(5)
(6)
令Lxy是A和B間的協(xié)方差矩陣且r=rank(Lxy),定義如下:
(7)
假定Cwx和Cwy是正定矩陣,則GCCA的判據(jù)準(zhǔn)則函數(shù)如式(8)所示:
(8)
通過(guò)最大化準(zhǔn)則函數(shù)Jg(α,β)可以求得一對(duì)投影矢量(α,β),通過(guò)該投影獲得的特征向量,可以使得相關(guān)性最大化,即類內(nèi)散布矩陣最小化。
1.3.2 融合分析
設(shè)X與Y為兩組不同的特征集,x∈X?Rp,y∈Y?Rq分別為X和Y的兩個(gè)特征向量。根據(jù)求解得到的最佳投影向量Wx=(α1,α2,…,αd)和Wy=(β1,β2,…,βd),可以得到一對(duì)廣義正則判別特征(generalized canonical projective vectors,GCPV):
(9)
(10)
對(duì)于特征融合,有以下兩種融合方案:
(11)
(12)
式(11)和式(12)在文獻(xiàn)[13]中被稱為特征融合策略1(feature fusion strategy1,FFS1)和特征融合策略2(FFS2)。文中使用融合策略1對(duì)交通標(biāo)志的HOG和GIST特征進(jìn)行融合,融合后的特征維數(shù)是3 200。
交通標(biāo)志有多個(gè)大類別,大類別中存在著多個(gè)結(jié)構(gòu)相似的子類別。為了減少相似類別交通標(biāo)志間的干擾,實(shí)現(xiàn)更精確識(shí)別,文中對(duì)融合特征進(jìn)行了進(jìn)一步地優(yōu)化,即K-SVD字典學(xué)習(xí)稀疏編碼。
正交匹配追蹤(orthogonal matching pursuit,OMP)算法是在MP算法[14]的基礎(chǔ)上進(jìn)行改進(jìn),即每次分解產(chǎn)生的殘差與之前所選取的基準(zhǔn)特征都是正交的。具體的定義如式(13)所示:
(13)
其中,y表示原特征向量;a表示過(guò)完備字典中的原子;xk表示稀疏系數(shù);Rky表示第k-1項(xiàng)正交匹配后的殘差。
具體的算法分析如下:
(1)目標(biāo)模型定義如式(14):
(14)
(2)輸入?yún)?shù):原始向量y,過(guò)完備字典D,稀疏度控制參數(shù)k,殘差r,且初始時(shí)r0=y。
(3)輸出結(jié)果:y由字典D中原子近似k稀疏表示。
K-SVD字典學(xué)習(xí)算法是用過(guò)完備字典中的多個(gè)原子進(jìn)行線性組合近似表示原特征y,且該算法是稀疏編碼與字典更新交替進(jìn)行。算法分析如下:
(1)輸入?yún)?shù):原特征Y,初始完備字典A,稀疏度控制參數(shù)T0,迭代次數(shù)J。
(2)輸出結(jié)果:最佳的過(guò)完備字典A和稀疏系數(shù)矩陣X。
(3)程序步驟:
初始J=1。
反復(fù)迭代直至收斂:
①稀疏編碼。
使用OMP算法求解目標(biāo)函數(shù)的定義如式(15)所示,得到稀疏系數(shù)X=[x1,x2,…,xN];
s.t. ‖xi‖0≤T0
(15)
②更新字典。
通過(guò)以下步驟對(duì)每列字典原子ak,k=1,2,…,K進(jìn)行更新:
計(jì)算求取整體殘差矩陣Ek(前K-1項(xiàng)):
(16)
SetJ=J+1。
文中利用K-SVD字典學(xué)習(xí)算法對(duì)融合特征再次進(jìn)行稀疏編碼。在訓(xùn)練階段,各參數(shù)的設(shè)置為:利用K-means對(duì)訓(xùn)練樣本聚類生成大小為3 200的字典,并對(duì)每列進(jìn)行歸一化處理;設(shè)置迭代次數(shù)J為20;稀疏度控制參數(shù)k為10。
實(shí)驗(yàn)是基于GTSRB數(shù)據(jù)集,共有43類,包含有51 839張交通標(biāo)志圖片,每張圖片中僅包含一個(gè)交通標(biāo)志并有10%左右的邊緣(最少5個(gè)像素)環(huán)繞。圖片尺寸在15×15到250×250之間,且該數(shù)據(jù)集是在各種情況下拍攝的,基本包括了由于外界環(huán)境影響而出現(xiàn)的形狀、外觀、亮度以及分辨率等不同的情況。
根據(jù)交通標(biāo)志類型的定義規(guī)則,將整個(gè)數(shù)據(jù)集分成六大類:限速類、車輛限制類、方向指示類、解除限制類、警告指示類以及其他類型標(biāo)志,如表1所示。
大多數(shù)交通標(biāo)志識(shí)別算法是以總分類準(zhǔn)確率為評(píng)估指標(biāo),卻忽略了各類的分類均衡問(wèn)題,即可能存在較好與較差的情況。文中選取平均分類準(zhǔn)確率(mTPR),定義如式(17)所示。該指標(biāo)能較全面地評(píng)估算法的效果。
表1 六大類及其對(duì)應(yīng)的標(biāo)志
(17)
其中,Pl為類別l中正確分類的測(cè)試樣本數(shù)量;Nl為其測(cè)試樣本的總數(shù)量;L為數(shù)據(jù)集中的類別總數(shù)。
實(shí)驗(yàn)中使用Liblinear[15]工具箱中的線性SVM進(jìn)行訓(xùn)練分類。各特征的分類比較如圖1所示。
圖1 各特征的分類比較
從圖1可以得出,融合特征的稀疏編碼的分類效果比其他特征要好;隨著各類訓(xùn)練樣本數(shù)量的增加,分類準(zhǔn)確率有所上升;當(dāng)訓(xùn)練樣本數(shù)大于210時(shí),分類準(zhǔn)確率增加緩慢,甚至不再增加。因此后續(xù)的實(shí)驗(yàn)中,各類的訓(xùn)練樣本數(shù)為210。
表2是融合特征對(duì)應(yīng)的六大類各分類準(zhǔn)確率。
表2 六大類融合特征對(duì)應(yīng)的分類準(zhǔn)確率
從中可以看出,融合特征對(duì)方向指示類、車輛限制類、解除限制類、警告指示類以及其他類的交通標(biāo)志有很好的表示能力,但對(duì)限速類的表達(dá)存在一定缺陷,這是由于限速類交通標(biāo)志內(nèi)部結(jié)構(gòu)相似度較高所致。
從圖2和圖3可以看出,限速類標(biāo)志的融合稀疏表示在總體上更優(yōu)于其融合特征的表示,然而也存在個(gè)別類別的融合稀疏表示比融合特征的效果差的情況,如類7。各算法的比較如表3所示。
圖2 限速類的融合特征的混淆矩陣
圖3 限速類的融合-稀疏特征的混淆矩陣
方法分類準(zhǔn)確率CommitteeofCNNs0.9946文中方法0.9923Multi-scaleCNNs0.9831Randomforests0.9614LDAonHOG0.9568
從表3可以看出,方法1的分類準(zhǔn)確率最高,但該方法的訓(xùn)練樣本數(shù)較多,調(diào)參復(fù)雜,計(jì)算成本高。而文中方法訓(xùn)練樣本較少,調(diào)參簡(jiǎn)單,更能滿足實(shí)時(shí)性。
介紹了交通標(biāo)志識(shí)別的研究難點(diǎn)與常見的研究方法,并提出了融合-稀疏的交通標(biāo)志識(shí)別方法。經(jīng)過(guò)多組對(duì)比實(shí)驗(yàn)表明,提出方法有效,且融合特征經(jīng)過(guò)稀疏編碼后,特征冗余信息減少,類內(nèi)更緊湊,分類效果優(yōu)于融合特征的分類效果,特別是限速類的交通標(biāo)志。
[1] LIU H,LIU Y,SUN F.Traffic sign recognition using group sparse coding[J].Information Sciences,2014,266:75-89.
[2] STALLKAMP J,SCHLIPSING M,SALMEN J,et al.2012 Special issue:man vs.computer:benchmarking machine learning algorithms for traffic sign recognition[J].Neural Networks,2012,32:323-332.
[3] TANG S,HUANG L L.Traffic sign recognition using complementary features[C]//Proceedings of the 2013 2nd IAPR Asian conference on pattern recognition.Washington,DC,USA:IEEE,2013:210-214.
[4] FAN Y,SUN H,ZHOU S,et al.Hierarchical sparse representation for traffic sign recognition[C]//Chinese intelligent automation conference.[s.l.]:[s.n.],2013:653-660.
[5] LIU C,CHANG F,CHEN Z,et al.Fast traffic sign recognition via high-contrast region extraction and extended sparse representation[J].IEEE Transactions on Intelligent Transportation Systems,2016,17(1):79-92.
[6] AN D,MEIER U,MASCI J,et al.Multi-column deep neural network for traffic sign classification[J].Neural Networks,2012,32:333-338.
[7] SERMANET P, LECUN Y. Traffic sign recognition with multi-scale convolutional networks[C]//International joint conference on neural networks.[s.l.]:IEEE,2011:2809-2813.
[8] ZENG Y,XU X,FANG Y,et al.Traffic sign recognition using deep convolutional networks and extreme learning machine[M]//Intelligence science and big data engineering:image and video data engineering.[s.l.]:Springer International Publishing,2015.
[9] PONG K H,LAM K M.Gabor-feature hallucination based on generalized canonical correlation analysis for face recognition[C]//International symposium on intelligent signal processing and communications systems.[s.l.]:IEEE,2011:1-6.
[10] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE computer society conference on computer vision & pattern recognition.[s.l.]:IEEE,2005:886-893.
[11] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.
[12] SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern Recognition,2005,38(12):2437-2448.
[13] SUN Q S,HENG P A,JIN Z,et al.Face recognition based on generalized canonical correlation analysis[C]//International conference on advances in intelligent computing.[s.l.]:[s.n.],2005:958-967.
[14] MALLAT S G,ZHANG Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.
[15] FAN R E,CHANG K W,HSIEH C J,et al.LIBLINEAR:a library for large linear classification[J].Journal of Machine Learning Research,2008,9(9):1871-1874.