亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于特征融合和字典學(xué)習(xí)的交通標(biāo)志識(shí)別

2018-01-23 07:13:12姚漢利趙金金鮑文霞

計(jì)算機(jī)技術(shù)與發(fā)展 2018年1期

姚漢利，趙金金，鮑文霞

(安徽大學(xué) 電子信息工程學(xué)院，安徽合肥 230601)

0 引言

交通標(biāo)志識(shí)別系統(tǒng)主要包括交通標(biāo)志的檢測(cè)、跟蹤定位以及識(shí)別[1]。文中主要研究的是交通標(biāo)志識(shí)別，它的功能是將檢測(cè)到的交通標(biāo)志準(zhǔn)確地識(shí)別為具體的類別。在自然場(chǎng)景中，快速而準(zhǔn)確地識(shí)別出交通標(biāo)志是重要且艱巨的?？偨Y(jié)國(guó)內(nèi)外學(xué)者的多年研究，主要從三個(gè)方面來(lái)提高識(shí)別率和系統(tǒng)的實(shí)時(shí)性：

(1)底層特征與分類器相結(jié)合。由于底層特征與分類器相結(jié)合有利于控制交通標(biāo)志識(shí)別的準(zhǔn)確率與實(shí)時(shí)性，因此受到眾多學(xué)者的關(guān)注。INI-RTCV組織[2]將HOG特征與線性判別分析(linear discrimination analysis,LDA)相結(jié)合，取得了95.68%的分類準(zhǔn)確率。Tang S S等[3]提取交通標(biāo)志圖像的HOG、Gabor、LBP特征并進(jìn)行融合，再使用線性SVM進(jìn)行分類識(shí)別。底層特征與分類器的結(jié)合方式還有很多，在一定場(chǎng)合下，分類性很好，但都有自身的缺陷。

(2)底層特征再表達(dá)。根據(jù)稀疏編碼理論，圖像底層特征經(jīng)過(guò)稀疏編碼會(huì)有效地保留底層特征的主要信息，因此，在模式識(shí)別領(lǐng)域中得到了廣泛的應(yīng)用，其中包括交通標(biāo)志識(shí)別。Liu等[1]對(duì)局部約束線性編碼(locality-constrained linear coding，LLC)進(jìn)行了改進(jìn)，提出稀疏編碼組的學(xué)習(xí)方法。該方法主要使用K-means生成的初始碼本中的原子對(duì)交通標(biāo)志的sift特征進(jìn)行稀疏編碼，該編碼特征既保留了局部性，也促進(jìn)了相似的描述子共享相似的稀疏編碼模式。Fan等[4]對(duì)交通標(biāo)志類別間的固有區(qū)分信息進(jìn)行有效的分層稀疏編碼，取得了較好的分類識(shí)別率。Liu等[5]對(duì)多類別交通標(biāo)志進(jìn)行擴(kuò)展稀疏表示，對(duì)存在遮擋的標(biāo)志有較好的識(shí)別效果。

(3)基于機(jī)器學(xué)習(xí)的識(shí)別。深度學(xué)習(xí)在模式識(shí)別的各領(lǐng)域均取得了不錯(cuò)效果，其中一些學(xué)者也將其應(yīng)用到交通標(biāo)志識(shí)別中。例如，IDSIA[6]采用多層卷積神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志圖像進(jìn)行學(xué)習(xí)，在GTSRB數(shù)據(jù)集上取得了99.46%的準(zhǔn)確率。Sermanet等[7]使用多尺度卷積神經(jīng)網(wǎng)絡(luò)獲得較優(yōu)的識(shí)別效果。Zeng等[8]利用深度卷積網(wǎng)絡(luò)提取交通標(biāo)志圖像的特征，再結(jié)合極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)分類器，也取得了不錯(cuò)的識(shí)別效果。

基于機(jī)器學(xué)習(xí)的識(shí)別效果雖很高，但需要大量的訓(xùn)練樣本，調(diào)參繁瑣且速度慢等。文中提出的方法主要包括兩部分：提取交通標(biāo)志的HOG與GIST特征，并使用廣義典型相關(guān)分析算法(GCCA)求取融合特征[9]；使用K-SVD字典學(xué)習(xí)算法對(duì)融合特征進(jìn)行稀疏表示。最后通過(guò)實(shí)驗(yàn)驗(yàn)證其有效性。

1 基于廣義典型相關(guān)分析的特征融合

1.1 HOG特征

HOG特征[10]是通過(guò)統(tǒng)計(jì)圖像局部區(qū)域的梯度信息來(lái)表征該局部區(qū)域的細(xì)節(jié)信息。HOG特征提取的步驟是：

(1)將交通標(biāo)志圖像等分成連續(xù)而不重疊的m個(gè)細(xì)胞單元，且每個(gè)細(xì)胞單元被均勻劃分為n個(gè)梯度方向區(qū)間；

(2)計(jì)算每個(gè)細(xì)胞單元內(nèi)所有像素的梯度方向，并進(jìn)行統(tǒng)計(jì)，且每個(gè)方向區(qū)間的值是通過(guò)梯度幅值加權(quán)求和得到的，因此，每個(gè)細(xì)胞單元的特征可以有一個(gè)n維向量表示；

(3)將2×2個(gè)相鄰細(xì)胞單元的特征向量聯(lián)結(jié)得到塊區(qū)域特征向量，并進(jìn)行歸一化處理；

(4)以局部塊為單位，細(xì)胞單元為步長(zhǎng)對(duì)整個(gè)標(biāo)志圖像掃描計(jì)算塊的歸一化方向梯度直方圖，級(jí)聯(lián)所有塊的特征向量得到整幅圖像的HOG特征向量。

由于交通標(biāo)志與行人存在一定的屬性差異，原有的HOG特征不能很好地對(duì)交通標(biāo)志進(jìn)行表示。通過(guò)多次對(duì)比實(shí)驗(yàn)選取各參數(shù)對(duì)其進(jìn)行改進(jìn)，改進(jìn)的HOG描述子的主要參數(shù)設(shè)置為：細(xì)胞單元的大小為5×5，塊的大小為10×10；每個(gè)細(xì)胞單元被劃分為16個(gè)有方向的梯度方向區(qū)間；梯度算子為Sobel算子；塊的歸一化方式為L(zhǎng)2-Hys。因此交通標(biāo)志的HOG特征維數(shù)為7 744。

1.2 GIST特征

GIST描述子通常用于場(chǎng)景分類[11]。該描述子是通過(guò)多尺度多方向的Gabor濾波器組對(duì)圖像濾波獲取結(jié)構(gòu)信息。

1.2.1 Gabor濾波器組

1985年，Daugman將1維Gabor函數(shù)擴(kuò)展為2維，定義如式(1)所示：

cos(2πf0x+φ)

(1)

其中，x和y是像素坐標(biāo)；σx和σy分別是x和y方向Gaussian因子的方差；f0為濾波器中心頻率；φ為該諧波因子的相位差。

多尺度多方向Gabor濾波器組是在二維Gabor函數(shù)g(x,y)基礎(chǔ)上通過(guò)尺度和旋轉(zhuǎn)變換擴(kuò)展而成的，是一種自相似Gabor小波，即

(2)

其中，a-m為母小波膨脹的尺度因子；θ為旋轉(zhuǎn)角度；m、n分別為Gabor濾波器組的尺度數(shù)與方向數(shù)，通過(guò)改變m、n的值可以得到不同的Gabor濾波器組。

1.2.2 GIST特征提取

將一幅大小為r×c的灰度圖像f(x,y)劃分成ng=np×np的規(guī)則網(wǎng)格。各網(wǎng)格塊按行依次記作Pi，i=1,2,…,ng。網(wǎng)格塊大小為r'×c'，其中r'=r/np，c'=c/np。

用nc個(gè)通道的濾波器對(duì)每個(gè)網(wǎng)格塊進(jìn)行濾波，并將各通道的濾波結(jié)果級(jí)聯(lián)得到塊的GIST特征，即

(3)

(4)

文中將GIST描述子應(yīng)用到交通標(biāo)志識(shí)別中，并將以交通標(biāo)志為中心的區(qū)域分成為10×10網(wǎng)格，Gabor濾波器組的方向和尺度數(shù)分別為4和8。因此，最終GIST特征的維數(shù)是3 200(10×10×4×8)。

1.3 特征融合

文中將廣義典型相關(guān)分析(GCCA)[12]應(yīng)用到交通標(biāo)志識(shí)別中，并實(shí)現(xiàn)HOG特征與GIST特征的融合。GCCA是在典型相關(guān)分析(CCA)判據(jù)準(zhǔn)則函數(shù)的基礎(chǔ)上加入訓(xùn)練樣本的類別信息，使類內(nèi)更加緊聚。

1.3.1 廣義典型相關(guān)分析

假設(shè)A和B是樣本空間Ω上的兩組特征集。任意的模式樣本ξ∈Ω，對(duì)應(yīng)的兩個(gè)特征矢量分別為x∈A，y∈B。令Cwx，Cwy分別為訓(xùn)練樣本空間A和B的類內(nèi)散布矩陣，如下所示：

(5)

(6)

令Lxy是A和B間的協(xié)方差矩陣且r=rank(Lxy)，定義如下：

(7)

假定Cwx和Cwy是正定矩陣，則GCCA的判據(jù)準(zhǔn)則函數(shù)如式(8)所示：

(8)

通過(guò)最大化準(zhǔn)則函數(shù)Jg(α,β)可以求得一對(duì)投影矢量(α,β)，通過(guò)該投影獲得的特征向量，可以使得相關(guān)性最大化，即類內(nèi)散布矩陣最小化。

1.3.2 融合分析

設(shè)X與Y為兩組不同的特征集，x∈X?Rp，y∈Y?Rq分別為X和Y的兩個(gè)特征向量。根據(jù)求解得到的最佳投影向量Wx=(α1,α2,…,αd)和Wy=(β1,β2,…,βd)，可以得到一對(duì)廣義正則判別特征(generalized canonical projective vectors,GCPV):

(9)

(10)

對(duì)于特征融合，有以下兩種融合方案：

(11)

(12)

式(11)和式(12)在文獻(xiàn)[13]中被稱為特征融合策略1(feature fusion strategy1,FFS1)和特征融合策略2(FFS2)。文中使用融合策略1對(duì)交通標(biāo)志的HOG和GIST特征進(jìn)行融合，融合后的特征維數(shù)是3 200。

2 特征的字典學(xué)習(xí)稀疏表示

交通標(biāo)志有多個(gè)大類別，大類別中存在著多個(gè)結(jié)構(gòu)相似的子類別。為了減少相似類別交通標(biāo)志間的干擾，實(shí)現(xiàn)更精確識(shí)別，文中對(duì)融合特征進(jìn)行了進(jìn)一步地優(yōu)化，即K-SVD字典學(xué)習(xí)稀疏編碼。

2.1 正交匹配追蹤算法

正交匹配追蹤(orthogonal matching pursuit，OMP)算法是在MP算法[14]的基礎(chǔ)上進(jìn)行改進(jìn)，即每次分解產(chǎn)生的殘差與之前所選取的基準(zhǔn)特征都是正交的。具體的定義如式(13)所示：

(13)

其中，y表示原特征向量；a表示過(guò)完備字典中的原子；xk表示稀疏系數(shù)；Rky表示第k-1項(xiàng)正交匹配后的殘差。

具體的算法分析如下：

(1)目標(biāo)模型定義如式(14)：

(14)

(2)輸入?yún)?shù)：原始向量y，過(guò)完備字典D，稀疏度控制參數(shù)k，殘差r，且初始時(shí)r0=y。

(3)輸出結(jié)果：y由字典D中原子近似k稀疏表示。

2.2 K-SVD字典學(xué)習(xí)

K-SVD字典學(xué)習(xí)算法是用過(guò)完備字典中的多個(gè)原子進(jìn)行線性組合近似表示原特征y，且該算法是稀疏編碼與字典更新交替進(jìn)行。算法分析如下：

(1)輸入?yún)?shù)：原特征Y，初始完備字典A，稀疏度控制參數(shù)T0，迭代次數(shù)J。

(2)輸出結(jié)果：最佳的過(guò)完備字典A和稀疏系數(shù)矩陣X。

(3)程序步驟：

初始J=1。

反復(fù)迭代直至收斂：

①稀疏編碼。

使用OMP算法求解目標(biāo)函數(shù)的定義如式(15)所示，得到稀疏系數(shù)X=[x1,x2,…,xN]；

s.t. ‖xi‖0≤T0

(15)

②更新字典。

通過(guò)以下步驟對(duì)每列字典原子ak,k=1,2,…,K進(jìn)行更新：

計(jì)算求取整體殘差矩陣Ek(前K-1項(xiàng))：

(16)

SetJ=J+1。

文中利用K-SVD字典學(xué)習(xí)算法對(duì)融合特征再次進(jìn)行稀疏編碼。在訓(xùn)練階段，各參數(shù)的設(shè)置為：利用K-means對(duì)訓(xùn)練樣本聚類生成大小為3 200的字典，并對(duì)每列進(jìn)行歸一化處理；設(shè)置迭代次數(shù)J為20；稀疏度控制參數(shù)k為10。

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

實(shí)驗(yàn)是基于GTSRB數(shù)據(jù)集，共有43類，包含有51 839張交通標(biāo)志圖片，每張圖片中僅包含一個(gè)交通標(biāo)志并有10%左右的邊緣(最少5個(gè)像素)環(huán)繞。圖片尺寸在15×15到250×250之間，且該數(shù)據(jù)集是在各種情況下拍攝的，基本包括了由于外界環(huán)境影響而出現(xiàn)的形狀、外觀、亮度以及分辨率等不同的情況。

根據(jù)交通標(biāo)志類型的定義規(guī)則，將整個(gè)數(shù)據(jù)集分成六大類：限速類、車輛限制類、方向指示類、解除限制類、警告指示類以及其他類型標(biāo)志，如表1所示。

3.2 評(píng)估指標(biāo)

大多數(shù)交通標(biāo)志識(shí)別算法是以總分類準(zhǔn)確率為評(píng)估指標(biāo)，卻忽略了各類的分類均衡問(wèn)題，即可能存在較好與較差的情況。文中選取平均分類準(zhǔn)確率(mTPR)，定義如式(17)所示。該指標(biāo)能較全面地評(píng)估算法的效果。

表1 六大類及其對(duì)應(yīng)的標(biāo)志

(17)

其中，Pl為類別l中正確分類的測(cè)試樣本數(shù)量；Nl為其測(cè)試樣本的總數(shù)量；L為數(shù)據(jù)集中的類別總數(shù)。

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)中使用Liblinear[15]工具箱中的線性SVM進(jìn)行訓(xùn)練分類。各特征的分類比較如圖1所示。

圖1 各特征的分類比較

從圖1可以得出，融合特征的稀疏編碼的分類效果比其他特征要好；隨著各類訓(xùn)練樣本數(shù)量的增加，分類準(zhǔn)確率有所上升；當(dāng)訓(xùn)練樣本數(shù)大于210時(shí)，分類準(zhǔn)確率增加緩慢，甚至不再增加。因此后續(xù)的實(shí)驗(yàn)中，各類的訓(xùn)練樣本數(shù)為210。

表2是融合特征對(duì)應(yīng)的六大類各分類準(zhǔn)確率。

表2 六大類融合特征對(duì)應(yīng)的分類準(zhǔn)確率

從中可以看出，融合特征對(duì)方向指示類、車輛限制類、解除限制類、警告指示類以及其他類的交通標(biāo)志有很好的表示能力，但對(duì)限速類的表達(dá)存在一定缺陷，這是由于限速類交通標(biāo)志內(nèi)部結(jié)構(gòu)相似度較高所致。

從圖2和圖3可以看出，限速類標(biāo)志的融合稀疏表示在總體上更優(yōu)于其融合特征的表示，然而也存在個(gè)別類別的融合稀疏表示比融合特征的效果差的情況，如類7。各算法的比較如表3所示。

圖2 限速類的融合特征的混淆矩陣

圖3 限速類的融合-稀疏特征的混淆矩陣

方法分類準(zhǔn)確率CommitteeofCNNs0.9946文中方法0.9923Multi-scaleCNNs0.9831Randomforests0.9614LDAonHOG0.9568

從表3可以看出，方法1的分類準(zhǔn)確率最高，但該方法的訓(xùn)練樣本數(shù)較多，調(diào)參復(fù)雜，計(jì)算成本高。而文中方法訓(xùn)練樣本較少，調(diào)參簡(jiǎn)單，更能滿足實(shí)時(shí)性。

4 結(jié)束語(yǔ)

介紹了交通標(biāo)志識(shí)別的研究難點(diǎn)與常見的研究方法，并提出了融合-稀疏的交通標(biāo)志識(shí)別方法。經(jīng)過(guò)多組對(duì)比實(shí)驗(yàn)表明，提出方法有效，且融合特征經(jīng)過(guò)稀疏編碼后，特征冗余信息減少，類內(nèi)更緊湊，分類效果優(yōu)于融合特征的分類效果，特別是限速類的交通標(biāo)志。

[1] LIU H,LIU Y,SUN F.Traffic sign recognition using group sparse coding[J].Information Sciences,2014,266:75-89.

[2] STALLKAMP J,SCHLIPSING M,SALMEN J,et al.2012 Special issue:man vs.computer:benchmarking machine learning algorithms for traffic sign recognition[J].Neural Networks,2012,32:323-332.

[3] TANG S,HUANG L L.Traffic sign recognition using complementary features[C]//Proceedings of the 2013 2nd IAPR Asian conference on pattern recognition.Washington,DC,USA：IEEE,2013:210-214.

[4] FAN Y,SUN H,ZHOU S,et al.Hierarchical sparse representation for traffic sign recognition[C]//Chinese intelligent automation conference.[s.l.]:[s.n.],2013:653-660.

[5] LIU C,CHANG F,CHEN Z,et al.Fast traffic sign recognition via high-contrast region extraction and extended sparse representation[J].IEEE Transactions on Intelligent Transportation Systems,2016,17(1):79-92.

[6] AN D,MEIER U,MASCI J,et al.Multi-column deep neural network for traffic sign classification[J].Neural Networks,2012,32:333-338.

[7] SERMANET P, LECUN Y. Traffic sign recognition with multi-scale convolutional networks[C]//International joint conference on neural networks.[s.l.]:IEEE,2011:2809-2813.

[8] ZENG Y,XU X,FANG Y,et al.Traffic sign recognition using deep convolutional networks and extreme learning machine[M]//Intelligence science and big data engineering:image and video data engineering.[s.l.]:Springer International Publishing,2015.

[9] PONG K H,LAM K M.Gabor-feature hallucination based on generalized canonical correlation analysis for face recognition[C]//International symposium on intelligent signal processing and communications systems.[s.l.]:IEEE,2011:1-6.

[10] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//IEEE computer society conference on computer vision & pattern recognition.[s.l.]:IEEE,2005:886-893.

[11] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.

[12] SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern Recognition,2005,38(12):2437-2448.

[13] SUN Q S,HENG P A,JIN Z,et al.Face recognition based on generalized canonical correlation analysis[C]//International conference on advances in intelligent computing.[s.l.]:[s.n.],2005:958-967.

[14] MALLAT S G,ZHANG Z.Matching pursuits with time-frequency dictionaries[J].IEEE Transactions on Signal Processing,1993,41(12):3397-3415.

[15] FAN R E,CHANG K W,HSIEH C J,et al.LIBLINEAR:a library for large linear classification[J].Journal of Machine Learning Research,2008,9(9):1871-1874.