馬永杰,程時(shí)升,馬蕓婷,陳 敏
(西北師范大學(xué) 物理與電子工程學(xué)院,甘肅 蘭州 730070)
在智能交通系統(tǒng)(Intelligent traffic system,ITS)中,交通標(biāo)志識(shí)別是其重要研究?jī)?nèi)容。由于交通標(biāo)志識(shí)別是基于路面實(shí)況的復(fù)雜自然場(chǎng)景中的識(shí)別,很容易受到復(fù)雜光照、運(yùn)動(dòng)模糊、旋轉(zhuǎn)傾斜、人為破壞、復(fù)雜環(huán)境背景干擾等條件的影響。
為了解決這些問(wèn)題,大量的算法被提出。交通標(biāo)志的識(shí)別主要由特征提取和分類器設(shè)計(jì)兩部分組成,傳統(tǒng)的特征提取算法主要依賴人工提取特征,如HOG特征(Histogram of Orientated Gradient)[1]、Haar特征[2]、SIFT特征(Scale-invariant feature transform)[3]、LBP特征(Local Binary Pattern)[4]等。上述算法運(yùn)用人工設(shè)計(jì)的特征提取算法,提取的特征都很有限,無(wú)法得到圖像深層次的特征,在分類識(shí)別上有一定的局限性。
近年來(lái)隨著硬件設(shè)備的發(fā)展,深度學(xué)習(xí)算法在計(jì)算機(jī)視覺領(lǐng)域得到很大的發(fā)展,很多分類方法不再使用人工特征提取算法,而是將彩色圖像或者灰度圖像直接輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)當(dāng)中,通過(guò)CNN自主學(xué)習(xí)圖像特征,調(diào)整參數(shù)。劉占文[5]等提出了一種基于圖模型與卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別,在對(duì)限速標(biāo)志的識(shí)別分類中有很好的表現(xiàn),取得了較好的識(shí)別效果。Zeng 等[6]使用深度神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)對(duì)交通標(biāo)志進(jìn)行識(shí)別,用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,采用極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)對(duì)學(xué)習(xí)到的特征進(jìn)行分類識(shí)別,識(shí)別準(zhǔn)確率有所提高,但由于僅利用了最后一層特征圖,沒(méi)有考慮到不同尺寸卷積核提取到的不同特征信息對(duì)分類的影響,對(duì)特征的表達(dá)能力不足。
傳統(tǒng)CNN特征提取方法需要輸入固定大小的圖片,但實(shí)際上識(shí)別目標(biāo)的尺寸是不相同的,且單一尺寸的卷積核容易丟失一些重要信息。在深度學(xué)習(xí)中, 多尺度信息的輸入可以防止設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)解, 促進(jìn)網(wǎng)絡(luò)參數(shù)的更新,大量CNN研究工作及其應(yīng)用都是基于多尺度方向展開的[7-10]。
Liu等[11]提出了一種抽樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)和卷積神經(jīng)網(wǎng)絡(luò)的X射線圖像多尺度融合框架,通過(guò)執(zhí)行NSCT對(duì)輸入圖像進(jìn)行預(yù)處理,提取豐富的特征集合,獲得圖像多尺度、多方向的表示。該方法與相應(yīng)的空間域方法相比具有明顯優(yōu)勢(shì),在該領(lǐng)域的未來(lái)研究中具有很大的潛力。Xiang[12]等設(shè)計(jì)了一個(gè)非對(duì)稱多尺度卷積神經(jīng)網(wǎng)絡(luò)用于人蛋白圖譜(Human Protein Atlas,HPA)分類,通過(guò)輸入不同尺度的圖像,設(shè)計(jì)了3組卷積層個(gè)數(shù)相同但卷積核大小不同的非對(duì)稱卷積神經(jīng)網(wǎng)絡(luò),該方法可以自動(dòng)提取圖像深度特征,實(shí)現(xiàn)多標(biāo)簽HPA識(shí)別。實(shí)驗(yàn)表明,相比于單一尺度,采用多尺度特征提取方法分類效果得到明顯改善。Sérgio[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)特征提取器的手部姿態(tài)識(shí)別方法,并使用二進(jìn)制、灰度和深度數(shù)據(jù)以及兩種不同的驗(yàn)證技術(shù)進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)表明基于特征融合的卷積神經(jīng)網(wǎng)絡(luò)在驗(yàn)證技術(shù)和圖像表示的組合中表現(xiàn)得更好。
在交通標(biāo)志的識(shí)別中,車輛行駛中所采集到的交通標(biāo)志圖像,由于相對(duì)位置的不斷變化,圖像尺寸也在不斷地改變。因而本文提出了一種多尺度特征融合的CNN結(jié)構(gòu), 通過(guò)將不同尺度的圖像輸入到適合圖像尺寸的訓(xùn)練網(wǎng)絡(luò),提取不同尺度的特征并將其進(jìn)行融合為一個(gè)新的網(wǎng)絡(luò),最后將融合網(wǎng)絡(luò)的全連接層進(jìn)行訓(xùn)練,得到具有更強(qiáng)表達(dá)能力的特征向量,再將得到的特征向量送入ELM分類器實(shí)現(xiàn)交通標(biāo)志識(shí)別。
交通標(biāo)志圖像是自然場(chǎng)景中的圖像,容易受到光照、形變、拍攝角度以及人為涂抹破壞的影響,對(duì)交通標(biāo)志識(shí)別研究具有一定的挑戰(zhàn)。CNN對(duì)于輸入圖像的平移、縮放、傾斜等形變具有較好的魯棒性,但是CNN模型最終的識(shí)別效果會(huì)因?yàn)檩斎雸D像尺寸的改變而發(fā)生變化[14]。圖像金字塔是把圖像表示為一系列圖像集合,并且分辨率是逐漸降低的,可用于對(duì)數(shù)據(jù)集的擴(kuò)增,實(shí)際也是一種多尺度的一種體現(xiàn)[15]。受圖像金字塔的啟發(fā),采用不同尺寸交通標(biāo)志圖像作為輸入,可以使模型具有更強(qiáng)的魯棒性。在深度學(xué)習(xí)中,多尺度的信息輸入再融合,可以防止算法求解過(guò)程中陷入局部最優(yōu)解,有利于網(wǎng)絡(luò)參數(shù)的更新,并且可以獲得圖像更多的信息,增強(qiáng)模型的魯棒性[16]。融合模型的網(wǎng)絡(luò)參數(shù)較為龐大,ELM算法在訓(xùn)練時(shí)需要調(diào)整的參數(shù)小,訓(xùn)練時(shí)間會(huì)減少[17]。
因此,本文提出多尺度特征融合與ELM結(jié)合的交通標(biāo)志識(shí)別算法,首先將交通標(biāo)志圖像進(jìn)行預(yù)處理,增強(qiáng)圖像的局部特征,然后將圖像分為3個(gè)尺寸輸入到對(duì)應(yīng)的網(wǎng)絡(luò)之中,并在3個(gè)網(wǎng)絡(luò)中分別進(jìn)行適合圖像尺寸的卷積和下采樣操作,將3個(gè)網(wǎng)絡(luò)上得到的特征在全連接層進(jìn)行融合,最后將融合網(wǎng)絡(luò)得到的特征向量送入ELM分類器進(jìn)行識(shí)別。為適應(yīng)不用尺寸圖像的特征,所設(shè)計(jì)網(wǎng)絡(luò)的卷積核大小不同,網(wǎng)絡(luò)深度也不同,大尺寸的卷積核通過(guò)卷積操作可以得到更加邊緣和全局的特征,而小尺寸的卷積核可以得到紋理更加突出的局部特征。
多尺度卷積神經(jīng)網(wǎng)絡(luò)的算法步驟包括:
(1)對(duì)交通標(biāo)志圖像進(jìn)行預(yù)處理,增強(qiáng)圖像的局部特征,然后歸一化為3個(gè)尺寸圖像輸入網(wǎng)絡(luò),預(yù)訓(xùn)練網(wǎng)絡(luò)模型。
(2)根據(jù)輸入圖像尺寸大小的不同設(shè)計(jì)適合交通標(biāo)志識(shí)別的卷積核尺寸和網(wǎng)絡(luò)深度。
(3)在預(yù)訓(xùn)練網(wǎng)絡(luò)模型的第一個(gè)全連接層,將3個(gè)網(wǎng)絡(luò)生成的特征圖利用串行融合的方法進(jìn)行融合,再將融合后的網(wǎng)絡(luò)進(jìn)行微調(diào),訓(xùn)練融合網(wǎng)絡(luò)的全連接層。
(4)將融合網(wǎng)絡(luò)得到的特征向量輸入ELM分類器進(jìn)行交通標(biāo)志識(shí)別,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 多尺度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 Structure of multi-scale convolution neural networks
實(shí)驗(yàn)數(shù)據(jù)集采用的是2011年在神經(jīng)網(wǎng)絡(luò)國(guó)際聯(lián)合會(huì)議上,波鴻大學(xué)公布的由INI-RTCV組織建立的德國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)(GTSRB)。該數(shù)據(jù)庫(kù)是車載高清攝像頭在駕駛場(chǎng)景的視頻中截取出來(lái)的,包含43類交通標(biāo)志,如圖2所示。其中訓(xùn)練集有39 029幅,測(cè)試集有12 630幅,總計(jì)為51 839幅圖像。圖片質(zhì)量參差不齊,受到自然場(chǎng)景光照、圖片采集角度變化、人為涂抹污染等諸多條件的影響,可以檢驗(yàn)算法的實(shí)時(shí)性與魯棒性。數(shù)據(jù)預(yù)處理包含數(shù)據(jù)增強(qiáng)和圖像尺寸歸一化兩部分內(nèi)容。
圖2 GTSRB數(shù)據(jù)庫(kù)的43類交通標(biāo)志Fig.2 43 classes traffic signs in GTSRB dataset
2.2.1 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)的目的是凸出圖像的細(xì)節(jié)部分,提高圖像的清晰度,直接對(duì)彩色圖像進(jìn)行數(shù)據(jù)增強(qiáng)可以保持圖像更多的梯度特征,使網(wǎng)絡(luò)提取到的特征更加全面。直方圖變換增強(qiáng)可以避免使用灰度化之后的圖像丟失圖像顏色特征,因此本文選擇使用直方圖均衡化進(jìn)行圖像增強(qiáng),如圖3所示。
圖3 原始圖像與直方圖均衡化對(duì)比Fig.3 Original image and histogram equalization
2.2.2 圖像尺寸歸一化
GTSRB數(shù)據(jù)庫(kù)中圖片從自然場(chǎng)景中采集,由于拍攝角度的變化,使交通標(biāo)志圖像尺寸大小參差不齊,而卷積神經(jīng)網(wǎng)絡(luò)在輸入圖片時(shí)需要將圖像尺寸歸一化,不同尺寸的圖像對(duì)于網(wǎng)絡(luò)的分類能力會(huì)有影響,考慮運(yùn)算量并盡量保留更多的特征,本文選擇雙線性插值法對(duì)圖像進(jìn)行歸一化處理。把圖像歸一化為32×32,64×64,128×128三組不同尺寸的圖像作為數(shù)據(jù)集輸入相應(yīng)的預(yù)訓(xùn)練網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)主要由可見層和隱藏層組成??梢妼又傅氖禽斎?、輸出層,隱藏層包括卷積層、下采樣層和全連接層。本文算法進(jìn)行多尺度融合卷積,所以應(yīng)該著重考慮輸入層尺寸的選擇和卷積層設(shè)計(jì),為適應(yīng)不同尺寸圖片的特征提取,選擇不同大小的卷積核。
(1)在模型設(shè)計(jì)中,首先把圖像預(yù)處理成大小不同的3種尺寸,即32×32,64×64,128×128,以不同的尺寸分別輸入到3個(gè)預(yù)訓(xùn)練CNN之中,并且根據(jù)尺寸大小的不同設(shè)計(jì)相應(yīng)的卷積層和網(wǎng)絡(luò)深度。32×32的圖像用3個(gè)卷積層進(jìn)行特征提取,第一層卷積層采用5×5的卷積核,后兩層采用3×3的卷積核。64×64的圖像用4個(gè)卷積層進(jìn)行提取特征,前2層卷積層采用5×5的卷積核,后2層采用3×3的卷積核。128×128的圖像用5個(gè)卷積層提取特征,第一層卷積層采用7×7的卷積核,中間兩層采用5×5的卷積核,最后兩層采用3×3的卷積核。卷積層上的每個(gè)特征圖都代表提取到的一組特征,并且每個(gè)特征圖的每個(gè)神經(jīng)元都與上一層的局部感受野相連接,實(shí)現(xiàn)權(quán)值共享。卷積層的計(jì)算公式為:
(1)
式中,Mj指的是所有圖像特征的集合,kij是卷積核,bj是每個(gè)圖像特征的偏移量。不同深度的網(wǎng)絡(luò)對(duì)特征提取的能力不同,并且不同尺寸的卷積核所提取到的圖像信息也不同,具體網(wǎng)絡(luò)參數(shù)如表1所示。
(2)在卷積層得到特征響應(yīng)圖之后用ReLU激活函數(shù)進(jìn)行非線性表達(dá)映射到下一層。ReLU是一種從底部進(jìn)行半修正的函數(shù),其數(shù)學(xué)公式是:
(2)
當(dāng)輸入x≤0時(shí),輸出為0值,當(dāng)x>0 時(shí),輸出為輸入值x。該函數(shù)為非飽和函數(shù),解決了梯度消失問(wèn)題。
(3)由于下采樣層具有降低特征維度的作用,但是又不改變特征圖的數(shù)目,并且下采樣層一定程度增強(qiáng)了對(duì)圖像位移、縮放和扭曲等形變的魯棒性,所以在經(jīng)過(guò)非線性映射之后將特征圖輸入下采樣層。下采樣操作的方式有最大池化法和平均池化法兩種,如圖4所示。本文選擇最大池化法進(jìn)行下采樣操作。最大池化法是提取圖像區(qū)域中最大值作為該區(qū)域池化后的值,并且在進(jìn)行池化之后,網(wǎng)絡(luò)的輸出深度不變。下采樣的公式為:
表1 多尺度卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)設(shè)置Tab.1 Parameter setting of multi-scale convolution neural network model
(3)
式中,d表示一個(gè)下采樣函數(shù),βj為權(quán)重系數(shù),bj為偏置系數(shù)。
(4)在3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的第一個(gè)全連接層之后添加一個(gè)dropout層,隨機(jī)刪除網(wǎng)絡(luò)一部分神經(jīng)元,可以降低網(wǎng)絡(luò)的參數(shù),并預(yù)防和降低網(wǎng)絡(luò)的過(guò)擬合。
圖4 最大池化和平均池化Fig.4 Max pooling and average pooling
多尺度融合卷積神經(jīng)網(wǎng)絡(luò)的具體參數(shù)如表1所示,其中Conv表示該層只有一個(gè)卷積層,Conv/pooling表示該卷積層之后還包含一個(gè)池化層,每個(gè)卷積層之后都有一個(gè)ReLU激活函數(shù)層,多尺度特征級(jí)聯(lián)方式用公式(4)實(shí)現(xiàn):
(4)
式中:Fi為不同的預(yù)訓(xùn)練網(wǎng)絡(luò)的全連接層的特征,n為用于特征級(jí)聯(lián)的預(yù)訓(xùn)練CNN的個(gè)數(shù)。特征融合在3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的第一個(gè)全連接層進(jìn)行,融合的方法為特征層疊加,每?jī)蓚€(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的全連接層之間用一個(gè)Concat層進(jìn)行特征拼接,本文選擇在通道上進(jìn)行拼接,拼接實(shí)現(xiàn)方式如下:
(5)
對(duì)于兩路輸入來(lái)說(shuō),如果通道數(shù)相同且后面帶卷積,則式中Xi和Yi分別代表兩個(gè)不同網(wǎng)絡(luò)的其中任意的一個(gè)通道,K代表卷積核,Zconcat代表單個(gè)輸出通道的拼接。
(6)
式中N為特征圖的數(shù)量,F(xiàn)1、F2、F3分別表示本文3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的全連接層,C1、C2、C3分別代表3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)中的某一個(gè)通路,F(xiàn)MCNN代表在通道上進(jìn)行拼接得到的全連接層的特征圖,H和W分別代表特征圖的高和寬。
將拼接后的特征輸入到融合網(wǎng)絡(luò)的全連接層,并微調(diào)融合網(wǎng)絡(luò)的全連接層,最后將融合的特征送入ELM分類器進(jìn)行分類。多尺度特征融合網(wǎng)絡(luò)有很多優(yōu)點(diǎn),不同尺寸圖像設(shè)計(jì)適合的卷積核和網(wǎng)絡(luò)深度,大尺寸的卷積核提取圖像的粗粒度特征,可以保留交通標(biāo)志的輪廓特征;小尺度卷積核有助于細(xì)粒度特征的提取,局部紋理特征在特征圖中也可以很好地展現(xiàn)。不同尺寸圖像特征圖的組合輸入,粗粒度與細(xì)粒度的結(jié)合,提高了網(wǎng)絡(luò)的識(shí)別精度和表達(dá)能力。
通常卷積神經(jīng)網(wǎng)絡(luò)使用Softmax分類器對(duì)圖像進(jìn)行分類,在易混淆的圖像中表現(xiàn)不佳。多尺度特征融合網(wǎng)絡(luò)參數(shù)較大,特征向量維度高于單一尺度特征??紤]到模型的高效性,需要選擇一種計(jì)算量小、訓(xùn)練時(shí)間短、滿足模型高效性的分類器。ELM是一種新型的快速學(xué)習(xí)算法,對(duì)于單隱層神經(jīng)網(wǎng)絡(luò),ELM可以隨機(jī)初始化輸入權(quán)重和偏置并得到相應(yīng)的輸出權(quán)重,不需要重復(fù)調(diào)整權(quán)值和閾值,降低了計(jì)算復(fù)雜度,訓(xùn)練時(shí)間更快,保證了模型的高效性,其結(jié)構(gòu)如圖5所示。
圖5 ELM分類器結(jié)構(gòu)Fig.5 ELM classifier structure
由圖5可以看出,ELM由輸入層、隱含層、輸出層3層組成,其中輸入x為多尺度特征融合網(wǎng)絡(luò)得到的特征向量,d為輸入的維度(x∈Rd,x=(x1,...,xd)T),特征向量x在隱層被映射為向量 (G(a1,b1,x),…,G(aL,bL,x))T。其中G(ai,bi,x)是第i個(gè)加性隱節(jié)點(diǎn)的輸出, 其計(jì)算公式如下:
G(ai,bi,x)=g(ai·x+bi),
ai∈Rd,bi∈R,
(7)
式中:g為激活函數(shù),ai表示第i個(gè)隱形節(jié)點(diǎn)與所有輸入節(jié)點(diǎn)之間的權(quán)重,bi表示偏置,i=1,2,…L。輸入的交通標(biāo)志特征向量在隱層經(jīng)過(guò)線性變換后,輸出一個(gè)m維的向量f(x),其公式如下,m相當(dāng)于交通標(biāo)志識(shí)別的43個(gè)類別。
(8)
ELM的訓(xùn)練集合為{(xj,tj)|xj∈Rd,tj∈Rm,j=1,…,N},式中xj為融合網(wǎng)絡(luò)輸出的多尺度交通標(biāo)志特征向量,tj為xj的標(biāo)簽,在對(duì)ELM分類器進(jìn)行訓(xùn)練時(shí),每個(gè)交通標(biāo)志的特征向量xj傳入ELM分類器中,tj為期待輸出結(jié)果,并且每個(gè)標(biāo)簽向量tj都有一個(gè)特征向量xj對(duì)應(yīng)。對(duì)于回歸分類算法,標(biāo)簽tj直接代表了模型對(duì)于輸入向量xj的響應(yīng),隨機(jī)初始化輸入權(quán)重和偏置(ai,bi,i=1,…,L),并得到相應(yīng)的輸出權(quán)重, 隱含層和輸出層之間的連接權(quán)值(βi,…,βL)不需要迭代調(diào)整,而是通過(guò)解方程組一次性確定,公式如下:
Hβ=T,
(9)
其中H和β分別為:
(10)
式中:H是隱層節(jié)點(diǎn)的輸出,β為輸出權(quán)重,T為期望輸出。
β*的最小二乘解可以利用MP廣義逆解析得到,并且具有最小范數(shù):
β*=H?T,
(11)
其中,H?是矩陣H的Moore-Penrose廣義逆。最終可以得到ELM的輸出方程:
f(x)=β*Th(x),
(12)
綜上所述,ELM的訓(xùn)練與測(cè)試過(guò)程如圖6所示。
圖6 ELM的訓(xùn)練與測(cè)試過(guò)程Fig.6 ELM training and testing process
(1)將不同尺寸圖像輸入網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,畫出各個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練曲線,確保該預(yù)訓(xùn)練網(wǎng)絡(luò)的合理性,并可用于模型融合。
(2)多尺度特征級(jí)聯(lián)。將預(yù)訓(xùn)練好的3個(gè)網(wǎng)絡(luò)的全連接層進(jìn)行特征級(jí)聯(lián),并進(jìn)行比選實(shí)驗(yàn),設(shè)計(jì)不同的特征級(jí)聯(lián)方式,選擇出分類性能最好的一組。
(3)將得到的特征向量分別輸入到支持向量機(jī),Softmax分類器中進(jìn)行分類識(shí)別,并與本文使用的ELM分類器進(jìn)行對(duì)比。
(4)針對(duì)GTSRB數(shù)據(jù)集,采用不同的算法和本文算法進(jìn)行分類,比較總體分類精度和分類時(shí)間,評(píng)估算法性能的優(yōu)劣。
實(shí)驗(yàn)所用的計(jì)算機(jī)配置是I5-7500處理器, 3.4 GHz主頻, 16 GB內(nèi)存,Nvidia GeForceGT730顯卡,Ubuntu 16.04版本的Linux 操作系統(tǒng),深度學(xué)習(xí)框架為Caffe[18],軟件編程環(huán)境為Python 2.7。
在實(shí)驗(yàn)設(shè)施配置差別不大、識(shí)別速度相近的情況下,識(shí)別準(zhǔn)確率KAcc作為評(píng)價(jià)算法性能的主要指標(biāo):
(13)
式中:ni代表識(shí)別正確的樣本,N代表測(cè)試的樣本總量。
3.3.1 網(wǎng)絡(luò)模型的預(yù)訓(xùn)練
用德國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)(GTSRB)對(duì)3個(gè)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,3個(gè)網(wǎng)絡(luò)均使用隨機(jī)梯度下降算法進(jìn)行參數(shù)更新,訓(xùn)練網(wǎng)絡(luò)模型的參數(shù)配置相同,基礎(chǔ)學(xué)習(xí)率為0.01,防止過(guò)擬合的權(quán)重衰減項(xiàng)為0.000 5,學(xué)習(xí)率變化因子為0.1,最大迭代次數(shù)為10 000,學(xué)習(xí)率調(diào)整策略為step,調(diào)整策略參數(shù)step_size設(shè)置為3 000,進(jìn)行3次學(xué)習(xí)率的調(diào)整,通過(guò)訓(xùn)練損失值和測(cè)試損失值來(lái)判斷預(yù)訓(xùn)練的網(wǎng)絡(luò)是否存在過(guò)擬合現(xiàn)象,以保證融合模型的精度。圖7顯示了4個(gè)模型的分類精度、訓(xùn)練損失值和測(cè)試損失值變化曲線,其中圖7(a)為輸入圖片尺寸為32×32的網(wǎng)絡(luò)性能曲線,圖7(b)為輸入圖片尺寸為64×64的網(wǎng)絡(luò)性能曲線,圖7(c)為輸入圖片尺寸為128×128的網(wǎng)絡(luò)性能曲線,7(d)為融合模型的網(wǎng)絡(luò)性能曲線。
由圖7可以看出,預(yù)訓(xùn)練模型隨著迭代次數(shù)的不斷增加,分類精度都是先快速增長(zhǎng),再逐漸趨于平穩(wěn),表明預(yù)訓(xùn)練的模型有較好的泛化能力,可用于模型的融合。損失值也是在前幾次迭代過(guò)程中快速降低之后再趨于平穩(wěn),最終基本保持不變,表明模型的學(xué)習(xí)能力逐漸下降,分類精度提升趨于平穩(wěn)。融合后的模型,測(cè)試損失值的下降速度雖然不如預(yù)訓(xùn)練模型,但是分類精度更高,達(dá)到99.32%后逐漸趨于平穩(wěn)。
(a)Size_32
(b) Size_64
(c)Size_128
(d) Multi-scale圖7 損失值和分類精度Fig.7 Cross entropy loss and classification accuracy
3.3.2 特征級(jí)聯(lián)
由上文所述的級(jí)聯(lián)公式(4),將網(wǎng)絡(luò)進(jìn)行級(jí)聯(lián),根據(jù)級(jí)聯(lián)CNN的數(shù)量分為二網(wǎng)絡(luò)級(jí)聯(lián)和三網(wǎng)絡(luò)級(jí)聯(lián),再將級(jí)聯(lián)網(wǎng)絡(luò)的全連接層進(jìn)行二次訓(xùn)練。表2為不同級(jí)聯(lián)方法分類結(jié)果。
從表中可以看出,在單獨(dú)的網(wǎng)絡(luò)中輸入尺寸為32×32的圖像時(shí)識(shí)別精度較高,這是因?yàn)樵摻煌?biāo)志數(shù)據(jù)集的圖像分辨率在15×15到222×193像素。統(tǒng)計(jì)結(jié)果顯示,像素值大小的中位數(shù)為41×40,所以網(wǎng)絡(luò)在該尺寸的識(shí)別率較高。融合的網(wǎng)絡(luò)相對(duì)于單一網(wǎng)絡(luò)分類的準(zhǔn)確率都有所提高,表明不同網(wǎng)絡(luò)之間的相互組合可以提高識(shí)別精度。
表2 不同級(jí)聯(lián)方法分類結(jié)果Tab.2 Classification results of different cascading method
3.3.3 與其他分類器的對(duì)比
為了驗(yàn)證本文所示用的分類器的優(yōu)勢(shì),設(shè)計(jì)了對(duì)比實(shí)驗(yàn),將融合后得到的特征向量,分別輸入到SVM分類器和Softmax分類器中,與本文ELM分類器從分類精度和分類時(shí)間兩個(gè)方面進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同分類器性能比較Tab.3 Performance comparison of different classifiers
從表3可以看出,ELM分類器的分類精度相較于SVM和Softmax分類器有所提高。這是由于ELM模型具有較低的復(fù)雜度,在相同時(shí)間內(nèi)可處理更多的數(shù)據(jù),增強(qiáng)了模型的泛化能力。此外,由于ELM分類器輸入層和隱含層之間的參數(shù)采用隨機(jī)初始化,且之后無(wú)需再進(jìn)行調(diào)整,因此,ELM分類器學(xué)習(xí)速度更快,使得ELM分類器具有更快的分類速度。
3.3.4 與其他分類算法的對(duì)比
由表4可知,本文模型相對(duì)于ANN和Random forests兩種算法的識(shí)別精度都有一定提高,并且分類時(shí)間都大幅度下降。相對(duì)于文獻(xiàn)[19]和文獻(xiàn)[20],分類精度提升不多,但是在分類時(shí)間上仍然具有一定優(yōu)勢(shì)。
表4 不同方法在GTSRB數(shù)據(jù)集識(shí)別結(jié)果對(duì)比
Tab.4 Comparison of different methods in GTSRB dataset recognition results
AlgorithmClassificationtime/msAccuracyrate /%ANN17889.63Random forests21196.14Algorithm of Ref.[19]9398.82Algorithm of Ref.[20]8498.13本文算法4699.23
文獻(xiàn)[19]為驗(yàn)證算法的魯棒性和在復(fù)雜環(huán)境下的分類性能,在原測(cè)試集中選取了光照不足、受到遮擋和圖像模糊的圖像各30幅組成新的測(cè)試集,并且在單層特征和多層特征下對(duì)新的測(cè)試集進(jìn)行了驗(yàn)證。本文用相同的方法選取測(cè)試集對(duì)算法進(jìn)行驗(yàn)證,并且對(duì)新的測(cè)試集不進(jìn)行圖像增強(qiáng)處理,與文獻(xiàn)[19]的對(duì)比,結(jié)果如表5所示。
表5 復(fù)雜環(huán)境下識(shí)別分類精度對(duì)比
Tab.5 Comparison of recognition classification accuracy in complex environment
AlgorithmInsufficientillumination/%Obscured/%Blurredimage/%SCF-ELMof Ref.[19] 95.0193.7294.63MCF-ELMof Ref.[19] 97.1596.0196.68Algorithm ofthis papor97.6297.1898.01
與表4中本文算法的分類準(zhǔn)確率相比,在數(shù)據(jù)集都是復(fù)雜環(huán)境下的圖像時(shí),分類精度有所下降(表5),并且在受到遮擋的條件下精度下降較為明顯,但是在整體情況下相對(duì)于文獻(xiàn)[19]中的單層特征提取和多層特征提取算法都有所提升,特別在圖像模糊的條件下提升較為明顯。
本文采用多尺度圖像輸入,間接地增加了數(shù)據(jù)集的數(shù)量,并使用不同的3個(gè)網(wǎng)絡(luò)對(duì)不同尺寸的圖像進(jìn)行預(yù)訓(xùn)練,卷積核大小也是根據(jù)數(shù)據(jù)集輸入圖片大小所設(shè)計(jì),最后在融合網(wǎng)絡(luò)進(jìn)行分類。多尺度的信息輸入再融合,可以防止算法求解過(guò)程中陷入局部最優(yōu)解,有利于網(wǎng)絡(luò)參數(shù)的更新,并且可以獲得圖像更多的信息,增強(qiáng)模型的魯棒性[16,21-23]。在交通標(biāo)志圖像受環(huán)境影響較大時(shí),特別是對(duì)于拍攝形變?cè)斐赡:膱D像,本文設(shè)計(jì)的多尺度卷積融合網(wǎng)絡(luò)在復(fù)雜環(huán)境下的魯棒性相比于文獻(xiàn)[19]中的多層特征融合更加優(yōu)越。
表6為本文算法與其他多尺度CNN方法和單一尺度CNN算法的性能對(duì)比結(jié)果。文獻(xiàn)[20]采用的多尺度交通標(biāo)志識(shí)別方法是將每一個(gè)池化層的輸出都施加到后端全連接層,再利用ELM分類器進(jìn)行分類。
表6 與其他多尺度方法的對(duì)比Tab.6 Comparison with other multi-scale methods
從表6可以看出,由于本文使用3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行融合,所以參數(shù)規(guī)模要比文獻(xiàn)[20]中的多尺度方法和單一尺度方法大,但是本文算法的損失值要遠(yuǎn)比文獻(xiàn)[20]中的方法小很多,說(shuō)明本文的多尺度融合模型的泛化能力和交通標(biāo)志的特征表達(dá)能力要優(yōu)于文獻(xiàn)[20]中的多尺度模型,并且在準(zhǔn)確率上也高出0.41%。
本文設(shè)計(jì)的多尺度卷積融合算法相對(duì)于文獻(xiàn)[20]中的多尺度方法可以得到更高的準(zhǔn)確率和網(wǎng)絡(luò)模型的泛化能力,原因在于:
(1)在輸入上使用3種不同尺寸圖像,CNN模型最終的識(shí)別效果會(huì)因?yàn)檩斎雸D像尺寸的改變而發(fā)生變化[14],相對(duì)于文獻(xiàn)[20]中把圖片歸一化成為32×32尺寸的輸入,多尺度信息的輸入可以增強(qiáng)模型的性能。
(2)在卷積層的設(shè)計(jì)上,文獻(xiàn)[20]設(shè)計(jì)了3層卷積,并且每個(gè)卷積核的大小都是5×5。本文所設(shè)計(jì)網(wǎng)絡(luò)的卷積核大小不同,每個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)深度也不同。大尺寸的卷積核提取圖像的粗粒度特征,可以保留交通標(biāo)志的輪廓特征。小尺度卷積核有助于細(xì)粒度特征的提取,可以提取交通標(biāo)志的局部紋理特征。不同尺寸圖像特征圖的組合輸入,粗粒度與細(xì)粒度的結(jié)合,相比于單個(gè)網(wǎng)絡(luò)的多尺度提取特征,融合網(wǎng)絡(luò)多尺度的性能更好。
(3)在網(wǎng)絡(luò)設(shè)計(jì)上,本文雖然是由3個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)模型組合得到最后的特征圖,但最終識(shí)別是在融合網(wǎng)絡(luò)上完成,并且在融合網(wǎng)絡(luò)的全連接層進(jìn)行二次訓(xùn)練,再輸入ELM分類器進(jìn)行分類。相比于每一個(gè)池化層的輸出都施加到后端全連接層,再利用Softmax分類器進(jìn)行分類,本文得到的特征圖數(shù)目更多,信息也更全面,并且選擇ELM作為分類器對(duì)于分類精度的提高也起到了一定作用。
因此,本文多尺度特征融合與ELM結(jié)合的算法相較于文獻(xiàn)[20]性能有一定的提升。
交通標(biāo)志識(shí)別是智能交通系統(tǒng)的重要組成部分,自然場(chǎng)景中的交通標(biāo)志受環(huán)境影響較為復(fù)雜,采集到的交通標(biāo)志尺寸大小也是多樣化的,因此本文提出一種多尺度特征融合與ELM結(jié)合的交通標(biāo)志識(shí)別方法。將單一尺度的圖像經(jīng)過(guò)圖像增強(qiáng),使圖像細(xì)節(jié)特征更加明顯,再分別將尺寸歸一化成3種不同的尺寸,然后構(gòu)建適應(yīng)圖像尺寸的3個(gè)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,最后將3個(gè)網(wǎng)絡(luò)中學(xué)習(xí)到的特征進(jìn)行融合,對(duì)融合網(wǎng)絡(luò)模型進(jìn)行微調(diào),將融合模型得到的多尺度特征輸入ELM分類器進(jìn)行分類。圖像提取到的特征更加全面,分類識(shí)別的準(zhǔn)確率大幅提升。實(shí)驗(yàn)通過(guò)在GTSRB交通標(biāo)志數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),識(shí)別率達(dá)到了99.23%。