樊星 趙祥模 劉占文 沈超 徐江
摘 ?要: 為解決交通標(biāo)志目標(biāo)易受復(fù)雜環(huán)境影響且呈現(xiàn)多尺度分布,造成識(shí)別精度低的問題,構(gòu)建一種多尺度卷積神經(jīng)網(wǎng)絡(luò)模型。針對(duì)不同尺寸輸入設(shè)計(jì)相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),提取目標(biāo)特征,實(shí)現(xiàn)對(duì)不同尺寸目標(biāo)的識(shí)別,再加權(quán)融合各子網(wǎng)絡(luò)結(jié)果得到最終識(shí)別結(jié)果,實(shí)現(xiàn)多尺度目標(biāo)識(shí)別。經(jīng)實(shí)驗(yàn)驗(yàn)證分析,提出算法模型在小尺寸目標(biāo)、較小尺寸目標(biāo)、中尺寸目標(biāo)、大尺寸目標(biāo)上識(shí)別率分別達(dá)到99.12%,99.24%,99.41%,99.35%,保障了多尺度輸入目標(biāo)識(shí)別的魯棒性,綜合識(shí)別率可以達(dá)到99.31%,驗(yàn)證了算法在平衡實(shí)時(shí)性及準(zhǔn)確率的基礎(chǔ)上,具有一定的實(shí)用價(jià)值。
關(guān)鍵詞: 智能交通; 深度學(xué)習(xí); 交通標(biāo)志識(shí)別; 多尺度目標(biāo)識(shí)別; 神經(jīng)網(wǎng)絡(luò); 加權(quán)融合
中圖分類號(hào): TN911.73?34; TP391.41 ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2019)15?0134?05
Traffic sign recognition method based on multi?scale convolutional neural network
FAN Xing, ZHAO Xiangmo, LIU Zhanwen, SHEN Chao, XU Jiang
(School of Information Engineering, Changan University, Xian 710064, China)
Abstract: In order to solve the problem that the traffic sign is susceptible to the complex environment and presents multi?scale distribution, resulting in low recognition accuracy, a multi?scale convolutional neural network model is constructed. The corresponding network structure is designed for different size sign input to extract the target features and achieve target recognition of signs with different sizes. In the method, the weighted fusion of the results provided by each sub?network is carried out to obtain the final recognition results, and achieve multi?scale target recognition. The experimental verification and analysis results indicate that the proposed algorithm model can achieve the recognition rates of 99.12%, 99.24%, 99.41% and 99.35% on four size targets respectively, which can ensure the recognition robustness of multi?scale input targets, and its comprehensive recognition rate can reach 99.31%. It is verified that the algorithm has a certain practical value on the basis of real?time balance and accuracy.
Keywords: intelligent transportation; deep learning; traffic sign recognition; multi?scale object recognition; neural network; weighted fusion
0 ?引 ?言
智能交通系統(tǒng)(ITS)與自動(dòng)駕駛技術(shù)都需要在復(fù)雜交通場(chǎng)景中對(duì)影響駕駛行為的相關(guān)目標(biāo)進(jìn)行正確、實(shí)時(shí)地捕捉與理解,而交通標(biāo)志作為傳遞指示引導(dǎo)或警示信息的道路基礎(chǔ)設(shè)施,對(duì)其進(jìn)行正確識(shí)別是保證智能車輛規(guī)范行駛與道路交通安全的前提。交通標(biāo)志識(shí)別主要包括特征提取與識(shí)別兩個(gè)步驟,其中傳統(tǒng)的交通標(biāo)志特征提取主要有基于Hu不變矩[1]、基于仿射不變Zernike矩[2]、基于改進(jìn)Zernike矩[3]的方法,識(shí)別分類主要有基于神經(jīng)網(wǎng)絡(luò)[4]、基于模板匹配 [5]、基于支持向量機(jī)[6?7]等方法,這些方法都通過傳統(tǒng)的特征對(duì)交通標(biāo)志進(jìn)行特征提取以實(shí)現(xiàn)識(shí)別。然而,現(xiàn)實(shí)交通環(huán)境中交通標(biāo)志往往易受復(fù)雜環(huán)境干擾,如復(fù)雜多變的光照條件、背景環(huán)境干擾、交通標(biāo)志遮擋、交通標(biāo)志位置傾斜,這些環(huán)境因素導(dǎo)致對(duì)其進(jìn)行手工特征設(shè)計(jì)與提取難度極大,進(jìn)而使交通標(biāo)志識(shí)別難度大大增加。
近年來,深度學(xué)習(xí)模型[8]已在計(jì)算機(jī)視覺領(lǐng)域受到廣泛關(guān)注,卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)經(jīng)典模型之一,對(duì)目標(biāo)識(shí)別有著良好的效果。近年來,出現(xiàn)了RCNN[9],F(xiàn)ast?rcnn,F(xiàn)aster?rcnn[10],F(xiàn)PN,Yolo,ResNet[11]等區(qū)域卷積神經(jīng)網(wǎng)絡(luò)方法,在目標(biāo)檢測(cè)與識(shí)別領(lǐng)域取得了不俗的成績(jī),將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于交通標(biāo)志識(shí)別成為研究的熱點(diǎn)。在實(shí)際交通環(huán)境中,為方便行人和司機(jī)注意,交通標(biāo)志通常被設(shè)計(jì)成特定的比例大小。在車輛行進(jìn)過程中,由于車輛與交通位置距離的多變性,采集的交通標(biāo)志大小不一。如何設(shè)計(jì)一種魯棒的網(wǎng)絡(luò)實(shí)現(xiàn)不同尺度下目標(biāo)的識(shí)別是研究的難點(diǎn)之一。因此,本文提出一種多尺度卷積神經(jīng)網(wǎng)絡(luò)模型,融合多尺度下提取目標(biāo)特征加強(qiáng)對(duì)多尺度目標(biāo)物體識(shí)別的精度與魯棒性,以實(shí)現(xiàn)對(duì)交通標(biāo)志的高精度識(shí)別。
1 ?多尺度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
目標(biāo)識(shí)別中最為核心的技術(shù)就是特征提取,傳統(tǒng)的手工特征不足以對(duì)室外復(fù)雜環(huán)境下檢測(cè)到的交通標(biāo)志進(jìn)行識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)方法雖然可以靈活提取到交通標(biāo)志的特征,然而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)識(shí)別時(shí)需要輸入固定大小的圖像,在實(shí)際環(huán)境中待檢測(cè)目標(biāo)的大小卻是多樣化的,如圖1所示。
對(duì)于這些目標(biāo),需要經(jīng)過裁剪、縮放等一系列的操作才能輸入到網(wǎng)絡(luò)中,如圖2所示,這種裁剪縮放操作很大程度降低了目標(biāo)識(shí)別精度。從原理上看,在卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)中并不需要輸入固定大小的圖像,因此,本文設(shè)計(jì)一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)多尺度交通標(biāo)志識(shí)別。
1.1 ?網(wǎng)絡(luò)總體結(jié)構(gòu)設(shè)計(jì)
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)往往層級(jí)結(jié)構(gòu)固定,然而多尺度的輸入圖像經(jīng)過相同數(shù)量層級(jí)的網(wǎng)絡(luò),提取到的特征質(zhì)量存在較大差異性,如圖3所示,使得網(wǎng)絡(luò)不能針對(duì)每種尺度的圖像都提取到較為有用的特征,故單一層級(jí)結(jié)構(gòu)的網(wǎng)絡(luò)對(duì)于不同尺度輸入圖像的識(shí)別率差別大,只能在某一尺度上進(jìn)行高質(zhì)量的有效識(shí)別。為了對(duì)圖像的輸入不做具體的限制,同時(shí)改善使用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志進(jìn)行特征提取存在的差異性,設(shè)計(jì)網(wǎng)絡(luò)整體結(jié)構(gòu)為不同層級(jí)子網(wǎng)絡(luò)并聯(lián)而成。
針對(duì)不同的輸入尺寸,采用相應(yīng)的識(shí)別子網(wǎng)絡(luò)結(jié)構(gòu)。目標(biāo)尺寸較大時(shí),其蘊(yùn)含的特征信息更為豐富,需要提取的特征量也更大,對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò)深度更深,層級(jí)更多??商崛〉奶卣麟S著輸入目標(biāo)尺寸的減小而減少,識(shí)別采用網(wǎng)絡(luò)的層數(shù)也應(yīng)隨之發(fā)生變化。道路場(chǎng)景中可利用交通標(biāo)志尺寸通常為15×15到250×250,若針對(duì)每一尺寸輸入設(shè)計(jì)子網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算復(fù)雜度過高,識(shí)別效率遠(yuǎn)不能滿足實(shí)時(shí)性要求。將交通標(biāo)志按尺寸大小分為?。?5×15~42×42)、較小(43×43~84×84)、中(85×85~168×168)、大(169×169~250×250)四類。針對(duì)每一類設(shè)計(jì)子網(wǎng)絡(luò),并聯(lián)得到由4個(gè)子網(wǎng)絡(luò)組成的識(shí)別網(wǎng)絡(luò),既可以實(shí)現(xiàn)對(duì)不同尺度輸入目標(biāo)的特征提取,提高識(shí)別精度,又保證識(shí)別效率。
1.2 ?各子網(wǎng)絡(luò)結(jié)構(gòu)層設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)通常由輸入層、卷積層、池化層、全連接層、輸出層組成,其結(jié)構(gòu)如圖4所示。
卷積層是網(wǎng)絡(luò)的核心內(nèi)容,從本質(zhì)上來講,卷積核的作用等同于一個(gè)濾波器,每一個(gè)卷積核得到原圖的一種圖像特征,即稱為卷積特征圖。在經(jīng)過本層的卷積操作后,將繼續(xù)向后續(xù)的卷積層傳遞。池化層又稱為下采樣層,它是網(wǎng)絡(luò)模型中最基礎(chǔ)的操作之一。
由于卷積層之后的特征圖參數(shù)量較大,網(wǎng)絡(luò)訓(xùn)練過程較長(zhǎng),不利于實(shí)際操作,因此,利用池化層對(duì)特征數(shù)量進(jìn)行采樣提取,用于后續(xù)操作。目前最常用的下采樣方式主要包括最大值采樣(max pooling)和均值采樣(mean pooling),最大值采樣即選取鄰域中的最大值作為輸出值,均值采樣則選擇鄰域內(nèi)所有值的均值作為輸出值。全連接操作也是卷積的特殊表現(xiàn)形式,但是其卷積核是[1×1]大小,全連接層后的輸出常用于結(jié)果分類。
當(dāng)卷積網(wǎng)絡(luò)中所有卷積層采用[F×F]的卷積核,且卷積步長(zhǎng)為[S1],池化步長(zhǎng)為[S2]時(shí),大小為[H×H]的輸入圖像采用SAME卷積方式經(jīng)過[n1]次卷積,[n2]次池化,得到輸出圖像大小為:
本文所有子網(wǎng)絡(luò)中卷積層采用核大小為[3×3]的濾波器,卷積步長(zhǎng)為1,池化步長(zhǎng)為2,根據(jù)最終特征圖大小一般不小于[7×7]的原則,對(duì)各子網(wǎng)絡(luò)中的卷積層、池化層的層數(shù)及分布進(jìn)行設(shè)計(jì)。
子網(wǎng)絡(luò)1中設(shè)計(jì)5層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)都由2層卷積層與1層池化層組成,后三層卷積結(jié)構(gòu)都由3層卷積層與1層池化層組成,池化方式為最大池化。每一層卷積層的輸出都要用ReLu激活函數(shù)[12]進(jìn)行激活,以增加卷積神經(jīng)網(wǎng)絡(luò)模型的非線性。ReLu函數(shù)定義為[y=0, ? ?x<0x, ? ?x>0],相較于Sigmoid激活函數(shù)與tanh激活函數(shù),ReLu函數(shù)在SGD中能夠更快速的收斂,同時(shí)由于其不涉及指數(shù)操作,計(jì)算量更小,不會(huì)像Sigmoid進(jìn)入飽和區(qū)后造成信息丟失現(xiàn)象,其輸出部分為0的特性也緩解了過擬合問題。
子網(wǎng)絡(luò)2中設(shè)計(jì)4層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)中包含2層卷積層,后兩層卷積結(jié)構(gòu)中包含3層卷積層,每層卷積層結(jié)構(gòu)與子網(wǎng)絡(luò)1中相同。相似地,子網(wǎng)絡(luò)3中設(shè)計(jì)3層卷積結(jié)構(gòu),前兩層卷積結(jié)構(gòu)中包含2層卷積層,后一層卷積結(jié)構(gòu)中包含3層卷積層;子網(wǎng)絡(luò)4中設(shè)計(jì)兩層包含2層卷積層的卷積結(jié)構(gòu)。為了使4個(gè)子網(wǎng)絡(luò)結(jié)構(gòu)輸出的維度相同,分別在子網(wǎng)絡(luò)3與子網(wǎng)絡(luò)4上增加1個(gè)、2個(gè)1×1的卷積核。
同時(shí)使用驗(yàn)證精度(Validation Accuracy)和過擬合比率(Overfitting Ratio)兩個(gè)標(biāo)準(zhǔn)對(duì)提出算法的識(shí)別效果進(jìn)行評(píng)判。驗(yàn)證精度定義為:
可以看出,傳統(tǒng)的特征識(shí)別方法和卷積神經(jīng)網(wǎng)絡(luò)識(shí)別法在四類尺寸目標(biāo)上驗(yàn)證精度不如本文提出的網(wǎng)絡(luò)架構(gòu),且不同類間浮動(dòng)較大,同時(shí)目標(biāo)越小,特征提取難度越大,類內(nèi)驗(yàn)證精度也不穩(wěn)定,說明面對(duì)多尺度輸入目標(biāo)識(shí)別效果不魯棒。本文網(wǎng)絡(luò)結(jié)構(gòu)不僅在四類尺寸輸入目標(biāo)中都取得了最優(yōu)識(shí)別結(jié)果,且識(shí)別精度差異較小,說明面對(duì)多尺度輸入不僅識(shí)別精度高且魯棒性好。
3 ?結(jié) ?語
復(fù)雜交通場(chǎng)景中的交通標(biāo)志檢測(cè)與識(shí)別是實(shí)現(xiàn)智能交通系統(tǒng)(ITS)與自動(dòng)駕駛技術(shù)的關(guān)鍵與基礎(chǔ)。針對(duì)智能車真實(shí)交通環(huán)境中采集的交通標(biāo)志圖片通常受到環(huán)境因素影響,識(shí)別難度高,且通常呈現(xiàn)多尺度分布的問題,本文提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法,通過設(shè)計(jì)多尺度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)對(duì)不同尺寸輸入目標(biāo)的魯棒識(shí)別。通過實(shí)驗(yàn)驗(yàn)證本文算法的有效性與科學(xué)性,與其他算法識(shí)別結(jié)果的對(duì)比表明,本文算法保障了多尺度輸入目標(biāo)識(shí)別的魯棒性,提高了交通標(biāo)志的識(shí)別準(zhǔn)確率,在平衡實(shí)時(shí)性及準(zhǔn)確率的基礎(chǔ)上,具有一定的實(shí)用價(jià)值,可以滿足智能駕駛中對(duì)交通標(biāo)志的檢測(cè)要求,為智能駕駛的決策與控制提供了重要依據(jù)。
參考文獻(xiàn)
[1] SONG Wenjie, FU Mengyin, YANG Yi. An efficient traffic signs recognition method for autonomous vehicle [J]. Robot, 2015, 37(1): 102?111.
[2] Mao Jianxu, Liu Min. Traffic sign recognition using ICA?based affine invariant Zernike moment [J]. Journal of electronic measurement & instrument, 2013, 27(7): 617?623.
[3] WANG Yan, MU Chunyang, MA Xing. Traffic sign recognition based on Zernike invariant moment and SVM [J]. Journal of highway and transportation research and development, 2015, 32(12): 128?132.
[4] NGUWI Y Y, KOUZANI A Z. Detection and classification of road signs in natural environments [J]. Neural computing & applications, 2008, 17(3): 265?289.
[5] PRATIKAKIS I, GATOS B, NTIROGIANNIS K. ICDAR 2013 document image binarization contest (DIBCO 2013) [C]// International Conference on Document Analysis and Recognition. [S.l.]: IEEE, 2013: 1506?1510.
[6] CHANG Faliang, HUANG Cui, LIU Chengyun, et al. Traffic sign detection based on Gaussian color model and SVM [J]. Chinese journal of scientific instrument, 2014, 35(1): 43?49.
[7] MALDONADO BASCON S, LAFUENTE ARROYO H, GIL JIMENEZ P, et al. Road?sign detection and recognition based on support vector machines [J]. IEEE transactions on intelligent transportation systems, 2007, 8(2): 264?278.
[8] CIRE?AN D, MEIER U, MASCI J, et al. Multi?column deep neural network for traffic sign classification [J]. Neural networks, 2012, 32: 333?338.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature hierarchies for accurate object detection and semantic segmentation [C]// Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2014: 580?587.
[10] REN S, HE K, GIRSHICK R, et al. Faster rcnn: towards real?time object detection with region proposal networks [C]// International Conference on Neural Information Processing Systems. [S.l.]: MIT Press, 2015: 91?99.
[11] HE Kaiming, ZHANG Xiangyu, REN Shaoqing , et al. Deep residual learning for image recognition [C]// Proceedings of Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.], 2015: 770?778.
[12] EVERINGHAM M, GOOL L V, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge [J]. International journal of computer vision, 2010, 88(2): 303?338.
[13] RUTA Andrzej, LI Yongmin, LIU Xiaohui. Real?time traffic sign recognition from video by class?specific discriminative features [J]. Pattern recognition, 2010, 43(1):416?430.
[14] CIRE?AN D, MEIER U, MASCI J, et al. Multi?column deep neural network for traffic sign classification [J]. Neural network, 2012, 32(1): 333?338.
[15] AGHDAM H H, HERAVI E J,PUIG D. Toward an optimal convolutional neural network for traffic sign recognition [C]// Proceedings of Eighth International Conference on Machine Vision. [S.l.]: International Society for Optics and Photonics, 2015, 9875: 151?156.
[16] LUO H, YANG Y, TONG B, et al. Traffic sign recognition using a multi?task convolutional neural network [J]. IEEE transactions on intelligent transportation systems, 2017, 99: 1?12.