鄧濤 李鑫 汪明明 鄧彪
(重慶交通大學(xué),重慶 400074)
主題詞:無(wú)人駕駛 交通標(biāo)志牌識(shí)別 深度學(xué)習(xí) 深層卷積神經(jīng)網(wǎng)絡(luò) 稠密網(wǎng)絡(luò)
無(wú)人駕駛汽車(chē)環(huán)境感知技術(shù)中的一個(gè)重要環(huán)節(jié)是交通標(biāo)志牌的檢測(cè)與識(shí)別,自動(dòng)交通標(biāo)志牌檢測(cè)和識(shí)別(Automatic Traffic Sign Detection and Recognition,TSDR)系統(tǒng)由此開(kāi)始應(yīng)用。21世紀(jì),計(jì)算機(jī)的發(fā)展和人工智能的興起為交通標(biāo)志識(shí)別技術(shù)指明了發(fā)展方向。TSDR系統(tǒng)主要根據(jù)交通標(biāo)志牌的顏色、形狀等特征來(lái)檢測(cè)識(shí)別交通標(biāo)志。RGB顏色分割[1]是一種基于顏色特征的檢測(cè)方法,但該方法魯棒性較差。針對(duì)該缺點(diǎn),相繼出現(xiàn)了HIS(Hue,Intensity,Saturation)顏色分割[2]、HSV(Hue,Saturation,Value)多閾值分割[3]等改進(jìn)算法,提高了魯棒性,但計(jì)算耗時(shí)較長(zhǎng)?;谛螤钐卣鞯臋z測(cè)方法有Hough變換、梯度方向信息、Canny邊緣檢測(cè)等方法,但這些方法受限于形狀匹配的模板,也存在魯棒性差的問(wèn)題。
為了克服傳統(tǒng)檢測(cè)識(shí)別方法的缺點(diǎn),機(jī)器學(xué)習(xí)的方法被廣泛研究,如支持向量機(jī)(Support Vector Machine,SVM)[4-5]、AdaBoost[6-7]、深層神經(jīng)網(wǎng)絡(luò)[8]等,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)應(yīng)用最廣。Habibi[9]提出了一種基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志檢測(cè)方法,提升了模型準(zhǔn)確率和魯棒性;Zhu等[10]提出了一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志分類(lèi)框架,縮小了標(biāo)志牌搜索范圍,實(shí)現(xiàn)了快速準(zhǔn)確的檢測(cè)和識(shí)別。但隨著網(wǎng)絡(luò)層數(shù)不斷加深,網(wǎng)絡(luò)越來(lái)越難以訓(xùn)練,甚至出現(xiàn)退化的現(xiàn)象。何凱明[11]團(tuán)隊(duì)提出殘差網(wǎng)絡(luò)(Residual Network,ResNet)方法,網(wǎng)絡(luò)訓(xùn)練收斂速度提高,有效地解決了網(wǎng)絡(luò)逐漸加深時(shí)的退化現(xiàn)象。在此基礎(chǔ)上,Huang等[12]提出稠密網(wǎng)絡(luò)(Dense Network,DenseNet)方法,其具有強(qiáng)化特征傳播、支持特征重用、大幅度減少網(wǎng)絡(luò)數(shù)據(jù)量等優(yōu)點(diǎn),進(jìn)一步解決了梯度消失的問(wèn)題,且計(jì)算量更小,模型識(shí)別準(zhǔn)確度更高。
因此,本文基于稠密網(wǎng)絡(luò)建立無(wú)人駕駛汽車(chē)交通標(biāo)志牌識(shí)別模型,同時(shí)改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)寬淺稠密網(wǎng)絡(luò),以提升模型收斂速度和識(shí)別精度。
預(yù)處理網(wǎng)絡(luò)的主要作用是粗略地對(duì)數(shù)據(jù)集進(jìn)行顏色空間轉(zhuǎn)換,提取圖像特征,為特征提取層做準(zhǔn)備。如圖1所示,輸入端輸入32×32×3的圖片數(shù)據(jù)集,第1層為批規(guī)范化(Batch Normalization,BN)層,即每次使用隨機(jī)梯度下降解析器時(shí),通過(guò)小批量數(shù)據(jù)對(duì)相應(yīng)的激活層進(jìn)行規(guī)范化操作。第2層、第4層分別為3×3×8、1×1×8的卷積層(Convolutional Layer),用于提取和轉(zhuǎn)換圖像特征集。第3層、第5層的參數(shù)化修正線(xiàn)性單元(Parametric Rectified Linear Unit,PReLU)激活層用于增加網(wǎng)絡(luò)的非線(xiàn)性。
圖1 預(yù)處理網(wǎng)絡(luò)
根據(jù)DenseNet稠密塊構(gòu)建方法和寬淺殘差網(wǎng)絡(luò)[13]的設(shè)計(jì)思想,為縮短訓(xùn)練時(shí)間,減少內(nèi)存占用,本文增加稠密塊寬度K,減少網(wǎng)絡(luò)層數(shù)L,提出寬淺稠密網(wǎng)絡(luò),并重新設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。conv1為5×5×32的卷積層,加上批規(guī)范化層和修正線(xiàn)性單元(Rectified Linear Unit,ReLU)激活層。稠密網(wǎng)絡(luò)結(jié)構(gòu)采用3個(gè)稠密網(wǎng)絡(luò)塊,每個(gè)稠密網(wǎng)絡(luò)塊由4個(gè)Conv-BN-ReLU連接層組成,各連接層由Concat(Concatenation)層進(jìn)行拼接。卷積層conv3×3的寬度為k,Dense-block2~4對(duì)應(yīng)的k取值分別為16、24、32。區(qū)塊之間插入最大池化層(Max Pooling),以減小輸入激活層的特征映射尺寸。
圖2 特征提取網(wǎng)絡(luò)
為驗(yàn)證增加稠密塊寬度,減少網(wǎng)絡(luò)層數(shù)方法的有效性,設(shè)計(jì)3類(lèi)寬淺稠密網(wǎng)絡(luò)(Wide-DenseNet1~3)和1類(lèi)深度稠密網(wǎng)絡(luò)(DenseNet)的對(duì)比試驗(yàn),在CIFAR-10+、CIFAR-100+數(shù)據(jù)集上進(jìn)行測(cè)試,結(jié)果如表1所示。
表1 寬淺稠密網(wǎng)絡(luò)與深度稠密網(wǎng)絡(luò)
顯然,在與DenseNet達(dá)到近似準(zhǔn)確度的情況下,Wide-DenseNet1迭代時(shí)間和內(nèi)存占用更少;在與DenseNet迭代時(shí)間和內(nèi)存占用相近時(shí),Wide-DenseNet2達(dá)到的準(zhǔn)確度更高。因此,該方法是可行的。
分類(lèi)網(wǎng)絡(luò)采用平均池化層(Average Pooling),中間插入一層dropout層,以減少網(wǎng)絡(luò)數(shù)據(jù)量并降低計(jì)算量,避免網(wǎng)絡(luò)產(chǎn)生過(guò)擬合。如圖3所示,conv4為1×1×43的卷積層,結(jié)構(gòu)為Conv-BN-ReLU,分類(lèi)網(wǎng)絡(luò)輸入格式為4×4×320特征圖,輸出1×1×43邏輯矢量。
圖3 分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)
由此,建立交通標(biāo)志牌識(shí)別寬淺稠密網(wǎng)絡(luò)整體模型如圖4所示,相關(guān)網(wǎng)絡(luò)參數(shù)如表2所示。
圖4 交通標(biāo)志牌識(shí)別整體模型
表2 模型參數(shù)
考慮到國(guó)內(nèi)目前還沒(méi)有較為完善的交通標(biāo)志識(shí)別數(shù)據(jù)集,本文采用德國(guó)交通標(biāo)志牌數(shù)據(jù)集(German Traffic Sign Dataset,GTSD)[14]來(lái)訓(xùn)練和驗(yàn)證模型。該數(shù)據(jù)集包含43種交通標(biāo)志類(lèi)型,圖片超過(guò)50 000張。
由于GTSD訓(xùn)練集中各交通標(biāo)志類(lèi)型圖片數(shù)量并不均衡,因此,在訓(xùn)練集中每個(gè)交通標(biāo)志類(lèi)型隨機(jī)選取5張圖片。
為防止模型訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象,通過(guò)對(duì)圖片進(jìn)行翻轉(zhuǎn)操作和數(shù)據(jù)增強(qiáng)操作擴(kuò)充訓(xùn)練集數(shù)量。翻轉(zhuǎn)操作包括水平、豎直翻轉(zhuǎn),和先水平翻轉(zhuǎn)再豎直翻轉(zhuǎn);數(shù)據(jù)增強(qiáng)操作包括形態(tài)、視角、亮度、對(duì)比度、裕度等變換。
經(jīng)過(guò)翻轉(zhuǎn)操作,訓(xùn)練集圖片數(shù)量達(dá)到62 259張。為了保持各類(lèi)型圖片數(shù)量均衡,重采樣訓(xùn)練集,使得每類(lèi)圖片為20 000張。數(shù)據(jù)擴(kuò)增后訓(xùn)練集數(shù)量增至860 000張,圖5所示為部分?jǐn)U增處理后的圖片。
圖5 訓(xùn)練集部分?jǐn)U增圖片
GTSD驗(yàn)證集中各交通標(biāo)志類(lèi)型圖片數(shù)量也不均衡,因此在驗(yàn)證集中每個(gè)交通標(biāo)志類(lèi)型圖片隨機(jī)選取5張。綜上,數(shù)據(jù)集圖片數(shù)量及格式如表3所示。
表3 數(shù)據(jù)集數(shù)量及格式類(lèi)型
4.1.1 損失函數(shù)
本文損失函數(shù)包含SoftMax分類(lèi)交叉熵?fù)p失和L2正則損失。損失函數(shù)優(yōu)化解析器采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法,批大小設(shè)為128,遺忘因子設(shè)為0.9。
4.1.1.1 SoftMax函數(shù)
設(shè)SoftMax函數(shù)?的輸入為C維向量z,輸出為C維向量y。y中的元素值在0~1范圍內(nèi),定義如下:
對(duì)于給定的輸入z,每個(gè)分類(lèi)的概率可表示為:
其中,P(t=c|z),c=1,…,C為給定輸入z時(shí)輸入數(shù)據(jù)是c分類(lèi)的概率。
定義:
設(shè)i,j=1,…,C,對(duì)yi求導(dǎo),有:
損失函數(shù)ζ對(duì)zi的導(dǎo)數(shù),即交叉熵?fù)p失函數(shù)為:
式中,ti為真實(shí)的分類(lèi)結(jié)果。
4.1.1.2 L2正則損失函數(shù)
L2正則化公式為:
其中,C0為原始代價(jià)函數(shù);第2項(xiàng)為L(zhǎng)2正則化項(xiàng);w為權(quán)值參數(shù);n為訓(xùn)練集樣本數(shù)量;λ為正則項(xiàng)系數(shù),用于權(quán)衡正則項(xiàng)與C0項(xiàng)的比重。
4.1.2 動(dòng)態(tài)數(shù)據(jù)擴(kuò)增策略
訓(xùn)練樣本擴(kuò)增后,為使網(wǎng)絡(luò)適應(yīng)訓(xùn)練數(shù)據(jù)的變化,在模型訓(xùn)練時(shí)采用動(dòng)態(tài)數(shù)據(jù)擴(kuò)增策略。隨機(jī)動(dòng)態(tài)選擇80%增強(qiáng)操作處理后的圖片和20%未進(jìn)行增強(qiáng)操作處理的圖片混合成新的訓(xùn)練樣本。
設(shè)模型迭代R次,每次迭代過(guò)程中使用混合樣本進(jìn)行E次SGD損失函數(shù)優(yōu)化。本文分別取R=9、E=24,則全部迭代次數(shù)為216次。
4.1.3 學(xué)習(xí)率變化策略
訓(xùn)練網(wǎng)絡(luò)時(shí),學(xué)習(xí)率越大,網(wǎng)絡(luò)中壞死的神經(jīng)元越多,同時(shí),為了避免不斷改變的網(wǎng)絡(luò)數(shù)據(jù)對(duì)后層網(wǎng)絡(luò)輸入分布產(chǎn)生過(guò)大的干擾,應(yīng)采用較小的學(xué)習(xí)率。本文學(xué)習(xí)率變化策略如圖6所示。
4.2.1 數(shù)據(jù)集預(yù)處理結(jié)果
預(yù)處理激活層32×32×8格式圖片的可視化結(jié)果如圖7所示,在圖7a~圖7c中,輸入由擴(kuò)增訓(xùn)練集樣本隨機(jī)產(chǎn)生,圖7d的輸入由測(cè)試集樣本隨機(jī)產(chǎn)生。
圖6 學(xué)習(xí)率變化策略
圖7 訓(xùn)練集樣本和測(cè)試集樣本預(yù)處理可視化
輸出的8通道圖像對(duì)藍(lán)色和紅色敏感,不受亮度變化影響。部分通道的激活效果較差,導(dǎo)致圖像稍復(fù)雜時(shí)特征顯示不明顯。
4.2.2 訓(xùn)練結(jié)果
圖8所示為訓(xùn)練集、驗(yàn)證集損失隨迭代次數(shù)的變化曲線(xiàn)。顯然,隨著迭代次數(shù)增加,模型損失值下降。且驗(yàn)證集損失低于訓(xùn)練集,這是由于驗(yàn)證集圖片沒(méi)有進(jìn)行增強(qiáng)操作處理,樣本擾動(dòng)小。
圖9所示為訓(xùn)練集、驗(yàn)證集準(zhǔn)確度隨迭代次數(shù)的變化曲線(xiàn)。隨著迭代次數(shù)的增加,模型準(zhǔn)確度快速提高。在迭代80次后,驗(yàn)證集準(zhǔn)確度穩(wěn)定在99.9%以上。該結(jié)果表明模型的收斂性好,沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象,且識(shí)別準(zhǔn)確度高。
圖9 訓(xùn)練集、驗(yàn)證集準(zhǔn)確度
數(shù)據(jù)集測(cè)試結(jié)果如表4所示。
將本文構(gòu)建的標(biāo)志牌識(shí)別模型與當(dāng)前性能表現(xiàn)優(yōu)異的其他模型進(jìn)行識(shí)別準(zhǔn)確度對(duì)比,如表5所示,除了比工業(yè)級(jí)模型識(shí)別準(zhǔn)確率稍低以外,該模型準(zhǔn)確率高于其他識(shí)別模型。
表5 交通標(biāo)志牌識(shí)別模型對(duì)比[14-16]
4.3.1 圖像檢測(cè)
選取德國(guó)常見(jiàn)的部分交通標(biāo)志牌驗(yàn)證模型的實(shí)際檢測(cè)識(shí)別效果。表6中標(biāo)志牌原始圖像表面無(wú)遮擋,顏色鮮明、圖像清晰、外型完整,用于測(cè)試模型在一般環(huán)境下的識(shí)別效果;表7中標(biāo)志牌原始圖像在雨雪、大霧天氣下拍攝,存在光照較弱、表面遮擋、褪色模糊、外形殘缺等問(wèn)題,用于測(cè)試模型在特殊環(huán)境下的識(shí)別效果。考慮到模型的實(shí)用性,將完整的采集圖像導(dǎo)入網(wǎng)絡(luò),采用像素級(jí)判斷和邊框回歸[17]相結(jié)合的方法在圖像中定位標(biāo)志牌。
表6 德國(guó)交通標(biāo)志牌清晰圖
表7 德國(guó)交通標(biāo)志牌模糊圖
圖像檢測(cè)結(jié)果表明:一般環(huán)境下,本文所構(gòu)建、訓(xùn)練的模型能準(zhǔn)確檢測(cè)到圖像中標(biāo)志牌的位置,有其他相似標(biāo)志牌干擾的情況下未出現(xiàn)誤檢,多個(gè)標(biāo)志牌同時(shí)存在時(shí)無(wú)漏檢,如01.jpg、06.jpg、07.jpg。特殊環(huán)境下,當(dāng)標(biāo)志牌被不同程度落雪覆蓋、部分標(biāo)志牌未進(jìn)入圖像時(shí)(如09.jpg、13.jpg),該模型依然能準(zhǔn)確檢測(cè)到圖像中的標(biāo)志牌。試驗(yàn)表明,本文所構(gòu)建的模型抗干擾能力強(qiáng)、魯棒性好。
4.3.2 圖像識(shí)別
模型檢測(cè)到交通標(biāo)志牌后進(jìn)行分類(lèi)識(shí)別,針對(duì)模型識(shí)別性能,本文給出置信度前5位的標(biāo)志牌識(shí)別預(yù)測(cè)結(jié)果,如表8、表9所示。
由表8可知,在一般環(huán)境下,標(biāo)志牌外形清晰、顏色鮮明且無(wú)缺損,模型能準(zhǔn)確判斷出標(biāo)志牌類(lèi)型。05.jpg中“13:減速讓行”和“40:環(huán)島行駛”識(shí)別置信度輕微降低,是由于標(biāo)志牌距離較遠(yuǎn),采集到的圖像信息相對(duì)較少,對(duì)模型的分類(lèi)判別稍有影響,但仍能分別以0.994 975和0.972 131的高置信度識(shí)別標(biāo)志牌類(lèi)型。
由表9可知,在雨雪等惡劣環(huán)境下,標(biāo)志牌表面模糊不清或部分不全,對(duì)模型識(shí)別準(zhǔn)確度有較大的影響。
09.jpg中“30:路面結(jié)冰”標(biāo)志牌被雪覆蓋只顯示出一半圖像,模型將一半的圖像信息提取特征后,除與真正的標(biāo)簽圖像特征相匹配外,還與其他4種具有相似特征的圖像進(jìn)行匹配,最終以0.817 231的置信度正確識(shí)別標(biāo)志牌類(lèi)型。表明該模型提取圖像特征能力強(qiáng),在只出現(xiàn)部分圖像特征信息時(shí),也能以最大置信度正確識(shí)別。11.jpg和13.jpg的結(jié)果也證明了該性能,這是由于在擴(kuò)增訓(xùn)練數(shù)據(jù)集時(shí)對(duì)圖像進(jìn)行了上、下、左、右4個(gè)方向的偏移、移動(dòng)后,空余部分像素置為0,這一操作增強(qiáng)了模型的特征提取能力和抗干擾能力。
10.jpg、12.jpg標(biāo)志牌完全被雪覆蓋,圖像模糊不清,其中“9:禁止超車(chē)”標(biāo)志牌被雪嚴(yán)重覆蓋,人眼也難以辨別清楚,因此模型識(shí)別失敗,“30:路面結(jié)冰”“3:限速60 km/h”被雪覆蓋程度較輕,雖然對(duì)模型識(shí)別產(chǎn)生了一定的干擾,但最后仍能正確識(shí)別。這表明本文設(shè)計(jì)的寬淺稠密網(wǎng)絡(luò)模型泛化能力強(qiáng),即使在圖像信息被破壞的情況下,仍能提取出關(guān)鍵特征,在特殊環(huán)境下,模型均以最大置信度正確識(shí)別標(biāo)志牌。
該模型優(yōu)異的性能主要依賴(lài)于兩點(diǎn):稠密網(wǎng)絡(luò)結(jié)構(gòu)具有優(yōu)異的特征提取能力,能高效獲取圖像主要特征;進(jìn)行了數(shù)據(jù)集擴(kuò)增處理,使模型抗干擾能力增強(qiáng)。
本文基于稠密網(wǎng)絡(luò)設(shè)計(jì)了交通標(biāo)志牌識(shí)別模型,通過(guò)預(yù)處理網(wǎng)絡(luò)粗略提取圖像特征,并以寬淺稠密網(wǎng)絡(luò)設(shè)計(jì)特征提取層。同時(shí),對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)增處理以增大訓(xùn)練集樣本數(shù)量,訓(xùn)練中采用動(dòng)態(tài)數(shù)據(jù)擴(kuò)增策略以增強(qiáng)網(wǎng)絡(luò)適應(yīng)能力。訓(xùn)練結(jié)果表明,模型收斂性好,無(wú)過(guò)擬合現(xiàn)象,在測(cè)試集上識(shí)別準(zhǔn)確率達(dá)99.68%。在一般和特殊環(huán)境下驗(yàn)證了模型的檢測(cè)識(shí)別效果,該模型表現(xiàn)出良好的魯棒性和泛化能力,抗干擾能力強(qiáng),識(shí)別準(zhǔn)確度高。
表8 一般環(huán)境下標(biāo)志牌識(shí)別結(jié)果
表9 特殊環(huán)境下標(biāo)志牌識(shí)別結(jié)果
本文模型在臺(tái)式機(jī)上進(jìn)行測(cè)試,而實(shí)際的TSDR系統(tǒng)運(yùn)行在嵌入式平臺(tái)上,硬件平臺(tái)的不同可能影響模型的實(shí)時(shí)性與準(zhǔn)確度。因此,基于嵌入式平臺(tái)的模型優(yōu)化是需要進(jìn)一步考慮的問(wèn)題。