李晨 汪楊
摘要:在真實的駕駛場景中,由于光照變化、拍照角度等因素,所采集的圖片質(zhì)量往往不高,這就對交通標志識別的準確性提出很高要求。針對這種問題,我們提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通標志識別方法。該方法采用兩步驟方案,在檢測步驟中,目標是提出圖片中交通標志的邊界框。在識別步驟中,是識別裁剪圖像的標簽。實驗結(jié)果表明,我們提出的方案能夠有效解決光照變化、各種天氣等實際駕駛環(huán)境中的問題。
關(guān)鍵詞:深度學習;卷積神經(jīng)網(wǎng)絡(luò);交通標志
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2018)06-0096-02
智能汽車是未來汽車行業(yè)的發(fā)展趨勢,道路交通標志的檢測與識別作為自動駕駛的基本技術(shù)之一,受到人們的日益重視。道路交通標志檢測與識別分為兩個基本環(huán)節(jié):先是檢測交通標志,包括交通標志的定位、提取。然后是交通標志的識別,包括交通標志的特征提取與分類。
近年來,深度學習方法對許多任務(例如圖像分類和語音識別)表現(xiàn)出優(yōu)越的性能,顯示出它們在圖像分類,定位和檢測等任務中的優(yōu)勢。在這篇文章中,我們提出一個基于卷積神經(jīng)網(wǎng)絡(luò)的兩步驟方案進行交通標志的檢測與識別。在檢測步驟,采用級聯(lián)卷積網(wǎng)絡(luò)快速定位并裁剪圖像中的交通標志;在識別步驟,用Inception-ResNet-v2網(wǎng)絡(luò)提取裁剪標志的特征并通過SVM或者計算距離進行識別。
1 基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的交通標志檢測
1.1 TsingHua-Tencent 100k數(shù)據(jù)集
廣泛用于評估檢測性能的兩個數(shù)據(jù)集是PASCAL VOC和ImageNet ILSVRC。在這些數(shù)據(jù)集中,目標對象通常占據(jù)每個圖像的很大比例。然而,一個典型的交通標志可能會是80*80像素,在2000*2000像素的圖像,或只有圖像的0.2%。因此,我們采用TsingHua-Tencent 100k數(shù)據(jù)集訓練檢測網(wǎng)絡(luò)。此數(shù)據(jù)集具有如下特征:
(1)數(shù)據(jù)集具有很高的分辨率,每張圖片的分辨率都接近2000*2000。
(2)數(shù)據(jù)集覆蓋了實際交通環(huán)境中的各種情況,在光照和天氣條件等方面有很大的變化,還包括遮擋的例子。
(3)數(shù)據(jù)集包含的交通標志類別多樣,覆蓋了當前中國三大類交通標志。
(4)交通標志占據(jù)圖片的比例很小,或只有圖像的0.2%。
1.2 級聯(lián)卷積網(wǎng)絡(luò)
聯(lián)卷積網(wǎng)絡(luò)結(jié)構(gòu)在人臉檢測的精度與速度上具有有較好的效果。我們借鑒此人臉檢測網(wǎng)絡(luò)設(shè)計我們的交通標志檢測網(wǎng)絡(luò)。檢測過程可以分為三個步驟:
(1) PNET找到圖像中可能存在的交通標志候選區(qū)域并進行二分類,丟棄90%的不包含交通標志的候選區(qū)域,保留的候選區(qū)域作為SNET的輸入圖像;
(2) RNET完成與PNET相同的任務,RNET網(wǎng)絡(luò)較PNET深提升對候選區(qū)域的分類能力,此步驟再次減少90%候選區(qū)域;
(3) RNET網(wǎng)絡(luò)保留的候選區(qū)域作為ONET輸入圖像進行最后二分類并確定交通標志的坐標。
多尺度訓練有利于小目標檢測,關(guān)鍵點檢測有助于檢測遮擋、模糊的目標。我們的交通標志檢測網(wǎng)絡(luò)同時采用多尺度訓練與關(guān)鍵點檢測,對于運動模糊導致的圖像質(zhì)量不高、僅占圖像比例很小一部分的交通標志具有很好的檢測效果并且級聯(lián)卷積網(wǎng)絡(luò)檢測交通標志能夠達到實時的性能,對于復雜環(huán)境、天氣狀況具有很好的魯棒性。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的交通標志識別
交通標志是人為設(shè)計的具有規(guī)定顏色和固定形狀或圖形的公共標志。我國的交通標志主要有警告、禁令、指示和指路等類型,通常使用顏色來區(qū)分類型,用形狀或圖形表示具體內(nèi)容。在交通標志設(shè)計上,不同類型的交通標志在形狀或圖形上差異較大;相同類型的標志在形狀或圖形上差異較小,如禁令標志中的禁止直行、禁止掉頭等。所以,卷積神經(jīng)網(wǎng)絡(luò)在場景理解上會出現(xiàn)同類指示信息的標志之間比不同類型的標志之間更容易引起誤識別。
2.1 Inception-ResNet-v2網(wǎng)絡(luò)
inception-resnet-v2把殘差網(wǎng)絡(luò)融入inception v4,使用了比之前網(wǎng)絡(luò)更廉價的Inception塊。每個Inception塊之后是濾波器擴展層(1×1卷積,無激活函數(shù)),用于放大濾波器組的維數(shù)添加以匹配輸入的深度。inception-resnet-v2具有與inception v4原始版本相當?shù)挠嬎愠杀镜兄叩臏蚀_度。在ILSVRC 2012識別任務上取得很好的效果。我們基于Inception-ResNet-v2設(shè)計交通標志識別網(wǎng)絡(luò),主要有兩點變化:1)除網(wǎng)絡(luò)最后的分類層(softmax層)進行訓練;2)采用softmax loss結(jié)合 center loss作為損失函數(shù)。
與大多數(shù)深度卷積網(wǎng)絡(luò)作為中間瓶頸不同,我們?nèi)コ矸e網(wǎng)絡(luò)最后的softmax層進行訓練,直接優(yōu)化特征向量本身。去除softmax層基于深度卷積網(wǎng)絡(luò)學習每個圖像的歐式距離,訓練網(wǎng)絡(luò)使得特征空間中的L2距離的平方直接對應于交通標志的相似性:同一個交通標志的距離很近,而不同交通標志的距離很遠。因此,交通標志的識別任務就可以轉(zhuǎn)化為計算特征之間的距離。
基于深度網(wǎng)絡(luò)的多數(shù)的交通標志識別方法使用分類層在一組已知類別的數(shù)據(jù)集上進行訓練,然后采用中間瓶頸層提取特征提交給網(wǎng)絡(luò)最后一層(softmax層)進行分類(識別)。與這些方法不同,我們使用基于softmax loss結(jié)合center loss函數(shù)直接訓練其輸出為緊致的128維特征向量。我們識別網(wǎng)絡(luò)對于光照變化、運動模糊具有很好的魯棒性。
2.2 center loss損失函數(shù)
由于不同類型的交通標志在形狀或圖形上差異較大;而相同類型的標志在形狀或圖形上差異較小。相比不同類型標志的識別,相同類型標志的識別更容易引起誤識別。所以,對于交通標志識別任務,深度學習的特征不僅需要可分離,而且還需要具有區(qū)分性。
center loss同時學習每個類別深層特征的中心,并懲罰深層特征與其相應類別中心之間的距離。Centloss的公式如下:
表示深層特征的類中心。該公式有效地表征了類內(nèi)變化。 理想情況下,i應該隨著深層特征的變化而更新。
softmax loss迫使不同類別的深層特征保持分離。center loss有效地將同一類別的深層特征拉到它們的中心。通過softmaxloss和center loss的聯(lián)合監(jiān)督訓練一個卷積網(wǎng)絡(luò),以獲得具有兩個關(guān)鍵學習目標的深層特征即類別間的差異和類別內(nèi)的緊湊性。不僅增加了組間特征差異,而且減少了組內(nèi)特征變化。因此,卷積網(wǎng)絡(luò)的判別能力進一步提升。
3 實驗結(jié)果與分析
TsingHua-Tencent 100k數(shù)據(jù)集提供了訓練集包括圖像、坐標以及關(guān)鍵點,采用類似MTCNN的訓練方法訓練我們的級聯(lián)卷積網(wǎng)絡(luò)—檢測網(wǎng)絡(luò)。接著,訓練Inception-ResNet-v2網(wǎng)絡(luò)--特征提取網(wǎng)絡(luò)。我們首先把數(shù)據(jù)集中的交通標志裁剪出來,尺寸設(shè)置為160*160并保留了數(shù)量較多的45個類別。由于TsingHua-Tencent 100k數(shù)據(jù)集不同類別間數(shù)據(jù)的不平衡,我們采用數(shù)據(jù)增廣策略。對于數(shù)量超過1000的類別,剔除多余的圖像;對于數(shù)量少于1000的類別進行圖像增廣。具體的做法是,對數(shù)據(jù)較少類別中的圖像進行旋轉(zhuǎn)[-10°; 10°],水平偏移0.2,豎直偏移0.2,剪切強度0.2,隨機縮放0.2。經(jīng)過數(shù)據(jù)篩選與增廣,我們得到45個類別交通標志,每個類別約有1000張尺寸為160*160的交通標志。
在交通標志的測試實驗中,我們采用TsingHua-Tencent 100k數(shù)據(jù)集中的測試集先對檢測與識別網(wǎng)絡(luò)進行分別測試,然后進行交通標志聯(lián)合檢測與識別。我們的檢測網(wǎng)絡(luò)可以達到87%準確率與96%的召回率,在所有測試集中我們的檢測網(wǎng)絡(luò)都能準確地檢測出交通標志,也包含少量的背景即誤檢測。識別網(wǎng)絡(luò)的測試采用準備訓練數(shù)據(jù)集的方法即從TsingHua-Tencent 100k測試集中把目標裁剪出來并設(shè)置尺寸為160*160。測試的識別率達到98.7%。最后,進行交通標志聯(lián)合檢測與識別的實驗。由實驗結(jié)果可知,我們提出的交通標志檢測與識別網(wǎng)絡(luò)對于實際場景中的交通標志具有較好的檢測效果。
4 結(jié)語
本文將深層卷積神經(jīng)網(wǎng)絡(luò)應用于道路交通標志的檢測識別,使用兩步驟方案。檢測步驟,采用級聯(lián)卷積網(wǎng)絡(luò)檢測圖像中的交通標志并裁剪出目標物體送入識別網(wǎng)絡(luò);識別步驟,采用Inception-ResNet-v2網(wǎng)絡(luò)對檢測結(jié)果進行識別。實驗表明,應用深層卷積神經(jīng)網(wǎng)絡(luò)檢測與識別交通標志取得了良好的檢測與識別效果。
參考文獻
[1]中國計算機學會.深度學習:推進人工智能夢想[EB/OL].http://www.ccg.org.cn.2013-06-10.
Abstract:In real driving scenes, due to factors such as light changes and camera angles, the quality of the collected images is often not high, which puts high demands on the accuracy of traffic sign recognition. To solve this problem, we propose a traffic sign recognition method based on convolutional neural network. The method uses a two-step approach. In the detection step, the goal is to propose a bounding box of traffic signs in the picture. In the recognition step, it is a tag that recognizes the cropped image. The experimental results show that the proposed solution can effectively solve the problems in the actual driving environment such as illumination changes and various weather conditions.
Key words:deep learning; convolutional neural network; traffic sign