楊 航,張鑫淼,楊 沖
(1. 武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
基于卷積神經(jīng)網(wǎng)絡(luò)的公路限速牌識別方法
楊 航1,張鑫淼1,楊 沖1
(1. 武漢大學(xué) 遙感信息工程學(xué)院,湖北 武漢 430079)
首先詳細介紹了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的原理和特點,然后設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡(luò)的能夠識別限速牌的網(wǎng)絡(luò)模型,最后對未來研究方向進行了展望。實驗結(jié)果表明,該模型對訓(xùn)練樣本具有良好的識別能力,且對非訓(xùn)練樣本也具有一定識別能力,具有實際應(yīng)用價值。
限速牌;CNN;公路;識別
公路車輛限速牌(以下簡稱限速牌)識別對于現(xiàn)代移動導(dǎo)航系統(tǒng)具有重要意義,高效的限速牌識別系統(tǒng)能有效防止超速事件的發(fā)生,對于保障駕駛?cè)藛T的安全、減少交通事故的發(fā)生具有重要意義[1]。傳統(tǒng)的限速牌識別系統(tǒng),利用的是導(dǎo)航系統(tǒng)中自帶的靜態(tài)地圖。這種方式的靈活性越來越不能滿足現(xiàn)代城市建設(shè)發(fā)展的需要,如當(dāng)某道路進行翻修時,其最大速度必然會降低,而靜態(tài)地圖不能實時更新,滿足不了用戶需求。
近幾年,一些頂級的汽車制造廠商開始將視覺導(dǎo)航系統(tǒng)引入其高端車型。這些系統(tǒng)大多數(shù)利用人工神經(jīng)網(wǎng)絡(luò) (ANN)或支持向量機 (SVM)進行限速牌識別。不可否認,該方式能有效識別限速牌,但其算法的實現(xiàn)需消耗大量時間,且對于不同城市的限速牌需重新設(shè)計算法,實際應(yīng)用有限。然而CNN作為監(jiān)督型網(wǎng)絡(luò)克服了ANN和SVM的不足,能夠通過簡單的訓(xùn)練實現(xiàn)有效地限速牌識別,具有廣闊的應(yīng)用前景。
CNN是近年發(fā)展起來的,并引起廣泛重視的一種高效識別方法[2]。由于該網(wǎng)絡(luò)無需對圖像進行復(fù)雜的前期預(yù)處理,可直接輸入原始圖像,因而在圖像模式識別領(lǐng)域得到廣泛應(yīng)用。
CNN通過3個特性(局域感受野、權(quán)值共享和次抽樣)來實現(xiàn)位移識別、縮放和扭曲不變性[3]。其中局域感受野是指每一個卷積層上的神經(jīng)元只與上一層中的一個小鄰域內(nèi)的神經(jīng)元鏈接,通過局域感受野,每個神經(jīng)元實現(xiàn)初級視覺特征的提取。權(quán)值共享使得CNN所需要訓(xùn)練的參數(shù)大量減少,從而減少了對訓(xùn)練樣本的需求。次抽樣可減少特征圖的分辨率,從而實現(xiàn)對位移、縮放和其他形式扭曲的不變性。
1.1 卷積層
在卷積層中,前一層特征圖與一個可以學(xué)習(xí)的卷積核進行卷積運算,將結(jié)果通過一個激活函數(shù)后得到的輸出結(jié)果構(gòu)成這一卷積層的特征圖。每個特征圖可與前一層的一個或多個特征圖的卷積結(jié)果建立關(guān)系。一般的,卷積層的形式為:
式中,l為層數(shù);k為卷積核;Mj為輸入特征圖的一個選擇;b為每個輸出圖的偏置。
1.2 次抽樣層
每個次抽樣層對輸入圖進行抽樣運算。次抽樣層的特征圖個數(shù)與輸入特征圖個數(shù)保持一致。但是抽樣特征圖的尺寸為原特征圖的1/4,如原圖大小為M×N,特征圖為M/2×N/2。次抽樣層的一般表示形式為:
式中,down(x)表示次抽樣函數(shù),一般為對輸入圖像的n×n區(qū)域的求和,在本文中n=2。此外每個輸出特征圖有各自的β和b。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
本文所使用的網(wǎng)絡(luò)結(jié)構(gòu)包含輸入層(InPut),卷積層(C1、C2),次抽樣層(S1、S2)和輸出層(OutPut)共6層,如圖1所示。
cDWI和b閾值圖方法作為臨床DWI擴展工具,既保留了常規(guī)DWI的特點——顯示病灶的擴散受限程度進而反映腫瘤細胞密度,又具有較為明顯的優(yōu)勢。從技術(shù)層面而言,這兩種技術(shù)都是以常規(guī)掃描DWI為基礎(chǔ),無需使用新的掃描序列或者增加掃描時間,但圖像質(zhì)量較掃描的高b值DWI明顯提高,而且使用簡單。cDWI和b閾值圖能較好抑制胰腺癌背景信號,擴大周邊組織與腫瘤的對比度,因此既能提高病灶的檢出率又能夠非常清晰地顯示病灶輪廓,可以輔助常規(guī)MRI進行腫瘤的診斷和鑒別診斷。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
1)InPut為28×28的輸入圖像,圖像需要為灰度圖像。
2)C1包含6個特征圖,每個特征圖與輸入圖的5 鄰域建立鏈接,每個特征圖的大小為24×24。
3)S1包含6個12×12大小的特征圖,由C1次抽樣得到,每個特征圖與C1中的一個特征圖對應(yīng),且每個神經(jīng)元與相應(yīng)特征圖的2×2鄰域相連。
4)C2由12個大小為8×8的特征圖組成,特征圖的每個神經(jīng)元與S1的若干特征圖的5×5鄰域相鏈接。表1表示了C2和S1的鏈接方式,其中每一列代表C2的12個特征圖,每一行代表S1的6個特征圖,X代表兩個特征圖鏈接,如C2的特征圖1與S1中的特征圖1、2、3相鏈接。
5)S2層由12個4×4的特征圖組成,由C2抽樣得到,特征圖的每個神經(jīng)元與對應(yīng)特征圖的2×2鄰域相鏈接。
6)OutPut由10個神經(jīng)元組成,這些神經(jīng)元同時構(gòu)成了分類器,對應(yīng)輸入圖像的類別。
表1 S1與C2的連接方式
2.2 輸出層設(shè)計
表2 輸出層編碼
3.1 數(shù)據(jù)采集
本次的數(shù)據(jù)采集工作主要包括兩部分:背景的采集,主要通過SOSO街景地圖進行采集;限速牌的采集,由于采取SOSO街景地圖采集較慢,因此采用百度圖片收索。本次實驗總共采得原始圖片157張,部分數(shù)據(jù)如圖2所示。
圖2 限速牌圖片
3.2 數(shù)據(jù)處理
3.2.1 數(shù)據(jù)樣本擴充
為了使采集樣本數(shù)據(jù)具有更好的代表性,本次實驗采用如下方式對灰度化后的原始數(shù)據(jù)進行擴充,得到更加多樣化的樣本集。
1) 將圖像的灰度分別乘以[0.8、0.9、1.1、1.2]后取整,大于255的全部設(shè)為255;處理后得到628張圖像。
2)將圖像按[0.93、1.05]比例縮放后得到314張圖像。
3.2.2 歸一化
由于本次實驗所使用網(wǎng)絡(luò)結(jié)構(gòu)中的輸入層為28×28的輸入圖像,因此需要將擴充得到的1 099張圖像轉(zhuǎn)換為大小為28×28圖像,該步驟使用Photoshop軟件進行批處理,在批處理過程中5 km/h的2張圖以及背景中1張圖處理失敗,因而最終歸一化后的圖像樣本僅有1 096張。
3.3 樣本數(shù)量統(tǒng)計
本次實驗使用的數(shù)據(jù)統(tǒng)計情況如表3所示,其中使用的樣本數(shù)為訓(xùn)練樣本與測試樣本之和。
表3 樣本數(shù)目統(tǒng)計
4.1 網(wǎng)絡(luò)訓(xùn)練
本次實驗使用893個訓(xùn)練樣本分別進行了迭代次數(shù)不同的訓(xùn)練。迭代次數(shù)分別為:10、50、150,得到3個不同性能的網(wǎng)絡(luò)。訓(xùn)練所花費時間分別為:迭代10次:119.949 933 s;迭代50次:601.392 847 s;迭代150次:1 879.194 572 s。
4.2 網(wǎng)絡(luò)測試
本次實驗使用383個測試樣本,其中200個測試樣本不包含在訓(xùn)練樣本(代號OUT)中,183個屬于訓(xùn)練樣本(代號IN)。分別利用迭代10次、迭代50次、迭代150次建立的CNN結(jié)構(gòu)進行測試,識別樣本數(shù)為RN,未識別樣本數(shù)為URN,結(jié)果見表4。
表4 網(wǎng)絡(luò)測試結(jié)果
4.3 結(jié)果分析
由上述實驗可知,通過10次訓(xùn)練,網(wǎng)絡(luò)幾乎不具備識別功能,訓(xùn)練樣本識別率小于30%,而非訓(xùn)練樣本幾乎無法識別。通過增加迭代次數(shù),在迭代50次時,網(wǎng)絡(luò)對訓(xùn)練樣本已具有良好的識別效果,可以看到183 個訓(xùn)練樣本全數(shù)識別成功,但這時網(wǎng)絡(luò)對非訓(xùn)練樣本僅具有初步的識別能力,只能識別非訓(xùn)練樣本中的少部分樣本,識別率小于20%。而且此時再增加迭代次數(shù)已不能增強網(wǎng)絡(luò)的識別能力,可以從表4看到,迭代50次和迭代150次的結(jié)果一模一樣,也就是說,當(dāng)?shù)螖?shù)達到50以上時,網(wǎng)絡(luò)的識別能力不再受迭代次數(shù)影響,此時決定網(wǎng)絡(luò)識別能力的主要因素為訓(xùn)練樣本集的好壞。
通過上述的實驗過程得出2條結(jié)論:
1)訓(xùn)練樣本的優(yōu)劣對網(wǎng)絡(luò)的識別能力有重大影響,只有當(dāng)訓(xùn)練樣本具有充分的代表性和普遍性時,網(wǎng)絡(luò)才能具有良好的識別效果。
2)迭代次數(shù)對網(wǎng)絡(luò)的識別能力具有一定影響,這種影響隨著迭代次數(shù)的增加而減弱。
本文在介紹CNN的基礎(chǔ)上,設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡(luò)的能夠識別限速牌的網(wǎng)絡(luò)模型。通過實驗可知,該網(wǎng)絡(luò)對訓(xùn)練樣本集具有很好的識別效果,對非訓(xùn)練樣本集也有一定的識別能力。在實際應(yīng)用中,只需保證訓(xùn)練樣本集具有充分的代表性,所得到的網(wǎng)絡(luò)即可用于限速牌的識別系統(tǒng)進行車輛超速預(yù)警。
在今后的研究中可以試驗不同網(wǎng)絡(luò)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),尋找更加適合限速牌識別的網(wǎng)絡(luò)結(jié)構(gòu);將CNN與視頻相結(jié)合,設(shè)計基于視頻和CNN的限速牌識別系統(tǒng)。
[1] 王海軍.基于限速牌數(shù)據(jù)的識別算法研究[J].信息技術(shù),2014(8)∶299-300
[2] 趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J].系統(tǒng)仿真學(xué)報, 2010,22(3)∶639-641
[3] 高學(xué),王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學(xué)學(xué)報∶自然科學(xué)版,2014,42(1)∶72-75
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報∶自然科學(xué)版,2011,34(4)∶425-428
[5] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012,29(8)∶2 806-2 810
[6] 段寶彬,韓立新.改進的深度卷積網(wǎng)絡(luò)及在碎紙片拼接中的應(yīng)用[J].計算機工程與應(yīng)用,2014,50(9)∶176-181
[7] Zouxy. Convolutional Neural Networks卷積神經(jīng)網(wǎng)絡(luò)[EB/ OL]. http∶//blog.csdn.net/zouxy09/article/details/8781543, 2013-04-10/2014-09-20
P208
B
1672-4623(2016)01-0031-03
10.3969/j.issn.1672-4623.2016.01.009
楊航,碩士,研究方向為數(shù)字圖像處理與信息提取等。
2014-09-26。