楊 航,張鑫淼,楊 沖
(1. 武漢大學 遙感信息工程學院,湖北 武漢 430079)
基于卷積神經(jīng)網(wǎng)絡的公路限速牌識別方法
楊 航1,張鑫淼1,楊 沖1
(1. 武漢大學 遙感信息工程學院,湖北 武漢 430079)
首先詳細介紹了卷積神經(jīng)網(wǎng)絡(CNN)的原理和特點,然后設計了一種基于卷積神經(jīng)網(wǎng)絡的能夠識別限速牌的網(wǎng)絡模型,最后對未來研究方向進行了展望。實驗結果表明,該模型對訓練樣本具有良好的識別能力,且對非訓練樣本也具有一定識別能力,具有實際應用價值。
限速牌;CNN;公路;識別
公路車輛限速牌(以下簡稱限速牌)識別對于現(xiàn)代移動導航系統(tǒng)具有重要意義,高效的限速牌識別系統(tǒng)能有效防止超速事件的發(fā)生,對于保障駕駛?cè)藛T的安全、減少交通事故的發(fā)生具有重要意義[1]。傳統(tǒng)的限速牌識別系統(tǒng),利用的是導航系統(tǒng)中自帶的靜態(tài)地圖。這種方式的靈活性越來越不能滿足現(xiàn)代城市建設發(fā)展的需要,如當某道路進行翻修時,其最大速度必然會降低,而靜態(tài)地圖不能實時更新,滿足不了用戶需求。
近幾年,一些頂級的汽車制造廠商開始將視覺導航系統(tǒng)引入其高端車型。這些系統(tǒng)大多數(shù)利用人工神經(jīng)網(wǎng)絡 (ANN)或支持向量機 (SVM)進行限速牌識別。不可否認,該方式能有效識別限速牌,但其算法的實現(xiàn)需消耗大量時間,且對于不同城市的限速牌需重新設計算法,實際應用有限。然而CNN作為監(jiān)督型網(wǎng)絡克服了ANN和SVM的不足,能夠通過簡單的訓練實現(xiàn)有效地限速牌識別,具有廣闊的應用前景。
CNN是近年發(fā)展起來的,并引起廣泛重視的一種高效識別方法[2]。由于該網(wǎng)絡無需對圖像進行復雜的前期預處理,可直接輸入原始圖像,因而在圖像模式識別領域得到廣泛應用。
CNN通過3個特性(局域感受野、權值共享和次抽樣)來實現(xiàn)位移識別、縮放和扭曲不變性[3]。其中局域感受野是指每一個卷積層上的神經(jīng)元只與上一層中的一個小鄰域內(nèi)的神經(jīng)元鏈接,通過局域感受野,每個神經(jīng)元實現(xiàn)初級視覺特征的提取。權值共享使得CNN所需要訓練的參數(shù)大量減少,從而減少了對訓練樣本的需求。次抽樣可減少特征圖的分辨率,從而實現(xiàn)對位移、縮放和其他形式扭曲的不變性。
1.1 卷積層
在卷積層中,前一層特征圖與一個可以學習的卷積核進行卷積運算,將結果通過一個激活函數(shù)后得到的輸出結果構成這一卷積層的特征圖。每個特征圖可與前一層的一個或多個特征圖的卷積結果建立關系。一般的,卷積層的形式為:
式中,l為層數(shù);k為卷積核;Mj為輸入特征圖的一個選擇;b為每個輸出圖的偏置。
1.2 次抽樣層
每個次抽樣層對輸入圖進行抽樣運算。次抽樣層的特征圖個數(shù)與輸入特征圖個數(shù)保持一致。但是抽樣特征圖的尺寸為原特征圖的1/4,如原圖大小為M×N,特征圖為M/2×N/2。次抽樣層的一般表示形式為:
式中,down(x)表示次抽樣函數(shù),一般為對輸入圖像的n×n區(qū)域的求和,在本文中n=2。此外每個輸出特征圖有各自的β和b。
2.1 網(wǎng)絡結構設計
本文所使用的網(wǎng)絡結構包含輸入層(InPut),卷積層(C1、C2),次抽樣層(S1、S2)和輸出層(OutPut)共6層,如圖1所示。
cDWI和b閾值圖方法作為臨床DWI擴展工具,既保留了常規(guī)DWI的特點——顯示病灶的擴散受限程度進而反映腫瘤細胞密度,又具有較為明顯的優(yōu)勢。從技術層面而言,這兩種技術都是以常規(guī)掃描DWI為基礎,無需使用新的掃描序列或者增加掃描時間,但圖像質(zhì)量較掃描的高b值DWI明顯提高,而且使用簡單。cDWI和b閾值圖能較好抑制胰腺癌背景信號,擴大周邊組織與腫瘤的對比度,因此既能提高病灶的檢出率又能夠非常清晰地顯示病灶輪廓,可以輔助常規(guī)MRI進行腫瘤的診斷和鑒別診斷。
圖1 網(wǎng)絡結構圖
1)InPut為28×28的輸入圖像,圖像需要為灰度圖像。
2)C1包含6個特征圖,每個特征圖與輸入圖的5 鄰域建立鏈接,每個特征圖的大小為24×24。
3)S1包含6個12×12大小的特征圖,由C1次抽樣得到,每個特征圖與C1中的一個特征圖對應,且每個神經(jīng)元與相應特征圖的2×2鄰域相連。
4)C2由12個大小為8×8的特征圖組成,特征圖的每個神經(jīng)元與S1的若干特征圖的5×5鄰域相鏈接。表1表示了C2和S1的鏈接方式,其中每一列代表C2的12個特征圖,每一行代表S1的6個特征圖,X代表兩個特征圖鏈接,如C2的特征圖1與S1中的特征圖1、2、3相鏈接。
5)S2層由12個4×4的特征圖組成,由C2抽樣得到,特征圖的每個神經(jīng)元與對應特征圖的2×2鄰域相鏈接。
6)OutPut由10個神經(jīng)元組成,這些神經(jīng)元同時構成了分類器,對應輸入圖像的類別。
表1 S1與C2的連接方式
2.2 輸出層設計
表2 輸出層編碼
3.1 數(shù)據(jù)采集
本次的數(shù)據(jù)采集工作主要包括兩部分:背景的采集,主要通過SOSO街景地圖進行采集;限速牌的采集,由于采取SOSO街景地圖采集較慢,因此采用百度圖片收索。本次實驗總共采得原始圖片157張,部分數(shù)據(jù)如圖2所示。
圖2 限速牌圖片
3.2 數(shù)據(jù)處理
3.2.1 數(shù)據(jù)樣本擴充
為了使采集樣本數(shù)據(jù)具有更好的代表性,本次實驗采用如下方式對灰度化后的原始數(shù)據(jù)進行擴充,得到更加多樣化的樣本集。
1) 將圖像的灰度分別乘以[0.8、0.9、1.1、1.2]后取整,大于255的全部設為255;處理后得到628張圖像。
2)將圖像按[0.93、1.05]比例縮放后得到314張圖像。
3.2.2 歸一化
由于本次實驗所使用網(wǎng)絡結構中的輸入層為28×28的輸入圖像,因此需要將擴充得到的1 099張圖像轉(zhuǎn)換為大小為28×28圖像,該步驟使用Photoshop軟件進行批處理,在批處理過程中5 km/h的2張圖以及背景中1張圖處理失敗,因而最終歸一化后的圖像樣本僅有1 096張。
3.3 樣本數(shù)量統(tǒng)計
本次實驗使用的數(shù)據(jù)統(tǒng)計情況如表3所示,其中使用的樣本數(shù)為訓練樣本與測試樣本之和。
表3 樣本數(shù)目統(tǒng)計
4.1 網(wǎng)絡訓練
本次實驗使用893個訓練樣本分別進行了迭代次數(shù)不同的訓練。迭代次數(shù)分別為:10、50、150,得到3個不同性能的網(wǎng)絡。訓練所花費時間分別為:迭代10次:119.949 933 s;迭代50次:601.392 847 s;迭代150次:1 879.194 572 s。
4.2 網(wǎng)絡測試
本次實驗使用383個測試樣本,其中200個測試樣本不包含在訓練樣本(代號OUT)中,183個屬于訓練樣本(代號IN)。分別利用迭代10次、迭代50次、迭代150次建立的CNN結構進行測試,識別樣本數(shù)為RN,未識別樣本數(shù)為URN,結果見表4。
表4 網(wǎng)絡測試結果
4.3 結果分析
由上述實驗可知,通過10次訓練,網(wǎng)絡幾乎不具備識別功能,訓練樣本識別率小于30%,而非訓練樣本幾乎無法識別。通過增加迭代次數(shù),在迭代50次時,網(wǎng)絡對訓練樣本已具有良好的識別效果,可以看到183 個訓練樣本全數(shù)識別成功,但這時網(wǎng)絡對非訓練樣本僅具有初步的識別能力,只能識別非訓練樣本中的少部分樣本,識別率小于20%。而且此時再增加迭代次數(shù)已不能增強網(wǎng)絡的識別能力,可以從表4看到,迭代50次和迭代150次的結果一模一樣,也就是說,當?shù)螖?shù)達到50以上時,網(wǎng)絡的識別能力不再受迭代次數(shù)影響,此時決定網(wǎng)絡識別能力的主要因素為訓練樣本集的好壞。
通過上述的實驗過程得出2條結論:
1)訓練樣本的優(yōu)劣對網(wǎng)絡的識別能力有重大影響,只有當訓練樣本具有充分的代表性和普遍性時,網(wǎng)絡才能具有良好的識別效果。
2)迭代次數(shù)對網(wǎng)絡的識別能力具有一定影響,這種影響隨著迭代次數(shù)的增加而減弱。
本文在介紹CNN的基礎上,設計了一種基于卷積神經(jīng)網(wǎng)絡的能夠識別限速牌的網(wǎng)絡模型。通過實驗可知,該網(wǎng)絡對訓練樣本集具有很好的識別效果,對非訓練樣本集也有一定的識別能力。在實際應用中,只需保證訓練樣本集具有充分的代表性,所得到的網(wǎng)絡即可用于限速牌的識別系統(tǒng)進行車輛超速預警。
在今后的研究中可以試驗不同網(wǎng)絡結構的卷積神經(jīng)網(wǎng)絡,尋找更加適合限速牌識別的網(wǎng)絡結構;將CNN與視頻相結合,設計基于視頻和CNN的限速牌識別系統(tǒng)。
[1] 王海軍.基于限速牌數(shù)據(jù)的識別算法研究[J].信息技術,2014(8)∶299-300
[2] 趙志宏,楊紹普,馬增強.基于卷積神經(jīng)網(wǎng)絡LeNet-5的車牌字符識別研究[J].系統(tǒng)仿真學報, 2010,22(3)∶639-641
[3] 高學,王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學學報∶自然科學版,2014,42(1)∶72-75
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡的多字體字符識別[J].浙江師范大學學報∶自然科學版,2011,34(4)∶425-428
[5] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8)∶2 806-2 810
[6] 段寶彬,韓立新.改進的深度卷積網(wǎng)絡及在碎紙片拼接中的應用[J].計算機工程與應用,2014,50(9)∶176-181
[7] Zouxy. Convolutional Neural Networks卷積神經(jīng)網(wǎng)絡[EB/ OL]. http∶//blog.csdn.net/zouxy09/article/details/8781543, 2013-04-10/2014-09-20
P208
B
1672-4623(2016)01-0031-03
10.3969/j.issn.1672-4623.2016.01.009
楊航,碩士,研究方向為數(shù)字圖像處理與信息提取等。
2014-09-26。