崔華+紀(jì)宇+李盼儂
摘 要:近年來,高速路的擁堵問題變得越來越嚴(yán)重,傳統(tǒng)的交通擁堵識別采用視頻進行研究,其具有代價昂貴,識別速度慢的缺點。文章提出了一種基于圖片進行交通擁堵識別的方法。因為卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別方面有著識別速度快,適用范圍廣,識別準(zhǔn)確率高的優(yōu)點,所以文章使用了帶有relu激活函數(shù)代替?zhèn)鹘y(tǒng)的sigmod函數(shù)和tanh函數(shù),并引入了dropout層的卷積神經(jīng)網(wǎng)絡(luò)模型GoogleNet,并對網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進行了調(diào)整優(yōu)化,得到了一個交通擁堵圖片識別的改進的GoogleNet改進模型,該模型的樣本內(nèi)測試準(zhǔn)確率達到了98.6%。在對2000張現(xiàn)實高速路上的圖片進行識別測試后,測得其準(zhǔn)確率為96.5%。采用文理特征的傳統(tǒng)方法的高速路交通擁堵圖像識別準(zhǔn)確率為90%。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);GoogleNet模型;擁堵
中圖分類號:TP391.41 文獻標(biāo)志碼:A 文章編號:2095-2945(2018)05-0018-02
Abstract: In recent years, the problem of highway congestion has become more and more serious. Traditional traffic congestion identification is studied by video, which has the disadvantages of high cost and low recognition speed. This paper presents a method of traffic congestion identification based on pictures. Because the convolution neural network (CNN) has the advantages of high recognition speed, wide range of application and high recognition accuracy in image recognition, we use the ReLU activation function instead of the traditional Sigmod function and Tanh function, and introduce the Dropout layer convolution neural network model GoogleNet. The network structure and parameters are adjusted and optimized, and an improved GoogleNet model for traffic congestion image recognition is obtained. The test accuracy of the model is 98.6%. After the recognition test of 2,000 images on the real highway, the accuracy rate is 96.5%. The recognition accuracy of highway traffic congestion image using traditional methods of literary and scientific features is 90%.
Keywords: convolutional neural network(CNN); GoogleNet model; congestion
1 概述
近年來,隨著社會經(jīng)濟的發(fā)展,我國社會呈現(xiàn)的交通擁堵問題越來越嚴(yán)重,傳統(tǒng)的交通擁堵識別方法基于視頻中車輛的移動速度,這種方法設(shè)備昂貴,代價較高,覆蓋面窄。如今,深度學(xué)習(xí)成為機器學(xué)習(xí)的一個重要研究方向,卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于圖片的識別和分類。
2 CNN的GoogleNet模型結(jié)構(gòu)
CNN的GoogleNet模型是一種由卷積層(convolutional),降采樣層(pooling)和全連接層(full-connected)組成的深度神經(jīng)網(wǎng)絡(luò)模型,它有兩方面的優(yōu)勢:一方面是它是非全連接的型的神經(jīng)元連接方式,另一方面是一層中神經(jīng)元之間是共享權(quán)重的。CNN主要應(yīng)用在語音分析和圖像識別領(lǐng)域,本文采用了經(jīng)典的GoogleNet模型,其模型結(jié)構(gòu)如圖1。
在典型的CNN模型里,前面幾層主要是卷積層和子采樣層,后面是全連接層。一般地,CNN的基本結(jié)構(gòu)包括兩層,其一為特征提取層,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來;其二是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率。
3 基于GoogleNet的高速路交通圖片擁堵識別
3.1 方法流程
對于交通擁堵圖片識別,GoogleNet的處理流程,首先將訓(xùn)練樣本進行大小為256*256的歸一化,為防止出現(xiàn)連續(xù)的劣質(zhì)樣本對實驗結(jié)果產(chǎn)生不良影響,實驗的訓(xùn)練過程中對訓(xùn)練樣本一般采取批處理的方式,即每次隨機迭取固定數(shù)目的訓(xùn)練樣本作為一個批次(epoch),然后將這個批次(epoch)作為輸入,然后通過bp算法對每個批次(epoch)進行一次權(quán)值更新,當(dāng)達到一定的迭代次數(shù)或者誤差達到給定閾值時停止訓(xùn)練。將測試樣本作為輸入數(shù)據(jù),將輸入數(shù)據(jù)輸入訓(xùn)練好的GoogleNet模型中,通過前向傳播進行誤差計算,然后根據(jù)結(jié)果得出分類的結(jié)果。endprint
前向傳播階段包括卷積過程和降采樣過程。
卷積過程:用一個可訓(xùn)練的濾波器fx去卷積一個輸入的圖像,然后加一個偏置bx,得到卷積層Cx.卷積層的形式如(1)所示。其中l(wèi)代表層數(shù),k為卷集合,Mi表示選擇的輸入特征圖的集合,每個輸出特征圖會給一個額外的偏置b。
采樣過程:將圖像的特征提取為卷積特征,然后將卷積特征劃分為數(shù)個n x n的不相交區(qū)域。然后通過ωi+1進行一個加權(quán),再通過增加一個偏置bx+1對結(jié)果進行評估,最后通過一個激活函數(shù)(sigmod),結(jié)果會產(chǎn)生一個縮小n倍的特征映射圖。降采樣層的一般形式如式(2)所示。其中down(·)表示一個下采樣函數(shù)(pooling)。
4 實驗數(shù)據(jù)和分析
4.1 實驗數(shù)據(jù)集
本文的實驗數(shù)據(jù)采自各高速路、城市道路的視頻中采集樣本,部分樣本如圖2所示。本實驗隨機從樣本中每類選擇出7000張作為訓(xùn)練樣本,1000張作為測試樣本。訓(xùn)練樣本和測試樣本不重復(fù),所有的圖片的分辨率歸一化為256x256。
4.2 GoogleNet模型中參數(shù)的選擇
本文主要調(diào)整了GoogleNet模型中的學(xué)習(xí)率、網(wǎng)絡(luò)層數(shù)、各層濾波器數(shù)量和大小。然后通過對比實驗,得出最優(yōu)的學(xué)習(xí)率。然后調(diào)節(jié)該網(wǎng)絡(luò)的層數(shù)、每層卷積核大小及數(shù)量,總結(jié)出了樣本內(nèi)準(zhǔn)確率最高的參數(shù)值,從而提高目分類的準(zhǔn)確率。
學(xué)習(xí)率的影響
本文通過對學(xué)習(xí)率進行線性的調(diào)整,從1開始,每次減小0.01調(diào)整模型的學(xué)習(xí)率,根據(jù)不同的學(xué)習(xí)率對損失函數(shù)產(chǎn)生的影響來進行調(diào)整。學(xué)習(xí)率的初始值為0.1,每次學(xué)習(xí)率遞減0.01進行實驗。實驗結(jié)果顯示當(dāng)學(xué)習(xí)率為0.01時收斂速度最快而且收斂時損失函數(shù)達到最小,所以本實驗選用0.01作為GoogleNet最優(yōu)的學(xué)習(xí)率的值。
4.3 GoogleNet模型網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化
GoogleN模型可以改進的方法有多種,例如在誤差函數(shù)上增加一個懲罰項,通過訓(xùn)練使得權(quán)值參數(shù)趨于稀疏。本文主要是針對GoogleNe中的學(xué)習(xí)率、網(wǎng)絡(luò)層數(shù)、各層濾波器數(shù)量和大小進行實驗和調(diào)整。學(xué)習(xí)率主要用來改變權(quán)值,如果學(xué)習(xí)率選擇的太小,比較容易得到收斂結(jié)果,但收斂速度太慢;如果學(xué)習(xí)率太大,雖然收斂速度比較快,但可能導(dǎo)致?lián)p失函數(shù)曲線震蕩或發(fā)散,出現(xiàn)局部收斂而非全局收斂。
4.4 識別結(jié)果
本文提出的改進的cnn模型的樣本內(nèi)測試準(zhǔn)確率為98.6%。訓(xùn)練樣本為45000張,測試樣本為2000張。樣本外測試準(zhǔn)確率為98.3%,測試樣被為1500張。
5 實驗結(jié)果
本文提出一種基CNN中的GoogleNet模型的交通擁堵圖片識別的方法,GoogleNe模型可以避免顯式特征提取,然后在對大量實驗數(shù)據(jù)的訓(xùn)練中進行隱士學(xué)習(xí)。這使得GoogleNet模型和其他分類器有明顯的區(qū)別。GoogleNet模型通過直接處理灰度圖像,它的優(yōu)點在于可以自動處理圖像,進行圖像的自動分類,然后自動進行目標(biāo)的識別。利用GoogleNet模型,進行多組對比實驗。通過比較實驗結(jié)果選取最佳的學(xué)習(xí)率、網(wǎng)絡(luò)層數(shù)和各層濾波器數(shù)量和尺寸,使得識別的準(zhǔn)確率最高。在接下來的計劃中,我將對模型進行進一步改進,從而進一步提高交通擁堵圖像目標(biāo)識別的準(zhǔn)確率。
參考文獻:
[1]R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75-79,2007.
[2]A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.image-net.org/challenges. 2010.
[3]曲景影,孫顯,高鑫.基于cnn模型的高分辨率遙感圖像目標(biāo)識別[J].國外電子測量技術(shù),2016,08.endprint