許振雷+楊瑞+王鑫春+應文豪
摘要:該文研究了將卷積神經網絡應用在樹葉識別方面,并通過卷積過程對圖片進行可視化。實驗表明,卷積神經網絡應用在樹葉識別達到了92%的識別率。另外,將此神經網絡與支持向量機進行比較研究,從試驗中可以得出,卷積神經網絡在無論是精度方面還是速度方面都要優(yōu)于支持向量機,可見,卷積神經網絡在樹葉識別方面具有很好的應用前景。
關鍵詞:樹葉識別;支持向量機;卷積神經網絡
中圖分類號 TP18 文獻標識碼:A 文章編號:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
樹葉識別與分類在對于區(qū)分樹葉的種類,探索樹葉的起源,對于人類自身發(fā)展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個植物學家都不可能知道所有,樹葉的種類,這給進一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數據時代的到來,這些傳統(tǒng)分類算法暴露出越來越多的不足,如訓練時間過長、特征不易提取等不足。
上世紀60年代開始,學者們相繼提出了各種人工神經網絡[3]模型,其中卷積神經網絡由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應用于圖像領域。其主要特點有:1)輸入圖像不需要預處理;2)特征提取和識別可以同時進行;3)權值共享,大大減少了需要訓練的參數數目,是訓練變得更快,適應性更強。
卷積神經網絡在國內研究才剛剛起步。LeNet-5[4]就是一種卷積神經網絡,最初用于手寫數字識別,本文研究將卷積神經網絡LeNet-5模型改進并應用于樹葉識別中。本文首先介紹一下卷積神經網絡和LeNet-5的結構,進而將其應用于樹葉識別,設計了實驗方案,用卷積神經網絡與傳統(tǒng)的模式識別算法支持向量機(SVM)進行比較,得出了相關結論,并對進一步研究工作進行了展望。
2人工神經網絡
人工神經網絡方面的研究很早就已開展,現(xiàn)在的人工神經網絡已經發(fā)展成了多領域、多學科交叉的獨立的研究領域。神經網絡中最基本的單元是神經元模型。類比生物神經元,當它“興奮”時,就會向相連的神經元發(fā)送化學物質,從而改變這些神經元的狀態(tài)。人工神經元模型如圖1所示:
上述就是一個簡單的神經元模型。在這個模型中,神經元接收來自n個其他神經元傳遞過來的輸入信號,這些信號通過帶權重的w進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過“激活函數”來產生輸出。
一般采用的激活函數是Sigmoid函數,如式1所示:
[σz=11+e-z] (1)
該函數圖像圖2所示:
2.1多層神經網絡
將上述的神經元按一定的層次結構連接起來,就得到了如圖3所示的多層神經網絡:
多層神經網絡具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權重對整個網絡的影響都是特別重要的。在這個網絡中,采用的訓練算法是隨機梯度下降算法[5],由于每一層之間都是全連接,當訓練樣本特別大的時候,訓練需要的時間就會大大增加,由此提出了另一種神經網絡—卷積神經網絡。
2.2卷積神經網絡
卷積神經網絡(CNN)由于在圖像分類任務上取得了非常好的表現(xiàn)而備受人們關注。發(fā)展到今天,CNN在深度學習領域已經成為了一種非常重要的人工神經網絡。卷積神經網絡的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關系并抽象出來,從而達到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:
在該LeNet-5模型中,一共有6層。如上圖所示,網絡輸入是一個28x28的圖像,輸出的是其識別的結果。卷積神經網絡通過多個“卷積層”和“采樣層”對輸入信號進行處理,然后在連接層中實現(xiàn)與輸出目標之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個卷積層由4個特征映射構成,每個特征映射是一個24x24的神經元陣列。采樣層是基于對卷積后的“平面”進行采樣,如圖所示,在第一個采樣層中又4的12x12的特征映射,其中每個神經元與上一層中對應的特征映射的2x2鄰域相連接,并計算輸出??梢?,這種局部相關性的特征提取,由于都是連接著相同的連接權,從而大幅度減少了需要訓練的參數數目[6]。
3實驗研究
為了將LeNet-5卷積網絡用于樹葉識別并檢驗其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:
本文在此基礎上改進了模型,使用了如圖6卷積神經網絡模型:
在此模型中,第一個卷積層是由6個特征映射構成,每個特征映射是一個28*28的神經元陣列,其中每個神經元負責從5*5的區(qū)域通過卷積濾波器提取局部特征,在這里我們進行了可視化分析,如圖7所示:
從圖中可以明顯地看出,卷積網絡可以很好地提取樹葉的特征。為了驗證卷積神經網絡與傳統(tǒng)分類算法之間的性能,本文基于Python語言,CUDA并行計算平臺,訓練同樣大小8類,一共320張的一批訓練樣本,采用交叉驗證的方法,得到了如表1所示的結論。
可見,無論是識別率上,還是訓練時間上,卷積網絡較傳統(tǒng)的支持向量機算法體現(xiàn)出更好地分類性能。
4 總結
本文從人工神經網絡出發(fā),重點介紹了卷積神經網絡模型LeNet-5在樹葉識別上的各種研究并提取了特征且進行了可視化,并與傳統(tǒng)分類算法SVM進行比較。研究表明,該模型應用在樹葉識別上較傳統(tǒng)分類算法取得了較好的結果,對收集的樹葉達到了92%的準確率,并大大減少了訓練所需要的時間。由于卷積神經網絡有如此的優(yōu)點,因此在人臉識別、語音識別、醫(yī)療識別、犯罪識別方面具有很廣泛的應用前景。
本文的研究可以歸納為探討了卷積神經網絡在樹葉識別上的效果,并對比了傳統(tǒng)經典圖像分類算法,取得了較好的分類精度。
然而,本文進行實驗的樣本過少,當數據集過多的時候,這個卷積神經網絡算法的可行性有待我們進一步的研究;另外,最近這幾年,又有很多不同的卷積神經網絡模型出現(xiàn),我們會繼續(xù)試驗其他的神經網絡模型,力求找到更好的分類算法來解決樹葉識別的問題。
參考文獻:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[5]Klein S, Pluim J P W, Staring M, et al. Adaptive Stochastic Gradient Descent Optimisation for Image Registration[J]. International Journal of Computer Vision, 2009, 81(3):227-239.
[6]趙志宏, 楊紹普, 馬增強. 基于卷積神經網絡LeNet-5的車牌字符識別研究[J]. 系統(tǒng)仿真學報, 2010, 22(3):638-641.