楊瑩,張海仙(四川大學(xué)軟件學(xué)院,成都 610065)
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
楊瑩,張海仙
(四川大學(xué)軟件學(xué)院,成都610065)
圖像識(shí)別技術(shù)的基礎(chǔ)是分析圖像的主要特征,正如人類的圖像識(shí)別過程,復(fù)雜圖像的識(shí)別需要經(jīng)過多個(gè)層次信息的整合以及加工,才能夠?qū)⒎稚⒌膶?duì)圖像單個(gè)特征的認(rèn)知識(shí)別進(jìn)行整合,形成對(duì)圖像的最終識(shí)別分類。相類似的,如何讓計(jì)算機(jī)在進(jìn)行數(shù)字圖像處理時(shí)使用類似的特征提取機(jī)制,對(duì)于圖像的關(guān)鍵特征進(jìn)行提取之后再進(jìn)行整合,從而達(dá)到最終的認(rèn)知分類目的成為近年來(lái)圖像識(shí)別研究的熱點(diǎn)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在諸如手寫數(shù)字識(shí)別以及人臉識(shí)別方面都被證明有著非常出色的表現(xiàn)。如Ciresan 的Deep Neural Networks for Image Classification[1]證明了在NORB和CIFAR-10數(shù)據(jù)集上采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類的效果非常好,同時(shí),Krizhevsky等人在2012 年ImageNet的卷積網(wǎng)絡(luò)模型應(yīng)用中取得16.4%的錯(cuò)誤率更是吸引了全世界的矚目??偟膩?lái)說,卷積神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)的一種,它主要的訓(xùn)練方式同傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(DNN)一樣,都是通過前向計(jì)算輸入與權(quán)值的內(nèi)積得到輸出,之后通過反向傳播(Back Propagation,BP)算法不斷迭代更新權(quán)值,結(jié)合梯度下降方法,最后得到能使整個(gè)網(wǎng)絡(luò)最優(yōu)的權(quán)值。除此之外,相比傳統(tǒng)的DNN,卷積神經(jīng)網(wǎng)絡(luò)的局部感受野方法、權(quán)值共享以及下采樣等手段,對(duì)圖像的位移不變性、旋轉(zhuǎn)不變性都有很大優(yōu)勢(shì)。首先,局部感受野方法很大程度上模擬了人的視覺神經(jīng)系統(tǒng),通過局部印象來(lái)形成最終對(duì)事物辨識(shí)認(rèn)知的過程;權(quán)值共享讓同一特征圖下的連接邊共享龐大的參數(shù)集合;而最具代表性的卷積和池化方法也使得提取的特征更加穩(wěn)定,從而,最終的識(shí)別效果得到提升。本文將針對(duì)不同的數(shù)據(jù)集,通過建立三個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和識(shí)別,通過微調(diào)參數(shù)達(dá)到更好的識(shí)別效果。
1.1模型設(shè)計(jì)
(1)LeNet-5
LeNet-5是Yann LeCun在1998年針對(duì)手寫數(shù)字識(shí)別問題的解決時(shí)提出的一個(gè)深度卷積網(wǎng)絡(luò)模型[2]。LeNet-5同其他的深度神經(jīng)網(wǎng)絡(luò)一樣采用BP算法進(jìn)行權(quán)值訓(xùn)練。
通常在LeNet中使用的激活函數(shù)為sigmoid函數(shù),但是在本文使用的Caffe框架下,實(shí)驗(yàn)使用的是線性修正單元(Rectified Linear Units,ReLU)作為激活函數(shù)。在神經(jīng)元的連接方式上,LeNet采用了CNN網(wǎng)絡(luò)中所特有的局部連接、權(quán)值共享的網(wǎng)絡(luò)構(gòu)造方式。為了模仿生物視覺神經(jīng)網(wǎng)絡(luò)中先進(jìn)行局部的物體感受分析,最后匯總形成認(rèn)知的方式,LeNet采用了局部連接的方式,即一個(gè)隱層神經(jīng)元并不連接全部輸入層神經(jīng)元而是連接部分輸入層神經(jīng)元,從而減少網(wǎng)絡(luò)連接個(gè)數(shù),具體連接方式如圖1所示。
圖1 局部連接圖解
并且,在實(shí)驗(yàn)中卷積時(shí)需要提取多個(gè)特征,所以有多個(gè)特征維度(Feature Map),本文中因?yàn)椴捎昧司S度共享方式,所以每一個(gè)特征維度共享一組權(quán)值。
(2)AlexNet
AlexNet是多 倫多 大學(xué) Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton在2012年參加ImageNet LSVRC比賽上提出的神經(jīng)網(wǎng)絡(luò)模型[3]。在結(jié)構(gòu)上,AlexNet由5個(gè)卷積層、3個(gè)全連接層之后,再加上一個(gè)softmax分類器。相比于其他網(wǎng)絡(luò)模型,AlexNet特點(diǎn)在于,首先,對(duì)于神經(jīng)元的激活函數(shù)拋棄了tanh函數(shù),采用了ReLU函數(shù)進(jìn)行激活;其次,在部分神經(jīng)網(wǎng)絡(luò)層采用了局部響應(yīng)歸一化 (Local Response Normalization)、隨機(jī)刪除(dropout),還有重疊池化(Overlapping Pooling)的手段進(jìn)行過擬合(over-fitting)問題的優(yōu)化;在數(shù)據(jù)集方面,該網(wǎng)絡(luò)采用了擴(kuò)充(Augmentation)方式,在運(yùn)行訓(xùn)練網(wǎng)絡(luò)時(shí)采用了兩個(gè)GPU并行訓(xùn)練策略,加快大圖片集合下的訓(xùn)練速度,幫助提高最終的識(shí)別正確率。
本文中實(shí)驗(yàn)所使用的網(wǎng)絡(luò)模型與原論文提出的AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)上大致一致,主要的不同點(diǎn)在于網(wǎng)絡(luò)的歸一化和池化順序不同,附加的偏差值(bias)也與原論文不同,具體如下:
①采用ReLU函數(shù)進(jìn)行激活:
一般網(wǎng)絡(luò)中神經(jīng)元的輸出激活函數(shù)通常為sigmoid函數(shù),或者是LeNet等網(wǎng)絡(luò)中常見的tanh函數(shù),但是出于訓(xùn)練時(shí)間的考慮,在AlexNet中采取非飽和非線性的函數(shù)ReLU,這種方法是由Nair與Hinton提出來(lái)的[4],它是一種線性修正的方式,通過強(qiáng)制某些數(shù)據(jù)為零,引導(dǎo)網(wǎng)絡(luò)模型具有適度的稀疏性,在訓(xùn)練過程中更快的到達(dá)收斂點(diǎn)。
②局部響應(yīng)歸一化:通過對(duì)比實(shí)驗(yàn)?zāi)軌蜃C明,使用局部響應(yīng)歸一化函數(shù)可以提高準(zhǔn)確率。
③重疊池化:卷積網(wǎng)絡(luò)模型通常都會(huì)在卷積操作過后對(duì)圖像進(jìn)行池化(Pooling)操作,使圖像在平移、旋轉(zhuǎn)后特征有更好的穩(wěn)定性。池化操作一般都不進(jìn)行兩個(gè)池化算子矩陣的交叉重疊,跨越的步長(zhǎng)和算子大小通常是一致的。但是,在AlexNet中,設(shè)置跨越步長(zhǎng)參數(shù)小于算子,通過重疊池化的方式能夠避免過擬合。
1.2實(shí)驗(yàn)數(shù)據(jù)集
①M(fèi)NIST數(shù)據(jù)集:經(jīng)典的開源手寫數(shù)字圖片集合,共有0-9一共十個(gè)數(shù)字的手寫圖片分類,每個(gè)分類下有屬于該分類的平均約1000張單個(gè)手寫數(shù)字的圖片,圖片格式為jpeg格式、8位灰度圖片,像素大小統(tǒng)一為28×28。
②Julia數(shù)據(jù)集:數(shù)據(jù)挖掘競(jìng)賽Kaggle的經(jīng)典開源數(shù)據(jù)集之一,有EnglishImg和EndglishHnd兩個(gè)大分類,EnglishImg分類的圖片是截取自各個(gè)場(chǎng)景圖片下的單個(gè)數(shù)字或者字母,包含了A-Z,a-z,0-9字母和數(shù)字的62個(gè)子分類圖片,每個(gè)分類下有30-120張不等的字母或是數(shù)字圖片,屬于該分類的圖片均為彩色png格式圖像,圖片大小的變化范圍比較大,沒有經(jīng)過格式規(guī)范化處理,每張圖片所呈現(xiàn)的字符或者數(shù)字都是其原有圖片的分辨率。EnglishHnd圖片集分類下的圖片是背景均為白色的手寫數(shù)字或是字母圖片,包含了AZ,a-z,0-9字母和數(shù)字的62個(gè)子分類,每個(gè)子分類下均有55個(gè)手寫數(shù)字、或字母樣本圖片,格式為png格式,圖片大小為1200×900。
③Leaves數(shù)據(jù)集:Leaves數(shù)據(jù)集是來(lái)自于加州理工的一個(gè)開源樹葉圖片集,由Markus Weber在加州理工校園內(nèi)和校園附近拍攝采集,共186張圖片。圖片集下一共三個(gè)子分類,每個(gè)子分類60張圖片,格式為jpeg格式,大小896×592,圖片背景不同。
④CalTech101數(shù)據(jù)集:來(lái)自加州理工的經(jīng)典圖片分類數(shù)據(jù)集,該數(shù)據(jù)集包含有101種不同的實(shí)物,有動(dòng)物、植物、樂器、電子產(chǎn)品等子分類,每個(gè)子分類的圖片數(shù)目從40-800張不等,圖片格式均為jpeg格式,圖片大小不固定,大致在300×200像素。
實(shí)驗(yàn)環(huán)境為Caffe的Digits平臺(tái),實(shí)驗(yàn)過程通過將搜集的數(shù)據(jù)集分別輸入網(wǎng)絡(luò)模型訓(xùn)練,根據(jù)實(shí)驗(yàn)結(jié)果迭代調(diào)整相應(yīng)的網(wǎng)絡(luò)參數(shù),并加入GoogleNet作為網(wǎng)絡(luò)實(shí)驗(yàn)效果對(duì)比,得到不同網(wǎng)絡(luò)針對(duì)不同數(shù)據(jù)集的識(shí)別效果橫向比較結(jié)果。
表1 Leaves分類實(shí)驗(yàn)結(jié)果
如圖2所示,三個(gè)網(wǎng)絡(luò)相比較之下,AlexNet網(wǎng)絡(luò)模型相對(duì)適合Leaves數(shù)據(jù)集分類,而從數(shù)據(jù)集來(lái)說,Leaves樹葉圖片集中樹葉形狀輪廓分明,邊界特征比較明顯容易提取,待識(shí)別的樹葉物體也多集中于圖片的中央位置,且圖片背景變化很小,大概一致,所以實(shí)驗(yàn)后期在已有AlexNet網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上對(duì)原始圖片進(jìn)行了截取操作,讓圖片中心的樹葉形狀得到放大,減少背景部分的干擾噪聲作用,而網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)方面,同時(shí)處理的圖片數(shù)據(jù)量(Batch size)適當(dāng)減小,對(duì)第一層卷積的步長(zhǎng)也進(jìn)行減小,Batch size大小固定在25的時(shí)候,網(wǎng)絡(luò)識(shí)別精確度保持在一個(gè)比較好的范圍內(nèi),得到了最終98%的識(shí)別準(zhǔn)確率。
圖2 Leaves數(shù)據(jù)集在三個(gè)網(wǎng)絡(luò)模型上識(shí)別效果對(duì)比
表2 CalTech分類實(shí)驗(yàn)結(jié)果
CalTech101在識(shí)別難度上具有很高的區(qū)分,首先,CalTech101下面有101個(gè)目錄種類,并且種類之間的相關(guān)性并不強(qiáng),這就對(duì)網(wǎng)絡(luò)模型能夠?qū)W習(xí)多個(gè)相關(guān)度不高的種類有很高要求。另外,每個(gè)子分類下面的訓(xùn)練圖片尺寸和方向都不一致,圖片背景多變,待識(shí)別物體的所處位置也很靈活,不集中于圖片中心,這就加大了網(wǎng)絡(luò)抽取圖片特征的難度,通過實(shí)驗(yàn)分析也發(fā)現(xiàn),原因主要在于處理背景單一。如圖3所示,輪廓特征比較明顯的字母識(shí)別上效率很高的LeNet對(duì)于CalTech101的識(shí)別效果并不明顯,識(shí)別準(zhǔn)確度 Accuracy只有55.34%,同時(shí)存在過擬合的狀況。同樣的,AlexNet表現(xiàn)也與LeNet近似,在調(diào)整batch size之后雖然AlexNet效果有改善,但是準(zhǔn)確度仍然較低。但是,采用網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜的GoogleNet進(jìn)行分類后,所得到的準(zhǔn)確度有了比較明顯的提升。通過實(shí)驗(yàn)結(jié)果可以看出GoogleNet對(duì)于特征復(fù)雜的CalTech101分類效果要好的多,相比LeNet準(zhǔn)確率提高了近20%。
圖3 CalTech數(shù)據(jù)集在GoogleNet網(wǎng)絡(luò)模型上識(shí)別效果
表3 Julia分類實(shí)驗(yàn)結(jié)果
Julia的EnglishImg數(shù)據(jù)集中,圖片主要是針對(duì)單個(gè)的字母數(shù)字的,且沒有經(jīng)過統(tǒng)一的圖片大小規(guī)范化,并且考慮到原始圖片長(zhǎng)寬比相差略大的情況,所以,在輸入之前,對(duì)圖片集統(tǒng)一進(jìn)行了左右兩側(cè)填充噪聲(fill)的處理,便于圖片平衡長(zhǎng)寬比,在輸入網(wǎng)絡(luò)時(shí)對(duì)圖片矩陣處理過程中利于特征計(jì)算。如圖4所示,LeNet 和AlexNet執(zhí)行效果與GoogleNet相比較仍然差距比較大,GoogleNet通過實(shí)驗(yàn)在batch size為25的情況下,能夠達(dá)到準(zhǔn)確率93.62%的效果。
如圖5所示,Mnist中的圖片均是統(tǒng)一大小的8位灰度圖像,分別用LeNet-5和AlexNet進(jìn)行了實(shí)驗(yàn),準(zhǔn)確率都在99%左右。由于Mnist圖片集中的圖片特征與其他圖片集相比起來(lái)較簡(jiǎn)單,需要的卷積提取過程不復(fù)雜;另一方面LeNet-5是針對(duì)于手寫數(shù)字集設(shè)計(jì)的識(shí)別分類設(shè)計(jì)的網(wǎng)絡(luò),所以能夠很好地提取圖片特征達(dá)到較好的分類效果。
圖4 Julia數(shù)據(jù)集在GoogleNet網(wǎng)絡(luò)模型上識(shí)別效果
圖5 MNIST數(shù)據(jù)集在LeNet網(wǎng)絡(luò)模型上識(shí)別效果
卷積神經(jīng)網(wǎng)絡(luò)是目前進(jìn)行圖像模式識(shí)別研究最有效的手段之一,隨著近年來(lái)大數(shù)據(jù)概念的提出,以及硬件計(jì)算能力的不斷增長(zhǎng),卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍更加廣泛,模型本身的強(qiáng)大特征識(shí)別能力也得到充分體現(xiàn),而卷積神經(jīng)網(wǎng)絡(luò)的模型也更加復(fù)雜,卷積層數(shù)也不斷疊加,以此來(lái)進(jìn)行更復(fù)雜的圖像特征抽取,完成更困難的分類任務(wù)。本文針對(duì)不同數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類實(shí)驗(yàn)的設(shè)計(jì)。實(shí)驗(yàn)結(jié)果顯示了不同網(wǎng)絡(luò)在不同數(shù)據(jù)集上分類性能的差異,以及實(shí)驗(yàn)參數(shù)的調(diào)整在提高分類正確率上的作用,對(duì)具體圖像分類的研究及實(shí)驗(yàn)提供了理論與實(shí)踐方面的參考。
[1]Ciresan,D.C.,Meier,J.,and Schmidhuber,J.Multicolumn.Deep Neural Networks for Image Classification[N].CVPR,2012.
[2]Y.LeCun,L.Bottou,Y.Bengio,P.Haffner.Gradient-based Learning Applied to Document Recognition[N].Proceedings of the IEEE, November,1998.
[3]Alex Krizhevsky Ilya Sutskever Geoffrey E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks[N],2012.
[4]V.Nair,G.E.Hinton.Rectified Linear Units Improve Restricted Boltzmann Machines[N].In Proc.27th International Conference on Machine Learning,2010.
Deep Neural Network;Image Recognition;Convolutional Neural Network
Research on Image Classification Based on Convolutional Neural Networks
YANG Ying,ZHANG Hai-xian
(College of Software Engineering,Sichuan University,Chengdu 610065)
國(guó)家自然科學(xué)基金資助項(xiàng)目(61303015)、四川省科技計(jì)劃項(xiàng)目(No.2014GZ0005-5)
1007-1423(2016)05-0067-05
10.3969/j.issn.1007-1423.2016.05.015
楊瑩(1993-),女,云南大理人,本科,研究方向?yàn)闄C(jī)器智能
張海仙(1980-),女,河南鄧州人,博士,副教授,研究方向?yàn)闄C(jī)器智能
2015-12-22
2016-01-15
利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)的分析設(shè)計(jì),實(shí)現(xiàn)一類圖像數(shù)據(jù)的分類研究。實(shí)驗(yàn)過程選取參考性較高的幾個(gè)開源數(shù)據(jù)集,分別應(yīng)用到具體的網(wǎng)絡(luò)模型中進(jìn)行識(shí)別和準(zhǔn)確性對(duì)比,針對(duì)得到的實(shí)驗(yàn)結(jié)果,進(jìn)行分析和改進(jìn),并給出具體的改進(jìn)說明。
深度神經(jīng)網(wǎng)絡(luò);圖像模式識(shí)別;卷積神經(jīng)網(wǎng)絡(luò)
Focuses on image classification of certain datasets by using a convolutional neural network,analyzes the mathematical model on how to design the experiments,chooses several open source datasets,gives the experimental results and an accuracy comparison between models followed with some analysis.