亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究

2016-09-24 01:31:38楊瑩張海仙四川大學(xué)軟件學(xué)院成都610065

現(xiàn)代計(jì)算機(jī) 2016年5期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)分類

楊瑩，張海仙（四川大學(xué)軟件學(xué)院，成都　610065）

楊瑩，張海仙
（四川大學(xué)軟件學(xué)院，成都610065）

0　引言

圖像識(shí)別技術(shù)的基礎(chǔ)是分析圖像的主要特征，正如人類的圖像識(shí)別過程，復(fù)雜圖像的識(shí)別需要經(jīng)過多個(gè)層次信息的整合以及加工，才能夠?qū)⒎稚⒌膶?duì)圖像單個(gè)特征的認(rèn)知識(shí)別進(jìn)行整合，形成對(duì)圖像的最終識(shí)別分類。相類似的，如何讓計(jì)算機(jī)在進(jìn)行數(shù)字圖像處理時(shí)使用類似的特征提取機(jī)制，對(duì)于圖像的關(guān)鍵特征進(jìn)行提取之后再進(jìn)行整合，從而達(dá)到最終的認(rèn)知分類目的成為近年來(lái)圖像識(shí)別研究的熱點(diǎn)。

卷積神經(jīng)網(wǎng)絡(luò)（CNN）在諸如手寫數(shù)字識(shí)別以及人臉識(shí)別方面都被證明有著非常出色的表現(xiàn)。如Ciresan 的Deep Neural Networks for Image Classification[1]證明了在NORB和CIFAR-10數(shù)據(jù)集上采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類的效果非常好，同時(shí)，Krizhevsky等人在2012 年ImageNet的卷積網(wǎng)絡(luò)模型應(yīng)用中取得16.4%的錯(cuò)誤率更是吸引了全世界的矚目?？偟膩?lái)說，卷積神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)的一種，它主要的訓(xùn)練方式同傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)（DNN）一樣，都是通過前向計(jì)算輸入與權(quán)值的內(nèi)積得到輸出，之后通過反向傳播（Back Propagation,BP）算法不斷迭代更新權(quán)值，結(jié)合梯度下降方法，最后得到能使整個(gè)網(wǎng)絡(luò)最優(yōu)的權(quán)值。除此之外，相比傳統(tǒng)的DNN，卷積神經(jīng)網(wǎng)絡(luò)的局部感受野方法、權(quán)值共享以及下采樣等手段，對(duì)圖像的位移不變性、旋轉(zhuǎn)不變性都有很大優(yōu)勢(shì)。首先，局部感受野方法很大程度上模擬了人的視覺神經(jīng)系統(tǒng)，通過局部印象來(lái)形成最終對(duì)事物辨識(shí)認(rèn)知的過程；權(quán)值共享讓同一特征圖下的連接邊共享龐大的參數(shù)集合；而最具代表性的卷積和池化方法也使得提取的特征更加穩(wěn)定，從而，最終的識(shí)別效果得到提升。本文將針對(duì)不同的數(shù)據(jù)集，通過建立三個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和識(shí)別，通過微調(diào)參數(shù)達(dá)到更好的識(shí)別效果。

1　實(shí)驗(yàn)設(shè)計(jì)

1.1模型設(shè)計(jì)

（1）LeNet-5

LeNet-5是Yann LeCun在1998年針對(duì)手寫數(shù)字識(shí)別問題的解決時(shí)提出的一個(gè)深度卷積網(wǎng)絡(luò)模型[2]。LeNet-5同其他的深度神經(jīng)網(wǎng)絡(luò)一樣采用BP算法進(jìn)行權(quán)值訓(xùn)練。

通常在LeNet中使用的激活函數(shù)為sigmoid函數(shù)，但是在本文使用的Caffe框架下，實(shí)驗(yàn)使用的是線性修正單元（Rectified Linear Units,ReLU）作為激活函數(shù)。在神經(jīng)元的連接方式上，LeNet采用了CNN網(wǎng)絡(luò)中所特有的局部連接、權(quán)值共享的網(wǎng)絡(luò)構(gòu)造方式。為了模仿生物視覺神經(jīng)網(wǎng)絡(luò)中先進(jìn)行局部的物體感受分析，最后匯總形成認(rèn)知的方式，LeNet采用了局部連接的方式，即一個(gè)隱層神經(jīng)元并不連接全部輸入層神經(jīng)元而是連接部分輸入層神經(jīng)元，從而減少網(wǎng)絡(luò)連接個(gè)數(shù)，具體連接方式如圖1所示。

圖1　局部連接圖解

并且，在實(shí)驗(yàn)中卷積時(shí)需要提取多個(gè)特征，所以有多個(gè)特征維度（Feature Map），本文中因?yàn)椴捎昧司S度共享方式，所以每一個(gè)特征維度共享一組權(quán)值。

（2）AlexNet

AlexNet是多倫多大學(xué) Alex Krizhevsky，Ilya Sutskever，Geoffrey E.Hinton在2012年參加ImageNet LSVRC比賽上提出的神經(jīng)網(wǎng)絡(luò)模型[3]。在結(jié)構(gòu)上，AlexNet由5個(gè)卷積層、3個(gè)全連接層之后，再加上一個(gè)softmax分類器。相比于其他網(wǎng)絡(luò)模型，AlexNet特點(diǎn)在于，首先，對(duì)于神經(jīng)元的激活函數(shù)拋棄了tanh函數(shù)，采用了ReLU函數(shù)進(jìn)行激活；其次，在部分神經(jīng)網(wǎng)絡(luò)層采用了局部響應(yīng)歸一化（Local Response Normalization）、隨機(jī)刪除（dropout），還有重疊池化（Overlapping Pooling）的手段進(jìn)行過擬合（over-fitting）問題的優(yōu)化；在數(shù)據(jù)集方面，該網(wǎng)絡(luò)采用了擴(kuò)充（Augmentation）方式，在運(yùn)行訓(xùn)練網(wǎng)絡(luò)時(shí)采用了兩個(gè)GPU并行訓(xùn)練策略，加快大圖片集合下的訓(xùn)練速度，幫助提高最終的識(shí)別正確率。

本文中實(shí)驗(yàn)所使用的網(wǎng)絡(luò)模型與原論文提出的AlexNet網(wǎng)絡(luò)模型結(jié)構(gòu)上大致一致，主要的不同點(diǎn)在于網(wǎng)絡(luò)的歸一化和池化順序不同，附加的偏差值（bias）也與原論文不同，具體如下：

①采用ReLU函數(shù)進(jìn)行激活：

一般網(wǎng)絡(luò)中神經(jīng)元的輸出激活函數(shù)通常為sigmoid函數(shù)，或者是LeNet等網(wǎng)絡(luò)中常見的tanh函數(shù)，但是出于訓(xùn)練時(shí)間的考慮，在AlexNet中采取非飽和非線性的函數(shù)ReLU，這種方法是由Nair與Hinton提出來(lái)的[4]，它是一種線性修正的方式，通過強(qiáng)制某些數(shù)據(jù)為零，引導(dǎo)網(wǎng)絡(luò)模型具有適度的稀疏性，在訓(xùn)練過程中更快的到達(dá)收斂點(diǎn)。

②局部響應(yīng)歸一化：通過對(duì)比實(shí)驗(yàn)?zāi)軌蜃C明，使用局部響應(yīng)歸一化函數(shù)可以提高準(zhǔn)確率。

③重疊池化：卷積網(wǎng)絡(luò)模型通常都會(huì)在卷積操作過后對(duì)圖像進(jìn)行池化（Pooling）操作，使圖像在平移、旋轉(zhuǎn)后特征有更好的穩(wěn)定性。池化操作一般都不進(jìn)行兩個(gè)池化算子矩陣的交叉重疊，跨越的步長(zhǎng)和算子大小通常是一致的。但是，在AlexNet中，設(shè)置跨越步長(zhǎng)參數(shù)小于算子，通過重疊池化的方式能夠避免過擬合。

1.2實(shí)驗(yàn)數(shù)據(jù)集

①M(fèi)NIST數(shù)據(jù)集：經(jīng)典的開源手寫數(shù)字圖片集合，共有0-9一共十個(gè)數(shù)字的手寫圖片分類，每個(gè)分類下有屬于該分類的平均約1000張單個(gè)手寫數(shù)字的圖片，圖片格式為jpeg格式、8位灰度圖片，像素大小統(tǒng)一為28×28。

②Julia數(shù)據(jù)集：數(shù)據(jù)挖掘競(jìng)賽Kaggle的經(jīng)典開源數(shù)據(jù)集之一，有EnglishImg和EndglishHnd兩個(gè)大分類，EnglishImg分類的圖片是截取自各個(gè)場(chǎng)景圖片下的單個(gè)數(shù)字或者字母，包含了A-Z，a-z，0-9字母和數(shù)字的62個(gè)子分類圖片，每個(gè)分類下有30-120張不等的字母或是數(shù)字圖片，屬于該分類的圖片均為彩色png格式圖像，圖片大小的變化范圍比較大，沒有經(jīng)過格式規(guī)范化處理，每張圖片所呈現(xiàn)的字符或者數(shù)字都是其原有圖片的分辨率。EnglishHnd圖片集分類下的圖片是背景均為白色的手寫數(shù)字或是字母圖片，包含了AZ，a-z，0-9字母和數(shù)字的62個(gè)子分類，每個(gè)子分類下均有55個(gè)手寫數(shù)字、或字母樣本圖片，格式為png格式，圖片大小為1200×900。

③Leaves數(shù)據(jù)集：Leaves數(shù)據(jù)集是來(lái)自于加州理工的一個(gè)開源樹葉圖片集，由Markus Weber在加州理工校園內(nèi)和校園附近拍攝采集，共186張圖片。圖片集下一共三個(gè)子分類，每個(gè)子分類60張圖片，格式為jpeg格式，大小896×592，圖片背景不同。

④CalTech101數(shù)據(jù)集：來(lái)自加州理工的經(jīng)典圖片分類數(shù)據(jù)集，該數(shù)據(jù)集包含有101種不同的實(shí)物，有動(dòng)物、植物、樂器、電子產(chǎn)品等子分類，每個(gè)子分類的圖片數(shù)目從40-800張不等，圖片格式均為jpeg格式，圖片大小不固定，大致在300×200像素。

2　實(shí)驗(yàn)

實(shí)驗(yàn)環(huán)境為Caffe的Digits平臺(tái)，實(shí)驗(yàn)過程通過將搜集的數(shù)據(jù)集分別輸入網(wǎng)絡(luò)模型訓(xùn)練，根據(jù)實(shí)驗(yàn)結(jié)果迭代調(diào)整相應(yīng)的網(wǎng)絡(luò)參數(shù)，并加入GoogleNet作為網(wǎng)絡(luò)實(shí)驗(yàn)效果對(duì)比，得到不同網(wǎng)絡(luò)針對(duì)不同數(shù)據(jù)集的識(shí)別效果橫向比較結(jié)果。

表1　 Leaves分類實(shí)驗(yàn)結(jié)果

如圖2所示，三個(gè)網(wǎng)絡(luò)相比較之下，AlexNet網(wǎng)絡(luò)模型相對(duì)適合Leaves數(shù)據(jù)集分類，而從數(shù)據(jù)集來(lái)說，Leaves樹葉圖片集中樹葉形狀輪廓分明，邊界特征比較明顯容易提取，待識(shí)別的樹葉物體也多集中于圖片的中央位置，且圖片背景變化很小，大概一致，所以實(shí)驗(yàn)后期在已有AlexNet網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上對(duì)原始圖片進(jìn)行了截取操作，讓圖片中心的樹葉形狀得到放大，減少背景部分的干擾噪聲作用，而網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)方面，同時(shí)處理的圖片數(shù)據(jù)量（Batch size）適當(dāng)減小，對(duì)第一層卷積的步長(zhǎng)也進(jìn)行減小，Batch size大小固定在25的時(shí)候，網(wǎng)絡(luò)識(shí)別精確度保持在一個(gè)比較好的范圍內(nèi)，得到了最終98%的識(shí)別準(zhǔn)確率。

圖2　 Leaves數(shù)據(jù)集在三個(gè)網(wǎng)絡(luò)模型上識(shí)別效果對(duì)比

表2　 CalTech分類實(shí)驗(yàn)結(jié)果

CalTech101在識(shí)別難度上具有很高的區(qū)分，首先，CalTech101下面有101個(gè)目錄種類，并且種類之間的相關(guān)性并不強(qiáng)，這就對(duì)網(wǎng)絡(luò)模型能夠?qū)W習(xí)多個(gè)相關(guān)度不高的種類有很高要求。另外，每個(gè)子分類下面的訓(xùn)練圖片尺寸和方向都不一致，圖片背景多變，待識(shí)別物體的所處位置也很靈活，不集中于圖片中心，這就加大了網(wǎng)絡(luò)抽取圖片特征的難度，通過實(shí)驗(yàn)分析也發(fā)現(xiàn)，原因主要在于處理背景單一。如圖3所示，輪廓特征比較明顯的字母識(shí)別上效率很高的LeNet對(duì)于CalTech101的識(shí)別效果并不明顯，識(shí)別準(zhǔn)確度 Accuracy只有55.34%，同時(shí)存在過擬合的狀況。同樣的，AlexNet表現(xiàn)也與LeNet近似，在調(diào)整batch size之后雖然AlexNet效果有改善，但是準(zhǔn)確度仍然較低。但是，采用網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜的GoogleNet進(jìn)行分類后，所得到的準(zhǔn)確度有了比較明顯的提升。通過實(shí)驗(yàn)結(jié)果可以看出GoogleNet對(duì)于特征復(fù)雜的CalTech101分類效果要好的多，相比LeNet準(zhǔn)確率提高了近20%。

圖3　 CalTech數(shù)據(jù)集在GoogleNet網(wǎng)絡(luò)模型上識(shí)別效果

表3　 Julia分類實(shí)驗(yàn)結(jié)果

Julia的EnglishImg數(shù)據(jù)集中，圖片主要是針對(duì)單個(gè)的字母數(shù)字的，且沒有經(jīng)過統(tǒng)一的圖片大小規(guī)范化，并且考慮到原始圖片長(zhǎng)寬比相差略大的情況，所以，在輸入之前，對(duì)圖片集統(tǒng)一進(jìn)行了左右兩側(cè)填充噪聲（fill）的處理，便于圖片平衡長(zhǎng)寬比，在輸入網(wǎng)絡(luò)時(shí)對(duì)圖片矩陣處理過程中利于特征計(jì)算。如圖4所示，LeNet 和AlexNet執(zhí)行效果與GoogleNet相比較仍然差距比較大，GoogleNet通過實(shí)驗(yàn)在batch size為25的情況下，能夠達(dá)到準(zhǔn)確率93.62%的效果。

如圖5所示，Mnist中的圖片均是統(tǒng)一大小的8位灰度圖像，分別用LeNet-5和AlexNet進(jìn)行了實(shí)驗(yàn)，準(zhǔn)確率都在99%左右。由于Mnist圖片集中的圖片特征與其他圖片集相比起來(lái)較簡(jiǎn)單，需要的卷積提取過程不復(fù)雜；另一方面LeNet-5是針對(duì)于手寫數(shù)字集設(shè)計(jì)的識(shí)別分類設(shè)計(jì)的網(wǎng)絡(luò)，所以能夠很好地提取圖片特征達(dá)到較好的分類效果。

圖4　 Julia數(shù)據(jù)集在GoogleNet網(wǎng)絡(luò)模型上識(shí)別效果

圖5　 MNIST數(shù)據(jù)集在LeNet網(wǎng)絡(luò)模型上識(shí)別效果

3　結(jié)語(yǔ)

卷積神經(jīng)網(wǎng)絡(luò)是目前進(jìn)行圖像模式識(shí)別研究最有效的手段之一，隨著近年來(lái)大數(shù)據(jù)概念的提出，以及硬件計(jì)算能力的不斷增長(zhǎng)，卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍更加廣泛，模型本身的強(qiáng)大特征識(shí)別能力也得到充分體現(xiàn)，而卷積神經(jīng)網(wǎng)絡(luò)的模型也更加復(fù)雜，卷積層數(shù)也不斷疊加，以此來(lái)進(jìn)行更復(fù)雜的圖像特征抽取，完成更困難的分類任務(wù)。本文針對(duì)不同數(shù)據(jù)集，利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類實(shí)驗(yàn)的設(shè)計(jì)。實(shí)驗(yàn)結(jié)果顯示了不同網(wǎng)絡(luò)在不同數(shù)據(jù)集上分類性能的差異，以及實(shí)驗(yàn)參數(shù)的調(diào)整在提高分類正確率上的作用，對(duì)具體圖像分類的研究及實(shí)驗(yàn)提供了理論與實(shí)踐方面的參考。

[1]Ciresan,D.C.,Meier,J.,and Schmidhuber,J.Multicolumn.Deep Neural Networks for Image Classification[N].CVPR，2012.

[2]Y.LeCun,L.Bottou,Y.Bengio,P.Haffner.Gradient-based Learning Applied to Document Recognition[N].Proceedings of the IEEE, November，1998.

[3]Alex Krizhevsky Ilya Sutskever Geoffrey E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks[N]，2012.

[4]V.Nair,G.E.Hinton.Rectified Linear Units Improve Restricted Boltzmann Machines[N].In Proc.27th International Conference on Machine Learning，2010.

Deep Neural Network;Image Recognition;Convolutional Neural Network

Research on Image Classification Based on Convolutional Neural Networks

YANG Ying，ZHANG Hai-xian

（College of Software Engineering,Sichuan University,Chengdu 610065）

國(guó)家自然科學(xué)基金資助項(xiàng)目(61303015）、四川省科技計(jì)劃項(xiàng)目（No.2014GZ0005-5）

1007-1423（2016）05-0067-05

10.3969/j.issn.1007-1423.2016.05.015

楊瑩（1993-），女，云南大理人，本科，研究方向?yàn)闄C(jī)器智能

張海仙（1980-），女，河南鄧州人，博士，副教授，研究方向?yàn)闄C(jī)器智能

2015-12-22

2016-01-15

利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)的分析設(shè)計(jì)，實(shí)現(xiàn)一類圖像數(shù)據(jù)的分類研究。實(shí)驗(yàn)過程選取參考性較高的幾個(gè)開源數(shù)據(jù)集，分別應(yīng)用到具體的網(wǎng)絡(luò)模型中進(jìn)行識(shí)別和準(zhǔn)確性對(duì)比，針對(duì)得到的實(shí)驗(yàn)結(jié)果，進(jìn)行分析和改進(jìn)，并給出具體的改進(jìn)說明。

深度神經(jīng)網(wǎng)絡(luò)；圖像模式識(shí)別；卷積神經(jīng)網(wǎng)絡(luò)

Focuses on image classification of certain datasets by using a convolutional neural network,analyzes the mathematical model on how to design the experiments,chooses several open source datasets,gives the experimental results and an accuracy comparison between models followed with some analysis.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究

0 引言

1 實(shí)驗(yàn)設(shè)計(jì)

2 實(shí)驗(yàn)

3 結(jié)語(yǔ)

0　引言

1　實(shí)驗(yàn)設(shè)計(jì)

2　實(shí)驗(yàn)

3　結(jié)語(yǔ)