亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類技術(shù)研究與實(shí)現(xiàn)

2017-04-18 13:08:52王超

電腦知識與技術(shù) 2016年35期

關(guān)鍵詞：圖像分類卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

王超

摘要：圖像分類問題一直是計(jì)算機(jī)視覺的一個核心問題，而隨著深度學(xué)習(xí)的發(fā)展，也為我們解決圖像分類中圖像特征提取問題提供了一種很好的解決方法，通過構(gòu)建具有隱層的機(jī)器學(xué)習(xí)模型和海量的圖像訓(xùn)練數(shù)據(jù)，來學(xué)習(xí)更有用的圖像特征，從而最終提升圖像分類或預(yù)測的準(zhǔn)確性。該文使用Caffe深度學(xué)習(xí)框架，構(gòu)建小型的圖像數(shù)據(jù)庫，通過Caffe框架給出的卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)集進(jìn)行訓(xùn)練分析，提取目標(biāo)圖像特征信息，最后對目標(biāo)圖像進(jìn)行預(yù)測，并和傳統(tǒng)的圖像分類算法進(jìn)行對比，預(yù)測的準(zhǔn)確率有很大的提升。

關(guān)鍵詞：圖像分類；深度學(xué)習(xí)；Caffe框架；卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP18 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2016）35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

（Information Engineering Institute，East China University of Technology， Nanchang 330013， China）

Abstract： The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently， constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm， the accuracy of the prediction will be greatly improved.

Key words： image classification； deep learning； Caffe framework； Convolutional Neural Network

隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，我們已經(jīng)進(jìn)入了一個以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境，因而圖像分類技術(shù)應(yīng)運(yùn)而生。通過各種機(jī)器學(xué)習(xí)算法使計(jì)算機(jī)自動將各類圖像進(jìn)行有效管理和分類，但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息，圖像特征提取和相識度匹配技術(shù)也存在一定的難題，要使得計(jì)算機(jī)能夠像人類一樣進(jìn)行分類還是有很大的困難。

深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的重要突破，在圖像識別中的應(yīng)用取得了巨大的進(jìn)步，傳統(tǒng)的機(jī)器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型，神經(jīng)網(wǎng)絡(luò)有大量的參數(shù)，經(jīng)常會出現(xiàn)過擬合問題，因而對目標(biāo)檢測準(zhǔn)確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架，圖像特征是從大數(shù)據(jù)中自動學(xué)習(xí)得到，而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成，通過重復(fù)利用中間層的計(jì)算單元來減少參數(shù)，在特征匯聚階段引入圖像中目標(biāo)的顯著信信息，增強(qiáng)了圖像的特征表達(dá)能力。通過在圖像層次稀疏表示中引入圖像顯著信息，加強(qiáng)了圖像特征的語義信息，得到圖像顯著特征表示，通過實(shí)驗(yàn)測試，效果比傳統(tǒng)的圖像分類算法預(yù)測的準(zhǔn)確度有明顯的提升。

1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法

1.1 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network， ANN）是描述生物神經(jīng)網(wǎng)絡(luò)運(yùn)行機(jī)理和工作過程的抽象和簡化了的數(shù)學(xué)物理模型，使用路徑權(quán)值的有向圖來表示模型中的人工神經(jīng)元節(jié)點(diǎn)和神經(jīng)元之間的連接關(guān)系，之后通過硬件或軟件程序?qū)崿F(xiàn)上述有向圖的運(yùn)行[1]。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括：目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) [2]Hopfield網(wǎng)絡(luò)[3]Boltzmann機(jī)[4]SOFM網(wǎng)絡(luò)[5]以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)[6]，算法流程圖如圖1所示[7]。

1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)

Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫[8]，意為快速特征嵌入的卷積結(jié)構(gòu)，包含最先進(jìn)的深度學(xué)習(xí)算法以及一系列的參考模型，圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴CUDA，IntelMKL，OpenCV，glog軟件以及caffe文件。本文使用的各個軟件版本說明，如表1所示。

Caffe深度學(xué)習(xí)框架提供了多個經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型，卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，利用隱含層的卷積層和池采樣層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能，卷積神經(jīng)網(wǎng)絡(luò)模型通過采取梯度下降法最小化損失函數(shù)對網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié)，通過頻繁的迭代訓(xùn)練來提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享，這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò)，從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低，并且權(quán)值的數(shù)量也有大幅度的減少，本文使用這些模型直接進(jìn)行訓(xùn)練，和傳統(tǒng)的圖像分類算法對比，性能有很大的提升，框架系統(tǒng)訓(xùn)練識別基本流程如圖3表示。

1.3 圖像分類特征提取

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來說，要復(fù)雜得多，每兩層的神經(jīng)元使用了局部連接的方式進(jìn)行連接、神經(jīng)元共享連接權(quán)重以及時間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征，因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低，從而降低計(jì)算時間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個過程，分為卷積和采樣，分別的對上層數(shù)據(jù)進(jìn)行提取抽象和對數(shù)據(jù)進(jìn)行降維的作用。

本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例，如圖4所示，對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。CIFAR-10是一個標(biāo)準(zhǔn)圖像圖像訓(xùn)練集，由六萬張圖像組成，共有10類（分為飛機(jī)，小汽車，鳥，貓，鹿，狗，青蛙，馬，船，卡車），每個圖片都是32×32像素的RGB彩色圖像。通過對數(shù)據(jù)進(jìn)行提取和降維的方法來提取圖像數(shù)據(jù)的特征。

2 實(shí)驗(yàn)分析

將貓的圖像訓(xùn)練集放在train的文件夾下，并統(tǒng)一修改成256×256像素大小，并對貓的圖像訓(xùn)練集進(jìn)行標(biāo)記，標(biāo)簽為1，運(yùn)行選擇cpu進(jìn)行訓(xùn)練，每進(jìn)行10次迭代進(jìn)行一次測試，測試間隔為10次，初始化學(xué)習(xí)率為0.001，每20次迭代顯示一次信息，最大迭代次數(shù)為200次，網(wǎng)絡(luò)訓(xùn)練的動量為0.9，權(quán)重衰退為0.0005，5000次進(jìn)行一次當(dāng)前狀態(tài)的記錄，記錄顯示如下圖5所示，預(yù)測的準(zhǔn)度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢，訓(xùn)練時間長的，網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性，因而卷積神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時間和預(yù)測準(zhǔn)度上具有非常大的優(yōu)勢。

3 結(jié)束語

本文使用Caffe深度學(xué)習(xí)框架，以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例，構(gòu)建小型貓的數(shù)據(jù)集，提取貓的圖象特征信息，最后和目標(biāo)貓圖像進(jìn)行預(yù)測，并和傳統(tǒng)的圖像分類算法進(jìn)行對比，預(yù)測的準(zhǔn)確率有很大的提升。

參考文獻(xiàn)：

[1] 楊錚，吳陳沭，劉云浩. 位置計(jì)算：無線網(wǎng)絡(luò)定位與可定位性[M]. 北京：清華大學(xué)出版社， 2014.

[2] 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)[M]. 哈爾濱：哈爾濱工程大學(xué)出版社， 2008.

[3] McClelland J L， Rumelhart D E， PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition， 1986， 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences， 1982， 79（8）： 2554-2558.

[5] Ackley D H， Hinton G E， Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science， 1985， 9（1）： 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics，1982， 43（1）： 59-69.

[7] Carpenter G A， Grossberg S. A massively parallel architecture for aself-organizing neural pattern recognition machine[J]. Computer visiongraphics， and image processing， 1987， 37（1）： 54-115.

[8] Jia Y， Shelhamer E， Donahue J， et al. Caffe： Convolutional architecture for fast feature embedding[C]//Proceedings of the ACM International Conference on Multimedia. ACM， 2014： 675-678.