亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體數(shù)字識別中的應(yīng)用

        2017-12-11 09:31:41馬媛媛史加榮
        關(guān)鍵詞:池化卷積神經(jīng)網(wǎng)絡(luò)

        馬媛媛,史加榮

        ( 西安建筑科技大學(xué) 理學(xué)院,陜西 西安 710055)

        卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體數(shù)字識別中的應(yīng)用

        馬媛媛,史加榮*

        ( 西安建筑科技大學(xué) 理學(xué)院,陜西 西安 710055)

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),它使機(jī)器學(xué)習(xí)更加接近人工智能。作為深度學(xué)習(xí)的一類經(jīng)典模型,卷積神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于語音識別、圖像識別和自然語言處理等領(lǐng)域中。本文探討了卷積神經(jīng)網(wǎng)絡(luò)的基本原理、實(shí)現(xiàn)及應(yīng)用。首先回顧了卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史,闡述了它的基本原理,研究了卷積層和下采樣層;其次總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)的三大重要特性:稀疏連接、權(quán)值共享和池采樣,并將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在MNIST手寫體數(shù)字識別任務(wù)中;最后指出了卷積神經(jīng)網(wǎng)絡(luò)未來的重點(diǎn)研究方向。

        卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);卷積;下采樣;手寫體數(shù)字識別

        人工智能是一門研究開發(fā)模擬、延伸和擴(kuò)展人類智能的技術(shù),其主要研究內(nèi)容可歸納為四個(gè)方面:機(jī)器感知、機(jī)器思維、機(jī)器行為和機(jī)器學(xué)習(xí)[1]。而機(jī)器學(xué)習(xí)是利用計(jì)算機(jī)、概率論、統(tǒng)計(jì)學(xué)等知識,通過給計(jì)算機(jī)程序輸入數(shù)據(jù),讓計(jì)算機(jī)能夠?qū)W習(xí)新知識和新技能,其最初的研究動機(jī)是為了讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能[2]。深度學(xué)習(xí)是基于學(xué)習(xí)特征的更廣泛的機(jī)器學(xué)習(xí)方法,它試圖在多個(gè)層次中進(jìn)行學(xué)習(xí),其中較高層次的概念是從較低層次的概念中定義的,而較低層次的概念可以幫助定義許多更高層的概念[3]。

        隨著研究的不斷深入,深度學(xué)習(xí)技術(shù)已經(jīng)被應(yīng)用到數(shù)以百計(jì)的實(shí)際問題中,且超出了傳統(tǒng)的多層神經(jīng)網(wǎng)絡(luò)的內(nèi)涵。2006年機(jī)器學(xué)習(xí)領(lǐng)域泰斗Hinton教授提出了利用受限的玻爾茲曼機(jī)進(jìn)行預(yù)訓(xùn)練的方法[4-5],主要觀點(diǎn)為:人工神經(jīng)網(wǎng)絡(luò)模型的層數(shù)越深,其特征學(xué)習(xí)能力越強(qiáng);可通過“逐層訓(xùn)練”的學(xué)習(xí)算法解決深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難題。該方法引發(fā)了深度學(xué)習(xí)在研究和應(yīng)用領(lǐng)域中的浪潮。同年,Hinton等人還提出了一種貪婪的逐層學(xué)習(xí)算法:深度置信網(wǎng)絡(luò),該網(wǎng)絡(luò)先采用無監(jiān)督學(xué)習(xí)對整個(gè)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,再采用監(jiān)督學(xué)習(xí)對整個(gè)網(wǎng)絡(luò)進(jìn)行反向微調(diào)[6]。此后,深度學(xué)習(xí)的各種模型被相繼提出,主要包括:自編碼器[7]、稀疏自編碼器[8]、卷積神經(jīng)網(wǎng)絡(luò)[9]、循環(huán)神經(jīng)網(wǎng)絡(luò)[10]等,其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是深度學(xué)習(xí)的一種較為經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型。

        卷積神經(jīng)網(wǎng)絡(luò)是一類特殊的用于數(shù)據(jù)處理的神經(jīng)網(wǎng)絡(luò),它受視覺系統(tǒng)結(jié)構(gòu)的啟發(fā),由生物學(xué)家Hubel和Wiesel于1962年提出。他們通過對貓的實(shí)驗(yàn)發(fā)現(xiàn):人的視覺系統(tǒng)的信息處理是分級的,初級視覺皮層提取邊緣特征,中級視覺皮層提取形狀或者目標(biāo),更高層的視覺皮層得到特征組合[11]。受此啟發(fā),Lecun等人[12]于1989年提出了卷積神經(jīng)網(wǎng)絡(luò)。此后,卷積神經(jīng)網(wǎng)絡(luò)被廣泛地應(yīng)用于圖像處理、語音識別和時(shí)間序列分析[13]等領(lǐng)域中,并衍生出許多改進(jìn)模型。

        2012年,Krizhevsky等[14]提出了AlexNet模型,該模型為包含8個(gè)學(xué)習(xí)層的卷積神經(jīng)網(wǎng)絡(luò),并在該年ImageNet[15]國際計(jì)算機(jī)視覺挑戰(zhàn)賽中奪得冠軍,這使卷積神經(jīng)網(wǎng)絡(luò)成為學(xué)術(shù)界關(guān)注的焦點(diǎn)。此后,每年的ImageNet挑戰(zhàn)賽中都出現(xiàn)了新的卷積神經(jīng)網(wǎng)絡(luò)模型,這些模型不斷地刷新著AlexNet在ImageNet上創(chuàng)造的記錄。深度卷積神經(jīng)網(wǎng)絡(luò)已成為眾多學(xué)科研究的熱點(diǎn),被廣泛地應(yīng)用于圖像識別[16]、語音識別[17]和自然語言處理[18]等領(lǐng)域中。

        1 卷積神經(jīng)網(wǎng)絡(luò)的基本原理

        卷積神經(jīng)網(wǎng)絡(luò)是一類特殊的深度前饋神經(jīng)網(wǎng)絡(luò),主要由輸入層、隱層、全連接層和輸出層組成,而隱層是由卷積層和下采樣層交替連接的。一個(gè)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型如圖1所示,該模型共七層,其中包括一個(gè)輸入層、兩個(gè)卷積層、兩個(gè)采樣層、一個(gè)全連接層和一個(gè)輸出層。卷積層通過卷積操作提取特征,再通過下采樣操作將提取的特征組合成更加抽象的特征,接著將組合的特征輸入到一個(gè)或多個(gè)全連接層,而全連接層的每一個(gè)神經(jīng)元與前一層的所有神經(jīng)元進(jìn)行全連接,最后一個(gè)全連接層連接到輸出層。下面分別介紹卷積神經(jīng)網(wǎng)絡(luò)的各個(gè)模塊[19]。

        圖1 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖

        1.1輸入層與輸出層

        在輸入層中,一般輸入數(shù)據(jù)是圖像。對于灰度圖像或RGB圖像,像素的取值范圍為0~255,它代表像素灰度。輸出層一般采用softmax邏輯回歸函數(shù)進(jìn)行分類。

        1.2卷積層

        卷積是數(shù)學(xué)分析中一種重要的線性運(yùn)算,是兩個(gè)變量在某范圍內(nèi)逐點(diǎn)相乘求和的結(jié)果[20-21]。在圖像處理中,圖像通常表示成二維矩陣的形式。因此只考慮離散序列情形,且只對二維卷積做闡述。圖2給出了一個(gè)二維卷積操作的例子(不包含卷積核的翻轉(zhuǎn))。在圖2中,左上角為輸入數(shù)據(jù)(4×4矩陣),右上角為卷積核(2×2濾波器),下方為卷積操作結(jié)果(3×3矩陣)。由該圖可以看出,卷積核被重復(fù)地應(yīng)用于整個(gè)輸入數(shù)據(jù)中,最終得到卷積的輸出結(jié)果。

        圖2 二維卷積運(yùn)算示意圖

        (1)

        1.3下采樣層

        下采樣層也稱池化層[19-24],它可以大大減少神經(jīng)元的個(gè)數(shù),在一定程度上降低網(wǎng)絡(luò)的擬合程度。下采樣層旨在通過降低特征維數(shù)來獲得具有空間不變性的特征。池化就是將輸入圖像進(jìn)行縮小,這在一定程度上保留了一些重要或者突出的信息。常用的池化方法有最大池化(max pooling)或均值池化(average pooling)[24-25]。最大池化是指取采樣區(qū)域中的最大值作為像素值,該方法特別適用于分離特別稀疏的特征的情形。圖3給出了最大池化運(yùn)算示意圖。在圖3中,9×9的原始數(shù)據(jù)按2×2的大小大致被分成3×3的分塊矩陣,而每個(gè)子塊矩陣用其最大值來代替。通過最大池化運(yùn)算,9×9的矩陣被縮小為3×3的矩陣。

        圖3 最大池化運(yùn)算示意圖

        均值池化是指取采樣區(qū)域內(nèi)所有值的均值作為結(jié)果的輸出值,該方法用到了采樣區(qū)域內(nèi)所有的采樣點(diǎn)。圖4給出了均值池化運(yùn)算示意圖,其左邊為輸入數(shù)據(jù),右邊為經(jīng)過均值池化運(yùn)算后的輸出矩陣。在進(jìn)行均值池化運(yùn)算時(shí),取輸入圖像中每一個(gè)大小為2×2的子塊的平均值作為輸出像素值,如果子塊大小不足 ,則用0補(bǔ)充。經(jīng)過均值池化操作后,一幅圖像大約也縮小為原來的四分之一。

        圖4 平均池采樣運(yùn)算示意圖

        (2)

        1.4全連接層

        全連接層可以整合卷積層或者下采樣層中具有類別判別性的局部信息[26]。為了提升卷積神經(jīng)網(wǎng)絡(luò)的性能,全連接層的每個(gè)神經(jīng)元的激勵(lì)函數(shù)可采用ReLU函數(shù)[27]或者其他非線性函數(shù),其中,ReLU函數(shù)為f(x)=max(0,x)。與sigmoid、tanh等函數(shù)相比,ReLU的數(shù)學(xué)公式簡單,且只有一個(gè)閾值0,因此它可以避免梯度彌散現(xiàn)象。全連接層的主要目的是維度變換,即把高維分布式特征表示變成低維的樣本標(biāo)記。在這個(gè)過程中,有用的信息被保留下來,但會損失特征的位置信息。

        2 卷積神經(jīng)網(wǎng)絡(luò)的重要特性

        卷積神經(jīng)網(wǎng)絡(luò)有三大重要特性:稀疏連接、權(quán)值共享和池采樣,它們可以幫助改善機(jī)器學(xué)習(xí)系統(tǒng)。這些特性使卷積神經(jīng)網(wǎng)絡(luò)在一定程度上具有平移、縮放和扭轉(zhuǎn)不變性。

        2.1稀疏連接

        卷積神經(jīng)網(wǎng)絡(luò)是對BP神經(jīng)網(wǎng)絡(luò)的改進(jìn),它們都采用信號的正向傳播計(jì)算輸出值,且使用誤差的反向傳播對模型進(jìn)行監(jiān)督訓(xùn)練。但卷積神經(jīng)網(wǎng)絡(luò)的相鄰層之間并不是全連接,而是稀疏連接或部分連接,即某個(gè)神經(jīng)元的感知區(qū)域來自于上層的部分神經(jīng)元。例如,在處理圖像時(shí),輸入圖像可能具有數(shù)千甚至數(shù)百萬個(gè)像素,但偵測到有意義的特征只占很小的一部分,如內(nèi)核邊緣只占據(jù)幾十或幾百個(gè)像素。換言之,我們需要存儲更少的參數(shù),既能減少模型的內(nèi)存需求,又能提高統(tǒng)計(jì)效率[19,24,27]。卷積神經(jīng)網(wǎng)絡(luò)采用稀疏連接的方法,從而限制了每個(gè)輸出可能具有的連接數(shù)。假設(shè)有m個(gè)輸入節(jié)點(diǎn)和n個(gè)輸出節(jié)點(diǎn),全連接方法需要m×n個(gè)參數(shù);而稀疏連接的方法限制了每個(gè)輸出可能具有的連接數(shù)k(k遠(yuǎn)遠(yuǎn)小于m),有k×n個(gè)參數(shù)。圖5給出了神經(jīng)元之間的全連接示意圖, 圖6給出了神經(jīng)元之間的稀疏連接示意圖。以輸入節(jié)點(diǎn)x3及輸出節(jié)點(diǎn)S為例,全連接中的所有輸出節(jié)點(diǎn)都受到x3的影響,而稀疏連接只有三個(gè)輸出節(jié)點(diǎn)受x3影響。

        圖5 全連接示意圖

        圖6 稀疏連接示意圖

        2.2權(quán)值共享

        在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,當(dāng)計(jì)算某層的輸出時(shí),權(quán)值矩陣的每個(gè)元素只被使用了一次。而在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核共享相同的參數(shù),即相同的權(quán)值矩陣和偏置。權(quán)值共享是卷積核的參數(shù)共享,參數(shù)共享并不影響前向傳播的計(jì)算復(fù)雜度,并且還降低了網(wǎng)絡(luò)復(fù)雜度[19,24,28]。

        2.3池化

        卷積層在獲得圖像特征之后,可以利用所提取的特征進(jìn)行分類器訓(xùn)練,但這通常會產(chǎn)生極大的計(jì)算量。因此,在獲取圖像的卷積特征后,通過池化方法對卷積特征進(jìn)行降維,且在一定程度上保留了一些重要或者突出的信息[24,29]。當(dāng)下采樣區(qū)域?yàn)樘卣饔成涞倪B續(xù)區(qū)域時(shí),得到的下采樣單元具有平移不變性。

        3 卷積神經(jīng)網(wǎng)絡(luò)在MNIST數(shù)據(jù)集中的應(yīng)用

        3.1 MNIST數(shù)據(jù)集簡介

        MNIST數(shù)據(jù)集是一個(gè)非常簡單的手寫體數(shù)字識別數(shù)據(jù)集(http://yann.lecun.com/exdb/mnist/),包含0~9共10類手寫體數(shù)字圖像,每幅圖像大小為28×28。將此數(shù)據(jù)集分成60000個(gè)訓(xùn)練樣本和10000個(gè)測試樣本[30-31]。本文的算法在Matlab R2014a版本中編碼,并在具有2.9GHz CPU的電腦上運(yùn)行。本文參考DeepLearnToolbox的代碼[31],其網(wǎng)址如下:

        https://github.com/rasmusbergpalm/DeepLearnToolbox

        手寫體數(shù)字識別是字符識別領(lǐng)域中最具挑戰(zhàn)性的課題,有很大的難度,主要原因如下。由于書寫者的因素,字符圖像的隨意性很大;對于同一個(gè)數(shù)字而言,寫法有很大的不同且有很大的區(qū)域性,故很難有較高的識別率;在銀行和金融等實(shí)際應(yīng)用中,對數(shù)字識別率的要求比文字要苛刻很多。

        3.2實(shí)驗(yàn)設(shè)計(jì)

        使用MNIST數(shù)據(jù)集來驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的有效性。除輸入層和輸出層外,將卷積神經(jīng)網(wǎng)絡(luò)設(shè)置為一個(gè)四層的神經(jīng)網(wǎng)絡(luò),即兩個(gè)卷積層和兩個(gè)下采樣層。第一個(gè)卷積層(C1)有6個(gè)卷積核,大小均為5×5,經(jīng)卷積后得到6張?zhí)卣鲌D;第一個(gè)下采樣層(S2)的采樣核大小為2×2;第二個(gè)卷積層(C3)有12個(gè)卷積核,大小均為5×5,經(jīng)卷積之后得到12張?zhí)卣鲌D;第二個(gè)下采樣層(S4)的采樣核大小為2×2。

        卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置如下:

        opts.batchsize=50;

        %每次選擇50個(gè)樣本進(jìn)行更新

        opts.alpha=1; %學(xué)習(xí)率

        opts.numpochs=50; %最大迭代次數(shù)

        卷積神經(jīng)網(wǎng)絡(luò)的設(shè)置和訓(xùn)練程序如下:

        cnn=cnnsetup(cnn, train_x, train_y);

        % 對各層參數(shù)進(jìn)行初始化,包括權(quán)重和偏置

        cnn=cnntrain(cnn, train_x, train_y, opts);

        % 開始訓(xùn)練,包括BP算法及迭代過程

        式中,train_x為訓(xùn)練數(shù)據(jù)集,train_y為測試數(shù)據(jù)集,第一個(gè)輸入的cnn表示將其設(shè)置傳遞給cnnsetup,據(jù)此構(gòu)建一個(gè)完整的CNN網(wǎng)絡(luò),第二個(gè)輸入的cnn表示CNN網(wǎng)絡(luò)結(jié)構(gòu)的初始化, 再根據(jù)訓(xùn)練樣本來更新CNN網(wǎng)絡(luò)。

        3.3實(shí)驗(yàn)結(jié)果與分析

        圖7繪出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST數(shù)據(jù)集上的均方誤差圖,其中橫坐標(biāo)是網(wǎng)絡(luò)訓(xùn)練過程中的迭代次數(shù),縱坐標(biāo)是該網(wǎng)絡(luò)模型在訓(xùn)練過程中對MNIST數(shù)據(jù)集的均方誤差。由于在網(wǎng)絡(luò)設(shè)置時(shí)選擇了50個(gè)樣本為一批進(jìn)行更新,且共有60000個(gè)樣本,所以迭代了1200次。

        圖7 CNN在MNIST數(shù)據(jù)集上的均方誤差

        從圖7可以看出,在進(jìn)行了1200次迭代后,該網(wǎng)絡(luò)的均方誤差達(dá)到0.11,之后趨于穩(wěn)定狀態(tài),因此可以認(rèn)為達(dá)到了算法的終止條件。卷積神經(jīng)網(wǎng)絡(luò)的1200次迭代共用時(shí)間139秒,網(wǎng)絡(luò)的識別率為98.62%,而人工神經(jīng)網(wǎng)絡(luò)的識別率為93.46%,卷積神經(jīng)網(wǎng)絡(luò)比人工神經(jīng)網(wǎng)絡(luò)的識別率大約提高了5%。

        4 卷積神經(jīng)網(wǎng)絡(luò)的研究展望

        作為一種深度學(xué)習(xí)技術(shù),卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展極其迅速,是近幾年來研究和應(yīng)用最為廣泛的深度神經(jīng)網(wǎng)絡(luò)。但卷積神經(jīng)網(wǎng)絡(luò)也面臨著更多的挑戰(zhàn),主要體現(xiàn)在以下幾個(gè)方面。

        4.1理論研究

        卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)啟發(fā)而提出的,其本身是對生物視覺成像的一種模擬。但目前的研究還未對卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)理給出詳細(xì)的闡述。Nguyen等通過進(jìn)化算法將原始圖像處理成人們完全無法識別和解釋的一種形式,但卷積神經(jīng)網(wǎng)絡(luò)卻對轉(zhuǎn)化后的圖像形式給出了非常準(zhǔn)確的物體類別判斷[32]。這種卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)的被“欺騙”現(xiàn)象引起了人們對卷積神經(jīng)網(wǎng)絡(luò)特征提取的完備性關(guān)注。

        與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)在提取特征時(shí)受網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)算法以及訓(xùn)練集等多種因素影響,對其原理的分析與解釋比人工設(shè)計(jì)特征更加抽象和困難[33]。2017年,Levine等學(xué)者發(fā)現(xiàn)深度卷積算術(shù)電路所實(shí)現(xiàn)的函數(shù)與量子多體波函數(shù)之間存在某種等價(jià)性[34],但是否可用物理學(xué)打開深度學(xué)習(xí)的黑箱還有待進(jìn)一步研究。學(xué)術(shù)界普遍采用的是以實(shí)驗(yàn)為導(dǎo)向的研究方式,這導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展缺乏理論研究的支持。因此,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論研究是目前最為匱乏、最有研究價(jià)值的內(nèi)容。

        4.2應(yīng)用領(lǐng)域

        經(jīng)過多年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域已從最初的手寫體識別和人臉識別,逐漸擴(kuò)展到一些更為廣泛的領(lǐng)域,如:自然語言處理、語音識別和目標(biāo)檢測等。在目標(biāo)檢測應(yīng)用中,許多卷積神經(jīng)網(wǎng)路的改進(jìn)模型相繼被提出,如R-CNN[35]、Fast-CNN[36]和Faster-CNN[37],這些模型在一定程度上突破了卷積神經(jīng)網(wǎng)絡(luò)的瓶頸。在人工智能領(lǐng)域,AlphaGo成功地利用了卷積神經(jīng)網(wǎng)絡(luò)對圍棋的盤面形勢進(jìn)行判斷[37]。在語音識別方面,Abdel-Hamid等人將語音信息建模成符合卷積神經(jīng)網(wǎng)絡(luò)的輸入模式,并結(jié)合了隱馬爾科夫模型[17]。

        4.3開源框架

        近年來,卷積神經(jīng)網(wǎng)絡(luò)的研究熱潮持續(xù)高漲,各種開源工具層出不窮。代表性的開源工具包括Caffe[38]、Tensorflow[39]和Theano[40]等。作為深度學(xué)習(xí)框架之一,Caffe基于C++語言編寫,并且具有BSD開源代碼,可以在CPU及GPU上運(yùn)行,且支持Matlab和Python接口。Caffe提供了一整套的數(shù)據(jù)流程,如數(shù)據(jù)預(yù)處理、訓(xùn)練、測試、微調(diào)等。Tensorflow是谷歌公司在2015年底發(fā)布的開源人工智能系統(tǒng),此系統(tǒng)架構(gòu)靈活,在很多平臺上都可以使用,支持一個(gè)或多個(gè)CPU。與Tensorflow相似,Theano系統(tǒng)的架構(gòu)也比較靈活,它由LISA實(shí)驗(yàn)室在蒙特利爾大學(xué)開發(fā),是深度學(xué)習(xí)較早的庫之一。Theano實(shí)際上是一個(gè)Python庫,允許用戶定義、優(yōu)化和計(jì)算數(shù)學(xué)表達(dá)式,特別是提高多維數(shù)組的運(yùn)算性能。這些工具的使用雖然加快了深度學(xué)習(xí)的發(fā)展,但仍然存在一些遺留的框架問題,比如:Caffe不善于處理循環(huán)神經(jīng)網(wǎng)絡(luò)問題,且靈活性較差;Tensorflow在單個(gè)GPU上的性能不如其它幾個(gè)框架; Theano不能直接進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練。

        4.4網(wǎng)絡(luò)結(jié)構(gòu)

        卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)越深,實(shí)驗(yàn)結(jié)果可能越好,在實(shí)際應(yīng)用中網(wǎng)絡(luò)層數(shù)已多達(dá)上千層。隨著網(wǎng)絡(luò)傳播深度的增加,模型的參數(shù)也會相應(yīng)增加,此時(shí)網(wǎng)絡(luò)需求大量的有標(biāo)簽數(shù)據(jù),否則可能導(dǎo)致網(wǎng)絡(luò)的過擬合;而相應(yīng)的網(wǎng)絡(luò)權(quán)重會越來越小,出現(xiàn)網(wǎng)絡(luò)的權(quán)重衰減。這些問題使卷積神經(jīng)網(wǎng)絡(luò)難以在普通設(shè)備上應(yīng)用[41-42]。因此,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上的優(yōu)化需符合應(yīng)用,注重模型架構(gòu)中的分支數(shù)量,而不是繼續(xù)增加網(wǎng)絡(luò)的深度等。

        5 結(jié)束語

        本文從卷積神經(jīng)網(wǎng)絡(luò)的基本原理和重要特性來研究卷積神經(jīng)網(wǎng)絡(luò)理論。首先回顧了卷積神經(jīng)網(wǎng)絡(luò)的重要組成部分:卷積層、下采樣層和全連接層,接著討論了卷積神經(jīng)網(wǎng)絡(luò)的三大特性:稀疏連接、權(quán)值共享、池采樣,然后將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫體數(shù)字識別上,最后展望了卷積神經(jīng)網(wǎng)絡(luò)未來的研究。如何避免過擬合現(xiàn)象、提高網(wǎng)絡(luò)的學(xué)習(xí)能力和設(shè)置合理的參數(shù)將是卷積神經(jīng)網(wǎng)絡(luò)今后亟待解決的問題。

        [1] 陳雯柏. 人工神經(jīng)網(wǎng)絡(luò)原理與實(shí)踐[M]. 西安:西安電子科技大學(xué)出版社, 2016.

        [2] Arel I, Rose D C, Karnowski T P. Deep machine learning-a new frontier in artificial intelligence research[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18.

        [3] Deng L, Yu D. Deep learning: methods and applications[J]. Foundations and Trends in Signal Processing, 2014, 7(3): 197-387.

        [4] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

        [5] Bengio Y, Lamblin P, Popovici D,et al. Greedy layerwise training of deep networks[C]// Advances in neural information processing systems. 2007: 153-160.

        [6] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

        [7] Deng L, Seltzer M L, Yu D, et al. Binary coding of speech spectrograms using a deep auto-encoder[C]//Eleventh Annual Conference of the International Speech Communication Association. 2010: 1692-1695.

        [8] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.

        [9] Abdel-Hamid O, Deng L, Yu D. Exploring convolutional neural network structures and optimization techniques for speech recognition[C]//Interspeech, 2013: 3366-3370.

        [10] Martens J, Sutskever I. Learning recurrent neural networks with hessian-free optimization[C]// International Conference on International Conference on Machine Learning. Omnipress, 2011:1033-1040.

        [11] Hubel D H, Wiesel T N. Receptive fields, binocular interaction, and functional architecture in the cat’s visual cortex[J]. Journal of Physiology,1962, 160(1):106-154.

        [12] Lecun Y, Bottoy L, Bingio Y, et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998, 86(11): 2278-2324.

        [13] LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The Handbook of Brain Theory and Neural Networks, 1995, 3361(10): 255-258.

        [14] Krizhevsky A,Sutskever I ,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012,1097-1105.

        [15] Deng J,Dong W, Socher R, et al.Imagenet:a large-scale hierarchical image database[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009:248-255.

        [16] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556, 2014.

        [17] Abdel-Hamid O, Mohamed A, Jiang H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10):1533-1545.

        [18] Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv: 1404.2188, 2014.

        [19] 鄧力,俞棟.深度學(xué)習(xí)方法及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2015.48-57.

        [20] Bouvrie J. Notes on Convolutional Neural Networks[J]. Neural Nets, 2006.

        [21] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.

        [22] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017,40(6):1229-1251.

        [23] 馬世龍,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報(bào), 2016,11(6): 728-742.

        [24] Goodfellow L, Bengio Y, Courvile A. Deep learning[M].MIT press,2016.

        [25] Sainath T N, Mohamed A, Kingsbury B, et al. Deep convolutional neural networks for LVCSR[C]// IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).2013: 8614-8618.

        [26] O’Shea K, Nash R. An introduction to convolutional neural networks[J]. arXiv preprint arXiv: 1511.08458,2015.

        [27] 焦李成, 趙進(jìn), 楊淑媛,等. 深度學(xué)習(xí)、優(yōu)化與識別[M].北京:清華大學(xué)出版社,2017: 100-120.

        [28] Yu D, Deng L. Deep learning and its applications to signal and information processing [J]. IEEE Signal Processing Magazine, 2011, 28(1): 145-154.

        [29] Zeiler M D, Fergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer, Cham, 2014: 818-833.

        [30] Deng L. The MNIST database of handwritten digit images for machine learning research[J]. IEEE Signal Processing Magazine, 2012, 29(6): 141-142.

        [31] Palm R B. Prediction as a candidate for learning deep hierarchical models of data[J]. Technical University of Denmark, 2012(5).

        [32] Nguyen A, Yosinski J, Clune J. Deep neural networks are easily fooled: high confidence predictions for unrecognizable images[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 427-436.

        [33] 李彥冬, 郝宗波, 雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用, 2016, 36(9):2508-2515.

        [34] Levine Y, Yakira D, Cohen N, et al. Deep learning and quantum physics: a fundamental bridge[J]. arXiv preprint arXiv: 1704.01552, 2017.

        [35] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

        [36] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

        [37] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, 2015: 91-99.

        [38] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia, 2014: 675-678.

        [39] Abadi M, Barham P, Chen J, et al. TensorFlow: a system for large-scale machine learning[C]//OSDI. 2016, 16: 265-283.

        [40] 孫志軍,薛磊,許陽明, 等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29(8):2806-2810.

        [41] Schmidhuber J. Deep learning in neural networks: An overview[J].Neural networks, 2015, 61: 85-117.

        [42] Ba J, Frey B. Adaptive dropout for training deep neural networks[C]//Advances in Neural Information Processing Systems, 2013: 3084-3092.

        (責(zé)任編輯:熊文濤)

        ConvolutionNeuralNetworkandItsApplicationinHandwrittenDigitsRecognition

        Ma Yuanyuan, Shi Jiarong*

        (SchoolofScience,Xi′anUniversityofArchitectureandTechnology,Xi′an,Shaanxi710055,China)

        Deep learning is a new research focus in the field of machine learning and its emergence makes machine learning closer to the goal of artificial intelligence. As a classical model in deep learning, convolution neural network has been widely applied in the fields of speech recognition, image recognition, natural language processing, etc. This paper discussed the basic principle, realization and applications of convolution neural network. Firstly, it reviewed the history of convolution neural network and elaborated its basic principle of convolution neural network and investigated the convolution layer and the sub-sampling layer. Secondly, it summarized the three important characteristics of convolution neural network, i.e., sparse connection, weight sharing and sub-sampling. The handwritten digits recognition task of convolution neural network was also realized in the MNIST database. Finally, it gave future key research directions for convolution neural network.

        convolution neural network; deep learning; convolution; sub-sampling; handwritten digits recognition

        TP183

        A

        2095-4824(2017)06-0066-07

        2017-08-15

        國家自然科學(xué)基金青年科學(xué)基金(61403298);中國博士后科學(xué)基金(2017M613087)

        馬媛媛(1991- ),女,陜西富平人,西安建筑科技大學(xué)理學(xué)院碩士研究生。

        史加榮(1979- ),男,山東東阿人,西安建筑科技大學(xué)理學(xué)院副教授,博士,本文通信作者。

        猜你喜歡
        池化卷積神經(jīng)網(wǎng)絡(luò)
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        青青草原综合久久大伊人精品| 日韩精品视频在线观看免费| 久久亚洲中文字幕精品一区四| 在线观看免费视频发布白白色| 亚洲第一幕一区二区三区在线观看| 国产极品女主播国产区| 国产精品免费观看久久| 日本午夜国产精彩| 蜜桃视频中文字幕一区二区三区| 熟女人妻一区二区三区| 国产国产精品人在线视| 老熟妇仑乱视频一区二区| 91精品啪在线观看国产18| 日韩熟女一区二区三区| 最新69国产精品视频| 国产精品人人做人人爽人人添| 高清破外女出血av毛片| 人妻无码一区二区在线影院| av在线网站手机播放| 熟妇人妻精品一区二区视频免费的| 天天做天天添av国产亚洲| 亚洲男人的天堂在线aⅴ视频| 免费观看一区二区| 日韩十八禁在线观看视频| 成年人干逼视频水好多| 寂寞少妇做spa按摩无码| 久久中文字幕人妻熟av女蜜柚m| 级毛片无码av| 91精品国产自拍视频| 免费人成小说在线观看网站| 国语自产偷拍精品视频偷| 91精品久久久久含羞草| 一区二区三区成人av| 五月激情综合婷婷六月久久 | 亚洲av中文无码乱人伦在线播放 | 中国美女a级毛片| 欧美aa大片免费观看视频| 91日本在线精品高清观看| va精品人妻一区二区三区| 精品福利一区二区三区免费视频| 亚洲国产精品日韩av专区|