亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        卷積神經(jīng)網(wǎng)絡(luò)研究綜述

        2016-11-01 17:57:12李彥冬郝宗波雷航
        計(jì)算機(jī)應(yīng)用 2016年9期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)特征

        李彥冬 郝宗波 雷航

        摘要:

        近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)、圖像語義分割等領(lǐng)域取得了一系列突破性的研究成果,其強(qiáng)大的特征學(xué)習(xí)與分類能力引起了廣泛的關(guān)注,具有重要的分析與研究?jī)r(jià)值。首先回顧了卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史,介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和運(yùn)行原理,重點(diǎn)針對(duì)網(wǎng)絡(luò)過擬合、網(wǎng)絡(luò)結(jié)構(gòu)、遷移學(xué)習(xí)、原理分析四個(gè)方面對(duì)卷積神經(jīng)網(wǎng)絡(luò)在近期的研究進(jìn)行了歸納與分析,總結(jié)并討論了基于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)應(yīng)用領(lǐng)域取得的最新研究成果,最后指出了卷積神經(jīng)網(wǎng)絡(luò)目前存在的不足以及未來的發(fā)展方向。

        關(guān)鍵詞:

        卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);特征表達(dá);神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí)

        中圖分類號(hào):

        TP181

        文獻(xiàn)標(biāo)志碼:A

        Abstract:

        In recent years, Convolutional Neural Network (CNN) has made a series of breakthrough research results in the fields of image classification, object detection, semantic segmentation and so on. The powerful ability of CNN for feature learning and classification attracts wide attention, it is of great value to review the works in this research field. A brief history and basic framework of CNN were introduced. Recent researches on CNN were thoroughly summarized and analyzed in four aspects: overfitting problem, network structure, transfer learning and theoretic analysis. Stateoftheart CNN based methods for various applications were concluded and discussed. At last, some shortcomings of the current research on CNN were pointed out and some new insights for the future research of CNN were presented.

        英文關(guān)鍵詞Key words:

        Convolutional Neural Network (CNN); deep learning; feature representation; neural network; transfer learning

        0引言

        圖像特征的提取與分類一直是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基礎(chǔ)而重要的研究方向。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)提供了一種端到端的學(xué)習(xí)模型,模型中的參數(shù)可以通過傳統(tǒng)的梯度下降方法進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中的特征,并且完成對(duì)圖像特征的提取和分類。作為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要研究分支,卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)在于其每一層的特征都由上一層的局部區(qū)域通過共享權(quán)值的卷積核激勵(lì)得到。這一特點(diǎn)使得卷積神經(jīng)網(wǎng)絡(luò)相比于其他神經(jīng)網(wǎng)絡(luò)方法更適合應(yīng)用于圖像特征的學(xué)習(xí)與表達(dá)。

        早期的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,如經(jīng)典的LeNet5模型[1],主要應(yīng)用在手寫字符識(shí)別、圖像分類等一些相對(duì)單一的計(jì)算機(jī)視覺應(yīng)用領(lǐng)域中。隨著研究的不斷深入,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不斷優(yōu)化,其應(yīng)用領(lǐng)域也逐漸得到延伸。例如,卷積神經(jīng)網(wǎng)絡(luò)與深信度網(wǎng)絡(luò)(Deep Belief Network, DBN)[2]相結(jié)合產(chǎn)生的卷積深信度網(wǎng)絡(luò)(Convolutional Deep Belief Network, CDBN)[3]作為一種非監(jiān)督的生成模型,被成功地應(yīng)用于人臉特征提取[4];AlexNet[5]在海量圖像分類領(lǐng)域取得了突破性的成果;基于區(qū)域特征提取的 RCNN(Regions with CNN)[6]在目標(biāo)檢測(cè)領(lǐng)域取得了成功;全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[7]實(shí)現(xiàn)了端到端的圖像語義分割,并且在準(zhǔn)確率上大幅超越了傳統(tǒng)的語義分割算法。近年來,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究仍然有著很高的熱度,一些具有優(yōu)秀性能的網(wǎng)絡(luò)結(jié)構(gòu)被提出[8-10]。并且,隨著遷移學(xué)習(xí)理論[11]在卷積神經(jīng)網(wǎng)絡(luò)上的成功應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域得到了進(jìn)一步的擴(kuò)展[12-13]。卷積神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域不斷涌現(xiàn)出來的研究成果,使其成為了當(dāng)前最受關(guān)注的研究熱點(diǎn)之一。

        1卷積神經(jīng)網(wǎng)絡(luò)的研究歷史與意義

        1.1卷積神經(jīng)網(wǎng)絡(luò)的研究歷史

        卷積神經(jīng)網(wǎng)絡(luò)的研究歷史大致可以分為三個(gè)階段:理論提出階段、模型實(shí)現(xiàn)階段以及廣泛研究階段。

        1)理論提出階段。20世紀(jì)60年代,Hubel和Wiesel的等[14]的生物學(xué)研究表明,視覺信息從視網(wǎng)膜傳遞到大腦中是通過多個(gè)層次的感受野(Receptive Field)激發(fā)完成的。1980年,F(xiàn)ukushima第一次提出了一個(gè)基于感受野的理論模型Neocognitron[15]。Neocognitron是一個(gè)自組織的多層神經(jīng)網(wǎng)絡(luò)模型,每一層的響應(yīng)都由上一層的局部感受野激發(fā)得到,對(duì)于模式的識(shí)別不受位置、較小形狀變化以及尺度大小的影響。Neocognitron采用的無監(jiān)督學(xué)習(xí)也是卷積神經(jīng)網(wǎng)絡(luò)早期研究中占據(jù)主導(dǎo)地位的學(xué)習(xí)方式。

        2)模型實(shí)現(xiàn)階段。1998年,Lecun等[1]提出的LeNet5采用了基于梯度的反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練。經(jīng)過訓(xùn)練的網(wǎng)絡(luò)通過交替連接的卷積層和下采樣層將原始圖像轉(zhuǎn)換成一系列的特征圖,最后,通過全連接的神經(jīng)網(wǎng)絡(luò)針對(duì)圖像的特征表達(dá)進(jìn)行分類。卷積層的卷積核完成了感受野的功能,可以將低層的局部區(qū)域信息通過卷積核激發(fā)到更高的層次。LeNet5在手寫字符識(shí)別領(lǐng)域的成功應(yīng)用引起了學(xué)術(shù)界對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)注。同一時(shí)期,卷積神經(jīng)網(wǎng)絡(luò)在語音識(shí)別[16]、物體檢測(cè)[17]、人臉識(shí)別[18]等方面的研究也逐漸開展起來。

        3)廣泛研究階段。2012年,Krizhevsky等[5]提出的AlexNet在大型圖像數(shù)據(jù)庫ImageNet[19]的圖像分類競(jìng)賽中以準(zhǔn)確度超越第二名11%的巨大優(yōu)勢(shì)奪得了冠軍,使得卷積神經(jīng)網(wǎng)絡(luò)成為了學(xué)術(shù)界的焦點(diǎn)。AlexNet之后,不斷有新的卷積神經(jīng)網(wǎng)絡(luò)模型被提出,比如牛津大學(xué)的VGG(Visual Geometry Group)[8]、Google的GoogLeNet[9]、微軟的ResNet[10]等,這些網(wǎng)絡(luò)刷新了AlexNet在ImageNet上創(chuàng)造的紀(jì)錄。并且,卷積神經(jīng)網(wǎng)絡(luò)不斷與一些傳統(tǒng)算法相融合,加上遷移學(xué)習(xí)方法的引入,使得卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域獲得了快速的擴(kuò)展。一些典型的應(yīng)用包括:卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)結(jié)合用于圖像的摘要生成[20-21]以及圖像內(nèi)容的問答[22-23];通過遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在小樣本圖像識(shí)別數(shù)據(jù)庫上取得了大幅度準(zhǔn)確度提升[24];以及面向視頻的行為識(shí)別模型——3D卷積神經(jīng)網(wǎng)絡(luò)[25],等。

        1.2卷積神經(jīng)網(wǎng)絡(luò)的研究意義

        卷積神經(jīng)網(wǎng)絡(luò)領(lǐng)域目前已經(jīng)取得了許多令人矚目的研究成果,但是隨之而來的是更多的挑戰(zhàn),其研究意義主要體現(xiàn)在三個(gè)方面:理論研究挑戰(zhàn)、特征表達(dá)研究、應(yīng)用價(jià)值。

        1)理論研究挑戰(zhàn)。卷積神經(jīng)網(wǎng)絡(luò)作為一種受到生物學(xué)研究啟發(fā)的經(jīng)驗(yàn)方法,學(xué)術(shù)界普遍采用的是以實(shí)驗(yàn)效果為導(dǎo)向的研究方式。比如GoogLeNet的Inception模塊設(shè)計(jì)、VGG的深層網(wǎng)絡(luò)以及ResNet的short connection等方法都通過實(shí)驗(yàn)證實(shí)了其對(duì)于網(wǎng)絡(luò)性能改善的有效性;但是,這些方法都存在缺乏嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)驗(yàn)證問題。造成這一問題的根本原因是卷積神經(jīng)網(wǎng)絡(luò)本身的數(shù)學(xué)模型沒有得到完善的數(shù)學(xué)驗(yàn)證與解釋。從學(xué)術(shù)研究的角度來說,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展沒有理論研究的支持是不夠嚴(yán)謹(jǐn)和不可持續(xù)的。因此,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論研究是當(dāng)前最為匱乏也是最有價(jià)值的部分。

        2)特征表達(dá)。圖像的特征設(shè)計(jì)一直是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基礎(chǔ)而重要的課題。在以往的研究中,一些典型的人工設(shè)計(jì)特征被證明取得了良好的特征表達(dá)效果,如SIFT (ScaleInvariant Feature Transform)[26]、HOG(Histogram of Oriented Gradient)[27]等。但是,這些人工設(shè)計(jì)特征也存在缺乏良好的泛化性能問題。卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)[28-29]模型,具有分層學(xué)習(xí)特征的能力[24]。研究[30-31]表明,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的特征相對(duì)于人工設(shè)計(jì)特征具有更強(qiáng)的判別能力和泛化能力。特征表達(dá)作為計(jì)算機(jī)視覺的研究基礎(chǔ),如何利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、提取、分析信息的特征表達(dá),從而獲得判別性能更強(qiáng),泛化性能更好的通用特征,將對(duì)整個(gè)計(jì)算機(jī)視覺乃至更廣泛的領(lǐng)域產(chǎn)生積極的影響。

        3)應(yīng)用價(jià)值。卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過多年的發(fā)展,從最初較為簡(jiǎn)單的手寫字符識(shí)別[1]應(yīng)用,逐漸擴(kuò)展到一些更加復(fù)雜的領(lǐng)域,如:行人檢測(cè)[32]、行為識(shí)別[25,33]、人體姿勢(shì)識(shí)別[34],等。

        近期,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用進(jìn)一步向更深層次的人工智能發(fā)展,如:自然語言處理[35-36]、語音識(shí)別[37],等。最近,由Google開發(fā)的人工智能圍棋程序Alphago[38]成功利用了卷積神經(jīng)網(wǎng)絡(luò)分析圍棋盤面信息,并且在挑戰(zhàn)賽中接連戰(zhàn)勝了圍棋歐洲冠軍和世界冠軍,引起了廣泛的關(guān)注。從當(dāng)前的研究趨勢(shì)來看,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用前景充滿了可能性,但同時(shí)也面臨著一些研究難題,比如:如何改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以提高網(wǎng)絡(luò)對(duì)于特征的學(xué)習(xí)能力;如何將卷積神經(jīng)網(wǎng)絡(luò)以合理的形式融入新的應(yīng)用模型中。

        2卷積神經(jīng)網(wǎng)絡(luò)基本原理

        2.1卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

        如圖1所示,典型的卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、下采樣層(池化層)、全連接層和輸出層組成。

        卷積神經(jīng)網(wǎng)絡(luò)的輸入通常為原始圖像X。本文用Hi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征圖(H0=X)。假設(shè)Hi是卷積層,Hi的產(chǎn)生過程可以描述為:

        Hi=f(Hi-1Wi+bi)(1)

        其中:Wi表示第i層卷積核的權(quán)值向量;運(yùn)算符號(hào)“”代表卷積核與第i-1層圖像或者特征圖進(jìn)行卷積操作,卷積的輸出與第i層的偏移向量bi相加,最終通過非線性的激勵(lì)函數(shù)f(x)得到第i層的特征圖Hi。

        下采樣層通常跟隨在卷積層之后,依據(jù)一定的下采樣規(guī)則[39]對(duì)特征圖進(jìn)行下采樣。下采樣層的功能主要有兩點(diǎn):1)對(duì)特征圖進(jìn)行降維;2)在一定程度上保持特征的尺度不變特性。假設(shè)Hi是下采樣層:

        Hi=subsampling(Hi-1)(2)

        經(jīng)過多個(gè)卷積層和下采樣層的交替?zhèn)鬟f,卷積神經(jīng)網(wǎng)絡(luò)依靠全連接網(wǎng)絡(luò)對(duì)針對(duì)提取的特征進(jìn)行分類,得到基于輸入的概率分布Y(li表示第i個(gè)標(biāo)簽類別)。如式(3)所示,卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是使原始矩陣(H0)經(jīng)過多個(gè)層次的數(shù)據(jù)變換或降維,映射到一個(gè)新的特征表達(dá)(Y)的數(shù)學(xué)模型。

        Y(i)=P(L=li|H0;(W,b))(3)

        卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是最小化網(wǎng)絡(luò)的損失函數(shù)L(W,b)。輸入H0經(jīng)過前向傳導(dǎo)后通過損失函數(shù)計(jì)算出與期望值之間的差異,稱為“殘差”。常見損失函數(shù)有均方誤差(Mean Squared Error, MSE)函數(shù),負(fù)對(duì)數(shù)似然(Negative Log Likelihood, NLL)函數(shù)等[40]:

        MSE(W,b)=1|Y|∑|Y|i=1(Y(i)-(i))2(4)

        NLL(W,b)=-∑|Y|i=1log Y(i)(5)

        為了減輕過擬合的問題,最終的損失函數(shù)通常會(huì)通過增加L2范數(shù)以控制權(quán)值的過擬合,并且通過參數(shù)λ(weight decay)控制過擬合作用的強(qiáng)度:

        E(W,b)=L(W,b)+λ2WTW(6)

        訓(xùn)練過程中,卷積神經(jīng)網(wǎng)絡(luò)常用的優(yōu)化方法是梯度下降方法。殘差通過梯度下降進(jìn)行反向傳播,逐層更新卷積神經(jīng)網(wǎng)絡(luò)的各個(gè)層的可訓(xùn)練參數(shù)(W和b)。學(xué)習(xí)速率參數(shù)(η)用于控制殘差反向傳播的強(qiáng)度:

        Wi=Wi-ηE(W,b)Wi(7)

        bi=bi-ηE(W,b)bi(8)

        2.2卷積神經(jīng)網(wǎng)絡(luò)的工作原理

        基于2.1節(jié)的定義,卷積神經(jīng)網(wǎng)絡(luò)的工作原理可以分為網(wǎng)絡(luò)模型定義、網(wǎng)絡(luò)訓(xùn)練以及網(wǎng)絡(luò)的預(yù)測(cè)三個(gè)部分:

        1)網(wǎng)絡(luò)模型定義。網(wǎng)絡(luò)模型的定義需要根據(jù)具體應(yīng)用的數(shù)據(jù)量以及數(shù)據(jù)本身的特點(diǎn),設(shè)計(jì)網(wǎng)絡(luò)深度、網(wǎng)絡(luò)每一層的功能,以及設(shè)定網(wǎng)絡(luò)中的超參數(shù),如:λ、η等。針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的模型設(shè)計(jì)有不少的研究,比如模型深度方面[8,10]、卷積的步長(zhǎng)方面[24,41]、激勵(lì)函數(shù)方面[42-43]等。此外,針對(duì)網(wǎng)絡(luò)中的超參數(shù)選擇,也存在一些有效的經(jīng)驗(yàn)總結(jié)[44]。但是,目前針對(duì)網(wǎng)絡(luò)模型的理論分析和量化研究相對(duì)還比較匱乏。

        2)網(wǎng)絡(luò)訓(xùn)練。卷積神經(jīng)網(wǎng)絡(luò)可以通過殘差的反向傳播對(duì)網(wǎng)絡(luò)中的參數(shù)進(jìn)行訓(xùn)練。但是,網(wǎng)絡(luò)訓(xùn)練中的過擬合以及梯度的消逝與爆炸等問題[45]極大影響了訓(xùn)練的收斂性能。針對(duì)網(wǎng)絡(luò)訓(xùn)練的問題,一些有效的改善方法被提出,包括:基于高斯分布的隨機(jī)初始化網(wǎng)絡(luò)參數(shù)[5];利用經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)進(jìn)行初始化[8];對(duì)卷積神經(jīng)網(wǎng)絡(luò)不同層的參數(shù)進(jìn)行相互獨(dú)立同分布的初始化[46]。根據(jù)近期的研究趨勢(shì),卷積神經(jīng)網(wǎng)絡(luò)的模型規(guī)模正在迅速增大,而更加復(fù)雜的網(wǎng)絡(luò)模型也對(duì)相應(yīng)的訓(xùn)練策略提出了更高的要求。

        3)網(wǎng)絡(luò)的預(yù)測(cè)。卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)過程就是通過對(duì)輸入數(shù)據(jù)進(jìn)行前向傳導(dǎo),在各個(gè)層次上輸出特征圖,最后利用全連接網(wǎng)絡(luò)輸出基于輸入數(shù)據(jù)的條件概率分布的過程。近期的研究表明,經(jīng)過前向傳導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)高層特征具有很強(qiáng)的判別能力和泛化性能[30-31];而且,通過遷移學(xué)習(xí),這些特征可以被應(yīng)用到更加廣泛的領(lǐng)域。這一研究成果對(duì)于擴(kuò)展卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域具有重要的意義。

        3卷積神經(jīng)網(wǎng)絡(luò)研究進(jìn)展

        經(jīng)過數(shù)十年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)從最初的理論原型,到能夠完成一些簡(jiǎn)單的任務(wù),再到近期取得大量研究成果,成為了一個(gè)受到廣泛關(guān)注的研究方向,其發(fā)展的推動(dòng)力量主要來源于以下四個(gè)方面的基礎(chǔ)研究:1)卷積神經(jīng)網(wǎng)絡(luò)過擬合問題的相關(guān)研究提高了網(wǎng)絡(luò)的泛化性能;2)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)研究提高了網(wǎng)絡(luò)擬合海量數(shù)據(jù)的能力;3)卷積神經(jīng)網(wǎng)絡(luò)的原理分析指導(dǎo)著網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展,同時(shí)也提出了全新的具有挑戰(zhàn)性的問題;4)基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)相關(guān)研究拓展了卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域。

        3.1卷積神經(jīng)網(wǎng)絡(luò)的過擬合問題

        過擬合(overfitting)[40]是指學(xué)習(xí)模型在訓(xùn)練過程中參數(shù)過度擬合訓(xùn)練數(shù)據(jù)集,從而影響到模型在測(cè)試數(shù)據(jù)集上的泛化性能的現(xiàn)象。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次比較復(fù)雜,目前的研究針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的卷積層、下采樣層以及全連接層的過擬合問題均有涉及。當(dāng)前主要的研究思路是通過增加網(wǎng)絡(luò)

        的稀疏性以及隨機(jī)性,以改善網(wǎng)絡(luò)的泛化性能。

        Hinton等[47]提出的Dropout通過在訓(xùn)練過程中隨機(jī)地忽略一定比例的節(jié)點(diǎn)響應(yīng),減輕了傳統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)的過擬合問題,有效地提高了網(wǎng)絡(luò)的泛化性能。但是,Dropout對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的性能改善并不明顯,其主要原因是卷積神經(jīng)網(wǎng)絡(luò)由于卷積核的權(quán)值共享特性,相比于全連接的網(wǎng)絡(luò)大大減少了訓(xùn)練參數(shù)的數(shù)量,本身就避免了較為嚴(yán)重的過擬合現(xiàn)象。因此,作用于全連接層的Dropout方法對(duì)于卷積神經(jīng)網(wǎng)絡(luò)整體的去過擬合效果不夠理想。

        基于Dropout的思想,Wan等[48]提出了DropConnect的方法。與Dropout忽略全連接層的部分節(jié)點(diǎn)響應(yīng)不同,DropConnect隨機(jī)地將神經(jīng)網(wǎng)絡(luò)卷積層一定比例的連接斷開。對(duì)于卷積神經(jīng)網(wǎng)絡(luò),作用于卷積層的DropConnect相比作用于全連接層的Dropout具有更強(qiáng)的去過擬合能力。

        與DropConnect類似,Goodfellow等[42]提出了作用于卷積層的Maxout激勵(lì)函數(shù)。不同于DropConnect的是,Maxout只保留神經(jīng)網(wǎng)絡(luò)的上一層節(jié)點(diǎn)往下一層的激勵(lì)最大值。并且,Goodfellow等[42]證明了Maxout函數(shù)可以擬合任意凸函數(shù),在減輕過擬合問題的基礎(chǔ)上還具有強(qiáng)大的函數(shù)擬合能力。

        如圖2所示,Dropout、DropConnect和Maxout三種方法雖然具體實(shí)現(xiàn)機(jī)制有所差別,但是其根本原理都是通過增加網(wǎng)絡(luò)連接的稀疏性或者隨機(jī)性以達(dá)到消除過擬合,提高網(wǎng)絡(luò)泛化能力的目的。

        Lin等[43]指出了卷積神經(jīng)網(wǎng)絡(luò)中的全連接網(wǎng)絡(luò)易過擬合的問題以及Maxout激活函數(shù)只能夠擬合凸函數(shù)的局限,提出了一種NIN(Network in Network)的網(wǎng)絡(luò)結(jié)構(gòu)。一方面,NIN放棄了利用全連接網(wǎng)絡(luò)進(jìn)行特征圖到概率分布的映射,采用了直接針對(duì)特征圖進(jìn)行Global average pooling的方法獲取到最終的概率分布,在減少網(wǎng)絡(luò)中的參數(shù)數(shù)量的同時(shí)也避免了全連接網(wǎng)絡(luò)的過擬合問題;另一方面,NIN使用“微神經(jīng)網(wǎng)絡(luò)”(micro neural network)取代傳統(tǒng)的激勵(lì)函數(shù)(如:Maxout)。理論上,微神經(jīng)網(wǎng)絡(luò)突破了傳統(tǒng)激勵(lì)函數(shù)的局限,可以擬合任意的函數(shù),使網(wǎng)絡(luò)具有了更好的擬合性能。

        此外,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的下采樣層,Zeiler和Fergus等[39]提出了一種隨機(jī)下采樣的方法(Stochastic pooling)來改善下采樣層的過擬合問題。與傳統(tǒng)的Average pooling和Max pooling分別指定了下采樣區(qū)域的均值和最大值進(jìn)行下采樣的方式不同,Stochastic pooling依據(jù)概率分布進(jìn)行隨機(jī)的下采樣操作,給下采樣的過程引入了隨機(jī)性。實(shí)驗(yàn)表明,這種隨機(jī)性能夠有效提高卷積神經(jīng)網(wǎng)絡(luò)的泛化性能。

        目前針對(duì)卷積神經(jīng)網(wǎng)絡(luò)過擬合問題的研究,主要還存在以下問題:1)針對(duì)過擬合現(xiàn)象的量化研究和評(píng)價(jià)標(biāo)準(zhǔn)的缺

        失,使得當(dāng)前的研究都只能通過實(shí)驗(yàn)對(duì)比來證明新的方法對(duì)于過擬合問題的改善,而這種改善的程度和通用性都需要更為統(tǒng)一且通用的評(píng)價(jià)標(biāo)準(zhǔn)來進(jìn)行衡量;2)針對(duì)卷積神經(jīng)網(wǎng)絡(luò),過擬合問題在各種層次(如:卷積層、下采樣層、全連接層)中的嚴(yán)重程度、改善空間及改進(jìn)方法還有待進(jìn)一步的探索。

        3.2卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

        Lecun等[1]提出的LeNet5模型采用了交替連接的卷積層和下采樣層對(duì)輸入圖像進(jìn)行前向傳導(dǎo),并且最終通過全連接層輸出概率分布的結(jié)構(gòu)是當(dāng)前普遍采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的原型。LeNet5雖然在手寫字符識(shí)別領(lǐng)域取得了成功,但是其存在的缺點(diǎn)也比較明顯,包括:1)難以尋找到合適的大型訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以適應(yīng)更為復(fù)雜的應(yīng)用需求;2)過擬合問題使得LeNet5的泛化能力較弱;3)網(wǎng)絡(luò)的訓(xùn)練開銷非常大,硬件性能支持的不足使得網(wǎng)絡(luò)結(jié)構(gòu)的研究非常困難。以上三大制約卷積神經(jīng)網(wǎng)絡(luò)發(fā)展的重要因素在近期的研究中取得了突破性的進(jìn)展是卷積神經(jīng)網(wǎng)絡(luò)成為一個(gè)新的研究熱點(diǎn)的重要原因。并且,近期針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度和結(jié)構(gòu)優(yōu)化方面的研究進(jìn)一步提升了網(wǎng)絡(luò)的數(shù)據(jù)擬合能力。

        針對(duì)LeNet5的缺陷,Krizhevsky等[5]提出了AlexNet。AlexNet有5層卷積網(wǎng)絡(luò),約65萬個(gè)神經(jīng)元以及6000萬個(gè)可訓(xùn)練參數(shù),從網(wǎng)絡(luò)規(guī)模上大大超越了LeNet5。另外,AlexNet選擇了大型圖像分類數(shù)據(jù)庫ImageNet[19]作為訓(xùn)練數(shù)據(jù)集。ImageNet提供了1000個(gè)類別共120萬張圖片進(jìn)行訓(xùn)練,圖片的數(shù)量和類別都大幅度超越了以往的數(shù)據(jù)集。在去過擬合方面,AlexNet引了dropout,一定程度上減輕了網(wǎng)絡(luò)過擬合問題。在硬件支持方面,AlexNet使用了GPU進(jìn)行訓(xùn)練,相比傳統(tǒng)的CPU運(yùn)算,GPU使網(wǎng)絡(luò)的訓(xùn)練速度提高了十倍以上。AlexNet在ImageNet的2012圖像分類競(jìng)賽中奪得冠軍,并且相比于第二名的方法在準(zhǔn)確度上取得了高出11%的巨大優(yōu)勢(shì)。AlexNet的成功使得卷積神經(jīng)網(wǎng)絡(luò)的研究再次引起了學(xué)術(shù)界的關(guān)注。

        Simonyan等[8]在AlexNet的基礎(chǔ)上,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度進(jìn)行了研究,提出了VGG網(wǎng)絡(luò)。VGG由3×3的卷積核構(gòu)建而成,通過對(duì)比不同深度的網(wǎng)絡(luò)在圖像分類應(yīng)用中的性能,Simonyan等證明了網(wǎng)絡(luò)深度的提升有助于提高圖像分類的準(zhǔn)確度。然而,這種深度的增加并非沒有限制,在恰當(dāng)?shù)木W(wǎng)絡(luò)深度基礎(chǔ)上繼續(xù)增加網(wǎng)絡(luò)的層數(shù),會(huì)帶來訓(xùn)練誤差增大的網(wǎng)絡(luò)退化問題[49]。因此,VGG的最佳網(wǎng)絡(luò)深度被設(shè)定在了16~19層。

        針對(duì)深度網(wǎng)絡(luò)的退化問題,He等[10]分析認(rèn)為如果網(wǎng)絡(luò)中增加的每一個(gè)層次都能夠得到優(yōu)化的訓(xùn)練,那么誤差是不應(yīng)該會(huì)在網(wǎng)絡(luò)深度加大的情況下提高的。因此,網(wǎng)絡(luò)退化問題說明了深度網(wǎng)絡(luò)中并不是每一個(gè)層次都得到了完善的訓(xùn)練。He等提出了一種ResNet網(wǎng)絡(luò)結(jié)構(gòu)。ResNet通過short connections將低層的特征圖x直接映射到高層的網(wǎng)絡(luò)中。假設(shè)原本網(wǎng)絡(luò)的非線性映射為F(x),那么通過short connection連接之后的映射關(guān)系就變?yōu)榱薋(x)+x。He等提出這一方法的依據(jù)是F(x)+x的優(yōu)化相比F(x)會(huì)更加容易。因?yàn)椋瑥臉O端角度考慮,如果x已經(jīng)是一個(gè)優(yōu)化的映射,那么short connection之間的網(wǎng)絡(luò)映射經(jīng)過訓(xùn)練后就會(huì)更趨近于0。這就意味著數(shù)據(jù)的前向傳導(dǎo)可以在一定程度上通過short connection跳過一些沒有經(jīng)過完善訓(xùn)練的層次,從而提高網(wǎng)絡(luò)的性能。實(shí)驗(yàn)證明,ResNet雖然使用了和VGG同樣大小的卷積核,但是網(wǎng)絡(luò)退化問題的解決使其可以構(gòu)建成為一個(gè)152層的網(wǎng)絡(luò),并且ResNet相比VGG有更低訓(xùn)練誤差和更高的測(cè)試準(zhǔn)確度。雖然ResNet在一定程度上解決了深層網(wǎng)絡(luò)退化的問題,但是關(guān)于深層網(wǎng)絡(luò)的研究仍然存在一些疑問:1)如何判斷深度網(wǎng)絡(luò)中哪些層次未能得到完善的訓(xùn)練;2)是什么原因?qū)е律疃染W(wǎng)絡(luò)中部分層次訓(xùn)練的不完善;3)如何處理深層網(wǎng)絡(luò)中訓(xùn)練不完善的層次。

        在卷積神經(jīng)網(wǎng)絡(luò)深度的研究以外,Szegedy等[9]更關(guān)注通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)從而降低網(wǎng)絡(luò)的復(fù)雜程度。他們提出了一種卷積神經(jīng)網(wǎng)絡(luò)的基本模塊稱為Inception。如圖3所示,Inception模塊由1×1,3×3,5×5的卷積核組成,小尺度卷積核的使用主要有兩大優(yōu)點(diǎn):1)控制了整個(gè)網(wǎng)絡(luò)中的訓(xùn)練參數(shù)數(shù)量,降低了網(wǎng)絡(luò)的復(fù)雜度;2)不同大小的卷積核在多尺度上針對(duì)同一圖像或者特征圖進(jìn)行了特征提取。實(shí)驗(yàn)表明,使用Inception模塊構(gòu)建的GoogLeNet的訓(xùn)練參數(shù)數(shù)量只有AlexNet的1/12,但是在ImageNet上的圖像分類準(zhǔn)確度卻高出AlexNet大約10%。

        此外,Springenberg等[50]對(duì)卷積神經(jīng)網(wǎng)絡(luò)下采樣層存在的必要性提出了質(zhì)疑,并設(shè)計(jì)了不含下采樣層的“完全卷積網(wǎng)絡(luò)”?!巴耆矸e網(wǎng)絡(luò)”在結(jié)構(gòu)上相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單,但是其網(wǎng)絡(luò)性能卻不低于帶有下采樣層的傳統(tǒng)模型。

        卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方面的研究是一個(gè)開放的問題,基于當(dāng)前的研究狀況,目前的研究主要形成了兩大趨勢(shì):1)增加卷積神經(jīng)網(wǎng)絡(luò)的深度;2)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的復(fù)雜度。在卷積神經(jīng)網(wǎng)絡(luò)的深度研究方面,主要依賴于進(jìn)一步分析深層次網(wǎng)絡(luò)存在的潛在隱患(如:網(wǎng)絡(luò)退化),以解決深層網(wǎng)絡(luò)的訓(xùn)練問題(如:VGG、ResNet)。而在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)方面,目前的研究趨勢(shì)是進(jìn)一步加強(qiáng)對(duì)于當(dāng)前網(wǎng)絡(luò)結(jié)構(gòu)的理解和分析,以更簡(jiǎn)潔高效的網(wǎng)絡(luò)結(jié)構(gòu)取代當(dāng)前的結(jié)構(gòu),進(jìn)一步地降低網(wǎng)絡(luò)復(fù)雜度并且提升網(wǎng)絡(luò)的性能(如:GoogLeNet、完全卷積網(wǎng)絡(luò))。

        3.3卷積神經(jīng)網(wǎng)絡(luò)的原理分析

        卷積神經(jīng)網(wǎng)絡(luò)雖然在眾多應(yīng)用領(lǐng)域已經(jīng)取得了成功,但其原理的分析和解釋一直都是備受質(zhì)疑的一個(gè)弱點(diǎn)。近期的一些研究開始采用可視化的方法對(duì)卷積神經(jīng)網(wǎng)絡(luò)的原理進(jìn)行了分析,直觀地比較了卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)特征與傳統(tǒng)人工設(shè)計(jì)特征的差異,展現(xiàn)了網(wǎng)絡(luò)從低層到高層的特征表達(dá)過程。

        Donahue等[30]提出了利用tSNE[51]的方法來分析卷積神經(jīng)網(wǎng)絡(luò)提取的特征。tSNE的原理是將高維特征降低到二維,然后在二維空間直觀地展示特征。利用tSNE,Donahue等將卷積神經(jīng)網(wǎng)絡(luò)特征與傳統(tǒng)的人工設(shè)計(jì)特征GIST(GIST的含義是能夠激發(fā)記憶中場(chǎng)景類別的抽象場(chǎng)景)[52]和LLC(Localityconstrained Linear Coding)[53]進(jìn)行了比較,發(fā)現(xiàn)判別能力更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)特征在tSNE的可視化結(jié)果中表現(xiàn)出了更好的區(qū)分度,證明了特征判別能力與tSNE可視化結(jié)果的一致性。但是,Donahue等的研究仍然遺留下來了以下問題:1)未能解釋卷積神經(jīng)網(wǎng)絡(luò)提取的特征到底是什么;2)Donahue等挑選了卷積神經(jīng)網(wǎng)絡(luò)部分層次的特征進(jìn)行可視化,但是對(duì)于這些層次之間的關(guān)系并沒有進(jìn)行分析;3)tSNE算法本身存在一定的局限性,對(duì)于特征類別過多的情況并不能很好地反映類別間的差異。

        Zeiler和Fergus等[24]的研究較好地解決了tSNE的遺留問題。他們通過構(gòu)建DeConvNet[54],對(duì)卷積神經(jīng)網(wǎng)絡(luò)中不同層次的特征進(jìn)行反卷積,展示了各個(gè)層次提取的特征狀況。圖4選取了卷積神經(jīng)網(wǎng)絡(luò)各個(gè)層次的部分較強(qiáng)特征可視化結(jié)果,并且與像素空間的原始圖像的對(duì)應(yīng)像素塊進(jìn)行了對(duì)比??梢园l(fā)現(xiàn):卷積神經(jīng)網(wǎng)絡(luò)較低的第一和第二層主要提取了邊緣、顏色等低層特征,第三層開始出現(xiàn)了較為復(fù)雜的紋理特征,而第四層和第五層開始出現(xiàn)了較為完整的個(gè)體輪廓和形狀特征。通過可視化各個(gè)層次的特征,Zeiler和Fergus等改進(jìn)了AlexNet的卷積核大小和步長(zhǎng),提升了網(wǎng)絡(luò)性能。并且,他們還利用可視化特征對(duì)卷積神經(jīng)網(wǎng)絡(luò)的圖像遮擋敏感性、物體部件相關(guān)性以及特征不變性進(jìn)行了分析。Zeiler和Fergus等的研究體現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)的原理研究對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與性能具有重大的指導(dǎo)意義。

        Nguyen等[55]對(duì)卷積神經(jīng)網(wǎng)絡(luò)提取特征的完備性提出了質(zhì)疑。如圖5所示,Nguyen等通過進(jìn)化算法[56]將原始圖像處理成在人類看來根本無法識(shí)別和解釋的一種形式,但是卷積神經(jīng)網(wǎng)絡(luò)對(duì)于這些轉(zhuǎn)換后的圖像形式卻給出了非常確切的物體類別判斷。Nguyen等的研究并沒有針對(duì)出現(xiàn)這一現(xiàn)象的原因作出明確的解釋,只是證明了卷積神經(jīng)網(wǎng)絡(luò)雖然具有分層的特征提取能力,但在圖像的識(shí)別機(jī)理上并不是與人類完全一致。這一現(xiàn)象表明了當(dāng)前的研究對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的原理認(rèn)知與分析還存在很大的不足。

        總體來說,目前針對(duì)卷積神經(jīng)網(wǎng)絡(luò)原理的研究與分析還相當(dāng)?shù)夭蛔?,主要存在的問題包括:1)與傳統(tǒng)的人工設(shè)計(jì)特征不同,卷積神經(jīng)網(wǎng)絡(luò)的特征受到特定的網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)算法以及訓(xùn)練集等多種因素影響,其原理的分析與解釋相比人工設(shè)計(jì)特征更加地抽象和困難;2)Nguyen等[55]的研究展示了卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)的被“欺騙”現(xiàn)象引起了人們對(duì)于其完備性的關(guān)注。雖然卷積神經(jīng)網(wǎng)絡(luò)是基于仿生學(xué)的研究而來,但是如何解釋卷積神經(jīng)網(wǎng)絡(luò)與人類視覺的差異,如何使卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別機(jī)制更加完備,仍然是有待解決的問題。

        3.4卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)

        遷移學(xué)習(xí)的定義是:“運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問題進(jìn)行求解的一種機(jī)器學(xué)習(xí)方法”[57],其目標(biāo)是完成知識(shí)在相關(guān)領(lǐng)域之間的遷移[11]。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,遷移學(xué)習(xí)就是要把在特定數(shù)據(jù)集上訓(xùn)練得到的“知識(shí)”成功運(yùn)用到新的領(lǐng)域之中。如圖6所示,卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)的一般流程是:1)在特定應(yīng)用之前,先利用相關(guān)領(lǐng)域大型數(shù)據(jù)集(如ImageNet)對(duì)網(wǎng)絡(luò)中的隨機(jī)初始化參數(shù)進(jìn)行訓(xùn)練;2)利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),針對(duì)特定應(yīng)用領(lǐng)域的數(shù)據(jù)(如Caltech)進(jìn)行特征提??;3)利用提取后的特征,針對(duì)特定應(yīng)用領(lǐng)域的數(shù)據(jù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)或者分類器。

        相比直接在目標(biāo)數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)的傳統(tǒng)方法,Zeiler和Fergus等[24]讓卷積神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后再將網(wǎng)絡(luò)分別在圖像分類數(shù)據(jù)集Caltech101[58]和Caltech256[59]上進(jìn)行遷移訓(xùn)練和測(cè)試,其圖像分類準(zhǔn)確度提高了約40%。但是,ImageNet和Caltech都屬于物體識(shí)別數(shù)據(jù)庫,其遷移學(xué)習(xí)的領(lǐng)域相對(duì)比較接近,對(duì)于跨度更大領(lǐng)域的研究還存在不足。于是,Donahue等[30]采用了與Zeiler類似的策略,通過基于ImageNet的卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練,成功地將卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)應(yīng)用到了與物體識(shí)別差異更大的領(lǐng)域,包括:domain adaption、subcategory recognition以及scene recognition等。

        除了卷積神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域的遷移學(xué)習(xí)研究,Razavian等[31]還對(duì)卷積神經(jīng)網(wǎng)絡(luò)不同層次特征的遷移學(xué)習(xí)效果進(jìn)行了探索,發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的高層特征相對(duì)于低層特征具有更好的遷移學(xué)習(xí)能力。

        Zhou等[60]利用了大型的圖像分類數(shù)據(jù)庫(ImageNet)和場(chǎng)景識(shí)別數(shù)據(jù)庫(Places[60])分別對(duì)兩個(gè)相同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了預(yù)訓(xùn)練,并且在一系列的圖像分類和場(chǎng)景識(shí)別數(shù)據(jù)庫上進(jìn)行了遷移學(xué)習(xí)效果的驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,經(jīng)過ImageNet和Places預(yù)訓(xùn)練的網(wǎng)絡(luò)分別在各自領(lǐng)域的數(shù)據(jù)庫上取得的遷移學(xué)習(xí)效果更好,這一事實(shí)說明了領(lǐng)域的相關(guān)性對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)具有一定的影響。

        關(guān)于卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的研究,其意義包括:1)解決卷積神經(jīng)網(wǎng)絡(luò)在小樣本條件下的訓(xùn)練樣本不足問題;2)對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的遷移利用,能大幅度減少網(wǎng)絡(luò)的訓(xùn)練開銷;3)利用遷移學(xué)習(xí)能進(jìn)一步擴(kuò)大卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域。

        卷積神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)還有待進(jìn)一步研究的內(nèi)容包括:1)訓(xùn)練樣本的數(shù)量對(duì)于遷移學(xué)習(xí)效果的影響,以及遷移學(xué)習(xí)對(duì)于擁有不同訓(xùn)練樣本數(shù)量的應(yīng)用的效果還有待進(jìn)一步的研究;2)基于卷積神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu),進(jìn)一步分析卷積神經(jīng)網(wǎng)絡(luò)體系中各個(gè)層次的遷移學(xué)習(xí)能力;3)分析領(lǐng)域間相關(guān)性對(duì)于遷移學(xué)習(xí)的作用,尋找優(yōu)化的跨領(lǐng)域遷移學(xué)習(xí)策略。

        4卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用分析

        隨著網(wǎng)絡(luò)性能的提升和遷移學(xué)習(xí)方法的使用,卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)應(yīng)用也逐漸向復(fù)雜化和多元化發(fā)展??傮w來說,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用主要呈現(xiàn)出以下四大發(fā)展趨勢(shì):

        1)隨著卷積神經(jīng)網(wǎng)絡(luò)相關(guān)研究的不斷推進(jìn),其相關(guān)應(yīng)用領(lǐng)域的精度也得到了迅速的提高。以圖像分類領(lǐng)域的研究為例,在AlexNet將ImagNet的圖像分類準(zhǔn)確度大幅提升到84.7%之后,不斷有改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型被提出并刷新了AlexNet的紀(jì)錄,具有代表性的網(wǎng)絡(luò)包括:VGG[8]、GoogLeNet[9]、PReLUnet[46]和BNinception[61]等。最近,由微軟提出的ResNet[10]已經(jīng)將ImageNet的圖像分類準(zhǔn)確度提高到了96.4%,而ResNet距離AlexNet的提出,也僅過去了四年的時(shí)間。卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域的迅速發(fā)展,不斷提升已有數(shù)據(jù)集的準(zhǔn)確度,也給更加大型的圖像應(yīng)用相關(guān)數(shù)據(jù)庫的設(shè)計(jì)帶來了迫切的需求。

        2)實(shí)時(shí)應(yīng)用領(lǐng)域的發(fā)展。計(jì)算開銷一直是卷積神經(jīng)網(wǎng)絡(luò)在實(shí)時(shí)應(yīng)用領(lǐng)域發(fā)展的阻礙。但是,近期的一些研究展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在實(shí)時(shí)應(yīng)用中的潛力。Gishick等[6,62]和Ren等[63]在基于卷積神經(jīng)網(wǎng)絡(luò)的物體檢測(cè)領(lǐng)域進(jìn)行了深入的研究,先后提出了RCNN[6]、Fast RCNN[62]和Faster RCNN[63]模型,突破了卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)應(yīng)用瓶頸。RCNN成功地提出了利用CNN在region proposals[64]的基礎(chǔ)上進(jìn)行物體檢測(cè)。RCNN雖然取得了很高的物體檢測(cè)準(zhǔn)確度,但是過多的region proposals使得物體檢測(cè)的速度非常緩慢。Fast RCNN通過在region proposals之間共享卷積特征,大幅減少了大量region proposals帶來的計(jì)算開銷,在忽略產(chǎn)生region proposals的時(shí)間情況下,F(xiàn)ast RCNN取得了接近實(shí)時(shí)的物體檢測(cè)速度。而Faster RCNN則是通過利用端到端的卷積神經(jīng)網(wǎng)絡(luò)[7]提取region proposals取代了傳統(tǒng)的效率較低的方法[64],實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)對(duì)于物體的實(shí)時(shí)檢測(cè)。隨著硬件性能的不斷提高,以及通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)帶來的網(wǎng)絡(luò)復(fù)雜度的降低,卷積神經(jīng)網(wǎng)絡(luò)在實(shí)時(shí)圖像處理任務(wù)領(lǐng)域逐漸展現(xiàn)出了應(yīng)用前景。

        3)隨著卷積神經(jīng)網(wǎng)絡(luò)性能的提升,相關(guān)應(yīng)用的復(fù)雜程度也隨之提高。一些具有代表性的研究包括:Khan等[65]通過利用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)圖像中的區(qū)域特征和輪廓特征,完成了陰影檢測(cè)任務(wù);卷積神經(jīng)網(wǎng)絡(luò)在人臉檢測(cè)和識(shí)別的應(yīng)用中也取得了巨大的進(jìn)步,取得了接近人類的人臉識(shí)別效果[66-67];Levi等[68]利用卷積神經(jīng)網(wǎng)路學(xué)習(xí)到的人臉細(xì)微特征,進(jìn)一步實(shí)現(xiàn)了對(duì)人的性別和年齡進(jìn)行預(yù)測(cè);Long等[7]提出的FCN結(jié)構(gòu)實(shí)現(xiàn)了圖像與語義的端到端映射;Zhou等[60]研究了利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別與更為復(fù)雜的場(chǎng)景識(shí)別任務(wù)之間的相互聯(lián)系;Ji等[25]利用了3D卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了行為識(shí)別。目前,卷積神經(jīng)網(wǎng)絡(luò)的性能和結(jié)構(gòu)仍然處于高速的發(fā)展階段,其相關(guān)的復(fù)雜應(yīng)用在接下來的一段時(shí)間內(nèi)都將保持其研究熱度。

        4)基于遷移學(xué)習(xí)以及網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),卷積神經(jīng)網(wǎng)絡(luò)逐漸成為了一種通用的特征提取與模式識(shí)別工具,其應(yīng)用范圍已經(jīng)逐漸超越了傳統(tǒng)的計(jì)算機(jī)視覺領(lǐng)域。比如,AlphaGo成功地利用了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圍棋的盤面形勢(shì)進(jìn)行判斷[38],證明了卷積神經(jīng)網(wǎng)絡(luò)在人工智能領(lǐng)域的成功應(yīng)用;AbdelHamid等[37]通過將語音信息建模成符合卷積神經(jīng)網(wǎng)絡(luò)的輸入模式,并結(jié)合隱馬爾可夫模型(Hidden Markov Model, HMM),將卷積神經(jīng)網(wǎng)絡(luò)成功地應(yīng)用到了語音識(shí)別領(lǐng)域;Kalchbrenner等[35]利用卷積神經(jīng)網(wǎng)絡(luò)提取了詞匯和句子層面的信息,成功地將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理;Donahue等[20]結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),提出了LRCN(Longterm Recurrent Convolutional Network)模型,實(shí)現(xiàn)了圖像摘要的自動(dòng)生成。卷積神經(jīng)網(wǎng)絡(luò)作為一種通用的特征表達(dá)工具,逐漸表現(xiàn)出了在更加廣泛的應(yīng)用領(lǐng)域中的研究?jī)r(jià)值。

        從目前的研究形勢(shì)來看,一方面,卷積神經(jīng)網(wǎng)絡(luò)在其傳統(tǒng)應(yīng)用領(lǐng)域的研究熱度不減,如何改善網(wǎng)絡(luò)的性能仍有很大的研究空間;另一方面,卷積神經(jīng)網(wǎng)絡(luò)良好的通用性能使其應(yīng)用領(lǐng)域逐漸擴(kuò)大,應(yīng)用的范圍不再局限于傳統(tǒng)的計(jì)算機(jī)視覺領(lǐng)域,并且向應(yīng)用的復(fù)雜化、智能化和實(shí)時(shí)化發(fā)展。

        5卷積神經(jīng)網(wǎng)絡(luò)的缺陷與發(fā)展方向

        目前,卷積神經(jīng)網(wǎng)絡(luò)正處于研究熱度非常高的階段,該領(lǐng)域仍然存在的一些問題以及發(fā)展方向,包括:

        1)完備的數(shù)學(xué)解釋和理論指導(dǎo)是卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步發(fā)展過程中無法回避的問題。作為一個(gè)基于實(shí)證的研究領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)的理論研究目前還相對(duì)比較滯后。卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論研究對(duì)卷積神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展具有非常重要的意義。

        2)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究還具有很大的空間。目前的研究表明,僅僅通過簡(jiǎn)單地增加網(wǎng)絡(luò)的復(fù)雜程度,會(huì)遇到一系列的瓶頸,如:過擬合問題,網(wǎng)絡(luò)退化問題等。卷積神經(jīng)網(wǎng)絡(luò)性能的提升需要依靠更加合理的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。

        3)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)眾多,但是目前的相關(guān)設(shè)置大多基于經(jīng)驗(yàn)和實(shí)踐,參數(shù)的量化分析與研究是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)有待解決的問題。

        4)卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)不斷改進(jìn),舊有的數(shù)據(jù)集已經(jīng)不能滿足當(dāng)前的需求。數(shù)據(jù)集對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究和遷移學(xué)習(xí)研究等都具有重要意義。數(shù)量和類別更多、數(shù)據(jù)形式更為復(fù)雜是當(dāng)前相關(guān)研究數(shù)據(jù)集的發(fā)展趨勢(shì)。

        5)遷移學(xué)習(xí)理論的應(yīng)用,有助于進(jìn)一步拓展卷積神經(jīng)網(wǎng)絡(luò)向更為廣闊的應(yīng)用領(lǐng)域發(fā)展;并且,基于任務(wù)的端到端卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)(如:Faster RCNN, FCN等)有助于提升網(wǎng)絡(luò)的實(shí)時(shí)性,是目前的發(fā)展趨勢(shì)之一。

        6)雖然卷積神經(jīng)網(wǎng)絡(luò)在眾多應(yīng)用領(lǐng)域取得了優(yōu)異的成績(jī),但是關(guān)于其完備性的相關(guān)研究與證明仍然是目前較為匱乏的部分。卷積神經(jīng)網(wǎng)絡(luò)的完備性研究有助于進(jìn)一步理解卷積神經(jīng)網(wǎng)絡(luò)與人類視覺系統(tǒng)之間的原理差異,并且?guī)椭l(fā)現(xiàn)和解決當(dāng)前網(wǎng)絡(luò)結(jié)構(gòu)存在的認(rèn)知缺陷。

        6結(jié)語

        本文對(duì)卷積神經(jīng)網(wǎng)絡(luò)的歷史、原理進(jìn)行了簡(jiǎn)要的介紹,重點(diǎn)從卷積神經(jīng)網(wǎng)絡(luò)的過擬合問題、結(jié)構(gòu)研究、原理分析、遷移學(xué)習(xí)共四個(gè)方面對(duì)卷積神經(jīng)網(wǎng)絡(luò)當(dāng)前的發(fā)展?fàn)顩r進(jìn)行了綜述。另外,本文還對(duì)于目前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)取得的一些應(yīng)用成果進(jìn)行了分析,指出了當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)相關(guān)研究的一些缺陷及發(fā)展方向。卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)下一個(gè)具有很高熱度的研究領(lǐng)域,具有廣闊的研究前景。本文希望通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)已有的研究成果進(jìn)行總結(jié)分析,能夠?qū)氖卤绢I(lǐng)域研究的科研人員有所幫助,推動(dòng)這一領(lǐng)域相關(guān)研究的發(fā)展。

        參考文獻(xiàn):

        [1]

        LECUN Y, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

        [2]

        HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation, 2006, 18(7): 1527-1554.

        [3]

        LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations [C]// ICML 09: Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 609-616.

        [4]

        HUANG G B, LEE H, ERIK G. Learning hierarchical representations for face verification with convolutional deep belief networks [C]// CVPR 12: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 2518-2525.

        [5]

        KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1106-1114.

        [6]

        GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.

        [7]

        LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440.

        [8]

        SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for LargeScale Image Recognition [C]// International Conference on Learning Representations. San Diego: CoRR, 2015.

        SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for largescale image recognition [EB/OL]. [20151104]. http://www.robots.ox.ac.uk:5000/~vgg/publications/2015/Simonyan15/simonyan15.pdf.

        [9]

        SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-8.

        [10]

        HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE Press, 2016.

        HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [EB/OL]. [20160104]. https://www.researchgate.net/publication/286512696_Deep_Residual_Learning_for_Image_Recognition.

        [11]

        PAN S J, YANG Q. A survey on transfer learning [J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

        [12]

        COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.

        [13]

        OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring midlevel image representations using convolutional neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1717-1724.

        [14]

        HUBEL D H, WIESEL T N. Receptive fields, binocular interaction, and functional architecture in the cats visual cortex [J]. Journal of Physiology, 1962, 160(1): 106-154.

        [15]

        FUKUSHIMA K. Neocognitron: a selforganizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological Cybernetics, 1980, 36(4): 193-202.

        [16]

        WAIBEL A, HANAZAWA T, HINTON G, et al. Phoneme recognition using timedelay neural networks [M]// Readings in Speech Recognition. Amsterdam: Elsvier, 1990: 393-404. IEEE Transactions on Acoustics Speech Signal Process, 1989, 37(3): 328-339.

        [17]

        VAILLANT R, MONROCQ C, LECUN Y. Original approach for the localization of objects in images [C]// In Proceedings of Vision, Image, and Signal Processing. 1994, 141(4): 245-250.

        VAILLANT R, MONROCQ C, LE CUN Y. Original approach for the localization of objects in images [J]. IEE Proceedings—Vision, Image and Signal Processing, 1994, 141(4): 245-250.

        [18]

        LAWRENCE S, GILES C L, TSOI A C, et al. Face recognition: a convolutional neuralnetwork approach [J]. IEEE Transactions on Neural Networks, 1997, 8(1): 98-113.

        [19]

        DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009:248-255.

        [20]

        DONAHUE J, HENDRICKS L A, GUADARRAMA S, et al. Longterm recurrent convolutional networks for visual recognition and description [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.

        [21]

        VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3156-3164.

        [22]

        MALINOWSKI M, ROHRBACH M, FRITZ M. Ask your neurons: a neuralbased approach to answering questions about images [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1-9.

        [23]

        ANTOL S, AGRAWAL A, LU J, et al. VQA: visual question answering [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 2425-2433.

        [24]

        ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// Proceedings of European Conference on Computer Vision, LNCS 8689. Berlin: Springer, 2014: 818-833.

        [25]

        JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

        [26]

        LOWE D G. Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

        [27]

        DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 886-893.

        [28]

        LECUN Y, BENGIO Y, HINTON G E. Deep learning [J]. Nature, 2015, 521(7553): 436-444.

        [29]

        孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.(SUN Z J, XUE L, XU Y M, et al. Overview of deep learning [J]. Application Research of Computers, 2012, 29(8): 2806-2810)

        [30]

        DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition [C]// Proceedings of International Conference on Machine Learning. Beijing: ACM Press, 2014: 647-655.

        DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: a deep convolutional activation feature for generic visual recognition [J]. Computer Science, 2013, 50(1): 815-830.

        [31]

        RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features offtheshelf: an astounding baseline for recognition [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE Press, 2014: 512-519.

        RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features offtheshelf: an astounding baseline for recognition [EB/OL]. [20151122]. http://www.csc.kth.se/~azizpour/papers/ha_cvpr14w.pdf.

        [32]

        SERMANET P, KAVUKCUOGLU K, CHINTALA S, et al. Pedestrian detection with unsupervised multistage feature learning [C]// CVPR 13: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3626-3633.

        [33]

        KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks [C]// CVPR 14: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.

        [34]

        TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 1653-1660.

        [35]

        KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [C]// Proceedings of Annual Meeting of the Association for Computational Linguistics. Baltimore: ACL Press, 2014: 655-665.

        KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences [EB/OL]. [20160107]. http://anthology.aclweb.org/P/P14/P141062.pdf.

        [36]

        KIM Y. Convolutional Neural Networks for Sentence Classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha: ACL Press, 2014: 1746–1751.

        KIM Y. Convolutional neural networks for sentence classification [EB/OL]. [20160107]. http://anthology.aclweb.org/D/D14/D141181.pdf.

        [37]

        ABDELHAMID O, MOHAMMED A, JIANG H, et al. Convolutional neural networks for speech recognition [J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2014, 22(10): 1533-1545.

        [38]

        SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-489.

        [39]

        ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [C]// Proceedings of International Conference on Learning Representations. Scottsdale: CoRR, 2013.

        ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [20160111].

        [40]

        MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge, MA: MIT Press, 2012: 82-92.

        [41]

        CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [C]// British Machine Vision Conference. Nottingham: BMVA, 2014.

        CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: delving deep into convolutional nets [EB/OL]. [20160112]. http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/chatfield14return.pdf.

        [42]

        GOODFELLOW I J, WARDEFARLEY D, MIRZA M, et al. Maxout networks [C]// Proceedings of the 2013 International Conference on Machine Learning. New York: ACM, 2013:1319-1327.

        GOODFELLOW I J, WARDEFARLEY D, MIRZA M, et al. Maxout networks [EB/OL]. [20160112]. http://wwwetud.iro.umontreal.ca/~goodfeli/maxout.pdf.

        [43]

        LIN M, CHEN Q, YAN S. Network in network [C]// Proceedings of International Conference on Learning Representations. Banff: CoRR, 2014.

        LIN M, CHEN Q, YAN S. Network in network [EB/OL]. [20160112]. http://arxiv.org/pdf/1312.4400v3.pdf.

        [44]

        MONTAVON G, ORR G, MLLER K R. Neural Networks: Tricks of the Trade [M]. 2nd ed. London: Springer, 2012: 49-131.

        [45]

        BENGIO Y, SIMARD P, FRASCONI P. Learning longterm dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.

        [46]

        HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing humanlevel performance on ImageNet classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 1026-1034.

        [47]

        HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing coadaption of feature detectors [R/OL]. [20151026]. http://arxiv.org/pdf/1207.0580v1.pdf.

        [48]

        WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect [C]// Proceedings of the 2013 International Conference on Machine Learning. New York: ACM Press, 2013: 1058-1066.

        http://cs.nyu.edu/~wanli/dropc/dropc_slides.pdf

        [49]

        HE K, SUN J. Convolutional neural networks at constrained time cost [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5353-5360.

        [50]

        SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: the all convolutional net [C]// International Conference on Learning Representations Workshop. San Diego: CoRR, 2015.

        SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: the all convolutional net [EB/OL]. [20151224]. http://arxiv.org/pdf/1412.6806.pdf.

        [51]

        VAN DER MAATEN L, HINTON G. Visualizing data using tSNE [J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

        VAN DER MAATEN L, HINTON G. Visualizing data using tSNE [EB/OL]. [20151224]. http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf.

        [52]

        OLIVA A, TORRALBA A. Modeling the shape of the scene: a holistic representation of the spatial envelope [J]. International Journal of Computer Vision, 2001, 42(3): 145-175.

        [53]

        WANG J, YANG J, YU K. Localityconstrained linear coding for image classification [C]// Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 3360-3367.

        [54]

        ZEILER M D, TAYLOR G W, FERGUS R. Adaptive deconvolutional networks for mid and high level feature learning [C]// ICCV 11: Proceedings of the 2011 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2011: 2018-2025.

        [55]

        NGUYEN A, YOSINSKI J, CLUNE J, et al. Deep neural networks are easily fooled: high confidence predictions for unrecognizable images [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 427-436.

        [56]

        FLOREANO D, MATTIUSSI C. Bioinspired Artificial Intelligence: Theories Methods and Technologies [M]. Cambridge, MA: MIT Press, 2008: 1-97.

        [57]

        莊福振,羅平,何清,等.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1):26-39.(ZHUANG F Z, LUO P, HE Q, et al. Survey on transfer learning research [J]. Journal of Software, 2015, 26(1): 26-39.)

        [58]

        LI F, FERGUS R, PERONA P. Oneshot learning of object categories [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4):594-611.

        [59]

        GRIFFIN B G, HOLUB A, PERONA P. The Caltech256, caltech technical report [R]. In Caltech Technical Report, 2006.

        GRIFFIN B G, HOLUB A, PERONA P. The Caltech256 [R/OL]. [20160103]. http://xueshu.baidu.com/s?wd=paperuri%3A%28699092e99ad6f96f8696507d539a51c8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fciteseer.ist.psu.edu%2Fshowciting%3Fcid%3D11093943&ie=utf8&sc_us=16824823650146432853.

        [60]

        ZHOU B, LAPEDRIZA A, XIAO J, et al. Learning deep features for scene recognition using places database [C]// Proceedings of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press. 2014:487-495.

        [61]

        LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of International Conference on Machine Learning. New York: ACM Press, 2015: 448-456.

        LOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [20160106]. http://jmlr.org/proceedings/papers/v37/ioffe15.pdf.

        [62]

        GIRSHICK R B. Fast RCNN [C]// Proceedings of the International Conference on Computer Vision. Santiago: IEEE Press, 2015: 1440-1448.

        GIRSHICK R B. Fast RCNN [EB/OL]. [20160106].

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)特征
        基于時(shí)域全卷積網(wǎng)絡(luò)的語音增強(qiáng)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        国产一区二区三区毛片| 蜜桃免费一区二区三区| 精彩视频在线观看一区二区三区| 国产一区国产二区亚洲精品| 97久人人做人人妻人人玩精品| 中文无码日韩欧| 国产免费又色又爽又黄软件| 国产精品无码久久久久免费AV| 国产精品高潮呻吟av久久无吗 | 东京热久久综合久久88| 久久久精品电影| 国产亚洲亚洲精品视频| 国产一区二区三区中出| 色婷婷色丁香久久婷婷| 日本丰满熟妇videossex8k| 欧美精品偷自拍另类在线观看| 2021年最新久久久视精品爱| 婷婷开心五月综合基地| 中文字幕有码在线亚洲| 无码人妻久久一区二区三区免费丨 | 国产成人a级毛片| 大香伊蕉国产av| 亚州精品无码人妻久久| 中文字幕人成乱码中文乱码| 国产精品国产传播国产三级| 五月丁香六月综合缴清无码 | 久久婷婷色综合一区二区| 中文字幕乱码中文乱码毛片 | 亚洲国产成人手机在线电影| 成人自拍三级在线观看| 可以免费看亚洲av的网站| 人妻丰满熟妇av无码区| 国产白嫩美女在线观看| 精品一区二区三区四区少妇 | 男女搞黄在线观看视频| 国产精品综合一区久久| 欧美激情一区二区三区成人| 女人做爰高潮呻吟17分钟| 青草蜜桃视频在线观看| 亚洲大胆视频在线观看| 国产av一区二区三区性入口|