楊文柱, 劉 晴, 王思樂(lè), 崔振超, 張寧雨
(河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071002)
正確識(shí)別監(jiān)控圖像中的羽絨類(lèi)型,是基于機(jī)器視覺(jué)[1-2]的羽絨分揀技術(shù)的關(guān)鍵.在羽絨監(jiān)控圖像中,同一類(lèi)型的羽絨形態(tài)千差萬(wàn)別,不同類(lèi)型的羽絨形態(tài)也有相似,這使得傳統(tǒng)的圖像識(shí)別技術(shù)難以正確識(shí)別監(jiān)控圖像中的羽絨類(lèi)型,其識(shí)別精度也難以達(dá)到實(shí)際生產(chǎn)的要求(正確率不小于90%).深度卷積神經(jīng)網(wǎng)絡(luò)[3](deep convolutional neural networks,DCNN)是一種基于特征學(xué)習(xí)的圖像識(shí)別方法,其泛化能力較傳統(tǒng)的圖像識(shí)別方法有了明顯提高,因此在最近幾年,基于DCNN的圖像識(shí)別方法取得了舉世矚目的成績(jī).基于特征學(xué)習(xí)的圖像識(shí)別方法不需要事先指定應(yīng)該提取的特征,而是通過(guò)迭代學(xué)習(xí)的方式尋找最適合分類(lèi)的特征.將DCNN應(yīng)用于圖像識(shí)別任務(wù)時(shí),不僅可以提高識(shí)別精度,還可以避免人工提取特征造成的人力和時(shí)間浪費(fèi),同時(shí)滿足在線檢測(cè)的需要.
近年來(lái)識(shí)別效果好的DCNN結(jié)構(gòu)有AlexNet[4]、VGGNet[5]、GoogleNet[6]、ResNet[7]等.DCNN在圖像識(shí)別分類(lèi)[8]、目標(biāo)檢測(cè)[9]、目標(biāo)跟蹤[10]、文本識(shí)別[11]、語(yǔ)音識(shí)別[12]等方面都取得了很好的成績(jī).這些網(wǎng)絡(luò)中權(quán)值初始化方法大部分采用隨機(jī)初始化,如小隨機(jī)數(shù)初始化[4]、Xavier初始化[13]、MSRA初始化[14]等.DCNN的訓(xùn)練方式是有監(jiān)督訓(xùn)練,所以訓(xùn)練時(shí)需要大量有類(lèi)標(biāo)的數(shù)據(jù)來(lái)進(jìn)行權(quán)值的更新調(diào)整.但當(dāng)圖像數(shù)據(jù)集較小時(shí)容易造成網(wǎng)絡(luò)的前幾層無(wú)法得到充分訓(xùn)練等問(wèn)題,針對(duì)該問(wèn)題的主要解決方案是對(duì)網(wǎng)絡(luò)的卷積核進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,以得到盡可能符合數(shù)據(jù)集統(tǒng)計(jì)特性的卷積核集合.文獻(xiàn)[15]通過(guò)訓(xùn)練一個(gè)稀疏自動(dòng)編碼器,對(duì)網(wǎng)絡(luò)第一層卷積核權(quán)值進(jìn)行初始化,在原圖隨機(jī)切取小塊作為稀疏自動(dòng)編碼器的輸入,訓(xùn)練得到的權(quán)值就是對(duì)隨機(jī)切取小塊的一種稀疏表達(dá);同時(shí),小塊的選取極為重要,若識(shí)別目標(biāo)在原圖中占比較小,隨機(jī)切取的小塊取到背景的可能性較大,這樣訓(xùn)練得到的卷積核對(duì)網(wǎng)絡(luò)收斂貢獻(xiàn)甚微.
針對(duì)以上問(wèn)題,設(shè)計(jì)實(shí)現(xiàn)了一種用于識(shí)別羽絨圖像的DCNN,并利用視覺(jué)顯著性模型和無(wú)監(jiān)督預(yù)訓(xùn)練的方法對(duì)其權(quán)值進(jìn)行預(yù)訓(xùn)練,以提高網(wǎng)絡(luò)收斂速度和對(duì)羽絨圖像的識(shí)別精度.首先利用視覺(jué)顯著性模型從原始圖像中提取其顯著部分,將顯著部分截取指定規(guī)格的小塊輸入至稀疏自動(dòng)編碼器中進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,得到DCNN第一層的卷積核,將訓(xùn)練好的卷積核集合輸入到針對(duì)羽絨圖像識(shí)別的DCNN中;網(wǎng)絡(luò)結(jié)構(gòu)采用了Inception模塊及其變種模塊[6,16]來(lái)提高網(wǎng)絡(luò)的效率,并通過(guò)增加網(wǎng)絡(luò)的寬度和深度來(lái)提高網(wǎng)絡(luò)識(shí)別精度;最后利用softmax分類(lèi)器實(shí)現(xiàn)對(duì)羽絨類(lèi)型的識(shí)別.
DCNN的權(quán)值初始化主要是對(duì)卷積層和輸出層的卷積核參數(shù)和偏置進(jìn)行初始化.權(quán)值初始化關(guān)系到DCNN的訓(xùn)練時(shí)長(zhǎng),優(yōu)秀的初始權(quán)值會(huì)使網(wǎng)絡(luò)以較快的速度達(dá)到權(quán)值最優(yōu),從而提高訓(xùn)練速度.偏置項(xiàng)通常初始化為一個(gè)較小的常數(shù)或0,卷積核參數(shù)初始化通常采用隨機(jī)初始化方法.目前常用的隨機(jī)初始化方法有小隨機(jī)數(shù)初始化、Xavier初始化和MSRA初始化等.小隨機(jī)數(shù)初始化是將參數(shù)初始化為小的隨機(jī)數(shù),打破對(duì)稱(chēng)性,使得權(quán)值服從均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布,但當(dāng)隨機(jī)數(shù)取值太小時(shí),就會(huì)有明顯的弊端——反向傳播過(guò)程中梯度很小,對(duì)較深的網(wǎng)絡(luò)更是會(huì)造成梯度彌散的問(wèn)題,同時(shí)參數(shù)收斂速度也會(huì)降低.針對(duì)小隨機(jī)數(shù)初始化方法存在的問(wèn)題,Xavier等人提出權(quán)值服從均值為0、方差為1/n的均勻分布(n為輸入神經(jīng)元的數(shù)量),可以提高網(wǎng)絡(luò)訓(xùn)練的收斂速度.為了使其更適用于ReLU激活函數(shù),MSRA初始化對(duì)Xavier初始化進(jìn)行了改進(jìn),其權(quán)值服從均值為0、方差為2/n的高斯分布.
利用無(wú)監(jiān)督預(yù)訓(xùn)練對(duì)DCNN的卷積核權(quán)值進(jìn)行初始化也是常用的權(quán)值初始化方法之一.通過(guò)構(gòu)造一個(gè)稀疏自動(dòng)編碼器(sparse autoencoder,SAE)對(duì)網(wǎng)絡(luò)權(quán)值參數(shù)進(jìn)行預(yù)訓(xùn)練,使得輸入層和輸出層盡可能保持一致;在SAE訓(xùn)練過(guò)程中參數(shù)得以更新,形成符合數(shù)據(jù)特性的初始值.自動(dòng)編碼器是一種用于盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)[17].稀疏自動(dòng)編碼器則是在自動(dòng)編碼器的基礎(chǔ)上加入了稀疏限制,對(duì)隱含層進(jìn)行了約束,使其變得稀疏.
自動(dòng)編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.L1、L2、L3層分別代表網(wǎng)絡(luò)輸入層、隱含層和輸出層.若稀疏自編碼輸入層維度為6維,隱含層節(jié)點(diǎn)數(shù)量設(shè)置為3,這樣迫使隱含層節(jié)點(diǎn)學(xué)習(xí)得到輸入數(shù)據(jù)的壓縮表示方法,即用3維數(shù)據(jù)重構(gòu)出6維數(shù)據(jù).
圖1 自動(dòng)編碼器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of autoencoder
自動(dòng)編碼器損失函數(shù)如下:
(1)
其中:第1項(xiàng)為均方差項(xiàng);第2項(xiàng)是權(quán)重衰減項(xiàng),用于減小權(quán)重以防止過(guò)擬合.
在計(jì)算過(guò)程中,上述損失函數(shù)常導(dǎo)致網(wǎng)絡(luò)收斂很慢,計(jì)算復(fù)雜度過(guò)高.稀疏自編碼在自動(dòng)編碼器的基礎(chǔ)上加入L1正則化限制,使得大部分神經(jīng)元處于抑制狀態(tài),少數(shù)處于激活狀態(tài),使隱含層節(jié)點(diǎn)的輸出均值盡可能為0.稀疏自動(dòng)編碼器的損失函數(shù)表示為:
(2)
其中,KL(Kullback-Leibler)距離表達(dá)如下
(3)
(4)
首先利用視覺(jué)顯著性算法來(lái)提取圖像的顯著部分,然后隨機(jī)截取顯著部分圖像輸入至稀疏自動(dòng)編碼器中進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練.采用譜殘差算法
(spectral residual approach,SRA)來(lái)獲取圖像的顯著部分,其主要原理是在原圖中將背景剔除,即可得到圖像的前景,也就是圖像的顯著部分[18],如圖2所示.若CNN的第一層卷積操作需要8個(gè)5×5大小的卷積核,那么首先在顯著圖上隨機(jī)截取N個(gè)5×5的小塊作為稀疏自編碼的輸入層,隱含單元個(gè)數(shù)設(shè)置為8,經(jīng)過(guò)稀疏自編碼的預(yù)訓(xùn)練得到的W大小為25×8,再將W變?yōu)?×5×5即可得到卷積神經(jīng)網(wǎng)絡(luò)第一層卷積核集合W.
圖2 基于視覺(jué)顯著性和SAE預(yù)訓(xùn)練框架Fig.2 Training framework based on visual significance and SAE
圖3 Inception模塊及其變種Fig.3 Inception module and its variants
深度卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)最終的識(shí)別精度有著重要的影響.本文數(shù)據(jù)集為在生產(chǎn)線上實(shí)際采集的羽絨圖像經(jīng)過(guò)剪裁后的子圖像,子圖像大小均為100×100,比MNIST和CIFAR數(shù)據(jù)集中圖像的分辨率要大很多.為提高網(wǎng)絡(luò)效率和識(shí)別精度,采用Inception及其變種模塊來(lái)構(gòu)建基本網(wǎng)絡(luò)結(jié)構(gòu).
Inception模塊的主要特點(diǎn)是在加大了網(wǎng)絡(luò)深度和寬度的同時(shí)不增加計(jì)算量,還提高了計(jì)算資源的利用率.Inception模塊結(jié)構(gòu)如圖3(a)所示,由1×1、3×3、5×5的卷積操作和3×3的池化操作組成,通過(guò)設(shè)定1×1卷積核的數(shù)量,實(shí)現(xiàn)通道數(shù)的降維或升維,同時(shí)對(duì)不同通道的特征進(jìn)行融合.Inception模塊的優(yōu)勢(shì)主要體現(xiàn)在兩個(gè)方面:①使用小卷積核在減少網(wǎng)絡(luò)訓(xùn)練參數(shù)的同時(shí)降低了網(wǎng)絡(luò)計(jì)算復(fù)雜度;②使用不同大小的卷積核對(duì)同一特征圖進(jìn)行特征提?。S后研究者又提出將較大的卷積核分解成2個(gè)小卷積核,如圖3(b)所示,用2個(gè)3×3的卷積核代替5×5的卷積核,節(jié)約了計(jì)算時(shí)間,為增加卷積核數(shù)目提供便利條件.圖3(c)為Inception模塊的另一個(gè)變形,經(jīng)過(guò)卷積和池化操作后的特征圖大小是前一層的1/2,該方法使用了2個(gè)并行化的模塊,不僅減少了網(wǎng)絡(luò)的計(jì)算量,還有效地避免了池化所造成的信息損失.
針對(duì)羽絨圖像識(shí)別構(gòu)造的DCNN結(jié)構(gòu)如圖4所示.輸入層圖像大小為100×100;C1層是步長(zhǎng)為2的卷積層,其卷積核大小為3×3,本層產(chǎn)生32個(gè)大小為50×50的特征圖;C2層為步長(zhǎng)為1的卷積層,卷積核大小為3×3,本層產(chǎn)生64個(gè)大小為48×48的特征圖;S1為池化層,采樣窗口大小為3×3,窗口滑動(dòng)步長(zhǎng)設(shè)置為2,本層產(chǎn)生64個(gè)大小為24×24的特征圖.Inception_1層具體結(jié)構(gòu)如圖3(b)所示.采用padding方式進(jìn)行卷積運(yùn)算,得到的特征圖大小與前一層特征圖大小相同,即得到164個(gè)大小為24×24的特征圖.Inception_2層具體結(jié)構(gòu)如圖3(c)所示,得到114個(gè)大小為12×12的特征圖;C3層是步長(zhǎng)為1的卷積層,卷積核大小為3×3,本層產(chǎn)生64個(gè)大小為10×10的特征圖;FC1層為全連接層,將C3層的64個(gè)特征圖連接成一個(gè)特征向量;FC2層由8個(gè)神經(jīng)元構(gòu)成特征向量,對(duì)應(yīng)8種類(lèi)別輸出,F(xiàn)C2全連接層和輸出層構(gòu)成一個(gè)softmax分類(lèi)器.
試驗(yàn)環(huán)境采用河北大學(xué)信息技術(shù)中心的超算平臺(tái),使用其中一個(gè)獨(dú)立的計(jì)算節(jié)點(diǎn),該計(jì)算節(jié)點(diǎn)配置64個(gè)GPU,可大幅提升訓(xùn)練速度.DCNN程序采用基于Python的Tensorflow深度學(xué)習(xí)框架,而基于視覺(jué)顯著性和無(wú)監(jiān)督預(yù)訓(xùn)練的過(guò)程采用MatlabR2016a實(shí)現(xiàn).?dāng)?shù)據(jù)集為經(jīng)過(guò)剪裁的2 300張羽絨圖像,圖像像素大小均為100×100,共8類(lèi)(5個(gè)單獨(dú)類(lèi)和3個(gè)混合類(lèi))如圖5所示.
圖4 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure
圖5 羽絨圖像類(lèi)別Fig.5 Categories of down image
步驟1:首先利用譜殘差模型提取原圖顯著部分并切割,提取若干張圖像顯著區(qū)域,如圖6所示.
圖6 提取圖像顯著區(qū)域Fig.6 Extracting saliency area from image
步驟2:因?yàn)獒槍?duì)羽絨圖像識(shí)別提出的框架第一層卷積層需要32個(gè)3×3的卷積核,故將上一步中得到的若干顯著區(qū)域隨機(jī)切取N個(gè)3×3的小塊,輸入至稀疏自動(dòng)編碼器中,其中,稀疏自動(dòng)編碼器的隱含單元個(gè)數(shù)設(shè)置為32,訓(xùn)練得到的稀疏自動(dòng)編碼器的權(quán)值系數(shù)大小為6×32,將其格式轉(zhuǎn)換為32×3×3即可得到DCNN第一層卷積核集合W,圖7為訓(xùn)練的卷積核集合.
圖7 卷積核集合Fig.7 Convolutional kernels
步驟3:將數(shù)據(jù)集輸入至圖4的深度卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練并測(cè)試,得到識(shí)別錯(cuò)誤率.其中訓(xùn)練集包含2 000張羽絨圖像,測(cè)試集包含300張羽絨圖像.
本試驗(yàn)利用支持向量機(jī)(support vector machine,SVM)作為傳統(tǒng)圖像識(shí)別分類(lèi)的代表進(jìn)行對(duì)比試驗(yàn).將待識(shí)別的圖像進(jìn)行小波變換和圖像分割,提取變換系數(shù)的主成分以及分割得到的目標(biāo)形狀特征作為特征向量,該特征表示能力強(qiáng)、特征維數(shù)較低,對(duì)筆者試驗(yàn)數(shù)據(jù)集有較好的表示能力,且計(jì)算效率較高.但其計(jì)算錯(cuò)誤率和訓(xùn)練時(shí)長(zhǎng)相較于LeNet-5卷積神經(jīng)網(wǎng)絡(luò)仍然較高,如表1所示.
表1 支持向量機(jī)與卷積神經(jīng)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證圖4網(wǎng)絡(luò)結(jié)構(gòu)及筆者提出的基于視覺(jué)顯著性和稀疏自編碼預(yù)訓(xùn)練的權(quán)值初始化方法的有效性,設(shè)計(jì)了6種不同的試驗(yàn),如表2所示.
表2 識(shí)別錯(cuò)誤率對(duì)比
由表2可以看出,利用稀疏自編碼預(yù)訓(xùn)練算法對(duì)LeNet-5網(wǎng)絡(luò)初始權(quán)值進(jìn)行改進(jìn),較未加入LeNet-5的網(wǎng)絡(luò)降低了對(duì)羽絨圖像的識(shí)別錯(cuò)誤率,說(shuō)明稀疏自編碼預(yù)訓(xùn)練對(duì)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練有一定的貢獻(xiàn).對(duì)比加入稀疏自編碼預(yù)訓(xùn)練算法的LeNet-5網(wǎng)絡(luò)與利用視覺(jué)顯著性和稀疏自編碼算法對(duì)LeNet-5網(wǎng)絡(luò)初始權(quán)值進(jìn)行改進(jìn),可以看出加入了視覺(jué)顯著性和稀疏自編碼預(yù)訓(xùn)練算法的LeNet-5網(wǎng)絡(luò)進(jìn)一步降低了識(shí)別錯(cuò)誤率,并隨著數(shù)據(jù)集迭代次數(shù)的增加而降低.
由表2還可以看出,通過(guò)對(duì)比圖4網(wǎng)絡(luò)結(jié)構(gòu)和經(jīng)典LeNet-5網(wǎng)絡(luò)對(duì)羽絨圖像的識(shí)別訓(xùn)練,圖4網(wǎng)絡(luò)結(jié)構(gòu)對(duì)羽絨圖像的識(shí)別效果更好,對(duì)比經(jīng)過(guò)稀疏自編碼預(yù)訓(xùn)練的LeNet-5網(wǎng)絡(luò),在數(shù)據(jù)集迭代25次后,圖4網(wǎng)絡(luò)結(jié)構(gòu)對(duì)羽絨圖像識(shí)別有較低的錯(cuò)誤率,說(shuō)明筆者提出網(wǎng)絡(luò)結(jié)構(gòu)對(duì)羽絨圖像識(shí)別的有效性;同時(shí),在圖4網(wǎng)絡(luò)結(jié)構(gòu)中加入稀疏自編碼預(yù)訓(xùn)練算法,識(shí)別效果也有了一定的提高;在此基礎(chǔ)上加入譜殘差算法和稀疏自編碼預(yù)訓(xùn)練算法對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行初始化,在數(shù)據(jù)集迭代25次后,該網(wǎng)絡(luò)對(duì)羽絨圖像的識(shí)別正確率達(dá)到了96.7%.
圖8為L(zhǎng)eNet-5網(wǎng)絡(luò)與筆者提出的網(wǎng)絡(luò)結(jié)構(gòu)針對(duì)羽絨圖像訓(xùn)練的時(shí)間對(duì)比曲線.因羽絨圖像易混,若圖像分辨率小將更難區(qū)分,所以本數(shù)據(jù)集分辨率大小均為100×100.由圖8可以看出,在網(wǎng)絡(luò)訓(xùn)練中,筆者提出的網(wǎng)絡(luò)結(jié)構(gòu)較LeNet-5訓(xùn)練時(shí)間更短,收斂速度更快,且與本機(jī)(Linux Ubuntu-16)訓(xùn)練速度相比,在超算平臺(tái)上的訓(xùn)練速度更快.
圖8 訓(xùn)練時(shí)長(zhǎng)Fig.8 Training time
針對(duì)羽絨圖像識(shí)別構(gòu)造了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),并對(duì)權(quán)值初始化方法進(jìn)行了改進(jìn),主要貢獻(xiàn)如下:①利用視覺(jué)顯著性模型提取原圖顯著區(qū)域,并利用顯著區(qū)域進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,訓(xùn)練得到的權(quán)值系數(shù)即為DCNN卷積核的初始權(quán)值.利用這種初始化方法,在樣本數(shù)較小的情況下,DCNN也能以較快速度達(dá)到權(quán)值最優(yōu),且識(shí)別精度有所提升;②網(wǎng)絡(luò)結(jié)構(gòu)主要采用Inception模塊,適當(dāng)加大了網(wǎng)絡(luò)深度和寬度,提高了網(wǎng)絡(luò)效率和識(shí)別精度.本試驗(yàn)的數(shù)據(jù)集是經(jīng)過(guò)裁剪的子圖像,而實(shí)際生產(chǎn)中的圖像分辨率極高且圖像內(nèi)容更復(fù)雜,如何實(shí)現(xiàn)高分辨復(fù)雜圖像的識(shí)別,是下一步將要進(jìn)行的工作.
參考文獻(xiàn):
[1]陳繼華,李勇,田增國(guó),等. 基于機(jī)器視覺(jué)的機(jī)械式表盤(pán)自動(dòng)讀表技術(shù)的實(shí)現(xiàn)[J]. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版), 2015, 36(3):101-105.
[2]張震,劉博,李龍. 一種多特征提取及融合的虹膜識(shí)別方法[J]. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版), 2017, 38(1):63-67.
[3]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4):541-551.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems (NIPS).California: MIT Press 2012:1097-1105.
[5]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]//International Conference on Learning Representations (ICLR). San Diego: arXiv:1409.1556v6 [cs.CV], 2015.
[6]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE computer society, 2015:1-9.
[7]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:770-778.
[8]IOANNOU Y, ROBERTSON D, SHOTTON J, et al. Training convolutional neural networks with low-rank filters for efficient image classification[J]. Journal of bacteriology, 2016, 167(3):774-783.
[9]QU L, HE S, ZHANG J, et al. RGBD salient object detection via deep fusion [J]. IEEE transactions on image processing, 2017, 26(5):2274-2285.
[10] WANG L, OUYANG W, WANG X, et al. STCT: sequentially training convolutional networks for visual tracking[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:1373-1381.
[11] WU Y C, YIN F, LIU C L. Improving handwritten Chinese text recognition using neural network language models and convolutional neural network shape models [J]. Pattern recognition, 2016, 65(C):251-264.
[12] MITRA V, FRANCO H. Time-frequency convolutional networks for robust speech recognition[C]// IEEE Automatic Speech Recognition and Understanding (ASRU). Scottsdale: IEEE computer society, 2015:317-323.
[13] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks [J]. Journal of machine learning research, 2010, (9):249-256.
[14] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE computer society,2015:1026-1034.
[15] 王冠皓,徐軍. 基于多級(jí)金字塔卷積神經(jīng)網(wǎng)絡(luò)的快速特征表示方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8):2492-2495.
[16] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the Inception architecture for computer vision[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:2818-2826.
[17] ZENG K, YU J, WANG R, et al. Coupled deep autoencoder for single image super-resolution [J]. IEEE transactions on cybernetics, 2016, 47(1):27-37.
[18] HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis: IEEE computer society, 2007:1-8.