魏書偉 曾上游 周悅 王新嬌
摘? 要: 樹葉分類識(shí)別對(duì)于鑒定新的或者稀缺樹種至關(guān)重要,采用卷積神經(jīng)網(wǎng)絡(luò)算法可以實(shí)現(xiàn)對(duì)樹葉圖像特征的自動(dòng)提取,減少繁瑣的人工成本,實(shí)現(xiàn)使用人工智能的方法來分類樹葉。實(shí)驗(yàn)采用一種并行殘差卷積神經(jīng)網(wǎng)絡(luò)和一種加入殘差學(xué)習(xí)的傳統(tǒng)Alexnet網(wǎng)絡(luò)在制作的30種分類樹葉的數(shù)據(jù)集上測(cè)試效果并作對(duì)比。以上兩種方式分別比傳統(tǒng)Alexnet網(wǎng)絡(luò)提高了15.36%和9.36%,而且使網(wǎng)絡(luò)更輕量化,最高準(zhǔn)確率為90.67%,為樹種識(shí)別研究提供了有效的分類方法。
關(guān)鍵詞: 樹葉分類; 卷積神經(jīng)網(wǎng)絡(luò); 殘差學(xué)習(xí); 圖像特征提取; 批量歸一化; 測(cè)試效果對(duì)比
中圖分類號(hào): TN711?34; TP391.4? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)09?0096?05
Multiple types of leaves′ classification based on parallel
residual convolution neural network
WEI Shuwei, ZENG Shangyou, ZHOU Yue, WANG Xinjiao
(College of Electronic Engineering, Guangxi Normal University, Guilin 541004, China)
Abstract: The leaf classification and identification are of great importance for identifying new or scarce tree species. The convolution neural network algorithm can be used to automatically extract leaf image features, reduce fussy labor costs and classify leaves with the artificial intelligence method. In the experiment, a parallel residual convolution neural network and a traditional Alexnet network with residual learning are used to test the 30 kinds of classified leaves in the produced data set, and the testing effects of the two networks are contrasted. The accuracy obtained with the above two methods are respectively 15.36% and 9.36% higher than that obtained with the traditional Alexnet network, and the highest accuracy reaches 90.67%, which makes the network lightweight. Therefore, it provides an effective classification method for the research on tree species identification.
Keywords: leaf classification; convolutional neural network; residual learning; image feature extraction; batch normalization; testing effect contrast
0? 引? 言
世界上沒有完全相同的兩片樹葉,但是同一種樹木的樹葉會(huì)存在很多相似特征?,F(xiàn)階段對(duì)各種樹木分門別類地建立數(shù)據(jù)庫(kù),使用人工智能的方法對(duì)其進(jìn)行分類和識(shí)別,這對(duì)稀有樹種的管理有著重要的保護(hù)意義。
目前的樹葉識(shí)別與分類主要由人工完成,但樹葉的種類成千上萬種,面對(duì)如此龐大的樹葉世界,植物學(xué)家也很難區(qū)分所有樹葉的種類,這給進(jìn)一步研究樹葉帶來了困難。為了解決這一問題,一些模式識(shí)別方法,諸如支持向量機(jī)(Support Vector Ma?chine,SVM)[1]、K最近鄰(K?Nearest Neighbor,KNN)[2]等被引入,然而,隨著大數(shù)據(jù)時(shí)代的到來,這些傳統(tǒng)的分類算法暴露出越來越多的不足,比如難以提取特征和訓(xùn)練時(shí)間過長(zhǎng)等。
20世紀(jì)60年代開始,學(xué)者們相繼提出了各種人工神經(jīng)網(wǎng)絡(luò)[3]模型,其中,卷積神經(jīng)網(wǎng)絡(luò)通過數(shù)據(jù)集訓(xùn)練可以使網(wǎng)絡(luò)自己學(xué)習(xí)圖像中的紋理特征[4],采用卷積神經(jīng)網(wǎng)絡(luò)算法省去了人工定義樹葉紋理特征的步驟[5],以及神經(jīng)網(wǎng)絡(luò)對(duì)于非線性問題處理能力強(qiáng)的優(yōu)點(diǎn)[6],綜上所述,本文選擇卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)樹葉圖像進(jìn)行分類識(shí)別[7]。
1? 卷積神經(jīng)網(wǎng)絡(luò)概述
1.1? 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)目前被廣泛應(yīng)用于圖像領(lǐng)域[8?9],原因是其對(duì)幾何、形變、光照具有一定程度的不變性,其主要特點(diǎn)有:輸入圖像不需要預(yù)處理;特征提取和識(shí)別可以同時(shí)進(jìn)行;權(quán)值共享,大大減少了需要訓(xùn)練的參數(shù)數(shù)目,使訓(xùn)練變得更快,適應(yīng)性更強(qiáng)。
1.2? 卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)主要結(jié)構(gòu)有卷積層、池化層及全連接層。
1.2.1? 卷積層
卷積層是由多個(gè)特征圖組成,每一個(gè)特征圖是由多個(gè)神經(jīng)元組成,而每一個(gè)神經(jīng)元通過卷積核與上一層的特征圖進(jìn)行卷積運(yùn)算得出。卷積核為一個(gè)權(quán)值矩陣,涵蓋網(wǎng)絡(luò)需要學(xué)習(xí)的內(nèi)容,它包括權(quán)值和偏置。此處的卷積運(yùn)算不同于信號(hào)處理中一維的卷積運(yùn)算,而是二維平面上兩個(gè)二維數(shù)據(jù)對(duì)應(yīng)位置上的數(shù)據(jù)相乘后的總和而成。其計(jì)算公式為:
[xlm=fxl-1n*klnm+b]? ? ? ?(1)
式中:[f(? )]代表激活函數(shù);[xlm]表示下層輸出;[xl-1n]表示上層的輸出;[k]代表該層卷積核的權(quán)值;[b]代表該層卷積核的偏置。
在卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,卷積的層次越深,網(wǎng)絡(luò)的學(xué)習(xí)能力就越強(qiáng),特征圖得到的信息就越全。但是,隨著網(wǎng)絡(luò)層次結(jié)構(gòu)的加深,網(wǎng)絡(luò)的計(jì)算量將會(huì)隨之增加,也就導(dǎo)致網(wǎng)絡(luò)變得更復(fù)雜,這樣很容易會(huì)出現(xiàn)過擬合的現(xiàn)象。在一般的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,提取的特征都是逐級(jí)遞進(jìn)的,由簡(jiǎn)單的顏色、邊緣特征逐漸變?yōu)閺?fù)雜的紋理特征,最后的網(wǎng)絡(luò)結(jié)構(gòu)將提取關(guān)鍵特征,以便精確地辨別特征圖的屬性。
1.2.2? 池化層
池化層也被稱為采樣層,指的是對(duì)每張?zhí)卣鲌D進(jìn)行下采樣,池化層一般跟在卷積層之后,也是由多個(gè)特征圖組成,池化層在網(wǎng)絡(luò)結(jié)構(gòu)中有對(duì)特征圖進(jìn)行下采樣的同時(shí)對(duì)特征圖進(jìn)行尺度縮小的作用。在搭建網(wǎng)絡(luò)過程中,之所以會(huì)使用池化層是因?yàn)樵诰W(wǎng)絡(luò)結(jié)構(gòu)中如果一直采用卷積操作,會(huì)使得整體網(wǎng)絡(luò)中的計(jì)算量過大而延長(zhǎng)計(jì)算時(shí)間。
池化的方法有多種,通常用到的池化操作有:最大池化(max?pooling),即選取圖像區(qū)域的最大值作為該區(qū)域池化后的值;平均池化(mean?pooling),即計(jì)算圖像區(qū)域的平均值作為該區(qū)域池化后的值。簡(jiǎn)單池化過程如圖1所示。
1.2.3? 全連接層
在卷積神經(jīng)網(wǎng)絡(luò)中經(jīng)過多次卷積層和池化層后,緊接著會(huì)跟一個(gè)或多個(gè)全連接層,其作用是將提取的特征圖轉(zhuǎn)化為一維特征向量,轉(zhuǎn)化的一維特征向量即為學(xué)習(xí)到的圖片的空間分布向量,將其作為分類器的輸入,通過分類器進(jìn)行分類。
[Sj=fxi*wji+bj]? (2)
2? 基于并行殘差卷積神經(jīng)網(wǎng)絡(luò)模型
2.1? 殘差學(xué)習(xí)和批量歸一化
殘差網(wǎng)絡(luò)結(jié)構(gòu)的提出主要是為了解決在原始的卷積神經(jīng)網(wǎng)絡(luò)隨著深度的增加而伴隨的網(wǎng)絡(luò)難以訓(xùn)練的問題。其原理是在卷積層結(jié)構(gòu)的外部使用一個(gè)短接(shourtcut)操作,構(gòu)成一個(gè)基本的殘差模塊,通過逐級(jí)累加殘差模塊可以成功緩解網(wǎng)絡(luò)隨深度而增加的退化問題,從而提升整體網(wǎng)絡(luò)的性能。
傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)(Tra?net)如圖2a)所示,輸入圖像后先經(jīng)過卷積層(conv)再經(jīng)過激活函數(shù)(relu),經(jīng)過局部響應(yīng)歸一化處理(LRN),最后經(jīng)過池化層(pool)后輸出,作為下一層卷積的輸入;殘差網(wǎng)絡(luò)(Res?net)的結(jié)構(gòu)如圖2b)所示,與傳統(tǒng)網(wǎng)絡(luò)不同的是,在輸入(input)和池化(pool)之間增加了一個(gè)殘差模塊,而且在卷積層后均接入一層BN(Batch Normalization)[10]層,即批量歸一化層,加入BN層的主要優(yōu)點(diǎn)如下:
1) 網(wǎng)絡(luò)在選擇較大學(xué)習(xí)率時(shí)可以減緩梯度彌散[11]的現(xiàn)象,加快網(wǎng)絡(luò)的收斂速度;
2) 在一定程度上有防止過擬合的作用,網(wǎng)絡(luò)可以減少對(duì)Dropout[12]參數(shù)的需求;
3) 很完美地取代局部響應(yīng)歸一化層;
4) 可以徹底打亂訓(xùn)練數(shù)據(jù)。
BN層的計(jì)算公式可由式(3)給出:
[μB←1mo=1mxoσ2B←1mo=1m(xo-μB)2xo←xo-μBσ2B+εyo←γxo+β] (3)
式中:[o=1mxo]表示卷積層的輸出,即所學(xué)歸一化的數(shù)據(jù);[μB]和[σ2B]分別表示均值和方差;[yo]是歸一化之后的輸出。
2.2? 分組瓶頸結(jié)構(gòu)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)是通過不同的卷積層和池化層級(jí)交替堆疊而成的通道,通過對(duì)卷積核大小及不同池化的設(shè)計(jì)來實(shí)現(xiàn)所需要的效果。而在一系列的操作過程中,一條通道、一種網(wǎng)絡(luò)對(duì)特征圖進(jìn)行卷積,可能提取的圖像特征不夠充分。本文提出結(jié)合三條不同網(wǎng)絡(luò)對(duì)相同的特征圖進(jìn)行卷積操作,最后再通過級(jí)聯(lián)操作使三條網(wǎng)絡(luò)的輸出結(jié)果結(jié)合在一起。本文的具體操作是將特征圖并行分為三條支路,采取分組瓶頸結(jié)構(gòu),先通過[1×1]的卷積核降維,再通過一條[3×3]或[5×5]的卷積核進(jìn)行傳統(tǒng)的卷積操作,最后通過一條[1×1]的卷積核來升維。
模塊間的參數(shù)可以用式(4)表示:
[P=I*K*O] (4)
式中:[I]和[O]分別表示輸入輸出特征圖的個(gè)數(shù);[K]表示卷積核的面積大小。
一般來說,1×1卷積核的作用可以歸納為三點(diǎn):
1) 可以有效地減少網(wǎng)絡(luò)參數(shù),如輸入輸出特征圖數(shù)量均為256,使用3×3卷積核參數(shù)[P=]256×3×3×256,使用1×1卷積核參數(shù)[P=]256×1×1×256,參數(shù)減少到原來的[19]。
2) 可以起到降維或升維的作用,這在三層卷積的瓶頸結(jié)構(gòu)中有所體現(xiàn),瓶頸結(jié)構(gòu)如圖3所示,第一個(gè)1×1卷積用來降維,第三個(gè)1×1卷積用來升維。
3) 可以將各分組通道信息進(jìn)行融合,這在MobileNet和Xception中取得了很好的效果。
MyNet中block模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示??梢院芮宄乜闯觯罕疚乃捎玫牟⑿袣埐罹矸e網(wǎng)絡(luò)(MyNet)將各個(gè)支路網(wǎng)絡(luò),即含有殘差模塊的卷積神經(jīng)網(wǎng)絡(luò),通過級(jí)聯(lián)(concat)操作將三個(gè)不同大小卷積核提取的特征整合在一起,然后整體輸出。
2.3? 模型設(shè)置
并行殘差網(wǎng)絡(luò)的基本網(wǎng)絡(luò)架構(gòu)參數(shù)設(shè)置如表1所示。
網(wǎng)絡(luò)采用模塊化設(shè)計(jì),通過堆疊Block模塊以及在模塊中間穿插多個(gè)池化層而形成,池化層的操作經(jīng)過多次試驗(yàn)發(fā)現(xiàn),采用Max?Max?Max?Ave(Max指最大值池化,Ave指平均池化)架構(gòu)效果較好,網(wǎng)絡(luò)架構(gòu)清晰明了,易于擴(kuò)展和推廣。整體流程圖如圖5所示。
如圖5所示,輸入訓(xùn)練數(shù)據(jù)集的圖像,先經(jīng)過預(yù)處理,將圖片隨機(jī)修剪成統(tǒng)一大小規(guī)模后,再輸送給卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)層,經(jīng)過前向傳播,計(jì)算網(wǎng)絡(luò)損失熵的大小,再通過隨機(jī)梯度下降不斷更新參數(shù),反向傳播,使得損失熵不斷減小,尋找到最優(yōu)參數(shù),把測(cè)試集圖片輸入給當(dāng)前正在訓(xùn)練的網(wǎng)絡(luò),測(cè)試當(dāng)前網(wǎng)絡(luò)的準(zhǔn)確率,當(dāng)?shù)皆O(shè)定好的次數(shù)或者準(zhǔn)確率達(dá)到一定要求后停止訓(xùn)練,保存訓(xùn)練好的模型參數(shù),生成一個(gè)訓(xùn)練好的網(wǎng)絡(luò)。
3? 實(shí)? 驗(yàn)
3.1? 圖像數(shù)據(jù)采集和預(yù)處理
卷積神經(jīng)網(wǎng)絡(luò)需要大量樣本進(jìn)行訓(xùn)練。實(shí)驗(yàn)采集了30種樹葉,包含國(guó)內(nèi)10種樹葉和國(guó)外20種樹葉,每種樹葉采集20張,共計(jì)600張圖像。使用佳能550D相機(jī)拍攝,以1[∶]3 的比例分為測(cè)試樣本與訓(xùn)練樣本后,將文件名分類標(biāo)注。由于單反相機(jī)拍攝照片尺寸較大,為了確保計(jì)算速度和計(jì)算機(jī)可承受數(shù)據(jù)量,使用OpenCV調(diào)整圖像尺寸,統(tǒng)一縮小為256×256像素,部分樣本如圖6所示。
將原始圖片數(shù)據(jù)通過cropcize分別對(duì)左上角、左下角、右上角、右下角、中心位置進(jìn)行隨機(jī)剪裁為227×227大小圖片,再進(jìn)行鏡像反轉(zhuǎn)操作,使得原數(shù)據(jù)集通過數(shù)據(jù)增強(qiáng)的方法擴(kuò)增了10倍,將數(shù)據(jù)集變成6 000張圖片。
3.2? 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)主要對(duì)比Alexnet網(wǎng)絡(luò)即傳統(tǒng)卷積網(wǎng)絡(luò)(Tra?net)、采用殘差結(jié)構(gòu)的傳統(tǒng)網(wǎng)絡(luò)(Res?net)以及本文改進(jìn)后的并行殘差卷積網(wǎng)絡(luò)(MyNet),在制作的30種樹葉分類的數(shù)據(jù)集上進(jìn)行分類準(zhǔn)確度測(cè)試。為了使本實(shí)驗(yàn)結(jié)果更具有說服力,三種網(wǎng)絡(luò)的整體結(jié)構(gòu)的層次深度保持一致。
實(shí)驗(yàn)環(huán)境:整個(gè)實(shí)驗(yàn)過程中所有網(wǎng)絡(luò)結(jié)構(gòu)都是基于caffe框架[13]布置的。本實(shí)驗(yàn)所用的計(jì)算機(jī)配置為i7?6700K四核CPU、Ubuntu 14.04操作系統(tǒng)、32 GB內(nèi)存以及NVIDIA?GTX 1070的GPU。
參數(shù)設(shè)置:在卷積神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)率大小的選取對(duì)網(wǎng)絡(luò)訓(xùn)練至關(guān)重要,學(xué)習(xí)率較大,網(wǎng)絡(luò)雖然收斂較快,但有可能跨過了全局最小點(diǎn);但是學(xué)習(xí)率較小的情況下,網(wǎng)絡(luò)訓(xùn)練速度比較慢,從而需要較長(zhǎng)時(shí)間才能達(dá)到收斂。下面列出本實(shí)驗(yàn)中所設(shè)定的學(xué)習(xí)率參數(shù)以及變化值,此時(shí)設(shè)置的參數(shù)值有較好的效果:學(xué)習(xí)率初始大小設(shè)置為0.001,學(xué)習(xí)率變化方式為step,[γ]為0.1,momentum為0.9,weight_decay為0.000 5,stepsize設(shè)置為100,最大迭代次數(shù)為1 000。
3.3? 實(shí)驗(yàn)結(jié)果及分析
表2表示傳統(tǒng)網(wǎng)絡(luò)Tra?net、殘差網(wǎng)絡(luò)Res?net以及改進(jìn)后網(wǎng)絡(luò)的MyNet在數(shù)據(jù)集上的分類精度、實(shí)驗(yàn)所花時(shí)間以及實(shí)驗(yàn)保存的Caffemodel大小。圖7給出了各模型在數(shù)據(jù)集上的準(zhǔn)確率曲線。
從圖7中可以看出,在計(jì)算機(jī)僅迭代約400次后,網(wǎng)絡(luò)性能就趨于穩(wěn)定,改進(jìn)后的網(wǎng)絡(luò)MyNet和殘差網(wǎng)絡(luò)Res?net在數(shù)據(jù)集中都有較好的分類精度;傳統(tǒng)網(wǎng)絡(luò)Tra?net整體的參數(shù)較多,準(zhǔn)確率不高,但是訓(xùn)練的時(shí)間相對(duì)較少;加了殘差結(jié)構(gòu)的Res?net整體參數(shù)與傳統(tǒng)網(wǎng)絡(luò)Tra?net的參數(shù)大致相同,引入殘差學(xué)習(xí)后增加了整個(gè)網(wǎng)絡(luò)的計(jì)算量,導(dǎo)致訓(xùn)練所耗時(shí)間稍微加長(zhǎng),精度與傳統(tǒng)Alexnet相比有所提高。而改進(jìn)后的并行殘差網(wǎng)絡(luò),由于結(jié)合三條支路的特征,所得出的分類精度比其他兩種網(wǎng)絡(luò)任意一種都要高,而且網(wǎng)絡(luò)最后采用全局均值池化替代全連接層,使得整個(gè)網(wǎng)絡(luò)的參數(shù)大大減少,更輕量化,但由于網(wǎng)絡(luò)的加寬使整個(gè)實(shí)驗(yàn)的訓(xùn)練耗時(shí)有所加長(zhǎng)。隨著計(jì)算機(jī)硬件的提升,網(wǎng)絡(luò)改進(jìn)導(dǎo)致訓(xùn)練時(shí)間加長(zhǎng)的問題,很輕易得以解決,所以在準(zhǔn)確率提高一定的前提下,訓(xùn)練時(shí)間的改變對(duì)整個(gè)網(wǎng)絡(luò)增益沒有很大的影響。
綜合三種網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)可知:
1) 本文加入的Block模塊能有效地提升網(wǎng)絡(luò)性能。
2) 采用并行多支路多卷積核的特征提取對(duì)整體識(shí)別率有很大貢獻(xiàn)。
3) 1×1卷積層的降維操作可以有效控制網(wǎng)絡(luò)參數(shù)。
4? 結(jié)? 語(yǔ)
本文提出了一種結(jié)合瓶頸結(jié)構(gòu)網(wǎng)絡(luò)和并行殘差結(jié)構(gòu)網(wǎng)絡(luò)的新型網(wǎng)絡(luò)結(jié)構(gòu),將這個(gè)新網(wǎng)絡(luò)與傳統(tǒng)網(wǎng)絡(luò)和加入殘差的傳統(tǒng)網(wǎng)絡(luò)進(jìn)行對(duì)比討論,并在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。理論上,并行殘差網(wǎng)絡(luò)加寬了整體網(wǎng)絡(luò)結(jié)構(gòu)的寬度,提高了網(wǎng)絡(luò)的復(fù)雜度,效果會(huì)更好。實(shí)驗(yàn)結(jié)果也表明,并行殘差網(wǎng)絡(luò)比兩條傳統(tǒng)網(wǎng)絡(luò)中的任何一條網(wǎng)絡(luò)的精確效果都好,后面的工作是在本文模塊的基礎(chǔ)上繼續(xù)改進(jìn),進(jìn)一步測(cè)試本文模塊在其他領(lǐng)域中的表現(xiàn),例如,目標(biāo)檢測(cè)、圖像分割等,并在更大規(guī)模的數(shù)據(jù)集上進(jìn)行測(cè)試和優(yōu)化來比較網(wǎng)絡(luò)的性能優(yōu)劣,進(jìn)一步提升網(wǎng)絡(luò)性能,減少模型大小。
參考文獻(xiàn)
[1] CAMPBELL W M, CAMPBELL J P, REYNOLDS D A, et al. Support vector machines for speaker and language recognition [J]. Computer speech & language, 2006, 20(2/3): 210?229.
[2] ZHANG N, LIU W P. Plant leaf recognition method based on clonal selection algorithm and K nearest neighbor [J]. Journal of computer applications, 2013, 33(7): 2009?2013.
[3] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1?9.
[4] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770?778.
[5] HUANG G, LIU Z, MAATEN L V D. Densely connected convolutional networks [EB/OL]. [2017?09?28]. https://blog.csdn.net/lyy354500/article/details/78122165?locationNum=6&fps=1.
[6] LU Fang, WU Fa, HU Peijun, et al. Automatic 3D liver location and segmentation via convolutional neural network and graph cut [J]. International journal of computer assisted radiology and surgery, 2017, 12(2): 171?182.
[7] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313: 504?507.
[8] GAO L G, CHEN P Y, YU S M. Demonstration of convolution kernel operation on resistive cross?point array [J]. IEEE electron device letters, 2016, 37(7): 870?873.
[9] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [2016?02?29]. http://www.doc88.com/p?7753169296976.html.
[10] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [EB/OL]. [2019?03?26]. https://blog.csdn.net/TeFuirnever/article/details/88802880.
[11] HOCHREITER S. The vanishing gradient problem during learning recurrent neural nets and problem solutions [EB/OL]. [1998?04?05]. https://dl.acm.org/doi/10.1142/S0218488598000094.
[12] SRIVASTAVA N, HINTON G, KRIZHEVSKY A. Dropout: a simple way to prevent neural networks from overfitting [J]. Journal of machine learning research, 2014, 15(16): 1929?1958.
[13] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]// ACM International Conference on Multimedia. Orlando, FL, USA: ACM, 2014: 675?678.