葛程 孫國(guó)強(qiáng)
摘 要:結(jié)合現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法,以CIFAR-10作為數(shù)據(jù)集,探究如何快速搭建一個(gè)滿足分類精度要求的卷積神經(jīng)網(wǎng)絡(luò)模型,以及如何有目的且高效地進(jìn)行網(wǎng)絡(luò)訓(xùn)練與參數(shù)調(diào)整。實(shí)驗(yàn)以簡(jiǎn)單的三層卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),從數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)與優(yōu)化訓(xùn)練3個(gè)方面對(duì)模型進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)疊加這些改進(jìn)方法,可使模型的擬合能力與泛化能力逐漸增強(qiáng),最終獲得更高的圖像分類準(zhǔn)確率。
關(guān)鍵詞關(guān)鍵詞:圖像分類;卷積神經(jīng)網(wǎng)絡(luò);網(wǎng)絡(luò)結(jié)構(gòu);數(shù)據(jù)增強(qiáng)
DOIDOI:10.11907/rjdk.181090
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)010-0027-05
英文摘要Abstract:Combined with the existing image classification algorithm based on convolution neural network,we explore how to quickly build a convolution neural network model to meet the classification accuracy requirements,and how to efficiently and purposefully carry out network training and parameter adjustment by starting from the practice and using CIFAR-10 as a dataset.Based on a simple three-layer convolution neural network,the model is improved from three aspects:data enhancement,network structure,optimization and training.The experimental results show that by adding these improved methods,the ability of fitting and generalization of the model is gradually enhanced,and a higher accuracy of image classification is obtained.
英文關(guān)鍵詞Key Words:image classification;convolution neural network;network structure;data enhancement
0 引言
圖像分類是指通過(guò)對(duì)圖像進(jìn)行一系列數(shù)學(xué)運(yùn)算處理后,得到的圖像特征表達(dá)可以表征該圖像屬于某種預(yù)定義類別的分類問(wèn)題。圖像分類是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)基礎(chǔ)問(wèn)題,傳統(tǒng)圖像分類方法依賴于人工設(shè)計(jì)的復(fù)雜特征工程提取的圖像特征,主要采用的特征提取方法有尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[1]與方向梯度直方圖(Histogram of Oriented Gradients,HOG)[2]。人為設(shè)定的算法邏輯清晰且易于實(shí)現(xiàn),但總會(huì)留下盲區(qū),從而成為整個(gè)模型的短板,且模型缺乏泛化性。在2012年的ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)中,由Alex Krizhevsky等[3]提出的AlexNet首次將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于大規(guī)模圖像分類并獲得第一名,之后基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型開(kāi)始取代傳統(tǒng)圖像分類算法,成為ILSVRC圖像分類比賽的主流算法,卷積神經(jīng)網(wǎng)絡(luò)也在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛應(yīng)用。
深度學(xué)習(xí)舍棄了特征工程的步驟,讓模型更好地根據(jù)數(shù)據(jù)的原始狀態(tài)學(xué)習(xí)成長(zhǎng),從而更容易學(xué)到數(shù)據(jù)中有價(jià)值的信息。
卷積神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)一張圖片最好的卷積核及其組合方式進(jìn)行自動(dòng)學(xué)習(xí),也即對(duì)于輸入是一張圖片的任務(wù)而言,求出該圖片對(duì)于該任務(wù)的最好特征表達(dá),然后進(jìn)行判斷。
本文以三層卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),從數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)訓(xùn)練優(yōu)化3方面改進(jìn)優(yōu)化網(wǎng)絡(luò)模型,旨在探究如何快速搭建一個(gè)滿足分類精度要求的卷積神經(jīng)網(wǎng)絡(luò)模型,以及如何有目的且高效地進(jìn)行網(wǎng)絡(luò)訓(xùn)練與參數(shù)調(diào)整。
1 相關(guān)知識(shí)介紹
卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)部分包括卷積層與全連接層,兩部分同樣都由線性部分和非線性部分組成,線性部分完成對(duì)數(shù)據(jù)的匯總計(jì)算,非線性部分的主要作用是打破之前的線性映射關(guān)系[4]。全連接層和卷積層的主要區(qū)別在于全連接層的線性部分完成對(duì)全部數(shù)據(jù)的匯總計(jì)算,而卷積層的匯總是對(duì)局部數(shù)據(jù)的匯總,這種局部匯總操作稱為卷積。卷積運(yùn)算利用了圖像的局部相關(guān)性,與全連接層相比,卷積層參數(shù)量大幅減少,使模型復(fù)雜度降低,從而更容易訓(xùn)練[5]。一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
數(shù)據(jù)增強(qiáng)主要是指在訓(xùn)練數(shù)據(jù)上增加微小的擾動(dòng)或變化,一方面可以增加訓(xùn)練數(shù)據(jù),從而提升模型泛化能力,另一方面可以增加噪聲數(shù)據(jù),從而增強(qiáng)模型的魯棒性。針對(duì)圖像數(shù)據(jù),主要的數(shù)據(jù)增強(qiáng)方法有翻轉(zhuǎn)變換、隨機(jī)修剪、色彩抖動(dòng)、平移變換、尺度變換、對(duì)比度變換、噪聲擾動(dòng)和旋轉(zhuǎn)變換等。具體做法是獲取一批訓(xùn)練數(shù)據(jù),進(jìn)行數(shù)據(jù)增強(qiáng)步驟之后再送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
網(wǎng)絡(luò)架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)核心部分,自2012年的ILSVR以來(lái),新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)以及在網(wǎng)絡(luò)中起特殊作用的模型層也不斷出現(xiàn)。對(duì)卷積神經(jīng)網(wǎng)絡(luò)發(fā)展產(chǎn)生巨大影響的經(jīng)典模型有AlexNet、VGGNet[6]、GoogleNet[7]和ResNet[8]等,起特殊作用的模型層有批正則化層(BatchNormalizationLayer,BN)[9]、Dropout層[10]、權(quán)重衰減[11]和局部響應(yīng)歸一化層(LocalResponseNormalization,LRN)[12]等,這些對(duì)模型的改進(jìn)讓模型的擬合能力和泛化能力得到明顯提升。
ResNet的核心思想是將卷積神經(jīng)網(wǎng)絡(luò)模型中曾經(jīng)的的乘法關(guān)系轉(zhuǎn)變成加法關(guān)系,讓每一層參數(shù)都更加接近目標(biāo)函數(shù)。殘差網(wǎng)絡(luò)中最精華的部分是跳接部分(Skipping Connection),該結(jié)構(gòu)可以使前一層網(wǎng)絡(luò)的特征信息不經(jīng)過(guò)任何計(jì)算,直接傳遞到下一層。
批正則化是指對(duì)神經(jīng)網(wǎng)絡(luò)的每一層輸入數(shù)據(jù)進(jìn)行正則化處理,從而讓數(shù)據(jù)分布更加均勻,不會(huì)使所有數(shù)據(jù)都導(dǎo)致神經(jīng)元激活,或所有數(shù)據(jù)都不能導(dǎo)致神經(jīng)元激活,這是一種數(shù)據(jù)標(biāo)準(zhǔn)化方法,能夠提升模型擬合能力。Dropout層最經(jīng)典的用法是放在全連接層之前,在訓(xùn)練階段,全連接層的輸入首先經(jīng)過(guò)Dropout層,使一部分輸入數(shù)據(jù)被Dropout層隨機(jī)丟棄而置0,以減輕模型的過(guò)擬合情況[13]。權(quán)重衰減即L2正則化,是在代價(jià)函數(shù)后加上一個(gè)正則化項(xiàng),如公式(1)所示。C_0代表原始代價(jià)函數(shù),后面一項(xiàng)即為L(zhǎng)2正則化項(xiàng),用來(lái)限制權(quán)重參數(shù)個(gè)數(shù),以防止過(guò)擬合。LRN層模仿生物神經(jīng)系統(tǒng)的側(cè)抑制機(jī)制,對(duì)于局部神經(jīng)元的活動(dòng)創(chuàng)建競(jìng)爭(zhēng)機(jī)制,使響應(yīng)較大的值相對(duì)更大,提高模型泛化能力。
C=C0+λ[]2n∑ωw2 (1)
網(wǎng)絡(luò)的優(yōu)化與訓(xùn)練也是機(jī)器學(xué)習(xí)中十分重要的一部分,其中變化學(xué)習(xí)率是指在整個(gè)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,學(xué)習(xí)率可通過(guò)自適應(yīng)方法調(diào)節(jié)。學(xué)習(xí)率決定了參數(shù)空間搜索的步長(zhǎng),若過(guò)大將導(dǎo)致解振動(dòng)、不收斂,過(guò)小將導(dǎo)致收斂速度慢,更早收斂于局部最優(yōu)解。變化學(xué)習(xí)率是指通過(guò)在訓(xùn)練過(guò)程中遞減學(xué)習(xí)率,使模型能夠更好地收斂,從而增強(qiáng)模型擬合能力。理想的學(xué)習(xí)率設(shè)計(jì)要求前期使用大學(xué)習(xí)率進(jìn)行搜索,后期使用小學(xué)習(xí)率進(jìn)行調(diào)優(yōu),并對(duì)參數(shù)進(jìn)行個(gè)性化調(diào)整,優(yōu)化頻率高的參數(shù)以降低學(xué)習(xí)率,優(yōu)化頻率低的參數(shù)以提高學(xué)習(xí)率。比較著名的學(xué)習(xí)率調(diào)整算法有動(dòng)量(Momentum)算法[14]、Nesterov算法[15]和Adagrad[16]等。
2 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)操作系統(tǒng)為Win10,CPU為Inteli7-8700k,顯卡為GTX-1080Ti,內(nèi)存為16G,并以Tensorflow為框架,采用公開(kāi)數(shù)據(jù)集CIFAR-10。CIFAR-10數(shù)據(jù)集有60 000張圖片,每張圖片均為分辨率為32*32的彩色圖片(分為RGB3個(gè)信道)。CIFAR-10的分類任務(wù)是將每張圖片分成青蛙、卡車、飛機(jī)等10個(gè)類別中的一個(gè)。
為了能在訓(xùn)練網(wǎng)絡(luò)的同時(shí)檢測(cè)網(wǎng)絡(luò)性能,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3部分,圖片數(shù)量分別為45 000、5 000和10 000。訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集用于參數(shù)調(diào)整,測(cè)試集用于模型性能評(píng)估。
2.1 基礎(chǔ)版本的卷積神經(jīng)網(wǎng)絡(luò)搭建
實(shí)驗(yàn)1為基礎(chǔ)版本的卷積神經(jīng)網(wǎng)絡(luò)搭建。具體網(wǎng)絡(luò)結(jié)構(gòu)配置如圖2所示。
該網(wǎng)絡(luò)是一個(gè)有三層卷積層的神經(jīng)網(wǎng)絡(luò),能夠快速完成圖像特征提取。全連接層用于將圖像特征整合成分類特征,分類層用于分類。參數(shù)初始化時(shí),所有權(quán)重矩陣使用random_normal(0.0,0.001),所有偏置向量使用constant(0.0)。使用cross entropy作為目標(biāo)函數(shù),并使用Adam梯度下降法進(jìn)行參數(shù)更新,學(xué)習(xí)率設(shè)為固定值0.001,訓(xùn)練300輪并保存數(shù)據(jù)。
2.2 數(shù)據(jù)增強(qiáng)
實(shí)驗(yàn)2在基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)上使用數(shù)據(jù)增強(qiáng)技術(shù),主要進(jìn)行的數(shù)據(jù)增強(qiáng)操作如下:①圖像切割:生成比圖像尺寸略小的矩形框,對(duì)圖像進(jìn)行隨機(jī)切割,最終以矩形框內(nèi)圖像作為訓(xùn)練數(shù)據(jù);②圖像翻轉(zhuǎn):對(duì)圖像進(jìn)行左右翻轉(zhuǎn);③圖像白化:對(duì)圖像進(jìn)行白化操作。
采用4組實(shí)驗(yàn)進(jìn)行對(duì)比,以觀測(cè)不同數(shù)據(jù)增強(qiáng)方法的作用。實(shí)驗(yàn)1只進(jìn)行圖像切割,實(shí)驗(yàn)2只進(jìn)行圖像翻轉(zhuǎn),實(shí)驗(yàn)3只進(jìn)行圖像白化,實(shí)驗(yàn)4同時(shí)使用3種數(shù)據(jù)增強(qiáng)方法,訓(xùn)練1 000輪并保存數(shù)據(jù)。
2.3 模型改進(jìn)
實(shí)驗(yàn)3在之前網(wǎng)絡(luò)模型的基礎(chǔ)上對(duì)模型進(jìn)行改進(jìn),為了進(jìn)行對(duì)比實(shí)驗(yàn),該部分同樣進(jìn)行4組實(shí)驗(yàn)。實(shí)驗(yàn)1增加權(quán)重衰減部分,實(shí)驗(yàn)2增加權(quán)重衰減和dropout部分,實(shí)驗(yàn)3增加權(quán)重衰減、dropout和批正則化部分,實(shí)驗(yàn)4增加權(quán)重衰減、dropout、批正則化和LRN部分,訓(xùn)練1 000輪并保存數(shù)據(jù)。
2.4 變化學(xué)習(xí)率實(shí)驗(yàn)
實(shí)驗(yàn)4主要探究變化的學(xué)習(xí)率對(duì)模型的影響,大致思路如下:①首先使用較大的學(xué)習(xí)率進(jìn)行訓(xùn)練,觀察目標(biāo)函數(shù)值和驗(yàn)證集的準(zhǔn)確率收斂曲線;②當(dāng)目標(biāo)函數(shù)值下降速度和驗(yàn)證集準(zhǔn)確率上升速度減緩時(shí),減小學(xué)習(xí)率;③循環(huán)步驟②,直到減小學(xué)習(xí)率也不會(huì)影響目標(biāo)函數(shù)下降或驗(yàn)證集準(zhǔn)確率上升為止。
在之前的網(wǎng)絡(luò)模型基礎(chǔ)上進(jìn)行實(shí)驗(yàn),為了進(jìn)行對(duì)比實(shí)驗(yàn),該實(shí)驗(yàn)分為3部分,實(shí)驗(yàn)1只使用0.01的學(xué)習(xí)率進(jìn)行訓(xùn)練,實(shí)驗(yàn)2前10 000批使用0.01的學(xué)習(xí)率,之后學(xué)習(xí)率降到0.001,實(shí)驗(yàn)3前10 000批使用0.01的學(xué)習(xí)率,10 000~20 000批使用0.001的學(xué)習(xí)率,之后學(xué)習(xí)率降到0.000 5。同樣都訓(xùn)練500輪并保存數(shù)據(jù)。
2.5 加深網(wǎng)絡(luò)層數(shù)實(shí)驗(yàn)
實(shí)驗(yàn)5主要探究網(wǎng)絡(luò)層數(shù)對(duì)分類精度的影響,網(wǎng)絡(luò)結(jié)構(gòu)配置如圖3所示。
為了進(jìn)行對(duì)比實(shí)驗(yàn),該部分同樣進(jìn)行4組實(shí)驗(yàn),每組網(wǎng)絡(luò)層數(shù)分別設(shè)置為8、14、20和32,同樣訓(xùn)練500輪并保存數(shù)據(jù)。
2.6 殘差網(wǎng)絡(luò)實(shí)驗(yàn)
由于網(wǎng)絡(luò)層數(shù)加深,誤差反傳過(guò)程中會(huì)使梯度不斷衰減,而通過(guò)跨層的直連邊,可減少誤差在反傳過(guò)程中的衰減,以成功訓(xùn)練深層次網(wǎng)絡(luò)。
實(shí)驗(yàn)6通過(guò)設(shè)置對(duì)比實(shí)驗(yàn),以觀察殘差網(wǎng)絡(luò)的性能。共進(jìn)行4組實(shí)驗(yàn),參照?qǐng)D3的網(wǎng)絡(luò)配置,每組的網(wǎng)絡(luò)層數(shù)分別設(shè)置為20、32、44和56。同樣訓(xùn)練500輪并保存數(shù)據(jù)。
3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)1結(jié)果如圖4所示,左邊是loss(目標(biāo)函數(shù)值)變化曲線,右邊是訓(xùn)練集和驗(yàn)證集分類精度變化曲線。
實(shí)驗(yàn)1結(jié)果分析如下:loss開(kāi)始從190不斷減小到接近0,然后在100輪左右開(kāi)始出現(xiàn)震蕩,并且震蕩幅度越來(lái)越大,說(shuō)明模型不穩(wěn)定。觀察訓(xùn)練集和驗(yàn)證集的分類準(zhǔn)確率,訓(xùn)練集準(zhǔn)確率接近于1,而驗(yàn)證集準(zhǔn)確率穩(wěn)定在68%左右,說(shuō)明模型泛化能力不強(qiáng)并且出現(xiàn)了過(guò)擬合情況。最后利用訓(xùn)練完成的模型對(duì)測(cè)試集進(jìn)行分類,結(jié)果準(zhǔn)確率為68.36%,說(shuō)明模型尚有很大改進(jìn)空間。
實(shí)驗(yàn)2結(jié)果如圖5所示,左邊是進(jìn)行數(shù)據(jù)增強(qiáng)后4個(gè)對(duì)比實(shí)驗(yàn)的loss變化曲線,右邊是驗(yàn)證集準(zhǔn)確率變化曲線。
實(shí)驗(yàn)2結(jié)果分析如下:右邊的驗(yàn)證集分類精度曲線表明3種數(shù)據(jù)增強(qiáng)技術(shù)中圖像白化的效果最好,其次是圖像切割,再次是圖像翻轉(zhuǎn),而如果同時(shí)使用3種數(shù)據(jù)增強(qiáng)技術(shù),不僅能使訓(xùn)練過(guò)程的loss更穩(wěn)定,而且能使驗(yàn)證集的準(zhǔn)確率提升至82%左右,提升效果十分明顯。對(duì)于測(cè)試集,準(zhǔn)確率也提升至80.31%。說(shuō)明圖像增強(qiáng)可通過(guò)增加訓(xùn)練集數(shù)據(jù)量達(dá)到提升模型泛化能力以及魯棒性的效果。
實(shí)驗(yàn)3結(jié)果如圖6所示,左邊是進(jìn)行模型改進(jìn)后4個(gè)對(duì)比實(shí)驗(yàn)的loss變化曲線,右邊是驗(yàn)證集準(zhǔn)確率變化曲線。
實(shí)驗(yàn)3結(jié)果分析如下:右圖的驗(yàn)證集分類精度曲線表明,上述4個(gè)模型改進(jìn)方法的應(yīng)用都會(huì)使訓(xùn)練集誤差與驗(yàn)證集準(zhǔn)確率獲得提升,其中批正則化技術(shù)和dropout技術(shù)帶來(lái)的提升效果非常明顯。當(dāng)同時(shí)使用這些模型提升技術(shù)時(shí),驗(yàn)證集的分類準(zhǔn)確率從82%提升至88%左右。對(duì)于測(cè)試集,準(zhǔn)確率提升至85.56%。觀察左圖,使用批正則化之后,loss曲線不再像之前出現(xiàn)先下降后上升的情況,說(shuō)明批正則化技術(shù)可以增強(qiáng)模型訓(xùn)練的穩(wěn)定性,并且能夠很大程度上提升模型泛化能力。
實(shí)驗(yàn)4結(jié)果如圖7所示,左邊是變化學(xué)習(xí)率部分3個(gè)對(duì)比實(shí)驗(yàn)的loss變化曲線,右邊是驗(yàn)證集準(zhǔn)確率變化曲線。
實(shí)驗(yàn)4結(jié)果分析如下:在10 000批時(shí),學(xué)習(xí)率從0.01下降到0.001,目標(biāo)函數(shù)值出現(xiàn)明顯下降,驗(yàn)證集準(zhǔn)確率有明顯提升;在20 000批時(shí),學(xué)習(xí)率從0.001下降到0.000 5,目標(biāo)函數(shù)值未明顯下降,但驗(yàn)證集準(zhǔn)確率有一定提升。對(duì)于測(cè)試集,準(zhǔn)確率提升至86.35%,說(shuō)明學(xué)習(xí)率的變化能夠提升模型擬合能力,從而提升準(zhǔn)確率。學(xué)習(xí)率在何時(shí)衰減、衰減多少也需要進(jìn)行多次嘗試。一般在模型基本成型之后,使用變化學(xué)習(xí)率方法,可對(duì)模型進(jìn)行一定程度的改進(jìn)。
實(shí)驗(yàn)5結(jié)果如圖8所示,左邊是加深網(wǎng)絡(luò)層數(shù)部分4個(gè)對(duì)比實(shí)驗(yàn)的loss變化曲線,右邊是驗(yàn)證集準(zhǔn)確率變化曲線。
實(shí)驗(yàn)5結(jié)果分析如下:右邊的驗(yàn)證集精度曲線表明,網(wǎng)絡(luò)層數(shù)從8層增加到14層,準(zhǔn)確率有所上升,但從14層增加到20層后再增加到32層,準(zhǔn)確率不升反降,說(shuō)明如果網(wǎng)絡(luò)層數(shù)過(guò)大,由于梯度衰減的原因,將導(dǎo)致網(wǎng)絡(luò)性能下降。因此,在使用深度神經(jīng)網(wǎng)絡(luò)時(shí),需要解決梯度衰減問(wèn)題。
實(shí)驗(yàn)6結(jié)果如圖9所示,左邊是使用殘差網(wǎng)絡(luò)部分4個(gè)對(duì)比實(shí)驗(yàn)的loss變化曲線,右邊是驗(yàn)證集準(zhǔn)確率變化曲線。
實(shí)驗(yàn)6結(jié)果分析如下:當(dāng)網(wǎng)絡(luò)從20層增加到56層,訓(xùn)練loss穩(wěn)步降低,驗(yàn)證集準(zhǔn)確率穩(wěn)步提升,并且當(dāng)網(wǎng)絡(luò)層數(shù)為56層時(shí),驗(yàn)證集準(zhǔn)確率可達(dá)到91.62%,說(shuō)明使用殘差網(wǎng)技術(shù)可以解決梯度衰減問(wèn)題,發(fā)揮深層網(wǎng)絡(luò)的特征提取能力,使模型獲得很強(qiáng)的擬合能力與泛化能力。
上述實(shí)驗(yàn)對(duì)模型分類準(zhǔn)確率的提升數(shù)據(jù)如表1所示。
4 結(jié)語(yǔ)
實(shí)驗(yàn)結(jié)果表明,通過(guò)數(shù)據(jù)增強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化訓(xùn)練3個(gè)方面對(duì)模型進(jìn)行改進(jìn),使模型的擬合能力和泛化能力逐漸增強(qiáng),最終將模型在數(shù)據(jù)集CIFAR-10的分類準(zhǔn)確率從68%提升到92%左右。上述具體的實(shí)驗(yàn)設(shè)計(jì)步驟與結(jié)果分析,對(duì)于如何快速搭建一個(gè)卷積網(wǎng)絡(luò)模型,并進(jìn)行訓(xùn)練與優(yōu)化可起到一定啟發(fā)作用。
參考文獻(xiàn):
[1] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[J].IEEE Computer Society Conference on Computer Vision & Pattern Recognition,2005(12):886-893.
[2] HINTON G E,SALAKHUTDINOV R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc,2012:1097-1105.
[4] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
[5] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17.
[6] SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[J].Computer Science ,2015:2818-2826.
[7] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C].Computer Vision and Pattern Recognition,2016:770-778.
[8] IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[Z].Cornell University Library,2015.
[9] SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.
[10] KROGH A,HERTZ J A.A simple weight decay can improve generalization[J].International Conference on Neural Information Processing Systems,1991:950-957.
[11] ROBINSON A E,HAMMON P S,DE SA V R.Explaining brightness illusions using spatial filtering and local response normalization[J].Vision Research,2007,47(12):1631-1644.
[12] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science,2014.
[13] 馮超.深度學(xué)習(xí)輕松學(xué):核心算法與視覺(jué)實(shí)踐[M]北京:電子工業(yè)出版社,2017:204-206.
[14] SUTSKEVER I,MARTENS J,DAHL G,et al.On the importance of initialization and momentum in deep learning[C].International Conference on International Conference on Machine Learning,2013.
[15] NESTEROV Y.A method for unconstrained convex minimization problem with the rate of convergence[C].Soviet Mathematics Doklady,1983.
[16] DUCHI J,HAZAN E,SINGER Y.Adaptive subgradient methods for online learning and stochastic optimization[J].Journal of Machine Learning Research,2011,12(7):257-269.
(責(zé)任編輯:黃 ?。?/p>