劉瀚駿 楊勇(通訊作者) 長春理工大學(xué)計算機科學(xué)技術(shù)學(xué)院
本文參考GoogLeNet的Inception思想,針對手寫體數(shù)字圖像數(shù)據(jù)的特點,對網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化調(diào)整,設(shè)計了一種輕量的卷積神經(jīng)網(wǎng)絡(luò)模型。并在MNIST數(shù)據(jù)集上對算法效果進行了實驗。
早期,手寫數(shù)字的識別過程是使用統(tǒng)計方法來對手寫數(shù)字的圖像進行分類,如提取數(shù)字圖像的特征之后,使用基于SVM的進行分類。LeNet在出現(xiàn)后,迅速成為手寫數(shù)字識別的典型算法。出現(xiàn)了眾多對這一算法的優(yōu)化模型。例如,在[2]中,作者使用九層的多層感知機模型,通過對MNIST數(shù)據(jù)的隨機位置變換和旋轉(zhuǎn)達到了99.55%的準確率。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)模型,近年來在圖像領(lǐng)域取得了驚人的成績。其獨特的卷積層結(jié)構(gòu)可以自動地對目標進行特征提取和學(xué)習(xí),無需進行手工特征選擇。GoogLeNet是2014年提出的一種優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò)模型。GoogLeNet中引入一種新結(jié)構(gòu)Inception塊來增加網(wǎng)絡(luò)的寬度。這樣的橫向連接結(jié)構(gòu)并不會過高地增加網(wǎng)絡(luò)的參數(shù)數(shù)量,可以使網(wǎng)絡(luò)的訓(xùn)練變得相對更加容易。一個Inception塊的示意圖如圖1所示:
圖1 GoogLeNet中的Inecption結(jié)構(gòu)
但是,GoogLeNet22層的網(wǎng)絡(luò)結(jié)構(gòu)對于手寫體數(shù)字識別來說仍然過于復(fù)雜。MNIST數(shù)據(jù)集僅有60,000張左右的數(shù)字圖像,并不足以訓(xùn)練如此深的網(wǎng)絡(luò)。因此本文僅借用Inception這一思想,設(shè)計了一個淺層網(wǎng)絡(luò)模型。
在GoogLeNet中,Inception分為四個部分,且每個部分都有一個1*1卷積。這個1*1卷積是在處理ImageNet圖像時為了降低網(wǎng)絡(luò)計算量而存在的。但對于MNIST來說,其計算量較小,即使不進行降維,運算也十分迅速。GoogLeNet的Inception的第四部分包括一個3*3池化,由于MNIST的圖像大小只有28*28,經(jīng)過池化后圖像大小過小,不利于特征表達。最終,本文簡化的Incetpion塊僅包含三個部分:其整體結(jié)構(gòu)僅有五層,如圖2所示:
圖2 本文網(wǎng)絡(luò)模型示意圖
在深度學(xué)習(xí)領(lǐng)域的諸多研究已經(jīng)證明了數(shù)據(jù)量對于深度學(xué)習(xí)任務(wù)的重要性。但MNIST數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)總量較少??梢酝ㄟ^對MNIST數(shù)據(jù)進行增強來增加數(shù)據(jù)集中的數(shù)據(jù)數(shù)量。本文選取-30°~30°的隨機角度作為旋轉(zhuǎn)角,每張圖片隨機旋轉(zhuǎn)1~2次。并向隨機方向平移不超過5個像素。
本文使用tensorflow環(huán)境進行實驗。對于MNIST數(shù)據(jù)集,本文選用的batch大小為256,訓(xùn)練次數(shù)為20000次,學(xué)習(xí)率為0.002。
在訓(xùn)練完成后,將本文的模型與LeNet網(wǎng)絡(luò)、GoogLeNet進行對比。
對比測試的結(jié)果如下:
表1 模型準確率對比
可以看出,相較于另兩種方法,本文所述的基于Inception思想的方法具有較高的準確率。
本文還對比了三種算法在訓(xùn)練時所需的時間,本文的訓(xùn)練時間與LeNet相差不大,可以快速訓(xùn)練完成,在測試時,其響應(yīng)速度也明顯優(yōu)于GoogLeNet。
本文將GoogLeNet這一網(wǎng)絡(luò)中的Inception思想引入手寫數(shù)字識別算法中,并對數(shù)據(jù)集進行增廣,來實現(xiàn)了一種高效、準確的手寫數(shù)字識別方法。簡化過的Inception結(jié)構(gòu)在有效增加網(wǎng)絡(luò)寬度的同時,沒有很顯著地增加網(wǎng)絡(luò)的參數(shù)數(shù)量,這樣使得網(wǎng)絡(luò)可以提取更多特征,卻又不會難以訓(xùn)練。通過實驗結(jié)果可知,這樣的思路具有良好的可行性,可以達到預(yù)期效果。