江彤彤,成金勇,鹿文鵬
(齊魯工業(yè)大學(xué) 信息學(xué)院,濟(jì)南 250353)
基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別①
江彤彤,成金勇,鹿文鵬
(齊魯工業(yè)大學(xué) 信息學(xué)院,濟(jì)南 250353)
目標(biāo)識(shí)別一直是人工智能領(lǐng)域的熱點(diǎn)問(wèn)題. 為了提高目標(biāo)識(shí)別的效率,提出了基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別方法. 該方法將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在網(wǎng)絡(luò)的每個(gè)全連接層分別進(jìn)行特征提取,將得到的特征依次輸入到分類(lèi)器,對(duì)輸出結(jié)果進(jìn)行比較. 選取經(jīng)過(guò)修正線性單元relu函數(shù)激活的低層全連接層作為特征提取層,比選取高層全連接層特征提取的識(shí)別率高. 本文構(gòu)建了辦公用品數(shù)據(jù)集,實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的辦公用品識(shí)別系統(tǒng). 選擇AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型的relu6層作為特征選取層,選擇最優(yōu)訓(xùn)練圖像數(shù)量和最優(yōu)分類(lèi)器構(gòu)建系統(tǒng),從而證明了該方法的可行性.
卷積神經(jīng)網(wǎng)絡(luò); 特征提取; 深度學(xué)習(xí); 識(shí)別; 分類(lèi)器
近年來(lái),深度學(xué)習(xí)方法因?yàn)榫哂懈叩撵`活性和普適性得到迅速發(fā)展. 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN) 是一項(xiàng)實(shí)現(xiàn)深度學(xué)習(xí)應(yīng)用廣泛的技術(shù),應(yīng)用在多個(gè)領(lǐng)域并取得優(yōu)異效果,其中包括手寫(xiě)字符識(shí)別[1,2],人臉識(shí)別[3],人眼檢測(cè)[4],行人檢測(cè)[5],機(jī)器人導(dǎo)航[6]等.
卷積神經(jīng)網(wǎng)絡(luò)首次應(yīng)用在20世紀(jì)80年代末,美國(guó)紐約大學(xué)教授LeCun等人[7]提出用手寫(xiě)數(shù)字識(shí)別作為美國(guó)銀行識(shí)別票據(jù)的工具,并在識(shí)別系統(tǒng)中應(yīng)用CNN.2012年,加拿大多倫多大學(xué)教授深度學(xué)習(xí)領(lǐng)軍人物Alex Krizhevsky[8]構(gòu)建深層的卷積神經(jīng)網(wǎng)絡(luò)在大尺度圖像識(shí)別數(shù)據(jù)集ImageNet上測(cè)試識(shí)別率在84.7%左右.
本文提出基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別方法. 針對(duì)卷積神經(jīng)網(wǎng)絡(luò)在全連接層的每層所提取的特征輸入到分類(lèi)器得到的識(shí)別效果進(jìn)行分析,在卷積神經(jīng)網(wǎng)絡(luò)提取特征所選取的特征層,并非在全連接的最后一層效果最好,實(shí)驗(yàn)結(jié)果表明relu6層效果突出. 使用多種分類(lèi)器分別在數(shù)據(jù)集Caltech101中結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提取的特征做分類(lèi)處理,實(shí)驗(yàn)結(jié)果表明提取特征一致時(shí),與支持向量機(jī)分類(lèi)器相結(jié)合的圖像識(shí)別方法效果最好,更適合處理數(shù)量大的圖像,并且有效的提高了識(shí)別的速度和識(shí)別精度. 對(duì)不同訓(xùn)練圖像個(gè)數(shù)輸入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的識(shí)別效果進(jìn)行分析,隨訓(xùn)練圖像數(shù)量增加,識(shí)別率增加,增加速度漸緩. 以上實(shí)驗(yàn)說(shuō)明基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別方法是有效的、可行的. 使用此方法針對(duì)辦公用品進(jìn)行分類(lèi)識(shí)別獲得識(shí)別率,并與攝像頭連接進(jìn)行實(shí)時(shí)識(shí)別.
如今應(yīng)用廣泛的CNN模型中,比較成熟的是針對(duì)手寫(xiě)體的LeNet-5模型如圖1所示. 特征提取階段的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以概括為由卷積層和子采樣層兩類(lèi)結(jié)構(gòu)交替構(gòu)成的,該網(wǎng)絡(luò)的輸入是32×32的圖像,如圖1所示,將輸入層C1、S2、C3、S4、C5構(gòu)成目標(biāo)子塊的特征提取部分,輸入層讀入目標(biāo),子塊中的每一個(gè)像素看作神經(jīng)元,C1層是一個(gè)由6個(gè)28×28特征圖構(gòu)成的卷積層,即6個(gè)特征圖分別對(duì)應(yīng)6個(gè)卷積濾波器,每個(gè)神經(jīng)元與輸入圖像的一個(gè) 5×5的鄰域相連接. 每個(gè)卷積層后面跟隨著一個(gè)降采樣層,S2層是子采樣層,是由 6 個(gè)大小為 14×14 的特征圖組成,進(jìn)行2x2的平均化降采樣的操作特征圖中的每個(gè)神經(jīng)元與C1中相對(duì)應(yīng)特征圖的2*2區(qū)域相連,S2層每個(gè)神經(jīng)元的結(jié)果由C1層相鄰的4個(gè)神經(jīng)元相加后乘以可訓(xùn)練權(quán)值參數(shù),再加上一個(gè)可訓(xùn)練偏置參數(shù),最后通過(guò)sigmoid函數(shù)計(jì)算得到,降采樣層進(jìn)行局部平均和降采樣的操作,降低特征圖的分辨率,同時(shí)降低了網(wǎng)絡(luò)輸出對(duì)于位移和變形的敏感程度[9]. 卷積神經(jīng)網(wǎng)絡(luò)采用的是權(quán)值共享,這樣一來(lái)通過(guò)一個(gè)特征圖上的神經(jīng)元共享同樣的權(quán)值就可以大大減少自由參數(shù),可以用來(lái)檢測(cè)相同的特征在不同角度表示的效果從而得到更好的魯棒性[10].
圖1 LeNet-5 模型圖
目前識(shí)別領(lǐng)域的分類(lèi)器有很多種,其中支持向量機(jī)分類(lèi)器和softmax分類(lèi)器針對(duì)圖像識(shí)別有突出表現(xiàn).
Vapnik[11]等提出的支持向量機(jī)(Support vector machine,SVM)是解決分類(lèi)問(wèn)題的一個(gè)重要方法,該方法將高位特征空間的點(diǎn)積運(yùn)算替代為原空間的核函數(shù),降低了計(jì)算的復(fù)雜性. 支持向量機(jī)能保證所得極值解就是全局最優(yōu)解,減少了神經(jīng)網(wǎng)絡(luò)容易陷入局部最小的可能,因此它在解決小樣本、非線性及高維模式識(shí)別中均表現(xiàn)出許多特有的優(yōu)勢(shì)[7].
Softmax分類(lèi)器是在深度學(xué)習(xí)中經(jīng)常被提到的分類(lèi)器,該分類(lèi)器是在多分類(lèi)問(wèn)題中l(wèi)ogistic回歸模型的擴(kuò)展. Softmax分類(lèi)器對(duì)于諸如MNIST手寫(xiě)數(shù)字分類(lèi)等問(wèn)題上有很好的效果,該問(wèn)題就是識(shí)別不同的單個(gè)數(shù)字和圖像,可以應(yīng)用于車(chē)牌識(shí)別、目標(biāo)檢測(cè)等方向.
多分類(lèi)SVM分類(lèi)器是具有較強(qiáng)泛化能力的通用學(xué)習(xí)算法,不但可以處理非線性、高維數(shù)的分類(lèi)問(wèn)題,而且能夠解決神經(jīng)網(wǎng)絡(luò)中經(jīng)常出現(xiàn)的局部極小值的問(wèn)題,被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域并取得良好的效果. 但多分類(lèi)SVM算法本質(zhì)是通過(guò)二次規(guī)劃獲得支持向量的,當(dāng)分類(lèi)樣本數(shù)量n較大時(shí),算法進(jìn)行的n階矩陣運(yùn)算不僅計(jì)算量巨大,并且占機(jī)器內(nèi)存大,運(yùn)行速度緩慢.需要應(yīng)用多分類(lèi)SVM分類(lèi)器的魯棒性和泛化能力的優(yōu)點(diǎn)去解決大量圖像識(shí)別問(wèn)題,結(jié)合提取特征降維可以減少計(jì)算量,提高計(jì)算速度.
選擇卷積神經(jīng)網(wǎng)絡(luò)提取特征的原因,一方面,圖像可以直接輸入到卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,比其他網(wǎng)絡(luò)的預(yù)處理工作簡(jiǎn)單. 另一方面卷積神經(jīng)網(wǎng)絡(luò)的卷積和下采樣工作是圖像進(jìn)行平移操作,根據(jù)平移不變性,提取出的特征向量與原始數(shù)據(jù)不僅不會(huì)過(guò)度擬合而且結(jié)果相同,這樣省去對(duì)樣本進(jìn)行變?cè)斓倪^(guò)程,使得圖像中的平移部分對(duì)于最后的特征向量是沒(méi)有影響的. 除此之外,卷積神經(jīng)網(wǎng)絡(luò)的卷積和下采樣具有可變性和靈活性,可以改變特征向量大小的特點(diǎn),當(dāng)分類(lèi)器有擬合現(xiàn)象可以通過(guò)調(diào)節(jié)特征向量維數(shù)解決.
兩種方法相結(jié)合取長(zhǎng)補(bǔ)短,SVM解決了神經(jīng)網(wǎng)絡(luò)的局部極小值的問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)提取特征解決了SVM算法的處理大樣本問(wèn)題,同時(shí)減少擬合現(xiàn)象提高運(yùn)行速率. 選取合適的CNN模型和特征提取層是分類(lèi)識(shí)別的重要問(wèn)題. 根據(jù)多種論文中提出的一般選擇分類(lèi)層的前一層作為特征提取層的問(wèn)題,提出在不同全連接層都進(jìn)行特征提取的方法與上述結(jié)論進(jìn)行對(duì)比.因此本文提出基于CNN多層特征提取的目標(biāo)識(shí)別方法.
本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別系統(tǒng)整體框圖如圖2所示.
CNN多層特征提取模型包括訓(xùn)練CNN模型和特征提取兩個(gè)部分.
本文采用的是由Alex Krizhevsky等人[8]提出的大型的深度卷積神經(jīng)網(wǎng)絡(luò),其中總共有23層,包含八個(gè)學(xué)習(xí)層——五個(gè)卷積層、三個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的構(gòu)建過(guò)程如圖3所示,最后一個(gè)全連接層的輸出被送到一個(gè)Softmax層,通過(guò)Softmax分類(lèi)層分1000 類(lèi)標(biāo)簽,該框架 ImageNet ILSVRC-2012 大賽中依靠top-5測(cè)試誤差率15.3%取得了勝利.
圖2 多層特征提取目標(biāo)識(shí)別系統(tǒng)流程圖
第一個(gè)卷積層利用96個(gè)大小為11×11×3、步長(zhǎng)為4個(gè)像素的核,來(lái)對(duì)大小為224×224×3的輸入圖像進(jìn)行濾波. 第二個(gè)卷積層需要將第一個(gè)卷積層經(jīng)過(guò)歸一化和下采樣后的輸出作為自己的輸入,且利用256個(gè)大小為5×5×48的核對(duì)其進(jìn)行濾波. 第三、第四和第五個(gè)卷積層彼此相連,沒(méi)有任何介于中間的下采樣層與歸一化層. 第三個(gè)卷積層有384個(gè)大小為3×3×256的核被連接到第二個(gè)卷積層的輸出. 第四個(gè)卷積層擁有384個(gè)大小為3×3×192的核,第五個(gè)卷積層擁有256個(gè)大小為3×3×192的核. 全連接層都各有4096個(gè)神經(jīng)元. 全連接層有三層,在三層全連接層中選取一層得到4096張?zhí)卣鲌D排列為一條列向量,得到最終的特征向量.
AlexNet共8層學(xué)習(xí)層,包括5個(gè)卷積層和3個(gè)全連接層. 第1、2層卷積后進(jìn)行局部相應(yīng)歸一化. 第1、2、5層有重疊池化. 卷積層和全連接層的每層輸出都有relu. 是一種經(jīng)典的達(dá)到速度快、錯(cuò)誤率低的一種卷積神經(jīng)網(wǎng)絡(luò).
AlexNet模型使用Nair和Hinton[12]提出的修正線性單元(relu)作為激活函數(shù),式(1)是relu函數(shù),訓(xùn)練帶relu的深度卷積神經(jīng)網(wǎng)絡(luò)比帶tanh單元的同等網(wǎng)絡(luò)要快好幾倍,式(2)是tanh函數(shù). 式(3)是傳統(tǒng)的非線性的 Sigmoid 函數(shù),雙側(cè)抑制,增大中央?yún)^(qū)信號(hào),同時(shí)抑制兩側(cè)信號(hào). relu模型是近似生物神經(jīng)激活函數(shù),其特點(diǎn)是單側(cè)抑制、相對(duì)寬闊的興奮邊界以及稀疏激 活性.
圖3 Alex Krizhevsky等人提出的大型的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet模型圖[8]
根據(jù)公式 (1)(2)(3)所得,relu 函數(shù)是分段函數(shù),在大于0時(shí)導(dǎo)數(shù)不變,反向傳播梯度,而且不容易出現(xiàn)梯度發(fā)散問(wèn)題,sigmoid和tanh函數(shù)的導(dǎo)數(shù)比較復(fù)雜,在兩端接近目標(biāo)時(shí),導(dǎo)數(shù)變小. 根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的原理,導(dǎo)數(shù)變小會(huì)導(dǎo)致誤差反向傳播,收斂慢. relu函數(shù)右側(cè)不發(fā)散,所以多處隱含層輸出為0,網(wǎng)絡(luò)因此變得稀疏,降低過(guò)擬合的可能性,提高卷積效率. 因此經(jīng)過(guò)relu函數(shù)激活后的全連接卷積層進(jìn)行特征提取的識(shí)別率明顯比全連接卷積層的識(shí)別率高.
選取全連接層作為特征提取層,AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型中分為三個(gè)全連接層從前往后分別命名為fc6、fc7、fc8,在fc6、fc7卷積層后面都有relu層以提高速率,這兩層也包含在特征提取層的范圍內(nèi).
多分類(lèi)SVM分類(lèi)器作為一種具有較強(qiáng)泛化能力的通用學(xué)習(xí)算法,被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域并取得良好的效果. 但使用多分類(lèi)SVM解決小樣本問(wèn)題有較好的效果,在解決數(shù)量大、類(lèi)型多的圖像集時(shí),比較不進(jìn)行特征提取的多分類(lèi)SVM識(shí)別識(shí)別率,使用卷積神經(jīng)網(wǎng)絡(luò)特征提取后進(jìn)行多分類(lèi)類(lèi)SVM識(shí)別的效果最佳,為了驗(yàn)證本文提出的卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的有效性,選擇SVM分類(lèi)器對(duì)特征進(jìn)行訓(xùn)練和測(cè)試.
Caltech 101數(shù)據(jù)集創(chuàng)造在2003年9月,編寫(xiě)由Fei-FeiLI,Marco Andreetto 和 Aurelio Ranzato 在加州理工學(xué)院. Caltech 101數(shù)據(jù)集包括總共9146個(gè)圖象如圖4所示,101個(gè)區(qū)別對(duì)象類(lèi)別,以及一個(gè)另外的背景或凌亂類(lèi)別. 每個(gè)對(duì)象類(lèi)別平均包含在40個(gè)和800個(gè)圖象之間.
圖4 Caltech101 數(shù)據(jù)集
辦公用品數(shù)據(jù)集是由15類(lèi)物品,共450個(gè)圖像,有15類(lèi)辦公室中常見(jiàn)物品,每類(lèi)物品30張圖像,圖像由百度圖庫(kù)和淘寶網(wǎng)提供,如圖5所示.
Caltech 101數(shù)據(jù)集中每類(lèi)圖像個(gè)數(shù)的限制,取102類(lèi)圖像做實(shí)驗(yàn)時(shí),取這102類(lèi)中圖像個(gè)數(shù)最小的作為整個(gè)實(shí)驗(yàn)的數(shù)據(jù)集,每類(lèi)31張.
在使用CNN提取特征前,將圖像處理為image data store 格式,該格式存儲(chǔ)每個(gè)圖像的位置,提取每個(gè)圖像的名字作為標(biāo)簽,將輸入CNN網(wǎng)絡(luò)的數(shù)據(jù)集中所有彩色圖像的大小重置為227*227*3.
圖5 辦公用品自建數(shù)據(jù)集
本文將提出基于AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型特征提取,用matlab自帶的多分類(lèi)支持向量機(jī)進(jìn)行分類(lèi)的目標(biāo)識(shí)別方法,簡(jiǎn)稱(chēng)為ACNSVnet,用Softmax分類(lèi)器進(jìn)行分類(lèi)的方法稱(chēng)為ACNSOFTnet. 在Caltech 101數(shù)據(jù)集中,固定訓(xùn)練個(gè)數(shù),單獨(dú)使用Softmax分類(lèi)器和支持向量機(jī)分類(lèi)的識(shí)別率分別只有56%和10%左右. 由于圖像數(shù)據(jù)集的數(shù)量過(guò)大、標(biāo)簽種類(lèi)多單獨(dú)使用這兩種分類(lèi)器運(yùn)算復(fù)雜、容易判斷錯(cuò)誤導(dǎo)致運(yùn)算時(shí)間很慢、識(shí)別率低、效率低,因而效果不佳. 現(xiàn)用ACNSVnet方法得到的識(shí)別率約在87.91%左右,去除數(shù)據(jù)集中凌亂數(shù)據(jù)集得到的識(shí)別率為89.10%,該方法不僅提高了識(shí)別率,也增加了速度,整體增加圖像識(shí)別系統(tǒng)的效率.
表1對(duì)比了在AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型中,固定每個(gè)類(lèi)別的訓(xùn)練圖像個(gè)數(shù)為21張,測(cè)試圖像為10張,進(jìn)行三折交叉驗(yàn)證取平均值得到的從不同層中提取特征所得到的實(shí)驗(yàn)效果,其中識(shí)別率按照式(4)計(jì)算,選取 fc6、relu6、fc7、relu7、fc8 五個(gè)全連接層作為特征提取層得到的實(shí)驗(yàn)結(jié)果.
表1 特征提取層的識(shí)別率和時(shí)間
根據(jù)以往經(jīng)驗(yàn)和各種論文中提到的基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取應(yīng)在卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)層前一層的全連接層中進(jìn)行,該實(shí)驗(yàn)結(jié)果表明并非在最后一層全連接層進(jìn)行特征提取得到的效果最優(yōu),最后一層全連接層特征提取分類(lèi)的結(jié)果為79.8%,前兩層全連接層的特征提取分類(lèi)結(jié)果遠(yuǎn)遠(yuǎn)高于最后一層的結(jié)果分別為84.71%和83.04%. 根據(jù)實(shí)驗(yàn)可以發(fā)現(xiàn)前兩個(gè)全連接的識(shí)別率相差不大. 出現(xiàn)這種情況的原因是因?yàn)殡S著全連接層數(shù)越往后的增加,導(dǎo)致過(guò)度擬合,從而識(shí)別率下降,所以當(dāng)構(gòu)建全連接層數(shù)較多的卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),特征提取層應(yīng)選取在低層的全連接層中.
實(shí)驗(yàn)結(jié)果表明,選取經(jīng)過(guò)relu函數(shù)激活后的全連接卷積層(relu6和relu7)進(jìn)行特征提取的識(shí)別率87.25%和84.02%比全連接卷積層的識(shí)別率(fc6和fc7)高. 這里的原因很簡(jiǎn)單,前面已經(jīng)提到過(guò)relu是激活函數(shù)可以提高卷積神經(jīng)網(wǎng)絡(luò)的效率. relu函數(shù)是分段函數(shù),在大于 0 時(shí)導(dǎo)數(shù)不變,反向傳播梯度,而且不容易出現(xiàn)梯度發(fā)散問(wèn)題,右側(cè)不發(fā)散,所以多處隱含層輸出為 0,網(wǎng)絡(luò)因此變得稀疏,降低過(guò)擬合的可能性,提高卷積效率.
表2對(duì)比了每個(gè)類(lèi)別訓(xùn)練圖像個(gè)數(shù)在fc6層和relu6層的識(shí)別率和運(yùn)行時(shí)間,這里受到Caltech 101數(shù)據(jù)集中每類(lèi)圖像個(gè)數(shù)的限制,每類(lèi)取5張遞增到25張圖像作為訓(xùn)練集的數(shù)據(jù)進(jìn)行實(shí)驗(yàn).
表2 fc6層和relu6層不同訓(xùn)練圖像個(gè)數(shù)的識(shí)別率和時(shí)間
實(shí)驗(yàn)結(jié)果表明,在relu6層中提取特征,25張訓(xùn)練圖像范圍內(nèi),隨訓(xùn)練數(shù)據(jù)的增大,識(shí)別率越高. 當(dāng)訓(xùn)練圖像在15張時(shí)識(shí)別率為84.62%,而在18張部分識(shí)別率為87.10%,在這期間識(shí)別率提高了三個(gè)百分點(diǎn),訓(xùn)練圖像大于18張的實(shí)驗(yàn)識(shí)別率都平均保持在87%-88% 之間,識(shí)別結(jié)果穩(wěn)定. 實(shí)驗(yàn)結(jié)果說(shuō)明,隨著訓(xùn)練圖像的增加,運(yùn)行時(shí)間基本也是逐漸增加的. 同時(shí),通過(guò)對(duì)比f(wàn)c6層和relu6層的結(jié)果表明,在訓(xùn)練集個(gè)數(shù)相同情況下在relu6層取特征得到的識(shí)別率總是高于fc6,運(yùn)行時(shí)間相對(duì)fc6層相對(duì)短. 所以綜上三個(gè)結(jié)果,為了提高識(shí)別系統(tǒng)的效率,選擇在relu6層提取特征,選取每類(lèi)訓(xùn)練圖像個(gè)數(shù)在18-25張左右的圖像,這一方面提高了識(shí)別率,另一方面縮短系統(tǒng)運(yùn)行的時(shí)間.
分類(lèi)器除了支持向量機(jī)還有Softmax、BP神經(jīng)網(wǎng)絡(luò)、經(jīng)常使用的libsvm,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集Caltech101提取特征,將特征輸入到上述分類(lèi)器中其結(jié)果分別如表3,表4,表5 所示.
圖6 relu6層提取特征訓(xùn)練圖像個(gè)數(shù)與識(shí)別率的關(guān)系
表3 Softmax 分類(lèi)器的特征提取層識(shí)別率
表4 libsvm 分類(lèi)器的特征提取層識(shí)別率
表5 BP 神經(jīng)網(wǎng)絡(luò)分類(lèi)器的特征提取層識(shí)別率
相比較而言,matlab自帶的多分類(lèi)支持向量機(jī)在relu6層獲得最優(yōu)異的識(shí)別率,Softmax分類(lèi)器的識(shí)別率更加穩(wěn)定結(jié)果與多分類(lèi)支持向量機(jī)區(qū)別不大. 而libsvm識(shí)別率較低,BP神經(jīng)網(wǎng)絡(luò)由于網(wǎng)絡(luò)復(fù)雜,根據(jù)不同圖像集需要進(jìn)行參數(shù)調(diào)整,訓(xùn)練速度非常慢,識(shí)別率也不理想. 根據(jù)實(shí)驗(yàn)結(jié)果表明,選擇matlab自帶的多分類(lèi)支持向量機(jī)為最優(yōu)選擇,Softmax分類(lèi)器可以作為代替該分類(lèi)器的另一個(gè)比較好的選擇,而libsvm和BP神經(jīng)網(wǎng)絡(luò)在識(shí)別率和時(shí)間上都不占優(yōu)勢(shì),在這類(lèi)實(shí)驗(yàn)中不是最優(yōu)選擇.
根據(jù)上述三個(gè)實(shí)驗(yàn)得到的結(jié)論,使用自建辦公用品數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在五類(lèi)不同特征提取層中獲得的識(shí)別率. 預(yù)處理同上,根據(jù)上述結(jié)論為了提高識(shí)別系統(tǒng)的效率,選取matlab自帶多分類(lèi)支持向量機(jī)作為分類(lèi)器,選取每類(lèi)訓(xùn)練圖像個(gè)數(shù)在18-25張左右的圖像,該實(shí)驗(yàn)選擇25張訓(xùn)練圖像,5張圖像進(jìn)行測(cè)試,并進(jìn)行三折交叉驗(yàn)證取平均值得到的從不同層中提取特征所得到的實(shí)驗(yàn)效果如表6所示.
表6 SVM分類(lèi)器的特征提取層在自建辦公用品數(shù)據(jù)庫(kù)識(shí)別率
根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),選取經(jīng)過(guò)relu函數(shù)激活后的全連接卷積層(relu6和relu7)進(jìn)行特征提取的識(shí)別率明顯比全連接卷積層的識(shí)別率(fc6和fc7)高,與第一個(gè)實(shí)驗(yàn)結(jié)果一致,所以當(dāng)構(gòu)建全連接層數(shù)較多的卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),特征提取層應(yīng)選取在低層的全連接層中.
構(gòu)建辦公用品識(shí)別系統(tǒng)分為兩步分別為訓(xùn)練和識(shí)別. 訓(xùn)練部分選取AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型的relu6層作為特征選取層,輸入375張辦公用品圖像(每類(lèi)25張訓(xùn)練圖像)到卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練并提取特征,將得到的特征提取集輸入到matlab多分類(lèi)支持向量機(jī)分類(lèi)器中進(jìn)行訓(xùn)練. 剩余75張(每類(lèi)5張測(cè)試圖像)對(duì)識(shí)別系統(tǒng)進(jìn)行測(cè)試,得到識(shí)別率. 使用c#作為接口將電腦連接攝像頭實(shí)時(shí)截圖所拍物品,將所截圖像輸入到識(shí)別系統(tǒng)進(jìn)行識(shí)別得到識(shí)別結(jié)果. 針對(duì)辦公室機(jī)器人圖像識(shí)別方向的研究做了一個(gè)簡(jiǎn)單的系統(tǒng),有助于快速實(shí)時(shí)的定位物品.
本文提出基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別的方法,對(duì)圖像數(shù)據(jù)集進(jìn)行分類(lèi),針對(duì)選取特征提取層效果最優(yōu)的問(wèn)題進(jìn)行了研究. 分類(lèi)結(jié)果表明在卷積神經(jīng)網(wǎng)絡(luò)中提取特征所選取的特征層,并非在全連接的最后一層或分類(lèi)層的前一層效果最好. 因?yàn)槿B接層的作用是在一個(gè)更加抽象的層次上學(xué)習(xí),隨著全連接層數(shù)越往后的增加,導(dǎo)致過(guò)度擬合,提取的特征從而識(shí)別率下降,所以當(dāng)構(gòu)建全連接層數(shù)較多的卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),特征提取層應(yīng)選取在低層的全連接層中. 在本次實(shí)驗(yàn)中經(jīng)過(guò)relu函數(shù)激活后的全連接卷積層relu6,進(jìn)行特征提取的識(shí)別率87.25%遠(yuǎn)遠(yuǎn)高于在最后一層全連接層fc8提取特征的識(shí)別率79.8%,relu6層較relu7層是低層的全連接層. 實(shí)驗(yàn)結(jié)果表明當(dāng)提取的特征一致時(shí),選取每類(lèi)訓(xùn)練圖像個(gè)數(shù)在18-25張左右的圖像,與支持向量機(jī)分類(lèi)器相結(jié)合圖像識(shí)別方法效果最好,在辦公用品數(shù)據(jù)集中識(shí)別率最高能達(dá)到92%的識(shí)別率. 以上實(shí)驗(yàn)說(shuō)明基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別的方法是有效的、可行的. 本文構(gòu)建了辦公室用品數(shù)據(jù)集,并連接攝像頭實(shí)現(xiàn)了針對(duì)辦公室用品的實(shí)時(shí)目標(biāo)識(shí)別系統(tǒng). 本文提出的方法可以推廣應(yīng)用于目標(biāo)識(shí)別的各個(gè)領(lǐng)域.
1Wei XH,Lu SJ,Wen Y,et al. Recognition of handwritten Chinese address with writing variations. Pattern Recognition Letters,2016,73: 68–75. [doi: 10.1016/j.patrec.2015.12.018]
2Singh P,Verma A,Chaudhari NS. On the performance improvement of devanagari handwritten character recognition. Applied Computational Intelligence and Soft Computing,2015,2015: 193868.
3Zhang L,Song YY,Liu L,et al. Dissociable roles of internal feelings and face recognition ability in facial expression decoding. NeuroImage,2016,132: 283–292. [doi: 10.1016/j.neuroimage.2016.02.049]
4徐歡,高雁鳳,鄭恩輝,等. 一種用于駕駛員疲勞檢測(cè)的人眼檢測(cè)方法. 計(jì)算機(jī)工程,2013,39(9): 254–257,276.
5江源遠(yuǎn),胡進(jìn),蘇芮琦,等. 基于積分通道特征的車(chē)輛前方行人檢測(cè)方法研究. 2016中國(guó)汽車(chē)工程學(xué)會(huì)年會(huì)論文集.上海. 2016.
6Charalampous K,Kostavelis I,Gasteratos A. Robot navigation in large-scale social maps: An action recognition approach.Expert Systems with Applications,2016,66: 261–273. [doi:10.1016/j.eswa.2016.09.026]
7LeCun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition. Proc. of the IEEE,1998,86(11): 2278–2324. [doi: 10.1109/5.726791]
8Krizhevsky A,Sutskever I,Hinton GE. ImageNet classification with deep convolutional neural networks. Proc. of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe,Nevada,USA. 2012. 1097–1105.
9任陳俊,仲朝亮,劉士榮,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景運(yùn)動(dòng)目標(biāo)分類(lèi)研究. 中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì).第三十四屆中國(guó)控制會(huì)議論文集(C卷). 杭州,中國(guó). 2015.
10Ijjina EP,Chalavadi KM. Human action recognition using genetic algorithms and convolutional neural networks.Pattern Recognition,2016,59: 199–212. [doi: 10.1016/j.patcog.2016.01.012]
11Vapnik VN. The Nature of Statistical Learning Theory. New York,USA: Springer,1995.
12Nair V,Hinton GE. Rectified linear units improve restricted Boltzmann machines. Proc. of the 27th International Conference on Machine Learning. Haifa,Israel. 2010.
Target Recognition Based on Multilayer Feature Extraction of Convolution Neural Network
JIANG Tong-Tong,CHENG Jin-Yong,LU Wen-Peng
(School of Information,Qilu University of Technology,Jinan 250353,China)
Target recognition has been the hot issue in the field of artificial intelligence. In order to enhance the efficiency of target recognition,this paper proposes a method based on multilayer feature extraction of convolutional neural network.By inputting images into convolutional neural network for training,this method implements feature extraction at each full connection layer of network,inputs the features obtained into classifier,and then compares the output results. The lower full connection layer activated by relu function is selected as feature extraction layer,whose recognition rate is higher than that in higher full connection layer. This paper builds up office supplies dataset,and realizes the office supplies identification system based on the multilayer feature extraction of convolutional neural network. The layer relu6 of AlexNet is selected feature extraction layer,and the optimal training image quantity as well as the optimal classifier construction system is chosen,which verifies the feasibility of this method.
convolution neural networks; feature extraction; deep learning; recognition; classifier
江彤彤,成金勇,鹿文鵬.基于卷積神經(jīng)網(wǎng)絡(luò)多層特征提取的目標(biāo)識(shí)別.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):64–70. http://www.c-sa.org.cn/1003-3254/6082.html
國(guó)家自然科學(xué)基金(61502259); 山東省自然科學(xué)基金(ZR2011FQ038)
2017-03-03; 修改時(shí)間: 2017-03-20; 采用時(shí)間: 2017-03-29