黃 燦
(92124部隊(duì) 遼寧 大連 116021)
2012年可謂人工智能圖像識(shí)別發(fā)展的一個(gè)重要里程碑。之前人們?yōu)樽非髨D像識(shí)別算法的準(zhǔn)確性做出了不懈的努力,但是其錯(cuò)誤率卻一直居高不下,保持在26%左右,這一水平導(dǎo)致圖像識(shí)別技術(shù)無法有效走出實(shí)驗(yàn)室。但是在2012年的視覺挑戰(zhàn)賽(ILSVRC,Image Net Large Scale Visual Recognition Challenge)上,Krizhevsky等人采用了八層深度卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法贏得了該大賽的管冠軍,其精確度超過第二名11%,這一壓倒性的優(yōu)勢,決定了卷及神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的研究,必然成為未來的主要趨勢。
就目前算法的發(fā)展?fàn)顩r而言,卷及神經(jīng)網(wǎng)絡(luò)作為當(dāng)前在圖像識(shí)別領(lǐng)域的主流算法,被諸多工作團(tuán)隊(duì)所廣泛接受,而對(duì)于圖像識(shí)別的研究重點(diǎn),也從尋找更為優(yōu)秀的算法,轉(zhuǎn)移到了對(duì)卷積神經(jīng)網(wǎng)絡(luò)算法本身的優(yōu)化上,并且在應(yīng)用領(lǐng)域,也在近年取得了長足進(jìn)展。從卷積神經(jīng)網(wǎng)絡(luò)自身的角度考慮,其在卷積層之間采用了共享參數(shù),使得計(jì)算過程中對(duì)于計(jì)算資源的占用大大縮小,同時(shí)也在訓(xùn)練參數(shù)方面實(shí)現(xiàn)了有效的簡化,提升了整體運(yùn)算過程的效率。除此以外,此種計(jì)算方式幾乎不需要對(duì)圖像展開預(yù)處理或者特征值提取操作,這也成為卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域優(yōu)于其他算法的顯著之處。但是卷積神經(jīng)網(wǎng)絡(luò)算法也存在諸多弱點(diǎn),例如傳統(tǒng)的算法本身并未能對(duì)算法展開深入挖掘,對(duì)應(yīng)的卷積核偏大,算法結(jié)構(gòu)層數(shù)較少等,都會(huì)造成此種算法的優(yōu)勢未能有效發(fā)揮,這些也就成為了當(dāng)前在該領(lǐng)域中進(jìn)行改進(jìn)研究的工作重點(diǎn)。
作為深度學(xué)習(xí)領(lǐng)域的常用算法,卷積神經(jīng)網(wǎng)絡(luò)屬于常用算法,其發(fā)展基于人體視覺系統(tǒng)工作模式提出,其經(jīng)典的模型包括卷及神經(jīng)層、Rectified Linear Units層、Pooling層以及規(guī)范化層總共四個(gè)層級(jí)。想要切實(shí)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的算法實(shí)現(xiàn)優(yōu)化和改進(jìn),首先需要從基礎(chǔ)的角度加強(qiáng)認(rèn)識(shí)。
在算法框架體系之下,卷積神經(jīng)層負(fù)責(zé)對(duì)圖像中的每個(gè)點(diǎn)展開卷積計(jì)算,并且將卷積核作為訓(xùn)練參數(shù)展開工作。在圖像識(shí)別算法中,卷積的實(shí)際意義是指輸出圖像中的每個(gè)點(diǎn)都是由輸入圖像的對(duì)應(yīng)位置的小區(qū)域的像素通過加權(quán)平均所得,而這個(gè)區(qū)域即為卷積核。在計(jì)算機(jī)的處理過程中,卷積核為正方形,其邊長決定了對(duì)于圖像特征值的提取效果。一般來說,卷積核越大,對(duì)于圖像特征值獲取的效果越好,但是對(duì)應(yīng)地,需要訓(xùn)練的參數(shù)就越多,因此會(huì)應(yīng)當(dāng)?shù)竭\(yùn)算能力,進(jìn)一步影響到圖像識(shí)別的整體效率。與之對(duì)應(yīng),卷積核越小,圖像識(shí)別過程中的精細(xì)程度就會(huì)有所提升,但是想要獲取到同樣水平的圖像特征,只能依賴更多的計(jì)算層數(shù)。并且較小的卷積核意味著在計(jì)算中會(huì)存在更多的Rectified Linear Units層,在識(shí)別能力上也會(huì)因此更強(qiáng)。因此在當(dāng)前用于圖像識(shí)別環(huán)境中的卷積神經(jīng)網(wǎng)絡(luò)算法,多采用3×3或者5×5尺寸的卷積核展開工作。而Rectified Linear Units層則負(fù)責(zé)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的激活函數(shù)控制,多為Rectified函數(shù)。Rectified Linear Units層的引入,能夠有效減少訓(xùn)練時(shí)間,提升整體算法性能。在輸入圖像經(jīng)過了這樣兩個(gè)層級(jí)的處理之后,其中的沒一個(gè)像素點(diǎn)都包括了周圍區(qū)域的相關(guān)信息,這帶來了較多的信息冗余,而為了提升算法的性能和魯棒性,就需要對(duì)圖像展開二次采樣,并且形成新的圖像。在二次采樣的過程中,需要對(duì)區(qū)域進(jìn)行重新劃分,如果劃分區(qū)域彼此之間存在重疊,則成為Overlapping Pooling,否則被稱作為Non-overlapping Pooling,Pooling層的稱謂因此而來。這一層不需要訓(xùn)練,并且比較常見的做法是采用可以重疊的,取最大值的Pooling算法,用以對(duì)過度擬合展開適當(dāng)控制。最后,規(guī)范化層,即規(guī)范化神經(jīng)層(Normalization Layer),其價(jià)值在于提升圖像的對(duì)比性,通常通過計(jì)算圖像的對(duì)比“平均值”,來對(duì)圖像的每個(gè)像素展開調(diào)整,使得圖像的主體部分能夠和背景更加具有區(qū)分度。這一個(gè)層面在圖像識(shí)別中并非必不可少,因此只有當(dāng)卷積核較大的時(shí)候,才會(huì)引入這一層級(jí)展開加工。
首先,網(wǎng)絡(luò)深度對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言至關(guān)重要。作為卷積神經(jīng)網(wǎng)絡(luò)計(jì)算過程中最終的參數(shù)之一,其直接與需要訓(xùn)練的參數(shù)有關(guān),更加與圖像識(shí)別的正確率密切聯(lián)系。但是從整體效率的角度看,深度的提升并不會(huì)帶來參數(shù)的大幅度增加,但是正確率卻因此有著顯著提升。因此在卷積神經(jīng)網(wǎng)絡(luò)環(huán)境中,網(wǎng)絡(luò)層數(shù)通過會(huì)超過普通神經(jīng)網(wǎng)絡(luò),但也會(huì)對(duì)實(shí)際運(yùn)算過程進(jìn)行監(jiān)督,查看具體應(yīng)用情況。
其次,卷積神經(jīng)網(wǎng)絡(luò)算法中的結(jié)構(gòu)同樣不容忽視。之前的一些研究中多采用較大的卷積核,雖然這樣做能夠更好獲取到圖像特征,但是會(huì)造成需要訓(xùn)練的參數(shù)增加,進(jìn)一步限制了整體算法的性能。當(dāng)前為了改善運(yùn)算效率,多采用較小的卷積核,并且為了能夠方便地調(diào)整算法,并兼顧算法的拓展性,引入的結(jié)構(gòu)應(yīng)當(dāng)可以直接疊加而不必引入新的神經(jīng)層。實(shí)際工作中可以選擇多個(gè)神經(jīng)層共同參與運(yùn)算,每個(gè)卷積層之后均包含有對(duì)應(yīng)的Rectified Linear Units層,處于中間的層級(jí)多采用3×3或者5×5尺寸的卷積核,兩端則多為1×1卷積核,使得與使用任何卷積核的神經(jīng)層都可以直接相連,保持整體良好的融合特征。
最后,卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),也成為影響其工作效率和效果的重要因素。一個(gè)比較典型的做法,是首先對(duì)輸入的圖像展開一個(gè)大卷積核神經(jīng)層加工,確保訓(xùn)練時(shí)間得到控制的同時(shí)有效降低錯(cuò)誤率。并且可以考慮以全連接型的神經(jīng)網(wǎng)絡(luò)和Softmax回歸作為算法結(jié)構(gòu)的結(jié)尾,輸出概率最高的幾個(gè)處理結(jié)果,便于衡量算法準(zhǔn)確率。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的應(yīng)用而言,一方面需要深入分析該種算法的內(nèi)在特征,另一個(gè)方面則需要關(guān)注不同類別不同環(huán)境中產(chǎn)生的圖像本身的特征,必要的情況下綜合其他算法作為輔助,提升卷積神經(jīng)網(wǎng)絡(luò)識(shí)別的整體效果。
[1] Alex Krizhevsky,Ilya Sutskever, Geoff Hinton.Imagenet classification with deep con-volutional neural networks[J]. Advances in Neural Information Processing Systems 25,2012:1106-1114.
[2] DH Hubel,TN Wiesel.Receptive fields,binocular interaction,and functional architecture in the cat's visual cortex[J].Journal of Physiology(London),1962,160:106-154.
[3] K.Fukushima,Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202.