湯鵬杰,譚云蘭,李金忠,譚 彬
?
基于雙流混合變換CNN特征的圖像分類與識別
*湯鵬杰1,譚云蘭2,李金忠2,譚 彬2
(1.井岡山大學(xué)數(shù)理學(xué)院,江西,吉安 343009;2.井岡山大學(xué)電子與信息工程學(xué)院,江西,吉安 343009)
具有表達(dá)能力及可辨別性更強(qiáng)的特征是圖像分類與識別技術(shù)的關(guān)鍵。深度CNN特征經(jīng)過多次中間非線性變換,特征魯棒性更強(qiáng),在圖像分類與識別領(lǐng)域已取得重大進(jìn)展。但傳統(tǒng)的CNN模型只增加變換層次,下層變換依賴于上層輸出結(jié)果,因此其中間特征冗余度較低,最終得到的特征向量信息豐富程度不夠。本文提出一種基于雙流混合變換的CNN模型——DTM-CNN 。該模型首先使用不同大小的感受野卷積核提取圖像不同的中間特征,然后在多次深度變換時(shí),對中間特征進(jìn)行混合流動(dòng),經(jīng)過多次混合變換,最終得到1024維的特征向量,并使用Softmax回歸函數(shù)對其分類。實(shí)驗(yàn)結(jié)果表明,該模型經(jīng)過多次卷積、池化及激活變換,提取的特征更加抽象、語義及結(jié)構(gòu)信息更加豐富,對圖像具有更強(qiáng)的表達(dá)能力及辨別性,因此圖像分類及識別性能優(yōu)越。
圖像分類;識別;雙流混合;CNN
基于內(nèi)容的圖像分類與識別技術(shù)是計(jì)算機(jī)視覺領(lǐng)域的核心技術(shù),在圖像檢索、目標(biāo)檢測及視頻理解分析等方面有著重要應(yīng)用。以往經(jīng)典的做法是首先提取圖像的特征,然后對特征進(jìn)行編碼,得到能夠表達(dá)圖像的特征向量,最后使用分類器對特征向量進(jìn)行分類。在整個(gè)過程中,表達(dá)圖像的特征向量是提高分類與識別精度的關(guān)鍵。傳統(tǒng)的方法是根據(jù)圖像的顏色、紋理及形狀信息等手工設(shè)計(jì)特征,如根據(jù)顏色信息而設(shè)計(jì)的顏色直方圖特征、根據(jù)紋理信息而設(shè)計(jì)的LBP(Local Binary Pattern,局部二值模式)特征[1]、基于梯度信息而設(shè)計(jì)的HOG(Histogram of Oriented Gradient,梯度方向直方圖)特征[2]和SIFT(Scale Invariant Feature Transform,尺度不變特征變換)特征[3]等?;谶@些特征的圖像分類與識別方法在取得巨大成功的同時(shí),也存在著很多缺點(diǎn),如特征表達(dá)能力不強(qiáng),圖像中物體的結(jié)構(gòu)信息及語義信息丟失等問題; BoW/BoF(Bag of Words/Bag of Features,詞袋)模型[4]和FV(Fisher Vector)編碼方法[5]通過對特征進(jìn)行聚類,提高了特征的表達(dá)能力;基于BoW/BoF而設(shè)計(jì)的SPM(Spatial Pyramid Match,空間金字塔匹配)技術(shù)[6]將不同分辨率下的特征向量組合在一起,對解決圖像結(jié)構(gòu)信息丟失問題效果顯著。從視覺技術(shù)發(fā)展的過程來看,對于圖像內(nèi)容和特征的非線性變換越來越復(fù)雜,變換層次越來越多;而隨著深度的不斷增加,其分類和識別效果也越來越好。同時(shí),視覺生理學(xué)也證明,人腦是一個(gè)高度復(fù)雜的深度變換系統(tǒng),低層特征經(jīng)過一系列非線性變換被編碼成高層特征,從低層到高層其特征表達(dá)越來越抽象,結(jié)構(gòu)和語義信息越來越豐富。但傳統(tǒng)的手工特征由于其使用的低層特征較為單一,提取特征的粒度較粗,甚至方法存在先天缺陷,導(dǎo)致難以真正對其進(jìn)行深度變換和編碼,編碼后的特征表達(dá)能力有限。
基于CNN(Convolution Neural Network,卷積神經(jīng)網(wǎng)絡(luò))技術(shù)的圖像分類與識別模型由于其從原始圖像直接提取特征,中間經(jīng)過多次卷積、池化(降采樣)及非線性變換操作,擬合了一個(gè)參數(shù)規(guī)模巨大且高度復(fù)雜的非線性函數(shù),完整的模擬了人眼視覺發(fā)現(xiàn)的原理,其提取的特征包含了豐富的結(jié)構(gòu)和語義信息,表達(dá)能力強(qiáng),性能優(yōu)越,在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明,其性能遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的方法。鑒于CNN強(qiáng)大的表現(xiàn)能力,其已經(jīng)成為當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)和主流技術(shù)之一。本文在當(dāng)前Alex-Net[7]和ZFCNN[8]模型基礎(chǔ)上,提出了一種DTM-CNN網(wǎng)絡(luò)模型(Deep Two stream Mixed CNN features,深度雙流混合CNN特征),通過模擬人眼視覺發(fā)現(xiàn)的視神經(jīng)交叉原理,使用兩條不同的深度變換流,提取更為豐富的圖像特征信息;同時(shí)通過減少頂層全連接的神經(jīng)元個(gè)數(shù),控制網(wǎng)絡(luò)規(guī)模,與同類其他主流模型相比,其神經(jīng)元個(gè)數(shù)更少,運(yùn)算復(fù)雜度更低。實(shí)驗(yàn)證明,該模型對于圖像分類與識別效果顯著,明顯超過了當(dāng)前其他幾個(gè)常用模型。
自Mcculloch和Pitts提出神經(jīng)元的數(shù)學(xué)模型以來,已經(jīng)出現(xiàn)了眾多的ANN(Artificial Neural Network,人工神經(jīng)網(wǎng)絡(luò))模型,其中BP(Back Propagation,反向傳播)網(wǎng)絡(luò)以其堅(jiān)實(shí)的理論基礎(chǔ)和優(yōu)越的性能已經(jīng)成為ANN的主流模型。但BP網(wǎng)絡(luò)也存在著梯度彌散的致命缺陷[9],若網(wǎng)絡(luò)中存在多個(gè)隱層,當(dāng)誤差反向傳播到輸入層時(shí),其誤差能量已經(jīng)變得極其微弱,難以起到調(diào)整網(wǎng)絡(luò)權(quán)值和偏置的作用。由于構(gòu)建網(wǎng)絡(luò)復(fù)雜,沒有統(tǒng)一的模型設(shè)計(jì)規(guī)則,也使得眾多研究人員對ANN持懷疑態(tài)度,使得ANN技術(shù)發(fā)展一度陷入瓶頸。LeCun等人在90年代提出了基于CNN的LeNet5模型[10],用于識別圖片中的手寫字體;它通過對圖像進(jìn)行兩次卷積和池化操作提取圖像特征,使用Softmax回歸函數(shù)對特征進(jìn)行分類識別,其識別精度達(dá)到了商用級別。但由于當(dāng)時(shí)硬件計(jì)算性能限制,其更深層次的特征變換沒能實(shí)現(xiàn)。Hinton于2006年提出了深度學(xué)習(xí)的概念,并設(shè)計(jì)了DBN(Deep Belief Network,深度信念網(wǎng)絡(luò))模型[11-12],通過堆疊多個(gè)RBM(Restricted Boltzmann Machine,限制玻爾茲曼機(jī)),并使用逐層訓(xùn)練的方法,使得對于特征的深度變換成為現(xiàn)實(shí)。但RBM訓(xùn)練復(fù)雜,運(yùn)算復(fù)雜度高,對于大規(guī)模的圖像數(shù)據(jù)分類與識別任務(wù)難以在常規(guī)硬件條件下完成。Krizhevsky和Hinton等人結(jié)合深度學(xué)習(xí)思想和CNN技術(shù),設(shè)計(jì)了Alex-Net深度模型[7],它使用了5個(gè)卷積層、3個(gè)池化層和兩個(gè)全連接層構(gòu)建整個(gè)網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)和參數(shù)規(guī)模分別達(dá)到了0.66 M和62 M;在Imagenet2012數(shù)據(jù)集上,通過使用兩塊GPU進(jìn)行并行訓(xùn)練,其得到的模型在測試集上使得Top5的正確率達(dá)到84.7%,超過當(dāng)時(shí)性能最好的SIFT+FV模型10%以上。Krizhevsky 和Hinton的工作使人們意識到了基于CNN的深度模型在計(jì)算機(jī)視覺領(lǐng)域的巨大潛力。Zeiler等人通過對使用Alex-Net模型提取的各層特征進(jìn)行可視化,發(fā)現(xiàn)該模型中的第一個(gè)卷積層沒有對圖像的原始信息提取完全,使得后續(xù)的卷積操作所得到的特征存在先天表達(dá)能力不足的缺陷;他們通過對Alex-Net的底層卷積層進(jìn)行修改,得到了ZFCNN網(wǎng)絡(luò)模型[8],在Imagenet數(shù)據(jù)集上的實(shí)驗(yàn)證明,該模型使得分類精度得到了小部分提升。但由于減小了底層卷積核的大小和步長,使得ZFCNN的神經(jīng)元個(gè)數(shù)比Alex-Net增加了一倍以上。為了進(jìn)一步提高分類精度,Simonyan和Zisserman等人設(shè)計(jì)了VGG16和VGG19超深度模型[13],其卷積層分別達(dá)到了13層和16層,其中VGG19在Imagenet測試集上Top5的分類精度達(dá)到了93.2%;但該模型的神經(jīng)元及參數(shù)規(guī)模非常巨大,在VGG19中其分別達(dá)到了14.8M和144M。相比來說,Szegedy C等人設(shè)計(jì)的GoogLeNet模型雖然層數(shù)更多,但由于其控制了每個(gè)卷積層的卷積核大小及特征圖個(gè)數(shù),神經(jīng)元及參數(shù)個(gè)數(shù)更少,且其分類性能比VGG19更優(yōu)。在小圖像識別中,Lin等人提出了NIN(Network In Network,網(wǎng)中網(wǎng))模型[14],它在每次池化之前經(jīng)過多次卷積,盡量提取更豐富的圖像特征,且每次卷積時(shí),保證特征圖的大小不變;在Cifar10和Cifar100數(shù)據(jù)集上,NIN模型分類識別精度分別達(dá)到了92%和64.3%。但這種在池化之前連續(xù)多次卷積的方法與每次卷積時(shí)增加特征圖的個(gè)數(shù)是等價(jià)的,導(dǎo)致網(wǎng)絡(luò)中神經(jīng)元個(gè)數(shù)在600 K以上,是相同配置下Alex-Net模型的2倍以上。
綜合以上各種深度模型可以發(fā)現(xiàn),為了提取更加抽象的特征,各模型層次越來越多,神經(jīng)元個(gè)數(shù)越來越多,而每個(gè)神經(jīng)元?jiǎng)t是由一次卷積運(yùn)算而得到,因此,其模型運(yùn)算復(fù)雜度越來越高。本文所提出DTM-CNN在Alex-Net和ZFCNN的基礎(chǔ)上,在提取兩條深度CNN特征的過程中,在每次卷積運(yùn)算和池化之后,對提取的臨時(shí)特征進(jìn)行混合交叉,混合后的特征作為下一次卷積運(yùn)算和池化的輸入。該模型在CalTech101[15]、CalTech256[16]和Scene15[17]三個(gè)數(shù)據(jù)集上,其分類識別性能顯著,尤其是在CalTech101和CalTech256上,其性能明顯超越當(dāng)前其他幾個(gè)同類主流模型。
2.1 問題描述與模型設(shè)計(jì)
在CNN中,通過設(shè)計(jì)卷積核(權(quán)值矩陣)來模擬人眼中局部感受野;對于一張圖像在一次卷積運(yùn)算時(shí)其使用同一個(gè)卷積核,通過這種權(quán)值共享的方式減少連接和參數(shù)個(gè)數(shù)。由于每個(gè)卷積核只能提取圖像的某一類特征,因此為了得到更多的圖像信息,需要在一個(gè)卷積層中同時(shí)設(shè)計(jì)多個(gè)卷積核,最終生成多張?zhí)卣鲌D;然后使用非線性函數(shù)對特征圖中的信息進(jìn)行激活和抑制,增強(qiáng)特征圖中信息的對比度;為了進(jìn)一步減少神經(jīng)元和參數(shù)個(gè)數(shù),同時(shí)也為了提取特征圖中更具代表性的信息,需要設(shè)計(jì)池化核對各特征圖使用均值池化或最大值池化操作進(jìn)行降采樣。經(jīng)過多次“卷積—激活—池化”操作,得到能夠描述整張圖像的特征向量。整個(gè)網(wǎng)絡(luò)模型使用有監(jiān)督的學(xué)習(xí)機(jī)制,在訓(xùn)練時(shí),通過前向操作提取圖像特征,通過對誤差進(jìn)行反向傳播對卷積核和池化核及其偏置進(jìn)行更新,以更好的擬合訓(xùn)練集數(shù)據(jù)。
如圖1所示, DTM-CNN模型中,對于一張圖像,使用Stream A和Stream B兩個(gè)變換流提取圖像的深度特征。在Stream A中,其配置和Alex-Net完全相同,Stream B中,其第一個(gè)卷積層的卷積核由11×11變?yōu)?×7,其步長保持不變,這樣能夠使卷積后得到的特征圖大小相同,便于下一步的池化和特征混合操作,同時(shí)由于Stream B中使用的卷積核更小,因此能夠提取更加豐富的特征;經(jīng)過一次池化操作之后,將兩組臨時(shí)特征進(jìn)行交叉混合,并作為下一個(gè)卷積層的輸入;同理,在每次卷積運(yùn)算和池化之后,都對生成的臨時(shí)特征進(jìn)行交叉混合,但在兩個(gè)變換流的最后一個(gè)池化層,取消兩個(gè)流的臨時(shí)特征混合,分別直接連接到一個(gè)全連接層;在兩個(gè)流的兩個(gè)全連接層之間再次分別交叉混合,并輸入到各自的下一個(gè)全連接層中;在Stream A和Stream B之后,將得到的兩組特征進(jìn)行組合連接,送入頂層全連接層中,最終得到一個(gè)1024維的特征向量,并將其作為分類的依據(jù)。在分類時(shí),仍然使用Softmax回歸函數(shù),對每個(gè)特征計(jì)算其屬于某一類的置信度,其置信度最大的特征向量對應(yīng)其屬于某類圖像的標(biāo)簽。為了控制參數(shù)規(guī)模,模型將兩個(gè)變換流中的每個(gè)全連接層神經(jīng)元個(gè)數(shù)由原來的4096變?yōu)?048。模型各層中的參數(shù)配置如表1所示。
表1 DTM-CNN模型各層配置參數(shù)
圖1 DTM-CNN模型
2.2 模型原理與分析
整個(gè)網(wǎng)絡(luò)模型可形式化定義為:
(1)式中,W為權(quán)值矩陣,為偏置,為輸入向量,為樣本類別標(biāo)簽,為非線性變換函數(shù)(激活函數(shù)),需要特別指出的是,是經(jīng)由上一層變換函數(shù)所得到;整個(gè)網(wǎng)絡(luò)的前向計(jì)算屬于逐次迭代過程,每次迭代需要經(jīng)過一次或多次卷積、池化和歸一化操作。
網(wǎng)絡(luò)模型的目標(biāo)函數(shù)可描述為以下(2)式:
(2)式中,為最后一個(gè)全連接層中神經(jīng)元個(gè)數(shù),為損失(誤差)函數(shù),(k)為第個(gè)神經(jīng)元的輸入,(k)為第個(gè)神經(jīng)元的輸出;對于頂層連接層的某個(gè)神經(jīng)元來說,使用如下(3)式表示其損失函數(shù)。
式(3)中為懲罰因子,為網(wǎng)絡(luò)總層數(shù),s為其中一條變換流中網(wǎng)絡(luò)的第神經(jīng)元個(gè)數(shù)層,t為第+1層神經(jīng)元個(gè)數(shù)。整個(gè)網(wǎng)絡(luò)模型的目標(biāo)是調(diào)整W和,使得達(dá)到最小或收斂,一般使用BP算法進(jìn)行誤差修正;z為第個(gè)神經(jīng)元經(jīng)過函數(shù)變換的輸出,z是對應(yīng)標(biāo)簽。函數(shù)采用ReLU(Rectified Linear Unit,線性修正單元),其函數(shù)形式如(4)式所示:
其中在不同的操作中,形式有所不同,在全連接層,的形式為:
與函數(shù)和函數(shù)相比,ReLU具有運(yùn)算復(fù)雜度低、收斂速度快的優(yōu)點(diǎn),同時(shí)能夠使變換后的數(shù)據(jù)具有更好的稀疏性。在大規(guī)模圖像分類與識別中,為加速收斂過程,優(yōu)化時(shí)一般使用隨機(jī)梯度下降算法對權(quán)值和偏置進(jìn)行更新。其更新公式可使用簡單的鏈?zhǔn)角髮?dǎo)法則,如(6)式所示(式中為學(xué)習(xí)率):
由于是多層網(wǎng)絡(luò),應(yīng)對各卷積層的權(quán)值矩陣及偏置進(jìn)行迭代優(yōu)化;在前向傳播時(shí),其卷積層運(yùn)算如(7)式所示:
(7)式中,x為該層卷積核所對應(yīng)大小的特征圖塊,M為所選的第張?zhí)卣鲌D,k為該卷積層第特征圖所對應(yīng)卷積核,b為該特征圖的偏置。經(jīng)過卷積的特征圖在池化時(shí)一般不做激活。
對誤差進(jìn)行逐層反向傳播時(shí),為防止梯度彌散,需要保證各層中的誤差之和保持一致。若池化層的上一層為卷積層,且池化時(shí)使用最大值池化,則應(yīng)首先對該池化層進(jìn)行反池化操作,讀取池化層中相應(yīng)位置數(shù)據(jù)在卷積層的對應(yīng)位置,然后將對應(yīng)求導(dǎo)后的激活輸出與之做點(diǎn)積求和,卷積層中其他相應(yīng)位置置為0;求得卷積層誤差矩陣之后,將其求和并與乘性偏置()相乘,即得到偏置的更新項(xiàng);在求取卷積核矩陣的更新項(xiàng)時(shí),首先將卷積誤差矩陣與與本池化層神經(jīng)元相連的卷積特征圖進(jìn)行點(diǎn)積求和,再將其與相乘。其形式化描述如(8)式所示[18]:
(8)式中為本層特征圖中神經(jīng)節(jié)點(diǎn)所在位置,p為上層特征圖與本層卷積核相對應(yīng)大小的塊,為誤差矩陣,其形式化定義為:
上述(9)式中,(.)為反池化操作,若池化層核大小為2×2,池化步長為2,()=1,其誤差矩陣計(jì)算過程如圖2所示(‘●’為點(diǎn)積運(yùn)算符,‘*’為卷積運(yùn)算符)。
圖2 卷積層誤差矩陣計(jì)算過程
設(shè)計(jì)CNN網(wǎng)絡(luò)模型,通常要考慮整個(gè)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)及參數(shù)規(guī)模,神經(jīng)元個(gè)數(shù)決定了模型的時(shí)間復(fù)雜度,同時(shí)對存儲空間也有一定影響,參數(shù)規(guī)模反映了模型的空間復(fù)雜度和訓(xùn)練出來的模型大小,因此,在保證足夠深度的情況下,應(yīng)盡量減少神經(jīng)元個(gè)數(shù)及參數(shù)規(guī)模。各層神經(jīng)元個(gè)數(shù)主要由輸出特征圖個(gè)數(shù)及其大小所決定,而卷積核大小及卷積步長則決定了特征圖的大小,若要控制神經(jīng)元個(gè)數(shù),則應(yīng)該增大卷積核的大小及步長,但過大的卷積核及步長會(huì)使得提取的圖像信息過于粗糙,不利于下層卷積的特征提取,因此,需要在神經(jīng)元個(gè)數(shù)與信息提取粒度之間做平衡。參數(shù)規(guī)模則是由輸入特征圖個(gè)數(shù),輸出特征圖個(gè)數(shù)、卷積核及池化核大小所共同決定,但各層特征圖個(gè)數(shù)則決定了信息提取的豐富程度,因此在控制參數(shù)規(guī)模時(shí),也應(yīng)綜合考慮各參數(shù)之間的平衡。表2比較了DTM-CNN及當(dāng)前其他幾個(gè)同類模型的神經(jīng)元個(gè)數(shù)及參數(shù)。
表2 各深度模型神經(jīng)元個(gè)數(shù)及參數(shù)規(guī)模
從表2中可以看出,在控制神經(jīng)元個(gè)數(shù)方面,由于DTM-CNN模型采用基于Alex-Net模型的卷積核大小和步長,但又采用了雙流變換的結(jié)構(gòu),因此,其神經(jīng)元個(gè)數(shù)是Alex-Net的兩倍,但均少于其他幾個(gè)模型,僅是VGG19模型的8.9%;而在控制參數(shù)規(guī)模時(shí),目前則GoogLeNet模型做的最好,整個(gè)模型參數(shù)僅為6.8 M左右,其訓(xùn)練出來的模型大小約為55 M,DTM-CNN模型大小約為其4倍。
3.1 實(shí)驗(yàn)設(shè)置
為檢驗(yàn)?zāi)P托Ч?,我們采用了CalTech256、CalTech101和Scene15三個(gè)數(shù)據(jù)集對其進(jìn)行實(shí)驗(yàn)驗(yàn)證,同時(shí)在相同實(shí)驗(yàn)配置下,對其他幾個(gè)模型上做對比實(shí)驗(yàn)。在CalTech256數(shù)據(jù)集上,我們在每類中隨機(jī)選取60張圖像作為訓(xùn)練數(shù)據(jù),數(shù)據(jù)集中剩余其他圖像作為測試數(shù)據(jù);在CalTech101數(shù)據(jù)集上,從每類中隨機(jī)選取30張圖像作為訓(xùn)練數(shù)據(jù),剩余其他圖像作為測試數(shù)據(jù);在Scene15數(shù)據(jù)集上,從每類圖像中隨機(jī)選取100張圖像進(jìn)行訓(xùn)練,其他圖像作為測試數(shù)據(jù)。實(shí)驗(yàn)時(shí),首先對圖像進(jìn)行預(yù)處理,所有圖像分辨率均縮放至256×256,然后使用數(shù)據(jù)擴(kuò)增(Data_augment)技術(shù)擴(kuò)展訓(xùn)練集,同時(shí)對圖像進(jìn)行減均值處理;在對模型進(jìn)行初始化時(shí),使用高斯隨機(jī)數(shù)對卷積核矩陣進(jìn)行填充,其標(biāo)準(zhǔn)差設(shè)置為0.1;初始化偏置值為0.1。整個(gè)實(shí)驗(yàn)?zāi)P驮贑affe平臺[19]上部署,并使用GPU加速訓(xùn)練過程;模型其他訓(xùn)練參數(shù)如表3所示。
表3 模型訓(xùn)練參數(shù)設(shè)置
在對Scene15數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),由于數(shù)據(jù)集樣本較少,其Dropout ratio設(shè)置為0.9,釋放全連接層中更多的權(quán)值連接,減少訓(xùn)練中對參數(shù)的調(diào)整次數(shù),防止過擬合現(xiàn)象的發(fā)生;其他數(shù)據(jù)集中,其值設(shè)置為0.5;在訓(xùn)練完畢之后,對得到的模型進(jìn)行微調(diào),微調(diào)迭代次數(shù)設(shè)置為20萬次,在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明,經(jīng)過微調(diào)的模型其性能能夠提升1%左右。
3.2 實(shí)驗(yàn)結(jié)果及分析
我們在三個(gè)數(shù)據(jù)集上分別測試了Alex-Net、GoogLeNet及DTM-CNN三個(gè)模型,而ZFCNN由于模型神經(jīng)元及參數(shù)規(guī)模巨大,硬件要求較高,未做測試,其結(jié)果由文獻(xiàn)[8]所提供。在CalTech256數(shù)據(jù)集上,DTM-CNN模型的分類及識別錯(cuò)誤率(Top1)比GoogLeNet模型降低了近2%,比Alex-Net模型降低了近10%;在CalTech101數(shù)據(jù)集上,DTM-CNN模型性能(Top1)比GoogLeNet提升了近10%,同時(shí)也遠(yuǎn)遠(yuǎn)超過Alex-Net與ZFCNN模型;但在Scene15數(shù)據(jù)集上,DTM-CNN模型性能與其他兩個(gè)模型相比,其提升并不明顯,在Top1上與GoogLeNet模型幾乎持平。這是因?yàn)镾cene15數(shù)據(jù)集樣本較少,其訓(xùn)練集中樣本總量僅為1.5K,不足以擬合模型中的大量參數(shù),極易發(fā)生過擬合現(xiàn)象,而GoogLeNet模型參數(shù)較少,因此其表現(xiàn)更為優(yōu)。但在運(yùn)算復(fù)雜度上,DTM-CNN模型僅為GoogLeNet模型的1/4左右,因此,其訓(xùn)練及收斂速度更快。
表4 各深度模型在CalTech256數(shù)據(jù)集上的錯(cuò)誤率
表5 各深度模型在CalTech101數(shù)據(jù)集上的錯(cuò)誤率
表6 各深度模型在Scene15數(shù)據(jù)集上的錯(cuò)誤率
深度學(xué)習(xí)技術(shù)已在語音識別、圖像分類、目標(biāo)檢測等領(lǐng)域取得巨大成功,其針對各種應(yīng)用所開發(fā)的深度模型性能遠(yuǎn)遠(yuǎn)超過了傳統(tǒng)方法;基于CNN的深度學(xué)習(xí)技術(shù)以其優(yōu)越的性能表現(xiàn)已經(jīng)成為深度學(xué)習(xí)的研究主流。本文在Alex-Net模型基礎(chǔ)上,提出并設(shè)計(jì)了一種DTM-CNN模型。該模型通過兩條CNN變換流提取圖像的不同特征,并在特征傳遞時(shí),對其交叉混合,最終得到的特征向量維度更低,可辨別性更強(qiáng)。實(shí)驗(yàn)證明,該模型與其他幾個(gè)同類模型相比,運(yùn)算復(fù)雜度更低,性能更優(yōu)。同時(shí),雙流變換混合的思路也為在不同應(yīng)用中設(shè)計(jì)深度模型時(shí)提供了一條新的思路。
深度模型一般參數(shù)規(guī)模巨大,在沒有足夠訓(xùn)練數(shù)據(jù)的情況下,容易發(fā)生過擬合現(xiàn)象。本文所設(shè)計(jì)的DTM-CNN模型參數(shù)較多,但深度變換層次較少,其特征表達(dá)能力有限,雖然在CalTech256和CalTech101兩個(gè)數(shù)據(jù)集上性能表現(xiàn)優(yōu)越,但還沒有在超大規(guī)模數(shù)據(jù)集(如Imagenet)上進(jìn)行驗(yàn)證。因此,本課題的下一步工作將從兩個(gè)方面進(jìn)行,首先是在大規(guī)模數(shù)據(jù)集上驗(yàn)證模型性能,其次是對模型進(jìn)行深度擴(kuò)展,增強(qiáng)模型特征的抽象及表達(dá)能力。
致謝:感謝同濟(jì)大學(xué)計(jì)算機(jī)系MIC實(shí)驗(yàn)室的王瀚漓老師和肖波、左凌軒等同學(xué),他們提供的實(shí)驗(yàn)設(shè)備及諸多建設(shè)性建議使得模型設(shè)計(jì)和實(shí)驗(yàn)?zāi)軌蝽樌M(jìn)行。
[1] Ojala T, Pietikainen M, Harwood D. A comparative study of texture measures with classification based on feature distributions[C]. Pattern Recognition. 1996:51- 59.
[2] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2005:886-893.
[3] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[4] Grauman K, Darrell T. The Pyramid Match Kernel: Discriminative Classification with Sets of Image Features[C]. Proceedings of IEEE Computer Society, 2005:1458-1465.
[5] Perronnin F, Sánchez J, Mensink T. Improving the Fisher Kernel for Large-Scale Image Classification[J]. Lecture Notes in Computer Science, 2010, 6314:143-156.
[6] Lazebnik S. et al. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR), 2006:2169-2178.
[7] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. Advances in Neural Information Processing Systems(NIPS), 2012:2012.
[8] Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[J]. Lecture Notes in Computer Science, 2014:818-833.
[9] Schmidhuber J. Deep Learning in Neural Networks: An Overview[J]. Neural Networks the Official Journal of the International Neural Network Society, 2014, 61:85–117.
[10] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[C]. Proceedings of the IEEE, 1998, 86(11):2278 - 2324.
[11] Hinton G E. Salakhutdinov. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
[12] Hinton G E, Osindero S. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7):1527 - 1554.
[13] Simonyan K, Zisserman A, Simonyan K, et al. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Eprint Arxiv, 2014.
[14] Min L, Qiang C, Shuicheng Y. Network In Network[C]//International Conference on Learning Representation(ICLR), 2014.
[15] Griffin G, Holub A, Perona P. Caltech-256 Object Category Dataset[J]. California Institute of Technology, 2007.
[16] Fei-Fei L, Fergus R, Perona P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories[J]. Computer Vision & Image Understanding, 2007, 106(1):178.
[17] Fei-Fei L, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[C]. Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) - Volume 2 - Volume 02. IEEE Computer Society, 2005:524-531.
[18] Bouvrie J. Notes on Convolutional Neural Networks[J]. Neural Nets, 2006.
[19] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014.
IMAGE CLASSIFICATION AND RECOGNITION BASED ON DEEP TWO STREAM MIXED CNN FEATURES
*TANG Peng-jie1, TAN Yun-lan2, LI Jin-zhong2, TAN bin2
(1. School of Mathematics and Physics, Jinggangshan University,Ji’an,Jiangxi 343009,China;2. School of Electronics and Information Engineering, Jinggangshan University, Ji’an, Jiangxi 343009, China)
It is very important for image classification and recognition that the feature is more discriminative and has power representation ability. The deep CNN feature is more robust than other features because of its more non-linear transformation, and great breakthrough has obtained in the field of image classification and recognition based on the CNN. However, in the traditional CNN model, there just increase the transformation layers, and the posterior layer relies on the prior layer. As a result, the intermediate feature has low redundancy, and there is no enough information in the feature. In this paper, we propose a novel CNN model based on two stream and mixed transform. In this model, the intermediate feature is extracted via using different convolution kernels firstly. And then, the mixed feature is generated and flows forward when the deep transform is executed. Finally, we get a 1024D feature vector and classify it with the Softmax regression function. The experiment demonstrates that the feature extracted by the model is more abstract and has richer structural and semantic information via convolution, pooling and activation transformation repeatedly. And so, it has better performance for classification and recognition than other same models.
image classification; recognition; two stream mixed transformation; CNN
1674-8085(2015)05-0053-07
TP391.4
A
10.3969/j.issn.1674-8085.2015.05.011
2015-05-13;修改日期:2015-07-14
江西省教育廳科技計(jì)劃項(xiàng)目(GJJ14561);井岡山大學(xué)科研基金項(xiàng)目(JZ14012)
*湯鵬杰(1983-),男,河南鄲城人,講師,博士生,主要研究領(lǐng)域?yàn)槎嗝襟w智能計(jì)算(E-mail:5tangpengjie@#edu.cn);
譚云蘭(1972-),女,江西新干人,副教授,博士生,主要研究領(lǐng)域?yàn)閳D像處理、虛擬現(xiàn)實(shí)(E-mail: tanyunlan@163.com.);
李金忠(1976-),男,江西吉水人,副教授,博士生,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)、機(jī)器學(xué)習(xí)等(E-mail:leezhong2005@126.com);
譚 彬(1982-),女,湖南常寧人,講師,博士生,主要研究領(lǐng)域?yàn)闊o線編碼、機(jī)器學(xué)習(xí)等(E-mail:jatanbin@163.com).