左 羽,徐文博+,吳 戀
(1.貴州師范學(xué)院 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,貴州 貴陽(yáng) 550018; 2.貴州師范學(xué)院 大數(shù)據(jù)科學(xué)與智能工程研究院,貴州 貴陽(yáng) 550018)
研究基于深度學(xué)習(xí)的植物識(shí)別方法能夠幫助人們更容易地認(rèn)識(shí)植物,具有重要的研究和應(yīng)用意義。在植物識(shí)別的研究中,因?yàn)橹参锶~片所包含的形態(tài)學(xué)信息最為豐富,所以計(jì)算機(jī)視覺(jué)領(lǐng)域常常針對(duì)樹(shù)葉來(lái)設(shè)計(jì)特征描述子。最為人所熟知的是基于統(tǒng)計(jì)學(xué)的形狀上下文SC(shape context)描述方法,這個(gè)方法被譚亮[1]運(yùn)用匹配檢索的方式來(lái)識(shí)別植物。李龍龍等基于改進(jìn)型sobel算子[2]提出一種描述葉片特征的算子,用這個(gè)算子提取特征數(shù)據(jù)庫(kù)中圖片特征形成特征池,通過(guò)對(duì)比待預(yù)測(cè)葉片圖像特征與庫(kù)中特征的相似程度來(lái)進(jìn)行識(shí)別分類。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,學(xué)者們利用卷積神經(jīng)網(wǎng)絡(luò)CNN(convolution neural network)來(lái)提取葉片形狀和葉脈[3],花瓣顏色形狀[4,5]這些局部形態(tài)學(xué)特征,并據(jù)此來(lái)區(qū)分植物種類,取得了比手工特征更好的效果[6]。
本文根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)模型特點(diǎn)[7],結(jié)合植物識(shí)別的特殊要求和網(wǎng)絡(luò)優(yōu)化方法,從緩解梯度彌散問(wèn)題[8,9]、提高特征利用率、減少參數(shù)和特征融合的角度考慮,從整體輪廓和局部紋理細(xì)節(jié)分別提取特征后融合,提出融合式雙特征卷積神經(jīng)網(wǎng)絡(luò)來(lái)解決單一網(wǎng)絡(luò)的特征提取限制,提升在植物分類任務(wù)中的識(shí)別準(zhǔn)確率。
植物圖像的識(shí)別相比于一般物體識(shí)別更具挑戰(zhàn)性,一般物體的識(shí)別,特別是不同大類之間物體在形狀、顏色、結(jié)構(gòu)上都存在著較大差異,經(jīng)典的神經(jīng)網(wǎng)絡(luò)(ResNet[10]、GoogleNet[11,12]等)可以較為理想地區(qū)分開(kāi)這些物體。對(duì)于植物而言,植物的種類眾多,有成千上萬(wàn)的屬種,類內(nèi)間形態(tài)特征往往相似程度高(如同科植物),這給分類帶來(lái)了巨大挑戰(zhàn)。隨著需要識(shí)別的植物種類增多,低維淺層特征并不能給分類器提供足夠的信息用于分類,并且圖像中的場(chǎng)景往往會(huì)帶來(lái)干擾。另外,同一種植物在不同的季節(jié)、地域和生長(zhǎng)環(huán)境中會(huì)呈現(xiàn)不同的形態(tài),這樣便要求網(wǎng)絡(luò)模型能夠提取足夠豐富的特征,不僅表達(dá)出圖像中植物的外形輪廓信息,而且也需要表達(dá)出細(xì)節(jié)紋理信息,體現(xiàn)出更強(qiáng)的泛化能力。
更深的網(wǎng)絡(luò)可以更清晰泛化圖像特征,ResNet的殘差結(jié)構(gòu)能夠很好的讓網(wǎng)絡(luò)加深的同時(shí)又能夠緩解梯度彌散的問(wèn)題使得網(wǎng)絡(luò)易于訓(xùn)練收斂。在基礎(chǔ)的殘差模塊中,每個(gè)殘差模塊都包含兩條路徑,其中一條路徑是傳統(tǒng)CNN中輸入特征的直連通路,該路徑接收上層傳來(lái)的特征圖進(jìn)行后續(xù)卷積操作;另一條路徑則不對(duì)輸入的特征做任何操作,通過(guò)直連將特征直接送入指定的高層,最后再將兩條路徑上的特征相加。這樣的連接方式可以直接將低層的特征跨層傳到高層,成功解決梯度問(wèn)題,讓網(wǎng)絡(luò)可以做得更深。但由于每層的feature map數(shù)過(guò)多,部分神經(jīng)元并沒(méi)有得到激活,也即是網(wǎng)絡(luò)參數(shù)的利用率不高,從而影響計(jì)算效率,因此改進(jìn)的殘差模塊中引進(jìn)了1×1卷積。利用1×1卷積在不改變特征圖尺寸的前提下先將輸入的特征圖通道數(shù)減少,然后再用減少通道后的特征進(jìn)行卷積,卷積的結(jié)果通過(guò)1×1卷積核恢復(fù)到原有的通道數(shù),這樣便減少了殘差網(wǎng)絡(luò)的參數(shù)和計(jì)算復(fù)雜度。
但是,ResNet中的殘差連接位置是人為設(shè)計(jì)的,這便使得有效特征的利用產(chǎn)生了隨機(jī)性,這是因?yàn)闊o(wú)法確定在不同的任務(wù)中具體哪一層的特征傳到后面指定的高層后會(huì)對(duì)特征提取產(chǎn)生積極作用。為解決這樣的隨機(jī)性,使用如圖1的密集殘差卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),明確區(qū)分添加到網(wǎng)絡(luò)的信息和保留的信息,充分利用每一個(gè)卷積層得到的feature map來(lái)抽象更豐富特征,這樣有利于提高模型在植物識(shí)別中的識(shí)別率。
圖1 密集殘差結(jié)構(gòu)
在一個(gè)擁有L層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)中,每一層實(shí)現(xiàn)一個(gè)非線性變化Hl(),下標(biāo)l表示層數(shù)索引。非線性變化Hl()由歸一化層(BN)、激活層(ReLU)、池化層或卷積層(Conv)組成。規(guī)定第l層的輸出為xl。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中第l-1層的輸出作為第l層的輸入,即xl=Hl(xl-1)。在ResNet中通過(guò)式(1)特征函數(shù)增加了一個(gè)跨層連接,這樣做的一個(gè)優(yōu)點(diǎn)是梯度可以直接通過(guò)特征函數(shù)從后面的高層流向低層。然而,這樣的短連接并不能充分利用前層提取到的特征,簡(jiǎn)單相加的組合方式還可能阻礙網(wǎng)絡(luò)中的信息流傳遞
xl= H (xl-1) +xl-1
(1)
為了提升特征利用率和信息流在網(wǎng)絡(luò)層間的傳遞,本文采用一種更高效的連接方式:每一層通過(guò)直連的方式將所有低層的信息接入。圖1詮釋了這個(gè)密集連接結(jié)構(gòu),第l層接收來(lái)自所有低層的feature map,即式(2)
xl= Hl([x0,x1,…,xl-1])
(2)
式中:[x0,x1,…,xl-1]分別代表0到l-1層輸出的feature map,實(shí)現(xiàn)上通過(guò)concatenate操作把所有特征拼接在一起,每層的輸出都會(huì)緊跟著一組由Batch Normalization歸一化(BN)、激活函數(shù)ReLU和3×3卷積組成的操作,這樣的多層結(jié)構(gòu)便形成一個(gè)用于特征提取的密集殘差單元。這樣的結(jié)構(gòu)有利于提取植物葉脈紋理和花瓣紋理等細(xì)粒度細(xì)節(jié)特征。
識(shí)別一種植物的種類,植物學(xué)家常常從宏觀的形態(tài)學(xué)特征出發(fā),初步判斷所屬大類后,再結(jié)合具體器官(如葉片、花、果實(shí)等)上的微觀細(xì)節(jié)紋理特征,才能夠較為準(zhǔn)確分辨一種植物。所以,一個(gè)優(yōu)秀的植物特征提取方法需要同時(shí)考慮宏觀和微觀上特征。
上節(jié)介紹用密集的殘差結(jié)構(gòu)能夠很好地提取植物微觀上的細(xì)節(jié)紋理特征,但同時(shí)我們又希望能夠通過(guò)較為宏觀的整體形態(tài)特征區(qū)分所屬的大類,兼顧兩種特征的優(yōu)勢(shì)提高識(shí)別效率。本文提出一種名為融合式雙特征卷積神經(jīng)網(wǎng)絡(luò)(HDF-CNN)的端到端結(jié)構(gòu),HDF-CNN集成了一個(gè)用于提取宏觀形態(tài)特征的卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)描述微觀植物器官紋理的密集殘差網(wǎng)絡(luò),最后通過(guò)將兩個(gè)不同維度提取到的特征進(jìn)行融合,得到一個(gè)全面的植物特征。
如圖2所示,HDF-CNN由4個(gè)部分組成:共享層、微觀層、宏觀層、分類層,其中C代表卷積層,P代表池化層,R代表密集殘差單元,F(xiàn)表示全連接層。共享層由兩組卷積池化操作組成,目的是先將圖片統(tǒng)一的轉(zhuǎn)換成特征矩陣,統(tǒng)一的底層特征矩陣更有利于高層的特征信息提取。另一方面,共享的卷積層能夠成倍降低網(wǎng)絡(luò)訓(xùn)練參數(shù)。網(wǎng)絡(luò)的輸入圖像為224×224像素的彩色圖像,共享層和分類層卷積使用3×3卷積核,步長(zhǎng)stride為1,池化層為2×2的平均池化,stride為2。3個(gè)全連接層依次是4096,4096,1000個(gè)通道數(shù),最后分類使用Softmax層。
圖2 融合式雙特征神經(jīng)網(wǎng)絡(luò)
為了從不同的維度同時(shí)提取出宏觀的植物形態(tài)特征和微觀的植物器官紋理特征,分別針對(duì)兩類特征設(shè)計(jì)了宏觀層和微觀層兩個(gè)子網(wǎng)絡(luò)。植物圖片通過(guò)共享層卷積后得到的基礎(chǔ)特征圖feature map分別送到宏觀層和微觀層進(jìn)一步提取兩種分化特征,最后宏微觀兩種特征融合并在分類層進(jìn)行最后的分類。
合約規(guī)劃是目標(biāo)成本實(shí)現(xiàn)的第一步。在建設(shè)工程項(xiàng)目確定目標(biāo)成本后,就需要按照分解的目標(biāo)成本進(jìn)行合約規(guī)劃。合約規(guī)劃不能簡(jiǎn)單地理解為只服務(wù)于成本管理,其還應(yīng)服務(wù)于整個(gè)項(xiàng)目管理,即服務(wù)于招標(biāo)、采購(gòu)、施工、銷售及運(yùn)維等。合約的規(guī)劃要綜合考慮以下因素。
(1)宏觀層。宏觀層的設(shè)計(jì)主要用于提取植物的形態(tài)輪廓特征,盡可能得到植物外形上的特征信息,對(duì)于細(xì)微的紋理特征可以忽略。宏觀層子網(wǎng)絡(luò)是一個(gè)11層的淺層卷積神經(jīng)網(wǎng)絡(luò),同時(shí)在卷積核的選擇上使用到較大的5×5和7×7卷積核,目的是增大感受野,獲取更全局的整體特征(大的卷積核在卷積植物圖像時(shí)能更多兼顧區(qū)分開(kāi)植物本體輪廓和周?chē)h(huán)境背景),這將利于識(shí)別沒(méi)有明顯局部特征的針葉植物。11層的小網(wǎng)絡(luò)不僅足以泛化植物形狀特征,而且也緩解了大卷積核帶來(lái)的參數(shù)增加問(wèn)題。
(2)微觀層。微觀層需要提取如葉片葉脈、花瓣紋理這樣的植物器官細(xì)粒度特征,而這些細(xì)節(jié)特征適合使用密集的殘差結(jié)構(gòu)來(lái)獲得。表1是微觀層的密集殘差卷積子網(wǎng)絡(luò)結(jié)構(gòu),它是一個(gè)擁有4個(gè)不同深度密集殘差單元的密集殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每一個(gè)密集殘差單元都可以提取豐富的特征,處于中間的殘差單元擁有更多卷積層以便更豐富的特征提取,而靠后的殘差單元?jiǎng)t不需過(guò)多的卷積操作,用較少的卷積層來(lái)抽象前面?zhèn)鬟f的特征即可。需要注意的是,在表1中每一個(gè)Conv都等價(jià)的表示為BN-ReLU-Conv的組合,即一個(gè)歸一化層Batch Normalization后面跟隨一個(gè)激活函數(shù)Rectified Linear Unit(ReLU)之后再做對(duì)應(yīng)尺寸的卷積。在每個(gè)殘差單元之間用1×1卷積和2×2的池化操作作為連接的過(guò)渡層,過(guò)渡層在整個(gè)網(wǎng)絡(luò)中起著下采樣和連接不同尺寸feature map殘差單元的作用。微觀層網(wǎng)絡(luò)分4個(gè)階段提取圖像特征,得到細(xì)節(jié)特征后送入分類層。
表1 微觀層密集殘差卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
與其它網(wǎng)絡(luò)追求更深更寬不同,微觀層的密集殘差卷積神經(jīng)網(wǎng)絡(luò)擁有更窄的網(wǎng)絡(luò)特性。如果每層網(wǎng)絡(luò)通過(guò)函數(shù)Hl()輸出k個(gè)feature map,那么第l層就會(huì)有k0+k×(l-1)個(gè)feature map,其中k0是輸入層的通道數(shù)。在實(shí)現(xiàn)中,通過(guò)把k值設(shè)置的比較小(k=12)從而減小網(wǎng)絡(luò)寬度,也就意味著網(wǎng)絡(luò)參數(shù)得到大量減少,并且在后面的實(shí)驗(yàn)中很驚喜的能獲得不錯(cuò)的效果。對(duì)此的一個(gè)解釋是,盡管來(lái)自上一層的feature map數(shù)量少了,但每一層都可以訪問(wèn)其殘差單元中的所有前面的特征映射,因此可以訪問(wèn)網(wǎng)絡(luò)的“集體知識(shí)”。可以將feature map視為網(wǎng)絡(luò)的全局的一部分,每層都將自己的k個(gè)特征映射添加到全局中去,k值規(guī)定了每層對(duì)全局貢獻(xiàn)的新信息量。各層的信息一旦被加入全局,就可以從網(wǎng)絡(luò)中的任何地方訪問(wèn),而不需要像在傳統(tǒng)網(wǎng)絡(luò)體系結(jié)構(gòu)中那樣一層一層地復(fù)制或像ResNet那樣人為設(shè)計(jì)不確定的殘差插入路徑,因此提取的特征就更加飽滿,語(yǔ)義信息更豐富,細(xì)節(jié)也就更多。
盡管通過(guò)限制每層產(chǎn)生的feature map數(shù)k,但由于較大的網(wǎng)絡(luò)深度,還是存在總體參數(shù)量過(guò)大的情況。因此,在網(wǎng)絡(luò)的設(shè)計(jì)中參考ResNet的瓶頸層(bottleneck layers)在3×3卷積前加入1×1的卷積來(lái)降低輸入的feature map通道數(shù)從而提高計(jì)算效率。
在深度學(xué)習(xí)的卷積網(wǎng)絡(luò)設(shè)計(jì)中,往往更深更復(fù)雜的網(wǎng)絡(luò)能夠取得更好的效果和精度,但盲目堆砌卷積層和增加復(fù)雜度所帶來(lái)性能上微弱的提升并不適合在實(shí)際任務(wù)中的應(yīng)用。因此HDF-CNN在宏觀層選取了較小的簡(jiǎn)單網(wǎng)絡(luò),用最少的參數(shù)換取最合適的輪廓信息;微觀層的設(shè)計(jì)也是在保證復(fù)雜網(wǎng)絡(luò)特征提取性能的前提下中盡量減少參數(shù),提升參數(shù)利用率;通過(guò)共享層共享相同結(jié)構(gòu)的底層參數(shù)達(dá)到參數(shù)減半的效果。
為了盡可能提升HDF-CNN的識(shí)別準(zhǔn)確率,訓(xùn)練時(shí)要讓兩個(gè)子網(wǎng)絡(luò)分別把特征提取的特性放在宏觀外形特征和微觀植物器官紋理上,因此采用一個(gè)創(chuàng)新的分步訓(xùn)練策略:
(1)微觀層訓(xùn)練。HDF-CNN是一個(gè)并行的雙通道卷積神經(jīng)網(wǎng)絡(luò)方案,兩個(gè)子網(wǎng)絡(luò)分別有不同的特征提取偏重,其中微觀層側(cè)重于提取植物器官的紋理特征。在訓(xùn)練的第一階段,讓共享層和微觀層一起訓(xùn)練,令宏觀層的學(xué)習(xí)率learning rate=0,選取訓(xùn)練集中葉片、花、果實(shí)、莖、果實(shí)、掃描圖這樣的植物器官和紋理特征明顯的圖像,這樣訓(xùn)練出來(lái)的參數(shù)更利于提取微觀細(xì)節(jié)紋理特征。運(yùn)用植物器官的圖像來(lái)一起訓(xùn)練共享層參數(shù)是因?yàn)槲挥诘图?jí)特征的共享層擁有和微觀層相似的卷積核,更適合在植物器官標(biāo)簽的圖像上訓(xùn)練而不是大一級(jí)的植物屬種分類標(biāo)簽,這樣訓(xùn)練出來(lái)的共享層參數(shù)也更利于兩個(gè)目標(biāo)類的建模。
(2)宏觀層訓(xùn)練。宏觀層的作用是提取植物形態(tài)輪廓特征,有利于在擁有復(fù)雜背景的圖片中找到識(shí)別植物主體。訓(xùn)練的第二階段只訓(xùn)練宏觀層,且為了讓宏觀層和微觀層的享有共同基礎(chǔ)特征,固定第一階段后共享層的權(quán)重。同樣將微觀層的學(xué)習(xí)率learning rate設(shè)為0,并且選擇訓(xùn)練樣本中具有復(fù)雜背景、非掃描圖、植物整體圖這類的訓(xùn)練圖像。這樣針對(duì)性的樣本能使宏觀層的網(wǎng)絡(luò)更專注于提取輪廓特征,而不去關(guān)注更多的細(xì)節(jié)紋理特征。
實(shí)驗(yàn)平臺(tái)基于Ubuntu16.04操作系統(tǒng),Caffe深度學(xué)習(xí)框架,GPU為NVIDIA GTX TITAN Xp,CUDA版本為8.0。
實(shí)驗(yàn)數(shù)據(jù)集采用了LifeCLEF 2016項(xiàng)目[13]中的部分植物圖像數(shù)據(jù),再加上自行收集擴(kuò)充的常見(jiàn)中國(guó)植物圖片數(shù)據(jù)組成。圖片包含葉片、花朵、果實(shí)、樹(shù)枝等器官圖片的328類植物圖像,其中又擁有不同比例的掃描圖(圖3第一列)、類掃描圖(圖3第二列)、自然背景圖(圖3第三、第四列)。在這個(gè)數(shù)據(jù)集中共用31 973張圖片,每種植物有來(lái)自不同采集者貢獻(xiàn)的來(lái)自不同地區(qū)、不同季節(jié)的多角度圖片,為了驗(yàn)證算法的魯棒性和實(shí)用性,數(shù)據(jù)集中的數(shù)據(jù)沒(méi)有經(jīng)過(guò)任何去噪預(yù)處理。
圖3 實(shí)驗(yàn)數(shù)據(jù)集樣圖
數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩個(gè)部分,從中隨機(jī)挑選了近1/4共8000張圖像作為測(cè)試集。為了通過(guò)數(shù)據(jù)增廣來(lái)提升效果,還將訓(xùn)練集中的圖像分別縮放到256、384和512的尺寸,同時(shí)也進(jìn)行了鏡像增廣。本文中所使用和設(shè)計(jì)的網(wǎng)絡(luò)數(shù)據(jù)輸入圖像大小都為224×224,輸入圖像都隨機(jī)剪裁到了224×224的分辨率。
在測(cè)試準(zhǔn)確率中,實(shí)驗(yàn)分別就葉片、花瓣、果實(shí)、植物整體、植物的莖5個(gè)大類進(jìn)行分組實(shí)驗(yàn),在對(duì)比方法中選取了深度學(xué)習(xí)中具有代表性的網(wǎng)絡(luò),包含經(jīng)典的AlexNet和VGG-16,以及運(yùn)用到殘差的ResNet和DenseNet[14]。
表2是各種方法在5類植物器官上的識(shí)別準(zhǔn)確率,其中HDF-CNN(DA)表示做了植物圖像數(shù)據(jù)增廣[15]后訓(xùn)練得到的HDF-CNN。從總體上看,花瓣和葉片的識(shí)別率明顯高于其它植物器官,因?yàn)檫@類的植物器官特征最為豐富、明顯,更易于區(qū)分。相對(duì)的,植物的莖并沒(méi)有差異性明顯的代表特征,從而各類方法的識(shí)別率都較低,融合特征方案也沒(méi)有取得識(shí)別率的明顯提升。
表2 分類識(shí)別準(zhǔn)確率
從方法上看,運(yùn)用了殘差的深層神經(jīng)網(wǎng)絡(luò)整體上好于單純的卷積網(wǎng)絡(luò),尤其是在葉片、花瓣和果實(shí)這樣類間特征差異明顯的器官數(shù)據(jù)上,這也驗(yàn)證了殘差在提取微觀紋理特征上的優(yōu)勢(shì)。而在植物整體圖和植物的莖的識(shí)別表現(xiàn)上,殘差結(jié)構(gòu)并沒(méi)有體現(xiàn)出太大的優(yōu)勢(shì),甚至結(jié)構(gòu)最為復(fù)雜的DenseNet的植物的莖的識(shí)別率還低于最簡(jiǎn)單的AlexNet。因?yàn)檫@些器官的外形特征在沒(méi)有特殊機(jī)制引入的前提下,任何網(wǎng)絡(luò)模型能夠提取到的有效特征是有限的,而這些特征用較為基礎(chǔ)的卷積網(wǎng)絡(luò)就足夠提取到,反應(yīng)到識(shí)別準(zhǔn)確率上就出現(xiàn)了復(fù)雜網(wǎng)絡(luò)準(zhǔn)確率低于簡(jiǎn)單網(wǎng)絡(luò)的隨機(jī)現(xiàn)象。
本文提出的是一個(gè)融合深度復(fù)雜網(wǎng)絡(luò)和基礎(chǔ)網(wǎng)絡(luò)的方案,識(shí)別效果除了大大高于基礎(chǔ)的AlexNet和VGG之外,通過(guò)與ResNet和DenseNet兩組殘差類方法實(shí)驗(yàn)數(shù)據(jù)的對(duì)比,能看出宏觀特征的加入對(duì)于最終的特征表達(dá)性有很大的貢獻(xiàn),使得識(shí)別率比效果最好的單一網(wǎng)絡(luò)DenseNet的識(shí)別率高出2%-4%左右。特別是在植物整體圖像這一項(xiàng),整棵植物的圖像不像花瓣和葉片那樣容易提取細(xì)微的紋理,需要更多的依靠整體形態(tài)的描述。宏觀特征的融合彌補(bǔ)了深層殘差網(wǎng)絡(luò)對(duì)整體特征描述的不足,使得識(shí)別率得到大幅度的提升。同樣顯而易見(jiàn)的是,多尺度縮放的數(shù)據(jù)增廣也大大提升了HDF-CNN的識(shí)別表現(xiàn)。
為了更直觀分析本文特征融合方案在植物特征提取上的優(yōu)勢(shì),我們通過(guò)反卷積的方法將微觀層、宏觀層和分類層中最后3次的激活特征進(jìn)行子采樣得到特征圖輸出,如圖4所示。很明顯可以看到,微觀層和宏觀層的特征圖輸出呈現(xiàn)一個(gè)截然不同的風(fēng)格。微觀層的特征輸出圖4(b)中,特征的描述主要集中在測(cè)試圖片中植物主體上;而在宏觀層的特征輸出圖4(c)中,測(cè)試圖片植物周邊背景部位的特征激活度更高。從這里可以得出,微觀層復(fù)雜的殘差網(wǎng)絡(luò)提取出的特征主要是描述植物主體的細(xì)節(jié)紋理特征,而宏觀層的低維網(wǎng)絡(luò)提取出的特征則偏向于體現(xiàn)整張圖片中物體的分布情況,屬于顏色、邊緣等基本特征。
經(jīng)過(guò)特征融合后,在分類層的輸出特征圖4(d)中能看到,得益于特征融合的策略,圖4(d)中的植物特征邊緣相對(duì)圖4(b)、圖4(c)更加清晰、明了,激活的特征像素密度更大、更集中,這樣的特征相對(duì)單一網(wǎng)絡(luò)中提取的特征更能準(zhǔn)確定位植物主體,更細(xì)致描述植物的微觀紋理特征。
圖4 反卷積可視化特征
通過(guò)直觀分析可視化后各層的特征圖可以得出,單一的卷積神經(jīng)網(wǎng)絡(luò)所提取的特征往往側(cè)重于某一方面的表達(dá),本文提出的HDF-CNN特征融合方案通過(guò)融合宏微觀特征,綜合了兩種特征的特點(diǎn),得到的融合特征描述植物輪廓更加精準(zhǔn),并且提供了更加豐富的植物紋理特征,這使得最后的分類識(shí)別準(zhǔn)確率更高。
為了探究最適合植物識(shí)別任務(wù)的特征融合方案,將本文的HDF-CNN與另外兩個(gè)融合方案進(jìn)行對(duì)比實(shí)驗(yàn)。Alex+Alex的方案是將兩個(gè)AlexNet按照本文的融合框架進(jìn)行整合,代表運(yùn)用兩個(gè)較為簡(jiǎn)單的基礎(chǔ)網(wǎng)絡(luò)融合方案。Dense+Dense的方案則是融合了兩個(gè)DenseNet,結(jié)構(gòu)最復(fù)雜,參數(shù)量也最多。數(shù)據(jù)集合訓(xùn)練方法不變,為探究融合方案性能,不引入任何的數(shù)據(jù)增廣。
從表3的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,采用融合框架之后都能提升原本單一卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率,相較表2中單通道、雙通道方案的識(shí)別準(zhǔn)確率都有不同程度的提升,其中AlexNet的雙通道方案葉片識(shí)別準(zhǔn)確率相較單通道提升了4.7%。雙通道并行的提取特征在某種程度上來(lái)說(shuō)也是間接加深了網(wǎng)絡(luò)的深度和可用參數(shù)量級(jí),使得能夠表達(dá)的語(yǔ)義信息更豐富。值得注意的是,在葉片和花瓣的識(shí)別中,Dense+Dense的方案取得了最好的成績(jī),識(shí)別準(zhǔn)確率分別為76.7%和86.1%。這也直接驗(yàn)證,深層網(wǎng)絡(luò)對(duì)于紋理類的微觀細(xì)節(jié)特征的提取更具有優(yōu)勢(shì)。在整體和果實(shí)兩項(xiàng)數(shù)據(jù)中,仍然是HDF-CNN取得最佳成績(jī),分別高出復(fù)雜的Dense+Dense方案1.9和0.8個(gè)百分點(diǎn)。因?yàn)檫@兩類宏觀的特征利用直接的網(wǎng)絡(luò)堆疊并不能取得如期的效果提升,反而需要從宏觀和微觀兩個(gè)不同維度去融合才能得到更準(zhǔn)確的特征信息。結(jié)合實(shí)驗(yàn)結(jié)果,盡管Dense+Dense在特定指標(biāo)上取得最高的準(zhǔn)確率,但與之對(duì)應(yīng)的是參數(shù)量的大幅增加。在實(shí)際運(yùn)用中葉片和花瓣的識(shí)別只占其中一部分,相較于1%左右的特定任務(wù)準(zhǔn)確率優(yōu)勢(shì),綜合模型性能和易用度,HDF-CNN更適合于植物識(shí)別任務(wù)。
表3 融合方案識(shí)別準(zhǔn)確率
在本文中,研究了植物識(shí)別的一般規(guī)律,總結(jié)出從宏觀到微觀的特征提取方案,提出了并行式方法:融合式雙特征神經(jīng)網(wǎng)絡(luò)HDF-CNN。該網(wǎng)絡(luò)使用一個(gè)大卷積核的CNN來(lái)抽象植物圖像的整體形態(tài)特征,用一個(gè)密集殘差卷積網(wǎng)絡(luò)來(lái)提取植物器官的紋理特征,將兩個(gè)特征融合后來(lái)描述一個(gè)植物,通過(guò)針對(duì)性的分步訓(xùn)練,使得網(wǎng)絡(luò)能夠?qū)⒅参锾卣鞅磉_(dá)得更加全面,更適用于植物識(shí)別的任務(wù)。