陶震宇 孫素芬 羅長壽
摘要:為實(shí)現(xiàn)花生害蟲圖像的準(zhǔn)確分類,共收集花生主要害蟲圖片2 038張,針對目前在基于Faster-RCNN的圖像識別領(lǐng)域較為成熟的VGG-16和ResNet-50這2種網(wǎng)絡(luò)模型進(jìn)行對比研究,并針對ResNet-50模型參數(shù)進(jìn)行調(diào)整,提出了基于學(xué)習(xí)率、訓(xùn)練集和測試集以及驗(yàn)證集的比例選擇、迭代次數(shù)等參數(shù)改進(jìn)的ResNet-50卷積神經(jīng)網(wǎng)絡(luò)的模型。結(jié)果表明:該模型可以準(zhǔn)確高效地提取出花生主要害蟲的多層特征圖像,在平均識別率上,經(jīng)過改進(jìn)的 ResNet-50 網(wǎng)絡(luò)模型在識別花生害蟲圖像上優(yōu)于ResNet-50原始網(wǎng)絡(luò)模型。該模型可以準(zhǔn)確地分類花生主要害蟲圖像,可在常規(guī)情況下實(shí)現(xiàn)花生害蟲的圖像識別。
關(guān)鍵詞:Faster-RCNN;ResNet-50模型;花生害蟲;圖像識別
中圖分類號:TP391.41 ??文獻(xiàn)標(biāo)志碼: A ?文章編號:1002-1302(2019)12-0247-03
我國作為世界上傳統(tǒng)的農(nóng)業(yè)大國,農(nóng)業(yè)的發(fā)展情況對我國的經(jīng)濟(jì)發(fā)展具有深遠(yuǎn)的影響。花生在自然生長過程中很容易受到害蟲的侵害和感染,近年來由于氣候變化、環(huán)境污染等因素的影響,花生的蟲害呈現(xiàn)出增長的趨勢,而我國主要的害蟲圖像識別方法主要還是依靠傳統(tǒng)識別方法,效率較低,因而將在人臉識別等領(lǐng)域較為先進(jìn)的計算機(jī)圖像識別技術(shù)引入農(nóng)業(yè)領(lǐng)域迫在眉睫。
近年來,深度學(xué)習(xí)在圖像識別領(lǐng)域發(fā)展迅猛,通過建立和模擬人腦的神經(jīng)系統(tǒng)來解釋圖像中的各個特征數(shù)據(jù),能夠挖掘出圖像中所需檢測目標(biāo)的深層次特征,這種數(shù)據(jù)特征對于識別目標(biāo)的分類具有更好的表征能力,這樣就避免了傳統(tǒng)圖像識別方法的缺陷,更精確地識別目標(biāo)圖像。因而本研究引入當(dāng)前深度學(xué)習(xí)中的Faster-RCNN目標(biāo)檢測技術(shù)來進(jìn)行花生害蟲圖像識別。
1 Faster-RCNN
Faster-R-CNN主要由2個部分組成,一是PRN候選框提取,二是Fast R-CNN檢測。其中,RPN是全卷積神經(jīng)網(wǎng)絡(luò),作用是提取目標(biāo)區(qū)域候選建議框;Fast R-CNN基于RPN提取的建議區(qū)域檢測并識別建議區(qū)域中的目標(biāo)。Faster R-CNN采用通過RPN生成的區(qū)域,然后再接上Fast R-CNN形成了一個完全的首尾相連的卷積神經(jīng)網(wǎng)絡(luò)對象檢測模型,RPN與后面的探測網(wǎng)絡(luò)一起共享全圖像卷積特征。
1.1 RPN候選框提取
為了生成建議區(qū)域,RPN在預(yù)訓(xùn)練的網(wǎng)絡(luò)模型生成的特征圖上滑動1個小網(wǎng)絡(luò),這個網(wǎng)絡(luò)把特征圖上的1個n×n窗口的特征作為輸入,對于每個窗口,以窗口的中心點(diǎn)作為基準(zhǔn),通過不同的對象映射到原圖從而得到一個個建議區(qū)域,之后通過對這些建議區(qū)域進(jìn)行softmax分類與邊框回歸的學(xué)習(xí),從而輸出調(diào)優(yōu)后的建議區(qū)域分?jǐn)?shù)。
1.2 Fast R-CNN目標(biāo)檢測
在目標(biāo)檢測模塊中,RPN和Fast R-CNN的特征通過13個卷積層形成共享,首先通過向CNN網(wǎng)絡(luò)輸入任意帶下的圖片,經(jīng)過CNN網(wǎng)絡(luò)前后傳播至最后的共享卷積層,一方面得到由RPN網(wǎng)絡(luò)輸入的特征圖片,另外一方面向前傳播至特定的卷積層,產(chǎn)生更高維度的特征圖。由RPN網(wǎng)絡(luò)輸入的特征圖通過RPN網(wǎng)絡(luò)得到區(qū)域建議和區(qū)域得分,并將其得分區(qū)域建議提供至RoI池化層,最后通過全連接層后,輸出其該區(qū)域的得分以及回歸后的邊框回歸。
2 試驗(yàn)樣本集的生成和網(wǎng)絡(luò)模型的對比
2.1 花生蟲害圖像獲取
本研究通過查找農(nóng)業(yè)蟲害害蟲數(shù)據(jù)庫、實(shí)地拍攝、網(wǎng)絡(luò)查找等方法采集花生主要害蟲圖片共計2 038張,分別為東亞飛蝗223張、螻蛄229張、葉蟬223張、粉虱221張、金龜甲228張、薊馬224張、蚜蟲220張、白色蠐螬225張、甜菜夜蛾245張,用于花生主要害蟲圖像識別的訓(xùn)練和測試。害蟲圖像如圖1所示。
2.2 模型原理及對比
2.2.1 VGG-16 VGG(Visual Geometry Group)是2014年牛津大學(xué)科學(xué)工程系所創(chuàng)立的,該系發(fā)布了一系列以VGG開頭的卷積網(wǎng)絡(luò)模型,可以應(yīng)用在人臉識別、圖像分類等方面。VGG-16卷積網(wǎng)絡(luò)全稱為GG-Very-Deep-16 CNN,VGG在加深網(wǎng)絡(luò)層數(shù)的同時為了避免參數(shù)過多,在所有層都采用3×3的小卷積核,卷積層步長被設(shè)置為1。VGG的輸入被設(shè)置為224×244大小的RGB圖像,在訓(xùn)練集圖像上對所有圖像計算RGB均值,將圖像作為輸入傳入VGG卷積網(wǎng)絡(luò),使用3×3或者1×1的濾波器,卷積步長固定為1。卷積特征圖針對所有的圖片信息進(jìn)行了編碼,同時保持相對于原始圖片所編碼的位置信息不變(圖2)。
2.2.2 ResNet-50 ResNet由微軟研究院的何凱明等4名
華人提出,通過使用殘差單元成功訓(xùn)練152層深的神經(jīng)網(wǎng)絡(luò),在ILSVRC 2015比賽中獲得了冠軍,取得3.57%的top5錯誤率,同時參數(shù)量卻比VGGNet低,效果非常突出[1]。ResNet-50的結(jié)構(gòu)可以極快地加速超深神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,模型的準(zhǔn)確率也有非常大的提升。由圖3、圖4可知,ResNet-50是每隔2層或3層進(jìn)行的相加求下一步的輸入,這是與VGG-16網(wǎng)絡(luò)不同的,VGG-16主要是直接進(jìn)行卷積,送入到下一層,同時每一層的核大小都是固定的。ResNet-50里面也采用了每一層的核大小都是固定的原則,ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計遵循2種設(shè)計規(guī)則:一是對于相同的輸出特征圖尺寸,每一層具有相同數(shù)量的濾波器;二是如果特征圖大小減半,則濾波器的數(shù)量加倍,以便保持每一層的時間復(fù)雜度[2]。
2.3 網(wǎng)絡(luò)模型對比試驗(yàn)結(jié)果與分析
本研究通過對VGG-16網(wǎng)絡(luò)模型和ResNet-50網(wǎng)絡(luò)模型針對花生主要害蟲圖像樣本集識別率上的表現(xiàn),選出合適的網(wǎng)絡(luò)模型進(jìn)行模型的參數(shù)優(yōu)化。針對2個網(wǎng)絡(luò)模型采用相同的配置對花生主要害蟲圖像的驗(yàn)證集進(jìn)行識別,結(jié)果表明,ResNet-50網(wǎng)絡(luò)模型針對本研究的花生主要害蟲圖像識別結(jié)果優(yōu)于VGG-16網(wǎng)絡(luò)模型(表1、表2),因此本研究將針對ResNet-50網(wǎng)絡(luò)模型進(jìn)行參數(shù)優(yōu)化以提高識別精確度。
3 ResNet-50網(wǎng)絡(luò)模型參數(shù)優(yōu)化
3.1 學(xué)習(xí)率
在訓(xùn)練中,首先針對學(xué)習(xí)率進(jìn)行修改,并針對不同學(xué)習(xí)率條件下的模型訓(xùn)練,通過進(jìn)行學(xué)習(xí)率的修改,針對不同學(xué)習(xí)率下的ResNet-50模型進(jìn)行識別結(jié)果的對比。針對相同環(huán)境下的ResNet-50模型進(jìn)行學(xué)習(xí)率的調(diào)整,并分別對驗(yàn)證集和測試集進(jìn)行識別結(jié)果的測試。驗(yàn)證集和測試集的識別結(jié)果(表3、表4)表明,當(dāng)學(xué)習(xí)率為0.001 0時,害蟲圖像識別結(jié)果最優(yōu)。
3.2 訓(xùn)練集、測試集以及驗(yàn)證集的比例選擇
一般來說測試集和驗(yàn)證集各占總樣本的5%~15%,因而本研究將對測試集和驗(yàn)證集各占總樣本的5%、10%以及15%作為研究對象。在其他條件不變的前提下,設(shè)置學(xué)習(xí)率為0.001 0時,3種方式的平均識別率如表5所示。
由表5可知,當(dāng)測試集和驗(yàn)證集所占總樣本比例為10%時,害蟲圖片識別結(jié)果最優(yōu)。
3.3 迭代次數(shù)
迭代次數(shù)的計算公式為:迭代次數(shù)=(圖片數(shù)量×2×訓(xùn)練次數(shù))/batch_size。為了研究識別精確度隨著迭代次數(shù)逐漸增加的函數(shù)曲線圖,本研究將訓(xùn)練次數(shù)作為更改對象,研究迭代次數(shù)對整體識別率的影響。在其他條件相同的情況下,訓(xùn)練次數(shù)與驗(yàn)證集和測試集圖像識別率的關(guān)系分別如圖5、圖6所示。
由圖5、圖6可知,在不浪費(fèi)訓(xùn)練資源的前提下,當(dāng)訓(xùn)練次數(shù)為10時即迭代次數(shù)為37 060次,害蟲圖像識別精確度最高。
通過以上3個方面參數(shù)的調(diào)試,最終將ResNet-50模型的學(xué)習(xí)率改為0.001 0、測試集和樣本集所占樣本比例改為10%以及迭代次數(shù)改為37 060次。
3 結(jié)論
針對當(dāng)前害蟲圖像樣本數(shù)據(jù)庫中樣本較少的情況下,根據(jù)研究需求,通過網(wǎng)頁收集、實(shí)地拍攝等方式收集了 2 038 張圖片,并標(biāo)記了其中1 853張圖片,共涉及東亞飛蝗、螻蛄、粉虱、金龜甲、蚜蟲、甜菜夜蛾、薊馬、白色蠐螬、葉蟬9類害蟲。
研究針對ResNet-50網(wǎng)絡(luò)模型進(jìn)行參數(shù)優(yōu)化,針對優(yōu)化參數(shù)后的ResNet-50網(wǎng)絡(luò)模型進(jìn)行識別,識別結(jié)果相對于ResNet-50網(wǎng)絡(luò)模型在測試集和驗(yàn)證集中得到了明顯的提升。結(jié)果表明使用優(yōu)化參數(shù)之后的ResNet-50網(wǎng)絡(luò)模型可以提升訓(xùn)練后的識別效果,該模型在花生害蟲圖像識別領(lǐng)域具有較高的識別水平,在農(nóng)業(yè)害蟲圖像識別領(lǐng)域也具有一定的參考價值。
參考文獻(xiàn):
[1]齊 恒. 基于深度哈希學(xué)習(xí)算法的移動視覺檢索系統(tǒng)設(shè)計與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2018.
[2]梁曉旭. 基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類算法研究[D]. 西安:西安電子科技大學(xué),2018.陸岱鵬,陶建平,王 玨,等. 基于Venturi效應(yīng)的兩相流霧化噴嘴設(shè)計與性能試驗(yàn)[J]. 江蘇農(nóng)業(yè)科學(xué),2019,47(12):250-255.