李艷紅 樊同科
摘要:為了實(shí)現(xiàn)復(fù)雜農(nóng)田背景下的病蟲害識(shí)別,提出了一種基于深度殘差學(xué)習(xí)的多特征多粒度農(nóng)業(yè)病蟲害識(shí)別方法。結(jié)果表明,與傳統(tǒng)SVM和BP神經(jīng)網(wǎng)絡(luò)相比,該算法在復(fù)雜農(nóng)田背景下的病蟲害圖像識(shí)別精度明顯提高。在復(fù)雜農(nóng)田背景下10種作物病蟲害圖像的分類問(wèn)題上取得了98.67%的精度。該算法具有很高的實(shí)際應(yīng)用價(jià)值,可以與當(dāng)前使用的農(nóng)業(yè)聯(lián)網(wǎng)系統(tǒng)集成到實(shí)際的農(nóng)業(yè)病蟲害防治中。
關(guān)鍵詞:深度殘差;多特征多粒度;農(nóng)業(yè)病蟲害;識(shí)別
中圖分類號(hào):TP391.4; S435 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2020) 16-0153-05
DOI: 10.14088/j.cnki.issn0439-8114.2020.16.035
農(nóng)業(yè)病蟲害對(duì)農(nóng)作物的生長(zhǎng)和農(nóng)產(chǎn)品的儲(chǔ)藏構(gòu)成了嚴(yán)重威脅。單純依靠低速、低效的人工識(shí)別無(wú)法滿足實(shí)際需要,并且會(huì)造成較高的人工成本。近年來(lái),農(nóng)業(yè)信息化發(fā)展迅速,通過(guò)高清相機(jī)可以更方便地在農(nóng)田中獲取農(nóng)業(yè)病蟲害圖像。基于計(jì)算機(jī)視覺的圖像識(shí)別技術(shù)能夠有效降低識(shí)別成本,識(shí)別速度和效率都有明顯提高。與樣本照片相比,從農(nóng)田獲得的實(shí)際圖像往往具有較高的背景噪聲。若不進(jìn)行特征預(yù)處理,傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法如SVM和BP神經(jīng)網(wǎng)絡(luò)不能達(dá)到令人滿意的準(zhǔn)確率。農(nóng)田環(huán)境復(fù)雜,很難選擇出適合所有病蟲害的一般特征。近兩年來(lái),深度學(xué)習(xí)技術(shù)發(fā)展迅速,深卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)已應(yīng)用于圖像識(shí)別領(lǐng)域,如街景識(shí)別、車輛檢測(cè)、人體運(yùn)動(dòng)識(shí)別、音視頻識(shí)別,均取得了很好的效果1-3]。CNN具有自動(dòng)提取圖像特征的能力,因此可作為一般特征提取工具應(yīng)用于農(nóng)田環(huán)境中的農(nóng)業(yè)病蟲害識(shí)別。為了防止深層神經(jīng)網(wǎng)絡(luò)的退化,提高深層卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練質(zhì)量,有必要采用深層殘差學(xué)習(xí)。因此,在研究深度卷積網(wǎng)絡(luò)的基礎(chǔ)上,提出利用深度殘差的多特征多粒度技術(shù),建立一個(gè)復(fù)雜背景下的農(nóng)田病蟲害圖像識(shí)別系統(tǒng)。該系統(tǒng)具有較強(qiáng)的魯棒性,能夠識(shí)別出具有同化色素的病蟲害,并能進(jìn)行端到端的訓(xùn)練,更適合于農(nóng)業(yè)生產(chǎn)。
1相關(guān)研究
近年來(lái),基于計(jì)算機(jī)視覺的農(nóng)業(yè)病蟲害識(shí)別研究一直是熱點(diǎn)冋題,許多病蟲害識(shí)別系統(tǒng)被提出。Larios等[4]提出了一種基于SIFT的特征學(xué)習(xí)方法,并構(gòu)造了特征直方圖對(duì)石蠅幼蟲圖像進(jìn)行分類。Zhao等[5]研究了基于粗糙集和模糊C-Means聚類的甘蔗棉蚜病蟲害圖像識(shí)別。Zhao等[6]通過(guò)分析昆蟲翅膀的顏色直方圖和灰度共生矩陣,建立了昆蟲自動(dòng)分類系統(tǒng)。Faithpraise等[7]提出了一種基于k-Means聚類和對(duì)應(yīng)濾波器的植物病蟲害識(shí)別系統(tǒng)。Xie等[8]使用稀疏編碼的空間金字塔識(shí)別農(nóng)田病蟲害圖像。與早期的SVM和神經(jīng)網(wǎng)絡(luò)方法相比,提高了背景病蟲害圖像的識(shí)別精度。為了進(jìn)一步提高昆蟲的識(shí)別能力,Xie等[9]開發(fā)了一種基于多任務(wù)稀疏表示和多核學(xué)習(xí)技術(shù)的昆蟲識(shí)別方法。上述方法中都需要對(duì)病蟲害圖像進(jìn)行復(fù)雜的預(yù)處理,并且模型的性能往往受到所選特征的影響。大多數(shù)病蟲害圖像樣本都具有統(tǒng)一背景的圖像,或需要去除背景或進(jìn)行二值化。通過(guò)卷積神經(jīng)網(wǎng)絡(luò),可以實(shí)現(xiàn)具有背景的病蟲害圖像端到端的訓(xùn)練,從而簡(jiǎn)化了訓(xùn)練過(guò)程。
2病蟲害圖像識(shí)別
神經(jīng)網(wǎng)絡(luò)是解決線性不可分問(wèn)題的良好分類器,并且在網(wǎng)絡(luò)結(jié)構(gòu)上取得了許多進(jìn)展,以提高分類或聚類的性能。在處理圖像分類問(wèn)題時(shí),較好的模型是卷積神經(jīng)網(wǎng)絡(luò)。近年來(lái),神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像識(shí)別領(lǐng)域被廣泛并且成功地應(yīng)用,在該背景下,通過(guò)優(yōu)化深度卷積網(wǎng)絡(luò)結(jié)構(gòu),利用深度殘差網(wǎng)絡(luò)的多特征多粒度學(xué)習(xí),構(gòu)建農(nóng)業(yè)病蟲害圖像識(shí)別模型,并通過(guò)試驗(yàn)與傳統(tǒng)機(jī)器學(xué)習(xí)模型對(duì)比,以驗(yàn)證方法的有效性。
2.1卷積網(wǎng)絡(luò)的結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖1所示,基本卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、池層、全連接層、Softmax分類和輸出層。在某一層的卷積過(guò)程中,濾波器在該層上滑動(dòng),其權(quán)值矩陣與濾波器下像素的值進(jìn)行Hadamard乘積。
式中,b表示一個(gè)偏移項(xiàng),f表示一個(gè)激活函數(shù)的情況下,一般的神經(jīng)網(wǎng)絡(luò)通常使用范圍為[-1,1]的s形函數(shù)或雙曲正切函數(shù)。
隨著網(wǎng)絡(luò)深度的增加,梯度容易消失或爆炸。Krizhevsky等[10]提出了Relu激活函數(shù)。池層的工作過(guò)程是向下采樣,包括最大池和平均池方法。該過(guò)程可以表示為:
在合并過(guò)程中,允許指定大小的窗口在某一層的要素地圖上滑動(dòng)。如果使用最大池,則窗口中的最大值將被保留;如果使用平均池,則窗口中的平均值將被保留。處理多分類問(wèn)題的卷積神經(jīng)網(wǎng)絡(luò)的頂端通常使用Softmax分類器。在Softmax回歸中,輸入X屬于T類的概率可以由以下方程表示:
損失函數(shù)為輸出概率向量與實(shí)際類向量的交叉熵?fù)p失。
其中,1{yi=t}表示指示性函數(shù),只有在測(cè)試的第i個(gè)圖像正確時(shí),它的值才等于1,對(duì)損失函數(shù)采用隨機(jī)梯度下降法進(jìn)行端到端優(yōu)化。損失函數(shù)的梯度可用下列公式計(jì)算:
2.2基于卷積網(wǎng)絡(luò)的特征提取
卷積神經(jīng)網(wǎng)絡(luò)具有自動(dòng)提取特征的能力,并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)中水平的可視化,清楚地顯示所提取的特征[11-13]。圖2顯示了通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的病蟲害圖像的特征。圖像中這些病蟲害的邊界通過(guò)普通CNN的第一卷積和匯集層被激活,從而從復(fù)雜的背景中分離出來(lái)??梢暬瘓D像表明,CNN具有很強(qiáng)的特征提取能力。
2.3卷積網(wǎng)絡(luò)的性能對(duì)比分析
在實(shí)際農(nóng)田環(huán)境中,采集到的圖像具有復(fù)雜的背景噪聲,不同于固定背景色樣本的圖像,在復(fù)雜背景下具有較高的難度和實(shí)際意義。選擇10種病蟲害作為研究對(duì)象(表1),圖3顯示了病蟲害生物的外觀。
每類病蟲害圖像隨機(jī)抽取40幅圖像作為訓(xùn)練集,15幅圖像用于測(cè)試。數(shù)據(jù)集包含不同的角度和病蟲害的姿態(tài),這些圖像在輸入系統(tǒng)之前都被鏡像,使數(shù)據(jù)總量翻倍,以充分利用CNN。在訓(xùn)練之前,使用了象素平均減法。
x*=x-u (6)
式中,u表示訓(xùn)練集上每個(gè)通道中像素值的均值,并且從病蟲害圖像的RGB通道的像素矩陣中減去均值。
試驗(yàn)條件設(shè)置如表2所示,以caffe為深度學(xué)習(xí)框架,采用GPU加速技術(shù)提高訓(xùn)練速度。
在相同的環(huán)境和數(shù)據(jù)集下,對(duì)CNN模型(本研究采用AlexNet架構(gòu)的CNN模型)、傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和線性支持向量機(jī)進(jìn)行了測(cè)試。在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,隱層神經(jīng)元的數(shù)量為3 072, Sigmod用作激活函數(shù),最后使用Softmax作為最終分類器。所有輸入的病蟲害生物圖像都伴隨著自然環(huán)境中的復(fù)雜背景,每個(gè)模型的識(shí)別精度如圖4所示。CNN的識(shí)別準(zhǔn)確率遠(yuǎn)遠(yuǎn)超過(guò)了其他傳統(tǒng)的機(jī)器學(xué)習(xí)方法。
各模型收斂后的識(shí)別精度如表3所示。線性支持向量機(jī)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的精度均在50%以下,而基于AlexNet架構(gòu)的CNN模型精度是傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)的兩倍。結(jié)果表明,深卷積神經(jīng)網(wǎng)絡(luò)在復(fù)雜農(nóng)田背景下的圖像分類中明顯優(yōu)于支持向量機(jī)和簡(jiǎn)單的淺層BP神經(jīng)網(wǎng)絡(luò)。不過(guò),8層AlexNet的CNN模型的識(shí)別率僅為88.67%,其識(shí)別能力仍無(wú)法達(dá)到令人滿意的狀態(tài)。
2.4卷積網(wǎng)絡(luò)降解的局限性分析
隨著深度的加深,模型的識(shí)別能力增強(qiáng)。但簡(jiǎn)單地增加神經(jīng)網(wǎng)絡(luò)的深度會(huì)使模型很難訓(xùn)練,并且精度會(huì)突然下降。因此,針對(duì)這一問(wèn)題,必須尋找一種新的深度學(xué)習(xí)方法,同時(shí)增加模型的深度也應(yīng)抑制退化的發(fā)生。
基于AlexNet的8層深度來(lái)簡(jiǎn)單地增加層次的深度,將其深度從9層增加至11層。該模型在同一環(huán)境下分別迭代2 000次,降解現(xiàn)象的發(fā)生如圖5所示。
3深度殘差的多特征多粒度學(xué)習(xí)
隨著網(wǎng)絡(luò)深度的加深,并非所有的模型都能得到訓(xùn)練和優(yōu)化。對(duì)于退化現(xiàn)象,提出了一種稱為深度殘差的優(yōu)化方法。該方法通過(guò)疊加一個(gè)多層非線性網(wǎng)絡(luò)來(lái)融合一個(gè)殘差映射,然后表達(dá)實(shí)際映射關(guān)系。在深度殘差網(wǎng)絡(luò)中,可以通過(guò)添加一個(gè)快捷連接來(lái)實(shí)現(xiàn)身份映射,防止了深度模型的誤差擴(kuò)大,其結(jié)構(gòu)如圖6所示。
采用50層和101層深度殘差網(wǎng)絡(luò)對(duì)農(nóng)業(yè)病蟲害進(jìn)行識(shí)別訓(xùn)練。模型在resnet101和resnet50上進(jìn)行了微調(diào),并在Imagenet上進(jìn)行了預(yù)訓(xùn)練?;緦W(xué)習(xí)率為0.0001。使用步驟策略訓(xùn)練,每500次迭代后學(xué)習(xí)率降低90%。采用加權(quán)衰減法,將衰減參數(shù)設(shè)為0.000 5,采用隨機(jī)梯度下降法進(jìn)行優(yōu)化,將動(dòng)量參數(shù)設(shè)為0.9,將總迭代次數(shù)設(shè)為2 000次。
表4顯示了試驗(yàn)中硬件消耗的3種模型,其中AlexNet每次輸入使用128個(gè)圖像,resnet-50和resnet-101每次使用8個(gè)輸入(表5)。
圖7比較了深度殘差網(wǎng)絡(luò)和普通CNN的精度的變化。表5顯示了本研究數(shù)據(jù)集中的普通卷積神經(jīng)網(wǎng)絡(luò)AlexNet模型和深度殘差網(wǎng)絡(luò)ResNet的精度比較。結(jié)果顯示,基于深度殘差學(xué)習(xí)的ResNet101模型的識(shí)別準(zhǔn)確率為98.67%,明顯高于CNN。同時(shí),通過(guò)分析普通卷積模型AlexNet和深度殘差模型ResNet的模型收斂過(guò)程,對(duì)比二者的性能差距,發(fā)現(xiàn)AlexNet更易出現(xiàn)卷積降解問(wèn)題,模型較早收斂于局部解,不能進(jìn)一步提升精度。相對(duì)于普通卷積網(wǎng)絡(luò)AlexNet,深度殘差網(wǎng)絡(luò)ResNet隨著網(wǎng)絡(luò)深度的提升,精度進(jìn)一步提高,更加接近最優(yōu)解。
4結(jié)論
采用深度殘差的多特征多粒度學(xué)習(xí)方法對(duì)復(fù)雜農(nóng)田背景下的農(nóng)業(yè)病蟲害進(jìn)行識(shí)別。該方法精度遠(yuǎn)遠(yuǎn)高于SVM和BP神經(jīng)網(wǎng)絡(luò)。與CNN相比,識(shí)別精度進(jìn)一步提高。對(duì)于復(fù)雜背景下10種農(nóng)業(yè)病蟲害,識(shí)別率達(dá)到98.67%。同時(shí),深度殘差網(wǎng)絡(luò)可以作為基礎(chǔ)組件,與目標(biāo)檢測(cè)跟蹤架構(gòu)模型(如R-CNN[14]或R-FCN[15])相結(jié)合,以跟蹤農(nóng)業(yè)病蟲害目標(biāo),并通過(guò)農(nóng)業(yè)網(wǎng)絡(luò)監(jiān)控視頻實(shí)現(xiàn)害蟲目標(biāo)位置信息的實(shí)時(shí)采集。此外,需要考慮Android或IOS等移動(dòng)平臺(tái)的可移植性,使該方法能夠在智能移動(dòng)終端中應(yīng)用,提供更高的實(shí)用和推廣價(jià)值。
參考文獻(xiàn):
[1] CHEN X, XIANG S, LIU C L, et al. Vehicle detection in satelliteimages by hybrid deep convolutional neural networks[J]. IEEE geo-lienee and remote sensing letters,2014, 11 ( 10): 1797-1801.
[2] JI S, XU W, YANG M, et al. 3D Convolutional neural networks forhuman action recognition [J]. IEEE h,ansactions on pattern analysisand machine intelligence, 2013, 35( 1) :221-231.
[3]ABDEL-IIAMID O, MOHAMED A R, JIANG H, el al. Convolu-tional neural networks for speech recognition [J]. IEEE/ACM trans-actions on audio, speech, and language processing, 2014,22(10):1533-1545.
[4] LARIOS N , DENG H , ZHANG W , et al. Automated insect identi-fication through concatenated histograms of local appearance fea-tures [C]// IEEE workshop on applications of computer vision.IEEE, 2007.
[5] ZHAO J, LIU M, YAO M. Study on image recognition of insect pestof sugarcane cotton aphis based on rough set and fuzzy c-meansclustering [C]// 2009 Third international symposium on intelligentinformation technology application. IEEE, 2009.
[6]ZHAO Z Q,GAO J,GLOTIN H,et al. A matrix modular neuralnetwork based on task decomposition with subspace division byadaptive affinity propagation clustering [J]. Applied mathematicalmodelling,2010, 34( 12):3884-3895.
[7] FAITHPRAISE F, BIRCH P, YOUNG R,et al. Automatic plant pestdetection and recognition using k-means cluslering algorithm andcorrespondence filters [J]. International journal of advanced biotech-nology & research, 2013,4(2) : 189-199.
[8] XIE C,LI R,DONG W,et al. Recognition for insects via spatialpyramid model using sparse coding [J]. Transactions of the Chinesesociety of agricultural engineering, 2016, 32( 17) : 144-151.
[9] XIE C J, ZHANG J, UR, et al. Automatic classification for fieldcrop insects via mulliple-task sparse representation and multiple-kernel learning [J].Computers & electronics in agriculture,2015,119:123-132.
[10]KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet classi-fication with deep convolutional neural networks [C]// NIPS. Cur-ran Associates Inc. 2012.
[11]GOODFELLOW I J,BULATOV Y,IBARZ J,et aL Multi-digitnumber recognition from street view imagery using deep convolu-tional neural networks [J]. http:/www. researchgate. net/publica-tion/259399973.
[12]HUBEL D H, WIESEL T N. Republication of the journal of physi-ology (1959) 148,574-591 : Receptive fields of single neuronesin the cat's striale corlex. 1959. [J].Journal of physiology,2009,587(12):2721-2732.
[13]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learn-ing applied to document recognition [J]. Proceedings of the IEEE,1998, 86(ll):2278-2324.
[14]REN S, HE K, GIRSIIICK R, et al. Faster R-CNN: Towards real-time objectdetection with region proposal network [J].IEEE trans-actions on pattern analysis & machine intelligence, 2015, 39(6):1137-1149.
[15]COATES A, BAUMSTARCK P, LE Q, et al. Scalable learning forobject detection with GPU hardware [C]// IEEE/RSJ internationalconference on intelligent robots & systems. IEEE, 2009.
收稿日期:2019-12-12
基金項(xiàng)目:陜西省2019年重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2019NY-055);陜西省教育科學(xué)十三五規(guī)劃課題(SGHI8H538)
作者簡(jiǎn)介:李艷紅(1978-),女,陜西武功人,講師,碩士,研究方向?yàn)榇髷?shù)據(jù)、教育技術(shù),(電話)18092318233(電子信箱)178653954@qq.com。