亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡(luò)的茶園害蟲定位與識(shí)別

        2017-04-24 03:48:22楊國國鮑一丹劉子毅
        關(guān)鍵詞:特征模型

        楊國國,鮑一丹,劉子毅

        ?

        基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡(luò)的茶園害蟲定位與識(shí)別

        楊國國,鮑一丹※,劉子毅

        (浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,杭州 310058)

        為實(shí)現(xiàn)在茶園環(huán)境中快速、準(zhǔn)確地識(shí)別害蟲目標(biāo),該文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型來進(jìn)行害蟲定位和識(shí)別的方法。該文通過對(duì)整個(gè)圖像進(jìn)行顏色衰減加速運(yùn)算,結(jié)合超像素區(qū)域之間的空間影響,計(jì)算各個(gè)超區(qū)域的顯著性值,進(jìn)而提供害蟲目標(biāo)的潛在區(qū)域,最終結(jié)合GrabCut算法進(jìn)行害蟲目標(biāo)的定位和分割。對(duì)于分割后的害蟲目標(biāo),通過優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行表達(dá)和分類,并進(jìn)一步對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了約減。通過對(duì)23種茶園主要害蟲的識(shí)別,試驗(yàn)結(jié)果表明,識(shí)別準(zhǔn)確率在優(yōu)化前后分別為0.915和0.881,優(yōu)化后的模型內(nèi)存需求和運(yùn)行耗時(shí)分別降低至6 MB和0.7 ms,取得了較好的識(shí)別效果。

        像素;算法;識(shí)別;害蟲檢測;圖像顯著性分析;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)

        0 引 言

        茶樹是中國重要的經(jīng)濟(jì)作物,如今國內(nèi)的茶園面積達(dá)到了3 529.0萬hm2,約占世界茶園面積的50%以上,遍及18個(gè)省。茶樹在生長過程中,極易遭受多種害蟲危害[1]。在現(xiàn)代生態(tài)化茶園建設(shè)中,害蟲種群監(jiān)測是農(nóng)業(yè)蟲害防控的重要環(huán)節(jié)之一。害蟲的防治手段取決于害蟲種群數(shù)量的多少[2],更加精準(zhǔn)、實(shí)時(shí)監(jiān)測害蟲種群將為蟲害防治決策提供重要依據(jù)。目前,農(nóng)業(yè)害蟲的種類區(qū)分及相應(yīng)的統(tǒng)計(jì)計(jì)數(shù)主要由人工完成,勞動(dòng)強(qiáng)度大,工作效率低。基于計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)技術(shù)對(duì)害蟲圖像的自動(dòng)化識(shí)別在近年來已成為研究學(xué)者研究的熱點(diǎn)[3]。然而,害蟲本身是一類紋理豐富、結(jié)構(gòu)復(fù)雜的視覺目標(biāo),加之姿態(tài)變化豐富、種內(nèi)變化、種間相似以及所處環(huán)境背景復(fù)雜,令圖像識(shí)別成為一類細(xì)粒度識(shí)別問題[4],技術(shù)難度較大。

        目前國內(nèi)外的害蟲識(shí)別研究主要集中于以下2個(gè)方面:1)基于計(jì)算機(jī)視覺的圖像表達(dá),即圖像底層特征的設(shè)計(jì)、提取及相應(yīng)的高層表達(dá)(從特征中獲取和組織有效信息);2)基于機(jī)器學(xué)習(xí)的模型構(gòu)建,即選擇和優(yōu)化分類模型,如支持向量機(jī)[5-6](support vector machine,SVM)來區(qū)分表達(dá)信息。早期的識(shí)別方法多采用害蟲圖像的全局特征,如灰度直方圖[7-8]、幾何不變量[9-10]、子空間方法[11-12]等。此類特征雖易于提取和計(jì)算,但在害蟲姿態(tài)變化或圖像背景復(fù)雜時(shí),基于全局屬性的描述則難有作為。伴隨計(jì)算機(jī)視覺技術(shù)的進(jìn)一步發(fā)展,近年的研究轉(zhuǎn)向以局部圖像特征為核心而設(shè)計(jì)的表達(dá)框架,并在準(zhǔn)確性和穩(wěn)定性上獲得顯著提升。以應(yīng)用最為廣泛的“視覺詞袋框架”[13](bag-of-words,BOW)為例,此類方法首先提取尺度不變特征[14](scale invariant feature transform,SIFT)和方向梯度直方圖[15](histograms of oriented gradients,HOG)等局部興趣點(diǎn)。將單一特征重構(gòu)為數(shù)量分布直方圖、或?qū)Χ喾N特征作相應(yīng)融合后,選擇最優(yōu)分類器作為輸入。

        上述特征本質(zhì)上仍是人工預(yù)先設(shè)計(jì)特征進(jìn)行識(shí)別,針對(duì)害蟲目標(biāo)的識(shí)別問題,其適用性往往受到抑制,難以確定最優(yōu)方案[16]。而簡單的直方圖表示或特征融合,往往忽略了害蟲本身的相對(duì)空間信息,因而存在諸多局限。相比傳統(tǒng)方法,近年來興起的深度學(xué)習(xí)模型則直接由數(shù)據(jù)本身來驅(qū)動(dòng)特征及其表達(dá)關(guān)系的自我學(xué)習(xí)。其中,卷積神經(jīng)網(wǎng)絡(luò)[17](convolutional neural network,CNN)在圖像識(shí)別領(lǐng)域的應(yīng)用尤為廣泛,在一系列大規(guī)模、細(xì)粒度的識(shí)別任務(wù)中取得巨大成功。CNN的主要思想是通過深度神經(jīng)網(wǎng)絡(luò)的層層映射,來自主學(xué)習(xí)圖像像素特征、底層特征、高層抽象特征直至最終類別間的隱式表達(dá)關(guān)系,更加有利于捕獲數(shù)據(jù)本身的豐富內(nèi)涵信息[18],同時(shí)也避免了復(fù)雜的人工設(shè)計(jì)過程。當(dāng)前比較成功的CNN模型包括AlexNet[17]、GoogLeNet[19]和ResNet[20],這些網(wǎng)絡(luò)架構(gòu)均是針對(duì)廣義的物體識(shí)別而設(shè)計(jì)。以AlexNet為例,該模型由Krizhevsky等[17]于2012年提出,被認(rèn)為是當(dāng)前對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行研究和改進(jìn)的標(biāo)準(zhǔn)架構(gòu)。

        針對(duì)害蟲識(shí)別的特殊性和困難性,以及目前害蟲圖像識(shí)別依賴于研究人員的主觀特征設(shè)計(jì)的局限性,本文采用基于圖像顯著性分析和Grubcut[21]算法對(duì)復(fù)雜背景下的害蟲目標(biāo)進(jìn)行定位,通過AlexNet卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)茶園主要害蟲進(jìn)行表達(dá)和分類,避免了人的主觀因素影響分類的結(jié)果。由于AlexNet的最初提出是針對(duì)ImageNet[22]數(shù)據(jù)集(包含1 000個(gè)類別,超過1 000 000幅圖像)而設(shè)計(jì),模型規(guī)模較大。對(duì)于數(shù)據(jù)集包含數(shù)量相對(duì)較少的茶園害蟲圖像,為避免過擬合,加快模型的運(yùn)行速度,本文進(jìn)一步針對(duì)其重要的結(jié)構(gòu)參數(shù)和訓(xùn)練策略進(jìn)行優(yōu)化和改進(jìn),建立一種基于深度學(xué)習(xí)模型(卷積神經(jīng)網(wǎng)絡(luò))的茶園害蟲分類模型。

        1 材料與方法

        1.1 害蟲圖像數(shù)據(jù)集

        本文以生態(tài)茶園害蟲作為測試對(duì)象,選取23類常見的茶園害蟲。原始圖像數(shù)據(jù)集由Google、Naver和FreshEye等搜索引擎檢索和茶園實(shí)地拍攝2種方式獲取。原始數(shù)據(jù)集涵蓋害蟲目標(biāo)的不同拍攝視角,并由人工標(biāo)注和篩選以避免數(shù)據(jù)的重復(fù)和錯(cuò)誤。篩選處理后,互聯(lián)網(wǎng)檢索數(shù)據(jù)集包含6 556幅圖像,各類別樣本量呈不均勻分布(詳見表1)。茶園實(shí)地拍攝圖像1 150幅,為均勻分布數(shù)據(jù)集(各類均為50幅)。本文將互聯(lián)網(wǎng)檢索的圖像用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和參數(shù)優(yōu)化驗(yàn)證,分別從各類別隨機(jī)選擇70%樣本構(gòu)建訓(xùn)練集,30%作為驗(yàn)證集。考慮訓(xùn)練集中數(shù)據(jù)不均衡現(xiàn)象易對(duì)模型訓(xùn)練造成偏差(例如模型傾向于表達(dá)擁有較多樣本量的類別),而訓(xùn)練集中最大類別包含圖像樣本約為390幅(556幅×70%),故將所有訓(xùn)練樣本小于260幅的類別進(jìn)行隨機(jī)采樣,控制類別間樣本量比例為1:1.5(390幅/260幅)。模型優(yōu)化完成后,將茶園實(shí)地拍攝圖像作為測試集,將本文方法與現(xiàn)有害蟲識(shí)別方法進(jìn)行對(duì)比分析。由于測試數(shù)據(jù)集中各類別樣本數(shù)量呈均衡分布,因此可將測試結(jié)果視作平均準(zhǔn)確率(average accuracy,AA),并將平均準(zhǔn)確率作為本文模型的識(shí)別效果評(píng)價(jià)指標(biāo)。

        表1 試驗(yàn)數(shù)據(jù)集詳情

        1.2 圖像的顯著性分析

        圖像的目標(biāo)和定位一直是圖像處理領(lǐng)域的研究熱門和難點(diǎn)。近年來的研究發(fā)現(xiàn),自然圖像中的害蟲目標(biāo)通常會(huì)占據(jù)與背景形成高度對(duì)比的顏色區(qū)域(圖1)。目前,大量的生物學(xué)試驗(yàn)和機(jī)器視覺模型已經(jīng)證明,這種相對(duì)其他區(qū)域所形成的顏色對(duì)比可以被量化為目標(biāo)區(qū)域的圖像顯著值,從而使圖像顯著性分析成為目標(biāo)定位的重要手段[23]。

        本文應(yīng)用一種基于全局對(duì)比度的顯著性區(qū)域檢測方法[24]進(jìn)行害蟲目標(biāo)的定位。該方法的主要思想是根據(jù)害蟲目標(biāo)與背景區(qū)域的顏色對(duì)比和空間關(guān)系進(jìn)行顯著值計(jì)算,具體流程如圖1所示。為加速計(jì)算,首先對(duì)原始圖像進(jìn)行顏色衰減,將原始圖像分別在R、G、B三通道的256級(jí)灰度值量化為10級(jí)。利用圖割法[25]將衰減后圖像分割為多個(gè)超像素區(qū)域,依據(jù)式(1)計(jì)算各個(gè)區(qū)域的顯著值

        式(1)中,(r)為區(qū)域r的顯著值,r代表圖像中的其他區(qū)域,D為當(dāng)前區(qū)域r的重心與其他區(qū)域r的中心之間的歐氏空間距離,2是距離加權(quán)項(xiàng),以此來增強(qiáng)較近區(qū)域?qū)δ繕?biāo)區(qū)域的影響,通過前期試驗(yàn)將該值設(shè)為0.4。(r)為區(qū)域r所覆蓋像素?cái)?shù)目,用以弱化背景之間的相互作用。D為區(qū)域之間的顏色對(duì)比,具體計(jì)算過程為

        (2)

        其中,1,2代表各個(gè)區(qū)域的顏色總數(shù)。(1,i)、(2,j)為加權(quán)項(xiàng),代表相應(yīng)顏色1,i和2,j在1和2中的出現(xiàn)頻率,以此強(qiáng)調(diào)區(qū)域內(nèi)主導(dǎo)顏色的作用。為區(qū)域1和2的顏色空間距離。

        原始圖像的顯著圖提供了害蟲目標(biāo)的潛在區(qū)域。將潛在區(qū)域作為GrabCut算法的初始區(qū)域,對(duì)害蟲目標(biāo)的進(jìn)一步分割。GrabCut算法是一種交互式圖像分割算法,通過用戶選定待分割圖像的目標(biāo)區(qū)域后,經(jīng)過計(jì)算圖像中的紋理、顏色信息和邊界反差信息,可以達(dá)到自動(dòng)、準(zhǔn)確的分割目標(biāo)。

        1.3 卷積神經(jīng)網(wǎng)絡(luò)

        本文選取應(yīng)用廣泛的卷積神經(jīng)網(wǎng)絡(luò)AlexNet作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),并對(duì)其重要的結(jié)構(gòu)參數(shù)和訓(xùn)練策略進(jìn)行優(yōu)化,以獲取適合害蟲圖像識(shí)別的模型架構(gòu)。AlexNet網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)及各層的具體配置如圖2所示。

        AlexNet網(wǎng)絡(luò)的核心部分由5個(gè)卷積層(Conv1~Conv 5)和3個(gè)池化層(pooling1~pooling 3)交替構(gòu)成。卷積層主要作用是提取特征,即包含一組經(jīng)數(shù)據(jù)驅(qū)動(dòng)進(jìn)行自主學(xué)習(xí)的卷積核,又稱特征提取器。針對(duì)不同的特征提取密集度,卷積核用固定大小的卷積步幅與輸入(來自上一層的輸出或原始圖像)作卷積運(yùn)算,經(jīng)由激活函數(shù)變換后構(gòu)成卷積特征圖,代表對(duì)輸入圖像特征的響應(yīng)。卷積特征圖的計(jì)算過程可以表示為

        式(3)中,和分別為第層(當(dāng)前層)第-1層(上一層)的第個(gè)和第個(gè)特征圖,表示作用于2個(gè)特征圖之間的卷積核。()為激活函數(shù),代表偏置項(xiàng)。在所有卷積層中,Conv1層中的卷積核又稱作局部感受野,負(fù)責(zé)直接從原始輸入圖像提取最低層特征。

        池化層通常與卷積層級(jí)聯(lián)出現(xiàn),作用為特征映射。通過對(duì)卷積特征圖進(jìn)行下采樣后構(gòu)成池化特征圖,克服圖像目標(biāo)發(fā)生位移、畸變、旋轉(zhuǎn)所造成的影響。池化層的特征圖的計(jì)算過程可表示為

        式中是選取的下采樣模板,為模板的權(quán)值。依據(jù)模板的權(quán)值的不同,池化計(jì)算的方式包括最大值池化、平均值池化和隨機(jī)池化等。AlexNet網(wǎng)絡(luò)中采用最大值池化進(jìn)行計(jì)算,經(jīng)多層級(jí)聯(lián)后,全連接層(FC6,FC7)對(duì)Pooling3池化特征圖作矢量變換,構(gòu)成特征向量輸送給分類層,AlexNet在分類層采用Softmax分類器[26]。AlexNet各連接層的詳細(xì)功能與計(jì)算操作,詳見參考文獻(xiàn)[17]。

        2 基于卷積神經(jīng)網(wǎng)絡(luò)的害蟲目標(biāo)識(shí)別

        本文中卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式與文獻(xiàn)[17]類似。網(wǎng)絡(luò)初始權(quán)重提取自標(biāo)準(zhǔn)差為0.01,均值為0的高斯分布。訓(xùn)練階段采用動(dòng)量項(xiàng)為0.9的異步隨機(jī)梯度下降,并設(shè)置權(quán)重參數(shù)的初始學(xué)習(xí)速率為0.01。本文代碼實(shí)現(xiàn)主要基于CAFFE(convolutional architecture for fast feature embedding)[26]深度學(xué)習(xí)框架,計(jì)算平臺(tái)采用單塊型號(hào)為NVDIA GTX Titan X的圖形處理器(GPU),搭載于Intenl Core i7 4790 CPU,內(nèi)存為16 GB的臺(tái)式計(jì)算機(jī)。

        AlexNet的結(jié)構(gòu)參數(shù)及訓(xùn)練策略在初始提出時(shí)均基于ImageNet數(shù)據(jù)集設(shè)計(jì),主要應(yīng)用于廣義的物體識(shí)別。若將原始AlexNet網(wǎng)絡(luò)直接引入特定的害蟲圖像識(shí)別,易因數(shù)據(jù)集規(guī)模、數(shù)據(jù)類別間的粒度差異而造成模型收斂效果差、過擬合等風(fēng)險(xiǎn)。本文對(duì)害蟲圖像經(jīng)過顯著性分析和定位后的分割結(jié)果進(jìn)行裁剪,用圖像平均像素填充較短邊并縮放為256×256 dpi。定位的圖像在輸入卷積網(wǎng)絡(luò)前被隨機(jī)裁剪為227×227 dpi,并作鏡像翻轉(zhuǎn)以擴(kuò)增數(shù)據(jù)集。同時(shí),從以下4方面依次對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行優(yōu)化:

        1)局部感受野的尺寸、數(shù)目和卷積步幅:分別取卷積核尺寸大小為7×7、9×9、11×11、13×13、15×15 dpi大小的像素塊,逐步減少卷積核數(shù)目至32個(gè),對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試。同時(shí),卷積步幅由數(shù)值2開始逐步增加,直至與優(yōu)化后的卷積核尺寸相當(dāng),進(jìn)而考察特征采樣密度對(duì)模型性能的影響。

        2)全連接層的神經(jīng)元隨機(jī)抑制(Dropout)[27]:由于全連接層FC6,F(xiàn)C7為致密連接,參數(shù)量約占AlexNet網(wǎng)絡(luò)規(guī)模的90%,因此對(duì)FC6,F(xiàn)C7層采用神經(jīng)元隨機(jī)抑制(Dropout)以控制過擬合。Dropout的主要思想是在模型訓(xùn)練的每一次迭代中,按一定概率隨機(jī)對(duì)目標(biāo)層部分神經(jīng)元進(jìn)行抑制,僅針對(duì)剩余神經(jīng)元作參數(shù)更新,本質(zhì)上是訓(xùn)練了多個(gè)規(guī)模較小的子網(wǎng)絡(luò)。在模型測試階段對(duì)子網(wǎng)絡(luò)進(jìn)行融合,即采用全網(wǎng)絡(luò)架構(gòu)。本文在0.5~0.9范圍內(nèi)搜索最優(yōu)Dropout概率。如果所采用Dropout概率過小,則反映出當(dāng)前模型存在相當(dāng)數(shù)量的冗余參數(shù),可考慮對(duì)網(wǎng)絡(luò)架構(gòu)作進(jìn)一步約簡。

        3)分類層的損失函數(shù):在分類層采取不同的損失函數(shù)來構(gòu)建相應(yīng)的分類器。本文針對(duì)2類常見損失函數(shù)Hinge loss[26](對(duì)應(yīng)SVM分類器)和Softmax loss(對(duì)應(yīng)softmax分類器)進(jìn)行網(wǎng)絡(luò)性能的對(duì)比分析。

        4)中間層參數(shù)約簡:卷積神經(jīng)網(wǎng)絡(luò)的實(shí)際應(yīng)用往往對(duì)計(jì)算運(yùn)行的資源需求較高,尤其在植入農(nóng)業(yè)機(jī)器人、手機(jī)移動(dòng)端等低性能計(jì)算平臺(tái)時(shí),內(nèi)存消耗和運(yùn)算速率都會(huì)受到限制。依照Dropout概率對(duì)模型識(shí)別準(zhǔn)確率的影響,本文對(duì)AlexNet局部感受野與分類層之間的中間層作深度(網(wǎng)絡(luò)層數(shù))和寬度(層內(nèi)卷積核數(shù)目)的約簡,進(jìn)而考察不同架構(gòu)的計(jì)算資源需求和對(duì)識(shí)別準(zhǔn)確率的影響。

        3 結(jié)果與分析

        3.1 局部感受野不同參數(shù)下的識(shí)別準(zhǔn)確率

        局部感受野通常被認(rèn)為是卷積網(wǎng)絡(luò)架構(gòu)中最為敏感的參數(shù),負(fù)責(zé)直接由原始輸入圖像提取最低層特征。局部感受野的尺寸和數(shù)目對(duì)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響如圖3所示。

        由圖3可以看出,模型識(shí)別性能隨卷積核尺寸的減小呈上升趨勢。卷積核尺寸為7×7 dpi時(shí),驗(yàn)證準(zhǔn)確率最高。由于相似的害蟲種間的區(qū)分往往依賴于對(duì)圖像局部紋理的描述,當(dāng)使用大尺寸卷積核時(shí),會(huì)導(dǎo)致所提取特征易于響應(yīng)粗粒度的特征(如邊緣特征),從而使傳遞給高層卷積核的細(xì)節(jié)信息丟失過多。固定卷積核尺寸為7×7 dpi,模型驗(yàn)證準(zhǔn)確率隨局部感受野數(shù)目的增加先升高后降低,當(dāng)局部感受野數(shù)目為64時(shí),驗(yàn)證準(zhǔn)確率最高。該結(jié)果表明,由于本文數(shù)據(jù)集涵蓋種類和樣本數(shù)量相對(duì)較少,AlexNet網(wǎng)絡(luò)需足夠數(shù)量的低層特征來確保對(duì)數(shù)據(jù)的擬合能力,以克服由害蟲的種類多樣性或姿態(tài)變化等因素所帶來的數(shù)據(jù)復(fù)雜度。

        為了進(jìn)一步驗(yàn)證所確定底層特征不存在冗余性,圖4對(duì)全部卷積核進(jìn)行可視化,發(fā)現(xiàn)并無重復(fù)或隨機(jī)性卷積核(未得到有效訓(xùn)練)出現(xiàn)。

        在固定最優(yōu)卷積核尺寸及數(shù)目情況下,圖5給出了采取不同卷積步幅后的識(shí)別效果及對(duì)應(yīng)的模型訓(xùn)練耗時(shí)。顯然,密集的特征提取更有利于對(duì)害蟲圖像目標(biāo)細(xì)節(jié)信息的保留,從而獲得更大的性能收益。但當(dāng)卷積步幅小于4時(shí),識(shí)別準(zhǔn)確率的變化并不明顯,模型的訓(xùn)練耗時(shí)明顯增加。為獲取模型識(shí)別性能與所需計(jì)算資源之間的均衡,將該參數(shù)確定為4較為合適。

        3.2 不同Dropout概率下的識(shí)別準(zhǔn)確率

        Dropout概率對(duì)模型性能的影響如圖6所示,模型識(shí)別準(zhǔn)確率在Dropout概率為0.70時(shí)達(dá)到峰值。該結(jié)果也表明處于局部感受野和分類層間的網(wǎng)絡(luò)中間層存在冗余的參數(shù)。因此,有必要對(duì)中間層作參數(shù)約簡,以確定適合害蟲圖像及相應(yīng)數(shù)據(jù)集規(guī)模的網(wǎng)絡(luò)架構(gòu)。進(jìn)一步增加該值,模型識(shí)別性能出現(xiàn)明顯下降。其主要原因在于所訓(xùn)練的子網(wǎng)絡(luò)規(guī)模不足,導(dǎo)致其對(duì)數(shù)據(jù)的擬合能力下降,難以有效建立害蟲圖像數(shù)據(jù)與最終類別之間的映射關(guān)系。

        3.3 不同損失函數(shù)下的識(shí)別準(zhǔn)確率

        為了直觀地呈現(xiàn)Hinge loss和Softmax loss函數(shù)對(duì)網(wǎng)絡(luò)性能的影響,圖7給出了這2類損失函數(shù)在整個(gè)模型訓(xùn)練過程中的誤差變化曲線。當(dāng)訓(xùn)練誤差近似時(shí),Softmax loss函數(shù)的驗(yàn)證誤差更小,同時(shí)收斂更加迅速。但值得注意的是,2類損失函數(shù)在本文數(shù)據(jù)集上的差異,并不意味著Softmax loss將一定作為網(wǎng)絡(luò)在分類層的標(biāo)準(zhǔn)選擇。有研究指出,當(dāng)圖像種類及圖像差別的粒度顯著增加時(shí),Hinge loss函數(shù)可能表現(xiàn)出更優(yōu)的效果[22]。

        3.4 壓縮網(wǎng)絡(luò)架構(gòu)的效果分析

        為進(jìn)一步去除模型冗余參數(shù)、降低計(jì)算資源需求及提升運(yùn)算速率,本文分別對(duì)網(wǎng)絡(luò)中間層作深度和寬度的約簡。約簡后不同網(wǎng)絡(luò)架構(gòu)的內(nèi)存需求(包括模型本身和數(shù)據(jù)流的消耗)、運(yùn)行耗時(shí)及識(shí)別準(zhǔn)確率如表2所示??梢钥闯?,模型對(duì)計(jì)算資源的占用主要來自于網(wǎng)絡(luò)全連接層FC6,F(xiàn)C7,去除后內(nèi)存消耗下降至29.8 MB,但對(duì)運(yùn)行耗時(shí)及識(shí)別效果影響較小。相比而言,卷積層Conv2~Conv5承擔(dān)了主要的圖像表達(dá)功能,且需要進(jìn)行密集的卷積運(yùn)算。因而在逐層去除后,識(shí)別準(zhǔn)確率及運(yùn)算耗時(shí)均出現(xiàn)顯著下降。該結(jié)果也表明,約簡卷積層深度并非適宜策略。表2同時(shí)給出了去除FC6,F(xiàn)C7,逐步減少Conv2~Conv5層卷積核數(shù)目的效果變化。對(duì)比發(fā)現(xiàn),對(duì)模型作寬度壓縮不僅在識(shí)別準(zhǔn)確率上獲得了一定程度的增益,而且模型運(yùn)行時(shí)的內(nèi)存需求及運(yùn)行耗時(shí)亦可得到有效控制。以架構(gòu)10(64-192-192-64)為例,識(shí)別準(zhǔn)確率損失相較壓縮前僅減少0.027,但模型內(nèi)存需求降低至6 MB(參數(shù)和中間數(shù)據(jù)流內(nèi)存消耗分別降至2.8和3.2 MB),運(yùn)行耗時(shí)為0.7 ms,降低3.3倍。從而使得該架構(gòu)對(duì)于低端的運(yùn)算平臺(tái)更具有適用性。

        表2 不同網(wǎng)絡(luò)架構(gòu)的運(yùn)行效果

        注:編號(hào)8~10分別列出壓縮后卷積層Conv2~Conv5的卷積核數(shù)目。

        Note: Convolution kernel numbers of Conv2-Conv5 after shrinking are respectively listed at 8-10.

        3.5 模型的效果驗(yàn)證

        在茶園實(shí)地拍攝數(shù)據(jù)集上,選擇表2中網(wǎng)絡(luò)架構(gòu)1和架構(gòu)10與表3所列的方法進(jìn)行識(shí)別準(zhǔn)確率比較。針對(duì)原始AlexNet,在未對(duì)測試圖像采取定位操作情況下AA僅為0.849。

        表3 不同害蟲識(shí)別方法的性能對(duì)比分析

        顯然,缺乏定位處理會(huì)引入更多圖像背景區(qū)域的干擾,增加網(wǎng)絡(luò)對(duì)害蟲目標(biāo)的識(shí)別難度。文獻(xiàn)[28-30]所提的3種方法為傳統(tǒng)害蟲圖像識(shí)別方法,均需對(duì)害蟲圖像提取人工選取的底層特征,并進(jìn)行特征融合后交由分類器進(jìn)行判別。對(duì)采取定位后圖像進(jìn)行測試,3種方法的AA分別為0.591,0.772和0.803。此類方法受限于底層人工選取的底層特征通用性低的特點(diǎn),因此3種方法的特征選擇差別較大,難以確定最優(yōu)方案。更為重要的是,由于缺乏高層次表達(dá),也難以體現(xiàn)所選底層特征間的空間關(guān)系,因此識(shí)別相對(duì)困難。

        而原始的AlexNet網(wǎng)絡(luò)以及本文采用的架構(gòu)1和架構(gòu) 10的AA分別為:0.849、0.915、0.881。本文采用的模型獲得的AA比原始的AlexNet網(wǎng)絡(luò)提高了至少3.2個(gè)百分點(diǎn),比傳統(tǒng)方法至少提高了7.8個(gè)百分點(diǎn)。

        4 結(jié) 論

        本文通過對(duì)茶園23種常見害蟲進(jìn)行試驗(yàn),采用圖像的顯著性分析對(duì)害蟲定位,利用優(yōu)化約減的AlexNet卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)害蟲目標(biāo)進(jìn)行識(shí)別,約簡前后的平均準(zhǔn)確率(average accuracy,AA)為0.915和0.881。同時(shí),簡約后的模型的內(nèi)存需求和運(yùn)行耗時(shí)分別降低至6 MB和0.7 ms。

        本文采用的模型對(duì)于在自然環(huán)境下獲取的害蟲圖像樣本有較好的識(shí)別效果,突破了大多數(shù)研究集中于實(shí)驗(yàn)室獲取簡單背景的害蟲圖像進(jìn)行試驗(yàn)的前提,并且避免了在害蟲識(shí)別中由研究者主觀選取特征的不足。此外,通過對(duì)模型的參數(shù)優(yōu)化和結(jié)構(gòu)約簡,加強(qiáng)了該模型在低端計(jì)算平臺(tái)上的適應(yīng)性。

        [1] 史慶才,李向陽,陳志偉,等. 茶園假眼小綠葉蟬的防控技術(shù)研究進(jìn)展[J]. 農(nóng)學(xué)學(xué)報(bào),2015,5(1):20-24.

        Shi Qingcai, Li Xiangyang, Chen Zhiwei, et al. Advances on prevention and control technology of empoasca vitis g?the in tea garden[J]. Journal of Agriculture,2015, 5(1): 20-24. (in Chinese with English abstract)

        [2] 馬世駿. 談農(nóng)業(yè)害蟲的綜合防治[J]. 昆蟲學(xué)報(bào),1976,19(2):14-26.

        Ma Shijun. On the integrated control of agricultural insect pests[J]. Acta Entomologica Sinica, 1976, 19(2): 14-26. (in Chinese with English abstract)

        [3] 陳梅香,楊信延,石寶才,等. 害蟲自動(dòng)識(shí)別與計(jì)數(shù)技術(shù)研究進(jìn)展與展望[J]. 環(huán)境昆蟲學(xué)報(bào),2015,37(1):176-183.

        Chen Meixiang, Yang Xinyan, Shi Baocai, et al. Research progress and prospect of technologies for automatic identifying and counting of pests[J]. Journal of Environmental Entomology, 2015, 37(1): 176-183. (in Chinese with English abstract)

        [4] 李文勇,李明,陳梅香,等. 基于機(jī)器視覺的作物多姿態(tài)害蟲特征提取與分類方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2014,30(14):154-162.

        Li Wenyong, Li Ming, Chen Meixiang, et al. Feature extraction and classification method of multi-pose pests using machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 154-162. (in Chinese with English abstract)

        [5] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.

        [6] 胡玉霞,張紅濤. 基于模擬退火算法-支持向量機(jī)的儲(chǔ)糧害蟲識(shí)別分類[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2008,39(9):108-111.

        Hu Yuxia, Zhang Hongtao. Recognition of the stored-grain pests based on simulated annealing algorithm and support vector machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2008, 39(9): 108-111. (in Chinese with English abstract)

        [7] Zhu L Q, Zhen Z. Auto-classification of insect images based on color histogram and GLCM[C]// Seventh International Conference on Fuzzy Systems and Knowledge Discovery. IEEE, 2010: 2589-2593.

        [8] 范艷峰,甄彤. 谷物害蟲檢測與分類識(shí)別技術(shù)的研究及應(yīng)用[J]. 計(jì)算機(jī)工程,2005,31(12):187-189. Fan Yanfeng, Zhen Tong. Research and application of grain pest detection and classification technology[J]. Computer Engineering, 2005, 31(12): 187-189. (in Chinese with English abstract)

        [9] Solissánchez L O, Garcíaescalante J J, Casta?edamiranda R, et al. Machine vision algorithm for whiteflies () scouting under greenhouse environment[J]. Journal of Applied Entomology, 2009, 133(7): 546-552.

        [10] 鄒修國,丁為民,劉德營,等. 基于4種不變矩和BP神經(jīng)網(wǎng)絡(luò)的稻飛虱分類[J]. 農(nóng)業(yè)工程學(xué)報(bào),2013,29(18):171-178.

        Zou Xiuguo, Ding Weimin, Liu Deying, et al. Classification of rice planthopper based on invariant moments and BP neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(18): 171-178. (in Chinese with English abstract)

        [11] 謝成軍,李瑞,董偉,等. 基于稀疏編碼金字塔模型的農(nóng)田害蟲圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(17):144-151.

        Xie Chengjun, Li Rui, Dong Wei, et al. Recognition for insects via spatial pyramid model using sparse coding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(17): 144-151. (in Chinese with English abstract)

        [12] 張紅濤,毛罕平,邱道尹. 儲(chǔ)糧害蟲圖像識(shí)別中的特征提取[J]. 農(nóng)業(yè)工程學(xué)報(bào),2009,25(2):126-130.

        Zhang Hongtao, Mao Hanping, Qiu Daoyin. Feature extraction for the stored-grain insect detection system based on image recognition technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions ofthe CSAE), 2009, 25(2): 126-130. (in Chinese with English abstract).

        [13] Sivic J, Zisserman A. Video google: A text retrieval approach to object matching in videos[C]// IEEE Computer Society. IEEE International Conference on Computer Vision. 2003: 1470.

        [14] 王利強(qiáng). 點(diǎn)特征配準(zhǔn)算法及其在儲(chǔ)糧害蟲種類識(shí)別中的應(yīng)用研究[D].鄭州:河南工業(yè)大學(xué),2011.

        Wang Liqiang. Study Point Feature Matching Algorithm and its Application in Stored Grain Pest Species Identification[D]. Zhengzhou: Henan University of Technology, 2011. (in Chinese with English abstract)

        [15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]// IEEE Computer Society. IEEE Computer Society Conference on Computer Vision & Pattern Recognition. 2005:886-893.

        [16] Larios N, Deng H, Zhang W, et al. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects[J]. Machine Vision and Applications, 2008, 19(2): 105-123.

        [17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// Curran Associates Inc. International Conference on Neural Information Processing Systems. 2012: 1097-1105.

        [18] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.

        [19] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// IEEE Computer Society. IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1-9.

        [20] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.

        [21] Rother C, Kolmogorov V, Blake A. GrabCut: Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics (TOG), 2004, 23(3): 309-314.

        [22] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// Computer Vision and Pattern Recognition. IEEE, 2009: 248-255.

        [23] Ko B C, Nam J Y. Object-of-interest image segmentation based on human attention and semantic region clustering[J]. Journal of the Optical Society of America A, 2006, 23(10): 2462-2470.

        [24] Cheng M M, Mitra N J, Huang X, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

        [25] Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167-181.

        [26] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014:675-678.

        [27] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

        [28] Wen C, Guyer D. Image-based orchard insect automated identification and classification method[J]. Computers & Electronics in Agriculture, 2012, 89(3): 110-115.

        [29] Venugoban K, Ramanan A. Image classification of paddy field insect pests using gradient-based features[J]. International Journal of Machine Learning & Computing, 2014, 4(1): 1-5.

        [30] Zhang J, Wang R, Xie C, et al. Crop pests image recognition based on multi-features fusion[J]. Journal of Computational Information Systems, 2014, 10(12): 5121-5129.

        Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network

        Yang Guoguo, Bao Yidan※, Liu Ziyi

        (,310058,)

        Tea is one of important cash crops in China. Computer vision plays an important role in pest detection. Automatic classification of insect species in field is more difficult than the generic object classification because of complex background in filed and high appearance similarity among insect species. In this paper, we proposed an insect recognition system on the basis of image saliency analysis and a deep learning model, i.e. convolutional neural network (CNN), which has a good robustness with avoiding the features selected by artificial means. In image saliency analysis, we segmented the original images into super-pixel regions firstly. Then we quantized each RGB (red, green, blue) color channel and made them have 10 different values, which reduced the number of colors to 1 000, and sped up the process of the color contrast of the pest objects and the background at region level. Finally, we obtained the saliency value of each region by combining their color contrast and spatial distances. The saliency values of all regions in each image were used to construct a saliency map, which was offered as the initial area for GrabCut algorithm to define the segmentation result and localize the pest object. The images after localization were quantized to 256×256 dpi for CNN training and classifying. CNN was trained end to end, from raw pixels to ultimate categories, thereby alleviating the requirement to manually design a suitable feature extractor. Based on theoretical analysis and experimental evaluation, we optimized the critical structure parameters and training strategy of CNN to seek the best configuration. The overall architecture included a number of sensitive parameters and optimization strategies that could be changed. We determined the local receptive field size, number, and convolutional stride as 7×7 dpi, 64 and 4, respectively. Dropout ratio for the fully-connected layers was 0.7. The loss function Softmax was fit for the pest classification system. To further improve the practical utility of CNN, we focused on structural changes of the overall architecture that enabled a faster running with small effects on the performance. We analyzed the performance and the corresponding runtime of our model by reducing its depth (number of layers) and width (number of convolution kernel in each layer). Removing the fully-connected layers (FC6, FC7) made only a slight difference to the overall architecture. These layers contained almost 90% of the parameters and when they were removed, the memory consumption decreased to 29.8 MB. But, removing the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) resulted in a dramatic decrease in both accuracy and runtime. This suggested that the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) constituted the main part of the computational resource, and their depth was important for achieving good results. We then investigated the effects of adjusting the sizes of all convolutional layers, and the filters in each convolutional layer were reduced to 64 each time. Surprisingly, all architectures showed significant decreases in running time with relatively small effects on performance. Finally, we determined the convolution kernel numbers of Conv2-Conv5: 64-192-192-64. On the test set of tea field images, the architecture before and after shrinking respectively achieved the average accuracy (AA) of 0.915 and 0.881, respectively, superior to previous methods for pest image recognition. Further, after optimization the running time reduced to 0.7 ms and the memory required was 6 MB.

        pixels; algorithms; identification; pest detection; image saliency analysis; deep learning; convolutional neural network

        10.11975/j.issn.1002-6819.2017.06.020

        S126

        A

        1002-6819(2017)-06-0156-07

        2016-09-19

        2016-02-20

        國家自然科學(xué)基金(31471417);博士點(diǎn)基金項(xiàng)目(20130101110104)

        楊國國,男,河南洛陽人,研究方向?yàn)榇筇锖οx的識(shí)別技術(shù)。杭州 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,310058。Email:ggy@zju.edu.cn

        鮑一丹,女,浙江杭州人,博士,副教授,主要研究方向?yàn)榫?xì)農(nóng)業(yè)領(lǐng)域,現(xiàn)代檢測技術(shù)和自動(dòng)控制、虛擬儀器技術(shù)等。杭州 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,310058。Email:ydbao@zju.edu.cn

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        日韩免费一区二区三区在线| av无码电影一区二区三区| 免费无码又黄又爽又刺激| 极品粉嫩嫩模大尺度无码| 538亚洲欧美国产日韩在线精品| 青草草视频在线观看华人免费| av天堂午夜精品一区| 99久久国产福利自产拍| 色综合久久久久综合999| 国产av精品一区二区三区不卡| 久久久久av综合网成人| 国产精品_国产精品_k频道 | 在线观看精品视频网站| 五月天激情综合网| 人成视频在线观看免费播放| 蜜桃一区二区三区视频| 天天躁日日躁狠狠久久| 亚洲日本欧美产综合在线| 在线观看人成网站深夜免费| 日韩精品无码一区二区三区| 色八区人妻在线视频免费| 青青国产成人久久91| 午夜视频在线观看日本| 日本动漫瀑乳h动漫啪啪免费 | 一 级做人爱全视频在线看| 日本欧美视频在线观看| 日韩av中出在线免费播放网站| 少妇被啪出水在线视频| 亚洲成av人在线播放无码| 国产目拍亚洲精品一区二区| 日本一区二区三区资源视频| 国产亚洲成人精品久久| 久久精品免视看国产成人| 欧美精品aaa久久久影院| 久久一区二区视频在线观看| 在办公室被c到呻吟的动态图| 久久久久国色av∨免费看| 亚洲国产av自拍精选| 日本久久伊人特级黄色| 99精品国产高清一区二区麻豆| 国产国拍亚洲精品永久69|