劉慶飛,張宏立,王艷玲
?
基于深度可分離卷積的實時農(nóng)業(yè)圖像逐像素分類研究
劉慶飛,張宏立,王艷玲
(新疆大學電氣工程學院,烏魯木齊 830047)
【目的】為了提高作物和雜草的識別準確率和實時性,以苗期甜菜田間彩色圖像為研究對象,提出了基于深度可分離卷積的實時農(nóng)業(yè)圖像逐像素分類方法。【方法】本研究使用由農(nóng)業(yè)機器人采集的苗期甜菜田間彩色圖像,通過人工逐像素標注方法將彩色圖像中各個像素點標注為作物、雜草、土壤3個類別,并將單一類別的標注信息分別置于3個不同的圖像通道,構成用于訓練和測試的數(shù)據(jù)集。首先,建立以編碼器-解碼器為基礎的深度可分離卷積神經(jīng)網(wǎng)絡模型,將編碼器部分和解碼器部分進行多尺度合并,由編碼器部分決定像素位置,解碼器部分獲得像素分類;然后,為了解決分類類別覆蓋率不平衡的問題,通過單通道標注信息訓練,提高了低覆蓋率分類類別的準確率,再將多個訓練結果輸出,實現(xiàn)對圖像中的土壤、雜草、作物的識別;為了控制網(wǎng)絡參數(shù)規(guī)模,采用寬度乘數(shù)控制點卷積核的個數(shù),同時在不同分辨率輸入條件下對網(wǎng)絡模型進一步測試,以討論網(wǎng)絡模型的實時性。最后,使用隨機數(shù)據(jù)增強技術擴充數(shù)據(jù)集,數(shù)據(jù)集中的80%用于網(wǎng)絡參數(shù)的訓練,20%用于測試網(wǎng)絡性能?!窘Y果】(1)通過與已有逐像素分類方法比較,本文方法獲得較高的分類準確率。其中,SegNet方法逐像素分類的平均準確率為90.06%,U-Net方法平均準確率為92.06%,三通道標記訓練的本文網(wǎng)絡平均準確率為92.70%,單通道標記訓練的本文網(wǎng)絡平均準確率達94.99%。(2)通過計算不同方法單一類別逐像素分類的各項指標,論證了本文提出的單通道標注信息訓練方法在處理分類類別覆蓋率不平衡和訓練樣本較少情況下的優(yōu)勢。對雜草逐像素分類的準確率,SegNet方法為18.39%,U-Net方法為18.33%,三通道標記訓練的本文網(wǎng)絡為22.87%,單通道標記訓練的本文網(wǎng)絡準確率達41.94%。(3)通過寬度乘數(shù)可以有效控制網(wǎng)絡模型的參數(shù)規(guī)模,當寬度乘數(shù)為1時,參數(shù)尺寸為676.8萬,當寬度乘數(shù)為0.1時,參數(shù)尺寸降低到7.72萬,是原始網(wǎng)絡參數(shù)規(guī)模的1.14%,對土壤、雜草、作物的逐像素分類準確率分別僅降低2.81%、2.78%、3.7%,按照識別精度需求參數(shù)規(guī)模還可以進一步減小。(4)在輸入分辨率和寬度乘數(shù)的共同作用下,討論了網(wǎng)絡的實時處理能力。采用GPU硬件加速對3個類別同時識別的速率可達20 fps,對單一類別識別速率達60 fps??蓾M足農(nóng)業(yè)除草系統(tǒng)和作物監(jiān)測系統(tǒng)實時在線運行?!窘Y論】本文所提出的基于深度可分離卷積的逐像素分類方法,能對農(nóng)業(yè)圖像中的土壤、雜草、作物實施有效逐像素分類,同時該方法能對單一類別逐像素分類進行實時處理,滿足實際系統(tǒng)的應用需求。
作物與雜草識別;深度學習;卷積神經(jīng)網(wǎng)絡;逐像素分類;語義分割
【研究意義】在農(nóng)業(yè)生產(chǎn)過程中,除草劑等農(nóng)藥的大量使用給環(huán)境帶來了極大的危害,減少農(nóng)藥的使用對農(nóng)業(yè)可持續(xù)發(fā)展有著重要意義[1]。傳統(tǒng)施藥過程中,在整個田間均勻噴灑農(nóng)藥是造成農(nóng)藥使用過量的主要因素。而智能化感知除草系統(tǒng)能夠通過傳感器獲取作物和雜草的位置,從而進行選擇性施藥,能夠大量減少農(nóng)藥的使用[2-3]。智能化除草系統(tǒng)需要實時對田間圖像數(shù)據(jù)進行識別,將植物標記為作物或雜草,針對作物與雜草的實時高精度識別的研究至關重要?!厩叭搜芯窟M展】農(nóng)業(yè)圖像中有著大量有用信息,常被用作植物或病蟲害識別[4-6]。當前在作物與雜草識別研究中,基于計算機視覺的分割和識別方法被廣泛采用。傳統(tǒng)的計算機視覺方法根據(jù)作物與雜草的顏色、紋理、形態(tài)特征進行識別。孟慶寬等[7]采用基于二維直方圖的模糊C均值聚類法進行圖像分割,640pixel×480pixel圖片耗時約為16.5 ms,但沒有明確給出分割精度。劉哲等[8]使用時序 EVI(enhanced vegetation index)決策樹分類與高分紋理對玉米進行識別。翟志強等[9]采用Census變換的雙目視覺方法進行作物識別,在非地頭環(huán)境下,作物行中心線的正確識別率不小于92.58%,但此方法對試驗環(huán)境要求較高。王璨等[10]利用融合高度與單目圖像特征的支持向量機模型進行雜草識別,此方法識別精度高,但有效的特征表示難度較大。陳亞軍等[11]基于多特征的雜草逆向定位,使大豆田間雜草識別的準確率為90%以上。趙川源等[12]使用多光譜信息進行雜草識別,但傳感器成本過高,不利于大面積推廣應用。近年來,深度卷積神經(jīng)網(wǎng)絡方法逐步應用于農(nóng)作物與雜草的分割。王璨等[13]使用卷積神經(jīng)網(wǎng)絡提取多尺度分層特征識別玉米雜草,他們從圖像的高斯金字塔中提取多尺度分層特征作為識別依據(jù),再與多層感知器相連接,實現(xiàn)圖像中各像素的識別,平均目標識別準確率達98.92%,單幅圖像的平均耗時縮短為0.72 s。McCool等[14]使用深度卷積神經(jīng)網(wǎng)絡模型對作物與雜草進行分割,獲得了先進的分類性能,同時使用模型壓縮技術減少了模型參數(shù),最終使平均識別精度大于90%,運行速度達到1.83 Hz。Haug等[15]使用蘿卜農(nóng)場的RGB數(shù)據(jù)和近紅外(near infrared,NIR)圖像輸入分割系統(tǒng),通過70幅圖像進行性能評估,使平均準確率達到94%。Potena等[16]使用RGB+NIR數(shù)據(jù)輸入,實現(xiàn)了兩個不同的卷積神經(jīng)網(wǎng)絡對作物和雜草的分類。Milioto等[17]使用多項植被指數(shù)對農(nóng)田彩色圖像進行特征提取,將特征圖像和彩色圖像合并輸入卷積神經(jīng)網(wǎng)絡進行作物與雜草分割,使平均準確率達到80.8%,工作頻率20 Hz左右?!颈狙芯壳腥朦c】前人已在作物和雜草識別方面做了較多的研究工作,并取得了一定研究成果。但傳統(tǒng)方法依然存在處理過程復雜、人工設計的特征提取器識別效果差等缺點,卷積神經(jīng)網(wǎng)絡方法能獲得非常高的識別精度,但已有方法在實時性方面不能達到應用需求。本研究在前人研究的基礎上利用卷積神經(jīng)網(wǎng)絡優(yōu)秀的特征提取能力,并在網(wǎng)絡結構設計中考慮實時性要求,提取基于可分離卷積的實時農(nóng)業(yè)圖像逐像素分類方法,提高作物和雜草的識別效率與識別速度?!緮M解決的關鍵問題】本研究以苗期甜菜圖像為例,設計基于卷積神經(jīng)網(wǎng)絡的土壤、雜草、作物逐像素分類模型,針對數(shù)據(jù)特點設計網(wǎng)絡訓練方案,針對實際應用的實時性要求設計逐像素分類網(wǎng)絡模型壓縮方案。通過與已有同類方法對比和對本研究所設的計網(wǎng)絡模型進行探索試驗,驗證本研究方法的可行性與優(yōu)勢。
本文提出的逐像素分類方法是端到端。這意味著只需要將從農(nóng)業(yè)現(xiàn)場采集好的圖像數(shù)據(jù)送入逐像素分類網(wǎng)絡,并提供輸入數(shù)據(jù)的每個像素語義標記,即可獲得其分類結果。本節(jié)介紹本研究使用的圖像數(shù)據(jù)集和所提出的網(wǎng)絡結構以及訓練方法。
本研究采用2016年春季由德國博士公司的農(nóng)業(yè)機器人在Bonn附近的甜菜農(nóng)場中記錄的RGB圖像數(shù)據(jù)[18]。這些圖像數(shù)據(jù)中已經(jīng)有283張圖像進行了人工標注,圖1-a中所示由JAI相機采集的RGB圖像,圖1-b是對應的原始標注信息。原始標注信息中包含甜菜(紅色)、土壤(黑色)以及雜草(其他顏色,共9種)。
圖1 RGB圖像及其標注圖像
基于研究目標,我們只對雜草、農(nóng)作物以及土壤進行逐像素分類,而不區(qū)分雜草的類別。對原始標注信息進一步處理,將3種類別分別置于圖像的3個不同通道中,以實現(xiàn)不同類別的通道分離,結果如圖1-c所示,其中紅色、綠色、藍色分別代表雜草、作物、土壤的標注信息。
在農(nóng)業(yè)生產(chǎn)中不同時間,不同地點的植被覆蓋率往往差距很大。這也導致處理雜草、農(nóng)作物以及土壤的逐像素分類任務時,各個類別覆蓋率分布不均勻,使得總體分類精度高,覆蓋率較低的類別分類精度差。本研究使用的數(shù)據(jù)集中,各個類別在總體樣本中的覆蓋率如表1所示。其中土壤占93.92%、農(nóng)作物占4.13%、雜草僅占1.95%,并且雜草的標注信息共包含9種不同植物(圖1-b),其形態(tài)差異大,同時可用的訓練樣本少。直接使用3個通道的標注數(shù)據(jù)在同一個網(wǎng)絡中訓練,雜草的識別精度相對較低。
表1 數(shù)據(jù)集信息
針對這個問題,本研究提出單通道語義標記輸入方法。圖2中將每一個種類的語義標記通道通過一個逐像素分類網(wǎng)絡來學習單一分類任務,將一個多分類問題分解成多個二分類問題。圖2-a中白色區(qū)域表示對土壤的逐像素標注信息,黑色區(qū)域表示對非土壤的逐像素標注信息。圖2-b中白色區(qū)域表示對作物的逐像素標注信息,黑色區(qū)域表示對非作物的逐像素標注信息。圖2-c中白色區(qū)域表示對雜草的逐像素標注信息,黑色區(qū)域表示對非雜草的逐像素標注信息。試驗表明,將單通語義標記輸入引入逐像素分類系統(tǒng)中,不僅有助于低覆蓋率分類類別學習網(wǎng)絡參數(shù),而且使網(wǎng)絡具有更好的泛化性能,從而提高農(nóng)作物和雜草的識別精度。
圖2 單通道標注信息
為了評估網(wǎng)絡性能,將使用數(shù)據(jù)集中的80%作為訓練集,20%作為測試集。同時使用數(shù)據(jù)增強技術,在網(wǎng)絡訓練過程中對訓練數(shù)據(jù)進行隨機旋轉(zhuǎn)20°、隨機縮放尺度0.2、隨機剪切0.2以及設置隨機水平翻轉(zhuǎn),并且在整體數(shù)據(jù)集上做標準化處理。
近年來卷積神經(jīng)網(wǎng)絡在圖像分類、目標檢測、圖像分割等領域取得了突破性進展[19]。FCN(fully convolutional networks)[20]的提出使卷積神經(jīng)網(wǎng)絡在圖像語義分割總得到應用。隨后學者提出了多種網(wǎng)絡結構實現(xiàn)更準確的圖像分割任務[21]。本研究在已有研究的基礎上提出基于深度可分離卷積的逐像素分類網(wǎng)絡對農(nóng)業(yè)圖像進行語義分割。
本研究提出了一個端到端的逐像素分類網(wǎng)絡,它可以執(zhí)行準確的分割任務,對土壤、雜草、作物同時識別的運行速度可以達到20 fps以上,單一類別識別速度可以達到60 fps以上。此網(wǎng)絡結構借鑒了U-Net[22]和MobileNet[23]設計思想,網(wǎng)絡結構由編碼器部分和解碼器部分組成。此網(wǎng)絡基于以下模塊構建:
輸入:網(wǎng)絡輸入僅使用RGB圖像數(shù)據(jù)。將原圖重新定義其大小為192×192×3,并對每個通道進行去中心化和標準化操作。輸出結果作為第一個卷積層的輸入。
標準卷積模塊:在網(wǎng)絡輸入層之后和輸出層之前使用3×3常規(guī)卷積層,后面跟著BN[24]層以及RELU層(圖3-a)。
深度可分離卷積模塊[25]:由3×3的深度方向卷積跟著BN層以及RELU層和1×1點卷積層跟著BN層以及RELU層組成,點卷積步長為1(圖3-b)。
反卷積[26]:反卷積用于構成網(wǎng)絡結構中的解碼器部分,對通過編碼的特征圖進行上采樣。為了更好地考慮空間位置信息,進行反卷積操作后的特征圖與解碼器相應部分拼接后再輸出到下一層。
輸出:使用三通道標記數(shù)據(jù)輸入網(wǎng)絡進行訓練時,設置最后一個卷積層的卷積核數(shù)為3,連接一個soft-max激活函數(shù)輸出,用于同時得到土壤、雜草以及農(nóng)作物3個類別的逐像素分類結果。使用單通道標記數(shù)據(jù)輸入網(wǎng)絡進行訓練時,設置最后一個卷積層的卷積核數(shù)為1,連接一個sigmoid激活函數(shù)輸出,用于預測每個像素的分類屬性。對于所描述的單通道語義標記輸入,本質(zhì)上是二分類的,輸出結果表示對應通道中每個像素屬于此通道分類結果的概率。3個單通道網(wǎng)絡獨立訓練,預測階段分別輸出不同類別的二分類結果,最終得到對各個類別的逐像素分類輸出。
圖3 標準卷積模塊和深度可分離卷積模塊
本研究使用上述結構塊來創(chuàng)建圖4中描述的網(wǎng)絡,該網(wǎng)絡由編碼器-解碼器結構組成。其編碼器部分與MobileNets一致,僅去掉了全連接層。同時設置寬度乘數(shù)和分辨率乘數(shù)用于權衡整個網(wǎng)絡參數(shù)規(guī)模、運行速度以及識別精度。解碼器部分由反卷積模塊與深度可分離卷積構成,所有的反卷積操作的卷積核大小為2×2,步長為2,以保證與MobileNets相應層中的特征圖尺度一致。網(wǎng)絡結構中的詳細參數(shù)請參見電子附表1。
本文使用Keras實現(xiàn)了本文在網(wǎng)絡結構中提到的所有模塊[27]。在網(wǎng)絡訓練過程中,使用隨機梯度下降算法作為參數(shù)優(yōu)化器,設置學習率為0.001,動量為0.9,訓練批次為16,在整個訓練集上進行240次訓練。
圖4 網(wǎng)絡結構
單通道標注信息輸入網(wǎng)絡訓練時最后一層激活函數(shù)為sigmoid,定義為公式(1):
式中,表示經(jīng)歸一化的單一類別標注圖像,表示由sigmoid層輸出的預測圖像。
三通道標記輸入訓練時,最后一層激活函數(shù)為soft-max,定義為公式(3):
本研究通過平均交并比(mIoU)、單一類別均交并比(IoU)、精確率(precision)、召回率(recall)對訓練結果進行評估。同時文中所述的準確率均通過交并比指標衡量。且試驗結果中所有的數(shù)據(jù)都是使用NIVIDIA GTX1080TI GPU獲得的。
為了便于與其他卷積神經(jīng)網(wǎng)絡對比,筆者在相同環(huán)境下實現(xiàn)了SegNet[28]以及U-Net網(wǎng)絡,并使用相同的數(shù)據(jù)進行訓練和測試。圖5中給出了不同逐像素分類方法的輸出結果。表2中給出了SegNet方法、U-Net方法以及本文方法在測試數(shù)據(jù)上的各項評估指標。其中也對比了單通道標注輸入和三通道標注輸入在測試集上的各項指標。
圖5 不同方法對測試數(shù)據(jù)逐像素分類輸出結果對比
圖5中不同方法對測試數(shù)據(jù)逐像素分類輸出結果表明,SegNet方法輸出結果能反應預測類別的基本形態(tài),但其形態(tài)邊緣模糊;U-Net方法輸出結果對作物的預測比較準確,其邊緣清晰,但對雜草的預測精度較低,對雜草預測的部分區(qū)域被認為是作物的錯誤分類;使用本文提出的方法通過三通道標記信息訓練網(wǎng)絡,輸出結果顯示出此網(wǎng)絡能夠?qū)﹄s草和作物進行更準確地分類,尤其對雜草類別的分類能力有明顯提高,只有少部分錯誤分類結果出現(xiàn);圖3中最后一列是使用本文所提出的方法先通過單通標記信息分別訓練得到預測結果,而后將3個網(wǎng)絡輸出結果同時呈現(xiàn)在圖(圖5-f)中,其表現(xiàn)出對邊緣預測更加準確,表明本文所使用的方法能夠?qū)D像中的雜草、農(nóng)作物以及土壤進行更有效逐像素分類。
表2表明,SegNet和U-Net對土壤、雜草、農(nóng)作物具有一定的逐像素分類能力,但對雜草的逐像素分類性能不佳。使用三通道標注信息輸入對本文所提出的逐像素分類網(wǎng)絡進行訓練,對雜草和作物的分類性能上有一定的提升,此方法在土壤和作物精確率指標上獲得最高精確率,但在雜草的準確率以及召回率仍然保持著較低的水平。使用單通道標注信息輸入對本文所提出的逐像素分類網(wǎng)絡進行訓練,在測試結果上,除土壤和作物精確率指標有所降低,其余各項評估指標均有提升,尤其在雜草分類性能上有明顯的提高,論證了使用單通道標注信息輸入訓練網(wǎng)絡,有助于提高形態(tài)差異較大且覆蓋率較小的雜草類別的逐像素分類精度。
文獻[23]中論述了深度可分離卷積可以大量減少網(wǎng)絡參數(shù)。點卷積部分占有大部分參數(shù),因此論文中提出使用寬度乘數(shù)來控制點卷積的個數(shù),用以進一步減小網(wǎng)絡參數(shù)規(guī)模。本試驗通過編碼器部分設置不同的寬度乘數(shù)觀察網(wǎng)絡對土壤、雜草以及作物的逐像素分類準確率的影響以及網(wǎng)絡參數(shù)尺度的變化。表3中給出了不同寬度乘數(shù)條件下逐像素分類網(wǎng)絡對測試數(shù)據(jù)輸出準確率以及相對應的參數(shù)規(guī)模。
對比表3中結果,原始網(wǎng)絡參數(shù)規(guī)模達到6.768×106。隨著寬度乘數(shù)的下降,網(wǎng)絡參數(shù)規(guī)模大幅減小。寬度乘數(shù)下降到0.25時,網(wǎng)絡參數(shù)已下降到4.55×105,但準確率沒有下降反而上升,這表明本文提出的逐像素分類網(wǎng)絡容量大,對復雜問題有較強的泛化能力。當寬度乘數(shù)下降到0.1時,準確率有小幅下降,網(wǎng)絡參數(shù)下降至7.72×104。網(wǎng)絡乘數(shù)下降至0.05時,網(wǎng)絡參數(shù)僅有2.16×104,雜草的準確率下降了9.97%,其結果仍然優(yōu)于表2給出的前3種方法。
表2 不同方法在測試數(shù)據(jù)中的表現(xiàn)
表3 參數(shù)乘數(shù)對準確率和參數(shù)量的影響
為了測試本文方法的實時性,對本文提出的逐像素分類網(wǎng)絡設置不同的寬度乘數(shù),同時對輸入圖像設置不同的分辨率,分別訓練后再對測試數(shù)據(jù)進行預測,記錄運行頻率,試驗結果如表4所示。表中數(shù)據(jù)表明,在相對應的寬度乘數(shù)和分辨率條件下,本文所提出的逐像素分類網(wǎng)絡計算頻率可達20 fps,單一類別計算頻率可達60 fps。
表4 寬度乘數(shù)與輸入分辨率對運行頻率的影響
傳統(tǒng)方法處理進行圖像分割需要經(jīng)過圖像預處理、特征提取、特征分類等步驟。其中每一個環(huán)節(jié)對最終精度有著很大的影響。已有的深度卷積神經(jīng)網(wǎng)絡方法需要額外傳感器以提高識別精度,而且網(wǎng)絡模型參數(shù)規(guī)模較大不利于實時在線進行圖像逐像素分類。
本研究利用卷積神經(jīng)網(wǎng)絡結構實現(xiàn)以編碼器-解碼器為基礎的逐像素分類網(wǎng)絡模型。該模型直接接受原始的攝像機采樣圖像,無需對其做任何預處理和數(shù)據(jù)轉(zhuǎn)換,避免了因此帶來的信息損失。利用RGB圖像輸入,無需多光譜相機和NIR相機進行輔助預測,有效地降低了設備制造成本。編碼器部分進行大量特征自學習,不依賴任何人工設計的特征。解碼器部分通過反卷積操作實現(xiàn)對特征圖的上采樣,同時結合編碼器部分局部特征輸出,獲得對雜草與作物在空間位置上的準確預測。此網(wǎng)絡實現(xiàn)了對作物、雜草和土壤的逐像素分類,平均準確率達到94.99%。
應用本研究提出的網(wǎng)絡結構和單通道標注輸入訓練方法,能夠有效解決小覆蓋率樣本識別準確度差的問題,為解決樣本不平衡問題提供了新思路。此方法將多分類問題分解成多個二分類問題,這對本文研究成果實際應用與部署有著十分重要的意義。同時此方法不僅能提高識別精度,而且能進一步減小網(wǎng)絡參數(shù)規(guī)模,提高運行效率。
通過對本研究所使用的數(shù)據(jù)集進行統(tǒng)計分析得到數(shù)據(jù)集中最大植被覆蓋率為29.15%、最小覆蓋率為0.41%、平均覆蓋率為6.08%,表明此方法網(wǎng)絡輸入圖像的植被覆蓋率至少在0.41%到29.15%有效。
通過對雜草、作物和土壤識別準確率的對比,得出覆蓋率高的分類類別識別準確率較高,反之亦然。本研究所使用的數(shù)據(jù)中雜草的覆蓋率較低,所以相對其他類別識別精度較低,這也符合實際應用中分類類別不平衡的具體情況,其識別精度可以滿足應用需求。
深度可分離卷積與編碼器-解碼器結構相結合的方法不僅有效提高了逐像素分類精度,而且可以通過寬度乘數(shù)以及輸入分辨率權衡網(wǎng)絡參數(shù)規(guī)模、識別精度以及運行時間的關系。試驗結果表明,在NVIDIA GTX1080ti GPU加速條件下,對土壤、雜草、作物同時識別的運行速度可以達到20 fps以上,單一類別識別速度可以達到60 fps以上。
為了提高土壤、雜草、農(nóng)作物識別的準確率和實時性,探索具有實用價值的作物和雜草識別方法,本研究提出了基于深度可分離卷積神經(jīng)網(wǎng)絡對農(nóng)業(yè)圖像進行逐像素分類。該方法對土壤、雜草、作物的平均識別精度達到94.99%,3個通道同時識別的速度可以達到20 fps以上,單一通道識別速度可以達到60 fps以上,為智能化除草設備和智能化作物監(jiān)測設備提供有益的參考。
[1] 齊月, 李俊生, 閆冰, 鄧貞貞, 付剛. 化學除草劑對農(nóng)田生態(tài)系統(tǒng)野生植物多樣性的影響. 生物多樣性, 2016, 24(2): 228-236.
Qi Y, Li J S, Yan B, Deng Z Z, Fu G. Impact of herbicides on wild plant diversity in agro-ecosystems: A review., 2016, 24(2): 228-236. (in Chinese)
[2] 張小龍, 謝正春, 張念生, 曹成茂. 豌豆苗期田間雜草識別與變量噴灑控制系統(tǒng). 農(nóng)業(yè)機械學報, 2012, 43(11): 220-225, 73.
ZHANG X L, XIE Z C, ZHANG N S, CAO C M. Weed recognition from pea seedling images and variable spraying control system., 2012, 43(11): 220-225, 73. (in Chinese)
[3] 徐艷蕾, 包佳林, 付大平, 朱熾陽. 多噴頭組合變量噴藥系統(tǒng)的設計與試驗. 農(nóng)業(yè)工程學報, 2016, 32(17): 47-54.
XU Y L, BAO J L, FU D P, ZHU Z Y. Design and experiment of variable spraying system based on multiple combined nozzles., 2016, 32(17): 47-54. (in Chinese)
[4] 魏全全, 李嵐?jié)? 任濤, 王振, 王少華, 李小坤, 叢日環(huán), 魯劍巍. 基于數(shù)字圖像技術的冬油菜氮素營養(yǎng)診斷. 中國農(nóng)業(yè)科學, 2015, 48(19): 3877-3886.
WEI Q Q, LI L T, REN T, WANG Z, WANG S H, LI X K, CONG R H, LU J W. Diagnosing nitrogen nutrition status of winter rapeseeddigital image processing technique., 2015, 48(19): 3877-3886. (in Chinese)
[5] 劉濤, 仲曉春, 孫成明, 郭文善, 陳瑛瑛, 孫娟. 基于計算機視覺的水稻葉部病害識別研究. 中國農(nóng)業(yè)科學, 2014, 47(4): 664-674.
LIU T, ZHONG X C, SUN C M, GUO W S, CHEN Y Y, SUN J. Recognition of rice leaf diseases based on computer vision., 2014, 47(4): 664-674. (in Chinese)
[6] 唐俊, 鄧立苗, 陳輝, 欒濤, 馬文杰. 基于機器視覺的玉米葉片透射圖像特征識別研究. 中國農(nóng)業(yè)科學, 2014, 47(3): 431-440.
TANG J, Deng L M, CHEN H, LUAN T, MA W J. Research on maize leaf recognition of characteristics from transmission image based on machine vision., 2014, 47(3): 431-440. (in Chinese)
[7] 孟慶寬, 何潔, 仇瑞承, 馬曉丹, 司永勝, 張漫, 劉剛. 基于機器視覺的自然環(huán)境下作物行識別與導航線提取. 光學學報, 2014, 34(7): 172-178.
MENG Q K, HE J, QIU R C, MA X D, SI Y S, ZHANG M, LIU G. Crop recognition and navigation line detection in natural environment based on machine vision., 2014, 34(7): 172-178. (in Chinese)
[8] 劉哲, 李智曉, 張延寬, 張超, 黃健熙, 朱德海. 基于時序EVI決策樹分類與高分紋理的制種玉米識別. 農(nóng)業(yè)機械學報, 2015, 46(10): 321-327.
LIU Z, LI Z X, ZHANG Y K, ZHANG C, HUANG J X, ZHU D H. Seed maize identification based on time-series EVI decision tree classification and high resolution remote sensing texture analysis., 2015, 46(10): 321-327. (in Chinese)
[9] 翟志強, 朱忠祥, 杜岳峰, 張碩, 毛恩榮. 基于Census變換的雙目視覺作物行識別方法. 農(nóng)業(yè)工程學報, 2016, 32(11): 205-213.
ZHAI Z Q, ZHU Z X, DU Y F, ZHANG S, MAO E R. Method for detecting crop rows based on binocular vision with Census transformation., 2016, 32(11): 205-213. (in Chinese)
[10] 王璨, 李志偉. 利用融合高度與單目圖像特征的支持向量機模型識別雜草. 農(nóng)業(yè)工程學報, 2016, 32(15): 165-174.
WANG C, LI Z W. Weed recognition using SVM model with fusion height and monocular image features., 2016, 32(15): 165-174. (in Chinese)
[11] 陳亞軍, 趙博, 李樹君, 劉磊, 苑嚴偉, 張延立. 基于多特征的雜草逆向定位方法與試驗. 農(nóng)業(yè)機械學報, 2015, 46(6): 257-262.
CHEN Y J, ZHAO B, LI S J, LIU L, YUAN Y W, ZHANG Y L. Weed reverse positioning method and experiment based on multi-feature., 2015, 46(6): 257-262. (in Chinese)
[12] 趙川源, 何東健, 喬永亮. 基于多光譜圖像和數(shù)據(jù)挖掘的多特征雜草識別方法. 農(nóng)業(yè)工程學報, 2013, 29(2): 192-198.
ZHAO C Y, HE D J, QIAO Y L. Identification method of multi-feature weed based on multi-spectral images and data mining., 2013, 29(2): 192-198. (in Chinese)
[13] 王璨, 武新慧, 李志偉. 基于卷積神經(jīng)網(wǎng)絡提取多尺度分層特征識別玉米雜草. 農(nóng)業(yè)工程學報, 2018, 34(5): 144-151.
WANG C, WU X H, LI Z W. Recognition of maize and weed based on multi-scale hierarchical features extracted by convolutional neural network., 2018, 34(5): 144-151. (in Chinese)
[14] Mccool C S, Perez T, Upcroft B. Mixtures of lightweight deep convolutional neural networks: applied to agricultural robotics., 2017, 2(3): 1344-1351.
[15] Haug S, Michaels A, Biber P, Ostermann J. Plant classification system for crop/weed discrimination without segmentation//. IEEE, 2014: 1142-1149.
[16] Potena C, Nardi D, Pretto A. Fast and accurate crop and weed identification with summarized train sets for precision agriculture//. Springer, 2016: 105-121.
[17] Milioto A, Lottes P, Stachniss C. Real-time semantic segmentation of crop and weed for precision agriculture robots leveraging background knowledge in CNNs//. IEEE, 2018: 1-6.
[18] Chebrolu N, Lottes P, Schaefer A, Winterhalter W, Burgard W. Agricultural robot dataset for plant classification, localization and mapping on sugar beet fields., 2017, 36(10): 1045-1052.
[19] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡研究綜述. 計算機學報, 2017, 40(6): 1229-1251.
ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network., 2017, 40(6): 1229-1251. (in Chinese)
[20] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation//. IEEE Computer Society, 2015: 3431-3440.
[21] Garcia-Garcia A, Orts-Escolano S, Oprea S, VILLENA- MARTINEZ V, GARCIA-RODRIGUEZ J. A review on deep learning techniques applied to semantic segmentation(2017-4-22)[2018-09- 26]. https://arxiv.org/abs/1704.06857.
[22] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation//. Springer, 2015: 234-241.
[23] Howard A G, Zhu M, Chen B, KALENICHENKO D, WANG W J, WEYAND T, ANDREETTO M, ADAM H. MobileNets: Efficient convolutional neural networks for mobile vision applications. (2017-04-17) [2018-09-26]. https://arxiv.org/abs/1704.04861.
[24] Ioffe S, Szegedy C. Batch Normalization: Accelerating deep network training by reducing internal covariate shift//. IMLS, 2015: 448-456.
[25] Chollet F. Xception: Deep learning with depthwise separable convolutions//. IEEE Computer Society, 2017: 1800-1807.
[26] Zeiler M D, Taylor G W, Fergus R. Adaptive deconvolutional networks for mid and high level feature learning//. IEEE Computer Society, 2011: 2018-2025.
[27] Chollet F.KerasGitHub repository.(2017-03-15) [2018-9-26]https://github.com/fchollet/keras.
[28] Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for scene segmentation.(2016-10-10)[2018-09-26]. https://arxiv.org/abs/1511.00561.
(責任編輯 楊鑫浩)
Real-time Pixel-wise classification of agricultural images based on depth-wise separable convolution
Liu QingFei, Zhang HongLi, Wang YanLing
(School of Electrical Engineering, Xinjiang University, Urumqi 830047)
【Objective】In order to improve the accuracy and real time recognition of crops and weeds, the field color image of seedling beet was taken as the research object, and a pixel-wise classification method based on deep separable convolution was proposed.【Method】In this paper, the field color image of the seedling beet was used, the pixels in the color image were tagged into three categories of crops, weeds and soil by the manual pixel marking method, and the single classification information was placed in three different image channels, which was used for training and testing. First, a deep separable convolution neural network model based on encoder and decoder was set up. The encoder part and decoder part were merged in multi scale. The pixel location was determined by the encoder part, and the decoder part got the pixel classification. In order to solve the problem of the unbalance of the coverage rate of the classification category, the single channel standard was used. In order to control the size of the network parameters, the number of the point convolution kernel was controlled by the width multiplier and the network was used under the different resolution input conditions to control the network parameters. The model was further tested to discuss the real-time performance of the network model. Finally, we used random data enhancement technology to expand data sets, 80% of the data sets were used for training network parameters, and 20% of them were used to test network performance. 【Result】(1) Compared with the existing pixel-wise classification method, the proposed method achieved higher classification accuracy. The average accuracy rate of the SegNet method was 90.06%, the average accuracy of the U-Net method was 92.06%, the average accuracy rate of the three channel marking training was 92.70%, and the average network accuracy of the single channel marking training was 94.99%. (2)The advantages of the single channel annotation information training method in dealing with the unbalance of classified category coverage and the less training samples were demonstrated by calculating the indexes of the single category by pixel classification by different methods. The accuracy rate of weeds pixel-wise classification SegNet method was 18.39%, U-Net method was 18.33%, the network of three channel marking training was 22.87%, and the network accuracy of single channel marking training was 41.94%. (3) The parameter size of the network model could be effectively controlled by the width multiplier. When the width multiplier was 1, the parameter size was 6.768 million, and the parameter size was reduced to 77.2 thousand when the width multiplier was 0.1. It was 1.14% of the original network parameter scale, and the accuracy rate for the classification of soil, weeds and crops was only 2.81%, 2.78% and 3.7%, respectively. According to the accuracy requirement, the scale of parameters could be further reduced. (4) Under the combined action of input resolution and width multiplier, the real-time processing capability of the network was discussed. Using GPU hardware acceleration, the rate of simultaneous recognition of three classes could reach 20 fps, and the rate of single class recognition was 60 fps. It could satisfy the real-time operation of agricultural weeding system and crop monitoring system. 【Conclusion】The pixel-wise classification method based on deep separable convolution proposed in this paper could effectively classify the soil, weeds and crops in agricultural images. At the same time, this method could deal with a single category by pixel classification in real time to meet the needs of the actual system.
crop and weed recognition; deep learning; convolutional neural networks; pixel-wise classification; semantic segmentation
2018-04-11;
2018-07-31
國家自然科學基金(51767022)
劉慶飛,E-mail:892483452@qq.com。 通信作者張宏立,E-mail:1606829274@qq.com
10.3864/j.issn.0578-1752.2018.19.005