陳 旸
漳州職業(yè)技術(shù)學(xué)院 文智能制造學(xué)院,福建漳州 363000
計算機視覺在植物病蟲害識別、品種檢測等農(nóng)業(yè)領(lǐng)域的應(yīng)用越來越廣泛[1-2]。農(nóng)業(yè)害蟲影響作物生長,導(dǎo)致作物產(chǎn)量下降,因此農(nóng)作物生長早期的蟲害防治十分重要。傳統(tǒng)防治蟲害技術(shù)的局限性較大,人工觀測方法很難獲得不同類型作物的害蟲類型、害蟲特征和種群密度等準確信息。為了突破這些局限性,利用計算機視覺技術(shù),如圖像處理、機器學(xué)習(xí)算法檢測害蟲攻擊,在小麥、大豆和水稻等作物害蟲防控方面發(fā)揮了巨大作用[3]。
在圖像處理中使用特征提取和分類算法對害蟲進行自動識別和分類[4]。有關(guān)學(xué)者提出了一種基于形狀和顏色特征的昆蟲自動識別方法識別蝗蟲和蝴蝶。HOG特征已成功用于行人檢測、人臉識別和昆蟲檢測[5]。使用HOG的最大穩(wěn)定極值區(qū)(MSER)算法在麥田中檢測不同顏色和密度的蚜蟲,從蚜蟲的雄性和雌性訓(xùn)練樣本中提取HOG特征,提高了蚜蟲檢測的準確性。
利用機器學(xué)習(xí)處理多維害蟲特征數(shù)據(jù),提取有效信息,可以提高對外觀相似害蟲的分類精度。利用圖像處理技術(shù)從害蟲圖像中提取特征,并利用機器學(xué)習(xí)算法建立分類模型。分析不同特征對害蟲的分類作用,利用基礎(chǔ)分類器和集成分類器對害蟲分類系統(tǒng)進行了不同特征組合的訓(xùn)練。
應(yīng)用計算機視覺技術(shù)識別和分類不同害蟲,分為圖像采集和預(yù)處理、特征提取、分類、多數(shù)投票和分類結(jié)果評價等階段。基礎(chǔ)分類器和集成分類器等機器學(xué)習(xí)算法分別應(yīng)用于不同的特征組合,最后采用多數(shù)投票策略提高分類結(jié)果的準確性。應(yīng)用集成分類器從害蟲圖像中提取合適的特征,提高了分類精度,有助于農(nóng)民防控蟲害,提高生產(chǎn)力。
研究使用的數(shù)據(jù)集來自中國科學(xué)院合肥物質(zhì)科學(xué)研究院農(nóng)業(yè)病蟲害研究圖庫,利用水稻等農(nóng)作物的害蟲圖像數(shù)據(jù)集對不同的害蟲種類進行分類。然后對害蟲圖像進行預(yù)處理,重新調(diào)整至300×255像素大小進行特征提取,部分害蟲樣本圖像見圖1。
圖1 部分害蟲樣本圖像
特征包含害蟲圖像的紋理和顏色等信息。從害蟲圖像中提取了最顯著的紋理、顏色、HOG和GIST特征,并由這些特征組合形成特征向量。
1.2.1 紋理特征提取表面紋理是昆蟲分類和識別的重要因素。GLCM(灰度共生矩陣)是一種提取紋理特征的統(tǒng)計方法,統(tǒng)計分析灰度值為“x”的像素及其具有一定空間關(guān)系的灰度值為“y”的像素在指定區(qū)域出現(xiàn)的次數(shù)。由于灰度共生矩陣的數(shù)據(jù)量較大,一般不直接作為區(qū)分紋理的特征,而是基于其構(gòu)建的一些統(tǒng)計量作為紋理分類特征。此處采用3種基于灰度共生矩陣計算而來的統(tǒng)計量,即能量A、熵E、對比度C作為二階統(tǒng)計測度:
1.2.2 顏色特征提取使用顏色直方圖從害蟲圖像中提取顏色特征。從預(yù)處理后的RGB彩色害蟲圖像中提取出單個的紅、綠、藍通道,獲得3個獨立的二維矩陣,每個顏色通道對應(yīng)1個。數(shù)據(jù)集圖像的RGB顏色通道見圖2。利用MATLAB中直方圖函數(shù),確定紅、綠、藍通道的直方圖計數(shù)值,并將其作為昆蟲圖像的3個主要顏色特征。
圖2 RGB顏色通道
1.2.3 HOG特征提取HOG(定向梯度直方圖)特征提取分3個階段進行,即梯度計算、直方圖生成和塊歸一化。將昆蟲圖像劃分為16×16像素,對圖像進行重疊分塊,共分成105塊,每個塊包含2×2個單元格,大小為8×8像素,確定每個塊的梯度方向和大?。?/p>
式(4)中,Gx和Gy分別表示像素點沿圖像x和y方向的梯度,則梯度的大小為:
梯度方向為:
將梯度方向分布至9個角度區(qū)間,并計算每個塊的梯度直方圖,生成9維向量。將所有塊的梯度直方圖向量作歸一化處理并進行級聯(lián),生成包含3 780個特征的向量。
1.2.4 GIST特征提取GIST使用全局特征信息對場景進行識別與分類,采用開放度、粗糙度和險峻度等5個描述指標(biāo)表示場景的空間包絡(luò)特征,不需要對圖像進行分割和局部特征提取,可以實現(xiàn)快速場景識別與分類。GIST描述符是全局圖像描述符,圖像搜索的效率極高,能提升縮放、裁剪和壓縮算法的精度。GIST特征的計算方法是將昆蟲圖像與32個Gabor濾波器在4個卷積尺度、8個方向上進行卷積,生成32個特征圖。每個特征圖被劃分為16個區(qū)域(4×4網(wǎng)格),并為每個區(qū)域確定特征圖的平均值。將所有32個特征圖的16個平均值連接起來,得到1個512(16×32=512)的GIST特征:
式(7)中,gmn(x,y)表示具備卷積尺度為m,方向為n的Gabor函數(shù),cat表示濾波器組。
昆蟲分類中最常用的機器學(xué)習(xí)算法是LDA、NB、SVM、決策樹、RF、神經(jīng)網(wǎng)絡(luò)和最近鄰算法。根據(jù)從昆蟲圖像中提取的紋理、顏色、HOG和GIST等特征對昆蟲進行分類。所有這些特征集形成一個特征向量,并應(yīng)用于分類器以識別昆蟲的種類。所使用的基本分類器是NB、SVM、KNN和MLP,RF算法、裝袋算法和XGBoost算法作為集成分類器。與基礎(chǔ)分類器相比,集成分類器結(jié)合多個基礎(chǔ)分類器,提高了分類精度。
對基礎(chǔ)分類器和集成分類器的結(jié)果采用多數(shù)投票策略優(yōu)化,以提高分類性能。對于不同的分類器算法h1(X),h2(X),…,hn(X)。多數(shù)投票策略綜合所有單個分類器結(jié)果C(X)=BM{h1(X),h2(X),…,hn(X)},將得票最多的分類結(jié)果作為最終的分類結(jié)果。
利用害蟲數(shù)據(jù)集進行分類性能測試,采用圖像增強技術(shù)擴大數(shù)據(jù)集,將害蟲數(shù)據(jù)集分為70%的訓(xùn)練數(shù)據(jù)集和30%的測試數(shù)據(jù)集。表1描述了所有害蟲數(shù)據(jù)集的詳細信息。
表1 害蟲數(shù)據(jù)集詳細信息
從害蟲圖像中提取3個紋理特征(對比度、能量、熵)、3個顏色特征(紅、綠、藍通道的最大直方圖計數(shù))、HOG和GIST特征,并將這些特征應(yīng)用于分類器進行訓(xùn)練。所有的特征提取方法都在MATLAB 2017a中執(zhí)行,并選擇SKLEARN機器學(xué)習(xí)框架進行分類。分別應(yīng)用4個基礎(chǔ)分類器(NB、SVM、KNN和MLP)和3個集成分類器(RF、Bagging和XGBoost)對害蟲進行分類。將昆蟲數(shù)據(jù)集分為k個子組,其中,1個子組作為測試集,其他k-1個子組作為訓(xùn)練集。
2.2.1 基礎(chǔ)分類器分類性能分析首先應(yīng)用NB、SVM、KNN和MLP等基礎(chǔ)分類器針對害蟲圖像的紋理、顏色、HOG和GIST特征進行分類。單一特征(紋理、顏色、HOG和GIST)進行分類比較困難,因為其結(jié)果之間的區(qū)別不顯著,所以綜合考慮多種特征組合。通過對比,KNN算法和MLP算法對紋理+顏色特征的分類效果較好,而SVM對數(shù)據(jù)集HOG特征的識別效果優(yōu)于其他分類器(表2)。HOG和GIST的特征組合提高了分類器的區(qū)分度,這2種特征對害蟲分類的價值較高。這一結(jié)果證實了使用低水平特征可以提供有效的空間尺度信息,而無需從數(shù)據(jù)集進行分割。因此,GIST能夠快速體現(xiàn)局部特征,提高對害蟲的識別能力。
表2 基礎(chǔ)分類器分類結(jié)果
2.2.2 集成分類器分類性能分析為了獲得更好的分類精度,使用RF、Bagging和XGBoost算法對害蟲數(shù)據(jù)集進行分類。在RF方法中,選擇100棵隨機決策樹,采用快速決策樹學(xué)習(xí)器(REPTree)和J48決策樹分別作為Bagging學(xué)習(xí)算法和XGBoost算法的基礎(chǔ)學(xué)習(xí)算法。從表3可以看出,在不同的特征組合下,RF分類器均優(yōu)于其他2個集成分類器(Bagging和XGBoost)。此外,RF分類器還可以在更短的時間內(nèi)完成大量特征數(shù)據(jù)的處理。相比之下,Bagging算法的分類準確率比其他2種算法都低。
表3 集成分類器分類結(jié)果
對所有基礎(chǔ)分類器和集成分類器的組合特征分類結(jié)果進行多數(shù)投票。從表4可以看出,當(dāng)結(jié)合RF、Bagging和XGBoost等集成分類器時,多數(shù)投票結(jié)果具有更高的分類精度,特征組合中包含的特征越多,多數(shù)投票的分類結(jié)果越好。
表4 多數(shù)投票決策分類結(jié)果
針對害蟲數(shù)據(jù)集,開發(fā)了一種利用機器學(xué)習(xí)算法對農(nóng)業(yè)害蟲進行識別和分類的方法。利用基礎(chǔ)分類器(NB、SVM、KNN和MLP)和集成分類器(RF、Bagag和XGBoost)分析了紋理、顏色、HOG和GIST等所有特征的不同組合,通過對基礎(chǔ)分類器和集成分類器進行多數(shù)投票,提高了分類精度。
試驗結(jié)果證實,在集成分類器中,多數(shù)投票的性能優(yōu)于以往的方法。結(jié)合紋理、顏色、HOG和GIST等特征,多數(shù)投票策略的結(jié)果正確率達到92.09%。由于同種類害蟲的分類特征相似,區(qū)分同種類害蟲比較困難,因此需要更多的訓(xùn)練樣本進行訓(xùn)練。試驗結(jié)果證明了在集成分類器中進行多數(shù)投票的有效性,可以為農(nóng)作物種植的早期蟲害防控提供可靠的判斷依據(jù),深度學(xué)習(xí)算法將用于訓(xùn)練更高效的害蟲識別模型,以提高實時害蟲數(shù)據(jù)的分類性能。