摘要:水稻是我國主要的農業(yè)糧食產物,害蟲嚴重影響水稻的產量和質量。為了快速、準確地識別水稻害蟲,針對現(xiàn)有傳統(tǒng)識別算法中需要依賴大量訓練樣本、訓練時間長等問題,提出一種基于孿生多尺度空洞膠囊網(wǎng)絡( multi-scale dilated capsule siamese network,MSDCSNet)的水稻害蟲識別方法。首先,該方法采用3個空洞Inception模塊依次提取圖像的多尺度卷積特征;其次,由膠囊網(wǎng)絡進一步提取特征向量,構建圖像的特征向量對;然后通過孿生網(wǎng)絡計算每對向量圖像的余弦相似度進行害蟲識別,該方法集合多尺度空洞卷積、膠囊網(wǎng)絡和孿生網(wǎng)絡的優(yōu)勢,可有效克服深度卷積網(wǎng)絡需要大樣本、訓練時間長等問題;最后在一個自建的水稻害蟲小樣本數(shù)據(jù)集上進行測試,實現(xiàn)對水稻5種常見害蟲(稻蝗、稻縱卷葉螟、稻棘緣蝽、二化螟、稻飛虱)的識別,平均識別率達到95.6%,與VGG19算法、ACapsNet算法相比,識別率分別提高20.8、3.6百分點。結果表明,該方法在小訓練樣本集中,具有較強的魯棒性和較高的識別率,可實現(xiàn)對水稻害蟲的精確識別,為其他農作物的害蟲識別提供參考。
關鍵詞:水稻害蟲識別;尺度空洞卷積;膠囊網(wǎng)絡;孿生網(wǎng)絡;多尺度空洞膠囊孿生網(wǎng)絡
中圖分類號:TP391.41;S126文獻標志碼:A
文章編號:1002-1302(2024)11-0231-07
我國是農業(yè)大國,水稻是我國重要的農作物之一,提高水稻產量和質量對國家的糧食安全、農民增收和國民經(jīng)濟具有重要意義,水稻害蟲是降低水稻質量和產量的重要因素[1]。傳統(tǒng)病蟲害識別方法已不能滿足智慧農業(yè)需求,而基于圖像處理技術的農作物害蟲識別可快速精確地協(xié)助農業(yè)人員做好有效的防治措施[2-3]。因為農作物害蟲具有各種形狀、姿態(tài)和復雜的背景,所以研究農作物害蟲檢測和識別是一件重要且具有挑戰(zhàn)性的研究課題。
深度學習在復雜圖像的分割和特征提取方面有著明顯的優(yōu)勢,在圖像檢測和識別等方面都優(yōu)于目前最有效的傳統(tǒng)模式識別算法[4]。其中,卷積神經(jīng)網(wǎng)絡(CNN)在圖像識別、分割、檢測和檢索等多種任務中取得顯著的識別效果,但卷積核的大小對CNN有較大的影響[5]。為了解決傳統(tǒng)CNN的缺點,Sabour等提出膠囊網(wǎng)絡(CapsNet),該方法通過封裝識別目標的狀態(tài)特征并轉變成矢量,包括將顏色、形狀、位置、紋理、角度等都編碼成矢量方向,在識別率和速度上優(yōu)勢明顯[6-8]。丁永軍等結合VGG-16模型提高檢測精度和膠囊網(wǎng)絡的同變特性,設置合理的模型參數(shù),在百合病害檢測中取得較好的檢測效果[9]。張會敏等在膠囊網(wǎng)絡的基礎上,提出基于注意力膠囊網(wǎng)絡的作物病害識別方法,該方法將注意力機制引入到膠囊網(wǎng)絡中,可提高網(wǎng)絡的特征表達與特征提取能力[10]。溫長吉等將注意力機制引入膠囊網(wǎng)絡模型,使用局部約束動態(tài)路由算法,降低計算量,并在植物識別中獲得較高的識別率[11]。
膠囊網(wǎng)絡雖然克服了CNN失去空間位置信息的不足,但和CNN一樣都依賴于大量的訓練樣本[12]。孿生神經(jīng)網(wǎng)絡(siamese)能夠克服CNN和CapsNet依賴于大量訓練樣本的問題。孿生網(wǎng)絡通過共享權值來實現(xiàn),能夠從已有的類別中學習特征的相似性度量,準確判斷2個相似的樣本,還能利用先驗知識識別新樣本的類別[13-14],在樣本類別多而每類的訓練樣本較少的情況下取得較好的效果[15]。
針對目前水稻害蟲葉片圖像較少,蟲斑大小、形狀、顏色、背景、亮度等環(huán)境差異較大,提出一種融合孿生網(wǎng)絡和多尺度膠囊網(wǎng)絡的水稻害蟲識別算法,進而減少對模型訓練樣本量的依賴,實現(xiàn)在有限訓練樣本中獲取到多類別樣本間的共同特征,并在水稻5種害蟲的不同樣本環(huán)境下進行試驗,來驗證本研究算法的有效性。
1 孿生多尺度空洞膠囊網(wǎng)絡
針對深度CNN模型訓練參數(shù)多,需要大量訓練樣本,但從大田水稻種植園難以采集到足夠的害蟲葉片圖像,導致基于CNN及其改進模型的水稻害蟲識別方法的訓練性能較差,容易出現(xiàn)過擬合等問題,提出一種多尺度空洞膠囊孿生網(wǎng)絡(MSDCSNet),應用于水稻害蟲識別。
1.1 相關技術
1.1.1 空洞Inception模塊
Inception是一個多尺度卷積網(wǎng)絡模塊[16],能夠并行組合不同的卷積層,由不同卷積層提取的特征在深度維度上拼接以形成更深的矩陣,用來獲取目標不同尺度特征,Inception模塊結構見圖1。但在卷積神經(jīng)網(wǎng)絡中,可以利用空洞卷積代替Inception模塊中的卷積,構建一種空洞Inception模塊,其結構見圖2。
1.1.2 膠囊網(wǎng)絡層
CapsNet以膠囊層為數(shù)據(jù)處理單元,采用動態(tài)路由算法在膠囊層之間傳輸數(shù)據(jù),具有比CNN更好的特征表達能力。CapsNet由編碼器和解碼器組成[10]。膠囊編碼器與解碼器見圖3。膠囊與神經(jīng)元差異見表1。
膠囊基本結構如圖4所示, 卷積模塊用于從輸入圖像中提取分類特征,主膠囊模塊用于將提取的分類特征表示轉換為特征矢量,在數(shù)字膠囊模塊中使用動態(tài)路由算法來實現(xiàn)網(wǎng)絡參數(shù)的更新,避免因池化操作而造成的損失,最終輸出特征向量,其長度為測試樣本屬于某一類的概率。
1.1.3 孿生網(wǎng)絡
孿生網(wǎng)絡是通過同一個嵌入網(wǎng)絡將2個圖像的圖像級特征映射成2個向量,根據(jù)2個向量的絕對差值,代表2個圖象的相似度[17-18]。孿生網(wǎng)絡結構見圖5。孿生網(wǎng)絡通過2個具有相同結構、共享權重的CNN模型提取2個輸入圖像的特征向量,然后通過最小化相同類別之間的損失,同時最大化不同類別的樣本的損失訓練模型參數(shù),再通過迭代訓練得到能夠判別2個樣本是否相似的網(wǎng)絡,最后計算2組特征向量的相似度,進行樣本分類識別。
1.2 基于孿生多尺度空洞膠囊網(wǎng)絡模型的水稻害蟲識別方法
針對實際大田作物害蟲葉片圖像較少,包含遮擋和復雜背景,害蟲葉片圖像病斑的大小、形狀和顏色等差異較大,提出一種多尺度空洞膠囊孿生網(wǎng)絡模型(MSDCSNet)的水稻害蟲識別方法。模型的基本構架如圖6-a所示,由2個結構相同的空洞Inception模塊進行特征提取,再基于余弦距離的分類準則進行害蟲檢測。由圖6-a可以看出該模型由2個結構相同的卷積層、膠囊層、1個距離度量層、相似性層和分類層構成。
卷積層為3個空洞Inception模塊構成,如圖 6-b 所示,其中批量歸一化層加快模型的正向和反向傳播速率。在MSDCSNet中,利用空洞卷積代替Inception模塊中的卷積,采取空洞Inception模塊。
主膠囊層設置32個主膠囊,數(shù)字膠囊層有10個數(shù)字膠囊,每個膠囊輸入一個6×6×8張量,輸出16×10的矩陣。由圖像對的相似度判定待分類的圖像的類別,通過計算2個特征向量間的余弦距離(dcos)作為相似度,計算公式如下:
dcos=(x1,x2)/‖x1‖·‖x2‖" (1)
其中,x1、x2代表膠囊網(wǎng)絡輸出的特征向量。通過對比誤差損失函數(shù)Loss進行反向優(yōu)化模型參數(shù),表示如下:
式中:l為2個圖像是否匹配的標簽;N是樣本個數(shù);λ為設定的閾值,由試驗確定,默認值為0.5。
設待識別圖像映射的特征向量為s,帶標簽圖像的特征向量為ti(ti∈[1,C]),C為害蟲類別數(shù),由相似度dcos(s,t) 打分排序,由最大值判定待識別圖像的預測害蟲類型:
Labels=max{dcos(s,ti)}" "(3)
式中:dcos(s,ti)為待識別圖像與帶標簽圖像的相似度。
2 試驗過程
為了表明MSDCSNet進行水稻害蟲識別的有效性,進行了試驗驗證。MSDCSNet訓練的批處理大小設為25,迭代次數(shù)為3 000,學習率設為1.5×10-4,Adam作為模型的優(yōu)化器。所有方法均在Python 3.9環(huán)境下的Tensorflow 2.0編程實現(xiàn),CNN網(wǎng)絡模型Keras搭建,系統(tǒng)為Ubuntu 14.04,核心硬件運算平臺為Intel i7 CPU 1080 Ti GPU。
2.1 數(shù)據(jù)集
稻蝗、稻縱卷葉螟、稻棘緣蝽、二化螟、稻飛虱是水稻常見的5種害蟲。本試驗數(shù)據(jù)集主要通過華為、佳能等設備來采集圖像,采集地點在陜西省寶雞市農業(yè)科學研究所作物試驗基地,在2022年4—6月,從09:00—16:00之間在陜西省寶雞市農業(yè)科學研究所作物試驗基地進行采集,采集圖像分辨率約為4 552像素×3 645像素,每種害蟲100幅葉片圖像,共500幅多樣性害蟲圖像來作為圖像數(shù)據(jù)集。其中部分作物害蟲圖片見圖7。
由于人工采集的水稻害蟲數(shù)據(jù)集較小,每類害蟲圖片只有100幅圖像,為了增強泛化能力和避免過擬合問題,利用旋轉90°、180°后,變成3幅圖像,再對3幅圖像分別進行模糊、增加噪聲、增強變亮、變暗、翻轉等操作,就每一幅圖像擴充5幅,因此,可將每一幅圖像擴充到18幅圖像。5類害蟲經(jīng)過擴充得到9 000幅圖像。1幅圖像的18幅擴展圖像見圖8。
2.2 對比試驗結果
2.2.1 有效性試驗
為了驗證本研究算法的有效性,對改進VGG19[19]、ACapsNet[10]和本研究算法進行五折交叉試驗驗證對比。從圖9可以看出,當?shù)螖?shù)在500次后,本研究算法識別率達到70%以上,當?shù)螖?shù)達到1 000次后,開始趨于收斂,并且識別率和收斂效果明顯優(yōu)于其他2種算法,該結果表明,引入空洞Inception模塊和孿生網(wǎng)絡后可使膠囊網(wǎng)絡模型收斂更快,而且害蟲識別率也最高,驗證本研究算法的有效性。
2.2.2 小樣本試驗
為了驗證本研究算法在小樣本情況下具有同樣的優(yōu)勢,將本算法與改進VGG19[19]、ACapsNet[10]算法進行試驗對比,首次在擴充圖像數(shù)據(jù)上隨機選擇每種害蟲200幅圖像,然后在3種算法上進行驗證試驗。其中訓練樣本數(shù)和測試樣本數(shù)之比為x ∶y,其中x為每類害蟲訓練樣本數(shù),y為每類害蟲測試樣本數(shù),x ∶y的比值從90 ∶10逐漸調整到10 ∶90,減少訓練樣本數(shù)量,增加測試樣本數(shù)量,對比3種算法的識別率。迭代次數(shù)值為 3 000次,重復交叉試驗5次,計算每種害蟲的識別率和3種算法的平均識別率見表2,本研究算法在90 ∶10的情況下,識別率達到95.6%。
從圖10和表2可以看出,隨著訓練樣本與測試樣本之比不斷減少,即增加測試樣本、減少訓練樣本的情況下,3種算法的識別率都呈現(xiàn)下降趨勢,但VGG19和ACapsNet方法的識別率下降趨勢更明顯,而本研究算法在訓練樣本與測試樣本比例為 10 ∶90 時,平均識別率為81.64%,雖然識別率降低13.96百分點,但分別比VGG19和ACapsNet的識別率高38.48、32.55百分點。說明,本研究算法在小樣本環(huán)境下仍取得較高的識別率,該算法在小樣本情況下依然具有一定的優(yōu)勢。
2.2.3 可視化結果
本算法在卷積模塊中,部分卷積可視化效果輸出見圖11。由圖11可知,本算法能夠捕獲水稻害蟲的細節(jié)信息,害蟲特征分為低級卷積特征模塊和高級卷積特征模塊。低級卷積特征圖包含了紋理、輪廓等害蟲空間特征,而高級卷積特征包含害蟲的細節(jié)特征。由此可見,引入空洞Inception模塊,可使卷積模型的不同卷積核能夠學習圖像的不同特征,關注圖像的不同部分,能夠充分提取各自關注部分圖像的顯著區(qū)域。
3 結論
由于水稻害蟲圖像復雜多樣,傳統(tǒng)CNN網(wǎng)絡需要大量訓練樣本。本研究算法在多尺度卷積網(wǎng)絡、膠囊網(wǎng)絡和孿生網(wǎng)絡等技術的基礎上,提出一種基于多尺度空洞膠囊孿生網(wǎng)絡(MSDCSNet)的水稻害蟲識別方法。該算法對比樣本相似度來擴大訓練次數(shù),以解決害蟲葉片圖像不足的問題;采用膠囊網(wǎng)絡提取特征的空間信息和位置信息,選用余弦距離相似性更好地區(qū)分2個膠囊向量的差異性;最后采用孿生網(wǎng)絡判定帶識別圖像中的預測害蟲類型。試驗結果表明,MSDCSNet具有良好的害蟲檢測相關性和泛化性,并在小樣本情況下識別率依然達到81.64%,具有一定的優(yōu)勢,在水稻害蟲精確識別方面具有重要的參考價值。下一步工作主要在于優(yōu)化模型,在更多不同作物害蟲數(shù)據(jù)集上來驗證模型的有效性。
參考文獻:
[1]王大慶,祿 琳,于興龍,等. 基于深度遷移學習的EfficientNet玉米葉部病害識別[J]. 東北農業(yè)大學學報,2023,54(5):66-76.
[2]翟肇裕,曹益飛,徐煥良,等. 農作物病蟲害識別關鍵技術研究綜述[J]. 農業(yè)機械學報,2021,52(7):1-18.
[3]王 祎,李旭偉,劉怡光,等. 融合特征增強模塊的小樣本農業(yè)害蟲識別[J]. 四川大學學報(自然科學版),2023,60(4):57-64.
[4]鮑文霞,黃雪峰,胡根生,等. 基于改進卷積神經(jīng)網(wǎng)絡模型的玉米葉部病害識別[J]. 農業(yè)工程學報,2021,37(6):160-167.
[5]孟 亮,郭小燕,杜佳舉,等. 一種輕量級CNN農作物病害圖像識別模型[J]. 江蘇農業(yè)學報,2021,37(5):1143-1150.
[6]Sabour S,F(xiàn)rosst N,Hinton G E. Dynamic routing between capsules[EB/OL]. (2017-11-07)[2023-10-01]. https://arxiv.org/pdf/1710.09829.pdf
[7]楊巨成,韓書杰,毛 磊,等. 膠囊網(wǎng)絡模型綜述[J]. 山東大學學報(工學版),2019,49(6):1-10.
[8]賀文亮,朱敏玲. 膠囊神經(jīng)網(wǎng)絡研究現(xiàn)狀與未來的淺析[J]. 計算機工程與應用,2021,57(3):33-43.
[9]丁永軍,張晶晶,李民贊. 基于卷積膠囊網(wǎng)絡的百合病害識別研究[J]. 農業(yè)機械學報,2020,51(12):246-251,331.
[10]張會敏,謝澤奇,張善文. 基于注意力膠囊網(wǎng)絡的作物病害識別方法[J]. 江蘇農業(yè)科學,2022,50(6):101-106.
[11]溫長吉,婁 月,張笑然,等. 基于改進稠密膠囊網(wǎng)絡模型的植物識別方法[J]. 農業(yè)工程學報,2020,36(8):143-155.
[12]程 艷,孫 歡,陳豪邁,等. 融合卷積神經(jīng)網(wǎng)絡與雙向GRU的文本情感分析膠囊模型[J]. 中文信息學報,2021,35(5):118-129.
[13]羅會蘭,龍 珺,梁苗苗. 注意力特征融合的孿生網(wǎng)絡目標跟蹤方法[J]. 計算機科學,2023,50(增刊1):475-483.
[14]Chicco D. Siamese neural networks:an overview[J]. Methods in Molecular Biology,2021,2190:73-94.
[15]符 強,王 陽,紀元法,等. 基于強化特征學習和表達策略的孿生網(wǎng)絡跟蹤算法[J]. 電子測量技術,2023,46(6):68-76.
[16]王愛麗,張宇梟,吳海濱,等. 基于空洞卷積膠囊網(wǎng)絡的激光雷達數(shù)據(jù)分類[J]. 中國激光,2021,48(11):186-198.
[17]卞月樓,陸振宇,葛泉波,等. 基于注意力機制和特征金字塔的孿生卷積神經(jīng)網(wǎng)絡目標跟蹤算法[J]. 計算機應用與軟件,2023,40(2):178-185.
[18]徐卓飛,李旭東,張嬋嬋,等. 基于孿生網(wǎng)絡的小樣本滾動軸承故障診斷研究[J]. 儀器儀表學報,2022,43(10):241-251.
[19]楊 雙,王敬東,姜宜君,等. 結合SoftPool的VGG19與CapsNet相級聯(lián)的表情識別模型研究[J]. 半導體光電,2021,42(6):897-903.