張凈 邵文文 劉曉梅 李賀亮 高躍 張軒誠(chéng)
摘要:農(nóng)作物葉部病害已經(jīng)嚴(yán)重影響農(nóng)作物的產(chǎn)量和質(zhì)量,為提高農(nóng)作物葉片病害識(shí)別的效果、減少經(jīng)濟(jì)損失、提高種植者的收益,提出基于超圖的雙模態(tài)特征融合的農(nóng)作物病害識(shí)別算法BimodalFINet。BimodalFINet由文本模態(tài)分支、圖像模態(tài)分支和超圖神經(jīng)網(wǎng)絡(luò)構(gòu)成。首先利用循環(huán)神經(jīng)網(wǎng)絡(luò)和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造圖像文本雙分支并行結(jié)構(gòu),提取語(yǔ)義特征信息和富含空間位置信息的特征表示,得到2種模態(tài)特征,然后利用特征融合方法實(shí)現(xiàn)各分支特征信息的互補(bǔ)與融合,得到包含更加豐富的病害雙模態(tài)特征信息。最后利用超圖神經(jīng)網(wǎng)絡(luò)將上述融合后的雙模態(tài)特征信息進(jìn)行編碼以獲得數(shù)據(jù)之間的相關(guān)性和數(shù)據(jù)表示,提升模型識(shí)別準(zhǔn)確率。結(jié)果表明,BimodalFINet的文本模態(tài)分支TextRNN取得91.28%的識(shí)別準(zhǔn)確率,圖像模態(tài)分支RexNext50-CA取得89.20%的識(shí)別準(zhǔn)確率,相比于單個(gè)ResNext50模型提高了1.08百分點(diǎn),聯(lián)合模態(tài)分支取得92.32%的識(shí)別準(zhǔn)確率,相比于圖像和文本單模態(tài)模型分別提高了3.12百分點(diǎn)和1.04百分點(diǎn),加入超圖后模型取得94.83%的識(shí)別準(zhǔn)確率,相比于聯(lián)合模態(tài)模型提高了2.51百分點(diǎn)。嵌入超圖后的模型具有更好的特征提取能力,能夠?yàn)樘镩g環(huán)境下農(nóng)作物的病害識(shí)別提供有效技術(shù)支持。
關(guān)鍵詞:農(nóng)作物病害;超圖神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);特征融合;雙模態(tài)
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2023)15-0164-09
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(編號(hào):2019YFC1606600)。
作者簡(jiǎn)介:張 凈(1975—),女,江蘇鎮(zhèn)江人,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算機(jī)應(yīng)用。E-mail:jszj08062000@163.com。
通信作者:邵文文,碩士研究生,研究方向?yàn)闄C(jī)器視覺(jué)。E-mail:355060863@qq.com。
現(xiàn)階段,農(nóng)作物病害已經(jīng)成為我國(guó)面臨的重大挑戰(zhàn)之一,隨著農(nóng)業(yè)生產(chǎn)能力的不斷提升,生產(chǎn)環(huán)境隨之復(fù)雜化,在生產(chǎn)過(guò)程中遇到病害的情況也越加頻繁,對(duì)農(nóng)作物的生長(zhǎng)造成了非常嚴(yán)重的影響,從而加劇農(nóng)作物食品安全問(wèn)題[1-2]。隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域如圖像識(shí)別方面不斷取得新的突破,現(xiàn)階段眾多專家學(xué)者運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)提取病害特征,從而幫助農(nóng)業(yè)工作者識(shí)別診斷農(nóng)作物病害,及時(shí)發(fā)現(xiàn)農(nóng)作物病害的癥狀并作出預(yù)防措施[3-6]。Too等基于PlantVillage數(shù)據(jù)庫(kù)對(duì)VGG、ResNet、DenseNet和ResNext等卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)估,最終DenseNet達(dá)到了最佳的分類效果[7-11]。侯志松等提出一種基于集成學(xué)習(xí)的圖像分類模型,該模型平均準(zhǔn)確率為96.9%,效果較好[12]。Hou等提出坐標(biāo)注意力,該機(jī)制通過(guò)嵌入病害位置信息到通道注意力,在獲取更大范圍的病害信息的同時(shí)避免了較大開銷,性能較好[13]。
由于卷積神經(jīng)網(wǎng)絡(luò)的相鄰輸入并無(wú)直接相關(guān)性,而語(yǔ)言又具有序列性,所以卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)言識(shí)別領(lǐng)域中效果較差。循環(huán)神經(jīng)網(wǎng)絡(luò)某一時(shí)刻v隱藏層的值是由v的輸入和v-1時(shí)的輸入所決定的,所以循環(huán)神經(jīng)網(wǎng)絡(luò)適合序列數(shù)據(jù)的建模。Lai等提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的文本分類模型TextRNN,該模型利用RNN捕獲更長(zhǎng)的序列信息,從而獲得更佳的識(shí)別效果[14]。
圖是不規(guī)則結(jié)構(gòu)且蘊(yùn)含豐富的信息,卷積神經(jīng)網(wǎng)絡(luò)的卷積操作無(wú)法在圖結(jié)構(gòu)上進(jìn)行有效的計(jì)算,而圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)通過(guò)邊相連,將不同樣本(節(jié)點(diǎn))之間的關(guān)系等信息進(jìn)行有效和充分的表達(dá),從而圖神經(jīng)網(wǎng)絡(luò)能夠高效地利用樣本(節(jié)點(diǎn))實(shí)例之間的結(jié)構(gòu)性特征,但普通圖網(wǎng)絡(luò)邊的度僅被設(shè)置為2,不能建模數(shù)據(jù)之間的高階關(guān)系,Berge提出超圖理論并全面提出無(wú)相超圖理論,同時(shí)對(duì)普通圖和超圖進(jìn)行比較:超圖是普通圖的重要擴(kuò)展,普通圖僅能表現(xiàn)2個(gè)節(jié)點(diǎn)之間存在的相關(guān)性,而超圖中的邊即超邊能包含任意數(shù)量的節(jié)點(diǎn)并能表現(xiàn)多個(gè)節(jié)點(diǎn)之間存在的某種關(guān)系[15-16]。黃汝激提出有向超圖理論,并解釋分解超圖等概念[17]。Feng等提出超圖神經(jīng)網(wǎng)絡(luò)(HGNN)框架,與普通圖結(jié)構(gòu)邊的度被限制為2不同,超圖神經(jīng)網(wǎng)絡(luò)可以使用無(wú)度超邊編碼數(shù)據(jù)之間的相關(guān)性并通過(guò)超邊卷積運(yùn)算處理表示學(xué)習(xí)過(guò)程中的數(shù)據(jù)相關(guān)性,從而通過(guò)超圖神經(jīng)網(wǎng)絡(luò)有效提升雙模態(tài)融合的效果,進(jìn)而提升模型識(shí)別準(zhǔn)確率[18]。
現(xiàn)階段大部分農(nóng)作物病害識(shí)別模型都是基于圖像模態(tài),但在使用圖像單模態(tài)進(jìn)行農(nóng)作物病害識(shí)別時(shí),現(xiàn)有方法未能有效利用農(nóng)作物病害描述文本信息,而人們根據(jù)相關(guān)農(nóng)作物病害圖像作出的文本描述通常含有豐富的語(yǔ)義信息,其與圖像模態(tài)在描述病害信息中存在高度相關(guān)性和互補(bǔ)性,兩者的結(jié)合能融合2種模態(tài)之間的共性和特性,現(xiàn)如今已有相關(guān)學(xué)者對(duì)此進(jìn)行探究,并充分挖掘雙模態(tài)甚至是多模態(tài)的潛力。本研究提出一種基于超圖的雙模態(tài)特征融合的農(nóng)作物病害識(shí)別算法,將圖像模態(tài)、文本模態(tài)以及超圖神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合以改善現(xiàn)有農(nóng)作物病害識(shí)別方法識(shí)別準(zhǔn)確率低的問(wèn)題。
1 農(nóng)作物病害識(shí)別模型
1.1 病害圖像模態(tài)分支
本節(jié)將ResNext50-CA網(wǎng)絡(luò)作為特征提取模塊,模塊包括ResNext50和坐標(biāo)注意力機(jī)制2個(gè)部分。ResNext是結(jié)合ResNet與Inception思想設(shè)計(jì)的特征提取網(wǎng)絡(luò),采用殘差結(jié)構(gòu)和多分路卷積,并引入分組卷積以解決Inception網(wǎng)絡(luò)需要專門設(shè)成不同結(jié)構(gòu)導(dǎo)致參數(shù)量增多的問(wèn)題,相同的構(gòu)造不僅簡(jiǎn)化了網(wǎng)絡(luò),而且增強(qiáng)了模型的特征表達(dá)能力。為有效獲取長(zhǎng)范圍依賴的信息,使模型更準(zhǔn)確地定位并識(shí)別目標(biāo)區(qū)域,本研究在ResNext50網(wǎng)絡(luò)中嵌入坐標(biāo)注意力,見圖1-a。坐標(biāo)注意力將通道注意力分為2個(gè)一維特征編碼過(guò)程,分別沿2個(gè)空間方向聚合特征,通過(guò)水平與垂直方向注意力圖不僅能捕獲特征的遠(yuǎn)程依賴關(guān)系,還可以有效保持精準(zhǔn)的位置信息,提高網(wǎng)絡(luò)識(shí)別目標(biāo)的準(zhǔn)確率。
圖1-b為嵌入坐標(biāo)注意力機(jī)制前ResNext50網(wǎng)絡(luò)殘差模塊的結(jié)構(gòu)圖,其中圖1-a(除虛線包含的部分)與圖1-b所示網(wǎng)絡(luò)嚴(yán)格等價(jià)。由圖1-b可知,每個(gè)分組結(jié)構(gòu)都是采用1×1和3×3卷積操作組合而成,圖像首先經(jīng)過(guò)1×1卷積層降低維度,降低后續(xù)卷積操作的計(jì)算量,然后通過(guò)3×3卷積層獲得相關(guān)特征信息,其次通過(guò)嵌入的坐標(biāo)注意力機(jī)制捕獲特征遠(yuǎn)程依賴關(guān)系以及精準(zhǔn)的位置信息,再通過(guò)1×1卷積層升維,最后對(duì)每個(gè)分組的輸出進(jìn)行加權(quán)計(jì)算。
如圖2所示,坐標(biāo)注意力網(wǎng)絡(luò)主要包括2個(gè)部分,分別為坐標(biāo)注意力生成和坐標(biāo)信息嵌入。首先,對(duì)于輸入特征圖X分別設(shè)其長(zhǎng)、寬和通道數(shù)為 H、W 和 C,先利用尺寸為 (H,1) 和 (1,W)的平均池化沿著水平和垂直方向?qū)γ?通道進(jìn)行編碼,得到1對(duì)方向感知特征圖,此操作不僅能保存1個(gè)空間方向的精確位置信息,還能捕獲到沿著另一個(gè)空間方向的長(zhǎng)期相關(guān)性,使網(wǎng)絡(luò)更加精準(zhǔn)的定位感興趣的目標(biāo)。然后,將上述生成的特征圖進(jìn)行級(jí)聯(lián),使用1個(gè)共享的1×1卷積層進(jìn)行變換以對(duì)通道進(jìn)行降維,并通過(guò)1個(gè)非線性激活層,得到具有垂直和水平方向空間信息的中間特征圖,圖2中r表示下采樣比例,用來(lái)控制模塊大小。其次,沿著空間維度將中間特征圖進(jìn)行切分得到2個(gè)單獨(dú)的張量,利用2個(gè)1×1卷積層將切分的2個(gè)單獨(dú)張量變換到與輸入特征圖X相同的通道數(shù),并用Sigmoid激活函數(shù)引入非線性,最后進(jìn)行輸入-輸出殘差連接操作。
1.2 病害文本模態(tài)分支
TextRNN利用循環(huán)神經(jīng)網(wǎng)絡(luò)的線性序列結(jié)構(gòu)處理數(shù)據(jù)中的序列關(guān)系,但當(dāng)序列較長(zhǎng)時(shí)則會(huì)存在梯度消失問(wèn)題,為解決這一問(wèn)題,本研究選擇使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)TextRNN中的循環(huán)單元進(jìn)行改進(jìn)。LSTM由3個(gè)門控(遺忘門、輸入門和輸出門)組成。遺忘門利用Sigmoid函數(shù)決定哪些信息會(huì)被遺忘。輸入門主要由Sigmoid層和Tanh層組成,輸入門先通過(guò)Sigmoid層決定哪部分?jǐn)?shù)值需要更新,再通過(guò)Tanh層產(chǎn)生新的候選值向量并加入到細(xì)胞狀態(tài)當(dāng)中,從而實(shí)現(xiàn)對(duì)狀態(tài)的更新。輸出門決定什么信息需要輸出,其主要利用Sigmoid函數(shù)來(lái)實(shí)現(xiàn)這一目的。然后利用Tanh層對(duì)細(xì)胞狀態(tài)進(jìn)行處理,兩者相乘得到最終的輸出信息。由上述可知,LSTM通過(guò)其門控結(jié)構(gòu)使得網(wǎng)絡(luò)在計(jì)算下一個(gè)單詞的輸出時(shí),仍會(huì)考慮上一個(gè)單詞的輸出,實(shí)現(xiàn)有選擇地遺忘不需要的信息,有選擇地輸入輸出需要的信息,從而捕獲更為詳盡的長(zhǎng)期與短期的文本特征。
文本模態(tài)分支結(jié)構(gòu)見圖3,TextRNN首先將句子中的詞向量序列作為輸入逐個(gè)輸送到雙向LSTM中,該層可以實(shí)現(xiàn)信息有選擇地通過(guò),其主要利用LSTM中的Sigmoid函數(shù)和點(diǎn)乘操作,并在單個(gè)LSTM基礎(chǔ)上加入1個(gè)將信息流反向的LSTM以避免網(wǎng)絡(luò)只關(guān)注數(shù)據(jù)的上文而忽略下文,以此捕捉數(shù)據(jù)長(zhǎng)短期時(shí)間依賴,捕獲完整的過(guò)去和未來(lái)的上下文信息。其次,將語(yǔ)句中的詞向量輸送到雙向LSTM層后,在輸出層可以獲得每個(gè)時(shí)間步長(zhǎng)神經(jīng)元的正反雙向信息流的輸出,將二者拼接,形成最終的雙向LSTM的輸出。
1.3 特征融合層
ResNext50-CA網(wǎng)絡(luò)和TextRNN網(wǎng)絡(luò)分別提取圖像和文本特征,并且在特征維度層進(jìn)行融合,融合方式采用的是Concat方式,即拼接方式,拼接的特征融合方式直接將2種特征在通道數(shù)維度上拼接起來(lái),增加了特征維度,保留所有的完整信息。拼接的融合方式可以讓深度學(xué)習(xí)網(wǎng)絡(luò)自己去學(xué)習(xí)每個(gè)信息的重要性,增加信息量的同時(shí)也降低了錯(cuò)誤發(fā)生的概率。
1.4 超圖神經(jīng)網(wǎng)絡(luò)
雙模態(tài)融合網(wǎng)絡(luò)利用模態(tài)之間的互補(bǔ)與融合實(shí)現(xiàn)正確分類,從而提升網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。超圖神經(jīng)網(wǎng)絡(luò)利用其易于靈活的無(wú)度超邊對(duì)數(shù)據(jù)之間的相關(guān)性進(jìn)行建模,提升模態(tài)融合的效果,從而得到更好的識(shí)別準(zhǔn)確率和穩(wěn)定性,普通圖和超圖分別如圖4、圖5所示,圖中圓圈表示頂點(diǎn),曲線表示超邊,普通圖中邊的度必須為2,而超圖神經(jīng)網(wǎng)絡(luò)中邊的度為任意非負(fù)整數(shù),同一條超邊可以連接不同的頂點(diǎn)用于表示相連接的頂點(diǎn)之間存在相關(guān)性。
本研究將病害圖像模態(tài)分支與文本模態(tài)分支分別訓(xùn)練并進(jìn)行特征融合后輸送入超圖神經(jīng)網(wǎng)絡(luò),如圖6所示。首先,超圖神經(jīng)網(wǎng)絡(luò)利用雙模態(tài)病害數(shù)據(jù)集的復(fù)雜相關(guān)性構(gòu)建相應(yīng)的超邊組H1和H2,并對(duì)超邊組進(jìn)行拼接操作得到關(guān)聯(lián)矩陣H,關(guān)聯(lián)矩陣是描述圖的一種矩陣表示,用以代表超圖神經(jīng)網(wǎng)絡(luò)中頂點(diǎn)和超邊之間的相關(guān)性,關(guān)聯(lián)矩陣見圖7。
除此以外,可以用公式(1)表示關(guān)聯(lián)矩陣,公式如下:
式中:v表示超圖頂點(diǎn);e表示超邊。如果頂點(diǎn)包含在超邊中,則將關(guān)聯(lián)矩陣中相應(yīng)位置記為1,否則記為0。然后將超圖的關(guān)聯(lián)矩陣和數(shù)據(jù)集中所包含的節(jié)點(diǎn)特征輸送到超邊卷積層中進(jìn)行卷積操作以學(xué)習(xí)高維數(shù)據(jù)的隱含特征,其中卷積操作可以用公式(2)、公式(3)表示。
式中:X(0)表示經(jīng)兩模態(tài)分支特征融合后的輸入X;σ為非線性激活函數(shù);X(l)∈RN×C表示超圖神經(jīng)網(wǎng)絡(luò)在l層的信號(hào);Dv和De表示歸一化;θ(l)表示過(guò)濾處理矩陣,H表示關(guān)聯(lián)矩陣,W表示各條超邊權(quán)重的對(duì)角矩陣。最后輸出病害類別標(biāo)簽,輸出公式Y(jié)如下所示。
式中:θ表示可訓(xùn)練參數(shù);Y表示可用于分類任務(wù)的超圖卷積公式以此得到輸出病害類別標(biāo)簽。
經(jīng)過(guò)以上運(yùn)算可以使超圖更好地細(xì)化特性,可以有效處理學(xué)習(xí)過(guò)程中出現(xiàn)的復(fù)雜數(shù)據(jù)的相關(guān)性,從而更好地識(shí)別出各種農(nóng)作物的病害。
1.5 BimodalFINet網(wǎng)絡(luò)架構(gòu)
BimodalFINet包括圖像模態(tài)分支、文本模態(tài)分支和超圖神經(jīng)網(wǎng)絡(luò)3個(gè)部分,BimodalFINet輸入為農(nóng)作物病害圖像-文本對(duì)。
BimodalFINet網(wǎng)絡(luò)架構(gòu)見圖8,網(wǎng)絡(luò)由ResNext50-CA、TextRNN以及超圖神經(jīng)網(wǎng)絡(luò)組成,網(wǎng)絡(luò)架構(gòu)圖中各個(gè)方塊表示模塊所構(gòu)造的參數(shù)和結(jié)構(gòu),其中ResNext50-CA架構(gòu)圖中的×3、×4、×6、×3 表示殘差模塊重復(fù)堆疊的數(shù)量,C表示為分組的數(shù)量,CA表示坐標(biāo)注意力,1×1和3×3等表示卷積核的尺寸,K表示類別數(shù)量。圖像數(shù)據(jù)先輸入進(jìn)ResNext50-CA模型中,再經(jīng)過(guò)多個(gè)卷積層,得到的輸出尺寸為7×7,最后輸入到全連接層,得到的輸出尺寸為1×1。經(jīng)過(guò)圖像分支后每張圖像最終得到1×1 000的向量。
文本數(shù)據(jù)輸入進(jìn)TextRNN模型后,經(jīng)過(guò)嵌入層與多個(gè)LSTM層以捕獲更為詳盡的長(zhǎng)期與短期的文本特征,每張圖像對(duì)應(yīng)的文字描述最終得到1個(gè) 1×1 024的向量。2種模態(tài)通過(guò)特征融合得到1個(gè)融合的1×2 024特征向量,即超圖神經(jīng)網(wǎng)絡(luò)的輸入。由于真實(shí)的圖往往是高維且難以處理的,所以圖神經(jīng)網(wǎng)絡(luò)將高維圖進(jìn)行編碼成低維向量表示來(lái)學(xué)習(xí)高維圖結(jié)構(gòu)信息。超圖神經(jīng)網(wǎng)絡(luò)先將圖中每個(gè)節(jié)點(diǎn)映射編碼成對(duì)應(yīng)的向量表示,節(jié)點(diǎn)的向量表示保留了圖的結(jié)構(gòu)和節(jié)點(diǎn)之間的連接,超圖神經(jīng)網(wǎng)絡(luò)通過(guò)將原始特征映射到各個(gè)節(jié)點(diǎn)以及超邊上,這樣在保留特征的同時(shí)更可以保留每個(gè)特征之間的相關(guān)信息,提高模態(tài)之間的融合度。之后采用2個(gè)超邊卷積層提取特征,其中每個(gè)超邊卷積層包含16個(gè)隱藏節(jié)點(diǎn),概率為0.5的Dropout層以防止過(guò)擬合,激活函數(shù)采用ReLU,最后通過(guò)輸出的超圖節(jié)點(diǎn)來(lái)預(yù)測(cè)得到標(biāo)簽。
2 農(nóng)作物病害分類試驗(yàn)設(shè)計(jì)
2.1 數(shù)據(jù)集
試驗(yàn)應(yīng)用的數(shù)據(jù)集為田間實(shí)際應(yīng)用場(chǎng)景下拍攝的病害圖像,數(shù)據(jù)集包括5種農(nóng)作物(蘋果、馬鈴薯、辣椒、玉米、番茄)下的7類病害(蘋果黑星病、蘋果銹病、馬鈴薯早疫病、馬鈴薯晚疫病、玉米葉枯病、甜椒葉斑病、番茄早疫?。﹫D像,共包含5 178張圖片(表1),均獲取于Kaggle官方網(wǎng)站(https://www.kaggle.com),文本數(shù)據(jù)集共包含5 178條數(shù)據(jù)。每種病害所包含的樣本量見表1。本研究抽取數(shù)據(jù)集中80%的圖像作為訓(xùn)練集,其余20%的圖像作為測(cè)試集,病害文本數(shù)據(jù)集是由2名農(nóng)業(yè)研究員對(duì)照病害文本數(shù)據(jù)集中的圖像進(jìn)行描述,如表2所示,該數(shù)據(jù)集部分樣本描述。
2.2 數(shù)據(jù)預(yù)處理
預(yù)處理主要將數(shù)據(jù)集中的圖像裁剪為統(tǒng)一標(biāo)準(zhǔn)的224×224,使得在模型輸入維度相同的情況下比較各模型之間的性能。
在病害文本輸入循環(huán)神經(jīng)網(wǎng)絡(luò)前需要進(jìn)行一系列處理。首先將文本數(shù)據(jù)集通過(guò)jieba分詞工具進(jìn)行中文分詞,去除文本中如“的”“和”等無(wú)意義停用詞和相應(yīng)的標(biāo)點(diǎn)符號(hào),使得在試驗(yàn)中減少文本數(shù)據(jù)集中的噪聲數(shù)據(jù),提高分類算法的分類效果。此外,還需要將中文文本進(jìn)行文本向量化,將文本向量表示后的數(shù)據(jù)作為TextRNN的輸入,對(duì)中文文本進(jìn)行訓(xùn)練。
2.3 試驗(yàn)環(huán)境及相關(guān)參數(shù)設(shè)置
本試驗(yàn)于2022年3—7月在江蘇大學(xué)電氣信息工程學(xué)院實(shí)驗(yàn)室完成模型訓(xùn)練和測(cè)試過(guò)程。本試驗(yàn)硬件環(huán)境為2個(gè)RTX2060s,軟件環(huán)境則采用Ubuntu 16.04操作系統(tǒng)以及Pytorch深度學(xué)習(xí)框架,其CUDA API的版本為9.1,cuDNN的版本為9.0,算法實(shí)現(xiàn)語(yǔ)言采用Python 3.6.3版本。
本試驗(yàn)設(shè)計(jì)以及對(duì)照試驗(yàn)過(guò)程中參數(shù)設(shè)置:學(xué)習(xí)率為0.000 1,Batch-size設(shè)為32,本試驗(yàn)采用自適應(yīng)距估計(jì)(adaptive moment estimation,Adam)優(yōu)化算法,并設(shè)置參數(shù)β1=0.9,β2=0.999,ε=1×10-8,迭代次數(shù)為100。
3 結(jié)果與分析
3.1 試驗(yàn)評(píng)價(jià)指標(biāo)
本研究將改進(jìn)后的模型在數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,采用準(zhǔn)確率(Accuracy)和F1值對(duì)改進(jìn)后的模型性能進(jìn)行評(píng)價(jià),公式如下:
式中:TP表示預(yù)測(cè)為正類,真實(shí)為正類;TN表示預(yù)測(cè)為負(fù)類,真實(shí)為負(fù)類;FP表示真實(shí)為負(fù)類,預(yù)測(cè)為正類;FN表示真實(shí)為正類,預(yù)測(cè)為負(fù)類。
3.2 圖像分支模型對(duì)比試驗(yàn)
相同試驗(yàn)條件下,采用準(zhǔn)確率和F1值作為模型性能的評(píng)價(jià)指標(biāo)。由表3所知,對(duì)6種圖像識(shí)別模型進(jìn)行比較,結(jié)合各個(gè)模型在數(shù)據(jù)集上的表現(xiàn),選擇最優(yōu)模型,本節(jié)圖像分支模型采用Adam優(yōu)化器,學(xué)習(xí)率為0.000 1,Dropout設(shè)置為0.5。
由表3可知,各個(gè)模型平均準(zhǔn)確率均在87%以上,平均準(zhǔn)確率排名第一的為ResNet18,平均準(zhǔn)確率為89.61%,其次是ResNext50,其平均準(zhǔn)確率為89.20%,說(shuō)明深度學(xué)習(xí)模型應(yīng)用于農(nóng)作物病害識(shí)別中具有較好的表現(xiàn)。各個(gè)模型的F1值也達(dá)到82%~88%,F(xiàn)1值排名第一的為ResNet18,其F1值為87.29%,其次是ResNext50,其F1值為86.52%,表明圖像分支對(duì)照組中的各模型在不同的類別中的表現(xiàn)差異相對(duì)較小,相對(duì)均衡。
不同模型的準(zhǔn)確率曲線見圖9。ResNet18和ResNext50均達(dá)到較高的準(zhǔn)確率,分類效果優(yōu)于其他模型。從收斂速度上來(lái)看,ResNext 50的收斂速度比較快,能夠在第30次迭代左右趨于收斂,由此可以得出,ResNext50能夠在較短的時(shí)間內(nèi)訓(xùn)練出較為優(yōu)秀的模型,其余圖像單模態(tài)分支對(duì)照組中的各模型在訓(xùn)練過(guò)程中相對(duì)穩(wěn)定,表現(xiàn)良好。
3.3 文本分支模型對(duì)比試驗(yàn)
本節(jié)使用TextRCNN、TextRNN、TextRNN_Attention和TextCNN 4種經(jīng)典文本特征提取網(wǎng)絡(luò)選取文本分支最優(yōu)模型[19-21]。文本分支模型采用Adam,學(xué)習(xí)率為0.000 1,Dropout為0.5。由表4可以看出,所有文本分支對(duì)照組的測(cè)試集結(jié)果中4種網(wǎng)絡(luò)的平均準(zhǔn)確率均超過(guò)91%,其中TextRCNN的平均準(zhǔn)確率最高,為91.72%,其次是TextRNN,其平均準(zhǔn)確率為91.28%,各個(gè)網(wǎng)絡(luò)的F1 值也均超過(guò)88%,其中最高的為TextRCNN,F(xiàn)1值為89.44%,其次是TextRNN,F(xiàn)1 值為88.75%,說(shuō)明循環(huán)神經(jīng)網(wǎng)絡(luò)的線性序列結(jié)構(gòu)能將之前輸入的整個(gè)歷史映射到每個(gè)輸出,使得網(wǎng)絡(luò)能夠較為準(zhǔn)確地提取農(nóng)作物病害描述文本的特征并對(duì)其進(jìn)行分類。由圖10可知,文本分支各個(gè)模型在訓(xùn)練過(guò)程中相對(duì)穩(wěn)定,由于TextRCNN通過(guò)雙向RNN結(jié)構(gòu)取代了TextCNN卷積層的特征提取,即由卷積層+池化層轉(zhuǎn)化為雙向RNN+池化層,所以其在病害文本數(shù)據(jù)集中的效果最優(yōu)。
3.4 聯(lián)合分支模型對(duì)比試驗(yàn)
在病害特征不突出的情況下,卷積神經(jīng)網(wǎng)絡(luò)較難從圖像單模態(tài)中學(xué)習(xí)到足夠的病害特征以實(shí)現(xiàn)正確分類。當(dāng)存在不準(zhǔn)確病害描述文本的情況下,僅使用文本進(jìn)行病害判斷也會(huì)導(dǎo)致準(zhǔn)確率的下降。本節(jié)采用圖像和文本雙模態(tài)聯(lián)合對(duì)農(nóng)作物病害進(jìn)行識(shí)別??紤]到各模型的準(zhǔn)確率以及F1值,選擇圖像分支與文本分支中的部分網(wǎng)絡(luò)進(jìn)行組合,2個(gè)分支分別優(yōu)化以達(dá)到最優(yōu)的分類效果。本節(jié)優(yōu)化器采用Adam,學(xué)習(xí)率采用0.000 1。
如表5所示,雙模態(tài)對(duì)照組中采用圖像分支中F1值高的4種網(wǎng)絡(luò)分別與文本分支對(duì)照組中的不同網(wǎng)絡(luò)進(jìn)行結(jié)合,其中,采用的4種圖像單模態(tài)分支網(wǎng)絡(luò)分別為ResNet18-CA、VGG16-CA、ResNext50-CA、DenseNet121-CA,采用的聯(lián)合分支對(duì)照組如表4中所示模型。
由表5可知,試驗(yàn)中的聯(lián)合模型均取得了較好的識(shí)別準(zhǔn)確率和F1值,其中平均準(zhǔn)確率最高的為ResNext50-CA+TextRNN,平均準(zhǔn)確率為93.22%,F(xiàn)1值為92.07%。但僅利用圖像和文本單模態(tài)時(shí),兩種單模態(tài)模型的平均準(zhǔn)確率為89.20%和91.28%,從而表明使用雙模態(tài)聯(lián)合分支模型比使用圖像或文本單分支模型的分類效果更佳,并且從圖11中可以看出,與圖像和文本單分支對(duì)照組相比,聯(lián)合分支中各個(gè)網(wǎng)絡(luò)模型的平均準(zhǔn)確率的上升速度較為明顯。由此說(shuō)明,2種模態(tài)相互結(jié)合的識(shí)別性能比單模態(tài)的要好。
3.5 加入超圖后聯(lián)合分支模型對(duì)比試驗(yàn)
為了更好地提升雙模態(tài)融合效果,本節(jié)將5種網(wǎng)絡(luò)分別輸送入超圖神經(jīng)網(wǎng)絡(luò),利用超圖神經(jīng)網(wǎng)絡(luò)多元復(fù)雜關(guān)系展示能力提升模態(tài)融合效果,得到更好的識(shí)別準(zhǔn)確率,本節(jié)優(yōu)化器采用Adam,學(xué)習(xí)率采用0.000 1,Dropout采用0.5,可以防止過(guò)擬合。
如表6和圖12所示,聯(lián)合分支對(duì)照組中各個(gè)模型加入超圖神經(jīng)網(wǎng)絡(luò)后的識(shí)別準(zhǔn)確率和F1值均有提升,其中5種網(wǎng)絡(luò)加入超圖神經(jīng)網(wǎng)絡(luò)后平均準(zhǔn)確率分別提升1.55、1.42、1.03、1.54、1.61百分點(diǎn)。由此說(shuō)明,超圖神經(jīng)網(wǎng)絡(luò)能夠利用超圖構(gòu)建和相關(guān)超邊卷積計(jì)算表示復(fù)雜數(shù)據(jù)之間的相關(guān)性,從而增強(qiáng)圖像和文本模態(tài)結(jié)合的融合度,進(jìn)而提升網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。
3.6 消融試驗(yàn)
為了驗(yàn)證各個(gè)模塊在BimodalFINet網(wǎng)絡(luò)中的貢獻(xiàn),本研究在數(shù)據(jù)集上進(jìn)行消融試驗(yàn),各組試驗(yàn)所得到的平均準(zhǔn)確率和F1值見表7。從表7可以看出,ResNext50未加入坐標(biāo)注意力時(shí),平均準(zhǔn)確率為88.12%,嵌入坐標(biāo)注意力機(jī)制后模型平均準(zhǔn)確率提升1.08百分點(diǎn),說(shuō)明坐標(biāo)注意力對(duì)于模型平均準(zhǔn)確率的提升有一定促進(jìn)作用。在ResNext50-CA基礎(chǔ)上聯(lián)合TextRNN,模型的平均準(zhǔn)確率和F1 值進(jìn)一步提升,分別提升近4.02、5.55百分點(diǎn),說(shuō)明雙模態(tài)融合網(wǎng)絡(luò)能有效利用圖像模態(tài)以及根據(jù)病害圖像作出的文本描述所含有的語(yǔ)義信息。在ResNext50聯(lián)合坐標(biāo)注意力和TextRNN后輸送入超圖神經(jīng)網(wǎng)絡(luò),模型的識(shí)別準(zhǔn)確率和F1值進(jìn)一步提升,分別提升了1.61%、1.92%,說(shuō)明超圖神經(jīng)網(wǎng)絡(luò)通過(guò)構(gòu)建超圖和超邊卷積運(yùn)算能提升雙模態(tài)之間的融合度,最終達(dá)到較高的平均準(zhǔn)確率,綜上所述,本模型在數(shù)據(jù)集上表現(xiàn)出了良好的識(shí)別效果,能夠有效的對(duì)病害進(jìn)行識(shí)別。
4 結(jié)論
本研究提出一種基于超圖神經(jīng)網(wǎng)絡(luò)的雙模態(tài)特征融合的農(nóng)作物病害識(shí)別算法(BimodalFINet)用于農(nóng)作物病害識(shí)別,從而避免傳統(tǒng)方法依賴于費(fèi)力且耗時(shí)的人工特征設(shè)計(jì),該算法包含ResNext50-CA、TextRNN和超圖神經(jīng)網(wǎng)絡(luò)3個(gè)部分,圖像模態(tài)分支采用基于坐標(biāo)注意力的卷積神經(jīng)網(wǎng)絡(luò)(ResNext50-CA)提取相關(guān)病害特征,坐標(biāo)注意力機(jī)制通過(guò)在像素坐標(biāo)系中的有效定位,使得模型能關(guān)注于感興趣的區(qū)域,從而達(dá)到更好的分類效果。文本模態(tài)分支采用TextRNN,為了避免梯度消失等問(wèn)題,本研究對(duì)TextRNN的循環(huán)單元進(jìn)行改進(jìn),嵌入LSTM,使得網(wǎng)絡(luò)能同時(shí)考慮到長(zhǎng)期和短期的病害文本特征。圖像和文本2種模態(tài)在特征維度層進(jìn)行融合,并輸送入超圖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,超圖神經(jīng)網(wǎng)絡(luò)使用超圖結(jié)構(gòu)進(jìn)行建模,即利用超圖的無(wú)度超邊(超越普通圖的成對(duì)連接)編碼數(shù)據(jù)之間的高階關(guān)系,并通過(guò)超邊卷積運(yùn)算學(xué)習(xí)雙模態(tài)之間復(fù)雜的數(shù)據(jù)相關(guān)性,從而超圖神經(jīng)網(wǎng)絡(luò)能充分利用農(nóng)作物病害圖像與農(nóng)作物病害文本描述之間的相關(guān)性,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的融合效果,得到更佳的識(shí)別準(zhǔn)確率。綜上所述,本研究提出的方法能有效改善單模態(tài)模型識(shí)別準(zhǔn)確率低導(dǎo)致消耗過(guò)多人力財(cái)力的問(wèn)題。此外,本研究所提出的模型是一種通用框架,在使用過(guò)程中可以使用更為優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)以達(dá)到最優(yōu)的識(shí)別效果。為了進(jìn)一步提升模型的識(shí)別準(zhǔn)確率,后期將會(huì)對(duì)模型進(jìn)行改進(jìn),使得模型能夠更好地應(yīng)用于農(nóng)業(yè)實(shí)踐當(dāng)中。
參考文獻(xiàn):
[1]王桂榮,王源超,楊光富,等. 農(nóng)業(yè)病蟲害綠色防控基礎(chǔ)的前沿科學(xué)問(wèn)題[J]. 中國(guó)科學(xué)基金,2020,34(4):374-380.
[2]王景鳳. 農(nóng)作物科學(xué)種植及病蟲害防治技術(shù)[J]. 農(nóng)業(yè)災(zāi)害研究,2021,11(8):166-167.
[3]張 珂,馮曉晗,郭玉榮,等. 圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J]. 中國(guó)圖象圖形學(xué)報(bào),2021,26(10):2305-2325.
[4]季長(zhǎng)清,高志勇,秦 靜,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J]. 計(jì)算機(jī)應(yīng)用,2022,42(4):1044-1049.
[5]陳 超,齊 峰.卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計(jì)算機(jī)視覺(jué)領(lǐng)域中的應(yīng)用綜述[J]. 計(jì)算機(jī)科學(xué),2019,46(3):63-73.
[6]李書琴,陳 聰,朱 彤,等. 基于輕量級(jí)殘差網(wǎng)絡(luò)的植物葉片病害識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(3):243-250.
[7]Too E C,Li Y J,Njuki S,et al. A comparative study of fine-tuning deep learning models for plant disease identification[J]. Computers and Electronics in Agriculture,2019,161:272-279.
[8]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-14)[2022-10-05]. https://arxiv.org/abs/1409.1556.
[9]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE,2016:770-778.
[10]Huang G,Liu Z,van der Maaten L,et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:2261-2269.
[11]Xie S N,Girshick R,Dollár P,et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:5987-5995.
[12]侯志松,冀金泉,李國(guó)厚,等. 集成學(xué)習(xí)與遷移學(xué)習(xí)的作物病害圖像識(shí)別算法[J]. 中國(guó)科技論文,2021,16(7):708-714.
[13]Hou Q B,Zhou D Q,F(xiàn)eng J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville:IEEE,2021:13708-13717.
[14]Lai S W,Xu L H,Liu K,et al. Recurrent convolutional neural networks for text classification[C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. New York:ACM,2015:2267-2273.
[15]Berge C. Graphs and hypergraphs[M]. Amsterdam:North-Holland Pub.Co.,1973.
[16]Berge C. Hypergraphs:combinatorics of finite sets[M]. Amsterdam:North-Holland,1989.
[17]黃汝激. 超網(wǎng)絡(luò)的有向k超樹分析法[J]. 電子科學(xué)學(xué)刊,1987,9(3):244-255.
[18]Feng Y F,You H X,Zhang Z Z,et al. Hypergraph neural networks[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2019:3558-3565.
[19]Guo B,Zhang C X,Liu J M,et al. Improving text classification with weighted word embeddings via a multi-channel TextCNN model[J]. Neurocomputing,2019,363:366-374.
[20]Amajd M,Kaimuldenov Z,Voronkov I. Text classification with deep neural networks[C]//International Conference on Actual Problems of System and Software Engineering (APSSE). 2017:364-370.
[21]Yang Z C,Yang D Y,Dyer C,et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego:Association for Computational Linguistics,2016:1480-1489.