王春山,趙春江,吳華瑞※,周 冀,李久熙,朱華吉
(1.北京農(nóng)業(yè)信息技術(shù)研究中心,北京 100097; 2.河北農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院,保定 071001;3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京 100097;4.河北省農(nóng)業(yè)大數(shù)據(jù)重點實驗室,保定 071001;5.河北農(nóng)業(yè)大學(xué)機電工程學(xué)院,保定 071001)
中國有害生物多發(fā),常見農(nóng)作物病害775種,分布范圍廣、成災(zāi)頻率高、突發(fā)性強[1-2]。近年來,平均每年病害發(fā)生面積超過2.66億公頃次,給中國農(nóng)業(yè)生產(chǎn)造成了重大損失[3-4]。傳統(tǒng)的病害診斷主要通過農(nóng)學(xué)專家或者技術(shù)員根據(jù)經(jīng)驗進(jìn)行識別和評估,存在耗時、費力且效率低的問題,難以適應(yīng)病害快速防治的實時性與準(zhǔn)確性要求。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展推動了大規(guī)?;鶞?zhǔn)數(shù)據(jù)集如ImageNet上通用視覺識別的快速進(jìn)步[5-6]。在已有的研究中,基于卷積神經(jīng)網(wǎng)絡(luò)的模型和算法已被證明可用于解決病害識別問題,因此越來越多的研究聚焦于作物病害檢測和分類,并取得了一定的成功[7]。為了保障深度網(wǎng)絡(luò)模型的識別性能,許多研究都采用了包含大量病害圖像的公開數(shù)據(jù)集或者自采大量病害圖像構(gòu)建的數(shù)據(jù)集。Mohanty等[8]
收集了包含14類作物、26種病害的PlantVillage 數(shù)據(jù)集,共54 306幅農(nóng)作物葉部的病害圖像,并利用AlexNet和GoogleNet深度網(wǎng)絡(luò)將對象分為38個對應(yīng)類別,準(zhǔn)確率高達(dá) 99.35%。文獻(xiàn)[9]則收集了蘋果、土豆等 25類蔬果的87 848張葉部病害圖片,用以驗證VGGNet模型識別性能,準(zhǔn)確率達(dá)到 99.53%。為進(jìn)一步保障深度網(wǎng)絡(luò)有效訓(xùn)練,Wu等[10]收集了102類農(nóng)作物害蟲共計75 222張圖像,并對19 000多張照片進(jìn)行框標(biāo)注,用以訓(xùn)練ResNet分類器與YOLOv3檢測網(wǎng)絡(luò)結(jié)合模型,有效驗證了深度網(wǎng)絡(luò)在農(nóng)作物蟲害分類及識別的顯著效益。DeChant等[11]構(gòu)建了識別玉米北方葉枯病的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型的識別準(zhǔn)確率為96.7%,使用的數(shù)據(jù)集包含18 222張圖像,其中有10 5705個病斑標(biāo)注。
上述研究為利用進(jìn)行農(nóng)作物葉部病害識別提供了參考和可行性,但高性能深度學(xué)習(xí)模型對數(shù)據(jù)依賴嚴(yán)重,如果數(shù)據(jù)集規(guī)模太小,深度學(xué)習(xí)模型無法完全捕捉到與每一類相關(guān)的特征和變化,進(jìn)而影響識別性能[12-14]。而農(nóng)業(yè)應(yīng)用場景環(huán)境復(fù)雜且時空范圍廣闊,農(nóng)作物病害圖像數(shù)據(jù)采集和標(biāo)注充滿不確定性和高難度性,嚴(yán)重制約了現(xiàn)有病害識別的應(yīng)用[15]。解決小樣本任務(wù)的一個常見思路是從相關(guān)領(lǐng)域的海量標(biāo)注數(shù)據(jù)中學(xué)習(xí)知識結(jié)構(gòu)和模型參數(shù),然后在小規(guī)模數(shù)據(jù)集上進(jìn)行識別微調(diào)[16-20]。許景輝等[21]為解決小樣本復(fù)雜田間背景下的玉米病害圖像識別,提出了一種基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)玉米病害圖像識別模型。為了提高模型的性能,Chen等[22]在ImageNet上預(yù)先訓(xùn)練的VGGNet和Inception模塊,在公共數(shù)據(jù)集上的驗證準(zhǔn)確率不低于91.83%。趙立新等[23]利用遷移學(xué)習(xí)算法并輔以數(shù)據(jù)增強技術(shù),實現(xiàn)了棉花葉部病蟲害圖像準(zhǔn)確分類。研究表明遷移學(xué)習(xí)在提高識別精度、降低過擬合、解決數(shù)據(jù)缺乏方面的有效性[24-25],但其并不能從根本上解決數(shù)據(jù)樣本少的問題。這就使得深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行病害識別陷入數(shù)據(jù)困境。一方面深度學(xué)習(xí)建立在大量有標(biāo)注的圖像數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,而采集到時空分布廣泛的、大規(guī)模的病害圖像并進(jìn)行準(zhǔn)確標(biāo)注,在技術(shù)上或經(jīng)濟(jì)上往往是不可行的[26]。另一方面,其他模態(tài)的病害描述信息廣泛存在,比如,病害特征的文本描述、環(huán)境特征等,但是這些模態(tài)信息在病害識別過程中尚未得到有效利用[27-28]。
綜上所述,在使用圖像進(jìn)行病害識別時,現(xiàn)有方法忽略了病害描述文本信息的有效利用,人們對病害做出的文本描述往往包含豐富的語義信息,這種文本模態(tài)的信息可以與病害圖像模態(tài)信息形成互補,在一定程度上彌補圖像訓(xùn)練樣本不足的問題。盡管這個問題已經(jīng)引起了研究者的注意并開展了相應(yīng)的研究,但是仍需要進(jìn)一步深入的探索多模態(tài)之間表征學(xué)習(xí)的機制和效果。本文在病害圖像的基礎(chǔ)上嵌入病害特征的文本描述作為病害識別的先驗知識,提出了圖像與文本雙模態(tài)聯(lián)合表征學(xué)習(xí)的作物病害識別模型(bimodalNet),以期融合不同模態(tài)之間的共性和特性,更好的解決開放環(huán)境下病害識別問題。
本文使用數(shù)據(jù)集均來自小湯山國家精準(zhǔn)農(nóng)業(yè)示范基地和北京平谷桃智能化生產(chǎn)示范基地,自采集數(shù)據(jù)包括:番茄白粉病、番茄早疫病、黃瓜白粉病、黃瓜病毒病、黃瓜霜霉病、桃炭疽病共 6種病害葉片的圖像數(shù)據(jù)共1 834張,每張圖像配合一句文本描述,作為圖像-文本對,具體數(shù)量如表1所示??紤]到真實應(yīng)用情況,在圖像數(shù)據(jù)集采集過程中分早晨(7:00-8:00),中午(11:00-12:00),傍晚(17:00-18:00)3個時間段進(jìn)行拍攝,采集地點為設(shè)施溫室;為了避免單一文本描述風(fēng)格影響實際使用效果,文本數(shù)據(jù)集由 5名植保專家對照原始圖像進(jìn)行描述,圖像-文本對示例如表2所示,最終按照7:2:1比例劃分原始數(shù)據(jù)集為訓(xùn)練集、驗證集和測試集。
表1 數(shù)據(jù)集樣本數(shù)量Table 1 Number of data set samples
表2 圖像-文本對示例Table 2 Image-text pair example
在本研究中,由于數(shù)據(jù)集的全部圖像采集自不同設(shè)備,因此需要對原始圖像進(jìn)行統(tǒng)一裁剪,將圖像大小統(tǒng)一調(diào)整像素至224×224,本研究對病害圖像的文本描述均為中文,在輸入網(wǎng)絡(luò)之前需要對中文文本進(jìn)行歸一化、分詞、構(gòu)建詞表、文本向量化等操作,其中分詞使用jieba分詞工具,綜合考慮原始文本的初始文本長度以及切分后文本的病害特征保留程度,并且經(jīng)過大量試驗驗證,向量化的文本長度為20個字符時效果最佳,原始文本超過此長度則切除,不足此長度則補充為0。
在分類任務(wù)中,圖像分類器提取圖像數(shù)據(jù)的形狀、顏色、紋理特征,文本分類器提取文本數(shù)據(jù)的文本含義以及上下文關(guān)系特征。設(shè)計雙模態(tài)病害識別模型(bimodalNet)的初衷是結(jié)合圖像模態(tài)和文本模態(tài)兩個模態(tài)的病害特征,不同模態(tài)之間優(yōu)勢互補,最終可以使模態(tài)結(jié)合后的效果超過任意單一模態(tài)達(dá)到的效果。雙模態(tài)病害識別模型由圖像模態(tài)分支和文本模態(tài)分支兩部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)由圖像分支和文本分支兩部分組成,其中圖像分支采用卷積神經(jīng)網(wǎng)絡(luò)(ResNet18),文本分支采用循環(huán)神經(jīng)網(wǎng)絡(luò)(TextRNN),網(wǎng)絡(luò)的輸入為圖像文本對,兩個分支的輸出概率分別對應(yīng)相加作為整體網(wǎng)絡(luò)的最終輸出,最終網(wǎng)絡(luò)綜合了圖像分支和文本分支各自的優(yōu)勢,彌補了各分支的不足。
卷積神經(jīng)網(wǎng)絡(luò)在提取圖像特征中展現(xiàn)了其獨特的優(yōu)越性,針對目標(biāo)圖像的紋理、顏色、形狀等特征進(jìn)行卷積輸出抽象特征,最后將特征輸入分類器得到其分類概率。在圖像模態(tài)分支中給定圖像-文本對中圖像Ii和標(biāo)簽,經(jīng)過特征提取后得到圖像模態(tài)分支的輸出,如式(1)所示。
式中C(·)為卷積神經(jīng)網(wǎng)絡(luò)的提取結(jié)果,F(xiàn)[·]為 Softmax函數(shù),代表病害圖像在圖像模態(tài)分支中的預(yù)測概率。
由于圖像數(shù)據(jù)形式與文本數(shù)據(jù)形式之間有很大不同,使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行病害描述文本的特征提取并不能達(dá)到理想的效果,但是使用循環(huán)神經(jīng)網(wǎng)絡(luò)能夠更好地進(jìn)行病害描述文本的特征提取,在文本數(shù)據(jù)預(yù)處理過程中將描述短文本轉(zhuǎn)化為詞向量,使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取不僅可以提取文本中的上下文關(guān)系特征,也考慮了詞向量本身的特征表達(dá)。給定預(yù)處理后的詞向量Ti和標(biāo)簽,在詞向量經(jīng)過循環(huán)神經(jīng)網(wǎng)絡(luò)過程中,循環(huán)神經(jīng)網(wǎng)絡(luò)將獲取詞向量的上下文信息Ti-1和Ti+1,在詞向量以及其上下文信息的共同作用下得到文本模型分支的輸出,如式(2)所示。
式中F[·]為 softmax 函數(shù),R(·)為全連接層,代表病害描述文本種類在文本模態(tài)分支中的預(yù)測概率。
卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別從不同的角度提取圖像-文本對中不同模態(tài)的特征,進(jìn)行特征融合后可以結(jié)合兩種模態(tài)的特征,進(jìn)而使大概率分類值與小概率分類值之間的差值進(jìn)一步增大,從而使聯(lián)合分類器的分類置信度增加。聯(lián)合輸出公式如式(3)所示。
其特征聯(lián)合的損失函數(shù)Lossjoint如式(4)所示。
式中C為病害類別總數(shù)。
本研究試驗與對照組試驗均在 Ubuntu18.04環(huán)境下進(jìn)行,處理器為Intel core i9 9820X,內(nèi)存為64G,顯卡為GeForce RTX 2080Ti 11G DDR6,采用深度學(xué)習(xí)框架Pytorch,配合Cuda10.1進(jìn)行訓(xùn)練,試驗設(shè)計和對照過程中訓(xùn)練集和驗證集的網(wǎng)絡(luò)批處理大小(Batch-size)分別設(shè)置為16和32,所有網(wǎng)絡(luò)模型迭代次數(shù)均為50。
本研究從識別準(zhǔn)確率(Accuracy)、識別精確率(Precision)、模型靈敏度(Recall)、模型特異性(Specificity)和F1值5個方面進(jìn)行模型之間的比較,其具體公式參見公式(5)~(9)。
式中TP是實際為特定類別并且被分類器正確分類的個體數(shù)量;FP為不屬于特定類別但是被分類器錯誤分類的個體數(shù)量;TN為不屬于特定類別并且被分類器正確分類的個體數(shù)量;FN為屬于特定類別但是被分類器錯誤分類的個體數(shù)量。
3.3.1 單圖像分支對比
在本節(jié)中選用了不同結(jié)構(gòu)的特征提取網(wǎng)絡(luò),并且相同網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行了多種層數(shù)的嘗試,目的是選取出僅進(jìn)行特征提取便能對本數(shù)據(jù)集進(jìn)行良好分類的網(wǎng)絡(luò)結(jié)構(gòu),其中 VGG16、VGG19、ResNet18、ResNet101、DenseNet121、DenseNet169、MobileNet、SqueezeNet、AlexNet作為圖像對照組,優(yōu)化器采用Adam,學(xué)習(xí)率為0.000 1,其訓(xùn)練集訓(xùn)練中的準(zhǔn)確率曲線和損失曲線如圖2所示。訓(xùn)練過程中引入驗證集,保存驗證集中最高準(zhǔn)確率輪數(shù)下的模型參數(shù)作為最終模型參數(shù)。模型在測試集結(jié)果對比如表3所示。
表3 圖像分支對照組測試集結(jié)果對比Table 3 Comparison results of image branch control group test set%
由表3可知,在所有圖像分支對照組中,DenseNet169、DenseNet121、ResNet18、ResNet101、VGG16的F1值都超過了80%,其中DenseNet169最高為87.12%,其測試結(jié)果的混淆矩陣如圖3 所示,其中可以發(fā)現(xiàn)番茄白粉病和黃瓜霜霉病的錯誤率最高。并且由圖2可以發(fā)現(xiàn)使用卷積神經(jīng)網(wǎng)絡(luò)可以提取病害圖像的特征病進(jìn)行分類,并且深度網(wǎng)絡(luò)訓(xùn)練中的準(zhǔn)確率和損失值均比輕量級網(wǎng)絡(luò)取得的效果較好,說明隨著網(wǎng)絡(luò)的加深其特征提取能力進(jìn)一步增強,由于數(shù)據(jù)集和網(wǎng)絡(luò)結(jié)構(gòu)的限制,過深的網(wǎng)絡(luò)(如ResNet101)會出現(xiàn)梯度消失問題從而使得分類效果并不及同結(jié)構(gòu)淺層網(wǎng)絡(luò),分析分類結(jié)果發(fā)現(xiàn)由于番茄白粉病和黃瓜霜霉病數(shù)據(jù)集中存在較多病害正反面圖像,單獨使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并不能完全提取到病害葉片正反面的信息,相反黃瓜病毒病和桃子炭疽病的特征表現(xiàn)十分明顯,使用卷積神經(jīng)網(wǎng)絡(luò)能準(zhǔn)確的提取到病害特征。由此可見,當(dāng)病害特征明顯時,卷積神經(jīng)網(wǎng)絡(luò)可以較好的提取到病害的圖像特征。但是當(dāng)病害特征不顯著、不突出時,卷積神經(jīng)網(wǎng)絡(luò)并不能從圖像單一模態(tài)中學(xué)習(xí)到足夠的特征實現(xiàn)分類。
3.3.2 單文本分支對比
與圖像分支同理,在本節(jié)中依然使用經(jīng)典文本特征提取網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的選取,分別使用TextCNN、TextRNN、TextRNN+Attention、TextRCNN作為文本對照組[29-32],優(yōu)化器采用 Adam,學(xué)習(xí)率為0.000 1,為了防止過擬合設(shè)置dropout為0.3,輸入文本向量長度為 20,其訓(xùn)練集準(zhǔn)確率曲線和損失曲線如圖4所示,并且引入驗證集,保存驗證集中最高準(zhǔn)確率輪數(shù)下的模型作為最終模型。模型在測試集結(jié)果對比如表4所示。
表4 文本分支對照組測試集(歸一化數(shù)據(jù))結(jié)果對比Table 4 Comparison results of text branch control group test set(normalized data)%
由表4可以看出,在所有文本分支對照組的結(jié)果對比中四種網(wǎng)絡(luò)的F1值均超過了90%,說明使用循環(huán)神經(jīng)網(wǎng)絡(luò)可以很好的提取病害描述文本的特征并進(jìn)行分類。由圖4可以看出,文本分支對照組網(wǎng)絡(luò)在訓(xùn)練集中準(zhǔn)確率上升趨勢和損失值下降趨勢均較圖像分支對照組網(wǎng)絡(luò)具有較大優(yōu)勢,并且在4種網(wǎng)絡(luò)中TextRCNN由于兼顧了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的特點,在向量化文本數(shù)據(jù)中取得了最好的效果,其測試結(jié)果的混淆矩陣如圖5所示。從圖5可發(fā)現(xiàn)黃瓜霜霉病的錯誤率最高,通過分析數(shù)據(jù)集中病害描述文本發(fā)現(xiàn),在描述病斑時,訓(xùn)練集和驗證集描述為多邊形病斑,而測試集描述為正方形病斑,并且在其他種類的測試中也出現(xiàn)了類似情況,因此可以得出結(jié)論:不準(zhǔn)確的病害癥狀描述會導(dǎo)致錯誤的診斷結(jié)果。
3.3.3 雙模態(tài)聯(lián)合分支對比結(jié)果
僅使用圖像進(jìn)行病害識別對于病害特征表現(xiàn)不明顯的情況效果不佳,僅使用文本進(jìn)行病害診斷對于存在錯誤描述的情況表現(xiàn)不佳。本節(jié)將使用雙模態(tài)聯(lián)合訓(xùn)練進(jìn)行病害識別,在雙模態(tài)聯(lián)合分支對照組網(wǎng)絡(luò)選取中綜合考慮整體模型的大小與模型的準(zhǔn)確率,選擇圖像分支與文本分支中的不同網(wǎng)絡(luò)進(jìn)行組合,其雙模態(tài)聯(lián)合分支對照組網(wǎng)絡(luò)分別為 ResNet18 + TextRCNN、ResNet18 +TextRNN、DenseNet121 + TextRCNN、DenseNet121 +TextRNN_Attention、Mobilenet+TextRCNN、VGG16 +TextCNN,優(yōu)化器采用Adam,學(xué)習(xí)率為0.000 1,在優(yōu)化器優(yōu)化過程中采用圖像分類器和文本分類器單獨優(yōu)化策略,使兩個模態(tài)的分類器都能達(dá)到其最優(yōu)的效果,最后將兩個模態(tài)得到的結(jié)果結(jié)合得到聯(lián)合分類結(jié)果,其訓(xùn)練集訓(xùn)練過程中的準(zhǔn)確率曲線和損失曲線如圖6所示,并且引入驗證集,保存驗證集中最高準(zhǔn)確率輪數(shù)下的模型作為最終模型。模型在測試集識別結(jié)果如表5所示。
由表5可以看出,在雙模態(tài)聯(lián)合分支對照組試驗中使用了圖像模態(tài)分支中F1值高的深度網(wǎng)絡(luò)(DenseNet121、ResNet18和 VGG16)和淺層網(wǎng)絡(luò)(MobileNet)分別與文本模態(tài)分支中的不同網(wǎng)絡(luò)組合,其得到的分類結(jié)果F1值均超過了95%,并且由圖6可以看出,雙模態(tài)聯(lián)合對照組網(wǎng)絡(luò)中訓(xùn)練集準(zhǔn)確率上升趨勢和損失值下降趨勢較圖像分支和文本分支對照組均有明顯提升,取得最佳識別效果的雙模態(tài)聯(lián)合模型為ResNet18+TextRNN,其識別結(jié)果混淆矩陣如圖7所示,從圖7中可以看出只有黃瓜霜霉病有錯誤分類出現(xiàn),其余種類由于圖像模態(tài)和文本模態(tài)的互補性均能正確分類。并且分析錯誤分類圖像和文本描述,均為病害葉片特征不明顯,且描述出現(xiàn)錯誤導(dǎo)致,但是總體上雙模態(tài)聯(lián)合模型可以達(dá)到雙模態(tài)之間特征互補使分類正確率提高。
表5 雙模態(tài)聯(lián)合分支對照組測試集結(jié)果對比Table 5 Comparison results of bimodal joint branch control grouptest set%
將圖像模態(tài)模型、文本模態(tài)模型和雙模態(tài)聯(lián)合模型取得的最優(yōu)模型在訓(xùn)練過程中的準(zhǔn)確率顯示為圖8,由于在訓(xùn)練開始時模型準(zhǔn)確率變化較大,因此在剛開始的幾輪訓(xùn)練結(jié)束時得到的準(zhǔn)確率較低,因此被認(rèn)定為異常值,其中準(zhǔn)確率最低的異常值為模型的第一輪訓(xùn)練結(jié)束時的準(zhǔn)確率,可以發(fā)現(xiàn)雙模態(tài)聯(lián)合模型的中位數(shù)和最高值在3個模型中取得了最大,圖像模態(tài)模型在訓(xùn)練開始時準(zhǔn)確率較其他兩種模態(tài)高,但是其擬合的最終準(zhǔn)確率為最低,文本模態(tài)模型在訓(xùn)練開始時準(zhǔn)確率較其他兩種模態(tài)低,但是其模型收斂幅度較大,平均比較3種訓(xùn)練方式的初始準(zhǔn)確率,最終準(zhǔn)確率,以及模型收斂過程中的準(zhǔn)確率提升速度,雙模態(tài)聯(lián)合模型取得了最佳效果。
當(dāng)前,依靠大規(guī)模的數(shù)據(jù)集和手動注釋是農(nóng)業(yè)深度學(xué)習(xí)應(yīng)用的常見做法[33-34]。PlantVillage數(shù)據(jù)集是一個很好的例子,數(shù)據(jù)集包括54 303張健康和不健康的葉片圖像,按物種和疾病分為 38類。在真實的田間條件下,Wiesner-Hanks等[35]采集了18 222張玉米枯葉病圖像,標(biāo)注病斑105 705個,整個數(shù)據(jù)集創(chuàng)建從2015年至2017年歷時3 a。陳雷等[36]建立的大田作物病害識別研究圖像數(shù)據(jù)集,共有水稻、小麥和玉米3種大田作物的15種病害圖像,時間跨度為2013到2018。由此可見,通過擴展數(shù)據(jù)集提升病害識別模型的性能代價較大。單純依靠擴大病害圖像數(shù)據(jù)集的規(guī)模面臨如下挑戰(zhàn):一是病害發(fā)生的時空跨度大,難以大范圍的收集病害圖像并進(jìn)行人工標(biāo)注;二是同一種病害在不同的作物種類、發(fā)病部位、成長階段、栽培環(huán)境下的病癥表現(xiàn)差異較大,圖像難以涵蓋某一種病害的全部特征。但是,正如本研究的結(jié)果所表明的,圖像-文本雙模態(tài)聯(lián)合表征學(xué)習(xí)方法允許從少樣本中學(xué)習(xí),而且識別性能相比較單純依靠圖像有所提高,因此在解決少樣本的病害圖像識別任務(wù)方面,“圖像+文本”的雙模態(tài)聯(lián)合表征學(xué)習(xí)是一個可行的解決方案。
在本研究中使用了圖像模態(tài)和文本模態(tài)之間特征互補,使模型可以達(dá)到圖像模態(tài)修正文本模態(tài)錯誤描述,文本模態(tài)修正圖像模態(tài)特征模糊的效果,總體上可以提高復(fù)雜環(huán)境下作物病害識別的準(zhǔn)確率,也可以降低病害圖像的大量采集帶來的人力和物力消耗。但是本文提出的方法仍存在如下的不足,1)在雙模態(tài)聯(lián)合進(jìn)行病害分類過程中需要某一模態(tài)的分類置信度足夠高;2)模型由圖像和文本兩個分支并行抽取特征,將學(xué)習(xí)到的特征分別映射到各自獨立的特征空間中,因此特征融合并沒有增加語義解釋性。為了克服上述的局限性,在后期的研究中,一方面應(yīng)提高模型對于兩個模態(tài)分類置信度均不高的情況的適應(yīng)能力,以提高模型的魯棒性;另一方面應(yīng)該研究不同模態(tài)數(shù)據(jù)向同一特征空間映射的方法,以便增強不同模態(tài)特征之間相關(guān)性與互補性的語義解釋。在本文中采用的數(shù)據(jù)集涉及3種作物共6類病害,并且每類病害訓(xùn)練集為 200張左右,樣本量少也導(dǎo)致了圖像模態(tài)的識別效果差,而文本對病害特征的描述相對精確,噪聲低(與圖像模態(tài)數(shù)據(jù)相比不包含復(fù)雜的背景信息),因此,在訓(xùn)練集規(guī)模相同的條件下,文本模態(tài)的識別效果比圖像模態(tài)優(yōu)異。構(gòu)建準(zhǔn)確、可信的模型是實現(xiàn)作物病害智能識別落地的關(guān)鍵,因此在研究基于雙模態(tài)聯(lián)合表征學(xué)習(xí)提高識別準(zhǔn)確率的同時,解決識別結(jié)果的語義解釋性也是亟需解決的問題。
本文構(gòu)建了圖像與文本雙模態(tài)聯(lián)合表征學(xué)習(xí)的作物病害識別模型(bimodalNet)。該模型是一種通用的框架,由圖像分支和文本分支兩部分構(gòu)成。在實際使用過程中可以使用任何優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行替換,以達(dá)到最佳的識別效果。本文中采用了雙模態(tài)結(jié)合后識別效果最佳的ResNet18與TextRNN分別作為圖像分支和文本分支。雙模態(tài)聯(lián)合表征學(xué)習(xí)模型充分利用了病害圖像特征與文本描述之間的相關(guān)性和互補性,在開放環(huán)境作物病害小樣本數(shù)據(jù)集中取得了超過圖像模態(tài)單獨訓(xùn)練和文本模態(tài)單獨訓(xùn)練的效果,最優(yōu)模型組合(ResNet18+TextRNN)在測試集的準(zhǔn)確率、精確率、靈敏度、特異性和F1值分別為99.47%、98.51%、98.61%、99.68%和98.51%。另外,由于一些病害在初期葉片正面的癥狀相似,難以區(qū)分,但在葉片反面存在可區(qū)分的特征,因此本文收集了病害葉片的正反面作為病害發(fā)生時的特征學(xué)習(xí)。本文工作為實際農(nóng)業(yè)場景下,基于多模態(tài)聯(lián)合表征學(xué)習(xí)的小樣本作物病害識別提供可行方案。