鄭增威 ,李彥臻 ,3,劉 益 ,3,林中琦 ,向正哲 ,何夢(mèng)竹 ,孫 霖 ※
(1. 浙大城市學(xué)院計(jì)算機(jī)與計(jì)算科學(xué)學(xué)院,杭州 310015;2. 智能植物工廠浙江省工程實(shí)驗(yàn)室,杭州 310015;3. 浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310027)
中國(guó)葡萄種植面積大、產(chǎn)量高,是主要的水果之一[1]。在葡萄園作物栽培管理過程中,蟲害是制約其品質(zhì)改良和產(chǎn)量增長(zhǎng)的主要因素,正確診斷作物害蟲類別是科學(xué)防治的必要前提。 隨著人工智能技術(shù)的發(fā)展,利用計(jì)算機(jī)視覺技術(shù)對(duì)農(nóng)作物害蟲圖像進(jìn)行自動(dòng)識(shí)別和診斷已經(jīng)成為國(guó)內(nèi)外一大研究熱點(diǎn)。
深度學(xué)習(xí)作為其中一項(xiàng)關(guān)鍵技術(shù),彌補(bǔ)了傳統(tǒng)圖像分類方法特征提取能力差、效率低等缺陷,被廣泛應(yīng)用于農(nóng)作物害蟲的識(shí)別與診斷中。AYAN 等[2]集成Inception-V3[3]、Xception[4]和MobileNet[5],提出了GAEnsemble 模型,通過遺傳算法確定預(yù)訓(xùn)練模型權(quán)重,該模型具備良好的穩(wěn)定性和作物害蟲識(shí)別準(zhǔn)確性。蘇仕芳等[6]利用ImageNet-21k 預(yù)訓(xùn)練VGG-16[7-8],并在葡萄葉片病害數(shù)據(jù)集上微調(diào),通過數(shù)據(jù)增強(qiáng)技術(shù)結(jié)合遷移學(xué)習(xí)的訓(xùn)練方式,該模型對(duì)褐斑病、黑腐病等葡萄葉常見病害的識(shí)別準(zhǔn)確率均達(dá)到90%以上。孫鈺等[9]將VGG-16 用于無人機(jī)上對(duì)森林害蟲進(jìn)行檢測(cè)。梁萬杰等[10]提出一種卷積神經(jīng)網(wǎng)絡(luò)模型的水稻害蟲識(shí)別方法。TURKOGLU 等[11]提出了一種基于LSTM(long short-term memory)[12]的卷積神經(jīng)網(wǎng)絡(luò)模型MLP-CNNs,實(shí)現(xiàn)了蘋果害蟲的精確識(shí)別。王林惠等[13]優(yōu)選MoblieNet 作為害蟲圖像特征提取網(wǎng)絡(luò)對(duì)柑橘害蟲進(jìn)行準(zhǔn)確識(shí)別。
雖然上述研究在一定程度上解決了農(nóng)作物害蟲的識(shí)別問題,但是目標(biāo)種物僅僅局限于小麥、蘋果、柑橘等,對(duì)于葡萄園中的害蟲識(shí)別仍然存在識(shí)別精度不足、針對(duì)性不強(qiáng)等問題。針對(duì)此,找到一種能夠更加精準(zhǔn)識(shí)別葡萄園害蟲種類的模型和方法已成為葡萄園提高產(chǎn)量和品質(zhì)的迫切需求。
知識(shí)圖譜(knowledge graph, KG)作為一種能夠精確描述領(lǐng)域內(nèi)復(fù)雜知識(shí)的數(shù)據(jù)模型,被廣泛應(yīng)用于智能搜索、個(gè)性化推薦等領(lǐng)域。在農(nóng)業(yè)領(lǐng)域知識(shí)圖譜方面,于何龍等[14]構(gòu)建了包含害蟲種類、病害類別、病斑顏色、發(fā)病階段等信息的水稻病害蟲本體,并開發(fā)了知識(shí)圖譜與確定性因子模型相結(jié)合的水稻病害蟲知識(shí)推理和智能診斷系統(tǒng),該系統(tǒng)支持領(lǐng)域知識(shí)檢索,能夠?yàn)樗咀魑锷a(chǎn)實(shí)踐提供指導(dǎo)。戈為溪等[15]提出了一種基于知識(shí)圖譜和案例推理的水稻精準(zhǔn)施肥推薦模型,該施肥推薦模型能夠輸出詳細(xì)的施肥方案和精確的施肥量。吳賽賽等[16]提出了一種基于深度學(xué)習(xí)的實(shí)體-關(guān)系抽取模型,成功實(shí)現(xiàn)多源數(shù)據(jù)中有用知識(shí)的準(zhǔn)確抽取,所構(gòu)建的病害蟲知識(shí)圖譜能夠?yàn)槠渌r(nóng)作物相關(guān)下游任務(wù)提供高質(zhì)量的知識(shí)基礎(chǔ)。鄭泳智等[17]對(duì)荔枝和龍眼害蟲知識(shí)進(jìn)行了研究,并基于知識(shí)圖譜開發(fā)了智能問答系統(tǒng),為害蟲診斷和防治提供指導(dǎo)。知識(shí)圖譜技術(shù)的引入實(shí)現(xiàn)了數(shù)據(jù)信息的有效利用,同時(shí)提高了專業(yè)知識(shí)在農(nóng)業(yè)領(lǐng)域的應(yīng)用能力。
然而,現(xiàn)有研究中知識(shí)圖譜主要用于農(nóng)業(yè)領(lǐng)域的知識(shí)檢索和智能診斷,很少涉及將知識(shí)圖譜與計(jì)算機(jī)視覺技術(shù)相結(jié)合以提高害蟲圖像識(shí)別精度的研究。同時(shí)對(duì)于覆蓋果蔬作物害蟲知識(shí)圖譜的深入研究較少,尤其是針對(duì)葡萄園害蟲這一垂直領(lǐng)域的系統(tǒng)仍有待開發(fā)。為解決上述問題,本研究提出了一種基于屬性特征知識(shí)圖譜的細(xì)粒度葡萄園害蟲識(shí)別方法ACKGViT(attribute characteristics knowledge graph enhanced vision transformer),利用從農(nóng)業(yè)科學(xué)等網(wǎng)站收集的大量葡萄害蟲相關(guān)知識(shí)語料,由領(lǐng)域?qū)<抑笇?dǎo)構(gòu)建了害蟲屬性特征知識(shí)圖譜,用于增強(qiáng)視覺編碼器對(duì)害蟲圖像細(xì)粒度特征信息的感知能力,從而實(shí)現(xiàn)葡萄園害蟲精確識(shí)別。該方法可作為葡萄園害蟲信息檢索、智能推薦等下游應(yīng)用的知識(shí)庫(kù)基礎(chǔ),可以有效應(yīng)用于作物品種選擇、害蟲防控等農(nóng)業(yè)生產(chǎn)方面。
由于葡萄園害蟲領(lǐng)域暫時(shí)沒有公開可用的資料庫(kù)和數(shù)據(jù)庫(kù)能夠直接作為試驗(yàn)材料,本研究涉及的葡萄害蟲相關(guān)知識(shí)和數(shù)據(jù)通過專業(yè)農(nóng)業(yè)網(wǎng)站、昆蟲科學(xué)網(wǎng)站、維基百科、百度百科等知識(shí)庫(kù)獲取。利用Scrapy 框架,共爬取包括綠盲蝽、大青葉蟬、葡萄二星葉蟬等21 種葡萄園常見害蟲在內(nèi)的數(shù)據(jù)1 264 條。通過正則表達(dá)式等數(shù)據(jù)清洗方式,將爬取的數(shù)據(jù)轉(zhuǎn)化為規(guī)范化的葡萄害蟲語料。清洗后的數(shù)據(jù)包括半結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型:
1)半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)包括例如“形態(tài)特征”“生活習(xí)性”等目錄或標(biāo)題在內(nèi)的半結(jié)構(gòu)化信息,通過構(gòu)造相應(yīng)規(guī)則直接進(jìn)行實(shí)體抽取。
2)非結(jié)構(gòu)化數(shù)據(jù)。將整段、整篇文本作為屬性的數(shù)據(jù),采用深度學(xué)習(xí)模型Bi-LSTM-CRF[18]對(duì)該類型的數(shù)據(jù)進(jìn)行實(shí)體抽取,以將實(shí)體-屬性抽取轉(zhuǎn)換為序列標(biāo)注任務(wù)。
知識(shí)圖譜構(gòu)建包括“自底向上”和“自頂向下”兩種方式。自底向上是一種數(shù)據(jù)驅(qū)動(dòng)方式,適用于開放領(lǐng)域的知識(shí)圖譜構(gòu)建;而自頂向下的構(gòu)建方式是指在構(gòu)建知識(shí)圖譜之前,預(yù)先定義本體和模式。根據(jù)本研究是垂直于“葡萄園”種植行業(yè)的研究這一特性,采用自頂向下的方式構(gòu)建葡萄園害蟲屬性特征知識(shí)圖譜。將實(shí)例集合定義為 <害蟲類別,關(guān)系,屬性特征> 的三元組,并選用圖數(shù)據(jù)庫(kù)Neo4j 作為知識(shí)存儲(chǔ)方式。
為了更加精準(zhǔn)地描述葡萄園害蟲實(shí)體、屬性特征以及實(shí)體關(guān)聯(lián)信息,本文確定了常見葡萄園害蟲的種類、生命周期、分布區(qū)域,以及它們對(duì)葡萄產(chǎn)量和品質(zhì)的影響程度,從而更全面地理解葡萄園害蟲問題。此外,還研究了針對(duì)不同害蟲種類的防治策略和方法,在這項(xiàng)研究中,對(duì)害蟲的屬性特征進(jìn)行了細(xì)致的分析,包括顏色特征、紋理特征和輪廓特征。這些特征有助于區(qū)分不同種類的害蟲,為識(shí)別模型提供了豐富的信息,使得模型識(shí)別準(zhǔn)確率得以上升。除此之外,還深入研究了害蟲的生物學(xué)特性,如生活習(xí)性、繁殖方式、天敵關(guān)系等。通過對(duì)害蟲的分類體系的了解,可以為知識(shí)圖譜構(gòu)建提供更為精細(xì)的分類依據(jù)。在收集了大量葡萄害蟲相關(guān)知識(shí)語料后,本研究構(gòu)建出了一個(gè)能夠精確反映葡萄園害蟲實(shí)體屬性和關(guān)聯(lián)信息的知識(shí)圖譜,最終知識(shí)圖譜部分搭建效果展示如圖1 所示。
圖1 知識(shí)存儲(chǔ)示例Fig.1 Example of storing knowledge
如圖2 所示,本文所提出的ACKGViT 模型采用雙分支結(jié)構(gòu),構(gòu)建包括:基于屬性特征知識(shí)圖譜(attribute characteristics knowledge graph, ACKG)的害蟲屬性特征及關(guān)聯(lián)特征提取分支,和基于深度學(xué)習(xí)網(wǎng)絡(luò)ViT[19](vision transformer, ViT)的害蟲圖像高層語義表征提取分支,結(jié)合兩個(gè)分支獲取的特征向量,用于葡萄害蟲圖像分類研究。ACKG 通過圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)映射。其中值得說明的是,在僅使用單一知識(shí)圖譜進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)初始化參數(shù)可能會(huì)對(duì)最終優(yōu)化效果造成干擾,因此,為了讓知識(shí)圖譜學(xué)習(xí)到的關(guān)系更符合實(shí)際領(lǐng)域知識(shí),本文還引入了傳統(tǒng)特征信息,作為知識(shí)圖譜特征學(xué)習(xí)的目標(biāo),用于優(yōu)化訓(xùn)練。
圖2 ACKGViT 模型示意圖Fig.2 Illustration of the ACKGViT(attribute characteristics knowledge graph enhanced vision transformer) model
2.1.1 傳統(tǒng)特征提取模塊
ACKGViT 組合顏色特征、紋理特征和輪廓特征作為傳統(tǒng)手工特征向量。對(duì)于輸入的每一張圖像,將顏色矩作為圖像顏色表征,定義為fc;使用局部二值模式(local binary patterns)[20]和灰度共生矩陣(gray-level co-occurrence matrix)[21]分別提取圖像紋理特征并進(jìn)行拼接(Concatenate),所得向量作為全局紋理特征ft;輪廓特征fo基于Canny 邊緣檢測(cè)算法進(jìn)行提取。最終傳統(tǒng)特征fMF由上述3 種特征通過拼接操作得到:
2.1.2 屬性特征知識(shí)圖譜ACKG本研究利用GAT(graph attention network, GAT)[22]網(wǎng)絡(luò)將葡萄園病害蟲知識(shí)圖譜ACKG 映射為可以進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模塊。GAT 是由VELICKOVIC P 等[22]在2018 年提出的一種圖卷積網(wǎng)絡(luò)模型,由堆疊圖注意力(Attention)層構(gòu)成,利用自注意力機(jī)制(Self-attention)聚合鄰居節(jié)點(diǎn)信息,通過在訓(xùn)練過程中自適應(yīng)學(xué)習(xí)鄰居權(quán)值的方式,使得模型具備良好的可解釋性和準(zhǔn)確性。知識(shí)圖譜中的點(diǎn)包括害蟲類別Nl和害蟲特征Nf兩種類型:
式中n和m分別代表害蟲類別總數(shù)和圖譜中所有屬性節(jié)點(diǎn)的數(shù)量。l0代表害蟲類別的第一個(gè)索引。式(2)表示知識(shí)圖譜中害蟲類別節(jié)點(diǎn)的集合,其中Nl0是第一個(gè)害蟲類別節(jié)點(diǎn),Nl1是第二個(gè)害蟲類別節(jié)點(diǎn),依次類推,直到Nln為第n個(gè)害蟲類別節(jié)點(diǎn)。同樣,式(3)表示知識(shí)圖譜中害蟲特征節(jié)點(diǎn)的Nf集合,包括m個(gè)特征節(jié)點(diǎn)。
ACKG 的訓(xùn)練包括兩個(gè)步驟:首先,基于輸入害蟲圖像的標(biāo)簽(Label)在知識(shí)圖譜中進(jìn)行索引,得到該類害蟲在知識(shí)圖譜中對(duì)應(yīng)節(jié)點(diǎn)的屬性特征向量,記為fCF;然后,與手工特征向量fMF進(jìn)行余弦相似度計(jì)算,得到相似度損失 Ls:
式中,k代表特征向量的維度,與害蟲類別總數(shù)相等。fMFi代表手工特征向量fMF的第i個(gè)分量,fCFi代表屬性特征向量fCF的第i個(gè)分量。式(4)計(jì)算的是相似度損失Ls,其目的是衡量手工特征向量fMF與知識(shí)圖譜中屬性特征向量fCF之間的相似度。這里使用了余弦相似度作為相似度的度量方法,因?yàn)樗軌蚝芎玫夭蹲絻蓚€(gè)向量之間的角度關(guān)系,而不受長(zhǎng)度影響。式(4)的分子部分計(jì)算了fMF和fCF之間的點(diǎn)積,而分母部分計(jì)算了各自的模長(zhǎng)乘積。通過將點(diǎn)積除以模長(zhǎng)乘積,可以得到兩個(gè)向量之間的余弦相似度。這個(gè)相似度值可以用于評(píng)估手工特征與知識(shí)圖譜中屬性特征之間的一致性。在訓(xùn)練過程中,希望最小化相似度損失 Ls,以便使得手工特征與知識(shí)圖譜中的屬性特征更加一致。
測(cè)試時(shí),利用每張圖像的手工特征向量,與ACKG中所有表示害蟲類別的節(jié)點(diǎn)所對(duì)應(yīng)的特征向量進(jìn)行余弦相似度計(jì)算,組合得到屬性相似性特征向量fCL。用lk表示害蟲類別節(jié)點(diǎn)索引,則fCL表示為
由于視覺編碼器ViT[19]在多種預(yù)訓(xùn)練網(wǎng)絡(luò)模型中表現(xiàn)最為優(yōu)異,本研究將ViT 作為提取圖像高層語義表征信息的骨干網(wǎng)絡(luò)。
ViT 是由Google 團(tuán)隊(duì)在2020 年提出的一種圖像分類模型,通過在視覺任務(wù)中引入Transformer[23]機(jī)制,ViT 表現(xiàn)出了良好的性能與可擴(kuò)展性,現(xiàn)被廣泛應(yīng)用于各類視覺任務(wù)。
對(duì)于輸入圖像X∈RH×W×C,即高、寬、通道數(shù)分別為H、W、C,ViT 會(huì)首先將其切分為多個(gè)子圖塊(Patch),并展平為一維輸入序列。令圖塊大小為P×P,則該子圖塊序列表示為
式中,N表示子圖塊數(shù)目。
接下來,將每個(gè)子塊投影為固定長(zhǎng)度D的向量再輸入到Transformer 編碼器,即有:
在序列頭部嵌入特殊字符CLS,從而將視覺問題轉(zhuǎn)化為seq2seq 問題。經(jīng)過位置編碼、層歸一化以及多層感知機(jī)進(jìn)行維度變換之后,得到最終圖像表征輸出向量,記為fSF。為了獲得更好的遷移效果,本研究所使用的是經(jīng)過ImageNet-21k 預(yù)訓(xùn)練的ViT 網(wǎng)絡(luò)。
ACKGViT 結(jié)合知識(shí)圖譜提取的圖像屬性特征和ViT 提取的圖像高層語義表征特征用于訓(xùn)練分類器。訓(xùn)練、測(cè)試時(shí)融合后的特征ftrain、ftest分別表示為
分類器由全連接網(wǎng)絡(luò)和Softmax 函數(shù)構(gòu)成。輸入是害蟲圖像特征向量,即ftrain或ftest,輸出是害蟲類別。
模型損失 L用交叉熵?fù)p失函數(shù) Lc和余弦損失函數(shù)Ls表示:
式中,yi和y?i分別表示輸入害蟲圖像的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽,p(y?)表示y?的預(yù)測(cè)概率。
訓(xùn)練分類器方法依據(jù)與原理如下:1)圖像屬性特征提?。豪弥R(shí)圖譜中的概念節(jié)點(diǎn)和它們之間的關(guān)系來捕捉圖像中的屬性信息。知識(shí)圖譜通過對(duì)領(lǐng)域知識(shí)的結(jié)構(gòu)化表示,為模型提供了關(guān)于病害蟲的高級(jí)信息。利用圖注意網(wǎng)絡(luò)(graph attention networks,GAT)對(duì)知識(shí)圖譜進(jìn)行編碼,從而為每個(gè)概念節(jié)點(diǎn)生成一個(gè)特征向量。這些特征向量可以視為害蟲類別的屬性特征。2)高層語義表征特征提取:使用ViT 從圖像中提取高層語義表征特征。ViT 通過將圖像分割為固定大小的patches,并將它們線性嵌入到特征空間中,然后應(yīng)用Transformer 結(jié)構(gòu)進(jìn)行特征抽取。這樣,ViT 可以捕獲圖像中的全局上下文信息,從而生成具有高層語義的特征表示。3)訓(xùn)練階段:將知識(shí)圖譜提取的圖像屬性特征與ViT 提取的高層語義表征特征進(jìn)行融合。融合通過特征加法操作進(jìn)行融合。融合后的特征向量包含了病害蟲的屬性信息和圖像的高級(jí)語義信息,可以更好地表征害蟲類別,提高分類性能。這樣做可以進(jìn)一步引導(dǎo)模型關(guān)注與目標(biāo)類別相關(guān)的特征,減小背景噪聲的影響。具體過程如圖3 所示。
圖3 ACKGViT 模型具體運(yùn)作機(jī)理Fig.3 Specific operating mechanism of ACKGViT(attributecharacteristics knowledge graph enhanced vision transformer) model
本研究測(cè)試所用數(shù)據(jù)集包括從大規(guī)模公開數(shù)據(jù)集IP102[24]中挑選的GP21 數(shù)據(jù)集和從農(nóng)業(yè)生產(chǎn)基地實(shí)地采集的GP8 數(shù)據(jù)集。
GP21 數(shù)據(jù)集。GP21 數(shù)據(jù)集來源于IP102[24]數(shù)據(jù)集,該數(shù)據(jù)集包括從專業(yè)農(nóng)業(yè)網(wǎng)站和昆蟲科學(xué)網(wǎng)站上收集的共計(jì)75 222 個(gè)樣本。由于本任務(wù)聚焦于葡萄園害蟲的細(xì)粒度識(shí)別問題,所以從中挑選了21 種葡萄園常見害蟲圖像,構(gòu)成GP21 數(shù)據(jù)集,用于分類研究,其中,訓(xùn)練樣本和測(cè)試樣本總數(shù)分別為10 303 和1 714。
GP8 數(shù)據(jù)集。該數(shù)據(jù)集采集于杭州浙大城市學(xué)院植物工廠基地。如表1 所示,在3 位農(nóng)業(yè)專家指導(dǎo)下,利用遠(yuǎn)程可視化自動(dòng)害蟲監(jiān)測(cè)系統(tǒng)iMETOS iSCOUT,采集了包含綠盲蝽、大青葉蟬和麥二叉蚜等在內(nèi)的8 種當(dāng)季葡萄園害蟲圖像,通過人工篩選和標(biāo)注,最終獲得GP8 數(shù)據(jù)集,如圖4 所示,其樣本總數(shù)為1 365。將GP8數(shù)據(jù)集按照3:1 的比例進(jìn)行劃分,得到訓(xùn)練集和測(cè)試集。其中,訓(xùn)練樣本總數(shù)為1 023,測(cè)試樣本總數(shù)為342。
表1 GP8 數(shù)據(jù)集包含害蟲類別及相應(yīng)樣本量Table 1 Taxonomy and its corresponding sample size of the GP8 dataset
圖4 GP8 數(shù)據(jù)集中的樣本示例Fig.4 Different example images of the GP8 dataset
本文所提出的ACKGViT 模型采用兩層的GAT 網(wǎng)絡(luò),所含MLP(multi-layer perceptron, MLP)隱藏層維度為16,注意力頭Z設(shè)置為4,輸出結(jié)點(diǎn)數(shù)目與數(shù)據(jù)集中害蟲類別總數(shù)保持一致;ViT 使用默認(rèn)參數(shù)配置。在將圖像輸入到網(wǎng)絡(luò)進(jìn)行特征提取之前,通過縮放操作(Resize)保證其空間尺度為224× 224。訓(xùn)練時(shí)觀察到模型在50 個(gè)輪次時(shí)已完全收斂,本試驗(yàn)將訓(xùn)練輪次設(shè)置為50,學(xué)習(xí)率設(shè)置為0.001。
相關(guān)試驗(yàn)在裝有NVIDIA RTX 3 090 GPU 和Intel Core i9 10900K CPU 的機(jī)器上進(jìn)行。訓(xùn)練過程使用SGD優(yōu)化器,GP21 數(shù)據(jù)集和GP8 數(shù)據(jù)集完成50 個(gè)輪次的訓(xùn)練分別需要大約4 和0.5 h。與其他數(shù)據(jù)集相關(guān)文獻(xiàn)一致,本試驗(yàn)將準(zhǔn)確率(accuracy,A)作為評(píng)估模型性能的指標(biāo),同時(shí)也列舉了F1 分?jǐn)?shù)(F1),精確率(precision,P),召回率(recall,R)指標(biāo)的計(jì)算結(jié)果。
式中,Tp是正確預(yù)測(cè)的正樣本數(shù)量,Tn是正確預(yù)測(cè)的負(fù)樣本數(shù)量,F(xiàn)p是錯(cuò)誤預(yù)測(cè)的正樣本數(shù)量,F(xiàn)n是錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)量。
在評(píng)估所提出的葡萄園害蟲識(shí)別模型的性能之外,還需要關(guān)注算法復(fù)雜度和計(jì)算量等方面的分析。這些分析有助于了解模型在實(shí)際應(yīng)用中的效率和可擴(kuò)展性。
首先,考慮模型的時(shí)間復(fù)雜度。模型的主要組成部分包括視覺編碼器(ViT)和圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)。對(duì)于ViT,其時(shí)間復(fù)雜度主要取決于圖像的分辨率和ViT 的層數(shù)。假設(shè)輸入圖像的大小為H×W,ViT 的層數(shù)為L(zhǎng),那么ViT 的時(shí)間復(fù)雜度大致為O(L×H×W)。對(duì)于GCN,其時(shí)間復(fù)雜度主要取決于圖的節(jié)點(diǎn)數(shù)和GCN 的層數(shù)。假設(shè)知識(shí)圖譜有N個(gè)節(jié)點(diǎn),GCN 的層數(shù)為K,那么GCN 的時(shí)間復(fù)雜度大致為O((K×N)2)。因此,整個(gè)模型的時(shí)間復(fù)雜度大約為O(L×H×W+(K×N)2)。
其次,關(guān)注模型的空間復(fù)雜度。同樣地,模型的空間復(fù)雜度主要取決于ViT 和GCN。對(duì)于ViT,其空間復(fù)雜度主要與圖像分辨率和ViT 的參數(shù)數(shù)量有關(guān)。設(shè)ViT的參數(shù)數(shù)量為Pv,那么ViT 的空間復(fù)雜度大約為O(Pv)。對(duì)于GCN,其空間復(fù)雜度主要與知識(shí)圖譜的節(jié)點(diǎn)數(shù)和GCN 的參數(shù)數(shù)量有關(guān)。設(shè)GCN 的參數(shù)數(shù)量為Pg,那么GCN 的空間復(fù)雜度大約為O(Pg+N)。因此,整個(gè)模型的空間復(fù)雜度大約為O(Pv+Pg+N)。
最后,討論模型的計(jì)算量。計(jì)算量主要受輸入圖像大小、模型參數(shù)數(shù)量以及訓(xùn)練迭代次數(shù)等因素的影響。在訓(xùn)練階段,模型需要對(duì)大量圖像進(jìn)行前向傳播和反向傳播,以更新模型參數(shù)。設(shè)訓(xùn)練迭代次數(shù)為T,那么整個(gè)模型的計(jì)算量大約為O(T(L×H×W+(K×N)2))。
綜上所述,本研究所提出的模型在時(shí)間復(fù)雜度、空間復(fù)雜度和計(jì)算量方面的分析表明,雖然引入知識(shí)圖譜和圖卷積網(wǎng)絡(luò)增加了一定的計(jì)算負(fù)擔(dān),但總體上仍在可接受范圍內(nèi)。此外,隨著硬件性能的提升和算法優(yōu)化技術(shù)的發(fā)展,該模型在實(shí)際應(yīng)用中將具有較高的效率和可擴(kuò)展性。
表2 分別列出了預(yù)訓(xùn)練網(wǎng)絡(luò)VGG-16、ResNet-152[21]、Inception-V3、 Xception、 MobileNet、 SqueezeNet[22]和ViT 在GP21 和GP8 測(cè)試集上的性能。
表2 不同模型在GP21 和GP8 數(shù)據(jù)集上的性能對(duì)比Table 2 Performance comparison of the different models on the GP21 and GP8 datasets.%
從表2 中可以看出,ViT 模型在Accuracy 和F1指標(biāo)上都明顯優(yōu)于其他模型。相比于目前視覺任務(wù)中最高頻使用的模型之一ResNet-152,ViT 的Accuracy 和F1 值在GP21 數(shù)據(jù)集上分別提高了2.08 和3.46 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別提高了2.63 和2.72 個(gè)百分點(diǎn)。這是因?yàn)橄啾扔诰矸e神經(jīng)網(wǎng)絡(luò)模型,ViT 的注意力機(jī)制使得它具備低層的全局特征學(xué)習(xí)能力,所以利用ViT 提取的高層表征能夠更精細(xì)地整合害蟲圖像全局和局部信息,因此,本研究將ViT 作為骨干網(wǎng)絡(luò)構(gòu)建ACKGViT 模型。
ACKGViT 的性能在表3 最后一行展示,相比于ViT,ACKGViT 的Accuracy 和F1值在GP21 數(shù)據(jù)集上分別提高了1.64 和2.90 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別提高了1.17 和1.93 個(gè)百分點(diǎn),這是因?yàn)閂iT 在識(shí)別形狀相似的物體時(shí)能力不足[27],而知識(shí)圖譜能夠提供不同類別害蟲之間的細(xì)節(jié)信息,從而輔助ViT 區(qū)分害蟲類型。
表3 知識(shí)圖譜和手工特征消融試驗(yàn)結(jié)果Table 3 Ablation study results of knowledge graph and handcrafted features%
為了進(jìn)一步分析知識(shí)圖譜的引入對(duì)于葡萄園害蟲分類性能的提升作用,本研究設(shè)計(jì)了3 組消融試驗(yàn):1)將ACKGViT 模型移除手工特征(w/o MF),使提取的手工特征不參與特征融合;2)將ACKGViT 模型移除知識(shí)圖譜(w/o KG),使知識(shí)圖譜提取的屬性特征不參與特征融合;3)同時(shí)移除手工特征和知識(shí)圖譜(w/oMF∪KG),使得手工特征和知識(shí)圖譜提取的屬性特征均不參與特征融合。
3 組消融試驗(yàn)結(jié)果如表3 所示。從表3 中可以看出,移除知識(shí)圖譜和手工特征(w/oMF∪KG)使得模型性能accuracy 和F1在GP21 數(shù)據(jù)集上分別下降1.64 和2.9個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降2.34 和2.96 個(gè)百分點(diǎn)。移除手工特征(w/o MF)和移除知識(shí)圖譜(w/o KG)使得模型性能accuracy 在GP21 數(shù)據(jù)集上分別下降1.35 和1.55 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降1.46和1.76 個(gè)百分點(diǎn),同時(shí),F(xiàn)1在GP21 數(shù)據(jù)集上分別下降2.32 和2.36 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降2.10和2.60 個(gè)百分點(diǎn)。上述結(jié)果表明:1)通過引入知識(shí)圖譜的方式輔助ViT 獲取更加精確的害蟲信息是有效的;2)僅使用傳統(tǒng)特征和知識(shí)圖譜在提升模型性能上作用不大,主要原因是:傳統(tǒng)特征提取方法在表達(dá)圖像高層語義信息方面存在缺陷,而僅使用知識(shí)圖譜無法有效訓(xùn)練圖卷積網(wǎng)絡(luò),從而使得結(jié)點(diǎn)特征向量表征不足;3)在ACKGViT 模型學(xué)習(xí)中,知識(shí)圖譜作用大于傳統(tǒng)特征,這是因?yàn)槌藞D像淺層表征外,知識(shí)圖譜還能夠提供不同類別之間的關(guān)聯(lián)特征等額外信息作為輔助分類的線索。例如,如圖1 所示,知識(shí)圖譜能夠通過“足”的長(zhǎng)短、“后翅”顏色等屬性特征來區(qū)分都含有“體暗褐色”特征的“斜紋夜蛾”和“葡萄短須螨”。另一方面,知識(shí)圖譜基于卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),能夠從原始圖像中提取到復(fù)雜抽象的深層特征,這些特征可以增強(qiáng)模型對(duì)于分類任務(wù)的健壯性。
為了驗(yàn)證知識(shí)圖譜的引入在葡萄園害蟲特征挖掘方面的可用性,本研究進(jìn)一步比較了ACKGViT 模型與骨干網(wǎng)絡(luò)ViT 模型學(xué)習(xí)到的害蟲特征向量,并利用可視化技術(shù)[28]直觀展示對(duì)比結(jié)果。
如圖5 所示,在不同復(fù)雜程度的背景條件下,對(duì)于不同類別的害蟲,ACKGViT 方法都可以準(zhǔn)確關(guān)注到害蟲區(qū)域。
圖5 ACKGViT 和 ViT 可視化結(jié)果對(duì)比Fig.5 Visualization of ACKGViT method and ViT method
此外,相比于ViT 方法,ACKGViT 能夠更加準(zhǔn)確地將害蟲區(qū)域和背景環(huán)境區(qū)分,并且描繪出更加清晰的輪廓曲線,證明ACKGViT 方法能夠捕捉到更加細(xì)節(jié)、更加完整的害蟲特征信息并用于分類研究。
在本章節(jié)中將對(duì)不同相似度計(jì)算方法進(jìn)行對(duì)比試驗(yàn),以評(píng)估它們?cè)谄咸褕@害蟲識(shí)別任務(wù)中的性能。相似度計(jì)算方法是評(píng)估兩個(gè)實(shí)體之間相似程度的關(guān)鍵因素,對(duì)于基于知識(shí)圖譜的葡萄園害蟲識(shí)別方法來說尤為重要。通過比較不同相似度計(jì)算方法,可以找到適合該任務(wù)的最佳方法,從而提高識(shí)別精度和效率。為了達(dá)到上述目的,本研究選取了以下幾種常見的相似度計(jì)算方法進(jìn)行對(duì)比試驗(yàn):余弦相似度、歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)、Jaccard 系數(shù)。為了確保試驗(yàn)結(jié)果的可靠性,將在相同的數(shù)據(jù)集上對(duì)各種相似度計(jì)算方法進(jìn)行評(píng)估。試驗(yàn)結(jié)果如表4 所示。
表4 不同相似度計(jì)算方法的性能對(duì)比Table 4 Performance comparison of the different similarity calculation methods%
根據(jù)試驗(yàn)結(jié)果分析,在GP21 數(shù)據(jù)集上,使用余弦相似度相比于歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)和Jaccard 系數(shù),準(zhǔn)確率分別提高了15.96 個(gè)百分點(diǎn)、7.35 個(gè)百分點(diǎn)、8.80 個(gè)百分點(diǎn)和3.58 個(gè)百分點(diǎn);F1分?jǐn)?shù)分別提高了20.21 個(gè)百分點(diǎn)、11.33 個(gè)百分點(diǎn)、12.76 個(gè)百分點(diǎn)和5.03 個(gè)百分點(diǎn)。在GP8 數(shù)據(jù)集上,使用余弦相似度相比于歐幾里得距離、曼哈頓距離、皮爾森相關(guān)系數(shù)和Jaccard 系數(shù),準(zhǔn)確率分別提高了16.67 個(gè)百分點(diǎn)、7.92 個(gè)百分點(diǎn)、8.79 個(gè)百分點(diǎn)和3.8 個(gè)百分點(diǎn);F1分?jǐn)?shù)分別提高了17.56 個(gè)百分點(diǎn)、8.74 個(gè)百分點(diǎn)、10.42 個(gè)百分點(diǎn)和4.83 個(gè)百分點(diǎn)。通過上述分析可以得出余弦相似度計(jì)算方法在葡萄園害蟲識(shí)別任務(wù)中性能表現(xiàn)最優(yōu)的結(jié)論,通過對(duì)比試驗(yàn)為該任務(wù)找到了最佳的相似度計(jì)算方法,從而為后續(xù)研究和實(shí)際應(yīng)用提供了有益的啟示。
本研究基于領(lǐng)域農(nóng)業(yè)專家的豐富經(jīng)驗(yàn)和害蟲知識(shí)語料構(gòu)建了一套詳盡的葡萄園害蟲屬性特征知識(shí)圖譜。在此基礎(chǔ)上,本研究提出了一種基于知識(shí)圖譜的細(xì)粒度害蟲分類雙分支模型ACKGViT。該模型利用圖卷積網(wǎng)絡(luò)GAT 將知識(shí)圖譜轉(zhuǎn)化為可供訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模塊,同時(shí)結(jié)合傳統(tǒng)特征對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練和優(yōu)化。主要結(jié)論如下:
1)與骨干網(wǎng)絡(luò)ViT 相比,ACKGViT 在葡萄園害蟲分類任務(wù)中表現(xiàn)出了明顯的性能提升。具體而言,ACKGViT 在GP21 數(shù)據(jù)集上的準(zhǔn)確率和F1指標(biāo)分別提高了1.64 和2.90 個(gè)百分點(diǎn),而在GP8 數(shù)據(jù)集上,這兩個(gè)指標(biāo)分別提高了1.17 和1.93 個(gè)百分點(diǎn)。
2)知識(shí)圖譜和手工特征消融試驗(yàn)結(jié)果表明:移除知識(shí)圖譜所在分支使得模型性能準(zhǔn)確率和F1分?jǐn)?shù)在GP21數(shù)據(jù)集上分別下降1.64 和2.90 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降2.34 和2.96 個(gè)百分點(diǎn)。移除手工特征和移除知識(shí)圖譜使得模型性能Accuracy 在GP21 數(shù)據(jù)集上分別下降1.35 和1.55 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降1.46 和1.76 個(gè)百分點(diǎn),同時(shí),F(xiàn)1在GP21 數(shù)據(jù)集上分別下降2.32 和2.36 個(gè)百分點(diǎn),在GP8 數(shù)據(jù)集上分別下降2.10 和2.60 個(gè)百分點(diǎn)。證明本文所提方法的有效性。
3)不同相似度計(jì)算方法的性能對(duì)比試驗(yàn)結(jié)果表明:在GP21 數(shù)據(jù)集上,使用余弦相似度相比于其他相似度計(jì)算方法,準(zhǔn)確率和F1分?jǐn)?shù)分別提高了最多15.96 個(gè)百分點(diǎn)和20.21 個(gè)百分點(diǎn)。相應(yīng)地,在GP8 數(shù)據(jù)集上,準(zhǔn)確率和F1分?jǐn)?shù)相比于其他方法最多提高了16.67 個(gè)百分點(diǎn)和17.56 個(gè)百分點(diǎn)。這些結(jié)果充分證明,余弦相似度在葡萄園害蟲識(shí)別任務(wù)中的性能表現(xiàn)最優(yōu)。
在未來的研究中將會(huì)繼續(xù)深入探索知識(shí)圖譜在害蟲圖像分類任務(wù)中的應(yīng)用:1)圖譜權(quán)重優(yōu)化:研究如何更有效地利用知識(shí)圖譜中的權(quán)重信息,進(jìn)一步提高害蟲圖像分類的性能;2)動(dòng)態(tài)知識(shí)圖譜構(gòu)建:實(shí)時(shí)更新和擴(kuò)展知識(shí)圖譜,以適應(yīng)不斷變化的農(nóng)業(yè)環(huán)境和新出現(xiàn)的病害蟲類型;3)多模態(tài)數(shù)據(jù)融合:探討將其他數(shù)據(jù)源(例如氣象數(shù)據(jù)、土壤信息等)與圖像數(shù)據(jù)融合,提供更豐富的上下文信息以提高分類準(zhǔn)確性。通過以上研究方向的探索,期望為智慧農(nóng)業(yè)的發(fā)展貢獻(xiàn)力量,從解決實(shí)際問題出發(fā),促進(jìn)農(nóng)業(yè)生產(chǎn)的可持續(xù)發(fā)展。