基于零樣本學(xué)習(xí)的枸杞蟲害識(shí)別

2024-04-29 00:00:00宋文韜,姜茹月,舒欣

江蘇農(nóng)業(yè)學(xué)報(bào) 2024年2期

摘要：針對(duì)農(nóng)業(yè)領(lǐng)域缺少有效的零樣本蟲害識(shí)別與檢索方法，本研究提出一種基于零樣本學(xué)習(xí)的枸杞蟲害檢索與識(shí)別方法。首先，通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行深層矩陣分解獲得深層次結(jié)構(gòu)特征，獲取不同模態(tài)數(shù)據(jù)的特征表示，生成各模態(tài)的哈希碼。然后結(jié)合類別屬性信息對(duì)生成的哈希碼引入線性約束，實(shí)現(xiàn)已知類別到新類別之間的知識(shí)遷移。最后，對(duì)所提出的模型通過(guò)直接學(xué)習(xí)離散哈希碼避免了連續(xù)松弛方法帶來(lái)的量化誤差，提高了檢索精度。在2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集及Wiki、Pascal VOC這3個(gè)公開(kāi)數(shù)據(jù)集上的試驗(yàn)結(jié)果表明，與現(xiàn)有的基于協(xié)同矩陣分解的哈希方法（CMFH）、基于潛在語(yǔ)義的稀疏哈希方法（LSSH）、基于遷移監(jiān)督知識(shí)的哈希方法（TSK）、基于屬性的哈希方法（AH）、基于跨模態(tài)屬性的哈希方法（CMAH）、基于正交投影的哈希方法（CHOP）、離散非對(duì)稱零樣本哈希方法（DAZSH）相比，本研究所提出的方法具有優(yōu)越性。

關(guān)鍵詞：零樣本學(xué)習(xí)；矩陣分解；枸杞病蟲害識(shí)別；哈希碼

中圖分類號(hào)：TP391文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1000-4440（2024）02-0320-11

Identification of Lycium barbarum pests based on zero-shot learning

SONG Wen-tao，JIANG Ru-yue，SHU Xin

（College of Artificial Intelligence， Nanjing Agricultural University， Nanjing 210095， China）

Abstract：In order to solve the problem of lack of effective zero-sample recognition and retrieval methods in agricultural field， a zero-sample learning-based retrieval and recognition method for Lycium barbarum pests was proposed in this study. Firstly， the deep structure features were obtained by deep matrix decomposition of the original data， and the characteristic representations of different modal data were obtained， and the hashing codes of each modality were generated. Then the linear constraint was introduced to the generated hashing code with the class attribute information to realize the knowledge transfer from the known class to the new class. Finally， the proposed model could avoid the quantization error caused by the continuous relaxation method and improve the retrieval precision by learning discrete hashing codes directly. The experimental results on the three public datasets， 2020 Ningxia Lycium barbarum pest image-text cross-modal retrieval dataset， Wiki， Pascal VOC， showed that the method proposed in this study was superior to the existing collective matrix factorization hashing （CMFH）， latent semantic sparse hashing （LSSH）， transferring supervised knowledge hashing （TSK）， attribute hashing （AH）， cross-modal attribute hashing （CMAH）， cross-modal hashing with orthogonal projection （CHOP）， and discrete asymmetric zero-shoot hashing （DAZSH）.

Key words：zero-shot learning；matrix factorization；Lycium barbarum pests detection；hashing code

枸杞具有增強(qiáng)人體免疫力、護(hù)肝明目、滋養(yǎng)皮膚等功效。同時(shí)，作為耐旱、耐貧瘠、耐鹽堿的灌木作物，其防風(fēng)固沙的能力不容小覷。由于上述特性，枸杞在中國(guó)西北地區(qū)廣泛種植[1-2]。然而，枸杞作為抗蟲害能力較差的作物，容易遭受多種蟲害導(dǎo)致產(chǎn)品質(zhì)量和數(shù)量方面的下降。因此，準(zhǔn)確且快速地對(duì)枸杞蟲害類型進(jìn)行識(shí)別與檢索，及時(shí)給出防治措施從而減小因作物蟲害導(dǎo)致的經(jīng)濟(jì)損失，在推動(dòng)枸杞產(chǎn)業(yè)的發(fā)展方面尤為重要。

傳統(tǒng)的農(nóng)作物病蟲害識(shí)別與檢索主要依靠肉眼觀察作物發(fā)生病蟲害部位，將觀察結(jié)果與農(nóng)作物病蟲害圖像信息手冊(cè)中的病蟲害圖像進(jìn)行比較從而判別病蟲害類別[3]。這種方法不僅花費(fèi)大量的時(shí)間和人力，由于觀察所得結(jié)果具有主觀性，識(shí)別與檢索結(jié)果的精度也不令人滿意[4]。隨著互聯(lián)網(wǎng)的發(fā)展，基于機(jī)器學(xué)習(xí)的農(nóng)作物病蟲害識(shí)別方法受到了研究人員的廣泛關(guān)注。機(jī)器學(xué)習(xí)方法是根據(jù)已有的數(shù)據(jù)設(shè)計(jì)并構(gòu)造算法使得計(jì)算機(jī)學(xué)習(xí)獲得數(shù)據(jù)特征的規(guī)律，以此進(jìn)行預(yù)測(cè)[5]。趙蕓[6]利用光譜數(shù)據(jù)建模以及數(shù)字圖像處理等技術(shù)，對(duì)油菜病蟲害的分類進(jìn)行建模。趙建敏等[7]利用OTSU閾值算法，對(duì)馬鈴薯葉片病害區(qū)域圖像進(jìn)行分割，提取對(duì)應(yīng)部分的顏色、形狀、紋理特征，采用支持向量機(jī)進(jìn)行分類識(shí)別，識(shí)別率為92%。王佳[8]使用計(jì)算機(jī)視覺(jué)技術(shù)，對(duì)香芋葉片提取顏色和紋理特征，以此構(gòu)建病害數(shù)據(jù)庫(kù)，同時(shí)采用支持向量機(jī)對(duì)香芋病害進(jìn)行識(shí)別，識(shí)別的平均準(zhǔn)確率達(dá)到了93.00%。Nettleton等[9]提出了M5Rules和遞歸神經(jīng)網(wǎng)絡(luò)的兩種基于機(jī)器學(xué)習(xí)算法的方法，與Yoshino以及WARM這2種基于過(guò)程的模型進(jìn)行比較，經(jīng)過(guò)試驗(yàn)得出基于機(jī)器學(xué)習(xí)的兩個(gè)模型在最大平均歸一化以及平均絕對(duì)誤差（MAE）結(jié)果方面更加優(yōu)秀，同時(shí)具有更好的泛化性?；跈C(jī)器學(xué)習(xí)方法盡管可以通過(guò)提取農(nóng)作物的病害圖像特征對(duì)農(nóng)作物病蟲害進(jìn)行識(shí)別和檢索，但是由于客觀條件，如光照條件變化、復(fù)雜背景的存在等，難以提取有效的數(shù)據(jù)特征。此外，機(jī)器學(xué)習(xí)方法需要大量的數(shù)據(jù)支持模型訓(xùn)練，才可以獲得較好的識(shí)別準(zhǔn)確率，然而現(xiàn)實(shí)中獲取大量有效的農(nóng)作物病蟲害圖像樣本比較困難。因此現(xiàn)有基于機(jī)器學(xué)習(xí)方法的農(nóng)作物病蟲害識(shí)別與檢索仍然具有挑戰(zhàn)。

隨著深度學(xué)習(xí)的不斷發(fā)展，近年來(lái)基于深度學(xué)習(xí)的農(nóng)作物病蟲害識(shí)別方法在農(nóng)業(yè)領(lǐng)域取得了不錯(cuò)的成果。王國(guó)偉等[10]對(duì)LeNet模型進(jìn)行改進(jìn)，通過(guò)使用Adam替換SGD以及添加L2正則項(xiàng)到交叉熵函數(shù)構(gòu)建10層CNN網(wǎng)絡(luò)結(jié)構(gòu)，對(duì)于5種玉米病蟲害的平均識(shí)別率達(dá)96%。趙立新等[11]對(duì)AlexNet進(jìn)行改進(jìn)，引入遷移學(xué)習(xí)方法輔助數(shù)據(jù)增強(qiáng)，在此基礎(chǔ)上對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，識(shí)別棉花葉部病蟲害的平均準(zhǔn)確率達(dá)97.16%。鮑文霞等[12]針對(duì)蘋果病害葉片數(shù)據(jù)集，采用選擇性核卷積模塊以及使用全局平均池化替代全連接層的方法對(duì)VGG16網(wǎng)絡(luò)模型進(jìn)行改進(jìn)，對(duì)蘋果病害局部病斑的識(shí)別準(zhǔn)確率達(dá)94.70%。馮曉等[13]分析MobileNetV2模型以及遷移學(xué)習(xí)方法，通過(guò)合適的數(shù)據(jù)增強(qiáng)方法、添加Dropout層、改變初始學(xué)習(xí)率等對(duì)模型進(jìn)行改進(jìn)，改進(jìn)后的模型對(duì)3種小麥葉部病害的識(shí)別準(zhǔn)確率達(dá)到 99.96%。謝州益等[14]使用ResNet18作為特征編碼器，在解碼器上融合了注意力機(jī)制的LSTM，對(duì)10種水稻病蟲害的Top5準(zhǔn)確率達(dá)98.48%。彭紅星等[15]改進(jìn)MobileV2模型，在反向殘差模塊種引入坐標(biāo)注意力機(jī)制，同時(shí)設(shè)計(jì)雙分支特征融合模塊，對(duì)19類葡萄病蟲害的識(shí)別準(zhǔn)確率達(dá)89.16%。

然而現(xiàn)有病蟲害識(shí)別與檢索方法要求在訓(xùn)練階段獲得所有類別信息及對(duì)應(yīng)的樣本，不能對(duì)一些未知類別病害進(jìn)行識(shí)別。為此，研究人員提出了零樣本學(xué)習(xí)技術(shù)解決上述問(wèn)題。零樣本學(xué)習(xí)是指根據(jù)一些可見(jiàn)類別的數(shù)據(jù)，融合輔助信息用于訓(xùn)練模型，實(shí)現(xiàn)對(duì)未見(jiàn)類別的數(shù)據(jù)進(jìn)行分類。目前主流的學(xué)習(xí)方式是利用嵌入模型，其主要思路是將數(shù)據(jù)特征嵌入到同一個(gè)語(yǔ)義空間中進(jìn)行相似性度量學(xué)習(xí)[16]。Zhong等[17]提出了一種多層次的網(wǎng)絡(luò)架構(gòu)，將不同模態(tài)的數(shù)據(jù)特征和類別標(biāo)簽以及屬性信息聯(lián)系起來(lái)。Ji等[18]構(gòu)建了一個(gè)屬性引導(dǎo)的網(wǎng)絡(luò)結(jié)構(gòu)，使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)相應(yīng)的數(shù)據(jù)特征。Shu等[19]結(jié)合數(shù)據(jù)特征及其屬性信息，使用非對(duì)稱相似策略構(gòu)造哈希碼?，F(xiàn)有主流零樣本學(xué)習(xí)方法側(cè)重于利用語(yǔ)義空間來(lái)實(shí)現(xiàn)對(duì)未知類別的分類，在數(shù)據(jù)特征提取的過(guò)程中沒(méi)有嵌入農(nóng)作物病蟲害標(biāo)記屬性信息。此外，基于零樣本學(xué)習(xí)的農(nóng)作物病蟲害識(shí)別與檢索也處于探索階段，尚未形成有效的研究成果。為此，本研究以枸杞蟲害為研究對(duì)象，提出一種基于零樣本學(xué)習(xí)的枸杞蟲害檢索與識(shí)別方法。

1材料與方法

1.1試驗(yàn)數(shù)據(jù)集介紹

本研究選取了2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集[20]進(jìn)行零樣本以圖搜文和以文搜圖兩種跨模態(tài)檢索任務(wù)的相關(guān)試驗(yàn)。同時(shí)，本研究選取了現(xiàn)有零樣本跨模態(tài)檢索方法常用的2個(gè)公開(kāi)非農(nóng)業(yè)數(shù)據(jù)集Wiki和Pascal VOC數(shù)據(jù)集，進(jìn)一步驗(yàn)證所提方法的有效性。試驗(yàn)所使用的數(shù)據(jù)集詳情如下：

（1）2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集包含了來(lái)源于17個(gè)類別經(jīng)擴(kuò)增處理后的共9 496對(duì)枸杞蟲害圖像-文本樣本對(duì)。試驗(yàn)隨機(jī)選取了每個(gè)類別的80%共計(jì)7 596對(duì)樣本對(duì)組成訓(xùn)練集，剩余1 900對(duì)樣本對(duì)組成測(cè)試集。對(duì)于圖像模態(tài)數(shù)據(jù)，使用512維的GIST特征表示，對(duì)于文本模態(tài)數(shù)據(jù)，使用潛在狄利克雷分布方法提取為10維的特征向量。

（2）Wiki數(shù)據(jù)集包含了來(lái)源于10個(gè)類別的共2 866對(duì)圖像-文本樣本對(duì)，其中2 173對(duì)為訓(xùn)練集數(shù)據(jù)，剩余693對(duì)為測(cè)試集數(shù)據(jù)。對(duì)于圖像模態(tài)數(shù)據(jù)，通過(guò)BOVW的SIFT提取為128維特征向量，對(duì)于文本模態(tài)數(shù)據(jù)，通過(guò)潛在狄利克雷分布方法提取為10維特征向量。

（3）Pascal VOC數(shù)據(jù)集包含了來(lái)源于20個(gè)類別的共9 963對(duì)圖像-標(biāo)簽樣本對(duì)，本試驗(yàn)只選取其中單標(biāo)簽的數(shù)據(jù)，共有2 799對(duì)訓(xùn)練集數(shù)據(jù)以及2 820對(duì)測(cè)試集數(shù)據(jù)。對(duì)于圖像模態(tài)數(shù)據(jù)，使用512維GIST特征表示，對(duì)于文本模態(tài)數(shù)據(jù)，使用399維的詞頻特征描述。

對(duì)于每個(gè)數(shù)據(jù)集中的類別標(biāo)簽，采用了GloVe模型對(duì)其進(jìn)行詞向量轉(zhuǎn)換，生成對(duì)應(yīng)的300維特征向量作為類別屬性信息。

1.2試驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)

本研究隨機(jī)選取數(shù)據(jù)集中的類別并將其設(shè)置為不可見(jiàn)類進(jìn)行試驗(yàn)。其中，對(duì)于2020年寧夏枸杞蟲害數(shù)據(jù)集，本研究隨機(jī)選取3個(gè)類別作為不可見(jiàn)類，剩余14個(gè)類別作為可見(jiàn)類。對(duì)于Wiki數(shù)據(jù)集，本研究隨機(jī)選取2個(gè)類別作為不可見(jiàn)類，剩余8個(gè)類別作為可見(jiàn)類。對(duì)于Pascal VOC數(shù)據(jù)集，本研究隨機(jī)選取4個(gè)類別作為不可見(jiàn)類，剩余16個(gè)類別作為可見(jiàn)類。共進(jìn)行10次試驗(yàn)取平均值作為結(jié)果。在訓(xùn)練階段，訓(xùn)練樣本包含了來(lái)源于圖片以及文本模態(tài)的特征向量、one-hot形式的類別標(biāo)簽以及屬性信息。在評(píng)估階段，查詢樣本為測(cè)試集中不可見(jiàn)類的全體樣本，用于檢索的數(shù)據(jù)庫(kù)包含了訓(xùn)練時(shí)的可見(jiàn)類樣本以及未參與訓(xùn)練的不可見(jiàn)類樣本。對(duì)于2020年寧夏枸杞蟲害、Wiki以及Pascal VOC數(shù)據(jù)集，設(shè)置了兩個(gè)中間層，其中p1為200，p2為100。對(duì)于2020年寧夏枸杞蟲害數(shù)據(jù)集，超參數(shù)η設(shè)置為150，τ設(shè)置為4，α設(shè)置為6，λ設(shè)置為40。對(duì)于Wiki數(shù)據(jù)集，超參數(shù)η設(shè)置為350，τ設(shè)置為6，α設(shè)置為6，λ設(shè)置為15。對(duì)于Pascal VOC數(shù)據(jù)集，超參數(shù)η設(shè)置為100，τ設(shè)置為5，α設(shè)置為3，λ設(shè)置為20。

本研究采用mAP、PH2、Top-10準(zhǔn)確率3種常見(jiàn)的評(píng)價(jià)指標(biāo)對(duì)提出的方法進(jìn)行評(píng)估。3種評(píng)價(jià)指標(biāo)的定義如下：

mAP=1QQq=11R′Rr=1Pq（r）δq（r）

式中：Q為待檢索樣本數(shù)；R為數(shù)據(jù)庫(kù)中數(shù)據(jù)量；R′為數(shù)據(jù)庫(kù)與待檢索樣本相關(guān)的數(shù)據(jù)量；Pq（r）為排名第q個(gè)檢索樣本的top-r精度值，δ（r）∈{0，1}，當(dāng)?shù)趓個(gè)數(shù)據(jù)實(shí)例與第q個(gè)檢索樣本相關(guān)則為1，否則為0。PH2表示在漢明空間中由哈希對(duì)照表判定半徑為2的檢索準(zhǔn)確度，反應(yīng)模型對(duì)局部數(shù)據(jù)分情況描述的準(zhǔn)確性。Top-10準(zhǔn)確率為檢索結(jié)果中概率最大的前10個(gè)結(jié)果包含正確類別的占比。

1.3模型概述

基于零樣本學(xué)習(xí)的枸杞病蟲害檢索與識(shí)別模型。假設(shè)X（1）=［x（1）1，x（1）2，…，x（1）n］∈Rd1×n為圖像模態(tài)，X（2）=［x（2）1，x（2）2，…，x（2）n］∈Rd2×n為文本模態(tài)，n為可見(jiàn)類別的數(shù)據(jù)樣本數(shù)，d1和d2分別為圖像和文本模態(tài)數(shù)據(jù)特征維度，一般情況下d1≠d2。可見(jiàn)類別以及不可見(jiàn)類別的標(biāo)簽信息分別表示為L(zhǎng)s=［l1，l2，…，ls］∈Rl×s和Lu=［l1，l2，…，lu］∈Rl×u，s和u分別為可見(jiàn)類別、不可見(jiàn)類別的數(shù)量，且Ls∩Lu=。令A(yù)=［a1，a2，…，an］∈Rda×n為類別屬性，A通常由標(biāo)簽信息決定，da為屬性特征維數(shù)。本研究可見(jiàn)類別的數(shù)據(jù)信息為圖像和文本模態(tài)學(xué)習(xí)統(tǒng)一的哈希編碼和每個(gè)模態(tài)對(duì)應(yīng)的哈希函數(shù)，在檢索階段將不可見(jiàn)類別的數(shù)據(jù)投影到漢明空間中進(jìn)行相似度評(píng)估。

1.3.1深層矩陣分解本研究使用深層矩陣分解的方法來(lái)學(xué)習(xí)不同模態(tài)數(shù)據(jù)的深層潛在特征表示?？紤]圖像特征矩陣的半非負(fù)矩陣分解，有X（1）≈Z（1）1H（1）1，其中Z（1）1為基向量矩陣，H（1）1為潛在特征矩陣，且Z（1）1≥0。對(duì)潛在特征矩陣H（1）1繼續(xù)進(jìn)行半非負(fù)矩陣分解得到H（1）1≈Z（1）2H（1）2，其中Z（1）2為基向量矩陣，H（1）2為潛在特征矩陣。如此循環(huán)往復(fù)直到H（1）m-1≈Z（1）mH（1）m，其中H（1）m為獲得第m層的潛在特征矩陣。類似的可以獲得文本模態(tài)第m層的潛在特征矩陣H（2）m。上述分解過(guò)程可以描述如下：

X（v）≈Z（v）1H（v）1，Z（v）1≥0

H（v）1≈Z（v）2H（v）2，Z（v）2≥0

H（v）m-1≈Z（v）mH（v）m，Z（v）m≥0（1）

本研究使用如下?lián)p失函數(shù)衡量分解時(shí)的誤差：

L1=‖X（v）-Z（v）1Z（v）2…Z（v）mH（v）m‖2F（2）

式中，Z（v）i∈Rpi-1×pi，i∈{1，2，…，m}，v∈{1，2}，pi為第i層的維數(shù)，p0為初始維數(shù)，pm=k為哈希碼長(zhǎng)度。

1.3.2統(tǒng)一哈希碼學(xué)習(xí)由于不同模態(tài)的樣本對(duì)屬于同一個(gè)類別，生成的哈希碼在漢明空間中的距離應(yīng)該足夠小，可以近似看成同一個(gè)哈希碼，故本研究將圖像模態(tài)生成的哈希碼和文本模態(tài)生成的哈希碼進(jìn)行如下約束：

L2=‖H（v）m-H‖2F（3）

通過(guò)上述約束可以獲得統(tǒng)一的哈希碼H∈{-1，1}k×n，其中k為哈希碼長(zhǎng)度。

1.3.3類別信息嵌入為了學(xué)習(xí)具有判別能力的哈希碼，即對(duì)于相同類別的樣本，其漢明空間中的距離應(yīng)該足夠小，同時(shí)對(duì)于不同類別的樣本則漢明空間中的距離應(yīng)該足夠大。本研究通過(guò)以下線性分類損失函數(shù)，獲得具有判別能力的哈希碼：

L3=‖WTH-LS‖2F（4）

式中，W為線性分類器。

1.3.4屬性特征保持為了適應(yīng)零樣本環(huán)境下的跨模態(tài)檢索任務(wù)，生成的哈希碼還需要具有一定的屬性保持能力，從而對(duì)不可見(jiàn)類的樣本，在檢索階段也可以通過(guò)相似的屬性信息來(lái)對(duì)其進(jìn)行有效的分類。因此對(duì)類別屬性設(shè)置以下線性約束：

L4=‖VTA-H‖2F（5）

式中，V為線性分類器。

1.3.5哈希函數(shù)學(xué)習(xí)在檢索階段需要將不可見(jiàn)類的樣本投影到漢明空間中進(jìn)行相似性度量，本研究考慮線性哈希碼生成函數(shù)，對(duì)應(yīng)的損失函數(shù)如下：

L5=‖P（v）X（v）-H‖2F（6）

式中，P（v）∈Rk×dv，v∈{1，2}為投影矩陣。

綜上所述，本研究所提出的方法的目標(biāo)函數(shù)如下：

minZ（v）i，H（v）i，H，W，V，P（v）L=L1+τL2+λL3+αL4+ηL5

s.t.Z（v）i≥0，H∈{-1，1}k×n（7）

式中，τ、λ、α、η為超參數(shù)。

1.4優(yōu)化

由于目標(biāo)函數(shù)是非凸的，本研究采用交替迭代優(yōu)化方法來(lái)求解所提出的模型。

1.4.1優(yōu)化Z（v）i由公式（7）可知，Z（v）i的解可以表述為如下優(yōu)化問(wèn)題：

minZ（v）i‖X（v）-Z（v）1Z（v）2…Z（v）mH（v）m‖2F

s.t.Z（v）i≥0（8）

對(duì)于X（v），v∈{1，2}的求解是相互獨(dú)立的，為求解方便，舍去上標(biāo)v得到：

minZi‖X-DZiHi‖2F，s.t.Zi≥0（9）

式中，D=Z1Z2…Zi-1，1≤i≤m。進(jìn)一步，可以得到：

Zi=Zi⊙[XH～T1]++[Z1H︿1]-[XH～T1]-+[Z1H︿1]+，如果i=1

Zi⊙[DTXH～Ti]++[DTZiH︿i]-[DTXH～Ti]-+[DTZiH︿i]+，如果igt;1（10）

式中，H～i是對(duì)第i層特征矩陣的重構(gòu)矩陣，H︿i=H～iH～Ti，⊙表示哈達(dá)瑪積。

1.4.2優(yōu)化H（v）i固定其他變量，關(guān)于H（v）i的目標(biāo)函數(shù)為：

minH（v）i‖X（v）-Z（v）1Z（v）2…Z（v）iH（v）i‖2F

對(duì)H（v）i求偏導(dǎo)并將偏導(dǎo)置為0可得：

H（v）i=（ΦTΦ）-1ΦTX（v）（11）

式中，ilt;m，Φ=Z（v）1Z（v）2…Z（v）i。

1.4.3優(yōu)化H（v）m固定其他變量，關(guān)于H（v）m的優(yōu)化問(wèn)題可以為：

minH（v）m‖H（v）-ΦmH（v）m‖2F+τ‖H（v）m-H‖2F

對(duì)第m層的潛在特征描述H（v）m求偏導(dǎo)并將偏導(dǎo)置為0，可以求解得出：

H（v）m=（ΦTmΦm+τI）-1（ΦTmX（v）+τH）（12）

式中，I為單位矩陣，Φm=Z（v）1Z（v）2…Z（v）m。

1.4.4優(yōu)化H固定其他變量，可以獲得如下子問(wèn)題：

minHVv=1（τ‖H（v）m-H‖2F+λ‖P（v）X（v）-H‖2F）+α‖VTA-H‖2F+η‖WTH-LS‖2F

式中，H∈{-1，1}k×n，可以通過(guò)線性化方法進(jìn)行求解得到：

H=sgn{yv=x[τηH（v）m+ληP（v）X（v）+αηVTA]-WWTH+WLS}（13）

式中，sgn為符號(hào)函數(shù)。

1.4.5優(yōu)化P（v）固定其他變量，關(guān)于P（v）的優(yōu)化問(wèn)題可以為：

minP（v）‖P（v）X（v）-H‖2F

對(duì)P（v）求偏導(dǎo)并將偏導(dǎo)置為0，不難得出：

P（v）=HX（v）T[X（v）X（v）T]-1（14）

1.4.6優(yōu)化W固定其他變量可得：

minW‖WTH-LS‖2F

對(duì)W求偏導(dǎo)并將偏導(dǎo)置為0，不難得出：

W=（HHT）-1HLTS（15）

1.4.7優(yōu)化V固定其他變量可得：

minV‖VTA-H‖2F

對(duì)V求偏導(dǎo)并將偏導(dǎo)置為0，不難得出：

V=（AAT）-1AHT（16）

通過(guò)交替求解上述優(yōu)化問(wèn)題，可得到原問(wèn)題（7）的最優(yōu)解，總體優(yōu)化流程為：

輸入：圖片和文本模態(tài)中可見(jiàn)類別數(shù)據(jù)為X（1）和X（2），類別標(biāo)簽為L(zhǎng)s，屬性信息矩陣為A，中間層大小為pi，超參數(shù)為τ、λ、α、η。

輸出：生成的哈希碼矩陣H以及兩個(gè)模態(tài)對(duì)應(yīng)的哈希函數(shù)P（v）。

1：隨機(jī)初始化[Z（v）i、H（v）i]、P（v）、W和V;

2：重復(fù);

3：對(duì)每個(gè)模態(tài)中所有層通過(guò)公式（10）更新Z（v）i；

4：對(duì)于每個(gè)模態(tài)通過(guò)公式（11）和公式（12）更新H（v）i和H（v）m；

5：通過(guò)公式（14）更新P（v）；

6：通過(guò)公式（15）更新W；

7：通過(guò)公式（16）更新V；

8：通過(guò)公式（13）更新H；

9：直到收斂結(jié)束返回H和P（v）。

1.5時(shí)間復(fù)雜度分析

設(shè)p=max（pi），1≤i≤m，上述優(yōu)化過(guò)程中的時(shí)間復(fù)雜度更新如下：

（1）更新Z（v）i的時(shí)間復(fù)雜度為O（2p2n+2p2dv+ndvp+p3）；

（2）更新H（v）i（ilt;m）的時(shí)間復(fù)雜度為O（ndvp+p2n+dvp2）；

（3）更新H（v）m的時(shí)間復(fù)雜度為O（ndvp+dvp2+p3）；

（4）更新P（v）的時(shí)間復(fù)雜度為O（ndvp+d2vn）；

（5）更新H的時(shí)間復(fù)雜度為O（sp2+spn+2pdvn）；

（6）更新W的時(shí)間復(fù)雜度為O（nsp+p2n）；

（7）更新V的時(shí)間復(fù)雜度為O（nd2v+pdvn）。

令d=max{dv}，v∈{1，2}，則總的時(shí)間復(fù)雜度為O{tl2（3pdn+2p2n+nd2+nps+dp2+sp2）+p3}，其中t為迭代次數(shù)，l=m+1為總的層數(shù)。通常情況下，p、d、s的取值都遠(yuǎn)遠(yuǎn)小于樣本數(shù)n，易知所提出的算法的時(shí)間復(fù)雜度可以表示為O（n）。

2結(jié)果與分析

2.1試驗(yàn)結(jié)果

將提出的方法與7種哈希方法進(jìn)行比較。其中基于協(xié)同矩陣分解的哈希方法（CMFH）[21]和基于潛在語(yǔ)義的稀疏哈希方法（LSSH）[22]為跨模態(tài)哈希方法，基于屬性的哈希方法（AH）[23]和基于遷移監(jiān)督知識(shí)的哈希方法（TSK）[24]為零樣本單模態(tài)哈希方法，基于跨模態(tài)屬性的哈希方法（CMAH）[17]、基于正交投影的哈希方法（CHOP）[25]和離散非對(duì)稱零樣本哈希方法（DAZSH）[19]為零樣本跨模態(tài)哈希方法。

圖1、圖2、圖3顯示了本研究所提出的方法與對(duì)比方法在3個(gè)數(shù)據(jù)集上的mAP值。與CMFH以及LSSH相比，所提出的方法由于引入了類別屬性信息的監(jiān)督，可以在零樣本的跨模態(tài)檢索精度上取得較高的提升。而AH和TSK方法是針對(duì)單一模態(tài)的零樣本檢索，雖然能夠比傳統(tǒng)的跨模態(tài)哈希方法更好，但是在零樣本跨模態(tài)檢索精度上效果不佳，所提出的方法由于考慮到了不同模態(tài)數(shù)據(jù)特征的異構(gòu)性，故能夠獲得更高的檢索精度。與CMAH、CHOP及DAZSH相比，由于提出的深層矩陣分解方法能夠針對(duì)不同模態(tài)的深層數(shù)據(jù)特征進(jìn)行表述，所以在檢索精度方面取得了很好的效果。

CMFH：基于協(xié)同矩陣分解的哈希方法；LSSH：基于潛在語(yǔ)義的稀疏哈希方法；TSK：基于遷移監(jiān)督知識(shí)的哈希方法；AH：基于屬性的哈希方法；CMAH：基于跨模態(tài)屬性的哈希方法；CHOP基于正交投影的哈希方法；DAZSH：離散非對(duì)稱零樣本哈希方法；Ours：本研究方法。

此外，圖4、圖5、圖6顯示了本研究所提出的方法與對(duì)比方法在3個(gè)數(shù)據(jù)集上的PH2值，從結(jié)果可以看出本研究所提出的方法在以文搜圖和以圖搜文任務(wù)上表現(xiàn)良好，驗(yàn)證了所提出的方法的有效性。圖7顯示了本研究所提出的方法與對(duì)比方法在Wiki數(shù)據(jù)集上的Top-10準(zhǔn)確率，從結(jié)果可以看出所提出的方法在以文搜圖和以圖搜文任務(wù)上表現(xiàn)良好，驗(yàn)證了所提出的方法的有效性。圖8顯示了所提出的方法與融合注意力方法[26]在2020年寧夏枸杞蟲害數(shù)據(jù)集上的病蟲害識(shí)別結(jié)果對(duì)比實(shí)例，實(shí)線邊框?yàn)檎_識(shí)別的結(jié)果，虛線邊框?yàn)樽R(shí)別錯(cuò)誤的結(jié)果。從以文搜圖和以圖搜文的結(jié)果可以看出，本研究所提出的方法在零樣本的枸杞病蟲害識(shí)別方面表現(xiàn)優(yōu)于對(duì)比方法。

表1顯示在Wiki數(shù)據(jù)集上本研究所提出的方法與CHOP以及DAZSH在訓(xùn)練上所花費(fèi)的時(shí)間，從對(duì)比結(jié)果可以看出本研究所提出的方法與CHOP相比需要花費(fèi)較多的訓(xùn)練時(shí)間，與DAZSH相比花費(fèi)較少的訓(xùn)練時(shí)間。綜合檢索精度與訓(xùn)練時(shí)長(zhǎng)的結(jié)果，本研究所提出的方法能夠適用于大規(guī)模數(shù)據(jù)集的零樣本跨模態(tài)檢索任務(wù)。

2.2有效性分析

為驗(yàn)證深層矩陣分解的有效性，將本研究方法與不使用深層矩陣分解的方法進(jìn)行比較。當(dāng)m取值為0時(shí)，可以看作對(duì)模態(tài)數(shù)據(jù)只進(jìn)行單層矩陣分解，這里選取了在Wiki數(shù)據(jù)集上哈希編碼為32 bit的試驗(yàn)結(jié)果。其mAP與PH2評(píng)價(jià)指標(biāo)結(jié)果如圖9所示。

從結(jié)果可以看出，深層矩陣分解方法在mAP和PH2指標(biāo)上相較于單層矩陣分解方法有較大的提升。表明深層矩陣分解方法可以提取到模態(tài)數(shù)據(jù)深層次結(jié)構(gòu)特征，從而提升零樣本識(shí)別的精確度。

2.3參數(shù)敏感性

對(duì)于本研究所提出的方法中的超參數(shù)（τ、λ、α、η），如何選擇合適的超參數(shù)值以獲得更好的試驗(yàn)結(jié)果。以Wiki數(shù)據(jù)集下32 bit長(zhǎng)度的哈希編碼為試驗(yàn)環(huán)境，初始將所有的超參數(shù)的值設(shè)置為1，每次只調(diào)整其中1個(gè)超參數(shù)的值，固定其他參數(shù)，對(duì)其進(jìn)行敏感性分析，結(jié)果如圖10～圖13所示。

由圖10可以看出mAP值在τ取值為[2，7]時(shí)相對(duì)穩(wěn)定，在[8，9]時(shí)下降比較明顯。由圖11可以看出mAP值在λ取值為[5，15]時(shí)有較大的上升，在[15，40]時(shí)比較穩(wěn)定。由圖12可以看出mAP值在α取值為[1，4]時(shí)較為穩(wěn)定，在[5，8]時(shí)波動(dòng)且稍微下降。由圖13可以看出mAP值在η取值為[50，350]時(shí)相對(duì)穩(wěn)定，在η=400時(shí)以圖搜文的mAP值有所下降。

3結(jié)論

本研究提出了一種基于零樣本學(xué)習(xí)的枸杞蟲害跨模態(tài)檢索與識(shí)別方法，將零樣本跨模態(tài)哈希方法應(yīng)用于農(nóng)作物蟲害檢索與識(shí)別領(lǐng)域，同時(shí)解決了現(xiàn)有零樣本跨模態(tài)哈希方法中存在的問(wèn)題。通過(guò)對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行深層矩陣分解獲得深層結(jié)構(gòu)特征，生成具有判別能力的哈希碼。利用類別標(biāo)簽和類別屬性信息對(duì)生成的哈希碼引入線性約束，從而實(shí)現(xiàn)不可見(jiàn)類到可見(jiàn)類的知識(shí)遷移。使用離散方法學(xué)習(xí)哈希碼避免了連續(xù)松弛帶來(lái)的量化誤差，增加了檢索時(shí)的精度。

在2020年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集以及Wiki、Pascal VOC這3個(gè)公共數(shù)據(jù)集上的試驗(yàn)結(jié)果顯示，與7種現(xiàn)有零樣本跨模態(tài)哈希方法相比，本研究所提出的方法在以文搜圖任務(wù)上的平均精度提高了0.210 6，在以圖搜文任務(wù)上的平均精度提高了0.145 0，優(yōu)于所有對(duì)比方法。

從試驗(yàn)結(jié)果可以看出本研究所提出的方法作為有監(jiān)督的零樣本跨模態(tài)哈希方法，在檢索精度方面取得了不錯(cuò)的效果，如何將本研究方法擴(kuò)展到半監(jiān)督零樣本跨模態(tài)哈希方法，提升模型的泛用性將是后續(xù)研究的方向。

參考文獻(xiàn)：

[1]許盼盼. 枸杞抗鹽種質(zhì)資源篩選與抗鹽基因的克隆鑒定[D]. 咸陽(yáng)：西北農(nóng)林科技大學(xué)，2018.

[2]徐峰. 寧夏枸杞產(chǎn)業(yè)競(jìng)爭(zhēng)力研究[D]. 銀川：寧夏大學(xué)，2017.

[3]范振軍. 農(nóng)作物病蟲害圖像檢索方法研究與實(shí)現(xiàn)[D]. 綿陽(yáng)：西南科技大學(xué)，2018.

[4]汪京京，張武，劉連忠，等. 農(nóng)作物病蟲害圖像識(shí)別技術(shù)的研究綜述[J]. 計(jì)算機(jī)工程與科學(xué)，2014，36（7）：1363-1370.

[5]杭立，車進(jìn)，宋培源，等. 基于機(jī)器學(xué)習(xí)和圖像處理技術(shù)的病蟲害預(yù)測(cè)[J]. 西南大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，42（1）：134-141.

[6]趙蕓. 基于高光譜和圖像處理技術(shù)的油菜病蟲害早期監(jiān)測(cè)方法和機(jī)理研究[D]. 杭州：浙江大學(xué)，2013.

[7]趙建敏，薛曉波，李琦. 基于機(jī)器視覺(jué)的馬鈴薯病害識(shí)別系統(tǒng)[J]. 江蘇農(nóng)業(yè)科學(xué)，2017，45（2）：198-202.

[8]王佳. 計(jì)算機(jī)視覺(jué)在香芋病害檢測(cè)中的應(yīng)用研究[J]. 農(nóng)機(jī)化研究，2020，42（8）：241-244.

[9]NETTLETON D F， KATSANTONIS D， KALAITZIDIS A， et al. Predicting rice blast disease：machine learning versus process-based models[J]. BMC Bioinformatics，2019，20：1-16.

[10]王國(guó)偉，劉嘉欣. 基于卷積神經(jīng)網(wǎng)絡(luò)的玉米病害識(shí)別方法研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào)，2021，42（2）：139-145.

[11]趙立新，侯發(fā)東，呂正超，等. 基于遷移學(xué)習(xí)的棉花葉部病蟲害圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2020，36（7）：184-191.

[12]鮑文霞，吳剛，胡根生，等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的蘋果葉部病害識(shí)別[J]. 安徽大學(xué)學(xué)報(bào)（自然科學(xué)版），2021，45（1）：53-59.

[13]馮曉，李丹丹，王文君，等. 基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的小麥葉部病害圖像識(shí)別[J]. 河南農(nóng)業(yè)科學(xué)，2021，50（4）：174-180.

[14]謝州益，馮亞枝，胡彥蓉，等. 基于ResNet18特征編碼器的水稻病蟲害圖像描述生成[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38（12）：197-206.

[15]彭紅星，徐慧明，劉華鼐. 融合雙分支特征和注意力機(jī)制的葡萄病蟲害識(shí)別模型[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38（10）：156-165.

[16]冀中，汪浩然，于云龍，等. 零樣本圖像分類綜述：十年進(jìn)展[J]. 中國(guó)科學(xué)（信息科學(xué)），2019，49（10）：1299-1320.

[17]ZHONG F， CHEN Z， MIN G. An exploration of cross-modal retrieval for unseen concepts[C]//LI G L， YANG J， GAMA J， et al. Database systems for advanced applications：24th international conference， Proceedings， Part Ⅱ. Cham， Switzerland：Springer International Publishing，2019：20-35.

[18]JI Z， SUN Y， YU Y， et al. Attribute-guided network for cross-modal zero-shot hashing[J]. IEEE Transactions on Neural Networks and Learning Systems，2019，31（1）：321-330.

[19]SHU Z， YONG K， YU J， et al. Discrete asymmetric zero-shot hashing with application to cross-modal retrieval[J]. Neurocomputing，2022，511：366-379.

[20]陳磊，劉立波，王曉麗. 2020 年寧夏枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集[J]. 中國(guó)科學(xué)數(shù)據(jù)，2022，7（3）：149-156.

[21]DING G， GUO Y， ZHOU J. Collective matrix factorization hashing for multimodal data[C]// IEEE. Proceedings of the IEEE conference on computer vision and pattern recognition. Los Alamitos， USA：IEEE，2014：2075-2082.

[22]ZHOU J， DING G， GUO Y. Latent semantic sparse hashing for cross-modal similarity search[C]//ACM. Proceedings of the 37th international ACM SIGIR Conference on research amp; development in information retrieval. New York：ACM，2014：415-424.

[23]XU Y， YANG Y， SHEN F， et al. Attribute hashing for zero-shot image retrieval[C]//IEEE. 2017 IEEE international conference on multimedia and expo （ICME）. Hong Kong：IEEE，2017：133-138.

[24]YANG Y， LUO Y， CHEN W， et al. Zero-shot hashing via transferring supervised knowledge[C]//ACM. Proceedings of the 24th ACM international conference on multimedia. New York：ACM，2016：1286-1295.

[25]YUAN X， WANG G， CHEN Z， et al. CHOP：an orthogonal hashing method for zero-shot cross-modal retrieval[J]. Pattern Recognition Letters，2021，145：247-253.

[26]劉立波，趙斐斐. 融合注意力機(jī)制的枸杞蟲害圖文跨模態(tài)檢索方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2022，53（2）：299-308.

（責(zé)任編輯：成紓寒）

江蘇農(nóng)業(yè)學(xué)報(bào)2024年2期

江蘇農(nóng)業(yè)學(xué)報(bào)的其它文章: 花旗松素的提取、檢測(cè)及功能研究進(jìn)展; 6個(gè)朱砂梅品種花色苷合成結(jié)構(gòu)基因及轉(zhuǎn)錄因子編碼基因的表達(dá)模式分析; 不同栽培模式對(duì)草莓果實(shí)揮發(fā)性香氣物質(zhì)的影響; 南瓜葉黃素基因緊密連鎖的InDel分子標(biāo)記開(kāi)發(fā)及應(yīng)用; 基于線粒體Cyt b基因序列的4個(gè)黃尾鲴養(yǎng)殖群體遺傳多樣性分析; 飼料中添加高羊毛氨酸硒對(duì)陜北白絨山羊羯羊瘤胃古菌結(jié)構(gòu)與組成的影響

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于零樣本學(xué)習(xí)的枸杞蟲害識(shí)別