劉立波 趙斐斐
(寧夏大學(xué)信息工程學(xué)院, 銀川 750021)
枸杞具有免疫調(diào)節(jié)、滋腎、潤(rùn)肺、補(bǔ)肝等功效,在國(guó)內(nèi)外市場(chǎng)備受青睞。同時(shí),作為防風(fēng)固沙和改良鹽堿地的先鋒樹,枸杞兼具生態(tài)與經(jīng)濟(jì)價(jià)值,隨著氣候條件的變化和栽培技術(shù)的引進(jìn),近年來種植面積逐漸擴(kuò)大[1],已成為寧夏乃至整個(gè)西北地區(qū)重要的經(jīng)濟(jì)作物之一[2-3]。枸杞屬于多蟲寄主且抗蟲害能力較差,極易遭受蟲害侵?jǐn)_,并呈現(xiàn)逐年加重趨勢(shì),對(duì)于產(chǎn)量及品質(zhì)影響巨大,造成了嚴(yán)重的經(jīng)濟(jì)損失。因此快速準(zhǔn)確檢索得到枸杞蟲害多方面信息并給予及時(shí)精準(zhǔn)防治,對(duì)于避免蟲害進(jìn)一步擴(kuò)散進(jìn)而提高枸杞產(chǎn)量與品質(zhì),推進(jìn)枸杞產(chǎn)業(yè)帶動(dòng)區(qū)域經(jīng)濟(jì)發(fā)展至關(guān)重要。
傳統(tǒng)的農(nóng)作物病蟲害檢索主要通過人眼查看病蟲害目標(biāo)區(qū)域的顏色、紋理、蟲子體態(tài)等特征,與農(nóng)作物病蟲害圖像信息手冊(cè)進(jìn)行人工對(duì)比來實(shí)現(xiàn)[4]。該方法依賴個(gè)人經(jīng)驗(yàn)以及肉眼觀察,導(dǎo)致主觀性強(qiáng)、誤判率高并且耗費(fèi)時(shí)間和精力[5]。隨著精準(zhǔn)農(nóng)業(yè)和智慧農(nóng)業(yè)的發(fā)展,農(nóng)作物病蟲害信息量爆炸式增長(zhǎng),其數(shù)據(jù)也因自身特點(diǎn)呈現(xiàn)多模態(tài)形式,圖像和文本兩種模態(tài)數(shù)據(jù)經(jīng)常同時(shí)產(chǎn)生、相互關(guān)聯(lián)并互相補(bǔ)充。如何通過計(jì)算機(jī)視覺、圖像處理等先進(jìn)信息技術(shù),從這些不同模態(tài)且語義關(guān)聯(lián)的數(shù)據(jù)中獲取有價(jià)值的信息,進(jìn)而實(shí)現(xiàn)圖像文本信息間的跨模態(tài)檢索,對(duì)滿足人們?nèi)找嬖鲩L(zhǎng)的農(nóng)作物病蟲害信息多樣化檢索需求具有重要意義。
現(xiàn)有研究[4,6-8]在農(nóng)作物病蟲害檢索任務(wù)中都取得了很好的成效,但均存在檢索模態(tài)單一的問題,即僅能夠以圖像檢索圖像,或者以文本檢索文本,很難將農(nóng)作物病蟲害不同模態(tài)信息進(jìn)行展示。隨著農(nóng)業(yè)數(shù)據(jù)化信息及形式的多樣化[9],研究人員更加注重不同模態(tài)信息的互檢及模態(tài)的綜合分析,而跨模態(tài)檢索 (Cross-modal retrieval)正是兼具多模態(tài)數(shù)據(jù)之間的相似互檢這一特性,并融合圖像、文本等多個(gè)模態(tài)對(duì)數(shù)據(jù)進(jìn)行高效互查與量化,使其不斷成為多媒體信息檢索中的一個(gè)研究熱點(diǎn)[10],被廣泛應(yīng)用在醫(yī)療、交通、藝術(shù)等領(lǐng)域[11-12]。在農(nóng)業(yè)領(lǐng)域,由于農(nóng)作物病蟲害信息模態(tài)更加多樣化[13],圖像或文本的單模態(tài)檢索顯然已經(jīng)不能滿足人們的需求,對(duì)于經(jīng)驗(yàn)不足的人員,僅憑農(nóng)作物病蟲害圖像、文本等單模態(tài)信息并不能全面且直觀、形象地了解想要檢索的內(nèi)容[14]??缒B(tài)檢索能夠?qū)崿F(xiàn)不同模態(tài)之間信息互檢,獲得更加多元化的農(nóng)作物病蟲害信息,從而對(duì)農(nóng)作物病蟲害的及時(shí)防治提供幫助。但目前跨模態(tài)檢索尚未在農(nóng)業(yè)領(lǐng)域應(yīng)用,因此將跨模態(tài)檢索引入農(nóng)業(yè)領(lǐng)域?qū)崿F(xiàn)農(nóng)作物病蟲害的跨模態(tài)檢索更能滿足農(nóng)業(yè)發(fā)展的現(xiàn)實(shí)需求。
由于不同模態(tài)在進(jìn)行某些特定特征與語義交互學(xué)習(xí)時(shí),往往存在細(xì)節(jié)信息不互補(bǔ)或者高級(jí)語義不平衡的現(xiàn)象,導(dǎo)致模態(tài)間的映射關(guān)系不對(duì)等,造成不同模態(tài)間特征描述缺失或者語義關(guān)聯(lián)匱乏。比如,枸杞蟲害圖像和枸杞蟲害文本之間的模態(tài)學(xué)習(xí),圖像具有比文本更多的細(xì)節(jié)信息,而文本又包含了很多比圖像更強(qiáng)的語義描述。因而,為了解決上述問題,通過引入具有模擬人類視覺系統(tǒng)功效的注意力機(jī)制,能夠更加突出圖像與文本中更具區(qū)分性的重點(diǎn)部位,來緩解這種模態(tài)間的不對(duì)等以及不平衡性。
本文以17類枸杞蟲害圖像和與其相對(duì)應(yīng)的枸杞蟲害文本為研究對(duì)象,針對(duì)現(xiàn)有方法檢索模態(tài)單一的問題,將跨模態(tài)檢索技術(shù)引入枸杞蟲害檢索中,利用注意力機(jī)制對(duì)圖像和文本數(shù)據(jù)進(jìn)行特征提取,使模型能夠集中于圖像和文本中必要細(xì)粒度部分,學(xué)習(xí)圖像與文本的顯著性語義信息,從而挖掘兩者之間的語義關(guān)聯(lián),針對(duì)枸杞蟲害的圖文跨模態(tài)檢索,期望獲得更高的實(shí)時(shí)性和更豐富的內(nèi)容,為農(nóng)作物病蟲害檢索提供新思路。
本文模型框架如圖1所示,由文本編碼模塊、圖像編碼模塊以及模態(tài)交互模塊3部分組成。
圖1 模型框架圖Fig.1 Frame of model
對(duì)于圖文跨模態(tài)檢索任務(wù)來說,給定任一相似的圖像文本,其中的內(nèi)容往往只存在一部分相似性,不可能完全相似,該任務(wù)的這一特點(diǎn)便促使模型需要首先將數(shù)據(jù)拆分為多個(gè)部分,探索數(shù)據(jù)不同部分之間的語義關(guān)聯(lián),進(jìn)而挖掘數(shù)據(jù)中所包含的細(xì)粒度信息。再者,在本文自建的枸杞蟲害數(shù)據(jù)集中,這樣的局部相似性往往集中在圖像中包含害蟲的區(qū)域,以及文本中包含對(duì)蟲害特點(diǎn)進(jìn)行描述的部分,這又進(jìn)一步要求模型能夠提取圖像和文本中的顯著性語義信息。本文首先通過文本編碼模塊和圖像編碼模塊獲取各數(shù)據(jù)的細(xì)粒度特征序列,并基于注意力機(jī)制對(duì)序列進(jìn)行聚合以獲取文本和圖像的顯著性語義特征,接著通過模態(tài)交互模塊提高文本和圖像特征的判別力,并對(duì)文本和圖像特征進(jìn)行語義對(duì)齊,保證文本數(shù)據(jù)和圖像數(shù)據(jù)之間的模態(tài)間一致性。
對(duì)于文本模態(tài),首先通過word2vec方式來獲取文本中每個(gè)單詞的詞向量作為文本的細(xì)粒度特征序列。接著通過Transformer模型獲取包含文本上下文信息的細(xì)粒度特征序列,使序列中每一個(gè)元素既包含其本身獨(dú)有的信息,又包含與整個(gè)數(shù)據(jù)的關(guān)系,增強(qiáng)可判別性。然后通過注意力機(jī)制獲取序列中每個(gè)元素的注意力權(quán)重,即每個(gè)元素對(duì)數(shù)據(jù)的重要性,并基于所得權(quán)重對(duì)序列元素進(jìn)行加權(quán)求和以得到包含了顯著性語義信息的文本特征。同樣地,對(duì)于圖像模態(tài),首先通過VGG19網(wǎng)絡(luò)提取該網(wǎng)絡(luò)最后一個(gè)池化層的特征圖譜,并將其拆分為49個(gè)子區(qū)域特征,形成圖像的細(xì)粒度特征序列。接著通過LSTM網(wǎng)絡(luò)獲取包含圖像上下文信息的細(xì)粒度圖像特征序列。然后通過注意力機(jī)制以同樣的方式得到圖像的特征表示。最后,通過模態(tài)交互模塊的模態(tài)內(nèi)判別損失以及模態(tài)間一致性損失來共同引導(dǎo)模型的訓(xùn)練。
圖2 Transformer模型的編碼器結(jié)構(gòu)Fig.2 Encoder structure of Transformer model
在處理枸杞蟲害文本內(nèi)容時(shí),采用Transformer編碼器對(duì)文本進(jìn)行編碼,Transformer[15]是Google團(tuán)隊(duì)在2017年提出的一種自然語言處理(NLP)經(jīng)典模型,是一種新的、基于注意力機(jī)制來實(shí)現(xiàn)的特征提取器,可以用于代替卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來提取序列的特征,其結(jié)構(gòu)如圖2所示。圖中,N為Transformer的層數(shù)。
以1層Transformer模型為例,該模型可以被簡(jiǎn)單表示為
yi=transformer(xi)
(1)
式中xi——輸入的詞向量
yi——輸入的詞向量經(jīng)過模型編碼后的輸出向量
在對(duì)文本信息進(jìn)行編碼時(shí),對(duì)于給定的一個(gè)枸杞蟲害文本ti,設(shè)每個(gè)文本ti中包含T1個(gè)單詞,可表示為ti=[w1,w2,…,wT1]。在本文所提數(shù)據(jù)集文本語料庫中添加Wikipedia語料庫,基于skip-gram與Negative Sampling策略構(gòu)建word2vec模型,將ti中的單詞wj轉(zhuǎn)換為一個(gè)詞向量,記為xj,得到該文本的細(xì)粒度特征序列,再將得到的序列送入Transformer編碼器中以獲取序列中每個(gè)單詞包含了文本上下文信息的特征向量yj,得到包含了文本上下文信息的細(xì)粒度特征序列Yi=[y1,y2,…,yj,…,yT1]。具體公式為
xj=word2vec(wj) (j∈[1,T1])
(2)
yj=transformer(xj) (j∈[1,T1])
(3)
接著采用類似的方法[16]實(shí)現(xiàn)注意力機(jī)制,將Transformer編碼器輸出的文本特征序列Yi送入前饋神經(jīng)網(wǎng)絡(luò)中,然后利用softmax函數(shù)計(jì)算得到序列中每個(gè)yj的注意力權(quán)重αj,對(duì)應(yīng)的注意力權(quán)重序列可被表示為α=[α1,α2,…,αT1],具體計(jì)算公式為
α=softmax(WtaQt)
(4)
(5)
(6)
在處理枸杞蟲害圖像時(shí),首先將圖像vi的尺寸調(diào)整為256像素×256像素,并將其輸入到VGG19網(wǎng)絡(luò)中獲取該網(wǎng)絡(luò)最后一個(gè)池化層的特征圖譜,該特征圖譜的尺寸為7×7×512,3個(gè)參數(shù)分別表示特征圖譜的高、寬以及通道數(shù),由此將該特征圖譜看作圖像49(7×7)個(gè)子區(qū)域?qū)?yīng)的特征,每個(gè)子區(qū)域可被表示為512維的特征向量,將這49個(gè)子區(qū)域連接起來便可構(gòu)成圖像的特征序列,可以表示為r=[r1,r2,…,rj,…,rT2],T2為圖像區(qū)域總數(shù),rj為第j個(gè)區(qū)域所對(duì)應(yīng)的特征向量。然后利用長(zhǎng)短期記憶網(wǎng)絡(luò)[17](Long short term memory,LSTM)獲取包含了圖像上下文信息的細(xì)粒度特征序列Hi=[h1,h2,…,hj,…,hT2]。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),通過記憶單元學(xué)習(xí)長(zhǎng)期依賴關(guān)系和更新門的能力較強(qiáng),同時(shí)保留了之前的時(shí)間步長(zhǎng)信息,能夠有效解決一般的RNN存在的長(zhǎng)期依賴問題,圖3為L(zhǎng)STM計(jì)算單元內(nèi)部結(jié)構(gòu)。
圖3 LSTM單元架構(gòu)Fig.3 Architecture of LSTM unit
LSTM單元計(jì)算公式為
it=σ(Wi[ht-1,xt]+bi)
(7)
ft=σ(Wf[ht-1,xt]+bf)
(8)
ut=tanh(WC[ht-1,xt]+bC)
(9)
ot=σ(Wo[ht-1,xt]+bo)
(10)
Ct=ftCt-1+itut
(11)
ht=ottanh(Ct)
(12)
其中ft為遺忘門,表示Ct-1的哪些特征被用于計(jì)算Ct,ft是一個(gè)向量,向量的每個(gè)元素均位于[0,1]范圍內(nèi);ut表示單元狀態(tài)更新值,由輸入數(shù)據(jù)xt和隱節(jié)點(diǎn)ht-1經(jīng)由一個(gè)神經(jīng)網(wǎng)絡(luò)層得到,單元狀態(tài)更新值的激活函數(shù)通常使用tanh。it為輸入門,同ft一樣也是元素介于[0,1]區(qū)間內(nèi)的向量,由xt和ht-1經(jīng)由Sigmoid計(jì)算得到。it用于控制ut的哪些特征用于更新Ct,使用方式與ft相同。最后為了計(jì)算預(yù)測(cè)值和生成下個(gè)時(shí)間片完整的輸入,需要計(jì)算隱節(jié)點(diǎn)的輸出ht,ht由輸出門ot和單元狀態(tài)Ct得到,其中ot計(jì)算方式與ft和it相同。σ為Sigmoid激活函數(shù),其定義為
(13)
接著同樣利用注意機(jī)制將從LSTM得到的特征序列Hi送入前饋神經(jīng)網(wǎng)絡(luò)中,利用softmax函數(shù)計(jì)算對(duì)應(yīng)的注意力權(quán)重序列β=[β1,β2,…,βT2],計(jì)算公式為
β=softmax(WvaQv)
(14)
(15)
(16)
在整個(gè)模態(tài)交互模塊中,采用類似文獻(xiàn)[18]中提出的跨媒體聯(lián)合損失函數(shù),對(duì)枸杞蟲害圖像和文本兩種媒體類型數(shù)據(jù)間的語義關(guān)聯(lián)進(jìn)行約束。
使映射入隱空間后的文本與圖像特征向量通過一個(gè)分類器,進(jìn)而通過模態(tài)內(nèi)判別損失約束模型訓(xùn)練過程,使得到的圖像和文本特征在各自模態(tài)內(nèi)保持語義類別方面的可判別性。該分類器以圖像和文本特征作為輸入,預(yù)測(cè)各特征所屬語義類別的概率分布,本文通過計(jì)算特征真實(shí)標(biāo)簽與所得概率分布間的交叉熵來構(gòu)建模態(tài)內(nèi)判別損失,具體公式為
(17)
式中Lsem——所有圖像文本對(duì)語義類別分類的交叉熵?fù)p失
n——圖像文本對(duì)總數(shù)
ci——真實(shí)類別標(biāo)簽
(18)
(19)
λ——平衡參數(shù)μ——邊緣約束
D(·,·)——兩向量間的余弦距離
(20)
(21)
因此,模態(tài)交互模塊中跨媒體聯(lián)合損失函數(shù)L可表示為
L=ε1Lsem+ε2Lrelated
(22)
其中超參數(shù)ε1和ε2用于平衡各損失項(xiàng)在訓(xùn)練時(shí)對(duì)模型的影響。
綜上,本文首先引入注意力機(jī)制提取枸杞蟲害圖像與文本數(shù)據(jù)自身所蘊(yùn)含的顯著性語義信息,接著通過最小化跨媒體聯(lián)合損失函數(shù)來探索枸杞蟲害圖像與文本特征間的語義關(guān)聯(lián),挖掘不同模態(tài)間語義相關(guān)關(guān)系,最終達(dá)到提升枸杞蟲害圖文跨模態(tài)檢索準(zhǔn)確率的目的。
以尺蠖、大青葉蟬、負(fù)泥蟲、木虱、蚜蟲、薊馬等17種常見枸杞蟲害為研究對(duì)象,通過實(shí)地調(diào)研拍照、書本收集以及網(wǎng)絡(luò)爬蟲技術(shù)共獲取9 380幅包含17類枸杞蟲害圖像樣本,圖像樣本均為.jpg格式。根據(jù)圖文跨模態(tài)檢索數(shù)據(jù)集構(gòu)建的需要,充分利用網(wǎng)絡(luò)渠道并借助專家力量為每類枸杞蟲害中所有蟲害圖像撰寫對(duì)應(yīng)的文本描述,圖4為自建枸杞蟲害數(shù)據(jù)集部分類別圖像及文本示例。給17類枸杞蟲害分配所屬類別標(biāo)簽,標(biāo)簽0為尺蠖,標(biāo)簽1為大青葉蟬,標(biāo)簽2為負(fù)泥蟲,以此類推到標(biāo)簽16蛀果蛾。以跨模態(tài)檢索常用的Wikipedia數(shù)據(jù)集結(jié)構(gòu)為基準(zhǔn),構(gòu)建枸杞蟲害圖像-文本對(duì)列表,按照8∶2的比例將自建的枸杞蟲害數(shù)據(jù)集劃分訓(xùn)練集與測(cè)試集。Wikipedia數(shù)據(jù)集圖像-文本對(duì)列表格式為“文本名稱 圖像名稱 所屬類別標(biāo)簽”,自建的枸杞蟲害數(shù)據(jù)集圖像-文本對(duì)列表格式為“圖像相對(duì)路徑 文本相對(duì)路徑 所屬類別標(biāo)簽”。
圖4 自建枸杞蟲害數(shù)據(jù)集部分類別圖像及對(duì)應(yīng)文本示例Fig.4 Some category images and corresponding text examples of self-built Lycium pest dataset
針對(duì)自建枸杞蟲害數(shù)據(jù)集學(xué)習(xí)樣本少,在復(fù)雜網(wǎng)絡(luò)中容易發(fā)生過擬合問題,本研究采用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)原始數(shù)據(jù)集進(jìn)行擴(kuò)充。數(shù)據(jù)增強(qiáng)可使原始數(shù)據(jù)集更具多樣性,從而減少過擬合現(xiàn)象,進(jìn)一步提升訓(xùn)練模型的泛化能力。
圖5 枸杞蟲害圖像數(shù)據(jù)增強(qiáng)操作Fig.5 Lycium pests image data enhancement operation
在處理圖像樣本時(shí),通過對(duì)原始圖像進(jìn)行垂直翻轉(zhuǎn)、調(diào)整亮度、隨機(jī)裁剪以及旋轉(zhuǎn)操作擴(kuò)增枸杞蟲害圖像樣本,部分圖像擴(kuò)增前后結(jié)果如圖5所示。
在處理文本樣本時(shí),現(xiàn)有自然語言處理的數(shù)據(jù)樣本增強(qiáng)擴(kuò)充主要有2種方法:加噪和回譯。加噪即在原始文本數(shù)據(jù)基礎(chǔ)之上通過替換詞、刪除詞等方式生成新的與原始數(shù)據(jù)相似的文本樣本;回譯即將原始文本數(shù)據(jù)翻譯為其他語言,再將翻譯得到的結(jié)果再次翻譯回原始語言。本文采用文本分類任務(wù)的簡(jiǎn)單數(shù)據(jù)增強(qiáng)(Easy data augmentation for text classification tasks,EDA)方法通過加噪的思路對(duì)文本進(jìn)行處理,該方法中主要的加噪形式有同義詞替換、隨機(jī)插入、隨機(jī)交換以及隨機(jī)刪除,其處理效果如圖6所示。
圖6 枸杞蟲害文本數(shù)據(jù)增強(qiáng)操作Fig.6 Lycium pests text data enhancement operation
將擴(kuò)增后的文本內(nèi)容與擴(kuò)增后的圖像相對(duì)應(yīng),更新枸杞蟲害樣本內(nèi)容,得到擴(kuò)增后的枸杞蟲害樣本集,按照8∶2的比例劃分訓(xùn)練集與測(cè)試集,并用新得到的枸杞蟲害數(shù)據(jù)集代替原始數(shù)據(jù)集進(jìn)行后續(xù)試驗(yàn)。
試驗(yàn)在寧夏大學(xué)高性能計(jì)算平臺(tái)上進(jìn)行,平臺(tái)操作系統(tǒng)為Ubuntu 16.04 LTS。加載軟件環(huán)境有g(shù)cc、cuda 9.0和Python 3.6.10。GPU為NVIDIA quadro p 5000。采用深度學(xué)習(xí)框Tensorflow 1.13.1。
為了充分驗(yàn)證本文方法的可行性及準(zhǔn)確率,在自建的枸杞蟲害數(shù)據(jù)集上,使用枸杞蟲害圖像檢索枸杞蟲害文本以及枸杞蟲害文本檢索枸杞蟲害圖像2個(gè)任務(wù)對(duì)模型準(zhǔn)確率進(jìn)行衡量。
采用平均精度均值(Mean average precision,MAP)和準(zhǔn)確率(Precision)-召回率(Recall)曲線作為枸杞蟲害跨模態(tài)檢索準(zhǔn)確率的評(píng)價(jià)指標(biāo)。
相同試驗(yàn)環(huán)境下通過試驗(yàn)對(duì)比了2種傳統(tǒng)跨模態(tài)檢索方法:典型相關(guān)分析[19](Canonical correlation analysis,CCA)和核典型相關(guān)分析[20](Kernel canonical correlation analysis,KCCA),以及6種基于深度神經(jīng)網(wǎng)絡(luò)的方法:深度典型相關(guān)分析[21](Deep canonical correlation analysis,DCCA)、端到端的深度典型相關(guān)分析[22](End-to-end DCCA)、深度語義匹配[23](Deep semantic matching,Deep-SM)、通信自編碼器[24](Correspondence autoencoder,Corr-AE)、對(duì)抗式跨模態(tài)檢索[25](Adversarial cross-modal retrieval,ACMR)、特定模態(tài)的跨模態(tài)相似度測(cè)量[26](Modality-specific cross-modal similarity measurement,MCSM)。傳統(tǒng)的跨模態(tài)檢索方法CCA通過學(xué)習(xí)映射矩陣,最大化公共空間中不同模態(tài)投影特征之間的相關(guān)性。KCCA是CCA的一種擴(kuò)展,它使用核函數(shù)將特征投影到一個(gè)高維空間,能更好的處理特征集合非線性的情景。DCCA是CCA的一個(gè)非線性延伸,能夠同時(shí)學(xué)習(xí)2個(gè)數(shù)據(jù)視圖間的非線性投影,使得到的映射特征高度非線性相關(guān)。End-to-end DCCA采用GPU以及減少過擬合的方法可以應(yīng)對(duì)原始DCCA框架的不足。Deep-SM采用2種不同的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度語義匹配,實(shí)現(xiàn)跨模態(tài)檢索。Corr-AE由2個(gè)耦合在編碼層的自編碼器網(wǎng)絡(luò)組成,可以同時(shí)對(duì)重構(gòu)誤差和相關(guān)損耗進(jìn)行建模。ACMR在不同模態(tài)之間互相作用獲得一個(gè)有效的共享子空間,能夠有效解決一個(gè)模態(tài)的一項(xiàng)數(shù)據(jù)可能存在多個(gè)語義不同項(xiàng)的問題。MCSM為不同模態(tài)數(shù)據(jù)構(gòu)建獨(dú)立的語義空間,通過端到端框架直接從每個(gè)語義空間生成特定于模態(tài)的跨模態(tài)相似度。為公平對(duì)比,所有對(duì)比方法的圖像端輸入均為從預(yù)訓(xùn)練VGG19網(wǎng)絡(luò)中提取的4096維深度特征,文本端則首先通過word2vec提取詞向量然后將文本中所有詞向量的平均值作為輸入。除了CCA、KCCA、DCCA、End-to-end DCCA 為20維,其他所有方法最后的特征維數(shù)均為1 024。
本文方法與所對(duì)比方法的結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,本文方法的平均精度均值平均值達(dá)到了0.458。不論通過圖像檢索文本,還是通過文本檢索圖像,本方法的平均精度均值均高于對(duì)比方法。在所有對(duì)比方法中,MCSM方法表現(xiàn)最好,而本文方法相較于該方法平均精度均值平均值提高了0.011。ACMR方法和Corr-AE方法效果相當(dāng)。本文方法比Deep-SM、End-to-end DCCA以及DCCA方法的平均精度均值平均值分別提高了0.045、0.069、0.074,而CCA方法的平均精度均值平均值只有0.263。
表1 不同方法平均精度均值結(jié)果對(duì)比Tab.1 Comparison of results of different methods
現(xiàn)有的跨模態(tài)檢索方法大多將來自其自身特征空間的不同模態(tài)的數(shù)據(jù)平均投影到一個(gè)單一的公共空間中,以找到它們之間的潛在對(duì)齊方式,學(xué)習(xí)它們之間的內(nèi)在聯(lián)系。但這些方法只能粗略捕捉枸杞蟲害圖像與文本之間的對(duì)應(yīng)關(guān)系,無法探索圖像與文本數(shù)據(jù)中的細(xì)粒度信息。而本文方法有針對(duì)性地融合注意力機(jī)制對(duì)枸杞蟲害圖像和文本分別進(jìn)行處理,能夠充分挖掘枸杞蟲害圖像與文本之間復(fù)雜的跨媒體關(guān)聯(lián),從而提高檢索準(zhǔn)確率。
為進(jìn)一步證實(shí)本文方法的有效性,在枸杞蟲害數(shù)據(jù)集上的Precision-Recall曲線如圖7和圖8所示。由圖7可知,本文方法在圖像檢索文本任務(wù)中性能明顯優(yōu)于其他對(duì)比方法。對(duì)于圖8中文本檢索圖像任務(wù),召回率取0.3~1.0時(shí),本文方法的準(zhǔn)確率略低于某些對(duì)比方法,但基本與性能最優(yōu)方法持平,而在召回率取0~0.3時(shí),本文方法的準(zhǔn)確率明顯高于其他對(duì)比方法。綜合來看,本文方法在文本檢索圖像任務(wù)中的檢索性能也優(yōu)于其他對(duì)比方法。
圖7 圖像檢索文本任務(wù)的Precision-Recall曲線Fig.7 Precision-Recall curves of image to text task
圖8 文本檢索圖像任務(wù)的Precision-Recall曲線Fig.8 Precision-Recall curves of text to image task
圖9 本文方法與比較方法MCSM在自建枸杞蟲害數(shù)據(jù)集上的跨模態(tài)檢索結(jié)果示例Fig.9 Examples of cross-modal retrieval results of proposed method and comparison method MCSM on self-built Lycium pest dataset
圖9給出了本文方法與MCSM方法在自建的枸杞蟲害數(shù)據(jù)集上的跨模態(tài)檢索結(jié)果對(duì)比示例,帶有綠色邊框的表示正確的檢索結(jié)果,帶有紅色邊框的表示錯(cuò)誤結(jié)果。以大青葉蟬的圖像檢索文本任務(wù)為例,在本文方法檢索得到的前8個(gè)文本中,檢索正確的有7個(gè),錯(cuò)誤的有1個(gè),而通過MSCM方法檢索得到正確結(jié)果有5個(gè),錯(cuò)誤結(jié)果有3個(gè)。從圖9中可看出,不論在圖像檢索文本任務(wù)上,還是在文本檢索圖像任務(wù)上,本文方法的跨模態(tài)檢索表現(xiàn)均略優(yōu)于MCSM。
為了進(jìn)一步驗(yàn)證注意力機(jī)制對(duì)所提方法各個(gè)部分的影響,本文進(jìn)行了消融試驗(yàn),結(jié)果如表2所示。其中 I表示圖像編碼模塊,T表示文本編碼模塊,A表示圖像或文本編碼模塊中包含注意力機(jī)制,NA則表示不包含注意力機(jī)制。從表2可以看出,融合注意力機(jī)制的模型可以突出枸杞蟲害圖像和文本內(nèi)容中較為重要的細(xì)粒度局部信息,更好地為2種模態(tài)間的關(guān)聯(lián)關(guān)系建模,提高檢索準(zhǔn)確率。
表2 自建枸杞蟲害數(shù)據(jù)集上基線試驗(yàn)的平均精度均值結(jié)果Tab.2 MAP results of baseline experiment on self-constructed Lycium barbarum pest dataset
另外,為進(jìn)一步證明模型的魯棒性,本文探索了隱空間中特征維度對(duì)本文模型的影響。在構(gòu)建網(wǎng)絡(luò)時(shí)分別將隱空間設(shè)置為256、512、1 024維并進(jìn)行試驗(yàn),結(jié)果如表3所示。從表3可以看出,在特征維度取1 024時(shí),模型性能最佳,但在特征維度取256或512時(shí),模型性能并沒有出現(xiàn)顯著下降。
表3 不同特征維度的平均精度均值結(jié)果Tab.3 MAP results of different feature dimensions
(1)針對(duì)現(xiàn)有農(nóng)作物病蟲害識(shí)別與檢索方法識(shí)別或檢索模態(tài)較為單一的問題,本文以枸杞尺蠖、大青葉蟬、負(fù)泥蟲、木虱、蚜蟲、薊馬等共17類枸杞蟲害為研究對(duì)象,提出了一種融合注意力機(jī)制的枸杞蟲害圖文跨模態(tài)檢索方法。根據(jù)跨模態(tài)檢索任務(wù)需要,構(gòu)建枸杞蟲害數(shù)據(jù)集,然后通過圖像編碼模塊以及文本編碼模塊分別對(duì)圖像和文本信息進(jìn)行細(xì)粒度處理,經(jīng)過模態(tài)交互模塊中損失函數(shù)的約束,深入挖掘不同模態(tài)間的語義相關(guān)關(guān)系,實(shí)現(xiàn)跨模態(tài)檢索任務(wù),并在自建的枸杞蟲害數(shù)據(jù)集上對(duì)本文方法以及一些經(jīng)典方法的性能進(jìn)行了對(duì)比分析。
(2)提出的融合注意力機(jī)制的枸杞蟲害圖文跨模態(tài)檢索模型,將跨模態(tài)檢索引入枸杞蟲害檢索中,為枸杞蟲害多模式數(shù)據(jù)檢索提供了有效而強(qiáng)大的方法,相比于傳統(tǒng)的基于單模式的技術(shù)更加方便且檢索結(jié)果更加直觀、豐富。
(3)通過在模型中融入注意力機(jī)制,能夠挖掘數(shù)據(jù)中的細(xì)粒度信息,捕捉數(shù)據(jù)的顯著性語義信息,從而提升檢索性能,與8種現(xiàn)有方法相比,本文方法平均精度均值平均值提高了0.011~0.195,優(yōu)于所有對(duì)比方法。