陳磊,劉立波*,王曉麗
1.寧夏大學(xué)信息工程學(xué)院,銀川 750021
2.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081
3.中國農(nóng)業(yè)科學(xué)院國家南繁研究院,海南三亞 572024
4.國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心,北京 100081
枸杞原產(chǎn)地位于寧夏,且在我國有著二千余年的藥用史,具有調(diào)節(jié)自身免疫、滋腎、潤肺、補(bǔ)肝之作用,在國內(nèi)外享有很高的聲譽(yù)。由于寧夏區(qū)域氣候條件變化以及栽培技術(shù)不斷引進(jìn),近年來枸杞生長環(huán)境得到改善,種植面積逐漸擴(kuò)大,已成為寧夏乃至整個(gè)西北地區(qū)重要的經(jīng)濟(jì)作物之一。枸杞屬于多種蟲類的寄主而且抗蟲害能力差,極易遭受蟲害侵?jǐn)_。蟲害對(duì)枸杞產(chǎn)量及品質(zhì)影響巨大,嚴(yán)重影響了生產(chǎn)效益[1-3]。因此,快速準(zhǔn)確檢索枸杞蟲害多方面信息并及時(shí)給予精準(zhǔn)防治,對(duì)避免蟲害進(jìn)一步擴(kuò)散、提高枸杞產(chǎn)量與品質(zhì)、推進(jìn)枸杞產(chǎn)業(yè)發(fā)展從而帶動(dòng)區(qū)域經(jīng)濟(jì)發(fā)展至關(guān)重要。
傳統(tǒng)的農(nóng)作物蟲害檢索主要是使用人力將蟲害與農(nóng)作物蟲害圖像圖譜進(jìn)行對(duì)比或者使用單模態(tài)檢索技術(shù)獲取相關(guān)信息。但是,隨著大數(shù)據(jù)時(shí)代的到來,來自文本、圖像和視頻等不同模式的數(shù)據(jù)正在以前所未有的速度增長,多種模態(tài)數(shù)據(jù)之間互相關(guān)聯(lián)、互相補(bǔ)充,農(nóng)業(yè)領(lǐng)域中的作物蟲害信息檢索方式也更加多元化,傳統(tǒng)模式已無法滿足人們?nèi)骒`活的檢索要求。將跨模態(tài)檢索技術(shù)引入農(nóng)業(yè)領(lǐng)域,從模態(tài)不同但是語義相互關(guān)聯(lián)的數(shù)據(jù)中獲取有價(jià)值的信息,對(duì)滿足人們對(duì)農(nóng)作物蟲害多樣化檢索需求具有重要意義。
本文將跨模態(tài)檢索技術(shù)引入枸杞蟲害防治領(lǐng)域,實(shí)現(xiàn)不同模態(tài)之間的信息互檢,使得檢索方式多元化,從而獲得更多模態(tài)量化信息,對(duì)枸杞蟲害及時(shí)防治提供幫助。這不僅有助于減少非必要人力、物力的資源浪費(fèi),而且有利于展開精準(zhǔn)蟲害防治,提高枸杞產(chǎn)業(yè)鏈帶來的收益。但目前跨模態(tài)檢索尚未在農(nóng)業(yè)領(lǐng)域應(yīng)用,且我國還沒有建立起可供深度學(xué)習(xí)使用的農(nóng)作物病蟲害跨模態(tài)研究標(biāo)準(zhǔn)數(shù)據(jù)集[4]。因此,為了支撐跨模態(tài)檢索在農(nóng)業(yè)領(lǐng)域內(nèi)的研究,本文構(gòu)建了枸杞蟲害圖文跨模態(tài)檢索數(shù)據(jù)集,涵蓋了枸杞蟲害圖像采集、文本撰寫、數(shù)據(jù)增強(qiáng)等多方面內(nèi)容。本數(shù)據(jù)集目前共包含17類常見枸杞病蟲害圖像文本數(shù)據(jù)共492 MB,數(shù)據(jù)充足可供圖文跨模態(tài)檢索研究使用。
本數(shù)據(jù)集以17種寧夏地區(qū)常見的枸杞蟲害為研究對(duì)象,具體為:尺蠖、大青葉禪、負(fù)泥蟲、黑盲蝽、黑圓角蟬、紅斑蕪菁、紅長蝽、紅緣天牛、黃斑大蚊、薊馬、毛跳甲、實(shí)蠅、印度谷螟、蛀果蛾、小地老虎、蚜蟲、木虱。主要采用實(shí)地調(diào)研拍照、網(wǎng)絡(luò)爬蟲、書籍掃描3種采集方法構(gòu)建圖像數(shù)據(jù)子集,占比依次為20%、50%、30%。
(1)實(shí)地調(diào)研拍照
團(tuán)隊(duì)使用Canon EOS 1D X Mark III數(shù)碼單反相機(jī),在寧夏回族自治區(qū)中衛(wèi)市中寧縣舟塔鄉(xiāng)萬畝枸杞種植基地進(jìn)行實(shí)地調(diào)研,并在專家指導(dǎo)下于自然露天環(huán)境下對(duì)蟲害拍照,且保證了自然露天條件下蟲害受光均勻且位于畫面中央主要位置。
(2)網(wǎng)絡(luò)爬蟲
在 python環(huán)境下利用 Scrapy在維基百科(http://en.volupedia.org/wiki/Main_Page),百度百科(https://baike.baidu.com/),藥用植物病蟲害數(shù)據(jù)庫(https://www.pests.com.cn/),植保驛站(http://www.51agritech.com/)4個(gè)公開網(wǎng)站進(jìn)行圖片爬取,并刪除低分辨率圖像。其中這4個(gè)網(wǎng)站爬蟲最終得到數(shù)據(jù)占比分別約為30%、50%、10%、10%。
(3)書籍掃描
利用Huawei p40 pro自帶文檔掃描功能,掃描并保存現(xiàn)存農(nóng)業(yè)書籍與圖譜[5-6]中的相關(guān)枸杞蟲害圖片。
在構(gòu)建數(shù)據(jù)集的文本數(shù)據(jù)時(shí),團(tuán)隊(duì)通過翻閱相關(guān)書籍、網(wǎng)絡(luò)檢索以及專家描述對(duì)每類枸杞蟲害的原始圖像分別撰寫包含學(xué)名簡介、來源分布、生活習(xí)性、防治方法等文本描述。
針對(duì)自建枸杞蟲害跨模態(tài)圖文檢索數(shù)據(jù)集學(xué)習(xí)樣本過少,在復(fù)雜網(wǎng)絡(luò)中容易發(fā)生過擬合的問題,本數(shù)據(jù)集在數(shù)據(jù)預(yù)處理過程中采用數(shù)據(jù)增廣技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行擴(kuò)充。數(shù)據(jù)增廣后可以使數(shù)據(jù)集更具多樣性,從而減少在復(fù)雜網(wǎng)絡(luò)訓(xùn)練中產(chǎn)生過擬合的可能性,提高模型泛化能力。
對(duì)圖像數(shù)據(jù)進(jìn)行增廣處理主要通過對(duì)原始圖像進(jìn)行垂直翻轉(zhuǎn)、隨機(jī)調(diào)整亮度、隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)得到4類增強(qiáng)圖像數(shù)據(jù)共計(jì)7596張,部分圖像擴(kuò)增前后對(duì)比如圖1所示。
圖1 枸杞蟲害圖像數(shù)據(jù)增廣操作Figure 1 Data augmentation of a wolfberry pest image
采用文本分類任務(wù)的簡單數(shù)據(jù)增強(qiáng)(Easy Data Augmentation for Text Classification Task,EDA)方法對(duì)原始數(shù)據(jù)集中的每一個(gè)文本描述分別進(jìn)行隨機(jī)插入、同義詞替換、隨機(jī)刪除以及隨機(jī)交換得到4類增強(qiáng)文本數(shù)據(jù)共計(jì)7596條,部分文本增強(qiáng)結(jié)果如圖2所示。
圖2 枸杞蟲害文本數(shù)據(jù)增強(qiáng)操作Figure 2 Text data augmentation of wolfberry pests
將預(yù)處理后的枸杞蟲害數(shù)據(jù),按照蟲害類別進(jìn)行區(qū)分,首先給17類枸杞蟲害分配類別標(biāo)簽,標(biāo)簽0為尺蠖,1為大青葉蟬,以此類推標(biāo)簽16為蛀果蛾;最后以Wikipedia數(shù)據(jù)集[7]結(jié)構(gòu)為基準(zhǔn),構(gòu)建枸杞蟲害圖像-文本對(duì)列表形成以蟲害類別為判別標(biāo)準(zhǔn)的多個(gè)圖像數(shù)據(jù)子集。部分圖文對(duì)應(yīng)如圖3所示。
圖3 自建枸杞蟲害數(shù)據(jù)集部分類別圖像及對(duì)應(yīng)文本示例Figure 3 The image categories and text samples from the dataset
為確保數(shù)據(jù)的一致性在采集時(shí)統(tǒng)一收錄高質(zhì)量JPG格式圖像,圖像數(shù)據(jù)包含增廣與原始數(shù)據(jù),其中原始數(shù)據(jù)在路徑為“gouqi aw_data aw_img”文件中,共包含1900張JPG文件。增廣后的圖像按類別存放在“gouqiimg_reinforcedsplit_img”文件夾中,其中有990張尺蠖圖像、1005張大青葉蟬圖像、540張枸杞負(fù)泥蟲圖像、600張黑圓角蟬圖像、860張枸杞紅長蝽等17類常見枸杞蟲害圖像共計(jì)9496張,平均每類約為558張。文件夾中每張圖像命名方式為“蟲害名_流水號(hào).jpg”。部分圖像數(shù)據(jù)
圖4 部分圖片數(shù)據(jù)樣本Figure 4 Image data samples
本數(shù)據(jù)集文本數(shù)據(jù)主要來源為相關(guān)書籍翻閱、專家撰寫等,在得到文本數(shù)據(jù)后建立以蟲害類別為判別標(biāo)準(zhǔn)的多個(gè)文本數(shù)據(jù)子集。文本數(shù)據(jù)包含增廣與原始數(shù)據(jù),其中包含與圖像一一對(duì)應(yīng)的1900條中文原始數(shù)據(jù)與 1900條英文原始數(shù)據(jù),分別在路徑為“raw_data aw_textChineseText”,“raw_data aw_textEnglishText”的文件中。在對(duì)原始英文文本進(jìn)行隨機(jī)同義詞替換、隨機(jī)同義詞插入、隨機(jī)單詞交換以及隨機(jī)單詞刪除操作獲得增強(qiáng)數(shù)據(jù)共 7596條與原始數(shù)據(jù)共同存在路徑為“gouqi ext_reinforcedsplit_text”文件中,共計(jì)9496條文本數(shù)據(jù)。為與圖像數(shù)據(jù)形成數(shù)據(jù)對(duì),文本數(shù)據(jù)命名方式為“蟲害名_流水號(hào).txt”。表1對(duì)數(shù)據(jù)集的詳細(xì)信息進(jìn)行列舉,包括每類蟲害圖文數(shù)據(jù)對(duì)、蟲害對(duì)應(yīng)文件夾名稱及圖文數(shù)據(jù)量。
表1 數(shù)據(jù)集詳細(xì)信息列舉Table 1 A list of dataset details
蟲害名文件夾名數(shù)據(jù)量圖文數(shù)據(jù)對(duì)示例蟲害名文件夾名數(shù)據(jù)量圖文數(shù)據(jù)對(duì)示例負(fù)泥蟲funichong圖:540,文:540木虱mushi圖:390,文:390黑盲蝽heimangchun圖:310,文:310實(shí)蠅shiying圖:296文:296黑圓角蟬heiyuanjiaochan圖:600,文:600小地老虎xiaodilaohu圖:250,文:250紅斑蕪菁hongbanyuanjin圖:300,文:300蚜蟲yachong圖:300,文:300紅長蝽hongchangchun圖:860,文:860印度谷螟yinduguming圖:350文:350紅緣天牛hongyuantianniu圖:795,文:795蛀果蛾zhuguoe圖:625,文:625黃斑大蚊huangbandawen圖:545,文:545 images/BZ_153_724_466_937_671.png images/BZ_153_722_464_1245_709.pngimages/BZ_153_1649_477_1830_659.png images/BZ_153_1647_476_2145_697.pngimages/BZ_153_723_732_945_905.png images/BZ_153_721_730_1245_938.pngimages/BZ_153_1644_737_1819_901.png images/BZ_153_1642_717_2150_951.pngimages/BZ_153_722_977_939_1159.png images/BZ_153_721_972_1244_1200.pngimages/BZ_153_1647_962_1816_1172.png images/BZ_153_1646_960_2144_1212.pngimages/BZ_153_722_1232_902_1409.png images/BZ_153_721_1221_1245_1442.pngimages/BZ_153_1644_1227_1824_1408.png images/BZ_153_1642_1225_2150_1436.pngimages/BZ_153_722_1460_913_1592.png images/BZ_153_721_1458_1245_1624.pngimages/BZ_153_1647_1453_1822_1592.png images/BZ_153_1646_1451_2144_1634.pngimages/BZ_153_723_1676_937_1841.png images/BZ_153_722_1658_1245_1885.pngimages/BZ_153_1647_1654_1822_1849.png images/BZ_153_1646_1643_2144_1899.pngimages/BZ_153_723_1910_926_2033.png images/BZ_153_722_1908_1245_2062.png
為確保數(shù)據(jù)質(zhì)量,本數(shù)據(jù)集在圖片采集時(shí)嚴(yán)格把控,力爭(zhēng)圖片來源可靠。在圖片采集中以人工實(shí)地拍攝照片與利用儀器掃描相關(guān)書籍圖片兩種方式所得到的枸杞蟲害圖片完全能夠保障分類準(zhǔn)確。在利用網(wǎng)絡(luò)爬蟲技術(shù)獲取枸杞蟲害圖像數(shù)據(jù)過程中,獲取圖片后與專家進(jìn)行人工篩選,剔除錯(cuò)誤分類的文件,確保了本數(shù)據(jù)集在建立過程中蟲害圖像數(shù)據(jù)來源的質(zhì)量和可靠性。
對(duì)于文本數(shù)據(jù)的質(zhì)量,首先在其來源上進(jìn)行了控制,使文本來于專業(yè)的書籍與網(wǎng)站。再將查閱與搜索到的中文文本數(shù)據(jù)在專業(yè)英語人員的幫助下人工翻譯成英文文本,然后在專家的指導(dǎo)下對(duì)每類蟲害的文本進(jìn)行進(jìn)一步的修改,進(jìn)而確保文本數(shù)據(jù)與其配對(duì)的圖像的準(zhǔn)確性與可靠性。
數(shù)據(jù)評(píng)估主要方法為使用如下3種成熟的跨模態(tài)檢索算法在本數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):典型相關(guān)分析[8](Canonic Correlation Analysis,CCA)、通信自動(dòng)編碼器[9](Correspondence AutoEncoder,Corr-AE)、特定模態(tài)的跨模態(tài)相似度測(cè)量[10](Modality-specific Cross-modal Similarity Measurement,MCSM)。實(shí)驗(yàn)將數(shù)據(jù)集劃分成比例為8:2的訓(xùn)練集與測(cè)試集,實(shí)驗(yàn)結(jié)果見表2。在使用方法一樣的情況下,與公認(rèn)最為優(yōu)秀的有標(biāo)簽公共數(shù)據(jù)集的Wikipedia數(shù)據(jù)集進(jìn)行對(duì)比,Wikipedia數(shù)據(jù)集實(shí)驗(yàn)結(jié)果見表3。
表2 自建數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experiment results from the self-created Wikipedia
表3 Wikipedia數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 3 Experiment results from the Wikipedia
其中表2實(shí)驗(yàn)數(shù)據(jù)來源于本實(shí)驗(yàn)室實(shí)驗(yàn)結(jié)果,表3實(shí)驗(yàn)數(shù)據(jù)來源于論文《基于關(guān)聯(lián)約束的對(duì)抗跨模態(tài)檢索方法》[11]。
通過對(duì)比可知在某些方法上在本數(shù)據(jù)集上檢索性能優(yōu)于 Wikipedia數(shù)據(jù)集,在另外方法上差距較小,可見本數(shù)據(jù)集在與Wikipedia數(shù)據(jù)集對(duì)比之下也具有一定的優(yōu)勢(shì),因此在定量評(píng)估下也展現(xiàn)出了在本數(shù)據(jù)集在建立時(shí)充分保障了數(shù)據(jù)的質(zhì)量。
本數(shù)據(jù)集與現(xiàn)有農(nóng)業(yè)蟲害數(shù)據(jù)集相比不僅包含了蟲害圖像,還有與圖像一一對(duì)應(yīng)的文本描述,其不僅能為寧夏枸杞的蟲害防治研究領(lǐng)域提供基礎(chǔ)數(shù)據(jù)資源,同時(shí)也可以彌補(bǔ)國內(nèi)枸杞蟲害數(shù)據(jù)集的空缺。隨著本數(shù)據(jù)集的發(fā)展,今后還將進(jìn)一步建設(shè)并形成全國性的枸杞蟲害跨模態(tài)檢索研究數(shù)據(jù)資源,以便為相關(guān)研究人員提供統(tǒng)一數(shù)據(jù),方便不同算法在同一標(biāo)準(zhǔn)下進(jìn)行比較。本數(shù)據(jù)集不僅能夠促進(jìn)枸杞蟲害跨模態(tài)檢索的發(fā)展,并且能進(jìn)一步對(duì)枸杞蟲害的及時(shí)防治提供幫助。此外,“第十三個(gè)五年規(guī)劃綱要”指出要推動(dòng)信息技術(shù)與農(nóng)業(yè)農(nóng)村全面深度融合,確保農(nóng)業(yè)農(nóng)村信息化發(fā)展取得明顯進(jìn)展。本數(shù)據(jù)集可為寧夏枸杞蟲害防治系統(tǒng)提供研究基礎(chǔ),進(jìn)一步推動(dòng)寧夏地區(qū)農(nóng)業(yè)生產(chǎn)過程信息化。
本數(shù)據(jù)集包含大量圖像與文本描述,可用于圖像分類、跨模態(tài)檢索等研究。在使用時(shí)根據(jù)研究任務(wù)僅選取圖像或使用全部數(shù)據(jù),根據(jù)需要進(jìn)行訓(xùn)練、測(cè)試數(shù)據(jù)劃分。其中原始及增廣后的圖像足以應(yīng)對(duì)小規(guī)模圖像研究,單獨(dú)的文本數(shù)據(jù)不能夠用于自然語言處理研究中,主要原因在于增廣后的文本存在部分單詞的缺失。增廣后的圖文數(shù)據(jù)主要在跨模態(tài)研究中被同時(shí)使用。需要注意的是,本數(shù)據(jù)集圖像來源不一導(dǎo)致尺寸大小不同,因此基于深度學(xué)習(xí)使用本數(shù)據(jù)集時(shí)建議對(duì)圖像進(jìn)行裁剪或填充。本數(shù)據(jù)集建立之初主要應(yīng)用于無監(jiān)督方法,若使用有監(jiān)督方法研究人員需要自主生成標(biāo)簽文件。
致 謝
感謝張炳炎等編著的枸杞蟲害圖譜,百科、藥用植物病蟲害數(shù)據(jù)庫,植保驛站等公開數(shù)據(jù)網(wǎng)站,它們?yōu)楸緮?shù)據(jù)集的建立帶來莫大便利。
中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2022年3期