摘要:隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、云計(jì)算等現(xiàn)代信息技術(shù)與農(nóng)業(yè)領(lǐng)域的深度融合,現(xiàn)代農(nóng)業(yè)正朝著智能化方向邁進(jìn). 知識(shí)工程在整合、管理、挖掘和利用農(nóng)業(yè)知識(shí)方面發(fā)揮了至關(guān)重要的作用,為實(shí)現(xiàn)個(gè)性化、精準(zhǔn)化的農(nóng)業(yè)認(rèn)知智能服務(wù)提供了強(qiáng)有力的技術(shù)支持. 探討了當(dāng)前農(nóng)業(yè)知識(shí)工程及認(rèn)知智能服務(wù)面臨的主要挑戰(zhàn),綜述了國內(nèi)外農(nóng)業(yè)認(rèn)知智能服務(wù)領(lǐng)域的研究現(xiàn)狀,提出了集成數(shù)據(jù)層、算法層和認(rèn)知服務(wù)層的基礎(chǔ)研究框架. 在此基礎(chǔ)上,創(chuàng)新性地設(shè)計(jì)了基于主動(dòng)元學(xué)習(xí)思想,通過軟件智能體與科學(xué)大數(shù)據(jù)雙向偶聯(lián)自指循環(huán)方式完成農(nóng)業(yè)大數(shù)據(jù)整合和知識(shí)建模、知識(shí)抽取、知識(shí)融合以及知識(shí)推理的農(nóng)業(yè)認(rèn)知智能服務(wù)構(gòu)建框架,梳理了各環(huán)節(jié)涉及的關(guān)鍵技術(shù)和服務(wù)應(yīng)用. 最后,對(duì)農(nóng)業(yè)認(rèn)知智能服務(wù)領(lǐng)域的未來發(fā)展趨勢(shì)和對(duì)策建議進(jìn)行總結(jié)與展望.
關(guān)鍵詞:知識(shí)工程,認(rèn)知智能服務(wù),現(xiàn)代農(nóng)業(yè),主動(dòng)元學(xué)習(xí),軟件智能體,農(nóng)業(yè)大數(shù)據(jù)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A
中國工程院在《中國電子信息工程科技發(fā)展十三大挑戰(zhàn)(2022)》[1]中指出,實(shí)現(xiàn)系統(tǒng)間數(shù)據(jù)、信息、知識(shí)的互聯(lián)互通將越來越重要. 趙春江[2]針對(duì)智慧農(nóng)業(yè)的發(fā)展問題,強(qiáng)調(diào)了農(nóng)業(yè)知識(shí)圖譜構(gòu)建和農(nóng)業(yè)大數(shù)據(jù)云服務(wù)等關(guān)鍵核心技術(shù)的重要性. 基于人工智能技術(shù)的認(rèn)知智能服務(wù)旨在通過模擬和擴(kuò)展人類的感知、理解和推理能力,完成大規(guī)模復(fù)雜信息的處理和應(yīng)用任務(wù). 目前,現(xiàn)代農(nóng)業(yè)正通過大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等信息技術(shù)與農(nóng)業(yè)的深度融合,向智能化方向邁進(jìn). 在發(fā)展進(jìn)程中,認(rèn)知智能服務(wù)起著關(guān)鍵作用,它幫助整合、管理和利用農(nóng)業(yè)數(shù)據(jù),并完成農(nóng)業(yè)知識(shí)的挖掘和應(yīng)用,為實(shí)現(xiàn)個(gè)性化、精準(zhǔn)化的農(nóng)業(yè)智能服務(wù)提供技術(shù)支撐.
盡管認(rèn)知智能服務(wù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用已經(jīng)取得突出進(jìn)展,但仍面臨以下挑戰(zhàn).
(1)農(nóng)業(yè)大數(shù)據(jù)整合難. 隨著多傳感器、物聯(lián)網(wǎng)技術(shù)的發(fā)展,農(nóng)業(yè)數(shù)據(jù)的獲取變得更加全面和多樣化. 然而,這些數(shù)據(jù)往往以不同的格式和標(biāo)準(zhǔn)進(jìn)行存儲(chǔ),導(dǎo)致農(nóng)業(yè)大數(shù)據(jù)呈現(xiàn)多模態(tài)和不一致的特性. 此外,農(nóng)業(yè)數(shù)據(jù)涉及多個(gè)數(shù)據(jù)持有者和機(jī)構(gòu),這些農(nóng)業(yè)數(shù)據(jù)庫通常只關(guān)注某個(gè)農(nóng)業(yè)任務(wù)或領(lǐng)域問題,忽略了數(shù)據(jù)之間的互聯(lián)互通,進(jìn)一步導(dǎo)致了“數(shù)據(jù)孤島”現(xiàn)象,使許多極其有價(jià)值的領(lǐng)域知識(shí)難以被挖掘和應(yīng)用. 因此,應(yīng)用有效的數(shù)據(jù)和知識(shí)整合技術(shù)成為實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域知識(shí)共享、互通的重要解決方法,能為農(nóng)業(yè)智能認(rèn)知服務(wù)提供更加全面可靠的數(shù)據(jù)基礎(chǔ)和知識(shí)支撐.
(2)農(nóng)業(yè)知識(shí)抽取難. 農(nóng)業(yè)大數(shù)據(jù)具有多模態(tài)、時(shí)空性和因果性的特點(diǎn),為農(nóng)業(yè)知識(shí)抽取、管理和查詢帶來了一系列挑戰(zhàn). 海量的文本、圖像和結(jié)構(gòu)化的多模態(tài)農(nóng)業(yè)數(shù)據(jù)增加了知識(shí)抽取的復(fù)雜性和難度,進(jìn)一步影響了知識(shí)抽取精度. 此外,農(nóng)業(yè)時(shí)空數(shù)據(jù)管理涉及大量時(shí)間序列數(shù)據(jù)和地理空間數(shù)據(jù)的存儲(chǔ)、索引和查詢操作,時(shí)間序列數(shù)據(jù)的連續(xù)性和空間數(shù)據(jù)的復(fù)雜性使得高效地管理大規(guī)模的農(nóng)業(yè)時(shí)空數(shù)據(jù)變得困難. 作為農(nóng)業(yè)知識(shí)決策的重要組成部分,基于因果關(guān)系的查詢和分析任務(wù)面臨復(fù)雜數(shù)據(jù)關(guān)聯(lián)和計(jì)算的難題. 因此,開發(fā)適應(yīng)不同數(shù)據(jù)類型的知識(shí)抽取和管理方法,從多模態(tài)農(nóng)業(yè)數(shù)據(jù)中提取有價(jià)值的農(nóng)業(yè)知識(shí),并有效地提高農(nóng)業(yè)知識(shí)的應(yīng)用效率和決策支持能力成為當(dāng)前亟待解決的問題.
(3)農(nóng)業(yè)知識(shí)決策服務(wù)少. 在現(xiàn)代農(nóng)業(yè)向智慧農(nóng)業(yè)轉(zhuǎn)型的背景下,從主觀的經(jīng)驗(yàn)判斷向智能化、精準(zhǔn)化決策過渡是一個(gè)至關(guān)重要的研究方向. 中國農(nóng)業(yè)生產(chǎn)受多方面因素的影響,包括種植條件、種植品種、農(nóng)藝發(fā)展以及生理生化機(jī)理等,由于這些因素的復(fù)雜性,準(zhǔn)確地為農(nóng)業(yè)生產(chǎn)作出決策指導(dǎo)相對(duì)困難. 因此,構(gòu)建有機(jī)統(tǒng)一的農(nóng)業(yè)知識(shí)決策服務(wù)體系,完成全生命周期農(nóng)業(yè)生產(chǎn)數(shù)據(jù)的收集、整合和分析,農(nóng)業(yè)知識(shí)決策服務(wù)的設(shè)計(jì)、開發(fā)和應(yīng)用,確保農(nóng)業(yè)數(shù)據(jù)和知識(shí)的完整性、一致性和可靠性,成為推動(dòng)農(nóng)業(yè)生產(chǎn)向智能化、高效化和可持續(xù)化方向發(fā)展的關(guān)鍵.
為了解決上述問題與挑戰(zhàn),提出一個(gè)集數(shù)據(jù)層、算法層和認(rèn)知服務(wù)層的基礎(chǔ)研究框架,為后續(xù)農(nóng)業(yè)認(rèn)知智能服務(wù)的研究提供新思路,并在此基礎(chǔ)上,設(shè)計(jì)構(gòu)建了基于主動(dòng)元學(xué)習(xí)的農(nóng)業(yè)認(rèn)知智能服務(wù)方法框架,包括農(nóng)業(yè)數(shù)據(jù)整合與知識(shí)建模、農(nóng)業(yè)知識(shí)抽取、農(nóng)業(yè)知識(shí)融合以及農(nóng)業(yè)知識(shí)推理與服務(wù)等關(guān)鍵技術(shù),旨在實(shí)現(xiàn)農(nóng)業(yè)的智能化和可持續(xù)化發(fā)展.
1 農(nóng)業(yè)認(rèn)知智能服務(wù)相關(guān)工作
1. 1 農(nóng)業(yè)數(shù)據(jù)整合 澳大利亞莫納什大學(xué)針對(duì)科學(xué)數(shù)據(jù)的管理提出三個(gè)挑戰(zhàn):如何管理異質(zhì)異構(gòu)的多源數(shù)據(jù)、如何為元數(shù)據(jù)提供上下文支持以及如何適應(yīng)不斷發(fā)展和演變的數(shù)據(jù)與知識(shí)[3]. 現(xiàn)階段的農(nóng)業(yè)資源可分為兩類:一類是經(jīng)專家和學(xué)者整合后,以概念、實(shí)體為主的靜態(tài)資源;另一類是涉及動(dòng)態(tài)變化和資源間交互協(xié)作的動(dòng)態(tài)資源.對(duì)于靜態(tài)農(nóng)業(yè)資源,可通過構(gòu)建符合ISO/IEC11179 元數(shù)據(jù)注冊(cè)系列標(biāo)準(zhǔn)[4]的元模型進(jìn)行注冊(cè)和管理. 對(duì)于動(dòng)態(tài)農(nóng)業(yè)資源,可通過構(gòu)建語義更加豐富的本體結(jié)合ISO/IEC 19763[5]元模型互操作性框架進(jìn)行有效地注冊(cè)和管理.
農(nóng)業(yè)生物數(shù)據(jù)庫在現(xiàn)代農(nóng)業(yè)研究中扮演著至關(guān)重要的角色,它的建立和應(yīng)用是整合、存儲(chǔ)海量數(shù)據(jù)不可或缺的工具. 油菜是我國具有重要經(jīng)濟(jì)價(jià)值的油料作物,為了解決油菜作物組學(xué)數(shù)據(jù)整合問題,華中農(nóng)業(yè)大學(xué)構(gòu)建了甘藍(lán)型油菜泛基因組數(shù)據(jù)庫BnPIR[6]、油菜轉(zhuǎn)錄信息資源數(shù)據(jù)庫BnTIR[7]、甘藍(lán)型油菜變異信息資源數(shù)據(jù)庫BnVIR[8]以及油菜多組學(xué)數(shù)據(jù)庫BnIR[9]等系列數(shù)據(jù)庫,為油菜組學(xué)數(shù)據(jù)分析提供了系統(tǒng)、完整的平臺(tái). 棉花是天然纖維作物和重要戰(zhàn)略物資,關(guān)乎國計(jì)民生. 國內(nèi)多所院校構(gòu)建了CottonMD[10],COTTONOMICS[11]等多個(gè)棉花組學(xué)大數(shù)據(jù)平臺(tái). 現(xiàn)有的棉花大數(shù)據(jù)庫集多組學(xué)數(shù)據(jù)分析模塊和在線生物學(xué)工具于一體,提供了多種搜索模式,為研究人員提供重要的研究參考. 豬、牛、羊和雞等畜牧類動(dòng)物在全球農(nóng)業(yè)中扮演著不可替代的重要角色,目前建立了一系列知識(shí)庫來支持農(nóng)業(yè)相關(guān)研究,包括跨物種多組學(xué)知識(shí)庫IAnimal[12]、反芻動(dòng)物基因組數(shù)據(jù)庫RGD[13]、動(dòng)物變異數(shù)據(jù)庫(BGVD[14],GGVD[15],Galbase[16])和動(dòng)物泛基因組數(shù)據(jù)庫(PIGPAN[17],GOATPAN[18])等,提升了組學(xué)大數(shù)據(jù)的復(fù)用性,為大數(shù)據(jù)驅(qū)動(dòng)的動(dòng)物智能育種奠定了基礎(chǔ).
1. 2 農(nóng)業(yè)知識(shí)整合 隨著異質(zhì)異構(gòu)農(nóng)業(yè)數(shù)據(jù)的激增,迫切需要將農(nóng)業(yè)信息資源轉(zhuǎn)化為知識(shí),并抽取內(nèi)涵豐富的語義信息,以反哺產(chǎn)業(yè)任務(wù),支持農(nóng)業(yè)應(yīng)用場(chǎng)景下的精準(zhǔn)決策任務(wù).
語義技術(shù)支持Web 上的數(shù)據(jù)和知識(shí)交互. 本體語言如OWL,RDF Schema 等,具有豐富的概念內(nèi)涵和外延表現(xiàn),同時(shí)也具備嚴(yán)格邏輯定義的語義語法[18],這些特質(zhì)使其成為理想的概念模型,為構(gòu)建靈活的農(nóng)業(yè)知識(shí)數(shù)據(jù)管理系統(tǒng)[3]提供了基礎(chǔ),有助于更好地理解多源異構(gòu)農(nóng)業(yè)數(shù)據(jù)信息之間的互聯(lián)性和實(shí)用性. 本體技術(shù)可用于農(nóng)業(yè)領(lǐng)域多源異構(gòu)的大數(shù)據(jù)管理與維護(hù),解決復(fù)雜域的建模與知識(shí)整合問題. 在該理論基礎(chǔ)的指導(dǎo)下,瓦赫寧根大學(xué)構(gòu)建了面向馬鈴薯生產(chǎn)環(huán)境的馬鈴薯本體,用于馬鈴薯產(chǎn)業(yè)的自動(dòng)化決策支持系統(tǒng)和數(shù)據(jù)交換任務(wù)[19]. 加拿大阿爾伯塔大學(xué)構(gòu)建了描述魚菜共生系統(tǒng)的本體模型,以支持魚菜共生農(nóng)場(chǎng)的生產(chǎn)設(shè)施布局和系統(tǒng)設(shè)計(jì)[20]. AGROVOC[21]是結(jié)構(gòu)化的多語種農(nóng)業(yè)詞庫,涵蓋了作物育種、林業(yè)多個(gè)農(nóng)業(yè)強(qiáng)相關(guān)領(lǐng)域. 法國國家農(nóng)業(yè)食品與環(huán)境研究院基于農(nóng)作物和微生物本體,建立了微生物細(xì)菌和宿主關(guān)系專屬語料庫,實(shí)現(xiàn)了從非結(jié)構(gòu)化科學(xué)文獻(xiàn)中抽取數(shù)據(jù)的任務(wù)[22]. 西南大學(xué)為柑橘種植構(gòu)建了一個(gè)柑橘栽培本體,并結(jié)合貝葉斯網(wǎng)絡(luò)做了擴(kuò)展,根據(jù)柑橘疾病癥狀進(jìn)行分類,實(shí)現(xiàn)了不同條件下的施肥決策[23]. 宗南蘇等[24]構(gòu)建了農(nóng)業(yè)生產(chǎn)技術(shù)領(lǐng)域的農(nóng)業(yè)生產(chǎn)技術(shù)本體. 中國科學(xué)院智能機(jī)械研究所通過抽取豬生產(chǎn)學(xué)領(lǐng)域的核心概念,構(gòu)建了豬生產(chǎn)學(xué)本體[25].
1. 3 農(nóng)業(yè)知識(shí)服務(wù) 現(xiàn)階段農(nóng)業(yè)領(lǐng)域知識(shí)的碎片化現(xiàn)象嚴(yán)重,缺乏面向農(nóng)業(yè)大數(shù)據(jù)知識(shí)化的語料庫,難以利用“ 知識(shí)賦能”“ 提質(zhì)增效”[26]. 在語義技術(shù)的基礎(chǔ)上,知識(shí)圖譜方法擴(kuò)展了推理與發(fā)現(xiàn)新知識(shí)的能力.
農(nóng)業(yè)知識(shí)圖譜的構(gòu)建及應(yīng)用在國內(nèi)外已經(jīng)引起了廣泛重視. 歐洲波蘭波茲南超級(jí)計(jì)算與網(wǎng)絡(luò)中心實(shí)驗(yàn)室構(gòu)建了FOODIE 農(nóng)業(yè)知識(shí)圖譜[27],美國Bayer Corporation 提出了多源知識(shí)圖譜[28].Hassani ? Pak et al[29]設(shè)計(jì)的基因網(wǎng)絡(luò)平臺(tái)Knet?Miner 整合了大量的農(nóng)業(yè)原始數(shù)據(jù)集和文獻(xiàn)數(shù)據(jù),將查詢信息以知識(shí)子圖的形式進(jìn)行可視化展示. 法國蒙彼利埃大學(xué)研制的農(nóng)業(yè)知識(shí)圖譜AgroLD 大數(shù)據(jù)管理平臺(tái)利用GO 和PO 等作物本體整合了多個(gè)公共數(shù)據(jù)庫中的數(shù)據(jù)[30]. 國內(nèi)北京農(nóng)業(yè)信息技術(shù)研究中心牽頭研制了全息知識(shí)圖譜庫[31]. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所構(gòu)建了農(nóng)作物病蟲害和水稻知識(shí)圖譜[32]. 南京農(nóng)業(yè)大學(xué)提出了一個(gè)基于知識(shí)圖譜和案例推理的水稻精準(zhǔn)施肥模型,其使用案例推理技術(shù)對(duì)傳統(tǒng)的知識(shí)圖譜推薦方法進(jìn)行補(bǔ)充,為農(nóng)藝事件提供了較為完整的施肥方案[33].
2 農(nóng)業(yè)認(rèn)知智能服務(wù)構(gòu)建框架及創(chuàng)新性解決方法
2. 1 農(nóng)業(yè)認(rèn)知智能服務(wù)研究框架 本文基于農(nóng)業(yè)數(shù)據(jù)的全生命周期,提出一個(gè)集成數(shù)據(jù)層、算法層和認(rèn)知服務(wù)層的農(nóng)業(yè)認(rèn)知智能服務(wù)基礎(chǔ)研究框架,以推動(dòng)農(nóng)業(yè)領(lǐng)域的知識(shí)管理和智能化決策支持服務(wù)的發(fā)展,如圖1 所示.
數(shù)據(jù)驅(qū)動(dòng)是現(xiàn)代農(nóng)業(yè)的重要趨勢(shì)和特征,其通過全面分析和利用數(shù)據(jù)來幫助農(nóng)業(yè)從業(yè)者作出更明智的決策和管理. 數(shù)據(jù)層作為數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)架構(gòu),在農(nóng)業(yè)的數(shù)字化轉(zhuǎn)型和智能化發(fā)展中發(fā)揮關(guān)鍵作用. 數(shù)據(jù)層涵蓋了來自農(nóng)業(yè)信息采集系統(tǒng)的農(nóng)業(yè)多源異構(gòu)數(shù)據(jù),包括傳感器數(shù)據(jù)、遙感數(shù)據(jù)、氣象數(shù)據(jù)等. 這些數(shù)據(jù)具有多模態(tài)的特性,以結(jié)構(gòu)化數(shù)據(jù)、文本、圖像等多媒體形式呈現(xiàn),并且蘊(yùn)含了豐富的農(nóng)業(yè)領(lǐng)域知識(shí),為農(nóng)業(yè)知識(shí)的整合和應(yīng)用服務(wù)提供強(qiáng)有力的數(shù)據(jù)支撐.
算法層旨在綜合運(yùn)用知識(shí)建模、知識(shí)抽取、知識(shí)融合和知識(shí)推理等關(guān)鍵技術(shù)和算法來構(gòu)建和組織農(nóng)業(yè)知識(shí)體系,從而為多場(chǎng)景的農(nóng)業(yè)智能決策服務(wù)提供全面可靠的知識(shí)支撐. 具體地,首先通過構(gòu)建農(nóng)業(yè)相關(guān)領(lǐng)域本體系統(tǒng)化地組織和表示農(nóng)業(yè)數(shù)據(jù)相關(guān)的概念、屬性及關(guān)系,并建立層次結(jié)構(gòu)和約束. 在此基礎(chǔ)上,基于預(yù)先構(gòu)建的農(nóng)業(yè)本體模型,利用自然語言處理技術(shù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,從文本、結(jié)構(gòu)化數(shù)據(jù)源等多模態(tài)農(nóng)業(yè)數(shù)據(jù)中,通過實(shí)體識(shí)別、關(guān)系識(shí)別、語義建模等操作抽取領(lǐng)域知識(shí),以便在知識(shí)圖譜中準(zhǔn)確地表示. 為了解決不同知識(shí)源之間的沖突、重疊或不一致性問題,通過采用實(shí)體消歧、關(guān)系合并等技術(shù),將知識(shí)整合到更完整、一致和準(zhǔn)確的知識(shí)圖譜中,以支持更全面的知識(shí)表示和應(yīng)用. 進(jìn)一步地,根據(jù)知識(shí)圖譜中定義的規(guī)則和關(guān)系可以推導(dǎo)出新的知識(shí)、關(guān)聯(lián)或結(jié)論,以擴(kuò)展和豐富知識(shí)圖譜,發(fā)現(xiàn)隱藏的模式,從而支持更高層次的知識(shí)發(fā)現(xiàn)和智能決策服務(wù).
認(rèn)知服務(wù)層利用知識(shí)圖譜提供的結(jié)構(gòu)化和語義化的農(nóng)業(yè)數(shù)據(jù)和領(lǐng)域知識(shí),應(yīng)用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)對(duì)農(nóng)業(yè)數(shù)據(jù)深入分析和推理,為用戶提供針對(duì)性的功能和智能決策支持,如畜情精準(zhǔn)決策、農(nóng)業(yè)功能微生物精準(zhǔn)預(yù)測(cè)等服務(wù),幫助農(nóng)業(yè)從業(yè)者實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)的智能化、高效化和可持續(xù)發(fā)展.
2. 2 基于主動(dòng)元學(xué)習(xí)的農(nóng)業(yè)認(rèn)知智能服務(wù)構(gòu)建框架 針對(duì)獲取的大量農(nóng)業(yè)多模態(tài)數(shù)據(jù),本文在集數(shù)據(jù)層、算法層和認(rèn)知服務(wù)層的研究框架基礎(chǔ)上,基于主動(dòng)元學(xué)習(xí)理論指導(dǎo),以軟件智能體與科學(xué)大數(shù)據(jù)雙向偶聯(lián)自指循環(huán)的方式完成對(duì)農(nóng)業(yè)大數(shù)據(jù)的知識(shí)建模、知識(shí)抽取、知識(shí)融合和知識(shí)推理,進(jìn)而構(gòu)建農(nóng)業(yè)知識(shí)圖譜,如圖2 所示. 由此實(shí)現(xiàn)對(duì)農(nóng)業(yè)數(shù)據(jù)更加全面、準(zhǔn)確地分析和知識(shí)挖掘.
此方法框架主要由農(nóng)業(yè)數(shù)據(jù)整合分系統(tǒng)(Agricultural Data Integration Subsystem,記為DI)、強(qiáng)化學(xué)習(xí)智能提問分系統(tǒng)(ReinforcementLearning Intelligent Questioning Subsystem,記為QG)、智能問答分系統(tǒng)(Intelligent QA Subsystem,記為QA)、知識(shí)圖譜更新分系統(tǒng)(KnowledgeGraph Updating Subsystem,記為KGU)和知識(shí)服務(wù)分系統(tǒng)(Knowledge Service Subsystem,記為IS)五個(gè)主要組件組成. 其中,DI 分系統(tǒng)旨在實(shí)現(xiàn)對(duì)多源異構(gòu)農(nóng)業(yè)數(shù)據(jù)的清洗、轉(zhuǎn)換、匹配和數(shù)據(jù)存儲(chǔ)目標(biāo),通過結(jié)合基于MDR( Metadata Registry)與MFI (Metamodel Framework for Interoperability)的混合架構(gòu),進(jìn)一步強(qiáng)化數(shù)據(jù)治理中的語義互操作性. KGU 分系統(tǒng)承擔(dān)知識(shí)建模的任務(wù),其通過抽象表示經(jīng)過DI 分系統(tǒng)處理后的數(shù)據(jù)中的實(shí)體、關(guān)系和屬性,實(shí)現(xiàn)從數(shù)據(jù)到知識(shí)的轉(zhuǎn)化目標(biāo),為后續(xù)的知識(shí)推理提供知識(shí)基礎(chǔ). 此外,KGU 分系統(tǒng)還利用農(nóng)業(yè)領(lǐng)域問答進(jìn)行知識(shí)抽取和知識(shí)融合,以初步構(gòu)建農(nóng)業(yè)知識(shí)圖譜. 在該過程中,QG 分系統(tǒng)利用獎(jiǎng)勵(lì)機(jī)制進(jìn)行持續(xù)學(xué)習(xí),以主動(dòng)提出與農(nóng)業(yè)數(shù)據(jù)信息相關(guān)的問題,引導(dǎo)系統(tǒng)更深入地分析特定領(lǐng)域的數(shù)據(jù). QA 分系統(tǒng)根據(jù)QG 分系統(tǒng)生成的問題,利用自然語言處理技術(shù),從輸入的農(nóng)業(yè)信息中檢索并生成相應(yīng)的答案,將計(jì)算機(jī)理解的知識(shí)轉(zhuǎn)化為用戶友好的自然語言響應(yīng),以滿足用戶的查詢需求. 最后,知識(shí)推理模塊在IS 分系統(tǒng)中利用現(xiàn)有的事實(shí)和關(guān)系推導(dǎo)出未知的農(nóng)業(yè)知識(shí)和結(jié)論,以擴(kuò)展和豐富農(nóng)業(yè)知識(shí)圖譜的應(yīng)用能力,為用戶提供更全面、準(zhǔn)確的知識(shí)服務(wù). 各分系統(tǒng)產(chǎn)生的反饋結(jié)果則作為獎(jiǎng)勵(lì),不斷優(yōu)化QG 分系統(tǒng),進(jìn)一步迭代更新方法框架,以實(shí)現(xiàn)知識(shí)圖譜的有效構(gòu)建、更新和應(yīng)用. 這些分系統(tǒng)協(xié)同工作,為智能農(nóng)業(yè)提供全面的數(shù)據(jù)管理、知識(shí)構(gòu)建、問題生成與回答以及知識(shí)推理的功能支持. 上述組件協(xié)同工作,以實(shí)現(xiàn)農(nóng)業(yè)知識(shí)工程的五個(gè)關(guān)鍵任務(wù):農(nóng)業(yè)數(shù)據(jù)整合、農(nóng)業(yè)知識(shí)建模、農(nóng)業(yè)知識(shí)抽取、農(nóng)業(yè)知識(shí)融合和農(nóng)業(yè)知識(shí)推理.
2. 2. 1 農(nóng)業(yè)數(shù)據(jù)整合與知識(shí)建模 農(nóng)業(yè)數(shù)據(jù)整合是一個(gè)通過收集、組織和標(biāo)準(zhǔn)化不同數(shù)據(jù)源和格式的農(nóng)業(yè)數(shù)據(jù),將其整合到統(tǒng)一框架,以便進(jìn)行綜合分析和應(yīng)用的任務(wù).
DI 分系統(tǒng)組件的作用是在此階段對(duì)多源異構(gòu)的農(nóng)業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)匹配和數(shù)據(jù)存儲(chǔ). 該組件采用基于MDR 與MFI 混合式架構(gòu)的共享元數(shù)據(jù)匯聚與融合方法以解決不同子域共享難的問題,進(jìn)而加強(qiáng)對(duì)數(shù)據(jù)治理中語義互操作性的管理. 針對(duì)獲取的異構(gòu)數(shù)據(jù)源,首先基于MDR 的元數(shù)據(jù)規(guī)范,對(duì)農(nóng)業(yè)子域元數(shù)據(jù)進(jìn)行語義層抽取,構(gòu)建共享域元數(shù)據(jù);然后,基于MDR 分別對(duì)共享域元數(shù)據(jù)和子域元數(shù)據(jù)進(jìn)行注冊(cè);最終,在完成基于MDR 的元數(shù)據(jù)注冊(cè)后,建立基于MFI 的共享域元數(shù)據(jù)注冊(cè)表到子域元數(shù)據(jù)注冊(cè)表的映射注冊(cè),在元級(jí)上保證信息資源語法、語義和上下文層上的互操作性,以進(jìn)一步實(shí)現(xiàn)農(nóng)業(yè)領(lǐng)域不同子域間數(shù)據(jù)共享的目標(biāo)[34].
農(nóng)業(yè)知識(shí)建模即農(nóng)業(yè)本體知識(shí)建模,旨在通過定義概念、屬性和關(guān)系構(gòu)建農(nóng)業(yè)本體模型,為農(nóng)業(yè)領(lǐng)域知識(shí)和概念提供一個(gè)系統(tǒng)、規(guī)范、標(biāo)準(zhǔn)的組織方式[35]. 農(nóng)業(yè)本體模型是通過運(yùn)用農(nóng)業(yè)科學(xué)敘詞表、農(nóng)業(yè)專業(yè)詞典等農(nóng)業(yè)知識(shí)組織體系,并輔以人工參與構(gòu)建的[36]. 農(nóng)業(yè)本體模型在DI 分系統(tǒng)組件中發(fā)揮關(guān)鍵作用,用于輔助系統(tǒng)理解和處理不同數(shù)據(jù)源中的冗余信息. 此外,通過將農(nóng)業(yè)本體模型作為元數(shù)據(jù)注冊(cè)的分類模板和樣本,建立領(lǐng)域內(nèi)本體模型和共享域元數(shù)據(jù)的映射,使得在MDR 和MFI 混合架構(gòu)下的數(shù)據(jù)能更好地被組織、管理.
在完成農(nóng)業(yè)數(shù)據(jù)整合后,進(jìn)一步通過KGU分系統(tǒng)中的知識(shí)建模模塊實(shí)現(xiàn)對(duì)數(shù)據(jù)中實(shí)體、關(guān)系和屬性的抽象表示,以提供一種計(jì)算機(jī)可理解和處理的方式組織和管理農(nóng)業(yè)領(lǐng)域知識(shí). 但傳統(tǒng)的農(nóng)業(yè)本體構(gòu)建通常僅從特定的領(lǐng)域或數(shù)據(jù)源中抽取農(nóng)業(yè)本體信息,具有領(lǐng)域局限性. 在跨領(lǐng)域數(shù)據(jù)集成的任務(wù)場(chǎng)景中,基于單一領(lǐng)域抽取得到的農(nóng)業(yè)本體模型無法全面涵蓋農(nóng)業(yè)領(lǐng)域相關(guān)信息,影響跨本體數(shù)據(jù)和知識(shí)的交流與共享,導(dǎo)致數(shù)據(jù)與知識(shí)分布零散.
為了克服上述問題,提出一種面向農(nóng)業(yè)生物大數(shù)據(jù)的公共鏈接本體方法論[37],其核心思想是將特定領(lǐng)域相關(guān)的多個(gè)現(xiàn)有本體整合為統(tǒng)一的公共鏈接本體,以實(shí)現(xiàn)不同領(lǐng)域之間的信息鏈接.本體對(duì)齊通過匹配和映射不同本體之間的概念、屬性和關(guān)系,建立本體之間的關(guān)聯(lián),以實(shí)現(xiàn)跨領(lǐng)域農(nóng)業(yè)數(shù)據(jù)的互操作和集成目標(biāo). 基于語義和結(jié)構(gòu)嵌入的本體對(duì)齊方法,利用Siamese 神經(jīng)網(wǎng)絡(luò)語言模型和圖卷積網(wǎng)絡(luò)[38],從語義和結(jié)構(gòu)兩個(gè)角度更好地捕捉本體之間的語義關(guān)聯(lián)性和結(jié)構(gòu)相似性[39],并進(jìn)一步通過結(jié)合門機(jī)制和相似度計(jì)算對(duì)輸入本體執(zhí)行高效的對(duì)齊操作[40]. 針對(duì)水稻性狀缺乏統(tǒng)一和規(guī)范的描述標(biāo)準(zhǔn)的問題,目前已通過對(duì)齊TO,WTO 和unRiceGene 三個(gè)已有的水稻性狀術(shù)語集,手動(dòng)構(gòu)建了包含2522 個(gè)水稻性狀術(shù)語的水稻性狀本體. 該本體規(guī)范了水稻育種研究中常用的性狀概念術(shù)語,為后續(xù)水稻性狀知識(shí)的自動(dòng)挖掘提供了潛在的可能性.
2. 2. 2 農(nóng)業(yè)知識(shí)抽取 農(nóng)業(yè)知識(shí)抽取的目標(biāo)是利用信息抽取技術(shù),從多源、多模態(tài)的農(nóng)業(yè)大數(shù)據(jù)中識(shí)別和提取相關(guān)實(shí)體、關(guān)系和屬性等知識(shí),以構(gòu)建生成大規(guī)模的農(nóng)業(yè)知識(shí)圖譜. 在農(nóng)業(yè)領(lǐng)域研究背景下,知識(shí)抽取任務(wù)往往面臨知識(shí)庫構(gòu)建成本高和低資源場(chǎng)景下知識(shí)獲取難兩個(gè)主要挑戰(zhàn).
結(jié)構(gòu)化實(shí)驗(yàn)數(shù)據(jù)和文獻(xiàn)數(shù)據(jù)被視為當(dāng)前農(nóng)業(yè)領(lǐng)域知識(shí)的主要來源. 為此,針對(duì)結(jié)構(gòu)化實(shí)驗(yàn)數(shù)據(jù),設(shè)計(jì)并利用農(nóng)業(yè)領(lǐng)域本體指導(dǎo)下的自動(dòng)語義建模技術(shù)來挖掘數(shù)據(jù)源中潛在的語義信息并生成相應(yīng)的語義模型,以支持將數(shù)據(jù)自動(dòng)發(fā)布到知識(shí)圖譜的目標(biāo)實(shí)現(xiàn). 基于機(jī)器學(xué)習(xí)的自動(dòng)化知識(shí)抽取方法在知識(shí)圖譜的輔助下,應(yīng)用斯坦納樹算法并結(jié)合圖匹配算法和改進(jìn)的頻繁子圖挖掘算法,實(shí)現(xiàn)了準(zhǔn)確捕獲結(jié)構(gòu)化實(shí)驗(yàn)數(shù)據(jù)中正確的語義知識(shí)的目標(biāo)[41]. 在缺乏額外知識(shí)庫輔助的情況下,跨模態(tài)檢索模型為實(shí)現(xiàn)結(jié)構(gòu)化實(shí)驗(yàn)數(shù)據(jù)的自動(dòng)語義抽取提供了新思路[42]. 此方法基于增量式搜索和跨模態(tài)檢索思想,以一種端到端的方式,通過探索兩種模態(tài)信息之間的語義關(guān)系為數(shù)據(jù)源生成正確可靠的語義模型. 當(dāng)結(jié)構(gòu)化實(shí)驗(yàn)數(shù)據(jù)發(fā)生更新(如屬性增加或刪除)時(shí),將其作為新數(shù)據(jù)源重新執(zhí)行語義建模操作會(huì)影響知識(shí)抽取的效率. 基于動(dòng)態(tài)斯坦納樹算法和自定義規(guī)則的更新方法通過適應(yīng)數(shù)據(jù)結(jié)構(gòu)的動(dòng)態(tài)變化,自動(dòng)更新語義模型,以解決動(dòng)態(tài)知識(shí)抽取的問題[43].
在面向文獻(xiàn)數(shù)據(jù)的知識(shí)抽取任務(wù)中,半監(jiān)督學(xué)習(xí)和元學(xué)習(xí)被廣泛認(rèn)為是解決語料庫稀缺的兩種主要思路. 然而,現(xiàn)有的半監(jiān)督方法依賴于一組手工定義的規(guī)則或在少量標(biāo)記數(shù)據(jù)上訓(xùn)練的分類器,即前者需要大量的人工知識(shí)參與,后者受限于標(biāo)記數(shù)據(jù)的數(shù)量和質(zhì)量. 為了克服上述問題,提出了基于交互式詞匯和語義圖的半監(jiān)督關(guān)系抽取方法[44]. 此方法僅通過定義并利用實(shí)體和實(shí)體類型規(guī)則與實(shí)體間動(dòng)詞規(guī)則來構(gòu)建連接標(biāo)記樣本和未標(biāo)記樣本的詞匯圖和語義圖,實(shí)現(xiàn)從標(biāo)記樣本到無標(biāo)記樣本的知識(shí)傳輸,從而提高知識(shí)抽取的能力. 在段落甚至文檔級(jí)別的知識(shí)抽取任務(wù)場(chǎng)景中,基于多教師對(duì)抗蒸餾的半監(jiān)督關(guān)系抽取方法以一種精細(xì)化的方式來捕獲未標(biāo)記數(shù)據(jù)上的事實(shí)知識(shí),并在一定程度上取得了有效的結(jié)果[45].
在實(shí)際知識(shí)抽取中,特定于任務(wù)的標(biāo)記樣本往往分布不均勻且存在新的不可見的類別. 因此,在主動(dòng)元學(xué)習(xí)思想的指導(dǎo)下,根據(jù)給定的文本段,基于獎(jiǎng)勵(lì)機(jī)制的QG 分系統(tǒng)通過持續(xù)學(xué)習(xí),主動(dòng)提出與特定文本相關(guān)的問題;同時(shí),QA 分系統(tǒng)根據(jù)生成的問題,利用自然語言處理技術(shù),從輸入的農(nóng)業(yè)信息中檢索生成相應(yīng)的答案,以獲得濃縮大量非結(jié)構(gòu)化文本的問答對(duì).
綜上所述,基于元學(xué)習(xí)思想的知識(shí)抽取方法通過利用句子級(jí)關(guān)系提取和跨文檔領(lǐng)域知識(shí)挖掘策略,克服了目前文檔級(jí)關(guān)系提取模型所面臨的限制,實(shí)現(xiàn)了從小樣本文獻(xiàn)數(shù)據(jù)中抽取準(zhǔn)確可靠知識(shí)的目標(biāo)[46].
2. 2. 3 農(nóng)業(yè)知識(shí)融合 KGU 分系統(tǒng)的作用是通過農(nóng)業(yè)知識(shí)融合任務(wù)來解決農(nóng)業(yè)知識(shí)圖譜的異構(gòu)性問題,具體涉及對(duì)異構(gòu)農(nóng)業(yè)知識(shí)源的對(duì)齊和合并工作. 實(shí)體對(duì)齊即實(shí)體消歧,其通過匹配和對(duì)齊異構(gòu)知識(shí)源中同一對(duì)象的不同實(shí)體表示形式或變體來消除冗余的實(shí)體,實(shí)現(xiàn)知識(shí)融合. 早期的實(shí)體對(duì)齊系統(tǒng)利用邏輯推理和詞法匹配等技術(shù)構(gòu)建實(shí)體映射,嚴(yán)重依賴于特定的啟發(fā)式方法[47].現(xiàn)有方法則通過學(xué)習(xí)待對(duì)齊知識(shí)源的嵌入表示來緩解知識(shí)圖譜的異構(gòu)性問題[48]. Yao et al[49]提出一種基于層次圖注意網(wǎng)絡(luò),結(jié)合自注意機(jī)制和圖注意網(wǎng)絡(luò)機(jī)制的HierGAT 模型,通過建模和利用不同實(shí)體消歧決策之間的相互依賴關(guān)系以提高知識(shí)融合的準(zhǔn)確性. 在缺乏足夠標(biāo)記數(shù)據(jù)的情況下,Tu et al[50]開發(fā)了一個(gè)集成特征提取器、匹配器和特征對(duì)齊器的DADER 框架,并系統(tǒng)地探索了領(lǐng)域自適應(yīng)在實(shí)體解析任務(wù)中的設(shè)計(jì)空間. 隨著多模態(tài)知識(shí)圖譜的引入,將視覺模態(tài)應(yīng)用到知識(shí)圖譜中的實(shí)體對(duì)齊問題逐漸受到關(guān)注. 目前,Chen et al[51]提出的基于元模態(tài)混合的多模態(tài)實(shí)體對(duì)齊轉(zhuǎn)換器MEAformer 被認(rèn)為是最先進(jìn)的方法,此模型通過動(dòng)態(tài)預(yù)測(cè)模態(tài)間的相互關(guān)聯(lián)系數(shù),實(shí)現(xiàn)了更細(xì)粒度的實(shí)體級(jí)模態(tài)融合和對(duì)齊.
為了克服上述問題,本文提出了FastAGEDs算法,其通過應(yīng)用圖函數(shù)依賴思想來完成實(shí)體對(duì)齊任務(wù)[52]. 該方法結(jié)合深度優(yōu)先搜索策略和剪枝操作來挖掘?qū)嶓w屬性之間的依賴關(guān)系,并進(jìn)一步利用這類依賴關(guān)系來辨析具有相似語義關(guān)系的實(shí)體對(duì).
2. 2. 4 農(nóng)業(yè)知識(shí)推理 在KGU 分系統(tǒng)中,利用提煉得到的(q,a) 問答對(duì),經(jīng)過知識(shí)抽取和知識(shí)融合模塊實(shí)現(xiàn)對(duì)農(nóng)業(yè)知識(shí)圖譜的初步構(gòu)建. 在此基礎(chǔ)上,知識(shí)推理模型利用現(xiàn)有的事實(shí)和關(guān)系推導(dǎo)出未知的農(nóng)業(yè)知識(shí)和結(jié)論,以擴(kuò)展和豐富農(nóng)業(yè)知識(shí)圖譜的應(yīng)用能力,從而為IS 分系統(tǒng)提供更加全面、準(zhǔn)確的知識(shí)服務(wù).
農(nóng)業(yè)知識(shí)推理的目的是從已有的農(nóng)業(yè)知識(shí)中推斷出新的結(jié)論、判斷或知識(shí),以補(bǔ)全農(nóng)業(yè)知識(shí)圖譜并進(jìn)一步輔助農(nóng)業(yè)決策和解決問題. 一種常見的知識(shí)補(bǔ)全實(shí)現(xiàn)是基于表示學(xué)習(xí)和知識(shí)圖譜嵌入的鏈路預(yù)測(cè)[53]. 其范式為針對(duì)給定的待補(bǔ)充(頭實(shí)體,關(guān)系和尾實(shí)體)三元組知識(shí),通過嵌入模型輸出相應(yīng)的置信度分?jǐn)?shù),以此衡量其可信程度.以TransE[54],KG2E[55]和UM[56]為代表的平移距離模型基于向量平移的思想,通過計(jì)算實(shí)體嵌入向量之間的距離來衡量事實(shí)知識(shí)的合理性.RESCA[57]和SME[58]等語義匹配模型利用基于相似性的評(píng)分函數(shù),通過匹配隱藏在向量表示空間中實(shí)體和關(guān)系的語義信息來預(yù)測(cè)實(shí)體關(guān)系對(duì)的可能性.
然而,現(xiàn)有模型普遍存在置信度分?jǐn)?shù)測(cè)量穩(wěn)定性差的問題,嚴(yán)重影響鏈路預(yù)測(cè)的準(zhǔn)確性. 為了解決該問題,提出基于因果干預(yù)的鏈路預(yù)測(cè)方法[59],通過考慮表示學(xué)習(xí)過程中實(shí)體嵌入向量與預(yù)測(cè)結(jié)果之間的因果關(guān)系,以更加準(zhǔn)確和穩(wěn)定的方式更新實(shí)體的嵌入表示,并結(jié)合一致性比較計(jì)算來完成評(píng)估,有效提高了模型的預(yù)測(cè)精度和魯棒性.
各分系統(tǒng)產(chǎn)生的反饋結(jié)果則作為獎(jiǎng)勵(lì)(如問題合法性獎(jiǎng)勵(lì)、問題相關(guān)性獎(jiǎng)勵(lì)等),不斷優(yōu)化QG 分系統(tǒng),進(jìn)一步迭代更新方法框架,實(shí)現(xiàn)對(duì)知識(shí)圖譜的有效構(gòu)建、更新和應(yīng)用.
3 面向特定領(lǐng)域的農(nóng)業(yè)認(rèn)知智能服務(wù)
目前,農(nóng)業(yè)領(lǐng)域已有多個(gè)農(nóng)業(yè)知識(shí)決策服務(wù)案例,其涵蓋作物[28]、畜禽[24]等多個(gè)方面. 這些應(yīng)用案例在提高農(nóng)業(yè)生產(chǎn)效率和質(zhì)量、減少資源浪費(fèi)、優(yōu)化農(nóng)業(yè)管理等方面發(fā)揮了積極的作用.
3. 1 作物 湖北洪山實(shí)驗(yàn)室構(gòu)建的知識(shí)圖譜驅(qū)動(dòng)的水稻生物信息平臺(tái)[59]旨在解決數(shù)據(jù)管理和共享的問題. 該平臺(tái)包括語義標(biāo)注、語義模型預(yù)測(cè)和知識(shí)圖譜生成等功能,利用本體技術(shù)整合數(shù)據(jù)源,對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語義建模和補(bǔ)充,以促進(jìn)后續(xù)生信分析任務(wù)的開展.
針對(duì)農(nóng)事任務(wù)精準(zhǔn)決策難的問題,華中農(nóng)業(yè)大學(xué)智能化軟件工程團(tuán)隊(duì)提出一種面向精準(zhǔn)施肥的農(nóng)業(yè)多模態(tài)時(shí)空知識(shí)圖譜構(gòu)建及其控制與決策方法[60]. 該方法通過子圖匹配獲取與待施肥地塊查詢圖同構(gòu)的農(nóng)業(yè)時(shí)空多模態(tài)知識(shí)圖譜子圖,從存儲(chǔ)歷史決策信息的子圖中選取適于當(dāng)前條件的施肥模型,以指導(dǎo)精準(zhǔn)決策. 同時(shí),進(jìn)一步開發(fā)了雙水雙綠華墨香精準(zhǔn)施肥和投喂應(yīng)用程序,通過對(duì)接農(nóng)場(chǎng)物聯(lián)網(wǎng)設(shè)備,結(jié)合農(nóng)業(yè)多模態(tài)案例庫、農(nóng)業(yè)時(shí)空多模態(tài)知識(shí)圖譜進(jìn)行分析,以實(shí)施精準(zhǔn)施肥和投喂.
3. 2 畜禽 華中農(nóng)業(yè)大學(xué)智能化軟件工程團(tuán)隊(duì)提出的生豬養(yǎng)殖知識(shí)圖譜認(rèn)知智能服務(wù)涵蓋了生豬的品種特性、飼養(yǎng)管理、疾病防治及養(yǎng)殖環(huán)境等領(lǐng)域知識(shí),并整合了豬的品種信息、養(yǎng)殖方案、屠體性狀、飼料轉(zhuǎn)化效率、飼料配方等數(shù)據(jù),為養(yǎng)殖戶及研究人員提供了生產(chǎn)參考. 同時(shí),可通過設(shè)定相應(yīng)規(guī)則和關(guān)系,將知識(shí)系統(tǒng)化、具象化地表示. 基于此,可以查詢與豬養(yǎng)殖相關(guān)的一系列問題,例如特定環(huán)境下某種豬的最佳生長條件、疾病的發(fā)生情況和預(yù)防措施等內(nèi)容,為養(yǎng)殖業(yè)的科學(xué)研究和實(shí)際生產(chǎn)提供了寶貴的信息資源.
華中農(nóng)業(yè)大學(xué)豬腸道菌群認(rèn)知智能聯(lián)邦查詢服務(wù)[61]基于豬腸道微生物群本體,整合了多個(gè)數(shù)據(jù)源. 用戶可以通過自然語言文本預(yù)定義模板進(jìn)行查詢. 平臺(tái)可通過查詢推理器對(duì)自動(dòng)生成的查詢語句進(jìn)行優(yōu)化,從而提高查詢效率. 平臺(tái)涉及KEGG 和HMDB 等多個(gè)異構(gòu)數(shù)據(jù)源. 通過跨數(shù)據(jù)庫檢索信息,用戶可以獲得所需的查詢答案,以進(jìn)一步優(yōu)化飼養(yǎng),促進(jìn)養(yǎng)豬業(yè)的可持續(xù)發(fā)展.
4 結(jié)論
農(nóng)業(yè)產(chǎn)業(yè)亟需在農(nóng)業(yè)知識(shí)工程的指導(dǎo)下,構(gòu)建具有可操作性和可擴(kuò)展性的農(nóng)業(yè)知識(shí)決策平臺(tái),以適應(yīng)不同地區(qū)、不同農(nóng)業(yè)系統(tǒng)的需求. 本文針對(duì)農(nóng)業(yè)大數(shù)據(jù)整合難、農(nóng)業(yè)知識(shí)抽取難以及農(nóng)業(yè)知識(shí)決策服務(wù)少的問題與挑戰(zhàn),基于農(nóng)業(yè)數(shù)據(jù)的全生命周期,提出了一個(gè)集成數(shù)據(jù)層、算法層和認(rèn)知服務(wù)層的農(nóng)業(yè)認(rèn)知智能服務(wù)研究框架,并在此基礎(chǔ)上,基于主動(dòng)元學(xué)習(xí)理論的指導(dǎo),提出以軟件智能體與科學(xué)大數(shù)據(jù)雙向偶聯(lián)自指循環(huán)為核心的農(nóng)業(yè)認(rèn)知智能服務(wù)構(gòu)建框架,包括完成對(duì)農(nóng)業(yè)大數(shù)據(jù)的整合和知識(shí)建模、知識(shí)抽取、知識(shí)融合以及知識(shí)推理任務(wù). 由此實(shí)現(xiàn)對(duì)農(nóng)業(yè)數(shù)據(jù)更加全面、準(zhǔn)確地分析和知識(shí)挖掘,為后續(xù)的知識(shí)服務(wù)提供豐富可信的知識(shí)背景,進(jìn)一步推動(dòng)農(nóng)業(yè)領(lǐng)域的知識(shí)管理和智能化決策知識(shí)服務(wù)的發(fā)展.
隨著云計(jì)算、人工智能、物聯(lián)網(wǎng)等技術(shù)在農(nóng)業(yè)領(lǐng)域的賦能應(yīng)用,農(nóng)業(yè)認(rèn)知智能服務(wù)的研究有望在以下幾個(gè)方面快速發(fā)展.
(1)進(jìn)一步強(qiáng)化農(nóng)業(yè)元數(shù)據(jù)的頂層設(shè)計(jì),共建農(nóng)業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)化、規(guī)范化體系和農(nóng)業(yè)知識(shí)共享和系統(tǒng)創(chuàng)新平臺(tái),以解決“數(shù)據(jù)孤島”問題,促進(jìn)農(nóng)業(yè)數(shù)據(jù)的互聯(lián)互通和有效利用,由此推動(dòng)農(nóng)業(yè)的可持續(xù)發(fā)展.
(2)GPT 生成式大語言模型的迅速發(fā)展為精準(zhǔn)分析和挖掘農(nóng)業(yè)數(shù)據(jù)、掌握農(nóng)業(yè)領(lǐng)域知識(shí)以及解決農(nóng)業(yè)數(shù)據(jù)長期存在的數(shù)據(jù)稀疏、高維和高噪聲等問題提供新的思路和解決方案[62].
(3)圍繞以持續(xù)學(xué)習(xí)和自我優(yōu)化為特點(diǎn)的主動(dòng)元學(xué)習(xí)方法,致力于高效地抽取、組織和整合農(nóng)業(yè)知識(shí),以減輕對(duì)人工標(biāo)注樣本的需求.
(4)基于云計(jì)算和人工智能技術(shù),開發(fā)高效的智慧農(nóng)業(yè)決策支持系統(tǒng)將成為可能. 通過集成、應(yīng)用針對(duì)農(nóng)業(yè)多源數(shù)據(jù)的分析和知識(shí)挖掘算法,為農(nóng)業(yè)從業(yè)者提供個(gè)性化的科學(xué)決策建議和實(shí)時(shí)監(jiān)測(cè),提高農(nóng)業(yè)生產(chǎn)的效率和可持續(xù)性.
參考文獻(xiàn)
[1] 劉晶. 中國工程院發(fā)布“電子信息工程科技發(fā)展十
三大挑戰(zhàn)(2022)”. 中國電子報(bào),2022-02-18(04).
[2] 趙春江. 智慧農(nóng)業(yè)的發(fā)展現(xiàn)狀與未來展望. 華南農(nóng)
業(yè)大學(xué)學(xué)報(bào),2021,42(6):1-7. (Zhao C J. Current
situations and prospects of smart agriculture. Journal
of South China Agricultural University,2021,42(6):
1-7.)
[3] Li Y F,Kennedy G,Ngoran F,et al. An ontology ?
centric architecture for extensible scientific data
management systems. Future Generation Computer
Systems,2013,29(2):641-653.
[4] International Organizati Standardization. Information
technology metadata registries (MDR) Part 1:
Framework. ISO/IEC 11179?1?2004.
[5] International Standard ISO/IEC. Information
technology?metamodel framework for interoperability
(MFI):Part 10:Core model and basic mapping.
19763-10:2014.
[6] Song J M,Liu D X,Xie W Z,et al. BnPIR:Brassica
napus pan ? genome information resource for 1689
accessions. Plant Biotechnology Journal,2021,19(3):
412-414.
[7] Liu D X,Yu L Q,Wei L L,et al. BnTIR:An online
transcriptome platform for exploring RNA ? seq
libraries for oil crop Brassica napus. Plant
Biotechnology Journal,2021,19(10):1895-1897.
[8] Yang Z Q,Liang C Y,Wei L L,et al. BnVIR:
Bridging the genotype ? phenotype gap to accelerate
mining of candidate variations underlying agronomic
traits in Brassica napus. Molecular Plant,2022,15(5):
779-782.
[9] Yang Z Q,Wang S B,Wei L L,et al. BnIR:A multiomics
database with various tools for Brassica napus
research and breeding. Molecular Plant,2023,16(4):
775-789.
[10] Yang Z Q,Wang J,Huang Y M,et al. CottonMD:A
multi ? omics database for cotton biological study.
Nucleic Acids Research,2023,51(D1):D1446-
D1456.
[11] Dai F, Chen J D, Zhang Z Q, et al.
COTTONOMICS:A comprehensive cotton multi ?
omics database. Database,2022,2022:baac080.
[12] Fu Y H,Liu H,Dou J W,et al. IAnimal:A cross ?
species omics knowledgebase for animals. Nucleic
Acids Research,2023,51(D1):D1312-D1324.
[13] Fu W W,Wang R,Nanaei H A,et al. RGD v2.0:A
major update of the ruminant functional and
evolutionary genomics database. Nucleic Acids
Research,2022,50(D1):D1091-D1099.
[14] Chen N B,F(xiàn)u W W,Zhao J B,et al. BGVD:An
integrated database for bovine sequencing variations
and selective signatures. Genomics,Proteomics amp;
Bioinformatics,2020,18(2):186-193.
[15] Fu W W,Wang R,Yu J T,et al. GGVD:A goat
genome variation database for tracking the dynamic
evolutionary process of selective signatures and
ancient introgressions. Journal of Genetics and
Genomics,2021,48(3):248-256.
[16] Fu W W,Wang R,Xu N Y,et al. Galbase:A
comprehensive repository for integrating chicken
multi?omics data. BMC Genomics,2022,23(1):364.
[17] Tian X M,Li R,F(xiàn)u W W,et al. Building a sequence
map of the pig pan ? genome from multiple de novo
assemblies and Hi ? C data. Science China Life
Sciences,2020,63(5):750-763.
[18] Li R,F(xiàn)u W W,Su R,et al. Towards the complete
goat pan ? genome by recovering missing genomic
segments from the reference genome. Frontiers in
Genetics,2019,10:1169.
[19] Haverkort A J,Top J L. The potato ontology:
Delimitation of the domain,modelling concepts,and
prospects of performance. Potato Research,2011,54
(2):119-136.
[20] Abbasi R,Martinez P,Ahmad R. An ontology model
to support the automated design of aquaponic grow
beds. Procedia CIRP,2021,100:55-60.
[21] Mietzsch E,Martini D,Kolshus K,et al. How
agricultural digital innovation can benefit from
semantics:The case of the AGROVOC multilingual
thesaurus. Engineering Proceedings,2021,9(1):17.
[22] Nédellec C,Bossy R,Chaix E,et al. Text ? mining
and ontologies: New approaches to knowledge
discovery of microbial diversity. 2018, arXiv:
1805.04107.
[23] Zhong X F,Wang Y,Wen X,et al. An ontology ?
based automation system:A case study of citrus
fertilization. International Journal on Semantic Web
and Information Systems,2022,18(1):1-22.
[24] 宗南蘇,何綺云,鄭業(yè)魯,等. 農(nóng)業(yè)生產(chǎn)技術(shù)本體構(gòu)
建與語義檢索實(shí)現(xiàn). 廣東農(nóng)業(yè)科學(xué),2009(3):195-
199.( Zong N S,He Q Y,Zheng Y L,et al. Construction
of the agri? producation technology ontology and
the realization of the semantic retrieval. Guangdong
Agricultural Sciences,2009(3):195-199.)
[25] 王雪,王儒敬,魏圓圓,等. 豬生產(chǎn)學(xué)本體構(gòu)建的研
究. 江蘇農(nóng)業(yè)科學(xué),2011,39(3):547-550.
[26] 趙春江. 農(nóng)業(yè)知識(shí)智能服務(wù)技術(shù)綜述. 智慧農(nóng)業(yè)(中
英文),2023,5(2):126-148. (Zhao C J. Agricultural
knowledge intelligent service technology:A review.
Smart Agriculture,2023,5(2):126-148.)
[27] Palma R,Brahma S,Zinke ? Wehlmann C,et al.
Linked data usages in DataBio∥S?derg?rd C,
Mildorf T,Habyarimana E,et al. Big data in
bioeconomy:Results from the European DataBio
project. Springer Berlin Heidelberg,2021:91-111.
[28] Haase P, Herzig D M, Kozlov A, et al.
Metaphactory: A platform for knowledge graph
management. Semantic Web,2019,10(6):1109-
1125.
[29] Hassani ? Pak K,Singh A,Brandizi M,et al.
KnetMiner: A comprehensive approach for
supporting evidence ? based gene discovery and
complex trait analysis across species. Plant
Biotechnology Journal,2021,19(8):1670-1678.
[30] Venkatesan A,Tagny Ngompe G,El Hassouni N,et
al. Agronomic Linked Data (AgroLD):A knowledgebased
system to enable integrative biology in
agronomy. PLoS One,2018,13(11):e0198270.
[31] 張萌,董偉,錢蓉,等. 安徽省植保大數(shù)據(jù)平臺(tái)建設(shè)
與應(yīng)用展望. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2020,2(1):36-44.
(Zhang M,Dong W,Qian R,et al. Construction and
application prospects of big data platform for plant
protection in Anhui Province. Journal of Agricultural
Big Data,2020,2(1):36-44.)
[32] 吳賽賽,周愛蓮,謝能付,等. 基于深度學(xué)習(xí)的作物
病蟲害可視化知識(shí)圖譜構(gòu)建. 農(nóng)業(yè)工程學(xué)報(bào),2020,
36(24):177-185. (Wu S S,Zhou A L,Xie N F,et
al. Construction of visualization domain ? specific
knowledge graph of crop diseases and pests based on
deep learning. Transactions of the Chinese Society of
Agricultural Engineering,2020,36(24):177-185.)
[33] 戈為溪,周俊,袁立存,等. 基于知識(shí)圖譜與案例推
理的水稻精準(zhǔn)施肥推薦模型. 農(nóng)業(yè)工程學(xué)報(bào),2023,
39(2):126-133. (Ge W X,Zhou J,Yuan L C,et al.
Recommendation model for rice precision fertilization
using knowledge graph and case ? based reasoning.
Transactions of the Chinese Society of Agricultural
Engineering,2023,39(2):126-133.)
[34] 王翀,何克清,王健,等. 化解“信息孤島”危機(jī)的軟
件模型按需服務(wù)互操作技術(shù). 計(jì)算機(jī)學(xué)報(bào),2018,41
(6):1094-1111. (Wang C,He K Q,Wang J,et al.
On ? demand interoperability techniques for software
model services:A standardized solution for the information
islands crisis. Chinese Journal of Computers,
2018,41(6):1094-1111.)
[35] 李貫峰. 基于本體的農(nóng)業(yè)知識(shí)建模研究. 軟件導(dǎo)刊,
2016,15(12):65-67.
[36] 趙瑞雪,楊晨雪,鄭建華,等. 農(nóng)業(yè)智能知識(shí)服務(wù)研
究現(xiàn)狀及展望. 智慧農(nóng)業(yè)(中英文),2022,4(4):105-
125.( Zhao R X,Yang C X,Zheng J H,et al. Agricultural
intelligent knowledge service :Overview and
future perspectives. Smart Agriculture,2022,4(4):
105-125.)
[37] Zhang S L,Tang Y,Yan J,et al. A graph ? based
approach for integrating biological heterogeneous
data based on connecting ontology∥Proceedings of
2021 IEEE International Conference on
Bioinformatics and Biomedicine. Houston, TX,
USA:IEEE,2021:600-607.
[38] Kipf T N,Welling M. Semi?supervised classification
with graph convolutional networks. 2016,arXiv:
1609.02907.
[39] Hao Z G,Mayer W,Xia J B,et al. Ontology
alignment with semantic and structural embeddings.
Journal of Web Semantics,2023,78:100798.
[40] Suchanek F M,Abiteboul S,Senellart P. PARIS:
Probabilistic alignment of relations,instances,and
schema. Proceedings of the VLDB Endowment,
2011,5(3):157-168.
[41] Xu J K,Mayer W,Zhang H Y,et al. Automatic
semantic modeling for structural data source with the
prior knowledge from knowledge base. Mathematics,
2022,10(24):4778.
[42] Xu R Q,Mayer W,Wang Y L,et al. Automatic
semantic modeling by cross ? modal retrieval∥
Proceedings of the 2022 IEEE 24th International
Conference on High Performance Computing amp;
Communications, the 8th International Conference on
Data Science amp; Systems, the 20th International
Conference on Smart City, the 8th International
Conference on Dependability in Sensor,Cloud amp; Big
Data Systems amp; Application. Chengdu,China:
IEEE,2022:2142-2150.
[43] Chu H L,Wu W M,Mayer W,et al. Dynamic
semantic modeling of structural data sources∥
Proceedings of the 2022 IEEE 24th International
Conference on High Performance Computing amp;
Communications, the 8th International Conference on
Data Science amp; Systems, the 20th International
Conference on Smart City, the 8th International
Conference on Dependability in Sensor,Cloud amp; Big
Data Systems amp; Application. Chengdu,China:
IEEE,2022:74-81.
[44] Li W L,Qian T Y,Zhong M,et al. Interactive lexical
and semantic graphs for semisupervised relation
extraction. IEEE Transactions on Neural Networks
and Learning Systems,2023,34(10):7158-7169.
[45] Li W L,Qian T Y,Li X H,et al. Adversarial multiteacher
distillation for semi ? supervised relation
extraction. IEEE Transactions on Neural Networks
and Learning Systems, 2023, DOI: 10.1109/
TNNLS.2023.3258967.
[46] Luo J,Zhang Y T,Wang Y,et al. A reinforcement
learning ? based approach for continuous knowledge
graph construction∥Proceedings of the 16th
International Conference on Knowledge Science,
Engineering and Management. Springer Berlin
Heidelberg,2023:418-429.
[47] Jiménez ? Ruiz E,Cuenca Grau B. LogMap:Logic ?
based and scalable ontology matching∥Proceedings
of the 10th International Semantic Web Conference.
Springer Berlin Heidelberg,2011:273-288.
[48] Sun Z Q,Hu W,Wang C M,et al. Revisiting
embedding ? based entity alignment:A robust and
adaptive method. IEEE Transactions on Knowledge
and Data Engineering,2023,35(8):8461-8475.
[49] Yao D Z,Gu Y H,Cong G,et al. Entity resolution
with hierarchical graph attention networks∥
Proceedings of 2022 International Conference on
Management of Data. Philadelphia, PA, USA:
ACM,2022:429-442.
[50] Tu J H,F(xiàn)an J,Tang N,et al. Domain adaptation for
deep entity resolution∥Proceedings of 2022
International Conference on Management of Data.
Philadelphia,PA,USA:ACM,2022:443-457.
[51] Chen Z,Chen J Y,Zhang W,et al. MEAformer:
Multi ? modal entity alignment transformer for meta
modality hybrid∥Proceedings of the 31st ACM
International Conference on Multimedia. Ottawa,
Canada:ACM,2022:3317-3327.
[52] Zhou G T, Kwashie S, Zhang Y D, et al.
FastAGEDs: Fast approximate graph entity
dependency discovery∥Proceedings of the 24th
International Conference on Web Information
Systems Engineering. Springer Berlin Heidelberg,
2023:451-465.
[53] 王昊奮,漆桂林,陳華鈞. 知識(shí)圖譜:方法、實(shí)踐與應(yīng)
用. 北京:電子工業(yè)出版社,2019,480.
[54] Bordes A,Usunier N,Garcia ? Duran A,et al.
Translating embeddings for modeling multi?relational
data∥Proceedings of the 26th International
Conference on Neural Information Processing
Systems. Lake Tahoe,NV,USA:Curran Associates
Inc.,2013:2787-2795.
[55] He S Z,Liu K,Ji G L,et al. Learning to represent
knowledge graphs with Gaussian embedding∥
Proceedings of the 24th ACM International on
Conference on Information and Knowledge
Management. Melbourne,Australia:ACM,2015:
623-632.
[56] Bordes A,Glorot X,Weston J,et al. Joint learning of
words and meaning representations for open ? text
semantic parsing∥Proceedings of the 15th
International Conference on Artificial Intelligence
and Statistics. La Palma,Spain:JMLR. org,2012:
127-135.
[57] Nickel M,Tresp V,Kriegel H P. A three?way model
for collective learning on multi ? relational data∥
Proceedings of the 28th International Conference on
International Conference on Machine Learning.
Bellevue,WA,USA:Omnipress,2011:809-816.
[58] Bordes A,Glorot X,Weston J,et al. A semantic
matching energy function for learning with multi ?
relational data: Application to word ? sense
disambiguation. Machine Learning, 2014, 94(2):
233-259.
[59] 王博文. 基于因果干預(yù)的藥物靶標(biāo)相互作用置信度
測(cè)量方法研究與實(shí)現(xiàn). 碩士學(xué)位論文. 武漢:華中農(nóng)
業(yè)大學(xué),2023.( Wang B W. Research and implementation
of drug target interaction confidence measurement
method based on causal intervention. Master
Dissertation. Wuhan:Huazhong Agricultural University,
2023.)
[60] 許多,魯旺平,許瑞清,等. 基于農(nóng)業(yè)時(shí)空多模態(tài)知
識(shí)圖譜的水稻精準(zhǔn)施肥決策方法. 華中農(nóng)業(yè)大學(xué)學(xué)
報(bào),2023,42(3):281-292.( Xu D,Lu W P,Xu R Q,
et al. A method of deciding precision fertilization of
rice based on spatiotemporal multi?modal knowledge
graph of agriculture. Journal of Huazhong Agricultural
University,2023,42(3):281-292.)
[61] Wang Y,Jiang Q,Geng Y L,et al. SGMFQP:An
ontology?based swine gut microbiota federated query
platform. Methods,2023,212:12-20.
[62] Floridi L,Chiriatti M. GPT ? 3:Its nature,scope,
limits,and consequences. Minds and Machines,2020,
30(4):681-694.
(責(zé)任編輯 高善露)