1引言
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體是一個(gè)包含農(nóng)業(yè)科學(xué)數(shù)據(jù)的術(shù)語、農(nóng)業(yè)科學(xué)數(shù)據(jù)的定義和術(shù)語之間關(guān)系描述的系統(tǒng)1。它能夠準(zhǔn)確地表達(dá)概念及其可能的變化、概念屬性、概念之間的關(guān)系,從而實(shí)現(xiàn)對(duì)農(nóng)業(yè)領(lǐng)域科學(xué)數(shù)據(jù)的管理和共享。農(nóng)業(yè)科學(xué)數(shù)據(jù)本體為農(nóng)業(yè)領(lǐng)域的知識(shí)提供了一個(gè)統(tǒng)一的框架,促進(jìn)了農(nóng)業(yè)研究領(lǐng)域科學(xué)數(shù)據(jù)的整合與共享[2]。隨著信息技術(shù)帶來科研信息化的進(jìn)步,農(nóng)業(yè)研究領(lǐng)域科學(xué)數(shù)據(jù)的產(chǎn)生和積累呈爆發(fā)趨勢(shì),以長序列、體系性為特點(diǎn)的農(nóng)業(yè)科學(xué)大數(shù)據(jù)已成為農(nóng)業(yè)科研發(fā)展必需的重要工具[3]。農(nóng)業(yè)科學(xué)數(shù)據(jù)是科學(xué)數(shù)據(jù)的重要組成部分,是指從事農(nóng)業(yè)科技活動(dòng)產(chǎn)生的原始性和基礎(chǔ)性數(shù)據(jù),以及按照不同需求系統(tǒng)加工后的數(shù)據(jù)集和相關(guān)信息,既包括農(nóng)業(yè)及相關(guān)部門長期積累的大規(guī)模試驗(yàn)、調(diào)查、觀測以及探測等工作所獲得的海量科學(xué)數(shù)據(jù),同時(shí)也包括眾多農(nóng)業(yè)科研人員在研究工作中所產(chǎn)生的科學(xué)數(shù)據(jù)[4]。農(nóng)業(yè)科學(xué)數(shù)據(jù)是農(nóng)業(yè)科學(xué)研究的基礎(chǔ),在農(nóng)業(yè)科技創(chuàng)新中發(fā)揮著重要作用。在數(shù)據(jù)密集型科學(xué)數(shù)據(jù)范式背景下,農(nóng)業(yè)科學(xué)數(shù)據(jù)被視為農(nóng)業(yè)科學(xué)發(fā)現(xiàn)和科學(xué)觀點(diǎn)價(jià)值變現(xiàn)的基礎(chǔ),構(gòu)成了農(nóng)業(yè)科學(xué)研究成果論證和推理的基礎(chǔ),已經(jīng)成為重要的資產(chǎn)[5]。農(nóng)業(yè)科學(xué)數(shù)據(jù)體量大且復(fù)雜,如何有效管理和組織農(nóng)業(yè)科學(xué)數(shù)據(jù)成為時(shí)代課題。
本體用于描述特定領(lǐng)域內(nèi)的概念、術(shù)語、實(shí)體及其相互之間的關(guān)系,近年來已被引入農(nóng)業(yè)、人工智能和知識(shí)工程等領(lǐng)域[7],農(nóng)業(yè)科學(xué)數(shù)據(jù)本體屬于本體中的領(lǐng)域本體,由形式化的農(nóng)業(yè)領(lǐng)域概念以及概念間關(guān)系組成。利用本體技術(shù)對(duì)農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范化后形成知識(shí)組織,已經(jīng)成為提高農(nóng)業(yè)數(shù)據(jù)利用價(jià)值、為決策服務(wù)提供支撐的一種有效途徑,自2001年起聯(lián)合國糧農(nóng)組織(FAO)開展農(nóng)業(yè)本體服務(wù)(Agricultural Ontology Service,AOS)計(jì)劃的研究。LAUSER等[8在2002首先提出構(gòu)建核心的農(nóng)業(yè)本體。隨著本體技術(shù)的不斷發(fā)展,以及本體應(yīng)用領(lǐng)域的逐漸增多,大量農(nóng)業(yè)科學(xué)數(shù)據(jù)本體被研究與開發(fā),如基因本體(GeneOntology,GO)[9]、農(nóng)業(yè)活動(dòng)本體(AgricultureActivity Ontology)、作物本體(Crop Ontology)等,植物本 體(Plant ontology)、種質(zhì)本 體(GeneralGermplasmOntology)[1o]、表型和特征本體(Phenotype and TraitOntology)等,農(nóng)業(yè)科學(xué)數(shù)據(jù)本體在農(nóng)業(yè)科學(xué)數(shù)據(jù)的共享和一致性理解上發(fā)揮著越來越大的作用[11]。隨著農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)量的增長,越來越多學(xué)者在本體管理編輯方面開展相關(guān)研究,例如斯坦福大學(xué)MarkMUSEN[12]教授主導(dǎo)開發(fā)了廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的WebProtegé,為用戶提供了一個(gè)用于創(chuàng)建、編輯、管理和共享本體的協(xié)作環(huán)境;法國國家農(nóng)業(yè)研究所(INRA)[13]開發(fā)了AgroPortal,通過為農(nóng)業(yè)科學(xué)家、工程師和研究人員提供本體的存儲(chǔ)、編輯和發(fā)布功能,幫助推動(dòng)農(nóng)業(yè)數(shù)據(jù)的共享和應(yīng)用;德國的 Ontoprise[14]公司開發(fā)了OntoStudio,它提供了豐富的圖形化界面以及語義網(wǎng)和本體的標(biāo)準(zhǔn)支持(如OWL),使用戶能夠進(jìn)行詳細(xì)的本體設(shè)計(jì)、推理、驗(yàn)證和應(yīng)用開發(fā)。目前,這些工具大多集中在單個(gè)本體的創(chuàng)建和管理上,盡管工具也支持多個(gè)本體的管理,但在不同本體之間的語義兼容性和數(shù)據(jù)集成方面仍然存在困難。農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)量多,數(shù)據(jù)量大,鮮有對(duì)大批量農(nóng)業(yè)科學(xué)數(shù)據(jù)本體進(jìn)行本體化組織,缺少專有系統(tǒng)進(jìn)行管理,同時(shí),現(xiàn)有工具在自動(dòng)化識(shí)別不同術(shù)語之間可能存在的關(guān)系方面依然具有挑戰(zhàn)性[15]。有學(xué)者提出利用 neo4j對(duì)存在不同系統(tǒng)中的本體進(jìn)行整合和利用構(gòu)建知識(shí)圖譜[1],Neo4j 圖數(shù)據(jù)庫能非常自然地處理本體復(fù)雜的關(guān)系和結(jié)構(gòu),但在處理非常龐大的數(shù)據(jù)集時(shí)可能會(huì)面臨擴(kuò)展性問題,盡管Neo4j有針對(duì)大數(shù)據(jù)集的優(yōu)化策略和集群模式,但當(dāng)數(shù)據(jù)量達(dá)到較大規(guī)模時(shí),依然難以保證性能[17]。
綜上所述,針對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體研究大多僅針對(duì)特定的領(lǐng)域建立本體模型,且農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)量多,數(shù)據(jù)量大,缺少專有系統(tǒng)進(jìn)行管理等突出問題,本文以形成一體化多樣性的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng),構(gòu)建囊括28個(gè)本體的標(biāo)準(zhǔn)化農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)據(jù)集,搭建基于HugeGraph圖數(shù)據(jù)庫的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò),建立“數(shù)據(jù)集-數(shù)據(jù)記錄-信息實(shí)體”的映射關(guān)系機(jī)制,該系統(tǒng)支持海量數(shù)據(jù)資源高效語義關(guān)聯(lián)發(fā)布,以及數(shù)據(jù)自動(dòng)聚合的基礎(chǔ),操作便利,界面直觀,為農(nóng)業(yè)科學(xué)數(shù)據(jù)資源語義關(guān)聯(lián)發(fā)布和數(shù)據(jù)自動(dòng)聚合奠定了基礎(chǔ)。
2 農(nóng)業(yè)科學(xué)數(shù)據(jù)本體庫構(gòu)建
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體庫是農(nóng)業(yè)領(lǐng)域的核心概念、屬性和關(guān)系,為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的標(biāo)準(zhǔn)化和規(guī)范化提供了基礎(chǔ)。它構(gòu)成了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的骨架,是農(nóng)業(yè)知識(shí)表示和交流的基本單元,為數(shù)據(jù)的存儲(chǔ)和檢索,以及進(jìn)一步分析和應(yīng)用提供了基礎(chǔ)。
由于要涵蓋農(nóng)業(yè)科學(xué)數(shù)據(jù)較為廣泛的領(lǐng)域與學(xué)科,在CGIAR、OBOFoundry、AgroPortal和EBI平臺(tái)收集本體數(shù)據(jù),選取其中在農(nóng)業(yè)領(lǐng)域中較為通用的28個(gè)本體,分別為:元數(shù)據(jù)本體、序列本體、基因本體、生化實(shí)體、蛋白質(zhì)本體、細(xì)胞本體、解剖實(shí)體本體、植物本體、環(huán)境本體、植物實(shí)驗(yàn)條件本體、農(nóng)學(xué)本體、小規(guī)模漁業(yè)和水產(chǎn)養(yǎng)殖本體、表型和性狀本體、特質(zhì)本體、牲畜的動(dòng)物性狀本體、食品本體、組合膳食營養(yǎng)本體、農(nóng)業(yè)住戶調(diào)查的本體、用于生物科學(xué)數(shù)據(jù)分析和數(shù)據(jù)管理的綜合本體、核心生態(tài)實(shí)體的本體、土壤食物網(wǎng)本體、關(guān)系本體、生物信息學(xué)Web服務(wù)本體、畜牧業(yè)環(huán)境本體、菌群表型本體、牲畜品種本體、畜產(chǎn)品性狀本體和植物脅迫本體。在農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)包含農(nóng)業(yè)、作物、基因、序列等相關(guān)本體28個(gè),包含obo與owl兩種數(shù)據(jù)格式,如表1所示。
為提高農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的質(zhì)量,且保持一致性,制定了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體存儲(chǔ)標(biāo)準(zhǔn),包括本體屬性名稱、數(shù)據(jù)類型及說明。本體屬性具體為ontology_id(原始編碼)、name(術(shù)語名稱)、subset(子集)、is_obsolete(是否過時(shí))、def(定義)、synonym(同義詞)、xref(外部參照)、comment(注釋)、alt_id(可替代術(shù)語)、created_by(創(chuàng)建作者)、creation_date(創(chuàng)建日期)、consider(可參考術(shù)語)、replaced_by(被術(shù)語替代)、namespace(命名空間)、namezh(中文名稱)、defzh(中文定義)、property_value(屬性值)、disjointfrom(完全不重疊術(shù)語)。根據(jù)制定的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體存儲(chǔ)標(biāo)準(zhǔn),統(tǒng)一將下載的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體文件轉(zhuǎn)換為CSV格式,并對(duì)28個(gè)本體進(jìn)行新的術(shù)語編號(hào)。農(nóng)業(yè)科學(xué)數(shù)據(jù)本體屬性如表2所示。
表1農(nóng)業(yè)科學(xué)數(shù)據(jù)本體庫
對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體進(jìn)行相互關(guān)聯(lián),形成多本體相互映射的農(nóng)業(yè)科學(xué)數(shù)據(jù)網(wǎng)絡(luò)。本體關(guān)系分別是determinedby(表示一個(gè)實(shí)體的特征或狀態(tài)是由另一個(gè)實(shí)體決定的)、develops_from(表示一個(gè)實(shí)體是從另一個(gè)實(shí)體發(fā)展而來的)、has_part(表示一個(gè)實(shí)體是另一個(gè)實(shí)體的一部分)、has_quality(表示一個(gè)實(shí)體具有某種屬性)、intersection_of(表示一個(gè)實(shí)體是兩個(gè)或多個(gè)其他實(shí)體的交集)、isa(表示一個(gè)類是另一個(gè)類的子類)、negatively_regulates(表示一個(gè)實(shí)體負(fù)向調(diào)節(jié)另一個(gè)實(shí)體的行為或過程)、occurs_in(表示一個(gè)過程發(fā)生在特定的環(huán)境中)、only_in_taxon(表示一個(gè)實(shí)體僅存在于某個(gè)分類群中)、part_of(表示一個(gè)實(shí)體是另一個(gè)實(shí)體的一部分)、positively_regulates(表示一個(gè)實(shí)體正向調(diào)節(jié)另一個(gè)實(shí)體的行為或過程)、regulates(表示一個(gè)實(shí)體調(diào)節(jié)另一個(gè)實(shí)體的行為或過程,但不具體說明是正向還是負(fù)向調(diào)節(jié))、disjointWith(表示兩個(gè)類之間沒有交集,即它們是互斥的)和subClassOf(表示一個(gè)類是另一個(gè)類的子類,與is_a關(guān)系相同),如表3所示。最后形成一體化多樣性的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體庫,為農(nóng)業(yè)科學(xué)數(shù)據(jù)網(wǎng)絡(luò)系統(tǒng)提供數(shù)據(jù)支持。
3 農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
3.1 系統(tǒng)構(gòu)架設(shè)計(jì)
針對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體存在于不同的系統(tǒng)中,缺少統(tǒng)一的形式化表達(dá),難以對(duì)其進(jìn)行整合和利用等突出問題,設(shè)計(jì)了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng),整個(gè)系統(tǒng)分為4層結(jié)構(gòu),自下而上分別是數(shù)據(jù)層、管理層、功能層、以及用戶界面層,具備自動(dòng)化導(dǎo)入、自動(dòng)管理、本體內(nèi)和跨本體映射、本體網(wǎng)絡(luò)可視化四大功能。
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)將包含農(nóng)業(yè)、作物、基因、序列等相關(guān)本體28個(gè)組建在一起,建立“數(shù)據(jù)集-數(shù)據(jù)記錄-信息實(shí)體”映射關(guān)系機(jī)制,具有自動(dòng)化導(dǎo)入、自動(dòng)管理、本體內(nèi)和跨本體映射、本體網(wǎng)絡(luò)可視化等四大類功能,有力提升了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體管理能力,系統(tǒng)功能結(jié)構(gòu)如圖1所示。
自動(dòng)化導(dǎo)入功能主要用于用戶上傳的本體數(shù)據(jù),支持農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)據(jù)集構(gòu)建,上傳本體后格式自動(dòng)統(tǒng)一轉(zhuǎn)化并進(jìn)行術(shù)語編號(hào)。
自動(dòng)管理功能可對(duì)已存在的本體進(jìn)行擴(kuò)展、更新或修改??蓪?duì)現(xiàn)有的本體中增加、修改以及刪除新的概念、屬性或關(guān)系。
本體內(nèi)和跨本體映射關(guān)系編輯功能:本體內(nèi)映射是指在同一本體內(nèi)部建立不同概念之間的關(guān)聯(lián)關(guān)系。本體內(nèi)和跨本體映射關(guān)系編輯包括等價(jià)映射、同義映射、上下位映射、關(guān)聯(lián)映射等,通過編輯這種映射關(guān)系,可以更好地組織和利用本體中的信息。
本體網(wǎng)絡(luò)可視化功能是一種將本體中的概念、屬性和關(guān)系以圖形化的方式展示出來的技術(shù)。該系統(tǒng)采用節(jié)點(diǎn)鏈接圖可視化,這種可視化是本體可視化最常用的方式,該方式不僅有助于用戶直觀地理解本體的結(jié)構(gòu)和內(nèi)容,還能夠幫助檢測本體中的潛在問題,如冗余、不一致性等。
3.2農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)管理引擎
以HugeGraph作為管理引擎,形成以HugeGraph圖數(shù)據(jù)庫為核心的“HugeGraph-Server+HugeGraph-Loader+HugeGraph-Hubble+Gremlin查詢語言\"農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘引擎。圖2為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)管理引擎示意圖。
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)管理引擎搭建基于HugeGraph圖數(shù)據(jù)庫來實(shí)現(xiàn),支持多數(shù)據(jù)源、多格式導(dǎo)入,且操作便利,界面直觀。
HugeGraph 圖數(shù)據(jù)庫由HugeGraph-Server、Hugegraph-Loader、HugeGraph-Hubble、Gremlin查詢語言四部分搭載而成。
HugeGraph-Server在初始化啟動(dòng)數(shù)據(jù)庫中發(fā)揮功能。HugeGraph項(xiàng)目的核心部分,包含Core、Backend、API 等子模塊。Linux環(huán)境、安裝JDK-1.8、使用Ubuntu20.04。hugegraph.properties 配置為 RocksDB后端存儲(chǔ)方式。
HugeGraph-Loader是基于HugeGraph-Client的數(shù)據(jù)導(dǎo)入工具,將普通文本數(shù)據(jù)轉(zhuǎn)化為圖形的頂點(diǎn)和邊并插入圖形數(shù)據(jù)庫中,支持多數(shù)據(jù)源、多格式導(dǎo)入。
HugeGraph-Hubble是可視化展現(xiàn)的開發(fā)類輔助
工具:創(chuàng)建圖模型、進(jìn)行Gremlin分析、數(shù)據(jù)加載等操作。它展現(xiàn)直觀、操作便利。
Gremlin查詢語言是圖數(shù)據(jù)庫最主流的查詢語言。
3.3農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)工作機(jī)制
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)工作機(jī)制為自上而下本體解析、本體存儲(chǔ)、本體推理和數(shù)據(jù)聚合四部分,支撐跨領(lǐng)域數(shù)據(jù)聚合以及數(shù)據(jù)自動(dòng)化導(dǎo)入。圖3為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)工作機(jī)制。
本體解析:將農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)據(jù)集中的28個(gè)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體文件提取三元組,并進(jìn)行術(shù)語id的重新編號(hào),得到點(diǎn)urrent、obsolete兩種點(diǎn)類型數(shù)據(jù)文件與按關(guān)系類型分類邊類型數(shù)據(jù)文件,對(duì)文件進(jìn)行基于共現(xiàn)關(guān)系的屬性關(guān)系列名篩選。
本體儲(chǔ)存:本體解析得到的點(diǎn)類型數(shù)據(jù)文件與邊類型數(shù)據(jù)文件進(jìn)行本體映射。編寫struct點(diǎn)邊映射文件與編寫schema圖模型文件,將得到的文件導(dǎo)入圖數(shù)據(jù)中。普通文本數(shù)據(jù)轉(zhuǎn)化為圖形的頂點(diǎn)和邊并插入圖形數(shù)據(jù)庫中。
本體推理:將HugeGraph圖數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行推理,分為生物學(xué)本體關(guān)系推理和分級(jí)證據(jù)的跨關(guān)系推理兩部分。
數(shù)據(jù)聚合:將經(jīng)過推理的本體數(shù)據(jù)進(jìn)行跨領(lǐng)域、跨學(xué)科數(shù)據(jù)聚合。
3.4系統(tǒng)運(yùn)行界面
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)以HugeGraph作為管理引擎,形成以HugeGraph圖數(shù)據(jù)庫為核心的自動(dòng)化導(dǎo)入、自動(dòng)管理、本體內(nèi)和跨本體映射、本體網(wǎng)絡(luò)可視化等功能。該系統(tǒng)作為農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘平臺(tái)的子系統(tǒng),為農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘平臺(tái)做自動(dòng)數(shù)據(jù)聚合提供支撐。
該系統(tǒng)運(yùn)行環(huán)境為Linux操作系統(tǒng)、配置JDK-1.8和ubuntu20.04。hugegraph.properties 配置為 RocksDB后端存儲(chǔ)方式。
3.4.1 本體管理
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)收錄了與農(nóng)業(yè)相關(guān)的多個(gè)本體,建立與農(nóng)業(yè)密切相關(guān)的農(nóng)業(yè)通用時(shí)間本體和農(nóng)業(yè)通用空間本體,在多本體一體化數(shù)據(jù)引擎的支持下,結(jié)合具體的農(nóng)業(yè)知識(shí)本體或生物學(xué)本體進(jìn)行從時(shí)間、空間和生物學(xué)特征的全息概念描述。
本體管理模塊中,可對(duì)已存在的28個(gè)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體文件進(jìn)行分類,分為農(nóng)業(yè)實(shí)體類本體、生物信息類本體、農(nóng)業(yè)性狀表型類本體,可按照分類進(jìn)行查找,或利用左上方查找框內(nèi),進(jìn)行精準(zhǔn)查找。本體管理模塊中可對(duì)已存在的28個(gè)農(nóng)業(yè)本體文件,鏈接到對(duì)應(yīng)的網(wǎng)站,如圖4所示。
本體管理模塊可大規(guī)模多格式導(dǎo)入農(nóng)業(yè)科學(xué)數(shù)據(jù)本體。對(duì)系統(tǒng)中已存在的本體進(jìn)行編輯,有力提升了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體管理能力,如圖5和6所示。
3.4.2 本體可視化
本體可視化模塊基于HugeGraph圖數(shù)據(jù)庫,采用節(jié)點(diǎn)鏈接圖可視化,功能全面,性能穩(wěn)定,在語義關(guān)系映射、同步加載與聯(lián)合檢索方面具有自己的特色。
該系統(tǒng)可對(duì)本體進(jìn)行本體可視化、可查看對(duì)應(yīng)本體內(nèi)節(jié)點(diǎn)之間的關(guān)系和對(duì)應(yīng)單個(gè)節(jié)點(diǎn)的信息,包括對(duì)應(yīng)節(jié)點(diǎn)編號(hào)、所屬農(nóng)業(yè)科學(xué)數(shù)據(jù)本體編號(hào)、本體類型、修改時(shí)間、本體概念等,并對(duì)節(jié)點(diǎn)進(jìn)行修改,如圖7所示。
列表/圖像化切換可查看對(duì)應(yīng)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體內(nèi)節(jié)點(diǎn)對(duì)應(yīng)信息,例如序號(hào)、ontologyld、名稱和中文簡介如圖8所示。
3.5系統(tǒng)的性能與特色
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體可視化,可查看系統(tǒng)內(nèi)全部本體的相互關(guān)系與詳細(xì)信息,可將新的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體加入全部本體可視化中,如圖9所示。
以HugeGraph作為管理引擎,形成以HugeGraph圖數(shù)據(jù)庫為核心的“HugeGraph-Server+HugeGraph-Loader+HugeGraph-Hubble+Gremlin查詢語言\"農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘引擎。該系統(tǒng)設(shè)計(jì)了4層自上而下的工作機(jī)制,分別為本體解析、本體存儲(chǔ)、本體推理和數(shù)據(jù)聚合四部分。
農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)有以下四點(diǎn)性能與特色。
(1)該系統(tǒng)集成農(nóng)業(yè)科學(xué)數(shù)據(jù)本體28個(gè),術(shù)語167887條,覆蓋了包含農(nóng)業(yè)、作物、基因、序列等領(lǐng)域,形成了較為完整的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò),為數(shù)據(jù)的存儲(chǔ)和檢索,以及進(jìn)一步分析和應(yīng)用提供了重要支撐。
(2)該系統(tǒng)可實(shí)現(xiàn)格式的自動(dòng)化轉(zhuǎn)換以及自動(dòng)導(dǎo)入圖數(shù)據(jù)庫,支持大規(guī)模、多格式以及跨領(lǐng)域農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的導(dǎo)入,用戶可將上傳的本體數(shù)據(jù)格式自動(dòng)統(tǒng)一轉(zhuǎn)化并進(jìn)行術(shù)語編號(hào),并支持農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)據(jù)集構(gòu)建。為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的存儲(chǔ)與共享提供了更加標(biāo)準(zhǔn)化、規(guī)范化的工具。
(3)該系統(tǒng)可實(shí)現(xiàn)對(duì)28個(gè)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的可視化,包括本體內(nèi)和跨本體映射關(guān)系功能,包括等價(jià)映射、同義映射、上下位映射、關(guān)聯(lián)映射等,用戶可以通過編輯這種映射關(guān)系,可以更好地組織和利用本體中的信息,該功能可幫助用戶對(duì)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的進(jìn)行深入分析,發(fā)現(xiàn)隱藏的知識(shí)、模式和趨勢(shì)。
(4)該系統(tǒng)基于HugeGraph圖數(shù)據(jù)庫為核心的“HugeGraph-Server+HugeGraph-Loader+HugeGraph-Hubble+Gremlin查詢語言”農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘引擎,可實(shí)現(xiàn)自動(dòng)化導(dǎo)入、自動(dòng)管理、本體內(nèi)和跨本體映射、本體網(wǎng)絡(luò)可視化等功能,并且操作便利,界面直觀。
4結(jié)論與展望
針對(duì)當(dāng)前的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體研究大多僅針對(duì)特定的領(lǐng)域建立本體模型,且農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)量多,數(shù)據(jù)量大,缺少專有系統(tǒng)進(jìn)行管理等突出問題,本研究有針對(duì)性地設(shè)計(jì)了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng),該系統(tǒng)集成在農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘平臺(tái)上。農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)對(duì)包含農(nóng)業(yè)、作物、基因、序列在內(nèi)的相關(guān)本體組建在一起,建立“數(shù)據(jù)集-數(shù)據(jù)記錄-信息實(shí)體”映射關(guān)系機(jī)制,該系統(tǒng)具備具有自動(dòng)化導(dǎo)入、自動(dòng)管理、本體內(nèi)和跨本體映射、本體網(wǎng)絡(luò)可視化等四大類功能,有力提升了農(nóng)業(yè)科學(xué)數(shù)據(jù)本體管理能力,支撐海量數(shù)據(jù)資源高效語義關(guān)聯(lián)發(fā)布,以及數(shù)據(jù)自動(dòng)聚合的基礎(chǔ),形成農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與應(yīng)用的關(guān)鍵技術(shù)典型應(yīng)用案例。
在未來,隨著農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的發(fā)展,我們將繼續(xù)豐富數(shù)據(jù)類型,集成更多的具有代表性的農(nóng)業(yè)大領(lǐng)域本體,讓構(gòu)建的系統(tǒng)具備更廣泛的應(yīng)用價(jià)值。下一步我們將利用農(nóng)業(yè)科學(xué)數(shù)據(jù)在線分析挖掘系統(tǒng)研發(fā)的科學(xué)數(shù)據(jù)自動(dòng)化分析核心框架、典型挖掘算法工具和專用挖掘工具等,開發(fā)基于AI的農(nóng)業(yè)科學(xué)數(shù)據(jù)本體數(shù)據(jù)自動(dòng)聚合以及農(nóng)業(yè)科學(xué)數(shù)據(jù)本體智能化推理等功能[18],加速本體關(guān)系的構(gòu)建和發(fā)現(xiàn)速度[19],為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體標(biāo)準(zhǔn)化、規(guī)范化以及農(nóng)業(yè)科學(xué)數(shù)據(jù)本體建立,實(shí)現(xiàn)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的最大價(jià)值。
隨著農(nóng)業(yè)智能化的發(fā)展,農(nóng)業(yè)科學(xué)數(shù)據(jù)本體管理發(fā)展?jié)摿薮?,以推?dòng)農(nóng)業(yè)信息的標(biāo)準(zhǔn)化和規(guī)范化,實(shí)現(xiàn)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體存儲(chǔ)管理等為目標(biāo),通過分析農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的特點(diǎn),設(shè)計(jì)出農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng),將成為農(nóng)業(yè)科學(xué)數(shù)據(jù)本體科學(xué)研究的助推劑,以解決農(nóng)業(yè)科學(xué)數(shù)據(jù)本體領(lǐng)域“數(shù)據(jù)量大,缺乏專一系統(tǒng)管理”的痛點(diǎn)難點(diǎn),充分發(fā)揮農(nóng)業(yè)科學(xué)數(shù)據(jù)本體的價(jià)值,形成農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)與應(yīng)用的關(guān)鍵技術(shù)典型應(yīng)用案例。引領(lǐng)農(nóng)業(yè)科學(xué)數(shù)據(jù)本體智能化、規(guī)范化發(fā)展。
參考文獻(xiàn)
[1]QIAN P,MENG X X,ZHENGYL,et al.Preliminary study on agricultural ontology services in China. Agriculture Network Information,2009,8:5-8.
[2] ZHENG YL,HE Q Y,QIAN P,et al.Construction of the ontology-based agricultural knowledgemanagementsystem.Journal ofIntegrative Agriculture,2012,11(5):700-709. doi:10.1016/S2095- 3119(12)60059-8.
[3] 龍科.放眼未來搶占農(nóng)業(yè)科學(xué)大數(shù)據(jù)高地- -國家農(nóng)業(yè)科學(xué)數(shù)據(jù)總 中心側(cè)記.農(nóng)村工作通訊,2020(2):34-35.
[4] 苗羽,張志娟,王楓.我國農(nóng)業(yè)科學(xué)數(shù)據(jù)服務(wù)現(xiàn)狀及問題研究.農(nóng)業(yè)經(jīng) 濟(jì),2024(4):27-28.
[5] 陸麗娜,尹麗紅,于嘯,等.基于區(qū)塊鏈的農(nóng)業(yè)科學(xué)數(shù)據(jù)溯源模型構(gòu)建 研究.情報(bào)科學(xué),2024:1-13[2024-11-10].
[6] 楊倩.基于本體的農(nóng)業(yè)科學(xué)數(shù)據(jù)可視化研究.鎮(zhèn)江:江蘇大學(xué), 2022.
[7] 趙波,陶躍華.本體論及本體論在計(jì)算機(jī)科學(xué)技術(shù)中的應(yīng)用.云南師 范大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(6):5-7.
[8]LAUSER B,WILDEMANN T, KATZ S,et al.A Comprehensive framework forbuilding multilingual domain ontologies: Creatinga prototype biosecurity ontology.Dublin Core Conference,2002: 31- 41. DOI:10.555/1344614.1344626.
[9]GO CONSORTIUM.The Gene Ontology(GO) database and informatics resource.Nucleic Acids Research, 2004,32(s1):D258-61. DOI:10.1093/nar/gkh036.
[10] 陳麗娜,方為,司海平,等.農(nóng)作物種質(zhì)資源本體構(gòu)建研究.作物學(xué) 報(bào),2016,42(3):407-414.
[11]楊陽.農(nóng)業(yè)本體知識(shí)云綜合方法研究.合肥:安徽農(nóng)業(yè)大學(xué),2018.
[12] HORRIDGE M, GONCALVES R S, NYULAS CI, et al. Webprotege: A cloud-based ontology editor//Companion Proceedings of the 2019 World Wide Web Conference.2019:686-689.DOI:10.1145/3308560. 3317707.
[13]JONQUET C,TOULET A,ARNAUD E,et al.AgroPortal:A vocabulary and ontology repository for agronomy.Computersand ElectronicsinAgriculture,2018(144):126-143.DOI:10.1016/j. compag. 2017.10.012.
[14] WEITEN M. Ontostudio? as a ontology enginering environment. In Semantic Knowledge Management: Integrating Ontology Management, Knowledge Discovery,and Human Language Technologies.Berlin, Heidelberg:Springer Berlin Heidelberg,2009:51-60.DOI:10.1007/ 978-3-540-88845-1.
[15] 彭秀媛.農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式與技術(shù)系統(tǒng)研究.北京:中國農(nóng)業(yè)科 學(xué)院,2018.
[16]劉桂鋒,楊倩,劉瓊.農(nóng)業(yè)科學(xué)數(shù)據(jù)集的本體構(gòu)建與可視化研究- 以“棉花病害防治”領(lǐng)域?yàn)槔?情報(bào)雜志,2022,41(9):143-149+175.
[17] CHEN Y, XING X. Constructing dynamic knowledge graph based on ontology modeling and neo4j graph database//2022 5th International Conferenceon Artificial Intelligence andBig Data (ICAIBD), Chengdu, China,2022:522-525.doi: 10.1109/ICAIBD55127.2022. 9820199.
[18]SANJU S,KRITHIKHA,VELAMMAL B. Innovative agricultural ontology construction using NLP methodologies and graph neural network.Engineering Science and Technology,an International Journal,2024,52:101675.DOI:10.1016/j.jestch.2024.101675.
[19] KASENCHAK B,LEHNERT A, LOH G Use case: ontologies and RDF-star for knowledge management/The Semantic Web: ESWC 2021Satellievents:Virtalvent.pringerInteatioalPublishing, 2021,RevisedSelected Papers18:254-260.DOI:10.1007/ 978-3-030-80418-3_38.
引用格式:陳曉靜,趙曉燕,賀子康,林佳,李佳樂,申家煒,樊景超,閆桑,王健,張建華,周國民.農(nóng)業(yè)科學(xué)數(shù)據(jù)本體網(wǎng)絡(luò)系統(tǒng)研發(fā)[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報(bào),2025,7(2):201-212. DOI: 10.19788/j.issn.2096-6369.000083.
CITATION:CHENiaJing,ZHAOiaYan,HEKang,LIJia,LaLe,HEJaWeiFAgChaoYhen,WANGJianZHua ZHOUGuoMin.ResearchandDevelopmentofAgricultural ScienceDataOntologyNetwork System[J].JourmalofAgriculturalBig Data,2025,7(2):201-212. DOI: 10.19788/j.issn.2096-6369.000083.
Abstract:Theconstructionofagriculturalsciencedataontologynetwork isanimportantpartofagriculturalsciencedataanalysis andmining.Itcanintegratedatasateredindifferentdatabasesanddierentformatscorelateandintegatedatafrodierent fields toformamorecomprehensivedata pol,supportautomaticanalysisandmningofcross-domainand interdiscipliarydata anddiscoverhiddenknowledge,patesandtrends.Inthispaper,adatabaseof28agriculturalsciencedataotologiesrelatedto agriculture,osgsndqenesisostructed,teoageadardoficulturalieedatatologsflatedte agriculturalscienedata ontologynetwork basedonthe HugeGraph graph database isbuilt,the mappingrelationshipmechanismof \"dataset-datacord-iformationentity\"isestablished,andthetchnicalframeworkfriculturalsienceataontologyetwork system is designed.The systemrealizes the functions of automaticimport,automaticmanagementandontologynetwork visualization,breaksthroughtheoutstandingproblemssuchastheargeumberofagiculturalontologies,thelargeamountofdata andthelackof proprietarysystems for management,and developsanagricultural scientificdataontologynetwork systemthat integrates four majorfunctions,such aslarge-scale muli-format agricultural scienificdataontologyimport,ontology managemnt, ontologyandcross-ontologymappingrelationshipediting,andontologynetwork visualization,whichefectivelyimprovsthe managementabilityofagriculturalsientificdata ontology.Itsupportstheeficientsemanticassociationandreleaseofmasivedata resourcesandteutomaticaggregationofross-domaianditerdisiplinarydatahichlastefoundationforoieaalyisd mining of agricultural scientific data.
Keywords:agriculturalsciencedata;agriculturalsciencedataontologylibrary;agriculturalsciencedataontologynetwork; agricultural science data ontology network system; ontology network visualization