劉桂鋒 楊 倩 劉 瓊
(江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013)
2001年,國家科技部啟動了“科學(xué)數(shù)據(jù)共享工程”,該項目應(yīng)用現(xiàn)代信息技術(shù),整合離散的科學(xué)數(shù)據(jù)資源,實現(xiàn)對科學(xué)數(shù)據(jù)資源的規(guī)范化管理及利用[1]。農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心(項目編號:2005DKA31800)在“國家科學(xué)數(shù)據(jù)共享工程”建設(shè)總體框架下,以國家科學(xué)數(shù)據(jù)共享的規(guī)劃為依據(jù),以滿足國家和社會對農(nóng)業(yè)科學(xué)數(shù)據(jù)共享服務(wù)需求為目的,立足于農(nóng)業(yè)部門,通過集成、整合、引進(jìn)、交換等方式匯集國內(nèi)外農(nóng)業(yè)科技數(shù)據(jù)資源,規(guī)范化加工處理、分類存儲,最終形成覆蓋全國,聯(lián)結(jié)世界,提供共享服務(wù)的網(wǎng)絡(luò)體系[2]。我國學(xué)者對國家農(nóng)業(yè)數(shù)據(jù)的研究主要集中在農(nóng)業(yè)科學(xué)數(shù)據(jù)中心資源和共享服務(wù)等建設(shè),從數(shù)據(jù)資源、共享服務(wù)、網(wǎng)絡(luò)環(huán)境、組織管理、標(biāo)準(zhǔn)制定等角度介紹中心的現(xiàn)狀[3-4],分中心建設(shè)現(xiàn)狀[5],多個數(shù)據(jù)平臺比較分析[6],論述國內(nèi)外數(shù)據(jù)平臺發(fā)展歷程[1,7],中心的搜索引擎技術(shù)的研究[8]等方面做出探討。雖有學(xué)者[9]曾提出國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心未能實現(xiàn)不同數(shù)據(jù)集間關(guān)聯(lián)的重點問題,但并沒有得到廣泛的關(guān)注、深入和有效的探索。因此,利用本體構(gòu)建并發(fā)現(xiàn)中心數(shù)據(jù)資源之間相關(guān)的研究尚未發(fā)現(xiàn)。
本文以國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)庫為研究對象,從中抽取相關(guān)領(lǐng)域的數(shù)據(jù),實現(xiàn)農(nóng)業(yè)數(shù)據(jù)資源各類數(shù)據(jù)資源間的關(guān)聯(lián)和檢索結(jié)果的可視化。首先以“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”為例實現(xiàn)兩個數(shù)據(jù)庫之間的數(shù)據(jù)關(guān)聯(lián),其次利用Protégé5.5.0本體構(gòu)建工具構(gòu)建“棉花病害防治”領(lǐng)域本體,實現(xiàn)農(nóng)業(yè)科學(xué)數(shù)據(jù)中心各數(shù)據(jù)集之間一站式管理、檢索和獲取,最后創(chuàng)建并可視化數(shù)據(jù)資源的關(guān)聯(lián),呈現(xiàn)以數(shù)據(jù)作為對象的去中心化立體網(wǎng)狀結(jié)構(gòu)。
國外對本體構(gòu)建的研究開展得較早,關(guān)于農(nóng)業(yè)領(lǐng)域相關(guān)的本體構(gòu)建也在逐步發(fā)展中。聯(lián)合國糧農(nóng)組織(FAO)提出農(nóng)業(yè)本體服務(wù)(AOS)[10]后,對我國農(nóng)業(yè)本體建設(shè)具有重要意義。聯(lián)合國糧農(nóng)組織(FAO)曾啟動農(nóng)業(yè)本體服務(wù)項目(Agricultural Ontology Service,AOS)致力于推進(jìn)農(nóng)業(yè)本體相關(guān)研究,并且創(chuàng)建漁業(yè)本體(Fishery Ontology)、作物-有害生物本體、抗菌本體等[11]。隨后,大量農(nóng)業(yè)本體被研究與開發(fā),如作物本體(Crop Ontology)、基因本體(Gene Ontology,GO)、農(nóng)業(yè)活動本體(Agriculture Activity Ontology)等。
常春[11]將AOS介紹到國內(nèi),是我國農(nóng)業(yè)本體研究的開端。自2000年以來,農(nóng)業(yè)本體相關(guān)研究不斷出現(xiàn)。農(nóng)業(yè)領(lǐng)域本體的構(gòu)建原則、構(gòu)建流程、構(gòu)建方法被許多學(xué)者闡述研究[12-13]。在此基礎(chǔ)上,學(xué)者們基于農(nóng)業(yè)領(lǐng)域的特殊性提出了適合農(nóng)業(yè)領(lǐng)域的構(gòu)建原則與方法、構(gòu)建流程[14]。除了構(gòu)建過程與本體理論的研究外,還將本體構(gòu)建的實踐應(yīng)用到農(nóng)業(yè)領(lǐng)域的多個方面。農(nóng)業(yè)本體構(gòu)建主要對象面向于農(nóng)作物的生產(chǎn)栽培、農(nóng)作物病蟲害防治、農(nóng)作物銷售經(jīng)濟(jì)等方面。其中,農(nóng)作物病蟲害防治的本體相關(guān)研究最為廣泛,學(xué)者們對以下具體領(lǐng)域關(guān)注程度依次遞減:水稻病蟲害[14]、玉米病蟲害[15]、茶病蟲害[16]、柑橘病蟲害[17]、番茄病蟲害[18]、魚病[19]、蔬菜病蟲害、獼猴桃病蟲害、枸杞病蟲害、蚜蟲天敵等。其次,農(nóng)作物的生產(chǎn)與栽培也有較多的研究,包括水稻栽培[20]、玉米栽培[21]、豬生產(chǎn)學(xué)[22]、奶牛養(yǎng)殖、茶葉生產(chǎn)、水產(chǎn)養(yǎng)殖、田養(yǎng)鴨生態(tài)種養(yǎng)、農(nóng)作物種質(zhì)資源等。再次,對農(nóng)作物銷售與農(nóng)作物經(jīng)濟(jì)相關(guān)的研究,包括農(nóng)業(yè)經(jīng)濟(jì)[23]、農(nóng)產(chǎn)品分類[24]、水稻銷售、涉農(nóng)商品等。除此之外,相對罕見的領(lǐng)域研究有花卉學(xué)[25]、古農(nóng)學(xué)[26]、農(nóng)業(yè)古籍、農(nóng)業(yè)災(zāi)害應(yīng)急處置、農(nóng)業(yè)生產(chǎn)資料等。
大數(shù)據(jù)環(huán)境下資源對象類型呈現(xiàn)多樣化,其組織形式由文件為核心向數(shù)據(jù)為中心轉(zhuǎn)化,數(shù)據(jù)和數(shù)據(jù)之間通過富含語義鏈接的形式構(gòu)成了蘊含價值的數(shù)據(jù)網(wǎng)絡(luò)。數(shù)據(jù)既為領(lǐng)域應(yīng)用提供了便利,也為便利性的實現(xiàn)提出了難題,需要采取不同的知識組織方法[27],元數(shù)據(jù)、本體、關(guān)聯(lián)數(shù)據(jù)為面向領(lǐng)域的大數(shù)據(jù)知識組織方法提供了具體技術(shù)。大量農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)存在不同的系統(tǒng)中,缺少統(tǒng)一的形式化表達(dá),難以對其進(jìn)行整合和利用,因此學(xué)界對農(nóng)業(yè)數(shù)據(jù)的知識組織開展了大量研究工作。
農(nóng)業(yè)領(lǐng)域的本體研究主要集中在農(nóng)業(yè)數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)再利用階段。a.數(shù)據(jù)采集。Aydin等學(xué)者提出了一個通用的基于本體的數(shù)據(jù)采集模型,創(chuàng)建了基于模型-視圖-控制器(MVC)設(shè)計模式的榛子農(nóng)產(chǎn)品相關(guān)數(shù)據(jù)采集表,以快速、獨立地獲取所需數(shù)據(jù),為利益相關(guān)者提供在農(nóng)業(yè)開放數(shù)據(jù)平臺上發(fā)布和使用[28]。b.數(shù)據(jù)存儲。de Castro等學(xué)者通過數(shù)據(jù)清理、術(shù)語提取和排序、鏈接到相關(guān)本體或詞匯表術(shù)語,以通過標(biāo)簽連接找到其他相關(guān)數(shù)據(jù)集,并開發(fā)了 Relevant Tag Extractor (RTagE),實現(xiàn)從數(shù)據(jù)集中提取術(shù)語,對它們進(jìn)行排名并將其與外部資源相關(guān)聯(lián)[29]。c.數(shù)據(jù)再利用。Neves等學(xué)者針對公有云和私有云環(huán)境的本體,架構(gòu)處理進(jìn)程級別的語義模型,以滿足糧食生產(chǎn)決策時需要各類型數(shù)據(jù)系統(tǒng)之間的關(guān)聯(lián)數(shù)據(jù)[30];Rodríguez-García等學(xué)者基于現(xiàn)有的自然語言處理資源開發(fā)了一個自動本體填充工具將來自多個不同來源的數(shù)據(jù)建立一個完整的農(nóng)業(yè)知識庫,建立一個基于知識的作物害蟲識別器,能夠識別多種重疊的害蟲,幫助農(nóng)民做出有關(guān)病蟲害控制的決策[31];Nimmagadda等人采用設(shè)計科學(xué)研究 (DSR) 方法,具有全面的多維本體,設(shè)計和開發(fā)基于本體的數(shù)據(jù)倉庫框架,實現(xiàn)各種基于農(nóng)業(yè)的復(fù)雜網(wǎng)絡(luò)系統(tǒng)之間的關(guān)聯(lián)[32]。
基于本體的知識表示方案通過建立屬于底層域的不同術(shù)語之間的關(guān)系而蓬勃發(fā)展,利用本體技術(shù)對農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范化后形成知識組織,已經(jīng)成為提高農(nóng)業(yè)數(shù)據(jù)利用價值、為決策服務(wù)提供支撐的一種有效途徑,但國內(nèi)的相關(guān)研究明顯偏少,農(nóng)業(yè)領(lǐng)域各子域之間的自動化識別、不同術(shù)語之間可能存在的關(guān)系依然具有挑戰(zhàn)性。農(nóng)業(yè)數(shù)據(jù)的本體構(gòu)建方法采用最多的是半自動構(gòu)建,即將農(nóng)業(yè)敘詞表和知識分類組織轉(zhuǎn)化為本體的研究。常用的農(nóng)業(yè)敘詞表有中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所編制的中國農(nóng)業(yè)敘詞表(Chinese Agricultural Thesaurus,CAT)、FAO創(chuàng)建的AGROVOC(多語種農(nóng)業(yè)主題詞表)、美國國家農(nóng)業(yè)圖書館創(chuàng)建的NALT美國國家農(nóng)業(yè)圖書館敘詞表、歐盟創(chuàng)建和維護(hù)的EUROVOC(歐盟農(nóng)業(yè)主題詞表)。
國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心數(shù)據(jù)資源豐富,以“數(shù)據(jù)庫-數(shù)據(jù)集”的模式存儲著519個數(shù)據(jù)庫(集),96個匯交數(shù)據(jù)庫(集),9個專題數(shù)據(jù)庫,13篇數(shù)據(jù)論文,大量且跨主題跨學(xué)科的數(shù)據(jù)資源通過分類體系被組織與整合。
國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心曾采用過三種分類方法:學(xué)科數(shù)據(jù)分類、中圖數(shù)據(jù)分類、數(shù)據(jù)產(chǎn)品分類,目前國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心門戶網(wǎng)站所采用的是學(xué)科數(shù)據(jù)分類的方法。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心按照學(xué)科分類,下設(shè)12個一級類目,52個二級類目。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心分類組織了作物科學(xué)、動物科學(xué)與動物醫(yī)學(xué)、熱作科學(xué)、漁業(yè)科學(xué)、草地與草業(yè)科學(xué)、農(nóng)業(yè)資源與環(huán)境科學(xué)、植物保護(hù)科學(xué)、農(nóng)業(yè)微生物科學(xué)、食品營養(yǎng)與加工科學(xué)、農(nóng)業(yè)工程、農(nóng)業(yè)經(jīng)濟(jì)科學(xué)、農(nóng)業(yè)科技基礎(chǔ)、果樹科學(xué)、生物安全等14個學(xué)科的數(shù)據(jù)資源。其中,作物科學(xué)、動物科學(xué)與動物醫(yī)學(xué)、熱作科學(xué)、漁業(yè)科學(xué)、草地與草業(yè)科學(xué)、農(nóng)業(yè)資源與環(huán)境科學(xué)、農(nóng)業(yè)科技基礎(chǔ)等7個學(xué)科分別設(shè)立分中心,分中心因各學(xué)科特色又設(shè)置更為細(xì)致的多級層次類目劃分。
本文梳理國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心的分類組織體系,運用本體構(gòu)建工具Protégé5.5.0在OntoGraf窗口可視化國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心類目層級,可見一級類目與二級類目,二級類目與三級類目的關(guān)系是subClass-Of的種屬關(guān)系,其中,棉麻類作物病原真菌病害數(shù)據(jù)庫是三級類目中“病蟲害”的實例,如圖1所示。
為了實現(xiàn)服務(wù)于用戶需求,達(dá)到數(shù)據(jù)集的定位、查詢與檢索,國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心對數(shù)據(jù)集描述做了明確規(guī)范,《農(nóng)業(yè)科學(xué)數(shù)據(jù)公共數(shù)據(jù)元標(biāo)準(zhǔn)》[33]包括《農(nóng)業(yè)科學(xué)數(shù)據(jù)公共數(shù)據(jù)元標(biāo)準(zhǔn)(NADC004)》《農(nóng)業(yè)科學(xué)數(shù)據(jù)分類與編碼標(biāo)準(zhǔn)(NADC005)》《農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)(NADC006)》。其中,《農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)(NADC006)》定義了完整描述一個具體對象時所需要的數(shù)據(jù)項集合,各數(shù)據(jù)項目語義定義和著錄規(guī)則等。核心元數(shù)據(jù)是數(shù)據(jù)描述的重要組成部分,農(nóng)業(yè)科學(xué)數(shù)據(jù)中心核心元數(shù)據(jù)元素是元數(shù)據(jù)子集和實體中必選的元數(shù)據(jù)元素,可用于數(shù)據(jù)集編目、數(shù)據(jù)交換網(wǎng)站活動和對數(shù)據(jù)集的描述,農(nóng)業(yè)科學(xué)數(shù)據(jù)核心元數(shù)據(jù)是唯一標(biāo)識一個數(shù)據(jù)集所需的最少元數(shù)據(jù)內(nèi)容[9]。數(shù)據(jù)集包含一個或多個數(shù)據(jù)資源[34],針對描述數(shù)據(jù)集的核心元數(shù)據(jù)詳見表1。第一列是核心元數(shù)據(jù)的中文名稱,第二列是核心元數(shù)據(jù)的英文名稱,第三、四列是對核心元數(shù)據(jù)的定義及注解。
圖1 國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心分類圖
表1 描述數(shù)據(jù)集的核心元數(shù)據(jù)
續(xù)表1 描述數(shù)據(jù)集的核心元數(shù)據(jù)
國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心不同學(xué)科數(shù)據(jù)集獨立地存儲于不同分類體系的數(shù)據(jù)庫下,各個分?jǐn)?shù)據(jù)庫中的數(shù)據(jù)無法進(jìn)行關(guān)聯(lián)檢索,不能呈現(xiàn)數(shù)據(jù)集之間的相關(guān)性,本文將通過本體構(gòu)建,對不同分類體系數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行關(guān)聯(lián),以實現(xiàn)數(shù)據(jù)增值與知識發(fā)現(xiàn)的功能。
由于國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心對數(shù)據(jù)集描述的規(guī)范存在必選項、可選項、條件必選項三種情況,兩個數(shù)據(jù)集所使用的元數(shù)據(jù)不完全一致。因此要實現(xiàn)國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心所有數(shù)據(jù)集的關(guān)聯(lián),需要選擇標(biāo)準(zhǔn)規(guī)范下數(shù)據(jù)集核心元數(shù)據(jù)必選項進(jìn)行關(guān)聯(lián)。要對任意兩個數(shù)據(jù)集實現(xiàn)關(guān)聯(lián),僅需要選擇兩個數(shù)據(jù)集共同擁有的元數(shù)據(jù)進(jìn)行關(guān)聯(lián)。
以三元組模式進(jìn)行假設(shè),A是數(shù)據(jù)集A,a是對數(shù)據(jù)集A的描述,即元數(shù)據(jù),1是對數(shù)據(jù)集A的描述內(nèi)容;B是數(shù)據(jù)集B,b是對數(shù)據(jù)集B的描述,即元數(shù)據(jù),2是對數(shù)據(jù)集B的描述內(nèi)容;與若要實現(xiàn)關(guān)聯(lián),需要三個元素中至少存在一個元素是一致的;數(shù)據(jù)集A與數(shù)據(jù)集B必然是不一致的數(shù)據(jù)集,否則,存在數(shù)據(jù)重復(fù)與數(shù)據(jù)冗余問題;a與b是分別對數(shù)據(jù)集A與數(shù)據(jù)集B的描述,數(shù)據(jù)集A與數(shù)據(jù)集B是不同的兩個數(shù)據(jù)集,但是他們本質(zhì)上都是數(shù)據(jù)集,因此,對數(shù)據(jù)集的描述是可以從一個角度出發(fā),即:數(shù)據(jù)集的同一屬性;1與2分別是數(shù)據(jù)集A與B的描述內(nèi)容,同一元數(shù)據(jù)的情況下可能會出現(xiàn)同一描述內(nèi)容,比如數(shù)據(jù)集A與數(shù)據(jù)集B的數(shù)據(jù)集負(fù)責(zé)方是一致的,即對引用資源負(fù)責(zé)的人是同一個人。
現(xiàn)選取“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”兩個數(shù)據(jù)庫作為上述關(guān)聯(lián)原理的實證。關(guān)聯(lián)是事物相互之間發(fā)生牽連和影響,注定了關(guān)聯(lián)的主體至少兩個以上。選擇“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”的原因在于二者之間有很強(qiáng)的關(guān)聯(lián)性,體現(xiàn)在元數(shù)據(jù)和描述內(nèi)容的一致上,即三元組中謂語集合與賓語集合中分別存在一致性的元素。而且,以上兩個數(shù)據(jù)庫不僅在數(shù)據(jù)庫(集)存在可關(guān)聯(lián)性,其數(shù)據(jù)內(nèi)容本身也存在可關(guān)聯(lián)性,可作為“棉花病害防治”本體構(gòu)建的數(shù)據(jù)來源。
通過國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心門戶網(wǎng)站獲取描述“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”的信息,發(fā)現(xiàn)二者的數(shù)據(jù)集負(fù)責(zé)人姓名都是“張克誠”,即核心元數(shù)據(jù)數(shù)據(jù)集負(fù)責(zé)方信息。分別用三元組表示為<棉麻類作物病原真菌病害數(shù)據(jù)庫,數(shù)據(jù)集負(fù)責(zé)方,張克誠>與<微生物農(nóng)藥數(shù)據(jù)庫,數(shù)據(jù)集負(fù)責(zé)方,張克誠>。圖2是運用Protégé5.5.0構(gòu)建對數(shù)據(jù)庫描述的相關(guān)本體,并在OntoGraf窗口“Search”搜索框輸入“張克誠”進(jìn)行查詢,可以得到“張克誠”是“微生物農(nóng)藥數(shù)據(jù)庫”的生產(chǎn)者,同時也是“棉麻類作物病原病害數(shù)據(jù)庫”的生產(chǎn)者。通過關(guān)聯(lián)的實現(xiàn),用戶可以實現(xiàn)語義檢索,并能夠直觀表明檢索內(nèi)容與其他相關(guān)內(nèi)容。可視化的瀏覽模式滿足用戶方便快速的獲取需求,滿足用戶準(zhǔn)確定位、知識發(fā)現(xiàn)的需求。
圖2 基于數(shù)據(jù)庫元數(shù)據(jù)的OntoGraf檢索
在“棉花病害防治”本體構(gòu)建的過程中,是以“國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心”的“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”中的數(shù)據(jù)為主要數(shù)據(jù)源,并結(jié)合《中國分類主題詞表》《農(nóng)業(yè)科學(xué)敘詞表》《漢語主題詞表》《中國圖書館分類法》中的分類和術(shù)語進(jìn)行構(gòu)建。本文采用自上而下和自下而上相結(jié)合的方法,根據(jù)構(gòu)建主題的需要,在7步法的基礎(chǔ)上制定出適當(dāng)合理的構(gòu)建順序。
由于本文所構(gòu)建實例領(lǐng)域范圍較小,需要依據(jù)國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心提供數(shù)據(jù)集抽取數(shù)據(jù),提取概念術(shù)語和關(guān)系,可借鑒參考的本體可能性不大。因此,本文將7步法第二步驟復(fù)用現(xiàn)有本體減略,進(jìn)入第三步驟定義本體的概念術(shù)語。7步法是在定義完屬性之后創(chuàng)建實例,筆者認(rèn)為不符合Protégé本體構(gòu)建工具的構(gòu)建環(huán)境,本文是在添加完實例的前提下確定屬性。屬性在Protégé5.5.0中,表現(xiàn)為object property(對象屬性)、datatype property(數(shù)據(jù)屬性)、annotation property(描述屬性),annotation property可以在定義概念術(shù)語時添加,確定屬性的工作主要分為確定object property和確定datatype property,即為“定義類的屬性”和“定義類的分面”。本文在“棉花病害防治”本體構(gòu)建中,定義屬性的側(cè)重點在確定object property。7步法與本文構(gòu)建步驟,見表2。
表2 7步法與本文構(gòu)建步驟比較
本文對國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心揭示數(shù)據(jù)資源的研究,通過抽取數(shù)據(jù)集資源內(nèi)在數(shù)據(jù),以跨“數(shù)據(jù)集”“數(shù)據(jù)庫”的方式發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,構(gòu)建“棉花病害防治”領(lǐng)域本體,將呈現(xiàn)出以數(shù)據(jù)作為對象的去中心化立體網(wǎng)狀結(jié)構(gòu)。最終,將推動實現(xiàn)農(nóng)業(yè)科學(xué)數(shù)據(jù)的管理、檢索和獲取,揭示農(nóng)業(yè)科學(xué)數(shù)據(jù)資源,創(chuàng)建并可視化數(shù)據(jù)資源的關(guān)聯(lián)關(guān)系。
“棉花病害防治”是一個具有系統(tǒng)性,涉及多方面范疇的主題,包括農(nóng)業(yè)科學(xué)、植物保護(hù)、化學(xué)、農(nóng)藥學(xué)等?!懊藁ā毕嚓P(guān)的知識非常復(fù)雜龐大,本體構(gòu)建不可能包括“棉花”所有的知識。因此,此次本體的構(gòu)建主要以“棉花病害防治”為主題,將為“國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心”的數(shù)據(jù)使用者提供服務(wù)作為應(yīng)用目標(biāo)。農(nóng)作物病蟲害防控知識本體就是刻畫農(nóng)作物病蟲害領(lǐng)域知識概念、公理、屬性、關(guān)系、規(guī)則和過程的一種規(guī)范形式化模型,其目標(biāo)是實現(xiàn)農(nóng)作物病蟲害防控知識融會、共享和重用。
依據(jù)“棉花病害防治”領(lǐng)域本體的范疇,抽取“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”中的數(shù)據(jù),主要以“形態(tài)”、“病害”、“棉花”、“農(nóng)藥”等相關(guān)概念作為頂層概念框架進(jìn)行定義。通過查詢《中國分類主題詞表》《農(nóng)業(yè)科學(xué)敘詞表》《漢語主題詞表》《中國圖書館分類法》等詞表,比如:可以確定“棉”歸屬于“S農(nóng)業(yè)科學(xué)-S5農(nóng)作物-S56經(jīng)濟(jì)作物-S561纖維作物”,同屬于“Q94植物學(xué)-Q949植物分類學(xué)-Q949.4種子植物-Q949.7被子植物亞門-Q949.72雙子葉植物綱-Q949.757錦葵”。
在確定本體的相關(guān)概念后,對類和類的層級進(jìn)行劃分。以頂層本體作為本體構(gòu)建的框架,本體框架對本體構(gòu)建的穩(wěn)定性具有重要意義。因此,將形態(tài)、病害、棉區(qū)、農(nóng)藥、植物、農(nóng)作物作為頂層本體。二級類劃分如下:形態(tài)——整株;病害——非侵染性病害、侵染性病害;棉區(qū)——中國棉區(qū);農(nóng)藥——農(nóng)用抗生素;植物——錦葵科棉屬植物;農(nóng)作物——經(jīng)濟(jì)類纖維作物;運用Protégé5.5.0構(gòu)建類與類的層級,“Class hierarchy”界面進(jìn)行展示,見圖3。
圖3 “棉花病害防治”類層級圖
本體中的實例是指附屬于某個具體本體術(shù)語的成員,是本體中被處理的具體數(shù)據(jù)對象。添加“整株”實例:根、莖、葉、蕾鈴、果枝;添加“侵染性病害”實例:棉花枯萎病、棉花立枯病、棉花黑根腐病;參考《中國農(nóng)業(yè)區(qū)劃的理論與實踐》對中國棉區(qū)的劃分,添加“中國棉區(qū)”實例:長江流域棉區(qū)、黃河流域棉區(qū)、西北內(nèi)陸棉區(qū)、北部特早熟棉區(qū)、華南棉區(qū);添加“農(nóng)用抗生素”實例:武夷菌素、井岡霉素、梧寧霉素。本體構(gòu)建工具Protégé5.5.0 “Individual by Class”界面進(jìn)行展示,如圖4。
圖5 “棉花病害防治”添加實例圖
屬性的數(shù)據(jù)類型分為數(shù)據(jù)屬性(datatype property)和對象屬性(object property),對象屬性(object property)指的是概念術(shù)語與概念術(shù)語之間的關(guān)系,主要是指類與類之間的關(guān)系、實例與實例之間的關(guān)系,具有明顯的指向性;數(shù)據(jù)屬性(datatype property)是指描述自身的屬性,是與RDF(XML Schema)數(shù)據(jù)類型之間的關(guān)系,包括字符型、數(shù)值型、布爾型、時間日期型等,數(shù)據(jù)型的值域是對屬性的取值范圍和約束條件的限定性說明。
對屬性規(guī)范化定義,描述明確概念之前的關(guān)系,從而形成直觀立體的語義關(guān)系網(wǎng)[35]。本文研究中,概念體系涉及的通用語義關(guān)系見表3。
表3 本體通用語義關(guān)系表
除了通用語義關(guān)系,創(chuàng)建者還可以根據(jù)構(gòu)建本體的需求自定義關(guān)系。本研究自定義關(guān)系見表4,創(chuàng)建者并規(guī)范了自定義關(guān)系的定義域(Domains)和取值范圍值域(Ranges),將定義域(Domains)中的個體連接到取值域(Ranges)的個體。Domains是指屬性左側(cè)的個體所屬的類,Ranges是指屬性右側(cè)的個體所屬的類。比如屬性Destroy將屬于“病害”類的個體,連接到屬于“形態(tài)”類的個體。
表4 本體自定義關(guān)系表
通過自定義關(guān)系,可以據(jù)此構(gòu)建類與類之間的關(guān)系,見圖5。例如:“棉花”“damaged”“病害”,“棉花”“grow in”“棉區(qū)”,“棉花”“sprayed”“農(nóng)藥”。由于“damaged”與“damage”的互逆性,在Protégé中為“damaged”“inverse of”“damage”,得知“病害”“damage”“棉花”。
圖5 “棉花病害防治”類之間關(guān)系圖
通過手工提取“微生物農(nóng)藥數(shù)據(jù)庫”與“棉麻類作物病害數(shù)據(jù)庫”的數(shù)據(jù),可以發(fā)現(xiàn)概念之間的關(guān)系,棉花立枯病危害棉苗,棉花枯萎病危害棉苗,棉花黑根腐病危害根莖木質(zhì)部。而且,棉花枯萎病是世界性的危險病害,在我國大部分棉區(qū)均有發(fā)生。其中山東、河南、河北、山西、陜西、江蘇、四川等省發(fā)病較重,即主要發(fā)病區(qū)為黃河流域棉區(qū)、北部特早熟棉區(qū)、長江流域棉區(qū)。棉花立枯病全國各棉區(qū)均有發(fā)生,以黃河流域棉區(qū)發(fā)生較重。棉花黑根腐病主要發(fā)生于新疆阿克蘇地區(qū),屬于西北內(nèi)陸棉區(qū)。武夷菌素可以防治棉花立枯病,井岡霉素防治棉花黑根腐病,梧寧霉素防治棉花枯萎病。依據(jù)上述關(guān)系,將實例與實例之間關(guān)聯(lián)起來,見圖6。
圖6 “棉花病害防治”實例之間關(guān)系添加
在Protégé5.5.0本體構(gòu)建工具OntoGraf界面“Search”搜索框輸入“棉花立枯病”進(jìn)行查詢,可以得到“棉花立枯病”實例相關(guān)信息,圖7中展示了“棉花立枯病”相關(guān)的類與實例,“棉花立枯病”屬于“侵染性病害”超類,“棉花立枯病”破壞“棉苗”,“棉花立枯病”主要發(fā)生在“黃河流域棉區(qū)”,“武夷菌素”可以防治“棉花立枯病”。
圖8是Protégé5.5.0窗口OWLViz對“棉花病害防治”的類目層級可視化,一級類目與二級類目,二級類目與三級類目之間保持父類與子類“is-a”的繼承關(guān)系。
圖7 “棉花立枯病”ontograf查詢
圖8 “棉花病害防治”類層次OWL Viz圖
利用本體思想對農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)進(jìn)行標(biāo)引,通過予以關(guān)系和推理規(guī)則將相關(guān)概念和信息進(jìn)行關(guān)聯(lián),從而使分散的農(nóng)業(yè)領(lǐng)域數(shù)據(jù)實現(xiàn)智能分析、知識組織和信息預(yù)測。國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心分類體系龐大,數(shù)據(jù)集量大且獨立存儲,雖然都采用規(guī)范化存儲,但互不交叉的存儲方式不利于數(shù)據(jù)的再利用,不利于知識發(fā)現(xiàn)和智能搜索。利用本體構(gòu)建實現(xiàn)農(nóng)業(yè)領(lǐng)域不同子集之間的關(guān)聯(lián)可視化,是當(dāng)前本體構(gòu)建的難點。本文根據(jù)國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心的數(shù)據(jù)集的特點,對本體構(gòu)建的七步法進(jìn)行了改進(jìn),抽取國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心“棉麻類作物病原真菌病害數(shù)據(jù)庫”和“微生物農(nóng)藥數(shù)據(jù)庫”的資源數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,從而構(gòu)建“棉花病害防治”領(lǐng)域的本體,實現(xiàn)了“棉花病害防治”相關(guān)信息的搜索和可視化,是農(nóng)業(yè)數(shù)據(jù)再利用的實踐應(yīng)用,對于實現(xiàn)大數(shù)據(jù)背景下農(nóng)業(yè)領(lǐng)域各類數(shù)據(jù)及其關(guān)系的精確發(fā)現(xiàn)、深層次挖掘、智能檢索、數(shù)據(jù)利用、數(shù)據(jù)融合等具有重要的理論和實踐指導(dǎo)價值。