一個(gè)基于農(nóng)業(yè)本體的Web知識(shí)抽取模型

2018-03-26 10:16:27李貫峰

江蘇農(nóng)業(yè)科學(xué) 2018年4期

李貫峰，張鵬

(寧夏大學(xué)信息工程學(xué)院，寧夏銀川 750021)

目前，我國(guó)農(nóng)村信息化建設(shè)面臨從提供信息服務(wù)向提供知識(shí)服務(wù)的逐步過(guò)渡，知識(shí)服務(wù)對(duì)提高農(nóng)業(yè)生產(chǎn)水平、增加農(nóng)產(chǎn)品收益、創(chuàng)建農(nóng)村和諧社會(huì)具有深遠(yuǎn)的意義。農(nóng)業(yè)生產(chǎn)過(guò)程是生物依靠自然環(huán)境和自身生理機(jī)能而進(jìn)行的自然生長(zhǎng)發(fā)育過(guò)程，因此農(nóng)業(yè)知識(shí)具有環(huán)境多樣性、地域差異性和種類(lèi)豐富性等特點(diǎn)，農(nóng)業(yè)領(lǐng)域知識(shí)的獲取和表示與其他領(lǐng)域相比難度更大、更具有挑戰(zhàn)性。

隨著因特網(wǎng)的快速發(fā)展與廣泛應(yīng)用，Web成為人們獲取知識(shí)的重要資源庫(kù)。但萬(wàn)維網(wǎng)(word wide wed，簡(jiǎn)稱(chēng)Web)資源結(jié)構(gòu)龐雜無(wú)序，缺乏對(duì)語(yǔ)義信息的描述，人們需要一種自動(dòng)化的方式對(duì)Web資源進(jìn)行有效的處理和整合，抽取對(duì)用戶(hù)有價(jià)值的知識(shí)并過(guò)濾掉不相關(guān)的信息，Web知識(shí)抽取(Web knowledge extraction)的研究是在這樣的需求背景下產(chǎn)生的，被專(zhuān)家學(xué)者們廣泛關(guān)注，成為研究的熱點(diǎn)。近年來(lái)，基于本體(ontology)的Web知識(shí)抽取技術(shù)已經(jīng)成為知識(shí)抽取的重要研究方向。

現(xiàn)有的Web知識(shí)抽取方法主要有基于超文本標(biāo)記語(yǔ)言(hypertext markup language，簡(jiǎn)稱(chēng)HTML)文檔結(jié)構(gòu)的知識(shí)抽取方法[1]、基于自然語(yǔ)言處理(natural language processing，簡(jiǎn)稱(chēng)NLP)方式的信息抽取方法[2]和基于包裝器歸納的知識(shí)抽取方法[3]等，這些方法針對(duì)特定文檔結(jié)構(gòu)，設(shè)置不同的抽取規(guī)則，抽取方法不能重復(fù)使用。此外，這些方法只能抽取實(shí)體信息，而無(wú)法抽取Web中包含的語(yǔ)義描述信息。本體作為一種有效的知識(shí)建模工具，被廣泛地應(yīng)用于信息科學(xué)等眾多領(lǐng)域。本體能夠提供特定領(lǐng)域中存在的對(duì)象類(lèi)型和對(duì)象屬性間的相互關(guān)系，其良好的知識(shí)組織模型能夠有效地識(shí)別概念及概念之間的關(guān)系，解決傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足。通過(guò)本體構(gòu)建規(guī)則，不僅能通過(guò)特定類(lèi)型來(lái)識(shí)別待抽取的實(shí)體，還能利用本體中的概念層次關(guān)系從語(yǔ)義描述上來(lái)識(shí)別實(shí)體。因此，基于本體的知識(shí)抽取技術(shù)將在未來(lái)的知識(shí)抽取發(fā)展中成為不可缺少的輔助技術(shù)。

本研究針對(duì)農(nóng)業(yè)領(lǐng)域，構(gòu)建農(nóng)業(yè)本體，并在此基礎(chǔ)上提出農(nóng)業(yè)領(lǐng)域的Web知識(shí)抽取系統(tǒng)模型和關(guān)鍵技術(shù)，實(shí)現(xiàn)本體在農(nóng)業(yè)知識(shí)獲取過(guò)程中的相關(guān)算法，解決傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足，提升知識(shí)獲取的準(zhǔn)確性和高效性。

1 基本定義

1.1 本體

在信息科學(xué)領(lǐng)域中本體作為一種有效描述概念結(jié)構(gòu)和語(yǔ)義模型而被廣泛應(yīng)用，它是通過(guò)領(lǐng)域?qū)＜业姆e極參與和通力協(xié)作而構(gòu)建的領(lǐng)域概念、關(guān)系和公理體系的集合，以計(jì)算機(jī)能理解的語(yǔ)言和形式描述、表示和組織知識(shí)，促進(jìn)知識(shí)重用、知識(shí)共享和知識(shí)服務(wù)[4]。農(nóng)業(yè)本體是將農(nóng)業(yè)學(xué)科領(lǐng)域內(nèi)概念、概念與概念間的相互關(guān)系用機(jī)器能理解的形式化語(yǔ)言表示的知識(shí)模型。農(nóng)業(yè)本體為農(nóng)業(yè)領(lǐng)域提供統(tǒng)一的術(shù)語(yǔ)和概念，在農(nóng)業(yè)知識(shí)庫(kù)構(gòu)建、知識(shí)共享服務(wù)及智能檢索等方面具有廣泛的應(yīng)用前景。

1.2 RDF

為讓語(yǔ)義Web上的應(yīng)用程序準(zhǔn)確方便地應(yīng)用本體，須要定義通用的本體語(yǔ)言來(lái)對(duì)本體進(jìn)行描述。目前常見(jiàn)的本體語(yǔ)言有資源描述框架模式(resource description framework scheme，簡(jiǎn)稱(chēng)RDFS)[5]、網(wǎng)絡(luò)本體語(yǔ)言(web ontology language，簡(jiǎn)稱(chēng)OWL)等。其中RDFS是目前廣泛使用的本體表示語(yǔ)言之一，能夠?qū)ΠňW(wǎng)頁(yè)在內(nèi)的任何資源進(jìn)行陳述，1個(gè)資源描述框架(rseource description framework，簡(jiǎn)稱(chēng)RDF)陳述由主體(subject)、謂詞(predicate)和客體(object)組成，被稱(chēng)為三元組。1個(gè)RDF三元組集合可以表示成RDF圖模型，圖中節(jié)點(diǎn)可以表示三元組的主體和客體，而有向邊則表示從主體指向客體的謂詞。

1.3 知識(shí)抽取

Web知識(shí)抽取即從無(wú)語(yǔ)義信息的Web文檔中識(shí)別和抽取知識(shí)，并以一定形式存入知識(shí)庫(kù)中，進(jìn)而實(shí)現(xiàn)對(duì)Web數(shù)據(jù)充分、有效的利用?；陬I(lǐng)域本體的知識(shí)抽取是指利用給定的領(lǐng)域本體從無(wú)語(yǔ)義標(biāo)注的信息資源中識(shí)別并抽取與領(lǐng)域本體匹配的事實(shí)知識(shí)，它既可以為實(shí)現(xiàn)知識(shí)服務(wù)系統(tǒng)而抽取事實(shí)知識(shí)，也可以為語(yǔ)義Web的構(gòu)建提供相應(yīng)的語(yǔ)義內(nèi)容。因此知識(shí)抽取技術(shù)對(duì)于充分利用現(xiàn)有Web數(shù)據(jù)是非常必要的[6]。

2 基于本體的Web知識(shí)抽取模型

基于本體的Web知識(shí)抽取是指以所構(gòu)建的領(lǐng)域本體為核心，利用本體中已定義的概念、分類(lèi)層次、關(guān)系和實(shí)例及一些必需的外部資料對(duì)Web頁(yè)面進(jìn)行知識(shí)提取，得到結(jié)構(gòu)化知識(shí)并保存的過(guò)程[7]。由圖1可知，基于本體的Web信息抽取系統(tǒng)模型包括數(shù)據(jù)采集模塊、預(yù)處理模塊、領(lǐng)域本體構(gòu)建和解析模塊、分詞與命名實(shí)體識(shí)別模塊以及知識(shí)抽取模塊等5個(gè)模塊。

2.1 文檔采集模塊

文檔采集模塊的主要功能是找到對(duì)應(yīng)的源文檔，并保證源文檔能夠被系統(tǒng)檢索到。源文檔可來(lái)自本地、局域網(wǎng)或互聯(lián)網(wǎng)，其類(lèi)型是HTML，對(duì)基于農(nóng)業(yè)本體Web知識(shí)抽取系統(tǒng)的研究主要以HTML結(jié)構(gòu)為出發(fā)點(diǎn)，完成對(duì)知識(shí)的抽取工作。本研究使用主題爬蟲(chóng)來(lái)發(fā)現(xiàn)和獲取有關(guān)農(nóng)業(yè)方面的HTML文檔集。

2.2 預(yù)處理模塊

Web頁(yè)面上的信息存在結(jié)構(gòu)靈活、語(yǔ)義性差、標(biāo)記錯(cuò)誤等情況，可通過(guò)預(yù)處理去噪，并生成編碼和格式統(tǒng)一的格式化文檔。

2.3 領(lǐng)域本體庫(kù)構(gòu)建與解析模塊

本體是整個(gè)知識(shí)抽取系統(tǒng)的核心，它規(guī)定了知識(shí)抽取中的目標(biāo)知識(shí)形式，定義了農(nóng)業(yè)領(lǐng)域中的相關(guān)概念、層次關(guān)系、實(shí)體及屬性集合，能夠讓不同用戶(hù)對(duì)領(lǐng)域知識(shí)達(dá)到共同的理解，從而實(shí)現(xiàn)知識(shí)的共享和重用。該模塊可以按照知識(shí)抽取的需求，構(gòu)建合理的領(lǐng)域本體，并使用該本體作為知識(shí)抽取的基礎(chǔ)。本體解析是利用本體解析工具，對(duì)建好的在領(lǐng)域本體中所表述概念以及概念之間的層次關(guān)系進(jìn)行解析，并把解析出來(lái)的概念和關(guān)系等結(jié)構(gòu)存入記錄表中的過(guò)程，本研究通過(guò)Jena的應(yīng)用程序編程接口(application programming interface，簡(jiǎn)稱(chēng)API)來(lái)實(shí)現(xiàn)本體解析過(guò)程。

2.4 分詞與命名實(shí)體識(shí)別模塊

分詞操作是知識(shí)抽取的前提。根據(jù)抽取模塊的需要，系統(tǒng)首先要對(duì)抽取的文本文檔進(jìn)行分詞操作。本研究主要對(duì)中文信息進(jìn)行處理，因此分詞軟件采用的是中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢語(yǔ)詞法分析系統(tǒng)(institute of computing technology Chinese lexical analysis system，簡(jiǎn)稱(chēng)ICTCLAS)分詞系統(tǒng)[8]，并在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā)，使分詞結(jié)果達(dá)到預(yù)期效果。

2.5 知識(shí)抽取模塊

知識(shí)抽取即使用實(shí)體識(shí)別工具對(duì)文檔進(jìn)行語(yǔ)義標(biāo)注，然后對(duì)實(shí)體及實(shí)體間的關(guān)系進(jìn)行抽取得到知識(shí)，并根據(jù)實(shí)例和屬性構(gòu)建RDF三元組知識(shí)形式，返回給相應(yīng)的用戶(hù)。

3 基于本體的Web知識(shí)抽取關(guān)鍵技術(shù)

3.1 本體構(gòu)建

基于本體的Web知識(shí)抽取實(shí)質(zhì)是以所構(gòu)建的本體為核心的知識(shí)抽取，因此相關(guān)領(lǐng)域本體的建立是非常重要的工作。從本質(zhì)上說(shuō)，本體是一個(gè)客觀事實(shí)的集合，而這些集合是實(shí)現(xiàn)語(yǔ)義信息檢索的基礎(chǔ)。本體的構(gòu)建是一項(xiàng)復(fù)雜的系統(tǒng)工程，目前沒(méi)有統(tǒng)一的本體構(gòu)建方法和規(guī)則，Studer等提出本體構(gòu)建的5個(gè)原則，即本體的定義具備清晰性、完整性、一致性、最大單向可擴(kuò)展性和最小編碼相關(guān)性[9]。對(duì)于領(lǐng)域本體的構(gòu)建，還應(yīng)遵循標(biāo)準(zhǔn)化建設(shè)原則、本體的復(fù)用原則、協(xié)作原則及評(píng)建結(jié)合原則。本研究借鑒相關(guān)本體的構(gòu)建方法，依據(jù)農(nóng)業(yè)領(lǐng)域知識(shí)的特點(diǎn)，確定農(nóng)業(yè)領(lǐng)域本體的構(gòu)建方法，其流程如圖2所示。

(1)在本體構(gòu)建之前，進(jìn)行需求分析，確定領(lǐng)域本體框架，明確領(lǐng)域本體的應(yīng)用目標(biāo)和范疇，對(duì)于限定本體范圍，增強(qiáng)本體針對(duì)性，縮短本體構(gòu)建的時(shí)間，降低構(gòu)建本體的難度具有重要的意義。

(2)通過(guò)相關(guān)專(zhuān)業(yè)書(shū)籍、文獻(xiàn)資料、權(quán)威網(wǎng)站信息等途徑獲取領(lǐng)域知識(shí)，結(jié)合農(nóng)業(yè)領(lǐng)域的專(zhuān)家建議，對(duì)領(lǐng)域知識(shí)進(jìn)行分析、整理和歸納，得到所需領(lǐng)域的概念和關(guān)系。

(3)在對(duì)領(lǐng)域知識(shí)充分了解的基礎(chǔ)上，結(jié)合需求分析，將領(lǐng)域中的主要概念和關(guān)系列舉出來(lái)，在農(nóng)業(yè)領(lǐng)域?qū)＜业闹笇?dǎo)下，確定領(lǐng)域的核心概念和關(guān)系。

(4)基于(3)中劃分的概念層次結(jié)構(gòu)，使用本體構(gòu)建工具對(duì)類(lèi)、屬性和實(shí)例等本體元素進(jìn)行編碼及形式化，實(shí)施本體構(gòu)建。

(5)本體建立后，領(lǐng)域內(nèi)術(shù)語(yǔ)的定義是否清晰，概念及關(guān)系是否完整，則須要運(yùn)用推理工具自動(dòng)判斷和檢驗(yàn)，并對(duì)有邏輯錯(cuò)誤的地方進(jìn)行修改，以滿(mǎn)足用戶(hù)的實(shí)際需求。

(6)本體構(gòu)建是一個(gè)迭代的過(guò)程，須要在具體的應(yīng)用中不斷地修改、優(yōu)化和完善，從而更好地適應(yīng)實(shí)際使用情況。

根據(jù)上述的構(gòu)建步驟，在學(xué)習(xí)了很多相關(guān)枸杞病蟲(chóng)害書(shū)籍和大量文獻(xiàn)資料的基礎(chǔ)上，結(jié)合枸杞病蟲(chóng)害領(lǐng)域的專(zhuān)家建議，以寧夏地區(qū)常見(jiàn)的枸杞蚜蟲(chóng)、枸杞紅癭蚊、枸杞癭螨等51種枸杞害蟲(chóng)和根腐病、炭疽病、白粉病等15種枸杞病害為研究對(duì)象，以診斷和防治為研究目標(biāo)，抽取領(lǐng)域中的重要概念、屬性及實(shí)例，用Protégé工具構(gòu)建一個(gè)內(nèi)容豐富、層次清晰、體系完善的枸杞病蟲(chóng)害本體庫(kù)。枸杞病蟲(chóng)害本體類(lèi)結(jié)構(gòu)如圖3所示。其中Things是超類(lèi)，其他的類(lèi)都是Things的子類(lèi)，共計(jì)37個(gè)本體類(lèi)，圖3是其中的25個(gè)基本類(lèi)(含子類(lèi)、副類(lèi))，涵蓋了實(shí)際生產(chǎn)中的主要枸杞病蟲(chóng)害種類(lèi)。該本體中有7個(gè)數(shù)據(jù)屬性和12個(gè)一級(jí)對(duì)象屬性，用于描述枸杞病蟲(chóng)害的基本信息，還包括51個(gè)害蟲(chóng)實(shí)例，15個(gè)病害實(shí)例和其他本體類(lèi)實(shí)例。

3.2 文檔預(yù)處理

目前，大部分Web文檔是基于HTML的。但HTML文檔有局限：首先，HTML頁(yè)面結(jié)構(gòu)靈活，缺少語(yǔ)義，機(jī)器難以理解信息的結(jié)構(gòu)和模式，因此獲取隱藏在其中的知識(shí)非常困難；其次，HTML頁(yè)面中可能存在標(biāo)記格式不匹配甚至空標(biāo)記的情況，對(duì)抽取工作影響很大；最后，直接對(duì)HTML頁(yè)面內(nèi)容進(jìn)行抽取處理會(huì)占用大量的空間，處理時(shí)間比較長(zhǎng)。預(yù)處理過(guò)程是知識(shí)抽取的前提，在知識(shí)抽取前，須要對(duì)源文檔進(jìn)行預(yù)處理。本研究參考現(xiàn)有的處理方法經(jīng)驗(yàn)，使用頁(yè)面清洗工具Tidy[10]糾正HTML文檔中常見(jiàn)的錯(cuò)誤標(biāo)記，去掉空標(biāo)記，并生成編碼和格式統(tǒng)一的格式化文檔。此外對(duì)頁(yè)面中的一些明顯噪聲進(jìn)行處理，為簡(jiǎn)化問(wèn)題，筆者直接從Web頁(yè)面過(guò)濾掉

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放