亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一個(gè)基于農(nóng)業(yè)本體的Web知識(shí)抽取模型

        2018-03-26 10:16:27李貫峰
        江蘇農(nóng)業(yè)科學(xué) 2018年4期
        關(guān)鍵詞:語(yǔ)義概念農(nóng)業(yè)

        李貫峰, 張 鵬

        (寧夏大學(xué)信息工程學(xué)院,寧夏銀川 750021)

        目前,我國(guó)農(nóng)村信息化建設(shè)面臨從提供信息服務(wù)向提供知識(shí)服務(wù)的逐步過(guò)渡,知識(shí)服務(wù)對(duì)提高農(nóng)業(yè)生產(chǎn)水平、增加農(nóng)產(chǎn)品收益、創(chuàng)建農(nóng)村和諧社會(huì)具有深遠(yuǎn)的意義。農(nóng)業(yè)生產(chǎn)過(guò)程是生物依靠自然環(huán)境和自身生理機(jī)能而進(jìn)行的自然生長(zhǎng)發(fā)育過(guò)程,因此農(nóng)業(yè)知識(shí)具有環(huán)境多樣性、地域差異性和種類(lèi)豐富性等特點(diǎn),農(nóng)業(yè)領(lǐng)域知識(shí)的獲取和表示與其他領(lǐng)域相比難度更大、更具有挑戰(zhàn)性。

        隨著因特網(wǎng)的快速發(fā)展與廣泛應(yīng)用,Web成為人們獲取知識(shí)的重要資源庫(kù)。但萬(wàn)維網(wǎng)(word wide wed,簡(jiǎn)稱(chēng)Web)資源結(jié)構(gòu)龐雜無(wú)序,缺乏對(duì)語(yǔ)義信息的描述,人們需要一種自動(dòng)化的方式對(duì)Web資源進(jìn)行有效的處理和整合,抽取對(duì)用戶(hù)有價(jià)值的知識(shí)并過(guò)濾掉不相關(guān)的信息,Web知識(shí)抽取(Web knowledge extraction)的研究是在這樣的需求背景下產(chǎn)生的,被專(zhuān)家學(xué)者們廣泛關(guān)注,成為研究的熱點(diǎn)。近年來(lái),基于本體(ontology)的Web知識(shí)抽取技術(shù)已經(jīng)成為知識(shí)抽取的重要研究方向。

        現(xiàn)有的Web知識(shí)抽取方法主要有基于超文本標(biāo)記語(yǔ)言(hypertext markup language,簡(jiǎn)稱(chēng)HTML)文檔結(jié)構(gòu)的知識(shí)抽取方法[1]、基于自然語(yǔ)言處理(natural language processing,簡(jiǎn)稱(chēng)NLP)方式的信息抽取方法[2]和基于包裝器歸納的知識(shí)抽取方法[3]等,這些方法針對(duì)特定文檔結(jié)構(gòu),設(shè)置不同的抽取規(guī)則,抽取方法不能重復(fù)使用。此外,這些方法只能抽取實(shí)體信息,而無(wú)法抽取Web中包含的語(yǔ)義描述信息。本體作為一種有效的知識(shí)建模工具,被廣泛地應(yīng)用于信息科學(xué)等眾多領(lǐng)域。本體能夠提供特定領(lǐng)域中存在的對(duì)象類(lèi)型和對(duì)象屬性間的相互關(guān)系,其良好的知識(shí)組織模型能夠有效地識(shí)別概念及概念之間的關(guān)系,解決傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足。通過(guò)本體構(gòu)建規(guī)則,不僅能通過(guò)特定類(lèi)型來(lái)識(shí)別待抽取的實(shí)體,還能利用本體中的概念層次關(guān)系從語(yǔ)義描述上來(lái)識(shí)別實(shí)體。因此,基于本體的知識(shí)抽取技術(shù)將在未來(lái)的知識(shí)抽取發(fā)展中成為不可缺少的輔助技術(shù)。

        本研究針對(duì)農(nóng)業(yè)領(lǐng)域,構(gòu)建農(nóng)業(yè)本體,并在此基礎(chǔ)上提出農(nóng)業(yè)領(lǐng)域的Web知識(shí)抽取系統(tǒng)模型和關(guān)鍵技術(shù),實(shí)現(xiàn)本體在農(nóng)業(yè)知識(shí)獲取過(guò)程中的相關(guān)算法,解決傳統(tǒng)知識(shí)抽取在非結(jié)構(gòu)文本方面的不足,提升知識(shí)獲取的準(zhǔn)確性和高效性。

        1 基本定義

        1.1 本體

        在信息科學(xué)領(lǐng)域中本體作為一種有效描述概念結(jié)構(gòu)和語(yǔ)義模型而被廣泛應(yīng)用,它是通過(guò)領(lǐng)域?qū)<业姆e極參與和通力協(xié)作而構(gòu)建的領(lǐng)域概念、關(guān)系和公理體系的集合,以計(jì)算機(jī)能理解的語(yǔ)言和形式描述、表示和組織知識(shí),促進(jìn)知識(shí)重用、知識(shí)共享和知識(shí)服務(wù)[4]。農(nóng)業(yè)本體是將農(nóng)業(yè)學(xué)科領(lǐng)域內(nèi)概念、概念與概念間的相互關(guān)系用機(jī)器能理解的形式化語(yǔ)言表示的知識(shí)模型。農(nóng)業(yè)本體為農(nóng)業(yè)領(lǐng)域提供統(tǒng)一的術(shù)語(yǔ)和概念,在農(nóng)業(yè)知識(shí)庫(kù)構(gòu)建、知識(shí)共享服務(wù)及智能檢索等方面具有廣泛的應(yīng)用前景。

        1.2 RDF

        為讓語(yǔ)義Web上的應(yīng)用程序準(zhǔn)確方便地應(yīng)用本體,須要定義通用的本體語(yǔ)言來(lái)對(duì)本體進(jìn)行描述。目前常見(jiàn)的本體語(yǔ)言有資源描述框架模式(resource description framework scheme,簡(jiǎn)稱(chēng)RDFS)[5]、網(wǎng)絡(luò)本體語(yǔ)言(web ontology language,簡(jiǎn)稱(chēng)OWL)等。其中RDFS是目前廣泛使用的本體表示語(yǔ)言之一,能夠?qū)ΠňW(wǎng)頁(yè)在內(nèi)的任何資源進(jìn)行陳述,1個(gè)資源描述框架(rseource description framework,簡(jiǎn)稱(chēng)RDF)陳述由主體(subject)、謂詞(predicate)和客體(object)組成,被稱(chēng)為三元組。1個(gè)RDF三元組集合可以表示成RDF圖模型,圖中節(jié)點(diǎn)可以表示三元組的主體和客體,而有向邊則表示從主體指向客體的謂詞。

        1.3 知識(shí)抽取

        Web知識(shí)抽取即從無(wú)語(yǔ)義信息的Web文檔中識(shí)別和抽取知識(shí),并以一定形式存入知識(shí)庫(kù)中,進(jìn)而實(shí)現(xiàn)對(duì)Web數(shù)據(jù)充分、有效的利用?;陬I(lǐng)域本體的知識(shí)抽取是指利用給定的領(lǐng)域本體從無(wú)語(yǔ)義標(biāo)注的信息資源中識(shí)別并抽取與領(lǐng)域本體匹配的事實(shí)知識(shí),它既可以為實(shí)現(xiàn)知識(shí)服務(wù)系統(tǒng)而抽取事實(shí)知識(shí),也可以為語(yǔ)義Web的構(gòu)建提供相應(yīng)的語(yǔ)義內(nèi)容。因此知識(shí)抽取技術(shù)對(duì)于充分利用現(xiàn)有Web數(shù)據(jù)是非常必要的[6]。

        2 基于本體的Web知識(shí)抽取模型

        基于本體的Web知識(shí)抽取是指以所構(gòu)建的領(lǐng)域本體為核心,利用本體中已定義的概念、分類(lèi)層次、關(guān)系和實(shí)例及一些必需的外部資料對(duì)Web頁(yè)面進(jìn)行知識(shí)提取,得到結(jié)構(gòu)化知識(shí)并保存的過(guò)程[7]。由圖1可知,基于本體的Web信息抽取系統(tǒng)模型包括數(shù)據(jù)采集模塊、預(yù)處理模塊、領(lǐng)域本體構(gòu)建和解析模塊、分詞與命名實(shí)體識(shí)別模塊以及知識(shí)抽取模塊等5個(gè)模塊。

        2.1 文檔采集模塊

        文檔采集模塊的主要功能是找到對(duì)應(yīng)的源文檔,并保證源文檔能夠被系統(tǒng)檢索到。源文檔可來(lái)自本地、局域網(wǎng)或互聯(lián)網(wǎng),其類(lèi)型是HTML,對(duì)基于農(nóng)業(yè)本體Web知識(shí)抽取系統(tǒng)的研究主要以HTML結(jié)構(gòu)為出發(fā)點(diǎn),完成對(duì)知識(shí)的抽取工作。本研究使用主題爬蟲(chóng)來(lái)發(fā)現(xiàn)和獲取有關(guān)農(nóng)業(yè)方面的HTML文檔集。

        2.2 預(yù)處理模塊

        Web頁(yè)面上的信息存在結(jié)構(gòu)靈活、語(yǔ)義性差、標(biāo)記錯(cuò)誤等情況,可通過(guò)預(yù)處理去噪,并生成編碼和格式統(tǒng)一的格式化文檔。

        2.3 領(lǐng)域本體庫(kù)構(gòu)建與解析模塊

        本體是整個(gè)知識(shí)抽取系統(tǒng)的核心,它規(guī)定了知識(shí)抽取中的目標(biāo)知識(shí)形式,定義了農(nóng)業(yè)領(lǐng)域中的相關(guān)概念、層次關(guān)系、實(shí)體及屬性集合,能夠讓不同用戶(hù)對(duì)領(lǐng)域知識(shí)達(dá)到共同的理解,從而實(shí)現(xiàn)知識(shí)的共享和重用。該模塊可以按照知識(shí)抽取的需求,構(gòu)建合理的領(lǐng)域本體,并使用該本體作為知識(shí)抽取的基礎(chǔ)。本體解析是利用本體解析工具,對(duì)建好的在領(lǐng)域本體中所表述概念以及概念之間的層次關(guān)系進(jìn)行解析,并把解析出來(lái)的概念和關(guān)系等結(jié)構(gòu)存入記錄表中的過(guò)程,本研究通過(guò)Jena的應(yīng)用程序編程接口(application programming interface,簡(jiǎn)稱(chēng)API)來(lái)實(shí)現(xiàn)本體解析過(guò)程。

        2.4 分詞與命名實(shí)體識(shí)別模塊

        分詞操作是知識(shí)抽取的前提。根據(jù)抽取模塊的需要,系統(tǒng)首先要對(duì)抽取的文本文檔進(jìn)行分詞操作。本研究主要對(duì)中文信息進(jìn)行處理,因此分詞軟件采用的是中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢語(yǔ)詞法分析系統(tǒng)(institute of computing technology Chinese lexical analysis system,簡(jiǎn)稱(chēng)ICTCLAS)分詞系統(tǒng)[8],并在此基礎(chǔ)上進(jìn)行二次開(kāi)發(fā),使分詞結(jié)果達(dá)到預(yù)期效果。

        2.5 知識(shí)抽取模塊

        知識(shí)抽取即使用實(shí)體識(shí)別工具對(duì)文檔進(jìn)行語(yǔ)義標(biāo)注,然后對(duì)實(shí)體及實(shí)體間的關(guān)系進(jìn)行抽取得到知識(shí),并根據(jù)實(shí)例和屬性構(gòu)建RDF三元組知識(shí)形式,返回給相應(yīng)的用戶(hù)。

        3 基于本體的Web知識(shí)抽取關(guān)鍵技術(shù)

        3.1 本體構(gòu)建

        基于本體的Web知識(shí)抽取實(shí)質(zhì)是以所構(gòu)建的本體為核心的知識(shí)抽取,因此相關(guān)領(lǐng)域本體的建立是非常重要的工作。從本質(zhì)上說(shuō),本體是一個(gè)客觀事實(shí)的集合,而這些集合是實(shí)現(xiàn)語(yǔ)義信息檢索的基礎(chǔ)。本體的構(gòu)建是一項(xiàng)復(fù)雜的系統(tǒng)工程,目前沒(méi)有統(tǒng)一的本體構(gòu)建方法和規(guī)則,Studer等提出本體構(gòu)建的5個(gè)原則,即本體的定義具備清晰性、完整性、一致性、最大單向可擴(kuò)展性和最小編碼相關(guān)性[9]。對(duì)于領(lǐng)域本體的構(gòu)建,還應(yīng)遵循標(biāo)準(zhǔn)化建設(shè)原則、本體的復(fù)用原則、協(xié)作原則及評(píng)建結(jié)合原則。本研究借鑒相關(guān)本體的構(gòu)建方法,依據(jù)農(nóng)業(yè)領(lǐng)域知識(shí)的特點(diǎn),確定農(nóng)業(yè)領(lǐng)域本體的構(gòu)建方法,其流程如圖2所示。

        (1)在本體構(gòu)建之前,進(jìn)行需求分析,確定領(lǐng)域本體框架,明確領(lǐng)域本體的應(yīng)用目標(biāo)和范疇,對(duì)于限定本體范圍,增強(qiáng)本體針對(duì)性,縮短本體構(gòu)建的時(shí)間,降低構(gòu)建本體的難度具有重要的意義。

        (2)通過(guò)相關(guān)專(zhuān)業(yè)書(shū)籍、文獻(xiàn)資料、權(quán)威網(wǎng)站信息等途徑獲取領(lǐng)域知識(shí),結(jié)合農(nóng)業(yè)領(lǐng)域的專(zhuān)家建議,對(duì)領(lǐng)域知識(shí)進(jìn)行分析、整理和歸納,得到所需領(lǐng)域的概念和關(guān)系。

        (3)在對(duì)領(lǐng)域知識(shí)充分了解的基礎(chǔ)上,結(jié)合需求分析,將領(lǐng)域中的主要概念和關(guān)系列舉出來(lái),在農(nóng)業(yè)領(lǐng)域?qū)<业闹笇?dǎo)下,確定領(lǐng)域的核心概念和關(guān)系。

        (4)基于(3)中劃分的概念層次結(jié)構(gòu),使用本體構(gòu)建工具對(duì)類(lèi)、屬性和實(shí)例等本體元素進(jìn)行編碼及形式化,實(shí)施本體構(gòu)建。

        (5)本體建立后,領(lǐng)域內(nèi)術(shù)語(yǔ)的定義是否清晰,概念及關(guān)系是否完整,則須要運(yùn)用推理工具自動(dòng)判斷和檢驗(yàn),并對(duì)有邏輯錯(cuò)誤的地方進(jìn)行修改,以滿(mǎn)足用戶(hù)的實(shí)際需求。

        (6)本體構(gòu)建是一個(gè)迭代的過(guò)程,須要在具體的應(yīng)用中不斷地修改、優(yōu)化和完善,從而更好地適應(yīng)實(shí)際使用情況。

        根據(jù)上述的構(gòu)建步驟,在學(xué)習(xí)了很多相關(guān)枸杞病蟲(chóng)害書(shū)籍和大量文獻(xiàn)資料的基礎(chǔ)上,結(jié)合枸杞病蟲(chóng)害領(lǐng)域的專(zhuān)家建議,以寧夏地區(qū)常見(jiàn)的枸杞蚜蟲(chóng)、枸杞紅癭蚊、枸杞癭螨等51種枸杞害蟲(chóng)和根腐病、炭疽病、白粉病等15種枸杞病害為研究對(duì)象,以診斷和防治為研究目標(biāo),抽取領(lǐng)域中的重要概念、屬性及實(shí)例,用Protégé工具構(gòu)建一個(gè)內(nèi)容豐富、層次清晰、體系完善的枸杞病蟲(chóng)害本體庫(kù)。枸杞病蟲(chóng)害本體類(lèi)結(jié)構(gòu)如圖3所示。其中Things是超類(lèi),其他的類(lèi)都是Things的子類(lèi),共計(jì)37個(gè)本體類(lèi),圖3是其中的25個(gè)基本類(lèi)(含子類(lèi)、副類(lèi)),涵蓋了實(shí)際生產(chǎn)中的主要枸杞病蟲(chóng)害種類(lèi)。該本體中有7個(gè)數(shù)據(jù)屬性和12個(gè)一級(jí)對(duì)象屬性,用于描述枸杞病蟲(chóng)害的基本信息,還包括51個(gè)害蟲(chóng)實(shí)例,15個(gè)病害實(shí)例和其他本體類(lèi)實(shí)例。

        3.2 文檔預(yù)處理

        目前,大部分Web文檔是基于HTML的。但HTML文檔有局限:首先,HTML頁(yè)面結(jié)構(gòu)靈活,缺少語(yǔ)義,機(jī)器難以理解信息的結(jié)構(gòu)和模式,因此獲取隱藏在其中的知識(shí)非常困難;其次,HTML頁(yè)面中可能存在標(biāo)記格式不匹配甚至空標(biāo)記的情況,對(duì)抽取工作影響很大;最后,直接對(duì)HTML頁(yè)面內(nèi)容進(jìn)行抽取處理會(huì)占用大量的空間,處理時(shí)間比較長(zhǎng)。預(yù)處理過(guò)程是知識(shí)抽取的前提,在知識(shí)抽取前,須要對(duì)源文檔進(jìn)行預(yù)處理。本研究參考現(xiàn)有的處理方法經(jīng)驗(yàn),使用頁(yè)面清洗工具Tidy[10]糾正HTML文檔中常見(jiàn)的錯(cuò)誤標(biāo)記,去掉空標(biāo)記,并生成編碼和格式統(tǒng)一的格式化文檔。此外對(duì)頁(yè)面中的一些明顯噪聲進(jìn)行處理,為簡(jiǎn)化問(wèn)題,筆者直接從Web頁(yè)面過(guò)濾掉以及等包含噪聲的標(biāo)簽。對(duì)于注釋(
        无码人妻一区二区三区免费n鬼沢| 日本久久视频在线观看| 久久伊人精品中文字幕有尤物 | 人妻被黑人粗大的猛烈进出| 亚洲av日韩片在线观看| 亚洲精品中文字幕乱码三区99| 韩国日本一区二区在线| 久久久久亚洲av成人网人人软件| 亚洲一区二区自偷自拍另类| 一个色综合中文字幕人妻激情视频| 亚洲欧美国产精品久久| 一本之道高清无码视频| 国产精品日本天堂| av国产免费在线播放| 亚洲精品成人无限看| 亚洲 欧美精品suv| 免费在线观看一区二区| 人妻蜜桃日产一本久道综合在线| 国产99久久久国产精品~~牛| 久久久久亚洲精品男人的天堂| 99久久婷婷国产综合精品青草免费| 九九99久久精品国产| 亚洲另类激情综合偷自拍图| 女同欲望一区二区三区| 美女扒开大腿让男人桶| 国产成人一区二区三区在线观看| 久久精品中文字幕极品| 女同中文字幕在线观看| 强奸乱伦影音先锋| 女人扒开下面无遮挡| 久久久国产不卡一区二区| 视频一区视频二区自拍偷拍| 曰韩无码无遮挡a级毛片| 亚洲av第一成肉网| 日本精品人妻在线观看| 日韩女同精品av在线观看| 欧美金发尤物大战黑人| 亚洲三级香港三级久久| 情av一区二区三区在线观看| 国产一区高清在线观看| 欧美jizzhd精品欧美|