亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的Web信息抽取系統(tǒng)

        2012-07-25 11:06:18王志華李占波
        關(guān)鍵詞:頁面規(guī)則信息

        王志華,魏 斌,李占波,趙 偉

        (鄭州大學(xué) 軟件技術(shù)學(xué)院,河南 鄭州450002)

        0 引 言

        信息抽取是指將無結(jié)構(gòu)或半結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化的信息,并以一定的形式進(jìn)行存儲,供用戶查詢以及進(jìn)一步分析利用的過程[1]。Web信息抽取則是從 Web頁面中抽取用戶感興趣的信息并過濾掉不相關(guān)的信息,將分散在半結(jié)構(gòu)化Web頁面中的信息提取出來,并以結(jié)構(gòu)化、語義更為清晰的模式表示[2]。它為用戶在Web中查詢數(shù)據(jù)、應(yīng)用程序直接利用Web數(shù)據(jù)提供了便利,是實(shí)現(xiàn)信息檢索、機(jī)器翻譯、自動問答、自動推薦的關(guān)鍵,是國內(nèi)外的研究熱點(diǎn)。

        已有的Web信息抽取系統(tǒng)有的基于Web頁面的特殊結(jié)構(gòu)進(jìn)行信息抽取,比如抽取表格中的數(shù)據(jù)[3-6],還有的利用包裝器歸納方式進(jìn)行信息抽?。?-10]。以上方法針對特定結(jié)構(gòu),不具有重用性,抽取規(guī)則的建立是手工的,不同的結(jié)構(gòu)需要設(shè)置不同的抽取規(guī)則;而且只能抽取數(shù)據(jù)信息,但Web中還含有豐富的語義信息,比如關(guān)系、斷言等。本體[11]具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持,通過本體構(gòu)建規(guī)則,使得基于本體的信息抽取不僅能找到特定類型的待抽取實(shí)體,還能通過在本體中的概念把它鏈接到其語義描述上來識別它。

        本文針對特定主題,提出了一種基于本體的Web信息抽取框架,對本體在信息抽取系統(tǒng)中的作用作了詳細(xì)介紹并實(shí)現(xiàn)所提出的相關(guān)算法。實(shí)驗(yàn)證明,該抽取系統(tǒng)能夠得到性能較高的抽取結(jié)果。

        1 基于本體的Web信息抽取

        1.1 領(lǐng)域本體

        本體是一種知識表示方式,能在語義和知識層次上對描述信息系統(tǒng)的概念模型進(jìn)行建模,能夠用于知識表達(dá)、知識共享及知識重用。領(lǐng)域本體是用于描述特定領(lǐng)域知識的一種專門本體,給出了領(lǐng)域?qū)嶓w概念、領(lǐng)域?qū)傩愿拍?、領(lǐng)域?qū)傩灾导跋嗷リP(guān)系、斷言,以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。

        1.2 基于本體的Web信息抽取框架

        基于本體的Web信息抽取就是以所構(gòu)建的本體為核心,利用本體中已定義的概念、分類層次、關(guān)系、函數(shù)、公理和實(shí)例及一些必需的外部資料對Web頁面進(jìn)行信息提取,得到結(jié)構(gòu)化的知識并保存的過程。圖1給出了基于本體的Web信息抽取框架。

        圖1 基于本體的Web信息抽取框架

        1.2.1 系統(tǒng)構(gòu)成

        整個(gè)系統(tǒng)包括文件采集及預(yù)處理、文本轉(zhuǎn)換、知識抽取3個(gè)部分。

        在信息抽取過程中需要一些外部資料,包括:①領(lǐng)域本體;②網(wǎng)站地圖文件;③單詞、短語、特殊字符詞典和通用詞典;④停用詞、虛詞、高頻詞詞表;⑤分句規(guī)則;⑥詞性集合及詞性標(biāo)注規(guī)則;⑦實(shí)體識別及標(biāo)注規(guī)則;⑧知識抽取規(guī)則。

        信息抽取用到的算法包括:①爬網(wǎng)算法;②文件預(yù)處理算法;③文件存儲算法;④分詞和詞表查詢算法;⑤停用詞、虛詞、高頻詞去除算法;⑥分句算法;⑦詞性標(biāo)注算法;⑧命名實(shí)體識別及標(biāo)注算法;⑨知識抽取算法。

        1.2.2 本體在Web信息抽取中的作用

        (1)本體構(gòu)建:領(lǐng)域本體的合理構(gòu)建是獲得較高性能信息抽取結(jié)果的關(guān)鍵。首先領(lǐng)域?qū)<覙?gòu)建領(lǐng)域本體庫,主要包括類、對象屬性、數(shù)據(jù)屬性和斷言;然后根據(jù)領(lǐng)域內(nèi)的概念和術(shù)語添加實(shí)例。本文對于本體中的實(shí)例,領(lǐng)域?qū)<医o出一部分,從相關(guān)網(wǎng)頁中通過統(tǒng)計(jì)獲取一部分,還根據(jù)通用詞典 (英文用 WordNet,中文用 HowNet)使用相似性比較的方法得到一部分。本文采用文獻(xiàn) [12]中的方法構(gòu)建 《數(shù)據(jù)結(jié)構(gòu)》課程知識點(diǎn)的領(lǐng)域本體。本體內(nèi)各類之間的關(guān)系用Protégé描述如圖2所示。

        (2)本體解析:在信息抽取的過程中,為了利用本體中的知識,需要對領(lǐng)域本體進(jìn)行解析,得到概念、實(shí)例、關(guān)系、關(guān)系的定義域和值域等,使之為語義標(biāo)注及知識抽取過程服務(wù)。本文進(jìn)行領(lǐng)域本體解析,得到如下結(jié)果:

        1)概念、關(guān)系、實(shí)例詞典;

        2)概念、關(guān)系模式庫;

        圖2 《數(shù)據(jù)結(jié)構(gòu)》課程知識點(diǎn)本體

        3)概念、關(guān)系規(guī)則表示,包括命名實(shí)體識別規(guī)則和知識抽取規(guī)則。

        (3)本體使用:本體解析后的結(jié)果在信息抽取過程中主要用在了分詞及詞表查詢、命名實(shí)體識別及標(biāo)注和知識抽取算法中。

        (4)知識存儲:根據(jù)抽取后信息存儲方式的要求,信息抽取的結(jié)果主要有以下兩種結(jié)果表示:帶有語義的XML文件和帶有語義的三元組或二元組表示。

        2 Web信息抽取關(guān)鍵技術(shù)及實(shí)現(xiàn)

        2.1 文件采集及預(yù)處理

        文件采集用于發(fā)現(xiàn)文檔,并且使這些文檔能夠被搜索到。預(yù)處理對采集到的文檔進(jìn)行處理,得到格式化文檔。

        2.1.1 源文檔及信息采集

        源文檔可能來自于本地、局域網(wǎng)、特定主題或互聯(lián)網(wǎng),其類 型 可 以 是 HTML、XML、EMAIL、PDF、RDF、WORD、TXT、RSS等多種。本文對Web頁面進(jìn)行信息抽取,并將頁面分為目錄型頁面、內(nèi)容型頁面和結(jié)構(gòu)型頁面,采集的源文檔是針對某一領(lǐng)域主題的文檔。

        信息采集用于發(fā)現(xiàn)文檔,可使用爬蟲來發(fā)現(xiàn)和抓取文檔。本文使用主題爬蟲爬取網(wǎng)頁。主題采集常使用工具進(jìn)行分類,需要用到分類器進(jìn)行選定特定頁面、特定結(jié)構(gòu)的采集,一種結(jié)構(gòu)使用一種規(guī)則進(jìn)行采集。本文使用爬網(wǎng)算法對 《數(shù)據(jù)結(jié)構(gòu)》課程相關(guān)主題知識點(diǎn)進(jìn)行信息采集。

        2.1.2 文檔預(yù)處理

        信息采集后得到的原始文檔格式不統(tǒng)一,編碼方式也不統(tǒng)一,需要對文檔進(jìn)行預(yù)處理,將各種文檔轉(zhuǎn)變?yōu)楦袷交臋n,主要是XHTML或XML等。文件預(yù)處理后的文檔包括文件的格式化內(nèi)容、超鏈接、數(shù)據(jù)格式、元數(shù)據(jù)等信息:

        (1)格式化內(nèi)容:主要是Web的文本內(nèi)容,它是實(shí)現(xiàn)內(nèi)容型頁面信息抽取的關(guān)鍵;

        (2)超鏈接:Web中的超鏈接信息,它是實(shí)現(xiàn)目錄型頁面信息抽取的關(guān)鍵;

        (3)數(shù)據(jù)格式信息:Web中的圖片、圖表、代碼、表格等,這部分信息對于基于HTML結(jié)構(gòu)的信息抽取至關(guān)重要;

        (4)元數(shù)據(jù)信息:格式化信息之外的文檔信息,用于解析文檔的結(jié)構(gòu),可以將網(wǎng)頁表示成文檔對象模型 (document object modal,DOM),包括文檔屬性,比如日期、作者等,還有其它標(biāo)簽,這些可用于識別文檔組成部分。

        本文使用文件預(yù)處理算法將各種格式的文檔轉(zhuǎn)換為XML文檔,包括了文檔的內(nèi)容和格式信息;將各種編碼轉(zhuǎn)換為Unicode。

        2.1.3 文檔存儲及文檔數(shù)據(jù)庫

        文檔存儲實(shí)現(xiàn)格式化文檔的存儲。文檔一般不存儲在關(guān)系數(shù)據(jù)庫中,而存儲在特定數(shù)據(jù)庫中。本文為了信息抽取的方便,使用文件存儲算法把格式化文檔信息存儲在XML文件中,而原文檔保存為原文件格式并保存其路徑信息。

        2.2 文本轉(zhuǎn)換

        文本轉(zhuǎn)換是對格式化文檔進(jìn)行詞和句子或結(jié)構(gòu)的處理,為知識抽取做準(zhǔn)備。本文的文本轉(zhuǎn)換算法首先根據(jù)網(wǎng)頁的結(jié)構(gòu)信息判斷Web頁面的類型,即目錄型、結(jié)構(gòu)型或內(nèi)容型,然后再根據(jù)不同的類型采用不同的信息抽取方法:

        (1)目錄型頁面通過文件預(yù)處理后超鏈接信息及查詢要求的文本內(nèi)容和url地址找到需要重新定位的查詢地址,對新地址的內(nèi)容進(jìn)行信息抽??;

        (2)結(jié)構(gòu)性頁面根據(jù)預(yù)處理后的數(shù)據(jù)格式信息和元數(shù)據(jù)信息得到原Web頁面中的結(jié)構(gòu)標(biāo)記,根據(jù)結(jié)構(gòu)進(jìn)行信息抽??;

        (3)內(nèi)容型頁面主要根據(jù)本文預(yù)處理后的格式化內(nèi)容,構(gòu)建網(wǎng)頁的內(nèi)容正文,然后進(jìn)行信息抽取。

        本文主要研究內(nèi)容型頁面的信息抽取。

        2.2.1 分詞及詞表查詢

        中文分詞可使用工具,如中科院計(jì)算所漢語詞法分析系統(tǒng)ICTCLAS、斯坦福大學(xué)的漢語分詞系統(tǒng)stanford-parser等。但是,這些分詞方法沒有考慮特定主題及特定領(lǐng)域的概念,分詞會出現(xiàn)一定的誤差,本文提出一種基于本體解析信息進(jìn)行分詞及查詢的算法,更能體現(xiàn)主題及領(lǐng)域特征。

        中文分詞及詞表查詢重要的是使用詞典,為了以后處理統(tǒng)一,文檔分詞詞典和查詢分詞詞典應(yīng)該統(tǒng)一。分詞結(jié)果用空格分割開來。另外,在分詞過程中還要考慮如何解決同義詞的問題,本文提出兩種解決方案:

        (1)設(shè)置同義詞表;

        (2)利用通用詞典,通過相似性計(jì)算得到最相近的詞。

        依據(jù)本體解析信息進(jìn)行中文分詞及查詢算法如下所示:

        算法1:中文分詞及詞表查詢

        輸入:格式化文檔,本體解析后的概念、關(guān)系、實(shí)例詞典,同義詞、近義詞的通用詞典,單詞、短語、特殊字符詞典

        輸出:與本體概念、關(guān)系、實(shí)例對應(yīng)的詞和短語,依據(jù)詞典分詞得到的詞、短語、特殊字符,原文檔中未去除的結(jié)構(gòu)信息

        步驟:

        (1)for(格式化文檔中每個(gè)標(biāo)簽)

        使用標(biāo)記語言解析器對文檔結(jié)構(gòu)信息進(jìn)行解析構(gòu)建DOM;

        (2)去除文檔無用標(biāo)簽,如<br>、<p>、<h1>和<div>等,構(gòu)建網(wǎng)頁的文本內(nèi)容;

        (3)根據(jù)本體解析后的概念、關(guān)系、實(shí)例詞典進(jìn)行詞表查詢并利用最大匹配算法進(jìn)行分詞,然后對分詞后的結(jié)果進(jìn)行標(biāo)記,得到基于本體的詞的信息;

        (4)根據(jù)同義詞、近義詞的通用詞典對剩余內(nèi)容進(jìn)行分詞,然后進(jìn)行標(biāo)記;

        (5)根據(jù)單詞、短語、特殊字符詞典對剩余內(nèi)容進(jìn)行分詞,然后進(jìn)行標(biāo)記。

        算法中先使用概念、關(guān)系、實(shí)例詞典來分,使得分詞結(jié)果更加傾向于領(lǐng)域。另外,根據(jù)實(shí)際應(yīng)用,可對文檔中的特殊結(jié)構(gòu)部分添加特殊切分規(guī)則進(jìn)行切分,得到如圖片、圖表、代碼、表格等信息。對于短語也可使用相關(guān)的ngram算法進(jìn)行切分。

        如對圖3所示的信息分詞后如圖4所示。使用基于本體解析信息進(jìn)行分詞的方法可以分詞出 “數(shù)據(jù)結(jié)構(gòu)”、“非線性結(jié)構(gòu)”、“前驅(qū)結(jié)點(diǎn)”等領(lǐng)域概念。

        2.2.2 去除虛詞

        對分詞后的結(jié)果去除停用詞、虛詞和無用的高頻詞時(shí),需要手動設(shè)置和手動維護(hù)詞表。本文為了避免影響檢索效果,只對文檔中的特定部分設(shè)定詞表,并且采用很小的詞表。

        2.2.3 分句

        信息抽取的粒度包括詞、句子、段落、章節(jié)和篇。為了保證信息抽取的粒度,還需要對文檔結(jié)構(gòu)進(jìn)行句子和結(jié)構(gòu)的劃分。句子的劃分可以在檢索時(shí)返回句子信息;結(jié)構(gòu)的劃分對結(jié)構(gòu)性頁面的信息抽取及檢索結(jié)果的返回至關(guān)重要。本文設(shè)置分句規(guī)則,對以上處理后的信息進(jìn)行分句,并進(jìn)行標(biāo)記。另外,還對分句后的文檔去除不含有任何本體詞匯 (概念、關(guān)系、屬性)的句子 (或結(jié)構(gòu)),確保信息抽取的粒度是句子。

        2.2.4 詞性標(biāo)注

        詞性標(biāo)注是對分詞后的結(jié)果標(biāo)注詞性信息,是命名實(shí)體識別的關(guān)鍵。詞性標(biāo)注時(shí),對每個(gè)單詞和短語根據(jù)詞性標(biāo)注集使用詞性標(biāo)注算法進(jìn)行詞性標(biāo)注,詞性標(biāo)注器根據(jù)上下文信息對文本中的每個(gè)詞賦予一個(gè)詞性標(biāo)記。本文進(jìn)行詞性標(biāo)注后,內(nèi)容文檔中的每個(gè)詞帶有詞性信息。

        2.2.5 命名實(shí)體識別

        命名實(shí)體識別是對詞性標(biāo)注后的單詞識別實(shí)體,并對每一個(gè)實(shí)體信息進(jìn)行標(biāo)記,經(jīng)常使用的方法包括:基于統(tǒng)計(jì)的方法、基于規(guī)則的方法、基于自然語言處理的方法。傳統(tǒng)的命名實(shí)體識別模塊僅提供人名、地名、機(jī)構(gòu)名、時(shí)間、日期等信息的識別,得不到基于領(lǐng)域的實(shí)體信息,知識抽取效率比較低。本文提出一種基于本體解析信息進(jìn)行命名實(shí)體識別算法,除了常規(guī)信息之外,還可以識別相關(guān)領(lǐng)域的信息。

        命名實(shí)體識別的關(guān)鍵是設(shè)計(jì)識別規(guī)則,本文對于 《數(shù)據(jù)結(jié)構(gòu)》邏輯結(jié)構(gòu)的識別規(guī)則用GATE[13]中的Jape規(guī)則表示如下語句所示。

        Phase:logicalStructure

        Input:Token Lookup

        Options:control=appelt

        Rule:structure

        ({Lookup.minorType=="線性結(jié)構(gòu)"}| {Lookup.minorType = ="非 線 性 結(jié) 構(gòu)"} |{Lookup.minorType = = " 線 性 表"} | {Lookup.minorType=="鏈表"}| {Lookup.minorType=="棧"} | {Lookup.minorType= =" 隊(duì) 列"} | {Lookup.minorType= ="串"}| {Lookup.minorType= ="廣義表"}| {Lookup.minorType=="數(shù)組"}| {Lookup.minorType=="矩陣"}| {Lookup.minorType=="二叉樹"}| {Lookup.minorType=="樹"}| {Lookup.minorType= ="圖"}| {Lookup.minorType= ="邏輯結(jié)構(gòu)"}):data-->:data.structure= {kind="邏輯結(jié)構(gòu)",rule="logicalStructure"}

        依據(jù)本體解析信息進(jìn)行命名實(shí)體識別及標(biāo)注算法如下所示:

        算法2:命名實(shí)體識別及標(biāo)注

        輸入:詞表查詢及詞性標(biāo)注后的單詞,概念、關(guān)系規(guī)則,一般實(shí)體識別規(guī)則

        輸出:本體中的實(shí)體識別及標(biāo)注結(jié)果,一般信息及特殊字符的識別及標(biāo)注結(jié)果

        步驟:

        (1)對本體中的信息進(jìn)行識別,并標(biāo)注類型;

        (2)應(yīng)用規(guī)則,對句子中的一般信息進(jìn)行識別,得到數(shù)字、金錢、日期等實(shí)體,并標(biāo)注類型;

        (3)根據(jù)規(guī)則,可利用N元組技術(shù),對本體標(biāo)注類型和一般標(biāo)注類型進(jìn)行相似匹配,并重新進(jìn)行類型標(biāo)注;

        (4)根據(jù) (3),調(diào)整分詞結(jié)果和通用標(biāo)注類型實(shí)體的表示形式規(guī)范化。

        以下標(biāo)注為圖3部分信息命名實(shí)體識別及標(biāo)注后的結(jié)果。

        <數(shù)據(jù)元素id="1"type="datastructure Token Lookup"kind="數(shù)據(jù)結(jié)構(gòu)"majorType="本體實(shí)例"minorType="線性表"begin="1"end="4"sentenceid="1"/>

        <相互之間id="2"type="Token"kind=""majorType=""minorType=""begin="5"end="8"sentenceid="1"/>

        <關(guān)系id="3"type="Token"kind=""major Type=""minor Type=""begin="10"end="11"sen tenceid="1"/>

        <稱為id="4"type="Token"kind=""major Type=""minorType=""begin="12"end="13"sen tenceid="1"/>

        <數(shù)據(jù)結(jié)構(gòu)id="5"type="datastructure Token Lookup"kind="數(shù)據(jù)結(jié)構(gòu)"majorType="本體類"minorType="數(shù)據(jù)結(jié)構(gòu)"begin="14"end="15"sentenceid="1"/>

        每個(gè)實(shí)體由標(biāo)記包含,表示為一個(gè)元素。標(biāo)注類型包括本體標(biāo)注類型和通用標(biāo)注類型,本體標(biāo)注類型需要說明詞是類、實(shí)例或?qū)傩?。詞表查詢可找到本體標(biāo)注類型,使用詞匯列表標(biāo)注具體本體標(biāo)注類型,使用規(guī)則標(biāo)注通用類型。另外,還標(biāo)注詞所在的句子信息。算法執(zhí)行結(jié)果識別出了與領(lǐng)域相關(guān)的 “數(shù)據(jù)元素”、 “數(shù)據(jù)結(jié)構(gòu)”等領(lǐng)域信息。

        2.3 知識抽取

        知識抽取就是對語義標(biāo)注后的文檔進(jìn)行分析,進(jìn)行實(shí)體及關(guān)系的抽取得到知識。針對語義標(biāo)注后的信息,本文在命名實(shí)體識別及標(biāo)注后,利用領(lǐng)域詞匯表進(jìn)行嚴(yán)格匹配,找到類、屬性和實(shí)例,并對實(shí)例進(jìn)行轉(zhuǎn)換成類。對找到的類和實(shí)例,利用本體中定義的屬性的定義域和值域,找到類之間的關(guān)系。然后根據(jù)實(shí)例和屬性構(gòu)建三元組。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文利用Jena插件[14]及基于領(lǐng)域設(shè)計(jì)的Jape規(guī)則,使用MyEclipse 9.0在GATE6.0平臺上進(jìn)行二次開發(fā)實(shí)現(xiàn)了基于本體的Web信息抽取系統(tǒng),并實(shí)現(xiàn)了語義網(wǎng)檢索,如圖5所示。

        圖5 基于Web信息抽取的語義網(wǎng)檢索

        使用主題網(wǎng)絡(luò)爬蟲爬取 《數(shù)據(jù)結(jié)構(gòu)》主題多篇網(wǎng)頁作為測試數(shù)據(jù),使用信息抽取系統(tǒng)主要的評測指標(biāo)準(zhǔn)確率P、召回率R和F測度值進(jìn)行評測,其定義如下

        此處取β=1,稱為F1值。

        表1為信息抽取的評測結(jié)果,F(xiàn)1指數(shù)都在70%~80%之間,與ACE[15]的評測結(jié)果相比,本文提出的基于本體的Web信息抽取方法有較高性能。另外,可以通過增加本體實(shí)例、識別更多的同義詞、設(shè)計(jì)更多的Jape規(guī)則及設(shè)計(jì)更加高效的知識抽取方法得到性能更高的信息抽取結(jié)果。

        表1 信息抽取的評測結(jié)果

        4 結(jié)束語

        針對已有Web信息抽取系統(tǒng)中抽取結(jié)果缺乏語義信息及抽取方法不可重用的問題,本文提出了一種面向主題的基于本體的Web信息抽取模型。該模型通過本體解析結(jié)果在分詞及詞表查詢、命名實(shí)體識別和知識抽取中的應(yīng)用,使得分詞和命名實(shí)體識別結(jié)果更加傾向于領(lǐng)域,抽取方法對于各種領(lǐng)域也可以重用并可以得到語義信息。通過實(shí)驗(yàn)驗(yàn)證,該系統(tǒng)能得到滿意的信息抽取結(jié)果。后續(xù)工作中,將進(jìn)一步完善系統(tǒng),重點(diǎn)是分詞、命名實(shí)體識別和知識抽取算法。

        [1]LIU Qian,JIAO Hui,JIA Huibo.Research on approaches of information extraction system [J].Application Research ofComputers,2007,24 (7):6-9 (in Chinese). [劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究 [J].計(jì)算機(jī)應(yīng)用研究,2007,24 (7):6-9.]

        [2]Kwan Hee Han,Jun Woo Park.Process-centered knowledge model and enterprise ontology for the development of knowledge management system [J].Expert Systems with Applications,2009,36 (4):7441-7447.

        [3]LIAO Tao,LIU Zongtian,SUN Rong.Research and implementation of web table positioning technology [J].Computer Science,2009,36 (9):227-230 (in Chinese). [廖濤,劉宗田,孫榮.Web表格定位技術(shù)的研究與實(shí)現(xiàn) [J].計(jì)算機(jī)科學(xué),2009,36 (9):227-230.]

        [4]BI Lei,SHEN Jie,XU Fayan,et al.Extracting web business information using domain-specific ontology [J].Computer Engi-neering and Design,2008,29 (24):6393-6396 (in Chinese).[畢蕾,沈潔,徐法艷,等.領(lǐng)域本體指導(dǎo)的Web商品信息 抽 取 [J]. 計(jì) 算 機(jī) 工 程 與 設(shè) 計(jì),2008,29 (24):6393-6396.]

        [5]LIU Jiagang,CHEN Shan,HUANG Ying.Improved ontologybased web information extraction [J].Computer Engineering,2010,36 (4):39-41 (in Chinese). [柳佳剛,陳山,黃櫻.一種改進(jìn)的基于本體的 Web信息抽取 [J].計(jì)算機(jī)工程,2010,36 (4):39-41.]

        [6]CHEN Li’na,ZHANG Hong,MA Li,et al.Ontology-based tourism information extraction [J].Computer Applications and Software,2010,27 (4):146-148 (in Chinese). [陳立娜,張紅,馬莉,等.基于本體的旅游信息抽取 [J].計(jì)算機(jī)應(yīng)用與軟件,2010,27 (4):146-148.]

        [7]HUANG Ji,JIANG Liqun,YIN Zhaolin.A new technology on information retrieval based on samples [J].Microcomputer Information,2009,25 (1):238-239 (in Chinese). [黃驥,姜利群,殷兆麟.一種新型的基于樣本的Web信息檢索技術(shù)[J].微計(jì)算機(jī)信息,2009,25 (1):238-239.]

        [8]LIU Pengbo,CHE Haiyan,CHEN Wei.Survey of knowledge extraction technologies [J].Application Research of Computers,2010,27 (9):3222-3226.

        [9]Kosala R,Blockeel H,Bruynooghe M,et al.Information extraction from structured documents using k-testable tree automaton inference [J].Data& Knowledge Engineering,2006,58 (2):129-158.

        [10]Tenier S,Toussaint Y,Napoli A,et al.Instantiation of relations for semantic annotation [C].Proc of IEEE/WIC/ACM International Conference on Web Intelligence.Washington,DC:IEEE Computer Society,2006:463-472.

        [11]DU Xiaoyong,LI Man,WANG Shan.A survey on ontology learning research [J].Journal of Software,2006,17 (9):1837-1847(in Chinese).[杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述 [J].軟件學(xué)報(bào),2006,17 (9):1837-1847.]

        [12]WANG Zhihua,ZHAO Wei.Research on semantic web retrieval model based on ontology and key technologies [J].Computer Engineering and Design,2011,32 (1):145-148(in Chinese).[王志華,趙偉.基于本體的語義網(wǎng)檢索模型及關(guān)鍵技術(shù)研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32 (1):145-148.]

        [13]The university of sheffield.GATE,A general architecture for text engineering [EB/OL].[2011-08-05].http://gate.ac.uk/.

        [14]HP Labs.Jena [EB/OL] .[2011-08-05].http://www.hpl.hp.com/semweb/.

        [15]Automatic Content Extraction(ACE)Evaluation [EB/OL].[2011-08-05].http://www.itl.nist.gov/iad/mig//tests/ace/.

        猜你喜歡
        頁面規(guī)則信息
        大狗熊在睡覺
        刷新生活的頁面
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        TPP反腐敗規(guī)則對我國的啟示
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        同一Word文檔 縱橫頁面并存
        淺析ASP.NET頁面導(dǎo)航技術(shù)
        亚洲av中文无码乱人伦在线咪咕| 色先锋av资源中文字幕| 夜爽8888视频在线观看| 99亚洲乱人伦精品| 蜜桃网站入口可看18禁| 伊人久久大香线蕉av色婷婷色| 国产亚洲精品aaaaaaa片| 五月天综合社区| 中文无字幕一本码专区| 亚洲人成人无码www| 午夜精品久久久久成人| 免费一区二区三区视频狠狠| 中文字幕一区二区三区综合网| 欧洲成人一区二区三区| 欧美性猛交内射兽交老熟妇| a级国产精品片在线观看| 一区二区三区日韩蜜桃| 亚洲av网一区二区三区| 无码aⅴ在线观看| 中国猛少妇色xxxxx| 亚色中文字幕| 国产三级在线观看高清| av在线观看免费天堂| 狠狠噜天天噜日日噜视频麻豆| 色爱无码A V 综合区| 香蕉蜜桃av一区二区三区| 国产成人综合美国十次| 人人妻人人玩人人澡人人爽| 亚洲AV秘 无码一区二区久久| 中文字幕日韩有码国产| 色妞ww精品视频7777| 国产精品天堂avav在线| 最新日本女优中文字幕视频| 久久精品国产清自在天天线| 久久99精品久久久久久| 亚洲天堂免费一二三四区| 中文字幕国产精品一二三四五区| 国产成年无码v片在线| 波多野结衣一区二区三区免费视频| 激情五月天在线观看视频| 特级毛片a级毛片100免费播放|