張騫中 李春輝
(黑龍江工商學院 黑龍江哈爾濱 150025)
基于實體的網頁信息抽取
張騫中 李春輝
(黑龍江工商學院 黑龍江哈爾濱 150025)
信息抽取是指將非結構化或半結構化的文本轉換為結構化信息的過程,并將其存儲在某種形式的過程中,可以由用戶進行查詢和分析,并利用它。網頁信息抽取是從網頁中提取的。
對于用戶感興趣的信息,對于過濾掉不相關的信息,將分散在半結構化的網頁信息中抽取出來,并結構化,語義更清晰的模式表示。它為用戶直接使用網絡數據查詢數據和應用程序提供了方便,是實現信息檢索、機器翻譯、自動問答、自動推薦等功能的關鍵。這是國內外研究的熱點課題?,F有的網頁信息抽取系統(tǒng)是基于網頁的特殊結構進行信息提取,如提取數據的表中,以及利用包裝器的感應方式進行信息提取。上述方法對于一個特定的結構,不具有可重用性,規(guī)則提取的建立是人工的,不同的結構需要不同的抽取規(guī)則;并且只能提取數據信息,而網絡中也包含了豐富的語義信息,如關系、斷言。實體有一個良好的概念層次結構和邏輯推理的支持,通過構造實體規(guī)則,它的基礎上的實體信息提取,不僅可以找到一個特定類型的實體提取,但也通過在實體概念的語義描述,以確定它的語義描述。本文針對特定主題,提出了一種基于實體的Web信息抽取框架,對實體在信息抽取系統(tǒng)中的作用作了詳細介紹并實現所提出的相關算法。實驗證明,該抽取系統(tǒng)能夠得到性能較高的抽取結果。
1.1 領域實體
實體是一種知識表示方法,它可以在知識表示、知識共享和知識重用的情況下,對信息系統(tǒng)的概念模型進行建模。域實體是用來描述特定目的實體的特定領域知識,給出了域實體概念,域屬性的概念,域屬性值和關系,斷言,以及該領域的特點和法律有一個正式的描述。
1.2 基于實體的Web信息抽取框架
以網絡信息抽取的實體為基礎,以實體為核心,在概念、分類層次、關系、功能、公理、實例等方面對網頁進行了定義,并在過程中進行了必要的外部數據的提取,結構化的知識,并保存。
1.3 系統(tǒng)構成
整個系統(tǒng)包括三個部分:文檔采集與預處理、文本轉換和知識提取。在信息抽取過程中,需要對一些外部信息進行分析,包括:域實體;網站地圖文件;關鍵字,短語,特殊的字典和一般的字典;結束語,功能詞,高頻詞列表;詞條規(guī)則;部分語音部分和詞性標注規(guī)則;實體識別與標記規(guī)則;知識提取規(guī)則等八個方面。
使用的信息提取算法包括:爬行算法;文件預處理算法;文件存儲算法;分詞和詞匯查詢算法;結束詞,詞條,高頻去除算法;子句算法;詞性標注算法;命名實體識別與標記算法;知識提取算法等九個方面的算法。
1.4實體在網頁信息抽取中的作用
構建實體:軟件工程領域是實現高性能信息提取效果的關鍵。域實體庫的構建首先,包括類、對象屬性、數據屬性和謂詞的領域,然后根據領域的概念和術語添加實例。在本文中,一個實例的實體,網頁域給出的一部分,從相關的網頁通過統(tǒng)計獲得的一部分,但也根據一般字典使用的相似性比較的方法得到一個部分。在本文中,我們使用的方法,覆蓋式感應,構造的知識點的數據結構課程的域實體。
實體解析:在信息抽取過程中,為了充分利用實體的知識,需要對域實體進行析,對概念、實例、關系、域和范圍的關系、語義標注和知識抽取過程服務進行分析。
知識存儲:根據信息存儲的要求,信息抽取的結果主要有以下2個結果:與語義XML文檔和三元組或2元組表示。
2.1 文件采集及預處理
文件被收集用于發(fā)現文件,并且可以檢索文檔。將收集的文檔預處理過程中,獲取格式化文檔。
2.2 源文檔及信息采集
源文件可以通過本地局域網,特定的主題或互聯網,其類型可以是HTML,XML,RDF,eMail,PDF,Word,txt,RSS。本文網頁信息提取,網頁頁面是目錄頁類型分為網頁內容和結構類型,頁面源文件,集合域。信息收集來自網頁文件,并且可以使用網絡爬行的方式抓取。本文我們就使用網頁爬蟲抓取。經常使用的工具為主體獲取分類,需要選擇特定的頁面分類。
2.3 文檔預處理
原始文件格式不統(tǒng)一,編碼不統(tǒng)一,為文檔預處理的需要,各種文件格式的文件,主要是HTML或XML,等等。文檔預處理的文檔包括文檔內容的格式、超鏈接、數據格式、元數據和其他信息:
(1)主要的文本是格式的內容:網頁的內容,是實現網頁內容信息提取的關鍵;
(2)網頁中的超鏈接超鏈接信息,是實現目錄類型信息提取的關鍵;
(3)元數據信息:格式信息的文件之外的信息解析文檔結構,網頁根據文檔對象模型,包括文件的屬性,如日期、作者和其他標簽。這些可識別卦文件的組成部分。本文采用文檔預處理算法將各種文件轉換成XML文檔,包括文檔的內容和格式的信息;各種編碼為Unicode。
2.4 文檔存儲及文檔數據庫
文件存儲于格式化文件類型中。文件一般存儲在關系數據庫中,與存儲在特殊的數據庫。通過索引提取信息,文件格式存儲隊列算法在信息存儲在XML文件的原始文件的存儲,并且于原始文件格式和備份的路徑信息。
2.5 文本轉換
文本轉換是一個格式化文檔的單詞和句子結構的處理。本文在對文本轉換算法的基礎上,對網頁的結構類型進行確定,即目錄類型、結構類型或內容類型,然后根據不同類型的信息提取方法:
(1)通過文件的預處理和查詢要求的文本內容和網址地址的目錄類型頁的內容,以找到需要重新定位的查詢地址,信息提取的新地址的內容;
(2)根據預處理的數據格式信息和元數據信息,以獲得原始網頁結構標記,根據信息提取結構;
(3)內容類型頁根據本文的內容,預處理的內容,文本的內容,然后進行信息提取。在本文中,我們主要研究的內容頁的信息提取。
針對網頁信息抽取系統(tǒng)的抽取結果缺乏語義信息和提取方法,提出了一種基于實體的主題式網頁信息抽取模型。該模型通過對實體分辨率結果進行分詞,命名實體識別和知識提取在應用中,分詞和命名實體識別結果更傾向于該領域,提取方法也可用于各個領域的語義信息的獲取和獲取。結果表明,該系統(tǒng)可以得到滿意的結果。后續(xù)工作將進一步完善系統(tǒng),重點對分詞,命名實體識別和知識提取算法。
TP391.3
A
1004-7344(2016)09-0260-01
2016-3-10
張騫中,男,計算機科學與技術系教師。