基于Web挖掘的信息抽取系統(tǒng)的研究

2010-01-06 03:45:46方少卿胡學(xué)鋼

銅陵學(xué)院學(xué)報 2010年4期

關(guān)鍵詞：頁面文檔規(guī)則

方少卿胡學(xué)鋼

（1.合肥工業(yè)大學(xué)，安徽合肥 230009；2.銅陵職業(yè)技術(shù)學(xué)院，安徽銅陵 244000）

基于Web挖掘的信息抽取系統(tǒng)的研究

方少卿1，2胡學(xué)鋼1

（1.合肥工業(yè)大學(xué)，安徽合肥 230009；2.銅陵職業(yè)技術(shù)學(xué)院，安徽銅陵 244000）

文章討論了Web挖掘的一些基本概念，針對Web數(shù)據(jù)的特點提出了一個基于Web挖掘的信息抽取系統(tǒng)的結(jié)構(gòu)模型。模型通過對XML文檔的解析生成DOM樹，在此基礎(chǔ)上，通過對樣本頁的DOM樹的先序遍歷生成抽取規(guī)則，再以此規(guī)則對Web頁進行數(shù)據(jù)抽取，所抽取的數(shù)據(jù)保存在數(shù)據(jù)庫中，以便利用數(shù)據(jù)庫技術(shù)進一步利用這些數(shù)據(jù)。

Web挖掘；信息抽??；抽取規(guī)則

在當(dāng)今信息社會，隨著Internet的迅猛發(fā)展，因特網(wǎng)上的信息資源呈爆炸式增長。Web已成為人類傳播與共享科技、教育、商業(yè)和社會信息最重要和最具潛力的巨大信息源，其中蘊含著大量具有潛在價值的知識。同時也帶來了如何有針對性地快速獲取有效信息的嚴重挑戰(zhàn)。如何快速高效地從其中搜尋到所需要的內(nèi)容？已成為人們越來越迫切的渴望，作為解決這一需求的研究領(lǐng)域——Web挖掘（Web Mining）應(yīng)運而生，并成為目前研究的一個熱點。

一、Web挖掘概述

1．Web挖掘的定義

Web挖掘是由Oren Etzioni在1996年首先提出的，“data mining on the Internet”（因特網(wǎng)的數(shù)據(jù)挖掘）、“Knowledge Discovery in Web”（網(wǎng)絡(luò)信息知識發(fā)現(xiàn)）、“網(wǎng)絡(luò)信息挖掘”、“Web信息挖掘”等可以認為也是Web挖掘的同義詞。Web挖掘是一門綜合性的技術(shù)，涉及信息檢索、統(tǒng)計學(xué)、模式識別、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)、自然語言處理以及Web技術(shù)等領(lǐng)域。Web挖掘目前尚無統(tǒng)一的定義。下面是關(guān)于Web挖掘定義的幾種典型描述：

（l）運用數(shù)據(jù)挖掘技術(shù)從World Wide Web中發(fā)現(xiàn)和分析有用的信息。

（2）從WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。

（3）所謂Web挖掘是指從大量的數(shù)據(jù)集合c中發(fā)現(xiàn)隱含的模式p。如果將c看作輸入，將p看作輸出，那么Web挖掘的過程就是從輸入到輸出的一個映射ξ∶c→p。

2．Web挖掘的分類

與傳統(tǒng)的信息資源相比，Web信息資源有著信息海量、數(shù)據(jù)環(huán)境異構(gòu)、數(shù)據(jù)源的半結(jié)構(gòu)化等特性，Web數(shù)據(jù)復(fù)雜而類型多樣，Web數(shù)據(jù)的多樣性決定了Web挖掘任務(wù)的多樣性。根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為Web內(nèi)容挖掘（Web content mining）、Web 結(jié)構(gòu)挖掘（Web structure mining）以及Web使用記錄挖掘（Web usage mining），如表1所示。Web內(nèi)容挖掘又分為Web文本挖掘和Web多媒體挖掘。

Web信息抽?。╓eb Information Extraction簡稱Web IE）屬于Web內(nèi)容挖掘范疇。目前Web數(shù)據(jù)大都以半結(jié)構(gòu)化的HTML形式出現(xiàn)，由于HTML缺乏對數(shù)據(jù)本身的描述，不含清晰的語義信息，模式也不明確。這使得應(yīng)用程序無法直接解析并利用Web上的海量信息。Web信息抽取技術(shù)通過包裝現(xiàn)有Web信息源，采用一定的方式增加了語義和模式信息，將網(wǎng)頁上的信息以結(jié)構(gòu)化的方式抽取出來?，F(xiàn)有的Web信息抽取技術(shù)不但可以直接定位到用戶所需的信息，而且為Web查詢提供了更為精確的方法，使應(yīng)用程序利用Web中的數(shù)據(jù)和Web信息的再利用成為可能。

表1 Web挖掘分類

3．Web挖掘的步驟

與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比，Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的，所以很難直接對Web網(wǎng)頁上的數(shù)據(jù)進行挖掘，必須經(jīng)過數(shù)據(jù)處理，Web挖掘主要的處理過程是對Web文檔集合的內(nèi)容進行分詞處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)分析等。

典型Web挖掘過程一般可分成以下四個階段，如圖1所示：

（1）數(shù)據(jù)采集：Web環(huán)境目前能提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)、超鏈接數(shù)據(jù)、電子郵件、新聞組、網(wǎng)站的日志數(shù)據(jù)以及通過Web形成的交易數(shù)據(jù)庫。按照主題相關(guān)的原則，數(shù)據(jù)采集主要是采集Web網(wǎng)頁，即檢索所需的網(wǎng)絡(luò)文檔，為后面的Web挖掘提供素材和資源；

（2）信息篩選和預(yù)處理：從獲取的網(wǎng)頁中自動篩選和預(yù)處理特定的信息。數(shù)據(jù)的預(yù)處理是對源數(shù)據(jù)進行加工處理和組織重構(gòu)，為下一步的Web挖掘提供基礎(chǔ)平臺，做好前期準(zhǔn)備。它包括：數(shù)據(jù)整理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)約簡等工作；預(yù)處理過程是Web挖掘過程中最關(guān)鍵的一環(huán)，處理質(zhì)量關(guān)系到后面挖掘過程和模式分析過程的質(zhì)量。

（3）模式發(fā)現(xiàn)：通過實施挖掘算法，例如關(guān)聯(lián)規(guī)則挖掘算法，序列模式挖掘算法和分類、聚類算法，發(fā)現(xiàn)存在于單個網(wǎng)站或跨越多個網(wǎng)站的潛在的、有用的模式。

（4）模式分析：對所挖掘的模式進行評估，驗證并解釋上一步驟產(chǎn)生的模式，該工作可以是機器自動完成，也可以是與分析人員進行交互來完成。利用一些方法和工具對挖掘出的模式、規(guī)則進行分析，找出我們感興趣的模式和規(guī)則。通過模式挖掘之后，生成的規(guī)則數(shù)目可能非常龐大，表達也可能比較晦澀，因此需要對模式進行分析評價，并將結(jié)果以易于理解和接受的方式顯現(xiàn)出來。

二、基于Web挖掘的信息抽取系統(tǒng)

本文采用的數(shù)據(jù)源是基于數(shù)據(jù)導(dǎo)向型頁面，通過對數(shù)據(jù)導(dǎo)向型頁面結(jié)構(gòu)特點分析得到啟發(fā)式規(guī)則——頁面中大量表現(xiàn)形式相同的信息塊就是關(guān)鍵信息。故本文研究基于以下假設(shè)：

☆ 待抽取頁面和樣本學(xué)習(xí)頁面包含要抽取的信息。

☆ 一個頁面中含有相似的信息塊，如果用搜索引擎進行搜索，搜索結(jié)果的展示方式應(yīng)該是一樣的。

本系統(tǒng)抽取前提是基于格式良好的XML文檔。采用XML表示抽取結(jié)果的原因是:

☆ XML數(shù)據(jù)結(jié)構(gòu)性很強，可以直接被其他系統(tǒng)訪問。這樣信息抽取系統(tǒng)可以方便地為信息集成、信息過濾等其他重要的信息抽取結(jié)果的系統(tǒng)服務(wù)。

☆ 抽取結(jié)果可以很容易地表示和轉(zhuǎn)換為不同格式，滿足不同用戶的需要。

1．基于Web挖掘的信息抽取系統(tǒng)框架

首先通過網(wǎng)絡(luò)爬蟲heritrix獲取Web站點的數(shù)據(jù)（多數(shù)為HTML文檔），再利用W3C Tidy工具對HTML源碼進行清洗整理處理并生成格式良好的XML文檔，通過對XML文檔解析得到該文檔的DOM樹結(jié)構(gòu)，通過對DOM樹進行先序遍歷，得到文檔的內(nèi)容，再通過用戶交互選擇將感興趣文本信息抽取出來保存至數(shù)據(jù)庫中，同時利用這些信息生成一組規(guī)則，將此規(guī)則加入到某一規(guī)則模板中，某個規(guī)則模板中的規(guī)則可以通過多個相似結(jié)構(gòu)的樣本頁學(xué)習(xí)來提高規(guī)則的健壯性。利用這些規(guī)則對相似結(jié)構(gòu)的Web頁文本數(shù)據(jù)進行挖掘，并將挖掘到的數(shù)據(jù)存入數(shù)據(jù)庫。具體系統(tǒng)結(jié)構(gòu)框架見圖2。

圖2基于Web就業(yè)信息抽取系統(tǒng)結(jié)構(gòu)圖

從圖2可知系統(tǒng)包含數(shù)據(jù)采集模塊、數(shù)據(jù)整理模塊、信息抽取模塊三部分，其中信息抽取模塊是本系統(tǒng)的核心。

2.數(shù)據(jù)采集模塊

首先通過heritrix獲取整個Web站點的數(shù)據(jù)，即得到Web站點的鏡像，這些數(shù)據(jù)作為信息抽取的信息源，是整個信息抽取系統(tǒng)的起點。

3.數(shù)據(jù)整理模塊

主要針對待學(xué)習(xí)頁面和待抽取頁面進行優(yōu)化處理，將結(jié)構(gòu)不完整或不規(guī)范的HTML頁面轉(zhuǎn)化成為結(jié)構(gòu)良好的XHTML文檔。為加快清理速度和提高清理質(zhì)量，先清理

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Web挖掘的信息抽取系統(tǒng)的研究

一、Web挖掘概述

1．Web挖掘的定義

2．Web挖掘的分類

3．Web挖掘的步驟

二、基于Web挖掘的信息抽取系統(tǒng)

1．基于Web挖掘的信息抽取系統(tǒng)框架

2.數(shù)據(jù)采集模塊

3.數(shù)據(jù)整理模塊

一、Web挖掘概述

二、基于Web挖掘的信息抽取系統(tǒng)