亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web挖掘的信息抽取系統(tǒng)的研究

        2010-01-06 03:45:46方少卿胡學(xué)鋼
        銅陵學(xué)院學(xué)報 2010年4期
        關(guān)鍵詞:頁面文檔規(guī)則

        方少卿 胡學(xué)鋼

        (1.合肥工業(yè)大學(xué),安徽 合肥 230009;2.銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244000)

        基于Web挖掘的信息抽取系統(tǒng)的研究

        方少卿1,2胡學(xué)鋼1

        (1.合肥工業(yè)大學(xué),安徽 合肥 230009;2.銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244000)

        文章討論了Web挖掘的一些基本概念,針對Web數(shù)據(jù)的特點提出了一個基于Web挖掘的信息抽取系統(tǒng)的結(jié)構(gòu)模型。模型通過對XML文檔的解析生成DOM樹,在此基礎(chǔ)上,通過對樣本頁的DOM樹的先序遍歷生成抽取規(guī)則,再以此規(guī)則對Web頁進行數(shù)據(jù)抽取,所抽取的數(shù)據(jù)保存在數(shù)據(jù)庫中,以便利用數(shù)據(jù)庫技術(shù)進一步利用這些數(shù)據(jù)。

        Web挖掘;信息抽??;抽取規(guī)則

        在當(dāng)今信息社會,隨著Internet的迅猛發(fā)展,因特網(wǎng)上的信息資源呈爆炸式增長。Web已成為人類傳播與共享科技、教育、商業(yè)和社會信息最重要和最具潛力的巨大信息源,其中蘊含著大量具有潛在價值的知識。同時也帶來了如何有針對性地快速獲取有效信息的嚴重挑戰(zhàn)。如何快速高效地從其中搜尋到所需要的內(nèi)容?已成為人們越來越迫切的渴望,作為解決這一需求的研究領(lǐng)域——Web挖掘(Web Mining)應(yīng)運而生,并成為目前研究的一個熱點。

        一、Web挖掘概述

        1.Web挖掘的定義

        Web挖掘是由Oren Etzioni在1996年首先提出的,“data mining on the Internet”(因特網(wǎng)的數(shù)據(jù)挖掘)、“Knowledge Discovery in Web”(網(wǎng)絡(luò)信息知識發(fā)現(xiàn))、“網(wǎng)絡(luò)信息挖掘”、“Web信息挖掘”等可以認為也是Web挖掘的同義詞。Web挖掘是一門綜合性的技術(shù),涉及信息檢索、統(tǒng)計學(xué)、模式識別、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)、自然語言處理以及Web技術(shù)等領(lǐng)域。Web挖掘目前尚無統(tǒng)一的定義。下面是關(guān)于Web挖掘定義的幾種典型描述:

        (l)運用數(shù)據(jù)挖掘技術(shù)從World Wide Web中發(fā)現(xiàn)和分析有用的信息。

        (2)從WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。

        (3)所謂Web挖掘是指從大量的數(shù)據(jù)集合c中發(fā)現(xiàn)隱含的模式p。如果將c看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ∶c→p。

        2.Web挖掘的分類

        與傳統(tǒng)的信息資源相比,Web信息資源有著信息海量、數(shù)據(jù)環(huán)境異構(gòu)、數(shù)據(jù)源的半結(jié)構(gòu)化等特性,Web數(shù)據(jù)復(fù)雜而類型多樣,Web數(shù)據(jù)的多樣性決定了Web挖掘任務(wù)的多樣性。根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為Web內(nèi)容挖掘(Web content mining)、Web 結(jié)構(gòu)挖掘(Web structure mining) 以及Web使用記錄挖掘(Web usage mining),如表1所示。Web內(nèi)容挖掘又分為Web文本挖掘和Web多媒體挖掘。

        Web信息抽?。╓eb Information Extraction簡稱Web IE)屬于Web內(nèi)容挖掘范疇。目前Web數(shù)據(jù)大都以半結(jié)構(gòu)化的HTML形式出現(xiàn),由于HTML缺乏對數(shù)據(jù)本身的描述,不含清晰的語義信息,模式也不明確。這使得應(yīng)用程序無法直接解析并利用Web上的海量信息。Web信息抽取技術(shù)通過包裝現(xiàn)有Web信息源,采用一定的方式增加了語義和模式信息,將網(wǎng)頁上的信息以結(jié)構(gòu)化的方式抽取出來?,F(xiàn)有的Web信息抽取技術(shù)不但可以直接定位到用戶所需的信息,而且為Web查詢提供了更為精確的方法,使應(yīng)用程序利用Web中的數(shù)據(jù)和Web信息的再利用成為可能。

        表1 Web挖掘分類

        3.Web挖掘的步驟

        與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接對Web網(wǎng)頁上的數(shù)據(jù)進行挖掘,必須經(jīng)過數(shù)據(jù)處理,Web挖掘主要的處理過程是對Web文檔集合的內(nèi)容進行分詞處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)分析等。

        典型Web挖掘過程一般可分成以下四個階段,如圖1所示:

        (1)數(shù)據(jù)采集:Web環(huán)境目前能提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)、超鏈接數(shù)據(jù)、電子郵件、新聞組、網(wǎng)站的日志數(shù)據(jù)以及通過Web形成的交易數(shù)據(jù)庫。按照主題相關(guān)的原則,數(shù)據(jù)采集主要是采集Web網(wǎng)頁,即檢索所需的網(wǎng)絡(luò)文檔,為后面的Web挖掘提供素材和資源;

        (2)信息篩選和預(yù)處理:從獲取的網(wǎng)頁中自動篩選和預(yù)處理特定的信息。數(shù)據(jù)的預(yù)處理是對源數(shù)據(jù)進行加工處理和組織重構(gòu),為下一步的Web挖掘提供基礎(chǔ)平臺,做好前期準(zhǔn)備。它包括:數(shù)據(jù)整理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)約簡等工作;預(yù)處理過程是Web挖掘過程中最關(guān)鍵的一環(huán),處理質(zhì)量關(guān)系到后面挖掘過程和模式分析過程的質(zhì)量。

        (3)模式發(fā)現(xiàn):通過實施挖掘算法,例如關(guān)聯(lián)規(guī)則挖掘算法,序列模式挖掘算法和分類、聚類算法,發(fā)現(xiàn)存在于單個網(wǎng)站或跨越多個網(wǎng)站的潛在的、有用的模式。

        (4)模式分析:對所挖掘的模式進行評估,驗證并解釋上一步驟產(chǎn)生的模式,該工作可以是機器自動完成,也可以是與分析人員進行交互來完成。利用一些方法和工具對挖掘出的模式、規(guī)則進行分析,找出我們感興趣的模式和規(guī)則。通過模式挖掘之后,生成的規(guī)則數(shù)目可能非常龐大,表達也可能比較晦澀,因此需要對模式進行分析評價,并將結(jié)果以易于理解和接受的方式顯現(xiàn)出來。

        二、基于Web挖掘的信息抽取系統(tǒng)

        本文采用的數(shù)據(jù)源是基于數(shù)據(jù)導(dǎo)向型頁面,通過對數(shù)據(jù)導(dǎo)向型頁面結(jié)構(gòu)特點分析得到啟發(fā)式規(guī)則——頁面中大量表現(xiàn)形式相同的信息塊就是關(guān)鍵信息。故本文研究基于以下假設(shè):

        ☆ 待抽取頁面和樣本學(xué)習(xí)頁面包含要抽取的信息。

        ☆ 一個頁面中含有相似的信息塊,如果用搜索引擎進行搜索,搜索結(jié)果的展示方式應(yīng)該是一樣的。

        本系統(tǒng)抽取前提是基于格式良好的XML文檔。采用XML表示抽取結(jié)果的原因是:

        ☆ XML數(shù)據(jù)結(jié)構(gòu)性很強,可以直接被其他系統(tǒng)訪問。這樣信息抽取系統(tǒng)可以方便地為信息集成、信息過濾等其他重要的信息抽取結(jié)果的系統(tǒng)服務(wù)。

        ☆ 抽取結(jié)果可以很容易地表示和轉(zhuǎn)換為不同格式,滿足不同用戶的需要。

        1.基于Web挖掘的信息抽取系統(tǒng)框架

        首先通過網(wǎng)絡(luò)爬蟲heritrix獲取Web站點的數(shù)據(jù)(多數(shù)為HTML文檔),再利用W3C Tidy工具對HTML源碼進行清洗整理處理并生成格式良好的XML文檔,通過對XML文檔解析得到該文檔的DOM樹結(jié)構(gòu),通過對DOM樹進行先序遍歷,得到文檔的內(nèi)容,再通過用戶交互選擇將感興趣文本信息抽取出來保存至數(shù)據(jù)庫中,同時利用這些信息生成一組規(guī)則,將此規(guī)則加入到某一規(guī)則模板中,某個規(guī)則模板中的規(guī)則可以通過多個相似結(jié)構(gòu)的樣本頁學(xué)習(xí)來提高規(guī)則的健壯性。利用這些規(guī)則對相似結(jié)構(gòu)的Web頁文本數(shù)據(jù)進行挖掘,并將挖掘到的數(shù)據(jù)存入數(shù)據(jù)庫。具體系統(tǒng)結(jié)構(gòu)框架見圖2。

        圖2基于Web就業(yè)信息抽取系統(tǒng)結(jié)構(gòu)圖

        從圖2可知系統(tǒng)包含數(shù)據(jù)采集模塊、數(shù)據(jù)整理模塊、信息抽取模塊三部分,其中信息抽取模塊是本系統(tǒng)的核心。

        2.數(shù)據(jù)采集模塊

        首先通過heritrix獲取整個Web站點的數(shù)據(jù),即得到Web站點的鏡像,這些數(shù)據(jù)作為信息抽取的信息源,是整個信息抽取系統(tǒng)的起點。

        3.數(shù)據(jù)整理模塊

        主要針對待學(xué)習(xí)頁面和待抽取頁面進行優(yōu)化處理,將結(jié)構(gòu)不完整或不規(guī)范的HTML頁面轉(zhuǎn)化成為結(jié)構(gòu)良好的XHTML文檔。為加快清理速度和提高清理質(zhì)量,先清理

        久久久久成人精品免费播放动漫| 精品国产三级在线观看| 国产2021精品视频免费播放| 国产美女av一区二区三区| 中国男女黄色完整视频| 欧美又粗又长又爽做受| 亚洲 欧美 影音先锋| 国产在线看不卡一区二区| 视频区一区二在线观看| 精品人妻av区乱码| 国产真实乱人偷精品人妻| 亚洲熟妇在线视频观看| 综合人妻久久一区二区精品| 日韩女优精品一区二区三区| 男男啪啪激烈高潮cc漫画免费| 国产女人18一级毛片视频 | 色婷婷亚洲十月十月色天| 加勒比东京热一区二区| 妺妺窝人体色www看美女| 视频一区二区在线播放| 蜜桃av区一区二区三| 白嫩人妻少妇偷人精品| 男男性恋免费视频网站| 欧美韩国精品另类综合| 日本女优五十路中文字幕| 国产99视频精品免视看7| 永久免费av无码网站性色av| 亚洲精品乱码久久久久久按摩高清 | 国产欧美日韩在线观看| 美女超薄透明丝袜美腿| av在线男人的免费天堂| 国产精品一区二区日本| 亚洲欧洲∨国产一区二区三区| 日本专区一区二区三区| 一区二区高清视频免费在线观看| 日本熟日本熟妇中文在线观看| 人妻系列无码专区久久五月天| 国产精品欧美久久久久老妞| 加勒比东京热久久综合| 亚洲视频高清一区二区| 国产xxxx99真实实拍|