亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web挖掘的信息抽取系統(tǒng)的研究

        2010-01-06 03:45:46方少卿胡學(xué)鋼
        銅陵學(xué)院學(xué)報 2010年4期
        關(guān)鍵詞:頁面文檔規(guī)則

        方少卿 胡學(xué)鋼

        (1.合肥工業(yè)大學(xué),安徽 合肥 230009;2.銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244000)

        基于Web挖掘的信息抽取系統(tǒng)的研究

        方少卿1,2胡學(xué)鋼1

        (1.合肥工業(yè)大學(xué),安徽 合肥 230009;2.銅陵職業(yè)技術(shù)學(xué)院,安徽 銅陵 244000)

        文章討論了Web挖掘的一些基本概念,針對Web數(shù)據(jù)的特點提出了一個基于Web挖掘的信息抽取系統(tǒng)的結(jié)構(gòu)模型。模型通過對XML文檔的解析生成DOM樹,在此基礎(chǔ)上,通過對樣本頁的DOM樹的先序遍歷生成抽取規(guī)則,再以此規(guī)則對Web頁進行數(shù)據(jù)抽取,所抽取的數(shù)據(jù)保存在數(shù)據(jù)庫中,以便利用數(shù)據(jù)庫技術(shù)進一步利用這些數(shù)據(jù)。

        Web挖掘;信息抽??;抽取規(guī)則

        在當(dāng)今信息社會,隨著Internet的迅猛發(fā)展,因特網(wǎng)上的信息資源呈爆炸式增長。Web已成為人類傳播與共享科技、教育、商業(yè)和社會信息最重要和最具潛力的巨大信息源,其中蘊含著大量具有潛在價值的知識。同時也帶來了如何有針對性地快速獲取有效信息的嚴重挑戰(zhàn)。如何快速高效地從其中搜尋到所需要的內(nèi)容?已成為人們越來越迫切的渴望,作為解決這一需求的研究領(lǐng)域——Web挖掘(Web Mining)應(yīng)運而生,并成為目前研究的一個熱點。

        一、Web挖掘概述

        1.Web挖掘的定義

        Web挖掘是由Oren Etzioni在1996年首先提出的,“data mining on the Internet”(因特網(wǎng)的數(shù)據(jù)挖掘)、“Knowledge Discovery in Web”(網(wǎng)絡(luò)信息知識發(fā)現(xiàn))、“網(wǎng)絡(luò)信息挖掘”、“Web信息挖掘”等可以認為也是Web挖掘的同義詞。Web挖掘是一門綜合性的技術(shù),涉及信息檢索、統(tǒng)計學(xué)、模式識別、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)、自然語言處理以及Web技術(shù)等領(lǐng)域。Web挖掘目前尚無統(tǒng)一的定義。下面是關(guān)于Web挖掘定義的幾種典型描述:

        (l)運用數(shù)據(jù)挖掘技術(shù)從World Wide Web中發(fā)現(xiàn)和分析有用的信息。

        (2)從WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息。

        (3)所謂Web挖掘是指從大量的數(shù)據(jù)集合c中發(fā)現(xiàn)隱含的模式p。如果將c看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ∶c→p。

        2.Web挖掘的分類

        與傳統(tǒng)的信息資源相比,Web信息資源有著信息海量、數(shù)據(jù)環(huán)境異構(gòu)、數(shù)據(jù)源的半結(jié)構(gòu)化等特性,Web數(shù)據(jù)復(fù)雜而類型多樣,Web數(shù)據(jù)的多樣性決定了Web挖掘任務(wù)的多樣性。根據(jù)挖掘?qū)ο蟮牟煌琖eb挖掘可以分為Web內(nèi)容挖掘(Web content mining)、Web 結(jié)構(gòu)挖掘(Web structure mining) 以及Web使用記錄挖掘(Web usage mining),如表1所示。Web內(nèi)容挖掘又分為Web文本挖掘和Web多媒體挖掘。

        Web信息抽?。╓eb Information Extraction簡稱Web IE)屬于Web內(nèi)容挖掘范疇。目前Web數(shù)據(jù)大都以半結(jié)構(gòu)化的HTML形式出現(xiàn),由于HTML缺乏對數(shù)據(jù)本身的描述,不含清晰的語義信息,模式也不明確。這使得應(yīng)用程序無法直接解析并利用Web上的海量信息。Web信息抽取技術(shù)通過包裝現(xiàn)有Web信息源,采用一定的方式增加了語義和模式信息,將網(wǎng)頁上的信息以結(jié)構(gòu)化的方式抽取出來?,F(xiàn)有的Web信息抽取技術(shù)不但可以直接定位到用戶所需的信息,而且為Web查詢提供了更為精確的方法,使應(yīng)用程序利用Web中的數(shù)據(jù)和Web信息的再利用成為可能。

        表1 Web挖掘分類

        3.Web挖掘的步驟

        與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接對Web網(wǎng)頁上的數(shù)據(jù)進行挖掘,必須經(jīng)過數(shù)據(jù)處理,Web挖掘主要的處理過程是對Web文檔集合的內(nèi)容進行分詞處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān)聯(lián)分析等。

        典型Web挖掘過程一般可分成以下四個階段,如圖1所示:

        (1)數(shù)據(jù)采集:Web環(huán)境目前能提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)、超鏈接數(shù)據(jù)、電子郵件、新聞組、網(wǎng)站的日志數(shù)據(jù)以及通過Web形成的交易數(shù)據(jù)庫。按照主題相關(guān)的原則,數(shù)據(jù)采集主要是采集Web網(wǎng)頁,即檢索所需的網(wǎng)絡(luò)文檔,為后面的Web挖掘提供素材和資源;

        (2)信息篩選和預(yù)處理:從獲取的網(wǎng)頁中自動篩選和預(yù)處理特定的信息。數(shù)據(jù)的預(yù)處理是對源數(shù)據(jù)進行加工處理和組織重構(gòu),為下一步的Web挖掘提供基礎(chǔ)平臺,做好前期準(zhǔn)備。它包括:數(shù)據(jù)整理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)約簡等工作;預(yù)處理過程是Web挖掘過程中最關(guān)鍵的一環(huán),處理質(zhì)量關(guān)系到后面挖掘過程和模式分析過程的質(zhì)量。

        (3)模式發(fā)現(xiàn):通過實施挖掘算法,例如關(guān)聯(lián)規(guī)則挖掘算法,序列模式挖掘算法和分類、聚類算法,發(fā)現(xiàn)存在于單個網(wǎng)站或跨越多個網(wǎng)站的潛在的、有用的模式。

        (4)模式分析:對所挖掘的模式進行評估,驗證并解釋上一步驟產(chǎn)生的模式,該工作可以是機器自動完成,也可以是與分析人員進行交互來完成。利用一些方法和工具對挖掘出的模式、規(guī)則進行分析,找出我們感興趣的模式和規(guī)則。通過模式挖掘之后,生成的規(guī)則數(shù)目可能非常龐大,表達也可能比較晦澀,因此需要對模式進行分析評價,并將結(jié)果以易于理解和接受的方式顯現(xiàn)出來。

        二、基于Web挖掘的信息抽取系統(tǒng)

        本文采用的數(shù)據(jù)源是基于數(shù)據(jù)導(dǎo)向型頁面,通過對數(shù)據(jù)導(dǎo)向型頁面結(jié)構(gòu)特點分析得到啟發(fā)式規(guī)則——頁面中大量表現(xiàn)形式相同的信息塊就是關(guān)鍵信息。故本文研究基于以下假設(shè):

        ☆ 待抽取頁面和樣本學(xué)習(xí)頁面包含要抽取的信息。

        ☆ 一個頁面中含有相似的信息塊,如果用搜索引擎進行搜索,搜索結(jié)果的展示方式應(yīng)該是一樣的。

        本系統(tǒng)抽取前提是基于格式良好的XML文檔。采用XML表示抽取結(jié)果的原因是:

        ☆ XML數(shù)據(jù)結(jié)構(gòu)性很強,可以直接被其他系統(tǒng)訪問。這樣信息抽取系統(tǒng)可以方便地為信息集成、信息過濾等其他重要的信息抽取結(jié)果的系統(tǒng)服務(wù)。

        ☆ 抽取結(jié)果可以很容易地表示和轉(zhuǎn)換為不同格式,滿足不同用戶的需要。

        1.基于Web挖掘的信息抽取系統(tǒng)框架

        首先通過網(wǎng)絡(luò)爬蟲heritrix獲取Web站點的數(shù)據(jù)(多數(shù)為HTML文檔),再利用W3C Tidy工具對HTML源碼進行清洗整理處理并生成格式良好的XML文檔,通過對XML文檔解析得到該文檔的DOM樹結(jié)構(gòu),通過對DOM樹進行先序遍歷,得到文檔的內(nèi)容,再通過用戶交互選擇將感興趣文本信息抽取出來保存至數(shù)據(jù)庫中,同時利用這些信息生成一組規(guī)則,將此規(guī)則加入到某一規(guī)則模板中,某個規(guī)則模板中的規(guī)則可以通過多個相似結(jié)構(gòu)的樣本頁學(xué)習(xí)來提高規(guī)則的健壯性。利用這些規(guī)則對相似結(jié)構(gòu)的Web頁文本數(shù)據(jù)進行挖掘,并將挖掘到的數(shù)據(jù)存入數(shù)據(jù)庫。具體系統(tǒng)結(jié)構(gòu)框架見圖2。

        圖2基于Web就業(yè)信息抽取系統(tǒng)結(jié)構(gòu)圖

        從圖2可知系統(tǒng)包含數(shù)據(jù)采集模塊、數(shù)據(jù)整理模塊、信息抽取模塊三部分,其中信息抽取模塊是本系統(tǒng)的核心。

        2.數(shù)據(jù)采集模塊

        首先通過heritrix獲取整個Web站點的數(shù)據(jù),即得到Web站點的鏡像,這些數(shù)據(jù)作為信息抽取的信息源,是整個信息抽取系統(tǒng)的起點。

        3.數(shù)據(jù)整理模塊

        主要針對待學(xué)習(xí)頁面和待抽取頁面進行優(yōu)化處理,將結(jié)構(gòu)不完整或不規(guī)范的HTML頁面轉(zhuǎn)化成為結(jié)構(gòu)良好的XHTML文檔。為加快清理速度和提高清理質(zhì)量,先清理

        久久夜色精品国产三级| 久久国产精品无码一区二区三区| 99国产精品久久久蜜芽| 一本久久a久久精品综合| 青青河边草免费在线看的视频| 奇米影视7777久久精品| 国产精品卡一卡二卡三| 波多野结衣一区二区三区免费视频 | 婷婷四房播播| 国产香蕉一区二区三区| 国产自拍偷拍视频免费在线观看 | 无码一区二区三区在线在看| 国内精品女同一区二区三区| 亚洲欧洲av综合色无码| 国产亚洲av无码专区a∨麻豆| 亚洲欧美日韩中文字幕网址| 国产人妖直男在线视频| 一边做一边说国语对白| 国内老熟妇对白xxxxhd| 精品一区二区三区在线视频观看| 日本一区二区三区精品免费| 免费国产a国产片高清网站| 亚洲欧美精品伊人久久| 日本一区二区三本视频在线观看| 精品一级一片内射播放| 亚洲日韩一区精品射精| 国产成人久久精品区一区二区 | 国产av熟女一区二区三区密桃| 久久综合九色综合久99| 国产精品女同久久久久电影院| 精品久久久中文字幕人妻| 欧美日韩a级a| 亚洲av在线观看播放| 成人av鲁丝片一区二区免费| 久久免费网国产AⅤ| 日韩色久悠悠婷婷综合| 国模gogo无码人体啪啪| 日本大片在线看黄a∨免费| 中文字幕大乳少妇| 华人在线视频精品在线| 特黄特色的大片观看免费视频|