亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于XML的Web數(shù)據(jù)挖掘系統(tǒng)模型的設(shè)計

2010-01-25 02:29:26黃淑芹

通化師范學(xué)院學(xué)報 2010年12期

黃淑芹

(安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院，安徽蚌埠 233030)

Internet的飛速發(fā)展，使其成為全球信息傳遞與共享的日益重要和最具潛力的資源，同時Web上信息也在爆炸性的增長，出現(xiàn)了“信息豐富知識匱乏”的現(xiàn)象，使人們迫切需要一種能夠快速、有效地從豐富的Web資源中發(fā)現(xiàn)大量潛在價值知識或者模式的工具.如何從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律，獲得有用的知識，數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘[1]技術(shù)扮演著重要的角色.但由于Web的內(nèi)容呈現(xiàn)多元化，包含了文本、音頻、視頻、圖形、圖像等多種元素，顯示形式也不拘一格，所以Web數(shù)據(jù)具有動態(tài)、異構(gòu)、半結(jié)構(gòu)化的特點[2].傳統(tǒng)數(shù)據(jù)挖掘的對象多是數(shù)據(jù)庫中規(guī)則化的數(shù)據(jù)[3]，對這樣的數(shù)據(jù)已顯得力不從心.而W3C開發(fā)的XML[4]是一種半結(jié)構(gòu)化的數(shù)據(jù)模型，具有“自描述”、“樹形結(jié)構(gòu)”、“結(jié)構(gòu)嵌套”等特點，能夠使來源于不同結(jié)構(gòu)化的數(shù)據(jù)很容易結(jié)合在一起.它不僅可以很好地兼容原有的Web應(yīng)用，而且可以更好地實現(xiàn)Web中的信息共享與交換，它自然地成為Web數(shù)據(jù)挖掘良好的中間載體，使Web挖掘工作變得更容易.

1 XML和Web數(shù)據(jù)挖掘技術(shù)

1.1 Web數(shù)據(jù)挖掘概念

Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web文檔及Web 服務(wù)中自動發(fā)現(xiàn)并提取人們感興趣的信息[2].通常Web數(shù)據(jù)挖掘過程分為以下幾個階段：資源發(fā)現(xiàn)，數(shù)據(jù)抽取及數(shù)據(jù)預(yù)處理階段，數(shù)據(jù)匯總及模式識別階段，分析驗證階段.由于Web的開放性、動態(tài)性、異構(gòu)化與半結(jié)構(gòu)化等特點，要從這些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速準(zhǔn)確的獲取信息成為Web 數(shù)據(jù)挖掘的難點.顯然，面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多.Web數(shù)據(jù)挖掘要充分考慮數(shù)據(jù)來源分析，異構(gòu)數(shù)據(jù)環(huán)境，半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)，解決半結(jié)構(gòu)化的數(shù)據(jù)源問題等幾個方面.

1.2 XML在Web數(shù)據(jù)挖掘中的應(yīng)用優(yōu)勢

XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型，它可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng)起來，實施精確地查詢與模型抽取，XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘難點提供了很好的解決方法.XML能增加結(jié)構(gòu)和語義信息，使計算機和服務(wù)器即時處理多種形式的信息.XML沒有固定的標(biāo)記，能描述數(shù)據(jù)的形式和結(jié)構(gòu)，并且數(shù)據(jù)和顯示形式分開，從而能方便地實現(xiàn)網(wǎng)絡(luò)應(yīng)用和信息共享.XML的自定義性及可擴展性，使它足以表達各種類型的數(shù)據(jù)，客戶收到數(shù)據(jù)后可以進行處理，也可以在不同數(shù)據(jù)庫間進行傳遞，XML在這類應(yīng)用中解決了數(shù)據(jù)的統(tǒng)一接口問題.XML是自我描述的，數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理.XML解決了Internet發(fā)展速度快而接入速度慢的問題，以及可利用的信息多，但難以找到自己需要的那部分信息的問題.XML為組織、軟件開發(fā)者、Web站點和終端使用者提供了許多有利條件.

2 基于XML的Web數(shù)據(jù)挖掘系統(tǒng)的模型

2.1 系統(tǒng)模型圖

由于XML具有簡單、開放、高效且可擴充、支持復(fù)用，能處理不同結(jié)構(gòu)的數(shù)據(jù)，實現(xiàn)異構(gòu)數(shù)據(jù)交換和共享，且內(nèi)容和顯示形式分離，表現(xiàn)數(shù)據(jù)能力較強，所以本文基于XML建立了Web數(shù)據(jù)挖掘系統(tǒng)的模型，模型分三個層次：數(shù)據(jù)獲取層，數(shù)據(jù)存儲層，數(shù)據(jù)挖掘?qū)?結(jié)構(gòu)如圖1所示：

圖1 系統(tǒng)模型圖

2.2 系統(tǒng)模型各部分功能

系統(tǒng)模型各部分互相協(xié)調(diào)，統(tǒng)一合作，各部分功能如下：

數(shù)據(jù)獲取層：從Web頁獲取各種異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)，包括HTML數(shù)據(jù)或XML數(shù)據(jù)，及Web服務(wù)器日志數(shù)據(jù)，對這些數(shù)據(jù)進行清洗、抽取、轉(zhuǎn)換，將HTML文檔進行規(guī)范化處理；把規(guī)范化后的HTML文檔轉(zhuǎn)化為XML文檔，得到結(jié)構(gòu)良好的數(shù)據(jù).

數(shù)據(jù)存儲層：將上一層獲取的數(shù)據(jù)存儲起來，以結(jié)構(gòu)化數(shù)據(jù)庫形式進行存儲.由于XML是一種半結(jié)構(gòu)化數(shù)據(jù)，強調(diào)數(shù)據(jù)語義與元素之間的關(guān)系，可以很容易將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來.在數(shù)據(jù)存儲層建立多層次Web數(shù)據(jù)庫，提供Web的多維分析與層次化視圖.

數(shù)據(jù)挖掘?qū)樱禾峁└鞣N數(shù)據(jù)挖掘算法和有效的解決方案以及結(jié)合用戶的興趣模型，得出挖掘結(jié)果，對結(jié)果進行評價，若不滿足用戶需求，再提出新的挖掘要求，重新挖掘，最終為用戶挖掘到所需要的信息，有效完成各種數(shù)據(jù)挖掘任務(wù).數(shù)據(jù)挖掘的結(jié)果可用來完善用戶模型，改善服務(wù)效率，改進站點結(jié)構(gòu)設(shè)計.

3 系統(tǒng)實現(xiàn)中的關(guān)鍵技術(shù)

3.1 數(shù)據(jù)預(yù)處理

預(yù)處理是整個挖掘系統(tǒng)中的一個重要環(huán)節(jié).Web頁面內(nèi)容預(yù)處理的目的是把文本、圖片、腳本和其他一些多媒體文件所包含的信息轉(zhuǎn)換成可以實施Web挖掘算法的規(guī)格化形式.預(yù)處理包括清洗、抽取、轉(zhuǎn)換等步驟.

數(shù)據(jù)清洗的原理是利用數(shù)據(jù)清洗的規(guī)則和策略、數(shù)理統(tǒng)計方法和數(shù)據(jù)挖掘技術(shù)對“臟數(shù)據(jù)”進行清洗，使其變?yōu)闈M足應(yīng)用要求的數(shù)據(jù)，提高數(shù)據(jù)的質(zhì)量[5].數(shù)據(jù)清洗主要是解決多個數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題.包括空值處理、異常數(shù)據(jù)處理和不一致性數(shù)據(jù)處理等.具體為刪除無關(guān)緊要的數(shù)據(jù)，避免無關(guān)數(shù)據(jù)對后續(xù)步驟的影響，合并某些記錄，對用戶請求頁面時發(fā)生錯誤的記錄進行適當(dāng)?shù)奶幚恚瑱z測數(shù)據(jù)中存在的錯誤和不一致，剔除或者改正它們，提高數(shù)據(jù)的質(zhì)量.

數(shù)據(jù)抽取是對前面獲得的數(shù)據(jù)抽取出代表其特征的元數(shù)據(jù)，以方便進一步處理.數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面.基于XML的信息抽取[6]是基于網(wǎng)頁特征結(jié)構(gòu)的抽取策略，該方法先將HTML轉(zhuǎn)化成XHTML，然后根據(jù)抽取規(guī)則對XHTML進行處理.

數(shù)據(jù)轉(zhuǎn)換是把非XML的網(wǎng)頁轉(zhuǎn)換為相應(yīng)的XML文檔.使用Web包裝器，結(jié)合TIDY軟件將HTML數(shù)據(jù)源頁面轉(zhuǎn)換成XML代碼的網(wǎng)頁，以便進行挖掘.

3.2 權(quán)威頁面的確定[7]

HITS算法如下：

輸入：把WWW看作一個引導(dǎo)圖W，查詢請求q，n×n的鄰接矩陣M，其元素

輸出：權(quán)威頁面的集合A，中心頁面的集合H.

(1)R=SE(W，q)；A，H初始化：A=(1，1，…，1)，H=(1，1，…，1).

(2)B=R∪{指向R的鏈接}∪{來自R的鏈接}.

(3)G(B，E)=由B導(dǎo)出的W的子圖.

(4)重復(fù)迭代A=MTH，H=MA，迭代后泛化A、H，A、H收斂于MTM，MMT的主特征向量.

(5)按Authority和Hub的權(quán)重逆序排列Authority頁和Hub頁，輸出具有較大權(quán)重的Authorities頁和Hubs頁.

(6)結(jié)束

3.3 用戶模型的建立

首先根據(jù)用戶登錄信息建立初始興趣模型，然后根據(jù)用戶訪問信息對初始興趣模型進行動態(tài)更新，建立相對穩(wěn)定的用戶模型.動態(tài)變化部分主要通過cookies分析模塊、收藏夾分析模塊和瀏覽動作捕捉模塊[8]來分析用戶對一個Web頁的訪問時間、頻率、頁內(nèi)被訪問的鏈接與未被訪問的鏈接比、訪問時長以及是否被作為收藏夾等計算用戶對一個Web頁的訪問興趣.根據(jù)分析這些數(shù)據(jù)，改進站點內(nèi)容和結(jié)構(gòu)，更好的服務(wù)于用戶.也可以利用分類技術(shù)，通過訓(xùn)練得到用戶分類模型，在訓(xùn)練好分類器以后用來推斷未知統(tǒng)計特性的訪問者的統(tǒng)計特性.

本文設(shè)計的模型充分應(yīng)用XML的優(yōu)勢，以它為中介，實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化，同時充分將XML和個性化技術(shù)結(jié)合起來，挖掘出潛在的有價值的信息.

參考文獻：

[1]曼麗春，朱宏.Web數(shù)據(jù)挖掘研究與探討[J].西南民族大學(xué)學(xué)報，2005(2).

[2]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京：科學(xué)出版社，2009.

[3]陳景霞，張鵬偉.基于XML的Web數(shù)據(jù)挖據(jù)模型的研究[J].情報雜志，2006(11).

[4]范立峰.XML實用教程[M].北京：人民郵電出版社，2009.

[5]邱英.基于XML的Web數(shù)據(jù)存儲與數(shù)據(jù)清洗技術(shù)研究與實現(xiàn)[D].武漢：武漢理工大學(xué)，2008.

[6]陳俊彬.Web信息抽取策略及其實現(xiàn)方法研究[J].科技情報開發(fā)與經(jīng)濟，2008(23).

[7]毛國君，等.數(shù)據(jù)挖掘原理與算法[M].北京：清華大學(xué)出版社，2007.

[8]周曉蘭.基于XML的WEB的數(shù)據(jù)挖掘系統(tǒng)的框架探析[J].湘潭師范學(xué)院學(xué)報：自然科學(xué)版，2008(9)