黃淑芹
(安徽財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院, 安徽 蚌埠 233030)
Internet的飛速發(fā)展,使其成為全球信息傳遞與共享的日益重要和最具潛力的資源,同時Web上信息也在爆炸性的增長,出現(xiàn)了“信息豐富知識匱乏”的現(xiàn)象,使人們迫切需要一種能夠快速、有效地從豐富的Web資源中發(fā)現(xiàn)大量潛在價值知識或者模式的工具.如何從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,獲得有用的知識,數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘[1]技術(shù)扮演著重要的角色.但由于Web的內(nèi)容呈現(xiàn)多元化,包含了文本、音頻、視頻、圖形、圖像等多種元素,顯示形式也不拘一格,所以Web數(shù)據(jù)具有動態(tài)、異構(gòu)、半結(jié)構(gòu)化的特點[2].傳統(tǒng)數(shù)據(jù)挖掘的對象多是數(shù)據(jù)庫中規(guī)則化的數(shù)據(jù)[3],對這樣的數(shù)據(jù)已顯得力不從心.而W3C開發(fā)的XML[4]是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,具有“自描述”、“樹形結(jié)構(gòu)”、“結(jié)構(gòu)嵌套”等特點,能夠使來源于不同結(jié)構(gòu)化的數(shù)據(jù)很容易結(jié)合在一起.它不僅可以很好地兼容原有的Web應(yīng)用,而且可以更好地實現(xiàn)Web中的信息共享與交換,它自然地成為Web數(shù)據(jù)挖掘良好的中間載體,使Web挖掘工作變得更容易.
Web數(shù)據(jù)挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web文檔及Web 服務(wù)中自動發(fā)現(xiàn)并提取人們感興趣的信息[2].通常Web數(shù)據(jù)挖掘過程分為以下幾個階段:資源發(fā)現(xiàn),數(shù)據(jù)抽取及數(shù)據(jù)預(yù)處理階段,數(shù)據(jù)匯總及模式識別階段,分析驗證階段.由于Web的開放性、動態(tài)性、異構(gòu)化與半結(jié)構(gòu)化等特點,要從這些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速準(zhǔn)確的獲取信息成為Web 數(shù)據(jù)挖掘的難點.顯然,面向Web的數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多.Web數(shù)據(jù)挖掘要充分考慮數(shù)據(jù)來源分析,異構(gòu)數(shù)據(jù)環(huán)境,半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),解決半結(jié)構(gòu)化的數(shù)據(jù)源問題等幾個方面.
XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,它可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng)起來,實施精確地查詢與模型抽取,XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘難點提供了很好的解決方法.XML能增加結(jié)構(gòu)和語義信息,使計算機和服務(wù)器即時處理多種形式的信息.XML沒有固定的標(biāo)記,能描述數(shù)據(jù)的形式和結(jié)構(gòu),并且數(shù)據(jù)和顯示形式分開,從而能方便地實現(xiàn)網(wǎng)絡(luò)應(yīng)用和信息共享.XML的自定義性及可擴展性,使它足以表達各種類型的數(shù)據(jù),客戶收到數(shù)據(jù)后可以進行處理,也可以在不同數(shù)據(jù)庫間進行傳遞,XML在這類應(yīng)用中解決了數(shù)據(jù)的統(tǒng)一接口問題.XML是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理.XML解決了Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題.XML為組織、軟件開發(fā)者、Web站點和終端使用者提供了許多有利條件.
由于XML具有簡單、開放、高效且可擴充、支持復(fù)用,能處理不同結(jié)構(gòu)的數(shù)據(jù),實現(xiàn)異構(gòu)數(shù)據(jù)交換和共享,且內(nèi)容和顯示形式分離,表現(xiàn)數(shù)據(jù)能力較強,所以本文基于XML建立了Web數(shù)據(jù)挖掘系統(tǒng)的模型,模型分三個層次:數(shù)據(jù)獲取層,數(shù)據(jù)存儲層,數(shù)據(jù)挖掘?qū)?結(jié)構(gòu)如圖1所示:
圖1 系統(tǒng)模型圖
系統(tǒng)模型各部分互相協(xié)調(diào),統(tǒng)一合作,各部分功能如下:
數(shù)據(jù)獲取層:從Web頁獲取各種異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù),包括HTML數(shù)據(jù)或XML數(shù)據(jù),及Web服務(wù)器日志數(shù)據(jù),對這些數(shù)據(jù)進行清洗、抽取、轉(zhuǎn)換,將HTML文檔進行規(guī)范化處理;把規(guī)范化后的HTML文檔轉(zhuǎn)化為XML文檔,得到結(jié)構(gòu)良好的數(shù)據(jù).
數(shù)據(jù)存儲層:將上一層獲取的數(shù)據(jù)存儲起來,以結(jié)構(gòu)化數(shù)據(jù)庫形式進行存儲.由于XML是一種半結(jié)構(gòu)化數(shù)據(jù),強調(diào)數(shù)據(jù)語義與元素之間的關(guān)系,可以很容易將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來.在數(shù)據(jù)存儲層建立多層次Web數(shù)據(jù)庫,提供Web的多維分析與層次化視圖.
數(shù)據(jù)挖掘?qū)樱禾峁└鞣N數(shù)據(jù)挖掘算法和有效的解決方案以及結(jié)合用戶的興趣模型,得出挖掘結(jié)果,對結(jié)果進行評價,若不滿足用戶需求,再提出新的挖掘要求,重新挖掘,最終為用戶挖掘到所需要的信息,有效完成各種數(shù)據(jù)挖掘任務(wù).數(shù)據(jù)挖掘的結(jié)果可用來完善用戶模型,改善服務(wù)效率,改進站點結(jié)構(gòu)設(shè)計.
預(yù)處理是整個挖掘系統(tǒng)中的一個重要環(huán)節(jié).Web頁面內(nèi)容預(yù)處理的目的是把文本、圖片、腳本和其他一些多媒體文件所包含的信息轉(zhuǎn)換成可以實施Web挖掘算法的規(guī)格化形式.預(yù)處理包括清洗、抽取、轉(zhuǎn)換等步驟.
數(shù)據(jù)清洗的原理是利用數(shù)據(jù)清洗的規(guī)則和策略、數(shù)理統(tǒng)計方法和數(shù)據(jù)挖掘技術(shù)對“臟數(shù)據(jù)”進行清洗,使其變?yōu)闈M足應(yīng)用要求的數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量[5].數(shù)據(jù)清洗主要是解決多個數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問題.包括空值處理、異常數(shù)據(jù)處理和不一致性數(shù)據(jù)處理等.具體為刪除無關(guān)緊要的數(shù)據(jù),避免無關(guān)數(shù)據(jù)對后續(xù)步驟的影響,合并某些記錄,對用戶請求頁面時發(fā)生錯誤的記錄進行適當(dāng)?shù)奶幚恚瑱z測數(shù)據(jù)中存在的錯誤和不一致,剔除或者改正它們,提高數(shù)據(jù)的質(zhì)量.
數(shù)據(jù)抽取是對前面獲得的數(shù)據(jù)抽取出代表其特征的元數(shù)據(jù),以方便進一步處理.數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面.基于XML的信息抽取[6]是基于網(wǎng)頁特征結(jié)構(gòu)的抽取策略,該方法先將HTML轉(zhuǎn)化成XHTML,然后根據(jù)抽取規(guī)則對XHTML進行處理.
數(shù)據(jù)轉(zhuǎn)換是把非XML的網(wǎng)頁轉(zhuǎn)換為相應(yīng)的XML文檔.使用Web包裝器,結(jié)合TIDY軟件將HTML數(shù)據(jù)源頁面轉(zhuǎn)換成XML代碼的網(wǎng)頁,以便進行挖掘.
HITS算法如下:
輸入:把WWW看作一個引導(dǎo)圖W,查詢請求q,n×n的鄰接矩陣M,其元素
輸出:權(quán)威頁面的集合A,中心頁面的集合H.
(1)R=SE(W,q);A,H初始化:A=(1,1,…,1),H=(1,1,…,1).
(2)B=R∪{指向R的鏈接}∪{來自R的鏈接}.
(3)G(B,E)=由B導(dǎo)出的W的子圖.
(4)重復(fù)迭代A=MTH,H=MA,迭代后泛化A、H,A、H收斂于MTM,MMT的主特征向量.
(5)按Authority和Hub的權(quán)重逆序排列Authority頁和Hub頁,輸出具有較大權(quán)重的Authorities頁和Hubs頁.
(6)結(jié)束
首先根據(jù)用戶登錄信息建立初始興趣模型,然后根據(jù)用戶訪問信息對初始興趣模型進行動態(tài)更新,建立相對穩(wěn)定的用戶模型.動態(tài)變化部分主要通過cookies分析模塊、收藏夾分析模塊和瀏覽動作捕捉模塊[8]來分析用戶對一個Web頁的訪問時間、頻率、頁內(nèi)被訪問的鏈接與未被訪問的鏈接比、訪問時長以及是否被作為收藏夾等計算用戶對一個Web頁的訪問興趣.根據(jù)分析這些數(shù)據(jù),改進站點內(nèi)容和結(jié)構(gòu),更好的服務(wù)于用戶.也可以利用分類技術(shù),通過訓(xùn)練得到用戶分類模型,在訓(xùn)練好分類器以后用來推斷未知統(tǒng)計特性的訪問者的統(tǒng)計特性.
本文設(shè)計的模型充分應(yīng)用XML的優(yōu)勢,以它為中介,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,同時充分將XML和個性化技術(shù)結(jié)合起來,挖掘出潛在的有價值的信息.
參考文獻:
[1]曼麗春,朱宏.Web數(shù)據(jù)挖掘研究與探討[J].西南民族大學(xué)學(xué)報,2005(2).
[2]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社,2009.
[3]陳景霞,張鵬偉.基于XML的Web數(shù)據(jù)挖據(jù)模型的研究[J].情報雜志,2006(11).
[4]范立峰.XML實用教程[M].北京:人民郵電出版社,2009.
[5]邱英.基于XML的Web數(shù)據(jù)存儲與數(shù)據(jù)清洗技術(shù)研究與實現(xiàn)[D].武漢:武漢理工大學(xué),2008.
[6]陳俊彬.Web信息抽取策略及其實現(xiàn)方法研究[J].科技情報開發(fā)與經(jīng)濟,2008(23).
[7]毛國君,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.
[8]周曉蘭.基于XML的WEB的數(shù)據(jù)挖掘系統(tǒng)的框架探析[J].湘潭師范學(xué)院學(xué)報:自然科學(xué)版,2008(9)