摘要:本文介紹了Web使用模式的數(shù)據(jù)挖掘,分析作為源數(shù)據(jù)的Web服務(wù)器日志的局限性,提出基于應(yīng)用服務(wù)器信息的Web使用模式挖掘,并在此基礎(chǔ)上對傳統(tǒng)的Web使用模式挖掘模型進(jìn)行了改進(jìn)。
關(guān)鍵詞:Web使用模式,數(shù)據(jù)挖掘,應(yīng)用服務(wù)器信息
中圖分類號:TP393文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2008)14-20794-02
1 引言
數(shù)據(jù)挖掘和萬維網(wǎng)應(yīng)用研究的結(jié)合形成了近年來的一個活躍的研究領(lǐng)域——Web數(shù)據(jù)挖掘。Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它利用數(shù)據(jù)挖掘技術(shù)從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,涉及Web技術(shù)、數(shù)據(jù)挖掘、計算機(jī)語言學(xué)、信息學(xué)等多個領(lǐng)域,是一項綜合技術(shù)。
Web數(shù)據(jù)挖掘分為Web內(nèi)容挖掘和Web使用數(shù)據(jù)挖掘,后者主要是挖掘網(wǎng)站訪問日志,從中發(fā)掘出用戶訪問模式、獲取競爭對手和客戶信息以及反競爭情報活動。
2 Web使用模式的數(shù)據(jù)挖掘
Web使用模式的數(shù)據(jù)挖掘流程為:(1)收集源數(shù)據(jù),提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;(2)數(shù)據(jù)預(yù)處理,進(jìn)行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等;(3)數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)功能的類型和和數(shù)據(jù)的特點選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘;(4)模式分析,對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋和評價,轉(zhuǎn)換成為能夠最終被用戶理解的知識,并將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
在Web使用模式數(shù)據(jù)挖掘中,數(shù)據(jù)最直接的來源是Web服務(wù)器,而Web服務(wù)器日志在Web使用模式數(shù)據(jù)挖掘中有很重要的地位。對日志文件進(jìn)行分析,包含兩種方式:(1)先進(jìn)行預(yù)處理,即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù)來訪問日志數(shù)據(jù);(2)直接訪問日志數(shù)據(jù)以獲取用戶的導(dǎo)航信息。Web服務(wù)器還存儲了其他的Web使用信息如Cookie以及用戶提交的查詢數(shù)據(jù)。
Web服務(wù)器日志雖然被常用作Web使用模式數(shù)據(jù)挖掘的源數(shù)據(jù),它最初的用處是調(diào)試Web服務(wù)器,其提供的數(shù)據(jù)對于數(shù)據(jù)挖掘來說是不充分的,需要使用啟發(fā)式方法重新構(gòu)建事件。而且,許多事件在Web服務(wù)器中并沒有被日志所記錄。因此用Web服務(wù)器日志數(shù)據(jù)進(jìn)行Web使用模式挖掘也不完全可靠。
3 基于應(yīng)用服務(wù)器信息的Web使用模式挖掘
基于Web服務(wù)器日志數(shù)據(jù)在Web使用模式挖掘中的作用是有限的,Ron Kohavi針對這一情況提出使用應(yīng)用服務(wù)器信息數(shù)據(jù)作為Web使用模式挖掘的源數(shù)據(jù)[1]。
Web服務(wù)器日志作為源數(shù)據(jù)不能識別使用者和session。而應(yīng)用服務(wù)器卻能控制session和使用者的注冊、登陸和注銷。這些能通過應(yīng)用服務(wù)器直接記錄下來。Web服務(wù)器日志需要與事務(wù)數(shù)據(jù)合并,但對于應(yīng)用服務(wù)器,應(yīng)用層寫入命令數(shù)據(jù)同時它也記錄下點擊流事件,就可以在數(shù)據(jù)庫中產(chǎn)生一個單獨的全面的日志并在表與表之間有一致的ID號。Web服務(wù)器日志缺少了某些事件,而應(yīng)用層可以記錄下類似“加入購物車”等這類的事件。另外,一些特殊的有趣事件也會被記錄在日志中,如瀏覽器重置。除了單頁面事件外,高級別的商務(wù)事件也能被記錄下來。Web服務(wù)器日志不能存儲網(wǎng)頁形式的信息。而應(yīng)用服務(wù)器層可以解析這些網(wǎng)頁形式。Web服務(wù)器日志包含URL而不是記錄下URL中包含的語義信息。而在動態(tài)地址的應(yīng)用服務(wù)器層,重要的關(guān)于網(wǎng)頁顯示內(nèi)容的語義信息已被記錄下來。Web服務(wù)器日志缺少產(chǎn)生動態(tài)內(nèi)容的地址信息,而應(yīng)用服務(wù)器層可以解決這個問題。Web服務(wù)器日志對于多層次文件系統(tǒng)而言只是一些在不同時間區(qū)的扁平文件,而應(yīng)用服務(wù)器日志卻能被直接產(chǎn)生并形成數(shù)據(jù)庫,這樣就保持了事務(wù)層的完整性。時間可以存儲在GMT中,附帶一個域表示使用者瀏覽器的地方時間偏差,同時需要完成應(yīng)用服務(wù)器的同步。Web服務(wù)器日志包含一些多余的信息而在應(yīng)用服務(wù)器中會被刪去。Web服務(wù)器日志缺少許多重要信息,這些信息只能用其他方法收集。而在應(yīng)用服務(wù)器上,任何信息都可以被收集并通過相應(yīng)的關(guān)鍵字記錄進(jìn)同一數(shù)據(jù)庫。
所以,總體上說使用應(yīng)用服務(wù)器日志信息代替Web服務(wù)器日志可以克服Web服務(wù)器日志數(shù)據(jù)在許多方面的不足。
基于事務(wù)數(shù)據(jù)庫基礎(chǔ)的數(shù)據(jù)挖掘需要進(jìn)行兩方面的工作,一方面是整理事務(wù)數(shù)據(jù)庫并將其轉(zhuǎn)換成與一定挖掘技術(shù)相適應(yīng)的數(shù)據(jù)存儲形式,另一方面是利用數(shù)據(jù)挖掘算法挖掘出有效的信息。
Web使用模式挖掘常用的一些技術(shù)包括:(1)路徑分析技術(shù);(2)分類與聚類技術(shù);(3)序列模式挖掘技術(shù);(4)關(guān)聯(lián)規(guī)則挖掘技術(shù)。
4 改進(jìn)的Web使用模式挖掘模型
在以上分析的基礎(chǔ)上,本文提出一種基于Web應(yīng)用服務(wù)器信息的Web使用模式挖掘模型IWUMS(Improved Web Usage Mining System)。如圖1所示。
該模型以應(yīng)用服務(wù)器信息為源數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、集成、識別、入庫等步驟得到可滿足不同用戶進(jìn)行數(shù)據(jù)挖掘需要的集成數(shù)據(jù)庫。將得到的數(shù)據(jù)送出至數(shù)據(jù)挖掘內(nèi)核中的知識庫,由知識庫根據(jù)具體模式運用算法庫來進(jìn)行處理。最終的處理結(jié)果通過模式評估后反饋給用戶界面。
5 總結(jié)
傳統(tǒng)的Web使用模式挖掘是一個對Web服務(wù)器日志的挖掘,而Web服務(wù)器日志本身作為數(shù)據(jù)挖掘的源數(shù)據(jù)具有許多缺點。本文以應(yīng)用服務(wù)器信息為源數(shù)據(jù),在此基礎(chǔ)上提出了對傳統(tǒng)Web使用模式挖掘模型的改進(jìn)。
參考文獻(xiàn):
[1] Ron Kohavi. Mining E-Commerce Data:The Good, the Bad, and the ugly.
[2] 張娥, 馮秋紅, 宣慧玉, 田增瑞. Web使用模式研究中的數(shù)據(jù)挖掘[J]. 計算機(jī)應(yīng)用研究, 2001:80-83.
[3] 劉煒, 陳俊杰. 一種Web使用模式挖掘模型的設(shè)計[J], 計算機(jī)應(yīng)用研究, 2007, 24(3):184-186.
[4] 鄒顯春, 謝中, 周彥暉. 電子商務(wù)與Web數(shù)據(jù)挖掘[J]. 計算機(jī)應(yīng)用, 2001, 21(5):21-23.
[5] 王澤彬, 金飛, 李夏, 王冠. Web數(shù)據(jù)挖掘技術(shù)及實現(xiàn)[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2005, 37(10):1403-1405.
[6] 鞏固, 張虹. Web數(shù)據(jù)挖掘分析[J]. 電腦知識與技術(shù), 2006,(17):18-19.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文