[摘要] 電子商務和數(shù)據(jù)挖掘受到了人們極大的關注。如何將數(shù)據(jù)挖掘應用于電子商務,成為企業(yè)共同關注的問題。本文中介紹了web挖掘的概念,并以Web日志挖掘為例,闡述了web挖掘在電子商務中的挖掘方法,最后介紹了數(shù)據(jù)挖掘技術在電子商務中的應用。
[關鍵詞] 數(shù)據(jù)挖掘 Web挖掘 電子商務 網絡日志
數(shù)據(jù)挖掘是一門新型的綜合性的技術,它涉及統(tǒng)計學、數(shù)據(jù)庫、機器學習和人工智能等多方面學科。電子商務是指單個個人或企業(yè)單位通過網絡,采用數(shù)字化方式進行網上商務數(shù)據(jù)交換和開展網上商務業(yè)務活動的一種新型商業(yè)模式,目前國內外已有得到廣泛的應用,像網上購物、網上銀行、網絡結算等等。電子商務以其投資低廉、方便有效、安全可靠、不受時空限制等優(yōu)點正在全球流行。為了使這種現(xiàn)代商業(yè)手段更有效的發(fā)揮其潛能,人們正試圖把數(shù)據(jù)挖掘技術應用于電子商務,這即所謂的Web挖掘,這將極大地推動電子商務的發(fā)展。
一、電子商務與數(shù)據(jù)挖掘的完美結合
隨著電子商務的發(fā)展,商業(yè)Web網站的競爭日趨激烈。面對大量的電子商務信息,找出用戶感興趣的信息加以組織利用,提高客戶滿意度,從而改進Web站點的設計、改善企業(yè)與客戶的關系成為電子商務發(fā)展必須要解決的問題。對于企業(yè)而言,數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務發(fā)展的趨勢,幫助企業(yè)做出正確的決策,使企業(yè)處于更有利的競爭位置。在電子商務中進行成功的數(shù)據(jù)挖掘是基于如下幾點考慮的:
1.電子商務為數(shù)據(jù)挖掘提供海量的數(shù)據(jù)。
2.電子商務為數(shù)據(jù)挖掘提供了大量“干凈的數(shù)據(jù)”。我們可以通過設計良好的站點,直接從網上獲得跟數(shù)據(jù)挖掘有關的數(shù)據(jù),而無需從歷史數(shù)據(jù)庫系統(tǒng)中通過分析、計算、預處理等步驟進行數(shù)據(jù)集成。
3.電子商務為數(shù)據(jù)挖掘提供豐富的記錄信息,像日志記錄信息,用戶登錄和注冊的客戶信息、Cookies等。
4.在電子商務中進行數(shù)據(jù)挖掘,其研究成果容易轉化,即研究成果可以很好的應用于實際中。在電子商務中這些都很容易做到,只需要改變一下站點的設計、改變一下超鏈接的次序、改變一下彈出廣告策略等等。
5.在電子商務中進行數(shù)據(jù)挖掘,易衡量投資收益。
二、電子商務中的Web數(shù)據(jù)挖掘方法
電子商務中可以挖掘的數(shù)據(jù)源包括以下幾種:服務器端的網頁數(shù)據(jù)及日志文件、代理服務器端數(shù)據(jù)、用戶登記信息。下面我們就以電子商務中Web日志挖掘為例,詳細介紹電子商務中的數(shù)據(jù)挖掘過程。
1.典型Web日志的結構。下圖給出Web日志:
從上面的日志文件可以看出日志記錄會記錄客戶端的IP地址、訪問發(fā)生的時間、訪問請求的頁面、web服務器對于該請求返回的狀態(tài)信息、返回給客戶端內容的大小、該請求的引用地址、客戶瀏覽器類型等信息。進行Web Usage Mining主要是對Web服務日志,ErrorLogs錯誤日志,Cookies等進行挖掘。
2.基于日志的用戶訪問模式挖掘。Web日志挖掘分為三個步驟:數(shù)據(jù)預處理、模式發(fā)現(xiàn)、模式分析。
數(shù)據(jù)預處理可以使挖掘更有效、更容易,預處理得到結果的好壞會直接影響數(shù)據(jù)挖掘的質量,包括數(shù)據(jù)清洗、用戶識別、路徑補充、事件識別。
模式發(fā)現(xiàn),是指利用各種算法和工具對已經預處理過的數(shù)據(jù)進行挖掘,得到各種模式集。模式發(fā)現(xiàn)中常用的方法有關聯(lián)規(guī)則分析、分類和預測、聚類分析、統(tǒng)計分析、序列模式分析等等。
關聯(lián)分析描述一組數(shù)據(jù)項之間某種潛在關聯(lián)關系的規(guī)則。常用的算法有Apriori算法或其變形算法,頻繁模式樹(FP-樹)算法等。
分類和預測功能可以用來提取描述重要數(shù)據(jù)類的模型,并使用模型預測來判定未知數(shù)據(jù)的類標號,從而預測未來的數(shù)據(jù)趨勢。常用的算法有判定歸納樹、貝葉斯分類、K-最近鄰分類等。
聚類是將對象的集合分組成為由類似的對象組成的多個類的過程,它是一種無指導的過程。
統(tǒng)計分析主要是通過計算出現(xiàn)率、求平均、求中值等,統(tǒng)計最常訪問的頁面,每頁平均訪問的時間,瀏覽路徑的平均長度等,以獲得用戶訪問站點的基本信息。
模式分析,在挖掘出一系列的用戶訪問模式和規(guī)則后,還需要進一步觀察發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值,從中過濾掉不感興趣的規(guī)則和模式。之后要確定是發(fā)布模型,還是對數(shù)據(jù)挖掘過程進行進一步調整,產生新的模式。
三、Web數(shù)據(jù)挖掘在電子商務中的應用
數(shù)據(jù)挖掘的應用將極大地提高企業(yè)獲取信息的能力,使企業(yè)信息資源的價值得到充分地體現(xiàn)。它有利于促進企業(yè)開拓市場,優(yōu)化企業(yè)資源,提高企業(yè)經營效率和管理水平,為企業(yè)資源計劃(ERP)、客戶關系管理(CRM)、產品數(shù)據(jù)管理(PDM)和商業(yè)信用評估等提供有效的技術途徑。將數(shù)據(jù)挖掘引入電子商務,能自動預測客戶的消費趨勢、市場走向,指導企業(yè)建設個性化智能網站,向客戶提供個性化的服務,實現(xiàn)更大的商業(yè)利潤。
參考文獻:
[1]Jiawei Han,Micheline Kamber著 范明等譯.數(shù)據(jù)挖掘概念與技術[M].機械工業(yè)出版社,2001年8月1日.1~6
[2]孫巍:電子商務中的WEB數(shù)據(jù)挖掘與XML[J].計算機系統(tǒng)與應用.2006年第9期.25~28
[3]張蓉:Web挖掘技術研究[J].計算機工程.第32卷第15期,2006年8月.4~6
[4]姜美玉盧利平:基于WEB日志挖掘的網站個性化服務研究[J].圖書館學刊.2006年第5期.137~138