劉金勇
(四川大學計算機學院 四川 610064)
在日益激烈的電子商務企業(yè)競爭中,對用戶的競爭是關鍵因素,因此如何更好地掌握用戶需要,根據(jù)用戶喜好為用戶提供個性化的服務就顯得至關重要。下面,我們就從電子商務平臺的數(shù)據(jù)資源、WEB數(shù)據(jù)挖掘的分類、WEB數(shù)據(jù)挖掘的方法及WEB數(shù)據(jù)挖掘能夠為電子商務帶來何種影響幾個方面來探討WEB數(shù)據(jù)挖掘在電子商務中的應用。
WEB數(shù)據(jù)挖掘是針對數(shù)據(jù)進行分析統(tǒng)計的,首先要有數(shù)據(jù),電子商務平臺中存在大量的數(shù)據(jù)信息,這些數(shù)據(jù)都是WEB數(shù)據(jù)挖掘的數(shù)據(jù)源。
首先是電子商務系統(tǒng)中商品的信息,電子商務系統(tǒng)中的商品成千上萬,每件商品都有它各自的參數(shù)和價格等信息,每一個商品都是以WEB頁面的方式向用戶展示的,因此商品的信息實際上也就是WEB頁面信息,這類信息可以幫助分析頁面之間存在的隱藏關系,從而為頁面定秩,優(yōu)化頁面結構;其次就是用戶的信息,用戶的信息既包括用戶在電子商務網站注冊時留下的信息,同時也包括用戶的購買記錄(也就是用戶的訂單信息)、用戶搜索商品的記錄和用戶訪問過的頁面等等行為信息,這類信息可以幫助分析用戶的喜好,從而預測用戶未來的購買行為;第三是頁面之間存在的超鏈接關系,相似的頁面之間通常存在著超鏈接,這種結構信息能夠為搜索引擎提供重要的排序依據(jù);最后就是服務器數(shù)據(jù),包括服務器日志、錯誤日志和Cookie日志,通過這些日志文件可以分析服務器的運行狀態(tài),從而優(yōu)化系統(tǒng),提高服務器的運行效率和響應速度,使用戶獲得良好的用戶體驗。
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或挖掘知識,WEB數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在萬維網上的應用。通常WEB數(shù)據(jù)挖掘分為WEB內容挖掘、WEB結構挖掘和WEB使用挖掘三類。
WEB內容挖掘是指從WEB頁面數(shù)據(jù)中發(fā)現(xiàn)有用的信息,從資源查找的角度來看WEB內容挖掘的任務是從用戶角度出發(fā)提高信息質量和幫助用戶過濾信息,從數(shù)據(jù)庫角度來看WEB內容挖掘的任務是對WEB上的數(shù)據(jù)進行集成和建模,以支持對WEB數(shù)據(jù)的復雜查詢;WEB結構挖掘是對WEB的鏈接結構進行分析,WEB頁面中的鏈接中也包含了非常有用的信息,通過分析WEB頁面之間的鏈接關系,確定WEB頁面在搜索結果中出現(xiàn)的次序,提高搜索結果的準確度,WEB結構挖掘的常用算法有PageRank算法和HITS算法;WEB使用挖掘是為了分析用戶和行為,以改進系統(tǒng)構成,為用戶提供個性化的服務,通??糠治鲇脩舻脑L問記錄、訪問日期和配置信息等數(shù)據(jù)分析用戶行為。
在電子商務系統(tǒng)中進行WEB數(shù)據(jù)挖掘分為數(shù)據(jù)準備、數(shù)據(jù)挖掘和結果表達與解釋三個步驟。
數(shù)據(jù)準備就是準備數(shù)據(jù)挖掘所需要的數(shù)據(jù)源。首先要從數(shù)據(jù)庫中抽取數(shù)據(jù),這些數(shù)據(jù)包括商品頁面、用戶評價、用戶的購買記錄和瀏覽搜索記錄等等,然后對這些數(shù)據(jù)進行一定的清理,清除無用的數(shù)據(jù),保留有用的數(shù)據(jù),并按合理的格式進行存儲。
數(shù)據(jù)挖掘階段則對數(shù)據(jù)準備階段產生的有用數(shù)據(jù)進行實質性的分析建模工作,首先根據(jù)數(shù)據(jù)的特征確定一個合理的假設,然后建立相應的數(shù)學模型,再選取合適的工具或算法來驗證假設,進而發(fā)現(xiàn)隱藏在數(shù)據(jù)間的有價值的信息。
結果的表達與解釋就是對數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式和知識進行解釋,對于數(shù)據(jù)挖掘階段發(fā)現(xiàn)的有用信息,解釋產生這些信息的原因,了解各因素相互作用的內部原理,從而挖掘出最有意義的信息,提交給決策者,決策者據(jù)此對即將發(fā)生或可能發(fā)生的事件進行預測,為決策者制定正確的市場戰(zhàn)略提供參考借鑒。
電子商務系統(tǒng)中的WEB數(shù)據(jù)挖掘技術主要有路徑分析、統(tǒng)計分析、關聯(lián)規(guī)則、序列模式、分類規(guī)則和聚類分析六種。
路徑分析是通過分析用戶訪問網站的次數(shù)和頻率等記錄在服務器日志中的信息,確定出用戶頻繁訪問的路徑。
統(tǒng)計分析主要用于改進站點的設計,提高性能和安全性。對系統(tǒng)正常運行時用戶的訪問頻率、駐留時間、會話時長、非法訪問或是不正出錯的路徑等等進行統(tǒng)計分析,可以發(fā)現(xiàn)系統(tǒng)設計中存在的問題,從而改進設計,提高系統(tǒng)性能,增強系統(tǒng)安全系數(shù),保障系統(tǒng)安全平穩(wěn)高效運行。
關聯(lián)規(guī)則就是為挖掘不同事件之間存在的聯(lián)系和規(guī)則,如用戶購買商品A的同時也購買了商品B,也就是說購買商品A的同時也會購買商品B,即A與B存在關聯(lián)關系,通過這種關系,電子商務站點可以在用戶購買商品A時向用戶推薦商品B,即減少用戶過濾信息的負擔,又能增加了銷量。
序列模式是就事件在時序上存在的先后關系,如用戶先購買商品A后,過一段時間后又購買了商品B。通過序列模式分析可以預測用戶的行為,如當用戶購買某商品后在適當?shù)臅r間內再向用戶推薦有針對性的產品,根據(jù)對用戶行為的預測進行針對性的優(yōu)化,為用戶提供個性化、人性化的服務,既使客戶滿意又獲得最大收益。
分類規(guī)則主要是為了根據(jù)事物的屬性和行為等對事物進行分類,如在電子商務系統(tǒng)中可以根據(jù)不同的年齡段和不同的地區(qū)進行分類。
聚類分析是根據(jù)特定的規(guī)則對未分類的記錄進行歸類。通過聚類分析可以使運營者更加了解用戶的需要,更加準確地預測用戶的行為。
將WEB數(shù)據(jù)挖掘與電子商務相結合,能夠極大提高電子商務企業(yè)獲取信息和管理信息的能力,幫助電子商務企業(yè)降低運營成本,作出正確的商業(yè)決策,爭取更多的客氣,開拓更加廣闊的市場。
通過WEB數(shù)據(jù)挖掘,電子商務企業(yè)可以了解用戶的喜好,調整WEB頁面的內容,針對用戶的喜好為用戶提供個性化的服務,使用戶獲得更好的體驗,從而獲得更高的客戶滿意度,延長用戶在網站的停留時間,最終達到留住老客戶的目的;通過對訪問網站的新用戶進行分析,挖掘出潛在客戶,針對潛在客戶進行宣傳推廣,從而吸引新的客戶,開辟新的市場。
電子商務企業(yè)運用WEB數(shù)據(jù)挖掘技術對各項商品的銷售數(shù)據(jù)進行深入挖掘, 可以了解商品的銷售情況變化,對下一階段商品的銷量做出預測,從而合理地管理庫存,合理采購商品,防止出現(xiàn)庫存過剩和庫存不足等影響企業(yè)正常運行的因素。
通過WEB數(shù)據(jù)挖掘技術,電子商務企業(yè)可以充分了解用戶的真正需求,了解某類客戶真正需要哪一種商品,同時也能夠充分了解用戶的消費用力,精確地為每種商品定位潛在的用戶群,從而向這些用戶投放廣告,在不引起用戶反感的情況下取得最好的宣傳效果,提高廣告投放的回報率。
電子商務企業(yè)能夠通過WEB數(shù)據(jù)挖掘技術挖掘用戶的行為記錄等信息,為系統(tǒng)設計者提供改進依據(jù),完善系統(tǒng)的設計。例如當用戶瀏覽某個頁面時,預測用戶可能會對哪些內容感興趣,可以會希望瀏覽哪些頁面,動態(tài)地將這些頁面的超鏈接放在當前用戶瀏覽的頁面中,使用戶可以方便地找到自己想要的內容,減少用戶過慮信息的負擔,使用戶獲得較滿意的使用體驗,同時網站也能獲得較高的點擊率,延長客戶在網站停留的時間。
電子商務是一種基于網絡平臺的現(xiàn)代化商業(yè)模式,其前景廣闊,發(fā)展勢頭強勁,而WEB數(shù)據(jù)挖掘技術能夠幫助電子商務企業(yè)統(tǒng)計分析企業(yè)積累的大量數(shù)據(jù),從中挖掘出有價值的信息,為企業(yè)決策提供支持。本文介紹了如何將WEB數(shù)據(jù)挖掘與電子商務相結合,WEB數(shù)據(jù)挖掘能夠使得電子商務管理更加智能化,服務更加個性化,但是WEB數(shù)據(jù)挖掘與電子商務的結合還存在許多問題,這些問題的解決還有待于我們進一步的探索與發(fā)現(xiàn)。
[1]邱明虹,何躍.從Web日志中挖掘用戶興趣路徑算法改進.[J].計算機工程與應用.2008(26):17-19
[2]魯俊,孫永鴻.基于電子商務應用的Web數(shù)據(jù)技術研究.[J].電腦知識與技術.2009(21):29-31
[3]戴菲.數(shù)據(jù)挖掘技術在電子商務中的應用.[J].電腦知識與技術.2011(21):15-17
[4]劉鋒華. 淺析Web數(shù)據(jù)挖掘在電子商務中的應用[J]. 經營管理者. 2009(14):33-35