[摘 要] 電子商務(wù)網(wǎng)站向用戶提供及時有效的信息,是提高網(wǎng)站聲譽和效益的基礎(chǔ)。Web挖掘可以通過分析用戶的使用偏好,幫助用戶高效地檢索到所關(guān)心的信息。本文深入討論了Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘等技術(shù),并提出了商務(wù)網(wǎng)站基于Web挖掘技術(shù)為用戶提供個性化推薦的一種框架。
[關(guān)鍵詞] 電子商務(wù) WEB挖掘 個性化服務(wù)
一、引言
電子商務(wù)站點的成功很大程度上取決于保持已有用戶和將隨意瀏覽者轉(zhuǎn)化為現(xiàn)實購買者的能力。因此,怎樣在電子商務(wù)環(huán)境中吸引新用戶,并確保自己可以提供足夠的產(chǎn)品或服務(wù)留住老用戶,成為許多電子商務(wù)站點所要關(guān)注的主要問題。另一方面,用戶面對電子商務(wù)站點所提供的眾多選擇,要從中挑選出自己真正需要的產(chǎn)品或服務(wù)猶如大海撈針。
人們?yōu)榱藢崿F(xiàn)從海量Web數(shù)據(jù)中,查找自己想要的數(shù)據(jù)和有用信息,提出了Web挖掘(Web Mining)。Web挖掘可以幫助人們從Web文檔和Web活動中發(fā)現(xiàn)和抽取潛在的、有意義的模式和知識。它將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來,并綜合運用了統(tǒng)計學(xué)、計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉庫、可視化等眾多領(lǐng)域的技術(shù),形成了Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘的研究與應(yīng)用體系。
二、 Web結(jié)構(gòu)挖掘
由于Web頁面具有比純文本更為豐富的結(jié)構(gòu),不僅具有文本信息,而且具有表示頁面之間關(guān)系的鏈接,所以Web結(jié)構(gòu)挖掘主要是利用Web文檔之間的超鏈結(jié)構(gòu)進(jìn)行分析。大量的Web超鏈接信息提供了關(guān)于Web頁面內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,反映了文檔之間的包含、引用或者從屬關(guān)系。引用文檔對被引用文檔的說明往往更客觀、更概括、更準(zhǔn)確。它有助于推斷出頁面的權(quán)威性。所謂權(quán)威頁面是在一個主題內(nèi)被高度引用或參考的頁面,與其相關(guān)的另一個概念是樞紐頁面,即:那些指向許多權(quán)威頁面的頁面。權(quán)威頁面和樞紐頁面展示了強烈的互增強關(guān)系;一個好的樞紐頁面指向了許多好的權(quán)威頁面;一個好的權(quán)威頁面被許多好的樞紐頁面所指。在信息檢索中往往將高權(quán)威分和樞紐分的頁面視為高質(zhì)量的頁面,可以考慮優(yōu)先提供給用戶。
三、Web內(nèi)容挖掘
Web內(nèi)容挖掘主要有兩種策略:1.直接挖掘Web文檔的內(nèi)容;2.在工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對Web查詢語言利用啟發(fā)式規(guī)則的Ahoy等。采用第二種策略的方法主要是對搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。共分為四個階段:
首先,對文本挖掘?qū)ο蠼⑻卣鞅硎?。為Web文本內(nèi)容建立特征表示是Web文本挖掘中的基本問題,常用的特征表示方法有:向量空間模型、布爾模型、聚類模型、概率模型和基于知識模型等。
其次,提取文檔特征并縮減。在目前所采用的文檔表示方法中,共同存在的瓶頸就是文檔特征向量維數(shù)過高。常用的特征提取與縮減方法有:信息增益、互信息、文本證據(jù)權(quán)、特征頻度、文本頻度,以及特征熵等。
再次,在完成文檔特征向量維數(shù)的縮減后,利用數(shù)據(jù)挖掘的方法(如分類、聚類、關(guān)聯(lián)規(guī)則等)提取面向特定應(yīng)用的知識模式。
最后,對挖掘結(jié)果進(jìn)行評價,若評價結(jié)果滿足一定的要求則輸出,否則返回到之前的某個環(huán)節(jié),分析改進(jìn)后再進(jìn)行新一輪的挖掘工作。
四、 Web使用挖掘
Web使用挖掘的結(jié)果通常是用戶群體的共同行為和共性興趣,以及個人用戶的檢索偏好、習(xí)慣和模式等,已經(jīng)成為當(dāng)前電子商務(wù)個性化推薦的主流方法。Web使用挖掘主要通過分析用戶訪問Web的記錄了解用戶的興趣和習(xí)慣,對用戶行為進(jìn)行預(yù)測,以便提供個性化的產(chǎn)品信息和服務(wù)。Web使用挖掘的方法可以分為兩類:
1.基于Web事務(wù)的方法
基于Web事務(wù)的Web使用挖掘技術(shù)通常應(yīng)用于Web服務(wù)器日志文件,引入最大向前引用算法MF,將用戶會話分割成一系列的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相類似的方法挖掘頻繁訪問序列,從而取得用戶訪問模式。Web使用數(shù)據(jù)的采集和預(yù)處理是Web使用挖掘過程中非常關(guān)鍵的步驟。
2.基于數(shù)據(jù)立方體的方法
基于數(shù)據(jù)立方體的技術(shù)是根據(jù)Web服務(wù)器日志文件,建立數(shù)據(jù)立方體,然后對數(shù)據(jù)立方體進(jìn)行數(shù)據(jù)挖掘和聯(lián)機分析處理。這種方法從多角度、全面地進(jìn)行挖掘和分析,有利于Web挖掘與數(shù)據(jù)挖掘技術(shù)的迅速融合與發(fā)展。
五、語義Web挖掘
語義Web模型的一個重要思想就是以本體來表示語義信息,通過在語義Web中引入本體層來實現(xiàn)語義信息的共享,從而提高網(wǎng)絡(luò)信息服務(wù)的智能化與自動化。語義Web挖掘的主要分為兩個層次:其一,探索能夠直接處理Web本體的Web挖掘算法;其二,在Web挖掘其他環(huán)節(jié)利用本體方法,以提高Web挖掘的效能。
要解決現(xiàn)有數(shù)據(jù)挖掘技術(shù)在語義Web環(huán)境下應(yīng)用,關(guān)鍵的問題是要求數(shù)據(jù)挖掘算法具有幾種能力:第一是使用的算法應(yīng)該具有處理比命題邏輯更有表達(dá)力的一階邏輯的能力;第二是在算法中具有利用背景知識數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。
六、結(jié)論
電子商務(wù)個性化推薦可以根據(jù)用戶的偏好、歷史訪問數(shù)據(jù),以及相似用戶的相關(guān)信息,幫助用戶完成網(wǎng)上瀏覽、購買等過程,為用戶提供個性化服務(wù)。WEB挖掘技術(shù)可以從不同的角度和層次對網(wǎng)站信息和用戶的使用偏好進(jìn)行分析,正在成為提高電子商務(wù)網(wǎng)站聲譽和效益的有效途徑之一。
參考文獻(xiàn):
[1]石 琳 王刊良:網(wǎng)上購物與網(wǎng)上學(xué)習(xí)中的個人化推薦系統(tǒng)的比較.清華大學(xué)學(xué)報(自然科學(xué)版),2006,46(S1)
[2]陳文偉 黃金才:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.北京:人民郵電出版社,2004