[摘 要] 本文討論了Web數(shù)據(jù)挖掘的一個(gè)重要分支—Web用法挖掘在電子商務(wù)客戶(hù)行為特征挖掘中的應(yīng)用。介紹了客戶(hù)行為特征挖掘的主要方法,并詳細(xì)描述了一個(gè)基于粗糙集的電子商務(wù)客戶(hù)行為特征挖掘模型。
[關(guān)鍵詞] 電子商務(wù) 客戶(hù)行為特征 Web 用法挖掘 粗糙集
一、Web用法挖掘的概念
Web使用記錄實(shí)際上是一種用戶(hù)瀏覽網(wǎng)站的操作流水記錄,它詳實(shí)地記錄著使用者對(duì)Web服務(wù)器訪問(wèn)的細(xì)節(jié)情況。Web用法挖掘即Web使用記錄挖掘是指通過(guò)挖掘相關(guān)的Web日志記錄,來(lái)發(fā)現(xiàn)用戶(hù)訪問(wèn)Web頁(yè)面的模式,通過(guò)分析日志記錄中的規(guī)律,來(lái)識(shí)別用戶(hù)的忠實(shí)度、喜好、滿(mǎn)意度,并發(fā)現(xiàn)潛在用戶(hù),增強(qiáng)站點(diǎn)的服務(wù)競(jìng)爭(zhēng)力。
Web使用記錄除了指服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶(hù)會(huì)話信息、交易信息、Cookie中的信息、用戶(hù)查詢(xún)、鼠標(biāo)點(diǎn)擊流等一切用戶(hù)與站點(diǎn)之間可能的交互記錄。
利用Web用法挖掘來(lái)對(duì)客戶(hù)的行為特征進(jìn)行挖掘是指從Web用戶(hù)的使用記錄集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,那么客戶(hù)行為特征挖掘的過(guò)程就是從輸入到輸出的一個(gè)映射:ε∶C→P
二、客戶(hù)行為特征挖掘的必要性
客戶(hù)行為類(lèi)信息是指客戶(hù)的消費(fèi)行為、客戶(hù)偏好和生活方式,客戶(hù)滿(mǎn)意度、客戶(hù)忠誠(chéng)度及與企業(yè)的聯(lián)絡(luò)記錄等相關(guān)信息。但這些信息并不等同于客戶(hù)行為特征信息。通過(guò)對(duì)上述信息進(jìn)行客戶(hù)行為模型與數(shù)據(jù)挖掘處理,才能提煉出客戶(hù)的行為特征信息,從而為企業(yè)的決策提供精確的數(shù)據(jù)支持。客戶(hù)行為特征挖掘的重要性體現(xiàn)在以下幾個(gè)方面:
1.發(fā)現(xiàn)潛在客戶(hù),提高現(xiàn)有客戶(hù)忠誠(chéng)度及滿(mǎn)意度。
2.對(duì)系統(tǒng)改進(jìn)提供決策依據(jù)。如通過(guò)分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),從而改進(jìn)系統(tǒng)以提高站點(diǎn)安全性。
3.對(duì)改進(jìn)站點(diǎn)結(jié)構(gòu)與內(nèi)容提供決策依據(jù),使站點(diǎn)的結(jié)構(gòu)和內(nèi)容更加優(yōu)化與合理以方便用戶(hù)使用。
4.幫助銷(xiāo)售商合理安排銷(xiāo)售策略。聚類(lèi)客戶(hù),對(duì)不同類(lèi)別客戶(hù)提供個(gè)性化服務(wù)。
5.識(shí)別競(jìng)爭(zhēng)對(duì)手,保護(hù)企業(yè)敏感信息,有效地發(fā)現(xiàn)并阻止商業(yè)情報(bào)活動(dòng)。
三、客戶(hù)行為特征挖掘的方法
利用Web用法挖掘技術(shù)來(lái)對(duì)客戶(hù)行為特征進(jìn)行挖掘是一個(gè)有效的方法?;赪eb的數(shù)據(jù)挖掘作為一個(gè)完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔;而信息抽取(IE)的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮并給出它的緊湊描述。
客戶(hù)行為特征挖掘大致可以分為數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)挖掘、和模式分析幾個(gè)主要步驟。
1.數(shù)據(jù)采集
數(shù)據(jù)采集是客戶(hù)行為特征挖掘流程中的重要部分。在數(shù)據(jù)采集時(shí)要盡可能地搜索所有與客戶(hù)行為特征有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
(1)服務(wù)器端采集。服務(wù)器端的Web日志是客戶(hù)行為特征挖掘的的重要數(shù)據(jù)來(lái)源。在服務(wù)器端,客戶(hù)的行為可以被TCP/IP包監(jiān)測(cè)器跟蹤,以提取客戶(hù)的請(qǐng)求信息。服務(wù)器主要以Web日志的形式記錄客戶(hù)每一次的網(wǎng)頁(yè)請(qǐng)求信息。主要包括:客戶(hù)標(biāo)識(shí)、遠(yuǎn)程IP、請(qǐng)求日期和時(shí)間等,并且可以記錄COOKIES和查詢(xún)參數(shù)來(lái)描述各個(gè)不同客戶(hù)的行為。這些日志文件能夠以常用日志格式或擴(kuò)展日志格式存在。為了做好下一步數(shù)據(jù)清洗,可以根據(jù)客戶(hù)行為特征挖掘的具體目的來(lái)調(diào)整Web日志的記錄字段,這樣既可以將不必要的數(shù)據(jù)去掉,也可以增加一些在后面分析時(shí)可能用到的字段,這樣采集的數(shù)據(jù)更加便于后面的數(shù)據(jù)清洗。
使用服務(wù)器端數(shù)據(jù)采集可以實(shí)時(shí)采集數(shù)據(jù),并能把來(lái)自不同服務(wù)器的數(shù)據(jù)整合到一個(gè)日志中。但同時(shí)也存在獲取客戶(hù)信息失真及信息量不足等問(wèn)題。
(2)客戶(hù)端采集。客戶(hù)端數(shù)據(jù)采集方法需要用戶(hù)的合作如自覺(jué)使用修改過(guò)的瀏覽器,或者實(shí)現(xiàn)javascript 和java applets的功能。在使用客戶(hù)端數(shù)據(jù)采集時(shí)可能會(huì)遇到客戶(hù)不配合及涉及客戶(hù)隱私等問(wèn)題。
(3)代理器端采集。在代理器端可以采集多用戶(hù)甚至多網(wǎng)站的行為。代理器端數(shù)據(jù)采集適合有大量靜態(tài)頁(yè)面的網(wǎng)站。但使用代理器端數(shù)據(jù)采集時(shí)遇到的問(wèn)題是不能區(qū)分代理器后端的不同的顧客(群)。
2.數(shù)據(jù)清洗
采集到的信息通常是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接對(duì)采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過(guò)必要的數(shù)據(jù)處理。數(shù)據(jù)清洗目的是從取得的原始數(shù)據(jù)中剔除無(wú)用信息和將信息進(jìn)行必要的整理。經(jīng)過(guò)數(shù)據(jù)凈化,數(shù)據(jù)可以十分集中。
在進(jìn)行客戶(hù)行為特征挖掘時(shí),應(yīng)該根據(jù)分析需要,首先確定需要的行為,再確定這些行為出現(xiàn)的一些條件和特征,從而確立一些分析規(guī)則,將這些行為特征挖掘出來(lái),對(duì)于不需要的行為數(shù)據(jù)應(yīng)該盡量過(guò)濾。
3.數(shù)據(jù)挖掘
客戶(hù)行為特征挖掘常用的分析規(guī)則有:遍歷路徑,關(guān)聯(lián)規(guī)則,聚集發(fā)現(xiàn)和分類(lèi)發(fā)現(xiàn)。
(1)遍歷路徑。遍歷路徑分析的側(cè)重點(diǎn)在于分析用戶(hù)訪問(wèn)路徑間的前后序列關(guān)系。通常,一個(gè)會(huì)話(Si)是一個(gè)以時(shí)間為順序的頁(yè)視圖(Vi)(單個(gè)用戶(hù)在某次訪問(wèn)一個(gè)站點(diǎn)時(shí)所產(chǎn)生)的集合。而每個(gè)頁(yè)視圖Vi又具有標(biāo)志符vi,頁(yè)文件hj,首先訪問(wèn)時(shí)間tf,最后訪問(wèn)時(shí)間tl,視圖結(jié)束時(shí)間te的屬性。如下表示:
Si={V1,....Vn}
Vi=
對(duì)單用戶(hù),可以將上述集合用一個(gè)有向圖來(lái)表示,Gi=(Si,Ei),
其中:Si是頁(yè)面的集合,Ei是頁(yè)面之間的超連接集合, 定義頁(yè)面為圖中的頂點(diǎn),而頁(yè)面間的鏈接定義為圖中的有向邊。頂點(diǎn)Si的入邊表示對(duì)Si的引用,出邊表示Si引用了其他的頁(yè)面。
對(duì)于多用戶(hù)在某時(shí)間段訪問(wèn)站點(diǎn)時(shí)產(chǎn)生的會(huì)話則可以用單用戶(hù)會(huì)話的集合Gi來(lái)表示, 即
G={G1, G2, … Gn}, 也即:
G={{S1,E1},{S2,E2} … {Sn,En}}。
從上式可以得到:
G={{S1,S2, … Sn}, {E1,E2, … En}}, 也即是 G={S, E}。
在遍歷路徑時(shí),首先在每個(gè)用戶(hù)會(huì)話Gi中找出該用戶(hù)的所有最大向前路徑Ei, 然后在所有用戶(hù)會(huì)話G中的子集合--最大向前路徑E中,找出頻繁出現(xiàn)的連續(xù)子序列。要尋找這些頻繁遍歷路徑,必須定義這些連續(xù)子序列的長(zhǎng)度和支持度,所謂支持度就是包含頻繁遍歷的用戶(hù)會(huì)話數(shù)目。
(2)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則分析主要用于從用戶(hù)訪問(wèn)序列數(shù)據(jù)庫(kù)的序列項(xiàng)中挖掘出相關(guān)的規(guī)則,也就是用戶(hù)的訪問(wèn)頁(yè)面之間的潛在聯(lián)系,而這些頁(yè)面之間可能并不存在直接的參引(Reference)關(guān)系。
在客戶(hù)行為特征挖掘中,關(guān)聯(lián)規(guī)則指:只要頁(yè)面的支持度大于某個(gè)被給定的閥值,那么這些頁(yè)面就都被訪問(wèn)。即只要訪問(wèn)頁(yè)面A就有可能訪問(wèn)B(和C...)。從Web日志中挖掘出最大頻繁訪問(wèn)項(xiàng)集,這個(gè)項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶(hù)訪問(wèn)模式。最常用的方法是用APRIOR算法。關(guān)聯(lián)規(guī)則能夠有助于Web設(shè)計(jì)者重新組織站點(diǎn)的內(nèi)容編排。
(3)聚集發(fā)現(xiàn)。聚集發(fā)現(xiàn)是把整個(gè)原數(shù)據(jù)分成不同的群組。它的目的是要在群與群之間差別很明顯,而同一個(gè)群內(nèi)的數(shù)據(jù)要盡量相似。在WEB方法挖掘中,主要涉及兩種聚類(lèi):用戶(hù)聚類(lèi)和頁(yè)聚類(lèi)。用戶(hù)聚類(lèi)將具有相似訪問(wèn)特性的用戶(hù)歸在一起,在站點(diǎn)的個(gè)性化服務(wù)中,這種技術(shù)尤其有用。頁(yè)聚類(lèi)將內(nèi)容相關(guān)的頁(yè)面歸在一起,在搜索引擎和WEB結(jié)構(gòu)設(shè)計(jì)領(lǐng)域中,這種技術(shù)發(fā)揮著巨大作用。
此外聚集發(fā)現(xiàn)還可以作為其他算法(如特征和分類(lèi)等)的預(yù)處理步驟。聚集發(fā)現(xiàn)比較常用的分析方法是組織神經(jīng)網(wǎng)絡(luò)方法和K-均值法。
(4)分類(lèi)發(fā)現(xiàn)。與聚集發(fā)現(xiàn)不同,分類(lèi)發(fā)現(xiàn)要解決的問(wèn)題是為一個(gè)事件或?qū)ο蠓珠T(mén)別類(lèi)地歸入預(yù)先設(shè)定好的幾個(gè)類(lèi)中。分類(lèi)方法是建立一個(gè)分類(lèi)函數(shù)或分類(lèi)模型(分類(lèi)器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè)。分類(lèi)發(fā)現(xiàn)可以從歷史數(shù)據(jù)中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。在客戶(hù)行為特征挖掘中, 分類(lèi)發(fā)現(xiàn)可以根據(jù)web日志得到的個(gè)人或共同的訪問(wèn)模式,得出訪問(wèn)某一服務(wù)器文件的用戶(hù)特征分類(lèi)。
分類(lèi)器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法等,它們使用不同的算發(fā)。其中粗糙集方法(Rough Set)是處理知識(shí)的有效方法,已在眾多領(lǐng)域得到廣泛的應(yīng)用, 所建立的基于粗糙集的客戶(hù)行為特征挖掘模型是有效、可行的。
4.模式分析
模式分析是客戶(hù)行為特征挖掘的最后步驟。它的目的是對(duì)模式發(fā)現(xiàn)過(guò)程中產(chǎn)生的規(guī)則和模式進(jìn)行過(guò)濾,從中濾除不感興趣的部分。
客戶(hù)行為特征挖掘的結(jié)果應(yīng)當(dāng)用一些直觀的、易于理解的可視化的方法提交給使用者。此外,應(yīng)當(dāng)讓用戶(hù)能夠以一種方便的方式參與挖掘分析過(guò)程,這樣可能會(huì)得到更好的、用戶(hù)更樂(lè)于接受的結(jié)果。
四、一種基于粗糙集的客戶(hù)行為特征挖掘模型
在進(jìn)行客戶(hù)行為特征挖掘方案設(shè)計(jì)時(shí),可以根據(jù)客戶(hù)行為特征挖掘的具體目的對(duì)Web日志記錄字段進(jìn)行調(diào)整,增加一些在后面分析時(shí)可能需要用到的字段。如:客戶(hù)標(biāo)識(shí)、遠(yuǎn)程IP、請(qǐng)求日期和時(shí)間、頁(yè)視圖集合S={S1,S2,S3,S4}等。
假設(shè)通過(guò)遍歷路徑分析,我們得到了如表一所示的用戶(hù)瀏覽記錄,然后利用粗糙集的約簡(jiǎn)算法對(duì)數(shù)據(jù)進(jìn)行清洗。
表1是經(jīng)過(guò)遍歷路徑分析后得到的用戶(hù)瀏覽記錄,S1,S2,S3,S4代表4種頁(yè)視圖集合S的子集。IP為Web日志中來(lái)訪客戶(hù)的IP地址。Yes表示該訪客瀏覽了某個(gè)頁(yè)視圖集合S的子集;No則表示沒(méi)有。
在利用粗糙集的約簡(jiǎn)算法對(duì)數(shù)據(jù)進(jìn)行清洗時(shí),主要是計(jì)算知識(shí)的約簡(jiǎn)、核、上近似及下近似(正域)。本模型以決策規(guī)則為例說(shuō)明S1、S2、S3、S4之間的從屬關(guān)系,也即訪問(wèn)S1或S2或S3的用戶(hù)會(huì)不會(huì)訪問(wèn)S4。
根據(jù)粗糙集理論,論域U={C1,C2,C3,C4,C5,C6,C7,C8},
條件屬性集C={S1,S2,S3},
決策屬性集D={S4}。
容易計(jì)算得出:
U關(guān)于等價(jià)關(guān)系C的劃分U/C={X1,X2,X3,X4,X5},
其中,X1={C1},
X2={C2,C3},
X3={C4},
X4={C5,C7},
X5={C6,C8}。
U關(guān)于等價(jià)關(guān)系D的劃分U/D={Y1,Y2},
其中,Y1={C2,C3,C6,C7,C8},
Y2={C1,C4,C5}。
類(lèi)似地,U/{S1}={{C1,C2,C3},{C4,C5,C6,C7,C8}},
U/{S2}={{C1,C2,C3,C4,C6,C8},{C5,C7}},
U/{S3}={{C2,C3,C5,C6,C7,C8},{C1,C4}},
U/{S1,S2}={{C1,C2,C3},{C4,C6,C8},{C5,C7}},
U/{S1,S3}={{C1},{C2,C3},{C4},{C5,C6,C7,C8}},
U/{S2,S3}={{C1,C4},{C2,C3,C6,C8},{C5,C7}}
以下計(jì)算正域:
posC(D)={ C1,C2,C3,C4,C6,C8}
pos(C-{S1})(D)={ C1,C4,C2,C3,C6,C8}=posC(D)
pos(C-{S2})(D)={ C1,C2,C3,C4}≠posC(D)
pos(C-{S3})(D)=φ≠posC(D)
pos(C-{S1,S2})(D)={ C1,C4}≠posC(D)
pos(C-{S1,S3})(D)=φ≠posC(D)
pos(C-{S2,S3})(D)=φ≠posC(D)
因此,C的D約簡(jiǎn)為{S2,S3}。故表1經(jīng)過(guò)粗糙集數(shù)據(jù)清洗后得到表2。
決策規(guī)則的提取
定義決策規(guī)則為:
Rij:des(Xi) → des(Yj),Xi∩Yj≠0。
其中,des()為對(duì)等價(jià)類(lèi)的描述。
定義規(guī)則Rij的確定性因子μ(Xi,Yj)=| Xi∩Yj |/| Xi |。顯然,
0<μ(Xi,Yj)≤1。
根據(jù)粗糙集理論,當(dāng)確定性因子μ(Xi,Yj)=1時(shí),Rij是確定的;當(dāng)0<μ(Xi,Yj)<1時(shí),Rij是不確定的。
這樣,可以得到以下確定性規(guī)則:
R12:(訪問(wèn)S2)且(不訪問(wèn)S3)→ (不可能訪問(wèn)S4)
R21:(訪問(wèn)S2)且(訪問(wèn)S3)→ (可能訪問(wèn)S4)
R32:(訪問(wèn)S2)且(不訪問(wèn)S3)→ (不可能訪問(wèn)S4)
R51:(訪問(wèn)S2)且(訪問(wèn)S3)→ (可能訪問(wèn)S4)
不確定性規(guī)則為:
R41:(不訪問(wèn)S2)且(訪問(wèn)S3)→ (可能訪問(wèn)S4),μ(X4,Y1)=0.5
R42:(不訪問(wèn)S2)且(訪問(wèn)S3)→ (不可能訪問(wèn)S4),μ(X4,Y2)=0.5
模式解釋:
在實(shí)際應(yīng)用中挖掘到的模式和規(guī)則數(shù)量通常都很大,在模式解釋之前還必須對(duì)挖掘到的大量模式和規(guī)則進(jìn)行篩選與合并。就本例來(lái)說(shuō),經(jīng)過(guò)篩選、合并挖掘到的6條模式和規(guī)則后最終可以得到兩條確定性規(guī)則,即:
1.(訪問(wèn)S2)且(訪問(wèn)S3)→ (可能訪問(wèn)S4)
2.(訪問(wèn)S2)且(不訪問(wèn)S3)→ (不可能訪問(wèn)S4)
在進(jìn)行網(wǎng)站結(jié)構(gòu)改進(jìn)時(shí),可基于這兩條確定性規(guī)則作出決策:S1與S2鏈接,而沒(méi)有必要與S3、S4、S4鏈接;S2與S3, S3和S4進(jìn)行鏈接;而將S2和S4的鏈接斷開(kāi)以方便用戶(hù)使用。對(duì)于不確定規(guī)則,可作參考或直接刪除均可。
五、小結(jié)
使用Web用法挖掘技術(shù)來(lái)進(jìn)行電子商務(wù)客戶(hù)行為特征的挖掘是一項(xiàng)復(fù)雜的技術(shù)。本文通過(guò)給出的一個(gè)基于粗糙集的客戶(hù)行為特征挖掘模型來(lái)討論了數(shù)據(jù)挖掘在電子商務(wù)系統(tǒng)應(yīng)用中的一個(gè)重要分支—Web用法挖掘。并重點(diǎn)論述了客戶(hù)行為特征挖掘中的數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理及數(shù)據(jù)挖掘分析部分。運(yùn)用Web數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)網(wǎng)站上的各種數(shù)據(jù)源進(jìn)行挖掘,發(fā)現(xiàn)相關(guān)的一些知識(shí)模式,可以指導(dǎo)企業(yè)更好地運(yùn)作站點(diǎn)和向客戶(hù)提供更優(yōu)質(zhì)的個(gè)性化的服務(wù),能有效提高商業(yè)站點(diǎn)的競(jìng)爭(zhēng)力。
參考文獻(xiàn):
[1]鄧鯤鵬 周延杰 嚴(yán)瑜莜:數(shù)據(jù)挖掘與電子商務(wù)[J].商場(chǎng)現(xiàn)代化,2007(9S)
[2]袁 柱:電子商務(wù)中Web數(shù)據(jù)挖掘的應(yīng)用研究[J].商場(chǎng)現(xiàn)代化,2007(8S)
[3]張文修等:粗糙集理論與方法[M].北京:科學(xué)出版社,2001
[4]高 燕 胡景濤:Web數(shù)據(jù)挖掘原理、方法及應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2002
[5]王玉珍:Web數(shù)據(jù)挖掘的分析與探索[J].計(jì)算機(jī)發(fā)展與應(yīng)用,2003