摘 要: 為了解決電子購物者和商家直接的商品快速、準(zhǔn)確匹配問題,進(jìn)行基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的電子商務(wù)商品推薦系統(tǒng)研究。首先指出了經(jīng)典Apriori算法的缺點(diǎn)和不足,并提出一種新的加權(quán)模糊關(guān)聯(lián)挖掘模型算法,以保證頻繁項(xiàng)集的向下封閉性;通過對電子商務(wù)推薦系統(tǒng)的結(jié)構(gòu)化設(shè)計、數(shù)據(jù)預(yù)處理模塊設(shè)計、推薦模塊設(shè)計,完成了推薦系統(tǒng)的工作流程測試;最后選取命中率作為不同推薦模型的評價標(biāo)準(zhǔn),通過五折交叉試驗(yàn)法對實(shí)際采集數(shù)據(jù)進(jìn)行了對比分析,試驗(yàn)結(jié)果表明關(guān)聯(lián)規(guī)則集的Top?N產(chǎn)品命中率要明顯高于興趣推薦和暢銷推薦法。
關(guān)鍵詞: 加權(quán)關(guān)聯(lián)規(guī)則; 挖掘算法; 電子商務(wù); 推薦系統(tǒng)
中圖分類號: TN911?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)15?0133?04
Abstract: To solve the direct commodity rapid and accurate matching problem between electronic shoppers and merchants, the e?commerce commodity recommendation system based on mining algorithm of weighted association rules is researched. Ai?ming at the insufficiency of the classic Apriori algorithm, a new weighted fuzzy association rules mining algorithm is put forward to ensure the downward closure of frequent item sets. The work flow of the recommendation system was tested through the structural design of e?commerce recommendation system, data preprocessing module design and recommendation module design. The hit rate is selected as the evaluation standard of different recommendation models. The contrastive analysis for the practical collected data was conducted with the half?off cross test method. The experimental results show that the hit rate of Top?N products in association rule set is significantly higher than that of the interest recommendation method and best selling recommendation method
Keywords: weighted association rule; mining algorithm; electronic commerce; recommendation system
0 引 言
隨著電子商務(wù)業(yè)的快速發(fā)展,互聯(lián)網(wǎng)購物用戶規(guī)模已經(jīng)突破兩億人次。而在龐大的互聯(lián)網(wǎng)購物中,購物者和服務(wù)者都面臨一個問題:用戶和商家彼此間無法明確所喜愛的商品;海量商品無法快速、準(zhǔn)確的和客戶愛好相匹配;篩選商品時間過長等。這些問題都極大地阻礙了電子商務(wù)業(yè)的發(fā)展。為了解決這些問題,本文利用數(shù)學(xué)上的相關(guān)知識,進(jìn)行了基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的電子商務(wù)商品推薦系統(tǒng)研究。
1 數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘從廣義上理解,就是在海量數(shù)據(jù)中通過某種算法、處理模式找到具有潛在作用、有效價值、新穎性強(qiáng)的數(shù)據(jù)處理過程。數(shù)據(jù)挖掘模式可分為關(guān)聯(lián)模式、序列模式、分類模式、回歸模式、時間序列模式、聚類模式六種。而關(guān)聯(lián)模式由于具有應(yīng)用范圍廣、實(shí)用性強(qiáng)的特點(diǎn), 因而在現(xiàn)代電子商務(wù)領(lǐng)域中得到了極大發(fā)展,關(guān)聯(lián)模式也成為了數(shù)據(jù)挖掘中最為重要的研究領(lǐng)域[1?3]。
經(jīng)過多年的研究分析,當(dāng)前對數(shù)據(jù)挖掘的主要方法包括概念描述、關(guān)聯(lián)分析、類知識挖掘、預(yù)測型知識挖掘等。雖然數(shù)據(jù)挖掘的方法有很多種,但要想徹底應(yīng)用到電子商務(wù)中存在以下幾個難點(diǎn):數(shù)據(jù)類型存在多樣性;算法效率和可伸縮性差;數(shù)據(jù)挖掘系統(tǒng)交互性差;數(shù)據(jù)安全性和私有性差[4?5]。這些難點(diǎn)都阻礙了數(shù)據(jù)挖掘在現(xiàn)實(shí)商業(yè)中的應(yīng)用。
1.2 經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法
在實(shí)際算法應(yīng)用中,關(guān)聯(lián)規(guī)則挖掘算法有很多種,其中最為經(jīng)典的就是Apriori算法。該算法具有單維、單層、布爾型的特點(diǎn)。該算法的頻繁項(xiàng)集產(chǎn)生步驟如下:開始→定義min_sup和min_conf→掃描數(shù)據(jù)庫得到項(xiàng)集→K=2→由Apriori算法得到[Ck→]成功結(jié)束,否則重新由Apriori算法得到[Ck。]
該算法在當(dāng)前的電子商務(wù)應(yīng)用中,主要存在的問題有[6]:掃描數(shù)據(jù)庫次數(shù)太多;運(yùn)算時間隨頻繁項(xiàng)長度增大而增長;每個階段的[Ck]太大;不能更新、不能直接處理數(shù)值型數(shù)據(jù);數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘不能直接應(yīng)用。這些問題都導(dǎo)致了Apriori算法在電子商務(wù)應(yīng)用中出現(xiàn)了諸多問題。為此,在下文中提出了基于加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法的改進(jìn)。
2 基于加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法的改進(jìn)
2.1 加權(quán)模糊關(guān)聯(lián)規(guī)范模型
(1) 布爾型加權(quán)關(guān)聯(lián)規(guī)則模型
布爾型加權(quán)關(guān)聯(lián)規(guī)則模型由事務(wù)集[T,]項(xiàng)目集[I,]項(xiàng)目權(quán)值集[W]等組成。在具體計算時,可根據(jù)元素屬性、布爾屬性項(xiàng)目集的支持度等進(jìn)行加權(quán)計算。
(2) 加權(quán)模糊關(guān)聯(lián)模型規(guī)則
加權(quán)模糊關(guān)聯(lián)模型由事務(wù)集[T,]項(xiàng)目集[I,]模糊集[L]等組成。其中,模糊集的隸屬度函數(shù)為[Ffk,]值域?yàn)椋?,1)。根據(jù)模糊項(xiàng)目集[X]的事物權(quán)重FITW,加權(quán)模糊支持度WFS二者的比值,可計算出加權(quán)模糊關(guān)聯(lián)規(guī)則[X→Y]的加權(quán)模糊置信度。具體計算過程如下:WFC(X→Y)=[WFS (X?Y)WFS (X)。]
(3) 頻繁項(xiàng)集的向下封閉性
向下封閉性是Apriori算法的特點(diǎn),它可以通過K?項(xiàng)頻繁項(xiàng)集產(chǎn)生最大頻繁項(xiàng)集。然而在加權(quán)關(guān)聯(lián)規(guī)則挖掘中,由于項(xiàng)目被給予了權(quán)值屬性和支持度屬性,因此頻繁項(xiàng)集內(nèi)的子集不再能判定其是否頻繁。
2.2 加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法NFWARM
加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法NFWARM的基本執(zhí)行思路如下[7?8]:算法掃描數(shù)據(jù)庫得到[C]值,并對其賦予加權(quán)模糊支持度屬性;通過特定函數(shù)計算出候選項(xiàng)目集,并對不頻繁子集進(jìn)行刪除、剪枝;循環(huán)計算候選項(xiàng)目集的支持度,直到所有候選集為空。這樣便得到了頻繁項(xiàng)集[F=F?FK。]
加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法NFWARM仍然采用逐層搜索迭代的方法來計算得到頻繁項(xiàng)集,這一點(diǎn)和Apriori算法是相同的。通過相關(guān)定理可以證明,該算法在處理加權(quán)時可以實(shí)現(xiàn)頻繁項(xiàng)集的向下封閉性。
2.3 試驗(yàn)及結(jié)果分析
為檢測加權(quán)模糊關(guān)聯(lián)規(guī)范挖掘算法NFWARM的先進(jìn)性,本文進(jìn)行了相關(guān)的數(shù)據(jù)測試。首先通過IBM數(shù)據(jù)生成器隨機(jī)生成一萬個事務(wù)數(shù)和屬性。其中,每個事務(wù)內(nèi)有20個項(xiàng)目,每個屬性在(0,1)內(nèi)進(jìn)行權(quán)重分配,而每個數(shù)值屬性又重新分配了五個模糊集。之后通過隸屬函數(shù)將原始數(shù)據(jù)庫轉(zhuǎn)換為模糊數(shù)據(jù)庫。BWARM曲線和NFWARM曲線分別表示傳統(tǒng)布爾型加權(quán)關(guān)聯(lián)規(guī)則算法和改進(jìn)算法的執(zhí)行結(jié)果,具體變化情況見圖1。
從圖1中可以看出,隨著最小加權(quán)模糊支持度的增加,NFWARM算法得到的頻繁項(xiàng)集合和頻繁規(guī)則的數(shù)目在減小,而BWARM算法產(chǎn)生的頻繁項(xiàng)集較NFWARM算法要少很多。這些數(shù)據(jù)變化都顯示出改進(jìn)型NFWARM算法的優(yōu)越性。
3 電子商務(wù)商品推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)
3.1 推薦系統(tǒng)結(jié)構(gòu)設(shè)計
(1) 系統(tǒng)開發(fā)工具和平臺
本次電子商務(wù)商品推薦系統(tǒng)的開發(fā)工具為MyEclipse 7.0,JDK 1.6;操作系統(tǒng)采用Windows XP;應(yīng)用服務(wù)器采用Tomcat 6.0;后臺數(shù)據(jù)庫為SQLSever 2005。
(2) 電子商務(wù)平臺背景
本次開發(fā)的電子商務(wù)推薦平臺主要是一家以銷售女裝為主的電子商鋪。隨著電子商業(yè)業(yè)務(wù)的推廣,該店銷售額得到了極大的提升。然而在銷售額上升的同時,也出現(xiàn)了衣服種類多、客戶群體難以短時間內(nèi)成功匹配合適服裝的問題。因此該店銷售額遇到了瓶頸,急需開發(fā)一款高質(zhì)量的電子商務(wù)商品推薦系統(tǒng)。
(3) 結(jié)構(gòu)設(shè)計
電子商務(wù)商品推薦系統(tǒng)需要通過兩個重要模塊實(shí)現(xiàn),即數(shù)據(jù)采集系統(tǒng)和數(shù)據(jù)預(yù)處理系統(tǒng)。數(shù)據(jù)采集系統(tǒng)主要提供服裝信息,而數(shù)據(jù)預(yù)處理系統(tǒng)負(fù)責(zé)處理客戶的交易數(shù)據(jù),并將其轉(zhuǎn)換為關(guān)聯(lián)規(guī)則挖掘算法需要的數(shù)據(jù)格式。整個系統(tǒng)的核心部分就是利用加權(quán)關(guān)聯(lián)規(guī)則挖掘算法搭建客戶交易歷史數(shù)據(jù)和客戶購買需求之間的平臺。整個電子商務(wù)商品推薦平臺的工作流程如圖2所示。
3.2 數(shù)據(jù)預(yù)處理模塊設(shè)計
(1) 數(shù)據(jù)準(zhǔn)備。將商鋪網(wǎng)址、服裝信息、商品數(shù)據(jù)、交易信息等原始數(shù)據(jù)錄入到Excel文件中作為原始數(shù)據(jù)庫。其中,客戶購買歷史信息和商品信息是整個系統(tǒng)最為核心的數(shù)據(jù)庫。
(2) 數(shù)據(jù)分類。Excel文件中保存的原始數(shù)據(jù)龐雜、多變,需要對這些原始數(shù)據(jù)進(jìn)行分類,以便于數(shù)據(jù)挖掘工作的進(jìn)行。其分類方法為:將商品信息向上抽象一層,作為第一層概念層數(shù)據(jù)的挖掘?qū)ο螅焕^續(xù)將商品信息往上再次抽象,本次數(shù)據(jù)只用符號表示。
(3) 數(shù)據(jù)預(yù)處理。利用概念層思想將商品進(jìn)行分類,同時通過數(shù)據(jù)的完整性、一致性檢查及時對上架、下架貨品信息進(jìn)行數(shù)據(jù)處理。
(4) 歷史交易數(shù)據(jù)生成。利用SQL腳本語言編寫事務(wù)數(shù)據(jù),將預(yù)處理后的歷史交易數(shù)據(jù)轉(zhuǎn)換為聯(lián)合規(guī)則算法挖掘的事務(wù)數(shù)據(jù)。此時,需將交易時間作為客戶數(shù)據(jù)挖掘的變量條件。
3.3 推薦模塊設(shè)計
推薦模塊設(shè)計時,要求客戶首先登陸電子商務(wù)商品推薦平臺注冊成為會員,之后根據(jù)客戶有無購買商品記錄,將推薦模塊分為以下兩種情況:
(1) 無客戶購買商品記錄
針對這種情況,推薦使用最為流行的Top?N銷售策略進(jìn)行模塊設(shè)計。設(shè)計流程如下:會員注冊→暢銷商品推薦/自主購買意愿→拒絕,繼續(xù)推薦下一層暢銷商品/選擇自主商品→購買。
(2) 有客戶購買商品記錄
針對這種情況,需要系統(tǒng)根據(jù)該會員信息調(diào)取其在該平臺的購買記錄,快速準(zhǔn)確地計算出該客戶可能喜歡購買的商品并進(jìn)行推薦。設(shè)計流程如下:會員登錄→自動調(diào)閱購買歷史信息→根據(jù)關(guān)聯(lián)規(guī)則集分析客戶愛好→推薦匹配商品→購買。
3.4 系統(tǒng)實(shí)現(xiàn)與測試
(1) 基于用戶歷史交易記錄??蛻舻卿涬娮由虅?wù)商品推薦系統(tǒng)后,可通過點(diǎn)擊“購買歷史記錄”來查詢購買信息,系統(tǒng)后臺會自動演化規(guī)則集;之后根據(jù)規(guī)則集匹配系統(tǒng)內(nèi)的服裝信息,并將其優(yōu)先推薦給客戶。
(2) 基于用戶購物籃信息。客戶登錄電子商務(wù)商品推薦系統(tǒng)后,根據(jù)瀏覽信息中產(chǎn)生的購物籃信息,系統(tǒng)后臺會自動演化規(guī)則集,之后根據(jù)規(guī)則集匹配系統(tǒng)內(nèi)的服裝信息,并將其優(yōu)先推薦給客戶,見圖3。
(3) 基于用戶無購買記錄。針對無購買記錄的客戶,系統(tǒng)會根據(jù)Top?N銷售策略,將當(dāng)前最為暢銷的服裝推薦給客戶。
4 推薦系統(tǒng)結(jié)果分析
4.1 試驗(yàn)數(shù)據(jù)
為保證試驗(yàn)測試的準(zhǔn)確性,本次試驗(yàn)共采集了2015年度5個月份內(nèi)的服裝交易記錄。其中包括500多種商品的基本信息和16 000多個淘寶ID客戶信息。涉及的商品包括女裝、T恤、背心、裙子等。
同時,在試驗(yàn)之前分析了用戶購買習(xí)慣。其中只購買一件商品的用戶數(shù)量為9 300多個;買兩件及以上且款式不同的為5 600多個,款式相同的為1 500多個。經(jīng)過數(shù)據(jù)預(yù)處理模塊分析后,符合關(guān)聯(lián)規(guī)則挖掘的交易量為5 985。
4.2 試驗(yàn)評價標(biāo)準(zhǔn)及方案
本次試驗(yàn)選擇的評價標(biāo)準(zhǔn)是命中率。該指標(biāo)可以較為準(zhǔn)確地反映系統(tǒng)推薦商品是否會被客戶購買。
試驗(yàn)方案采用五折交叉法進(jìn)行測試,具體方案為:將數(shù)據(jù)分為計算數(shù)據(jù)和測試數(shù)據(jù)兩部分,計算數(shù)據(jù)由算法自動計算,測試數(shù)據(jù)由客戶真實(shí)購買記錄統(tǒng)計;將數(shù)據(jù)分為5份,其中4份為訓(xùn)練集、1份為檢測集;每做一次測試后,將5份數(shù)據(jù)重新交叉組合,進(jìn)行下一次測試,共測試5次。
4.3 試驗(yàn)結(jié)果及分析
根據(jù)試驗(yàn)結(jié)果,對前5 000個用戶的購買信息進(jìn)行了統(tǒng)計分析,得到了5個數(shù)據(jù)區(qū)間的結(jié)果。本次試驗(yàn)對基于關(guān)聯(lián)規(guī)則集的Top?N產(chǎn)品、基于用戶興趣相關(guān)的Top?N產(chǎn)品、推薦最暢銷的Top?N產(chǎn)品數(shù)據(jù)進(jìn)行了命中率分析,其對比結(jié)果見圖4。
三種推薦策略的平均命中率分別為:推薦最暢銷的Top?N產(chǎn)品0.319,基于用戶興趣相關(guān)的Top?N產(chǎn)品0.514,關(guān)聯(lián)規(guī)則集的Top?N產(chǎn)品0.552。從這三個數(shù)據(jù)的對比中可以看出,基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的電子商務(wù)推薦模型是有效的,其命中率較其他兩種都有明顯提高。
5 結(jié) 論
本文通過概述數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則的基本信息,指出了經(jīng)典Apriori算法的缺點(diǎn)和不足,并提出一種新的加權(quán)模糊關(guān)聯(lián)挖掘模型算法,以保證頻繁項(xiàng)集的向下封閉性;通過對電子商務(wù)推薦系統(tǒng)的結(jié)構(gòu)化設(shè)計、數(shù)據(jù)預(yù)處理模塊設(shè)計、推薦模塊設(shè)計,完成了推薦系統(tǒng)的工作流程測試;最后選取命中率作為不同推薦模型的評價標(biāo)準(zhǔn),通過五折交叉試驗(yàn)法對實(shí)際采集數(shù)據(jù)進(jìn)行了對比分析,試驗(yàn)結(jié)果表明關(guān)聯(lián)規(guī)則集的Top?N產(chǎn)品命中率要明顯高于興趣推薦和暢銷推薦法,充分顯示了基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法推薦系統(tǒng)的優(yōu)越性。
參考文獻(xiàn)
[1] 鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2003.
[2] 王梟雄.基于關(guān)聯(lián)規(guī)則的軟件開發(fā)推薦技術(shù)研究[D].西安:西安電子科技大學(xué),2013.
[3] 劉聞超.加權(quán)模糊關(guān)聯(lián)規(guī)則挖掘算法研究及應(yīng)用[D].鎮(zhèn)江:江蘇大學(xué),2010.
[4] 馬剛.關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的研究與應(yīng)用[D].上海:上海交通大學(xué),2008.
[5] 張劍凱.關(guān)聯(lián)規(guī)則在移動電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2014.
[6] 張榮.基于關(guān)聯(lián)規(guī)則的用戶興趣模型的研究與應(yīng)用[D].武漢:武漢理工大學(xué),2013.
[7] 范永健.基于數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)模型研究[D].邯鄲:河北工程大學(xué),2009.
[8] 王穎.基于關(guān)聯(lián)規(guī)則的電子商務(wù)個性化推薦模型研究[D].大連:東北財經(jīng)大學(xué),2012.