王雪媛
(內(nèi)江師范學(xué)院,四川內(nèi)江 641100)
基于關(guān)聯(lián)規(guī)則是一種常見的電子商務(wù)推薦技術(shù),是根據(jù)茶葉交易歷史數(shù)據(jù),挖掘出不同類型商品在銷售過程中的關(guān)聯(lián)性,形成關(guān)聯(lián)規(guī)則,并據(jù)此預(yù)測用戶對未購買過的產(chǎn)品的興趣,進(jìn)而產(chǎn)生推薦結(jié)果。
關(guān)聯(lián)規(guī)則挖掘也稱購物籃分析,表達(dá)了數(shù)據(jù)項(xiàng)之間的依存性和關(guān)聯(lián)性[1]。設(shè)m個(gè)不同的項(xiàng)目集合為I={il,i2,…,im),每一個(gè)事務(wù)T是項(xiàng)集的子集,即T?I。關(guān)聯(lián)規(guī)則可以表示為一個(gè)蘊(yùn)含式R:X→Y(X?I,Y?I,X∩Y=?)。關(guān)聯(lián)規(guī)則的支持度support是交易(事物)集中同時(shí)包含X、Y的交易數(shù)與所有交易數(shù)之比,其本質(zhì)是反映X、Y同時(shí)出現(xiàn)的概率,最小支持度是要求項(xiàng)集必須滿足的最小支持閾值,是剪枝的重要依據(jù)。支持度大于或等于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻繁集,反之稱為非頻繁集。置信度表示規(guī)則值得信任的程度,confidence(X→Y)=support(X∪Y)/support(X)。最小置信度表示關(guān)聯(lián)規(guī)則的最低可靠性。
事務(wù)數(shù)據(jù)庫中存在著海量的關(guān)聯(lián)規(guī)則。但是,只有強(qiáng)關(guān)聯(lián)規(guī)則才對商家具有決策指導(dǎo)價(jià)值。所謂強(qiáng)關(guān)聯(lián)規(guī)則是指既滿足最小支持度又滿足最小置信度。
Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,是關(guān)聯(lián)規(guī)則的經(jīng)典算法之一。可分解為兩個(gè)處理步驟:(1)根據(jù)最小支持度找出所有的頻繁項(xiàng)目集;(2)根據(jù)第一步找到的頻繁項(xiàng)集產(chǎn)生所期望的強(qiáng)關(guān)聯(lián)規(guī)則。
假定一個(gè)購買茶葉事務(wù)數(shù)據(jù)庫 S={S1,S2,S3,S4},設(shè) δ=50%,則最小支持度MinSup=4*50%=2,其中假定最小置信度Minconf=70%。S1,S2,S3,S4分別購買了熙春茶(BOHEA Tea)、功夫茶 (HYSON Tea)、屯溪茶(TWANKAY Tea)、祁門茶 (K0EEMUN Tea)、茉莉花茶(Jasmine Tea)五種茶葉的情況是{1、0、1、1、0},{0、1、1、0、1},{1、1、1、0、1},{0、1、0、0、1},其中 1代表曾有購買行為,0表示沒有購買行為。
首先,產(chǎn)生茶葉購買候選集L1,得到各茶葉BOHEA Tea、HYSON Tea、TWANKAY Tea、K0EEMUN Tea、Jasmine Tea 的支持度分別為 2、3、3、1、3。所以,C1={(BOHEA Tea),(HYSON Tea),(TWANKAY Tea),(Jasmine Tea)},剪掉其中支持度小于 MinSup的項(xiàng)目集,從C1產(chǎn)生L2為{(BOHEA Tea、HYSON Tea:1);(BOHEA Tea 、TWANKAY Tea:2);(BOHEA Tea、Jasmine Tea:1);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)},剪掉不符合要求的項(xiàng)目集,則 得 到 的 C2 為:{(BOHEA Tea、TWANKAY Tea:2);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)}因?yàn)?BOHEA Tea、Jasmine Tea)為非頻繁子集。根據(jù)Apriori定律,如果一個(gè)集合不是頻繁項(xiàng)集,則它的所有超集都不是頻繁項(xiàng)集。所以從C2 產(chǎn)生的 L3 為 {HYSON Tea、TWANKAY Tea、Jasmine Tea:2},因?yàn)橹苯觿h除了 BOHEA Tea、TWANKAY Tea、Jasmine Tea,則得到的 C3 為:{HYSON Tea、TWANKAY Tea、Jasmine Tea:2},而 L4= Φ,所以循環(huán)結(jié)束。
對于 HYSON Tea、TWANKAY Tea、Jasmine Tea,最小置信度 Minconf=70%,HYSON Tea、TWANKAY Tea、Jasmine Tea的支持度為 Confidence=2/2=100%;HYSON Tea、Jasmine Tea、TWANKAY Tea的置信度=2/3=66.7%;TWANKAY Tea、Jasmine Tea、HYSON Tea的置信度=2/2=100%;HYSON Tea、TWANKAY Tea、Jasmine Tea 的 置 信 度 =2/3=66.7% ;TWANKAY Tea、HYSON Tea、Jasmine Tea 的置信度=2/3=66.7%;Jasmine Tea、HYSON Tea、TWANKAY Tea的置信度=2/3==66.7%;最終,用戶可以得到如下推薦:①若消費(fèi)者購買了HYSON Tea和TWANKAY Tea,則向其推薦Jasmine Tea;②若消費(fèi)者購買了TWANKAY Tea和Jasmine Tea,則向其推薦HYSON Tea。
基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦設(shè)計(jì)關(guān)鍵在于通過分析數(shù)掘庫中全部顧客的歷史交易數(shù)據(jù),使用挖掘關(guān)聯(lián)規(guī)則算法,試圖發(fā)現(xiàn)顧客群體購買習(xí)慣的內(nèi)在共性,并據(jù)此,參照用戶歷史感興趣的茶葉,進(jìn)行關(guān)聯(lián)規(guī)則匹配,進(jìn)而向用戶推薦其還沒有購買但可能會(huì)有興趣的茶葉。
茶葉電子商務(wù)個(gè)性化推薦模型分為輸入、輸出、推薦和系統(tǒng)管理四個(gè)模塊。其中,輸入模塊主要是指整理茶葉歷史購物數(shù)據(jù),形成標(biāo)準(zhǔn)數(shù)據(jù)集。推薦模塊是指參照關(guān)聯(lián)規(guī)則,根據(jù)用戶需求,借助搜索引擎得到推薦列表。輸出模塊是向消費(fèi)者展示最終的推薦結(jié)果。
4.2.1 數(shù)掘預(yù)處理。原始交易中數(shù)據(jù)包含大量的基本數(shù)據(jù),但這些數(shù)據(jù)必須經(jīng)過清洗、轉(zhuǎn)換、集成等預(yù)處理,只有具備了完整性好、冗余性小等特征的數(shù)據(jù)才具備挖掘價(jià)值。
4.2.2 產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。盡量在經(jīng)過預(yù)處理的事務(wù)集中挖掘關(guān)聯(lián)規(guī)則,并更新規(guī)則庫。
4.2.3 系統(tǒng)推薦。針對消費(fèi)者的歷史購買行為,采用不同的推薦策略。對于發(fā)生過購買行為的消費(fèi)者,找到其歷史交易記錄中的茶葉唯一標(biāo)識(shí)號(hào)并從規(guī)則庫中匹配符合條件的規(guī)則,進(jìn)而向其推薦與之興趣最相關(guān)的—種茶葉;對于未曾有購買行為的用戶,默認(rèn)為推薦TOP-N最受歡迎的茶葉。
4.2.4 動(dòng)態(tài)更新關(guān)聯(lián)規(guī)則庫。用戶的興趣愛好隨著時(shí)間的推移呈現(xiàn)出周期性變化的特征,因而,需要定期根據(jù)銷售數(shù)據(jù)和用戶興趣更新規(guī)則庫,最終實(shí)現(xiàn)動(dòng)態(tài)地把客戶興趣變化反映到推薦結(jié)果中。
茶葉電子商務(wù)推薦系統(tǒng)角色分為系統(tǒng)管理員和普通用戶。其中,系統(tǒng)管理員負(fù)責(zé)更新用戶數(shù)據(jù)庫,負(fù)責(zé)對用戶開放用戶權(quán)限范圍內(nèi)的系統(tǒng)功能。普通用戶可在登錄后查詢購買記錄,并對系統(tǒng)推薦的茶葉進(jìn)行喜好反饋,喜歡表示推薦有效,不喜歡則再下一次推薦中不出現(xiàn)此種茶葉。反饋越多越及時(shí),系統(tǒng)向用戶推薦的精準(zhǔn)率就越高。
茶葉推薦系統(tǒng)一直是解決茶葉信息過載的有效方法之一,是茶葉商家向消費(fèi)者進(jìn)行個(gè)性化推薦,增強(qiáng)消費(fèi)者粘度,提升商家效益的重要途徑。本文對實(shí)施電子商務(wù)推薦系統(tǒng)提升各商業(yè)系統(tǒng)核心競爭力具有一定的參考價(jià)值。