黃 焯,張維緯
(1.華僑大學(xué) 工學(xué)院,福建 泉州 362021;2.工業(yè)智能化技術(shù)與系統(tǒng)福建省高校工程研究中心,福建 泉州 362021)
關(guān)聯(lián)規(guī)則最早是由Agrawal等[1]于1993年首次針對購物籃分析提出的,以發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則為目的,用規(guī)則來刻畫顧客的購買模式行為,用來指導(dǎo)商家科學(xué)的貨架設(shè)計和進(jìn)行商品組合。
挖掘關(guān)聯(lián)規(guī)則針對的問題,最早出現(xiàn)于超市的數(shù)據(jù),交易可以由顧客購買的項目組成,我們將數(shù)據(jù)看成是二制的(交易中出現(xiàn)為1,否則為0),當(dāng)然是不考慮交易中項目的數(shù)量。針對交易數(shù)據(jù)庫中的頻繁項集,所有大于或等于客戶指定的Smin都需要找出??梢岳妙l繁項集來生成挖掘所需要的關(guān)聯(lián)規(guī)則,并且根據(jù)用戶設(shè)定的Cmin來篩選出強關(guān)聯(lián)規(guī)則。
本文主要說明尋找Smin,找出頻繁集是比較困難的,而有了頻繁集再生成強關(guān)聯(lián)規(guī)則就相對容易了,Apriori算法是找出頻繁集比較經(jīng)典的算法。
在筆者看來,算法的效率才是關(guān)鍵,現(xiàn)階段關(guān)聯(lián)規(guī)則挖掘面臨的主要挑戰(zhàn)是如何有效發(fā)現(xiàn)大項目集,針對此問題,Agrawal提出了Apriori[1-4]算法,Apriori算法是一種可以挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,核心思想是重復(fù)掃描數(shù)據(jù)庫,這樣就可以通過候選集生成和剪枝的向下封閉檢測兩個階段來挖掘頻繁項集。
向日葵農(nóng)場的原身是宜園農(nóng)場,是由幾個80后的大學(xué)老師一起創(chuàng)立的,發(fā)展到2014年與另外一家農(nóng)場合并,改名為向日葵農(nóng)場,筆者于2014年7月份進(jìn)入農(nóng)場,購物籃分析則是筆者進(jìn)入該農(nóng)場實習(xí)的主要任務(wù)。
向日葵農(nóng)場原有的流程為客服與生產(chǎn)者溝通產(chǎn)生菜單,然后客服發(fā)布到群里,由客戶進(jìn)行個人的點菜,客服進(jìn)行記錄,完畢之后進(jìn)行蔬菜的分裝,然后再是運輸?shù)娇蛻舻募依?,最后客服進(jìn)行售后反饋。
向日葵購物籃分析太過被動和粗放,沒有具體根據(jù)于哪方面的原理來進(jìn)行分析,只是簡單的客服售后發(fā)現(xiàn)有哪些產(chǎn)品多了或者少了,然后與生產(chǎn)者溝通后相應(yīng)地減少或增加,但是每次都是發(fā)現(xiàn)多的產(chǎn)品沒有客戶需求,少的產(chǎn)品需求量過大,造成客戶的滿意度下降甚至流失,對銷售數(shù)據(jù)當(dāng)中的產(chǎn)品進(jìn)行多支持度挖掘[5],可以提高主動效益,進(jìn)行更好的溝通生產(chǎn)。
不知不覺,在這一年里面在農(nóng)場里面有過消費記錄的社員已經(jīng)累計了快1 000人,但是活躍的人數(shù)卻一直只有30人左右,有時候會偶爾上升到50人,但是馬上就會下降,很多老顧客都沉寂了,新客戶雖然一直也有增加,但是由于忠誠度不高,變?yōu)槔峡蛻舻霓D(zhuǎn)化率也不是很高,因為這些問題,農(nóng)場一直都是處于虧損的狀態(tài),根據(jù)這些方面的原因,我們提出了基于關(guān)聯(lián)規(guī)則的購物籃分析這一個概念,目的是通過對客戶菜籃子的數(shù)據(jù)進(jìn)行挖掘,找出其中存在關(guān)系的菜品的搭配,進(jìn)行全新的套餐配送,提升客戶滿意度和忠誠度[6]。
因為一直以來都是與客戶打交道,比較了解客戶的需求,后期菜籃子數(shù)據(jù)的錄入也是由自己完成的。根據(jù)筆者的分析,認(rèn)為客戶點菜必然是有著一系列的原因,家庭和喜好這部分原因沒有辦法探究,菜品之間本身存在的某種聯(lián)系才是要探求出來的,紫背天葵&四季豆&秋葵&空心菜這4種菜總是會一起購買的,而且在購買了其中3種的情況下購買另外一種的概率幾乎是100%。于是筆者提出本文的論點,菜與菜之間必然存在著某種必然的聯(lián)系,并且提出一個猜想,紫背天葵&四季豆&秋葵&空心菜存在著某種聯(lián)系,并且在買下其中3種的情況下,購買第4種菜的概率很大,并對此展開論證。
如圖1所示,我們可以發(fā)現(xiàn),菜與菜之間是存在的聯(lián)系的,這幾條規(guī)則也是驗證了這種聯(lián)系的必然存在,紫背天葵、空心菜、四季豆、秋葵這4種菜及玉米、紅莧菜、黃瓜這3種菜,其中四季豆和空心菜驗證了本文前面所提到的關(guān)于這兩樣菜會一起購買的猜想,也論證了論點,所以證明了基于關(guān)聯(lián)規(guī)則的購物籃分析是可以得出結(jié)果的,并且具有一定的可行性,可以運用到實際的生產(chǎn)當(dāng)中,可以將這2種得出來的組合運用到實際的產(chǎn)品推廣當(dāng)中,相信可以提高客戶的滿意度。
圖1 結(jié)果論證
因為數(shù)據(jù)量的關(guān)系,存在著誤差與偶然性,所以結(jié)果在沒有經(jīng)過實踐之前是具有不確定性的,在以后的生活當(dāng)中,將會收集更多的數(shù)據(jù),利用數(shù)據(jù)挖掘來進(jìn)行分析,作為判斷的參考。
[參考文獻(xiàn)]
[1]AGRAWAL R,IMIELINSKE T,SWAMI A.Mining association rules between sets of items in large databases[C].Washington:Proceedings of ACM SIGMOD on Management of Date,1993:207-216.
[2]范明,孟小峰.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]蔡偉杰,張曉輝,朱建秋,等.關(guān)聯(lián)規(guī)則綜述[J].計算機(jī)工程,2001(5):31-33.
[4]AGRAWAL R.Srikant fast algorithms for mining association rules in large databases[J].On Very Large Databases,1994(2):487-499.
[5]PARK J S.CHEN M,YU P S.Using a Hash-based memory with transaction trimming for mining association rule[J].IEEE Transactions on Knowledge and Data Engineering,1997(5):813-825.
[6]LIZHENGNANHUA.Apriori算法詳解之一:相關(guān)概念和核心步驟 [EB/OL].(2013-06-09)[2018-03-20].http://blog.csdn.net/lizhengnanhua/article/details/9061755,2013-06-09.