摘 要:【目的】?jī)?yōu)化因消費(fèi)者需求改變而受到局限的傳統(tǒng)方法?!痉椒ā客ㄟ^(guò)收集沃爾瑪超市兩個(gè)時(shí)段9 835名顧客的消費(fèi)數(shù)據(jù),使用Apriori算法對(duì)數(shù)據(jù)進(jìn)行挖掘和分析,得到3種推薦方法,分別為按商品銷售排名推薦最暢銷的前N件商品、根據(jù)Apriori算法挖掘出的關(guān)聯(lián)規(guī)則進(jìn)行商品捆綁銷售、根據(jù)定義的強(qiáng)關(guān)聯(lián)規(guī)則推薦系數(shù)來(lái)推薦商品?!窘Y(jié)果】在運(yùn)行程序后,發(fā)現(xiàn)后兩種推薦方式挖掘出的關(guān)聯(lián)規(guī)則商品不完全相同,且對(duì)相同關(guān)聯(lián)規(guī)則商品的推薦度不同?!窘Y(jié)論】推薦策略的實(shí)施將提高超市商品的銷售量,有助于滿足顧客的個(gè)性化需求。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;Apriori算法;推薦系數(shù);個(gè)性化推薦
中圖分類號(hào):TP18" " "文獻(xiàn)標(biāo)志碼:A" " 文章編號(hào):1003-5168(2023)13-0032-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2023.13.006
Research on Personalized Recommendation of Supermarket
Shopping Based on Association Rules
WAN Zhenqi YANG Jiaxian LI Xueting LIU Yeqing
(School of Mathematics and Statistics, Henan University of Science and Technology, Luoyang 471000,China)
Abstract:[Purposes] The aim of this paper is to optimize traditional methods that are limited by changes in consumer demand. [Methods] By collecting the consumption data of 9 835 customers in Wal-Mart supermarket in two periods, Apriori algorithm was used to mine and analyze the data, and three recommendation methods were obtained, which were recommending the best-selling top N items according to the sales ranking of goods, bundling goods according to the association rules mined by Apriori algorithm, and recommending goods according to the defined strong association rule recommendation coefficient.[Findings] After running the program, it is found that the association rule products mined by the latter two recommendation methods are not exactly the same, and the recommendation degree of the same association rule products is different. [Conclusions] The implementation of the recommendation strategy will increase the sales of supermarket goods and help to meet the personalized needs of customers.
Keywords: association rules; Apriori algorithm; recommendation coefficient; personalized recommendation
0 引言
近年來(lái),隨著人們的生活水平的不斷提高,對(duì)商品的消費(fèi)偏好也逐漸發(fā)生變化,然而超市的售賣方案缺乏針對(duì)性。為提高超市銷量,有必要對(duì)超市的個(gè)性化營(yíng)銷策略不斷創(chuàng)新[1]。超市營(yíng)銷策略的重點(diǎn)是掌握消費(fèi)者購(gòu)買行為的變化規(guī)律,從而適應(yīng)消費(fèi)者的個(gè)性化需求。本研究通過(guò)關(guān)聯(lián)分析算法來(lái)處理沃爾瑪超市的銷售數(shù)據(jù),找出其中隱藏的關(guān)聯(lián)規(guī)則,從而對(duì)超市的售賣方案進(jìn)行改進(jìn),為顧客提供更方便、快捷的個(gè)性化推薦服務(wù)。
1 研究背景
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)重要應(yīng)用,是Agrawal等[2]于1993年首次提出的,用于挖掘顧客交易數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)規(guī)則。Agrawal等[3]又于1994年提出基于關(guān)聯(lián)規(guī)則的Apriori算法。隨著眾多研究者對(duì)關(guān)聯(lián)規(guī)則挖掘問(wèn)題的研究,更高效率的算法也被相繼提出,如FP-Growth算法等。與國(guó)外相比,中國(guó)對(duì)數(shù)據(jù)挖掘算法的研究起步較晚,馮玉才等[4]于1998年提出關(guān)聯(lián)規(guī)則的增量式更新算法;黃傳明[5]以DHP算法為基礎(chǔ),提出一種基于散列函數(shù)和冗雜事務(wù)壓縮的TFDHP算法;陸建江等[6]考慮數(shù)據(jù)間存在模糊關(guān)系,為拓寬關(guān)聯(lián)規(guī)則的使用范圍,從而提出一種基于模糊的關(guān)聯(lián)規(guī)則并行算法。隨著新算法的提出及應(yīng)用,基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦也越來(lái)越完善。
2 推薦系數(shù)
2.1 理論基礎(chǔ)
在超市銷售數(shù)據(jù)中,顧客購(gòu)買一件商品為一項(xiàng),包含零個(gè)或多個(gè)項(xiàng)的集合為項(xiàng)集。假設(shè)A是由商品構(gòu)成的集合,如果項(xiàng)集A中包含k件商品,則稱其為k項(xiàng)集[7]。其中,項(xiàng)集支持度是指數(shù)據(jù)集中包含該項(xiàng)集的數(shù)據(jù)所占比例;頻繁項(xiàng)集是指支持度大于或等于最小支持度閾值的項(xiàng)集;關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,X和Y分別為關(guān)聯(lián)規(guī)則的前項(xiàng)和后項(xiàng) 。關(guān)聯(lián)規(guī)則常用支持度和置信度進(jìn)行衡量。
關(guān)聯(lián)規(guī)則的支持度是指同時(shí)包含M和H事務(wù)占所有事務(wù)的比例[8],見式(1)。
support(M→H)=P(M?H) (1)
關(guān)聯(lián)規(guī)則的置信度是指包含M事務(wù)(商品)中同時(shí)包含H事務(wù)(商品)的比例,即同時(shí)包含M和H的事務(wù)(商品)占包含M事務(wù)的比例[9],見式(2)。
Confidence(M→H)=P(M|H) (2)
從概率角度來(lái)看,支持度能反映出一組商品被選擇的概率,置信度可用于判斷用戶最有可能選擇哪些商品組合,即顧客在選擇M商品的條件下也選擇H商品的概率。
強(qiáng)關(guān)聯(lián)規(guī)則。如果定義了一個(gè)關(guān)聯(lián)規(guī)則的最小支持度和最小置信度,當(dāng)某一規(guī)則的兩個(gè)指標(biāo)都大于或等于最低要求時(shí),則形成強(qiáng)關(guān)聯(lián)規(guī)則[8]。
2.2 推薦系數(shù)定義
雖然關(guān)聯(lián)規(guī)則算法在一定程度上能建立個(gè)性化推薦模型,但其也存在著缺陷。若推薦模式是一種靜態(tài)方式,在進(jìn)行一次關(guān)聯(lián)規(guī)則挖掘后,便會(huì)永久使用[9]。這種靜態(tài)推薦模式并不適合如今大型超市的發(fā)展,其在短時(shí)間內(nèi)推出的商品購(gòu)買效果可能會(huì)很好,但隨著消費(fèi)者興趣的轉(zhuǎn)移,這種模式得到的推薦結(jié)果就會(huì)與實(shí)際情況產(chǎn)生偏差。因此,本研究通過(guò)引入動(dòng)態(tài)推薦系數(shù)來(lái)對(duì)挖掘出的關(guān)聯(lián)結(jié)果進(jìn)行推薦。
將兩批次的消費(fèi)者購(gòu)買數(shù)據(jù)記為[FriD]、[SecD],關(guān)聯(lián)規(guī)則置信度記為[FConfidence]、[SConfidence],兩批數(shù)據(jù)挖掘出的關(guān)聯(lián)規(guī)則分別記為[FRuleSet]、[SRuleSet]。找出在兩個(gè)商品數(shù)據(jù)集中都出現(xiàn)的關(guān)聯(lián)規(guī)則,并比較其置信度。由于置信度自身存在局限,可能會(huì)錯(cuò)估某個(gè)關(guān)聯(lián)規(guī)則的重要性。為解決這個(gè)問(wèn)題,同時(shí)實(shí)現(xiàn)動(dòng)態(tài)推薦,該規(guī)則的推薦系數(shù)r表達(dá)見式(3)。
r=SConfidence/FConfidence (3)
式中:r為一個(gè)由置信度之比得到的動(dòng)態(tài)系數(shù),其反映所有因素(包括季節(jié)和氣候等的改變、售賣價(jià)格和消費(fèi)觀念等)變化對(duì)消費(fèi)者購(gòu)買行為的影響。由這些因素引起的顧客消費(fèi)行為變化被統(tǒng)稱為顧客對(duì)商品的興趣度發(fā)生變化。
當(dāng)r是關(guān)聯(lián)規(guī)則所蘊(yùn)含商品組合的推薦系數(shù)時(shí),r的取值范圍為rgt;0。當(dāng)0lt;rlt;1時(shí),說(shuō)明顧客近期對(duì)該商品組合的興趣度有所下降;當(dāng)r=1時(shí),說(shuō)明顧客對(duì)該商品組合的興趣度與之前相同;當(dāng)rgt;1時(shí),說(shuō)明顧客近期對(duì)該商品組合的興趣度有所提升。
根據(jù)每個(gè)地方超市營(yíng)業(yè)情況的不同,選擇合適的時(shí)間間隔,設(shè)定從現(xiàn)在開始,在一個(gè)時(shí)間段內(nèi),超市商品銷售情況有一定變化,統(tǒng)計(jì)當(dāng)下超市的銷售數(shù)據(jù),觀察各個(gè)商品的銷量較一開始有哪些變化,并分析商品之間的關(guān)系是否也隨之改變。以此類推,每經(jīng)過(guò)相同時(shí)間間隔就分析超市在這個(gè)時(shí)間段內(nèi)銷售的變化情況,從而總結(jié)出關(guān)于推薦系數(shù)r的變化規(guī)律。
3 推薦方式對(duì)比分析
試驗(yàn)數(shù)據(jù)為沃爾瑪超市兩個(gè)時(shí)段9 835名顧客的購(gòu)物籃數(shù)據(jù),共有43 367個(gè)觀測(cè)值。使用spyder軟件對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)探索性分析和預(yù)處理,通過(guò)Apriori算法對(duì)數(shù)據(jù)進(jìn)行挖掘和分析,得到數(shù)據(jù)的關(guān)聯(lián)結(jié)果。根據(jù)實(shí)際情況選取支持度計(jì)數(shù)最小閾值為40、置信度最小閾值為0.5。在推薦方式上,本研究選用3種推薦方法進(jìn)行推薦。
第一種方法是基于支持度計(jì)數(shù)來(lái)找出最暢銷的前N種商品,并將其推薦給新顧客,先選取10件最暢銷的商品,得到的結(jié)果見表1。
第二種方法是通過(guò)挖掘商品的強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行推薦,找出在兩個(gè)數(shù)據(jù)集中同時(shí)出現(xiàn)的強(qiáng)關(guān)聯(lián)規(guī)則,按照所得到的結(jié)果來(lái)設(shè)置商品組合,并向顧客進(jìn)行出售,結(jié)果見表2。
第三種方法是按照本研究定義的推薦系數(shù)大小來(lái)設(shè)置商品組合并進(jìn)行推薦。計(jì)算出表2中關(guān)聯(lián)規(guī)則的推薦系數(shù),并進(jìn)行排序,結(jié)果見表3。
對(duì)最暢銷的商品和根據(jù)商品間的強(qiáng)關(guān)聯(lián)性進(jìn)行推薦的兩種方式進(jìn)行比較。當(dāng)顧客在超市暫未消費(fèi)時(shí),選擇第一種推薦方式,即向顧客推薦銷量最高的商品。假設(shè)顧客S還未購(gòu)買任何商品,銷售人員先向顧客S推薦全脂牛奶和其他蔬菜等最暢銷的物品;當(dāng)顧客已購(gòu)買部分商品時(shí),觀察顧客在超市已購(gòu)買的商品,將與這些商品相關(guān)聯(lián)的其他物品推薦給顧客。假設(shè)顧客S已購(gòu)買酸奶和黃油,銷售人員就可向其推薦全脂牛奶。商品間的關(guān)聯(lián)性很重要,關(guān)聯(lián)性越大的商品,擺放或推薦時(shí)就更要放在一起。通過(guò)關(guān)聯(lián)銷售(捆綁銷售)可提高商品的銷量,在滿足消費(fèi)者購(gòu)買需求的同時(shí),節(jié)約消費(fèi)者時(shí)間。
通過(guò)推薦系數(shù)的商品推薦方式是對(duì)商品間的強(qiáng)關(guān)聯(lián)性進(jìn)一步優(yōu)化。推薦系數(shù)是通過(guò)兩個(gè)數(shù)據(jù)集的置信度之比計(jì)算得到的。消費(fèi)者購(gòu)買興趣的改變會(huì)導(dǎo)致商品間的關(guān)聯(lián)性發(fā)生變化,而推薦系數(shù)能幫助超市判斷商品間強(qiáng)關(guān)聯(lián)性的變化情況。超市在掌握不同商品間關(guān)聯(lián)性的變動(dòng)情況后,會(huì)及時(shí)調(diào)整售賣方案,對(duì)推薦系數(shù)變大的商品組合給予更多、更好的活動(dòng)支持,對(duì)推薦系數(shù)變小的商品組合不再完全捆綁銷售。超市營(yíng)銷策略的不斷調(diào)整實(shí)現(xiàn)了對(duì)商品的靈活推薦。
4 結(jié)語(yǔ)
本研究基于關(guān)聯(lián)規(guī)則對(duì)超市商品提出3種進(jìn)行個(gè)性化推薦的方法,一是對(duì)新顧客按照最暢銷的商品排名進(jìn)行推薦;二是對(duì)已經(jīng)購(gòu)買部分商品的顧客,按挖掘出的關(guān)聯(lián)規(guī)則,根據(jù)商品間的關(guān)系進(jìn)行推薦;三是當(dāng)消費(fèi)者購(gòu)買興趣發(fā)生變化時(shí),根據(jù)定義的推薦系數(shù)進(jìn)行推薦。推薦系數(shù)反映出消費(fèi)者購(gòu)買興趣的變化情況,能幫助超市提供更好的個(gè)性化推薦。以上3種個(gè)性化推薦策略為超市實(shí)行個(gè)性化營(yíng)銷提供參考依據(jù),有助于改善超市發(fā)展現(xiàn)狀,增強(qiáng)其競(jìng)爭(zhēng)力。
參考文獻(xiàn):
[1]肖同林.基于關(guān)聯(lián)規(guī)則的超市營(yíng)銷策略研究[J].今日中國(guó)論壇,2013(11):53-54.
[2] AGRAWAL R.Mining association rules between sets of items in large databases[C]//Acm Sigmod International Conference on Management of Data. ACM,1993:207-216.
[3]AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C]// Proceedings of the 20th International Conference on Very Large Data Bases.IEEE,1994:487-499.
[4]馮玉才,馮劍琳.關(guān)聯(lián)規(guī)則的增量式更新算法[J].軟件學(xué)報(bào),1998(4):62-67.
[5]黃傳明.一種基于散列技術(shù)和事務(wù)壓縮的關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)工程,2003(22):117-118.
[6]陸建江,徐寶文,鄒曉峰,等.模糊關(guān)聯(lián)規(guī)則的并行挖掘算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(2):165-170.
[7]王旭,劉明剛.關(guān)聯(lián)規(guī)則研究[J].經(jīng)濟(jì)研究導(dǎo)刊,2010(11):198-199.
[8]劉俊,劉希玉.基于廣義離散Morse理論的強(qiáng)關(guān)聯(lián)規(guī)則挖掘[J].計(jì)算機(jī)工程,2011(16):45-47.
[9]馬仲兵.基于關(guān)聯(lián)規(guī)則的高校圖書館個(gè)性化推薦模型[J].新世紀(jì)圖書館,2013(7):42-44.