莊艷芬,古路強(qiáng),張鈺莎
(廣東外語外貿(mào)大學(xué)南國商學(xué)院,廣州 510545)
數(shù)據(jù)挖掘在校園超市銷售中的應(yīng)用研究
莊艷芬,古路強(qiáng),張鈺莎
(廣東外語外貿(mào)大學(xué)南國商學(xué)院,廣州 510545)
校園超市是人流較為密集的場所,為了便于管理者更好地管理以及決策,并提高校園超市的銷售效率,基于Apriori算法對校園超市數(shù)據(jù)進(jìn)行分析,得出相應(yīng)的關(guān)聯(lián)規(guī)則及營銷策略。
數(shù)據(jù)分析;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;營銷策略
對于一般的校園超市而言,商品幾乎都是按其類別進(jìn)行布局?jǐn)[放。而這種布局設(shè)計往往是不科學(xué)的,會讓消費者花大量的時間進(jìn)行搜索自己所需的商品。在現(xiàn)今競爭如此激烈的環(huán)境下,若不能為消費者提供更便捷,優(yōu)質(zhì)的服務(wù),那么校園超市必然呈現(xiàn)下跌的趨勢。然而,校園超市又如何能在較短的時間內(nèi),為消費者提供更便捷,優(yōu)質(zhì)的服務(wù)?目前,我校超市采用了自動化管理系統(tǒng),在后臺的數(shù)據(jù)庫中有每日的銷售數(shù)據(jù),在如此龐大的銷售數(shù)據(jù)中,難以發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)性。如今,我們可以通過數(shù)據(jù)挖掘在超市中的應(yīng)用,挖掘出商品之間隱含的關(guān)聯(lián)性。為校園超市的管理者提供更好的營銷策略和商品的布局?jǐn)[放。
本次實驗數(shù)據(jù)選取廣東外語外貿(mào)大學(xué)南國商學(xué)院聯(lián)合一百超市2014年11月23日至2015年12月6日的銷售數(shù)據(jù)。數(shù)據(jù)總量為1402132條,并對銷售數(shù)據(jù)中的缺失值和噪聲數(shù)據(jù)進(jìn)行簡單的預(yù)處理[1]。銷售數(shù)據(jù)以月份為單位存儲在Excel表格中,利用Excel表格工具可匯總出2015年中12個月份的銷售基本情況表。
從圖1,可以看出3月份到7月份(為一學(xué)期)的銷售數(shù)據(jù)中,3月份的銷售數(shù)量最大,9月份到12月份(為一學(xué)期)的銷售數(shù)據(jù)中,9月份以及11月份的銷售數(shù)據(jù)最大,之后總體水平呈下跌的趨勢??赡苡捎?月份以及9月份是開學(xué)季,需要購買日常的生活用品,導(dǎo)致銷售數(shù)量上升。
從圖2,可以看出每日的11:00-13:00及17:00-19:00中,銷量較大,這與我校學(xué)生的作息相吻合。根據(jù)上述統(tǒng)計結(jié)果,我們可以為校園超市提供相應(yīng)的意見,可以對超市人手分配進(jìn)行相應(yīng)的調(diào)整。
2.1 校園超市數(shù)據(jù)預(yù)處理
從校園超市中獲取11種類別的商品表,將商品表細(xì)分成103種類別的商品表。根據(jù)超市數(shù)據(jù)的基本分析,我們挑選出3月份中時間段為11:30到12:30,獲取6069條數(shù)據(jù)。再挑選出11月份中時間段為:17:00 到19:00,獲取5985條數(shù)據(jù)(表6)。并對數(shù)據(jù)進(jìn)一步的處理以及篩選,得出了較為干凈,規(guī)范的訓(xùn)練集。
通過Access數(shù)據(jù)庫進(jìn)行篩選出同一個事務(wù)中至少出現(xiàn)兩件商品,用下面語句挑選出數(shù)據(jù):
SELECT cid,[sname]
FROM Sheet1
WHERE cid in(Select cid from Sheet1 group by cid hav-ing count(cid)>=2);
并通過下列VS2010語句進(jìn)行數(shù)據(jù)合并,3月份共有共有1523個事務(wù),11月份共有1479個事務(wù)。
圖1 按月銷售基本情況表
圖2 按時間銷售基本情況表
2.2 基于APriori算法,計算3月份及11月份的關(guān)聯(lián)規(guī)則
(1)關(guān)聯(lián)規(guī)則中的基本概念[2]:
①項集:指數(shù)據(jù)項的集合。包含k個數(shù)據(jù)項的項集稱為k-項集。
②支持度計數(shù):指整個事務(wù)數(shù)據(jù)集中包含該項集的事務(wù)數(shù)。
③支持度:可表示為support(A,B)=P(A∪B)=δ (A∪B)/N,其中N是事務(wù)數(shù)據(jù)庫的大小,δ(A∪B)表示包含項A和B的事務(wù)在事務(wù)數(shù)據(jù)庫中出現(xiàn)的次數(shù)。即事務(wù)數(shù)據(jù)庫D中包含項A和B的事務(wù)占所有事務(wù)的百分比。
④置信度:指在項A出現(xiàn)的情況下,項B出現(xiàn)的概率,即事務(wù)數(shù)據(jù)庫D中同時包含項A和B的事務(wù)占A的事務(wù)的百分比,可表示為:confindence(A,B)=P(B| A)=δ(A∪B)/δ(A)。
⑤強(qiáng)關(guān)聯(lián)規(guī)則和頻繁項集:根據(jù)用戶預(yù)先定義的支持度和置信度閾值,支持度不小于最小支持度閾值并且置信度不小于最小置信度閾值的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,對于支持度不小于最小支持度閾值的項集,我們稱為頻繁項集。
(2)Apriori算法的性質(zhì):
①若X是頻繁項集,則X的所有子集都是頻繁項集。
②若X是非頻繁項集,則X的所有超集都是非頻繁項集。
Apriori算法關(guān)聯(lián)規(guī)則的產(chǎn)生:一般的關(guān)聯(lián)規(guī)則的產(chǎn)生,對于大型的事務(wù)數(shù)據(jù)庫將導(dǎo)致巨大的計算開銷。通常,采用剪枝技術(shù)在規(guī)則產(chǎn)生的過程中減少頻繁項集。
候選規(guī)則的產(chǎn)生:由k-項后件的規(guī)則生成(k+1)-項后件的候選規(guī)則。
候選規(guī)則前剪枝:對每個(k+1)-項候選規(guī)則,若其具有小于最小置信度閾值的k-項后件規(guī)則的子集,則刪除該候選規(guī)則。
(3)關(guān)聯(lián)規(guī)則挖掘[3]:
通過采用Apriori算法設(shè)置其支持度為:2.83%。置信度為:20%。
可得以下1-項集,對候選項集進(jìn)行前剪枝,列出所有候選2-項集,并通過access數(shù)據(jù)庫對相應(yīng)的2-項集進(jìn)行支持度計數(shù)的匯總。
根據(jù)不小于最小支持度的為頻繁2-項集,根據(jù)Apriori算法中頻繁項集產(chǎn)生方法:生成候選3-項集{TC、GB、NC},但由于該三項集的子集{GB、KB}不在頻繁2-項集中,故刪除。
保留以下頻繁2-項集:{TC、GB}、{TC、NC}、{GB、KB}、{FL、HD},根據(jù)Apriori算法關(guān)聯(lián)規(guī)則的產(chǎn)生:
{TC、GB}:由規(guī)則TC=>GB的置信度:confindence (TC、GB)=P(GB|TC)=δ(GB∪TC)/δ(TC)=62/578≈10.72%
由規(guī)則GB=>TC的置信度:confindence(GB、TC)= P(TC|GB)=δ(GB∪TC)/δ(GB)=62/293≈21.16%.
由規(guī)則NC=>TC的置信度:confindence(NC、TC)= P(TC|NC)=δ(NC∪TC)/δ(NC)=52/166≈31.3%.
{GB、KB}:由規(guī)則GB=>KB的置信度:confindence (GB、KB)=P(GB|KB)=δ(GB∪KB)/δ(GB)=47/293≈16.04%
由規(guī)則KB=>GB的置信度:confindence(KB、GB)=P(KB|GB)=δ(GB∪KB)/δ(KB)=47/196≈24%.
{FL、HD}:由規(guī)則FL=>HD的置信度:confindence (FL、HD)=P(FL|HD)=δ(FL∪HD)/δ(FL)=43/152≈28.3%.
由規(guī)則HD=>FL的置信度:
confindence(HD、FL)=P(HD|FL)=δ(FL∪HD)/δ (HD)=43/124≈34.7%.
刪除置信度小于20%的規(guī)則,則可以得出以下關(guān)聯(lián)規(guī)則:GB=>TC,NC=>TC,KB=>GB,F(xiàn)L=>HD,HD=>FL。同理可得出11月份銷售數(shù)據(jù)的關(guān)聯(lián)規(guī)則。
表1 3月份關(guān)聯(lián)規(guī)則結(jié)果
從3月份以及11月份的頻繁項集,可以看出水果、牛奶、面包、飲料銷售量的是最大的。超市銷售主要是以日常食品為主。我們可以對已經(jīng)獲取到的關(guān)聯(lián)規(guī)則,進(jìn)行捆綁銷售模式,也可以對超市的布局進(jìn)行調(diào)整。銷售量較大的商品,通過制定一些營銷手段,可以帶動同一類但銷售量差的產(chǎn)品。進(jìn)而可以減輕銷售量差的庫存量。
表2 7月份關(guān)聯(lián)規(guī)則結(jié)果
在現(xiàn)今市場競爭如此激烈的環(huán)境下,校園超市不僅僅是為學(xué)生提供商品,而是應(yīng)該制定出更好的營銷策略,為學(xué)生提供更便捷,優(yōu)質(zhì)的服務(wù)。通過超市銷售的歷史數(shù)據(jù)進(jìn)行挖掘整理,為校園超市管理者提供更好的決策,進(jìn)一步提高校園超市銷售效率以及服務(wù)水平。
[1]張鈺莎.數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用研究[J].廊坊師范學(xué)院學(xué)報,2015.7:32-35.
[2]蔣盛益.商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析[M].北京.電子工業(yè)出版,2014.1:104-109.
[3]張鈺莎.數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評估中的應(yīng)用研究.暨南大學(xué)[D],2012.6.
Application of Data Mining in Campus Supermarkets
ZHUANG Yan-feng,GU Lu-qiang,ZHANG Yu-sha
(Guangdong University of Foreign Studies South China Business College,Guangzhou 510545)
The campus supermarket is stream of people more populated places,to facilitate the manager better management and decision-making,and improve the efficiency of the campus supermarket sales.Based on the Apriori algorithm,analyzes the campus supermarket data,draws the corresponding association rules,and marketing strategies.
Data Analysis;Data Mining;Association Rules;Marketing Strategy
廣東省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目(No.201512620039)
1007-1423(2016)21-0029-03
10.3969/j.issn.1007-1423.2016.21.006
莊艷芬(1995-),女,廣東陸豐人,研究方向為數(shù)據(jù)挖掘
張鈺莎(1982-),女,山西晉城人,碩士,副教授,研究方向為數(shù)據(jù)挖掘,E-mail:zys1982xx@163.com
2016-04-27
2016-07-15
古路強(qiáng)(1992-),男,廣東韶關(guān)人,研究方向為數(shù)據(jù)挖掘