游晉峰
(晉中師范高等??茖W(xué)校 數(shù)理科學(xué)系,山西 晉中 030600)
在零售業(yè)中,會員能持續(xù)不斷地為零售運營商帶來穩(wěn)定的銷售額和利潤,同時為運營商制定策略提供數(shù)據(jù)支持.零售業(yè)通過促銷等活動來吸收新會員,并盡可能地提高會員的忠誠度.而發(fā)展新會員的投入比較大,所以運營商一般會采取措施來維系現(xiàn)有會員,完善畫像描繪,加強精細(xì)化管理,定期推送產(chǎn)品和服務(wù),以期得到更好的發(fā)展.
本文以2018年全國大學(xué)生數(shù)學(xué)建模競賽C題“大型百貨商場會員畫像描繪”為背景,首先對題目所給數(shù)據(jù)觀察和清洗后,對數(shù)據(jù)進行了分析,并在此基礎(chǔ)上建立了基于RFM的商場會員購買力評價模型、基于RFM的客戶促銷參與模型、基于Apriori算法的連帶銷售方案,為大型百貨商場的會員銷售數(shù)據(jù)分析提供了可行的辦法.
題目給出了某大型百貨商場會員的相關(guān)信息,有:會員信息數(shù)據(jù)(194 761條)、近幾年的銷售流水表(1 015 366條)、會員消費明細(xì)表(911 702條)、商品信息表(24 170條).
通過分析發(fā)現(xiàn),所給信息中存在不完整的、含噪聲的數(shù)據(jù),利用Excel中的定位條件功能中的空值選項刪除有空值的記錄,刪除了信息不完整的記錄和信息錯誤的記錄.然后,利用Acess數(shù)據(jù)庫中的查詢功能,通過搜索相同關(guān)鍵字:會員卡號,建立了含有會員卡號、消費產(chǎn)生時間、商品編號、銷售數(shù)量、商品售價、消費金額、商品名稱、此次消費的會員積分、收銀機號、單據(jù)號、柜組編碼、柜組名稱等信息的數(shù)據(jù)表.
對該數(shù)據(jù)表分析發(fā)現(xiàn):
1.隨著年齡的增加,會員的消費次數(shù)、消費總金額、最高消費金額和最低消費金額等數(shù)據(jù)呈泊松分布.出生在1964-1983年之間的人群消費水平較高,年齡在1954-1964,1983-1993年之間的次之,其他年齡段的相對最低,接近于0.說明,年齡在35-54歲的人群相對來說時最具消費潛力人群.
2.女性的各項消費都遠遠高于男性,其中人數(shù)比為3.6∶1,消費總數(shù)量比為7.61,消費總金額比為6.41,消費頻率比為7.81.說明,女性的消費水平遠遠高于男性的消費水平.
3.利用Excel數(shù)據(jù)透視表中的求最值功能,計算出每個會員的最近一次消費時間在2015-01-01~2018-01-03之間.其中,會員的最近一次消費時間指某個會員消費明細(xì)表中會員消費產(chǎn)生的最后一次時間.
4.會員第一次消費的時間在2015-01-01-2018-01-03之間.和會員最近一次消費時間比較,可以知道,每天不僅有新會員的持續(xù)加入,也有老會員的睡眠甚至流失.
5.會員最大的消費次數(shù)為3 303次,最小為1次.其中,消費次數(shù)在1~2的會員數(shù)占總會員的31.15%.消費次數(shù)在100以上的會員數(shù)占總會員數(shù)的1.86%.消費次數(shù)在3-100的會員數(shù)占總會員數(shù)的66.99%,這部分人群可作為重點關(guān)注人群.
6.消費總額約為6億元,人均消費金額為18 642元,單次平均消費水平為1 348.9元.其中:
1)消費金額為負(fù)數(shù)的會員有9人,說明該用戶曾有過退貨行為或參加了積分進行換商品活動.
2)消費金額為0的會員有49人,說明這些用戶是老用戶,不購買新產(chǎn)品,只參加積分兌換活動,或者近一年以內(nèi)沒有進行購物,為流失會員.
3)消費金額在5萬以上的會員占總數(shù)的8.2%.
4)消費金額在0~5萬之間的會員占總?cè)藬?shù)的91.76%.
綜合上述分析,說明該商場的會員消費水平處于中低水平.
根據(jù)上述分析的最近一次消費時間(R)、消費次數(shù)(F)、消費金額(M),建立基于RFM[1]的購買力評價模型.具體步驟如下:
2.1.1 第一步:建立會員購買力的隸屬分類表
首先將R,F,M每個方向定義為高、低兩個擋;然后根據(jù)會員整體的消費情況,找出R,F,M的中值,高于中值就是高,低于中值就是低,這樣就是2×2×2=8種會員分類.
具體如下表1.
表1 會員購買力的隸屬分類表
2.1.2 第二步:提取R,F,M三個維度的數(shù)據(jù)
從數(shù)據(jù)表中提取會員卡號、最近一次消費時間R、消費次數(shù)F、消費金額數(shù)據(jù)M等數(shù)據(jù),建立二維數(shù)據(jù)表格,見表2.由于有32 165條數(shù)據(jù)記錄,此處只截取了前20條記錄進行展示.
表2 部分會員的RFM值
2.1.3 第三步:分析R,F,M的數(shù)據(jù)散點圖,得到它們的分檔標(biāo)準(zhǔn)
首先分別分析R,F,M三個維度的數(shù)據(jù)散點分布,得到了如圖1~3.
然后根據(jù)散點圖得到R,F,M三個數(shù)據(jù)指標(biāo)的分檔區(qū)間標(biāo)準(zhǔn).
圖1 最近一次消費時間R的數(shù)據(jù)散點圖
根據(jù)圖1,按照R值時反向值,即R值越大會員價值越低,將最近一次消費時間R分為如下5個檔:
R=1=[2017-07-17,2018-01-03],R=2=[2016-11-19,2017-07-17],R=3=[2016-03-24,2016-11-19].
R=4=[2015-09-26,2016-03-24],R=5=[2014-11-30,2015-01-01]
說明,圖2是對消費次數(shù)F降序排列后做出的散點圖.
根據(jù)圖2,按照F值時正向值,即F值越大會員價值越高,將消費次數(shù)F分為如下5個檔:F=1=[0,40],F(xiàn)=2=[40,140],F(xiàn)=3=[140,340],F(xiàn)=4=[340,500],F(xiàn)=5=[500,900].
圖2 消費次數(shù)F的數(shù)據(jù)散點圖圖3 消費金額數(shù)據(jù)M的數(shù)據(jù)散點圖
根據(jù)圖3,按照M值時正向值,即M值越大會員價值越高,將消費金額數(shù)據(jù)M分為如下5個檔:M=1=[0,80 000],M=2=[80 000,240 000].
M=3=[240 000,440 000],M=4=[440 000,840 000],M=5=[840 000,1750 000].
2.1.4 第四步:根據(jù)分檔標(biāo)準(zhǔn)計算R,F(xiàn),M的分檔值
具體操作:
在Excel中寫入if語句,然后進行格式填充:
計算R對應(yīng)分檔值的語句為:
E2=if(B2>2014-11-30,5,if(B2>2015-09-26,4,if(B2>2016-03-24,3,if(B2>2016-11-19,2,1)))).
語句解釋:
如果B2大于2014-11-30,則A1會員對應(yīng)的R值=5,否則進入下一個if判斷;
如果B2大于2015-09-26,則A1會員對應(yīng)的R值=4,否則進入下一個if判斷;
如果B2大于2016-03-24,則A1會員對應(yīng)的R值=3,否則進入下一個if判斷;
如果B2大于2016-11-19,則A1會員對應(yīng)的R值=2,否則進入下一個if盤點.
類似地,計算F對應(yīng)分檔值的語句為:
F2= if(C2>500,5,if(C2>340,4,if(C2>140,3,if(C2>40,2,1))))
計算M對應(yīng)分檔值的語句為:
G2==if(D2>840 000,5,if(D2>440 000,4,if(D2>240 000,3,if(D2>80 000,2,1))))
2.1.5 第五步:計算R,F(xiàn),M分檔值的平均值
利用Excel中寫入average(E1∶E32165),average(F1∶F32165),average(G1∶G32165)分別求得R,F(xiàn),M分檔值的平均值,分別為:2016-11-06、13.82、18 642.98.
2.1.6 第六步:將R,F(xiàn),M分檔值與平均值比較,得到R,F(xiàn),M的高低值
將每個會員的R,F(xiàn),M分檔值與平均值比較,高于平均值則標(biāo)記為高,低于平均值則標(biāo)記為低.具體操作語句為:
R高低值的判斷:H2=if(F2<2016-11-06,“低”,“高”);
F高低值的判斷:I2=if(G2<13.82,“低”,“高”);
M高低值的判斷:J2=if(H2<18 642.98,“低”,“高”).
2.1.7 第七步:將每個會員的R,F(xiàn),M值與會員購買力隸屬分類表比較,得出會員所屬類別,得出會員的購買力
K2=if(AND(H2=“高”,I2=“高”,J2=“高”),“重要價值用戶”,
if(AND(H2=“高”,I2=“低”,J2=“高”),“重要發(fā)展用戶”,
if(AND(H2=“低”,I2=“高”,J2=“高”),“重要保持用戶”,
if(AND(H2=“低”,I2=“低”,J2=“高”),“重要挽留用戶”,
if(AND(H2=“高”,I2=“高”,J2=“低”),“一般價值用戶”,
if(AND(H2=“高”,I2=“低”,J2=“低”),“一般發(fā)展用戶”,
if(AND(H2=“低”,I2=“高”,J2=“低”),“一般保持用戶”,“一般挽留用戶”))))))).
為驗證模型的可行性,隨機抽樣選取了20個會員的消費記錄,進行了計算.20個會員的抽樣計算結(jié)果見表3.
表3 根據(jù)分檔標(biāo)準(zhǔn)確定的R,F(xiàn),M的分檔值、高低值及會員所屬類別
根據(jù)陳明亮的研究[2],選取消費金額和利潤兩個變量來表征會員發(fā)展水平.但是基于問題一的分析,發(fā)現(xiàn)會員消費產(chǎn)生的時間dtime分布能更好地反映會員生命周期曲線.
首先,統(tǒng)計出不同會員在2015-01-01~2018-01-03期間的消費次數(shù).
其次,做出其消費時間的散點圖.
最后,利用狀態(tài)曲線圖中點的稠密度判斷會員的狀態(tài).
在上述分析的基礎(chǔ)上,知道會員生命周期分為考察期、形成期、穩(wěn)定期、退化期.而一個生命周期中處于穩(wěn)定期的會員可視為活躍會員,處于其他時期的會員為非活躍會員.這樣,非活躍會員包括普通的消費者、新生會員、即將流失的會員.換句話說,活躍會員為在3個月內(nèi)有消費記錄的會員,除此之外都統(tǒng)稱為非活躍會員.而這些會員中,某些顧客可能不會積極參與促銷活動,如流失會員.故會員若由非活躍狀態(tài)轉(zhuǎn)為活躍狀態(tài),需要積極參與促銷活動.
根據(jù)成希瑤[6]的研究,建立基于RFM的客戶促銷參與模型,將積極參與促銷活動的客戶區(qū)分出來,從而確定非活躍會員的激活率.
具體操作步驟如下:
會員促銷參與得分RS的計算公式為:
RS=Rscore×WR+Fscore×WF+Mscore×WM
其中,Rscore,Fscore,Mscore分別為按照客戶最近一次消費時間、消費頻率、消費金額劃分的等級得分,WR,WF,WM分別這三個指標(biāo)的權(quán)重系數(shù).這三個指標(biāo)的權(quán)重系數(shù)可先利用層次分析法計算出一個理論值,然后通過實際銷售數(shù)據(jù)對其進行調(diào)整和修正.
由此得到,
Step1:分析會員的購買喜好分析會員對不同商品的喜好程度;
Step2:定義喜好程度的閾值;
Step3:由喜好程度向會員推薦相應(yīng)產(chǎn)品.
考慮商品的連帶率[7,8],提出基于Apriori算法的連帶銷售方案制定的辦法,具體如下:
Step1:分析銷售數(shù)據(jù)庫中同一銷售單據(jù)的商品集合;
Step2:統(tǒng)計每種商品集合的支持度計數(shù);
Step3:找出滿足最小支持度計數(shù)的商品集合;
Step4:由集合產(chǎn)生關(guān)聯(lián)規(guī)則;
Step5:計算關(guān)聯(lián)規(guī)則的支持度計數(shù)和置信度;
Step6:找出滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則.
即由此產(chǎn)生的關(guān)聯(lián)規(guī)則即為連帶消費產(chǎn)品,可進行捆綁銷售或適當(dāng)安排擺放增加銷售量.
本文首先分析了會員的消費特征.由于題目數(shù)據(jù)量大,且沒有相應(yīng)的后臺服務(wù)器做支撐,故抽樣選取了部分代表性的數(shù)據(jù),進行了數(shù)據(jù)的分析,并對部分模型進行了驗證.
1)對于2.1.5節(jié)中R,F,M分檔值的平均值計算,還可以考慮二八法則,即20%的會員創(chuàng)造了80%的收益.所以,可以將這個臨界點作為每個會員R,F,M比較的對象.
2)對于題目中的問題2、3、4,本文只給出了模型,并沒有進行驗證.