李為康,楊小兵
(中國計量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
近些年,消費者的消費模式受到了電子商務(wù)的極大影響。根據(jù)最新資料[1]顯示,進入21世紀以來,我國互聯(lián)網(wǎng)普及率達到了57.7%,網(wǎng)民數(shù)量已經(jīng)增漲到了8億多人,其中網(wǎng)購客戶規(guī)模達到近6億。面對如此大的市場,網(wǎng)購平臺的商家們對于如何挽留優(yōu)質(zhì)客戶絞盡腦汁,其中客戶細分的研究慢慢地成為了焦點[2]。相比于電子商務(wù)這種新興產(chǎn)業(yè),目前在傳統(tǒng)行業(yè)內(nèi)利用數(shù)據(jù)挖掘進行客戶細分的手段已經(jīng)屢見不鮮。
由于電商平臺的發(fā)展以及消費者網(wǎng)購要求的日益提高,“客對客(C2C)”的零售網(wǎng)店模式受到了“商對客(B2C)”模式發(fā)展的沖擊。電商平臺的商家之間原本存在的競爭關(guān)系又因此變得更加激烈,但電子商務(wù)存在一個普遍的現(xiàn)象,那就是重營銷不重維護。例如淘寶網(wǎng)的高價值客戶平均轉(zhuǎn)化率不足1%,這遠不及傳統(tǒng)企業(yè)的客戶回頭率[3]。想要通過增加回頭率來維系不同價值的客戶那就需要合適的方法從而提高利潤。
如何從已有的網(wǎng)店銷售數(shù)據(jù)中正確篩選并劃分出不同消費水準的消費者,再對這些消費者劃分等級提供針對性的維護方案是網(wǎng)店商家們關(guān)注的重點。文獻[4]提出將同時具有高近度、高頻率和高消費價值的客戶定義為高價值客戶,而根據(jù)GREENBERG總結(jié)[5]通過使用RFM(Recency,F(xiàn)renquency,Monetary)模型[6-10]估計客戶價值能有效提高現(xiàn)有客戶的價值轉(zhuǎn)換率,增加盈利。
客戶細分[11]是將不同屬性特征的客戶細分出來再劃分為特定的類別,是有效識別客戶價值的重要工具,它能幫助網(wǎng)店商家針對不同價值類別的客戶制定個性化的營銷策略。本文運用亞馬遜網(wǎng)站提供的網(wǎng)店公開數(shù)據(jù)建立基于RFM模型的RVMF(Average Recency,Average Views,Average Monetary,F(xiàn)requency)模型,實現(xiàn)客戶細分并提升準確度。再根據(jù)實驗的得到的細分結(jié)果來分析各價值類的用戶,提供簡單的客戶維護策略。
目前客戶細分的主要細分方法有三種:ABC方法(Activity Based Classification,分類庫存控制法方法),CLV方法(Customer Lifetime Value,用戶終身價值方法),RFM方法。
1)ABC方法
ABC方法可以被用作識別用戶價值的一種方法。通過分析用戶的貢獻、收入、品牌貢獻等基本資料,定位出目標客戶中價值最高的一部分客戶。
2)CLV方法
CLV方法的核心思想是利用每個消費者在商家預(yù)期內(nèi)會帶來的收益期望來對客戶進行評級,每一個消費者的級別構(gòu)成都參考了該消費者的未來、當前和過去三大價值。
3)RFM方法
RFM方法是基于客戶消費數(shù)據(jù)的一種細分方法,該方法通過客戶的消費數(shù)據(jù)獲取用戶的近期消費的時間點、不同時間點間隔內(nèi)的消費頻率以及相應(yīng)時間點間隔內(nèi)的消費總額來建立RFM模型從而劃分客戶的價值等級。RFM方法強調(diào)以消費者的行為來區(qū)分消費者價值等級,而CLV和ABC方法著重在對于消費者貢獻度的分析,所以RFM方法能指導(dǎo)的范圍比前兩者要廣很多。
上述的三種方法在一般的情況下都有著各自的適用環(huán)境,ABC方法需要對客戶進行主次的區(qū)分,但對于具體的區(qū)分方法沒有一個明確的界定,而且在實際情況下,會出現(xiàn)成本分配不合理,導(dǎo)致成本比重不大但相對更加重要的對象被遺漏的情況。CLV方法需要足夠多的數(shù)據(jù)來給一個客戶評估價值,這對獲取的數(shù)據(jù)有很高的要求,且它是根據(jù)客戶曾經(jīng)的消費模式或統(tǒng)計學(xué)特征來預(yù)測客戶未來的行為和消費能力,這明顯不能清晰地反映出客戶價值的走向。
相較而言,在傳統(tǒng)實體零售業(yè)被廣泛運用的RFM方法,在強大的互聯(lián)網(wǎng)技術(shù)的支持下,能夠簡單地獲取數(shù)據(jù)量龐大的客戶詳細交易信息。對于網(wǎng)店來說,RFM是最適用的客戶細分方法,不過由于其中F和M兩個屬性存在強線性關(guān)系,而且無法利用商品瀏覽量這一個網(wǎng)店的重要指標,最后劃分客戶時模型三種屬性權(quán)重一樣還會影響最終客戶價值預(yù)測的準確性。所以,本文針對電商網(wǎng)店提出了一種改進的RFM模型——RVMF模型。
準確的模型能夠提升實驗效果[7]。文獻[9]中提出了一種改進RFM模型,但是無法適應(yīng)電商網(wǎng)店客戶量大、消費數(shù)據(jù)量大、數(shù)據(jù)來源覆蓋面廣的特點,忽略了R屬性隨機性大導(dǎo)致老客戶無法被準確劃分的問題,且F和M屬性共線性較強的因素也被忽略。本文針對電商網(wǎng)店的客戶特點對RFM模型進行適用性改進,將原本三個屬性R、F、M,改善并擴展為AR、AV、AM、F四個屬性,將客戶對商品的瀏覽量這一電商客戶特點作為主要參考因素之一,其中AR表示消費者一定時間內(nèi)的平均訂單交易時間間隔,AV表示消費者一定時間內(nèi)的平均店鋪商品瀏覽量,AM表示消費者一定時間內(nèi)平均單次下單的消費金額,F(xiàn)表示消費者在一定時間內(nèi)的下單次數(shù),并將改進前后的模型屬性作了比較,如表1。
表1 RFM與RVMF的屬性對比Table 1 Attributes' comparison between RFM and RVMF
根據(jù)表1可以看出RVMF模型各個屬性是根據(jù)網(wǎng)店訂單數(shù)據(jù)重新生成的新特征,根據(jù)這些屬性可以獲得不同考察維度下消費者的消費行為數(shù)據(jù),比如基于不同價位同種類型商品瀏覽量得出客戶最感興趣的商品種類或者基于相同價位的不同種類商品得出店鋪客戶的喜好,這些消費行為數(shù)據(jù)都能夠被電商采用來預(yù)測客戶價值。RVMF模型通過設(shè)置在單個消費時間間隔點內(nèi)的條件消除了RFM模型中F屬性與M屬性之間的共線性問題,并通過平均時間內(nèi)的訂單間隔克服了RFM模型中R指標隨機性較大的缺陷,對于交易頻次較高的老客戶,平均訂單交易時間間隔更具有代表性。由于加入了店鋪商品瀏覽數(shù)量,還提高了模型的可靠性以及對于客戶價值預(yù)測的可信度。
一般認為RFM模型在衡量一個問題時權(quán)重應(yīng)該一致所以三個屬性R、F、M一般被賦予相同的權(quán)重。但對于實際情況應(yīng)該具體問題具體分析,比如根據(jù)客戶信用卡信息相關(guān)的研究,結(jié)合銀行這一特殊性應(yīng)該認為模型中F屬性最重要,其次是R屬性最后是M屬性。文獻[9]中也給出了針對傳統(tǒng)零售企業(yè)客戶的具體加權(quán)方案。本文認為針對不一樣的行業(yè)領(lǐng)域每一個屬性的權(quán)重應(yīng)該也應(yīng)有所不同,相對于傳統(tǒng)企業(yè),電商平臺能夠更輕松地獲取到客戶具體的瀏覽數(shù)據(jù)、消費細節(jié)。
對于權(quán)重的確定應(yīng)該使用一個定量的方法,所以實驗中通過運用簡潔實用且有機結(jié)合了“量”與“性”的層次分析法來確定RVMF模型的屬性權(quán)重。而且層次分析法適合追求理解問題本質(zhì)與要素的研究內(nèi)容,它更注重更多的是定量的處理,同等情況下對相應(yīng)數(shù)據(jù)的需求也更少,將層次分析法運用在RVMF模型的流程如圖1。
圖1 層次分析法流程Figure 1 Analytic hierarchy process
圖中
(1)
(2)
式(1)中,λmax是圖1中建立的三維矩陣T的最大特征值,而n則是三維矩陣在運算時的階數(shù),RI的部分對照如表2。
表2 一致性指標Table 2 Consistency index
假設(shè)計算權(quán)重得到:WR=0.1,WV=0.2,WM=0.3,WF=0.4,那么認為消費者的消費金額是衡量客戶價值的重要因素?;谶@樣對屬性權(quán)重的判斷,可以得到客戶價值是模型各個屬性與其對應(yīng)權(quán)重的乘積的和:
RVMF=WR*R+WV*V+WM*M+WF*F。
(3)
本文使用的數(shù)據(jù)樣本來源于一個全球性的大型電商平臺,該數(shù)據(jù)集中包含了超過5萬條全球1 600位以上的不同客戶從2011年至2015年中的消費數(shù)據(jù),并且包含平臺自身標記的客戶價值標簽。因為最終目的是客戶細分所以僅選擇B2C領(lǐng)域的消費者以及數(shù)據(jù)量最多的平臺用戶本土區(qū)域的消費數(shù)據(jù)來去除潛在的人口偏差[12]。從數(shù)據(jù)中統(tǒng)計出每個消費者最近一次的下單時間與分析時間點(2015年11月31日)的時間間隔,時間間隔內(nèi)有效的下單次數(shù)還有每個消費者的消費總金額。統(tǒng)計的樣本數(shù)據(jù)示例如圖2,其中,Sales是時間間隔內(nèi)有效的下單次數(shù)還有每個消費者的消費總金額,Views是時間間隔內(nèi)有效的店鋪商品瀏覽量。
圖2 樣本數(shù)據(jù)示例Figure 2 Sample data example
由于真實的數(shù)據(jù)集中存在干擾點,不管是用到均值還是標準差效果都不會很好。所以本文使用了離差規(guī)范化法。離差規(guī)范化法雖然受限于最小和最大值的取值,但卻是消除綱量和數(shù)據(jù)取值范圍影響最簡單有效的方法。離差規(guī)范化法對樣本數(shù)據(jù)進行處理時會在[0,1]內(nèi)映射出原始數(shù)據(jù)的線性變換。轉(zhuǎn)換公式為
(4)
公式中min和max是數(shù)據(jù)中樣本的最小值和最大值,而將公式運用到RVMF模型中得到公式:
(5)
其中P即可帶入改進模型的四個屬性。
數(shù)據(jù)歸一化之后可以更方便地通過聚類算法將數(shù)據(jù)進行處理得到分類后的數(shù)據(jù)[13-15]。本文采用文獻[16]中的一種基于聚合度的聚類算法,主要概念如下:
歐式距離:假設(shè)每一個數(shù)據(jù)點的屬性維度都是m,那么每個數(shù)據(jù)點可以用xi={xi1,xi2…xim}抽象體現(xiàn)出來,所以數(shù)據(jù)點xi和xj之間的距離便可以用公式(6)表示為
(6)
2)數(shù)據(jù)集平均距離:公式(7)是計算一個數(shù)據(jù)集中所有數(shù)據(jù)點之間的平均歐式距離
(7)
4)聚合度:Deg(xi)代表點xi與其間隔小于半徑的點的個數(shù),即;
(8)
5)集合平均間隔:與點xi的間隔小于R的所有點組成一個集合,那么點xi所在集合的平均間隔可以定義為
(9)
6)聚合度距離:G(xi)代表的是點xi與其他具有較高聚合度點之間的距離。若所有數(shù)據(jù)點中xi的聚合度最大,則其聚合度距離為xi與其余任何點的最大距離。若xi的聚合度不是所有數(shù)據(jù)點中最大,那么其聚合度距離為xi與其余任何點的最小距離。
7)聚合距離參數(shù):聚合距離參數(shù)由聚合度,集合平均距離及聚合度距離三個參數(shù)決定。即
(10)
聚合度Deg(xi)越大,表明點xi周圍的數(shù)據(jù)點越密集。聚合度距離G(xi)越大,則兩個簇群之間的相異程度越高。集合平均間隔Cavgd(xi)越小,則其倒數(shù)越大,表明由xi組成的集合中的元素越緊密。由此可見,聚合距離參數(shù)值越大的點,越適合作為聚類中心。
實現(xiàn)的具體步驟如下:
1)根據(jù)式(6)到(10)對數(shù)據(jù)集中所有數(shù)據(jù)進行計算根據(jù)計算結(jié)果得到相關(guān)參數(shù),從而獲取到每一個點的聚合距離參數(shù)。
2)從步驟1中挑選聚合距離最大的點,作為第一個中心點,計算這個中心點與別的點的歐式距離,若距離小于領(lǐng)域半徑R則將該點去除。
3)從剩余的點中重復(fù)步驟2,遍歷整個數(shù)據(jù)集。
4)輸出符合條件的中心點集合。
經(jīng)過多次實驗發(fā)現(xiàn)聚合度距離有時會出現(xiàn)區(qū)分度不高的問題,所以本文對聚合度距離加以改進,改進后的聚合度距離區(qū)分度更高且穩(wěn)定,對點xi與其他聚合度較大的點距離改進公式如下:
(11)
其中d(xi,xj)代表歐氏距離參考式(6),Deg(xi)和Deg(xj)代表聚合度參考式(8)。
優(yōu)化后的算法與優(yōu)化前的對比實驗如圖3。
由圖3可以看出,在相同的數(shù)據(jù)下未優(yōu)化的聚類算法將一個離群點定為了藍色簇群聚類中心,而優(yōu)化后的聚類算法聚類效果明顯更好。
圖3 算法優(yōu)化結(jié)果對比Figure 3 Comparison of algorithm optimization results
為了節(jié)省時間成本,本文參考楊善林等人[17]采用數(shù)據(jù)挖掘領(lǐng)域常用的DBI(Davies-Bouldin index)來確定合適的k值,DBI是精確型的集群評價指標,它以各個類之間的距離和類內(nèi)數(shù)據(jù)點之間的距離作為衡量標準,類間距離越大越好,類內(nèi)距離越小越好。算法保存每次的運算結(jié)果再遍歷所有結(jié)果,輸出符合最終條件的k值。計算公式如下:
(12)
其中Δ(Si)表示類Si的類內(nèi)距離,dij表示兩個類之間的距離,k是聚類數(shù)。具體步驟如下。
1)輸入最大聚類數(shù)kmax和樣本數(shù)據(jù)集。
2)令k=n(n>1,一般從2開始)直到k=kmax。
3)產(chǎn)生中心點。
4)重復(fù)上述2步。
5)將數(shù)據(jù)點分配給k個中心點中距離最小的中心點,直到數(shù)據(jù)集為空。
6)將每個類的中心點再進行運算處理。
7)當準則函數(shù)收斂時開始記錄每個中心點。
8)利用式(12)計算DBI并轉(zhuǎn)向步驟1。
9)根據(jù)DBI指標篩選出效果最好的k值。
10)輸出k。
根據(jù)DBI計算得到最優(yōu)k值為4。
通過層次分析法計算RVMF模型屬性權(quán)重得到WR=0.072,WV=0.132,WM=0.517,WF=0.279,根據(jù)公式(3)計算后得到加權(quán)之后得到的部分結(jié)果如圖4所示,R*、V*、M*、F*分別代表加權(quán)后的各個屬性值。由圖4中可以看出處理之后的結(jié)果相比處理之前能更加直觀地進行比較。
圖4 加權(quán)后的RVMF值示意圖Figure 4 Schematic diagram of weighted RVMF value
得到RVMF計算結(jié)果后應(yīng)用聚類算法將R、V、M、F四個屬性作為聚類變量對數(shù)據(jù)進行聚類并細分客戶,根據(jù)優(yōu)化聚類中心得到的結(jié)果將中心點數(shù)量設(shè)為4,RFM模型的細分結(jié)果如表3,RVMF模型的細分結(jié)果如表4。
對比表3、表4與表5可以看出RFM模型由于權(quán)重和共線性問題將部分M屬性很高、F屬性很高、R屬性一般的客戶劃分為了第二類客戶,將R屬性很低F屬性很高但是M屬性一般的客戶劃分為了第一類客戶,這明顯是不符合期望的。而RVMF模型在引入V屬性并改進了權(quán)重后準確的將M值較大的客戶識別為第一類客戶,并且解決了新老客戶劃分問題,消除共線性后準確地將R屬性很低F屬性很高M屬性一般的客戶劃分為了第二類客戶。
表3 RFM模型客戶價值表Table 3 Customer value table of RFM model
表4 RVMF模型客戶價值表Table 4 Customer value table of RVMF model
表5 實驗結(jié)果對比表Table 5 Comparison table of experimental results
從表5還可以看出RFM模型得出的結(jié)果在第一類客戶和第二類客戶與平臺自身給出的價值標簽差距較大并且無法直觀通過R屬性與F屬性對比客戶價值。而RVMF模型在這兩者的結(jié)果上差異較小,還能夠簡單明了的判斷客戶價值的高低。由于平臺自身價值標簽只有3類,所以將細分之后結(jié)果中的第三類和第四類客戶合并到“Low”類客戶中。
根據(jù)RVMF模型得出的結(jié)果,第一類消費者包括17名,占據(jù)統(tǒng)計人數(shù)的2.1%。這類消費者的下單頻率高而且單次訂單的消費額度大,瀏覽網(wǎng)店商品的頻率很高,可以劃分為高價值客戶。這類消費者作為電商最應(yīng)該挽留的客戶,應(yīng)該著重維護,可以通過郵件或公眾號等方式對他們進行宣傳,對待高價值客戶甚至也可以進行電話營銷。
第二類消費者包括361人,占統(tǒng)計人數(shù)的44.1%。這一類的消費者的消費頻率雖然高,但是每一筆消費的額度不高,瀏覽網(wǎng)店商品的頻率也一般,可以劃分為可挽留客戶,這一類客戶挽留優(yōu)先級與重要客戶一樣。
第三類消費者包括208人,占統(tǒng)計人數(shù)的25.4%。這類消費者消費不夠頻繁,但還是偶爾會瀏覽商品,可以劃分為次要客戶,可以重點培養(yǎng)這類消費者,可以對他們進行發(fā)放電子優(yōu)惠卷一類的營銷活動。
最后一類消費者包括232人,占到統(tǒng)計人數(shù)的28.4%。這類消費者是價值最低的消費者。不論在下單頻率還是訂單的金額上都很低,平時也幾乎不怎么瀏覽商品,可以劃分為流失客戶。
本文介紹了互聯(lián)網(wǎng)技術(shù)高速發(fā)展的背景下針對電商平臺網(wǎng)店的客戶細分模型,并實現(xiàn)了優(yōu)化的聚類算法在RVMF模型下的客戶細分。從實驗結(jié)果的分析可以看出利用互聯(lián)網(wǎng)技術(shù)獲取的客戶數(shù)據(jù)進行客戶細分能夠快速直觀地預(yù)測客戶的價值,有助網(wǎng)店商家維護客戶,最終提升利潤。
當然本文也有不足的地方,比如對于聚類方法產(chǎn)生局部最優(yōu)解的問題沒有很好的優(yōu)化,以及對于RVMF模型的屬性還可以更加細化等。這些問題希望可以在日后通過更加深入的研究加以改進,達到更好的客戶細分效果。