靖立崢,吳增源
(中國(guó)計(jì)量大學(xué) 經(jīng)濟(jì)與管理學(xué)院,浙江 杭州 310018)
憑借方便快捷、低成本、不受時(shí)空限制等優(yōu)勢(shì),全球電子商務(wù)蓬勃發(fā)展。今年上半年,在新冠疫情防控期間,電子商務(wù)在保障社會(huì)基本生產(chǎn)、生活物資供應(yīng)和拉動(dòng)經(jīng)濟(jì)增長(zhǎng)方面起到了重要作用。良好的客戶關(guān)系管理是電商平臺(tái)構(gòu)建競(jìng)爭(zhēng)優(yōu)勢(shì)的重要一環(huán)[1-2]。百雀羚廣告《一九三一》的低轉(zhuǎn)化率以及頻頻爆出的直播帶貨失敗案例表明,高效的客戶關(guān)系管理必須以客戶細(xì)分為基礎(chǔ)[3-4]。客戶細(xì)分是指利用統(tǒng)計(jì)分析或數(shù)據(jù)挖掘等技術(shù)分析客戶數(shù)據(jù),對(duì)客戶進(jìn)行分類,以提供有針對(duì)性、個(gè)性化的服務(wù),從而提高營(yíng)銷效率[5]。只有深入了解不同客戶群體的偏好和需求,才能實(shí)施精準(zhǔn)營(yíng)銷。
在電子商務(wù)客戶細(xì)分研究領(lǐng)域,基于機(jī)器學(xué)習(xí)的聚類分析技術(shù)是目前較常使用的方法之一。該方法以經(jīng)典的RFM模型[5]為基礎(chǔ),利用多維度指標(biāo),精準(zhǔn)體現(xiàn)不同客戶群體的消費(fèi)行為和習(xí)慣。但是,現(xiàn)有研究側(cè)重于使用客戶的歷史訂單數(shù)據(jù),無(wú)法全面反應(yīng)不同客戶群體的行為偏好和消費(fèi)習(xí)慣。另外,經(jīng)典的K-means算法存在人為設(shè)定K值的缺陷。因此,在特征選擇過(guò)程中,本文增加了客戶消費(fèi)行為數(shù)據(jù):客戶消費(fèi)間隔(recency,R)、消費(fèi)次數(shù)(frequency,F)、瀏覽(details page of product,P)、加購(gòu)(add to cart,A),以及收藏次數(shù)(favourite,V);在算法改進(jìn)方面,引入Calinski-Harabasz(CH)聚類質(zhì)量評(píng)價(jià)指標(biāo),優(yōu)化K值選取。實(shí)驗(yàn)結(jié)果表明:使用CH聚類評(píng)價(jià)質(zhì)量指標(biāo)優(yōu)化傳統(tǒng)K-means算法,能有效提高電子商務(wù)客戶細(xì)分的效率和準(zhǔn)確性。
很多學(xué)者從不同的角度提出了客戶細(xì)分方法[6],這些方法依據(jù)選取的客戶指標(biāo)的不同主要分為三類:基于人口統(tǒng)計(jì)的視角、基于客戶生命周期的視角和基于客戶行為的視角?;谌丝诮y(tǒng)計(jì)[7]視角的客戶細(xì)分方法主要采用問(wèn)卷調(diào)查的手段,以客戶年齡、性別、家庭收入、婚姻狀況教育程度等為基礎(chǔ)劃分成不同的群體。但是這種單純地利用人口統(tǒng)計(jì)指標(biāo)細(xì)分客戶的方法不能預(yù)測(cè)客戶的未來(lái)購(gòu)買行為[8],也不能對(duì)客戶流失的原因做出精準(zhǔn)的分析,企業(yè)難以采取具體的針對(duì)性措施去吸引客戶、保持客戶?;诳蛻羯芷谝暯荹9]的客戶細(xì)分方法的具體過(guò)程是:企業(yè)利用新增、留存、流失的客戶數(shù)量信息,繪制客戶生命周期分布曲線。根據(jù)客戶所處的生命周期的不同階段,對(duì)其采取不同的措施。客戶忠誠(chéng)度分類方法[10-11]是現(xiàn)有基于客戶生命周期的細(xì)分研究中最常用的細(xì)分方法。Christopher & Payne(2008)根據(jù)客戶所處的生命周期的不同階段分為潛在顧客、現(xiàn)實(shí)買主、長(zhǎng)期客戶、支持者和鼓吹者[12]。但是這種細(xì)分方法無(wú)法體現(xiàn)客戶價(jià)值特征之間的差異,以及客戶的偏好特征和行為特征的差異。近年來(lái),隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,基于客戶行為的客戶細(xì)分方法逐漸成為研究熱點(diǎn)。這類細(xì)分方法主要采用的是基于機(jī)器學(xué)習(xí)的聚類分析技術(shù),利用多維度指標(biāo),精準(zhǔn)體現(xiàn)不同客戶群體的消費(fèi)行為和習(xí)慣[13]。在這種方法中,作為經(jīng)典的客戶價(jià)值模型-RFM模型已經(jīng)成功應(yīng)用于不同行業(yè)的客戶細(xì)分[14-15]。但是,RFM模型中的F、M指標(biāo)會(huì)存在多重共線性的問(wèn)題[16]。由于以上模型的缺陷,不同行業(yè)的研究學(xué)者根據(jù)行業(yè)特點(diǎn)對(duì)其進(jìn)行了改進(jìn)和擴(kuò)展[17-19]。Serhat Peker(2017)針對(duì)雜貨店的客戶,利用K-means聚類算法,提出了基于LRFMP的客戶細(xì)分模型,但是仍沒(méi)有解決F和M之間的多重共線性的問(wèn)題[13]。任春華等(2019),針對(duì)汽車銷售行業(yè)的特點(diǎn),提出了汽車忠誠(chéng)客戶的LRFAT模型。該模型可以消除F值與M值的共線性問(wèn)題,并且能識(shí)別出忠誠(chéng)客戶[16]。雖然引入客戶行為特征數(shù)據(jù)之后,電子商務(wù)客戶細(xì)分研究取得了一定的研究成果,但是仍有以下兩個(gè)問(wèn)題沒(méi)有得到解決:一是對(duì)于客戶細(xì)分模型指標(biāo)的選取,現(xiàn)有研究側(cè)重于使用客戶的歷史訂單數(shù)據(jù),但是忽略了客戶的線上行為數(shù)據(jù),無(wú)法更加全面的反映不同客戶群客戶的行為偏好和消費(fèi)習(xí)慣;二是經(jīng)典的K-means算法雖然原理簡(jiǎn)單,易于實(shí)現(xiàn),但存在人為設(shè)定K值的缺陷。由于每個(gè)行業(yè)客戶的結(jié)構(gòu)分布不同,人為設(shè)定K值,很有可能造成細(xì)分結(jié)果與實(shí)際有較大差異。因此,在特征選擇上,本文構(gòu)建了融入客戶線上行為特征的RFPAV客戶細(xì)分模型;在算法上,本文借助K-means算法進(jìn)行聚類分析的基礎(chǔ)上,引入CH聚類質(zhì)量評(píng)價(jià)指標(biāo),以期實(shí)現(xiàn)更優(yōu)的聚類效果。
RFM模型最早由Hughes(1994)[20]提出,一般用來(lái)衡量客戶的價(jià)值特征,識(shí)別高價(jià)值客戶。自提出以來(lái),RFM模型已經(jīng)廣泛應(yīng)用于客戶細(xì)分,R(recency)通常代表客戶最近一次消費(fèi)據(jù)觀察期截止日期的消費(fèi)間隔,R值越大代表客戶據(jù)上一次消費(fèi)的日時(shí)間越長(zhǎng),客戶價(jià)值越低;F(frequency)通常代表觀察期內(nèi)的消費(fèi)的次數(shù),F值越大代表客戶消費(fèi)越頻繁,客戶價(jià)值越高;M(monetary)通常代表客戶在觀察期內(nèi)消費(fèi)的總金額,M值越大,客戶價(jià)值越高。
雖然傳統(tǒng)RFM模型已廣泛應(yīng)用于各個(gè)行業(yè)的客戶細(xì)分問(wèn)題,但是仍存在兩個(gè)問(wèn)題:第一,RFM模型中的F和M指標(biāo)存在多重共線的問(wèn)題;第二,使用RFM模型進(jìn)行客戶細(xì)分,不能體現(xiàn)客戶在該電商平臺(tái)的活躍度,以及不同客戶群之間消費(fèi)和行為習(xí)慣的差異。隨著大數(shù)據(jù)技術(shù)的提升,從電商平臺(tái)提取的客戶信息數(shù)據(jù)的維度增多,這些數(shù)據(jù)更加細(xì)致全面的反映了客戶的價(jià)值特征、消費(fèi)習(xí)慣以及行為偏好,因此,基于傳統(tǒng)RFM模型,本文融入了客戶的線上行為指標(biāo),提出了針對(duì)電子商務(wù)客戶細(xì)分的RFPAV模型,其中,P、A、V指標(biāo)可以體現(xiàn)客戶的活躍度、線上消費(fèi)習(xí)慣。
2.2.1K-means算法描述
K-means[21]是一種經(jīng)典的基于劃分的聚類方法,一般用歐氏距離作為衡量?jī)蓚€(gè)數(shù)據(jù)點(diǎn)之間相似度的指標(biāo),相似度越大,距離越小。該算法的核心思想是:首先確定聚類數(shù)目K和K個(gè)初始聚類中心。根據(jù)數(shù)據(jù)點(diǎn)與聚類中心的距離,不斷更新聚類中心的位置,使得每個(gè)簇的誤差平方和(sum of squared error,SSE)變小。當(dāng)SSE不再變化或者目標(biāo)函數(shù)收斂時(shí),SSE值達(dá)到最小,迭代停止,得到最終的聚類結(jié)果。其算法流程如下。
1)初始化聚類中心 確定聚類數(shù)目K,從數(shù)據(jù)集中隨機(jī)選取K個(gè)點(diǎn)作為初始聚類中心Ci(1≤i≤K)。
2)分配樣本 計(jì)算其余數(shù)據(jù)點(diǎn)與聚類中心Ci的歐氏距離,找出最短距離并將所有樣本分配到聚類中心Ci對(duì)應(yīng)的簇中。
歐式距離計(jì)算公式為
(1)
式(1)中,x為數(shù)據(jù)對(duì)象,Ci為第i個(gè)聚類中心,m為數(shù)據(jù)對(duì)象的維度,xj、Cij為x和Ci的第j個(gè)屬性值。
3)更新聚類中心 計(jì)算每一簇中所有點(diǎn)的平均值及平方誤差,將平均值作為新的聚類中心,重復(fù)步驟2)。
平方誤差計(jì)算公式為
(2)
4)直至聚類中心不再變化或達(dá)到最大的迭代次數(shù),循環(huán)結(jié)束,得到最終聚類結(jié)果。
2.2.2 優(yōu)化K值選取的改進(jìn)K-means算法
盡管K-means聚類算法不依賴于數(shù)據(jù)的標(biāo)簽信息,對(duì)大數(shù)據(jù)特征挖掘有很好的解釋效果,但是傳統(tǒng)的K-means算法存在人為設(shè)定K值的缺陷?;诖?本文引入了Calinski-Harabasz(CH)聚類質(zhì)量評(píng)價(jià)指標(biāo),將最高的CH得分所對(duì)應(yīng)的類設(shè)定為本研究的聚類數(shù)目。
CH指標(biāo)由簇間樣本分離度與簇內(nèi)樣本緊密度的比值得到,CH越大代表類自身越緊密,類與類之間越分散,即聚類結(jié)果更優(yōu)。當(dāng)簇內(nèi)密集且簇間分離較好時(shí),從CH得分折線圖中可以明確得出最佳聚類數(shù)目,并且具有計(jì)算速度快的優(yōu)點(diǎn)。
CH指標(biāo)優(yōu)化K-means算法的實(shí)現(xiàn)步驟如下:
輸入:數(shù)據(jù)集X={x1,x2,…,xn}(n表示數(shù)據(jù)點(diǎn)的數(shù)量)。
1)確定最佳聚類數(shù)目k。
①計(jì)算WGSS
WGSS(Within-Groups Sum of Squared Error)為簇內(nèi)平方誤差和,用來(lái)度量簇內(nèi)樣本的緊密度,WGSS越小,簇內(nèi)越緊密,聚類效果越好。其計(jì)算公式為
(3)
②計(jì)算BGSS
BGSS(between-groups sum of squared error)為簇間平方誤差和,用來(lái)度量簇間樣本的分離度,BGSS越大,簇間越分散,聚類效果越好。其計(jì)算公式為
(4)
③計(jì)算CH值
CH得分值S的數(shù)學(xué)計(jì)算公式為
(5)
WGSS越小,BGSS越大,則CH指標(biāo)值越大,聚類效果越好。
④繪制CH折線圖,確定最佳聚類數(shù)目k。
2)運(yùn)行K-means,得出聚類結(jié)果:
①初始化聚類中心
輸入聚類數(shù)目k,從數(shù)據(jù)集中隨機(jī)選取k個(gè)點(diǎn)作為初始聚類中心Ci(1≤i≤K)。
②分配樣本
計(jì)算其余數(shù)據(jù)點(diǎn)與聚類中心Ci的歐氏距離,找出最短距離并將所有樣本分配到聚類中心Ci對(duì)應(yīng)的簇中。
③更新聚類中心
計(jì)算每一簇中所有點(diǎn)的平均值及平方誤差。將平均值作為新的聚類中心,重復(fù)步驟2)。
④直至聚類中心不再變化或達(dá)到最大的迭代次數(shù),循環(huán)結(jié)束,得到最終聚類結(jié)果。
輸出:聚類結(jié)果C={c1,c2,…,ck}。
2.2.3 對(duì)比驗(yàn)證
為了驗(yàn)證本文采取方法的有效性,本文進(jìn)行了兩次對(duì)比實(shí)驗(yàn):第一次為聚類算法對(duì)比;第二次為聚類質(zhì)量評(píng)價(jià)指標(biāo)的對(duì)比。
1)算法對(duì)比
為驗(yàn)證本文算法的有效性,選取UCI數(shù)據(jù)庫(kù)中兩個(gè)標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù)集Breast cancer和Iris plants進(jìn)行實(shí)驗(yàn),并采用相關(guān)研究中常用的譜聚類(Spectral Clustering)方法,與本文的K-means算法進(jìn)行對(duì)比研究。在算法評(píng)價(jià)上,主要比較了兩種算法在兩個(gè)數(shù)據(jù)集上的聚類準(zhǔn)確率以及運(yùn)行時(shí)間,如表1。
表1 兩種算法在不同數(shù)據(jù)集上的運(yùn)行情況
從表1可以看出:第一,在聚類準(zhǔn)確性上,K-means在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別為85.4%和89.3%,都有比較好的聚類效果,譜聚類的準(zhǔn)確率分別為66.7%和90%,聚類效果相較K-means更不穩(wěn)定;第二,在運(yùn)行時(shí)間上,K-means在兩個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間分別為19.8 ms和21.9 ms,而譜聚類的運(yùn)行時(shí)間分別為103.8 ms和118.1 ms,可以明顯看出,譜聚類的運(yùn)行時(shí)間是K-means算法的5倍多,聚類效率較低。這主要由于譜聚類算法涉及數(shù)據(jù)之間的相似度矩陣,在數(shù)據(jù)集維度較高時(shí),無(wú)法表現(xiàn)出更優(yōu)的準(zhǔn)確性和聚類效率。然而,電商平臺(tái)交易量大,數(shù)據(jù)規(guī)模龐大且維度復(fù)雜,對(duì)聚類效率的要求高,需要及時(shí)根據(jù)客戶的消費(fèi)行為數(shù)據(jù)進(jìn)行劃分,以實(shí)現(xiàn)高效精準(zhǔn)的客戶管理。因此,對(duì)于電子商務(wù)平臺(tái)的客戶細(xì)分,相比譜聚類,K-means的聚類效果更優(yōu)。
2)聚類質(zhì)量評(píng)價(jià)指標(biāo)對(duì)比
針對(duì)傳統(tǒng)K-means算法存在人為設(shè)定K值的缺陷,本文引入CH指標(biāo),作為客戶細(xì)分時(shí)決定K值的依據(jù)。為了驗(yàn)證CH指標(biāo)對(duì)于電子商務(wù)行業(yè)中的客戶細(xì)分的適用性,本文使用實(shí)證部分的電商數(shù)據(jù)集,選取拐點(diǎn)法與CH進(jìn)行對(duì)比。圖1和圖2分別為CH指標(biāo)和拐點(diǎn)法的實(shí)驗(yàn)結(jié)果。
圖1 CH得分折線圖Figure 1 Line chart of CH score
圖2 拐點(diǎn)法折線圖Figure 2 Line chart of inflexion point method
由圖1可以看出,CH得分折線圖呈現(xiàn)先上升后下降的趨勢(shì),當(dāng)聚類數(shù)目為4時(shí),CH值最高。因此,使用CH指標(biāo)可以明確得出:該電子商務(wù)平臺(tái)數(shù)據(jù)集的最佳聚類數(shù)目為4。
在圖2中,橫軸為聚類個(gè)數(shù)的變化,縱軸為數(shù)據(jù)的SSE方差,即凝聚度。拐點(diǎn)法原理是:在折線圖的拐點(diǎn)處取得最佳聚類數(shù)目。其原因在于:拐點(diǎn)之后繼續(xù)增加K值,對(duì)分類的準(zhǔn)確度增加不高,但會(huì)增加簇?cái)?shù)。從而導(dǎo)致對(duì)數(shù)據(jù)的劃分過(guò)細(xì),影響聚類效果。但是,從圖2中可以看出,當(dāng)K值從4變化到6時(shí),折線圖的變化較為平滑,即沒(méi)有明顯的拐點(diǎn),無(wú)法準(zhǔn)確判斷出最佳聚類個(gè)數(shù)。
因此,與圖1中CH得分的變化趨勢(shì)相比,拐點(diǎn)法不適合用于電子商務(wù)客戶細(xì)分的研究,使用CH指標(biāo)優(yōu)化K-means算法對(duì)于電子商務(wù)客戶細(xì)分更具有有效性。
本文研究數(shù)據(jù)是從國(guó)內(nèi)某電子商務(wù)平臺(tái)中提取的客戶消費(fèi)數(shù)據(jù),數(shù)據(jù)集包含了2014年11月18日至2014年12月18日之間,一個(gè)月內(nèi)的該平臺(tái)移動(dòng)端的37 376名客戶的訂單及線上行為數(shù)據(jù)。該數(shù)據(jù)集可用于以下實(shí)際問(wèn)題的研究:1)建立客戶流失預(yù)測(cè)模型,預(yù)測(cè)客戶流失;2)研究用戶在不同時(shí)間尺度下的行為規(guī)律,找到用戶在不同時(shí)間周期下的活躍規(guī)律;3)根據(jù)數(shù)據(jù)集中的客戶訂單信息及行為和消費(fèi)偏好信息,找出最具付費(fèi)價(jià)值的客戶群,對(duì)這部分客戶行為進(jìn)行分析;4)將數(shù)據(jù)集中的核心信息整合成幾個(gè)指標(biāo),進(jìn)行客戶細(xì)分研究,針對(duì)不同特征的客戶群采取針對(duì)性措施。表2為本文研究涉及數(shù)據(jù)集中的字段及字段描述。
3.2.1 數(shù)據(jù)清洗
2014年11月18日至2014年12月18日之間該電子商務(wù)客戶的行為數(shù)據(jù)大約一億多條,需要進(jìn)行數(shù)據(jù)清洗:首先處理缺失值和異常值的數(shù)據(jù),如購(gòu)買費(fèi)用為0的數(shù)據(jù)、購(gòu)買日期為空以及購(gòu)買費(fèi)用明顯有誤的數(shù)據(jù);然后處理重復(fù)數(shù)據(jù)。用戶的購(gòu)買行為由于時(shí)間精確到小時(shí),會(huì)存在少量用戶在一小時(shí)內(nèi)重復(fù)購(gòu)買或?yàn)g覽統(tǒng)一商品的行為,因此不對(duì)此部分?jǐn)?shù)據(jù)進(jìn)行處理;最后,處理數(shù)據(jù)的一致性問(wèn)題,本文涉及的指標(biāo)L、R涉及到時(shí)間特征,并且以天為單位。而時(shí)間數(shù)據(jù)中的日期和小時(shí)存在于一列中,故將其拆分成兩列。另外,本文將Timestamp字段中的時(shí)間戳字段類型轉(zhuǎn)換成年月日的形式,以方便計(jì)算時(shí)間。
3.2.2 指標(biāo)提取及歸一化
結(jié)合本文提出的RFPAV模型,計(jì)算整理數(shù)據(jù)得到37 376位客戶的數(shù)據(jù),表3為部分?jǐn)?shù)據(jù)。
為了防止各指標(biāo)單位不同所引起的差距過(guò)大,在進(jìn)行算法實(shí)驗(yàn)之前,需要對(duì)指標(biāo)提取之后的數(shù)據(jù)集進(jìn)行歸一化處理。本文采用的歸一化方法為Z-score標(biāo)準(zhǔn)化方法,這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)為
(6)
式(6)中,μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
表4為歸一化處理前后的部分?jǐn)?shù)據(jù),指標(biāo)R、F、P、A、V的數(shù)據(jù)全部被轉(zhuǎn)換為無(wú)量綱的數(shù)據(jù)值。
表4 RFPAV模型歸一化處理后部分?jǐn)?shù)表
根據(jù)本文2.2.3小節(jié)中的實(shí)驗(yàn)結(jié)果,確定最佳聚類數(shù)目K=4。通過(guò)K-means算法和RFPAV模型,得到4組客戶聚類數(shù)據(jù),圖3為4組客戶分布餅狀圖,圖4為4組客戶RFPAV模型各指標(biāo)分布圖。
圖3 客戶類型分布圖Figure 3 Distribution chart of customer types
從圖3和圖4可以看出,價(jià)值最大的客戶群體是B類客戶,包括4 984名顧客,占該電子商務(wù)平臺(tái)數(shù)據(jù)集的13%。與其他三種客戶類型的指標(biāo)值相比:B類客戶的R值較小,說(shuō)明近期有在該電商平臺(tái)進(jìn)行消費(fèi);F值最高,說(shuō)明訂單頻率高,屬于該電商平臺(tái)中的活躍客戶;P值和A值均最高,說(shuō)明這類客戶經(jīng)常在該電商平臺(tái)瀏覽商品,將商品加入購(gòu)物車的頻率也高。這可看出該類客戶群當(dāng)前價(jià)值和增值潛力最大,可將其歸類為該電商平臺(tái)的高價(jià)值客戶群;V值較低,說(shuō)明這類客戶群在遇到感興趣的商品時(shí),習(xí)慣于加購(gòu)而不是收藏。針對(duì)這類客戶群,企業(yè)需要投入主要精力和資源,保持和發(fā)展與這些客戶的關(guān)系,充分挖掘這類客戶的消費(fèi)潛力。
圖4 RFPAV模型各指標(biāo)分布圖Figure 4 Distribution chart of RFPAV model
第二類較有價(jià)值的客戶群體是A類客戶,包括1 661名客戶,占該電子商務(wù)平臺(tái)數(shù)據(jù)集的5%。與其他三種客戶類型的指標(biāo)值相比:A類客戶的R值相較B類更小,說(shuō)明在最近幾天有在該電商平臺(tái)進(jìn)行消費(fèi)。但是該類客戶群的F值更低,說(shuō)明消費(fèi)頻率比B類低,屬于該電商平臺(tái)中的較活躍客戶;P值較高,說(shuō)明這類客戶也經(jīng)常在該電商平臺(tái)瀏覽商品;與B類不同的是,A類客戶群的指標(biāo)A的值低,V值在這四類中屬于最高,這說(shuō)明該類客戶群在遇到感興趣的商品時(shí)不習(xí)慣于加購(gòu),而更習(xí)慣于將商品收藏。根據(jù)以上分析,可將這類客戶歸為中等價(jià)值客戶群。這類客戶有較大的價(jià)值挖掘潛力,公司應(yīng)盡可能保持這些客戶,提高這類客戶在該平臺(tái)的消費(fèi)頻率,使他們不能夠容易地轉(zhuǎn)向競(jìng)爭(zhēng)對(duì)手。
第三類客戶群為D類客戶,包括16 575名客戶,占該電子商務(wù)平臺(tái)數(shù)據(jù)集的44%。與其他三種客戶類型的指標(biāo)值相比:這類客戶的購(gòu)買頻率屬于中等程度,但是R值最高,說(shuō)明很久沒(méi)有在該電商平臺(tái)購(gòu)買商品;P值、A值和V值都較低,表明這類客戶屬于該電商平臺(tái)中不活躍的一類群體,不會(huì)經(jīng)常在該平臺(tái)瀏覽商品、加購(gòu)或者收藏??梢詫⑵錃w類為低價(jià)值客戶群。但是雖然D類客戶群的當(dāng)前價(jià)值一般但增值潛力較好,商家應(yīng)該重點(diǎn)培養(yǎng)這類客戶,增加個(gè)性化推送商品的頻率,盡可能提升這類客戶群的價(jià)值。
第四類客戶群為C類客戶,包括14 156名客戶,占該電子商務(wù)平臺(tái)數(shù)據(jù)集的38%。與其他三種客戶類型的指標(biāo)值相比:這類客戶的R值很低,但是F值也是最低的,說(shuō)明這類客戶群最近有在該平臺(tái)消費(fèi),但總體消費(fèi)頻率很低;在P、A、V值方面類似于第三類客戶,也屬于不活躍的客戶群。與D類客戶不同的是,雖然這類客戶的當(dāng)前價(jià)值很低,購(gòu)買頻率和活躍度都一般,但他們最后一次消費(fèi)日子卻很近,所以這類客戶很可能是新獲得的客戶。對(duì)這類客戶需特別注意,應(yīng)及時(shí)地推送客戶可能感興趣的商品,做好相關(guān)的服務(wù),促進(jìn)客戶關(guān)系進(jìn)一步發(fā)展,進(jìn)而增加客戶的購(gòu)買頻率,減少客戶流失。
客戶關(guān)系管理是電商平臺(tái)保持競(jìng)爭(zhēng)優(yōu)勢(shì)的前提。企業(yè)要實(shí)現(xiàn)高效的客戶關(guān)系管理,必須提高客戶細(xì)分的準(zhǔn)確性和效率。針對(duì)現(xiàn)有研究存在的客戶細(xì)分指標(biāo)單一的問(wèn)題,以及傳統(tǒng)K-means人為設(shè)定K值的缺陷,在指標(biāo)選取上,本文加入了客戶的消費(fèi)行為數(shù)據(jù),選取RFPAV作為細(xì)分指標(biāo);在方法上,引入CH指標(biāo)對(duì)傳統(tǒng)K-means算法進(jìn)行改進(jìn),并利用某電子商務(wù)平臺(tái)的37 376個(gè)客戶樣本進(jìn)行實(shí)證研究?;诒疚牡膶?duì)比實(shí)驗(yàn)結(jié)果和實(shí)證結(jié)果,可以得到以下兩點(diǎn)結(jié)論:第一,針對(duì)電子商務(wù)客戶特點(diǎn)提出的RFPAV客戶細(xì)分指標(biāo)是有效的,本文選取的客戶價(jià)值特征和客戶消費(fèi)行為特征,能夠識(shí)別和區(qū)分電子商務(wù)客戶在進(jìn)行線上消費(fèi)時(shí)表現(xiàn)出的不同消費(fèi)習(xí)慣和偏好;第二,改進(jìn)K-means算法能夠提高電子商務(wù)客戶數(shù)據(jù)集的聚類準(zhǔn)確性和效率,由于傳統(tǒng)的K-means算法存在人為設(shè)定K值的缺陷,本文加入了CH聚類質(zhì)量評(píng)價(jià)指標(biāo),對(duì)K-means算法進(jìn)行改進(jìn)。當(dāng)然,本文的研究也存在一定的局限性:第一,客戶細(xì)分指標(biāo)需要更加多元,由于電商平臺(tái)的數(shù)據(jù)量龐大,數(shù)據(jù)維度多樣,未來(lái)可以挖掘更加多元化的特征數(shù)據(jù);第二,由于每種算法都有其自身的局限性,為了更好契合電商平臺(tái)客戶樣本數(shù)據(jù)集,實(shí)現(xiàn)更有效的客戶細(xì)分,未來(lái)可以考慮將密度聚類、層次聚類等方法引入電子商務(wù)客戶細(xì)分研究中。