李海燕,王松響
(鄭州鐵路職業(yè)技術(shù)學(xué)院,河南 鄭州 451460)
會(huì)員畫(huà)像研究是當(dāng)前的一個(gè)熱門(mén)話(huà)題,最早是由交互設(shè)計(jì)之父Alan Cooper提出的,他認(rèn)為會(huì)員畫(huà)像是根據(jù)一系列用戶(hù)的真實(shí)數(shù)據(jù)而挖掘出的目標(biāo)用戶(hù)模型。用戶(hù)畫(huà)像的本質(zhì)是消費(fèi)者特征“可視化”,通過(guò)收集與分析用戶(hù)的基本屬性、購(gòu)買(mǎi)特征、行為特征等多個(gè)維度的主要信息,將會(huì)員標(biāo)簽綜合起來(lái),即可勾勒出會(huì)員的整體特征與輪廓。在商業(yè)領(lǐng)域,會(huì)員畫(huà)像所能實(shí)現(xiàn)的會(huì)員識(shí)別、精準(zhǔn)營(yíng)銷(xiāo)、改善經(jīng)營(yíng)、拓展市場(chǎng)等功能,是企業(yè)應(yīng)用會(huì)員畫(huà)像的主要驅(qū)動(dòng)力。
本研究的目的是針對(duì)會(huì)員的消費(fèi)情況數(shù)據(jù),建立一個(gè)RFM數(shù)學(xué)模型,利用python軟件實(shí)現(xiàn)刻畫(huà)每一位會(huì)員購(gòu)買(mǎi)力,以便能夠?qū)γ總€(gè)會(huì)員的價(jià)值進(jìn)行識(shí)別,為商場(chǎng)對(duì)會(huì)員進(jìn)行精準(zhǔn)促銷(xiāo)提供數(shù)據(jù)支撐。
數(shù)據(jù)來(lái)源于2018年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽的C題《大型百貨商場(chǎng)會(huì)員畫(huà)像描繪》(簡(jiǎn)稱(chēng)《競(jìng)賽題》)。題目數(shù)據(jù)中給出了某大型百貨商場(chǎng)會(huì)員的相關(guān)信息,附件1是會(huì)員信息數(shù)據(jù)表,附件2是近幾年的銷(xiāo)售流水表,附件3是會(huì)員消費(fèi)明細(xì)表,附件4是商品信息表,附件5是數(shù)據(jù)字典表。
RFM模型是衡量客戶(hù)價(jià)值和購(gòu)買(mǎi)力的重要工具和手段。該模型通過(guò)一個(gè)客戶(hù)的近期購(gòu)買(mǎi)行為、購(gòu)買(mǎi)的總體頻率以及消費(fèi)金額來(lái)描述該客戶(hù)的會(huì)員價(jià)值畫(huà)像。三個(gè)指標(biāo)分別是最近一次消費(fèi)時(shí)間(Recency)、消費(fèi)頻率(Frequency)和消費(fèi)總金額(Monetary)[1]。
最近一次消費(fèi)時(shí)間指會(huì)員最近一次的購(gòu)買(mǎi)時(shí)間。理論上,最近一次的消費(fèi)時(shí)間越近的會(huì)員價(jià)值越高。消費(fèi)頻率是指在一定時(shí)間內(nèi)會(huì)員的消費(fèi)次數(shù),一定時(shí)間內(nèi)的消費(fèi)次數(shù)越多,越說(shuō)明會(huì)員喜歡在該商場(chǎng)購(gòu)物,會(huì)員的忠誠(chéng)度越高。消費(fèi)總金額指在一定時(shí)間內(nèi)的消費(fèi)總金額,金額越高說(shuō)明該會(huì)員的消費(fèi)能力越強(qiáng)。
運(yùn)用軟件,采用K-means聚類(lèi)分析的方法,將會(huì)員劃分為8類(lèi)。
對(duì)于《競(jìng)賽題》附件1會(huì)員信息數(shù)據(jù)表、附件3會(huì)員消費(fèi)明細(xì)表數(shù)據(jù)預(yù)處理如下:
將“登記時(shí)間”一列中的空白數(shù)據(jù)刪除。
選取2017年10月1日—2017年12月31日的消費(fèi)記錄。
對(duì)第一步處理完畢會(huì)員消費(fèi)明細(xì)表中的異常數(shù)據(jù)進(jìn)行清洗,即篩選出能反映會(huì)員消費(fèi)特征的有效數(shù)據(jù)。異常數(shù)據(jù)有兩種情況:一種是商品售價(jià)與消費(fèi)金額差距較大的數(shù)據(jù)。這種情況可能是由于產(chǎn)品打折或商場(chǎng)促銷(xiāo)造成的,由于優(yōu)惠活動(dòng)的實(shí)施背景無(wú)法確定,所以以打折為唯一因素,并以一折為最低優(yōu)惠限度。用Excel對(duì)數(shù)據(jù)進(jìn)行篩選,將消費(fèi)金額小于售價(jià)一折的產(chǎn)品數(shù)據(jù)和負(fù)數(shù)據(jù)刪除。另一種是銷(xiāo)售量、消費(fèi)金額、積分都為負(fù)數(shù)的數(shù)據(jù)。
數(shù)據(jù)字典表中與相同會(huì)員消費(fèi)明細(xì)表中的單據(jù)號(hào)可能不是同一筆消費(fèi),在提取數(shù)據(jù)時(shí),將同一卡號(hào)下相同的單據(jù)號(hào)當(dāng)作一次消費(fèi)。
在會(huì)員消費(fèi)明細(xì)表中用vlookup函數(shù)匹配會(huì)員信息數(shù)據(jù)表中的數(shù)據(jù),將未匹配到的數(shù)據(jù)刪除,以此篩選出該商場(chǎng)會(huì)員的所有消費(fèi)數(shù)據(jù)。
Python軟件是一種解釋性的、高級(jí)的、通用的計(jì)算機(jī)編程語(yǔ)言,由荷蘭計(jì)算機(jī)工程師吉多·范羅蘇姆(Guido van Rossum)創(chuàng)建,并于1991年首次發(fā)布,它的設(shè)計(jì)理念強(qiáng)調(diào)代碼可讀性,特別是使用強(qiáng)制縮進(jìn)格式。Python語(yǔ)言具有簡(jiǎn)潔性、易讀性以及可擴(kuò)展性,完全開(kāi)源,非常多的科學(xué)計(jì)算庫(kù)都提供了Python的調(diào)用接口。它具有豐富和強(qiáng)大的庫(kù),常被昵稱(chēng)為“膠水語(yǔ)言”,能夠把用其他語(yǔ)言制作的各種模塊很輕松地聯(lián)結(jié)在一起。
本研究的聚類(lèi)算法K-means算法,來(lái)自Python的Sklearn庫(kù)。Sklearn是機(jī)器學(xué)習(xí)中常用的第三方庫(kù),對(duì)常用的機(jī)器學(xué)習(xí)中的回歸、分類(lèi)、聚類(lèi)等方法進(jìn)行了封裝。Sklearn庫(kù)要建立在NumPy、Scipy、MatPlotLib等庫(kù)之上[2]。
K-means是一個(gè)聚類(lèi)分析算法, 在數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)對(duì)象之間的關(guān)系,將數(shù)據(jù)進(jìn)行分組,組內(nèi)的相似性越大,組間的差別越大,則聚類(lèi)效果越好。算法的主要目的是找到數(shù)據(jù)中自然聚類(lèi)的中心,使得各個(gè)類(lèi)內(nèi)部點(diǎn)的誤差平方和最小。假設(shè)有n個(gè)對(duì)象,k個(gè)類(lèi),m個(gè)樣本[3]。
算法步驟如下:第一步,確定有k類(lèi);第二步,在m個(gè)樣本中隨機(jī)選取k個(gè)樣本作為類(lèi)中心;第三步,計(jì)算各樣本與各類(lèi)中心的距離,將各樣本歸于最近的類(lèi)中心點(diǎn);第四步,求各類(lèi)樣本的均值,作為新的類(lèi)中心;第五步,如果類(lèi)中心不再發(fā)生變動(dòng)或者達(dá)到迭代次數(shù)上限,算法結(jié)束,否則回到第三步,反復(fù)執(zhí)行三、四、五步,直到結(jié)束[4]。
常見(jiàn)的距離函數(shù)有歐式距離、曼哈頓距離、余弦距離等,這里我們選取歐式距離
用誤差平方和作為聚類(lèi)的目標(biāo)函數(shù)
式中,k表示k個(gè)聚類(lèi)中心,Ci表示第i個(gè)中心,d表示歐式距離。
根據(jù)對(duì)會(huì)員數(shù)據(jù)的分析,各指標(biāo)數(shù)據(jù)度量單位各不相同,且不在同一個(gè)區(qū)間,為避免直接進(jìn)行數(shù)據(jù)建模對(duì)結(jié)果造成干擾,需要將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。由于F、R、M指標(biāo)對(duì)顧客價(jià)值存在正相關(guān)影響,因此針對(duì)這三項(xiàng)指標(biāo)運(yùn)用正向指標(biāo)的標(biāo)準(zhǔn)化方法,標(biāo)準(zhǔn)化公式為
式中,xnorm表示標(biāo)準(zhǔn)化后的數(shù)值,x表示原始值,xmin表示該指標(biāo)的極小值,xmax表示該指標(biāo)的極大值。
利用 R(最近購(gòu)買(mǎi)日期)、F(購(gòu)買(mǎi)頻次數(shù))、 M(購(gòu)買(mǎi)總金額三個(gè)指標(biāo)),完成RFM模型的建設(shè)。聚類(lèi)K-means 算法使用Python軟件實(shí)現(xiàn),實(shí)驗(yàn)過(guò)程分兩個(gè)階段。
第一個(gè)階段,選取2017年12月共31天的數(shù)據(jù),對(duì)算法程序進(jìn)行訓(xùn)練,按k=8,聚類(lèi)分為8簇。
第二個(gè)階段,選取2017年10—12月的數(shù)據(jù),運(yùn)用程序運(yùn)算,按k=8,聚類(lèi)分為8簇。
程序分兩個(gè)部分:第一部分是聚類(lèi),調(diào)用K-means 算法;第二部分是利用第一部分的數(shù)據(jù)結(jié)果,運(yùn)用Matplotlib庫(kù)畫(huà)三維散點(diǎn)圖。
5.3.1 第一階段實(shí)驗(yàn)結(jié)果
第一階段實(shí)驗(yàn)結(jié)果見(jiàn)表1和圖1。
表1 第一階段各類(lèi)會(huì)員卡數(shù)量
續(xù)表
圖1 第一階段三維分類(lèi)散點(diǎn)圖
5.3.2 第二階段實(shí)驗(yàn)結(jié)果
第二階段實(shí)驗(yàn)結(jié)果見(jiàn)表2和圖2。
表2 第二階段各類(lèi)會(huì)員卡數(shù)量
圖2 第二階段三維分類(lèi)散點(diǎn)圖
將該商場(chǎng)會(huì)員劃分為8類(lèi),其分類(lèi)特征和營(yíng)銷(xiāo)策略見(jiàn)表3。
表3 會(huì)員特征及營(yíng)銷(xiāo)策略
其中,消費(fèi)非常高的會(huì)員(一段時(shí)間內(nèi)的消費(fèi)總金額超過(guò)該段時(shí)間內(nèi)平均消費(fèi)金額900%的會(huì)員)劃分在高級(jí)會(huì)員中。
近年來(lái),隨著大數(shù)據(jù)分析技術(shù)的發(fā)展,對(duì)客戶(hù)進(jìn)行會(huì)員畫(huà)像,利用會(huì)員標(biāo)簽細(xì)分客戶(hù)類(lèi)型,成為認(rèn)識(shí)和了解商場(chǎng)會(huì)員的重要工具,也為商場(chǎng)制定精細(xì)化的、有針對(duì)性的營(yíng)銷(xiāo)手段提供了數(shù)據(jù)支持。
本研究根據(jù)某商場(chǎng)2017年10月到12月的會(huì)員銷(xiāo)售記錄,通過(guò)K-means 算法聚類(lèi)分析,將該商場(chǎng)3個(gè)月消費(fèi)的會(huì)員劃分為8類(lèi)。通過(guò)會(huì)員的類(lèi)別標(biāo)簽,可以對(duì)不同類(lèi)的會(huì)員使用不同的營(yíng)銷(xiāo)手段,分類(lèi)進(jìn)行商品的宣傳、推送等,挖掘顧客的后續(xù)消費(fèi)力、消費(fèi)價(jià)值,將客戶(hù)的價(jià)值最大化。
鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào)2019年3期