亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于科技資源池的客戶流失預測模型

        2021-06-23 10:10:48郭思杰任春華于亞婷
        制造業(yè)自動化 2021年6期
        關(guān)鍵詞:生命周期殘差樣本

        郭思杰,任春華,于亞婷

        (1.西南交通大學 計算機與人工智能學院,成都 611756;2.電子科技大學,成都 611731)

        0 引言

        科技資源池作為國家創(chuàng)新體系的重要組成部分,能夠起到匯集各類科技資源,促進科技資源流動和提升區(qū)域創(chuàng)新能力的作用[1]。根據(jù)《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》[2],科技資源池服務平臺發(fā)展應順應居民消費升級趨勢,培育新型消費,發(fā)展信息消費、數(shù)字消費、綠色消費。為此,科技資源池服務平臺圍繞價值鏈協(xié)同業(yè)務流程與業(yè)務數(shù)據(jù)等綜合科技服務資源,探究科技服務平臺的客戶交易支撐技術(shù),實現(xiàn)分布式科技資源池的客戶資源關(guān)聯(lián)分析和因果分析,助力客戶在科技資源池服務平臺的消費升級??蛻糇鳛榭萍假Y源池服務平臺的消費主體,其流失情況是科技資源池服務平臺成熟、完善的重要評價指標。因此,研究客戶流失預測模型成為科技資源池服務平臺管理的關(guān)鍵。

        為了降低客戶流失率,國內(nèi)外學者開展了大量研究。早期研究所涉及到的預測模型大部分是單一的分類模型,例如邏輯回歸(logistic regression,LR)[3],樸素貝葉斯分類器(na?ve bayes classifier)[4],支持向量機(support vector machine,SVM)[5],決策樹(decisiontree,DT)[6]和人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)[7]等。但由于客戶數(shù)據(jù)數(shù)量龐大、結(jié)構(gòu)復雜,單一的分類模型在客戶流失預測任務上的表現(xiàn)不理想,許多學者開始嘗試將多個分類器組合起來,期望提高客戶流失預測結(jié)果的準確性。為解決客戶流失預測問題,周捷等人提出長短期記憶(long short-term memory,LSTM)模型集成方法,實驗結(jié)果表明該方法對于預測查準率的提升較單模型LSTM效果顯著[8]。Xie等人為提升客戶流失預測準確性,將隨機森林和重抽樣技術(shù)相結(jié)合,提出平衡隨機森林模型,實驗結(jié)果表明該模型的分類性能優(yōu)于傳統(tǒng)的ANN和DT模型[9]。李為康等人融合多個基于樹的機器學習算法,提出雙層融合結(jié)構(gòu)的預測模型,明顯提高了客戶流失預測的準確率和精準率[10]。

        綜上所述,以上研究無論是使用統(tǒng)計模型還是機器學習模型,對于客戶的生命周期整體管控不強,無法根據(jù)客戶的整體生命周期高精度預測客戶流失。因此,本文考慮到單獨客戶與整體客戶的生命周期有強相關(guān)性的特點,將同期群分析算法對群體行為精準把控的特點與LightGBM算法相結(jié)合,提出了一種基于Cohort-LightGBM的客戶流失預測模型。

        1 Cohort-LightGBM預測模型

        1.1 同期群分析(Cohort Analysis)

        同期群分析(Cohortanalysis)是指在規(guī)定時間內(nèi)對有共同行為特征的用戶進行分群,“共同行為特征”是指在某個時間段內(nèi)客戶具有的相似行為[11]。它可以在縱向上分析具有共同行為特征群組之間的差異,也可以在橫向上分析同期群隨著時間推移而發(fā)生的變化。例如,可以根據(jù)用戶開始訪問平臺服務的時間不同進行群組劃分,同時也可以根據(jù)用戶第一次購買服務的時間來劃分群組。

        對于許多互聯(lián)網(wǎng)產(chǎn)品,客戶的生命周期基本可以分為五個階段,分別是獲取階段、提升階段、成熟階段、衰退階段和流失階段[12]。而在實際情況中,受市場、技術(shù)和監(jiān)管等諸多因素的影響,這五個階段將不再成為客戶生命周期的必經(jīng)階段,有些新客戶可能會直接流失,這使得客戶的生命周期變得更加復雜和難以預測。

        圖1 客戶生命周期的五個階段

        在上述五個階段中,平臺產(chǎn)品的價值轉(zhuǎn)換率π(t)是一個先上后下的過程。對于該過程,文獻[13]給出了式(1)的數(shù)學描述。其中:h1,N1,k1和v1為待定常數(shù);t0為客戶對于平臺盈利平衡點;t0~t1為客戶生命周期的第二階段;t1為第二階段與第三階段的轉(zhuǎn)折點;t1~t2為客戶生命周期的第三階段;t2為第三階段與第四階段的轉(zhuǎn)折點;T為客戶流失的時間。π1(t)為第一階段和第二階段產(chǎn)品價值轉(zhuǎn)換率的擬合函數(shù);π2(t)為第三階段產(chǎn)品價值轉(zhuǎn)換率的擬合函數(shù);π3(t)為第四階段產(chǎn)品價值轉(zhuǎn)換率的擬合函數(shù)。

        同期群分析可以根據(jù)相關(guān)數(shù)據(jù),基本分析出客戶處在生命周期哪個階段,這對于進行用戶生命周期的管理以及對客戶流失的預測具有重要作用。

        1.2 輕量級的梯度提升機

        LightGBM屬于Boosting集成學習中的一種框架,具有穩(wěn)定、高效的特點,支持分布式訓練模型,處理大規(guī)模數(shù)據(jù)效率較高,在工業(yè)界被廣泛應用[14]。LightGBM的實質(zhì)是將多個偏差高方差小的弱模型,按照階梯狀順序進行訓練,每一個弱模型都是基于前一個弱模型進一步訓練后產(chǎn)生的,最終預測結(jié)果為所有弱模型的綜合結(jié)果[15],整體過程為梯度提升,完整訓練過程如圖2所示。

        圖2 LightGBM模型梯度提升訓練過程

        梯度提升的目的是保證損失函數(shù)在不斷的下降,為此需要不斷的基于前一個弱模型訓練下一個弱模型,進而來擬合一棵回歸樹。假設每個單獨的弱模型為fi(x),則復合模型為:

        損失函數(shù)為L[Fm(x),Y],如此當每一次對模型中添加新的弱模型后,將使得損失函數(shù)不斷接近0。

        LightGBM為提升模型的效率和魯棒性,在梯度提升的基礎上采用直方圖優(yōu)化(Histogram)算法,無需遍歷連續(xù)數(shù)據(jù),即可找到最優(yōu)分割點[16]。同時采用限制深度的Leaf-wise算法,防止模型過擬合。表1給出了LightGBM模型的主要參數(shù)及含義[17]。

        表1 LightGBM模型參數(shù)含義

        1.3 Cohort-LightGBM

        Cohort-LightGBM模型的基本思想是在LightGBM模型基礎上,考慮到單獨客戶的生命周期與整體客戶群的生命周期有強相關(guān)性的特點,將同期群分析算法對群體行為把控精準的優(yōu)點與LightGBM算法相結(jié)合,添加一個客戶流失的先驗機制,稱之為同期群先驗機制,也就是對不同同期群的用戶進行加權(quán)。同期群先驗機制嵌入于LightGBM算法,在節(jié)點分裂前計算信息增益,結(jié)合同期群先驗權(quán)重,從而放大或縮小不同梯度樣本的權(quán)重,使得預測結(jié)果符合同期群先驗權(quán)重,提高預測準確性。

        本文提出的Cohort-LightGBM模型,在模型訓練前,進行同期群分析,獲取數(shù)據(jù)真實的同期群類別分布。假設觀測窗口長度為T,有K個目標類別,將一維用戶數(shù)據(jù)Y(T)=((y1),…,(yT))轉(zhuǎn)換為多維同期群時間序列數(shù)據(jù):X1,…XK,(Xi=(Yi1',…Y'i(T-i),0,…,0)),得到同期群先驗矩陣:

        在Cohort-LightGBM模型中,可以將Xi當作同期群第i類客戶數(shù)據(jù)的特征。在決策樹生長過程中,需要完成特征分裂,除了計算用戶數(shù)據(jù)中每個分裂方案的分裂收益,還需計算屬于該用戶的同期群先驗特征Xi,最后根據(jù)分裂收益進行排序,選擇分裂收益最高的方案進行分割。

        分裂收益的計算方法,采用LightGBM模型中的GOSS算法。為了最大化信息增益,GOSS算法會優(yōu)先考慮殘差較大的樣本,同時隨機抽取樣本殘差較小的樣本,在訓練迭代完成后,最終輸出訓練好的強學習器。GOSS算法步驟如下:

        1)在擬合殘差樹之前,計算所有樣本的殘差值,并按照從大到小的順序排列;

        2)設置比例參數(shù)a,得到比例為a的大梯度樣本集作為重點學習對象,其中a為大樣本殘差樣本的采樣 比例;

        3)在剩下的所有樣本中,隨機選取比例為b的樣本,得到小梯度樣本集,其中b為小樣本殘差樣本的采樣比例;

        5)不斷利用上述所取得的樣本進行新一輪的弱學習器訓練;

        6)重復執(zhí)行上述流程,直到達到規(guī)定的迭代次數(shù)后停止。

        在分裂時獲得的信息增益可表示為:

        其中,j為樣本的特征個數(shù),O為訓練決策樹模型的訓練集,gi為殘差值,(d)為左葉子節(jié)點數(shù)量,(d)為右葉子節(jié)點數(shù)量,A表示大殘差值的樣本集,B表示小殘差值的樣本集。

        GOSS算法實際上是通過樣本殘差值的大小劃分訓練數(shù)據(jù),優(yōu)先考慮殘差值較大的樣本,從而減少學習過程中的樣本數(shù)量。GOSS算法不僅提升了模型的預測效果,同時由于訓練樣本的減少,也提升了模型的訓練速度,并且使LightGBM模型的泛化效果更好[18]。

        因此,結(jié)合上述分析,為解決客戶流失預測問題,本文提出了一種Cohort-LightGBM客戶流失預測模型,計算方法如下:

        Algorithm:Cohort-LightGBM

        招遠東湯地熱田地熱水的14C分析結(jié)果見表3,將所測數(shù)據(jù)帶入上式,得出招遠東湯地熱水年齡在3000a左右,而末次冰期發(fā)生時間在10ka以前,因此可以排除時間因素對D與18O值的影響。

        Input:客戶特征數(shù)據(jù)集O,LightGBM模型基本參數(shù),同期群目標類別數(shù)K,迭代次數(shù)M;

        Output:客戶流失預測結(jié)果;

        Step1:根據(jù)同期群目標類別數(shù),計算同期群先驗矩陣;

        Step2:使用梯度提升作為訓練方法,訓練一個弱學習器;

        Step3:對于每一個弱學習器,訓練時將GOSS算法結(jié)合同期 群先驗矩陣計算信息增益,使預測結(jié)果符合同期群分布;

        Step4:在損失函數(shù)不斷下降的前提下,基于前一個弱學習器的殘差訓練下一個弱學習器;

        Step5:重復步驟2)~4),直到訓練出M個弱學習器,并將 M個弱學習器合并,構(gòu)建Cohort-LightGBM模型;

        Step6:向Cohort-LightGBM模型輸入測試數(shù)據(jù)集,輸出預測結(jié)果。

        2 基于Cohort-LightGBM的客戶流失預測模型實驗

        2.1 測試數(shù)據(jù)和實驗環(huán)境

        本文從某服務平臺系統(tǒng)中提取了4373名客戶一年間的54萬條客戶交易記錄,其中包括了訂單編號、訂單日期、商品ID、商品數(shù)量、商品價格、以及用戶ID等,利用Python對交易數(shù)據(jù)集進行數(shù)據(jù)清洗和特征提取,將每個客戶的特征進行抽取,形成客戶特征數(shù)據(jù)集。

        本文的實驗平臺為Inter?CoreTM i5-9300H CPU,16GRAM,NVIDIA GeForce GTX 1660 Ti以及Windows10 64位操作系統(tǒng)。軟件平臺采用Jupyter Notebook,編程語言采用Python3.7。

        2.2 數(shù)據(jù)預處理

        數(shù)據(jù)預處理階段主要包括數(shù)據(jù)清洗、用戶特征數(shù)據(jù)提取、用戶特征聚類以及用戶流失判定。數(shù)據(jù)清洗主要包括基本的去重和去空,并利用箱線圖四分位檢測并剔除異常值,有效數(shù)據(jù)包括50%的觀察值,不易受極端值影響,返回區(qū)間為:

        其中IQR是數(shù)據(jù)集1/4和3/4位置的間隔值。

        用戶特征數(shù)據(jù)提取是基于RFM模型。RFM模型是評估客戶價值場景下被廣泛應用的模型。該模型衡量客戶價值的三個指標是消費時間(Recency)、消費頻率(Frequency)、消費金額(Monetary)[19]。根據(jù)RFM模型定義,利用用戶交易記錄,抽取出三類用戶特征數(shù)據(jù):消費時間的平均間隔(R)、觀測窗口內(nèi)的消費次數(shù)(F)、觀測窗口內(nèi)的消費總額(M)。

        根據(jù)RFM模型的三個指標,進行用戶特征聚類。聚類算法采用無監(jiān)督的聚類算法K-Means算法,該算法認為兩個目標的歐式距離越近,相似度越大[20,21]。每個用戶的RFM指標,在歐幾里得度量中表示為:

        輪廓系數(shù)法是評價聚類效果好壞的一種常見方式。當輪廓系數(shù)越接近1,說明該聚類結(jié)果越合理[22]。本文嘗試了不同的聚類結(jié)果個數(shù),并用輪廓系數(shù)法進行聚類的簇數(shù)量選擇,實驗結(jié)果如圖3所示,根據(jù)實驗結(jié)果確定了聚類數(shù)目為4。

        圖3 基于Cohort-LightGBM算法的用戶流失預測模型

        基于RFM模型,利用K-Means算法,將客戶分為四類,分類結(jié)果如圖4所示。該聚類結(jié)果,也將作為用戶特征之一,應用于客戶流失預測模型中。

        圖4 輪廓系數(shù)法

        圖5 基于RFM模型的用戶聚類

        由于線上用戶的特殊性,客戶是否流失的判定主要是通過客戶是否很長一段時間未到平臺上進行瀏覽和消費。本文假設在觀測窗口內(nèi)最后一次消費時間,距離數(shù)據(jù)采集截至時間超過觀測窗口周期的一半的客戶為流失客戶。

        本次研究將處理好的數(shù)據(jù)依據(jù)客戶流失的比例,隨機拆分成2部分,包括80%用于訓練模型的數(shù)據(jù)和20%用于驗證模型的數(shù)據(jù)。

        表2 客戶數(shù)據(jù)結(jié)構(gòu)

        2.3 客戶流失的同期群分析

        本文將用戶按照用戶在觀測窗口內(nèi)第一次進行產(chǎn)品購買的時間的具體月份劃分成13個同期群,表3為每個同期群的初始人數(shù)。

        表3 同期群初始人數(shù)

        將13個同期群進行同期群分析,并將每個階段的留存人數(shù)除以同期群初始人數(shù),得到同期群先驗矩陣,圖6為同期群先驗矩陣轉(zhuǎn)化為熱圖后的結(jié)果。

        圖6 同期群分析熱圖

        2.4 Cohort-LightGBM模型評估

        在對有效數(shù)據(jù)進行預處理和同期群分析后,構(gòu)建Cohort-LightGBM模型并進行參數(shù)調(diào)優(yōu)。為驗證Cohort-LightGBM模型的預測效果,本文將線性回歸(LR)、K-鄰近(K-nearest neighbor,KNN)、決策樹(DT)、隨機森林(random forest,RF)、樸素貝葉斯(Na?ve Bayesian)、多層感知機(multilayer perceptron,MLP)、支持向量機(SVM)、LightGBM作為對比模型。為了對比上述模型的性能,利用ROC曲線進行模型優(yōu)劣比較,當一個模型的ROC曲線完全“包裹”另一個模型的ROC曲線,則可判斷前者的性能優(yōu)于后者。由圖7可知,Cohort-LightGBM算法的ROC曲線的表現(xiàn)明顯優(yōu)于其他算法,ROC曲線面積達到0.97。

        圖7 各模型ROC曲線對比

        本文同時還采用準確率、召回率、精確率、F1分數(shù)、kappa系數(shù)分析不同模型的預測結(jié)果。由表3可知,Cohort-LightGBM的各項評分皆優(yōu)于其他模型,準確率和F1分數(shù)均高于0.9,相較于LightGBM基礎模型,各方面的提升都十分顯著,可滿足流失客戶預測的要求。因此,使用Cohort-LightGBM模型對客戶流失進行預測,這對用戶生命周期的管理,以及科技資源池服務平臺的優(yōu)化和改進提供了重要的參考價值。

        表3 各模型評分對比

        3 結(jié)語

        由于傳統(tǒng)的統(tǒng)計模型和機器學習模型對不同類型的用戶數(shù)據(jù)缺乏整體的把控,導致客戶流失預測結(jié)果不太理想。本文提出一種Cohort-LightGBM客戶流失預測模型,以某平臺近一年間54萬條交易數(shù)據(jù)為例,依據(jù)客戶流失的比例,取80%數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為驗證集,將結(jié)果與其他多個模型進行對比,實驗結(jié)果表明本文提出的Cohort-LightGBM模型的預測結(jié)果更接近真實值,同時該模型的ROC曲線完全“包住”其他模型的ROC曲線,各項評價指標均優(yōu)于其他模型,表明本文的模型可以更好地根據(jù)客戶數(shù)據(jù)進行客戶流失預測,這對用戶生命周期的管理,以及科技資源池服務平臺的優(yōu)化和改進具有重要的指導意義。

        猜你喜歡
        生命周期殘差樣本
        動物的生命周期
        全生命周期下呼吸機質(zhì)量控制
        基于雙向GRU與殘差擬合的車輛跟馳建模
        用樣本估計總體復習點撥
        基于殘差學習的自適應無人機目標跟蹤算法
        從生命周期視角看并購保險
        中國外匯(2019年13期)2019-10-10 03:37:46
        民用飛機全生命周期KPI的研究與應用
        基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        推動醫(yī)改的“直銷樣本”
        隨機微分方程的樣本Lyapunov二次型估計
        日本一区二区高清视频在线播放 | 国产麻豆md传媒视频| 丁香六月婷婷综合| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 国产97色在线 | 亚洲| 亚洲熟妇AV一区二区三区宅男| 精品日本一区二区视频| 五月天中文字幕日韩在线| 亚洲综合色区另类av| 亚洲AV毛片无码成人区httP| 国产一级一片内射视频在线| 国产精品18久久久白浆| 特级做a爰片毛片免费看无码| 2021av在线| 日韩国产自拍视频在线观看 | 国模无码视频专区一区| 国产精品成年人毛片毛片| 一本大道av伊人久久综合| 国产又色又爽无遮挡免费| 亚洲欧美日韩中文综合在线不卡| 国产成人亚洲系列毛片| 久久天天躁狠狠躁夜夜不卡| 日韩精品一区二区三区视频| 亚洲精品中文字幕尤物综合| 亚洲av区,一区二区三区色婷婷| 日韩精品区一区二区三vr| 午夜亚洲AV成人无码国产| 精品日韩一区二区三区av| 久久99国产精品久久99| 99久久久无码国产精品免费砚床| 色婷婷亚洲十月十月色天| 麻豆最新国产av原创| 精品无码日韩一区二区三区不卡| 日韩丝袜亚洲国产欧美一区| 亚洲精品中文字幕一二三| 国产精品三级av及在线观看 | 人妻无码∧V一区二区| 亚洲日本人妻少妇中文字幕| 风韵多水的老熟妇| 婷婷色综合成人成人网小说| 在线观看视频亚洲一区二区三区|