亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社交網(wǎng)絡分析和XGBoost算法的互聯(lián)網(wǎng)客戶流失預測研究*

        2017-12-18 11:05:11王重仁韓冬梅
        關鍵詞:網(wǎng)絡分析結點社交

        王重仁,韓冬梅

        (上海財經(jīng)大學 信息管理與工程學院,上海 200433)

        基于社交網(wǎng)絡分析和XGBoost算法的互聯(lián)網(wǎng)客戶流失預測研究*

        王重仁,韓冬梅

        (上海財經(jīng)大學 信息管理與工程學院,上海 200433)

        針對互聯(lián)網(wǎng)行業(yè)的客戶流失預測問題,提出了一種社交網(wǎng)絡分析和機器學習相結合的客戶流失預測方法??紤]到社交活動對用戶流失的影響,首先采用社交網(wǎng)絡分析方法從用戶社交數(shù)據(jù)中提取特征,然后使用XGBoost(Extreme Gradient Boosting)算法來進行客戶流失預測,最后將該方法與其他機器學習算法(Logistic回歸、支持向量機和隨機森林)進行比較。實驗結果表明,所提出的社交網(wǎng)絡分析和XGBoost相結合的客戶流失預測方法優(yōu)于傳統(tǒng)方法。

        客戶流失預測;社交網(wǎng)絡分析;機器學習;XGBoost

        0 引言

        近年來,國內(nèi)互聯(lián)網(wǎng)行業(yè)發(fā)展迅速,市場競爭越來越激烈,同時,隨著市場的逐漸飽和,獲取新客戶變得越來越困難。因為獲取一個新客戶的成本遠遠大于留存一個現(xiàn)有客戶的成本[1],因此,越來越多的企業(yè)關注客戶留存,客戶留存可以維系客戶關系,有效延長客戶生命周期[2]。

        客戶留存的關鍵點在于防止客戶流失,客戶流失是指客戶終止或者顯著減少使用企業(yè)提供的產(chǎn)品或服務,而轉向了其他企業(yè)[1]??蛻袅魇P偷膶嵸|(zhì)是基于客戶的人口統(tǒng)計特征、歷史行為等信息,建立流失預測模型,計算客戶的流失概率。進行潛在流失客戶的預測分析并制定有針對性的挽留策略,能夠減少企業(yè)客戶流失率和利潤損失[3]。

        目前客戶流失預測研究中,大多專注于研究客戶個體行為,沒有考慮用戶之間關系的影響。近幾年,在一些研究中,社交網(wǎng)絡分析方法開始應用于客戶流失預測模型,并且研究表明,考慮社交網(wǎng)絡影響后模型預測能力得到了提升[4]。這種方法是從社交網(wǎng)絡中提取特征作為變量,然后結合其他的特征,使用機器學習分類算法來進行預測。比如,Benedek等人[5]利用社交網(wǎng)絡分析來進行電信行業(yè)客戶流失預測研究。

        隨著經(jīng)濟與社會的發(fā)展,數(shù)據(jù)挖掘技術廣泛應用到各個領域[6]。近年來,陳天奇[7]對GBDT(Gradient Boosting Decision Tree)算法進行改進,提出了一種設計高效、靈活并且可移植性強的最優(yōu)分布式?jīng)Q策梯度提升庫(Extreme Gradient Boosting,XGBoost),該算法曾經(jīng)在國外數(shù)據(jù)競賽平臺Kaggle的比賽中多次取得了最好的成績。目前該算法已被用于銀行破產(chǎn)預測[8]、網(wǎng)絡入侵檢測[9]等領域,然而目前尚未有研究將該算法用于用戶流失預測。

        本文以國內(nèi)一家互聯(lián)網(wǎng)金融平臺為研究對象。在互聯(lián)網(wǎng)金融行業(yè),為更好地吸引新用戶注冊,一般都會建立一套好友推薦獎勵機制,這種好友推薦行為就構成一個復雜的社交網(wǎng)絡。隨著互聯(lián)網(wǎng)行業(yè)中好友推薦數(shù)據(jù)的不斷積累,這部分數(shù)據(jù)中隱藏了大量有價值的信息,因此如何深入挖掘這部分信息的價值,以此來提升流失模型的預測能力,是一個值得研究的問題。

        1 方法

        1.1 變量

        本文將變量分為兩類:個體變量和社會網(wǎng)絡變量。個體變量包括用戶的基本信息和用戶行為變量,這些變量描述用戶的個體特征,未考慮個體之間的關聯(lián)信息。相反,社會網(wǎng)絡變量考慮了用戶之間的關聯(lián)信息。

        個體變量分為用戶基本信息變量和用戶行為變量。用戶基本信息變量包括:性別、年齡和地區(qū)。行為變量是從用戶的交易行為數(shù)據(jù)中提取的變量,包括:時間長度、頻率、金額、間隔時間4類,共計12個變量。變量如表1所示。

        表1 變量列表

        社交網(wǎng)絡變量對于模型的預測效果的提升可以解釋為社交網(wǎng)絡同質(zhì)性。同質(zhì)性是指人們傾向于與自己具有相似特征的個體成為朋友,它可以用來預測互動頻繁的人之間的相似性或者預測具有相似行為的人之間的交互行為[10]。

        社交網(wǎng)絡結構由結點和邊組成,其中結點表示用戶,而邊(結點之間的連接)則表示用戶之間建立的關系,社交網(wǎng)絡的拓撲結構用圖G=(V,E)表示,其中n=|V|表示結點數(shù);vi表示結點i;eij表示結點i和j之間的邊;A表示圖的鄰接矩陣。

        中心性定義了網(wǎng)絡中一個結點的重要性。本文選擇常用的度中心性、特征向量中心性和中間中心性作為變量。最直接的中心性度量方式是度中心性,是在網(wǎng)絡分析中刻畫結點中心性的最直接度量指標。一個結點的結點度越大就意味著這個結點的度中心性越高,該結點在網(wǎng)絡中就越重要。

        結點vi的度中心性Cd為:

        (1)

        其中n代表結點數(shù)。

        本文使用圖的鄰接矩陣A記錄鄰居結點,設Ce(vi)表示結點vi的特征向量中心性,該值是其鄰居結點中心性的函數(shù),并且在它的鄰居結點中心性的總和中占一定的比例:

        (2)

        其中,ρ是某個固定的常量。

        中間中心性考慮結點在連接其他結點時所表現(xiàn)出的重要性。首先計算其他結點通過結點vi的最短路徑數(shù)目:

        (3)

        其中σst代表從結點s到結點t的最短路徑的數(shù)目,σst(vi)是從結點s到t經(jīng)過vi的最短路徑數(shù)目,這種度量方法稱為中間中心性。

        (4)

        最后共選擇了7個社交網(wǎng)絡變量,社交網(wǎng)絡變量如表1所示。

        1.2 算法

        GBDT是2001年Friedman等人提出的一種Boosting算法。它是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論加起來作為最終答案。XGBoost是一種改進的GBDT算法[7],該算法與GBDT有很大的區(qū)別[9]。GBDT在優(yōu)化時只用到一階導數(shù),XGBoost則同時用到了一階導數(shù)和二階導數(shù),同時算法在目標函數(shù)里將樹模型復雜度作為正則項,用以避免過擬合。

        XGBoost算法目標函數(shù):

        (5)

        根據(jù)泰勒展開式:

        (6)

        同時令:

        (7)

        決策樹復雜度計算公式:

        (8)

        將式(6)、 (7)、 (8)代入式(5),求得目標函數(shù):

        (9)

        (10)

        (11)

        利用式(11)來尋找出一個最優(yōu)結構的樹,加入到模型中,通常情況下枚舉出所有可能的樹結構是不可能的,因此使用貪心算法來尋找最優(yōu)樹結構。

        決策樹分割時,增益計算公式如下:

        Gain(φ)=

        (12)

        在樹的學習中一個關鍵問題是根據(jù)式(12)找到最優(yōu)的分割方案,也就是一種分割尋找算法,這個算法稱為精確貪心算法。

        在本文中,為了證明XGBoost在用戶流失預測問題上的優(yōu)越性,選擇了三個在客戶流失預測研究中常用的算法進行對比:Logistic回歸(LR)、支持向量機(SVM)、隨機森林(RF)。

        1.3 評價指標

        樣本實際狀態(tài)和預測狀態(tài)對比如表2所示。

        表2 分類結果混淆矩陣

        準確率和提升系數(shù)計算公式:

        (13)

        (14)

        提升系數(shù)是指使用模型的預測能力與不用模型相比,預測能力提高的倍數(shù)。因互聯(lián)網(wǎng)用戶較多,在企業(yè)資源有限的情況,企業(yè)只能選擇流失率最高的一部分用戶來進行客戶挽留措施,因此本文選擇客戶流失研究領域中常用的Lift(10%)作為本文的一個評價指標,該指標側重衡量流失風險最高的那一部分用戶。該指標首先將用戶按照算法預測的流失概率進行排序,然后選擇概率前10%用戶,計算這部分用戶的實際命中率(TP/(TP+FP)),最后用命中率除以總數(shù)據(jù)中的流失人數(shù)比例即得到Lift(10%)值。

        ROC(Receiver Operating Characteristic)和AUC(Area under Curve)指標。首先計算真陽性率(TPR)和假陽性率(FPR)的值,然后以FPR和TPR為坐標形成折線圖,即ROC曲線。

        (15)

        (16)

        ROC曲線越靠近左上角,分類模型的準確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。

        2 結果

        2.1 數(shù)據(jù)預處理

        本文數(shù)據(jù)來源于國內(nèi)一家互聯(lián)網(wǎng)金融平臺,本文獲得的數(shù)據(jù)共包含4 143條用戶數(shù)據(jù)信息。數(shù)據(jù)包含用戶的基本信息、交易行為數(shù)據(jù)和社交數(shù)據(jù)。

        將數(shù)據(jù)分為觀察期和預測期兩個時間段,最后選定了10個月的數(shù)據(jù)來進行流失預測研究,前7個月為觀察期,接下來的3個月作為預測期。利用觀察期的數(shù)據(jù)進行模型訓練,預測期的數(shù)據(jù)只用于建立目標變量標簽。根據(jù)公司業(yè)務的實際情況,將流失用戶定義為:用戶預測期內(nèi)無任何交易記錄并且用戶賬戶內(nèi)無余額。

        本文首先基于用戶邀請關系,使用社交網(wǎng)絡分析軟件構建社交網(wǎng)絡,然后計算網(wǎng)絡指標并輸出,從用戶交易行為數(shù)據(jù)中提取行為變量,最后將所有的變量進行合并。將類別型變量,如性別,轉換為One-hot編碼,同時將連續(xù)型變量進行了Z-score標準化處理。

        為了對比網(wǎng)絡變量對于模型的預測能力的提升,本文將數(shù)據(jù)集劃分為兩類,一類為不包含網(wǎng)絡變量的數(shù)據(jù)集,另一類為包含所有變量的數(shù)據(jù)集。在這兩類不同的數(shù)據(jù)集上分別運行模型。

        2.2 結果分析

        實驗結果如表3和表4所示,表中顯示了4種模型在不同數(shù)據(jù)集上實驗結果的準確率、AUC值、提升系數(shù)。從表中可以看到,對于兩類數(shù)據(jù)集,XGBoost都具有最高的準確率、AUC值和提升系數(shù),隨機森林次之,SVM和邏輯回歸效果較差。同時從圖1和圖2可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶流失預測性能。

        表3 算法運行結果(不包含網(wǎng)絡變量數(shù)據(jù)集)

        表4 算法運行結果(包含所有變量數(shù)據(jù)集)

        圖1 ROC曲線(不包含網(wǎng)絡變量數(shù)據(jù)集)

        圖2 ROC曲線(包含所有變量數(shù)據(jù)集)

        對于兩個數(shù)據(jù)集而言,不同分類算法在包含網(wǎng)絡變量的數(shù)據(jù)集上的表現(xiàn)普遍優(yōu)于不包含網(wǎng)絡變量數(shù)據(jù)集上的表現(xiàn),其中準確率提升2.5%~5.3%,AUC提升2.1%~4.4%,Lift(10%)提升8.1%~9.8%。對于所有模型而言,包含網(wǎng)絡變量的XGBoost模型預測效果最佳。

        3 結論

        本文針對互聯(lián)網(wǎng)行業(yè)的客戶流失預測問題,提出了一種社交網(wǎng)絡分析和機器學習相結合的客戶流失預測方法,首先采用社交網(wǎng)絡分析方法從用戶社交數(shù)據(jù)中提取特征,將社交網(wǎng)絡特征作為用戶流失預測的輸入變量,然后使用XGBoost算法來對客戶流失進行預測,最后將該方法與其他機器學習算法進行比較。

        實驗結果表明,XGBoost模型的客戶流失預測性能要優(yōu)于其他模型的預測性能。進一步而言,包含網(wǎng)絡變量的模型表現(xiàn)性能均優(yōu)于不包含網(wǎng)絡變量的模型表現(xiàn)性能,從而說明,社交網(wǎng)絡分析和XGBoost相結合的客戶流失預測方法優(yōu)于傳統(tǒng)方法。本文提出的客戶流失模型有助于互聯(lián)網(wǎng)企業(yè)開發(fā)不同的留存策略,針對流失用戶采取措施,以更好地挽留用戶。

        [1] HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: State-of-the-art and future trends[J]. Computers & Operations Research, 2007, 34(10): 2902-2917.

        [2] 文篤石. 基于數(shù)據(jù)倉庫的客戶挽留系統(tǒng)[J]. 微型機與應用, 2015, 34(18): 11-13.

        [3] 徐子偉,王傳啟,王鵬,等.基于分步特征提取和組合分類器的電信客戶流失預測模型[J].微型機與應用,2016,35(13):51-54.

        [4] OSKARSDOTTIR M, BRAVO C, VERBEKE W, et al. A comparative study of social network classifiers for predicting churn in the telecommunication industry[C].IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, 2016: 1151-1158.

        [5] BENEDEK G, LUBLY, VASTAG G. The importance of social embeddedness: churn models at mobile providers[J]. Decision Sciences, 2014, 45(1): 175-201.

        [6] 黃海新, 吳迪, 文峰. 決策森林研究綜述[J]. 電子技術應用, 2016, 42(12): 5-9.

        [7] CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016: 785-794.

        [8] ZIEBA M, TOMCZAK S K, TOMCZAK J M. Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction[M].Pergamon Press,Inc.,2016.

        [9] 封化民, 李明偉, 侯曉蓮,等. 基于SMOTE和GBDT的網(wǎng)絡入侵檢測方法研究 [J/OL].(2017-01-23)[2017-04-30].http://www.cnki.net/kcms/detail/51.1196.TP.20170123.1559.090.html

        [10] OSKARSDOTTIR M, BRAVO C, VERBEKE W, et al. A comparative study of social network classifiers for predicting churn in the telecommunication industry[C]. IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. IEEE, 2016: 1151-1158.

        A study on Internet customer churn prediction based on social network analysis and XGBoost

        Wang Chongren, Han Dongmei

        (Department of Information Management and Engineering, Shanghai University of Finance and Economics, Shanghai 200433, China)

        In this paper, a method of customer churn prediction in the Internet industry is proposed, which is based on the combination of social network analysis and machine learning. Considering the influence of social activities for churn, firstly, social network analysis is used to extract features from the user's social data, then XGBoost (Extreme Gradient Boosting) is used to predict customer churn. Finally, the proposed method is compared with other machine learning algorithms (suoh as Logistic regression, support vector machine, and random forest). The experimental results show that the combination of social network analysis and XGBoost is better than the traditional method of customer churn prediction.

        customer churn prediction; social network analysis; machine learning; extreme gradient boosting

        TP391

        A

        10.19358/j.issn.1674- 7720.2017.23.017

        王重仁,韓冬梅.基于社交網(wǎng)絡分析和XGBoost算法的互聯(lián)網(wǎng)客戶流失預測研究[J].微型機與應用,2017,36(23):58-61.

        上海財經(jīng)大學研究生教育創(chuàng)新計劃項目(2015111101)

        2017-05-09)

        王重仁(1984-),男,博士研究生,主要研究方向:數(shù)據(jù)挖掘。

        韓冬梅(1961-),女,博士生導師,教授,主要研究方向:經(jīng)濟分析與預測。

        猜你喜歡
        網(wǎng)絡分析結點社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        基于ISM模型的EPC項目風險網(wǎng)絡分析
        社交距離
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        鐵路有線調(diào)度通信的網(wǎng)絡分析
        Ladyzhenskaya流體力學方程組的確定模與確定結點個數(shù)估計
        2016年社交網(wǎng)絡分析
        大班幼兒同伴交往的社會網(wǎng)絡分析
        基于Raspberry PI為結點的天氣云測量網(wǎng)絡實現(xiàn)
        亚洲精品一区二区三区新线路| 欧美色综合高清视频在线| 亚洲精品成人国产av| 精品亚洲av一区二区| 日本一区二区三区视频在线观看| 免费a级作爱片免费观看美国 | 色欲国产精品一区成人精品| 国产黄色污一区二区三区| 中文字幕在线看精品乱码 | 久久婷婷五月综合97色一本一本 | 国产精品免费久久久久影院仙踪林| 日本成人字幕在线不卡| 亚洲狠狠久久五月婷婷| 亚洲色图片区| 国产一区二区三区av在线无码观看| 乱人伦人妻中文字幕不卡| 少妇又骚又多水的视频| 女人被狂躁c到高潮视频| 国产尤物精品自在拍视频首页 | 亚洲一区二区三区一站| 桃红色精品国产亚洲av| 欧美肥胖老妇做爰videos| 欧美性一区| 日本女同性恋一区二区三区网站| 国产私人尤物无码不卡| 久久精品人妻一区二区三区| 91在线无码精品秘 入口九色十| 亚洲国产av一区二区三区天堂| 无码成人一区二区| 人妻熟妇乱系列| 清纯唯美亚洲经典中文字幕| 成人试看120秒体验区| 粗大的内捧猛烈进出在线视频| 国产精品成人久久一区二区| 国产在线播放一区二区不卡| 午夜成人理论无码电影在线播放| 欧美日韩综合在线视频免费看 | 成年人视频在线播放视频| 一道本久久综合久久鬼色| 999久久久无码国产精品| 阿v视频在线|