亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類隨機采樣和代價敏感的電信客戶流失預測集成模型*

        2024-01-10 06:54:54李毅馬文斌李國祥
        企業(yè)科技與發(fā)展 2023年11期
        關鍵詞:代價類別權重

        李毅,馬文斌,李國祥

        (1.澳門科技大學商學院決策科學系,澳門氹仔,999078;2.廣西財經(jīng)學院大數(shù)據(jù)與人工智能學院,廣西南寧 530007;3.廣西財經(jīng)學院教務處,廣西南寧 530007;4.廣西財稅大數(shù)據(jù)分析工程研究中心,廣西南寧 530007;5.廣西財經(jīng)學院網(wǎng)絡與信息技術中心,廣西南寧 530007)

        0 引言

        近年來,新冠病毒疫情防控激發(fā)了全社會的數(shù)字化消費需求,我國對加快數(shù)字經(jīng)濟發(fā)展也做出專門部署。作為國民經(jīng)濟基礎性、戰(zhàn)略性、先導性產(chǎn)業(yè)的電信業(yè)呈現(xiàn)持續(xù)健康發(fā)展的態(tài)勢。工業(yè)和信息化部發(fā)布的《2021年通信業(yè)統(tǒng)計公報》顯示,2021年我國電信業(yè)務收入累計完成1.47 萬億元,較2020年同比增長8.0%,增速較2020年凈增4.1 百分點[1],但是從市場需求來看,市場已基本趨于飽和,用戶增長速度減緩,依靠用戶規(guī)模增長拉動收入增長將受到影響,在這種情況下,獲取新客戶的成本要比保留現(xiàn)有客戶的成本高得多[2]。如何有效留住現(xiàn)有客戶越來越受到學術界和業(yè)界的關注。

        預測客戶流失的概率是客戶留存的重要環(huán)節(jié),其發(fā)展水平是衡量客戶保持策略的有效性和客戶關系管理智能化程度的重要標志。但是電信行業(yè)具有客戶較穩(wěn)定、流失率較低、數(shù)據(jù)高度不平衡的特點,支持向量機[3]、神經(jīng)網(wǎng)絡[4]等機器學習算法通常假設輸入數(shù)據(jù)是類別平衡的數(shù)據(jù),在不平衡數(shù)據(jù)上的泛化能力有所下降。因此,設計一種能夠提高識別流失客戶率的模型至關重要。

        為此,本研究將基于聚類的隨機采樣、編輯最近鄰的數(shù)據(jù)清洗方法(Edited Nearest Neighbours,ENN)、代價敏感學習的梯度提升決策樹、Bagging 集成學習等多種技術,提出一種能夠提高預測客戶流失準確度的新模型。首先,在特征層面利用特征選擇方法降低噪聲、冗余特征的影響;其次,在數(shù)據(jù)層面利用聚類隨機采樣、編輯最近鄰方法降低數(shù)據(jù)的不平衡度;最后,在算法層面利用代價敏感學習提高梯度提升決策樹對不平衡數(shù)據(jù)的適應性,集成若干代價敏感梯度提升決策樹的預測結(jié)果,提高模型的泛化能力,并通過4個高度不平衡的數(shù)據(jù)驗證該模型的有效性。

        1 相關研究

        1.1 客戶流失預測

        預測客戶流失率的關鍵在于具有高準確度的模型和處理數(shù)據(jù)特征的能力。隨著人工智能的發(fā)展,以統(tǒng)計學、統(tǒng)計機器學習等方法為主,客戶流失預測研究取得豐富的成果。根據(jù)研究使用方法的不同,可以大致將研究劃分為如下3個階段。

        (1)單模型階段。這一階段是客戶流失預測的早期階段,邏輯回歸[5]、決策樹[6]、支持向量機、神經(jīng)網(wǎng)絡等分類方法在流失預測模型的構(gòu)建中發(fā)揮重要作用。

        (2)集成學習階段。集成學習是機器學習中的重要研究方向之一,其基本結(jié)構(gòu)是先構(gòu)建多個具有差異性的基分類器,然后利用適當?shù)慕M合策略將結(jié)果進行整合,??色@得比單個分類器更好的泛化能力。為進一步提高預測模型的性能,研究者將隨機森林[7]、ADABOOST[8]等集成學習方法引入客戶流失預測中;XIAO等[9]將集成學習與代價敏感學習相結(jié)合,提出了一種針對不平衡數(shù)據(jù)的動態(tài)分類器集成方法;IDRIS 等[10]將遺傳規(guī)劃的搜索能力與Adaboost 的分類能力及粒子群優(yōu)化的欠采樣方法的不平衡數(shù)據(jù)處理能力相結(jié)合,提出一種具有更好的流失識別能力的高性能流失預測系統(tǒng);LU 等[11]根據(jù)boosting 算法分配的權重將客戶分成兩個簇,并在每個類簇上分別建立流失預測模型;李為康等[12]為避免維度災難和數(shù)據(jù)稀疏問題,提出一種包含Stacking 層和Voting 層的雙層預測模型;肖進等[13]將元代價敏感學習、半監(jiān)督學習融入Bagging 集成中,解決客戶數(shù)據(jù)有標簽樣本數(shù)量少且類別不平衡的問題;GATTERMANN-ITSCHERT 等[14]利用隨機森林流失預測模型,在數(shù)據(jù)的多個時間切片上訓練模型,顯著提高客戶流失預測性能。

        (3)深度學習階段。近年來,深度學習方法在計算機視覺、自然語言處理、推薦系統(tǒng)等領域取得顯著的成就。在客戶流失預測領域,由于數(shù)據(jù)規(guī)模的極速擴大和數(shù)據(jù)復雜性的增加,急需開發(fā)新的具有大數(shù)據(jù)處理能力的預測模型。周捷等[15]引入長短期記憶網(wǎng)絡LSTM,對客戶數(shù)據(jù)中的時序數(shù)據(jù)進行建模,顯著地提高了流失預測效果;夏國恩等[16]針對數(shù)據(jù)中的離散特征,提出2 種基于多層感知機的處理方法,避免了維度災難和數(shù)據(jù)稀疏的問題;CENGGORO等[17]通過在深度學習中的向量嵌入概念構(gòu)建可解釋模型,模型所生成的向量在流失客戶和忠實客戶之間具有高度的區(qū)分性;李波等[18]利用生成對抗網(wǎng)絡生成少數(shù)類樣本,在銀行客戶流失分類問題上取得良好的效果。

        上述研究對提高客戶流失預測模型的性能具有重要意義,但在高度不平衡客戶數(shù)據(jù)處理方面仍存在以下不足:①在實際業(yè)務環(huán)境中,客戶流失數(shù)據(jù)是一種高度不平衡的數(shù)據(jù)。然而,當前國內(nèi)外關于不平衡客戶流失預測的研究大都使用不平衡度較低或類別平衡的客戶數(shù)據(jù)來驗證提出方法的有效性,但是大部分數(shù)據(jù)僅有數(shù)千條樣本,規(guī)模相對較小,這樣的實驗數(shù)據(jù)無法充分體現(xiàn)客戶流失數(shù)據(jù)的特點。②客戶流失預測領域中處理不平衡數(shù)據(jù)的手段比較單一,研究成果還不夠豐富。單一的方法在大規(guī)模、高度不平衡客戶數(shù)據(jù)的情況下都存在缺點,如欠采樣通常會因為少數(shù)類樣本個數(shù)太少導致采樣后的訓練集樣本數(shù)量不足,預測模型無法充分學習數(shù)據(jù)特征;過采樣會生成大量的少數(shù)類樣本,增加數(shù)據(jù)集的規(guī)模,降低模型學習效率,并且客戶數(shù)據(jù)特征復雜度較高,往往包含大量離散特征,生成樣本難度大;基于代價敏感的方法則會因為流失客戶數(shù)量太少而導致預測方法對其識別率較低。

        1.2 不平衡數(shù)據(jù)分類方法

        當前關于不平衡數(shù)據(jù)分類的研究主要從數(shù)據(jù)層面和算法層面給出解決方案[19-20]。數(shù)據(jù)層面主要包括在樣本空間中進行的重采樣方法和優(yōu)化特征空間的特征選擇方法;算法層面主要是優(yōu)化樣本權重的重加權方法,需要對分類算法進行修改,使其能夠適應不平衡數(shù)據(jù),提高少數(shù)類樣本的識別率。由于文中主要研究重采樣方法和重加權方法在高度不平衡客戶流失預測中的應用,下文將從重采樣、重加權兩方面對不平衡數(shù)據(jù)處理方法進行概述。

        (1)重采樣。重采樣通過調(diào)整訓練集樣本數(shù)量來平衡類別分布,常用的有欠采樣(Under-sampling)、過采樣(Over-sampling)等方法。欠采樣以減少多數(shù)類樣本數(shù)量的方式平衡不同類別樣本的數(shù)量,最常用的欠采樣方法是隨機欠采樣,然而隨機欠采樣存在多數(shù)類中的一些有用數(shù)據(jù)可能會被消除的局限性。研究者通過引入聚類[21]、實例選擇[22]等策略,有效解決隨機欠采樣的局限性。過采樣以增加少數(shù)類樣本的方式,提高少數(shù)類樣本的比例,進而提高分類模型對少數(shù)類樣本的識別率。目前較為常用的方法是合成少數(shù)過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)[23]。PUSTOKHINA 等[24]利用多目標降雨優(yōu)化算法(Multi-objective rain optimization)確定SMOTE 的最佳采樣率,提出一種改進的綜合少數(shù)過采樣技術。

        隨著研究的深入,研究者將重采樣技術融入集成學習,極大地提升了不平衡數(shù)據(jù)分類算法的泛化能力。RUSBoost[25]、EasyEnsemble[26]及基于自步學習的集成學習[27]等方法在多個數(shù)據(jù)集上擁有優(yōu)秀的表現(xiàn);ZHU 等[28]綜合比較了在客戶流失預測環(huán)境中處理類別不平衡的技術的性能,實驗結(jié)果表明,所采用的評價指標對技術性能有較大影響,采用AUC 時,Bagging與隨機欠采樣的結(jié)合顯示其優(yōu)越性。

        (2)重加權。重加權方法通過為不同類別甚至不同的樣本分配不同的權重,降低分類方法在不平衡數(shù)據(jù)上的偏差。重加權中的代表性方法是代價敏感學習[29],其通常在代價矩陣中為不同類別數(shù)據(jù)設置不同的誤分代價。平瑞等[30]認為代價敏感方法在高度不平衡數(shù)據(jù)上性能較差,由此基于聚類的弱平衡準則,提出一種處理高度不平衡數(shù)據(jù)的代價敏感隨機森林;GAN 等[31]認為錯誤分類代價會隨著樣本概率分布的變化而變化,提出一種結(jié)合代價敏感分類算法的TANBN 算法,以提高分類精度;王俊紅等[32]將代價敏感與欠采樣相結(jié)合,在Adaboost 權重更新階段賦予少數(shù)類更高的誤分代價。與重采樣方法相比,代價敏感學習方法通常僅在原始數(shù)據(jù)上修改損失函數(shù),有效利用所有樣本信息,計算效率更高,更適合處理大數(shù)據(jù)。

        重采樣方法和重加權方法各有優(yōu)劣,組合使用兩類方法,可以避免單一方法的不足,同時可以集成兩類方法的優(yōu)勢,提高對少數(shù)類樣本的識別率。

        1.3 梯度提升決策樹

        2001年,F(xiàn)RIEDMAN 提出了梯度提升決策樹[33](Gradient Boosting Decision Tree,GBDT)。GBDT 是以CART 樹為基學習器的提升方法,利用前向分步和加法模型實現(xiàn)學習的優(yōu)化過程,其核心思想是用損失函數(shù)的負梯度近似模擬提升樹中的殘差。假設訓練集D=({x1,y1),(x2,y2),…,(xm,ym)},其中xi=(xi1,xi2,…,xid),yi∈{0,1},損失函數(shù)為L(y,(fx)),根據(jù)《統(tǒng)計學習方法》,GBDT算法過程如下:

        初始化一個只有根節(jié)點的樹,估計使損失函數(shù)極小化的常數(shù)值:

        迭代訓練N棵樹,n=1,2,…,N。

        對每個樣本i=1,2,…,M,計算損失函數(shù)的負梯度,將其作為殘差的估計:

        將公式(2)中計算出的rni作為樣本標簽,擬合一個CART 回歸樹,得到包含J 個葉子節(jié)點的葉節(jié)點區(qū)域Rnj,j=1,2,…,J。

        對j=1,2,…,J,計算葉子結(jié)點最佳擬合值,使損失函數(shù)最小化:

        更新學習器:

        得到最終學習器:

        綜上所述,目前在客戶流失預測領域和不平衡數(shù)據(jù)分類方面的相關成果較多,但針對高度不平衡的客戶數(shù)據(jù)進行的研究較少。因此,本研究構(gòu)建一種融合多種不平衡數(shù)據(jù)分類技術的電信客戶流失預測模型,以期為企業(yè)制定和實施客戶留存策略提供參考。

        2 聚類隨機采樣和代價敏感的集成學習模型

        假設訓練集D中的大類別樣本集為N,小類別樣本集為P。RWBC-Ensemble 首先對客戶流失數(shù)據(jù)進行特征選擇,降低特征維度,然后根據(jù)隨機選擇的采樣率,從聚類后的N中隨機選擇部分樣本與P組成不平衡度較低的訓練子集,接著利用ENN 對訓練子集進行數(shù)據(jù)清洗,最后在該子集上訓練一個樣本權重不對稱初始化的GBDT。重復上述過程若干次后,集成所有GBDT的輸出作為最終的預測結(jié)果。模型流程圖如圖1所示。

        圖1 RWBC-Ensemble流程圖

        2.1 特征選擇

        客戶流失數(shù)據(jù)往往包含大量的連續(xù)特征和離散特征,若根據(jù)某種概率估計和分類決策函數(shù)規(guī)則從中選擇出最優(yōu)特征子集,僅利用部分特征構(gòu)建預測模型,不僅可以減小特征中的噪聲,而且可以降低后續(xù)預測模型的學習難度。在RWBC-Ensemble 中,研究利用XGBoost計算出的特征重要性篩選特征。

        2.2 聚類隨機采樣

        數(shù)據(jù)層面的欠采樣方法通常以少數(shù)類樣本數(shù)量為基準,對多數(shù)類樣本進行下采樣,達到平衡數(shù)據(jù)類別的目的。然而,在處理高度不平衡的客戶流失數(shù)據(jù)時,完全平衡的欠采樣容易造成多數(shù)類樣本信息大量丟失。假設一個不平衡度為50的客戶流失數(shù)據(jù)集,若流失客戶有100 個樣本,非流失客戶則有5 000 個樣本,欠采樣后的新數(shù)據(jù)集僅有200 個樣本,丟失98%的非流失客戶數(shù)據(jù)。同時,1∶1 的采樣比例并不一定是最佳的采樣比例。采樣比例對預測模型的性能具有重要的影響,最佳采樣比例與數(shù)據(jù)本身有關,但是很難找到一個適用于多個數(shù)據(jù)的采樣比例。此外,對多數(shù)類樣本進行簡單的隨機欠采樣,存在容易破壞數(shù)據(jù)分布的問題。

        聚類隨機采樣策略嘗試利用采樣比例的隨機性和重復性及聚類的“簇內(nèi)相似度高,簇間相似度低”的特點解決上述問題。具體而言,首先,利用k-means聚類方法將非流失客戶劃分為多個類簇;其次,設置一個較低的采樣比例列表,如可以將其控制在1~10之間,接著從中隨機選擇一個數(shù)值作為采樣率,按比例從不同的類簇中隨機選擇若干樣本組成新的非流失客戶樣本,以便保持非流失客戶數(shù)據(jù)分布并利用更多的非流失客戶數(shù)據(jù);最后,通過多次采樣,獲得若干擁有不同不平衡度的數(shù)據(jù)集,從而可以利用集成學習的思想,降低單次、非最佳采樣率對模型性能的影響,同時進一步提高非流失客戶數(shù)據(jù)信息的利用率。

        2.3 基于編輯最近鄰的數(shù)據(jù)清洗

        客戶流失預測模型性能除受類別不平衡的影響之外,流失客戶數(shù)據(jù)與非流失客戶數(shù)據(jù)在分布上的重疊也是降低其性能的重要影響因素。清除決策邊界附近的樣本,可以令不同類別的樣本更具有區(qū)分度。為此,本文在RWBC-Ensemble 中加入數(shù)據(jù)清洗模塊,利用編輯最近鄰方法(EditedNearestNeighbours,ENN)移除流失客戶附近的非流失客戶。

        2.4 樣本權重不對稱初始化的GBDT

        梯度提升樹既適用于回歸也可用于分類。用于回歸問題時一般采用方差損失函數(shù),處理分類問題時通常采用邏輯回歸的對數(shù)損失函數(shù)[如公式(6)所示]。

        在公式(6)中,每個樣本的權重都是一樣的。假設少數(shù)類樣本的類別是1,多數(shù)類樣本的類別為0,在數(shù)據(jù)類別不平衡的情況下,葉子結(jié)點中會存在較多的類別為0的樣本,使多數(shù)類樣本的權重大于少數(shù)類樣本的權重。此時,模型的預測結(jié)果中會出現(xiàn)大量的類別0,導致預測結(jié)果出現(xiàn)偏差。

        上文中,經(jīng)過隨機采樣和數(shù)據(jù)清洗后的數(shù)據(jù)依然是不平衡數(shù)據(jù),為使GBDT在這樣的數(shù)據(jù)上保持穩(wěn)定的預測性能,提出一種不對稱初始化樣本權重的方法。該方法根據(jù)數(shù)據(jù)類別間的比例,為不同類別的樣本賦予不同的權重,構(gòu)建代價敏感的GBDT。不同類別的樣本權重的計算公式如下:

        其中,α、β是權重調(diào)節(jié)系數(shù),也是RWBC-Ensemble的超參數(shù)。

        該樣本權重計算方法主要受LANDESAVáZQUEZ等[34]的啟發(fā),在其基礎上將流失客戶數(shù)據(jù)劃分為安全樣本wps和危險樣本wpb,賦予危險樣本更大的樣本權重,并利用對數(shù)函數(shù)控制權重的衰減,其基本思想如下:首先,賦予所有樣本相同的權重,即數(shù)據(jù)集D中樣本數(shù)量的倒數(shù);其次,根據(jù)數(shù)據(jù)的不平衡度,增加少數(shù)類樣本的權重,令少數(shù)類樣本的權重之和等于多數(shù)類樣本的權重之和;再次,分別給少數(shù)類樣本和多數(shù)類樣本增加一個權重調(diào)節(jié)系數(shù)log(1-α)、log(α),便于根據(jù)需要進一步調(diào)整樣本權重;最后,將少數(shù)類樣本劃分為安全樣本和危險樣本,賦予安全樣本另外的權重調(diào)節(jié)系數(shù)β,進一步控制安全樣本系數(shù)的變化。上述改變樣本分布的策略,能夠很自然地與隨機采樣等不平衡數(shù)據(jù)處理方法相結(jié)合,提高模型的預測能力。

        3 實驗結(jié)果與分析

        為評估RWBC-Ensemble 在高度不平衡客戶流失數(shù)據(jù)上的分類性能,研究選擇4個高度不平衡的客戶數(shù)據(jù),以AUC 值、召回率(Recall)、精確率(Precision)為評估指標,將其與5 個欠采樣集成方法[Easy-Ensemble[26]、BalanceCascade[26]、平衡隨機森林[35](Balanced Random Forest,BRF)、RUSBoost[25]、基于自步學習的集成學習[27](Self-paced ensemble,SPE)]和2 個代價敏感集成方法[AdaCost[36]、Asymmetric Ada-Boost[37](AsymBoost)]進行比較。

        3.1 數(shù)據(jù)說明

        實驗所用數(shù)據(jù)集的基本信息見表1。4 個客戶數(shù)據(jù)集的不平衡度全部在50 以上,即非流失客戶數(shù)量是流失客戶數(shù)量的50 倍以上,是典型的高度不平衡數(shù)據(jù)。其中,CELL數(shù)據(jù)集采集自Kaggle 網(wǎng)站,共67 個特征;DUKE1、DUKE2、DUKE3數(shù)據(jù)集源自杜克大學,分別擁有171個特征,包括115個連續(xù)特征和56個類別特征。

        表1 數(shù)據(jù)基本信息

        3.2 評價指標

        在高度不平衡數(shù)據(jù)分類問題中,通常更關注少數(shù)類樣本的識別率,然而由于多數(shù)類樣本比重高,即使正確預測的少數(shù)類樣本數(shù)量很少,依然能夠獲得高分類正確率,因此正確率并不能作為不平衡數(shù)據(jù)上預測算法的性能度量標準。實驗采用AUC、Precision、Recall作為不平衡客戶數(shù)據(jù)下流失預測模型的性能評估指標。AUC是受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積,ROC曲線以假正率(False Positive Rate,F(xiàn)PR)為橫軸,真正率(True Positive Rate,TPR)為縱軸,ROC曲線下面積越大,模型的預測性能越好。Precision表示“預測出的流失客戶中有多少是真正的流失客戶”,Recall則是表示“流失客戶中有多少被預測出來了”。根據(jù)客戶流失預測混淆矩陣(見表2)。

        表2 客戶流失預測混淆矩陣

        Precision、Recall的計算公式如下:

        3.3 實驗設計

        為降低數(shù)據(jù)集劃分的隨機性對實驗結(jié)果的影響,文中所有實驗均采用2 次5 折分層交叉驗證的方式,即根據(jù)數(shù)據(jù)類別間的比例,將整個數(shù)據(jù)集劃分為5份,保證每份數(shù)據(jù)的類別比例與原始數(shù)據(jù)的類別比例大致一致,每次選擇其中的4 份作為訓練集,剩余的1 份作為測試集。隨機重復上述過程2 次,以10 次測試的平均值作為最后的評價指標結(jié)果。

        RWBC-Ensemble 及所對比的7 種方法均為集成學習方法,基分類器的數(shù)量是預測結(jié)果的重要影響因素,為公平起見,首先將每個方法的基分類器的數(shù)量均設置為100,然后分別選取每個方法中比較重要的參數(shù)進行網(wǎng)格搜索尋優(yōu),選取的參數(shù)見表3。

        表3 算法參數(shù)說明

        3.4 實驗結(jié)果

        為分析權重調(diào)節(jié)系數(shù)對模型性能的影響,并比較本文方法與其他方法的性能,共進行3 組實驗,一組是不同權重調(diào)節(jié)系數(shù)下的模型性能對比實驗;另一組是本文方法與5 個欠采樣集成方法和2 個代價敏感集成方法的性能對比實驗;最后一組是本文方法上的消融實驗。

        3.4.1 不同權重調(diào)節(jié)系數(shù)下的模型性能對比

        本節(jié)給出不同權重調(diào)節(jié)系數(shù)下模型在3 個數(shù)據(jù)集上的性能變化(如圖2所示)。由圖2可知:①隨著α取值的增大,模型的Recall提升較為明顯,說明正確預測的流失客戶數(shù)量不斷增多;Precision呈現(xiàn)下降趨勢,說明將非流失客戶預測為流失客戶的數(shù)量有所增加,這是因為當α取值較大時,模型更為關注少數(shù)類樣本,即流失客戶;AUC同樣有所下降,說明模型雖然能夠正確預測更多的流失客戶,但是犧牲了非流失客戶的預測準確度。②在4 個數(shù)據(jù)集上,當α取值在0.56、0.56、0.54、0.54 附近時,模型性能較為均衡。同時可以觀察到,雖然DUKE1、DUKE2、DUKE3的不平衡度較高,但是隨著數(shù)據(jù)規(guī)模的增大,模型在α取值較小時擁有較好的預測能力,表明隨著流失客戶數(shù)據(jù)量的增大,模型對流失客戶數(shù)據(jù)特征的學習能力有所提升。

        圖2 不同權重調(diào)節(jié)系數(shù)下的模型性能

        3.4.2 本文方法與其他方法的對比

        本節(jié)給出本文模型及其他7 種模型在4 個數(shù)據(jù)集上的AUC、Recall、Precision值(見表4、表5、表6)。

        表4 不同算法的AUC對比

        表5 不同算法的Recall對比

        表6 不同算法的Precision對比

        根據(jù)上述表中數(shù)據(jù),可以得到以下結(jié)論:①本文提出的預測模型在4 個數(shù)據(jù)集上都取得最高的AUC值,與其他7 種方法相比,平均值高出3.76%,這表明,本文提出的預測模型在處理不平衡客戶數(shù)據(jù)方面的整體性能最好。②本文提出的預測模型的Recall低于SPE,但仍然高于其他6種方法。SPE的Recall較高的主要原因是其犧牲了非流失客戶的預測準確度。根據(jù)圖2 可知,當權重調(diào)節(jié)系數(shù)α取值較大時,本文模型同樣能夠得到更高的Recall。③在Precision方面,本文提出的預測模型低于AsymBoost、AdaCost 等2種代價敏感集成方法。與EasyEnsemble、BRF等5種欠采樣集成學習方法相比,本文提出的模型在4個數(shù)據(jù)集上的Precision平均值略低于EasyEnsemble,但仍然高于其他4種方法。AsymBoost、AdaCost的Precision值最高,但是其Recall值較低,說明在高度不平衡客戶數(shù)據(jù)上,以AUC作為模型優(yōu)化目標時,其分類結(jié)果偏向于非流失客戶,正確識別的流失客戶較少。④基于Bagging 架構(gòu)的EasyEnsemble、BRF 和本文提出的RWBC-Ensemble 在3 個高度不平衡數(shù)據(jù)上具有更好的表現(xiàn),在3 個方法中,RWBC-Ensemble 的性能最優(yōu)。

        3.4.3 消融實驗

        根據(jù)圖2 所知,RWBC-Ensemble 在聚類隨機采樣和代價敏感的基礎上,添加了特征選擇和數(shù)據(jù)清洗2個數(shù)據(jù)處理模塊,為驗證其對模型預測能力的影響,研究設計了一組消融實驗,實驗結(jié)果見表7,其中FS表示特征選擇模塊,ENN表示數(shù)據(jù)清洗模塊。

        由表7可知,特征選擇模塊在不降低模型性能的情況下起到了移除噪聲特征的作用,且在DUKE1 數(shù)據(jù)集上還有一定的提升。加入數(shù)據(jù)清洗模塊后,模型的Recall提升較為明顯,在AUC這個綜合指標上也有提升,但是對非流失客戶數(shù)據(jù)的清洗,對Precision指標有一定的影響,Precision略有下降。

        綜合以上分析,可以表明本文提出的RWBCEnsemble 模型對流失客戶和非流失客戶的識別能力較為均衡,整體預測性能最好。此外,通過調(diào)節(jié)α的取值可以識別更多的流失客戶,對注重Recall的企業(yè)具有重要的參考價值。

        4 結(jié)論

        研究綜合運用聚類隨機采樣、編輯最近鄰、代價敏感、集成學習等多種不平衡數(shù)據(jù)處理方法,提出一種集成的不平衡客戶流失預測模型,有效地改善了高度不平衡客戶數(shù)據(jù)下的流失預測問題。實驗通過與EasyEnsemble 等多個常用方法在4 個高度不平衡數(shù)據(jù)集上進行比較,結(jié)果表明,該實驗方法能較好地避免欠采樣、代價敏感等單一方法在高度不平衡數(shù)據(jù)上的缺點,進而使預測結(jié)果有較好的AUC、Recall和Precision值,具有較好的適用性和可行性。但是,客戶數(shù)據(jù)往往具有高復雜度、高維度的特征,如何在數(shù)據(jù)特征上進行模型的改進與優(yōu)化是下一步研究的重點。

        猜你喜歡
        代價類別權重
        權重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        為黨督政勤履職 代民行權重擔當
        人大建設(2018年5期)2018-08-16 07:09:00
        愛的代價
        海峽姐妹(2017年12期)2018-01-31 02:12:22
        基于公約式權重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        代價
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        成熟的代價
        中學生(2015年12期)2015-03-01 03:43:53
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        層次分析法權重的計算:基于Lingo的數(shù)學模型
        河南科技(2014年15期)2014-02-27 14:12:51
        日本一卡2卡3卡四卡精品网站| 久久国产亚洲精品一区二区三区| 国产精品国产三级第一集 | 亚洲第一看片| 精品中文字幕手机在线 | 国产97色在线 | 国产| 一本一道av无码中文字幕| 91视频爱爱| 日本黄色特级一区二区三区| 丰满人妻久久中文字幕| 国产精品成人观看视频| 精品少妇大屁股白浆无码| 久久亚洲精精品中文字幕早川悠里 | 18级成人毛片免费观看| 国产精品nv在线观看| 日本系列有码字幕中文字幕| 国产麻豆放荡av激情演绎| 女同性恋一区二区三区av| 免费无码a片一区二三区| 国产精品11p| 国产一区不卡视频在线| 亚洲精品国产第一区二区| 午夜成人无码福利免费视频| 国产一区二区三区精品久久呦| 手机在线播放成人av| 成人做爰69片免费看网站野花| 亚洲综合色丁香婷婷六月图片 | 在线播放人成午夜免费视频| 日韩熟女一区二区三区| 国产日产韩国av在线| 国产成人无码a区在线观看视频| 欧美日韩国产在线观看免费| 日本av一区二区三区四区| 风流老太婆大bbwbbwhd视频| 黄又色又污又爽又高潮动态图| 亚洲日本VA午夜在线电影| 久久99热只有频精品8国语| 日本高清h色视频在线观看| 五月婷婷激情六月| 国产午夜福利小视频在线观看| 国产精品久久久亚洲|