利向晴,夏國(guó)恩,2,張顯全,唐 琪,葉 帥
(1.廣西師范大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,廣西 桂林 541004; 2.廣西財(cái)經(jīng)學(xué)院 工商管理學(xué)院,廣西 南寧 530003)
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,各企業(yè)在不斷涌現(xiàn),行業(yè)的競(jìng)爭(zhēng)壓力也越來(lái)越大,許多公司都面臨客戶流失的實(shí)質(zhì)問題。越來(lái)越多的公司開始意識(shí)到一個(gè)事實(shí):挽留現(xiàn)有的客戶是想在行業(yè)中生存的最好的市場(chǎng)營(yíng)銷方式,因?yàn)槲驴蛻舻某杀疽韧炝衄F(xiàn)有客戶的成本大得多[1]。長(zhǎng)期性客戶對(duì)企業(yè)更有利,企業(yè)在想辦法吸引新客戶的同時(shí),也應(yīng)該避免客戶的流失。《Harvard哈佛商業(yè)評(píng)論》認(rèn)為,若能將客戶流失率降低5%,則企業(yè)的利潤(rùn)將增加25%~85%,而美國(guó)著名的財(cái)政企業(yè)雜志《商業(yè)周刊》則認(rèn)為利潤(rùn)將增加140%[2]。一般來(lái)說,客戶流失分為兩類:一類是意外流失,有時(shí)因?yàn)樯瞽h(huán)境的原因,如客戶離開了公司服務(wù)的范圍,或是客戶的財(cái)政狀況發(fā)生了變化,導(dǎo)致客戶被迫放棄他們的服務(wù);另一類是主動(dòng)性流失,由于客戶決定將其服務(wù)轉(zhuǎn)移到別的公司而導(dǎo)致的流失,這背后的原因或許是別的公司提供了更優(yōu)的服務(wù)[3]。所以在客戶流失之前進(jìn)行預(yù)測(cè),并采取適當(dāng)營(yíng)銷策略對(duì)客戶進(jìn)行挽留,將客戶流失的損失降到最低是非常重要的,不僅可以提高企業(yè)的利潤(rùn),也能避免企業(yè)在核心競(jìng)爭(zhēng)中被淘汰。目前對(duì)于客戶流失預(yù)測(cè)的方法有很多,如邏輯回歸(logistic regression,LR)[4]、XGBoost算法[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[6]、多層感知機(jī)(multi-layer perception,MLP)[7]等。
研究者們將客戶流失預(yù)測(cè)問題視為二分類問題,如今,客戶流失預(yù)測(cè)方面的研究取得了長(zhǎng)足的進(jìn)展。為提升模型預(yù)測(cè)的泛化能力,夏國(guó)恩等人[8]提出了一種基于支持向量機(jī)的客戶流失預(yù)測(cè)模型,結(jié)果表明支持向量機(jī)在客戶流失預(yù)測(cè)方面是有效的;周捷等人[9]提出了基于LSTM的模型集成方法,對(duì)客戶流失進(jìn)行預(yù)測(cè),LSTM自動(dòng)學(xué)習(xí)序列隱含信息以及復(fù)雜高階特征,減少了對(duì)特征工程的依賴,同時(shí)對(duì)其進(jìn)行集成提高了預(yù)測(cè)效果;E.Jamalian等人[10]提出了一種數(shù)據(jù)融合和特征提取技術(shù)的混合方法,以更準(zhǔn)確地預(yù)測(cè)客戶的變動(dòng);Wangperawong A等人[11]提出深度卷積神經(jīng)網(wǎng)絡(luò)和自動(dòng)編碼對(duì)客戶流失進(jìn)行分析,使用自動(dòng)編碼無(wú)監(jiān)督學(xué)習(xí),以便更好地了解客戶流失的原因;Yu R等人[12]提出了一種基于客戶細(xì)分優(yōu)化的BP網(wǎng)絡(luò)用于客戶流失預(yù)測(cè),該算法優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)重和閾值,大大提高了客戶流失預(yù)測(cè)的準(zhǔn)確性;Mishra A等人[13]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行客戶流失預(yù)測(cè),實(shí)驗(yàn)取得了很好的效果,相比于傳統(tǒng)機(jī)器學(xué)習(xí),通過深度學(xué)習(xí)能更好地發(fā)現(xiàn)客戶流失的潛在風(fēng)險(xiǎn)。
如今深度學(xué)習(xí)在圖像處理(物體識(shí)別、場(chǎng)景識(shí)別、人臉身份認(rèn)證、恢復(fù)黑白照片和視頻顏色等)、自然語(yǔ)言處理(翻譯、文本識(shí)別、聊天對(duì)話、在野外閱讀文本等)、語(yǔ)音處理(語(yǔ)音識(shí)別、音樂創(chuàng)作、恢復(fù)視頻聲音等)中都得到了很好的應(yīng)用[14]。深度學(xué)習(xí)算法最大的優(yōu)點(diǎn)是它嘗試以增量形式從數(shù)據(jù)中逐步學(xué)習(xí)高級(jí)功能。這就使得算法不會(huì)太依賴于領(lǐng)域?qū)I(yè)知識(shí)和人工特征提取。
文中提出一種深度神經(jīng)網(wǎng)絡(luò)權(quán)重集成方法(stochastic weight average deep neural network,swaDNN)來(lái)預(yù)測(cè)電信客戶流失,在做深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)候,通過隨機(jī)加權(quán)平均(stochastic weight average,SWA)結(jié)合相同網(wǎng)絡(luò)結(jié)構(gòu)的不同訓(xùn)練階段的權(quán)重獲得集成模型,對(duì)客戶流失進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法顯著提升了客戶流失預(yù)測(cè)的效果。
深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[15]通過其隱層逐步學(xué)習(xí)類別,神經(jīng)網(wǎng)絡(luò)將多層隱藏層添加到感知器模型中,以增強(qiáng)模型的泛化能力。為使模型更具靈活性,以便更好應(yīng)用于分類、聚類和回歸等問題,神經(jīng)網(wǎng)絡(luò)層由節(jié)點(diǎn)(神經(jīng)元)組成,其輸入函數(shù)如下所示:
(1)
其中,i表示第i層,j表示神經(jīng)網(wǎng)絡(luò)層數(shù),w表示權(quán)重,b表示偏置,Z表示輸入函數(shù)。 單個(gè)神經(jīng)元結(jié)構(gòu)如圖1所示。
圖1 單個(gè)神經(jīng)元結(jié)構(gòu)
神經(jīng)元將來(lái)自數(shù)據(jù)的輸入與一組系數(shù)或權(quán)重進(jìn)行組合,這些系數(shù)或權(quán)重會(huì)放大或衰減該輸入,將這些輸入權(quán)重乘積相加,然后將總和傳遞給節(jié)點(diǎn)的激活函數(shù),激活函數(shù)將非線性因素加入到神經(jīng)網(wǎng)絡(luò)中,并將神經(jīng)元的輸入映射到輸出端,以確定該信號(hào)是否應(yīng)通過網(wǎng)絡(luò)進(jìn)一步傳輸以影響最終結(jié)果(如分類),信號(hào)通過,則說明神經(jīng)元已被“激活”。根據(jù)各層的位置,DNN神經(jīng)網(wǎng)絡(luò)層分為輸入層、隱藏層和輸出層,如圖2所示。
圖2 DNN模型
DNN模型圖小圓圈代表著神經(jīng)元,從圖中可看出,同一層神經(jīng)元之間沒有連接,層與層之間全連接,神經(jīng)網(wǎng)絡(luò)每個(gè)連接都有權(quán)重,最終輸出結(jié)果對(duì)應(yīng)的層也成為全連接層,隱藏層和輸出層的神經(jīng)元由輸入的數(shù)據(jù)計(jì)算后輸出,輸出層神經(jīng)元可以是一個(gè)或多個(gè)輸出。
隨機(jī)加權(quán)平均(SWA)[16]在隨機(jī)梯度下降(stochastic gradient descent,SGD)[17]的基礎(chǔ)上進(jìn)行了改進(jìn),隨機(jī)梯度下降是一種為機(jī)器學(xué)習(xí)算法找到最佳參數(shù)配置的方法。迭代地對(duì)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)進(jìn)行小的調(diào)整,以減少網(wǎng)絡(luò)的錯(cuò)誤。SWA以周期性或較高的恒定學(xué)習(xí)率對(duì)SGD遍歷的點(diǎn)進(jìn)行加權(quán)平均。一般的集成方法是對(duì)不同的模型進(jìn)行集成,然后用相同的輸入對(duì)模型進(jìn)行預(yù)測(cè),集成模型的最終預(yù)測(cè)由某種平均方法來(lái)確定。
傳統(tǒng)的集成方法有:Snapshot集成、Fast Geometric Ensenmbling集成和Stacking集成。Snapshot集成方法利用循環(huán)學(xué)習(xí)率的策略來(lái)訓(xùn)練深度學(xué)習(xí)模型,Stacking集成方法通過將訓(xùn)練集分成若干部分,為同一機(jī)器學(xué)習(xí)算法生成多個(gè)參數(shù)不同的分類器,F(xiàn)ast Geometric Ensembling集成使用線性分段的循環(huán)學(xué)習(xí)率,來(lái)取代Snapshot集成中的余弦,這些都是基于模型空間的集成方法,需要多個(gè)訓(xùn)練模型來(lái)預(yù)測(cè)每個(gè)模型,并對(duì)最終的預(yù)測(cè)結(jié)果進(jìn)行平均。而隨機(jī)加權(quán)平均為基于權(quán)重空間的新集成方法,經(jīng)過訓(xùn)練后的網(wǎng)絡(luò)為多維權(quán)值空間的點(diǎn),對(duì)于給定的網(wǎng)絡(luò)結(jié)構(gòu),不同權(quán)值的組合將產(chǎn)生不同的模型,SWA的重點(diǎn)是使用改進(jìn)SGD迭代周期性學(xué)習(xí)率(lr_schedule為cyclic)或高恒定學(xué)習(xí)率(lr_schedule為constant),并利用深度學(xué)習(xí)訓(xùn)練目標(biāo)的平坦性來(lái)提高泛化能力。其中,周期性學(xué)習(xí)率在每個(gè)周期線性地將學(xué)習(xí)率從α1降到α2,第i次迭代的學(xué)習(xí)率公式為:
α(i)=(1-t(i))α1+t(i)α2
(2)
(3)
其中,α1≥α2,c表示周期長(zhǎng)度,t(i)表示第i次迭代的時(shí)間。SWA通過加入周期性加權(quán)平均來(lái)限制權(quán)重的變化,解決了傳統(tǒng)SGD在反向過程中的權(quán)重震蕩問題。SWA局部極小值傾向于累積在損耗值較低的損耗表面區(qū)域的邊界上,通過取幾個(gè)這樣的點(diǎn)的平均值,使得結(jié)果具有更低的損耗。SGD收斂到一個(gè)寬平坦損失區(qū)域內(nèi)的解。重量空間是極高維的,且大部分平面區(qū)域的體積集中在邊界附近,因此SGD的解總是在平面區(qū)域的邊界附近找到。另一方面,SWA有多個(gè)SGD解決方案,這使它能夠向平坦區(qū)域的中心移動(dòng)。SWA在訓(xùn)練過程中,第一個(gè)模型用于存儲(chǔ)模型權(quán)重的平均值,并在訓(xùn)練結(jié)束時(shí)作為最終模型用于預(yù)測(cè)結(jié)果;第二個(gè)模型將遍歷權(quán)重空間,并用周期性學(xué)習(xí)率對(duì)其進(jìn)行探索。隨機(jī)加權(quán)平均的權(quán)重更新方程如式(4)所示:
(4)
其中,wswa表示存儲(chǔ)模型權(quán)重的平均值,w表示用于遍歷權(quán)重空間的值,n表示模型數(shù)。SWA算法描述如下:
算法:隨機(jī)加權(quán)平均。
周期長(zhǎng)度c(對(duì)于恒定的學(xué)習(xí)率則c=1),迭代次數(shù)n
輸出:wswa
2.wswa=w
3. fori=1,2,…,ndo
4.α1=α(i)
5.w=w-αli(w)
6. if mod(i.c)=0 then
7.nmodels=i/c
9. end if
10. end for
11. returnwswa
文中提出的基于深度神經(jīng)網(wǎng)絡(luò)權(quán)重集成的客戶流失預(yù)測(cè)框架如圖3所示,主要包含客戶數(shù)據(jù)、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、結(jié)果評(píng)價(jià)幾個(gè)階段,原始的客戶數(shù)據(jù)并不都是可以直接拿來(lái)用的,那會(huì)導(dǎo)致某些錯(cuò)誤。數(shù)據(jù)預(yù)處理是為了獲取更好的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,接著進(jìn)行模型訓(xùn)練得到預(yù)測(cè)結(jié)果,企業(yè)可以根據(jù)預(yù)測(cè)制定相應(yīng)的客戶挽留策略,以免造成更嚴(yán)重的客戶流失問題。
圖3 客戶流失預(yù)測(cè)框架
DNN模型結(jié)構(gòu)如圖4所示。首先是對(duì)客戶的數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)變換,通過3層隱藏層,最終由輸出層輸出,得到預(yù)測(cè)結(jié)果。每一層可以有一個(gè)或多個(gè)神經(jīng)元,文中模型隱層神經(jīng)元選用8個(gè),輸出層只有1個(gè)神經(jīng)元。
圖4 DNN模型結(jié)構(gòu)
神經(jīng)元常見的激活函數(shù)包括tanh、elu、sigmoid、relu、maxout等,在文中實(shí)驗(yàn)中,神經(jīng)元的激活函數(shù)選用relu。relu函數(shù)能克服梯度消失的問題,使得神經(jīng)網(wǎng)路具有更快的訓(xùn)練速度,relu函數(shù)的表示如公式(5)所示:
f(x)=max(0,x)
(5)
輸出層設(shè)置了1個(gè)神經(jīng)元,使用Sigmoid作為激活函數(shù),輸出在0和1之間,表示如公式(6)所示:
(6)
客戶流失預(yù)測(cè)是二分類問題,文中實(shí)驗(yàn)采用Binary Cross_entropy作為損失函數(shù):
(7)
深度神經(jīng)網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)對(duì)模型訓(xùn)練的結(jié)果具有較大的影響,通過實(shí)驗(yàn)得出3層隱藏層和隱藏層的神經(jīng)元設(shè)為8個(gè)的擬合效果較好,輸出層只有1個(gè)神經(jīng)元。SGD學(xué)習(xí)率設(shè)為0.1,SWA采用周期性學(xué)習(xí)率,周期長(zhǎng)度c為10,學(xué)習(xí)率α1=0.001,α2=0.003,在訓(xùn)練過程中,在模型初始化參數(shù)之后,使用SGD進(jìn)行梯度下降,迭代了c個(gè)epoch之后,將模型的參數(shù)用加權(quán)平均,得到wswa,當(dāng)前模型參數(shù)為wswa,接著再用SGD梯度下降c個(gè)epoch,再進(jìn)行加權(quán)平均得到新的wswa。訓(xùn)練結(jié)束后只會(huì)得到一個(gè)具有組合權(quán)重的集成模型,這將加快后續(xù)模型預(yù)測(cè)的速度。
該實(shí)驗(yàn)使用Windows10操作系統(tǒng),軟件為Jupyter Notebook,具體硬件配置如下:內(nèi)存64 GB;CPU型號(hào)為Intel(R)Xeon(R) CPU E5-2620 v4 @ 2.10 GHz。實(shí)驗(yàn)中使用的工具:python3.7、Sklearn、Tensorflow、Keras。
文中使用的數(shù)據(jù)集是電信客戶流失數(shù)據(jù)集,選自kaggle數(shù)據(jù)科學(xué)大賽。該數(shù)據(jù)集共包含7 043個(gè)樣本,其中非流失的客戶數(shù)據(jù)為5 174,流失客戶數(shù)為1 869,客戶流失率為26.5%,其中存在11個(gè)缺失值,對(duì)其進(jìn)行數(shù)據(jù)清洗,最終獲得樣本數(shù)為7 032。訓(xùn)練數(shù)據(jù)大小5 625,測(cè)試數(shù)據(jù)1 407,從客戶流失數(shù)量與非客戶流失數(shù)量來(lái)看,該數(shù)據(jù)集屬于不平衡數(shù)據(jù)。根據(jù)數(shù)據(jù)的各個(gè)屬性對(duì)流失率的影響,可將流失率相關(guān)性低的忽略掉,共獲得17個(gè)屬性指標(biāo),其中離散屬性13個(gè),數(shù)值屬性4個(gè),對(duì)離散特征進(jìn)行one-hot編碼,使用Scikit-learn標(biāo)簽編碼,將分類的數(shù)據(jù)變換為整數(shù)編碼形式。
為了充分驗(yàn)證文中提出的隨機(jī)加權(quán)平均優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的方法,采用Random Forest、Logistic Regression、CatBoost、Support Vector Machine、AdaBoost作為基準(zhǔn)對(duì)比模型。
(1)Random Forest:隨機(jī)森林[18]由多個(gè)決策樹分類器組成,隨機(jī)森林的每棵決策樹都對(duì)類別進(jìn)行預(yù)測(cè),將投票多的決策樹作為預(yù)測(cè)的模型。采用重復(fù)m次的有放回的采樣,并在這些樣本上訓(xùn)練樹模型,最終取所有單個(gè)回歸樹的預(yù)測(cè)的平均來(lái)實(shí)現(xiàn)對(duì)未知樣本的預(yù)測(cè)。
(8)
(9)
(2)Logistic Regression:邏輯回歸(LR)是用于分類的模型,邏輯回歸將線性回歸的輸出作為它的輸入,邏輯回歸通過Sigmoid函數(shù)映射來(lái)解決分類問題,邏輯回歸模型和損失函數(shù)可表示為:
(10)
yi)log(1-hθ(x))]
(11)
其中,m表示樣本數(shù),yi表示真實(shí)值,θTx表示線性回歸模型的矩陣形式。一般使用梯度下降法對(duì)邏輯回歸損失函數(shù)進(jìn)行求解,以減少損失函數(shù)的值,最終使得預(yù)測(cè)效果更準(zhǔn)確。
(3)CatBoost:是對(duì)傳統(tǒng)Boosting算法的重大改進(jìn),CatBoost主要思想是在決策樹中,先對(duì)樣本隨機(jī)排序,節(jié)點(diǎn)分裂的標(biāo)準(zhǔn)為類別標(biāo)簽平均值,并通過添加先驗(yàn)分布項(xiàng)來(lái)減少噪聲和低頻率分類數(shù)據(jù)對(duì)于數(shù)據(jù)分布的影響。
(12)
其中,p是添加的先驗(yàn)項(xiàng),a通常是大于0的權(quán)重系數(shù),σj,k表示第j個(gè)數(shù)據(jù)的第k個(gè)特征。
(4)Support Vector Machine:支持向量機(jī)(SVM)可用于分類和回歸,算法的目的是在n維空間(n特征數(shù))中找到可對(duì)數(shù)據(jù)點(diǎn)明確分類的超平面。支持向量機(jī)的約束優(yōu)化問題表示為:
(13)
支持向量機(jī)約束優(yōu)化問題由損失項(xiàng)和正則項(xiàng)以及約束項(xiàng)組成,其中n為樣本數(shù),通過上述代價(jià)函數(shù)來(lái)獲得一個(gè)最優(yōu)參數(shù)θ,將優(yōu)化問題轉(zhuǎn)化為最小參數(shù)向量θ的范數(shù)平方,最終找到能產(chǎn)生最大間距分類現(xiàn)象的θ范數(shù)。
(5)AdaBoost[19]:其核心對(duì)弱分類器進(jìn)行迭代訓(xùn)練,弱分類器的權(quán)重更新方式如公式(14)所示,在每次迭代中加入一個(gè)新的弱分類器,直到加權(quán)誤差率達(dá)到預(yù)定的值。
(14)
(15)
其中,t=1,2,…,T,表示第t輪迭代,w表示樣本權(quán)重,i表示第i個(gè)樣本,Zt表示歸一化因子,第t輪迭代的αt可表示為0.5*ln((1-εt)/εt),其中εt為弱分類器Gt(x)的加權(quán)誤差率,當(dāng)εt>0.5時(shí),達(dá)到終止條件,G(x)為最終的分類器。通過分類結(jié)果對(duì)權(quán)重進(jìn)行更新可以使被錯(cuò)誤分類的樣本權(quán)重變大,從而在下一輪迭代中得到重視。
為評(píng)估模型,采用準(zhǔn)確率(accuracy)、精準(zhǔn)率(precision)、召回率(recall)和精準(zhǔn)率與召回率的調(diào)和平均值F1值來(lái)定義模型對(duì)客戶流失預(yù)測(cè)的效果。
表1 分類結(jié)果混淆矩陣
準(zhǔn)確率、精準(zhǔn)率、召回率和F1值的計(jì)算公式如下:
(16)
(17)
(18)
(19)
其中,TP表示對(duì)客戶流失正確預(yù)測(cè)的樣本數(shù);FN表示實(shí)際為流失客戶的數(shù)據(jù)卻錯(cuò)誤地將其預(yù)測(cè)為非客戶流失的樣本數(shù);FP表示被錯(cuò)誤預(yù)測(cè)為流失客戶的非流失客戶樣本數(shù);TN為對(duì)非客戶流失正確預(yù)測(cè)的樣本數(shù)。
文中采用5折交叉驗(yàn)證,以測(cè)試集實(shí)驗(yàn)結(jié)果的平均值作為模型評(píng)判的標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表2和圖5所示。隨機(jī)森林模型在數(shù)據(jù)集中整體性能的不是很好,說明隨機(jī)森林模型不太適用于非平衡數(shù)據(jù),不能很好地區(qū)分流失和非流失數(shù)據(jù)。支持向量機(jī)(SVM)模型對(duì)數(shù)據(jù)多的分類的誤差比數(shù)據(jù)少的分類誤差小,因?yàn)槠鋵?duì)不平衡樣本數(shù)據(jù)的預(yù)測(cè)具有傾向性。邏輯回歸模型形式簡(jiǎn)單,特征對(duì)數(shù)據(jù)結(jié)果影響較大,且對(duì)正負(fù)樣本不平衡的數(shù)據(jù)的分類不是很友好。CatBoost和AdaBoost都是Boosting算法的一種實(shí)現(xiàn),相比之下,AdaBoost的綜合性能較好,模型較穩(wěn)健,但是在處理非平衡數(shù)據(jù)上精度不是最好的。文中實(shí)驗(yàn)DNN模型使用Adam優(yōu)化算法迭代更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,召回率不是很高,表明流失用戶被正確預(yù)測(cè)出來(lái)的概率不是很高。swaDNN中SGD的學(xué)習(xí)率設(shè)為0.1,SWA的lr_schedule采用cyclic的形式,相比于DNN,swaDNN的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值都分別高出了0.53%、0.22%、9.26%和5.20%,在相同batch size情況下,總計(jì)訓(xùn)練100個(gè)epoch,DNN訓(xùn)練時(shí)間為52.92 s,swaDNN的訓(xùn)練時(shí)間為17.84 s,相比之下,swaDNN的訓(xùn)練時(shí)間縮短了2.96倍,大大提高了訓(xùn)練的速率。通過與其他模型進(jìn)行對(duì)比,swaDNN的準(zhǔn)確率、精準(zhǔn)率、召回率和F1值要優(yōu)于其他模型,實(shí)驗(yàn)結(jié)果表明文中提出的深度神經(jīng)網(wǎng)絡(luò)權(quán)重集成方法可以有效提升預(yù)測(cè)效果。
表2 不同模型的預(yù)測(cè)效果
(a)ROC曲線
(b)PR曲線圖5 各模型ROC曲線與PR曲線
文中提出一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重集成方法對(duì)電信客戶流失進(jìn)行預(yù)測(cè),在做深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)候,通過隨機(jī)加權(quán)平均(SWA)結(jié)合相同網(wǎng)絡(luò)結(jié)構(gòu)不同訓(xùn)練階段的權(quán)重獲得集成模型,對(duì)客戶流失進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)客戶流失預(yù)測(cè)具有較好的效果。對(duì)模型訓(xùn)練具有更廣泛的優(yōu)化和更好的泛化,提高了神經(jīng)網(wǎng)絡(luò)的性能??蛻袅魇ьA(yù)測(cè)是一個(gè)不斷發(fā)展的問題,數(shù)據(jù)的不斷龐大,需要新的方法去應(yīng)對(duì),所以在未來(lái)的工作中應(yīng)不斷改進(jìn)方法以適應(yīng)復(fù)雜性更高的數(shù)據(jù)。