亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        LSTM模型集成方法在客戶流失預(yù)測中的應(yīng)用

        2019-11-12 05:01:52嚴(yán)建峰
        關(guān)鍵詞:特征效果實(shí)驗(yàn)

        周 捷 嚴(yán)建峰 楊 璐 夏 鵬 王 猛

        (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215006)

        0 引 言

        對企業(yè)而言,客戶流失被定義為客戶放棄繼續(xù)購買該企業(yè)的商品或服務(wù)的情況??蛻舻牧魇ζ髽I(yè)造成直接經(jīng)濟(jì)損失。隨著市場競爭的激烈程度逐年增高,企業(yè)所面臨的客戶流失問題日益嚴(yán)重。研究發(fā)現(xiàn),企業(yè)成功獲取新客戶所需要的成本遠(yuǎn)高于保留已有客戶[1],這使得客戶保留對于企業(yè)來說格外重要。保留現(xiàn)有客戶的常用方法是準(zhǔn)確識別出高流失傾向的客戶,然后針對這些客戶實(shí)施多樣性的挽留策略??蛻袅魇ьA(yù)測作為客戶關(guān)系管理的重要組成部分,通過對客戶的歷史數(shù)據(jù)進(jìn)行分析建模,旨在準(zhǔn)確識別出高流失傾向的客戶,為企業(yè)后續(xù)的客戶挽留策略制定提供指導(dǎo)。

        在過去數(shù)十年,客戶流失預(yù)測已經(jīng)在電信[2-3]、銀行[4-5]、游戲[6-7]以及音樂流媒體[8]等不同領(lǐng)域內(nèi)被廣泛研究。學(xué)者通常把客戶流失預(yù)測當(dāng)作二分類數(shù)據(jù)挖掘任務(wù)處理,通過構(gòu)造業(yè)務(wù)特征以及選擇合適的分類器來預(yù)測客戶未來流失與否。許多流行的機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型在客戶流失預(yù)測中得到成功應(yīng)用,如邏輯回歸(Logistic Regression,LR)[9]、決策樹(Decision Tree,DT)[10]、支持向量機(jī)(Support Vector Machine,SVM)[11]、多層反饋神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)[12]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[13]等。模型集成[14]是用來提升預(yù)測效果的一個有效方法,常用集成方法有bagging[15]、boosting[16]和stacking[17]。文獻(xiàn)[18]使用XGBoost(eXtreme Gradient Boosting,XGB)預(yù)測因特網(wǎng)服務(wù)提供商的客戶流失情況,該模型是boosting集成方法的一種。文獻(xiàn)[19]對比了幾種集成學(xué)習(xí)分類器,發(fā)現(xiàn)隨機(jī)森林(Random Forest,RF)效果最好,該模型是bagging集成方法的一種變體。文獻(xiàn)[2]通過投票法集成了K近鄰(K-Nearest Neighbor,KNN)、隨機(jī)森林以及Rotation Forest三種模型,實(shí)驗(yàn)發(fā)現(xiàn)這三種模型的集成輸出增加了模型多樣性的同時(shí)提高了分類效果。

        與深度學(xué)習(xí)模型相比,傳統(tǒng)機(jī)器學(xué)習(xí)模型存在特征工程對模型效果影響較大、模型容量小等缺點(diǎn)。目前客戶流失預(yù)測任務(wù)中的模型集成方法的研究大多集中于傳統(tǒng)機(jī)器學(xué)習(xí)模型方面,在深度學(xué)習(xí)模型集成方法方面的研究較少。文獻(xiàn)[5]提出一種深度集成分類器用于銀行客戶流失預(yù)測,其采用k折交叉驗(yàn)證的stacking集成方法將深度學(xué)習(xí)模型和傳統(tǒng)機(jī)器學(xué)習(xí)模型一起集成,這樣可能會存在兩個問題:一是通過k折交叉驗(yàn)證訓(xùn)練深度學(xué)習(xí)模型會帶來高昂的訓(xùn)練時(shí)間成本;二是當(dāng)用于集成的模型的性能相差較大時(shí),會影響最終模型集成的效果。文獻(xiàn)[20]提出snapshot模型集成方法,可以在訓(xùn)練單個深度學(xué)習(xí)模型的過程中得到多個具有不同權(quán)值的模型用于模型集成,降低了深度學(xué)習(xí)模型集成的時(shí)間成本,在多個圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的有效性。

        為了在客戶流失預(yù)測任務(wù)中發(fā)揮深度學(xué)習(xí)模型集成的效果,本文提出一種基于長短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)的模型集成方法(snapshot weighted LSTM,swLSTM)。該方法首先選擇LSTM作為基學(xué)習(xí)器。然后對snapshot模型集成方法的訓(xùn)練過程進(jìn)行改進(jìn),一方面是引入樣本權(quán)重調(diào)整方法,根據(jù)當(dāng)前子模型對訓(xùn)練樣本的預(yù)測結(jié)果為下一個子模型計(jì)算訓(xùn)練樣本權(quán)重;另一方面將各個子模型在驗(yàn)證集上的輸出和對應(yīng)的樣本標(biāo)簽重組為一個新的訓(xùn)練集,再在新的訓(xùn)練集上訓(xùn)練邏輯回歸模型。實(shí)驗(yàn)表明,本文方法能夠顯著提升客戶流失預(yù)測效果。

        1 相關(guān)理論基礎(chǔ)

        1.1 長短期記憶網(wǎng)絡(luò)

        LSTM由Hochreiter等[21]提出,廣泛用于序列建模,其中門機(jī)制以及細(xì)胞狀態(tài)的引入較好地緩解了經(jīng)典循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的梯度消失等問題。

        LSTM的基本單元包括輸出門、輸入門、遺忘門以及細(xì)胞狀態(tài),其中細(xì)胞狀態(tài)可以保存長期歷史信息,保證模型訓(xùn)練過程中信息的有效流通,門機(jī)制可以對信息量進(jìn)行限制?;締卧慕Y(jié)構(gòu)圖如圖1所示。

        圖1 LSTM單元結(jié)構(gòu)圖

        圖1中:t表示當(dāng)前時(shí)刻,t-1表示上一時(shí)刻,Ct-1、ht-1分別表示上一時(shí)刻細(xì)胞狀態(tài)和隱藏層狀態(tài)的輸出,Ct、ht分別表示當(dāng)前時(shí)刻細(xì)胞狀態(tài)和隱藏層狀態(tài)的輸出,it表示輸入門,ft表示遺忘門,ot表示輸出門,σ表示sigmoid激活函數(shù)。LSTM基本單元各組成部分的更新公式如下:

        ft=σ(Wfxxt+Wfhht-1+bf)

        (1)

        it=σ(Wixxt+Wihht-1+bi)

        (2)

        (3)

        ot=σ(Woxxt+Wohht-1+bo)

        (4)

        (5)

        ht=ot·tanh(Ct)

        (6)

        式中:Wox、Wix、Wfx和Wcx分別表示輸出門、輸入門、遺忘門、細(xì)胞狀態(tài)對當(dāng)前時(shí)刻輸入xt的權(quán)重;Woh、Wih、Wfh和Wch分別表示輸出門、輸入門、遺忘門和細(xì)胞狀態(tài)對隱藏層ht的權(quán)重;b*表示偏置項(xiàng)。

        1.2 Snapshot模型集成方法

        Snapshot模型集成方法是Huang等[20]提出的基于深度學(xué)習(xí)的模型集成方法,該方法利用循環(huán)學(xué)習(xí)率的策略來訓(xùn)練深度學(xué)習(xí)模型。學(xué)習(xí)率變化計(jì)算式表示為:

        (7)

        式中:α0表示初始學(xué)習(xí)率。和原文中學(xué)習(xí)率在每個batch訓(xùn)練結(jié)束更新不同,本文實(shí)驗(yàn)中學(xué)習(xí)率會在每個epoch訓(xùn)練結(jié)束更新,t表示當(dāng)前訓(xùn)練的epoch數(shù),T表示訓(xùn)練總epoch數(shù),M表示學(xué)習(xí)率的更新周期數(shù)。

        該模型集成方法的具體過程為:首先,將模型的整個訓(xùn)練過程分為M個循環(huán)周期,每個循環(huán)周期內(nèi)模型訓(xùn)練T/M個epoch,學(xué)習(xí)率按照式(7)更新;其次,在每個循環(huán)周期結(jié)束時(shí),學(xué)習(xí)率降到最低,模型可以收斂到局部最優(yōu)的狀態(tài),保存此時(shí)的模型作為一個子模型;接著,在當(dāng)前模型的基礎(chǔ)上,以一個較大的學(xué)習(xí)率α0開始一個新的循環(huán)周期,繼續(xù)訓(xùn)練模型;最后,經(jīng)過M個循環(huán)周期后可以得到M個子模型,直接取這些子模型輸出的均值作為最終模型集成的輸出。該方法顯著減少了集成深度學(xué)習(xí)模型的時(shí)間。

        1.3 Stacking模型集成方法

        Stacking是一種強(qiáng)大的模型集成方法。該方法在原始數(shù)據(jù)集上訓(xùn)練初級學(xué)習(xí)器,利用初級學(xué)習(xí)器對原始樣本的預(yù)測值構(gòu)造一個新的數(shù)據(jù)集,新數(shù)據(jù)集和原始數(shù)據(jù)集中樣本標(biāo)簽一一對應(yīng),最后在新的數(shù)據(jù)集上訓(xùn)練次級學(xué)習(xí)器。Stacking算法的具體流程如下[22]:

        輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)}

        初級學(xué)習(xí)器f1,f2,…,fM

        次級學(xué)習(xí)器f

        輸出:H(x)=h′(h1(x),h2(x),…,hM(x))

        1) fort=1 toM:

        2)ht=ft(D)

        3)D′=?

        4) fori=1 tom:

        5) fort=1 toM:

        6)oit=ht(xi)

        7)D′=D′∪((oi1,oi2,…,oiM),yi)

        8)h′=f(D′)

        為了防止過擬合以及達(dá)到充分使用訓(xùn)練集的目的,一般采用k折交叉驗(yàn)證的方法來使用stacking模型集成方法算法,利用初級學(xué)習(xí)器未使用的樣本來生成次級學(xué)習(xí)器的訓(xùn)練數(shù)據(jù)。

        2 基于LSTM的模型集成方法

        本文提出基于LSTM的模型集成方法,對應(yīng)的客戶流失預(yù)測框架如圖2所示,包括數(shù)據(jù)源、樣本特征處理、建模以及預(yù)測四個部分。首先,日志系統(tǒng)所收集的客戶歷史數(shù)據(jù)將存儲于Hadoop分布式文件系統(tǒng)HDFS中;其次利用Spark進(jìn)行特征的構(gòu)造和樣本的生成;接著利用生成的樣本訓(xùn)練相應(yīng)合適的模型;最后模型輸出客戶未來流失的概率。企業(yè)客戶關(guān)系管理相關(guān)人員可以根據(jù)模型最終輸出的客戶流失概率對高流失傾向的客戶的實(shí)施相應(yīng)的維挽操作。

        圖2 客戶流失預(yù)測框架

        2.1 基本思想

        在客戶流失預(yù)測任務(wù)中,時(shí)序數(shù)據(jù)可以反映客戶的潛在行為趨勢,如何利用好時(shí)序數(shù)據(jù)顯得尤為關(guān)鍵。相比于傳統(tǒng)機(jī)器學(xué)習(xí)模型,LSTM由于其具有天然的序列建模優(yōu)勢,可以自動學(xué)習(xí)序列隱含信息以及復(fù)雜高階特征,減少了對特征工程的依賴。同時(shí)對LSTM進(jìn)行模型集成可以有效增加模型的準(zhǔn)確性和魯棒性,從而提高預(yù)測效果。此外,在客戶流失預(yù)測的樣本中,往往存在容易分類的樣本以及難分類的樣本,例如一個歷史行為規(guī)律的客戶,比較容易判斷其流失與否,而一個歷史行為非常不規(guī)律的客戶,往往很難判斷其流失情況。本文提出的swLSTM方法對snapshot方法訓(xùn)練過程進(jìn)行了改進(jìn),在每個循環(huán)周期結(jié)束之后,根據(jù)當(dāng)前模型對訓(xùn)練樣本的預(yù)測值計(jì)算出訓(xùn)練樣本的權(quán)重,下一個循環(huán)周期模型的訓(xùn)練便在帶有當(dāng)前計(jì)算出的樣本權(quán)重的訓(xùn)練集上進(jìn)行。在集成多個子模型的輸出階段,將各個子模型在驗(yàn)證集上的輸出和對應(yīng)的樣本標(biāo)簽重組為一個新的訓(xùn)練集并在該訓(xùn)練集上訓(xùn)練邏輯回歸模型作為最終輸出,這相比直接平均子模型的輸出作為最終輸出來說可以進(jìn)一步提高分類效果。

        2.2 樣本權(quán)重計(jì)算

        假設(shè)訓(xùn)練集為D={(x1,y1),(x2,y2),…,(xm,ym)},本文提出的模型集成方法中針對樣本xi的權(quán)重計(jì)算式表示為:

        (8)

        (9)

        在snapshot模型集成方法中為訓(xùn)練樣本設(shè)置權(quán)重有兩個好處:一是在不同的循環(huán)周期中,可以讓模型對不同樣本的關(guān)注度不同,使得一些難分類的樣本有機(jī)會被分得更準(zhǔn)確,提高了單個子模型的分類效果;二是增加了各個子模型之間的差異性,有利于最終結(jié)果的集成輸出。

        2.3 LSTM模型

        本文實(shí)驗(yàn)中使用的LSTM模型具體結(jié)構(gòu)如圖3所示。首先將不同時(shí)間跨度的時(shí)序特征輸入到不同的LSTM分支中,本文使用的特征中包含兩個不同時(shí)間跨度的時(shí)序特征集,所以模型包含兩個LSTM分支;然后將各分支第一層LSTM層所有時(shí)間步上的隱藏狀態(tài)輸出到第二層LSTM中;接著第二層LSTM層僅將最后一個時(shí)間步的隱藏狀態(tài)作為該分支的輸出,不同分支的輸出會拼接后輸入到全連接層進(jìn)行特征組合;最后將全連接層的輸出輸入到sigmoid層進(jìn)行最終分類輸出。

        圖3 LSTM模型結(jié)構(gòu)圖

        2.4 算法流程

        假設(shè)訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)},驗(yàn)證集Dv={(x1,y1),(x2,y2),…,(xn,yn)},LSTM模型初始為f0,模型訓(xùn)練總的epoch數(shù)為T,循環(huán)周期數(shù)為M,初始學(xué)習(xí)為α0,訓(xùn)練集樣本初始權(quán)重為W0=1,邏輯回歸模型為h。訓(xùn)練swLSTM的詳細(xì)步驟如下:

        1) fork=1 toM;

        2) 設(shè)置D的樣本權(quán)重為Wk-1,按照式(7)對應(yīng)的循環(huán)學(xué)習(xí)率策略,在fk-1的基礎(chǔ)上使用帶權(quán)重的訓(xùn)練集D繼續(xù)訓(xùn)練T/M個epoch后得到fk。

        3) fori=1 tom;

        5) 將w0,w1,…,wm組織成Wk。

        6) 設(shè)置邏輯回歸所用訓(xùn)練集D′=?。

        7) fori=1 ton;

        8) fork=1 toM;

        9)oik=fk(xi),xi∈Dv

        10)D′=D′∪((oi1,oi2,…,oiM),yi),yi∈Dv

        11) 在D′上訓(xùn)練邏輯回歸模型h。

        12) 模型訓(xùn)練完畢,得到邏輯回歸模型h以及M個LSTM子模型f1,f2…,fM。

        在測試階段,利用上述訓(xùn)練完畢的M個模型f1,f2…,fM對測試集進(jìn)行預(yù)測,并生成新的測試集,具體步驟與上述訓(xùn)練步驟的第6步到第10步類似。然后用訓(xùn)練完畢的邏輯回歸模型h對新的測試集進(jìn)行預(yù)測得到最終預(yù)測結(jié)果。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)在Linux服務(wù)器上進(jìn)行,具體硬件配置如下:內(nèi)存為32 GB;CPU型號為Intel(R) Core(TM) i7- 4790 CPU @ 3.60 GHz,數(shù)量為1,核心數(shù)為8;GPU型號為GeForce GTX TITAN X,數(shù)量為1。實(shí)驗(yàn)中使用的主要工具包括:Python 3.5、Pytorch、XGBoost、Scikit-learn。

        3.2 數(shù)據(jù)介紹

        本文實(shí)驗(yàn)數(shù)據(jù)采用的是WSDM CUP 2018的數(shù)據(jù),旨在預(yù)測某音樂流媒體服務(wù)商的付費(fèi)訂閱客戶流失率。官方對于其付費(fèi)訂閱客戶流失的定義為:當(dāng)客戶的付費(fèi)訂閱到期后的30天內(nèi),客戶仍然沒有續(xù)訂,則判定該客戶為流失客戶,否則為非流失客戶。

        實(shí)驗(yàn)數(shù)據(jù)主要包括客戶的交易日志數(shù)據(jù)以及聽歌日志數(shù)據(jù),表1展示了原始數(shù)據(jù)的部分字段名。

        表1 原始數(shù)據(jù)字段示例

        3.3 特征工程

        在特征構(gòu)造方面,原始數(shù)據(jù)中每條記錄均帶有時(shí)間信息,所以本文實(shí)驗(yàn)中使用的特征均為原始數(shù)據(jù)經(jīng)過簡單處理的結(jié)果,沒有進(jìn)行額外的特征工程。具體地,從客戶交易日志中截取最近一年的數(shù)據(jù),并且對不同客戶的交易日志數(shù)據(jù)詳情按照時(shí)間先后進(jìn)行排序,得到交易時(shí)序特征,例如客戶過去一年交易每次交易的金額、每次交易的付費(fèi)訂閱天數(shù)等,總計(jì)7種特征,序列長度為20;從客戶聽歌日志中截取最近一個月的數(shù)據(jù),并且對不同客戶的聽歌日志詳情按照時(shí)間先后進(jìn)行排序,得到聽歌日志時(shí)序特征,例如客戶最近一個月每天聽歌的時(shí)長、每天聽歌的歌曲數(shù)量等,總計(jì)7種特征,序列長度為30。

        在數(shù)據(jù)處理方面,對于特征中的缺失值用0填充,對于離散值類型的特征采用獨(dú)熱編碼,對于連續(xù)值類型的特征進(jìn)行標(biāo)準(zhǔn)化處理,這些處理方法有利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

        3.4 訓(xùn)練樣本

        本文實(shí)驗(yàn)中,按照客戶的訂閱到期日進(jìn)行訓(xùn)練樣本生成,一個樣本對應(yīng)一個客戶。具體地,2017年1月的樣本生成過程如下:從2017年1月之前的客戶交易數(shù)據(jù)中篩選出訂閱到期日在2017年1月的所有客戶,設(shè)為集合U。針對某客戶ui∈U,其當(dāng)前訂閱到期日為ti0,從2017年1月之后的交易數(shù)據(jù)中確定ui的最早一次訂閱交易日ti1,假設(shè)ti1和ti0之間的日期間隔天數(shù)為gap,ui對應(yīng)的標(biāo)簽為yi,則如果gap>30,那么yi=1,否則yi=0。然后從ui的交易日志以及聽歌日志數(shù)據(jù)中進(jìn)行特征處理工作得到特征xi,最終ui對應(yīng)的樣本為(xi,yi)。本文實(shí)驗(yàn)所使用的訓(xùn)練集為2017年1月的樣本,測試集為2017年2月的樣本。訓(xùn)練集一共有670 897條樣本,測試集合一共有447 266條樣本。

        3.5 評價(jià)指標(biāo)

        本文選擇查準(zhǔn)率(Precision)、查全率(Recall)、AUC以及PR-AUC作為實(shí)驗(yàn)指標(biāo),其中查準(zhǔn)率和PR-AUC更為重要。PR-AUC在數(shù)據(jù)不平衡的情況下相比AUC更適合評價(jià)模型效果[23],本文實(shí)驗(yàn)數(shù)據(jù)中正樣本占5.5%左右。

        查全率和查準(zhǔn)率的定義如下:

        Recall=TP/(TP+FN)

        (10)

        Precision=TP/(TP+FP)

        (11)

        式中:TP、FN和FP分別表示真正例、假反例、假正例。本文實(shí)驗(yàn)計(jì)算TopN的查準(zhǔn)率和查全率,詳細(xì)步驟為:將模型對樣本輸出的預(yù)測概率值進(jìn)行降序排序,將前N個樣本標(biāo)識為正例,其余標(biāo)識為負(fù)例,并根據(jù)標(biāo)識結(jié)果計(jì)算查全率和查準(zhǔn)率。這前N個樣本可以理解為模型預(yù)測出來的高流失傾向客戶,企業(yè)可以對這部分客戶實(shí)施針對性的挽留策略,在本文實(shí)驗(yàn)中N值設(shè)置為10 000。

        AUC是ROC下的面積,值越大意味著模型效果越好。除了可以通過計(jì)算面積得到AUC值外,還可以通過如下公式計(jì)算:

        (12)

        式中:P表示所有正樣本集合;K、N分別表示正樣本、負(fù)樣本的數(shù)量;ranku表示樣本u在模型對所有樣本的預(yù)測概率值中的排名。具體地,假設(shè)樣本總量為n,則模型預(yù)測概率值最大的樣本所對應(yīng)rank值為n,模型預(yù)測概率值第二大的樣本所對應(yīng)的rank值為n-1,依此類推。

        PR-AUC是PR曲線下的面積,PR曲線的橫坐標(biāo)為查全率,縱坐標(biāo)為查準(zhǔn)率。

        3.6 實(shí)驗(yàn)參數(shù)

        本文提出的swLSTM主要參數(shù)如下:所有LSTM層隱藏層單元數(shù)均為32;兩層全連接層單元數(shù)分別為128、32,激活函數(shù)為relu;模型訓(xùn)練的循環(huán)周期數(shù)M為5,總epoch數(shù)T為100;batch size為512;初始學(xué)習(xí)率α0為0.003;邏輯回歸模型訓(xùn)練的epoch數(shù)為6,batch size為64,學(xué)習(xí)率為0.001;式(9)中的超參數(shù)c為50;優(yōu)化器為Adam。

        3.7 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證本文提出的swLSTM的有效性并進(jìn)行超參數(shù)選擇,總共進(jìn)行了三組實(shí)驗(yàn):實(shí)驗(yàn)一為現(xiàn)有方法與本文提出的方法對比實(shí)驗(yàn);實(shí)驗(yàn)二為超參數(shù)c的選擇實(shí)驗(yàn);實(shí)驗(yàn)三為初始學(xué)習(xí)率的選擇實(shí)驗(yàn)。

        3.7.1比較實(shí)驗(yàn)

        為了充分對比本文提出的swLSTM與單模型LSTM以及其他模型集成方法,本文采用了如下幾個基準(zhǔn)對比模型。

        隨機(jī)森林:該模型在工業(yè)界使用較多,是客戶流失預(yù)測的常用模型,由多棵決策樹通過bagging方法集成。實(shí)驗(yàn)中設(shè)置每棵決策樹深度為10,數(shù)量為200。

        XGBoost:該模型的基學(xué)習(xí)器為分類回歸樹,其對梯度提升算法進(jìn)行改進(jìn),使得模型精度和訓(xùn)練效率得到了明顯改善,且支持大規(guī)模機(jī)器學(xué)習(xí)。實(shí)驗(yàn)中設(shè)置每棵決策樹深度為6,模型迭代200次,學(xué)習(xí)率為0.05。

        LSTM:該模型是本文提出的模型集成方法中的基學(xué)習(xí)器。實(shí)驗(yàn)中設(shè)置每層LSTM隱藏層單元數(shù)均為32,兩層全連接單元數(shù)分別為128和32,激活函數(shù)為relu。

        avgLSTM:通過設(shè)置不同的隨機(jī)種子訓(xùn)練3個結(jié)構(gòu)如圖3所示的LSTM模型,同時(shí)直接將這3個模型輸出取平均作為集成輸出。

        StCNN:該模型由文獻(xiàn)[5]提出,原文中初級學(xué)習(xí)器使用隨機(jī)森林、XGBoost、KNN、DNN和CNN。由于KNN、DNN在本文實(shí)驗(yàn)中效果較差,所以將其替換成LSTM。次級學(xué)習(xí)器使用CNN。實(shí)驗(yàn)中除CNN外,其他模型的參數(shù)設(shè)置和上述幾個對比模型參數(shù)設(shè)置一樣。CNN包含兩層一維卷積層,卷積核大小均為2,步長均為1,數(shù)量均為32。每一層卷積層之后會接上最大池化層,池化層核心大小均為2,步長均為2。最后包含兩層全連接層,其單元數(shù)依次為32和16。

        snapLSTM:該模型直接將snapshot模型集成方法應(yīng)用于LSTM。

        上述模型對訓(xùn)練集的使用方式不完全相同,為了公平對比,設(shè)置各個模型使用訓(xùn)練集的方式如下:隨機(jī)森林、XGBoost、LSTM和StCNN對訓(xùn)練集進(jìn)行4折交叉驗(yàn)證訓(xùn)練;snapLSTM直接使用全部訓(xùn)練集進(jìn)行訓(xùn)練;本文提出的模型集成方法在子模型訓(xùn)練階段,將訓(xùn)練集隨機(jī)劃出10%的數(shù)據(jù)作為子模型的驗(yàn)證集,剩余90%的數(shù)據(jù)作為子模型的訓(xùn)練集;在邏輯回歸模型訓(xùn)練階段,將上述子模型的驗(yàn)證集隨機(jī)劃出10%的數(shù)據(jù)作為邏輯回歸模型的驗(yàn)證集,剩余90%的數(shù)據(jù)作為邏輯回歸模型的訓(xùn)練集。

        模型效果對比結(jié)果如表2所示。可以看出,本文提出的swLSTM各項(xiàng)指標(biāo)均好于其他模型,相比于單模型LSTM,Precision、Recall、AUC和PR-AUC分別提升了4.67%、4.61%、0.55%和3.74%,這說明本文提出的基于LSTM的模型集成方法可以顯著提升模型效果。LSTM的效果總體好于XGBoost和隨機(jī)森林,主要原因是:這兩個模型雖然屬于集成學(xué)習(xí)模型,但是其基學(xué)習(xí)器是決策樹,無法有效處理時(shí)序數(shù)據(jù),特征工程的質(zhì)量對模型效果影響較大,而本文訓(xùn)練樣本中均為時(shí)序特征,LSTM可以自動學(xué)習(xí)其中的隱含序列信息。avgLSTM各項(xiàng)指標(biāo)和LSTM基本持平,說明通過簡單設(shè)置不同隨機(jī)種子獲得多個子模型進(jìn)行平均輸出不能明顯改善預(yù)測結(jié)果。StCNN的AUC低于LSTM,其他指標(biāo)有一定的提升,主要原因是:StCNN集成了多個差異性大的模型,可以總體帶來模型效果的提升,但由于部分子模型的效果較差,導(dǎo)致最終集成帶來部分指標(biāo)下降的情況。snapLSTM相比于LSTM各項(xiàng)指標(biāo)均有提升,同時(shí)本文提出的swLSTM各項(xiàng)指標(biāo)均高于snapLSTM。本文比較了這兩種模型集成方法生成的各個子模型之間的差異性,具體做法是:利用兩種方法生成的子模型去預(yù)測相同的數(shù)據(jù)集,然后用預(yù)測值計(jì)算同一方法下不同子模型兩兩之間的最大信息系數(shù)(Maximal Information Coefficient,MIC)[24],MIC值越大代表越相關(guān)。兩個模型計(jì)算出的MIC的值便可以表示這兩個模型之間的相關(guān)性。最終根據(jù)snapLSTM生成的子模型計(jì)算出的MIC平均值為0.934,而根據(jù)swLSTM生成的子模型計(jì)算出的MIC平均值為0.912,說明swLSTM最終生成子模型之間的差異性要高于snapLSTM生成的子模型,而差異性高的子模型一般會帶來較好的集成效果。

        表2 模型效果對比結(jié)果

        表3展示了各個模型的訓(xùn)練時(shí)間。XGBoost和隨機(jī)森林的訓(xùn)練時(shí)間較短,主要原因是:這兩個模型屬于傳統(tǒng)機(jī)器學(xué)習(xí)模型,模型參數(shù)較少,所需的計(jì)算量也較少,同時(shí)可以利用全部CPU核心并行計(jì)算,不需要花費(fèi)太多的時(shí)間訓(xùn)練。LSTM訓(xùn)練時(shí)間是上述兩個模型的4~7倍左右,主要原因是:該模型包含多層LSTM層,需要進(jìn)行大量計(jì)算更新模型參數(shù),盡管使用了GPU進(jìn)行訓(xùn)練,但依舊會耗費(fèi)大量訓(xùn)練時(shí)間,這也是訓(xùn)練深度學(xué)習(xí)模型的一個特點(diǎn)。avgLSTM需要依次訓(xùn)練三個同樣的模型,所以花費(fèi)時(shí)間是LSTM的3倍左右。snapLSTM訓(xùn)練時(shí)間是LSTM的1.6倍左右,主要原因是:在相同的batch size前提下,snapLSTM總計(jì)訓(xùn)練100個epoch,而LSTM是根據(jù)驗(yàn)證集的損失進(jìn)行早停策略的訓(xùn)練,最終平均只訓(xùn)練了60個epoch。swLSTM訓(xùn)練時(shí)間比snapLSTM稍長,主要原因是:在每個訓(xùn)練循環(huán)周期結(jié)束時(shí),模型需要預(yù)測全部訓(xùn)練樣本并計(jì)算樣本權(quán)重,此外邏輯回歸模型的訓(xùn)練也需要耗費(fèi)部分時(shí)間。StCNN訓(xùn)練時(shí)間最長,并且遠(yuǎn)多于其他模型,主要原因是:訓(xùn)練StCNN必須通過4折交叉驗(yàn)證進(jìn)行,同時(shí)需要訓(xùn)練的模型有4個,總計(jì)需要訓(xùn)練16個模型的時(shí)間,每個模型均根據(jù)驗(yàn)證集的損失進(jìn)行早停策略的訓(xùn)練。

        3.7.2參數(shù)c選擇實(shí)驗(yàn)

        在本節(jié)實(shí)驗(yàn)中選擇Precision和PR-AUC兩個指標(biāo)來分析式(9)計(jì)算樣本權(quán)重步驟中不同的參數(shù)c對最終預(yù)測結(jié)果的影響。一方面是因?yàn)檫@兩個指標(biāo)更為重要,另一方面是因?yàn)橄啾绕渌麅蓚€指標(biāo),這兩個指標(biāo)的值變化幅度更大。圖4為不同參數(shù)c的對比結(jié)果,可以看出,當(dāng)c=50時(shí),模型取得最好效果,所以本文最終設(shè)置c為50。同時(shí)還可以發(fā)現(xiàn),當(dāng)c<50時(shí),指標(biāo)總體呈上升趨勢,而當(dāng)c>50時(shí),指標(biāo)總體呈下降趨勢。

        圖4 不同參數(shù)c對比結(jié)果

        3.7.3初始學(xué)習(xí)率選擇實(shí)驗(yàn)

        從圖5中可以看出,在初始學(xué)習(xí)率從0.01降低到0.003過程中,模型指標(biāo)呈上升趨勢,且在0.003處模型指標(biāo)達(dá)到最優(yōu)。當(dāng)初始學(xué)習(xí)率從0.003降低到0.001時(shí),模型指標(biāo)下降明顯??赡茉蚴牵簩?shí)驗(yàn)中優(yōu)化算法選擇的是Adam,其推薦的學(xué)習(xí)率為0.001,同時(shí)學(xué)習(xí)率變化周期為20個epoch,當(dāng)初始學(xué)習(xí)率過高或者過低時(shí),均會使得模型無法在有限的epoch內(nèi)收斂到一個局部最優(yōu)的狀態(tài);同時(shí)在學(xué)習(xí)率較低時(shí),模型很難在新的訓(xùn)練周期開始時(shí)跳出當(dāng)前的訓(xùn)練狀態(tài),使得得到的子模型之間差異性減小,影響最終模型集成效果。最終本文設(shè)置初始學(xué)習(xí)率為0.003。

        圖5 不同初始學(xué)習(xí)率對比結(jié)果

        4 結(jié) 語

        本文提出了一種基于LSTM的模型集成方法用于客戶流失預(yù)測任務(wù)。該方法采用LSTM作為基學(xué)習(xí)器,避免了復(fù)雜的特征工程,充分利用了時(shí)序特征。通過改進(jìn)snapshot集成方法,提高了子模型的分類效果,增加了不同子模型之間的差異性,提升了模型集成效果。實(shí)驗(yàn)結(jié)果表明,該方法可以在僅花費(fèi)訓(xùn)練單個LSTM模型1.8倍時(shí)間的基礎(chǔ)上,比Precision和PR-AUC分別提升4.67%和3.74%,具有較好的實(shí)用性。不過該方法仍存在不足,其對于樣本權(quán)重的修改需要通過超參數(shù)控制,下一步將研究如何讓樣本權(quán)重的修改可以在模型訓(xùn)練中變得可學(xué)習(xí)。

        猜你喜歡
        特征效果實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        按摩效果確有理論依據(jù)
        如何表達(dá)“特征”
        做個怪怪長實(shí)驗(yàn)
        不忠誠的四個特征
        迅速制造慢門虛化效果
        抓住“瞬間性”效果
        中華詩詞(2018年11期)2018-03-26 06:41:34
        抓住特征巧觀察
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        www射我里面在线观看| 国产亚洲3p一区二区| 青青草国产手机观看视频| 精品国产性色无码av网站| 欧美婷婷六月丁香综合色| 亚洲无线码1区| 区一区二区三免费观看视频| 亚洲av无码一区二区一二区| 亚洲精品国偷自产在线99正片| 久久精品熟女不卡av高清| 亚洲无人区一码二码国产内射| 亚洲开心婷婷中文字幕| 日出水了特别黄的视频| 在线亚洲+欧美+日本专区| 青青草好吊色在线视频| 久久精品国产免费观看三人同眠| 欧洲一卡2卡三卡4卡免费网站| 久久中国国产Av秘 入口| 亚洲天堂av在线免费播放| 久久久久亚洲av成人人电影| 欧美日韩视频无码一区二区三 | 国精产品推荐视频| 在线免费观看韩国a视频| 亚洲国产都市一区二区| 国产精品女老熟女一区二区久久夜| 无码日韩精品一区二区三区免费| 囯产精品无码一区二区三区| 国产三级视频在线观看国产| 亚洲国产精品日本无码网站| 欧美mv日韩mv国产网站 | 又污又黄又无遮挡的网站| 国产一区二区精品网站看黄 | 偷拍一区二区三区在线观看| 久久熟妇少妇亚洲精品| 天天躁日日躁狠狠躁av| 国内精品国产三级国产av另类| 国产视频一区2区三区| 日韩精品视频一区二区三区 | 无码中文亚洲av影音先锋| 色狠狠色狠狠综合一区| 国产精品久久国产精品久久|