摘要:隨著近年來(lái)人工智能產(chǎn)業(yè)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,傳統(tǒng)金融行業(yè)逐漸向金融科技轉(zhuǎn)型。招商銀行信用卡中心提出依靠數(shù)據(jù),預(yù)測(cè)用戶(hù)是否會(huì)購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券這一實(shí)際業(yè)務(wù)場(chǎng)景。依據(jù)這一實(shí)際問(wèn)題,采用了各種機(jī)器學(xué)習(xí)方法,包括邏輯回歸、隨機(jī)森林、Xgboost、LightGBM,對(duì)這一問(wèn)題進(jìn)行探索。最后采用集成學(xué)習(xí)方法對(duì)最終結(jié)果進(jìn)行融合。本文采用了上述幾種算法模型進(jìn)行預(yù)測(cè),對(duì)模型原理進(jìn)行了分析,并在多個(gè)評(píng)價(jià)指標(biāo)上衡量各個(gè)模型的表現(xiàn),橫向?qū)Ρ攘瞬煌P偷膬?yōu)缺點(diǎn),并對(duì)造成結(jié)果差異的原因進(jìn)行了總結(jié)。
關(guān)鍵詞:金融科技;邏輯回歸;集成學(xué)習(xí);隨機(jī)森林;Xgboost;lightGBM;分類(lèi)
中圖分類(lèi)號(hào):F126.1?文獻(xiàn)識(shí)別碼:A文章編號(hào):
2096-3157(2020)05-0153-03
一、引言
隨著近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)不斷累積,計(jì)算機(jī)算力不斷提高,如何挖掘數(shù)據(jù)背后的價(jià)值成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的重要課題。機(jī)器學(xué)習(xí)作為一種統(tǒng)計(jì)學(xué)習(xí)方法,利用模型來(lái)自動(dòng)學(xué)習(xí)數(shù)據(jù)背后隱藏的規(guī)律,成為挖掘數(shù)據(jù)潛在價(jià)值的重要手段,已經(jīng)深入到人們生活的方方面面,機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景也逐漸深入到金融領(lǐng)域[1]。
機(jī)器學(xué)習(xí)領(lǐng)域可進(jìn)一步分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)三大類(lèi),本文著力于研究有標(biāo)注訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)問(wèn)題,基于招商銀行用戶(hù)信用卡數(shù)據(jù),預(yù)測(cè)用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。在本研究中,探索了傳統(tǒng)的單模型機(jī)器學(xué)習(xí)算法,如邏輯回歸、決策樹(shù),也探索了集成學(xué)習(xí)算法,包括隨機(jī)森林、GBDT、Xgboost、LightGbm等在金融消費(fèi)領(lǐng)域的應(yīng)用。
二、數(shù)據(jù)
1.數(shù)據(jù)集描述
本項(xiàng)目所使用的數(shù)據(jù)集主要分為以下三部分:一是個(gè)人屬性與信用卡消費(fèi)數(shù)據(jù);二是APP操作行為日志;三是標(biāo)注數(shù)據(jù)。
2.數(shù)據(jù)預(yù)處理
為挖掘掌上生活A(yù)PP數(shù)據(jù)背后隱藏的信息,做了如下預(yù)處理,提取了特征:
(1)傳統(tǒng)特征工程
傳統(tǒng)特征主要基于以下2個(gè)小類(lèi):①基礎(chǔ)統(tǒng)計(jì)特征。用戶(hù)點(diǎn)擊的總次數(shù)、用戶(hù)在各天(周)點(diǎn)擊的次數(shù)、用戶(hù)點(diǎn)擊行為的天數(shù)、用戶(hù)每天(周)點(diǎn)擊的平均數(shù)、最大值、最小值、眾數(shù)、方差、鋒度、偏度等。②時(shí)序相關(guān)特征。用戶(hù)點(diǎn)擊的時(shí)間間隔、用戶(hù)最大連續(xù)點(diǎn)擊天數(shù),用戶(hù)最后一次點(diǎn)擊距離最后一天的間隔……
(2)TF-IDF特征
TF-IDF是信息檢索領(lǐng)域常用的一種文本的向量表示方法,用以評(píng)估一個(gè)字/詞在語(yǔ)料庫(kù)中的重要程度。依據(jù)這一假設(shè),字/詞的重要性與它在該篇文章中出現(xiàn)的次數(shù)成正比,但和它在整個(gè)語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)成反比。TF表示詞頻(Term?Frequency),IDF表示逆文本頻率指數(shù)(Inverse?Document?Frequency)。
TF-IDF=TF×IDF
TF=某個(gè)詞在文檔中的出現(xiàn)次數(shù)文檔的總詞數(shù),IDF=long(詞料庫(kù)的文檔總數(shù)包含該詞的文檔數(shù)+1),
在本數(shù)據(jù)集中,將每一個(gè)點(diǎn)擊模塊看成一個(gè)詞,一個(gè)用戶(hù)的所有操作構(gòu)成一篇文檔。user?2的用戶(hù)點(diǎn)擊行為如圖1所示。
圖1?用戶(hù)行為描述
(3)word2vec特征
TF-IDF特征未能考慮用戶(hù)行為的順序,故采用word2vec捕捉用戶(hù)行為的局部共現(xiàn)特征。Word2vec利用淺層神經(jīng)網(wǎng)絡(luò)將高維的稀疏詞向量嵌入到一個(gè)低維(100)的稠密空間。用該向量來(lái)表示包含順序信息的用戶(hù)行為特征。
3.數(shù)據(jù)集劃分
招商銀行信用卡中心提供了3月份31天的數(shù)據(jù),為貼合實(shí)際應(yīng)用場(chǎng)景,按照時(shí)序切分?jǐn)?shù)據(jù)——即將前28天的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將最后3天的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。
三、機(jī)器學(xué)習(xí)模型
1.邏輯回歸
Logistic?Regression[2](邏輯回歸)是機(jī)器學(xué)習(xí)中一個(gè)應(yīng)用非常廣泛的分類(lèi)模型,它將數(shù)據(jù)擬合到sigmoid函數(shù),從而完成對(duì)事件發(fā)生概率的預(yù)測(cè)。
2.隨機(jī)森林
在集成學(xué)習(xí)方法中最主要的兩種方法為Bagging和Boosting,Bagging模型可以并行的學(xué)習(xí)多個(gè)基模型,并將基模型的結(jié)果投票求平均得到模型最終的結(jié)果。隨機(jī)森林[3](Random?Forest)是以CART[4]決策樹(shù)為基模型的一種典型的Bagging算法。為降低模型的方差,減小過(guò)擬合,集成學(xué)習(xí)算法需要增大基模型的差異性。隨機(jī)森林算法主要通過(guò)bootstrap采樣來(lái)增大訓(xùn)練數(shù)據(jù)的差異性,以及通過(guò)特征抽樣來(lái)增大特征差異性。
3.Xgboost、LightGBM
Xgboost[5]模型和LightGBM[6]模型都是典型boosting算法,都是對(duì)GBDT模型的算法和工程改進(jìn)。區(qū)別Bagging模型,基學(xué)習(xí)器可以并行,Boosting模型的基學(xué)習(xí)器間存在先后依賴(lài)。GBDT是一種提升樹(shù)模型,第m輪用一棵CART回歸樹(shù)擬合前m-1輪損失的負(fù)梯度,降低模型的bias。Xgboost相對(duì)于GBDT,對(duì)損失函數(shù)做了優(yōu)化,引入二階導(dǎo)數(shù)信息,并加入正則項(xiàng)控制模型的復(fù)雜度;此外,雖然基模型的訓(xùn)練存在先后順序,但每個(gè)基學(xué)習(xí)器內(nèi)部的樹(shù)節(jié)點(diǎn)分裂可以并行,Xgboost對(duì)此進(jìn)行了并行優(yōu)化。LightGBM相較于Xgboost,提出Histogram算法,對(duì)特征進(jìn)行分桶,減少查詢(xún)分裂節(jié)點(diǎn)的事件復(fù)雜度;此外,提出GOSS算法減少小梯度數(shù)據(jù);同時(shí),提出EFB算法捆綁互斥特征,降低特征維度,減少模型復(fù)雜度。
四、實(shí)驗(yàn)結(jié)果比較
1.評(píng)價(jià)指標(biāo)
在本實(shí)驗(yàn)中,綜合使用accuracy、precision、recall、f1_score、AUC作為衡量指標(biāo)。
(1)精確率、召回率、F1
混淆矩陣是監(jiān)督學(xué)習(xí)分類(lèi)任務(wù)中預(yù)測(cè)結(jié)果和真實(shí)結(jié)果對(duì)比的可視化工具,如圖2所示。
圖2?混淆矩陣
混淆矩陣(圖2)中包含了TP,F(xiàn)N,F(xiàn)P,TN四個(gè)值:TP表示真正例,即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為1的樣本數(shù)量;FP表示假正例,即預(yù)測(cè)結(jié)果為1,但真實(shí)結(jié)果為0的樣本數(shù)量;FN表示假負(fù)例,即預(yù)測(cè)結(jié)果為0,但真實(shí)結(jié)果為1的樣本數(shù)量;TN表示真負(fù)例,即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為0的樣本數(shù)量。
準(zhǔn)確率:?Accurracy=TP+TNTP+FP+FN+TN
精確率:?Precision=TPTP+FP
召回率:Recall=TPTP+FN
F1=2*P*R(P+R)
(2)AUC_ROC
在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中,常常用AUC來(lái)評(píng)估二分類(lèi)模型的性能。AUC的全稱(chēng)是?area?under?the?curve,即曲線下的面積。
對(duì)于二分類(lèi)問(wèn)題,預(yù)測(cè)模型會(huì)對(duì)每一個(gè)樣本預(yù)測(cè)一個(gè)概率p。然后,可以選取一個(gè)閾值t,讓得分p>t的樣本預(yù)測(cè)為正,而得分p 隨著閾值t的不斷變化,TP、FN、FP和TN的值也不斷變化。定義真正例率TPR和假正例率FPR分別為: TPR=TPTP+FN FPR=FPFP+TN 調(diào)整閾值p,得到不同的TPR和FPR值,這條曲線就是ROC曲線。而ROC曲線下的面積,即為AUC。 2.實(shí)驗(yàn)結(jié)果 (1)比較nlp用戶(hù)行為特征效果提升 (3)實(shí)驗(yàn)結(jié)果分析 ①對(duì)比表1、表2可知,通過(guò)引入TFIDF特征和Word2Vec特征獲取用戶(hù)行為特征,有助于模型更好地挖掘數(shù)據(jù)的規(guī)律,提高了模型表現(xiàn)的上線。②隨機(jī)森林、Xgboost、Lightgbm這類(lèi)基于ensemble的模型在準(zhǔn)確率、精確率、召回率、f1、AUC這些指標(biāo)上均優(yōu)于邏輯回歸,說(shuō)明樹(shù)模型可能更適合該數(shù)據(jù)集及使用ensemble方法來(lái)融合弱分類(lèi)器,其表現(xiàn)優(yōu)于單個(gè)分類(lèi)器。③基于Boosting的集成學(xué)習(xí)算法(Xgboost,Lightgbm)優(yōu)于基于Bagging的集成學(xué)習(xí)算法(RandomForest),說(shuō)明對(duì)該數(shù)據(jù)和特征而言,減少bias的重要性?xún)?yōu)于減少variance。 五、總結(jié) 在本項(xiàng)目中,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)金融場(chǎng)景數(shù)據(jù)建模,預(yù)測(cè)招商銀行信用卡用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。通過(guò)實(shí)驗(yàn)結(jié)果可知,基于GBDT的Xgboost模型和LightGBM模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均超過(guò)了0.9,驗(yàn)證了機(jī)器學(xué)習(xí)模型的優(yōu)異性??捎糜趯?shí)際CTR場(chǎng)景中,提升招行掌上生活A(yù)PP的用戶(hù)體驗(yàn),幫助企業(yè)獲取更多利潤(rùn)。 參考文獻(xiàn): [1]羅素文,韓路,許勤,等.探索商業(yè)銀行在大數(shù)據(jù)挖掘技術(shù)領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(9):43~45+81. [2]Kleinbaum?D?G,Dietz?K,Gail?M,et?al.Logistic?regression[M].New?York:Springer-Verlag,2002. [3]Liaw?A,Wiener?M.Classification?and?regression?by?randomForest[J].R?news,2002,2(3):18~22. [4]Steinberg?D,Colla?P.CART:classification?and?regression?trees[J].The?top?ten?algorithms?in?data?mining,2009,9:179. [5]Chen?T,Guestrin?C.Xgboost:A?scalable?tree?boosting?system[C]//Proceedings?of?the?22nd?acm?sigkdd?international?conference?on?knowledge?discovery?and?data?mining.ACM,2016:785~794. [6]Ke?G,Meng?Q,F(xiàn)inley?T,et?al.Lightgbm:A?highly?efficient?gradient?boosting?decision?tree[C]//Advances?in?Neural?Information?Processing?Systems.2017:3146~3154. 作者簡(jiǎn)介: 曾曉瑋,上海交通大學(xué)附屬中學(xué)學(xué)生。