亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的金融消費(fèi)場(chǎng)景預(yù)測(cè)探索

2020-04-20 11:25:20曾曉瑋

全國(guó)流通經(jīng)濟(jì) 2020年5期

摘要：隨著近年來(lái)人工智能產(chǎn)業(yè)和大數(shù)據(jù)技術(shù)的飛速發(fā)展，傳統(tǒng)金融行業(yè)逐漸向金融科技轉(zhuǎn)型。招商銀行信用卡中心提出依靠數(shù)據(jù)，預(yù)測(cè)用戶(hù)是否會(huì)購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券這一實(shí)際業(yè)務(wù)場(chǎng)景。依據(jù)這一實(shí)際問(wèn)題，采用了各種機(jī)器學(xué)習(xí)方法，包括邏輯回歸、隨機(jī)森林、Xgboost、LightGBM，對(duì)這一問(wèn)題進(jìn)行探索。最后采用集成學(xué)習(xí)方法對(duì)最終結(jié)果進(jìn)行融合。本文采用了上述幾種算法模型進(jìn)行預(yù)測(cè)，對(duì)模型原理進(jìn)行了分析，并在多個(gè)評(píng)價(jià)指標(biāo)上衡量各個(gè)模型的表現(xiàn)，橫向?qū)Ρ攘瞬煌Ｐ偷膬?yōu)缺點(diǎn)，并對(duì)造成結(jié)果差異的原因進(jìn)行了總結(jié)。

關(guān)鍵詞：金融科技;邏輯回歸;集成學(xué)習(xí);隨機(jī)森林;Xgboost;lightGBM;分類(lèi)

中圖分類(lèi)號(hào)：F126.1?文獻(xiàn)識(shí)別碼：A文章編號(hào)：

2096-3157（2020）05-0153-03

一、引言

隨著近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展，數(shù)據(jù)不斷累積，計(jì)算機(jī)算力不斷提高，如何挖掘數(shù)據(jù)背后的價(jià)值成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的重要課題。機(jī)器學(xué)習(xí)作為一種統(tǒng)計(jì)學(xué)習(xí)方法，利用模型來(lái)自動(dòng)學(xué)習(xí)數(shù)據(jù)背后隱藏的規(guī)律，成為挖掘數(shù)據(jù)潛在價(jià)值的重要手段，已經(jīng)深入到人們生活的方方面面，機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景也逐漸深入到金融領(lǐng)域[1]。

機(jī)器學(xué)習(xí)領(lǐng)域可進(jìn)一步分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)三大類(lèi)，本文著力于研究有標(biāo)注訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)問(wèn)題，基于招商銀行用戶(hù)信用卡數(shù)據(jù)，預(yù)測(cè)用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。在本研究中，探索了傳統(tǒng)的單模型機(jī)器學(xué)習(xí)算法，如邏輯回歸、決策樹(shù)，也探索了集成學(xué)習(xí)算法，包括隨機(jī)森林、GBDT、Xgboost、LightGbm等在金融消費(fèi)領(lǐng)域的應(yīng)用。

二、數(shù)據(jù)

1.數(shù)據(jù)集描述

本項(xiàng)目所使用的數(shù)據(jù)集主要分為以下三部分：一是個(gè)人屬性與信用卡消費(fèi)數(shù)據(jù);二是APP操作行為日志;三是標(biāo)注數(shù)據(jù)。

2.數(shù)據(jù)預(yù)處理

為挖掘掌上生活A(yù)PP數(shù)據(jù)背后隱藏的信息，做了如下預(yù)處理，提取了特征：

（1）傳統(tǒng)特征工程

傳統(tǒng)特征主要基于以下2個(gè)小類(lèi)：①基礎(chǔ)統(tǒng)計(jì)特征。用戶(hù)點(diǎn)擊的總次數(shù)、用戶(hù)在各天（周）點(diǎn)擊的次數(shù)、用戶(hù)點(diǎn)擊行為的天數(shù)、用戶(hù)每天（周）點(diǎn)擊的平均數(shù)、最大值、最小值、眾數(shù)、方差、鋒度、偏度等。②時(shí)序相關(guān)特征。用戶(hù)點(diǎn)擊的時(shí)間間隔、用戶(hù)最大連續(xù)點(diǎn)擊天數(shù)，用戶(hù)最后一次點(diǎn)擊距離最后一天的間隔……

（2）TF-IDF特征

TF-IDF是信息檢索領(lǐng)域常用的一種文本的向量表示方法，用以評(píng)估一個(gè)字/詞在語(yǔ)料庫(kù)中的重要程度。依據(jù)這一假設(shè)，字/詞的重要性與它在該篇文章中出現(xiàn)的次數(shù)成正比，但和它在整個(gè)語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)成反比。TF表示詞頻（Term?Frequency），IDF表示逆文本頻率指數(shù)（Inverse?Document?Frequency）。

TF-IDF=TF×IDF

TF=某個(gè)詞在文檔中的出現(xiàn)次數(shù)文檔的總詞數(shù)，IDF=long（詞料庫(kù)的文檔總數(shù)包含該詞的文檔數(shù)+1），

在本數(shù)據(jù)集中，將每一個(gè)點(diǎn)擊模塊看成一個(gè)詞，一個(gè)用戶(hù)的所有操作構(gòu)成一篇文檔。user?2的用戶(hù)點(diǎn)擊行為如圖1所示。

圖1?用戶(hù)行為描述

（3）word2vec特征

TF-IDF特征未能考慮用戶(hù)行為的順序，故采用word2vec捕捉用戶(hù)行為的局部共現(xiàn)特征。Word2vec利用淺層神經(jīng)網(wǎng)絡(luò)將高維的稀疏詞向量嵌入到一個(gè)低維（100）的稠密空間。用該向量來(lái)表示包含順序信息的用戶(hù)行為特征。

3.數(shù)據(jù)集劃分

招商銀行信用卡中心提供了3月份31天的數(shù)據(jù)，為貼合實(shí)際應(yīng)用場(chǎng)景，按照時(shí)序切分?jǐn)?shù)據(jù)——即將前28天的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，將最后3天的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

三、機(jī)器學(xué)習(xí)模型

1.邏輯回歸

Logistic?Regression[2]（邏輯回歸）是機(jī)器學(xué)習(xí)中一個(gè)應(yīng)用非常廣泛的分類(lèi)模型，它將數(shù)據(jù)擬合到sigmoid函數(shù)，從而完成對(duì)事件發(fā)生概率的預(yù)測(cè)。

2.隨機(jī)森林

在集成學(xué)習(xí)方法中最主要的兩種方法為Bagging和Boosting，Bagging模型可以并行的學(xué)習(xí)多個(gè)基模型，并將基模型的結(jié)果投票求平均得到模型最終的結(jié)果。隨機(jī)森林[3]（Random?Forest）是以CART[4]決策樹(shù)為基模型的一種典型的Bagging算法。為降低模型的方差，減小過(guò)擬合，集成學(xué)習(xí)算法需要增大基模型的差異性。隨機(jī)森林算法主要通過(guò)bootstrap采樣來(lái)增大訓(xùn)練數(shù)據(jù)的差異性，以及通過(guò)特征抽樣來(lái)增大特征差異性。

3.Xgboost、LightGBM

Xgboost[5]模型和LightGBM[6]模型都是典型boosting算法，都是對(duì)GBDT模型的算法和工程改進(jìn)。區(qū)別Bagging模型，基學(xué)習(xí)器可以并行，Boosting模型的基學(xué)習(xí)器間存在先后依賴(lài)。GBDT是一種提升樹(shù)模型，第m輪用一棵CART回歸樹(shù)擬合前m-1輪損失的負(fù)梯度，降低模型的bias。Xgboost相對(duì)于GBDT，對(duì)損失函數(shù)做了優(yōu)化，引入二階導(dǎo)數(shù)信息，并加入正則項(xiàng)控制模型的復(fù)雜度;此外，雖然基模型的訓(xùn)練存在先后順序，但每個(gè)基學(xué)習(xí)器內(nèi)部的樹(shù)節(jié)點(diǎn)分裂可以并行，Xgboost對(duì)此進(jìn)行了并行優(yōu)化。LightGBM相較于Xgboost，提出Histogram算法，對(duì)特征進(jìn)行分桶，減少查詢(xún)分裂節(jié)點(diǎn)的事件復(fù)雜度;此外，提出GOSS算法減少小梯度數(shù)據(jù);同時(shí)，提出EFB算法捆綁互斥特征，降低特征維度，減少模型復(fù)雜度。

四、實(shí)驗(yàn)結(jié)果比較

1.評(píng)價(jià)指標(biāo)

在本實(shí)驗(yàn)中，綜合使用accuracy、precision、recall、f1_score、AUC作為衡量指標(biāo)。

（1）精確率、召回率、F1

混淆矩陣是監(jiān)督學(xué)習(xí)分類(lèi)任務(wù)中預(yù)測(cè)結(jié)果和真實(shí)結(jié)果對(duì)比的可視化工具，如圖2所示。

圖2?混淆矩陣

混淆矩陣（圖2）中包含了TP，F(xiàn)N，F(xiàn)P，TN四個(gè)值：TP表示真正例，即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為1的樣本數(shù)量;FP表示假正例，即預(yù)測(cè)結(jié)果為1，但真實(shí)結(jié)果為0的樣本數(shù)量;FN表示假負(fù)例，即預(yù)測(cè)結(jié)果為0，但真實(shí)結(jié)果為1的樣本數(shù)量;TN表示真負(fù)例，即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為0的樣本數(shù)量。

準(zhǔn)確率：?Accurracy=TP+TNTP+FP+FN+TN

精確率：?Precision=TPTP+FP

召回率：Recall=TPTP+FN

F1=2*P*R（P+R）

（2）AUC_ROC

在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中，常常用AUC來(lái)評(píng)估二分類(lèi)模型的性能。AUC的全稱(chēng)是?area?under?the?curve，即曲線下的面積。

對(duì)于二分類(lèi)問(wèn)題，預(yù)測(cè)模型會(huì)對(duì)每一個(gè)樣本預(yù)測(cè)一個(gè)概率p。然后，可以選取一個(gè)閾值t，讓得分p>t的樣本預(yù)測(cè)為正，而得分p

隨著閾值t的不斷變化，TP、FN、FP和TN的值也不斷變化。定義真正例率TPR和假正例率FPR分別為：

TPR=TPTP+FN

FPR=FPFP+TN

調(diào)整閾值p，得到不同的TPR和FPR值，這條曲線就是ROC曲線。而ROC曲線下的面積，即為AUC。

2.實(shí)驗(yàn)結(jié)果

（1）比較nlp用戶(hù)行為特征效果提升

（3）實(shí)驗(yàn)結(jié)果分析

①對(duì)比表1、表2可知，通過(guò)引入TFIDF特征和Word2Vec特征獲取用戶(hù)行為特征，有助于模型更好地挖掘數(shù)據(jù)的規(guī)律，提高了模型表現(xiàn)的上線。②隨機(jī)森林、Xgboost、Lightgbm這類(lèi)基于ensemble的模型在準(zhǔn)確率、精確率、召回率、f1、AUC這些指標(biāo)上均優(yōu)于邏輯回歸，說(shuō)明樹(shù)模型可能更適合該數(shù)據(jù)集及使用ensemble方法來(lái)融合弱分類(lèi)器，其表現(xiàn)優(yōu)于單個(gè)分類(lèi)器。③基于Boosting的集成學(xué)習(xí)算法（Xgboost，Lightgbm）優(yōu)于基于Bagging的集成學(xué)習(xí)算法（RandomForest），說(shuō)明對(duì)該數(shù)據(jù)和特征而言，減少bias的重要性?xún)?yōu)于減少variance。

五、總結(jié)

在本項(xiàng)目中，通過(guò)機(jī)器學(xué)習(xí)方法對(duì)金融場(chǎng)景數(shù)據(jù)建模，預(yù)測(cè)招商銀行信用卡用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。通過(guò)實(shí)驗(yàn)結(jié)果可知，基于GBDT的Xgboost模型和LightGBM模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均超過(guò)了0.9，驗(yàn)證了機(jī)器學(xué)習(xí)模型的優(yōu)異性?？捎糜趯?shí)際CTR場(chǎng)景中，提升招行掌上生活A(yù)PP的用戶(hù)體驗(yàn)，幫助企業(yè)獲取更多利潤(rùn)。

參考文獻(xiàn)：

[1]羅素文，韓路，許勤，等.探索商業(yè)銀行在大數(shù)據(jù)挖掘技術(shù)領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件，2017，34（9）：43～45+81.

[2]Kleinbaum?D?G，Dietz?K，Gail?M，et?al.Logistic?regression[M].New?York：Springer-Verlag，2002.

[3]Liaw?A，Wiener?M.Classification?and?regression?by?randomForest[J].R?news，2002，2（3）：18～22.

[4]Steinberg?D，Colla?P.CART：classification?and?regression?trees[J].The?top?ten?algorithms?in?data?mining，2009，9：179.

[5]Chen?T，Guestrin?C.Xgboost：A?scalable?tree?boosting?system[C]//Proceedings?of?the?22nd?acm?sigkdd?international?conference?on?knowledge?discovery?and?data?mining.ACM，2016：785～794.

[6]Ke?G，Meng?Q，F(xiàn)inley?T，et?al.Lightgbm：A?highly?efficient?gradient?boosting?decision?tree[C]//Advances?in?Neural?Information?Processing?Systems.2017：3146～3154.

作者簡(jiǎn)介：

曾曉瑋，上海交通大學(xué)附屬中學(xué)學(xué)生。