亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的金融消費(fèi)場(chǎng)景預(yù)測(cè)探索

        2020-04-20 11:25:20曾曉瑋
        全國(guó)流通經(jīng)濟(jì) 2020年5期
        關(guān)鍵詞:集成學(xué)習(xí)隨機(jī)森林金融科技

        摘要:隨著近年來(lái)人工智能產(chǎn)業(yè)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,傳統(tǒng)金融行業(yè)逐漸向金融科技轉(zhuǎn)型。招商銀行信用卡中心提出依靠數(shù)據(jù),預(yù)測(cè)用戶(hù)是否會(huì)購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券這一實(shí)際業(yè)務(wù)場(chǎng)景。依據(jù)這一實(shí)際問(wèn)題,采用了各種機(jī)器學(xué)習(xí)方法,包括邏輯回歸、隨機(jī)森林、Xgboost、LightGBM,對(duì)這一問(wèn)題進(jìn)行探索。最后采用集成學(xué)習(xí)方法對(duì)最終結(jié)果進(jìn)行融合。本文采用了上述幾種算法模型進(jìn)行預(yù)測(cè),對(duì)模型原理進(jìn)行了分析,并在多個(gè)評(píng)價(jià)指標(biāo)上衡量各個(gè)模型的表現(xiàn),橫向?qū)Ρ攘瞬煌P偷膬?yōu)缺點(diǎn),并對(duì)造成結(jié)果差異的原因進(jìn)行了總結(jié)。

        關(guān)鍵詞:金融科技;邏輯回歸;集成學(xué)習(xí);隨機(jī)森林;Xgboost;lightGBM;分類(lèi)

        中圖分類(lèi)號(hào):F126.1?文獻(xiàn)識(shí)別碼:A文章編號(hào):

        2096-3157(2020)05-0153-03

        一、引言

        隨著近年來(lái)互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)不斷累積,計(jì)算機(jī)算力不斷提高,如何挖掘數(shù)據(jù)背后的價(jià)值成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的重要課題。機(jī)器學(xué)習(xí)作為一種統(tǒng)計(jì)學(xué)習(xí)方法,利用模型來(lái)自動(dòng)學(xué)習(xí)數(shù)據(jù)背后隱藏的規(guī)律,成為挖掘數(shù)據(jù)潛在價(jià)值的重要手段,已經(jīng)深入到人們生活的方方面面,機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景也逐漸深入到金融領(lǐng)域[1]。

        機(jī)器學(xué)習(xí)領(lǐng)域可進(jìn)一步分為監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)三大類(lèi),本文著力于研究有標(biāo)注訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)問(wèn)題,基于招商銀行用戶(hù)信用卡數(shù)據(jù),預(yù)測(cè)用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。在本研究中,探索了傳統(tǒng)的單模型機(jī)器學(xué)習(xí)算法,如邏輯回歸、決策樹(shù),也探索了集成學(xué)習(xí)算法,包括隨機(jī)森林、GBDT、Xgboost、LightGbm等在金融消費(fèi)領(lǐng)域的應(yīng)用。

        二、數(shù)據(jù)

        1.數(shù)據(jù)集描述

        本項(xiàng)目所使用的數(shù)據(jù)集主要分為以下三部分:一是個(gè)人屬性與信用卡消費(fèi)數(shù)據(jù);二是APP操作行為日志;三是標(biāo)注數(shù)據(jù)。

        2.數(shù)據(jù)預(yù)處理

        為挖掘掌上生活A(yù)PP數(shù)據(jù)背后隱藏的信息,做了如下預(yù)處理,提取了特征:

        (1)傳統(tǒng)特征工程

        傳統(tǒng)特征主要基于以下2個(gè)小類(lèi):①基礎(chǔ)統(tǒng)計(jì)特征。用戶(hù)點(diǎn)擊的總次數(shù)、用戶(hù)在各天(周)點(diǎn)擊的次數(shù)、用戶(hù)點(diǎn)擊行為的天數(shù)、用戶(hù)每天(周)點(diǎn)擊的平均數(shù)、最大值、最小值、眾數(shù)、方差、鋒度、偏度等。②時(shí)序相關(guān)特征。用戶(hù)點(diǎn)擊的時(shí)間間隔、用戶(hù)最大連續(xù)點(diǎn)擊天數(shù),用戶(hù)最后一次點(diǎn)擊距離最后一天的間隔……

        (2)TF-IDF特征

        TF-IDF是信息檢索領(lǐng)域常用的一種文本的向量表示方法,用以評(píng)估一個(gè)字/詞在語(yǔ)料庫(kù)中的重要程度。依據(jù)這一假設(shè),字/詞的重要性與它在該篇文章中出現(xiàn)的次數(shù)成正比,但和它在整個(gè)語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)成反比。TF表示詞頻(Term?Frequency),IDF表示逆文本頻率指數(shù)(Inverse?Document?Frequency)。

        TF-IDF=TF×IDF

        TF=某個(gè)詞在文檔中的出現(xiàn)次數(shù)文檔的總詞數(shù),IDF=long(詞料庫(kù)的文檔總數(shù)包含該詞的文檔數(shù)+1),

        在本數(shù)據(jù)集中,將每一個(gè)點(diǎn)擊模塊看成一個(gè)詞,一個(gè)用戶(hù)的所有操作構(gòu)成一篇文檔。user?2的用戶(hù)點(diǎn)擊行為如圖1所示。

        圖1?用戶(hù)行為描述

        (3)word2vec特征

        TF-IDF特征未能考慮用戶(hù)行為的順序,故采用word2vec捕捉用戶(hù)行為的局部共現(xiàn)特征。Word2vec利用淺層神經(jīng)網(wǎng)絡(luò)將高維的稀疏詞向量嵌入到一個(gè)低維(100)的稠密空間。用該向量來(lái)表示包含順序信息的用戶(hù)行為特征。

        3.數(shù)據(jù)集劃分

        招商銀行信用卡中心提供了3月份31天的數(shù)據(jù),為貼合實(shí)際應(yīng)用場(chǎng)景,按照時(shí)序切分?jǐn)?shù)據(jù)——即將前28天的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將最后3天的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

        三、機(jī)器學(xué)習(xí)模型

        1.邏輯回歸

        Logistic?Regression[2](邏輯回歸)是機(jī)器學(xué)習(xí)中一個(gè)應(yīng)用非常廣泛的分類(lèi)模型,它將數(shù)據(jù)擬合到sigmoid函數(shù),從而完成對(duì)事件發(fā)生概率的預(yù)測(cè)。

        2.隨機(jī)森林

        在集成學(xué)習(xí)方法中最主要的兩種方法為Bagging和Boosting,Bagging模型可以并行的學(xué)習(xí)多個(gè)基模型,并將基模型的結(jié)果投票求平均得到模型最終的結(jié)果。隨機(jī)森林[3](Random?Forest)是以CART[4]決策樹(shù)為基模型的一種典型的Bagging算法。為降低模型的方差,減小過(guò)擬合,集成學(xué)習(xí)算法需要增大基模型的差異性。隨機(jī)森林算法主要通過(guò)bootstrap采樣來(lái)增大訓(xùn)練數(shù)據(jù)的差異性,以及通過(guò)特征抽樣來(lái)增大特征差異性。

        3.Xgboost、LightGBM

        Xgboost[5]模型和LightGBM[6]模型都是典型boosting算法,都是對(duì)GBDT模型的算法和工程改進(jìn)。區(qū)別Bagging模型,基學(xué)習(xí)器可以并行,Boosting模型的基學(xué)習(xí)器間存在先后依賴(lài)。GBDT是一種提升樹(shù)模型,第m輪用一棵CART回歸樹(shù)擬合前m-1輪損失的負(fù)梯度,降低模型的bias。Xgboost相對(duì)于GBDT,對(duì)損失函數(shù)做了優(yōu)化,引入二階導(dǎo)數(shù)信息,并加入正則項(xiàng)控制模型的復(fù)雜度;此外,雖然基模型的訓(xùn)練存在先后順序,但每個(gè)基學(xué)習(xí)器內(nèi)部的樹(shù)節(jié)點(diǎn)分裂可以并行,Xgboost對(duì)此進(jìn)行了并行優(yōu)化。LightGBM相較于Xgboost,提出Histogram算法,對(duì)特征進(jìn)行分桶,減少查詢(xún)分裂節(jié)點(diǎn)的事件復(fù)雜度;此外,提出GOSS算法減少小梯度數(shù)據(jù);同時(shí),提出EFB算法捆綁互斥特征,降低特征維度,減少模型復(fù)雜度。

        四、實(shí)驗(yàn)結(jié)果比較

        1.評(píng)價(jià)指標(biāo)

        在本實(shí)驗(yàn)中,綜合使用accuracy、precision、recall、f1_score、AUC作為衡量指標(biāo)。

        (1)精確率、召回率、F1

        混淆矩陣是監(jiān)督學(xué)習(xí)分類(lèi)任務(wù)中預(yù)測(cè)結(jié)果和真實(shí)結(jié)果對(duì)比的可視化工具,如圖2所示。

        圖2?混淆矩陣

        混淆矩陣(圖2)中包含了TP,F(xiàn)N,F(xiàn)P,TN四個(gè)值:TP表示真正例,即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為1的樣本數(shù)量;FP表示假正例,即預(yù)測(cè)結(jié)果為1,但真實(shí)結(jié)果為0的樣本數(shù)量;FN表示假負(fù)例,即預(yù)測(cè)結(jié)果為0,但真實(shí)結(jié)果為1的樣本數(shù)量;TN表示真負(fù)例,即預(yù)測(cè)結(jié)果和真實(shí)結(jié)果都為0的樣本數(shù)量。

        準(zhǔn)確率:?Accurracy=TP+TNTP+FP+FN+TN

        精確率:?Precision=TPTP+FP

        召回率:Recall=TPTP+FN

        F1=2*P*R(P+R)

        (2)AUC_ROC

        在統(tǒng)計(jì)和機(jī)器學(xué)習(xí)中,常常用AUC來(lái)評(píng)估二分類(lèi)模型的性能。AUC的全稱(chēng)是?area?under?the?curve,即曲線下的面積。

        對(duì)于二分類(lèi)問(wèn)題,預(yù)測(cè)模型會(huì)對(duì)每一個(gè)樣本預(yù)測(cè)一個(gè)概率p。然后,可以選取一個(gè)閾值t,讓得分p>t的樣本預(yù)測(cè)為正,而得分p

        隨著閾值t的不斷變化,TP、FN、FP和TN的值也不斷變化。定義真正例率TPR和假正例率FPR分別為:

        TPR=TPTP+FN

        FPR=FPFP+TN

        調(diào)整閾值p,得到不同的TPR和FPR值,這條曲線就是ROC曲線。而ROC曲線下的面積,即為AUC。

        2.實(shí)驗(yàn)結(jié)果

        (1)比較nlp用戶(hù)行為特征效果提升

        (3)實(shí)驗(yàn)結(jié)果分析

        ①對(duì)比表1、表2可知,通過(guò)引入TFIDF特征和Word2Vec特征獲取用戶(hù)行為特征,有助于模型更好地挖掘數(shù)據(jù)的規(guī)律,提高了模型表現(xiàn)的上線。②隨機(jī)森林、Xgboost、Lightgbm這類(lèi)基于ensemble的模型在準(zhǔn)確率、精確率、召回率、f1、AUC這些指標(biāo)上均優(yōu)于邏輯回歸,說(shuō)明樹(shù)模型可能更適合該數(shù)據(jù)集及使用ensemble方法來(lái)融合弱分類(lèi)器,其表現(xiàn)優(yōu)于單個(gè)分類(lèi)器。③基于Boosting的集成學(xué)習(xí)算法(Xgboost,Lightgbm)優(yōu)于基于Bagging的集成學(xué)習(xí)算法(RandomForest),說(shuō)明對(duì)該數(shù)據(jù)和特征而言,減少bias的重要性?xún)?yōu)于減少variance。

        五、總結(jié)

        在本項(xiàng)目中,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)金融場(chǎng)景數(shù)據(jù)建模,預(yù)測(cè)招商銀行信用卡用戶(hù)是否購(gòu)買(mǎi)掌上生活A(yù)PP優(yōu)惠券。通過(guò)實(shí)驗(yàn)結(jié)果可知,基于GBDT的Xgboost模型和LightGBM模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均超過(guò)了0.9,驗(yàn)證了機(jī)器學(xué)習(xí)模型的優(yōu)異性??捎糜趯?shí)際CTR場(chǎng)景中,提升招行掌上生活A(yù)PP的用戶(hù)體驗(yàn),幫助企業(yè)獲取更多利潤(rùn)。

        參考文獻(xiàn):

        [1]羅素文,韓路,許勤,等.探索商業(yè)銀行在大數(shù)據(jù)挖掘技術(shù)領(lǐng)域的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(9):43~45+81.

        [2]Kleinbaum?D?G,Dietz?K,Gail?M,et?al.Logistic?regression[M].New?York:Springer-Verlag,2002.

        [3]Liaw?A,Wiener?M.Classification?and?regression?by?randomForest[J].R?news,2002,2(3):18~22.

        [4]Steinberg?D,Colla?P.CART:classification?and?regression?trees[J].The?top?ten?algorithms?in?data?mining,2009,9:179.

        [5]Chen?T,Guestrin?C.Xgboost:A?scalable?tree?boosting?system[C]//Proceedings?of?the?22nd?acm?sigkdd?international?conference?on?knowledge?discovery?and?data?mining.ACM,2016:785~794.

        [6]Ke?G,Meng?Q,F(xiàn)inley?T,et?al.Lightgbm:A?highly?efficient?gradient?boosting?decision?tree[C]//Advances?in?Neural?Information?Processing?Systems.2017:3146~3154.

        作者簡(jiǎn)介:

        曾曉瑋,上海交通大學(xué)附屬中學(xué)學(xué)生。

        猜你喜歡
        集成學(xué)習(xí)隨機(jī)森林金融科技
        基于稀疏編碼器與集成學(xué)習(xí)的文本分類(lèi)
        百度金融成立國(guó)內(nèi)首家“金融科技”學(xué)院
        培訓(xùn)(2017年1期)2017-02-17 16:43:01
        基于屬性權(quán)重的Bagging回歸算法研究
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        寧夏平羅縣城鄉(xiāng)居民信用信息服務(wù)平臺(tái)建設(shè)的實(shí)踐與思考
        西部金融(2015年9期)2015-10-26 18:00:12
        基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究
        科技視界(2015年27期)2015-10-08 11:01:28
        淺談金融科技與金融創(chuàng)新的關(guān)系
        人妻少妇精品视频一区二区三区| 无套内射无矿码免费看黄| 久久久久久久无码高潮| 国内精品福利在线视频| 99亚洲女人私处高清视频| 久久综合伊人77777麻豆| 国产精品毛片久久久久久久| 久久综合网天天 | 久久少妇呻吟视频久久久| 一区二区三区国产在线视频| 一本色道无码道dvd在线观看| 熟女性饥渴一区二区三区| 久久精品国产亚洲av热一区| 亚洲精品偷拍自综合网| 天天躁日日躁狠狠躁| 国产天堂在线观看| 国产精品综合色区av| 开心五月婷婷激情综合网| 亚洲国产成人影院在线播放| 国产亚洲精品成人无码精品网站| 亚洲黄片av在线免费观看| 色哟哟亚洲色精一区二区| 亚洲综合精品伊人久久| 亚洲欧洲久久久精品| 中文字幕亚洲高清精品一区在线| 亚洲熟妇无码av在线播放| 亚洲男同帅gay片在线观看| 中文字幕无码免费久久| 婷婷色精品一区二区激情| 国产福利精品一区二区| 国产农村妇女毛片精品久久久| 国产一区二区三区涩涩涩| 国产无套中出学生姝| 久久精品人人做人人爽| 国产自精品在线| 人妻少妇中文字幕,久久精品| 成人性生交大片免费看96| 亚洲天堂中文| 国产亚洲一区二区毛片| 浪货趴办公桌~h揉秘书电影| 久久久久99精品国产片|