亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于xgboost模型的消費(fèi)者信用評級系統(tǒng)

        2021-01-13 08:16:50王明月張青云李曉會
        關(guān)鍵詞:畫像人臉識別評級

        史 偉,王明月,張青云,李曉會

        基于xgboost模型的消費(fèi)者信用評級系統(tǒng)

        史 偉,王明月,張青云,李曉會

        (遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121001)

        設(shè)計了一種基于xgboost模型的消費(fèi)者信用評級系統(tǒng),通過人臉識別方法選出一部分特征作為消費(fèi)者標(biāo)簽,量化消費(fèi)者信息,以此敘述消費(fèi)者形象;對-means聚類進(jìn)行改進(jìn),提出了基于核密度的人臉識別聚類算法,將消費(fèi)者分成不同的類別,據(jù)此完成信用評級。系統(tǒng)能夠緩解噪聲點敏感,使原始中心點選擇更加簡單,并且較少使用銀行交易記錄,具有較高的可用性。

        xgboost模型;信用評級;消費(fèi)者畫像;聚類算法

        目前,人工智能技術(shù)[1]的快速發(fā)展,使其再次成為國內(nèi)外學(xué)者的研究熱點,而人臉識別技術(shù)是最受關(guān)注的應(yīng)用之一,甚至對金融行業(yè)也產(chǎn)生了積極的影響。隨著人臉識別等技術(shù)的不斷應(yīng)用,也對金融行業(yè)的風(fēng)險保護(hù)問題提出了挑戰(zhàn),例如借貸過程中可能存在的欺詐現(xiàn)象,需要對消費(fèi)者的信用進(jìn)行評級,進(jìn)而控制風(fēng)險。因此,建立一種安全、準(zhǔn)確的消費(fèi)者信用評級系統(tǒng)是非常必要的。

        信用評級[2]是指利用消費(fèi)者的個人基本信息以及信貸信息進(jìn)行分析,得出消費(fèi)者的信用等級,進(jìn)而判斷消費(fèi)者是否有能力接受借貸服務(wù),接受哪個等級的借貸服務(wù),以及違約的風(fēng)險和損失等級。

        有很多傳統(tǒng)的信用評級模型,例如FICO[3]通過統(tǒng)計分析原始數(shù)據(jù)來建立數(shù)學(xué)模型,預(yù)測消費(fèi)者的信用評級,但是缺少正確數(shù)據(jù)的存儲,還不適用于處理企業(yè)信貸問題;David Durand提出了判別分析法[4],通過對原始樣本的規(guī)律建立函數(shù),實現(xiàn)對大量的原始數(shù)據(jù)的有效分類,具有較高的精確度和效率,然而得出的結(jié)果缺少經(jīng)濟(jì)方面的意義;第十二屆全國人大三次會議中,李克強(qiáng)總理第一次提出了“互聯(lián)網(wǎng)+”[5]計劃,促進(jìn)新興技術(shù)和傳統(tǒng)行業(yè)的融合發(fā)展,特別是金融行業(yè),我國互聯(lián)網(wǎng)金融行業(yè)隨著余額寶等理財產(chǎn)品的產(chǎn)生而快速發(fā)展。

        由上述分析可以看出,傳統(tǒng)的風(fēng)險評級方法都存在著一定的缺陷。因此,本文提出了一種消費(fèi)者信用評級系統(tǒng),基本步驟如下。

        (1)利用人臉識別技術(shù)獲取消費(fèi)者信息,在Hadoop分布式平臺利用MapReduce分布式架構(gòu)、HDFS分布式文件系統(tǒng)和xgboost回歸法描繪消費(fèi)者的形象。

        (2)利用核密度人臉識別聚類算法將消費(fèi)者分成不同的等級,對其進(jìn)行分析,以達(dá)到金融風(fēng)險控制的目的。

        1 消費(fèi)者畫像構(gòu)建

        消費(fèi)者畫像構(gòu)建是指建立標(biāo)簽體系[6],在Hadoop分布式平臺[7]利用xgboost回歸法[8]將消費(fèi)者原始標(biāo)簽信息定量化,利用HDFS分布式文件系統(tǒng)[9]存儲、MapReduce分布式架構(gòu)[10]計算消費(fèi)者數(shù)據(jù),進(jìn)而描述消費(fèi)者畫像,便于計算機(jī)處理,消費(fèi)者畫像廣泛應(yīng)用于金融領(lǐng)域,可以找出適應(yīng)需求的消費(fèi)者或者生產(chǎn)出適合消費(fèi)者的產(chǎn)品。消費(fèi)者畫像形成過程如圖1所示。

        圖1 消費(fèi)者畫像

        構(gòu)建消費(fèi)者畫像的詳細(xì)步驟如下。

        (1)建立標(biāo)簽體系[11]。標(biāo)簽體系是用于描述消費(fèi)者畫像,首先通過對消費(fèi)者依次進(jìn)行人臉檢測、圖像預(yù)處理、特征提取和人臉識別[12]得到消費(fèi)者的具體信息,選出有代表性的特征數(shù)據(jù),即為標(biāo)簽數(shù)據(jù),通過標(biāo)簽來對消費(fèi)者的特點進(jìn)行描述,即產(chǎn)生正確的消費(fèi)者標(biāo)簽,建立標(biāo)簽體系,每個消費(fèi)者都具有自己的特征標(biāo)簽,分析每個特征標(biāo)簽,根據(jù)消費(fèi)者所在的群體可以得出其獨有的特征,分析可得消費(fèi)者的違約風(fēng)險等信息。

        (2)定量化消費(fèi)者數(shù)據(jù)。消費(fèi)者標(biāo)簽信息屬于定性化數(shù)據(jù),因此需要對其進(jìn)行定量化以便后續(xù)計算,xgboost回歸法可以實現(xiàn)此操作。xgboost回歸法是指任一樣本根據(jù)某個特征值進(jìn)行分裂,每次分裂形成1棵樹,添加1棵樹的實質(zhì)是機(jī)器學(xué)習(xí)1個特征標(biāo)簽,每一棵樹都被學(xué)習(xí)之后,通過樣本中葉子結(jié)點(即經(jīng)過機(jī)器學(xué)習(xí)的所有樹)的分?jǐn)?shù)對特征進(jìn)行轉(zhuǎn)換,直到每個特征轉(zhuǎn)換成數(shù)值型數(shù)據(jù),以提高相似性計算的效率。

        (3)形成消費(fèi)者畫像。Hadoop分布式平臺即分布式系統(tǒng)的基礎(chǔ)架構(gòu),由Apache基金會開發(fā),實現(xiàn)了MapReduce分布式架構(gòu)和HDFS分布式文件系統(tǒng)。轉(zhuǎn)換之后的消費(fèi)者數(shù)據(jù)利用HDFS來存儲,在大數(shù)據(jù)環(huán)境下,利用1臺計算機(jī)不能對數(shù)據(jù)進(jìn)行有效存儲,需要多臺計算機(jī)對其存儲,提高了成本,但是HDFS可以同時處理全部文件數(shù)據(jù)。然后利用MapReduce分布式架構(gòu)對數(shù)據(jù)進(jìn)行計算,其處理模塊是自定義的,解決了某些架構(gòu)不能修改錯誤模塊而創(chuàng)建補(bǔ)丁導(dǎo)致后續(xù)操作可能存在問題的缺陷。MapReduce由Map和Reduce函數(shù)構(gòu)成。原理圖如圖2所示。

        圖2 MapReduce原理圖

        2 聚類算法研究

        聚類通過訓(xùn)練樣本的全部數(shù)據(jù)來得出其規(guī)律。

        2.1 k-means聚類

        -means聚類[13-14]隨機(jī)選擇個初始點作為每個簇的中心,遍歷數(shù)據(jù)集的全部數(shù)據(jù),計算每個數(shù)據(jù)之間的距離,將距離較近的數(shù)據(jù)放在一組,即為1個簇,簇的中心會連續(xù)更新,最終達(dá)到全部數(shù)據(jù)到中心的距離最小或某個閾值。-means將距離作為樣本分類的標(biāo)準(zhǔn),數(shù)據(jù)間的距離越近說明越相似,數(shù)據(jù)間的距離越遠(yuǎn)說明差異越大。

        樣本相似性[15]的判別方法是距離長短,距離可以通過3種方式度量。

        (1)閔科夫斯基距離:點與點的真實距離:

        (2)馬氏距離:數(shù)據(jù)之間的協(xié)方差距離,考慮樣本特征間的關(guān)系。

        (3)夾角余弦:通過夾角的余弦值得出相似性。

        (4)相關(guān)系數(shù):

        判斷特征之間的線性關(guān)系。

        -means具有操作簡單和效率高等優(yōu)點,然而也存在一些缺陷:(1)需要預(yù)先知道分類個數(shù),實際上很不容易實現(xiàn);(2)對孤立點過于敏感,可能會造成局部最優(yōu);(3)每個簇初始點的選擇不確定,導(dǎo)致結(jié)果不一定最優(yōu)。

        2.2 基于核密度的人臉識別聚類

        核密度估計[16]是非參數(shù)估計方法,基于核密度的人臉識別聚類算法是對-means聚類算法的改進(jìn),可以解決以上問題,首先在預(yù)先不知道數(shù)據(jù)分布的情況下得出近似的概率密度函數(shù),以得到數(shù)據(jù)分布的特征,可以使用這種方法選取核密度極大值作為初始點,然后再進(jìn)行-means聚類算法。

        基于核密度的聚類算法基本步驟為:(1)遍歷一次數(shù)據(jù)集得出核密度估計結(jié)果;(2)計算出節(jié)點的值和聚類的初始點;(3)進(jìn)行-means聚類算法。

        算法的基本思想是:首先對節(jié)點進(jìn)行聚類,設(shè)均值向量為聚類的初始點集合,分別計算其余樣本值與初始點的歐氏距離,與初始值距離最小的樣本歸入到該簇中,循環(huán)迭代直到全部樣本都?xì)w入到對應(yīng)的簇中(算法1第1~11行);還需要額外考慮一種數(shù)據(jù),即有些樣本數(shù)據(jù)是噪點但被分到簇中,設(shè)Ni為任意樣本,如果A和B的距離半徑不大于A和Ni的距離,則Ni即為噪點,除去噪點形成新的簇(算法1第12~22行)。聚類的偽代碼如下:

        算法1 聚類算法

        輸入:初始樣本A

        輸出:聚類合并結(jié)果O”={O1,O2,…,Om}

        1: A.forEach(function(value,index,array))

        2: 均值向量為μ={μ1,μ2,…,μm}

        3: Oj’=?(1≤j≤m)

        4: for(j=1;j≤m;j++){

        5: for(i=1;i≤n;i++){

        6: dij=||xi-μj||2;

        7: θi=min dij;

        8: Oθi’=Oθi’∪{xi};

        9: }

        10: }

        11: return O’={O1’,O2’,…,Om’};

        12: While(O’!=Null)

        13: OA”=Next(O’);

        14: ZDA=GetPoints(OA”);

        15: OB”=Next(O’);

        16: ZDB=GetPoints(OB”);

        17: do

        18: if(Zr(DA,DB) <= distance(DA,Ni))

        19: O”=sub(Ni);

        20: End

        21: until 所有樣本比較完畢

        22: return O”;

        23: End

        3 系統(tǒng)分析

        系統(tǒng)硬件環(huán)境采用Intel(R) Core(TM) i3-3240 CPU@3.40 GHz處理器,4 GB內(nèi)存,500 G硬盤;軟件環(huán)境采用Windows10操作系統(tǒng)和pycharm開發(fā)平臺。

        首先根據(jù)人臉識別獲取消費(fèi)者特征,將消費(fèi)者特征轉(zhuǎn)換為對應(yīng)的標(biāo)簽,便于處理,再對消費(fèi)者分配,利用標(biāo)簽并在Hadoop分布式平臺上,采用HDFS分布式文件系統(tǒng)存儲消費(fèi)者的數(shù)據(jù),MapReduce分布式架構(gòu)計算消費(fèi)者的數(shù)據(jù),利用xgboost回歸法使機(jī)器能夠?qū)W習(xí)消費(fèi)者的數(shù)據(jù),分析其數(shù)據(jù)可以得出消費(fèi)者的特征,以此來描繪消費(fèi)者畫像。然后根據(jù)基于核密度的人臉識別聚類算法將所有消費(fèi)者進(jìn)行等級劃分,實現(xiàn)金融風(fēng)險的控制。

        將消費(fèi)者數(shù)據(jù)分別進(jìn)行-means聚類和基于核密度的人臉識別聚類,2種方法的聚類結(jié)果都形成5個簇,即將消費(fèi)者分為5個等級,如圖3和圖4所示。進(jìn)行對比可以得出基于核密度的分布式聚類有較高的準(zhǔn)確率,噪聲點較少,簇內(nèi)更緊密,簇間差距更顯著。

        圖3 k-means聚類結(jié)果圖

        圖4 基于核密度的人臉識別聚類結(jié)果圖

        從數(shù)據(jù)中取出5組數(shù)據(jù)量不同的數(shù)據(jù),2種方法所需時間如圖5所示??梢缘贸鰯?shù)據(jù)量越大基于核密度的人臉識別聚類所需時間與-means相差越大,因此在數(shù)據(jù)量大的情況下,優(yōu)先使用基于核密度的人臉識別聚類方法。

        圖5 聚類效率對比圖

        4 結(jié)束語

        基于xgboost模型的消費(fèi)者信用評級方法解決了傳統(tǒng)評級系統(tǒng)較多的使用消費(fèi)者銀行交易記錄的缺陷,提高了聚類算法的效率和精確度,并且如果采用具有更快CPU和更大內(nèi)存的計算機(jī),還可以繼續(xù)提高聚類效率。本文給出了基于xgboost模型的消費(fèi)者信用評級系統(tǒng)的開發(fā)流程,建立消費(fèi)者畫像和消費(fèi)者分類的關(guān)鍵技術(shù),以及消費(fèi)者的信用評級對控制金融風(fēng)險具有的重要意義。

        [1] 董建文. 人工智能時代互聯(lián)網(wǎng)金融信息安全風(fēng)險及防范[J]. 科技與金融, 2019(11): 60-63.

        [2] Brendan Daley, Brett Green, Victoria Vanasco. Securitization, Ratings, and Credit Supply[J]. The Journal of Finance, 2020, 75(2): 17-26.

        [3] 姜琳. 美國FICO評分系統(tǒng)述評[J]. 商業(yè)研究, 2006(20): 81-84.

        [4] 石勇, 孟凡. 信用評分基本理論及其應(yīng)用[J]. 大數(shù)據(jù), 2017, 3(1): 19-26.

        [5]李克強(qiáng)主持召開國務(wù)院常務(wù)會議 通過《“互聯(lián)網(wǎng)+”行動指導(dǎo)意見》 用“互聯(lián)網(wǎng)+”助推經(jīng)濟(jì)發(fā)展[J]. 決策探索: 上半月, 2015(7): 4.

        [6] 高廣尚. 用戶畫像構(gòu)建方法研究綜述[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2019, 3(3): 25-35.

        [7] 孫超. 基于Hadoop平臺的機(jī)器學(xué)習(xí)聚類算法研究[D]. 西安: 西安電子科技大學(xué), 2018.

        [8] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, 16(8):13-17.

        [9] 王大志. 基于HDFS的跨集群分布式文件系統(tǒng)研究[J].信息技術(shù)與信息化, 2019(8): 229-230.

        [10] 林丹楠, 黃銳. 大數(shù)據(jù)挖掘中的MapReduce并行聚類優(yōu)化算法研究[J]. 太原師范學(xué)院學(xué)報: 自然科學(xué)版, 2019, 18(4): 49-53.

        [11] 商麗媛. 基于用戶畫像的中小企業(yè)營銷策略研究[J]. 科技經(jīng)濟(jì)市場, 2019(11): 155-156.

        [12] 崔慶華. 基于局部特征分析的人臉識別方法[J]. 計算機(jī)產(chǎn)品與流通, 2020(4): 140.

        [13] Hartigan J A, Wong M A. A K‐Means Clustering Algorithm[J]. Journal of the Royal Statistical Society: Series C: Applied Statistics, 1979, 28(1): 100-108.

        [14] 熊忠陽, 陳若田, 張玉芳. 一種有效的K-means聚類中心初始化方法[J]. 計算機(jī)應(yīng)用研究, 2011, 28(11): 4188-4190.

        [15] 李桂林, 陳曉云. 關(guān)于聚類分析中相似度的討論[J]. 計算機(jī)工程與應(yīng)用, 2004(31): 64-65, 82.

        [16] Tao X, Li Y. Concept-Based, Personalized Web Information Gathering: A Survey[C]//Knowledge Science, Engineering and Management, Third International Conference, KSEM 2009: 25-27.

        Consumer Credit Rating System Based on the Xgboost Model

        SHI Wei, WANG Ming-yue, ZHANG Qing-yun, LI Xiao-hui

        (School of Electronics & Information Engineering, Liaoning University of Technology, Jinzhou 121001, China)

        A consumer credit rating system based on xgboost model is designed, which uses face recognition method to select some features as consumer labels, quantifies consumer information, and narrates consumer image. The k-means clustering is improved, and a face recognition clustering algorithm based on kernel density is proposed, which divides consumers into different categories for credit rating. The system can alleviate noise point sensitivity, make the selection of original center point more simple, and use less bank transaction records with high availability.

        xgboost model; credit evaluation; consumer portrait; clustering algorithm

        TP311

        A

        1674-3261(2021)01-0001-04

        10.15916/j.issn1674-3261.2021.01.001

        2020-06-03

        國家自然科學(xué)基金項目(61802161)

        史偉(1978-),女,遼寧錦州人,實驗師,碩士。

        責(zé)任編校:孫 林

        猜你喜歡
        畫像人臉識別評級
        威猛的畫像
        人臉識別 等
        “00后”畫像
        畫像
        揭開人臉識別的神秘面紗
        分析師最新給予買入評級的公司
        百度遭投行下調(diào)評級
        IT時代周刊(2015年8期)2015-11-11 05:50:22
        基于類獨立核稀疏表示的魯棒人臉識別
        潛行與畫像
        基于K-L變換和平均近鄰法的人臉識別
        亚洲精品无码久久久久| 天堂av中文在线官网| 国产精品久久中文字幕亚洲| 免费在线视频一区| 亚洲色婷婷综合开心网| 国产成人综合久久大片| 亚洲av一二三区成人影片| 国产高颜值大学生情侣酒店| 91亚洲国产成人aⅴ毛片大全 | aaa日本高清在线播放免费观看| 玩弄放荡人妻少妇系列视频| 午夜三级网| 综合无码综合网站| 国产在线不卡AV观看| 成人免费丝袜美腿视频| 国产熟女白浆精品视频二| av无码国产在线看免费网站| 免费无码国产v片在线观看| 国产精品国产自线拍免费| 一国产区在线观看| 国产午夜精品一区二区三区不| 日韩十八禁在线观看视频| 国产午夜在线视频观看| 一个人看的视频www免费| 国产精品无码久久久久免费AV | 亚洲最大无码AV网站观看| 韩国黄色三级一区二区| 亚洲第一狼人天堂网亚洲av| 欧美成年黄网站色视频| 男人深夜影院无码观看| 视频一区欧美| 国产精品亚洲av网站| 亚洲av手机在线网站| 一本一道av无码中文字幕﹣百度| 无码AV高潮喷水无码专区线| 国产又色又爽的视频在线观看91| 按摩偷拍一区二区三区| 日本二区三区在线免费| 亚洲av国产av综合av卡| 先锋影音av资源我色资源| 中文字幕精品人妻av在线|