亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)倉庫的消費金融信用等級模型及應用研究

        2021-01-29 22:20:35西安大略大學韓佩軒
        商展經(jīng)濟 2021年15期
        關(guān)鍵詞:信用等級聚類群體

        西安大略大學 韓佩軒

        1 消費金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu)

        1.1 消費金融大數(shù)據(jù)整體框架

        信息技術(shù)發(fā)展速度不斷加快,消費金融能夠獲得更加精準的金融數(shù)據(jù),同時數(shù)據(jù)量逐漸增多,在進行金融數(shù)據(jù)處理的過程中以及對有關(guān)數(shù)據(jù)分析的時候過程比較繁瑣,需要耗費大量的時間。所以,在數(shù)據(jù)處理過程中如果依然運用傳統(tǒng)的技術(shù),是很難滿足需求的[1]。建立消費金融大數(shù)據(jù)整體框架,對數(shù)據(jù)信息進行存儲、處理,并做好統(tǒng)計工作。

        1.2 消費金融大數(shù)據(jù)平臺架構(gòu)設(shè)計

        1.2.1 系統(tǒng)功能模塊

        數(shù)據(jù)倉庫架構(gòu),主要為六個模塊,具體介紹如下:

        其一,數(shù)據(jù)采集模塊主要的功能是對原始數(shù)據(jù)進行采集,并在數(shù)倉中存儲。

        其二,消息隊列模塊是緩沖隊列,其接收上游生產(chǎn)者傳輸?shù)臄?shù)據(jù)信息,向下游消費者傳輸[2]。

        其三,數(shù)據(jù)預處理模塊,用于預處理消費消息隊列中的緩沖數(shù)據(jù),經(jīng)過流處理模塊計算之后存儲在實時數(shù)倉中。

        其四,實時數(shù)倉,可以提供實時數(shù)據(jù)查詢。

        其五,非實時數(shù)倉,對于T+1時間的數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析以及數(shù)據(jù)查詢服務予以提供。

        其六,數(shù)據(jù)接口平臺,將數(shù)據(jù)查詢接口提供給各業(yè)務系統(tǒng)。

        1.3 消費金融大數(shù)據(jù)平臺數(shù)據(jù)管理

        1.3.1 數(shù)據(jù)抽取

        其一,抽取結(jié)構(gòu)化數(shù)據(jù)。通過sqoop,可以將生產(chǎn)數(shù)據(jù)庫中的所有庫存數(shù)據(jù)導入HIVE,通過canal將每天增加的數(shù)據(jù)偽裝成MySQL的從端,利用主數(shù)據(jù)庫中的binlog進行查詢,實時讀取的時候,向Kafka隊列中寫入數(shù)據(jù),而且還要實時更新數(shù)據(jù)傳輸?shù)介_源數(shù)據(jù)庫中,開源數(shù)據(jù)庫所發(fā)揮的作用是每天將數(shù)據(jù)定期抽取到HIVE中。

        其二,抽取非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是與結(jié)構(gòu)化數(shù)據(jù)相對應的,即為視頻信息、圖片信息等,都不是由數(shù)字表達數(shù)據(jù)信息。這些數(shù)據(jù)都在RDB中統(tǒng)一存儲,將結(jié)構(gòu)化數(shù)據(jù)導入數(shù)據(jù)庫,媒體文件數(shù)據(jù)存儲在文件系統(tǒng)中。利用字符識別技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成文本,提取出來,并在數(shù)據(jù)庫中存儲。

        其三,抽取埋點日志。對客戶行為日志用Kafka緩沖,Web前端和后端使生產(chǎn)者將數(shù)據(jù)寫入到指定的Topic[3]。

        1.3.2 數(shù)據(jù)轉(zhuǎn)換及處理

        將數(shù)據(jù)維度模型建立起來,對于分析需求快速完成,且響應性能得以發(fā)揮。在維度建模的時候,對決策的需求進行分析,構(gòu)建數(shù)據(jù)模型,為分析需求提供服務。通過分析模型,將維度表建立起來,通過整合數(shù)據(jù),搜集個人基礎(chǔ)信息,建立客戶信息表。

        2 消費金融客戶信用等級模型的構(gòu)建

        2.1 消費金融客戶信用等級細分模型

        2.1.1 k-means聚類算法

        k-Means算法,是聚類數(shù)量經(jīng)過定義固定之后,將記錄迭代向聚類分配,并對聚類中心進行調(diào)整,在模型沒有建立之前,其是作為一種無監(jiān)督的學習機制存在的。該算法的特點是輸入字段需要一個或多個字段,可以輸出的信息為多個,能夠快速集聚大型數(shù)據(jù)。

        2.1.2 模型建立

        本文應用K均值聚類算法建立了消費金融客戶信用評級細分模型。具體采用如下的設(shè)計方法:

        其一,在樣本數(shù)據(jù)的選取上,合理選擇客戶數(shù)據(jù)主要用于細分消費信貸的信用等級。

        其二,對數(shù)據(jù)信息分類處理中,可以根據(jù)消費信貸行為劃分為兩個群體,即有消費行為的客戶群體和無消費行為的客戶群體[4]。

        其三,在處理數(shù)據(jù)的過程中,基于有消費信貸行為的客戶對數(shù)據(jù)進行處理。

        2.2 消費金融客戶信用等級概率預測模型

        2.2.1 算法介紹

        其一,決策樹算法。決策樹是一種預測模型,是一種層次二叉樹結(jié)構(gòu)。樹中的每個內(nèi)部節(jié)點為單個變量指定一個替代測試。對于實值和整數(shù)值變量,使用閾值,對于屬性數(shù)據(jù),使用成員子集[5]。每個數(shù)據(jù)從樹的根沿著唯一的路徑向下到一個葉節(jié)點,變量在每個內(nèi)部節(jié)點的選擇測試結(jié)果中確定具體的路徑。每個葉節(jié)點為最可能的葉分類指定類標簽。

        其二,邏輯回歸算法。在線性回歸中,樣本點設(shè)置在空間中的直線上或直線附近,自變量和因變量可以用線性函數(shù)表示,從而闡明它們之間所存在的對應關(guān)系。然而,在某些應用中,既可以用曲線來表示變量之間所存在的關(guān)系,也可以用非線性函數(shù)來表達這些關(guān)系。這個時候的計算依然是用最小二乘法,但參與回歸的時候則是以變量函數(shù)的形式。典型的是非線性回歸中,因變量是一個隨機變量,只有0和1兩個值。自變量通過線性組合影響因變量的期望,獲得回歸模型[6]。

        其三,隨機森林算法。由于消費者信用評級的概率模型為分類模型,所以模型比較多,可以根據(jù)需要選擇。比較常用的模型是決策樹、logistic回歸以及隨機森林等算法。

        2.2.2 模型評價指標

        回歸算法的評價參數(shù)主要包括精確率、召回率和 F1分數(shù)。

        其一,精確率。模型預測是正,而且實際是正的樣本數(shù)量/模型預測是正的樣本數(shù)量,計算的時候使用TP/(TP+FP)。精確率就是通過預測所獲得的結(jié)果,主要的作用是預測為正的樣本中對的一共是多少。

        其二,召回率。模型預測為正和實際為正的樣本數(shù)/模型預測為正的樣本數(shù),TP/(TP+FP)是用于計算的公式。將召回率與原始樣本進行比較,表示樣本中有多少正面的樣本,以及有多少被預測的樣本是正確的[7]。

        其三,F(xiàn)1分數(shù)。該分數(shù)就是精確率與召回率的調(diào)和平均數(shù),計算所采用的公式:

        F1分數(shù)=2×精確率×召回率/(精確率+召回率)

        2.3 基于遷移學習的小樣本解決方案

        2.3.1 生成式對抗網(wǎng)絡(luò)算法

        采用遷移學習法可以通過現(xiàn)象對問題的共性把握,并能熟練地處理新問題。生成式對抗網(wǎng)絡(luò)算法即為GAN算法,這是一種新的機器學習思想。在這個模型中,參與者有兩個,一個是生成模型,另一個是判別模型,其中的生成模型重在捕獲樣本數(shù)據(jù)的分布,生成的樣本與實際訓練數(shù)據(jù)相似,其中為了生成與真實訓練數(shù)據(jù)相似的樣本,越接近真實樣本越好。所謂的“判別模型”是一個雙分類器,根據(jù)訓練數(shù)據(jù)的概率對樣本進行估計。如果樣本的數(shù)據(jù)是通過真實的訓練獲得的,就可以斷定其為輸出大概率;如果樣本的數(shù)據(jù)不是通過真實的訓練獲得的,就可以斷定其為輸出小概率。生成式對抗網(wǎng)絡(luò)算法的主要目的是對發(fā)生器的輸出情況做出判斷[8]。

        2.3.2 模型建立

        其一,選擇數(shù)據(jù)。如果在真實樣本中發(fā)現(xiàn)有數(shù)據(jù)選取樣本不足的問題,需要過濾掉客戶數(shù)據(jù)字段,對消費者信用等級進一步細分。

        其二,處理數(shù)據(jù)。在處理缺失值的時候,需要按照當前類型比例對分類變量的缺失值信息進行隨機化填充,如果在寬表處理之前連續(xù)性變量的缺失值已經(jīng)處理了,則缺失的時候都默認賦值為0。

        對異常值和極值進行替換,使其成為最接近極值的值。例如,如果離群值定義為高于或低于三個標準差的任何值,則所有離群值都將替換為該范圍內(nèi)的最高或最低值[8]。

        其三,迭代次數(shù)的設(shè)置。將總的迭代次數(shù)和一次訓練迭代的操作是固定發(fā)生器,對鑒別器進行K次訓練,使鑒別器逼近最優(yōu)鑒別器,然后固定鑒別器,對發(fā)生器進行一次優(yōu)化訓練。執(zhí)行訓練循環(huán),直到達到總迭代次數(shù)n。

        3 基于信用等級模型的客戶群體分類與預測

        3.1 變量分析

        對2019年5月至2020年5月的客戶數(shù)據(jù)實施模型訓練,以產(chǎn)品的所有業(yè)務數(shù)據(jù)作為樣本,客戶的逾期率可以達到1.1%,不良率可以達到0.6%。從客戶的屬性來看,主要包括個人基本信息、信用行為信息、第三方外部信息。與客戶相關(guān)的變量為233個,對變量進行分析,對客戶的區(qū)分度進行分析。

        3.2 消費金融客戶信用等級細分模型實驗結(jié)果

        基于sparkML框架,使用scalar程序?qū)-means模型進行設(shè)計。聚類數(shù)目由2個增加到10個,調(diào)整聚類數(shù)目后,選擇最優(yōu)聚類數(shù)目。如果簇的數(shù)目是第一次迭代為3,此時的模型就是最優(yōu)的[9]。

        比如,群體一,是2046人,在人群總數(shù)中所占有的比例是9%,平均授信是180000元,平均年齡是40歲,要比整體客戶的平均年齡要高一些。

        群體二,是17050人,在人群總數(shù)中所占有的比例是75%,這個群體的年齡分布比較廣泛,授信額度的分布也是比較大的。

        群體三,是3602人,在人群總數(shù)中所占有的比例是16%,這個群體的年齡是37歲。

        對第二組進一步細分。風險客戶群主要包括拒絕客戶。日利率為0.000666,群體一的授信額度較高,被稱為“高授信客戶群”。第三組群體風險較大,稱為“風險客戶群”,第二組稱為“大眾客戶群”。之前有過授信額而且有過借款,但此后就調(diào)整了授信。

        如果按照客戶的生命周期對大客戶群進行分類,可以進一步細分為一個獨立的群體,具有很大的戰(zhàn)略價值。大眾年輕客戶年齡在19歲到30歲之間;大眾不斷增長的客戶年齡在31至38歲之間;顧客的年齡介于39歲到46歲之間。

        3.3 消費金融客戶信用等級概率預測模型實驗結(jié)果

        進行訓練的時候按照決策樹模型、邏輯回歸模型和隨機森林模型,模型評價指標按照精確率、召回率、F1分數(shù)等,結(jié)果表明,隨機森林模型的結(jié)果比較高,模型準確率高于90%,預測效果非常好。

        4 結(jié)語

        通過上面的研究可以明確,研究互聯(lián)網(wǎng)消費金融等級模型,根據(jù)時間選擇合適的模型分析風險控制是非常必要的。在本文的研究中,基于消費金融客戶數(shù)據(jù)倉庫及其私有云體系結(jié)構(gòu),構(gòu)建消費金融客戶信用等級模型,對客戶群體進行分類并預測,提出做好風險評估的重要性,為信用風險管理研究提供依據(jù)。

        猜你喜歡
        信用等級聚類群體
        通過自然感染獲得群體免疫有多可怕
        科學大眾(2020年10期)2020-07-24 09:14:12
        “群體失語”需要警惕——“為官不言”也是腐敗
        當代陜西(2019年6期)2019-04-17 05:04:02
        協(xié)會圓滿完成武器裝備科研生產(chǎn)單位信用等級評價擴大試點工作
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        住房抵押信貸信用等級的灰色評價方案研究
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        財務信息對債券信用等級的解釋作用
        關(guān)愛特殊群體不畏難
        中國火炬(2012年8期)2012-07-25 09:29:50
        91亚洲最新国语中文字幕| 亚洲成在人网站av天堂| 人人妻人人澡人人爽欧美二区| 免费人成在线观看播放国产| 亚洲精品国产熟女久久| 亚洲熟妇一区二区蜜桃在线观看| 久久久久久夜精品精品免费啦| 久久99精品国产麻豆不卡| 亚洲不卡av不卡一区二区| 中文字幕精品亚洲二区| 国产精品久久av色婷婷网站| 国产精品亚洲精品日韩已方| 三年在线观看免费大全下载 | 亚洲国产一区二区三区在观看| 美国黄色av一区二区| 蜜桃av精品一区二区三区| 少妇下蹲露大唇无遮挡| 久久久久亚洲精品天堂| 一本久道视频无线视频试看| 亚洲一区二区三区99| 中文无码一区二区三区在线观看| 99re热这里只有精品最新| 国产91AV免费播放| 亚洲国产精品激情综合色婷婷| 国产色视频一区二区三区qq号| 精品国产人成亚洲区| 蜜桃一区二区三区在线看| 人妻丰满精品一区二区| 亚洲第一女人av| 亚洲老妈激情一区二区三区 | 亚洲色无码中文字幕| 国产精品夜色视频久久| 噜噜综合亚洲av中文无码| 久青草久青草视频在线观看| 国产真实乱XXXⅩ视频| 日本在线综合一区二区| 精人妻无码一区二区三区| 成人妇女免费播放久久久| 国产精品反差婊在线观看| 蜜桃国产精品视频网站| 久久久亚洲欧洲日产国码aⅴ |