亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)算法的精確制導:信貸客戶識別以及特征要素分析

        2016-01-16 02:28:44孫存一王彩霞
        稅務與經(jīng)濟 2016年1期
        關鍵詞:分類器變量樣本

        孫存一,張 秋,王彩霞

        (1.中國人民大學 財政金融學院,北京 100872; 2.吉林財經(jīng)大學 金融學院,吉林 長春130117;3.北京經(jīng)開租賃有限公司,北京 100176)

        一、引 言

        上世紀中期以后,商業(yè)銀行面臨著日益嚴峻的挑戰(zhàn),保險公司等各種非銀行金融機構(gòu)開始與銀行爭奪融資市場。資本市場日益成熟并成為一個新的更重要的融資渠道,融資工具日益多樣化、復雜化。銀行面對的客戶也發(fā)生了很大的變化。銀行業(yè)作為服務性行業(yè),決定了其經(jīng)營和管理必須以客戶為導向,對客戶資源進行有效的管理是銀行在激烈的競爭中生存和發(fā)展所不可忽略的因素。在中國加入世界貿(mào)易組織、逐步開放銀行業(yè)的過程中,各大銀行采取了諸多吸引高端客戶群、限制低端客戶的方法。從國內(nèi)外的研究來看,主要關注客戶特征描述的專家判斷、指標體系、結(jié)構(gòu)計量、時間序列等數(shù)學模型的行為[1-3],這些模型建立在諸多假設的基礎之上,精確度不高,應用效果不甚理想。在新的社會經(jīng)濟條件下,由于金融機構(gòu)資產(chǎn)多樣化、互聯(lián)網(wǎng)金融等的興起,使客戶識別更加復雜,再加上市場競爭、信息不對稱、擔保體系、商業(yè)銀行信貸管理水平和政策環(huán)境等方面的原因,傳統(tǒng)的客戶識別方法難以滿足實際需求。在新的形勢下我國銀行的出路何在?如何優(yōu)化配置客戶資源?這是值得專家學者探索的問題。眾所周知,隨著大數(shù)據(jù)、云計算等信息技術(shù)的不斷涌現(xiàn),金融創(chuàng)新的需求日益迫切,技術(shù)進步對于金融機構(gòu)所提供的金融服務的規(guī)模、效率具有顯著影響,技術(shù)的先進程度構(gòu)成金融企業(yè)核心競爭力的一個重要因素。所以,在客戶資源優(yōu)化配置方面,我們必須依托新的技術(shù)、新的手段,精準地識別出風險客戶、有效地挖掘出優(yōu)質(zhì)客戶。為此本文從大數(shù)據(jù)的理念出發(fā),以機器學習算法模型為核心,識別出客戶的類型,并在此基礎上分析與客戶類型相關的特征因素,構(gòu)建出了既具有理論價值又能實際落地的組合算法模型,以期為我國金融機構(gòu)在風險控制、金融服務等方面提供重要的方法借鑒。實際上,我國銀行業(yè)客戶資源配置深受傳統(tǒng)業(yè)務形態(tài)與營銷模式的制約,銀行應發(fā)揮互聯(lián)網(wǎng)在生產(chǎn)要素配置中的作用,留住老用戶、拓展新用戶,創(chuàng)造新的服務、新的價值。

        二、客戶識別模型的構(gòu)建

        (一)數(shù)據(jù)選擇

        大數(shù)據(jù)分析,不應該建立在傳統(tǒng)數(shù)據(jù)分布假設的基礎之上,有什么樣的數(shù)據(jù)就生成什么樣的方法(或模型)。機器學習是面向復雜數(shù)據(jù)的隨機特征而構(gòu)建模型,符合大數(shù)據(jù)的思維模式。[4]從銀行服務的客戶對象來看,主要區(qū)分為企業(yè)客戶和個人客戶,從全球金融消費的發(fā)展趨勢看,個人客戶是非常有潛力的群體。鑒于此,本文選用了河南省許昌銀行信貸客戶資料數(shù)據(jù),樣本數(shù)據(jù)中共1769戶個人信貸客戶的資料。其中,不違約客戶(A類)1232戶,占總數(shù)的69.60%;違約客戶(B類)537戶,占總數(shù)的30.40%。數(shù)據(jù)分布情況如表1所示:

        表1 樣本數(shù)據(jù)分布情況

        數(shù)據(jù)來源:河南省許昌銀行股份有限公司信貸客戶資料數(shù)據(jù)庫。

        表1僅列舉了部分變量的名稱,實際選用的變量包含了客戶的地域、貸款金額、個人收入、貸款用途、貸款期限、戶口狀況、健康狀況、與信用社的關系等31項,信息相對齊全,應該可以構(gòu)建出比較理想的信貸風險預測識別模型。但同時我們注意到,由于個人客戶多而分散,數(shù)據(jù)的分布有一定的復雜性,比如從客戶類型、擔保方式的類別角度來看,變量分類不平衡;從數(shù)據(jù)變量角度來看,比如貸款金額,存在大量的零空值且難以滿足傳統(tǒng)的正態(tài)分布的要求?;谌绱藦碗s的數(shù)據(jù),大多數(shù)傳統(tǒng)的模型是無能為力的,必須選擇適合復雜數(shù)據(jù)分析的模型。

        (二)模型構(gòu)建

        數(shù)據(jù)準備之后需要選擇分析方法(或模型)。預測識別客戶類型屬于分類預測,我們經(jīng)過大量實驗,最終選用了機器學習中的Adaboost算法。該算法有幾種優(yōu)勢:一是以決策樹、boosting為主體的組合算法,比單一算法預測準確率高。二是對數(shù)據(jù)的質(zhì)量要求較低。由表1得知樣本數(shù)據(jù)分類變量分布不平衡且存在大量缺失值。三是算法效率高。相比其他組合算法(比如randomForest)或迭代算法,該算法運行速度快。本文構(gòu)建模型的核心思想是針對同一個訓練集構(gòu)建多個分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。然后將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓練,最后將每次訓練得到的分類器融合起來,作為最終的決策分類器。該算法其實是利用了boosting算法原理,進行簡單的弱分類算法提升過程,這個過程通過不斷地訓練,可以提高對數(shù)據(jù)的分類能力。具體步驟如下:

        第一步,給定訓練樣本集S(即表1樣本數(shù)據(jù)的子集),定義X和Y分別對應于正例樣本和負例樣本,T為訓練的最大循環(huán)次數(shù)。第二步,初始化樣本權(quán)重為1/n,即為訓練樣本的初始概率分布。第三步,進行迭代,步驟如下:(1)訓練樣本的概率分布下,訓練弱分類器;(2)計算弱分類器的錯誤率;(3)選取合適閾值,使得誤差最??;(4)更新樣本權(quán)重;(5)經(jīng)T次循環(huán)后,得到T個弱分類器,按更新的權(quán)重疊加,最終得到強分類器。

        Adaboost算法能夠?qū)θ鯇W習得到的弱分類器的錯誤進行適應性調(diào)整。上述算法中迭代了T次的主循環(huán),每一次循環(huán)根據(jù)當前的權(quán)重分布對樣本定一個分布P,然后對這個分布下的樣本使用弱學習算法得到一個弱分類器。每一次迭代,都要對權(quán)重進行更新。更新的規(guī)則是:減小弱分類器分類效果較好的數(shù)據(jù)的概率,增大弱分類器分類效果較差的數(shù)據(jù)的概率。最終的分類器是個弱分類器的加權(quán)平均。[5,6]從以上介紹可知,Adaboost算法在信貸客戶預測識別時,關注與信貸個人資料數(shù)據(jù)相關的隨機特征,利用計算機強大的迭代能力,以降低不同客戶類型誤分率為目標,不斷調(diào)整闕值和權(quán)值,歸納出反映數(shù)據(jù)特征的規(guī)律,找到能夠最佳擬合信貸客戶分類的目標函數(shù)F,但同時對信貸數(shù)據(jù)的要求比較嚴格,即所給的數(shù)據(jù)能否代表事實。從大數(shù)據(jù)的角度來講,應該是數(shù)據(jù)體量越多、更新越及時,對信貸客戶的描述(目標函數(shù)F)越全面、越有時效性。據(jù)了解,我國銀行已經(jīng)具備了數(shù)據(jù)儲量以及增量的條件,加上互聯(lián)網(wǎng)、云計算等技術(shù)日益成熟,目標函數(shù)F會很快通過機器學習完成,可以適應客戶環(huán)境變化引起的數(shù)據(jù)波動。

        (三)結(jié)果輸出

        運用機器學習法(Adaboost算法,1000戶做訓練樣本,769戶做預測識別)可以詳細地甄別出每一個客戶違約和不違約的概率,并在此基礎上判斷出客戶的類型,如表2所示:

        表2 信貸客戶甄別簡表

        注:實際預測客戶769個,限于篇幅不再一一列舉。

        從表2可以看出,模型所輸出的結(jié)果區(qū)分為定性(A、B)和定量(概率),對實際工作具有重要的參考意義。我們可以將其輸出的A、B類和概率將客戶劃分為更多的等級。例如,按輸出結(jié)果對A部分的概率做5分位劃分,得到概率區(qū)間:[0,0.098867293]、[0.098867293,0.336902645]、[0.336902645,0.673397782]、[0.673397782,0.748064262]、[0.748064262,0.796290405]、[0.796290405,0.971534825],分別設置“A、B、C、D、E”5個等級,如此劃分可以將信用等級進一步細化。

        三、客戶特征要素分析

        (一)數(shù)據(jù)選擇

        將客戶有效預測識別后,下一步我們要對影響客戶的要素進行分析。以客戶類型作為目標,運用相關性算法,建立客戶類型與各個要素的相關性集合(如下,k-itemset)。在此,要對源數(shù)據(jù)進行處理,即將數(shù)值變量轉(zhuǎn)化為可供分析的項目(如下,D中的內(nèi)容)。將連續(xù)變量轉(zhuǎn)化成單個項目要進行變量離散化切分,離散化的方法很多,不同的方法會生成不同的項目,如何離散化數(shù)值變量是關鍵的一步。我們經(jīng)過反復實驗,最終確定對數(shù)值變量做5分位劃分。如此處理,數(shù)值變量會統(tǒng)一生成最多5個項目,如表3所示:

        表3 數(shù)值變量轉(zhuǎn)化成項集因子之后的樣本數(shù)據(jù)簡表

        注:1.實際參與變量31個,限于篇幅,不再一一列舉;2.星級表示做了5分位劃分之后所處的分位 (下同),[]表示分類區(qū)間。

        表3中,分類變量維持原來的分類不變,數(shù)值變量做了5分位劃分并將分位區(qū)間做了統(tǒng)計。如何對數(shù)值變量進行劃分,業(yè)內(nèi)尚無可參考的方法,我們經(jīng)過大量實驗,最終按5分位劃分,事實證明比較合理。這是本文重要的創(chuàng)新之處。

        (二)模型構(gòu)建

        相關性分析的方法很多,本文選用比較經(jīng)典的Apriorialgorithm關聯(lián)規(guī)則算法,構(gòu)建出客戶類型與描述客戶特征的要素之間的關系。簡單描述如下:(1)將描述客戶特征的要素以及類型存儲成二維結(jié)構(gòu)的記錄集,定義為D;(2)D中每一個要素中的內(nèi)容稱為項目,項目的集合稱之為所有項集(Items),定義為:I,I∈{分類變量,離散化的數(shù)值變量};(3)k個項目同時出現(xiàn)的項的集合,定義為k-itemset。項目、項集構(gòu)建完成之后,采用廣度優(yōu)先逐層搜索迭代技術(shù),找出項目同時出現(xiàn)的頻率,即找出客戶類型與客戶特征要素之間的依賴關系。衡量所生成的依賴關系的參數(shù)有支持度、置信度、提升度,定義如下:(1)支持度(Support)定義為supp(X)=occur(X)/count(D)=P(X),表示事件X出現(xiàn)的概率;(2)置信度(Confidence/Strength)定義為conf(X->Y)=supp(X∪Y)/supp(X)=P(Y|X),表示事件XY同時出現(xiàn)的概率;(3)提升度(Lift)lift(X->Y)=lift(Y->X)=conf(X->Y)/supp(Y)=conf(Y->X)/supp(X)=P(XandY)/(P(X)P(Y)),表示事件XY在X約束下出現(xiàn)的概率相對XY自由出現(xiàn)的比(一般來講Lift>1,規(guī)則就是有效的)。[7]從以上算法的介紹可以看出,關聯(lián)規(guī)則在云計算環(huán)境下,可以隨時窮舉所有的k-itemset,k∈[1,N],N為變量個數(shù),如此算法可以在短時間內(nèi)挖掘出大量信息并進行重要性排序。

        (三)結(jié)果輸出

        大數(shù)據(jù)分析,要求創(chuàng)新和精準。我們以客戶類型作為目標(區(qū)分A、B類),以5個項目作為1個項集,設置支持度>=0.01、置信度>=0.8,然后運用關聯(lián)規(guī)則原理對造成該結(jié)果的原因進行推導,最終生成了182 488(A類157457、B類25031)條規(guī)則,如表4所示:

        表4 關聯(lián)規(guī)則推導結(jié)果簡表

        注:實際規(guī)則182 488個,限于篇幅不再一一列舉。輸出的信息量很大,如果逐一解讀,應用價值難以估量。

        表4是按照提升度降序排列所形成的結(jié)果,基于以上列舉的前6條規(guī)則,可以形成以下結(jié)論:一是個人的戶口性質(zhì)、與信用社的關系與客戶的類型相關性較高,由此可見建立穩(wěn)定的客戶群,形成穩(wěn)定的業(yè)務來源非常重要。二是主要經(jīng)濟來源、家庭(個人)收入對客戶的類型影響顯著,由此可見經(jīng)濟來源穩(wěn)定、家庭收入偏高的客戶按期還款的概率較高。三是是否有為他人擔保的記錄、有無職稱(職務)對客戶的類型影響顯著,由此可見有一定的擔當或名望的客戶按期還款的概率較高。由以上分析可知,我國銀行客戶資源受地域條件、經(jīng)濟條件以及個人信譽狀況的制約,對此應引起高度關注。

        四、結(jié)論與啟示

        經(jīng)過以上實證分析,我們證明了“機器學習+關聯(lián)規(guī)則”在信貸風險預測識別中方法上的可行性。通過與大數(shù)據(jù)關鍵技術(shù)結(jié)合的組合算法模型,精準地識別出風險客戶、深入地挖掘出優(yōu)質(zhì)客戶,解析出影響客戶類型的關鍵要素,可為銀行產(chǎn)品創(chuàng)新和服務創(chuàng)新提供技術(shù)支撐。結(jié)果表明,銀行優(yōu)化客戶資源配置應重點關注:建立穩(wěn)定的客戶群,形成穩(wěn)定的業(yè)務來源;尋找有穩(wěn)定的經(jīng)濟來源、家庭收入偏高的客戶群體;挖掘在社會上信譽度較高、有一定的名望或擔當?shù)目蛻簟?紤]到目前我國銀行受地域條件、經(jīng)濟條件以及個人信譽狀況的制約,要從根本上解決上述問題,銀行業(yè)應從以下幾個方面入手:一是緊跟“互聯(lián)網(wǎng)+”的大形勢,發(fā)揮互聯(lián)網(wǎng)在生產(chǎn)要素配置中的優(yōu)化和集成作用,融銀行線上、線下業(yè)務于一體,形成更廣泛的以互聯(lián)網(wǎng)為基礎的業(yè)務客戶資源鏈供應。二是重視科學技術(shù)創(chuàng)新,以大數(shù)據(jù)、云計算、機器學習等作為支撐生產(chǎn)力的核心,將競爭優(yōu)勢體現(xiàn)在產(chǎn)品創(chuàng)新、精準營銷、主動服務等層面,提供有針對性的產(chǎn)品與服務,在增加客戶粘性的同時保持與客戶的緊密聯(lián)系。三是改變銀行現(xiàn)有的經(jīng)營模式,推進透明度更強、參與度更高、協(xié)作性更好的多元化平臺,為客戶提供良好的體驗,最大限度地留住客戶、發(fā)展客戶,創(chuàng)造新的服務、新的價值。

        [1][美]蔡瑞胸.金融數(shù)據(jù)分析導論[M].北京:機械工業(yè)出版社,2013.

        [2]Myers, J. H.,Forgy, E. W.. The Development of Numerical Credit Evaluation Systems[J].Journal of American Statistics Association, 1963,58(September):799-806.

        [3]Fisher, R. A.The Use of Multiple Measurements in Forecasting of Taxonomic Problems[J].Annals of Eugenics,1936,7:179-188.

        [4]Freund Y,IyerR,Schapirer R E,et al.An Efficient Boosting Algorithm for Combining Preferences[J].Journal of Machine Learning Research,2003,(4):1-3.

        [5]Francesco Perrini,Antonio Tencati,et al.Sustainability and Stakeholder Management:the Need for New Corporate Performance Evaluation and Reporting Systems[J].Business Strategy and the Environment,2006,(15):1-3.

        [6]Palm.Random Forest Classifier for Remote Sensing Classification[J].Remote Sens, 2005,26(1):2-4.

        [7]Yasushi U.,Hiroyuki M.Credit Risk Evaluation of Power Market Players with Random Forest[J].Transactions on Power and Energy,2008,128(1):3-6.

        猜你喜歡
        分類器變量樣本
        抓住不變量解題
        用樣本估計總體復習點撥
        也談分離變量
        推動醫(yī)改的“直銷樣本”
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        隨機微分方程的樣本Lyapunov二次型估計
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        村企共贏的樣本
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        视频网站在线观看不卡| 中国老妇女毛茸茸bbwbabes| 香蕉久久夜色精品国产2020| 成人国产乱对白在线观看| 蕾丝女同一区二区三区| 午夜天堂精品久久久久| 国产又黄又猛又粗又爽的a片动漫| 无码av免费精品一区二区三区| 午夜视频在线观看日本| 亚洲av男人电影天堂热app| 无码a∨高潮抽搐流白浆| 国产一区亚洲欧美成人| 男女打扑克视频在线看| 亚洲国产一区二区三区在线观看 | 午夜无码熟熟妇丰满人妻| 亚洲精品综合中文字幕组合| 中文人妻熟女乱又乱精品| 久久日本三级韩国三级| 偷拍熟女亚洲另类| 国产综合开心激情五月| 我把护士日出水了视频90分钟| 久久青草伊人精品| 亚洲一区二区三区新视频| 久久人妻av无码中文专区| 亚洲精品aa片在线观看国产| 国产av一区二区三区丝袜| 国产精品国产传播国产三级| 午夜免费啪视频| 精品国产看高清国产毛片| 国内精品极品久久免费看| 免费a级毛片又大又粗又黑| 国产精品久久久久久无码| 亚洲五月七月丁香缴情| 成人自拍一二在线观看| 中文字幕乱码熟女人妻水蜜桃| 91精品全国免费观看青青| 精品熟女av中文字幕| 24小时日本在线视频资源| 欧美一级三级在线观看| 亚洲精品国产第一区三区 | 亚洲成av人片在线观看www|