亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)金融個人信用風(fēng)險評估的指標(biāo)選擇方法

        2019-12-30 01:43:35曾鳴謝佳
        時代金融 2019年33期
        關(guān)鍵詞:主成分分析法信用風(fēng)險互聯(lián)網(wǎng)金融

        曾鳴 謝佳

        摘要:完善的個人信用風(fēng)險評估體系是降低信用風(fēng)險的決定性因素,而風(fēng)險評價指標(biāo)的構(gòu)建是信用評估的基礎(chǔ)。本文選取Prosper.com網(wǎng)貸平臺2005年至2014年間部分信貸數(shù)據(jù)進(jìn)行實證,研究了主成分分析法(PCA)在篩選信用評估指標(biāo)上的應(yīng)用,在此基礎(chǔ)上結(jié)合支持向量機(jī)(SUM)技術(shù),建立評估模型進(jìn)行驗證。結(jié)果表明,采用主成分分析法可以有效地剔除無關(guān)變量和冗余變量,提高互聯(lián)網(wǎng)金融個人信用評估的預(yù)測精度。

        關(guān)鍵詞:互聯(lián)網(wǎng)金融? 信用風(fēng)險? 個人信用評估? 主成分分析法

        一、引言

        隨著國民信用消費需求的不斷上升,互聯(lián)網(wǎng)技術(shù)的不斷更新,互聯(lián)網(wǎng)金融行業(yè)得到了飛速的發(fā)展?;ヂ?lián)網(wǎng)金融行業(yè)在模式不斷豐富、規(guī)模不斷擴(kuò)大的同時,也面臨著諸多亟待解決的問題。由于在客戶群體的選擇和產(chǎn)品類型的定位上與傳統(tǒng)商業(yè)銀行存在巨大差異,同時缺乏有效的客戶信用評估體系,互聯(lián)網(wǎng)金融平臺面臨比傳統(tǒng)銀行更高的交易對手違約風(fēng)險,這一現(xiàn)象嚴(yán)重阻礙了互聯(lián)網(wǎng)金融個人信貸業(yè)務(wù)的發(fā)展。

        如今產(chǎn)生個人信用數(shù)據(jù)的各類電商平臺、社交平臺的數(shù)量不斷增加,信用數(shù)據(jù)的規(guī)模呈現(xiàn)爆炸式增長,不同于標(biāo)準(zhǔn)的經(jīng)過財務(wù)核實的銀行數(shù)據(jù),互聯(lián)網(wǎng)的信用數(shù)據(jù)是非標(biāo)準(zhǔn)化的,個人信用風(fēng)險也呈現(xiàn)出不同的特點,信息不對稱現(xiàn)象更加明顯。個人信用風(fēng)險的評估大致經(jīng)過數(shù)據(jù)清洗、輸入變量的生成和建模進(jìn)行風(fēng)險評估這樣幾個階段,無論是傳統(tǒng)的信用風(fēng)險評估還是基于互聯(lián)網(wǎng)大數(shù)據(jù)的信用風(fēng)險評估,輸入變量的質(zhì)量都會直接影響風(fēng)險評估模型的預(yù)測效果。由于傳統(tǒng)信貸和互聯(lián)網(wǎng)金融的數(shù)據(jù)特征不同,互聯(lián)網(wǎng)金融的數(shù)據(jù)覆蓋維度廣且數(shù)據(jù)較為稀疏,單項數(shù)據(jù)的信用評估價值密度較低,單變量的風(fēng)險區(qū)分能力較弱[1],因而基于大數(shù)據(jù)的信用評估指標(biāo)也會有所不同。對輸入的評估指標(biāo)進(jìn)行有效篩選,可以減少模型訓(xùn)練時間和數(shù)據(jù)搜集成本,提高模型預(yù)測精度,構(gòu)建有效的互聯(lián)網(wǎng)金融信用風(fēng)險評估體系。

        二、互聯(lián)網(wǎng)金融平臺信用風(fēng)險評估指標(biāo)體系的現(xiàn)狀

        大部分互聯(lián)網(wǎng)金融平臺的大數(shù)據(jù)應(yīng)用得并不成熟,借款人的電商購買記錄,社交網(wǎng)絡(luò)信息等數(shù)據(jù)來源的匱乏,會給互聯(lián)網(wǎng)金融平臺的信用評價帶來嚴(yán)重的滯后和誤判。很少有平臺在信用風(fēng)險評價指標(biāo)中完全涵蓋了借款人的職業(yè)信息、電商數(shù)據(jù)、線下行為數(shù)據(jù)、征信數(shù)據(jù)等指標(biāo)。

        國內(nèi)的互聯(lián)網(wǎng)金融平臺指標(biāo)體系的設(shè)計主要參考了國外平臺的信用評估指標(biāo)體系,如FICO評分模型和Prosper指標(biāo)體系,評估大類基本一致,主要分為用戶的基本信息、工作信息、歷史交易信息、償還貸款能力信息、借款信息等。在一級指標(biāo)上主要繼承傳統(tǒng)商業(yè)銀行和國外網(wǎng)貸平臺的指標(biāo)體系,但在二級指標(biāo)如所在城市類型、工作年限、房產(chǎn)情況、社交媒體活躍度、社交關(guān)系密度等方面,側(cè)重點各不相同。

        國外互聯(lián)網(wǎng)金融平臺的信用評估指標(biāo)體系則不局限于借款人的基本信息和歷史借貸信息,普遍比國內(nèi)研究者更關(guān)注借款人與借貸平臺直接相關(guān)的借款信息:如在該借貸平臺的貸款金額、所獲貸款年利率、還款期限以及逾期金額等指標(biāo)。在個人基本信息方面,對性別、婚姻狀況、學(xué)歷和工作行業(yè)的關(guān)注不高,相對更關(guān)注工資范圍、是否有房、居住地、年齡、職業(yè)、照片等。對項目投資人數(shù)、社交媒體文本描述狀況、平臺注冊時長等關(guān)注度較低。

        三、個人信用風(fēng)險評估指標(biāo)的PCA篩選方法

        由于互聯(lián)網(wǎng)金融信用風(fēng)險涉及的指標(biāo)眾多,部分指標(biāo)之間呈現(xiàn)出較高的關(guān)聯(lián)性,容易引起數(shù)據(jù)冗余問題,影響評估效果,因此需要對評估指標(biāo)進(jìn)行降維處理。本文采用主成分分析法對評估模型的指標(biāo)進(jìn)行降維篩選。

        主成分分析法通過觀察原指標(biāo)集合之間的內(nèi)容結(jié)構(gòu)關(guān)系,將原本相互之間具有一定相關(guān)性的眾多指標(biāo)重新組合成一個新的、互不相關(guān)的指標(biāo)集合。對于一個特征矩陣來說,通過將其對角化產(chǎn)生特征根及特征向量,將其在標(biāo)準(zhǔn)正交基上投影,該特征向量方向上的投影長度就對應(yīng)到其特征值,特征數(shù)值越大說明對應(yīng)的特征向量所攜帶原有數(shù)據(jù)的信息越多,通常在特征篩選過程中,選擇特征值累計貢獻(xiàn)率85%的指標(biāo)就能滿足大多數(shù)研究的需求。主成分分析法的優(yōu)點在于得到的新的綜合指標(biāo)之間相互獨立,減少數(shù)據(jù)冗余,且權(quán)數(shù)的計算基于數(shù)據(jù)分析得到的指標(biāo)內(nèi)部結(jié)構(gòu)關(guān)系,不受主觀因素干擾。

        四、數(shù)據(jù)選取及實證分析

        文中數(shù)據(jù)來自Prosper Loan Data數(shù)據(jù)集,使用MARLAB軟件進(jìn)行實驗,首先對所獲得數(shù)據(jù)進(jìn)行預(yù)處理,然后利用主成分分析方法篩選數(shù)據(jù)指標(biāo),確定最終輸入模型的變量,最后采用粒子群算法優(yōu)化的支持向量機(jī)模型(PSO-SVM)進(jìn)行驗證。

        (一)數(shù)據(jù)預(yù)處理

        1.數(shù)據(jù)清洗。本文采集美國Prosper.com平臺2005年至2014年間部分信貸數(shù)據(jù),數(shù)據(jù)集包含11萬余條原始記錄,首先對數(shù)據(jù)進(jìn)行清洗,一是無意義字段的舍棄,如原始數(shù)據(jù)中部分管理識別符號的變量,以及關(guān)于貸款申請、批準(zhǔn)日期、規(guī)定的還款日期等對于本次研究沒有任何意義的字段。二是缺失數(shù)據(jù)的處理,對缺失值達(dá)到一半以上、嚴(yán)重影響了數(shù)據(jù)真實性的字段進(jìn)行了直接剔除。對于缺失率較小的數(shù)據(jù)進(jìn)行補(bǔ)齊,連續(xù)型數(shù)據(jù)用中位數(shù)補(bǔ)齊,對離散型數(shù)值變量使用眾數(shù)補(bǔ)齊。三是噪聲數(shù)據(jù)的處理,為對整個數(shù)據(jù)表進(jìn)行了遍歷,通過將數(shù)據(jù)值與標(biāo)準(zhǔn)數(shù)據(jù)的對比,找出噪聲數(shù)據(jù),并用眾數(shù)對其進(jìn)行替換。

        在對原始數(shù)據(jù)集進(jìn)行以上一系列操作后,數(shù)據(jù)集剩余指標(biāo)51個,其中輸入變量指標(biāo)50個,輸出變量指標(biāo)1個。如表1所示:

        2.數(shù)據(jù)賦值。一是對輸入變量的賦值:

        借款人信息特征中包含定量信息和定性信息,對定性信息需要在數(shù)據(jù)準(zhǔn)備過程中做離散化處理。對定性數(shù)據(jù)分別取0和1。

        二是對輸出變量的賦值:

        在Prosper數(shù)據(jù)集中,借款人的借款狀態(tài)共有12種,為實現(xiàn)SVM二分類效果,實驗前需要將輸出變量轉(zhuǎn)化為1或-1的狀態(tài)。由于無法判斷處于“Current(正常還款中)”狀態(tài)的貸款最終會不會違約,所以在研究時,將狀態(tài)為Current的樣本進(jìn)行了刪除;同理,“Cancelled(交易取消)” 的數(shù)據(jù)也進(jìn)行刪除。

        從風(fēng)險發(fā)生的可能性出發(fā),筆者把剩余10類數(shù)據(jù)歸為兩個大類:第一大類“good”(只包含Completed、Final_Payment_In_Progress兩種數(shù)據(jù));第二大類“bad”(包含Defaulted、Chargedoff和所有的Past Due,共8種數(shù)據(jù))。將“good”和“bad”兩個類的數(shù)據(jù)分別編碼為1和-1。

        3.數(shù)據(jù)標(biāo)準(zhǔn)化。由于數(shù)據(jù)集各個特征值的區(qū)間范圍和數(shù)據(jù)綱量不同,為了避免因數(shù)據(jù)差異過大對預(yù)測結(jié)果產(chǎn)生干擾,影響模型性能,本文選擇將數(shù)據(jù)歸一到[0,1],采用的歸一化公式如下式:

        (1)

        其中,X'∈[0,1]表示數(shù)據(jù)歸一化后的結(jié)果,X表示數(shù)據(jù)原始值,和分別表示X所在數(shù)據(jù)列中的最小值和最大值。

        4.數(shù)據(jù)縮減。經(jīng)過上述一系列處理后,原數(shù)據(jù)集還剩下共43878條數(shù)據(jù),其中守約樣本39730條,違約樣本4148條,守約樣本與違約樣本比例為9.58 :1。本文按照與原始數(shù)據(jù)結(jié)構(gòu)分布接近的9:1選取比例進(jìn)行分層隨機(jī)抽樣,得到包含5000條樣本的實證數(shù)據(jù)集,其中包括4500條守約樣本和500條違約樣本。

        (二) 基于主成分分析的指標(biāo)篩選

        在經(jīng)過清洗后個人信用指標(biāo)仍然還有50個,較多的特征數(shù)雖然注重了指標(biāo)的多樣化,但冗余指標(biāo)會直接影響模型的評估效率和分類效果。因此使用主成分分析(Principal Component Analysis,PCA)方法進(jìn)行指標(biāo)篩選,一般情況下,在選擇主成分時只需要所選擇的主成分滿足累加方差貢獻(xiàn)值達(dá)到85%即可。

        首先,將獲得的新數(shù)據(jù)集中的所有數(shù)據(jù)特征匯總到一個1000*50維的特征矩陣?yán)?,并通過對這個特征矩陣進(jìn)行計算得到一個50*50的特征相關(guān)矩陣:

        R=? ?(2)

        其中rij代表各個特征之間的相關(guān)系數(shù),計算公式如下式:

        (3)

        在得到相關(guān)系數(shù)矩陣后,在MATLAB中調(diào)用pcacov函數(shù)根據(jù)相關(guān)系數(shù)做主成分分析矩陣,計算出相關(guān)系數(shù)矩陣的特征值向量和主成分貢獻(xiàn)率,最后將這些特征值向量和主成分貢獻(xiàn)值降序排列,計算得到主成分的累計貢獻(xiàn)值,得到的主成分提取結(jié)果如表2所示。

        經(jīng)過篩選,前21個變量累計方差貢獻(xiàn)率已經(jīng)超過了85%,對已得到的主成分列表進(jìn)行反歸一,由此得到經(jīng)過主成分分析后被提取出的輸入變量特征,最終確定的21個變量如表3:

        (三)PSO-SVM建模分析

        為了驗證本文提出的篩選方法的有效性,采用PSO算法對SVM進(jìn)行優(yōu)化,建立PSO-SVM模型進(jìn)行驗證。PSO-SVM模型選擇已被證明具有較強(qiáng)的非線性映射能力的RBF核函數(shù),在參數(shù)的優(yōu)化上,利用PSO對全局和個體的搜索能力來尋找最優(yōu)的C和σ。本文選用模型的整體分類精度以及第一類誤判率、第二類誤判率來對模型的分類效果進(jìn)行評價。

        (四)實證結(jié)果

        將處理后的Prosper數(shù)據(jù)按照7:3的比例劃分為包含3500樣本的訓(xùn)練數(shù)據(jù)和包含1500樣本的測試數(shù)據(jù)。其中,訓(xùn)練樣本中,守約客戶(類別標(biāo)簽為“1”)樣本3150條,違約客戶(類別標(biāo)簽為“-1”)樣本350條;測試樣本中,守約客戶樣本1350條,違約客戶樣本150條。

        PSO-SVM模型對測試樣本分類結(jié)果如表5所示,測試樣本數(shù)據(jù)量為1500,預(yù)測正確的樣本有1394個,將守約客戶判斷正確的準(zhǔn)確率為93.111%,將違約客戶判斷正確的準(zhǔn)確率為91.333%。模型分類準(zhǔn)確率結(jié)果匯總至表4。

        評價指標(biāo) PSO-SVM

        第一類誤判率 93/1350 (6.889%)

        第二類誤判率 13/150 (8.667%)

        總體分類精度 1394/1500 (92.933%)

        從表4結(jié)果可見,采用主成分分析法篩選變量進(jìn)行模型測試,第一類誤判率6.889%;第二類誤判率8.667%;模型整體分類準(zhǔn)確率為92.933% (1394/1500) 。實驗結(jié)果表明PCA能夠提高SVM模型的整體預(yù)測精度,對降低模型的第一類誤判率和第二類誤判率都具有較明顯的效果。

        五、結(jié)論

        在評估互聯(lián)網(wǎng)金融個人信用風(fēng)險時,評估指標(biāo)的選取和模型構(gòu)建應(yīng)當(dāng)考慮互聯(lián)網(wǎng)金融的數(shù)據(jù)來源和數(shù)據(jù)特征。主成分分析法對于減少數(shù)據(jù)冗余,降低數(shù)據(jù)維度,保留原有指標(biāo)內(nèi)部結(jié)構(gòu)關(guān)系方面具有明顯的優(yōu)點,在互聯(lián)網(wǎng)金融信用風(fēng)險評估的指標(biāo)選擇上具有較好的適用性。如果能有效地運(yùn)用定量的科學(xué)的方法從數(shù)據(jù)中選擇判別性好、冗余低的特征集,將為構(gòu)建合理有效的信用風(fēng)險評估體系提供重要的依據(jù)。這也將是今后學(xué)者們不斷探索和深入研究的課題。

        在前文的個人信用評估指標(biāo)變量的PCA提取結(jié)果中可以看到,Porsper的評價指標(biāo)中并沒有國內(nèi)金融機(jī)構(gòu)在進(jìn)行信用評估時普遍關(guān)注的一些指標(biāo),如性別、年齡、婚姻狀況、教育背景等人口描述性特征。比起個人基本情況,Porsper平臺更關(guān)注借款人的信用數(shù)據(jù),以及與平臺產(chǎn)品相關(guān)的信息包括產(chǎn)品類型、貸款利率、還款期限等。方差貢獻(xiàn)率排在前幾位的特征值是借款人在Prosper平臺的信用評分、過去7年的違約次數(shù)、信用等級、信用卡信用總額以及每月貸款支付等。而國內(nèi)金融機(jī)構(gòu)普遍較為關(guān)注上述人口描述性特征,特別是對借款人履約能力有較大關(guān)聯(lián)的家庭穩(wěn)定情況和工作具體情況。由此可見國內(nèi)外金融機(jī)構(gòu)在指標(biāo)選取時側(cè)重點有較大差異,有研究者認(rèn)為這種差異的產(chǎn)生主要是受到各國人文歷史和傳統(tǒng)文化的影響。這些人口描述性特征的判別性如何需要進(jìn)一步的實證檢驗。

        參考文獻(xiàn):

        [1]朱良平.基于大數(shù)據(jù)的信用風(fēng)險評分模型辨析[J].中國金融電腦,2016(3).

        [2]Fritz S and Hosemann D.Restructuring the Credit Process:Behavior Scoring for Deutsche Bank' s German.Corporates [J].International Journal of Intelligent Systems in Accounting ,F(xiàn)inance &management ,2000.9 :9 -21 .

        [3]Joos P ,Banhoof L,Ooghe H ,and Sierens N .Credit classification:A comparison of logit models and decision trees[ A].10th European Conference on Machine Learning ,Workshop notes:Application of machine learning and data mining in finance[ C].TU Chemnitz,Germany :1998 :59-70.54-56.

        [4]Hand DJ and henley WE.Statistical Classification Methods in Consumer Credit Scoring :A Review[ J].Journal of the Royal Statistical Society ,1997,Series A 160(3):523-541 .

        [5]肖曼君,歐緣媛,李穎.我國P2P 網(wǎng)絡(luò)借貸信用風(fēng)險影響因素研究——基于排序選擇模型的實證分析[J].財經(jīng)理論與實踐(雙月刊),2015,36(1):2-7.

        基金項目:本文受到成都理工大學(xué)哲學(xué)社科基金項目“基于金融科技創(chuàng)新的金融風(fēng)控模型的應(yīng)用研究”(項目編號YJ2017-JX005)的資助。

        (謝佳為成都理工大學(xué)管理科學(xué)學(xué)院碩士研究生;曾鳴為成都理工大學(xué)管理科學(xué)學(xué)院副教授)

        猜你喜歡
        主成分分析法信用風(fēng)險互聯(lián)網(wǎng)金融
        淺析我國商業(yè)銀行信用風(fēng)險管理
        中國裝備制造業(yè)階段競爭力研究
        陜西省各地區(qū)人力資本水平綜合評價與分析
        基于企業(yè)核心競爭能力的家電行業(yè)上市公司績效評價指標(biāo)體系研究
        基于主成分分析法的高校財務(wù)風(fēng)險評價指標(biāo)體系構(gòu)建
        商(2016年27期)2016-10-17 04:41:37
        互聯(lián)網(wǎng)金融的風(fēng)險分析與管理
        互聯(lián)網(wǎng)金融理財產(chǎn)品分析
        互聯(lián)網(wǎng)金融對傳統(tǒng)金融的影響
        京東商城電子商務(wù)信用風(fēng)險防范策略
        個人信用風(fēng)險評分的指標(biāo)選擇研究
        国产熟女内射oooo| av在线手机中文字幕| 偷拍美女一区二区三区视频| 日本精品一区二区三区在线观看| 亚洲人成网站在线播放2019| 日本丰满熟妇videossex8k| 黄又色又污又爽又高潮动态图 | 加勒比特在线视频播放| 精品人妻久久一日二个| 无码无套少妇毛多18p| 国产三级精品三级在线专区2| 国产成人综合久久久久久| 久久香蕉国产线熟妇人妻| 亚洲爆乳无码专区| 妺妺窝人体色www聚色窝韩国| 亚洲一区极品美女写真在线看| 综合亚洲二区三区四区在线 | 五月丁香综合激情六月久久| а√天堂资源8在线官网在线 | 真实单亲乱l仑对白视频| 中文字幕久久久久久久系列| 中文字幕一区二区在线| 久久久精品国产老熟女| 日韩av一区二区三区精品久久 | 亚洲av高清一区二区| 久久伊人精品色婷婷国产| 精品偷自拍另类在线观看| 欧美国产综合欧美视频| 九色九九九老阿姨| 国产内射合集颜射| 亚洲妇女av一区二区| 在线观看视频免费播放| 精品无人码麻豆乱码1区2区| 亚洲色无码播放| 亚洲综合五月天欧美| 日本一本草久国产欧美日韩| 精品国产麻豆一区二区三区| 在线观看国产视频你懂得| 人妻体内射精一区二区三四| 欧洲熟妇乱xxxxx大屁股7| 精品少妇人妻久久免费|