亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)金融信用風險預測研究*

        2017-12-29 06:25:39王重仁韓冬梅
        關鍵詞:動態(tài)數(shù)據(jù)信用風險卷積

        王重仁,韓冬梅

        (上海財經(jīng)大學 信息管理與工程學院,上海 200433)

        基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)金融信用風險預測研究*

        王重仁,韓冬梅

        (上海財經(jīng)大學 信息管理與工程學院,上海200433)

        針對互聯(lián)網(wǎng)金融行業(yè)的信用風險評估問題,提出了一種基于卷積神經(jīng)網(wǎng)絡的客戶違約風險預測方法。首先將輸入數(shù)據(jù)分為動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),將動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)分別轉(zhuǎn)換為矩陣和向量,然后利用改進的卷積神經(jīng)網(wǎng)絡來自動提取特征并進行分類,最后使用ROC曲線、AUC值和KS值作為評價指標,將該方法與其他機器學習算法(Logistic回歸、隨機森林)進行比較。實驗結(jié)果表明,卷積神經(jīng)網(wǎng)絡模型對于信用風險的預測效果要優(yōu)于對比模型。

        信用風險評估;卷積神經(jīng)網(wǎng)絡;機器學習;深度學習

        0 引言

        近年來,國內(nèi)互聯(lián)網(wǎng)金融行業(yè)呈爆炸式增長態(tài)勢,隨著行業(yè)的不斷發(fā)展,如何有效評價借款人的信用風險已成為互聯(lián)網(wǎng)金融行業(yè)能否可持續(xù)健康發(fā)展的關鍵環(huán)節(jié)之一,日益受到人們的重視[1]。

        客戶信用風險評估本質(zhì)上是一個分類問題,即將客戶分成違約和按時還款兩類??蛻粜庞蔑L險預測模型的發(fā)展經(jīng)歷了三個階段:定性分析、統(tǒng)計學方法和人工智能方法[2]。定性分析是最早用于信用評估的方法,其后統(tǒng)計學方法被逐漸引入到信用評估中。近年來,隨著機器學習的發(fā)展,一些智能化方法被陸續(xù)應用到信用評估研究中。例如, MALEKIPIRBAZARI M等[3]使用隨機森林算法對國外網(wǎng)絡借貸平臺Lending Club借款人的風險進行預測。然而,這些傳統(tǒng)機器學習方法預測效果的好壞非常依賴于人工設計的特征,而人工設計特征的方法往往無法考慮到所有特征,同時人工設計特征需要花費大量時間和人工成本[4]。

        近年來,深度學習受到了越來越多學者的關注,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)則是其中一種經(jīng)典而廣泛應用的網(wǎng)絡結(jié)構。LECUN V等人[5]在1998年提出了LeNet-5,LeNet-5成功應用到了手寫字符識別領域。2012年,KRIZHEVSKY A等人提出的AlexNet[6]在ImageNet圖像分類競賽中奪得了冠軍,使得CNN成為了各界關注的焦點。在此之后,CNN模型不斷改進,比如Google的GoogLeNet[7]等。CNN能夠從數(shù)據(jù)中自動學習特征,從而代替人工設計特征,且深層的結(jié)構使它具有很強的表達能力和學習能力。經(jīng)過不斷發(fā)展,CNN逐漸從圖像分類擴展到其他領域,比如:行人檢測、自然語言處理、語音識別等。目前CNN的應用場景大部分都是非結(jié)構化數(shù)據(jù)分類問題,近年來,開始有研究嘗試將CNN應用到結(jié)構化數(shù)據(jù)分類問題中,比如李思琴等[8]提出了基于CNN的搜索廣告點擊率預測的方法。本文研究所用數(shù)據(jù)來源于國內(nèi)一家互聯(lián)網(wǎng)金融平臺——融360,本文嘗試使用卷積神經(jīng)網(wǎng)絡來進行互聯(lián)網(wǎng)金融行業(yè)違約風險預測研究。

        1 方法

        1.1 數(shù)據(jù)編碼

        將輸入數(shù)據(jù)分為兩類,一類為靜態(tài)數(shù)據(jù),如描述用戶基本屬性的性別、職業(yè)等;另一類為動態(tài)數(shù)據(jù),動態(tài)數(shù)據(jù)主要包括用戶的歷史行為數(shù)據(jù),如用戶的銀行流水記錄、用戶瀏覽行為、信用卡賬單記錄。動態(tài)數(shù)據(jù)為時點數(shù)據(jù),會隨著時間的變化而改變。本文研究所用到的輸入數(shù)據(jù)的變量如表1所示,數(shù)據(jù)的標簽為用戶是否違約,用戶違約定義為逾期30天以上。

        表1 輸入數(shù)據(jù)變量列表

        在本文中,將用戶動態(tài)數(shù)據(jù)轉(zhuǎn)換成矩陣,矩陣如圖1所示,其中矩陣的行代表用戶的行為數(shù)據(jù),矩陣的列代表時間,時間基本單位為月或周。假設用戶放款時間為時間點t,用戶數(shù)據(jù)的時間范圍為放款前m個時間單位和放款后n個時間單位,因此構建矩陣時,矩陣各列以用戶放款時間t為基準,按照時間的先后順序進行排列。假設用戶的行為數(shù)據(jù)種類數(shù)量為p,那么矩陣共有p行,m+n+1列,矩陣中的元素代表用戶在某個時間點上的某一種行為的特征,一個矩陣代表了一個用戶在不同時間點上的所有行為特征。

        將銀行流水記錄和信用卡賬單記錄的時間基本單位設置為月,以月為單位進行匯總,將用戶瀏覽行為的時間基本單位設置為周,以周為單位進行匯總,匯總時可選用的指標有合計、計數(shù)、平均等。因三種歷史行為記錄轉(zhuǎn)換成的矩陣的大小不相同,所以將三個矩陣作為三個單獨的數(shù)據(jù)源進行輸入。

        對于輸入數(shù)據(jù)中靜態(tài)數(shù)據(jù),因數(shù)據(jù)不會隨著時間的改變而改變,所以用向量的方式來進行編碼,假設用戶基本屬性數(shù)據(jù)在數(shù)據(jù)處理后的種類數(shù)量為q,則用戶靜態(tài)輸入數(shù)據(jù)的大小是1×q。

        圖1 動態(tài)數(shù)據(jù)轉(zhuǎn)換后的矩陣示意圖

        1.2 卷積神經(jīng)網(wǎng)絡結(jié)構

        本文提出的改進卷積神經(jīng)網(wǎng)絡模型借鑒了經(jīng)典的LeNet-5和GoogLeNet的結(jié)構,構建的卷積神經(jīng)網(wǎng)絡模型包含四個子卷積網(wǎng)絡,每個子卷積網(wǎng)絡都有單獨的輸入,四個子卷積網(wǎng)絡最后在全連接層(Fully Connected Layer,FC)進行融合,全連接層之后是Softmax輸出層,CNN結(jié)構如圖2所示。

        圖2 卷積神經(jīng)網(wǎng)絡結(jié)構

        對于四個子卷積網(wǎng)絡,與動態(tài)輸入數(shù)據(jù)連接的子卷積網(wǎng)絡采用兩個卷積層(Convolutional Layer,CONV)和兩個池化層(Pooling Layer,POOL)來自動提取特征,考慮到靜態(tài)輸入數(shù)據(jù)特征較少,與靜態(tài)數(shù)據(jù)連接的子卷積網(wǎng)絡只采用了一個卷積層和一個池化層。

        卷積層由多個特征面(Feature Map)組成,每個特征面由多個神經(jīng)元組成,每一個神經(jīng)元通過卷積核與上一層特征面的局部區(qū)域連接。卷積層利用局部連接和權值共享,減少網(wǎng)絡自由參數(shù)個數(shù),降低網(wǎng)絡參數(shù)復雜度[9]。卷積層計算公式如下:

        X(l)=f(Wl?X(l-1)+b(l))

        (1)

        其中X(l)和X(l-1)代表層l層和l-1層的神經(jīng)元活性,Wl代表卷積核,b代表偏置。

        對于與動態(tài)輸入數(shù)據(jù)連接的三個子卷積網(wǎng)絡,采用相同的參數(shù),在第一個卷積層,選擇了64個大小為1×3卷積核,目的是提取用戶每一個行為在不同時間點上的特征。卷積層之后是池化層,池化層起到二次提取特征的作用,它的每個神經(jīng)元對局部接受域進行池化操作。常用的池化方法有最大池化、隨機池化和均值池化,這里選擇最大池化法(取局部接受域中值最大的點)。在池化層之后連接第二個卷積層,選擇了128個大小為3×3的卷積核,目的是進一步提取用戶每一個行為指標在不同時間點上的特征,并且提取用戶同一時間上不同行為的特征。在第二個卷積層后同樣連接了一個池化層。對于靜態(tài)輸入數(shù)據(jù)采用了一個卷積層和一個池化層來提取特征,卷積層使用了64個大小為1×3的卷積核。

        四個子卷積網(wǎng)絡的輸出全部在全連接層進行融合,第一個全連接層和第二個全連接層的維度分別是512和256。最后,選擇Softmax函數(shù)作為輸出分類器。Softmax函數(shù)估計輸入x屬于特定類別j∈k的概率:

        (2)

        選擇常用的修正線性單元(Rectified Linear Unit,ReLU)作為激勵函數(shù),ReLU激勵函數(shù)可以防止梯度消失和過擬合問題,ReLU激勵函數(shù)定義為:

        fcov(x)=max(0,x)

        (3)

        Dropout是CNN中防止過擬合提高效果的一種有效手段,它是指在卷積神經(jīng)網(wǎng)絡的訓練過程中,對于神經(jīng)網(wǎng)絡單元,按照一定的概率將其從網(wǎng)絡中丟棄,本文在每個子卷積網(wǎng)絡的最后一個池化層后面進行Dropout(0.3)操作。

        為了證明CNN在用戶信用風險預測問題上的優(yōu)越性,選擇了在信用風險預測領域常用的兩種傳統(tǒng)機器學習方法作為對比:Logistic回歸(Logistic Regression,LR)和隨機森林(Random Forests,RF)。

        1.3 評價指標

        以TP(True Positive)代表被模型預測為正的正樣本,以TN(True Negative)代表被模型預測為負的負樣本,以FP(False Positive)代表被模型預測為正的負樣本,以FN(False Negative)代表被模型預測為負的正樣本。

        ROC(Receiver Operating Characteristic)和AUC(Area under Curve)指標是常用的評價指標。首先計算真正率(TPR)和假正率(FPR)的值,然后以FPR和TPR為坐標形成折線圖,即ROC曲線。

        (4)

        (5)

        ROC曲線越靠近左上角,代表模型分類性能越好。AUC是ROC曲線下方面積,AUC越大,代表模型的準確性就越高。

        KS(Kolmogorov-Smirnov)是信用風險評分領域常用的評價指標,首先將數(shù)據(jù)樣本按照預測違約概率由低到高進行排序,然后計算每一個違約率下的累積TPR值和累積FPR值,最后求這兩個值的差值的最大值,即為KS指標。KS值越大代表模型對于違約客戶和按時還款客戶的分辨能力越強。

        2 實驗結(jié)果

        2.1 實驗設置

        本文數(shù)據(jù)源共包含50 000個用戶的數(shù)據(jù)。首先對數(shù)據(jù)進行預處理。將類別型變量,如性別,轉(zhuǎn)換為One-hot編碼,同時將連續(xù)型變量,如收入金額,進行歸一化處理。將用戶行為記錄和用戶基本屬性分別轉(zhuǎn)換成矩陣和向量作為CNN的輸入。同時采用特征提取的方式,從用戶行為記錄中抽取特征作為傳統(tǒng)算法的輸入,特征值從用戶行為記錄中匯總得到,選用的匯總指標有合計、計數(shù)、平均等。為了更好地對模型進行評估,將數(shù)據(jù)劃分為訓練集、驗證集和測試集。

        2.2 結(jié)果分析

        實驗結(jié)果如表2和圖3所示,表2中顯示了3種模型實驗結(jié)果的AUC值和KS值。從表中可以看到,本文構建的CNN模型實驗結(jié)果的AUC值和KS值都遠遠高于傳統(tǒng)方法。同時如圖3所示,CNN的ROC曲線始終處于最左上方。以上表明本文提出的CNN方法具有較好的信用風險預測效果。

        表2 模型運行結(jié)果

        3 結(jié)論

        本文針對互聯(lián)網(wǎng)金融行業(yè)的用戶信用風險評估問題,提出了一種基于卷積神經(jīng)網(wǎng)絡的客戶違約風險預測模型。首先將輸入數(shù)據(jù)分為動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),將動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)分別轉(zhuǎn)換為矩陣和向量,本文建立的卷積神經(jīng)網(wǎng)絡模型包含四個子卷積網(wǎng)絡,最后使用ROC、AUC值和KS值作為評價指標,將該方法與其他傳統(tǒng)機器學習算法(LR、RF)進行比較。實驗結(jié)果表明,卷積神經(jīng)網(wǎng)絡模型的客戶違約風險預測性能要優(yōu)于其他模型,能對借款人的信用風險進行更準確的評估,同時,卷積神經(jīng)網(wǎng)絡模型能夠從數(shù)據(jù)中自動學習特征,與人工設計特征相比,可以節(jié)約大量的時間,因此本文建立的模型在互聯(lián)網(wǎng)金融行業(yè)的信用風險評估領域更具有優(yōu)勢。

        [1] 于曉虹,樓文高.基于隨機森林的P2P網(wǎng)貸信用風險評價、預警與實證研究[J].金融理論與實踐,2016(2):53-58.

        [2] REDMOND U,CUNNINGHAM P. A temporal network analysis reveals the unprofitability of arbitrage in the prosper marketplace[J]. Expert Systems with Applications,2013,40(9): 3715-3721.

        [3] MALEKIPIRBAZARI M,AKSAKALLI V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications,2015,42(10): 4621-4631.

        [4] 操小文,薄華. 基于卷積神經(jīng)網(wǎng)絡的手勢識別研究[J]. 微型機與應用,2016,35(9): 55-57.

        [5] LECUN Y,BOTTOU L,BENGIO Y ,et al. Gradient based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.

        [6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems,2012: 1097-1105.

        [7] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]. Computer Vision and Pattern Recognition,2015:1-9.

        [8] 李思琴,林磊,孫承杰,等. 基于卷積神經(jīng)網(wǎng)絡的搜索廣告點擊率預測[J]. 智能計算機與應用,2015(5): 22-25,28.

        [9] 鄭昌艷,梅衛(wèi). 基于卷積神經(jīng)網(wǎng)絡的空中目標戰(zhàn)術機動模式分類器設計[J]. 微型機與應用,2015,34(22): 50-52.

        Prediction of credit riskin Internet financial industry based on convolutional neural network

        Wang Chongren,Han Dongmei

        (Department of Information Management and Engineering,Shanghai University of Finance and Economics,Shanghai 200433,China)

        A method of customer default risk prediction based on convolutional neural network is proposed in the light of credit risk evaluation problem in the Internet financial industry. Firstly,the input data is divided into dynamic data and static data,and the dynamic data and static data are converted into matrix and vector. Then,an improved convolutional neural network is used to automatically extract features and classify. Finally,the ROC curve,AUC value and KS value are used as evaluation metrics,and the method is compared with other machine learning algorithms (Logistic Regression and Random Forest). The experimental results show that the convolutional neural network model overcomes the contrast model in the field of customer credit risk prediction.

        credit risk evaluation; convolutional neural networks; machine learning; deep learning

        上海財經(jīng)大學研究生教育創(chuàng)新計劃項目(2015111101)

        TP391

        A

        10.19358/j.issn.1674-7720.2017.24.013

        王重仁,韓冬梅.基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)金融信用風險預測研究J.微型機與應用,2017,36(24):44-46,50.

        2017-05-25)

        王重仁(1984-),男,博士研究生,主要研究方向:數(shù)據(jù)挖掘。

        韓冬梅(1961-),女,博士生導師,教授,主要研究方向:經(jīng)濟分析與預測。

        猜你喜歡
        動態(tài)數(shù)據(jù)信用風險卷積
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        云計算環(huán)境下動態(tài)數(shù)據(jù)聚集算法研究
        淺析我國商業(yè)銀行信用風險管理
        顳下頜關節(jié)三維動態(tài)數(shù)據(jù)測量的初步研究
        京東商城電子商務信用風險防范策略
        個人信用風險評分的指標選擇研究
        基于動態(tài)數(shù)據(jù)驅(qū)動的突發(fā)水污染事故仿真方法
        基于復雜網(wǎng)絡的電信大數(shù)據(jù)處理研究
        国产精品福利自产拍久久| 免费国产自拍视频在线观看| 福利视频自拍偷拍视频| 国产伦精品一区二区三区视| 加勒比精品久久一区二区三区| 2017天天爽夜夜爽精品视频| 久久这里只有精品黄色| 少妇人妻系列中文在线| 狼人伊人影院在线观看国产| 日韩人妻中文无码一区二区| 国产啪亚洲国产精品无码| 三级在线看中文字幕完整版| 亚洲网站地址一地址二| 国产成人8x视频网站入口| 日韩精品一区二区三区中文9| 按摩偷拍一区二区三区| 97精品人妻一区二区三区在线| 亚洲 日本 欧美 中文幕| 97精品国产97久久久久久免费 | 亚洲无线码一区二区三区| 国产熟人av一二三区| 就去吻亚洲精品欧美日韩在线| 亚洲成a人片在线观看导航| 激情五月婷婷六月俺也去| 国产亚洲中文字幕久久网| av日韩高清一区二区| 胸大美女又黄的网站| 久久夜色精品国产噜噜亚洲av | 亚洲丁香婷婷综合久久小说 | 美女偷拍一区二区三区| 日本系列有码字幕中文字幕| 加勒比一本heyzo高清视频| 男女车车的车车网站w98免费| 一本久道久久综合婷婷五月| 国产高潮流白浆免费观看不卡 | 夜夜躁日日躁狠狠久久av| 一边吃奶一边摸做爽视频| 岛国av无码免费无禁网站下载| 国产精品亚洲国产| 在线观看在线观看一区二区三区| av天堂午夜精品一区|