亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Logistic回歸的個人消費貸款預(yù)測

        2017-11-22 07:28:17李哲瑜簡宋全李青海
        現(xiàn)代計算機 2017年29期
        關(guān)鍵詞:模型

        李哲瑜,簡宋全,李青海

        (廣東精點數(shù)據(jù)科技股份有限公司,廣州510630)

        基于Logistic回歸的個人消費貸款預(yù)測

        李哲瑜,簡宋全,李青海

        (廣東精點數(shù)據(jù)科技股份有限公司,廣州510630)

        研究個人住房貸款與個人消費貸款之間的關(guān)系,通過住房貸款業(yè)務(wù)累積的客戶賬戶信息,作為自變量構(gòu)建一個Lo?gistic回歸模型來預(yù)測客戶是否會申請消費貸款,以此來精準(zhǔn)定位客戶群體,實現(xiàn)精準(zhǔn)營銷。

        0 引言

        消費貸款也稱消費者貸款,是商業(yè)銀行和金融機構(gòu)以消費者信用為基礎(chǔ),對消費者個人發(fā)放的,用于購置耐用消費品或支付其他費用的貸款。從種類上看,包括居民住宅抵押貸款、非住宅貸款和信用卡貸款。具有高風(fēng)險、高收益、周期性和利率不敏感性,是商業(yè)銀行和金融機構(gòu)的一項很重要的業(yè)務(wù),帶來很大的利潤,所以有必要對其潛在客戶進行定位和挖掘,實現(xiàn)精準(zhǔn)營銷。

        消費貸款和住房貸款都是針對個人客戶的業(yè)務(wù),它們之間會共享一些客戶信息。本文研究的就是能否通過住房貸款業(yè)務(wù)累積的客戶信息來預(yù)測客戶是否會申請消費貸款。

        1 數(shù)據(jù)與方法

        1.1 數(shù)據(jù)

        本文使用的數(shù)據(jù)包含20229個客戶的信息,12個屬性,具體描述如表1。

        1.2 方法

        (1)Logistic回歸

        在很多定量分析的研究中比較常使用的基本統(tǒng)計方法是線性回歸方法,然而現(xiàn)實生活中很多應(yīng)變量都只是分類變量,特別是二分類變量,例如客戶是否拖欠貸款、貸款審批是否通過等等,這時線性回歸方法就顯得不太適用。

        Logistic回歸是解決這種二分類問題的有效方法之一。首先考慮函數(shù):

        hw(x)=g(wTx)=moid函數(shù),它的圖形如下,當(dāng)橫坐標(biāo)刻度足夠大時,就像一個階躍函數(shù)。

        表1

        假設(shè)在給定x,w的條件下,y=1出現(xiàn)的概率服從伯努利分布,表示為:

        圖1

        在m個獨立樣本情況下,可得似然函數(shù)為:

        訓(xùn)練模型的過程就是選擇恰當(dāng)?shù)膚使得l(w)達到最大。常用的方法有梯度上升法和牛頓法。

        (2)ROC曲線與AUC值

        接收者操作特征曲線(Receiver Operating Charac?teristic Curve,簡稱ROC曲線),又稱為感受性曲線(Sen?sitivity Curve),ROC曲線上每個點反映著對同一信號刺激的感受性,是一種在二分類建模問題中比較常見的檢驗指標(biāo)。

        根據(jù)實際結(jié)果和預(yù)測結(jié)果可以做出如下列聯(lián)表,1代表正例,0代表負例:

        表2

        根據(jù)表2,分別定義下面幾個變量:

        (1)真正類率(True Postive Rate)TPR:TP/(TP+FN),代表分類器正確預(yù)測的正例占所有真實正實例的比例,又稱靈敏度(Sensitivity)。

        (2)負正類率(False Postive Rate)FPR:FP/(FP+TN)=1-Specificity,代表分類器錯誤預(yù)測的負例占所有真實負實例的比例。

        (3)真負類率(True Negative Rate)TNR:TN/(FP+TN),代表分類器預(yù)測的壞客戶中實際負實例占所有負實例的比例,TNR=1-FPR。又稱特異度(Specificity)。

        采用邏輯回歸分類器時,其給出針對每個實例為正類的概率,那么通過設(shè)定一個閾值如0.5,概率大于等于0.5的為正類,小于0.5的為負類,對應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對應(yīng)坐標(biāo)點。隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應(yīng)坐標(biāo)點為(0,0),閾值最小時,對應(yīng)坐標(biāo)點(1,1)。

        如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應(yīng)一個閾值。

        圖2

        橫軸FPR:1-TNR,1-Specificity,F(xiàn)PR越大,預(yù)測正類中實際負類越多。

        縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預(yù)測正類中實際正類越多。

        理想目標(biāo):TPR=1,F(xiàn)PR=0,即圖中(0,1)點,故 ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitiv?ity、Specificity越大效果越好。

        ROC曲線有個很好的特性:當(dāng)測試集中的正負樣本的分布變換的時候,ROC曲線能夠保持不變。在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡現(xiàn)象,即正負樣本比例差距較大,而且測試數(shù)據(jù)中的正負樣本的分布也可能隨著時間變化。

        ROC曲線下的面積被稱為AUC統(tǒng)計量(Area un?der the Curve),介于0.1和1之間。由上述描述可知,一個隨機預(yù)測模型對應(yīng)的AUC值為0.5,而一個完美的預(yù)測模型對應(yīng)的AUC值為1.AUC作為數(shù)值可以直觀的評價分類器測好壞,值越大越好。一般情況下,一個評分模型的AUC值在0.7與0.8之間則表示該模型的區(qū)分能力尚可接受,若在0.8和0.9之間,則表示模型有著良好的區(qū)分能力,而如果AUC值大于0.9則說明模型的區(qū)分能力非常好。使用AUC值作為評價標(biāo)準(zhǔn)是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應(yīng)AUC更大的分類器效果更好。

        2 實驗過程

        2.1 特征提取

        數(shù)據(jù)集中包含所屬地市、貸款種類等分類變量,這些變量都包含多個取值。如果用啞變量來直接處理這些分類變量的話,會增加很多變量,但可能包含一些對最終結(jié)果沒有太大影響的特征,造成結(jié)果的不準(zhǔn)確,所以先對分類變量做處理。步驟如下:

        (1)選定一個分類變量,計算不同取值下的貸款概率

        (2)計算所有概率的均值

        (3)不考慮均值附近的取值,將剩下的概率相同或近似的取值歸為一類,生成一個啞變量

        通過這種方法可以簡化模型并且提升模型的效果。最終得到的部分特征如表3:

        表3

        2.2 擬合模型

        從樣本集中隨機抽取70%的數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練Logistic回歸模型,并用不同的逐步回歸方法對自變量進行篩選,最終得到10個模型,整合結(jié)果如下:

        表4

        綜合上表,我們選取第二個模型作為最終的擬合模型。結(jié)果如下:

        Call:

        glm(formula=V17~V1+V5+V6+V7+V8+V10+

        V11+V12+V13+V14+V16,family=binomial(link="log?

        it"),data=train_data)

        Deviance Residuals:

        Min1Q Median 3QMax

        -1.0876-0.4224-0.3374-0.2653 3.1793

        Coefficients:

        Estimate Std.Error z value Pr(>|z|)

        (Intercept)0.166569 1.114357 0.149 0.8812

        V10.7954150.157199 5.060 4.19e-07***

        V5-1.0245840.164124-6.243 4.30e-10***

        V6 -0.4590670.094846-4.840 1.30e-06***

        V70.544794 0.087695 6.212 5.22e-10***

        V8-0.1721730.076259-2.258 0.0240*

        V10 0.182286 0.076137 2.394 0.0167*

        V110.2522490.109495 2.304 0.0212*

        V12 -0.477404 0.101634-4.697 2.64e-06***

        V130.1726750.098817 1.747 0.0806.

        V14 1.1416730.183889 6.209 5.35e-10***

        V16 0.0394490.005739 6.874 6.24e-12***

        Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1

        ‘’1

        (Dispersion parameter for binomial family taken to be 1)

        Null deviance:7300.2 on 14157 degrees of freedom

        Residual deviance:6904.3 on 14146 degrees of freedom

        AIC:6928.3

        Number of Fisher Scoring iterations:6

        用模型二來預(yù)測測試集的結(jié)果。下圖為模型二的ROC曲線。

        圖3

        2.3 選取閾值

        步驟如下:

        (1)對所有訓(xùn)練集的預(yù)測結(jié)果進行排序

        (2)獲取十分位點對應(yīng)的值

        以②得到的值為閾值計算訓(xùn)練集和測試集的召回率,得到表5。

        根據(jù)實際業(yè)務(wù)需求和經(jīng)驗,選擇第五個分位點,即-2.75194作為閾值得到的結(jié)果是最好的。

        3 討論

        本文的研究目的是預(yù)測客戶是否有意愿申請個人消費貸款,提出的方法是以客戶的住房貸款情況構(gòu)建一個Logistic回歸模型。在構(gòu)建模型之前,先對分類型特征做了處理,刪去一些多余特征,簡化模型。用ROC曲線和AUC值為指標(biāo)選擇擬合效果最好的模型,并用召回率來確定最終的閾值。最終通過實驗驗證表明,該模型可行且有效。

        表5

        [1]施朝建,張明銘.Logistic回歸模型分析[J].計算機輔助工程,2005,14(3):74-78.

        [2]廖國民,涂穩(wěn)華,寧靜.基于Logistic模型的個人消費信貸風(fēng)險評估[J].廣東外語外貿(mào)大學(xué)學(xué)報,2013,(5):27-33.

        李哲瑜(1993-),女,廣東廣州人,碩士研究生,助理工程師,研究方向為計算機軟件和信息服務(wù)領(lǐng)域

        簡宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向為計算機軟件和信息服務(wù)領(lǐng)域

        李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向為計算機軟件和信息服務(wù)領(lǐng)域

        2017-07-19

        2017-09-26

        Individual Consumer Loans;Logistic Regression Model;ROC Curve and AUC

        Prediction of Personal Consumption Loan Based on Logistic Regression

        LI Zhe-yu,JIAN Song-quan,LI Qing-hai

        (Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)

        Digs into the relationship between housing loads and individual consumer loans,builds a logistic regression model to predict customers'willingness to apply for consumer loans.The dependent variable is customers'account information,which is gained from the housing loan business.Using the model,we can locate customer groups precisely and realize precision marketing.

        個人消費貸款;Logistic回歸;ROC曲線和AUC值

        天河區(qū)科技計劃項目(No.201502YH019)

        1007-1423(2017)29-0009-04

        10.3969/j.issn.1007-1423.2017.29.002

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产精品无码久久久久免费AV| 我和隔壁的少妇人妻hd| 中文精品久久久久人妻不卡| 欧美野外疯狂做受xxxx高潮 | 人妻被黑人粗大的猛烈进出| 久久精品熟女不卡av高清| 91久久国产露脸国语对白| 欧美精品无码一区二区三区| 全球中文成人在线| jjzz日本护士| 亚洲全国最大的人成网站| 人妻少妇精品视频专区vr| 日日碰狠狠添天天爽无码| 国产午夜无码视频免费网站| 亚洲高清av一区二区| 97精品人妻一区二区三区蜜桃 | 中文字幕无码不卡免费视频| 视频二区精品中文字幕| 国产激情一区二区三区不卡av| 97久久久久人妻精品区一| 无码中文字幕人妻在线一区二区三区| AV无码免费不卡在线观看| 久久精品亚洲一区二区三区画质| 成人麻豆日韩在无码视频| 亚洲欧美综合在线天堂| 一区二区三无码| 中文字字幕在线中文乱码解| 天天躁夜夜躁天干天干2020| 国产精品23p| 国产精品丝袜美腿诱惑| 免费av一区二区三区| 亚洲精品国产av成拍色拍| 国产精品乱子伦一区二区三区 | 麻豆AⅤ无码不卡| 一区二区久久精品66国产精品| 亚洲av不卡一区男人天堂 | 开心五月婷婷激情综合网| 色老板精品视频在线观看| 亚洲欧美国产日产综合不卡| 91精品国产自拍视频| 久久亚洲精品成人无码|