亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征工程和樹增強貝葉斯網(wǎng)絡的個人信用評估研究*

        2023-01-30 04:27:00范彥勤黃海午楊智凱
        桂林航天工業(yè)學院學報 2022年4期
        關鍵詞:個人信用特征選擇貝葉斯

        范彥勤 黃海午 楊智凱

        (1 桂林航天工業(yè)學院 理學院,廣西 桂林 541004;2 桂林航天工業(yè)學院 科技處,廣西 桂林 541004)

        隨著我國經(jīng)濟的快速發(fā)展,個人消費信貸業(yè)務急劇增長,個人信用評估顯得尤為重要。個人信用評估模型主要包括統(tǒng)計方法、專家系統(tǒng)、數(shù)學規(guī)劃、分類樹(CART)、K最鄰近算法(KNN)、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(ANN)、貝葉斯網(wǎng)絡(BN)及各類集成算法等。其中,貝葉斯網(wǎng)絡分類模型作為一種先驗知識與樣本信息相結(jié)合、依賴關系與概率表示相結(jié)合的分類方法,具有良好的分類精度,廣泛應用于各領域中。尤其是高效應用的樹增強貝葉斯分類器(TANC),放松了樸素貝葉斯分類器(NBC)中的條件獨立假設,具有較好的綜合性能。目前國內(nèi)外研究個人信用評估模型的重點,主要是通過對機器學習算法[1-4]的改進,實現(xiàn)模型的不斷優(yōu)化。 綜述各類評估模型,目前仍存在一些不足:如模型構(gòu)建前,數(shù)據(jù)的優(yōu)化和準備工作,特別是合理有效的特征選擇、不平衡數(shù)據(jù)處理等問題,會對后續(xù)模型構(gòu)建的穩(wěn)定性造成影響;同時模型的選擇不當,將直接影響分類結(jié)果。

        針對以上問題的分析,本文基于特征工程,通過數(shù)據(jù)平衡、特征編碼和特征選擇,達到優(yōu)化數(shù)據(jù)集的目的,減少后續(xù)模型的輸入和數(shù)據(jù)的維數(shù);然后把特征選擇后的屬性特征應用到樹增強貝葉斯分類器(TANC)上,建立個人信用評估模型。并使用真實數(shù)據(jù)進行對比驗證,結(jié)果表明該模型在不同分區(qū)數(shù)據(jù)集上分類準確率高,模型性能良好,同時減少了模型的計算量,有效地縮短了評估所需的時間。

        1 特征工程

        1.1 數(shù)據(jù)平衡

        目前有效使用的個人信用評估數(shù)據(jù)集大多不平衡,常用的方法如下:從數(shù)據(jù)本身出發(fā),改變數(shù)據(jù)集分布,減少數(shù)據(jù)的不平衡性;改進算法,減少模型對多數(shù)類樣本的依賴,該方法對先驗知識的要求較高;SMOTE[5-6]數(shù)據(jù)合成法,即合成少數(shù)類過采樣技術(shù),通過對少數(shù)類樣本進行分析并根據(jù)少數(shù)類樣本人工插值合成新樣本,實現(xiàn)跟大類樣本數(shù)據(jù)相當)添加到數(shù)據(jù)集中,構(gòu)成均衡數(shù)據(jù)集,其中本文處理方法基于此合成法。

        1.2 特征選擇

        常用的特征選擇方法分為以下三種[7-8],如圖1所示。

        圖1 特征選擇方法分類

        各方法均有優(yōu)劣性,其中Pearson相關系數(shù)可以有效避免評分等級膨脹(grade inflation)的問題,且簡單易操作。因此,本文在特征選擇方面,采用過濾法中的Pearson相關系數(shù)法。Pearson 相關系數(shù)法,主要用來反映變量間相似度的統(tǒng)計量。計算公式如式(1):

        (1)

        其中:r表示相關程度,取值為[-1,1]。通常,r小于0.4為弱相關,r大于0.6為強相關,大于0.8為極強相關。

        2 樹增強樸素貝葉斯分類器(TANC)

        貝葉斯分類器[9]應用廣泛,具有良好的分類性能和穩(wěn)健性,它的原理是將先驗概率與后驗概率相結(jié)合,利用已知的先驗信息和樣本數(shù)據(jù)集信息,獲得其后驗概率,并將具有最大后驗概率的類作為所屬的類。其中NB和TANC 分類器最具有代表性。貝葉斯定理可表示為:

        P(C=cj|x1,x2,…,xn)

        =aP(cj)·P(x1,x2,…,xn|cj)

        (2)

        其中:a是正則化因子;P(cj)是類cj的先驗概率;P(cj|x1,x2,…,xn)是類cj的后驗概率。

        樹擴展樸素貝葉斯分類器(TANC)[10-11]是基于NB的改進,放寬了獨立性假設要求,允許屬性變量除類變量為父結(jié)點外,至多有1個其他的屬性作為其父結(jié)點,各屬性變量之間可形成一個樹形結(jié)構(gòu)。由于限制每個屬性結(jié)點最多有一個非類變量的父結(jié)點,因此可以進行有效的學習。TANC分類器的一個例子如圖2所示。

        圖2 樹擴展樸素貝葉斯分類器

        TANC模型構(gòu)造方法如下[11]:

        a)計算各屬性變量間的條件互信息I(Xi;Xj|C),

        (3)

        b)構(gòu)造一個完全無向圖,它的頂點是屬性變量。標注Xi和Xj相連接邊的權(quán)重為I(Xi;Xj|C)且i≠j。

        c)建立一個最大的權(quán)重跨度樹。

        d)將選擇出的父節(jié)點指向子節(jié)點,把無向樹轉(zhuǎn)化為有向樹。

        e)增加一個類變量節(jié)點及類變量節(jié)點與屬性節(jié)點之間的弧。

        貝葉斯分類模型的復雜度一般為o(n2)或者o(n),其中n為屬性節(jié)點的個數(shù),因此通過特征選擇后的屬性節(jié)點將簡化建模的輸入,減少計算量,縮短評估時間。

        3 實驗結(jié)果及分析

        3.1 樣本數(shù)據(jù)

        本文數(shù)據(jù)采用UCI[12]上德國個人信用評估數(shù)據(jù)集。樣本總數(shù)為1000條,信用分類結(jié)果為好和壞兩種,其中 好壞客戶樣本占比為7∶3。包含其中20個為特征變量,1個類變量。20個特征變量中,數(shù)值型7個,字符型13個,表1給出了德國信用數(shù)據(jù)的屬性,表2給出德國信用數(shù)據(jù)的分布。

        表1 德國信用數(shù)據(jù)的屬性

        表2 德國信用數(shù)據(jù)的分布

        3.2 數(shù)據(jù)預處理

        由于本文采用數(shù)據(jù)中好壞客戶樣本比為7∶3,存在一定的不平衡性。本文對非數(shù)值型數(shù)據(jù)進行編碼,根據(jù)類別的數(shù)量分別用自然數(shù)0~N之間替代;采用Z-Score標準化數(shù)據(jù)集;采用SMOTE過采樣,對樣本數(shù)據(jù)平衡處理;最后利用Pearson 相關系數(shù)法進行特性選擇,作為TANC的輸入節(jié)點。

        3.3 模型構(gòu)建

        本文基于IBM SPSS modeler18.0軟件構(gòu)建三種模型如下:

        模型一,不對數(shù)據(jù)進行平衡處理和特征選擇,直接構(gòu)建模型。

        模型二,先對數(shù)據(jù)進行分區(qū)、平衡處理,再對數(shù)據(jù)進行特征選擇后構(gòu)建模型。

        模型三,只對數(shù)據(jù)進行分區(qū)、平衡處理,未進行特征選擇,然后構(gòu)建模型。圖3給出評估流程圖,圖4給出不同特征工程下整體模型構(gòu)建過程。

        圖3 評估流程圖

        圖4 不同特征工程下的整體模型

        3.4 實驗結(jié)果及分析

        3.4.1 模型評估指標

        分類準確率作為評價模型優(yōu)劣的重要指標,但對于不平衡數(shù)據(jù)的個人信用評估研究,還需要引入混淆矩陣、ROC曲線及AUC值,共同作為模型評價指標。其中混淆矩陣規(guī)定如表3:

        表3 混淆矩陣

        3.4.2 仿真實驗結(jié)果

        3.4.2.1 預測變量重要性及模型構(gòu)建圖

        本文數(shù)據(jù)中的20個特征變量經(jīng)過篩選后,根據(jù)變量重要性,選取前13個特征變量作為后續(xù)建模的輸入,同時進行數(shù)據(jù)分區(qū),訓練集與測試集占比為7∶3,前者用于模型的訓練,后者用于對模型進行評價。其中圖5給出前10個重要性大于0.95的特征變量,通過特征變量重要性排序,有利于幫助決策者進行有效判斷。圖6給出基于特征選擇的TANC模型圖。

        圖5 預測變量重要性排序

        圖6 基于特征選擇的TANC模型

        20個特征變量選擇出13個作為后續(xù)建模的輸入,節(jié)點輸入減少了35%,有效降低數(shù)據(jù)維數(shù),減少冗余,降低模型復雜度。

        3.4.2.2 基于特征工程的TANC模型實驗結(jié)果及分析

        ROC和AUC作為模型性能度量的重要評估方法,有著較為廣泛的應用。其中,ROC曲線[13-14]描述的是分類器性能隨著分類器閾值的變化而變化的過程。對于ROC曲線,如果橫軸是1-特異度,縱軸是靈敏度。那么該彎曲曲線與45度的直線形成一個曲線下面積,即為 AUC,AUC越大,說明判斷的效果越好。面積越接近于1,識別能力越強。一般合適的模型,AUC值不低于0.5。基于三種不同模型進行建模分析,給出三種模型分別在訓練集和測試集上的ROC曲線,具體曲線如下圖7、8、9所示:

        圖7 模型1 ROC曲線

        圖8 模型2 ROC曲線

        圖9 模型3 ROC曲線

        給出三種模型分別在訓練集和測試集上的分類正確率、錯誤率、AUC值,分類結(jié)果如表4所示:

        表4 三種模型評估度量

        模型1:直接構(gòu)建的TANC模型;模型2:基于特征工程的TANC模型;模型3:只對數(shù)據(jù)進行分區(qū)、平衡處理,未進行特征選擇,所構(gòu)建的TANC模型。

        表4中的數(shù)值是驗證結(jié)果的平均值,給出了三種模型評估度量。分“訓練”“測試”兩個不同的數(shù)據(jù)集,分別給出了準確和錯誤率。由表4分類結(jié)果不難得出:基于特征工程的TANC模型(模型2),在“訓練”“測試”兩個數(shù)據(jù)集上的分類準確率最高,錯誤率最低。

        由圖7、圖8、圖9,三種模型下ROC曲線及表4中三種模型對應的AUC值大小,可以得出,基于特征工程的TANC模型(模型2),在“訓練”“測試”兩個數(shù)據(jù)集上不僅分類效果均最好,且模型性能優(yōu)越。

        3.4.2.3 基于特征工程的TANC模型與其他模型性能比較

        為了進一步驗證基于特征工程的TANC模型的有效性和穩(wěn)健性,將此模型與常見的NBC、SVM、 KNN、 CART 、ANN模型的準確率進行實驗比較,結(jié)果如表5所示:

        表5 基于特征工程的各信用評估模型的分類結(jié)果

        表5(續(xù))

        CART模型在訓練集中的準確率略高于TANC模型,但個人信用評估更為看重測試集中的分類準確率,綜合各類模型,可以得出基于特征工程和樹增強貝葉斯網(wǎng)絡的個人信用評估模型在信用評估中分類效果較好,模型可靠性較高,具有良好的推廣應用價值。

        4 結(jié)束語

        針對目前個人信用評估數(shù)據(jù),存在著不平衡性、屬性指標較多、模型分類準確度不高等問題,模型構(gòu)建前的數(shù)據(jù)集的選取、平衡、分區(qū)、特征選擇和優(yōu)化顯得較為關鍵。本文討論了一種基于特征工程和TANC模型的個人信用評估模型。基于SPSS Modeler 18.0軟件進行模型構(gòu)建,通過實驗驗證結(jié)果可得,該模型通過特征工程,優(yōu)化了數(shù)據(jù)集,減少了構(gòu)建模型的輸入,在兩個不同分區(qū)的數(shù)據(jù)集上均取得了較高的準確率,尤其是在測試集中準確率較高,且通過ROC曲線、AUC值,論證了模型的分類效果好,性能良好。同時將該模型與其他信用評估模型相比較,也取得了較優(yōu)的分類準確率,進一步證明該模型的穩(wěn)健性。還可以進一步探究將該模型應用到其他相關領域中。

        猜你喜歡
        個人信用特征選擇貝葉斯
        基于HPSO-BP神經(jīng)網(wǎng)絡的個人信用評估
        個人信用信息何以應由憲法保護?——一個制度論證的進路
        法大研究生(2020年2期)2020-01-19 01:43:22
        貝葉斯公式及其應用
        Kmeans 應用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        嚴重交通違法行為將直接與個人信用掛鉤
        汽車與安全(2016年5期)2016-12-01 05:22:05
        基于貝葉斯估計的軌道占用識別方法
        聯(lián)合互信息水下目標特征選擇算法
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負二項分布參數(shù)多變點的貝葉斯估計
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        精品久久久久久无码中文字幕| 99久久国产一区二区三区| 中国黄色偷拍视频二区| 精品国产性色av网站| 国产精品久久熟女吞精| 亚洲熟少妇一区二区三区| 国产精品无码一区二区三级| 欧美操逼视频| 品色堂永远的免费论坛| 国产久视频国内精品999| 亲少妇摸少妇和少妇啪啪| av男人的天堂第三区| 一本久久精品久久综合| 国产超碰人人做人人爽av大片| 亚洲中文字幕无码专区| 国产精品三级一区二区按摩| 自慰高潮网站在线观看| 国产大全一区二区三区| 丰满又紧又爽又丰满视频| 亚洲av成人片色在线观看高潮| 人人妻人人澡人人爽曰本| 久久精品国产亚洲AV高清y w| 国产美女冒白浆视频免费| 亚洲成av人片在www鸭子| 欧美猛男军警gay自慰| 亚洲日本在线va中文字幕| 亚洲24小时免费视频| 日韩精品久久久久久免费| 亚洲av无码精品色午夜| 国产精品国产三级国产专区5o| 日韩精品久久伊人中文字幕| 大陆国产乱人伦| 九九九精品成人免费视频小说| 久久这里只精品国产2| 伊人狼人大香线蕉手机视频| 女人下边被添全过视频| 4444亚洲人成无码网在线观看| 日本亚洲一级中文字幕| 在线a亚洲视频播放在线播放| 777午夜精品免费观看| 国产小屁孩cao大人免费视频|