陸健健 江開忠
摘 要:為了提高個人信用評分模型算法預測精準率,受視覺領域數(shù)據(jù)增廣思路啟發(fā),提出融合數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型。該模型首先對原始個人信用數(shù)據(jù)進行數(shù)據(jù)增廣處理,然后基于機器學習分類算法訓練一個二分類個人信用評分模型,最后基于公開個人信用數(shù)據(jù)集,分別建立未經過數(shù)據(jù)增廣和經過數(shù)據(jù)增廣處理后的個人信用評分模型。對比準確率、精確率、召回率、F1得分、AUC值和ROC曲線等6個性能評價指標,結果顯示,相較于僅基于機器學習算法的個人信用評分模型,融合了數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型使得分類性能得到了一定提升,分類準確率平均高出5%。
關鍵詞:數(shù)據(jù)增廣技術;機器學習算法;個人信用評分;分類性能評價指標
DOI:10. 11907/rjdk. 192197 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP306文獻標識碼:A 文章編號:1672-7800(2020)008-0040-04
Abstract: Inspired by data augmentation in computer vision, it is feasible to increase the number of training data and make the data set as diverse as possible so as to improve the accuracy of the model of personal credit scoring. After the data is augmented, the performance of the classification task can often be greatly improved. This paper firstly proposes a personal credit scoring model based on data augmentation algorithm. Based on the data augmentation of original personal credit data, a personal credit model is established based on supervised machine learning algorithm. In the empirical part, this paper builds a personal credit scoring model that has not undergone data augmentation and data augmentation processing based on public personal credit data sets. Six performance evaluation indicators, such as accuracy, accuracy, recall, F1 score, AUC value and ROC curve showed that the classification performance was improved more than 5% by the personal credit scoring model based on data augmentation technology.
Key Words: data augmentation; machine learning; credit scoring; classification performance evaluation metrics
0 引言
近年來,隨著人工智能和機器學習算法的不斷進步與發(fā)展,作為人工智能和機器學習領域的一個典型應用,個人信用評分模型取得了長足進步。個人信用評分問題實質上是模式識別領域的一個分類問題,識別個人信用特征并將個人判斷劃分為不違約和違約兩類。具體做法是根據(jù)歷史數(shù)據(jù)樣本信息,從已知數(shù)據(jù)中識別違約及不違約者特征,從而總結出分類規(guī)則,構建分類算法模型,用于測量借款個人違約概率,為相關決策者或者決策機構提供決策依據(jù)[1]。本文將過去個人信用評分研究算法模型主要劃分為三大類:傳統(tǒng)數(shù)學建模方法[2-6];決策樹、K近鄰判別(KNN)、聚類、神經網絡等單一機器學習算法[7-10];集成算法或者多算法融合[11-15]。面對眾多評分模型,模型側的更新?lián)Q代已成為個人信用評分研究領域發(fā)展的瓶頸。
近些年,在計算機視覺、自然語言處理等領域出現(xiàn)的數(shù)據(jù)增廣技術可以為個人信用評分研究提供新思路,成為提升個人信用評分模型預測精度的突破口。2018年,盧海濤等[16]通過圖像變換和合成技術建立滿文古籍文檔圖像數(shù)據(jù)增廣算法,解決訓練數(shù)據(jù)不足問題,在構建的增廣數(shù)據(jù)集上建立Faster R-CNN深度學習模型挖掘深層圖像特征,實現(xiàn)滿文文檔圖像印章檢測方法,并對采集的真實滿文文檔復印件圖像進行測試,印章檢測精度可以達到99.6%。同年,蔣夢瑩等[17]提出優(yōu)化分類的數(shù)據(jù)增廣方法,通過對測試集所有類別進行分析,找到分類效果不好的單類進行數(shù)據(jù)擴增,改善模型因訓練樣本少、結構復雜引起分類效果差的現(xiàn)象,為數(shù)據(jù)增廣方法提供了多種思路。2019年,王鈺清等[18]基于數(shù)據(jù)增廣和卷積神經網絡算法的地震隨機減噪,對無噪地震數(shù)據(jù)添加不同方差的高斯噪聲,數(shù)據(jù)增廣后構成新的訓練集,實現(xiàn)了對小樣本CNN模型訓練。
參考以上視覺領域圖片處理的數(shù)據(jù)增廣技術,本文對傳統(tǒng)個人信用數(shù)據(jù)使用SMOTE算法進行增廣。與傳統(tǒng)信用評分模型相比,本文將數(shù)據(jù)增廣思想運用于個人信用數(shù)據(jù)這類二維結構化數(shù)據(jù)集中,提出了一種融合數(shù)據(jù)增廣技術與機器學習算法的個人信用評分模型。相比之前未經過數(shù)據(jù)增廣的模型,該模型算法具有預測精準度高、魯棒性好等特點。
1 相關技術原理
1.1 數(shù)據(jù)增廣技術
數(shù)據(jù)增廣技術是深度學習中的常用技巧,主要用于增加訓練數(shù)據(jù)集數(shù)據(jù)量,讓數(shù)據(jù)集盡可能多樣化,使得訓練的模型具有更強的泛化能力。在實際各項應用中,并非所有數(shù)據(jù)增廣方式都適用于當前訓練數(shù)據(jù)集,需要根據(jù)自己的數(shù)據(jù)集特征確定應該使用哪幾種數(shù)據(jù)增廣方式。目前,在視覺領域,數(shù)據(jù)增廣主要包括:水平/垂直翻轉、旋轉、縮放、裁剪、剪切、平移、對比度、色彩抖動等方式;在自然語言處理領域,數(shù)據(jù)增廣主要包括:同義詞替換、隨機插入、隨機交換、隨機刪除等技術;而在二維結構化數(shù)據(jù)領域,目前尚未有學者提出統(tǒng)一數(shù)據(jù)增廣技術,而僅僅在出現(xiàn)不平衡數(shù)據(jù)集時,有研究者提出了基于SMOTE算法、SMOTE算法的以變種為代表的過采樣技術,這種過采樣技術實際上就是針對不平衡數(shù)據(jù)集中少數(shù)類數(shù)據(jù)的數(shù)據(jù)增廣技術,如果將對象換作全體各類數(shù)據(jù)集,將全體數(shù)據(jù)集做過采樣處理,則那些過采樣技術就是本文所指的數(shù)據(jù)增廣技術。
1.2 機器學習算法
常用的機器學習算法主要分為無監(jiān)督學習和有監(jiān)督學習。本文主要用到了有監(jiān)督學習,有監(jiān)督學習主要是指輸入的樣本數(shù)據(jù)有相應的標記類別。有監(jiān)督學習算法可以從給定的訓練數(shù)據(jù)集中學習出一個模型參數(shù),當給定一個新的數(shù)據(jù)樣本時,可以根據(jù)該模型參數(shù)預測一個相應類別的結果。有監(jiān)督學習的訓練集要求包含輸入和輸出,也可以說是特征屬性和目標屬性。監(jiān)督學習包括回歸預測問題和分類預測問題,通過已有的訓練樣本去訓練得到一個誤差最小的最優(yōu)模型,再利用該最優(yōu)模型對輸入樣本輸出相應結果,最后對輸出進行簡單判斷從而實現(xiàn)預測目的,也即對未知數(shù)據(jù)樣本具有預測的能力。常見的有監(jiān)督學習分類算法有K近鄰、支持向量機、決策樹、隨機森林、梯度提升樹、XGBoost等。本文在實驗部分將使用以上幾種有監(jiān)督學習的分類算法。
1.3 數(shù)據(jù)增廣算法流程
本文數(shù)據(jù)增廣技術原理與SOMTE算法思想一致,區(qū)別在于傳統(tǒng)SOMTE算法只擴增少數(shù)類樣本,使少數(shù)類樣本數(shù)據(jù)與多數(shù)類樣本達到平衡,而本文數(shù)據(jù)增廣原理是指擴充所有樣本數(shù)據(jù),使得依據(jù)樣本訓練出來的模型達到精確度高、避免過擬合的效果。
(1)首先,對于數(shù)據(jù)集中每一行樣本記錄X,以歐氏距離為標準計算它到它所屬類別樣本集S中所有樣本的距離,取其中距離最近的K個樣本記錄,得到其k近鄰。
(2)其次,根據(jù)樣本數(shù)據(jù)集設置一個增廣比例以確定增廣倍率N,對于每一個類樣本記錄X,從其k近鄰的樣本中隨機選擇若干樣本,記選擇的近鄰樣本為XN。
(3)最后,對于每一個隨機選出的樣本XN,分別與原樣本按照式(1)構建新的樣本。
2 實驗與結果分析
2.1 數(shù)據(jù)集描述及預處理
為更好地驗證經過數(shù)據(jù)增廣的模型具有更高的準確率,本文選取兩個公開Benchmark的數(shù)據(jù)集,它們均來源于加州大學UCI公開數(shù)據(jù)庫,其中包括著名German、Australian兩個信用數(shù)據(jù)集,它們都是關于銀行信用卡個人用戶業(yè)務信息的數(shù)據(jù),如表1所示。
德國數(shù)據(jù)集共有樣本記錄1 000條,其中正類300,負類700,屬性數(shù)目共20個,其中數(shù)值型屬性7個,類別屬性13個。澳大利亞數(shù)據(jù)集共有樣本記錄690條,其中正類383,負類307,屬性數(shù)目共14個,其中數(shù)值型屬性8個,類別屬性6個。這兩個數(shù)據(jù)集的具體屬性信息如表2和表3所示,其中澳大利亞數(shù)據(jù)集公開貢獻者為了保護數(shù)據(jù)隱私,所有屬性名和值都被替換成一些沒有意義的變量。
在實際問題的數(shù)據(jù)集中經常會出現(xiàn)缺失值的情況,而缺失值往往也會導致模型的準確率不高,因此在訓練原始數(shù)據(jù)集之前,需要對原始數(shù)據(jù)樣本進行數(shù)據(jù)預處理。首先,對原始數(shù)據(jù)集中嚴重缺失數(shù)據(jù)的樣本記錄予以剔除,對部分缺失數(shù)值型樣本采用均值填充方法,對分類型變量部分缺失數(shù)值的樣本記錄采用眾數(shù)填充的方法;其次,對所有分類型變量的數(shù)據(jù)進行編碼,本文采用的是OneHot編碼;最后,對所有數(shù)值型數(shù)據(jù)進行規(guī)范化處理,本文對數(shù)據(jù)采取極差標準化,如式(2)所示,其中[X]代表某屬性原始數(shù)據(jù),[Xmin]代表某屬性數(shù)據(jù)的最小值,[Xmax]代表某屬性數(shù)據(jù)的最大值,[X*]代表標準化后某屬性的數(shù)據(jù)。
2.3 實驗結果
為了驗證經過數(shù)據(jù)增廣后的算法模型具有更好的性能,本文對德國個人信用數(shù)據(jù)集建立邏輯回歸、支持向量機、樸素貝葉斯、K近鄰、決策樹、隨機森林、極限梯度提升、梯度提升樹等8對算法模型,結果如表3所示。
由表3可以看出,在德國信用數(shù)據(jù)集上,除回歸(lr)、樸素貝葉斯(mnb)與數(shù)據(jù)增廣技術融合后的模型較原模型性能低外,其它6個融合模型都比原模型性能好,特別是k近鄰(knn)、決策樹(dtc)、隨機森林(rfc)、極限梯度提升(XGBoost)、梯度提升樹(GBDT)等融合后的模型在所有性能指標上都比原模型要高出不少,準確率平均高出6%左右。
由圖2可以看出,兩個ROC曲線凸出,也即在德國數(shù)據(jù)集上,經過與數(shù)據(jù)增廣技術融合的算法性能都得到了顯著提升。
3 結語
隨著機器學習深度學習算法的不斷發(fā)展,個人信用評分也得到了巨大發(fā)展,但是面對眾多算法模型,算法模型側的升級換代已成為個人信用評分研究領域發(fā)展的瓶頸。本文參考視覺和自然語言處理領域的數(shù)據(jù)增廣思想,提出了一種數(shù)據(jù)增廣技術與算法相融合的思路?;趦蓚€公開信用數(shù)據(jù)集,對比8組機器學習算法模型實驗,結果顯示,采用融合數(shù)據(jù)增廣技術的算法顯著提高了個人信用評分模型的預測準確率及其它相應性能指標。在下一步工作中,將對信用數(shù)據(jù)增廣技術進行改進,研究改進后的數(shù)據(jù)增廣技術與機器學習算法相融合,以進一步提高個人信用評分模型性能。
參考文獻:
[1] 石慶焱,靳云匯. 多種個人信用評分模型在中國應用的比較研究[J]. 統(tǒng)計研究,2004(6):43-47.
[2] 劉峙廷. 我國P2P網絡信貸風險評估研究[D]. 南寧:廣西大學,2013.
[3] 秦宛順. ?一個基于Logistic回歸的個人信用評分模型[C]. 中國數(shù)量經濟學會,2003.
[4] 李建平,徐偉宣,石勇. 基于主成分線性加權綜合評價的信用評分方法及應用[J]. 系統(tǒng)工程,2004(8):64-68.
[5] 金妍彥. ?遺傳規(guī)劃模型在我國個人信用評估中的應用研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2006.
[6] 徐少鋒. FISHER判別分析在個人信用評估中的應用[J]. 統(tǒng)計與決策,2006(2):133-135.
[7] 王靜,王延清,何德權. 基于多層前饋神經網絡的個人信用評分模型[J]. 經濟師,2004(12):20-21.
[8] 肖文兵,費奇,萬虎. 基于支持向量機的信用評估模型及風險評價[J]. 華中科技大學學報(自然科學版),2007(5):23-26.
[9] 蕭超武,蔡文學,黃曉宇,等. 基于隨機森林的個人信用評估模型研究及實證分析[J]. 管理現(xiàn)代化,2014,34(6):111-113.
[10] 朱兵,賀昌政,李慧媛. 基于遷移學習的客戶信用評估模型研究[J]. 運籌與管理,2015,24(2):201-207.
[11] 殷爽,姜明輝. 基于PSO的個人信用評估組合預測模型[J]. 經濟研究導刊,2008(14):83-86.
[12] 朱毅峰,孫亞南. 精煉決策樹模型在個人信用評估中的應用[J]. 統(tǒng)計教育,2008(1):5-7.
[13] 向暉,楊勝剛. 個人信用評分關鍵技術研究的新進展[J]. 財經理論與實踐,2011,32(4):20-24.
[14] 肖進,劉敦虎,顧新,等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學學報,2015,18(3):114-126.
[15] 陳力,黃艷瑩,游德創(chuàng). 一種基于Boosting的集成學習算法在銀行個人信用評級中的應用[J]. 價值工程,2017,36(18):170-172.
[16] 盧海濤,吳磊,周建云,等. 基于Faster R-CNN及數(shù)據(jù)增廣的滿文文檔印章檢測[J]. 大連民族大學學報,2018,20(5):455-459.
[17] 蔣夢瑩,林小竹,柯巖. 基于優(yōu)化分類的數(shù)據(jù)增廣方法[J]. 計算機工程與設計,2018,39(11):3559-3563.
[18] 王鈺清,陸文凱,劉金林,等. 基于數(shù)據(jù)增廣和CNN的地震隨機噪聲壓制[J]. 地球物理學報,2019,62(1):421-433.
(責任編輯:孫 娟)