盛靜文 于艷麗 江開忠
摘 要:針對(duì)傳統(tǒng)信用評(píng)價(jià)方法分類精度較低、數(shù)據(jù)集屬性變量間存在相關(guān)性等問題,提出基于主成分分析的稀疏貝葉斯學(xué)習(xí)(PCA-SBL)算法。首先對(duì)數(shù)據(jù)集特征變量進(jìn)行主成分分析,使降維后的變量無相關(guān)性;其次,對(duì)主成分分析后的數(shù)據(jù)進(jìn)行稀疏貝葉斯分類;最后將PCA-SBL分類方法分類精度與傳統(tǒng)分類方法精度進(jìn)行比較。分析發(fā)現(xiàn),在German Credit Data和Australian Credit Data上,與傳統(tǒng)KNN、樸素貝葉斯、SVM、隨機(jī)森林、決策樹相比,改進(jìn)的SBL算法分類精度平均提高了5.26%、4.65%、2.11%、2.125%、4.66%,與稀疏貝葉斯學(xué)習(xí)算法(SBL)相比,平均提高0.965%,從而證明PCA-SBL算法具有更高的分類效果。
關(guān)鍵詞:信用評(píng)價(jià);主成分分析;稀疏貝葉斯學(xué)習(xí);信用分類
DOI:10. 11907/rjdk. 192544 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)004-0113-04
Abstract: Aiming at the low classification accuracy of traditional credit evaluation methods and the correlation between data set attribute variables, this paper proposes a sparse Bayesian learning algorithm based on principal component analysis(PCA-SBL). Firstly, the principal component analysis of the characteristic variables of the data set is carried out, so that the variables have no correlation after dimensionality reduction. Secondly, the sparse Bayesian classification is performed on the data after principal component analysis. Finally, by comparing the classification accuracy of the PCA-SBL classification method with the accuracy of the traditional classification method, it is found that the improved SBL increases the classification accuracy by 5.26%,4.65%, 2.11%,2.125% and 4.66% averagely when compared with the traditional K-Nearest Neighbour (KNN),Naive Bayes,support vector machine, random forest and decision tree respectively on real-world German and Australian credit datasets. It also improves 0.965% averagely when compared with sparse Bayesian learning (SBL) algorithm. This proves that the proposed PCA-SBL algorithm has a higher classification effect.
Key Words: credit risk evaluation; principal component analysis; sparse Bayesian learning; credit classification
0 引言
當(dāng)今社會(huì)信用建設(shè)不斷發(fā)展,作為信用考核標(biāo)準(zhǔn)的個(gè)人信用評(píng)分越來越受到重視。2014年12月中國人民銀行征信中心推出了個(gè)人信用報(bào)告“數(shù)字解讀”,2015年年初阿里巴巴推出芝麻信用分后,其它不少擁有個(gè)人信用信息資源的政府部門和社會(huì)機(jī)構(gòu)也相繼推出了個(gè)人信用評(píng)分,并嘗試在一些場景中推廣應(yīng)用。個(gè)人信用評(píng)分的應(yīng)用已在我國社會(huì)和經(jīng)濟(jì)領(lǐng)域產(chǎn)生重要影響。與發(fā)達(dá)國家相比,我國個(gè)人征信體系建設(shè)起步較晚、基礎(chǔ)薄弱,但近年來發(fā)展速度顯著加快。信用評(píng)估隨之成為研究熱點(diǎn),目前常用的信用評(píng)估方法有:隨機(jī)森林[1]、神經(jīng)網(wǎng)絡(luò)[2]、K近鄰[3]、決策樹[4]、樸素貝葉斯[5]、支持向量機(jī)[6]等。但已有方法大多受理想化條件限制或只能輸出結(jié)果,無法細(xì)化評(píng)估過程[7]。常應(yīng)用于文本分類[8],主要有4種分類器,分別是Naive Bayes、TAN、BAN和GBN。其分類原理是在已知某對(duì)象先驗(yàn)概率的情況下, 通過貝葉斯公式計(jì)算其后驗(yàn)概率, 即該對(duì)象屬于某一類的概率, 選擇具備最大后驗(yàn)概率的類作為該對(duì)象所屬的類,確保分類精度較高。其中貝葉斯分類器是基于貝葉斯定理與特征獨(dú)立性假設(shè)的分類方法,在個(gè)人信用評(píng)估中的應(yīng)用較為常見[9]。
文獻(xiàn)[10]將樸素貝葉斯分類器、樹增強(qiáng)樸素貝葉斯分類器應(yīng)用于信用評(píng)估領(lǐng)域,并在兩個(gè)真實(shí)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,用貝葉斯方法進(jìn)行信用評(píng)價(jià)具有顯著的優(yōu)勢,且貝葉斯分類器克服了神經(jīng)網(wǎng)絡(luò)分類結(jié)果難以解釋的缺陷;文獻(xiàn)[11]在信用評(píng)估領(lǐng)域運(yùn)用3種樸素貝葉斯分類器,并比較其分類精度,發(fā)現(xiàn)樸素貝葉斯在信用評(píng)估中具有分類優(yōu)勢。但是文章中對(duì)屬性采取的是靜態(tài)離散化方法,但為充分利用屬性信息必須使用動(dòng)態(tài)離散化方法;文獻(xiàn)[12]提出由于貝葉斯網(wǎng)絡(luò)分類器具有同時(shí)處理定性屬性與定量屬性的能力,從風(fēng)險(xiǎn)代價(jià)角度出發(fā),驗(yàn)證了基于MOR的貝葉斯網(wǎng)絡(luò)分類模型在減小信用評(píng)估風(fēng)險(xiǎn)方面顯著有效;文獻(xiàn)[13]提出了一種基于最大后驗(yàn)概率熵的最優(yōu)樸素貝葉斯分類器,并將其用于個(gè)人信用預(yù)測,結(jié)果表明,該分類器預(yù)測準(zhǔn)確率高于樸素貝葉斯分類器,且比支持向量機(jī)效率高;文獻(xiàn)[14]指出傳統(tǒng)信用評(píng)估方法分類精度低,可解釋性差,所以將最近幾年較流行的 “稀疏學(xué)習(xí)”應(yīng)用到信用評(píng)估中,提出基于SBL的個(gè)人信用評(píng)估模型。為解決稀疏貝葉斯受到理想化條件限制的問題,在進(jìn)行稀疏貝葉斯之前進(jìn)行主成分分析,以保持變量間獨(dú)立性。