周 穎,蘇小婷
(大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116024)
信用風(fēng)險(xiǎn)預(yù)測(cè)是指構(gòu)建企業(yè)歷史數(shù)據(jù)與違約狀態(tài)之間的對(duì)應(yīng)關(guān)系,揭示企業(yè)的經(jīng)營(yíng)發(fā)展?fàn)顩r,進(jìn)而對(duì)企業(yè)在未來是否會(huì)發(fā)生違約做出預(yù)判。信用風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果不僅能為商業(yè)銀行提供重要的貸款決策依據(jù),而且能幫助在股票市場(chǎng)、債券上的投資者做出正確的投資決策。
上市公司是中國(guó)國(guó)民經(jīng)濟(jì)發(fā)展的關(guān)鍵。據(jù)Wind數(shù)據(jù)庫統(tǒng)計(jì),截至2019年前三季度,中國(guó)A股上市公司總營(yíng)收達(dá)36 萬億元,同比增長(zhǎng)9.54%,占GDP比重突破50%。與此同時(shí),出現(xiàn)財(cái)務(wù)虧損被證監(jiān)會(huì)特別處理(ST)的上市公司數(shù)量也在持續(xù)上升,2019 年內(nèi)共有86 家公司被實(shí)施ST,18家公司退市。這一數(shù)據(jù)也暴露出中國(guó)上市公司規(guī)模在不斷擴(kuò)張的同時(shí),也存在嚴(yán)重的信用風(fēng)險(xiǎn)問題。因此,建立有效的信用風(fēng)險(xiǎn)預(yù)測(cè)模型顯得極為重要。
建立信用風(fēng)險(xiǎn)預(yù)測(cè)模型主要涉及兩個(gè)問題:①信用風(fēng)險(xiǎn)預(yù)測(cè)模型中指標(biāo)組合的遴選。與企業(yè)信用狀態(tài)相關(guān)聯(lián)的指標(biāo)眾多,不同的指標(biāo)組合違約鑒別能力不同,有必要尋找一個(gè)違約鑒別能力最強(qiáng)的指標(biāo)組合,最大限度地區(qū)分違約客戶和非違約客戶。②非平衡樣本的處理。上市公司信用數(shù)據(jù)庫中違約客戶(ST)的數(shù)量遠(yuǎn)小于非違約客戶(非ST)的數(shù)量,屬于不平衡樣本。在利用不平衡樣本建模時(shí),會(huì)導(dǎo)致模型對(duì)違約客戶的判對(duì)率下降,第2類錯(cuò)誤(Type-II error)上升,進(jìn)而降低模型整體的預(yù)測(cè)精度。在信用違約預(yù)測(cè)中第2類錯(cuò)誤是指將違約客戶誤判為非違約客戶,若銀行錯(cuò)誤識(shí)別上市公司的信用狀況,將貸款發(fā)放給違約客戶,銀行將面臨客戶無法償還貸款帶來的巨大損失。
本文最優(yōu)指標(biāo)組合的遴選與文獻(xiàn)[1]中的研究相似。與文獻(xiàn)[1]的差別主要有兩點(diǎn):①研究問題不同。文獻(xiàn)[1]中研究的是腦電信號(hào)的處理,本文研究的是信用風(fēng)險(xiǎn)預(yù)測(cè)。本文將近鄰成分分析引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選。②指標(biāo)重要性的判別標(biāo)準(zhǔn)不同。文獻(xiàn)[1]中取指標(biāo)權(quán)重閾值T=τmax(w),τ=0.02作為指標(biāo)重要性的判別標(biāo)準(zhǔn),通過剔除指標(biāo)權(quán)重小于閾值T的指標(biāo)構(gòu)建指標(biāo)組合。本文將τ分別設(shè)置為0.2,0.02,0.002,…,2×10-8,得到8個(gè)不同的指標(biāo)組合,以指標(biāo)組合的違約鑒別能力AUC最大反推指標(biāo)重要性的判別標(biāo)準(zhǔn)τ和最優(yōu)指標(biāo)組合。
本文隨機(jī)欠采樣樣本配比與文獻(xiàn)[2]中的研究相仿。與文獻(xiàn)[2]的區(qū)別在于,文獻(xiàn)[2]中根據(jù)經(jīng)驗(yàn)將違約客戶與非違約客戶的比例設(shè)置為1∶2.5,1∶5,1∶10。本文遍歷違約客戶與非違約客戶的所有可能的樣本比例,以G-mean最大反推違約預(yù)測(cè)模型中兩類客戶的最佳配比。改變了隨機(jī)欠采樣中主觀確定采樣比例的不合理做法。
本文的貢獻(xiàn)有:
(1)首次將近鄰成分分析引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選。在近鄰成分分析算法中根據(jù)違約判別準(zhǔn)確率最大得到馬氏距離中的指標(biāo)權(quán)重向量,以基于馬氏距離的K-近鄰的違約判別誤差MSE最小為目標(biāo),確定最優(yōu)指標(biāo)權(quán)重向量;給定一個(gè)指標(biāo)權(quán)重閾值通過剔除權(quán)重小于閾值的指標(biāo)得到一個(gè)指標(biāo)組合,給定不同的指標(biāo)權(quán)重閾值得到不同的指標(biāo)組合,以指標(biāo)組合的違約判別精度AUC 最大反推最優(yōu)的指標(biāo)組合。拓展了信用風(fēng)險(xiǎn)領(lǐng)域指標(biāo)組合遴選的新思路。
(2)利用隨機(jī)欠采樣將違約客戶與非違約客戶組成不同比例的樣本,以基于線性支持向量機(jī)的違約預(yù)測(cè)精度G-mean最大為標(biāo)準(zhǔn)反推違約客戶與非違約客戶的最佳比例,以確定最優(yōu)的訓(xùn)練樣本。
(3)通過t-m年的指標(biāo)數(shù)據(jù)xt-m和t年的企業(yè)違約狀態(tài)yt,利用最優(yōu)指標(biāo)組合和最優(yōu)訓(xùn)練樣本建立了支持向量機(jī)模型,達(dá)到了運(yùn)用t年的數(shù)據(jù)xt預(yù)測(cè)第t+m年企業(yè)違約狀態(tài)yt+m的預(yù)測(cè)效果。
(4)研究結(jié)果表明,本文的違約預(yù)測(cè)模型的精度高于非線性SVM、LR、DT、KNN 和LDA 等典型的大數(shù)據(jù)預(yù)測(cè)模型。
研究表明:每股收益EPS-扣除/稀釋、貨幣供應(yīng)量M0(億元)和貨幣供應(yīng)量M1(億元)3個(gè)指標(biāo)對(duì)企業(yè)未來1~3年的短期違約狀態(tài)具有關(guān)鍵影響;當(dāng)日總市值/負(fù)債總計(jì)、每股EBITDA 和固定資產(chǎn)周轉(zhuǎn)率3個(gè)指標(biāo)對(duì)企業(yè)未來4~5年的長(zhǎng)期違約狀態(tài)具有關(guān)鍵影響;經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/經(jīng)營(yíng)活動(dòng)凈收益和審計(jì)意見類型2個(gè)指標(biāo),不論對(duì)于企業(yè)未來1~3年的短期、還是未來4~5年的長(zhǎng)期違約狀態(tài),均有關(guān)鍵影響。
(1)單指標(biāo)?,F(xiàn)有研究大多為單指標(biāo)遴選,Song等[3]通過fisher判別分析和F值對(duì)指標(biāo)重要性進(jìn)行排序,刪除所有不重要指標(biāo),降低了計(jì)算成本。Gunduz等[4]提出平衡互信息(BMI)方法檢測(cè)指標(biāo)之間的非線性相關(guān)關(guān)系,進(jìn)而剔除冗余指標(biāo)。Lin等[5]在預(yù)測(cè)P2P 貸款違約時(shí),使用RFE 方法篩選貸款違約行為變量。Gartner等[6]采用信息熵篩選具有鑒別能力的指標(biāo)。Abbasi等[7]發(fā)現(xiàn),添加行業(yè)類指標(biāo)能顯著提高違約預(yù)測(cè)模型的精度。周穎等[8]通過構(gòu)造Brown-Mood中位數(shù)檢驗(yàn)統(tǒng)計(jì)量值的方法遴選出違約鑒別力顯著的指標(biāo)。Raghu等[1]通過剔除權(quán)重小于閾值的指標(biāo)構(gòu)建指標(biāo)體系。
(2)指標(biāo)組合。Kozodoi等[9]以利潤(rùn)最大化和指標(biāo)數(shù)量最少為目標(biāo)函數(shù)構(gòu)建指標(biāo)體系。葛興浪等[10]根據(jù)企業(yè)各類指標(biāo)的偏相關(guān)系數(shù)和有序Probit回歸系數(shù)構(gòu)建Wald統(tǒng)計(jì)量進(jìn)行指標(biāo)體系的遴選。Uthayakumar等[11]利用蟻群優(yōu)化算法構(gòu)建信用風(fēng)險(xiǎn)預(yù)測(cè)的最優(yōu)指標(biāo)組合。Ping等[12]不斷向指標(biāo)組合中添加指標(biāo),通過指標(biāo)群依賴度的變化量來反映所添加指標(biāo)的重要性,剔除重要性為零的指標(biāo),最終構(gòu)建信用評(píng)價(jià)指標(biāo)體系。石寶峰等[13]通過Logistic回歸顯著性判別遴選對(duì)農(nóng)戶違約狀態(tài)影響顯著的指標(biāo),建立了由年齡、非農(nóng)收入/總收入等13個(gè)指標(biāo)組成的農(nóng)戶小額貸款信用評(píng)級(jí)指標(biāo)體系。Jadhav等[14]提出了一種由信息增益和遺傳算法相結(jié)合的新方法篩選信用評(píng)價(jià)指標(biāo)體系。Oreski等[15]基于神經(jīng)網(wǎng)絡(luò)和遺傳算法篩選出一個(gè)包含12個(gè)指標(biāo)的信用評(píng)價(jià)體系。
單指標(biāo)遴選的弊端是單個(gè)指標(biāo)違約鑒別能力強(qiáng),組成的指標(biāo)組合違約鑒別能力不一定強(qiáng)?,F(xiàn)有研究關(guān)于指標(biāo)組合遴選的弊端在于沒有以指標(biāo)組合的違約判別精度最大為標(biāo)準(zhǔn)構(gòu)建指標(biāo)體系。本文首次將近鄰成分分析(NCA)引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選,以指標(biāo)組合的違約預(yù)測(cè)精度AUC最大反推最優(yōu)的指標(biāo)組合。彌補(bǔ)了現(xiàn)有研究忽略指標(biāo)組合整體違約鑒別能力的弊端,拓展了信用風(fēng)險(xiǎn)領(lǐng)域指標(biāo)組合遴選的新思路。
傳統(tǒng)的欠采樣方法是隨機(jī)在多數(shù)類樣本中抽取一定數(shù)量的樣本與少數(shù)類樣本組成比例為1∶1的平衡樣本[16-18],但是傳統(tǒng)的欠采樣方法會(huì)丟棄大量數(shù)據(jù)和重要信息,導(dǎo)致模型過擬合。Louzada等[19]基于Logistic回歸研究巴西銀行客戶的信用風(fēng)險(xiǎn)問題,發(fā)現(xiàn)利用隨機(jī)欠采樣獲取的平衡樣本能顯著提高先用評(píng)估模型的效果。Jian等[20]對(duì)重要違約樣本采用過采樣方法生成新違約樣本,對(duì)不重要非違約樣本采用欠采樣方法剔除非違約樣本。Perols等[21]在預(yù)測(cè)公司欺詐時(shí),將多數(shù)類樣本劃分5個(gè)準(zhǔn)則層,在每個(gè)準(zhǔn)則層中隨機(jī)抽取樣本與少數(shù)類樣本組合,解決了樣本的非平衡問題。Dubey等[22]采用K-Medoids欠采樣技術(shù)對(duì)多數(shù)類樣本聚類,將聚類后的樣本與少數(shù)類樣本組成平衡樣本。Paleologo等[23]將非平衡的原始數(shù)據(jù)集分為若干個(gè)子數(shù)據(jù)集,并通過改變每個(gè)子數(shù)據(jù)集中違約和非違約兩類樣本的比例進(jìn)行比較分析。
本文利用隨機(jī)欠采樣技術(shù)在非違約客戶中抽取樣本,將違約客戶與非違約客戶組成比例為1∶1,1∶2,1∶3,1∶4,1∶5,1∶6的樣本,以基于支持向量機(jī)的違約預(yù)測(cè)精度G-mean最大反推違約客戶與非違約客戶的比例。
不少學(xué)者利用支持向量機(jī)建立信用風(fēng)險(xiǎn)預(yù)測(cè)模型,并取得了較高的預(yù)測(cè)精度[24-26]。Schebesch等[27]對(duì)比了線性和非線性支持向量機(jī)的違約判別效果,發(fā)現(xiàn)非線性支持向量機(jī)在實(shí)際應(yīng)用中并沒有表現(xiàn)出優(yōu)勢(shì)。Kim 等[28]考慮企業(yè)財(cái)務(wù)指標(biāo)、宏觀經(jīng)濟(jì)條件和企業(yè)管理水平等因素構(gòu)建支持向量機(jī)模型,為韓國(guó)中小企業(yè)提供信用風(fēng)險(xiǎn)評(píng)估模型。Danenas等[29]利用粒子群優(yōu)化選取最優(yōu)的線性支持向量機(jī)的懲罰系數(shù)C,進(jìn)而構(gòu)建有效的信用評(píng)估模型。Maldonado等[30]將利潤(rùn)函數(shù)納入支持向量機(jī)模型,構(gòu)建智利銀行的信用評(píng)分系統(tǒng)。
現(xiàn)有研究大多證實(shí)了在大型數(shù)據(jù)庫中線性支持向量機(jī)的分類效果不會(huì)低于非線性支持向量機(jī)[31-32]。線性支持向量機(jī)能夠輸出每個(gè)指標(biāo)的權(quán)重,具有較好的可解釋性,同時(shí),與非線性支持向量機(jī)相比,線性支持向量機(jī)復(fù)雜度更低、運(yùn)算速度更快。因此,本文選用線性支持向量機(jī)作為最終的信用風(fēng)險(xiǎn)預(yù)測(cè)模型。
在原始樣本中構(gòu)建最優(yōu)指標(biāo)體系。
2.1.1 基于偏相關(guān)性分析的第1次指標(biāo)篩選
步驟1同一準(zhǔn)則層指標(biāo)相關(guān)系數(shù)rhg的計(jì)算。
設(shè)rhg為第h個(gè)指標(biāo)與第g個(gè)指標(biāo)的相關(guān)系數(shù),xhj為第h個(gè)指標(biāo)第j個(gè)客戶的指標(biāo)數(shù)據(jù)為第h個(gè)指標(biāo)的平均值,xgj為第g個(gè)指標(biāo)第j個(gè)客戶的指標(biāo)數(shù)據(jù)為第g個(gè)指標(biāo)的平均值。則指標(biāo)h和指標(biāo)g的相關(guān)系數(shù)為[32]
式(1)中,第h個(gè)指標(biāo)與第g個(gè)指標(biāo)的相關(guān)系數(shù)越大,表明第h個(gè)指標(biāo)與第g個(gè)指標(biāo)的相關(guān)性越強(qiáng);反之,相關(guān)性越弱。
設(shè)R為指標(biāo)h與指標(biāo)g之間的相關(guān)系數(shù)rhg組成的q×q矩陣,q為準(zhǔn)則層內(nèi)指標(biāo)的個(gè)數(shù)。則[33]
R的逆矩陣記為
則指標(biāo)h與指標(biāo)g之間的偏相關(guān)系數(shù)為[32]
式(4)中,指標(biāo)h與指標(biāo)g之間的偏相關(guān)系數(shù)prhg越大,表明指標(biāo)h與指標(biāo)g之間的相關(guān)性越強(qiáng);反之,相關(guān)性越弱。
步驟2F值的計(jì)算。
設(shè)Fh為第h個(gè)指標(biāo)的F值為非違約客戶中第h個(gè)指標(biāo)的均值為違約客戶中第h個(gè)指標(biāo)的均值為全部客戶中第h個(gè)指標(biāo)的均值,n(0)為非違約客戶的個(gè)數(shù),n(1)為違約客戶的個(gè)數(shù),xhj為第h個(gè)指標(biāo)第j個(gè)客戶的指標(biāo)數(shù)據(jù),n為客戶總數(shù)。則[33]
式(5)的經(jīng)濟(jì)學(xué)含義:式(5)等號(hào)右邊的分子第1項(xiàng)是第h個(gè)指標(biāo)中非違約客戶的均值與所有客戶均值的距離,分子第2項(xiàng)是第h個(gè)指標(biāo)中違約客戶與所有客戶均值的距離。整個(gè)分子表示第h個(gè)指標(biāo)中違約客戶均值、非違約客戶均值與全部客戶均值的距離,反映違約客戶與非違約客戶的差異。分子越大、差異越大,表明第h個(gè)指標(biāo)越能區(qū)分企業(yè)的違約狀態(tài)。分母中第1項(xiàng)是第h個(gè)指標(biāo)中非違約客戶與非違約客戶均值的方差,第2項(xiàng)是第h個(gè)指標(biāo)中違約客戶與違約客戶均值的方差,整個(gè)分母是第h個(gè)指標(biāo)中違約客戶內(nèi)的方差與非違約客戶內(nèi)的方差之和,反映了違約客戶、非違約客戶各自的離散程度,離散程度越小,表明違約客戶、非違約客戶內(nèi)部的指標(biāo)特征越集中。式(5)中的Fh表示第h個(gè)指標(biāo)的違約鑒別能力,Fh越大,表明指標(biāo)h的違約鑒別能力越強(qiáng);反之,越弱。
偏相關(guān)性分析是在控制其他變量的線性影響的條件下分析兩變量間的線性相關(guān)性。避免了當(dāng)?shù)?個(gè)指標(biāo)同時(shí)影響兩個(gè)指標(biāo)時(shí),相關(guān)性分析不能如實(shí)反映兩個(gè)指標(biāo)間相關(guān)程度的弊端。
步驟3基于偏相關(guān)性分析篩選指標(biāo)的標(biāo)準(zhǔn)。
基于偏相關(guān)性分析進(jìn)行第1次指標(biāo)篩選有兩個(gè)標(biāo)準(zhǔn):①保留具有經(jīng)濟(jì)學(xué)含義的指標(biāo)。②在標(biāo)準(zhǔn)①的基礎(chǔ)上,計(jì)算任意兩個(gè)指標(biāo)的偏相關(guān)系數(shù),若兩個(gè)指標(biāo)的偏相關(guān)系數(shù)大于0.8,說明這兩個(gè)指標(biāo)高度相關(guān),刪除F值較小的指標(biāo);若兩個(gè)高度相關(guān)的指標(biāo)均具有較強(qiáng)的經(jīng)濟(jì)學(xué)含義,則兩個(gè)指標(biāo)均保留。
2.1.2 基于近鄰成分分析的第2次指標(biāo)篩選
步驟4定義馬氏距離公式。
設(shè)dw(xj,xz)為客戶j與客戶z的距離,s為經(jīng)過第1次指標(biāo)篩選后剩余的指標(biāo)個(gè)數(shù),wi為第i個(gè)指標(biāo)的權(quán)重,xij為第i個(gè)指標(biāo)第j個(gè)客戶的指標(biāo)數(shù)據(jù),xiz為第i個(gè)指標(biāo)第z個(gè)客戶的指標(biāo)數(shù)據(jù)。則[1]
式(6)的經(jīng)濟(jì)學(xué)含義:客戶i與客戶z的馬氏距離越小,表明兩個(gè)客戶的違約狀態(tài)越可能相同。保證了違約狀態(tài)相同的客戶之間距離較小,違約狀態(tài)不同的客戶之間距離較大。
步驟5客戶i與客戶z相似概率的確定。
考慮一個(gè)隨機(jī)分類準(zhǔn)則:存在一個(gè)由n個(gè)客戶組成的樣本,對(duì)于其中一個(gè)客戶j,可以在除自身之外的n-1 個(gè)客戶中隨機(jī)選取一個(gè)客戶作為參考點(diǎn),以參考點(diǎn)的違約狀態(tài)判別客戶j的違約狀態(tài)。
設(shè)pjz(w)為客戶j與客戶z的相似概率,由于客戶j選擇客戶z作為參考點(diǎn),客戶j以客戶z的違約狀態(tài)作為客戶j自身違約狀態(tài)的理論標(biāo)識(shí),故亦可稱pjz(w)為客戶j選擇客戶z作為參考點(diǎn)的概率。dw(xj,xz)為客戶j、z之間的馬氏距離,n為客戶總數(shù)。則[1]
式(7)中的分子是客戶j、z距離的函數(shù),分母是客戶j與剩余n-1個(gè)客戶距離函數(shù)的和。式(7)是以距離衡量的概率,當(dāng)客戶j、z之間的距離越小時(shí),違約狀態(tài)的相似概率越大,客戶z被客戶j選為參考點(diǎn)的概率Pjz越大。式(7)表示兩個(gè)客戶違約狀態(tài)相似性的度量。
當(dāng)客戶j的實(shí)際違約狀態(tài)與參考點(diǎn)z的違約狀態(tài)相同時(shí),則客戶j的違約狀態(tài)通過客戶z被判對(duì);當(dāng)客戶j的實(shí)際違約狀態(tài)與參考點(diǎn)z的違約狀態(tài)不同時(shí),則客戶j的違約狀態(tài)通過客戶z被判錯(cuò)。在n個(gè)客戶中,任意兩個(gè)客戶都可以計(jì)算其相似程度,故該相似程度pjz(w)共有n個(gè)里邊取2的組合,即pjz(w)共有個(gè)。對(duì)于任意兩個(gè)客戶的指標(biāo)數(shù)據(jù)xij和xiz,都可以得到相似度pjz(w)。
步驟6客戶j與其他全部n-1個(gè)客戶相似性的總和。
設(shè)pj(w)為客戶j的違約狀態(tài)通過隨機(jī)分類準(zhǔn)則被判對(duì)的概率,n為客戶總數(shù),pjz(w)為客戶j選擇客戶z作為參考點(diǎn)的概率,yj為客戶j實(shí)際的違約狀態(tài),yz為客戶z實(shí)際的違約狀態(tài)。則[1]
式(9)表示當(dāng)客戶j實(shí)際的違約狀態(tài)yj與客戶z實(shí)際的違約狀態(tài)yz相同時(shí),yjz=1;否則,yjz=0。式(8)是兩個(gè)客戶相似概率pjz(w)的代數(shù)和,即式(8)為第j個(gè)客戶與其他全部客戶相似的概率pj(w)。概率pj(w)越大,則說明第j個(gè)客戶與其他全部客戶的違約狀態(tài)越一致,此時(shí)用其他全部客戶的違約狀態(tài)來判斷客戶j的違約狀態(tài)就越合適。式(8)與式(7)不同,式(7)是客戶j通過參考點(diǎn)z將自己的違約狀態(tài)判對(duì)的概率,式(8)是客戶j通過其他全部客戶將自己的違約狀態(tài)判對(duì)的概率pj(w),j=1,2,…,n。
步驟7目標(biāo)函數(shù)F(w)的構(gòu)建。
設(shè)F(w)為目標(biāo)函數(shù),n為客戶總數(shù),pj(w)為客戶j通過除自身之外的n-1個(gè)客戶將自己的違約狀態(tài)判對(duì)的概率。λ為可調(diào)節(jié)參數(shù),s為第1次指標(biāo)篩選后剩余的指標(biāo)個(gè)數(shù),wi為第i個(gè)指標(biāo)的權(quán)重。則[1]
步驟8λ=λ(1)時(shí)指標(biāo)權(quán)重向量的確定。
式(10)第1項(xiàng)是式(8)的表達(dá)式,而式(8)的表達(dá)式是用式(7)計(jì)算的,式(7)的距離函數(shù)又是由式(6)表達(dá)的。由于式(6)是權(quán)重向量w的函數(shù),故式(10)第1項(xiàng)是權(quán)重向量w的函數(shù),式(10)第2項(xiàng)是w的顯函數(shù)。因此,式(10)中F(w)是權(quán)重向量w的函數(shù)。當(dāng)λ為常數(shù)時(shí),通過式(10)最大可以得到一組權(quán)重向量。
本文從0 開始,以1/n(n為訓(xùn)練集中樣本個(gè)數(shù),n=2 397)為步長(zhǎng)選取50 個(gè)點(diǎn)作為λ的候選值。當(dāng)λ=λ(1)時(shí),λ(1)為常數(shù),給定一個(gè)權(quán)重向量w1,1,得到一個(gè)目標(biāo)函數(shù)F(w1,1)。給定第l個(gè)權(quán)重向量,得到第l個(gè)目標(biāo)函數(shù)F(w1,l),l=1,2,…,100。比較這100個(gè)目標(biāo)函數(shù)值F(w1,l),l=1,2,…,100。F(w)最大所對(duì)應(yīng)的權(quán)重向量,即λ=λ(1)時(shí)的最優(yōu)權(quán)重向量
步驟9λ=λ(k)時(shí)指標(biāo)權(quán)重向量的確定。
在步驟8中已經(jīng)得到λ=λ(1)時(shí)的最優(yōu)權(quán)重向量,重復(fù)步驟8,可以得到λ=λ(k),k=2,3,…,50時(shí)的最優(yōu)指標(biāo)權(quán)重向量
步驟10第k個(gè)距離表達(dá)式d(k)的確定。
將步驟8、9中得到的50個(gè)指標(biāo)權(quán)重向量
代入式(6),得到50 個(gè)距離表達(dá)式d(1),d(2),…,d(50),如下式所示:
步驟11第1個(gè)客戶違約狀態(tài)的確定。
取步驟10中式(11a)計(jì)算第1個(gè)客戶與任意客戶之間的馬氏距離,選取與第1個(gè)客戶距離最小的客戶的違約狀態(tài)作為第1個(gè)客戶的違約狀態(tài)的預(yù)測(cè)值,若與第1個(gè)客戶距離最近的客戶的違約狀態(tài)是非違約,則第1 個(gè)客戶的違約狀態(tài)的預(yù)測(cè)值=0;若與第1個(gè)客戶距離最近的客戶的違約狀態(tài)是違約,則。將第1個(gè)客戶的違約狀態(tài)預(yù)測(cè)結(jié)果列入步驟12式(12a)等式右端第1列。
同理,取步驟10 中其他49 個(gè)表達(dá)式(11b)~(11n),運(yùn)用剩余49個(gè)距離表達(dá)式得到第1個(gè)客戶的違約狀態(tài)預(yù)測(cè)值,列入下文等式(12a)右端后49列。由此可得到第1個(gè)客戶在50個(gè)距離表達(dá)式d(1),d(2),…,d(50)下的違約狀態(tài)預(yù)測(cè)值,如下式所示。
步驟12第j個(gè)客戶違約狀態(tài)的確定。
仿照步驟11,可以得到第j個(gè)客戶(j=1,2,…,n)在50 個(gè)距離表達(dá)式下的違約狀態(tài)預(yù)測(cè)值。全部n個(gè)客戶在50個(gè)距離表達(dá)式下違約狀態(tài)的預(yù)測(cè)值為:
步驟13第1個(gè)距離表達(dá)式d(1)下違約判別誤差MSE(1)的確定。
式(12a)~(12n)可以構(gòu)成一個(gè)n×50的矩陣,將矩陣中第1列n個(gè)客戶在第1個(gè)距離表達(dá)式下的違約狀態(tài)的預(yù)測(cè)值代入下式,得到違約判別誤差為[1]
矩陣中的第1列是在第1個(gè)距離表達(dá)式d(1)下得到的n個(gè)客戶的違約狀態(tài)預(yù)測(cè)值。因此,MSE(1)就是在第1個(gè)距離表達(dá)式d(1)下得到的全部客戶的違約判別誤差。即步驟8中取第1個(gè)指標(biāo)權(quán)重向量時(shí)得到的全部客戶的違約判別誤差。
步驟14在第k個(gè)距離表達(dá)式下違約判別誤差MSE(k)的確定。
重復(fù)步驟13,依次將式(12)構(gòu)成的n×50矩陣中的第2列,3列,…,50列代入式(13),得到在第k個(gè)距離表達(dá)式下的全部客戶的違約判別誤差MSE(k)(k=1,2,…,50),故可得到由50個(gè)MSE 構(gòu)成的向量MSE=(MSE(1),MSE(2),…,MSE(50))。
步驟15最優(yōu)指標(biāo)權(quán)重向量w*的確定。
取向量MSE 中最小的一個(gè)違約判別誤差MSE*=min(MSE),最小的違約判別誤差MSE*對(duì)應(yīng)的指標(biāo)權(quán)重向量w*=就是最優(yōu)的權(quán)重向量。
步驟16第1個(gè)指標(biāo)組合D1及指標(biāo)組合D1的違約預(yù)測(cè)精度AUC1的確定。
取τ1=0.2,則指標(biāo)權(quán)重的臨界點(diǎn)[1]T1=τ1max(w*)=0.2max(w*),T1為常數(shù),對(duì)比T1和步驟15中得到的每個(gè)指標(biāo)的權(quán)重權(quán)重大于臨界點(diǎn)T1的重要指標(biāo)即構(gòu)成了一個(gè)指標(biāo)組合D1。將訓(xùn)練集中n個(gè)客戶對(duì)應(yīng)指標(biāo)組合D1中的指標(biāo)數(shù)據(jù)xij和實(shí)際違約狀態(tài)yj代入下文式(14)~(16),構(gòu)建線性支持向量機(jī)模型。對(duì)訓(xùn)練集上客戶的違約狀態(tài)進(jìn)行判別,得到客戶的違約狀態(tài)預(yù)測(cè)值,根據(jù)客戶違約狀態(tài)的實(shí)際值yj和預(yù)測(cè)值計(jì)算線性支持向量機(jī)的違約判別精度AUC1。
步驟17其他指標(biāo)組合及違約預(yù)測(cè)精度的確定。
依次 取τ2=0.02,τ3=0.002,…,τ8=2×10-8(見表7),則指標(biāo)權(quán)重的臨界點(diǎn)
重復(fù)步驟16,得到另外7 個(gè)指標(biāo)組合D2,D3,…,D8及7 個(gè)指標(biāo)組合的違約預(yù)測(cè)精度AUC2,AUC3,…,AUC8。
步驟18最優(yōu)指標(biāo)組合D*的確定。
比較步驟16、17中得到的8個(gè)AUC,AUC 最大所對(duì)應(yīng)的指標(biāo)組合即為最優(yōu)的指標(biāo)組合D*。以下文t-1年實(shí)證為例,AUC 最大對(duì)應(yīng)的最優(yōu)指標(biāo)組合由表8前22行指標(biāo)構(gòu)成。
本文利用近鄰成分分析篩選指標(biāo)與文獻(xiàn)[1]主要存在兩點(diǎn)差別:①研究問題不同。文獻(xiàn)[1]中研究的是腦電信號(hào)的處理,本文研究的是信用風(fēng)險(xiǎn)預(yù)測(cè)。本文首次將近鄰成分分析引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選。②指標(biāo)重要性的判別標(biāo)準(zhǔn)不同。文獻(xiàn)[1]中取指標(biāo)權(quán)重閾值T=τmax(w),τ=0.02作為指標(biāo)重要性的判別標(biāo)準(zhǔn),通過剔除指標(biāo)權(quán)重小于閾值T的指標(biāo)構(gòu)建指標(biāo)組合。本文將τ分別設(shè)置為0.2,0.02,0.002,…,2×10-8,得到8 個(gè)不同的指標(biāo)組合,以指標(biāo)組合的違約鑒別能力AUC 最大反推指標(biāo)重要性的判別標(biāo)準(zhǔn)τ和最優(yōu)指標(biāo)組合。保證了指標(biāo)組合整體的違約鑒別能力。
步驟4~8最優(yōu)指標(biāo)組合遴選的特色在于:首次將近鄰成分分析引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選,在近鄰成分分析算法中根據(jù)違約判別準(zhǔn)確率最大得到馬氏距離中的指標(biāo)權(quán)重向量,以基于馬氏距離的K-近鄰的違約判別誤差MSE 最小為目標(biāo),確定最優(yōu)指標(biāo)權(quán)重向量;給定一個(gè)指標(biāo)權(quán)重閾值、并通過剔除權(quán)重小于閾值的指標(biāo)得到一個(gè)指標(biāo)組合,給定不同的指標(biāo)權(quán)重閾值得到不同的指標(biāo)組合,以指標(biāo)組合的違約判別精度AUC 最大反推最優(yōu)的指標(biāo)組合。拓展了信用風(fēng)險(xiǎn)領(lǐng)域指標(biāo)組合遴選的新思路。
本文在指標(biāo)組合遴選中未對(duì)樣本比例進(jìn)行處理,樣本比例的處理僅在指標(biāo)組合遴選后建立違約預(yù)測(cè)模型時(shí)用到。
中國(guó)上市公司中違約樣本數(shù)量與非違約樣本數(shù)量的原始比例大概為1∶6.2,屬于非平衡樣本。本文以隨機(jī)欠采樣為基礎(chǔ)處理非平衡樣本。通常隨機(jī)欠采樣是從非違約客戶中隨機(jī)抽取與違約客戶數(shù)量相同的非違約客戶,使之構(gòu)成1∶1的平衡樣本。對(duì)非違約客戶進(jìn)行多次采樣,將全部違約客戶與采樣后的非違約客戶分別組成比例為1∶1、1∶2、1∶3、1∶4、1∶5和1∶6共6組采樣后的樣本。
以下文實(shí)證數(shù)據(jù)為例,將訓(xùn)練集中全部333個(gè)違約客戶與訓(xùn)練集中隨機(jī)抽取的333個(gè)非違約客戶組成樣本比例為1∶1的訓(xùn)練子樣本。同理,將訓(xùn)練樣本中全部333個(gè)違約客戶分別與在訓(xùn)練樣本中隨機(jī)抽取的666,999,1 332,1 665,1 998個(gè)非違約客戶組成樣本比例為1∶2,1∶3,1∶4,1∶5,1∶6的訓(xùn)練子樣本Q1,Q2,Q3,Q4,Q5,Q6。6組訓(xùn)練樣本如表1所示。
表1 違約客戶與非違約客戶構(gòu)成的6組訓(xùn)練樣本
根據(jù)Q1,Q2,…,Q6共6組訓(xùn)練樣本,采用3.3節(jié)的線性支持向量機(jī)模型建立6個(gè)違約預(yù)測(cè)模型,得到6個(gè)違約預(yù)測(cè)精度G-mean,以G-mean最大反推違約預(yù)測(cè)模型中兩類客戶的最佳配比。
本文處理非平衡樣本與現(xiàn)有研究的差別在于:現(xiàn)有研究[34,35]將非違約公司與違約公司的比率設(shè)定為1∶1研究企業(yè)信用風(fēng)險(xiǎn)。He等[2]根據(jù)經(jīng)驗(yàn)將違約客戶與非違約客戶的比例設(shè)置為1∶2.5,1∶5,1∶10。本文遍歷違約客戶與非違約客戶所有可能的樣本比例,以G-mean最大反推違約預(yù)測(cè)模型中兩類客戶的最佳配比。改變了隨機(jī)欠采樣中主觀確定采樣比例的不合理做法。
本文對(duì)非平衡樣本隨機(jī)欠采樣的處理特色是將違約客戶與非違約客戶組成不同比例的樣本,以基于線性支持向量機(jī)的違約預(yù)測(cè)精度G-mean最大為標(biāo)準(zhǔn)反推違約客戶與非違約客戶的最佳比例,以確定最優(yōu)的訓(xùn)練樣本。改變了現(xiàn)有研究中主觀設(shè)置欠采樣比例的做法。
有研究表明,線性支持向量機(jī)針對(duì)大型數(shù)據(jù)集(樣本數(shù)量大于等于2 000)具有較好的分類效果,而非線性支持向量機(jī)針對(duì)大型數(shù)據(jù)集的分類效果并不佳[35]。本文基于3 425家上市公司數(shù)據(jù)構(gòu)建信用風(fēng)險(xiǎn)預(yù)測(cè)模型,選取線性支持向量機(jī)作為最終的信用判別模型。
設(shè)w為指標(biāo)的權(quán)重向量,yj為客戶j的實(shí)際違約狀態(tài)(-1表示非違約,1表示違約),xj為客戶j的指標(biāo)向量,對(duì)應(yīng)步驟18中遴選出的最優(yōu)指標(biāo)組合,即表8中前22行指標(biāo)構(gòu)成的指標(biāo)向量,b為截距,n為客戶總數(shù)。則支持向量機(jī)的目標(biāo)函數(shù)為[35]:
通過引入拉格朗日乘子α,求解出指標(biāo)權(quán)重向量w*和截距b*。
式(14)~(16)的經(jīng)濟(jì)學(xué)含義:兩類客戶到超平面的距離之和為是兩類客戶之間距離的倒數(shù),w越小,兩類客戶之間距離越大,違約判別精度越高。
本文構(gòu)建的支持向量機(jī)與文獻(xiàn)[29,34]相比有兩個(gè)差別:①使用的指標(biāo)組合是以違約判別誤差最小遴選出的最優(yōu)指標(biāo)組合;②構(gòu)建線性支持向量機(jī)所使用的最佳樣本配比是根據(jù)違約判別精度Gmean最大反推得到的。
本文構(gòu)建的線性支持向量機(jī)有兩個(gè)特色:①最優(yōu)指標(biāo)組合遴選的特色。在近鄰成分分析算法中根據(jù)違約判別準(zhǔn)確率最大得到馬氏距離中的指標(biāo)權(quán)重向量,以基于馬氏距離的K-近鄰的違約判別誤差MSE最小為目標(biāo),確定最優(yōu)指標(biāo)權(quán)重向量;給定一個(gè)指標(biāo)權(quán)重閾值通過剔除權(quán)重小于閾值的指標(biāo)得到一個(gè)指標(biāo)組合,給定不同的指標(biāo)權(quán)重閾值得到不同的指標(biāo)組合,以指標(biāo)組合的違約判別精度AUC 最大反推最優(yōu)的指標(biāo)組合。②最佳樣本配比的特色。利用隨機(jī)欠采樣將違約客戶與非違約客戶組成不同比例的樣本,以基于線性支持向量機(jī)的違約預(yù)測(cè)精度G-mean最大為標(biāo)準(zhǔn),反推違約客戶與非違約客戶的最佳配比。
通?;煜仃嚳梢杂脕碜鳛檫`約判別模型分類效果的評(píng)價(jià)基礎(chǔ)?;煜仃嚾绫?所示。
表2 違約判別混淆矩陣
采用精確度(Acc)、第1類錯(cuò)誤(Type I error)、第2類錯(cuò)誤(Type II error)、幾何平均值(G-mean)以及AUC 作為信用風(fēng)險(xiǎn)預(yù)測(cè)模型的精度檢驗(yàn)標(biāo)準(zhǔn)[36]。各檢驗(yàn)標(biāo)準(zhǔn)的定義及計(jì)算公式如下式所示。
準(zhǔn)確率(Acc)是指違約客戶被判為違約的數(shù)量與非違約客戶被判為非違約的數(shù)量之和占總客戶數(shù)的比,即
第1類錯(cuò)誤(Type I error)是指非違約客戶被判為違約的數(shù)量占非違約客戶總數(shù)的比,即
第2類錯(cuò)誤(Type II error)是指違約客戶被判為非違約的數(shù)量占違約客戶總數(shù)的比,即
在利用不平衡數(shù)據(jù)進(jìn)行客戶違約狀態(tài)判別時(shí),通常利用G-mean作為評(píng)價(jià)判別模型好壞的標(biāo)準(zhǔn),因?yàn)镚-mean同時(shí)考慮了違約客戶和非違約客戶的判對(duì)率,即
違約客戶判對(duì)率(TPR)亦稱召回率(recall)、靈敏度(sensitivity),是指違約客戶被判為違約的數(shù)量占違約客戶總數(shù)的比,即
非違約客戶判對(duì)率(TNR)亦稱特異度(specificity),是指非違約客戶被判為非違約的數(shù)量占非違約客戶總數(shù)的比,即
以(1-特異度)為橫坐標(biāo),靈敏度為縱坐標(biāo),得到曲線ROC,ROC曲線與坐標(biāo)軸圍成的面積即為AUC。通常利用AUC的值作為評(píng)價(jià)分類模型精度的標(biāo)準(zhǔn),AUC的值越大,違約預(yù)測(cè)模型的預(yù)測(cè)效果越好[35]。
3.1.1 原始樣本的來源
(1)指標(biāo)海選。由于企業(yè)信用狀況涉及多方面因素,為使指標(biāo)體系能全面反映企業(yè)現(xiàn)階段的信用狀況,從企業(yè)的財(cái)務(wù)狀況、非財(cái)務(wù)狀況以及宏觀經(jīng)濟(jì)環(huán)境等方面海選出614個(gè)指標(biāo),其中包含342個(gè)公司財(cái)務(wù)指標(biāo)[38],119個(gè)非財(cái)務(wù)指標(biāo)[39-40],147個(gè)宏觀經(jīng)濟(jì)指標(biāo)和6個(gè)與貨幣發(fā)行量相關(guān)的指標(biāo)[41-42]。初始指標(biāo)體系涵蓋企業(yè)償債能力、盈利能力、營(yíng)運(yùn)能力、成長(zhǎng)能力、非財(cái)務(wù)因素、企業(yè)高管基本情況、企業(yè)基本信用情況、商業(yè)信譽(yù)、社會(huì)責(zé)任以及外部宏觀因素等多個(gè)準(zhǔn)則層。表3列舉了本文海選出的主要指標(biāo)。
表3 上市公司信用風(fēng)險(xiǎn)預(yù)測(cè)初始指標(biāo)體系
(2)原始樣本數(shù)據(jù)。以中國(guó)上市公司為研究對(duì)象,選取2000~2018年期間3 425家上市公司數(shù)據(jù)作為樣本,構(gòu)建企業(yè)違約判別模型。所使用的數(shù)據(jù)來自Wind數(shù)據(jù)庫、國(guó)泰安數(shù)據(jù)庫、國(guó)家統(tǒng)計(jì)局。若上市公司連續(xù)兩年出現(xiàn)虧損,該公司就會(huì)被中國(guó)證監(jiān)會(huì)特別處理(Specially Treated,ST)。以企業(yè)是否被標(biāo)ST 為標(biāo)準(zhǔn),將上市公司分為違約客戶和非違約客戶。其中,違約客戶476 家,非違約客戶2 949家。3 425家上市公司的原始數(shù)據(jù)uij列于表3第(1)~(3 425)列。
利用客戶第t-m(m=1,2,3,4,5)年的指標(biāo)數(shù)據(jù)xij和第t年的違約狀態(tài)yj進(jìn)行建模。對(duì)于違約客戶,將客戶違約當(dāng)年作為第t年。對(duì)于非違約客戶,在不重復(fù)的情況下每年選取一定數(shù)量的客戶,將客戶對(duì)應(yīng)的年份作為第t年。
3.1.2 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化處理 標(biāo)準(zhǔn)化的目的是將指標(biāo)數(shù)據(jù)轉(zhuǎn)化為[0,1]區(qū)間內(nèi)的數(shù)值,消除數(shù)據(jù)的單位限制,便于不同單位間的數(shù)據(jù)進(jìn)行加權(quán)。采用Chi等[43]的方法對(duì)原始指標(biāo)uij進(jìn)行標(biāo)準(zhǔn)化處理。將客戶標(biāo)準(zhǔn)化后的指標(biāo)數(shù)據(jù)xij列于表3第(f)列。指標(biāo)的標(biāo)準(zhǔn)化處理不是本文的主要工作,故不再贅述。
3.1.3 訓(xùn)練集與測(cè)試集劃分 將樣本按照7∶3的方式劃分訓(xùn)練集與測(cè)試集,如表4所示。
表4 樣本劃分
從非違約樣本與違約樣本中分別抽取70%的樣本組成訓(xùn)練集Etrain,即訓(xùn)練集中包含2 397個(gè)客戶,其中,違約客戶=333 個(gè),非違約客戶2 064個(gè)。非違約樣本與違約樣本中分別剩余的30%樣本組成測(cè)試集Etest,即測(cè)試集中包含1 028個(gè)客戶,其中,違約客戶=885 個(gè),非違約客戶=143個(gè)。
(1)指標(biāo)遴選時(shí)使用的樣本。在指標(biāo)遴選過程中僅使用表4列(1)的訓(xùn)練樣本Etrain,不使用列(2)的測(cè)試樣本Etest。
(2)構(gòu)建模型時(shí)使用的樣本。在表4列(1)訓(xùn)練樣本中,采用表1中6個(gè)不同的比例,運(yùn)用表3列(f)的數(shù)據(jù)xij和yj,建立式(14)~(16)的支持向量機(jī)模型。
(3)測(cè)試樣本。上文(2)使用6個(gè)樣本建模,由此建立了6個(gè)預(yù)測(cè)模型。對(duì)于6個(gè)模型中的每一個(gè)模型,都采用表4列(2)的測(cè)試樣本、表3列(f)的數(shù)據(jù)xij進(jìn)行判別,由此得到理論判別狀態(tài)。通過將和測(cè)試樣本的實(shí)際違約狀態(tài)yj進(jìn)行對(duì)比,得到了表2混淆矩陣的全部統(tǒng)計(jì)頻數(shù),將統(tǒng)計(jì)頻數(shù)對(duì)應(yīng)代入式(20),可以得到違約預(yù)測(cè)精度G-mean,如表11列(8)所示。
3.2.1 第1次指標(biāo)篩選 依照步驟1~3 進(jìn)行基于偏相關(guān)性分析的第1 次指標(biāo)遴選。將表4 列(1)定義的訓(xùn)練集樣本Etrain對(duì)應(yīng)表3列(f)前614行的指標(biāo)數(shù)據(jù)xij代入式(1)~(4)計(jì)算任意兩個(gè)客戶間的偏相關(guān)系數(shù),代入式(5)計(jì)算每個(gè)指標(biāo)的F統(tǒng)計(jì)量。挑選出具備經(jīng)濟(jì)學(xué)含義且偏相關(guān)系數(shù)大于0.8的指標(biāo)對(duì),刪除指標(biāo)對(duì)中經(jīng)濟(jì)學(xué)含義不明顯或F統(tǒng)計(jì)量較小的指標(biāo)。由此,614 個(gè)指標(biāo)經(jīng)過第1 次指標(biāo)篩選剩余259 個(gè)指標(biāo),將剩余的259個(gè)指標(biāo)列于表5 列(c)前259 行。表5 列(d)為訓(xùn)練集Etrain中2 397個(gè)客戶的指標(biāo)數(shù)據(jù)xij,列(e)為測(cè)試集Etest中1 028個(gè)客戶的指標(biāo)數(shù)據(jù)xij。
3.2.2 第2次指標(biāo)篩選 在第1次指標(biāo)篩選剩余的259個(gè)指標(biāo)的基礎(chǔ)上進(jìn)行第2次指標(biāo)篩選,目的是遴選出違約預(yù)測(cè)能力最強(qiáng)的指標(biāo)組合。以t-1年為例(t-m年的其他年份類推,下同),依照步驟4~18,具體說明最優(yōu)指標(biāo)組合的遴選過程。
步驟19λ取值范圍的確定。
如表4列(1)第3 行所示,訓(xùn)練集中樣本總數(shù)n=2 397,則1/n=1/2 397=0.000 417。根據(jù)步驟8,從0開始,以0.000 417為步長(zhǎng),取50個(gè)點(diǎn)作為λ的候選值,如表6列(2)所示。
步驟20任意兩個(gè)客戶間距離表達(dá)式的確定。
將表5列(1)前259行數(shù)據(jù)xi1和列(d)剩余的2 396 列中任意一列的前259 行數(shù)據(jù)xiz代入式(6),得到第1個(gè)客戶與其他2 396個(gè)客戶關(guān)于權(quán)重w的距離表達(dá)式dw(x1,xz),其中,z=2,3,…,2 397,共計(jì)2 396個(gè)距離表達(dá)式。同理,對(duì)于表5列(d)中任意一個(gè)客戶j,均可求出其與其他2 396個(gè)客戶的2 396個(gè)距離表達(dá)式dw(xj,xz)。由于表5列(d)中有2 397個(gè)客戶,故依照上述方法可以得到2 397×2 396=5 743 212個(gè)距離表達(dá)式。由于dw(xj,xz)=dw(xz,xj),故有2 871 606個(gè)距離表達(dá)式。
步驟21任意兩個(gè)客戶間相似度pjz(w)的確定。
將步驟20中得到的第1 個(gè)客戶與其他2 396個(gè)客戶的2 396個(gè)距離表達(dá)式dw(x1,xz),z=2,3,…,2 397代入式(7),得到客戶1與其他2 396個(gè)客戶關(guān)于權(quán)重w的相似概率函數(shù)p1z(w),共計(jì)2 396個(gè)相似概率函數(shù)。同理,對(duì)于表5列(d)中任意一個(gè)客戶j,j=1,2,…,2 397,均可求出其與其他2 396個(gè)客戶關(guān)于權(quán)重w的2 396 個(gè)相似概率函數(shù)pjz(w)。
步驟22客戶j與其余2 396個(gè)客戶相似度總和pj(w)的確定。
將步驟21中得到的2 396個(gè)p1z(w)代入式(8),同時(shí)將y1z也代入式(8),得到客戶1與其余2 396個(gè)客戶相似概率的總和p1(w)。關(guān)于y1z的取值如下:對(duì)比表5列(d)最后一行中第1個(gè)客戶與其他客戶的實(shí)際違約狀態(tài)y1和yz,若客戶1與客戶z實(shí)際違約狀態(tài)同時(shí)為0或同時(shí)為1,則y1z=1;否則,y1z=0。同理,對(duì)于表5列(d)中任意一個(gè)客戶j,均可求出其與其他2 396個(gè)客戶相似概率的總和pj(w)。
步驟23權(quán)重向量的確定。
將步驟22中的Pj(w)代入式(10),同時(shí)將表6第1行第(2)列數(shù)據(jù)λ=0也代入式(10)。由此,得到一個(gè)僅由w組成的目標(biāo)函數(shù)F(w),以F(w)最大為目標(biāo),計(jì)算得到=(0.003 12,…,0.001 79),列于表6第1行第(3)列。
步驟24權(quán)重向量的確定。
重復(fù)步驟23,依次取表6第(2)列第2~50行的可調(diào)節(jié)參數(shù)λk,得到對(duì)應(yīng)行的權(quán)重向量其中,k=2,3,…,50,列于表6第(3)列的對(duì)應(yīng)行。
步驟25兩個(gè)客戶間距離的確定。
將表5列(d)中任意兩個(gè)客戶的前259行數(shù)據(jù)xij、xiz以及表6 中第1 行第(3)列數(shù)據(jù)(0.003 12,…,0.001 79)代入式(11a),得到當(dāng)w==(0.003 12,…,0.001 79)時(shí)任意兩個(gè)客戶之間的距離同理,依次取表6第(3)列第2~50行的數(shù)據(jù)代入式(11b)~(11n),將表5列(d)中任意兩個(gè)客戶的前259行數(shù)據(jù)xij和xiz也代入式(11b)~(11n),得到當(dāng)w=時(shí)任意兩個(gè)客戶之間的距離(xj,xz),其中,k=2,3,…,50。
表5 基于相關(guān)性分析的指標(biāo)篩選結(jié)果
表6 不同λ 下的違約判別誤差
步驟26第1個(gè)客戶違約狀態(tài)的確定。
取步驟25中第1個(gè)客戶在第1個(gè)距離表達(dá)式下與其余2 396個(gè)客戶的距離(x1,xz),其中,z=2,3,…,2 396,共計(jì)2 396 個(gè)距離。比較這2 396個(gè)距離,選取最小距離所對(duì)應(yīng)的客戶。若與第1個(gè)客戶距離最小的客戶的違約狀態(tài)為0,則第1個(gè)客戶的違約狀態(tài)的預(yù)測(cè)值=0;若與第1個(gè)客戶距離最小的客戶的違約狀態(tài)為1,則第1個(gè)客戶的違約狀態(tài)的預(yù)測(cè)值=1。由此,得到第1個(gè)客戶在第1個(gè)距離表達(dá)式下的違約狀態(tài),列于下式矩陣A的第1行第1列。同理,取步驟25中第1個(gè)客戶在第k(k=2,3,…,50)個(gè)表達(dá)式下與其余2 396個(gè)客戶的距離,得到第1個(gè)客戶在第k個(gè)距離表達(dá)式下的違約狀態(tài)列于下式矩陣A的第1行后49列。
步驟27第j個(gè)客戶違約狀態(tài)的確定。
仿照步驟26,得到第j個(gè)客戶在第k個(gè)距離表達(dá)式下的違約狀態(tài),列于下式矩陣A第j行第k列,即
步驟28第1個(gè)距離表達(dá)式d(1)下違約判別誤差MSE(1)的確定。
將式(23)中矩陣A第1列代入式(13),同時(shí)將表5 列(d)最后一行也代入式(13),得到違約判別誤差MSE(1)=0.137 216,列于表6第(4)列第1行。
步驟29第k個(gè)距離表達(dá)式下違約判別誤差MSE(k)的確定。
重復(fù)步驟28,依次取式(23)中矩陣A第2~50列,得到違約判別誤差MSE(2),…,MSE(50),列于表6第(4)列第2~50行。
步驟30最優(yōu)指標(biāo)權(quán)重向量w*的確定。
比較表6第(4)列中50個(gè)違約判別誤差MSE,選取最小的違約判別誤差min MSE=0.067 167及其對(duì)應(yīng)的最優(yōu)指標(biāo)權(quán)重向量w*=(0.000 43,…,0.002 38)。
步驟31指標(biāo)權(quán)重閾值的確定。
取指標(biāo)重要性的判別標(biāo)準(zhǔn)τ1=0.2,τ2=0.02,…,τ8=2×10-8,如表7第(2)列所示。
表7 不同臨界點(diǎn)τ 下的違約預(yù)測(cè)精度
步驟32第1個(gè)指標(biāo)組合D1及指標(biāo)組合D1的違約預(yù)測(cè)精度AUC1的確定。
取表7 第(2)列第1 行數(shù)據(jù)τ1=0.2 和步驟30中得到的w*=(0.000 43,…,0.002 38),則指標(biāo)權(quán)重閾值T1=τ1max(w)=0.001 48。將w*中每個(gè)指標(biāo)的權(quán)重與T1=0.001 48比較,保留指標(biāo)權(quán)重大于0.001 48的指標(biāo)。這些指標(biāo)即構(gòu)成了一個(gè)指標(biāo)組合D1。將表4第(1)列的訓(xùn)練樣本對(duì)應(yīng)指標(biāo)組合D1中的xij和表5第(d)列最后一行的yj代入式(14)、(15),得到線性支持向量機(jī)中的指標(biāo)權(quán)重向量w*和截距b*,再將w*和b*代入式(16)構(gòu)建SVM1。將表4第(1)列的訓(xùn)練樣本對(duì)應(yīng)指標(biāo)組合D1中的xij代入SVM1,得到客戶的違約狀態(tài)預(yù)測(cè)值,根據(jù)客戶違約狀態(tài)的實(shí)際值y與預(yù)測(cè)值計(jì)算得到線性支持向量機(jī)的違約判別精度AUC1=0.982 8,列于表7 第1 行第(3)列。
步驟33第q個(gè)指標(biāo)組合Dq及指標(biāo)組合Dq的違約預(yù)測(cè)精度AUCq的確定。
重復(fù)步驟32,依次取表7第(2)列第2~8行數(shù)據(jù),并得到對(duì)應(yīng)行的違約預(yù)測(cè)精度,列于表7第(3)列第2~8行。
步驟34最優(yōu)指標(biāo)組合D*的確定。
比較表7第(3)列8個(gè)數(shù)值,τ=2×10-7對(duì)應(yīng)的AUC最大,為0.991 9,故τ=2×10-7對(duì)應(yīng)的指標(biāo)組合為t-1年最優(yōu)的指標(biāo)組合。t-1年最優(yōu)的指標(biāo)組合列于表8前22行。
表8 t-1年上市公司信用評(píng)價(jià)指標(biāo)體系
同理,根據(jù)t-1年信用風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo)體系的構(gòu)建流程,分別建立t-2年,t-3年,t-4年,t-5年的信用風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo)體系。其他年份下的最優(yōu)指標(biāo)組合遴選結(jié)果詳見附錄。
表9匯總了t-m(m=1,2,3,4,5)年最優(yōu)指標(biāo)組合中的指標(biāo),并統(tǒng)計(jì)了各個(gè)指標(biāo)被選入最優(yōu)指標(biāo)組合的次數(shù)。
根據(jù)表9 列(3)可知,每股收益EPS-扣除/稀釋、貨幣供應(yīng)量M0(億元)和貨幣供應(yīng)量M1(億元)3個(gè)指標(biāo)存在于t-1,t-2,t-3年的最優(yōu)指標(biāo)組合中,說明這3個(gè)指標(biāo)對(duì)企業(yè)未來1~3年的短期違約狀態(tài)具有關(guān)鍵影響;當(dāng)日總市值/負(fù)債總計(jì)、每股EBITDA 和固定資產(chǎn)周轉(zhuǎn)率3個(gè)指標(biāo)存在于t-4,t-5年的最優(yōu)指標(biāo)組合中,說明這3個(gè)指標(biāo)對(duì)企業(yè)未來4~5年的長(zhǎng)期違約狀態(tài)具有關(guān)鍵影響;同時(shí),經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/經(jīng)營(yíng)活動(dòng)凈收益和審計(jì)意見類型2個(gè)指標(biāo)存在于t-m(m=1,2,3,4,5)年的最優(yōu)指標(biāo)組合中,說明這2個(gè)指標(biāo)不論對(duì)于企業(yè)未來1~3年的短期、還是未來4~5年的長(zhǎng)期違約狀態(tài),均有關(guān)鍵影響。
表9 t-m(m=1,2,3,4,5)年最優(yōu)指標(biāo)組合匯總
由此可以得出結(jié)論:每股收益EPS-扣除/稀釋、貨幣供應(yīng)量M0(億元)和貨幣供應(yīng)量M1(億元)3個(gè)指標(biāo)對(duì)企業(yè)未來1~3年的短期違約狀態(tài)具有關(guān)鍵影響;當(dāng)日總市值/負(fù)債總計(jì)、每股EBITDA 和固定資產(chǎn)周轉(zhuǎn)率3個(gè)指標(biāo)對(duì)企業(yè)未來4~5年的長(zhǎng)期違約狀態(tài)具有關(guān)鍵影響;經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/經(jīng)營(yíng)活動(dòng)凈收益和審計(jì)意見類型2個(gè)指標(biāo),不論對(duì)于企業(yè)未來1~3年的短期、還是未來4~5年的長(zhǎng)期違約狀態(tài),均有關(guān)鍵影響。
在訓(xùn)練樣本Etrain中隨機(jī)抽取333個(gè)非違約客戶,將Etrain中全部333個(gè)違約客戶與抽取的333個(gè)非違約客戶組成比例為1∶1的訓(xùn)練子樣本Q1。依照上述方法,將Etrain中全部333個(gè)違約客戶分別與在Etrain中隨機(jī)抽取的666,999,1 332,1 665,1 998個(gè)非違約客戶組成比例為1∶2,1∶3,1∶4,1∶5,1∶6的訓(xùn)練子樣本Q2,Q3,Q4,Q5,Q6(見表1)。通過樣本Etrain,Q1,Q2,…,Q6構(gòu)建7 個(gè)線性支持向量機(jī),以線性支持向量機(jī)的G-mean最大反推違約客戶與非違約客戶的最佳樣本比。以訓(xùn)練樣本Q2為例,具體樣本構(gòu)成如表10所示。
3.4.1 線性支持向量機(jī)的構(gòu)建 以預(yù)測(cè)期限m=1為例,利用訓(xùn)練樣本Q2構(gòu)建樣本比為1∶2的線性支持向量機(jī)。將表10中前22行的指標(biāo)數(shù)據(jù)xij,第23行客戶的實(shí)際違約狀態(tài)yj代入式(14)、(15),估計(jì)得到線性支持向量機(jī)的指標(biāo)權(quán)重向量w1,1:2和截距b1,1:2。將w1,1:2和b1,1:2代入式(16),得到預(yù)測(cè)期限m=1,違約與非違約客戶的樣本比為1∶2的線性支持向量機(jī)模型,如式(24)所示。同理,利用訓(xùn)練樣本Q1,Q3,Q4,Q5,Q6,Etrain可以構(gòu)建預(yù)測(cè)期限為m=1,違約與非違約客戶的樣本比為1∶1、1∶3、1∶4、1∶5、1∶6和原始比例的違約預(yù)測(cè)模型。當(dāng)m=2,3,4,5時(shí),利用訓(xùn)練樣本Q1,Q3,Q4,Q5,Q6,Etrain構(gòu)建違約與非違約客戶樣本比為1∶1、1∶2、1∶3、1∶4、1∶5、1∶6和原始比例的違約預(yù)測(cè)模型。共計(jì)35個(gè)線性支持向量機(jī)模型。
表10 t-1年訓(xùn)練樣本Q 2
3.4.2 最佳樣本比的確定 將表4列(2)的測(cè)試樣本Etest對(duì)應(yīng)表3列(f)的訓(xùn)練樣本的數(shù)據(jù)xij代入t-1年構(gòu)建的7個(gè)線性支持向量機(jī),得到測(cè)試樣本中客戶違約狀態(tài)的預(yù)測(cè)值,將與實(shí)際值y對(duì)比,得到t-1年不同樣本比例下的違約預(yù)測(cè)精度,如表11第1~7行所示。同理,得到t-m(m=2,3,4,5)年下構(gòu)建的其他28個(gè)模型的違約判別精度,如表11第8~35行所示。
本文以G-mean衡量違約預(yù)測(cè)模型的精度,因?yàn)镚-mean同時(shí)考慮了違約客戶和非違約客戶的判對(duì)率。比較表11結(jié)果可以發(fā)現(xiàn):當(dāng)預(yù)測(cè)期限m=1,2,5,樣本比為1∶2時(shí),G-mean為最大值;當(dāng)m=3,4,樣本比為1∶1時(shí),G-mean為最大值。由上述結(jié)果可以確定:當(dāng)m=1,2,5時(shí),違約客戶與非違約客戶的最佳樣本比例為1∶2;當(dāng)m=3,4時(shí),違約客戶與非違約客戶的最佳樣本比例為1∶1。通過表11還可以看出,在每一預(yù)測(cè)期限下,基于最佳樣本比構(gòu)建的模型的第2 類錯(cuò)誤(Type-II error)、召回率(recall)、G-mean以及AUC 均優(yōu)于基于原始樣本構(gòu)建的模型。
表11 基于不同樣本比例的預(yù)測(cè)結(jié)果
由此可得結(jié)論:利用違約樣本與非違約樣本的最佳樣本比能夠提高預(yù)測(cè)模型的預(yù)測(cè)能力。
根據(jù)不同年份下的最佳樣本比,可以確定不同年份下的最佳違約預(yù)測(cè)模型。t-m(m=1,2,3,4,5)年的最佳違約預(yù)測(cè)模型如式(24)~(28)所示。
式(24)~(28)中,sgn表示若方括號(hào)內(nèi)的數(shù)值計(jì)算結(jié)果大于0,則sgn[]取“1”,表示第j個(gè)客戶違約;若小于0,則sgn[]取“-1”,表示第j個(gè)客戶非違約;若等于0,則sgn[]取“0”,此時(shí)不能識(shí)別第j個(gè)客戶的違約狀態(tài)。
3.5.1 指標(biāo)篩選方法的對(duì)比 將本文的指標(biāo)篩選方法與藍(lán)本文獻(xiàn)[1]中的指標(biāo)篩選方法進(jìn)行對(duì)比。藍(lán)本文獻(xiàn)將指標(biāo)重要性的判別標(biāo)準(zhǔn)τ設(shè)置為0.02,本文將τ分別設(shè)置為0.2,0.02,0.002,…,2×10-8,得到8個(gè)不同的指標(biāo)組合,以指標(biāo)組合在訓(xùn)練集中的違約鑒別能力AUC 最大反推指標(biāo)重要性的判別標(biāo)準(zhǔn)τ和最優(yōu)指標(biāo)組合。
本文指標(biāo)篩選方法記為NCA1,藍(lán)本文獻(xiàn)指標(biāo)篩選方法記為NCA2。將對(duì)比結(jié)果列于表12。
由表12可以看出,在每一個(gè)預(yù)測(cè)期限下,利用本文的指標(biāo)篩選方法(NCA1)構(gòu)建最優(yōu)指標(biāo)組合,線性支持向量機(jī)的第2 類錯(cuò)誤(Type-II error)、召回率(recall)、G-mean以及AUC 均為最優(yōu)值。
表12 指標(biāo)篩選方法的精度對(duì)比
由此可得結(jié)論:基于最優(yōu)的指標(biāo)權(quán)重閾值遴選指標(biāo)組合能夠提高指標(biāo)組合的違約鑒別能力。在t-m(m=1,2,3,4,5)年,基于近鄰成分分析構(gòu)建的指標(biāo)體系,使得模型預(yù)測(cè)精度AUC 達(dá)到0.9以上,說明本文將近鄰成分分析(NCA)方法引入信用風(fēng)險(xiǎn)領(lǐng)域進(jìn)行指標(biāo)組合遴選是有效的。
3.5.2 信用風(fēng)險(xiǎn)預(yù)測(cè)模型的對(duì)比 將本文構(gòu)建的違約預(yù)測(cè)模型 (Neighborhood Component Analysis-Undersampling-Support Vector Machine,NCA-US-SVM)與其他經(jīng)典違約預(yù)測(cè)模型如非線性支持向量機(jī)[44]、邏輯回歸(LR)[45]、決策樹(DT)[44]、K-近 鄰(KNN)[46]以及線性判別(LDA)[47]進(jìn)行對(duì)比,結(jié)果列于表13。
通過表13可以看出,不同的預(yù)測(cè)期限下,本文構(gòu)建的NCA-US-SVM 模型的第2類錯(cuò)誤(Type-II error)、召回率(recall)均優(yōu)于其他模型。當(dāng)m=2,3,4,5時(shí),NCA-US-SVM 模型的G-mean優(yōu)于其他模型;當(dāng)m=1,2,3,4 時(shí),NCA-US-SVM 模型的AUC優(yōu)于其他模型。總體而言,本文構(gòu)建的違約預(yù)測(cè)模型的違約預(yù)測(cè)能力優(yōu)于其他經(jīng)典模型。
本文主要結(jié)論如下:
(1)在鄰近成分分析的馬氏距離中,以違約判別誤差最小確定馬氏距離中的指標(biāo)權(quán)重向量,通過淘汰權(quán)重低于臨界點(diǎn)的指標(biāo),得到一組AUC 最大的最優(yōu)指標(biāo)組合。通過對(duì)比不同預(yù)測(cè)期限下的最優(yōu)指標(biāo)組合可知:每股收益EPS-扣除/稀釋、貨幣供應(yīng)量M0(億元)和貨幣供應(yīng)量M1(億元)3個(gè)指標(biāo)對(duì)企業(yè)未來1~3年的短期違約狀態(tài)具有關(guān)鍵影響;當(dāng)日總市值/負(fù)債總計(jì)、每股EBITDA 和固定資產(chǎn)周轉(zhuǎn)率3個(gè)指標(biāo)對(duì)企業(yè)未來4~5年的長(zhǎng)期違約狀態(tài)具有關(guān)鍵影響;經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/經(jīng)營(yíng)活動(dòng)凈收益和審計(jì)意見類型2個(gè)指標(biāo),不論對(duì)于企業(yè)未來1~3年的短期、還是未來4~5年的長(zhǎng)期違約狀態(tài),均有關(guān)鍵影響。
(2)利用隨機(jī)欠采樣方法將兩類客戶組成不同比例的樣本,以G-mean最大為標(biāo)準(zhǔn)得到不同年份下線性支持向量機(jī)的最佳樣本配比。以本文實(shí)證為例:對(duì)于中國(guó)上市公司,t-1,t-2,t-3年違約客戶與非違約客戶的最佳樣本比為1∶2;t-4,t-5年違約客戶與非違約客戶的最佳樣本比為1∶1。
本文主要?jiǎng)?chuàng)新點(diǎn):
(1)在近鄰成分分析算法中根據(jù)違約判別準(zhǔn)確率最大得到馬氏距離中的指標(biāo)權(quán)重向量,以基于馬氏距離的K-近鄰的違約判別誤差MSE 最小為目標(biāo),確定最優(yōu)指標(biāo)權(quán)重向量;給定一個(gè)指標(biāo)權(quán)重閾值、并通過剔除權(quán)重小于閾值的指標(biāo)得到一個(gè)指標(biāo)組合,給定不同的指標(biāo)權(quán)重閾值得到不同的指標(biāo)組合,以指標(biāo)組合的違約判別精度AUC 最大反推最優(yōu)的指標(biāo)組合。拓展了信用風(fēng)險(xiǎn)領(lǐng)域指標(biāo)組合遴選的新思路。
(2)利用隨機(jī)欠采樣將違約客戶與非違約客戶組成不同比例的樣本,以基于線性支持向量機(jī)的違約預(yù)測(cè)精度G-mean最大為標(biāo)準(zhǔn)反推違約客戶與非違約客戶的最佳比例,以確定最優(yōu)的訓(xùn)練樣本。
(3)通過t-m年的指標(biāo)數(shù)據(jù)xt-m和t年的企業(yè)違約狀態(tài)yt,利用最優(yōu)指標(biāo)組合和最優(yōu)訓(xùn)練樣本建立了支持向量機(jī)模型,達(dá)到了運(yùn)用t年的數(shù)據(jù)xt預(yù)測(cè)第t+m年企業(yè)違約狀態(tài)yt+m的預(yù)測(cè)效果。
(4)本文的違約預(yù)測(cè)模型的精度高于非線性SVM、LR、DT、KNN 和LDA 等典型的大數(shù)據(jù)預(yù)測(cè)模型。
附表1 t-2年上市公司信用評(píng)價(jià)指標(biāo)體系
附表2 t-3年上市公司信用評(píng)價(jià)指標(biāo)體系
附表3 t-4年上市公司信用評(píng)價(jià)指標(biāo)體系
附表4 t-5年上市公司信用評(píng)價(jià)指標(biāo)體系