遲國泰, 董冰潔
(大連理工大學(xué) 經(jīng)濟管理學(xué)院,遼寧 大連 116024)
違約判別臨界點,即金融機構(gòu)是否接受客戶貸款申請并放款的決策參考。違約判別臨界點C的取值不同會直接導(dǎo)致違約客戶被錯誤的劃分為非違約客戶(第二類錯誤)[1]。第二類錯誤下的貸款成為金融機構(gòu)不良貸款的重要來源。
根據(jù)央行公布的數(shù)據(jù),2019年第二季度我國信用卡逾期未償還金額達到的800億元,相較2010年的76.86億元,約增長10.4倍?;ヂ?lián)網(wǎng)公開數(shù)據(jù)顯示:平安金融機構(gòu)財報顯示2020年3月末個人貸款不良率1.52%,較去年末增長0.33個百分點,其中信用卡不良率增長幅度最大達2.32%,比2019年末增加0.66%。如何找到合適的違約判別臨界點,最大限度減少第二類錯誤造成的損失,對實現(xiàn)貸款利潤對于減少金融機構(gòu)不良貸款損失實現(xiàn)穩(wěn)健經(jīng)營具有重要意義。
利潤驅(qū)動違約判別臨界點的研究涉及以下兩個問題:
一是如何保證客戶違約概率估算的整體準(zhǔn)確性。如果估算出違約客戶的違約概率和非違約客戶的違約概率均是0.5,那么無論違約判別臨界點取何值,金融機構(gòu)都無法準(zhǔn)確鑒別出違約客戶和非違約客戶。只有當(dāng)計算出違約客戶的違約概率盡可能大,非違約客戶的違約概率盡可能小時,也即金融機構(gòu)能保證估算客戶違約概率準(zhǔn)確性時,金融機構(gòu)通過設(shè)置違約判別臨界點來決定是否接收貸款申請的決策才具有意義。因此如何保證客戶違約概率估算的準(zhǔn)確性成為違約判別臨界選擇過程中需要解決的關(guān)鍵性問題。
二是如何找到利潤驅(qū)動的違約判別臨界點。在保證客戶違約概率估算準(zhǔn)確的前提下,如果違約臨界點設(shè)置過高,意味著客戶即使有很大的違約可能性,仍然會被判為非違約客戶,被接受放款,金融機構(gòu)此時極可能將一個違約的客戶“錯放”(第二類錯誤),此時金融機構(gòu)面臨利息和本金損失的可能性增加。在本研究中,假定違約的損失為利息核本金一起損失,即最壞情況下的損失。所以,第二類錯誤下的本金和利息損失對金融機構(gòu)的影響遠大于將非違約客戶判斷正確帶來的利息收益。所以,如何找出實現(xiàn)貸款利潤最大化的違約判別臨界點是一個具有挑戰(zhàn)性的問題。
因此想要研究利潤驅(qū)動的違約判別臨界點問題就一定會涉及到客戶違約概率的估算問題和利潤最大化臨界點的選取問題。
本研究與已有研究的區(qū)別之處在于:
一是估算客戶違約概率的方法不同。相較于當(dāng)前流行的單一模型方法計算客戶違約概率[2~9],本研究將多種不同類型的模型加權(quán)平均計算客戶違約概率,避免使用單一模型計算違約概率準(zhǔn)確性不高的弊端。
二是求解違約判別臨界點的方法不同。與經(jīng)驗似然法和廣義對稱點估計[10~12]等以尋找整體判對率最大的違約判別臨界點的方法不同,本文以貸款利潤最大為目標(biāo),求解違約判別臨界點。避免現(xiàn)有方法僅能得到總體準(zhǔn)確率最大違約判別臨界點而不是獲取利潤最大的違約判別臨界點(總體準(zhǔn)確率最大的違約判別臨界點,并不能代表金融機構(gòu)能從貸款中獲利或者獲得最大利潤,因為判斷正確帶來的收入遠小于判斷錯誤帶來的損失)的弊端。
研究發(fā)現(xiàn):(1)在估算客戶違約概率的方法上,本文提出的混合模型計算的客戶違約概率比單一模型計算的違約概率要準(zhǔn)確,混合模型有更大的AUC值。(2)在人人貸數(shù)據(jù)集1和人人貸數(shù)據(jù)集2中計算的利潤驅(qū)動違約判別臨界點分別為0.1887和0.2219,實際利潤分別為0.001283百萬元和2.8228337百萬元,高于廣義對稱點估計和經(jīng)驗似然法等方法計算的違約判別臨界點所得的實際利潤。(3)通過構(gòu)造虛擬數(shù)據(jù)集進行對比分析表明,一個準(zhǔn)確性高的模型有助于緩解違約判別臨界點選取不合適造成的損失。
計算客戶違約概率分為兩類:一類是統(tǒng)計模型:邏輯回歸模型、有序邏輯回歸模型、門限回歸模型、生存分析模型。另一類是基于機器學(xué)習(xí)的模型,如神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機等模型。如,Jabeur構(gòu)造了成本敏感決策樹模型信用評價模型[2]。新近的研究中,將多個機器學(xué)習(xí)模型的結(jié)果以投票的方式集成,如Xia、Monika通過多個決策樹構(gòu)建隨機森林信用評價模型[3~4]。
綜上,當(dāng)前研究中估算客戶違約概率的方法主要還是使用單一模型來估算客戶的違約概率,已有研究表明當(dāng)使用多個相同的模型構(gòu)建集成模型時,集成模型的準(zhǔn)確性高于單一模型的準(zhǔn)確性[4]。本文借鑒集成模型的思想,使用多種不同類型的模型計算客戶違約概率,通過先加權(quán)再平均的方法構(gòu)成混合模型,以此來保證計算客戶違約概率的準(zhǔn)確性,避免使用單一模型計算客戶違約概率不準(zhǔn)確的弊端。
判別臨界點是判別客戶違約狀態(tài)的重要依據(jù),求取判別臨界點的方法有約登指數(shù)、廣義對稱點估計以及經(jīng)驗似然法等統(tǒng)計方法。約登指數(shù)(Lai)是找到一個臨界點能最大區(qū)分違約客戶和非違約客戶,計算方法是第一類錯誤率和第二類錯誤率相加再減1[5],即為最優(yōu)臨界點;經(jīng)驗似然法(Molanes)和廣義對稱點估計(Lopezraton)通過參數(shù)估計的方法尋找能最大區(qū)分違約客戶和非違約客戶的臨界點,但是兩種方法適用的數(shù)據(jù)不同,經(jīng)驗似然法適用數(shù)據(jù)是正態(tài)分布的情況,廣義對稱點計估則對數(shù)據(jù)的分布沒有要求[6,7]。此外,還有Zhang根據(jù)違約判別模型的準(zhǔn)確性最大反推出區(qū)分違約客戶和非違約客戶的最佳分類臨界點[8];Tomczak依據(jù)違約判別模型的G-means最大來找區(qū)分違約和非違約客戶的臨界點[9]。Perols基于最小化判錯成本估算了最優(yōu)臨界點[10]。
綜上,當(dāng)前研究主要是以整體準(zhǔn)確率最大來尋找違約判別臨界點,即找到一個臨界點,這個臨界點能最大程度的鑒別違約客戶和非違約客戶。但少有研究關(guān)注到整體判別準(zhǔn)確度最大的違約判別臨界點帶來的利潤是否最大,因為無論臨界點選取為什么值都會出現(xiàn)將違約客戶錯判為非違約的情況,此時造成的本金和利息的損失遠大于將非違約客戶判斷正確帶來利息收入,因此考慮利潤驅(qū)動下的違約判別臨界點更具有現(xiàn)實意義。
構(gòu)建本文混合模型的子模型有邏輯回歸模型、樸素貝葉斯模型和支持向量機模型。選用這三個模型的原因是,邏輯回歸模型作為經(jīng)典的統(tǒng)計模型在信貸決策領(lǐng)域得到廣泛的應(yīng)用,樸素貝葉斯模型和線性支持向量機模型作為常見的機器學(xué)習(xí)模型在分類預(yù)測方面具有良好的性能。
本文構(gòu)建的混合均值是由多個不同類型的子模型先加權(quán)集成,再取平均集成得到。第一次多模型加權(quán),設(shè):f(yi)為3個子模型加權(quán)后的概率,Pij表示第i個子模型計算的客戶j的違約概率,aij是子模型的加權(quán)系數(shù),第一次集成的客戶j的違約概率如式(1)所示:
(1)
加權(quán)系數(shù)aij可以在訓(xùn)練集數(shù)據(jù)中通過子模型計算的違約概率與客戶真實違約狀態(tài)構(gòu)建線性方程使用極大似然估計法求取,β是常數(shù)項。
第二次多模型取平均。pmix(j)是混合模型計算的第j個客戶違約的概率,n取值分別1,2,3表示邏輯回歸子模型、樸素貝葉斯子模型和線性支持向量機子模型,f(yi)為子模型加權(quán)后的概率,混合模型計算的第j個客戶的違約概率如式(2)所示:
(2)
式子(2)含義是通過多模型的加權(quán)概率來修正不同違約判別子模型計算的同一個客戶違約概率的偏差。
本文混合模型與已有研究[8]的不同之處在于,將多種不同類的模型結(jié)果進行加權(quán)再平均的方式,來獲得一個準(zhǔn)確性更高的模型,以此來保證計算客戶違約概率的準(zhǔn)確性,避免單一模型計算客戶違約概率不準(zhǔn)確的弊端。
2.2.1 計算特定違約判別臨界點C1下金融機構(gòu)的貸款利潤
在特定違約判別臨界點C1下,金融機構(gòu)把違約客戶判為非違約予以放款時,金融機構(gòu)有實際損失(記為AL),即本金和利息。由于不同客戶的真實貸款損失難以結(jié)算,在本研究中,違約的損失為利息核本金一起損失,即最壞情況下的損失。當(dāng)金融機構(gòu)能把非違約客戶鑒別出來并予以放款時,金融機構(gòu)獲得實際收入(記為AI),即貸款利息。w表示在特定違約判別臨界點C1下的實際利潤。當(dāng)金融機構(gòu)為某一數(shù)量群體(N個客戶的群體)貸款時,在某個特定的違約判別臨界點C1下,金融機構(gòu)面臨的收入、損失和利潤計算如式(3)、式(4)、式(5)所示:
(3)
(4)
w=AI-AL
(5)
其中,客戶向金融機構(gòu)申請貸款時提供貸款金額(記為M,單位元)和貸款期限(記為T,單位月)數(shù)據(jù),利息率 (記為r)。在特定違約判別臨界點C1下,實際非違約客戶被正確判定為非違約的個數(shù)(記為n1)、實際違約客戶被錯誤判定為非違約的個數(shù)(記為n2)。
與現(xiàn)有研究的區(qū)別:本節(jié)給出了金融機構(gòu)在特定違約判別臨界點C1下所面臨的收入、損失和利潤的計算方法。本節(jié)與已有研究的區(qū)別在于,當(dāng)前研究僅僅關(guān)注到第二類錯誤的大小,而本文不僅關(guān)注到第二類錯誤的大小,同時量化了第二類錯誤下的成本,以及在特定違約判別臨界點下的收益。
2.2.2 求解利潤驅(qū)動的違約判別臨界點
根據(jù)3.2.1中,實際收入(AI)、實際損失(AL)以及貸款實際利潤w計算公式。設(shè):基于混合模型的利潤最大違約判別臨界點規(guī)劃模型如式(6)所示:
(6)
需要說明的是,首先使用訓(xùn)練集數(shù)據(jù)建立混合模型,并使用混合模型計算訓(xùn)練集中客戶的違約概率,并求取訓(xùn)練集中利潤最大化的臨界點C*。在利潤最大的臨界點C*下預(yù)測新客戶(測試集中客戶)的違約狀態(tài)并決定是否給新客戶貸款。
與現(xiàn)有研究的區(qū)別:已有研究只關(guān)注到在特定違約判別臨界點下第二類錯誤的大小,而本文不僅關(guān)注到第二類錯誤的大小,同時以利潤最大為目標(biāo)求解最優(yōu)違約判別臨界點,同時避免現(xiàn)有方法,如經(jīng)驗似然法和廣義對稱點估計等方法計算的臨界點不是貸款利潤最大化違約判別臨界點的弊端。
本文涉及到的模型評價指標(biāo)主要有第二類錯誤(Type-II Error)、負元覆蓋率(NCR),AUC值。原因在于貸款損失主要來自第二類錯誤,貸款收入主要來自于金融機構(gòu)能準(zhǔn)確判別多少非違約的客戶,因此使用第二類錯誤(Type-II Error)和負元覆蓋率(NCR)來衡量模型的預(yù)測能力。此外選用AUC來衡量模型的整體準(zhǔn)確性,因為AUC值不受臨界點取值的影響,能客觀的反映模型整體的準(zhǔn)確性。
本文實證數(shù)據(jù)為人人貸貸款數(shù)據(jù),每筆貸款數(shù)據(jù)包括學(xué)歷、婚姻狀況、收入水平、貸款金額、貸款利率、貸款時間、是否違約等36個維度的數(shù)據(jù)。本文使用的數(shù)據(jù)集從人人貸貸款數(shù)據(jù)中抽樣獲得。由于后文中要計算實際收入、實際損失和貸款實際利潤,因此需要保證數(shù)據(jù)集中的客戶借款金額大致相等。
數(shù)據(jù)集1的抽樣方式如下:首先抽取借款金額在1萬元(不包含)以下的全部違約樣本608個樣本;其次,再從借款金額在1萬元(不包含)以下的非違約樣本中隨機抽取608個樣本,組成一個共1216個樣本的平衡數(shù)據(jù)集,記為數(shù)據(jù)集1。
數(shù)據(jù)集2的抽樣方式如下:首先抽取借款金額在1~5萬元(包含1萬和5萬)的全部違約樣本2827個樣本;其次,再從借款金額在1~5萬元(包含1萬和5萬)的非違約樣本中隨機抽取2827個樣本,組成一個共5654個樣本的平衡數(shù)據(jù)集,記為數(shù)據(jù)集2。
借鑒柳向東和陳林的研究,本研究選擇年齡、性別、學(xué)歷、婚姻狀況、收入水平、房產(chǎn)情況、房貸情況、車產(chǎn)情況、車貸情況、工作性質(zhì)、工作時間、手機認證、學(xué)歷認證、居住地認證、信用報告、職稱認證和投資人數(shù)等17個變量建立模型[11,12]。本文使用的17個變量中有年齡和投資人數(shù)兩個變量是連續(xù)型變量,剩余15個變量為分類變量。分類變量使用了獨熱編碼處理,將分類變量轉(zhuǎn)換成數(shù)值變量,并對數(shù)據(jù)數(shù)據(jù)進行了01標(biāo)準(zhǔn)化處理。
以數(shù)據(jù)集2為例說明混合模型的建立過程。從數(shù)據(jù)集2中隨機抽取80%的數(shù)據(jù)作為訓(xùn)練集,根據(jù)3.1中方法分別建立分別建立邏輯回歸、樸素貝葉斯和支持向量機3個違約判別子模型。客戶真實狀態(tài)為y,子模型計算的違約概率為x,建立邏輯回歸方程,使用極大似然估計法估計式(1)中3個子模型的混合權(quán)重系數(shù)。再根據(jù)式(2)計算訓(xùn)練集中各客戶的違約概率,結(jié)果如表1所示。
表1 混合模型計算的數(shù)據(jù)集2中訓(xùn)練集客戶違約概率
以3.2中預(yù)測的客戶違約概率為例(見表1),當(dāng)選取違約判別臨界點為0.0001的情況說明實際收入、實際損失以及實際利潤的計算。在特定違約判別臨界點C1下計算實際收入(AI)、實際損失(AL),當(dāng)改變違約判別臨界點C的取值時,金融機構(gòu)在所有可能的違約臨界點取值下實際利潤和經(jīng)濟利潤的結(jié)果如表2所示,當(dāng)違約判別臨界點的取值為0.5000時,負元覆蓋率為0.7439表明測試樣本中74%的非違約客戶被識別出來,第二類錯誤為0.0844表明測試樣本中只有約8%的違約樣本沒有被識別出來,此時識別出非違約客戶帶來的實際收入為14.8871百萬元,沒有識別出違約客戶帶來的實際損失為5.6033百萬元,實際利潤為9.2838百萬元。
表2 數(shù)據(jù)集2訓(xùn)練集中不同違約判別臨界點下實際利潤
在數(shù)據(jù)集1和數(shù)據(jù)集2的訓(xùn)練集數(shù)據(jù)中求得的利潤最大化的臨界點分別為0.1887和0.2219,在預(yù)測測試集中客戶時以此臨界點作為判別客戶違約狀態(tài)的參考。
3.5.1 子模型和混合模型準(zhǔn)確性差異性檢驗
使用10折交叉檢驗的方法檢驗子模型和混合集成模型的穩(wěn)健性,檢驗混合模型與3個子模型在計算違約概率的準(zhǔn)確性上是否具有顯著差異。使用T檢驗來檢驗兩組數(shù)據(jù)均值是否均有顯著差異,結(jié)果如表4所示。在數(shù)據(jù)集1中,混合模型比3個子模型的AUC值大約高0.01%。在數(shù)據(jù)集2中混合模型比3個子模型的AUC值大約高0.005到0.045(即0.9%~4.7%)。這說明本文建立得混合模型得違約概率準(zhǔn)確性顯著優(yōu)于單一模型得違約概率。
表3 子模型AUC值與混合模型AUC對比分析(差異性檢驗)
表4 不同臨界點求取方法下的測試集中獲利比較
3.5.2 不同臨界點求取方法的利潤比較
使用廣義對稱點估計和經(jīng)驗似然法求解訓(xùn)練集中違約判別臨界點,并根據(jù)求解的違約判別臨界點,計算數(shù)據(jù)集1和數(shù)據(jù)集2測試集中金融機構(gòu)的收入、損失和利潤,結(jié)果見表4。在數(shù)據(jù)集1和數(shù)據(jù)集2中,本研究計算的訓(xùn)練集中違約判別臨界點臨分別為0.1887和0.2219(見3.4節(jié)),在此違約判別臨界點下測試集中實際利潤為0.001283百萬元和2.8228337百萬元,遠大于其他違約判別臨界點的獲利。數(shù)據(jù)集1和數(shù)據(jù)集2的違約判別臨界點經(jīng)濟含義是:在保證計算客戶違約概率準(zhǔn)確的前提下,由于客戶違約時給金融機構(gòu)造成的損失遠大于客戶不違約時給金融機構(gòu)帶來收入,因此為了獲得最大利潤,金融機構(gòu)面對貸款客戶時應(yīng)該提高貸款門檻,以此降低第二類錯誤帶來的本金和利息的損失。
3.5.3 不同預(yù)測準(zhǔn)確性模型所能獲取利潤的比較
本文從數(shù)據(jù)集1的訓(xùn)練數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)集3,從數(shù)據(jù)集2的訓(xùn)練數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)集4。應(yīng)該指出,本文之所以選擇從訓(xùn)練集數(shù)據(jù)中構(gòu)造虛擬數(shù)據(jù)原因在于:在訓(xùn)練集中模型都無法獲取準(zhǔn)確鑒別違約客戶和非違約客戶,并獲取正的利潤,那么模型在測試集數(shù)據(jù)中也同樣無法獲得鑒別違約客戶和非違約客戶,當(dāng)然也就無法取得最大利潤。
虛擬數(shù)據(jù)集與真實數(shù)據(jù)集的唯一區(qū)別在于,虛擬數(shù)據(jù)集計算的違約概率為隨機生成的0到1之間的任意數(shù),即虛擬數(shù)據(jù)集中的違約概率無法鑒別出客戶的違約狀態(tài)。本文構(gòu)造的虛擬數(shù)據(jù)集3的AUC值為0.5079,遠小于混合模型在數(shù)據(jù)1訓(xùn)練集中0.7987的AUC值。虛擬數(shù)據(jù)集4的AUC值為0.5516,遠小于混合模型在數(shù)據(jù)2訓(xùn)練集中0.8822的AUC值。
從虛擬數(shù)據(jù)集3和虛擬數(shù)據(jù)集4的臨界點取值和實際利潤變化曲線來看(限于篇幅這里未展示),虛線所代表的低準(zhǔn)確度模型,在臨界點所有可能取值的范圍內(nèi)利潤均為負值,且隨著臨界點的增大利潤不斷下降。這說明,在一個準(zhǔn)確率低的模型中,無論違約判別臨界點的取值如何變化,此時金融機構(gòu)無法鑒別違約客戶和非違約客戶。
混合模型計算的客戶違約概率值較單一模型計算的違約概率值更準(zhǔn)確。整體準(zhǔn)確度高的違約判別臨界點并不一定是利潤最大化的違約判別臨界點,本研究尋找的違約臨界判別點比使用保證整體準(zhǔn)確率最大的廣義對稱點估計和經(jīng)驗似然法挖掘的違約判別臨界點獲取的利潤高。
使用混合模型來計算客戶違約概率,即使用不同模型計算客戶違約概率,通過加權(quán)平均的方式對不同子模型計算出的違約概率進行了修正,從而保證計算客戶違約概率的整體準(zhǔn)確性。
通過定義從貸款中獲得收入、損失和利潤的計算方法,以利潤最大為目標(biāo)反推,最優(yōu)判別臨界點,以此找到利潤最大的違約判別臨界點,避免現(xiàn)有臨界點方法計算的違約判別臨界點不是貸款利潤最大化違約判別臨界點的弊端。