[摘要]本文之主要目的在于藉由三種分析工具—即判別分析、logistic回歸及類神經(jīng)網(wǎng)絡(luò)分析,建立一套客觀完整的房屋貸款信用評估模式,以幫助金融機(jī)構(gòu)有效降低呆賬比率,并藉由數(shù)據(jù)挖掘的分類技術(shù),了解房屋貸款違約發(fā)生的主要因素。
[關(guān)鍵詞]房屋貸款類神經(jīng)網(wǎng)絡(luò)
一、引言
對金融機(jī)構(gòu)授信部門而言,數(shù)據(jù)挖掘技術(shù)已經(jīng)開始扮演著日益重要的角色,如何發(fā)掘房屋貸款戶數(shù)據(jù)庫中所包含的信息,并利用這些信息及早預(yù)測出可能發(fā)生違約的不良房屋貸款戶,并拒絕貸款給這些高危群,藉此降低呆賬發(fā)生機(jī)率,同時減少金融機(jī)構(gòu)損失,這就是房屋貸款信用風(fēng)險管理。以往銀行大多使用人工方式對申請人的信用狀況,依照5C的原則,即房屋貸款戶的特性、還款能力、資本、抵押品及總體經(jīng)濟(jì)環(huán)境,進(jìn)行相應(yīng)審核,但面對日漸增多的申請案件,若要維持人工審件,銀行勢必花費可觀的人力成本。同時,人工審件時,審核人員大多根據(jù)經(jīng)驗主觀判斷申請人的信用狀況,為此銀行必須研發(fā)正確、有效且快速的信用審核制度。
二、審核系統(tǒng)建構(gòu)方法
1.類神經(jīng)網(wǎng)絡(luò)模式
類神經(jīng)網(wǎng)絡(luò)是目前發(fā)展極為迅速的一門學(xué)科,其最大的優(yōu)點是除可應(yīng)用于擬合非線性形式外,還能彌補(bǔ)多元回歸及建立ARIMA 模型時受諸多假設(shè)約束的缺陷。
類神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)型態(tài)有許多類,其中以倒傳遞類神經(jīng)網(wǎng)絡(luò)為最具代表性、應(yīng)用最廣的模式之一。其網(wǎng)絡(luò)結(jié)構(gòu)一般而言包含三層神經(jīng)元:輸入層、隱藏層及輸出層。類神經(jīng)網(wǎng)絡(luò)對于變量的選取有較大的自由度,沒有如回歸分析般的限制,研究者須以文獻(xiàn)、專家意見判斷或經(jīng)由統(tǒng)計方法處理,進(jìn)而選取輸入層的輸入變量。而在輸入層之變量決定后,對于網(wǎng)絡(luò)結(jié)構(gòu)中的隱藏層數(shù)目、隱藏層中神經(jīng)元數(shù)目、訓(xùn)練的學(xué)習(xí)率大小等,都需要以主觀邏輯判斷,或以不同組合加以測試,以找到能產(chǎn)生最佳預(yù)測結(jié)果的參數(shù)。
2.判別分析
判別分析要求數(shù)據(jù)滿足獨立同分布,以及正態(tài)性的要求(Johnson等,1998),根據(jù)Fisher(1936)的線性判別模型,具體可表示如下:D=B0+B1X1+B2X2+…+BnXn
其中:D為鑒別分?jǐn)?shù);B0為估計常數(shù)項;Bn為估計系數(shù);Xn為自變數(shù)。
判別分析主要優(yōu)點是簡潔方便,并能整合預(yù)測變量,而其主要的問題則為違反正態(tài)性等假設(shè)時模型的擬合效果會較差,目標(biāo)維度的簡化難以說明每個變量的相對重要性、難以使用在時間序列數(shù)據(jù)上,且當(dāng)數(shù)據(jù)型態(tài)不符合相關(guān)研究工具的要求時,可能得到相當(dāng)不理想的分類結(jié)果。
3.logistic回歸
Logistic回歸種應(yīng)變量Y僅有兩個可能類別結(jié)果,以0與1表示二元變量,例如分析發(fā)卡銀行是否核準(zhǔn)發(fā)卡給信用卡申請人,按照審核結(jié)果,其反應(yīng)變量定義為發(fā)卡或是拒絕發(fā)卡,而自變量可以是任何形式的變量數(shù)據(jù),其回歸模型的參數(shù)利用最大似然法估計得到。
三、實證研究
本文采用我國臺灣地區(qū)某金融機(jī)構(gòu)大臺北地區(qū)房屋貸款戶共510筆資料進(jìn)行實證研究,分成兩組作實證研究,第一組為人口統(tǒng)計變數(shù),采用性別、申貸時年齡、婚姻狀況、教育程度、職業(yè)、服務(wù)年資、月收入等七個人口統(tǒng)計變量作為評估房屋貸款戶是否違約的自變量。第二組為所有變量,采用除上述七個人口統(tǒng)計變量外,另加入其他十一個變量,即月付金占總收入比例、貸款成數(shù)、有無保證人、借保人關(guān)系、有無政府優(yōu)惠貸款、自住或非自住、貸款型態(tài)、貸款金額、屋齡、借保人申貸時之信用狀況、房屋是否為小坪數(shù)/國宅/工業(yè)區(qū)等,共十八個變量作為評估房屋貸款戶是否違約的變量。
數(shù)據(jù)庫中共包含510個樣本,其中有90%的房屋貸款戶屬于繳息正常的客戶,10%的房屋貸款戶屬于違約的客戶。所謂繳息正常客戶,表示房屋貸款戶在貸款期間未發(fā)生異常行為,包括逾期繳款、催收或呆賬等行為;至于曾發(fā)生異常行為中任意一項,銀行均將此客戶視為違約客戶。
在實證過程中,本文將分別采用SPSS 10.07和Vesta出版的Qnet(1998)軟件分別進(jìn)行分析。
1.判別分析實證結(jié)果
由于房屋貸款戶申請數(shù)據(jù)的可能自變量較多,為取得較精簡的自變量,本研究使用逐步判別法進(jìn)行判別分析,并且依據(jù)各變量的U統(tǒng)計量作為刪減變量的準(zhǔn)則。根據(jù)逐步判別分析的結(jié)果,第一組人口統(tǒng)計變量被刪減成婚姻狀況及教育程度2個較為顯著的變數(shù);第二組所有首先依違約比率10%隨機(jī)抽出350筆樣本作為回歸樣本,其余160筆(違約比率變量(即人口統(tǒng)計變量及其它變量),被刪減成月付金占總收入比例、貸款成數(shù)及貸款金額等3個較為顯著的變數(shù)。
根據(jù)相關(guān)分析結(jié)果,第一組整體的正確判別率為75.0%,第二組整體的正確判別率為79.4%,第二組所有變量所建立的判別方程優(yōu)于第一組人口統(tǒng)計變量所建立的判別方程。
2.logistic回歸實證結(jié)果
本文利用逐步logistic回歸進(jìn)行分析,并且依據(jù)各變量的t值作為變量采用的準(zhǔn)則。根據(jù)分析的結(jié)果,第一組人口統(tǒng)計變量中7個變量篩選出婚姻狀況及教育程度等2個較為顯著的變量;第二組所有的18個變量篩選出貸款成數(shù)、月收入及自住或非自住等3個較為顯著的變量。再按照所選出來的顯著變量分別建立房屋貸款戶核準(zhǔn)與否的logistic回歸方程。
根據(jù)相關(guān)分析結(jié)果,第一組整體的正確判別率為84.4%,第二組整體的正確判別率為85%,第二組所有變量所建立的判別方程優(yōu)于第一組人口統(tǒng)計變數(shù)所建立的判別方程。
3.類神經(jīng)網(wǎng)絡(luò)實證結(jié)果
Cybenko (1989)等指出包含單一隱藏層之類神經(jīng)網(wǎng)絡(luò)模式已足夠描述任何復(fù)雜的非線性系統(tǒng),因此建構(gòu)的倒傳遞類神經(jīng)網(wǎng)絡(luò)將只包含單一隱藏層。而由于第一組人口統(tǒng)計變量輸入層包含七個神經(jīng)元,第二組所有變量包含十八個神經(jīng)元,因此隱藏層中神經(jīng)元的數(shù)目分別選擇 14及36進(jìn)行測試;最后在網(wǎng)絡(luò)的輸出層部份則只包含一個神經(jīng)元,即房屋貸款戶是否違約。在參數(shù)的相關(guān)設(shè)定中,Rumelhart(1986)建議較小的學(xué)習(xí)率通常會得到較佳的結(jié)果,因此學(xué)習(xí)率將測試 0.002、0.003、0.004、0.005及0.006五種組合。而停止訓(xùn)練準(zhǔn)則方面以訓(xùn)練數(shù)據(jù)的 RMSE值小于或等于0.0001,或最多訓(xùn)練3000次為準(zhǔn),擁有最小測試數(shù)據(jù)RMSE值的網(wǎng)絡(luò)結(jié)構(gòu)被認(rèn)定為最佳結(jié)果。
建立類神經(jīng)網(wǎng)絡(luò)模式時,第一組采用人口統(tǒng)計變量、第二組采用所有變量作為預(yù)測房屋貸款戶是否違約的輸入層變量,以進(jìn)行模式的建立,并以房屋貸款戶繳息正?;蜻`約作為反應(yīng)變量;從510筆的房屋貸款戶資料中隨機(jī)抽樣所得350筆樣本作為訓(xùn)練樣本,另外160筆樣本數(shù)據(jù)則作為測試模式用。
利用Qnet(1998) 軟件進(jìn)行分析,測試不同神經(jīng)元及學(xué)習(xí)率組合下類神經(jīng)網(wǎng)絡(luò)預(yù)測模式結(jié)果,當(dāng)節(jié)點個數(shù)分別為14及36,學(xué)習(xí)率為0.005時可得到最大的正確判斷率以及最小誤差。而將樣本數(shù)據(jù)測試測試模式準(zhǔn)確度進(jìn)行比較發(fā)現(xiàn) ,利用類神經(jīng)網(wǎng)絡(luò)方法來判斷房屋貸款戶繳息正?;蜻`約,第一組及第二組分別可得到96.9%及99.4%的整體正確判別率,第二組所有變量所建立的判別方程優(yōu)于第一組人口統(tǒng)計變數(shù)所建立的判別方程。
四、研究結(jié)論
1.加入其他變量比單純利用人口統(tǒng)計變量更能預(yù)測房屋貸款戶違約的發(fā)生
判別分析實證結(jié)果部分,僅含人口統(tǒng)計變量的模型,整體分類正確率為75.0%,而加入其他變量后的模型,整體正確率提升為79.4%。在分類誤差方面,加入其他變量的模型的型一、型二誤差率都較僅含人口統(tǒng)計變量的模型有所改善。
logistic回歸實證結(jié)果部分,僅含人口統(tǒng)計變量的模型,整體分類正確率為84.4%,而加入其他變量后的模型,整體正確率提升為85.0%。在分類誤差方面,加入其他變量的模型降低型二誤差率,但型一誤差率并未改善。
在類神經(jīng)網(wǎng)絡(luò)模式中,僅含人口統(tǒng)計變量的模型,整體分類正確率為96.9%,而加入其他變量后的模型,整體正確率提升為99.4%。在分類誤差方面,二模型的型一誤差率皆為0,而加入其他變量后的模型的型二誤差率有較佳的表現(xiàn)。
由上述實證結(jié)果顯示,加入其他變量能有效增加房屋貸款戶違約預(yù)測模式的預(yù)測精準(zhǔn)度。
2.對于房屋貸款戶違約的預(yù)測能力比較
以判別分析建立判別房屋貸款戶信用狀況的分類模式,使用線性判別模式(LDA)進(jìn)行模式建構(gòu),采用月付金占總收入比例、貸款成數(shù)及貸款金額作為準(zhǔn)則變量(X),可以得到79.4%的正確辨識率。以logistic回歸進(jìn)行判別模式建立時,以貸款成數(shù)、月收入及自住或非自住作為準(zhǔn)則變量(X),可以得到85%的正確辨識率。而對類神經(jīng)網(wǎng)絡(luò)而言,當(dāng)節(jié)點個數(shù)為36,學(xué)習(xí)率為0.0005時可得到99.4%的正確辨識結(jié)果。整體而言,類神經(jīng)網(wǎng)絡(luò)可以提供較佳的預(yù)測結(jié)果,對于未來的研究方向,可以考慮利用其他的分類工具,如回歸分類樹、模糊理論等建構(gòu)辨識率較高的房屋貸款戶分類模型。此外,利用統(tǒng)計或人工智能的工具針對自變量的部分進(jìn)行重要變量的篩選,以增加類神經(jīng)網(wǎng)絡(luò)模式輸入層變量決定的理論基礎(chǔ)也值得深入探討。
參考文獻(xiàn):
[1]黃文啟:以LOGIT模型研究借款人特性與不動產(chǎn)抵押貸款提前償還之關(guān)系.國立政治大學(xué)財務(wù)管理學(xué)系碩士論文,2002
[2]楊適予:房貸灰色信用風(fēng)險管理模式之建立與應(yīng)用.銘傳大學(xué)管理科學(xué)研究所博士論文,2002
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。