姜志旺+張紅霞+鄭艷娟+張宇敬+曹瑩
摘 要:隨著小額貸款規(guī)模的擴大化和貸款對象的多樣化,金融機構的信貸風險問題日益突出,成為制約其發(fā)展的短板。本文運用數據挖掘技術,對金融機構信用風險評估進行研究,通過建立決策樹、神經網絡模型,從建模結果、預測精度等方面對信貸風險進行比較分析,為其提供決策依據,從而提高風險防范能力。
關鍵詞:數據挖掘 決策樹 神經網絡 小貸公司
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務,于是小額貸款公司應運而生,在一定程度上解決了對這些“三農”及中小企業(yè)的融資難題,也對河北省金融市場進行了有益的補充。但是小額貸款公司在其業(yè)務發(fā)展和借貸過程中,由于其貸款融資業(yè)務的單一性,貸款客戶的違約信用風險成為小額貸款公司目前需要面對的主要風險。而小額貸款公司當前由于對信用風險缺乏科學合理有針對性的準確評估,導致企業(yè)在運營和發(fā)展中缺乏相應的有效的風險預警控制能力。本文通過旨在對小額貸款公司的信用風險評估方法進行研究,提出通過建立信用模型進行風險預警的機制,以點帶面,以期達到借鑒作用。
1 數據挖掘技術
1.1 決策樹方法
決策樹學習[1]是以實例為基礎的歸納學習,是一種逼近離散函數值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數據進行分析,本質上決策樹是通過一系列規(guī)則對數據進行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經網絡方法
分層網絡[2]是一種經典的神經網絡算法,將一個神經元網絡模型中的所有神經元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關聯(lián)。在神經網絡中,學習過程就是訓練過程,即將數據集輸入到神經網絡的過程中,按照一定的方式去調整神經元之間的連接權值,使得網絡能將數據集的內涵以連接權值矩陣的方式存儲起來,從而使得在網絡接受輸入時,可以給出恰當的輸出。
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關資料的數據透視分析,分別建立決策樹模型和神經網絡模型,并基于這兩個模型進行評估和分析對比,以尋求一個最適用的模型。再根據該模型對客戶的信用風險進行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學的輔助決策。
2.1 數據預處理[3]
本文實驗所使用的數據是某銀行提供給的業(yè)務數據,來源于信用業(yè)務系統(tǒng)。通過對數據的分析和處理,最后進入建模的輸入變量為:Break強制停卡記錄、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標號為“1”的“好”客戶和類標號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準,如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經網絡模型。
這里利用平衡抽樣后分割的訓練數據集進行神經網絡建模,采用Neural Net節(jié)點進行建模分析。在構建模型的過程中,采用快速建模的方式,設置預防過度訓練參數以及取消隨機數種子,終止條件為默認。網絡拓撲結構如下:輸入層有14個神經元,隱藏層有3個神經元,輸出層有1個神經元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數據集進行測試,對模型進行評估。
按照上述步驟構建模型后,生成神經網絡模型。神經網絡是一種“黑箱”技術,根據樣本不斷調整模型,提高預測準確率,因而預測結果缺乏解釋力,而且不能觀察到中間的學習過程。此次所建模型的估計精確性達到71.429%。
3 結論
(1)在建模之前,進行數據的預處理是很必要的。
(2)在對數據進行探索性分析中發(fā)現(xiàn),它行強制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數據的建模分析,從建模結果、預測精度、運行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻
[1] 張云濤,龔玲.數據挖掘原理與技術[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實用數據挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴大化和貸款對象的多樣化,金融機構的信貸風險問題日益突出,成為制約其發(fā)展的短板。本文運用數據挖掘技術,對金融機構信用風險評估進行研究,通過建立決策樹、神經網絡模型,從建模結果、預測精度等方面對信貸風險進行比較分析,為其提供決策依據,從而提高風險防范能力。
關鍵詞:數據挖掘 決策樹 神經網絡 小貸公司
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務,于是小額貸款公司應運而生,在一定程度上解決了對這些“三農”及中小企業(yè)的融資難題,也對河北省金融市場進行了有益的補充。但是小額貸款公司在其業(yè)務發(fā)展和借貸過程中,由于其貸款融資業(yè)務的單一性,貸款客戶的違約信用風險成為小額貸款公司目前需要面對的主要風險。而小額貸款公司當前由于對信用風險缺乏科學合理有針對性的準確評估,導致企業(yè)在運營和發(fā)展中缺乏相應的有效的風險預警控制能力。本文通過旨在對小額貸款公司的信用風險評估方法進行研究,提出通過建立信用模型進行風險預警的機制,以點帶面,以期達到借鑒作用。
1 數據挖掘技術
1.1 決策樹方法
決策樹學習[1]是以實例為基礎的歸納學習,是一種逼近離散函數值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數據進行分析,本質上決策樹是通過一系列規(guī)則對數據進行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經網絡方法
分層網絡[2]是一種經典的神經網絡算法,將一個神經元網絡模型中的所有神經元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關聯(lián)。在神經網絡中,學習過程就是訓練過程,即將數據集輸入到神經網絡的過程中,按照一定的方式去調整神經元之間的連接權值,使得網絡能將數據集的內涵以連接權值矩陣的方式存儲起來,從而使得在網絡接受輸入時,可以給出恰當的輸出。
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關資料的數據透視分析,分別建立決策樹模型和神經網絡模型,并基于這兩個模型進行評估和分析對比,以尋求一個最適用的模型。再根據該模型對客戶的信用風險進行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學的輔助決策。
2.1 數據預處理[3]
本文實驗所使用的數據是某銀行提供給的業(yè)務數據,來源于信用業(yè)務系統(tǒng)。通過對數據的分析和處理,最后進入建模的輸入變量為:Break強制??ㄓ涗洝ge年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標號為“1”的“好”客戶和類標號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準,如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經網絡模型。
這里利用平衡抽樣后分割的訓練數據集進行神經網絡建模,采用Neural Net節(jié)點進行建模分析。在構建模型的過程中,采用快速建模的方式,設置預防過度訓練參數以及取消隨機數種子,終止條件為默認。網絡拓撲結構如下:輸入層有14個神經元,隱藏層有3個神經元,輸出層有1個神經元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數據集進行測試,對模型進行評估。
按照上述步驟構建模型后,生成神經網絡模型。神經網絡是一種“黑箱”技術,根據樣本不斷調整模型,提高預測準確率,因而預測結果缺乏解釋力,而且不能觀察到中間的學習過程。此次所建模型的估計精確性達到71.429%。
3 結論
(1)在建模之前,進行數據的預處理是很必要的。
(2)在對數據進行探索性分析中發(fā)現(xiàn),它行強制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數據的建模分析,從建模結果、預測精度、運行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻
[1] 張云濤,龔玲.數據挖掘原理與技術[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實用數據挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴大化和貸款對象的多樣化,金融機構的信貸風險問題日益突出,成為制約其發(fā)展的短板。本文運用數據挖掘技術,對金融機構信用風險評估進行研究,通過建立決策樹、神經網絡模型,從建模結果、預測精度等方面對信貸風險進行比較分析,為其提供決策依據,從而提高風險防范能力。
關鍵詞:數據挖掘 決策樹 神經網絡 小貸公司
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務,于是小額貸款公司應運而生,在一定程度上解決了對這些“三農”及中小企業(yè)的融資難題,也對河北省金融市場進行了有益的補充。但是小額貸款公司在其業(yè)務發(fā)展和借貸過程中,由于其貸款融資業(yè)務的單一性,貸款客戶的違約信用風險成為小額貸款公司目前需要面對的主要風險。而小額貸款公司當前由于對信用風險缺乏科學合理有針對性的準確評估,導致企業(yè)在運營和發(fā)展中缺乏相應的有效的風險預警控制能力。本文通過旨在對小額貸款公司的信用風險評估方法進行研究,提出通過建立信用模型進行風險預警的機制,以點帶面,以期達到借鑒作用。
1 數據挖掘技術
1.1 決策樹方法
決策樹學習[1]是以實例為基礎的歸納學習,是一種逼近離散函數值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數據進行分析,本質上決策樹是通過一系列規(guī)則對數據進行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經網絡方法
分層網絡[2]是一種經典的神經網絡算法,將一個神經元網絡模型中的所有神經元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關聯(lián)。在神經網絡中,學習過程就是訓練過程,即將數據集輸入到神經網絡的過程中,按照一定的方式去調整神經元之間的連接權值,使得網絡能將數據集的內涵以連接權值矩陣的方式存儲起來,從而使得在網絡接受輸入時,可以給出恰當的輸出。
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關資料的數據透視分析,分別建立決策樹模型和神經網絡模型,并基于這兩個模型進行評估和分析對比,以尋求一個最適用的模型。再根據該模型對客戶的信用風險進行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學的輔助決策。
2.1 數據預處理[3]
本文實驗所使用的數據是某銀行提供給的業(yè)務數據,來源于信用業(yè)務系統(tǒng)。通過對數據的分析和處理,最后進入建模的輸入變量為:Break強制??ㄓ涗?、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標號為“1”的“好”客戶和類標號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準,如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經網絡模型。
這里利用平衡抽樣后分割的訓練數據集進行神經網絡建模,采用Neural Net節(jié)點進行建模分析。在構建模型的過程中,采用快速建模的方式,設置預防過度訓練參數以及取消隨機數種子,終止條件為默認。網絡拓撲結構如下:輸入層有14個神經元,隱藏層有3個神經元,輸出層有1個神經元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數據集進行測試,對模型進行評估。
按照上述步驟構建模型后,生成神經網絡模型。神經網絡是一種“黑箱”技術,根據樣本不斷調整模型,提高預測準確率,因而預測結果缺乏解釋力,而且不能觀察到中間的學習過程。此次所建模型的估計精確性達到71.429%。
3 結論
(1)在建模之前,進行數據的預處理是很必要的。
(2)在對數據進行探索性分析中發(fā)現(xiàn),它行強制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數據的建模分析,從建模結果、預測精度、運行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻
[1] 張云濤,龔玲.數據挖掘原理與技術[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實用數據挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint