閆華竹
[摘要]為了解決申請貸款問題,需要對客戶的審貸信用進行評級,此評級過程主要使用了數據挖掘中的聚類分析的方法。通過對客戶基本信息的挖掘和聚類分析,可以得出客戶申貸的信用級別,從而對客戶的審貸問題進行分級處理。
[關鍵詞]信貸風險 聚類分析 數據挖掘
一、方法介紹:聚類分析
聚類分析能夠將一批樣本數據,在沒有先驗知識的前提下,根據數據的諸多特征,按照其在性質上的親疏程度進行自動分組,且使組內個體的結構特征具有較大相似性,組間個體的特征相似性較小。
K-Means聚類也稱作快速聚類,屬于覆蓋型數值劃分聚類算法。它得到的聚類結果,每個樣本點都唯一屬于一個類,而且聚類變量為數值型,并采用劃分原理進行聚類。
二、數據挖掘——K-Means模型
搜集數據階段主要是對某銀行的客戶信息數據進行整理和匯總,重點選取那些影響客戶申貸評級的那些指標,例如客戶的年齡、收入、資產、債務、貸款量、風險、信用等級,按時還貸習慣等等。這些指標都是筆者通過訪談銀行相關部門的工作人員,通過獲取相關經驗得出的指標,此外這也是國際通用的對客戶信用評級的常用指標。通過對某銀行客戶信息進行整理和匯總,得出20個典型客戶的申請貸款信息資料。
數據挖掘的過程中,首先需要構建k-means模型,這就需要相關clementine軟件操作,對數據集進行模型導入。經過k-means模型分析后,這組數據被分為四組,數據集按組別重新排列。分析結果顯示了四類所包括的樣本數分別為6、1、7、6個樣本,以及各變量的均值和標準差。如果聚類變量是分類型的,則顯示各類別的百分比。對各類特征的描述是聚類分析結果中不可或缺部分,viewer卡以圖形矩陣的形式直觀顯示了各類各變量的特征。
在這些評判指標中,重要指標有五個,分別是信用等級、年齡、結果、資產和風險。對重要指標分別進行分析,可以得出各組的重要客戶特征。
通過對各組“信用等級”情況比較分析中,我們發(fā)現(xiàn)cluster-3樣本的信用等級都是綠,cluster-1中5個樣本的信用等級是綠、1個是黃,cluster-4中3個樣本信用等級是紅、1個是綠、2個是黃,cluster-2樣本的信用等級都是黃,如圖2-5。同樣地,對各組“年齡”情況進行比較分析,cluster-3樣本的4個中年3個老年人,cluster-1中6個樣本都是年輕人,cluster-4中6個樣本都是年輕人,cluster-2樣本的年齡是中年;再對各組 “結果”進行比較分析,cluster-3和cluster-1的樣本都按時還款,cluster-4樣本中1個不履行還款、3個延時還款、2個按時還款,cluster-2的樣本都延時還款;對各組“資產”情況進行比較分析,cluster-3樣本的資產平均值是513929.35,cluster-1樣本的資產平均值是25256.85,cluster-4樣本的資產平均值是37474.30,cluster-2樣本的資產平均值是91111.30。
針對四組樣本的情況,憑借以上五個重要指標,筆者對四組提出批貸建議,如表。對于cluster-3批準貸款,對于cluster-4不批準貸款,而對于cluster-1和cluster-2,銀行需要限額批準貸款,以防控風險事件的發(fā)生。
三、 結論
通過聚類分析研究,把某銀行20個典型客戶情況進行分類,分成了四組。然后針對五個重要指標信用等級、年齡、結果、資產、風險,對四組情況進行比較分析。我們發(fā)現(xiàn)第三組的信用等級為綠、結果按時、風險低、資產量最大,對于這樣的客戶銀行可以放心的批準其貸款;第四組的客戶風險高、年齡小、存在不履行還款現(xiàn)象、信用等級存在紅50%,對于這樣的高風險客戶銀行應不予批準貸款;對于第一、二組的客戶,他們存在延時還款現(xiàn)象、信用等級存在黃色,風險中、高現(xiàn)象,對其可以批準貸款,但是貸款額度需要設定一定限制。
參考文獻:
[1]《Clementine數據挖掘方法及應用》,電子工業(yè)出版社.薛薇,陳歡歌.2012,9
[2] 聚類分析技術在中國移動客戶消費模式中的應用研究.李穎慧.2010,3
[3] 高世光,基于模糊聚類的數據挖掘技術研究.國防科技大學.2002,1