一、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價值的知識(模型或規(guī)則)的過程,是一門新興的邊緣交叉學(xué)科,涉及到機器學(xué)習(xí)、模式識別、數(shù)據(jù)庫、數(shù)理統(tǒng)計、數(shù)據(jù)可視化、高性能計算、神經(jīng)網(wǎng)絡(luò)和空間數(shù)據(jù)分析等多門學(xué)科,被認為是目前具有廣泛應(yīng)用的一個重要的研究課題。
二、數(shù)據(jù)挖掘常用技術(shù)的種類
(1)人工神經(jīng)網(wǎng)絡(luò)。仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測模型,通過學(xué)習(xí)進行模式識別。(2)決策樹。代表著決策集的樹形結(jié)構(gòu)。這是一種較常用的技術(shù),決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在銀行貸款申請中,要對申請的風(fēng)險大小做出判斷,常用的就是決策樹方法。(3)遺傳算法?;谶M化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計方法的優(yōu)化技術(shù)。(4)近鄰算法。將數(shù)據(jù)集合中每一個記錄進行分類的方法。(5)規(guī)則推導(dǎo)。從統(tǒng)計意義上對數(shù)據(jù)中的“如果——那么”規(guī)則進行尋找和推導(dǎo)。
三、擔(dān)保公司目前主要的風(fēng)險
(1)信用風(fēng)險。借款人由于經(jīng)營不善或主觀惡意等發(fā)生債務(wù)危機,無力全部或部分按時償還信用社貸款,造成逾期、呆滯呆賬等擔(dān)保風(fēng)險。(2)市場風(fēng)險。主要指借款人在投資決策時或在生產(chǎn)經(jīng)營中因市場行情變化致使生產(chǎn)經(jīng)營無法繼續(xù)維持或嚴重虧損,給信用社造成損失的可能性。(3)政策風(fēng)險。主要是指由于各種經(jīng)濟政策和財政稅收政策調(diào)整給借款人帶來重大經(jīng)營影響,間接給信用社造成貸款損失的可能性。(4)道德風(fēng)險。第一,不按擔(dān)保規(guī)則發(fā)放了一些提高擔(dān)保公司營業(yè)額的擔(dān)保業(yè)務(wù),形成呆滯呆賬。第二,與借款人惡意串通,采取種種手段欺騙上級部門,形成貸款無法按時償還。第三,違規(guī)違法發(fā)放人情擔(dān)保和向關(guān)系人進行擔(dān)保,形成的各種損失。
四、決策樹技術(shù)在擔(dān)保業(yè)風(fēng)險管理中的應(yīng)用
(1)決策樹的概念。決策樹表示方法是應(yīng)用最廣泛的邏輯方法之一,它從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。決策樹分類方法采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹的葉結(jié)點得到結(jié)論。所以從決策樹的根到葉結(jié)點的一條路徑就對應(yīng)著一條合取規(guī)則,整棵決策樹就對應(yīng)著一組析取表達式規(guī)則。決策樹是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部結(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉結(jié)點代表類或類分布。(2)決策樹用于分類的步驟。決策樹用于分類可分為兩大步:建立決策樹模型、使用模型進行分類。其中建立決策樹模型包括創(chuàng)建決策樹產(chǎn)生分類規(guī)則和對分類規(guī)則進行測試評估兩個階段。(3)預(yù)測客戶風(fēng)險等級的方法和過程。擔(dān)保公司各種業(yè)務(wù)系統(tǒng)中存儲了大量客戶的數(shù)據(jù),按照擔(dān)保公司以前的客戶風(fēng)險等級分類方法,把這些客戶分為正常、逾期、呆滯、呆帳四類,其中后三種貸款客戶稱為不良擔(dān)??蛻簟D壳坝械膿?dān)保公司開始實行新的客戶貸款風(fēng)險五級分類標(biāo)準,即正常、關(guān)注、次級、可疑、損失五類。把以前的正??蛻舳x為低風(fēng)險客戶,逾期、呆滯、呆帳定義為高風(fēng)險客戶,現(xiàn)在的正常定義為低風(fēng)險客戶,關(guān)注、次級、可疑、損失定義為高風(fēng)險客戶。由于評定客戶的屬性特征不一致,將客戶分為企業(yè)客戶和個人客戶兩類。個人客戶的主要特征屬性有:貸款金額、貸款方式、家庭人口、貸款期限、借款人資信等級、資產(chǎn)負債率、年度家庭純收入、當(dāng)?shù)仄骄?、生產(chǎn)經(jīng)營情況、銷售及貨款回籠、經(jīng)營管理能力、借款人還款意愿、有無不良行為、保證人代償能力、抵押物情況、擔(dān)保狀況總體評價。企業(yè)客戶的主要特征屬性有:貸款金額、貸款方式、貸款期限、借款人資信等級,資產(chǎn)負債率、主營業(yè)務(wù)利潤、主營業(yè)務(wù)收入凈額、銷售利潤率、同行業(yè)平均水平、總現(xiàn)金凈流量、生產(chǎn)經(jīng)營情況、產(chǎn)品市場需求情況、經(jīng)營管理能力、借款人還款意愿、保證人代償能力、抵押物情況、擔(dān)保狀況總體評價。對容易波動的屬性采用取其平均值的做法,離散的屬性通過建立序列對照的辦法也可以用平均法。具體做法是,首先將歷史業(yè)務(wù)數(shù)據(jù)、外部數(shù)據(jù),經(jīng)過清洗,轉(zhuǎn)換,集成加載到數(shù)據(jù)庫中,在數(shù)據(jù)庫中建立可供挖掘的以預(yù)測客戶風(fēng)險為主題的數(shù)據(jù)集,對連續(xù)型數(shù)值屬性進行離散化處理,然后以客戶的特征屬性為條件屬性,類別屬性為分類屬性,用決策樹算法分別對個人和企業(yè)的歷史數(shù)據(jù)進行挖掘,得到潛在的分類規(guī)則,指導(dǎo)決策。
隨著擔(dān)保公司在風(fēng)險管理中對數(shù)據(jù)挖掘技術(shù)的深入應(yīng)用,數(shù)據(jù)挖掘技術(shù)的其他方法也將會越來越多的應(yīng)用到風(fēng)險管理中去,為擔(dān)保業(yè)務(wù)的風(fēng)險管理提供有力的技術(shù)保障。
參 考 文 獻
[1]蔡皎潔,張玉峰.基于數(shù)據(jù)挖掘銀行客戶信用風(fēng)險評級體系研究[J].情報雜志.2010(2):47~50
[2]顧慶鋒.?dāng)?shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)在信用社風(fēng)險控制中的應(yīng)用研究[D].鎮(zhèn)江:江蘇大學(xué).2006
項目基金:本文系學(xué)院自然科學(xué)研究項目階段性成果。