徐 鵬
(中國(guó)石油天然氣股份有限公司華東化工銷(xiāo)售分公司 上海 200122)
商業(yè)銀行貸款風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)的審計(jì)模型構(gòu)建
徐 鵬
(中國(guó)石油天然氣股份有限公司華東化工銷(xiāo)售分公司 上海 200122)
在對(duì)商業(yè)銀行貸款風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)進(jìn)行抽象和預(yù)處理的基礎(chǔ)上,根據(jù)審計(jì)的業(yè)務(wù)需求構(gòu)建了兩種不同的審計(jì)模型,然后根據(jù)不同的審計(jì)模型進(jìn)行結(jié)果分析。
預(yù)測(cè)型決策樹(shù);審計(jì)模型
在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后,數(shù)據(jù)的格式及類(lèi)型已經(jīng)符合軟件的要求,這樣就可以對(duì)數(shù)據(jù)進(jìn)行挖掘。在數(shù)據(jù)挖掘過(guò)程中,由于算法的不同可能會(huì)導(dǎo)致挖掘效果以及效率的不同。在審計(jì)模型方面,本研究決定使用決策樹(shù)模型,該模型中最常用的算法就是ID3與CLS,需要特別說(shuō)明的是,利用ID3算法對(duì)CLS算法進(jìn)行相關(guān)改進(jìn),可以提高算法的效率。
在本文的研究中,主要從兩個(gè)不同的角度來(lái)構(gòu)建決策樹(shù)模型。其中一個(gè)角度就是預(yù)測(cè)型決策樹(shù),該模型的基本流程就是將所有貸款記錄分為兩個(gè)整體,一個(gè)整體是在審計(jì)年放出的,并且現(xiàn)在以及到期的正常貸款記錄。另外一個(gè)整體作為另一部分?jǐn)?shù)據(jù),主要用來(lái)構(gòu)建數(shù)據(jù)挖掘模型,然后用該模型對(duì)五級(jí)分類(lèi)進(jìn)行預(yù)測(cè),當(dāng)預(yù)測(cè)結(jié)果和現(xiàn)實(shí)情況不一致時(shí),注明該記錄屬于異常貸款記錄,在今后的審計(jì)中要進(jìn)行重點(diǎn)審計(jì)。按照這個(gè)基本流程,首先要將貸款憑證表劃分為正常貸款表和預(yù)測(cè)分析貸款表。在正常貸款表中,凡是屬于正常貸款的記錄,這些數(shù)據(jù)都是預(yù)測(cè)數(shù)據(jù)集的主要構(gòu)成;在預(yù)測(cè)分析貸款表中,凡是不屬于正常貸款記錄的數(shù)據(jù),都是構(gòu)成數(shù)據(jù)挖掘模型的主體。
微軟公司的AnalysisManager軟件是本決策樹(shù)的主要挖掘工具,Analysis是SQLServer的附屬產(chǎn)品,因此它與SQLServer在數(shù)據(jù)格式上具有高度的統(tǒng)一性。此外,Analysis還具有良好的用戶(hù)界面,具有向?qū)еС肿饔?。在多維數(shù)據(jù)的存儲(chǔ)和轉(zhuǎn)換方面,具有較高的靈活性,同時(shí)可伸縮架構(gòu)設(shè)計(jì)可以解決海量數(shù)據(jù)等多種難題,同時(shí)也集成了客戶(hù)端、數(shù)據(jù)源以及管理工具等。
在新建一個(gè)SQLServer數(shù)據(jù)庫(kù)之后,數(shù)據(jù)中間表的測(cè)試連接已經(jīng)建立好,也就是說(shuō)預(yù)測(cè)分析表和正常貸款表已經(jīng)完成。在本文的研究案例中,考慮到貸款都是采用五級(jí)分類(lèi),并不是使用聚合級(jí)別進(jìn)行數(shù)據(jù)挖掘,因此使用關(guān)系數(shù)據(jù)來(lái)設(shè)置挖掘模型,以此用來(lái)查詢(xún)Analysis服務(wù)器所支持的所有數(shù)據(jù)類(lèi)型。在事例表的選擇上,因?yàn)榻?shù)據(jù)挖掘模型中所需要的多個(gè)列都在事例表中,因此必須使用多個(gè)事例表,從而保證信息能夠分布式存在多個(gè)表中,這樣就能保證表與表之間的關(guān)系連接。所以,把法人基本信息表和預(yù)測(cè)分析貸款表作為編輯連接和表創(chuàng)建。在法人基本信息表中,其主鍵為客戶(hù)代碼,在預(yù)測(cè)分析貸款表中,其主鍵為借款憑證編號(hào),兩張表通過(guò)客戶(hù)編號(hào)進(jìn)行關(guān)。
在預(yù)測(cè)型決策樹(shù)中,選擇參數(shù)是一個(gè)非常重要的環(huán)節(jié),這影響著決策樹(shù)的輸出,因?yàn)閿?shù)據(jù)挖掘引擎就是通過(guò)事例列屬性進(jìn)行區(qū)分事例的,即通過(guò)事例表主鍵屬性區(qū)分。從單個(gè)事例表的角度來(lái)說(shuō),對(duì)于參數(shù)的選擇過(guò)程相對(duì)簡(jiǎn)單,但是本文研究的案例具有多個(gè)事例表特征,所以要根據(jù)具體的審計(jì)業(yè)務(wù)來(lái)選擇相應(yīng)的參數(shù)。首先將貸款作為首要分析的事例,因此貸款憑證編號(hào)就是該事例的鍵列。接下來(lái)進(jìn)行選擇輸入列操作,在該操作中,至少要選擇左側(cè)的可選列表中的一列作為數(shù)據(jù)挖掘模型的屬性,因?yàn)閿?shù)據(jù)挖掘模型中信息的輸出都是通過(guò)輸出列完成的。在本研究案例中,主要是利用該模型來(lái)預(yù)測(cè)五級(jí)分類(lèi)的基本情況,所以可預(yù)測(cè)列就是貸款五級(jí)分類(lèi)。決策樹(shù)的根就是待預(yù)測(cè)字段。
如果一筆貸款的屬性和五級(jí)分類(lèi)情況相互關(guān)聯(lián),那么數(shù)據(jù)挖掘模型在經(jīng)過(guò)分析之后就期望得出一些信息,那么表示這些屬性的列就在另一個(gè)選項(xiàng)中輸入。在決策樹(shù)中,不同的輸入列代表的是每個(gè)貸款的五級(jí)分類(lèi)情況,使用ID3算法來(lái)發(fā)現(xiàn)其關(guān)聯(lián)關(guān)系,就必須慎重選擇輸入列,這個(gè)因果關(guān)系不可以太明確,否則就失去了數(shù)據(jù)挖掘的意義。
在選擇好參數(shù)和輸入輸出列之后,可以執(zhí)行數(shù)據(jù)挖掘模型,從而得到相應(yīng)的數(shù)據(jù)挖掘結(jié)果。決策樹(shù)結(jié)構(gòu)背后隱藏的較為簡(jiǎn)單的邏輯是決策樹(shù)最重要的一個(gè)特點(diǎn)。內(nèi)容頁(yè)和架構(gòu)頁(yè)是挖掘模型編輯器底部的兩個(gè)主要選項(xiàng),其中內(nèi)容頁(yè)主要用來(lái)顯示決策樹(shù)中各類(lèi)數(shù)據(jù)的分布,架構(gòu)頁(yè)主要是用來(lái)對(duì)整個(gè)模型的結(jié)構(gòu)進(jìn)行控制。
在數(shù)據(jù)文件模型瀏覽器中,主要有以下幾個(gè)主要區(qū)域:
1. 節(jié)點(diǎn)區(qū)域。該區(qū)域主要是說(shuō)明該節(jié)點(diǎn)內(nèi)所有事例的規(guī)則。
2. 特性區(qū)域。該區(qū)域主要是以圖表的形式顯示節(jié)點(diǎn)的特性信息。
3. 內(nèi)容選擇區(qū)域。該區(qū)域可以將整個(gè)決策樹(shù)的完整視圖進(jìn)行顯示。
4. 內(nèi)容詳情區(qū)域。該區(qū)域主要顯示決策樹(shù)中的焦點(diǎn)信息。
在決策樹(shù)中,不同的顏色代表的意義是不同的,顏色的深淺主要用來(lái)區(qū)分事例的密集度,顏色越深的表示該節(jié)點(diǎn)中所包含的事例數(shù)量就越大,顏色越淺的表示該節(jié)點(diǎn)中包含的事例數(shù)量就越小。在數(shù)據(jù)挖掘模型瀏覽器中,右側(cè)的下拉框可以選擇以哪種事例來(lái)顯示。其中251000是全部貸款記錄,也就是“全部”節(jié)點(diǎn),顏色為黑色。特性區(qū)域中的全部事例數(shù)量為129883,所占比例為51.8%,其在五級(jí)分類(lèi)中用“正常”表示,以此類(lèi)推,其比例分別是51.8%,5.02%,2.31%,10.59%,30.28%。在決策樹(shù)的不同節(jié)點(diǎn)中,都可以查看該決策樹(shù)的支節(jié)點(diǎn)。
在圖形方面,其它兩個(gè)節(jié)點(diǎn)的密度要低于“管理特征”為01,02的兩個(gè)節(jié)點(diǎn)。當(dāng)點(diǎn)擊管理特征為01,02的節(jié)點(diǎn)時(shí),可以查看其特征區(qū)域的信息,就可以發(fā)現(xiàn)管理特征為04時(shí),損失貸款的比重高達(dá)78.32%,關(guān)注貸款與正常貸款的比例分別為8.78%、0.91%,那么該結(jié)果就可以為后續(xù)的審計(jì)工作提供有效借鑒,對(duì)于此類(lèi)貸款有必要進(jìn)行重點(diǎn)審計(jì)。按照此流程進(jìn)行操作,還可以得到更多類(lèi)似的信息,這些信息都能給實(shí)際工作或決策的制定作為參考。此外,通過(guò)分析每個(gè)節(jié)點(diǎn)的屬性以及相關(guān)特性,可以發(fā)現(xiàn)貸款屬性的取值會(huì)對(duì)五級(jí)分類(lèi)產(chǎn)生一定的影響。需要特別說(shuō)明的是,算法關(guān)系著整個(gè)決策樹(shù)的組織結(jié)構(gòu),這也是屬性在輸出中的重要性。在本文的研究案例中,“管理特征”這一屬性決定了決策樹(shù)的第一個(gè)級(jí)別,這也是影響五級(jí)分類(lèi)的重要因素。除此之外,還有一個(gè)方法可以查看每個(gè)屬性的重要性,那就是對(duì)相關(guān)網(wǎng)絡(luò)進(jìn)行分析。在相關(guān)網(wǎng)絡(luò)分析瀏覽器中,屬性的網(wǎng)絡(luò)表示的就是數(shù)據(jù)文件或相關(guān)模型,通過(guò)對(duì)這種模型進(jìn)行識(shí)別,可以分析出數(shù)據(jù)的預(yù)測(cè)性與相關(guān)性,具體如圖4.8所示。
圖4.8 相關(guān)性網(wǎng)絡(luò)圖
在圖4.8中,箭頭代表的是相關(guān)性,節(jié)點(diǎn)與箭頭的顏色變化表示的是預(yù)測(cè)性的方向,并且隨著左側(cè)關(guān)聯(lián)性的降低,就能夠發(fā)現(xiàn)五級(jí)分類(lèi)受到不同屬性的影響情況。
在本文的研究中,還有一種決策樹(shù)的構(gòu)建思路,可以稱(chēng)之為決策樹(shù)的改進(jìn)。使用Analysis確實(shí)能夠完成基本的功能需求,但是其功能不如Clementine強(qiáng)大,Clementine具有較強(qiáng)的理解能力和可視化能力,并且操作起來(lái)相對(duì)簡(jiǎn)單,是目前使用最為廣泛的數(shù)據(jù)挖掘工具。Clementine中集成了標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程模型,該模型和本文中研究的邏輯思路具有較高的統(tǒng)一性,主要可以劃分成商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、模型評(píng)估以及結(jié)果部署等幾個(gè)過(guò)程。當(dāng)利用Clementine進(jìn)行數(shù)據(jù)挖掘時(shí),用戶(hù)能夠擁有更多的選擇。以生成決策樹(shù)為例,能夠?qū)Τ杀具M(jìn)行評(píng)估,調(diào)整挖掘結(jié)果、設(shè)計(jì)新型變量、組變量以及減枝等。在保持原有數(shù)據(jù)的前提下,本文采用Clementine,通俗來(lái)說(shuō),就是根據(jù)國(guó)家對(duì)商業(yè)銀行貸款的約束,把五級(jí)分類(lèi)劃分為兩大類(lèi),然后再用決策樹(shù)進(jìn)行差別比較,這樣就可以得到更有效的審計(jì)發(fā)現(xiàn)。在使用Clementine軟件時(shí),同樣需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及表的拆分等,但是在該思路中,由于預(yù)測(cè)型決策樹(shù)已經(jīng)對(duì)表進(jìn)行拆分,因此就不需要再對(duì)表進(jìn)行拆分,而是在新的數(shù)據(jù)挖掘模型中,有選擇性的對(duì)已拆分的表進(jìn)行重新整合,在執(zhí)行SQL語(yǔ)句后可以得到數(shù)據(jù)的輸出結(jié)果。
接下來(lái)操作“類(lèi)型”選項(xiàng),該模塊可以對(duì)數(shù)據(jù)的方向以及類(lèi)型進(jìn)行調(diào)整。完成上一步操作后,接下來(lái)就是設(shè)計(jì)新的變量,在本文研究的案例中,可疑、損失兩個(gè)等級(jí)為一類(lèi),次級(jí)、關(guān)注和正常三個(gè)等級(jí)為一類(lèi),為其設(shè)置如下條件:
貸款等級(jí)=‘次級(jí)’or貸款等級(jí)=‘關(guān)注’or貸款等級(jí)=‘正?!?/p>
貸款等級(jí)=‘損失’or貸款等級(jí)=‘可疑’
通過(guò)“類(lèi)型”操作后可以將123與45設(shè)置為兩個(gè)相同變量的輸出值,并將其作為決策樹(shù)的根,此外還要選擇行業(yè)分類(lèi)1,信貸對(duì)象,管理素質(zhì)等等作為決策樹(shù)的分支因素。然后實(shí)施兩個(gè)不同的決策樹(shù),并且將減枝水平值設(shè)置的盡量大,以字符作為群體輸出方式。
在構(gòu)建完審計(jì)模型與運(yùn)行模型之后,需要對(duì)審計(jì)結(jié)果進(jìn)行分析。審計(jì)過(guò)程中最重要的因素就是企業(yè)的管理特征,在利用兩種不同的模型進(jìn)行分組時(shí),都采用了04管理特征作為最低級(jí)別的信貸評(píng)估等級(jí),這表示審計(jì)的風(fēng)險(xiǎn)可能因此升高,這也是進(jìn)行實(shí)質(zhì)性測(cè)試的主要工作。在擔(dān)保方式的貸款中,信用與保證又是風(fēng)險(xiǎn)級(jí)別較高的群組,因此我們可以確定一個(gè)不變的數(shù)值,從而衡量風(fēng)險(xiǎn)的影響程度。對(duì)模型進(jìn)行上述改進(jìn)最終就是為了充分使用Clementine的相關(guān)功能,從而可以改變?cè)袥Q策樹(shù)的相關(guān)屬性,保證審計(jì)效率的提高,同時(shí)也能增強(qiáng)審計(jì)的安全性。在審計(jì)工作人員進(jìn)行具體分類(lèi)時(shí),還可以對(duì)五級(jí)分類(lèi)的原因進(jìn)行深層次分析。
使用決策樹(shù)進(jìn)行數(shù)據(jù)挖掘最核心的就是歸納與分類(lèi),通過(guò)歸納和分類(lèi)的方法可以提高審計(jì)人員對(duì)于風(fēng)險(xiǎn)的識(shí)別能力。對(duì)不同字段的出現(xiàn)概率進(jìn)行分類(lèi),可以把風(fēng)險(xiǎn)較大的因素進(jìn)行重點(diǎn)標(biāo)示,這樣可以方便審計(jì)人員進(jìn)行審閱,同時(shí)還能提供相關(guān)的數(shù)據(jù)支撐。尤其是使用Clementine軟件時(shí),能夠結(jié)合基本模型,有針對(duì)性地設(shè)計(jì)出有意義的變量,從而保證數(shù)據(jù)挖掘效率與效果的提升。除此之外,還可以為今后的再次挖掘工作奠定基礎(chǔ),只需要在原有模型的基礎(chǔ)上行稍微進(jìn)行調(diào)整即可。以決策樹(shù)為例,此類(lèi)分析方法和傳統(tǒng)的統(tǒng)計(jì)分析、趨勢(shì)分析以及比率分析不同,此類(lèi)分析方法不用專(zhuān)注于財(cái)務(wù)信息,只需要對(duì)信息進(jìn)行數(shù)字化處理即可,從純數(shù)學(xué)的角度去分析與審計(jì),這樣使得審計(jì)工作更加科學(xué),同時(shí)可以對(duì)數(shù)據(jù)的關(guān)聯(lián)進(jìn)行更好地分析。
徐鵬,男,漢,吉林長(zhǎng)春,碩士研究生,中國(guó)石油天然氣股份有限公司華東化工銷(xiāo)售分公司。