劉雨萌,李戰(zhàn)江,尹 偉,2
(1.內蒙古農業(yè)大學 經濟管理學院;2.內蒙古銀監(jiān)局,呼和浩特 010010)
微型企業(yè)由于自身財務制度不規(guī)范、財務信息不健全或者無力提供抵押擔保等原因,面臨著融資難的問題。構建一套科學、完整的能夠判別微型企業(yè)違約狀態(tài)的指標體系,可以為銀行對微型企業(yè)進行科學評估和信用評價提供參考依據。
目前關于企業(yè)信用評價指標體系的研究:國際經典的“5C”原則從品質(character)、資本(capital)、能力(capacity)、擔保(collateral)、經營環(huán)境(condition of business)五個方面對企業(yè)信用狀況進行評價[1]。標準普爾(S&P)主要根據經營指標和財務指標這兩類指標對企業(yè)進行信用評級[2]。美國穆迪(Moody)對企業(yè)的資本結構、銷售增長等方面進行評價[3]。中國工商銀行從股東情況、經濟條件、發(fā)展前景、償債能力等方面對企業(yè)進行信用評價[4]。中國建設銀行的小企業(yè)信用評價指標體系,主要由財務風險、賬戶行為、經營環(huán)境、經營狀況、發(fā)展?jié)摿?、實際控制人實力與資信等指標構成[4]。5C原則、標準普爾和穆迪的評價指標體系的共同特點是適用于評價大中型企業(yè),不適用于微型企業(yè)。
而關于企業(yè)信用評價指標篩選方法研究,李戰(zhàn)江(2017)通過Brown-Mood中位數檢驗、Moses方差檢驗以及Kendall秩相關檢驗篩選出了包含22個指標的微型企業(yè)信用評價指標體系[6]。趙志沖等(2017)通過似然比檢驗篩選出對違約狀態(tài)有顯著影響的指標,通過計算同一準則層內任意兩個指標的相關系數刪除對違約狀態(tài)區(qū)分程度小的指標[7]。侯雨欣和王沖(2016)采用德爾菲法與因子分析相結合的方法進行信用評價指標篩選[8]。遲國泰等(2016)通過偏相關性分析進行了第一次篩選,基于Probit回歸進行了第二次篩選,得到了由速動比率、總資產增長率等23個指標構成的指標評價體系[9]。遲國泰和陳洪海(2016)依據信息敏感性指標篩選標準確定累計信息含量,通過累計信息含量的大小遴選指標[10]。夏立明和遲媛(2015)運用信息沉淀法得到初步指標,應用因子分析降維,提取公因子,最終形成了由償債能力、創(chuàng)新能力等六個因子組成的中小企業(yè)信用評價指標體系[11]。Li等(2013)利用投影追蹤方法對信用評價指標進行篩選[12]。Hammer等(2012)通過邏輯回歸方程的方法對評價指標進行篩選[13]。Sohn和Jeon(2010)運用Weibull模型進行指標篩選建立信用評價模型[14]。顧雪松等(2010)運用因子分析和聚類分析相結合的方法進行信用評價指標篩選[15]。
綜觀現有研究:一是現有文獻都集中討論參數下的指標篩選問題,少有使用非參數方法構建信用評價指標的篩選研究。二是現有文獻在信息重復指標篩選時,大多使用參數聚類方法篩選信息重復指標,少有使用非參數方法篩選信息重復指標的研究。而現實是大多數評價指標不服從正態(tài)分布且分布未知,因此使用非參數方法篩選指標更加有效?;诖?,本文將非參數貝葉斯判別與非參數聚類分析相結合,對信用評價指標進行雙重組合篩選,最終構建了非參數下貝葉斯判別與聚類分析的信用指標篩選模型并進行了應用分析。
指標數據標準化的目的:將指標數值轉化為[0,1]之間的數,消除指標和量綱的不一致,為微型企業(yè)信用評價指標篩選奠定基礎。指標可以分為正向指標、負向指標、區(qū)間型指標和定性指標四類。
1.1.1 正向指標的標準化
正向指標是指數值越大,微型企業(yè)信用狀況越好的指標,例如“營業(yè)利潤率”。設xij是第i個指標第j個企業(yè)標準化后的值;vij是第i個指標第j個企業(yè)的原始值;n是企業(yè)總數。根據正向指標的標準化公式,則有[16]:
1.1.2 負向指標的標準化
負向指標是指數值越小,微型企業(yè)信用狀況越好的指標,例如“未償還貸款總額占資產總額比”。根據負向指標的標準化公式,則有[16]:
1.1.3 區(qū)間型指標的標準化
區(qū)間型指標是指數值越接近某一特定區(qū)間,微型企業(yè)信用越好,并且在這個特定區(qū)間內,信用狀況最好的指標。本文中出現的兩個區(qū)間型指標為居民消費價格指數和年齡,居民消費價格指數的理想區(qū)間為[101,105],在該區(qū)間內表示既不通貨膨脹也不通貨緊縮。年齡的理想區(qū)間是[31,45],企業(yè)法人處于這個年齡段表明他的還款能力和還款意愿最強。設q1是最佳區(qū)間左邊界;q2最佳區(qū)間右邊界。最佳區(qū)間指標的打分公式為[16]:
1.1.4 定性指標的標準化
對所有定性指標制定出適合微型企業(yè)的打分標準,將指標轉化為[0,1]區(qū)間的數。所有23個定性指標的打分標準如表1所示。
表1 定性指標打分標準
由于指標的分布情況未知,首先應該對指標數據進行正態(tài)性檢驗,確定指標是否服從正態(tài)分布。本文選用K-S檢驗對指標數據進行正態(tài)性檢驗。
設Di第i個評價指標的K-S正態(tài)檢驗統(tǒng)計量值;Fi(x)是第i個評價指標的經驗分布函數;μi是第i個評價指標的平均值;σi是第i個評價指標的標準差;m是評價指標的數目。則有[17]:
檢驗標準:在0.01的顯著性水平下,比較評價指標的概率P值與0.01的大小。若第i個評價指標的概率P值小于0.01,則第i個評價指標不服從正態(tài)分布;若第i個評價指標的概率P值大于等于0.01,則第i個評價指標服從正態(tài)分布。
對全部指標進行非參數核密度Bayes判別,可以得到一個判別精度,去掉特定指標后,對剩余指標再進行非參數核密度Bayes判別,可以得到另一個判別精度。根據所得到的兩個判別精度之間的差值,決定該特定指標保留或刪除。
1.3.1 Bayes判別函數的建立
設P是樣本來自第i個總體的后驗概率;G1是違約企業(yè)總體;G2是非違約企業(yè)總體;x是待判樣本;p?i是樣本來自第i個總體的先驗概率;fi(x)是第i個總體的核密度函數;Bayes判別函數如下[18]:
式(7)的含義:樣本來自第i個總體的后驗概率等于樣本來自第i個總體的先驗概率與第i個總體核密度函數的乘積與樣本來自各總體的先驗概率與各總體核密度函數乘積之和的比值。
1.3.2 先驗概率的計算
設ni是第i個總體的樣本數,則樣本來自第i個總體的先驗概率為[19]:
式(8)的含義:樣本來自第i個總體的先驗概率等于第i個總體的樣本數與全部樣本數的比值。
1.3.3 核密度函數的確定
設hn是窗寬;K(x)是總體的核函數;Xij是第i個總
體中的第
i
個樣本,則第
i
個總體的核密度函數為
[20]
:
式(9)的含義:根據已知樣本的數據和選定的核函數及窗寬,可以估計出總體的分布密度函數。
1.3.4 窗寬的選擇
在選擇最優(yōu)窗寬hn時選用交叉驗證法直接從現有的數據得到合理的窗寬,不需要對估計密度函數做任何假設。此方法選擇窗寬hn使積分均方誤差(IMSE)達到最小。則有[19]:
式(10)和式(11)的含義:窗寬的選擇取決于密度函數的曲率,常數δ依賴于核函數。
1.3.5 核函數的選擇
對于不用的核函數分別使用相應的最優(yōu)窗寬,積分均方誤差的差別不大,即最優(yōu)窗寬的選擇遠比核函數的選擇更重要,使用不同核函數得到的密度估計一般非常接近。本文中的核函數選用高斯核函數,則有[21]:
式(12)的含義:在高斯核函數中,離原點越近,核函數的取值越大,并在原點處取得最大值。
1.3.6 Bayes判別規(guī)則的確定
將由式(8)至式(12)計算得到的結果代入式(7),可以得到待判樣本來自不同總體的后驗概率,判斷樣本來自哪一總體的判別規(guī)則為[22]:
式(13)的經濟學含義:若P(G1|x)>P(G2|x),說明樣本來自G1總體的概率大于來自G2總體的概率,則待判樣本屬于違約樣本;若P(G1|x)<P(G2|x),說明樣本來自G1總體的概率小于來自G2總體的概率,則待判樣本屬于非違約樣本。
1.3.7 判別精度的測算
設Ma是違約樣本的判別精度;D是Bayes判別的違約樣本數;n1是實際違約樣本數,則有[23]:
式(14)的含義:D是由式(13)得到的違約樣本數,違約樣本的判別精度越大,說明判別的違約樣本數與實際違約樣本數越接近,指標體系的判別效果越好。
設Mb是非違約樣本的判別精度;U是Bayes判別的非違約樣本數;n2是實際非違約樣本數,則有[23]:
式(15)的含義:U是由式(13)得到的非違約樣本數,非違約樣本的判別精度越大,說明判別的非違約樣本數與實際非違約樣本數越接近,指標體系的判別效果越好。
設M是全部樣本的判別精度,則有[23]:
式(16)的含義:全部樣本的判別精度等于違約樣本的判別精度和非違約樣本的判別精度的算術平均數,全部樣本的判別精度越大,說明指標體系的判別效果越好。
1.3.8 基于Bayes判別指標篩選的具體步驟
步驟1:將所有樣本n個指標標準化后的數據代入式(7)至式(16),可以得到n個指標的判別精度M0。
步驟2:剔除n個指標中的第1個指標,將剩余的n-1個指標代入式(7)至式(16),可以得到n-1個指標的判別精度M1。
步驟3:以此剔除n個指標中的第2,3,…,n個指標,將剩余的n-1個指標代入式(7)至式(16),可以得到n-1個指標的判別精度Mi。
步驟4:設Ci是第i個指標對判別精度的影響程度,則有:
式(17)的含義:第i個指標對判別精度的影響程度為去掉第i個指標后的判別精度與全部指標判別精度的差值,反映了第i個指標對指標體系判別精度的重要程度。
步驟5:測算所有指標對應的Ci值,根據Ci值與0的關系,決定指標的保留或刪除。若刪除第i個指標后的判別精度大于全部指標的判別精度,即Ci大于0,說明刪除該指標后,指標體系的判別精度提高了,應該刪除該指標;若刪除第i個指標后的判別精度等于全部指標的判別精度,即Ci等于0,說明刪除該指標對指標體系的判別精度沒有影響,應該刪除該指標;若刪除第i個指標后的判別精度小于全部指標的判別精度,Ci小于0,說明刪除該指標后,指標體系的判別精度降低了,應該保留該指標。
步驟6:設Yi是第i個指標對判別精度影響程度所占比重;|Ci|是第i個指標對判別精度影響程度的絕對值;k是Ci小于0的指標數;Y(k)是前k個指標對判別精度影響程度的累計比重。則有:
式(18)和式(19)的含義:根據對判別精度影響程度累計比重Y(k)≥95%的標準篩選指標[24]。將Yi按從大到小的順序依次累加,當Y(k)≥95%時停止累加,保留累加的Yi對應的指標。
對經過第一次篩選后保留的指標在同一準則層內進行非參數聚類,在聚成一類的指標中,刪除非參數聚類中類是由概率密度函數的眾數定義的,聚類過程中采用球均勻核密度估計的方法。設xt是第t個指標;n是指標數;nt是在xt的鄰域內的指標數;vt是xt的近鄰的體積,其中,把以指標xt為中心的球稱為xt的鄰域,在xt鄰域內的指標稱為xt的相鄰指標。則有[25]:
式(20)的含義:概率密度的估計值為以該點為中心的球內的所含指標數除以指標總數和球的體積的乘積。
非參數聚類的具體步驟:
步驟1:首先將每個指標當作一個單獨的類。
步驟2:對每一個指標,找到估計密度較大的最近的相鄰指標,將它們所屬的兩個類合并。
步驟3:對于剩余的指標,找到其估計密度等于某些相鄰指標的估計密度但不小于任何相鄰指標的估計密度,合并含有這樣指標的類。
步驟4:將聚成一類的指標中對判別精度影響程度較小的指標刪除,即刪除上文中計算出的Y值較小的指標,保留判別精度影響程度所占比重最大的信用指標。
根據標普、穆迪等國外金融機構以及中國工商銀行、中國建設銀行等國內金融機構構建的企業(yè)信用評價指標體系,最終建立了包含企業(yè)內部財務因素、企業(yè)內部非財務因素等6個二級準則層,相關行業(yè)從業(yè)年限等68個指標的海選體系。海選指標體系見表2第(b)列和第(c)列。
使用860個企業(yè)信貸數據為模型應用樣本,將第(d)列中標有“正向”的指標所對應的信貸數據代入式(1),標準化后的數值放入表2第1~860列的相應行;將第(d)列中標有“負向”的指標所對應的信貸數據代入式(2),標準化后的數值放入表2第1~860列的相應行;將第(d)列中標有“區(qū)間”的指標所對應的信貸數據代入式(3),標準化后的數值放入表2第1~860列的相應行;對第(d)列中標有“定性”的指標根據表1進行打分,結果放入表2第1~860列的相應行;同時將860個樣本分為違約和非違約兩部分,30個違約樣本列入表2第1~30列,830個非違約樣本列入表2第31~860列,指標數據標準化的最終結果見表2。
表2 標準化數據
將表2中第1~860列的數據按行代入式(4)至式(6),得到所有指標的K-S檢驗的P值,由于計算量較大,應用SAS程序來完成對指標的正態(tài)性檢驗。結果顯示68個指標的檢驗概率P值都小于0.01,可以證明所有指標都不服從正態(tài)分布。因此應該選擇非參數方法對這68個評價指標進行篩選。
以三級準則層“法人代表基本情況”為例,說明非參數Bayes判別篩選指標的具體過程,三級準則層“償債能力”包含的11個指標見表3第1列。
表3 非參數Bayes判別結果 (單位:%)
2.3.1 用11個指標進行非參數Bayes判別得到違約判別精度
將標準化后的數據依次代入式(4)至式(13),可以得到用11個指標進行非參數Bayes判別的結果,上述過程可以通過SAS程序來實現。再將判別結果依次代入式(14)至式(16),得到的違約樣本判別精度Ma0、非違約樣本判別精度Mb0以及全部樣本判別精度M0。在30個違約樣本中,有19個樣本通過非參數Bayes判別被判定為違約樣本,根據式(14),可以得到違約樣本的判別精度Ma0并將結果列入表3第2列第1行。
在830個非違約樣本中,有824個樣本通過非參數Bayes判別被判定為非違約樣本,根據式(15),可以得到非違約樣本的判別精度Mb0并將結果列入表3第2列第2行。
將違約樣本的判別精度Ma和非違約樣本判別精度Mb代入式(16),可以得到全部樣本的判別精度M0并將結果列入表3第2列第3行。
2.3.2 刪除第i個指標后,用其余10個指標進行非參數Bayes判別得到違約判別精度
刪除表3第1列第1行的指標“學歷”,用其余的10個指標重復上文的步驟,可以得到刪除“學歷”指標后的其余10個指標的違約樣本判別精度Ma=43.33%,非違約樣本判別精度Mb=98.92%,全部樣本判別精度M0=71.13%,分別列入表3第1行第3~5列。
同理,依次刪除表3第1列中的第2,3,…,11個指標,用其余的10個指標重復上文的步驟,可以得到刪除該指標后的違約樣本判別精度Ma、非違約樣本判別精度Mb、全部樣本判別精度M0,分別列入表3第2~11行第3~5列。將表3第5列中刪除特定指標后得到的全部樣本判別精度Mi和第2列中全部指標的判別精度M0代入式(16),可以得到該指標對判別精度的影響程度Ci列入表3第6列的相應行。
2.3.3 根據指標對判別精度的影響程度進行指標篩選
根據表3第6列可知,“公司法人代表本地居住年限”和“性別”這兩個指標的Ci值大于0,將這兩個指標的Ci值列入下頁表4第2列第1~2行,其余的9個指標按照Ci絕對值從大到小的順序依次列入表4第2列第3~11行。
表4 非參數Bayes判別指標篩選結果 (單位:%)
根據上文中的篩選標準,表4第1列中前兩個指標的Ci值大于0,說明刪除指標可以提高指標體系的判別精度,因此應該將這兩個指標刪除。
將表4第3列第3~11行的數值代入式(18)可以得到每個指標對判別精度影響程度所占的比重,分別列入表4第4列第3~11行,將表4第4列第3~11行的數值代入式(18)可以得到前k個指判別精度影響程度的累計比重,列入表4第5列第3~11行,保留累計比重達到95%前所對應的指標,即保留表4中第3~10行所對應的指標,刪除表4第11行所對應的指標。
根據以上篩選的過程,在三級準則層“法人代表基本情況”的11個指標中,有8個指標被保留,3個指標被刪除,篩選結果列入表4第6列。
同理,對每一準則層重復上述篩選過程,可以得到全部指標的篩選結果,68個指標通過非參數Bayes判別的第一輪篩選,共有34個指標被刪除,34個指標被保留。
對第一次篩選后保留的34個指標在各自的準則層內進行非參數聚類。將標準化后的數據代入式(20)可以得到每個指標的估計密度,首先把每個指標當作一個單獨的類;對每一個指標,找到估計密度較大的最近的相鄰指標,將它們所屬的兩個類合并;對于剩余的指標,找到其估計密度等于某些相鄰指標的估計密度但不小于任何相鄰指標的估計密度,合并含有這樣指標的類。由于此計算過程比較復雜,可以通過SAS程序來實現,非參數聚類的結果見表5。
表5 非參數聚類指標篩選結果 (單位:%)
表5顯示:34個指標通過非參數聚類的第二輪篩選,共有14個指標被刪除,20個指標被保留。
經過非參數Bayes判別的第一輪篩選和非參數聚類的第二輪篩選,68個指標中共有48個指標被刪除,20個指標被保留,最終建立的信用評價指標體系見表6第2列。
2.5.1 指標體系與5C的對應分析
從表6可知,指標體系涵蓋了5C原則包括的五個方面:品質、資本、能力、擔保、經營環(huán)境。超速動比率等5個指標反映了5C原則的資本原則。年齡等11個指標反映了5C原則的能力原則。企業(yè)法律糾紛情況指標反映了5C原則的品質原則。GDP增長率等2個指標反映了5C原則的環(huán)境原則。抵質押得分指標反映了5C原則的擔保原則。
表6 最終構建的信用評價體系
2.5.2 海選指標體系與篩選后指標體系判別精度的對比
通過表7可以看出,經過兩輪篩選后指標體系對于違約樣本的判別精度由46.67%提高到了53.33%,對全部樣本的判別精度由73.04%提高到了76.37%,說明由表6中20個信用指標構成的信用評價指標體系對于判別樣本的違約狀態(tài)具有更好的效果。
表7 篩選前后指標體系判別精度對比 (單位:%)
(1)通過非參數貝葉斯判別的第一輪信用指標篩選和非參數聚類的第二輪信用指標篩選,本文最終構建了非參數下貝葉斯判別與聚類分析的信用指標篩選模型并進行了應用分析。最終構建的20個信用指標涵蓋了國際經典的5C原則所包含的五個方面。
(2)實證結果表明,海選指標體系的判別精度為73.04%,本文最終構建的指標體系的判別精度為76.37%,篩選后相比篩選前提高了3個百分點。
(3)通過非參數核密度方法估計出指標的分布函數并構建違約客戶與非違約客戶的二分類貝葉斯判別模型,刪除判別精度影響度大于等于0的信用指標,保留判別精度影響度小于0的信用指標,確保保留的指標具有顯著判別企業(yè)違約狀態(tài)的能力。
(4)通過非參數聚類將第一輪篩選所保留的指標聚為19類,在聚為一類的指標中保留判別精度影響度比重最大的信用指標,避免了在刪除冗余指標時,誤刪對判別違約狀態(tài)影響大的指標。