汪 敏 傅祺煒
?
基于樸素貝葉斯網(wǎng)絡(luò)的上市公司信用風(fēng)險(xiǎn)預(yù)警研究
汪敏傅祺煒
傅祺煒(1991-),女,漢,江西吉安人,碩士研究生,研究方向:公司理財(cái)。
摘要:本文運(yùn)用PCA方法提取出對(duì)信用風(fēng)險(xiǎn)具有顯著影響的特征指標(biāo),同時(shí)運(yùn)用EP-T方法離散樣本數(shù)據(jù)并學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)與參數(shù),以此建立樸素貝葉斯網(wǎng)絡(luò)(Naive Bayesian Network,NB)信用風(fēng)險(xiǎn)預(yù)警模型;最后通過(guò)交叉驗(yàn)證(Cross Validation)對(duì)模型進(jìn)行5次獨(dú)立建模測(cè)試,并利用性能評(píng)價(jià)指標(biāo)將NB模型與Logistic模型、MLP神經(jīng)網(wǎng)絡(luò)模型、RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比分析。實(shí)證研究結(jié)果表明,盡管四種模型均能對(duì)上市公司信用風(fēng)險(xiǎn)進(jìn)行預(yù)警,但NB模型表現(xiàn)出了更好的預(yù)測(cè)精度與穩(wěn)定性。
關(guān)鍵詞:信用風(fēng)險(xiǎn);NB模型;PCA;EP-T方法;交叉驗(yàn)證
引言
現(xiàn)代市場(chǎng)經(jīng)濟(jì)是建立在信用基礎(chǔ)上的信用經(jīng)濟(jì),如何提高信用風(fēng)險(xiǎn)預(yù)測(cè)精度、強(qiáng)化信用風(fēng)險(xiǎn)識(shí)別能力,越來(lái)越受到各國(guó)監(jiān)管部門的重視。而上市公司作為我國(guó)經(jīng)濟(jì)發(fā)展的核心力量,一旦發(fā)生信用違約,不但會(huì)損害投資者的利益,而且會(huì)進(jìn)一步降低信用評(píng)級(jí),從而增加融資成本、限制融資渠道,嚴(yán)重的會(huì)使公司陷入破產(chǎn)的境地。因此,構(gòu)建科學(xué)有效地信用風(fēng)險(xiǎn)預(yù)警模型對(duì)促進(jìn)我國(guó)經(jīng)濟(jì)的健康發(fā)展具有重要的理論意義與實(shí)踐意義。
而貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)模型以貝葉斯理論為基礎(chǔ),不僅能更好地結(jié)合先驗(yàn)信息與樣本信息,而且能挖掘數(shù)據(jù)間的因果關(guān)系,因而被廣泛運(yùn)用于信用風(fēng)險(xiǎn)預(yù)警中。其中,樸素貝葉斯網(wǎng)絡(luò)(Naive Bayesian Network,NB)模型,因其網(wǎng)絡(luò)結(jié)構(gòu)的簡(jiǎn)易性以及在相關(guān)領(lǐng)域中的優(yōu)秀表現(xiàn)受到了學(xué)者的廣泛關(guān)注。鑒于此,本文將NB模型運(yùn)用于上市公司信用風(fēng)險(xiǎn)預(yù)警研究。
一、上市公司信用風(fēng)險(xiǎn)預(yù)警方法的構(gòu)建
(一)構(gòu)建上市公司信用風(fēng)險(xiǎn)預(yù)警模型
圖1 樸素貝葉斯網(wǎng)絡(luò)模型
而在NB模型中,節(jié)點(diǎn)變量之間的參數(shù)學(xué)習(xí)即為學(xué)習(xí)各節(jié)點(diǎn)的條件概率,從而構(gòu)成條件概率表CPT。根據(jù)貝葉斯規(guī)則,計(jì)算有關(guān)屬性節(jié)點(diǎn)所對(duì)應(yīng)的父節(jié)點(diǎn)出現(xiàn)的概率就歸結(jié)為實(shí)現(xiàn)最大后驗(yàn)概率(Maximum A Posterior,MAP),即求:
(1)
其中P(x1,x2,…,xn)是常量,因此,本文要判斷上市公司是否發(fā)生信用風(fēng)險(xiǎn),只需要根據(jù)訓(xùn)練集D1學(xué)習(xí)信用風(fēng)險(xiǎn)特征指標(biāo)所代表的屬性變量的條件概率P(xi|cm),(i=1,2,…,n)與先驗(yàn)概率P(cm),即可得到網(wǎng)絡(luò)參數(shù)。
二、實(shí)證結(jié)果與分析
(一)樣本選取
本文數(shù)據(jù)主要來(lái)源于CSMAR數(shù)據(jù)庫(kù)。研究的樣本數(shù)據(jù)為從2000年到2013年間我國(guó)A股市場(chǎng)因財(cái)務(wù)狀況異常而被特別處理(ST)的157家上市公司作為作為信用風(fēng)險(xiǎn)樣本和與其配對(duì)的789家財(cái)務(wù)正常公司作為非信用風(fēng)險(xiǎn)樣本,總共946家公司作為研究樣本。
(二)特征指標(biāo)選取與篩選
鑒于以往的研究成果,本文選取樣本第(t-2) 年而不是第(t-1)年的財(cái)務(wù)指標(biāo)數(shù)據(jù),且第(t-2)年時(shí)該ST公司并非處于ST狀態(tài)作為研究依據(jù)[6,7]?;诖?,初步選取了反映企業(yè)盈利能力、償債能力和營(yíng)運(yùn)能力等6個(gè)類別共16個(gè)財(cái)務(wù)指標(biāo)作為建模的備選指標(biāo),見表1。
表1 待篩選預(yù)警指標(biāo)變量
由表1可以看出,本文所選取的預(yù)警指標(biāo)包含6個(gè)類別,每個(gè)類別都包含多個(gè)備選財(cái)務(wù)指標(biāo),考慮到財(cái)務(wù)指標(biāo)之間存在高度相關(guān)性,還將運(yùn)用PCA方法對(duì)備選指標(biāo)進(jìn)行篩選,從而降低甚至消除指標(biāo)變量間的多重共線性影響。
由表2的KMO統(tǒng)計(jì)量和Bartlett球形檢驗(yàn)結(jié)果看出,本文研究樣本的KMO統(tǒng)計(jì)量為0.578>0.5,顯著性水平P=0.000<0.05,說(shuō)明運(yùn)用PCA方法是合適的。
表2 KMO統(tǒng)計(jì)量檢驗(yàn)和Bartlett球形檢驗(yàn)
根據(jù)各指標(biāo)的貢獻(xiàn)率,并依據(jù)特征值大于1的原則,本文利用PCA方法提取出7個(gè)因子,其累計(jì)貢獻(xiàn)率為85.923%,大于80%,說(shuō)明所提取出的7個(gè)因子能夠比較全面地反映上市公司的全部信息。最后,根據(jù)載荷因子矩陣,得到7個(gè)因子分別為凈資產(chǎn)收益率(X1)、總資產(chǎn)收益率(X2)、資產(chǎn)負(fù)債率(X6)、總資產(chǎn)周轉(zhuǎn)率(X10)、凈資產(chǎn)比率(X12)、固定資產(chǎn)比率(X14)和每股收益(X15)。
(三)基于樸素貝葉斯網(wǎng)絡(luò)的信用風(fēng)險(xiǎn)預(yù)警模型的確定
由于貝葉斯網(wǎng)絡(luò)主要用來(lái)處理離散數(shù)據(jù),而定量財(cái)務(wù)指標(biāo)幾乎全部為連續(xù)取值屬性,鑒于多數(shù)財(cái)務(wù)指標(biāo)表現(xiàn)出“尖峰后尾”的特點(diǎn),本文采用更能捕捉這種分布特點(diǎn)的EP-T(Extended Pearson-Tukey)方法對(duì)篩選出的7個(gè)連續(xù)預(yù)警指標(biāo)進(jìn)行離散化處理。然后,模型的參數(shù)學(xué)習(xí)就可以利用網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合訓(xùn)練樣本數(shù)據(jù)學(xué)習(xí)獲得,具體結(jié)果見表3。
表3 條件概率表
(四)模型預(yù)測(cè)效果分析
為了增強(qiáng)實(shí)證研究的穩(wěn)健性,本文采用交叉驗(yàn)證,分5次從信用風(fēng)險(xiǎn)樣本和非信用風(fēng)險(xiǎn)樣本中各抽取30家和140家公司組成測(cè)試樣本,同時(shí)將余下的776家公司作為訓(xùn)練樣本。利用訓(xùn)練樣本分別建立NB模型、Logistic模型、MLP神經(jīng)網(wǎng)絡(luò)模型和RBF神經(jīng)網(wǎng)絡(luò)模型,并利用測(cè)試樣本對(duì)各模型的性能評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析,結(jié)果如表4所示。
表4 上市公司信用風(fēng)險(xiǎn)預(yù)警模型分類準(zhǔn)確率
由表4可以看出,四種模型的平均整體預(yù)測(cè)分類準(zhǔn)確率Pall都在80%以上,說(shuō)明四種模型都具有較好的分類效果,但是對(duì)比而言,NB模型分類準(zhǔn)確率相對(duì)較高,達(dá)到了91.88%;而從錯(cuò)誤分類來(lái)看,四種模型發(fā)生第一類錯(cuò)誤比率Perror1都相對(duì)較低,而發(fā)生第二類錯(cuò)誤比率Perror2都相對(duì)較高,但NB模型發(fā)生兩類錯(cuò)誤比率都是最低的,尤其是發(fā)生第一類錯(cuò)誤的比率只有2.66%。
圖2 四種模型的整體預(yù)測(cè)分類準(zhǔn)確率Pall對(duì)比折線圖
進(jìn)一步地,從圖2可以直觀地看出,Logistic模型整體預(yù)測(cè)分類準(zhǔn)確率相對(duì)較低,說(shuō)明Logistic模型對(duì)信用風(fēng)險(xiǎn)的預(yù)測(cè)精度相對(duì)于其他三種模型而言較低;而將NB模型與MLP神經(jīng)網(wǎng)絡(luò)模型以及RBF神經(jīng)網(wǎng)絡(luò)模型對(duì)比發(fā)現(xiàn),兩種神經(jīng)網(wǎng)絡(luò)模型波動(dòng)幅度都比NB模型大,尤其是RBF神經(jīng)網(wǎng)絡(luò)模型的波動(dòng)幅度最大,說(shuō)明神經(jīng)網(wǎng)絡(luò)模型對(duì)信用風(fēng)險(xiǎn)測(cè)度缺乏一定的穩(wěn)定性。通過(guò)以上對(duì)比發(fā)現(xiàn),盡管四種模型均能對(duì)上市公司的信用風(fēng)險(xiǎn)進(jìn)行研究,NB模型則表現(xiàn)出了更高的分類準(zhǔn)確率和穩(wěn)定性。
三、結(jié)論
就整體上而言,NB模型更能夠?qū)︻愃菩庞蔑L(fēng)險(xiǎn)這樣的具有復(fù)雜非線性關(guān)系的風(fēng)險(xiǎn)管理問(wèn)題進(jìn)行有效預(yù)警,具有很高的實(shí)用價(jià)值。對(duì)于投資者而言,能夠運(yùn)用NB模型提前捕捉風(fēng)險(xiǎn)信號(hào),進(jìn)而作出合理的投資決策以規(guī)避風(fēng)險(xiǎn)帶來(lái)的損失;對(duì)于相關(guān)的政府經(jīng)濟(jì)管理者而言,能夠運(yùn)用NB模型對(duì)可能發(fā)生風(fēng)險(xiǎn)問(wèn)題的領(lǐng)域進(jìn)行預(yù)測(cè),及時(shí)制定合理的監(jiān)管政策,從而穩(wěn)定市場(chǎng)秩序,促進(jìn)經(jīng)濟(jì)的持續(xù)健康發(fā)展。(作者單位:成都理工大學(xué)商學(xué)院)
參考文獻(xiàn):
[1]張鵬,曹陽(yáng).上市公司信用風(fēng)險(xiǎn)度量研究[J].財(cái)經(jīng)問(wèn)題研究,2012,(3):66-71
[2]Pearl J.Probabilistic reasoning in intelligent system:networks of plausible inference[J].California:Morgan Kaufman,1988,(3):383-408
[3]Heckerman D.Bayesian networks for data mining [J].Data Mining and Knowledge Discovery, 1997,(1):79-119
[4]Friedman N, Geiger D.Bayesian network classifier[J].Machine Learning,1997,(22):131-163
[5]石洪波,劉亞琴,等.貝葉斯分類器的判別式參數(shù)學(xué)習(xí)[J].計(jì)算機(jī)應(yīng)用,2011,(4):1075-1078
[6]任永平,梅強(qiáng).中小企業(yè)信用評(píng)級(jí)指標(biāo)體系探討[J].現(xiàn)代經(jīng)濟(jì)探討,2001,(4):60-62
[7]劉國(guó)風(fēng).企業(yè)財(cái)務(wù)危機(jī)預(yù)警應(yīng)確立的指標(biāo)體體系[J].商業(yè)研究,2009,(3):153-156
[8]劉淑蓮,王真,等.基于因子分析的上市公司信用評(píng)級(jí)應(yīng)用研究[J].財(cái)經(jīng)問(wèn)題研究,2008,(7):53-60
[9]Keefer, D.L., Bodily, S.E.-Point Approximations for Continuous Random Variables [J].Management Science, 1983,(29):595-609
作者簡(jiǎn)介:汪敏(1990-),女,漢,安徽六安人,碩士研究生,研究方向:公司理財(cái)。