摘要:利用支持向量機(jī)(SVM)-Logistic回歸的混合兩階段模型來(lái)對(duì)上市公司信用風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)。通過(guò)Logistic回歸分析來(lái)對(duì)SVM的輸出結(jié)果進(jìn)行修正,降低了傳統(tǒng)SVM方法的經(jīng)驗(yàn)風(fēng)險(xiǎn),提高了分類準(zhǔn)確率。對(duì)SVM-Logistic回歸模型、SVM和神經(jīng)網(wǎng)絡(luò)-Logistic 回歸模型進(jìn)行實(shí)證比較,結(jié)果表明,支持向量機(jī)-Logistic回歸模型的總判別準(zhǔn)確率高于其他判別模型。
關(guān)鍵詞:SVM;Logistic回歸;信用風(fēng)險(xiǎn)評(píng)價(jià)
中圖分類號(hào):F276.3 文獻(xiàn)標(biāo)識(shí)碼:A
Listed Companies′ Credit Risk Evaluation Based on Integration Model
ZHANG Jie,WANG Fan
(School of Economics and Management,Beijing University of Technology, Beijing 100022,China)
Abstract: This paper uses the Support Vector Machine (SVM) and Logistic Regression for corporate financial risk evaluation. This can decrease the empirical risk of SVM outputs by interpreting and modifying the outputs of the SVM classifiers according to the result of Logistic Regression analysis so that it improves the accuracy of classifier rate. Compared with the models of SVM and NN-Logistic , the result shows that the integrated binary discriminant rule proves more accurate classifier rate than that of other models.
Key words:SVM;Logistic regression;credit risk evaluation
一、 引言
在現(xiàn)代市場(chǎng)經(jīng)濟(jì)中,信用是一切經(jīng)濟(jì)關(guān)系的基礎(chǔ)。上市企業(yè)總體而言代表著我國(guó)各行業(yè)資產(chǎn)質(zhì)量較好、營(yíng)運(yùn)水平較高的企業(yè),但由于一些歷史原因和人為因素,也有部分上市企業(yè)出現(xiàn)了過(guò)度包裝,欺騙上市,損害投資者利益的情況。有些上市公司上市不久便被特別處理,也有些在債務(wù)方面依靠借新債還舊債的方式維持企業(yè)的發(fā)展,有的甚至出現(xiàn)違約情況,使債權(quán)方的利益受到損失。因此,建立科學(xué)合理的上市公司信用評(píng)價(jià)模型就具有十分重要的意義。
自Altman在公司破產(chǎn)及信用風(fēng)險(xiǎn)分析的開創(chuàng)性工作以來(lái),國(guó)內(nèi)外學(xué)者從不同角度進(jìn)行了上市公司信用風(fēng)險(xiǎn)的研究,形成了兩類模型,一類是統(tǒng)計(jì)模型,另一類是人工智能模型。每種模型都有各自的優(yōu)點(diǎn),但同時(shí)還存在一定的局限性。對(duì)Logistic 回歸方法而言,其優(yōu)點(diǎn)主要是其穩(wěn)健性較好、模型的可解釋性較強(qiáng)、可以產(chǎn)生一個(gè)線性評(píng)分卡,缺點(diǎn)則是其預(yù)測(cè)精度比神經(jīng)網(wǎng)絡(luò)差。對(duì)神經(jīng)網(wǎng)絡(luò)方法而言,主要優(yōu)點(diǎn)是預(yù)測(cè)精度較高,其缺點(diǎn):一是穩(wěn)健性不夠好,當(dāng)用保留樣本進(jìn)行預(yù)測(cè)時(shí),精度下降較多;二是模型的解釋性不強(qiáng),建模過(guò)程基本上是一個(gè)“黑箱”;三是它主要用于分類,即將申請(qǐng)人分成“好客戶”和“壞客戶”,而不能像判別分析、Logistic 回歸等方法那樣產(chǎn)生線性評(píng)分卡。因此不斷優(yōu)化上市公司信用風(fēng)險(xiǎn)評(píng)價(jià)模型的判別精度,是當(dāng)前研究上市公司信用風(fēng)險(xiǎn)問(wèn)題的焦點(diǎn)。
楊宏峰、陳蔚(2006)[1]綜合了神經(jīng)網(wǎng)絡(luò)和Logistic回歸模型的優(yōu)點(diǎn),首先利用神經(jīng)網(wǎng)絡(luò)方法建立一個(gè)信用評(píng)分模型,然后將神經(jīng)網(wǎng)絡(luò)評(píng)分的結(jié)果作為解釋變量之一,再加上其余的特征變量,最后建立一個(gè)基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸的混合兩階段模型,并對(duì)上市公司的財(cái)務(wù)困境進(jìn)行了實(shí)證研究,取得了滿意的結(jié)果。
筆者將基于小樣本的支持向量(SVM) 與Logistic回歸模型混合來(lái)對(duì)上市公司信用風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)。實(shí)證結(jié)果表明,支持向量機(jī)-Logistic回歸混合兩階段模型的總判別準(zhǔn)確率高于其他判別模型。
二、數(shù)據(jù)來(lái)源與處理
(一)上市公司樣本選取及數(shù)據(jù)處理
選取上市公司的財(cái)務(wù)數(shù)據(jù)作為數(shù)據(jù)來(lái)源,以上市公司因財(cái)務(wù)原因被ST(特別處理)作為界定公司處于財(cái)務(wù)危機(jī)的標(biāo)志??紤]到ST本身的滯后性,根據(jù)公司被ST前二年的財(cái)務(wù)數(shù)據(jù)來(lái)預(yù)測(cè)公司是否已經(jīng)處于財(cái)務(wù)困境。根據(jù)我國(guó)的實(shí)際情況,在樣本中將以下ST公司排除:(1)已經(jīng)被披露存在嚴(yán)重假賬的公司;(2)上市兩年就被ST的公司,這樣的公司極有可能是為了不正當(dāng)目的被虛假包裝上市。與ST公司相對(duì)應(yīng),也去掉了一部分正常公司:(1)已經(jīng)被披露存在嚴(yán)重假賬的公司;(2)據(jù)研究表明,金融機(jī)構(gòu)的財(cái)務(wù)結(jié)構(gòu)是與非金融機(jī)構(gòu)有著很大不同的。因此,將金融機(jī)構(gòu)從樣本中排除出去。
筆者將總樣本分為兩組,一組為訓(xùn)練樣本組,用來(lái)構(gòu)建預(yù)測(cè)模型;另一組為測(cè)試樣本組,用來(lái)測(cè)試預(yù)測(cè)模型的分類準(zhǔn)確率。根據(jù)數(shù)據(jù)處理結(jié)果,將滬深上市公司2004年的40家公司(ST公司20個(gè)和非ST公司20個(gè))作為訓(xùn)練樣本,并將2005年的54家公司(ST公司27個(gè)和非ST公司27個(gè))作為測(cè)試樣本,其中非ST公司是按照當(dāng)年上市公司信用評(píng)級(jí)由高到低抽取的。(數(shù)據(jù)來(lái)源http://www.stockstar.com)。為了表述方便,將上市公司ST前一年計(jì)為t-1年,前兩年記為t-2年。
(二) 指標(biāo)選擇
企業(yè)財(cái)務(wù)指標(biāo)主要分五類:償債能力指標(biāo)、營(yíng)運(yùn)能力指標(biāo)、盈利能力指標(biāo)、成長(zhǎng)能力指標(biāo)和現(xiàn)金流量指標(biāo)。從中選擇有代表性的8個(gè)指標(biāo)。
X1=流動(dòng)比率 X2=負(fù)債比率
X3=存貨周轉(zhuǎn)率 X4=總資產(chǎn)周轉(zhuǎn)率
X5=凈資產(chǎn)收益 X6=每股收益
X7=總利潤(rùn)增長(zhǎng)率 X8=每股經(jīng)營(yíng)現(xiàn)金流量
這些指標(biāo)的選用,既考慮了公司的資產(chǎn)與負(fù)債能力,同時(shí)兼顧到公司的盈利能力與成長(zhǎng)能力,能夠充分體現(xiàn)公司
的信用狀況(所有指標(biāo)均來(lái)自證券之星公布的滬深上市公司財(cái)務(wù)綜合指標(biāo))。
三、 基于SVM-Logistic回歸的混合兩階段模型
支持向量機(jī)是Vapnik1995年提出的[2]。傳統(tǒng)的SVM模型建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則(SRM)的基礎(chǔ)上,已被證明優(yōu)于傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則(ERM)。Madevska -Bogdanova, Nikolik, and Curfs (2004)指出SVM的輸出結(jié)果可以被認(rèn)為是點(diǎn)到超平面的距離,即依靠點(diǎn)到超平面的相關(guān)距離來(lái)建立分類模型。點(diǎn)到超平面的距離越近,被誤判的風(fēng)險(xiǎn)就越高;反之,點(diǎn)到超平面的距離越遠(yuǎn),則被誤判的風(fēng)險(xiǎn)就越低。因此要想提高傳統(tǒng)SVM的分類準(zhǔn)確率,就要用ERM原則來(lái)修正那些存在高風(fēng)險(xiǎn)的SVM模型的輸出結(jié)果。
SVM-Logistic混合兩階段模型首先利用支持向量機(jī)建立一個(gè)信用風(fēng)險(xiǎn)評(píng)價(jià)模型,然后將支持向量機(jī)的評(píng)分結(jié)果作為解釋變量之一,再加上其余特征變量,最后建立一個(gè)基于Logistic回歸的上市公司信用風(fēng)險(xiǎn)評(píng)價(jià)模型,對(duì)支持向量機(jī)的分類結(jié)果進(jìn)行修正。由于支持向量機(jī)方法預(yù)測(cè)精度高,因此,其信用評(píng)分結(jié)果綜合了解釋變量與因變量之間關(guān)系的更多信息,將這種信用評(píng)分結(jié)果作為解釋變量之一,能夠大大提高模型的預(yù)測(cè)精度。而最終Logistic回歸模型的建立,又保證了模型的穩(wěn)定性、可解釋性。因此,SVM-Logistic混合兩階段模型有較高的預(yù)測(cè)精度。
(一)支持向量機(jī)判別模型
量機(jī)的誤判率為fj。將支持向量機(jī)訓(xùn)練得出的結(jié)果作為一個(gè)解釋變量,加入到訓(xùn)練樣本集。利用Logistic回歸模型計(jì)算出y=1時(shí)x發(fā)生的概率p:如果p>fj,則混合模型將接受此輸出結(jié)果;如果p 同理當(dāng)SVM的輸出為y=-1可以用上述同樣的方法進(jìn)行修正。 將8個(gè)指標(biāo)作為8個(gè)解釋變量,將SVM訓(xùn)練結(jié)果作為一個(gè)解釋變量與原有8個(gè)解釋變量共同進(jìn)行Logistic回歸模型分析,構(gòu)造Logistic回歸樣本集(X,Y),其中X的維數(shù)為9,Y∈{0,1} ,Y=1表示信用狀況良好,Y=0表示信用狀況較差。取pi>0.5,如果pi>0.5,取Y=1;反之,如果Pi<0.5,取Y=0。 (三) 比較結(jié)果及分析 筆者將SVM-Logistic混合兩階段方法、支持向量機(jī)方法和神經(jīng)網(wǎng)絡(luò)——Logistic回歸混合兩階段方法的訓(xùn)練結(jié)果進(jìn)行比較,其中訓(xùn)練集對(duì)應(yīng)t-1年和t-2年的數(shù)據(jù)分別表示所選2004年的上市公司對(duì)應(yīng)2002年和2003年的數(shù)據(jù),測(cè)試集對(duì)應(yīng)t-1年和t-2年的數(shù)據(jù)分別表示所選2005年的上市公司對(duì)應(yīng)2003年和2004年的數(shù)據(jù),比較結(jié)果如表1: 從訓(xùn)練結(jié)果可以看出SVM-Logistic混和兩階段模型的判別準(zhǔn)確率對(duì)應(yīng)t-1年、t-2年分別為94%、94%;SVM的判別準(zhǔn)確率對(duì)應(yīng)t-1年、t-2年分別為91%、92%; NN-Logistic回歸模型對(duì)應(yīng)t-1年、t-2年的判別準(zhǔn)確率分別為89%、91%。比較結(jié)果SVM-Logistic混和兩階段模型的判別準(zhǔn)率最高。 從表1中還可以看出用上市公司ST前一年和前兩年的數(shù)據(jù)來(lái)預(yù)測(cè)上市公司的信用狀況的準(zhǔn)確率相近,且準(zhǔn)確率幾乎都達(dá)到85%以上。說(shuō)明上市公司信用狀況可以提前兩年就能預(yù)測(cè)到。 四、 結(jié)論 以上實(shí)證結(jié)果表明基于SVM-Logistic回歸的混合兩階段模型與其他分類模型相比有最高的分類準(zhǔn)確率。該模型綜合了SVM和Logistic回歸模型的優(yōu)點(diǎn),具有總體上的優(yōu)越性。上市公司ST前一年和前兩年的判別結(jié)果相近,因此利用此模型可以預(yù)測(cè)上市公司兩年后的信用風(fēng)險(xiǎn)狀況,為上市公司預(yù)警或投資者的投資提供幫助。 參考文獻(xiàn): [1] 楊宏峰,陳蔚.基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸的混合兩階段財(cái)務(wù)困境預(yù)測(cè)模型[J].統(tǒng)計(jì)與決策,2006(10):157-159. [2] Cortes,Vapnik. Support vector networks[J].Machine Learning,1995,20(3). [3] Zhongsheng Hua.Predicting corporate financial distress based on integration of support vector machine and logistic regression[J].Expert Systems with Applications,2006. [4] 楊宏峰.上市公司財(cái)務(wù)困境判別模型的理論分析與實(shí)證研究[C].山東大學(xué)碩士論文,2006-04. [5] 石慶焱.一個(gè)基于神經(jīng)網(wǎng)絡(luò)-Logistic回歸混合兩階段個(gè)人信用評(píng)分模型研究[J].統(tǒng)計(jì)研究,2005(5):45-49. (責(zé)任編輯:張淑蓮) 注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。”