滕樹軍 劉麗平 劉柏森
摘要:隨著經(jīng)濟的全球化,作為市場經(jīng)濟交易基礎(chǔ)的公司信用研究,已趨于社會化、普遍化。信用關(guān)系或者債券關(guān)系已經(jīng)成為一種非?;镜慕?jīng)濟關(guān)系。而在公司交易規(guī)模不斷壯大的同時,信用風險也隨之而來。本文首先采用Lasso方法從可能影響上市公司信用評價的眾多財務(wù)指標中挑選出現(xiàn)金比率、資產(chǎn)負債率、長期資本負債率、固定資產(chǎn)比率等17個重要影響因素,然后再運用支持向量機方法對上市公司信用評價進行預測。實際研究結(jié)果表明本文所提出的Lasso與SVM相結(jié)合的新方法的擬合預測效果要優(yōu)于單純SVM方法的預測效果。
關(guān)鍵詞:Lasso;支持向量機;信用評價
中圖分類號:F830.91 文獻識別碼:A 文章編號:1001-828X(2018)018-0022-03
一、引言及文獻綜述
隨著經(jīng)濟的全球化,作為市場經(jīng)濟交易基礎(chǔ)的公司信用問題,已日漸趨于社會化、普遍化?,F(xiàn)代市場經(jīng)濟是建立在信用基礎(chǔ)上的經(jīng)濟,從某種意義上說市場經(jīng)濟就是信用經(jīng)濟。在資本市場快速發(fā)展的過程中,上市公司在我國經(jīng)濟發(fā)展中起著重要作用,已經(jīng)成為我國國民經(jīng)濟發(fā)展的中堅力量。截至2016年12月,我國滬市和深市上市公司總數(shù)量達到3025家,總市值達到508245億元,與2016年我國GDP的比值為68%。上市公司是我國信貸市場中商業(yè)銀行的主要授信主體,也是我國資本市場上股票和債券的主要融資主體。商業(yè)銀行已經(jīng)把信用風險列為經(jīng)營管理中所面臨風險中的首要風險,同樣,作為資本市場上十分重要的融資主體,上市公司如果發(fā)生失信事件,將會在資本市場中產(chǎn)生更加劇烈與重大的影響。所以對上市公司進行信用評價,可以使投資主體能夠更準確地評價被授信公司的信用狀況,有效地減少投資者所面臨的投資風險,從而做出準確的判斷。
國外很早就對公司信用風險評定展開了研究,并將其研究結(jié)果廣泛應(yīng)用于銀行、企業(yè)及投資機構(gòu)等。從最開始的借助于專家的經(jīng)驗來評判公司信用情況,到20世紀70-80年代,發(fā)展到以公司財務(wù)指標為基礎(chǔ)來進行公司信用風險的評定。Beaver(1967)將判別分析方法引入到信用風險分析中,美國學者Altman(1968)將一元判別模型擴展為多元判別模型。隨著不斷的研究,Altman、Haldeman和Narayanan(1977)將Z-score模型進行優(yōu)化,最終建立了Zeta判別分析模型。亞洲金融風暴之后,全世界又興起了打破舊的信用風險分析方法,隨著計算機的快速發(fā)展,機器學習理論被廣泛應(yīng)用到企業(yè)風險評估當中,主要方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(SVM)等。
國內(nèi)對公司信用風險評價的研究要晚一些,應(yīng)用的方法主要有Logistic回歸、KMV與Logistic模型的結(jié)合、多元自適應(yīng)回歸樣條(MARs)和支持向量機。胡安冉和孫云(2012)利用2010年股票市場上6家ST公司以及4家已經(jīng)上市并正常運轉(zhuǎn)的公司財務(wù)報表的數(shù)據(jù)為研究素材,建立了Logistic模型,評價了上市公司的信用風險,并驗證了其模型的適用性,總體預測準確率為88%。梁琪(2005)運用主成分分析法與logistic回歸分析相結(jié)合的方法,對我國滬深兩市上市公司的經(jīng)營失敗進行了實證研究,結(jié)果表明該方法在模型解釋和預測準確率等方面均優(yōu)于簡單的Logistic模型分析。孫森和王玲(201 4)利用KMV模型計算得到違約距離(DD),并將DD值與Z-score模型中的五個參數(shù)作為自變量引入Logit模型中,實現(xiàn)KMV模型與Logit模型的結(jié)合,得到了能夠評估企業(yè)違約可能性的二元選擇Logit模型,在滬市制造業(yè)違約可能性的評估中得到了較為理想的結(jié)果。彭穎(2012)在研究企業(yè)信用評估模型研究中,利用上市企業(yè)的財務(wù)數(shù)據(jù),設(shè)計了信用分析的指標體系,利用多元自適應(yīng)回歸樣條(MARs)方法對企業(yè)的信用狀況建立信用評估模型,依據(jù)上市公司2008年的財務(wù)數(shù)據(jù)建立MARS模型,并與Logistic模型進行對比,發(fā)現(xiàn)MARS模型擬合精度及預測能力均強于Logistic模型。
近些年來,SVM方法已被廣泛應(yīng)用于上市公司財務(wù)信用評價預測方法研究中,石秀福(2008)利用高斯核函數(shù)的SVM建立上市公司財務(wù)風險評價模型,從上市公司13個主要財務(wù)資料中選出部分指標,建立了42種財務(wù)風險評價預測模型,并利用這42種模型對評估預測精度進行比較研究,說明了基于高斯核函數(shù)的SVM在上市公司進行財務(wù)風險評價預測的優(yōu)越性。還有其它文獻也利用SVM方法研究中國上市公司的風險,通過對上市公司的財務(wù)比率進行建模和仿真研究,發(fā)現(xiàn)SVM方法對所選取的樣本具有很好的分類效果,在上市公司的風險預測方面具有很強的準確性和可行性。
雖然SVM方法比較適合處理具有非線性關(guān)系的小樣本數(shù)據(jù),但當解釋變量較多時,SVM的預測精度不高,因而本文提出Lasso方法與SVM相結(jié)合的方法。首先利用Lasso方法對上市公司信用評價的影響因素進行變量選擇,剔除對上市公司信用評價不顯著的財務(wù)指標,從而實現(xiàn)降低數(shù)據(jù)維度的目的;然后利用支持向量機的非線性運算能力,完成對上市公司信用評價的擬合和預測。實際研究結(jié)果表明,這種新的Lasso-SVM方法的預測能力要高于直接運用SVM方法的預測能力,對于上市公司信用評價問題,有著較好的預測效果。
二、理論準備
1.基于Lasso方法的變量選擇
變量選擇主要是通過統(tǒng)計方法從繁多的變量中選出對響應(yīng)變量有很大影響的解釋變量,變量選擇的結(jié)果的好壞嚴重地影響著所建模型的質(zhì)量,進而對統(tǒng)計預測精度產(chǎn)生較大的影響。傳統(tǒng)的變量選擇方法有逐步回歸法、AIC準則、BIC準則、準則等,其本質(zhì)上是子集選擇法,其特點是無序性和離散性,在選擇的過程中,有一些變量被模型剔除,有一些變量被模型選擇,當解釋變量較多時,子集選擇方法的方差通常較高,不能達到降低模型預測誤差的目的。
Tibshirani(1996)于1996年給出了基于懲罰函數(shù)思想的Lass0方法,通過給模型參數(shù)增加范數(shù)的懲罰函數(shù),對系數(shù)進行壓縮。因為該模型是通過調(diào)整參數(shù)來選擇變量,因此變量的收縮是連續(xù)的。該方法的特點是既通過參數(shù)估計來進行變量選擇,又通過參數(shù)連續(xù)變化來調(diào)整變量連續(xù)收縮,自動地選擇變量,因而被廣泛應(yīng)用于高維數(shù)據(jù)的回歸分析中。
2.支持向量機方法
支持向量機是數(shù)據(jù)挖掘中的一項新技術(shù),是借助于最優(yōu)化方法來解決機器學習問題的新工具,在解決小樣本、非線性及高維度模式識別中表現(xiàn)出許多優(yōu)勢。它的核心是引入該映射的思想與結(jié)構(gòu)風險的概念,通過尋求結(jié)構(gòu)化風險最小來提高學習機的泛化能力,實現(xiàn)經(jīng)驗風險和置信范圍的最小化,從而在樣本數(shù)量較少的情況下,仍能獲得良好統(tǒng)計規(guī)律的目的,目前該方法已經(jīng)廣泛應(yīng)用于經(jīng)濟、金融、工程等領(lǐng)域。
三、建模與實證分析
1.樣本數(shù)據(jù)的選取與處理
本文選擇上市公司財務(wù)指標來研究企業(yè)信用風險,并用被特殊標記(ST)的公司作為信用不佳的公司,未被標記sT的公司作為信用良好的公司。本文從國泰安數(shù)據(jù)庫中搜集到的數(shù)據(jù)為2016年1月份至12月份我國滬市和深市中所有上市公司的財務(wù)指標數(shù)據(jù),其中信用不佳的公司有130家,信用良好的公司有2895家。對于信用良好的公司,因為其公司數(shù)量非常多,而存在缺失值的觀測相對較少,因此在對信用良好公司的數(shù)據(jù)集進行缺失值處理時,本文選擇剔除存在缺失值的觀測以保證數(shù)據(jù)的完整性;對于信用不佳的公司,因其數(shù)據(jù)量有限,本文在處理缺失值時,除刪除無任何記錄的公司外,其余缺失值選擇用信用不佳的公司去除缺失值后的平均值來代替。經(jīng)處理后的數(shù)據(jù)集有113家信用不佳的公司,有2664家信用良好的公司。為了保證數(shù)據(jù)的平衡性,本文按照1:1的比例隨機抽選信用良好和信用不佳的上市公司,共選擇226家公司,并從中隨機選取了80家信用良好的公司與80家信用不佳的公司作為試驗集,用于建立模型,剩下的33對公司作為測試集,用來檢驗?zāi)P托Ч?/p>
一般而言,企業(yè)財務(wù)狀況與企業(yè)信用風險之間存在密切的聯(lián)系,財務(wù)狀況的每一個微小的變化都可能對公司產(chǎn)生影響。當公司財務(wù)狀況良好時,其現(xiàn)金流量控制良好,資本運營通暢,這時公司信用風險相對較小,按時還款的可能性較大。反過來,如果公司財務(wù)狀況不佳,企業(yè)運作、經(jīng)營都處于不佳狀態(tài),很可能出現(xiàn)失信行為。本文研究企業(yè)信用風險以及構(gòu)建模型預測信用風險,選擇有代表性的、全面的財務(wù)指標作為分析對象。因此,本文選擇了涵蓋償債能力、比率結(jié)構(gòu)、盈利能力、經(jīng)營能力、現(xiàn)金流情況、發(fā)展能力以及相對價值這七方面的財務(wù)指標作為分析對象(見表1)。
2.基于Lasso回歸的變量選擇與預測
我們擬使用統(tǒng)計中常用的一類精度,二類精度和總精度三個評價規(guī)則來度量各個模型的最終判別效果和預測能力,這三個評價規(guī)則定義如下:
一類精度=信用良好公司被模型正確判為信用良好公司的數(shù)量/實際信用良好公司數(shù)量;
二類精度=信用不好公司被模型正確判為信用不好公司的數(shù)量/實際信用不好公司數(shù)量;
總精度=實際信用良好或信用不好公司被模型正確判別的數(shù)量/被測樣本總數(shù)量。
3.SVM支持向量機方法
我們首先運用SVM方法對上市公司的財務(wù)數(shù)據(jù)進行分析,此過程可由R軟件中的e1071程序包來實現(xiàn),參數(shù)自動尋優(yōu)結(jié)果為:
best gamma=0.5,cost=4,R2=66.67%
將訓練集數(shù)據(jù)和測試集數(shù)據(jù)分別代入模型進行檢驗,最終得到結(jié)果如表2所示:從模型解釋性與預測精度中,可以看出SVM方法在訓練集的精度雖然都達到100%,但在測試集里的一類精度僅為36.37%,因而總體擬合效果不是很理想。
4.Lasso-SVM
本文首先把數(shù)據(jù)進行中心標準化處理,以消除不同量綱的影響,然后利用R軟件的Glmnet程序包,實現(xiàn)通過Lasso方法對Logistic回歸模型進行變量選擇。運用廣義交叉驗證方法,可以得到懲罰參數(shù)與變量個數(shù)的關(guān)系圖(圖1),該圖的橫坐標表示懲罰參數(shù)值的變化,縱坐標表示模型誤差的變化情況,并在圖上方給出隨著值的變化進入模型的變量個數(shù)的變化。當?shù)娜≈禐樽髠?cè)虛線對應(yīng)的值時,模型誤差最小。
由圖1,我們最終選取了17個財務(wù)指標:現(xiàn)金比率(X3)、資產(chǎn)負債率(X5)、長期資本負債率(X6)、固定資產(chǎn)比率(X8)、流動負債比率(X9)、金融負債率(X10)、投資收益率(X12)、長期資本收益率(X15)、營業(yè)毛利率(X16)、應(yīng)收賬款周轉(zhuǎn)率(X17)、存貨周轉(zhuǎn)率(X18)、流動資產(chǎn)周轉(zhuǎn)率(X19)、固定資產(chǎn)周轉(zhuǎn)率(X20)、營業(yè)收入現(xiàn)金比率(X21)、總資產(chǎn)增長率(X28)、市盈率(X29)和市現(xiàn)率(X30)。
在運用支持向量機方法時,核函數(shù)選取為高斯徑向基核函數(shù),參數(shù)自動尋優(yōu)結(jié)果為:
best gamma=0.5.cost=4,R2=0.8485
將訓練集數(shù)據(jù)和測試集數(shù)據(jù)分別代入模型進行驗證,為便于比較,將最終的分析結(jié)果亦列入表2中。從模型解釋性與預測精度中,可以看出Lasso-SVM方法的所有的精度都在80%以上,綜合精度在94%以上,因而Lasso-SVM方法的擬合效果要高于直接運用SVM方法的擬合效果,能夠提高預測精度,擁有更好的預測性能。
四、結(jié)語
本文通過對上市公司財務(wù)比率數(shù)據(jù)進行分析,建立信用風險評定模型來預測上市公司的信用風險,分別建立了SVM和Lasso-SVM模型,通過不同模型選擇對上市公司信用風險影響較強的指標,同時根據(jù)模型的解釋效果和預測效果,選擇出更適合評定上市公司信用風險的模型。根據(jù)全文研究,可以看出,Lasso-SVM模型的預測精度都要高于普通的SVM模型,這可以說明,在上市公司信用評價問題上,使用Lasso方法進行變量選擇之后再運用支持向量機方法進行預測有一定的優(yōu)勢,能夠提高預測精度,擁有更好的預測性能。