石 峰,胡 燕
(1.湖南工程學院 管理學院,湖南 湘潭 411104;2.中南大學 法學院,湖南 長沙 410012)
對于投資者和其他利益相關者而言,預測上市公司的上市狀態(tài)至關重要。在我國證券市場,特別處理的股票除了漲跌幅度受到限制以外,其股票名稱之前還須注釋為“ST”。如果該ST企業(yè)仍然持續(xù)虧損,將面臨被退市的風險?,F(xiàn)有研究傾向于應用二進制分類將上市狀態(tài)分為ST和非ST兩類,以便于計量。國外關于上市公司的財務危機預測研究,主要運用支持向量機、決策樹、判別分析、神經(jīng)網(wǎng)絡等二進制分類模型進行。國內(nèi)針對上市公司的財務危機預測研究,主要運用判別分析、邏輯回歸、聚類分析和生存分析等傳統(tǒng)的分類預測方法。然而這些預測方法通常需要做出假設,例如邏輯回歸中要求logit(p)和自變量之間存在線性關系;判別分析中要求各變量相互獨立,且服從多元正態(tài)分布。因此,當自變量的數(shù)量逐漸增多且高度相關時,這些預測方法的估計結果往往會出現(xiàn)偏誤。另外,已有研究在指標選擇上,主要選取償債能力、營運能力、盈利能力、成長能力、現(xiàn)金流量和資產(chǎn)結構等方面的少量財務指標,具有一定主觀性。
分組數(shù)據(jù)處理方法(Group Method of Data Handing, GMDH)型神經(jīng)網(wǎng)絡算法是用于對復雜系統(tǒng)進行建模的自組織算法,多種分類集合的GMDH(dce-GMDH)算法是集支持向量機(svm)、隨機森林(rf)、樸素貝葉斯(nb)、彈性網(wǎng)邏輯回歸(en)、神經(jīng)網(wǎng)絡(nn)等分類器為一體的GMDH算法,二者被廣泛應用于回歸、分類、聚類和預測等研究領域。與以往應用于上市公司財務危機預測的方法相比,GMDH算法和dce-GMDH算法沒有嚴格的假設限制。由此,本文首次將GMDH算法和dce-GMDH算法應用于我國滬深A股上市公司的財務危機預測中,構建全面反映盈利能力、經(jīng)營增長、資產(chǎn)質量和債務風險等4個維度的17個財務指標的GMDH和dce-GMDH算法財務危機預測模型,并評價與比較二者的預測性能。
IVAKHNENKO為更好地預測河流中的魚類種群,創(chuàng)造了分組數(shù)據(jù)處理方法(GMDH),使神經(jīng)元成為具有多項式傳遞函數(shù)的更復雜的單元,并簡化了神經(jīng)元之間的互連,同時開發(fā)了用于結構設計和權重調整的自動算法[1]。IVAKHNENKO構造的多項式為:
(1)
其中,m表示每個神經(jīng)元進入回歸模型的變量數(shù)量;a,b,c…是多項式中變量的權重。y是響應變量;xi和xj是探索性變量。在本研究中,上述模型僅包含主要影響,由此可表示為:
(2)
若上式(2)為二變量多項式,則將構造m*(m-1)/2個候選神經(jīng)元,其中m是上一層中的神經(jīng)元數(shù)量。如果選擇以允許來自上一層和輸入層的輸入,則m將是上一層和輸入層中神經(jīng)元數(shù)量的總和。如果選擇以允許來自任何層的輸入,則m將是輸入變量的數(shù)量加上所有先前層中的神經(jīng)元數(shù)量的總和。
在模型建立和評估過程中,數(shù)據(jù)被分為三組:訓練集(60%)、驗證集(20%)和測試集(20%)。訓練集包含在模型構建中,驗證集被用于對神經(jīng)元的選擇;測試集被用于考察評估模型在未觀察數(shù)據(jù)上的性能。GMDH算法是由神經(jīng)元構成的層次系統(tǒng),其每層中神經(jīng)元的數(shù)量取決于輸入的數(shù)量。假設進入某一個層的輸入數(shù)量等于p,則該層中的神經(jīng)元數(shù)量變?yōu)椋?/p>
(3)
上式(3)考慮了所有成對的輸入組合,但這并不意味著所有層都包括h個神經(jīng)元。例如,輸入層中的輸入數(shù)量僅定義第1層中的神經(jīng)元數(shù)量。在第1層中選擇的神經(jīng)元數(shù)量決定第2層的神經(jīng)元數(shù)量。該算法自行組織架構,當存在3個層次和4個輸入時,GMDH算法的體系結構如圖1所示。
圖1 GMDH算法的體系結構
在圖1的GMDH算法體系結構中,存在4個輸入(x1,x2,x3,x4),其中3個變量(x1,x2,x4)主導著系統(tǒng),而x3對分類沒有影響。GMDH算法會自組織選擇對分類有影響的輸入變量,這說明網(wǎng)絡中神經(jīng)元之間的連接不是固定的,而是在訓練期間進行選擇以優(yōu)化網(wǎng)絡;網(wǎng)絡中的層數(shù)也會自動選擇,以產(chǎn)生最大的精度而不會過度擬合。
GMDH算法的基本流程有以下幾個步驟:①構造僅顯示每個輸入預測變量值的第一層。②使用允許的函數(shù)集,使用上一層輸入的組合來構造所有可能的函數(shù)。③使用最小二乘回歸計算每個候選神經(jīng)元中函數(shù)的最佳參數(shù),以使其最適合訓練數(shù)據(jù)。如果選擇了非線性函數(shù)(例如邏輯或漸近函數(shù)),則使用基于Levenberg-Marquardt方法(LM算法)的非線性擬合。④通過將其應用于訓練數(shù)據(jù)來計算每個神經(jīng)元的均方誤差。⑤按均方誤差增加的順序對候選神經(jīng)元進行排序。⑥從候選神經(jīng)元中為下一層選擇最佳(均方誤差最小)神經(jīng)元;模型構建參數(shù)指定每層中使用了多少個神經(jīng)元。⑦如果使用訓練數(shù)據(jù)測得的層中最佳神經(jīng)元的均方誤差比前一層中最佳神經(jīng)元的均方誤差好,并且尚未達到最大層數(shù),則跳回到步驟②以構造下一層。否則,停止訓練。需要注意的是,當過度擬合開始時,使用訓練數(shù)據(jù)測得的均方誤差將提高,從而停止訓練。
多種分類集合的dce-GMDH(diverse classifiers ensemble based on GMDH)算法是集支持向量機(svm)、隨機森林(rf)、樸素貝葉斯(nb)、彈性網(wǎng)邏輯回歸(en)、神經(jīng)網(wǎng)絡(nn)等分類器為一體的GMDH算法。與GMDH算法不同,dce-GMDH算法不僅包括基礎層,而且將分類器放置在基礎層,從而使用通過這些分類器的所有輸入來獲得預測概率。與此同時將分類器獲得的預測概率繼續(xù)作為第1層的輸入,而無須應用任何神經(jīng)元作為選擇過程,其余算法與GMDH算法相同。dce-GMDH算法的體系結構如圖2所示。
由圖2看出,dce-GMDH算法的體系結構是由輸入層、基礎層、第1層、第2層和第3層構成的分層系統(tǒng)。輸入層存在4個輸入(x1,x2,x3,x4),并從基礎層進入到每個神經(jīng)元。基礎層包括5個分類器,即基礎層中的神經(jīng)元數(shù)量為5個,其它層的神經(jīng)元數(shù)量由輸入的數(shù)量決定。該算法通過自組織方法來選擇最合適的分類器。在基礎層的每個神經(jīng)元中存在一個不同的分類器,通過分類器利用四個輸入獲得預測概率?;A層中的5個輸入進入到第1層,因此第1層神經(jīng)元數(shù)量為10,根據(jù)外部標準,保留了4個神經(jīng)元,并從網(wǎng)絡中淘汰了6個神經(jīng)元。由于在第1層中選擇了4個神經(jīng)元,因此第2層中的神經(jīng)元數(shù)量變?yōu)?6。該過程一直持續(xù)到實現(xiàn)停止規(guī)則為止。
圖2 dce-GMDH算法的體系結構
本文實證數(shù)據(jù)來源于巨潮資訊網(wǎng)公布的滬深A股上市公司2019年第4季度的財務指標數(shù)據(jù)。截止到2019年12月31日,深市A股上市公司2 179家,滬市A股上市公司1 488家,滬深A股上市公司共計3 667家,其中88家是“*ST”公司,52家是ST公司。根據(jù)我國大多學者關于公司是否處于財務危機的界定,以該公司是否連續(xù)兩年虧損和被特別處理進行判斷。因此,無論經(jīng)營連續(xù)兩年虧損、被特別處理(即“ST”)的公司,還是經(jīng)營連續(xù)三年虧損、被退市預警(即“*ST”)的公司,本文都歸類為ST公司,共計140家。
本文進一步對數(shù)據(jù)進行篩選,以滿足GMDH算法和dce-GMDH算法對數(shù)據(jù)的要求。在140家ST公司中,刪除財務指標有缺失數(shù)據(jù)或為0的兩家ST公司,為避免樣本不均衡導致的多數(shù)類更容易被判斷正確,以1︰1配對原則在滬深A股上市公司中隨機選取138家非ST公司,由此得到17個財務指標的138家ST公司和138家非ST公司樣本組。
本文的研究目的是運用GMDH與dce-GMDH算法對我國滬深A股上市公司是否處于財務危機做出正確預測分類。因此,本文在選取財務指標構建財務危機預測模型時,參考了2006年國務院國資委發(fā)布且一直沿用至今的《企業(yè)綜合績效評價實施細則》所規(guī)定的財務績效評價指標體系。該財務績效評價指標體系包括8個基本指標和14個修正指標,共計22個評價指標,且分別隸屬于盈利能力、經(jīng)營增長、資產(chǎn)質量和債務風險等4個維度,能較為全面地評價我國上市公司的財務績效狀況。
由于部分財務指標數(shù)據(jù)缺失,本文選取了凈資產(chǎn)收益率(x1)、資本收益率(x2)、總資產(chǎn)報酬率(x3)、營業(yè)利潤率(x4)、成本費用利潤率(x5)、盈余現(xiàn)金保障倍數(shù)(x6)、總資產(chǎn)增長率(x7)、營業(yè)收入增長率(x8)、營業(yè)利潤增長率(x9)、凈利潤增長率(x10)、總資產(chǎn)周轉率(x11)、流動資產(chǎn)周轉率(x12)、總資產(chǎn)周轉天數(shù)(x13)、流動資產(chǎn)周轉天數(shù)(x14)、資產(chǎn)負債率(x15)、速動比率(x16)、流動負債比率(x17)等17個財務指標作為我國滬深A股上市公司財務危機預測模型的預測變量(見圖3)。
圖3 滬深A股上市公司財務危機預測指標體系
二進制分類可以將二進制目標標簽分配給每個觀察值,從而通過分組數(shù)據(jù)處理(GMDH)算法對兩標簽輸出進行分類。GMDH算法適用于復雜的非結構化系統(tǒng),并且比高階回歸具有優(yōu)勢。通過GMDH型神經(jīng)網(wǎng)絡算法執(zhí)行二進制分類存在兩種主要算法:GMDH算法和基于各種分類器集合的GMDH(dce-GMDH)算法。
本文參考OSMAN和YOZGALTIGIL開發(fā)的R語言GMDH函數(shù)對我國滬深A股上市公司的財務指標進行特征選擇[2],同時使用OSMAN和ERDEM最新開發(fā)的 GMDH2函數(shù)進行財務危機分類預測[3]。
首先,本文將數(shù)據(jù)隨機分為訓練集、驗證集和測試集,然后調用GMDH函數(shù)。此函數(shù)中的第一個和第二個參數(shù)分別是探索變量的矩陣和訓練集中的一個因子;第三和第四個參數(shù)分別是探索變量的矩陣和驗證集中的一個因子。alpha參數(shù)是選擇壓力。maxlayers參數(shù)是指定的最大圖層數(shù)。maxneurons參數(shù)是第二層及后續(xù)層中允許的最大神經(jīng)元數(shù)量。exCriterion參數(shù)是用于神經(jīng)元選擇的外部標準。
運行GMDH函數(shù)得到的結果如表1所示。由表1看到,我國上市公司財務危機分類預測的算法結構包括層、神經(jīng)元、被選中神經(jīng)元和最小均方誤差。該算法結構共計2層,每層神經(jīng)元的數(shù)量分別為136和105;第1層和第2層被選中的神經(jīng)元分別為15和1。計算神經(jīng)元的外部標準為最小均方誤差,每層對應的最小均方誤差分別為0.135 9和0.134 7。
表1 上市公司財務危機預測的算法結構輸出結果
圖4為GMDH算法在每個相應層的驗證集上給出的最小外部標準值(均方誤差)。當層數(shù)為2時,最小均方誤差達到最小值0.134 7。根據(jù)GMDH算法的體系結構,GMDH算法會自組織選擇對分類有影響的輸入變量,該算法從17個變量中選擇了4個變量(x1,x3,x4,x7),即凈資產(chǎn)收益率、總資產(chǎn)報酬率、營業(yè)利潤率和總資產(chǎn)增長率。
圖4 GMDH算法每個相應層的最小均方誤差
在模型構建完成后對測試集進行預測。測試集共有55個觀測值,預測結果如表2所示。從表2看出,GMDH算法預測第1家公司為“ST”和“非ST”的概率分別為0.93和0.07,由于第1家公司為“ST”的概率大于為“非ST”的概率,因此第1家公司歸類為ST公司。在55個測試樣本中,歸類為ST公司的有1、2、3、4、5、6、9、10、11、12、13、14、17、18、19、21、22、23、25、26、27、28、29、30、32、50和55;其它公司歸類為非ST公司。
表2 測試集的分類預測結果
隨后,利用R軟件中的confMat函數(shù)為二進制響應生成一個混淆矩陣,并得到預測正確率、敏感性值和特異性值等統(tǒng)計信息。GMDH算法的分類預測正確率為0.836 4。這說明該算法將83.64%的公司分類為正確的類別,即55家公司中有46家公司分類正確,其中25家ST公司分類正確,2家ST公司分類錯誤;21家非ST公司分類正確,7家非ST公司分類錯誤。與此同時,由confMat函數(shù)計算出的敏感性值和特異性值分別為0.781 2和0.913 0。這表明該算法將78.12%的ST公司和90.13%的非ST公司正確分類,即在分類預測結果中,32家ST公司有25家ST公司分類正確;23家非ST公司有21家非ST公司分類正確。
本文以變量x1和x3為分類標簽繪制出二維散點圖和以變量x1、x3和x7為分類標簽繪制出三維散點圖(見圖5和圖6)。圖5和圖6中的“FALSE”表示分類錯誤,“TRUE”表示分類正確;“nst”表示為“非ST”公司,“st”表示為“ST”公司。無論是從圖5的二維散點圖,還是從圖6的三維散點圖都能發(fā)現(xiàn):有2家“ST”公司被錯誤分類成“非ST”公司;有7家“非ST”公司被錯誤分類成“ST”公司。
圖5 分類標簽二維散點圖
圖6 分類標簽三維散點圖
dce-GMDH函數(shù)中的alpha參數(shù)是選擇壓力,maxlayers參數(shù)是指定的最大層數(shù),maxneurons參數(shù)是第二層及后續(xù)層中允許的最大神經(jīng)元數(shù)量,exCriterion參數(shù)是用于神經(jīng)元選擇的外部標準。dce-GMDH算法是組合了分類器的GMDH算法,因此,dce-GMDH函數(shù)用于分類器選項的參數(shù)主要有svm_options、randomForest_options、naiveBayes_options、cv.glmnet_options和nnet_options等。
圖7為dce-GMDH算法在每個相應層的驗證集上給出的最小外部標準值(均方誤差)。當層數(shù)為1時,最小均方誤差達到最小值0.115 2。我國滬深A股上市公司財務危機預測的dce-GMDH算法是將兩個分類器(隨機森林和神經(jīng)網(wǎng)絡)組合在一起的集成算法。
圖7 dce-GMDH算法每個相應層的最小均方誤差
隨后,對測試集的55個觀察值進行預測。dce-GMDH算法將測試集中的1、2、3、4、5、6、8、9、10、11、12、13、14、16、17、18、19、21、23、24、25、26、27、28、29、30、32、38、50、55等公司歸類為ST公司,其它為非ST公司。
dce-GMDH算法的分類預測準確率為0.854 5,即在55家公司中有47家公司分類正確。敏感性值和特異性值分別為0.875 0和0.826 1。這表明dce-GMDH算法將87.5%的ST公司和82.61%的非ST公司正確分類,即在分類預測結果中,32家ST公司有28家ST公司分類正確;23家非ST公司有19家非ST公司分類正確。從圖8顯示的以和為分類標簽的二維散點圖看到:32家ST公司中有4家ST公司分類錯誤;23家非ST公司中有4家非ST公司分類錯誤,預測準確率為85.45%。由此可見,與GMDH算法相比,使用dce-GMDH算法可將分類預測準確率提高約2%。
圖8 dce-GMDH算法的分類標簽二維散點圖
本文根據(jù)國資委發(fā)布的《企業(yè)綜合績效評價實施細則》所規(guī)定的財務績效評價指標體系,構建了全面反映盈利能力、經(jīng)營增長、資產(chǎn)質量和債務風險等4個維度的17個財務指標的GMDH和dce-GMDH算法財務危機預測模型。針對我國滬深A股上市公司的138家ST公司和138家非ST公司樣本組,基于GMDH算法的預測準確率為83.64%,具有較高的預測精度。敏感性值和特異性值分別為0.781 2和0.913 0,即該算法將78.12%的ST公司和90.13%的非ST公司正確分類;基于dce-GMDH算法可將分類預測準確率提高約2%,達到85.45%。敏感性值和特異性值分別為0.875 0和0.826 1,即dce-GMDH算法將87.50%的ST公司和82.61%的非ST公司正確分類。
GMDH算法是借助生物控制論中的自組織原理而提出的一套建模方法。這一方法是啟發(fā)式的,不是用解析式的方法進行推導,建模過程是自組織的,即自動進行變量組合、篩選以及判斷是否得到合適的模型。MDH算法的主要特點是,以充分合理地利用數(shù)據(jù),并用局部的簡單的算法建立整體上復雜的模型。特別是在變量多、數(shù)據(jù)少、現(xiàn)有的其它建模方法很難勝任建模任務的情形下,GMDH算法卻可以得到十分令人滿意的結果。需要指出的是,GMDH算法和多種分類集合的GMDH(dce-GMDH)算法在ST與非ST公司兩類公司中具有較高的分類預測效果,而并非這兩種方法本身具有強較的預測能力。