李晨堯
據(jù)國家統(tǒng)計局發(fā)布,2022 年全國房地產(chǎn)開發(fā)投資下降10.0%,房地產(chǎn)開發(fā)景氣指數(shù)處于較低景氣水平。商品房銷售面積、銷售額和均價下跌,居民買房意愿不足,而房地產(chǎn)開發(fā)企業(yè)投資回收期長的特點,使得眾多開發(fā)商面臨資金鏈緊張的困境。一些龍頭房企接連出現(xiàn)債務(wù)違約“暴雷”現(xiàn)象,也帶來不良的社會影響。房地產(chǎn)企業(yè)財務(wù)危機的出現(xiàn)是由于戰(zhàn)略定位錯誤、盲目投資多元化、內(nèi)部管理水平低、產(chǎn)品核心競爭力不足、庫存管理不佳等多種原因造成。企業(yè)出現(xiàn)財務(wù)危機不是一蹴而就的,往往會在前期隱藏一定的財務(wù)風(fēng)險。因此,針對房地產(chǎn)企業(yè)行業(yè)特點,選取相應(yīng)財務(wù)指標(biāo)并構(gòu)建財務(wù)風(fēng)險預(yù)警模型,具有較強的現(xiàn)實意義和應(yīng)用價值。本文將從財務(wù)指標(biāo)和非財務(wù)指標(biāo)兩方面構(gòu)建一個財務(wù)風(fēng)險預(yù)警的指標(biāo)體系,并利用WEKA 平臺的數(shù)據(jù)挖掘與機器學(xué)習(xí)功能,評價不同算法對房地產(chǎn)企業(yè)財務(wù)風(fēng)險的預(yù)警水平。
1.樣本選擇
本文使用的財務(wù)數(shù)據(jù)來自國泰安(CSMAR)數(shù)據(jù)庫,選取樣本參照國內(nèi)研究的一般方法,將2017—2021年被首次特別處理(ST)的房地產(chǎn)公司作為財務(wù)危機企業(yè)樣本,非ST 房地產(chǎn)公司作為財務(wù)正常的企業(yè)樣本。根據(jù)房地產(chǎn)行業(yè)的實際情況,采用非配對抽樣,選取較多的財務(wù)正常企業(yè)樣本和較少的財務(wù)危機企業(yè)樣本。
基于以上原則,依據(jù)國泰安數(shù)據(jù)庫中行業(yè)分類標(biāo)準(zhǔn),參考證監(jiān)會2012 版行業(yè)分類和申銀萬國行業(yè)分類2012修訂版,選取2017 年至2021 年共876 個房地產(chǎn)企業(yè)樣本,其中財務(wù)正常企業(yè)樣本共846 個,財務(wù)危機企業(yè)樣本共30 個。
2.指標(biāo)選取
指標(biāo)的選取是構(gòu)建財務(wù)預(yù)警模型的核心環(huán)節(jié)。財務(wù)指標(biāo)能夠從多維度全方面地展現(xiàn)公司的財務(wù)狀況和經(jīng)營水平,本文選取了能夠在一定程度上檢測企業(yè)財務(wù)風(fēng)險的財務(wù)指標(biāo)。由于企業(yè)內(nèi)部治理狀況和管理情況不盡相同,指標(biāo)的選取不應(yīng)拘泥于財務(wù)指標(biāo),也應(yīng)選取一定的非財務(wù)指標(biāo)作為補充。因此本文遵循系統(tǒng)性、不相關(guān)性、靈敏性和切實可操性原則,參照國內(nèi)相關(guān)財務(wù)風(fēng)險預(yù)警指標(biāo)的研究建立一套財務(wù)風(fēng)險預(yù)警的指標(biāo)體系,包括償債能力、經(jīng)營能力、盈利能力、股東獲利能力、發(fā)展能力、現(xiàn)金流量指標(biāo)、風(fēng)險水平等財務(wù)指標(biāo),同時也選取了兩權(quán)分離度、年度內(nèi)董事會的會議次數(shù)和審計意見等非財務(wù)指標(biāo)。具體情況見表1。
表1 財務(wù)預(yù)警指標(biāo)選擇
1.數(shù)據(jù)處理
對全部原始數(shù)據(jù)進行預(yù)處理。為保證WEKA 平臺能夠正常讀取數(shù)據(jù),將所有數(shù)據(jù)保留三位小數(shù);對于無法從財務(wù)報表及公開信息中獲取的財務(wù)數(shù)據(jù)選擇用眾數(shù)進行填充;對于非財務(wù)指標(biāo)的缺省采用悲觀準(zhǔn)則進行填充,如董事會的會議次數(shù)如果無法獲取,則認(rèn)為年度內(nèi)的會議次數(shù)為0。
2.模型構(gòu)建
本研究采用流行的數(shù)據(jù)挖掘方法來構(gòu)建財務(wù)風(fēng)險預(yù)警模型,主要包括貝葉斯網(wǎng)絡(luò)(GBN)、樸素貝葉斯網(wǎng)絡(luò)(NBN)、邏輯回歸(LR)、決策樹(DT)、支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、裝袋(BA)、k 最近鄰(KNN)和隨機森林(RF),共計9 種算法。
3.評價指標(biāo)
評價分類器的性能指標(biāo)主要為機器學(xué)習(xí)類指標(biāo)。機器學(xué)習(xí)類指標(biāo)主要包括預(yù)測模型的構(gòu)建速度、混淆矩陣相關(guān)的度量指標(biāo)(真陽性率,真陰性率,假陽性率,假陰性率,綜合準(zhǔn)確率,F(xiàn)-Measure)以及接受者操作特征曲線下面積。F-Measure 度量值高可以保證查全率和查準(zhǔn)率都比較高,表明機器學(xué)習(xí)算法準(zhǔn)確率較高。接受者操作特征曲線下面積(AUC)的范圍在0.5(隨機模型)和1(完美模型)之間,越接近1 表明模型精度越高。
1.結(jié)果
本文采用WEKA 3.8.6 軟件對處理后的876 條數(shù)據(jù)采用十折交叉驗證的方式進行實驗。十折交叉驗證是將數(shù)據(jù)集分成十份,輪流將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù)進行試驗的方式。實驗結(jié)果機器學(xué)習(xí)類指標(biāo)見表2。
表2 機器學(xué)習(xí)類評價指標(biāo)
2.討論
根據(jù)機器學(xué)習(xí)評價指標(biāo),首先從算法訓(xùn)練的時間上看,ANN 算法學(xué)習(xí)時長最久,是因為神經(jīng)網(wǎng)絡(luò)所需參數(shù)較多,學(xué)習(xí)過程比較長。其余算法產(chǎn)生模型的時間均較短,速度較快。剩余度量標(biāo)準(zhǔn)TPR、F-Measure、AUC 和Accuracy 的評價值越高說明算法的分類效果越好,預(yù)測精度越高。本文針對剩余度量指標(biāo)做出具體分析如下。
從整體上來看,基于集成學(xué)習(xí)思想的模型——比如BA、AB、RF,比其他模型的綜合準(zhǔn)確率、F-Measure 和AUC 值高,這可能是因為集成方法通過聚集多個分類器的預(yù)測結(jié)果來提高分類準(zhǔn)確率,平均了單個模型的偏差,使得集體決策在全面可靠性和準(zhǔn)確度上優(yōu)于個體決策。除此之外,SVM 和ANN 算法也提供了同樣最高的綜合準(zhǔn)確率和第二高的F-Measure,但根據(jù)AUC 指標(biāo),ANN 算法的ROC 曲線下面積更大,意味著ANN 算法的平均性能要優(yōu)于SVM 算法。
從單個算法角度看,基于函數(shù)的LR、基于決策樹的DT 和基于實例的kNN 的綜合正確率均超過了95%,這些算法的F-Measure 也均大于0.95,LR 的ROC 曲線下面積達(dá)到了0.79 以上,說明它們在該房地產(chǎn)預(yù)警數(shù)據(jù)上的分類性能較好,能夠在財務(wù)危機早期預(yù)測中發(fā)揮重要作用。這些算法中表現(xiàn)相對較弱的是GBN 和NBN。然而,我們更換貝葉斯網(wǎng)絡(luò)中的全局評分度量,將K2算法更改為TAN(Tree-Augmented Naive Bayes,樹增強樸素貝葉斯)后,貝葉斯算法的綜合準(zhǔn)確率則增加到了95.4338%,F(xiàn)-Measure 和AUC 則達(dá)到了0.954 和0.922,說明更改合適的度量后該算法也可以在房地產(chǎn)企業(yè)財務(wù)風(fēng)險預(yù)測中達(dá)到良好的效果。
為了更好地預(yù)測房地產(chǎn)企業(yè)財務(wù)危機,我們需要針對房地產(chǎn)企業(yè)數(shù)據(jù)特征做出比較和評價。需要注意的是,在房地產(chǎn)財務(wù)風(fēng)險模型數(shù)據(jù)的這種不平衡數(shù)據(jù)集中,識別為財務(wù)風(fēng)險的企業(yè)數(shù)量遠(yuǎn)遠(yuǎn)小于未識別為財務(wù)風(fēng)險的企業(yè)數(shù)量,但識別出有財務(wù)風(fēng)險的企業(yè)卻更有意義,因為如若未識別出財務(wù)風(fēng)險,會對社會產(chǎn)生更大的不良影響,銀行、社會投資者和購房百姓會付出更大的代價。因此在關(guān)注上述指標(biāo)之外,我們更需要關(guān)注假陽性率指標(biāo),假陽性率指標(biāo)越低,意味著真陰性率指標(biāo)越高,也就意味著該分類器在針對房地產(chǎn)企業(yè)財務(wù)風(fēng)險發(fā)出預(yù)警的意義就更大。本研究結(jié)果表明,NBN、GBN、GBN-TAN、kNN、ANN 的假陽性率指標(biāo)相對其他算法更低,能夠更準(zhǔn)確地識別出財務(wù)風(fēng)險企業(yè)。
綜上所述,在該房地產(chǎn)企業(yè)財務(wù)風(fēng)險預(yù)警數(shù)據(jù)集上的分類預(yù)測效果較好的算法有三種,分別是GBN-TAN、ANN 和kNN。這三種算法在真陽性率、假陽性率、F-Measure、AUC 和綜合準(zhǔn)確率等多種指標(biāo)的綜合測評下都有比較出色的表現(xiàn)。未來,計劃繼續(xù)擴大原始數(shù)據(jù)集,繼續(xù)對原始數(shù)據(jù)中財務(wù)指標(biāo)的選擇和各種算法進行優(yōu)化,進一步降低假陽性率,結(jié)合各個模型的優(yōu)勢特點來提高對房地產(chǎn)企業(yè)財務(wù)危機的預(yù)測精度。