亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LASSO方法的企業(yè)財務(wù)困境預(yù)測

        2016-12-20 12:31:54楊青龍田曉春胡佩媛
        統(tǒng)計與決策 2016年23期
        關(guān)鍵詞:數(shù)據(jù)挖掘困境財務(wù)

        楊青龍,田曉春,胡佩媛

        (中南財經(jīng)政法大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,武漢430073)

        基于LASSO方法的企業(yè)財務(wù)困境預(yù)測

        楊青龍,田曉春,胡佩媛

        (中南財經(jīng)政法大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,武漢430073)

        文章綜合考慮企業(yè)的財務(wù)和非財務(wù)因素,利用LASSO方法對企業(yè)財務(wù)困境預(yù)測指標進行篩選,然后使用決策樹、隨機森林、SVM、最近鄰法這四種數(shù)據(jù)挖掘方法,以及常見的logistic模型,分別建立企業(yè)財務(wù)困境預(yù)測模型。結(jié)果表明:不能忽視非財務(wù)因素在企業(yè)財務(wù)困境預(yù)測中的作用;并非所有數(shù)據(jù)挖掘方法都優(yōu)于常用的logistic模型;LASSO方法能在降維的同時保證企業(yè)財務(wù)困境預(yù)測的準確性,實現(xiàn)模型的精簡。

        財務(wù)困境預(yù)測;LASSO;變量選擇

        0 引言

        準確地預(yù)測企業(yè)財務(wù)困境,有助于保護投資者、債權(quán)人,以及企業(yè)其它利益相關(guān)者的利益,也有助于經(jīng)營者防范企業(yè)陷于財務(wù)困境,更有助于政府監(jiān)管部門對企業(yè)質(zhì)量和證券市場進行有效監(jiān)控。因此無論是學(xué)術(shù)研究還是實際應(yīng)用中,關(guān)于企業(yè)財務(wù)困境預(yù)測的研究一直受到廣泛的關(guān)注。

        近些年來,國內(nèi)許多學(xué)者對企業(yè)財務(wù)困境預(yù)測問題進行了探討,但是進行實證分析的文獻不多。本文將綜合考慮影響企業(yè)財務(wù)困境的財務(wù)和非財務(wù)因素,利用在大規(guī)模數(shù)據(jù)變量模型中具有良好的變量選擇性質(zhì)的LASSO方法進一步篩選預(yù)測指標。另外,我們知道判別分析法只能用于自變量全部為數(shù)量變量的情形,而本文的預(yù)測指標還包括一些分類變量,因此本文最后選擇最常用的logistic模型,以及決策樹、隨機森林、SVM、KNN等數(shù)據(jù)挖掘方法建立預(yù)測模型,通過對比指標篩選前后的均方誤差和預(yù)測準確度來選擇最符合國情的企業(yè)財務(wù)困境預(yù)測模型。

        1 理論介紹

        1.1 LASSO基本思想

        Tibshirani(1996)在Frank(1993)的橋回歸(Bridge Regression)和Bireman(1995)的非負絞除法(Non-negative Garrote)基礎(chǔ)上,提出了一種新的變量選擇方法,即LASSO(Least absolute shrinkage and selection operator)。它的基本思想是加入一個懲罰項來約束回歸系數(shù)的大小,將變量的系數(shù)進行壓縮并使得某些較小系數(shù)變?yōu)榱悖瑥亩_到變量選擇的目的,即在約束條件下,變量的系數(shù)要滿足的條件為:

        這等價于:

        其中式(2)中的第一部分表示模型的擬合的優(yōu)劣,第二部分就是所加入的懲罰項。LASSO方法確定的變量系數(shù)既要使得殘差平法和小,同時又要壓縮系數(shù),避免其膨脹。另外,調(diào)和系數(shù)λ(λ>0)越小,模型的懲罰力度越小,保留的變量就越多;λ越大,模型的懲罰力度就越大,保留的變量就越少。我們的目的是進行變量選擇,在提供足夠信息的條件下盡量減少變量個數(shù),使得模型能夠更精煉,因此我們必須要在模型的擬合優(yōu)度和簡潔性之間進行權(quán)衡。在確定λ的問題上一般是用交叉驗證或者Mallows CP等準則通過計算來確定。MallowsCP統(tǒng)計量是用來評價回歸的一個準則,如果從k個自變量中選取P個(k>p)參與回歸,則CP統(tǒng)計量具有定義:

        基于MallowsCP準則,使用迭代算法,找到使得CP統(tǒng)計量最小的λ,再將此最優(yōu)的λ代入式(2),得到基于懲罰約束條件下變量系數(shù)的估計值。

        1.2 五折交叉驗證

        在樣本量充足的情況下,為了選擇模型,可以將樣本集隨機地分為訓(xùn)練集、驗證集和測試集,其中,訓(xùn)練集用于訓(xùn)練模型,驗證集用于選擇模型,而測試集則用于最終對模型的評估。但是,在實際應(yīng)用中樣本量常常不夠充分,為了選擇好的模型,可以采用交叉驗證的方法,其基本思想是重復(fù)地使用樣本。以下對五折交叉驗證方法進行詳細說明。

        隨機地將樣本切分為5個互不相交的大小相等的子集,然后用4個子集的樣本訓(xùn)練模型,而利用余下的子集測試模型,將這一過程對可能的5種選擇重復(fù)進行,最后選出5次評測中標準化均方誤差(NMSE)最小的模型。

        需要注意的是,如果僅用均值來做預(yù)測,那么NMSE應(yīng)該為1,因此,若是模型中NMSE大于1,說明模型很糟糕,還不如直接用均值做預(yù)測。

        1.3 評價指標介紹

        企業(yè)財務(wù)困境預(yù)測模型本質(zhì)上就是二類分類問題,而二類分類問題常用的評價指標就是精確率(precision)和召回率(recall),以及F1值。這三個指標越大,說明模型預(yù)測效果越好。通常以關(guān)注的類為正類,在本文中,企業(yè)發(fā)生財務(wù)困境為正類,財務(wù)健康為負類。模型在測試數(shù)據(jù)集上的預(yù)測情況一共有4種情況,各種情況出現(xiàn)的次數(shù)分別記為:

        TP ∶將財務(wù)困境企業(yè)預(yù)測為財務(wù)困境;

        FN ∶將財務(wù)困境企業(yè)預(yù)測為財務(wù)健康;

        FP ∶將財務(wù)健康企業(yè)預(yù)測為財務(wù)困境;

        TN ∶將財務(wù)健康企業(yè)預(yù)測為財務(wù)健康。

        于是,將精確率定位為:

        召回率定義為:

        F1是精確率和召回率的調(diào)和均值,定義為:

        2 實證研究

        2.1 樣本選擇

        本文選取了截止于2014年底仍被ST的48家上市公司,對照組為2665家未被ST上市公司。在對數(shù)據(jù)進行缺失值和異常值處理后,剩余38家被ST的上市公司和2362家未被ST的上市公司。所有數(shù)據(jù)均來源于wind數(shù)據(jù)庫。另外,在多數(shù)文獻中會按照1:1的比例選取ST公司和非ST公司,這與這類文章一般選擇準確率(accuracy rate)作為模型的評價指標有關(guān),準確率定義為:

        其中,TP+TN表示正確做出判斷的樣本數(shù)量,N表示所有樣本量。當樣本出現(xiàn)傾斜時,即樣本中非ST公司的數(shù)量遠遠多于ST公司數(shù)量,若我們將所有測試集樣本都判斷為非ST公司,那么我們也可以得到較高的準確率,然而此時模型顯然是有問題的。本文用于評級模型的指標是精確率,召回率以及F1,可以避免出現(xiàn)這樣的問題,因此本文不按照1:1的比例選取ST公司和非ST公司。

        2.2 指標篩選

        2.2.1 備選指標

        目前企業(yè)財務(wù)困境預(yù)測研究中所使用的指標,不再局限于傳統(tǒng)的反映企業(yè)償債能力、盈利能力、運營能力、發(fā)展能力以及現(xiàn)金流量等方面的財務(wù)指標,而是開始引入包括企業(yè)組織結(jié)構(gòu)、市場變量和宏觀經(jīng)濟變量等在內(nèi)的非財務(wù)指標。本文參考其他文獻,同樣是考慮了企業(yè)償債、盈利、運營、發(fā)展能力,以及現(xiàn)金流量等方面的財務(wù)指標,另外,還加入了“前十大股東持股比例合計”來反映企業(yè)股權(quán)的集中程度,“BETA值”和“股價年振幅”來反映企業(yè)對市場的敏感程度。最后,考慮了各企業(yè)前三年的財務(wù)狀況對企業(yè)當前財務(wù)表現(xiàn)的影響。具體的財務(wù)困境預(yù)測指標如表1所示。

        表1 備選財務(wù)困境預(yù)測指標

        2.2.2 LASSO回歸篩選指標

        本文用R軟件進行LASSO回歸來選擇財務(wù)預(yù)測指標。結(jié)果如表2所示,指標x2、x9、x10、x11、x13、x14、x15的回歸系數(shù)均不顯著,而這些指標基本上是屬于企業(yè)的運營能力、發(fā)展能力和現(xiàn)金流量,這說明存在多余變量,原本的23個備選指標經(jīng)過篩選后剩余16個指標。另外,各指標系數(shù)的絕對值大小也體現(xiàn)了各個指標對預(yù)測結(jié)果的重要性大小,我們可以發(fā)現(xiàn),重要性排名前五的指標中有4個是非財務(wù)指標,且與排名在五名之后指標系數(shù)的大小也有明顯的差距,說明非財務(wù)指標是企業(yè)財務(wù)困境預(yù)測研究中的重要因素。

        表2 LASSO回歸系數(shù)

        2.3 建立模型

        除了最常用的logistic模型,本文還用了決策樹、隨機森林、SVM、最近鄰法的數(shù)據(jù)挖掘方法建立了企業(yè)財務(wù)困境預(yù)測模型。需要注意的是,在使用這些方法時,我們會改變各個函數(shù)中的參數(shù)默認值,盡量使各個模型達到最佳結(jié)果。根據(jù)這5種方法建模的5折交叉驗證結(jié)果如圖1所示。圖1中的黑色條形表示用篩選前的23個指標進行建模時的標準化均方誤差,灰色條形表示用篩選后的16個指標進行建模時的標準化均方誤差。從5折交叉驗證的原理我們知道,選擇模型的標準為:選擇測試集中標準化均方誤差最小的模型。指標篩選前決策樹、隨機森林、SVM、最近鄰法、logistic模型選擇的分別是第3、3、5、3、5組數(shù)據(jù)所建立的模型,而指標篩選后,相應(yīng)組別的數(shù)據(jù)所建立模型的標準化均方誤差基本上能保持在原有水平,其中決策樹、SVM以及l(fā)ogistic模型在指標篩選后還能夠降低模型的標準化均方誤差。另外,對比常用的logistic模型,和其他數(shù)據(jù)挖掘方法,發(fā)現(xiàn)logistic模型的標準化均方誤差低于SVM,但仍遠遠高于其余三種數(shù)據(jù)挖掘模型。

        圖1 財務(wù)困境預(yù)測指標篩選前后的模型選擇情況(黑色:篩選前,灰色:篩選后)

        本文精確率反映的是判斷為財務(wù)困境的企業(yè)實際上就是陷于財務(wù)困境企業(yè)的準確性,與它對應(yīng)的統(tǒng)計學(xué)概念是犯第Ⅱ類錯誤(納偽)的概率,精確度越大,犯第Ⅱ類錯誤的概率就越小。從表3可以看出,對于四種數(shù)據(jù)挖掘模型,不管是否經(jīng)過指標篩選,訓(xùn)練集合測試集的精確率都達到100%,即不會犯第Ⅱ類錯誤;而對于logistic模型,經(jīng)過指標篩選后,訓(xùn)練集的精確率得到提高,而測試集的精確率從85.71%降低至83.33%,但相差不大。召回率反映的則是實際陷于財務(wù)困境的企業(yè)被識別出來的概率,與之對應(yīng)的統(tǒng)計學(xué)概念就是犯第Ⅰ類錯誤(拒真)的概率,召回率越大,犯第Ⅰ類錯誤的概率就越小。

        表3 模型預(yù)測結(jié)果對比 (單位:%)

        同樣從表3可以看出就本文的樣本數(shù)據(jù)而言,SVM模型雖然有較高的精確率,但召回率較低,甚至低于logistic模型,然而logistic模型比SVM模型簡單得多,此時SVM的優(yōu)勢無法體現(xiàn)。我們知道在樣本量確定的情況下,犯第Ⅰ類錯誤和犯第Ⅱ類錯誤的概率一般是此消彼長的,這種關(guān)系同樣適用于精確率和召回率,為了均衡考慮這兩個指標,我們可以直接比較F1值。通過比較F1值,我們發(fā)現(xiàn)對于本文的樣本數(shù)據(jù),決策樹、隨機森林,以及最近鄰法這三種數(shù)據(jù)挖掘模型的預(yù)測效果優(yōu)于logistic模型,而logistic模型又優(yōu)于SVM。另外,指標篩選前后,決策樹、隨機森林,SVM以及最近鄰法這四種數(shù)據(jù)挖掘模型的預(yù)測效果沒有發(fā)生變化;對于logistic模型,指標篩選后,訓(xùn)練集的預(yù)測效果得到提升,而測試集的預(yù)測效果則是變差了。經(jīng)過LASSO指標篩選后的logistic模型,模型得到精簡,對訓(xùn)練樣本的擬合優(yōu)度也得到提高,但是模型的泛化能力受到一定程度的影響。

        3 結(jié)論

        本文利用LASSO方法對企業(yè)財務(wù)困境預(yù)測指標進行篩選,然后用決策樹、隨機森林、SVM、最近鄰法這四種數(shù)據(jù)挖掘方法,以及最常用的logistic模型,分別建立了企業(yè)財務(wù)困境預(yù)測模型,研究發(fā)現(xiàn):(1)非財務(wù)指標的LASSO回歸系數(shù)遠遠大于財務(wù)指標,這說明在企業(yè)財務(wù)困境預(yù)測的研究中不應(yīng)該只限于對財務(wù)報表的分析,而應(yīng)該看到企業(yè)所處的市場和宏觀環(huán)境,以及企業(yè)自身的組織結(jié)構(gòu)等非財務(wù)因素;(2)無論指標是否經(jīng)過篩選,SVM方法都不如常用的logistic模型,但其他三種數(shù)據(jù)挖掘方法都能優(yōu)于logistic模型;(3)指標是否經(jīng)過篩選對于四種基于數(shù)據(jù)挖掘方法的企業(yè)財務(wù)困境預(yù)測模型沒有產(chǎn)生影響,也就意味著用較少的預(yù)測指標能夠達到同樣良好的預(yù)測效果,而對于logistic模型,指標篩選提高了模型的擬合優(yōu)度,雖然降低了模型的泛化能力,但以較少的預(yù)測指標(更精簡的模型)仍可以得到在可接受范圍內(nèi)的預(yù)測效果,由此可以認為LASSO方法在企業(yè)財務(wù)困境預(yù)測中的指標選擇問題上有良好的表現(xiàn)。

        [1]Altman E I.Predicting Financial Distress of Companies:Revisiting the Z-score and ZETA models[J].SternSchool of Business,2000.

        [2]Reisz AS,Perlich C.A Market-based Framework For Bankruptcy Pre?diction[J].Journal of Finance Stability,2007,3(2).

        [3]Bharath S T,Shumway T.Forecasting Default With the Merton Dis?tance to Default Model[J].Review of Financial Studies,2008,21(3).

        [4]Bauer J,Agarwal V.Are Hazard Models Superior to Traditional Bank?ruptcy Prediction Approaches?A Comprehensive Test[J].Journal of Banking&Finance,2014,(40).

        [5]Zhou L,Lai K K,Yen J.Empirical Models Based on Features Rank?ing Techniques for Corporate Financial Distress Prediction[J].Com?puters and Mathematics With Applications.2012,64(8).

        [6]Liang D,Tsai C F,Wu H T.The Effect of Feature Selection on Finan?cial Distress Prediction[J].Knowledge-Based Systems.2015,(73).

        [7]崔毅,蔡玉蘭.企業(yè)財務(wù)困境預(yù)測研究的國際進展及啟示[J].技術(shù)經(jīng)濟與管理研究.2014,(11).

        [8]董景榮,陳軍.論經(jīng)典統(tǒng)計財務(wù)困境預(yù)測模型的理論誤區(qū)[J].統(tǒng)計與決策.2010,(4).

        [9]方匡南,章貴軍,張惠穎.基于LASSO-logistic模型的個人信用風(fēng)險預(yù)警方法[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究.2014,(2).

        (責(zé)任編輯/浩 天)

        F270.5

        A

        1002-6487(2016)23-0170-04

        國家自然科學(xué)基金資助項目(11301545)

        楊青龍(1981—),男,河南南陽人,博士,副教授,研究方向:金融統(tǒng)計。

        田曉春(1991—),女,福建三明人,碩士研究生,研究方向:金融統(tǒng)計。

        猜你喜歡
        數(shù)據(jù)挖掘困境財務(wù)
        黨建與財務(wù)工作深融合雙提升的思考
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        論事業(yè)單位財務(wù)內(nèi)部控制的實現(xiàn)
        困境
        文苑(2020年12期)2020-04-13 00:54:08
        欲望不控制,財務(wù)不自由
        水利財務(wù)
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        “鄰避”困境化解之策
        我國霧霾治理的困境與出路
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲欧洲高潮| 女女同恋一区二区在线观看| 在线观看播放免费视频| 日韩精品在线视频一二三| 国产欧美日韩精品专区| 国产特级毛片aaaaaa| 亚洲日韩乱码中文无码蜜桃臀 | 欧美私人情侣网站| 中文字幕福利视频| av毛片一区二区少妇颜射| 中文字幕亚洲综合久久综合| 亚洲精品宾馆在线精品酒店| 亚洲日韩精品一区二区三区| 又粗又大又黄又爽的免费视频| 亚洲成aⅴ人片在线观看天堂无码| 成人午夜视频在线观看高清| 国产国语按摩对白av在线观看| 特黄 做受又硬又粗又大视频| 夜夜高潮夜夜爽夜夜爱爱| 国产人成亚洲第一网站在线播放| 亚洲av色香蕉一区二区三区软件| 大香蕉国产av一区二区三区| 婷婷久久香蕉五月综合加勒比| 日日摸夜夜添夜夜添无码免费视频 | 中国丰满熟妇xxxx性| 国产欧美成人| 日韩亚洲午夜精品一区二区三区| 精品久久人妻一区二区| 久久人人爽人人爽人人片av高请 | 中出人妻希奇杰卡西av| 无码国内精品久久人妻| 国产精品丝袜黑色高跟鞋| 国产精品亚洲精品日产久久久| 亚洲国产日韩综合天堂| 欧美老熟妇乱子| 99久久免费精品高清特色大片| 国产欧美日韩在线观看一区二区三区| 国产情侣自拍偷拍精品| 国产精品亚洲色婷婷99久久精品| 女人被狂躁到高潮视频免费网站| 中国极品少妇videossexhd|