亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于支持向量機(jī)的國內(nèi)上市公司運(yùn)營預(yù)測

        2022-06-02 03:54:02張小莉葛建軍
        綠色科技 2022年9期
        關(guān)鍵詞:特征模型

        張小莉,王 品,熊 超,葛建軍

        (貴州財經(jīng)大學(xué),貴州 貴陽 550025)

        1 引言

        隨著我國市場化程度不斷提升,企業(yè)作為市場經(jīng)濟(jì)活動的主要參加者,在資源配置等方面發(fā)揮著越來越大的作用。而作為優(yōu)秀企業(yè)代表的上市公司之間的競爭更是激烈,其健康與否從一定程度上反映著我國國民經(jīng)濟(jì)發(fā)展?fàn)顟B(tài)。在這種情況下,找到一個適合我國上市公司運(yùn)營風(fēng)險的預(yù)測模型十分必要。精確率越高的運(yùn)營預(yù)測模型,其市場價值也越高。

        就目前研究而言,研究者們提出的大量運(yùn)營預(yù)測模型,可以從其使用方法上大體分為兩類:一類是基于傳統(tǒng)統(tǒng)計方法的模型;另一類是基于人工智能技術(shù)的模型。傳統(tǒng)統(tǒng)計方法模型主要有回歸分析(彭壽康[1])、因子分析(徐曉燕[3])和貝葉斯分析(韓麗娜、石昊蘇[8])、聚類分析(朱麗葉[10])等方法。這一類模型發(fā)展歷史較久、理論較為完善,但其主要缺陷在于其模型建立是以很多與現(xiàn)實不太相符的假設(shè)作為前提的。如獨立性假設(shè)、正態(tài)分布假設(shè)及線性回歸假設(shè)等。鑒于這些嚴(yán)格條件,模型模擬的最終效果往往精確度較低,不夠理想;相對于傳統(tǒng)的統(tǒng)計方法,第二類模型主要利用現(xiàn)代人工智能技術(shù),如神經(jīng)網(wǎng)絡(luò)[2,4]、機(jī)器學(xué)習(xí)[5,6,11~13]、遺傳算法[7]等。由于其不需要對數(shù)據(jù)的分布進(jìn)行假設(shè),具有準(zhǔn)確性高、適應(yīng)性強(qiáng)等優(yōu)勢。在近十幾年來被很多專家和學(xué)者廣泛應(yīng)用。同樣的,本文基于相關(guān)研究之上,運(yùn)用第二類方法-支持向量機(jī)來重點研究上市公司運(yùn)營風(fēng)險預(yù)測模型。

        2 數(shù)據(jù)描述及處理

        2.1 數(shù)據(jù)來源

        在數(shù)據(jù)搜集上,本文利用八爪魚采集器自定義的爬取功能,在東方財富網(wǎng)滬深A(yù)股上市公司中獲取了20家破產(chǎn)公司數(shù)據(jù)和2000家健康公司數(shù)據(jù),其中破產(chǎn)上市公司數(shù)據(jù)是指2017~2020年期間滬深A(yù)股退市并轉(zhuǎn)板至老三板的上市公司前一年的財務(wù)年報,健康公司數(shù)據(jù)是2016~2020年期間的上市公司財務(wù)年報。

        總體說來,上市公司的財務(wù)報表由業(yè)績、資產(chǎn)負(fù)債、利潤、現(xiàn)金流等四大類指標(biāo)構(gòu)成,具體可細(xì)分如下40個特征屬性:每股收益、營業(yè)收入、營業(yè)同比增長、營業(yè)季度環(huán)比增長、凈利潤、凈利潤同比增長、凈利潤季度環(huán)比增長、每股凈資產(chǎn)、凈資產(chǎn)收益率、每股經(jīng)營現(xiàn)金流量、銷售毛利率貨幣資金、應(yīng)收賬款、存貨、總資產(chǎn)、總資產(chǎn)同比、應(yīng)收賬款、總負(fù)債、總負(fù)債同比、資產(chǎn)負(fù)債率同比、股東權(quán)益合計、凈利潤、凈利潤同比、營業(yè)總收入、營業(yè)總收入同比、營業(yè)支出、銷售費(fèi)用、管理費(fèi)用、財務(wù)費(fèi)用、營業(yè)總支出、營業(yè)利潤、利潤總額、凈現(xiàn)金流、凈現(xiàn)金流同比增長、經(jīng)營性現(xiàn)金流量凈額、經(jīng)營性凈現(xiàn)金流占比、投資性現(xiàn)金流量凈額、投資性凈現(xiàn)金流占比、融資性現(xiàn)金流量凈額、融資凈現(xiàn)金流占比。

        2.2 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理沒有標(biāo)準(zhǔn)的流程,具體選擇方法要根據(jù)數(shù)據(jù)集屬性而定。根據(jù)本文數(shù)據(jù)情況,數(shù)據(jù)預(yù)處理主要有以下步驟:①去除唯一屬性,即去除上市公司的股票代碼,這些屬性并不能刻畫樣本自身的分布規(guī)律,直接刪除即可;②缺失值補(bǔ)全,筆者這里使用的是同類均值插補(bǔ)方法,即將樣本進(jìn)行分類,然后以該類中樣本的均值來插補(bǔ)缺失值;③歸一化,以避免度量單位不同帶來分析不便。

        3 構(gòu)建最優(yōu)特征子集

        如何從大量的特征變量中選取對學(xué)習(xí)算法有益的特征變量來進(jìn)行簡化建模,是整個模型構(gòu)建中最為關(guān)鍵的一步。本文采用了兩種方法進(jìn)行篩選比較來確定最終最優(yōu)特征子集。

        3.1 隨機(jī)森林

        作為新興起的、高度靈活的一種機(jī)器學(xué)習(xí)算法,隨機(jī)森林精度高、計算成本小、在分類問題上表現(xiàn)優(yōu)秀[13]。隨機(jī)森林體現(xiàn)的是集成學(xué)習(xí)的思想,其基本單元是決策樹,用數(shù)學(xué)公式可以表示為{h(X,ki),i=1,2,3,4...n},其中{ki}是獨立同分布的隨機(jī)向量(決策樹),在給定自變量X下,每顆決策樹都能獨立地給出自己分類的結(jié)果,以次數(shù)最多的類別指定為最終輸出結(jié)果[5]。

        本文利用隨機(jī)森林進(jìn)行特征篩選的思想借鑒了姚登舉老師[5]在其文獻(xiàn)中提到的一種算法:RFFS特征選擇方法。即以隨機(jī)森林算法為基本工具,先利用隨機(jī)森林算法計算出每個特征變量的重要性并將它們進(jìn)行降序處理,比較每個特征對分類結(jié)果貢獻(xiàn)率的大小。然后從序列最后面的特性變量刪起,每次從特征集合中刪掉一個最不重要(重要性得分最小)的特征,每刪除一個特征向量就會得到一個新的特征集,使用新的特征集放入SVM模型中重新擬合,依次計算其分類正確率,并將最終結(jié)果進(jìn)行匯總比較,分類正確率最高的那個特征集合即是最優(yōu)特征子集的選擇結(jié)果。在統(tǒng)計應(yīng)用中,如果出現(xiàn)特征數(shù)目較多的情況,為了避免計算過程太過繁瑣,可以在迭代之前先設(shè)置一個最小重要性閾值,特征重要性得分小于這個最小閾值的特征可以直接刪掉。

        由于本文選擇的特征變量數(shù)量不算太多只有40個,且每個指標(biāo)在財務(wù)報表上都有很重要的參考意義,所以這里就沒有設(shè)置最小重要性閾值,而是直接將所有特征變量帶入到SVM中,以2為步長,依次從序列中后面刪除2個特征變量進(jìn)行迭代,得到的精確度匯總?cè)绫?。

        表1 取不同數(shù)量特征子集的精準(zhǔn)度

        利用切片方式選擇市值為因變量y,每股收益、營業(yè)收入、營業(yè)同比增長等40個指標(biāo)為特征變量x。利用表1數(shù)據(jù)訓(xùn)練隨機(jī)森林,得到的各個特征變量重要性得分如圖1所示。

        圖1 各個特征重要程度

        當(dāng)只選取前16個特征變量時模擬精確度最高,為0.6455。即隨機(jī)森林排序后的前16個特征變量就是其挑選出來的最優(yōu)特征子集。具體為:股東權(quán)益合計、總資產(chǎn)、凈利潤、營業(yè)總收入、營業(yè)收入、貨幣資金、營業(yè)總支出、營業(yè)支出、營業(yè)利潤、利潤總額、銷售毛利率、經(jīng)營性現(xiàn)金流量凈額、每股收益、凈資產(chǎn)收益率、管理費(fèi)用、資產(chǎn)負(fù)債率。

        3.2 SVM模型

        支持向量機(jī)SVM是機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的一種分類算法,其主要思想就是將數(shù)據(jù)特征映射到幾何空間上,通過學(xué)習(xí)不同類別所擁有的特征對學(xué)習(xí)樣本求解的最大邊距超平面,并以此構(gòu)造最優(yōu)間隔的分類器。根據(jù)處理的數(shù)據(jù)是否線性可分,SVM模型可分為線性可分支持向量機(jī)和線性不可分支持向量機(jī)[11]。

        利用SVN-RFE方法選出最優(yōu)特征后,進(jìn)行交叉驗證法驗證最優(yōu)特征集合的準(zhǔn)確率,采用K折交叉驗證,對每次計算進(jìn)行打分,發(fā)現(xiàn)10次計算后得分均在63%附近,這說明利用SVM-RFE得到的最優(yōu)特征集合對于市值的正確預(yù)測率在63%左右,效果不是很理想。接下來要對最優(yōu)特征及模型方法進(jìn)行調(diào)整改進(jìn),以期提高預(yù)測的準(zhǔn)確率。

        3.3 綜合比較

        綜合比較隨機(jī)森林和支持向量機(jī)輸出結(jié)果:隨機(jī)森林算法挑選的最優(yōu)特征個數(shù)為16,精確率為0.64;支持向量機(jī)算法挑選的最優(yōu)特征個數(shù)為22,精確率為0.63。兩種算法得出得精確率相差不大,但在最優(yōu)特征個數(shù)上有較大差別,考慮到結(jié)果可靠性和計算機(jī)的計算速度,筆者優(yōu)先取兩個算法結(jié)果的交集,即對于兩個算法都認(rèn)可影響因子較大的特征優(yōu)先選取,剩下的特征變量則按隨機(jī)森林挑選的特征重要性排序補(bǔ)足15個特征子集作為最終的特征最優(yōu)子集。最終結(jié)果為:每股收益、凈利潤、凈資產(chǎn)收益率、銷售毛利率、貨幣資金、總資產(chǎn)、股東權(quán)益合計、營業(yè)總收入、營業(yè)總收入占比、營業(yè)支出、管理費(fèi)用、營業(yè)總支出、營業(yè)利潤、利潤總額、經(jīng)營性現(xiàn)金流量凈額。

        4 基于SVM模型預(yù)測效果

        4.1 評價指標(biāo)的選取

        在判斷模型的預(yù)測能力上,需要引入指標(biāo)展現(xiàn)模型的優(yōu)劣和預(yù)測效果好壞[6]。通過查閱文獻(xiàn),本文選取了基于混淆矩陣的F-Measure指標(biāo)對模型進(jìn)行評比。

        理由:本文所收集的是非均衡數(shù)據(jù),每份年報包含1800~2000家健康上市公司和4~5家破產(chǎn)上市公司。F值是用來度量非平衡數(shù)據(jù)的模型,公式包含了精準(zhǔn)度和召回率,具體公式如下:

        F-Measure = (2×Precision×Recall) / (Precision + Recall)

        (1)

        式(1)中Precision表示精度預(yù)測為正的結(jié)果中,真正是正樣本所占的比例;Recall是測試集中所有正樣本樣例中,被正確識別為正樣本的比例。如果一個分類器的性能較好,正Recall增長的同時,Precision也應(yīng)該保持在較高的水平,但實際上,它們是呈反向變化的。而F值同時兼顧了模型的精度和準(zhǔn)確度,克服了P和R的矛盾,在度量非均衡數(shù)據(jù)方面表現(xiàn)良好。F值越高說明該模型效果越好[10]。

        4.2 SVM模型預(yù)測結(jié)果檢驗

        前面已經(jīng)選好了最優(yōu)特征子集,接下來的目的就是構(gòu)造SVM模型并驗證模型的有效性。在總數(shù)據(jù)中做出修改,將沒有對特征變量進(jìn)行優(yōu)化的數(shù)據(jù)和已經(jīng)做了最優(yōu)子集的數(shù)據(jù)分別隨機(jī)抽樣,對比其在SVM模型中的有效性。

        隨機(jī)抽取1000條沒有對特征變量進(jìn)行任何優(yōu)化的樣本數(shù)據(jù)進(jìn)行簡單預(yù)處理,將其放入SVM模型中進(jìn)行預(yù)測分類,多次運(yùn)用模型擬合數(shù)據(jù)并對結(jié)果求平均值,可得到如表2的混淆矩陣1;隨機(jī)抽取特征變量優(yōu)化后即包含了15個最優(yōu)特征子集的數(shù)據(jù)進(jìn)行同樣操作,得到如表3的混淆矩陣2。

        表2 混淆矩陣1

        由表3可知,在測試集中得到219家財務(wù)正常運(yùn)作的上市公司里,SVM模型全部預(yù)測正確,而在20家破產(chǎn)上市公司中,僅僅預(yù)測正確了10家。計算得F=0.66,這說明特征變量優(yōu)化前的SVM模型的預(yù)測效果隨機(jī)性很強(qiáng),模型不理想。對比表4結(jié)果,219家健康上市公司全部預(yù)測正確,20家破產(chǎn)上市公司中預(yù)測正確15家,F(xiàn)=0.85。這說明對特征變量進(jìn)行一輪優(yōu)化后,F(xiàn)值由0.66提升至0.85,準(zhǔn)確率明顯有所提升,即本文建立的模型是有效的。

        表3 混淆矩陣2

        5 回歸分析

        利用多元線性回歸方法對已篩選出的特征進(jìn)行顯著性分析,研究對于市值產(chǎn)生顯著影響的變量。確定回歸模型的假設(shè)檢驗原假設(shè)為15個特征值(表4)對市值的影響不顯著。建立模型如下:

        表4 回歸模型特征變量展示

        Yi=β0+β1X1+…+β15X15

        (2)

        式(2)中Y為市值,Xi為自變量,即所選出的最優(yōu)特征,βi為回歸系數(shù)。

        原假設(shè)15個特征值對市值的影響不顯著。利用SPSS導(dǎo)入以上15個特征和市值進(jìn)行多元線性回歸,結(jié)果如表5所示。

        表5 回歸模型分析

        p值顯著,得到15個特征值對市值的影響是顯著的,進(jìn)一步驗證了上一節(jié)利用SVM和隨機(jī)森林得到的最優(yōu)特征是正確的,通過表6,可以看出是哪些具體的特征對于市值來說是顯著的。

        表6 回歸分析變量系數(shù)展示

        從表6中標(biāo)準(zhǔn)化系數(shù)β可以看出,每股收益、凈利潤、銷售毛利率、總資產(chǎn)、股東權(quán)益合計、管理費(fèi)用、營業(yè)總支出、營業(yè)利潤、利潤總額這9個變量對于自變量市值存在顯著性影響,且在這9個變量中每股收益、銷售毛利率、總資產(chǎn)、股東權(quán)益合計、營業(yè)總支出與市值呈現(xiàn)正向相關(guān)。尤其是總資產(chǎn)、股東權(quán)益合計和每股收益這3項,相比于其他特征,這3個特征的回歸系數(shù)β最大。換句話說,在市值影響特征中,這3個特征存在較高的占比,公司可以重點制定關(guān)于如何提高總資產(chǎn)、股東權(quán)益合計和每股收益的計劃,使市值增加,避免出現(xiàn)財務(wù)危機(jī)的情況。至于負(fù)相關(guān)影響較大的變量,比如管理費(fèi)用,公司應(yīng)該正視這一部分經(jīng)濟(jì)效益,減少非必要的投入資金。

        6 結(jié)論與建議

        在大數(shù)據(jù)迅猛發(fā)展的時代下,股票市場作為社會經(jīng)濟(jì)的“預(yù)警器”和“助推器”,每日都能產(chǎn)生海量數(shù)據(jù)。準(zhǔn)確預(yù)測上市公司運(yùn)營風(fēng)險問題有利于政府相關(guān)部門和個人投資者避免遭受重大損失[13]。本文中主要用到了隨機(jī)森林和支持向量機(jī)兩種算法挑選最優(yōu)特征子集,然后利用支持向量機(jī)在處理小樣本數(shù)據(jù)上的優(yōu)勢構(gòu)建破產(chǎn)預(yù)測模型并對模型有效性進(jìn)行驗證。實驗表明,經(jīng)過最優(yōu)特征篩選后的數(shù)據(jù)在模型中表現(xiàn)還算良好,準(zhǔn)確率約為85%。

        建議:

        (1)政府要加強(qiáng)市場監(jiān)測,及時有效地發(fā)現(xiàn)那些對于國家經(jīng)濟(jì)有重大關(guān)聯(lián)的關(guān)鍵企業(yè)是否有運(yùn)營風(fēng)險,必要時候施以補(bǔ)救措施,避免給社會穩(wěn)定帶來大的影響[14]。

        (2)企業(yè)內(nèi)部加強(qiáng)監(jiān)督管理、定期評估公司運(yùn)營狀況[15]。

        (3)個人要多關(guān)注市場風(fēng)向有破產(chǎn)的危機(jī),必要時候施以補(bǔ)救措施,避免給社會穩(wěn)定帶來大的影響。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        乱子轮熟睡1区| 中文字幕一区二区三区在线看一区| 精品国产日韩亚洲一区在线| 久久99精品久久久大学生| 西西人体444www大胆无码视频 | 美女胸又www又黄的网站| 亚洲综合国产成人丁香五月小说| 毛片在线视频成人亚洲| 亚洲午夜成人精品无码色欲| 亚洲精品无码mv在线观看| 国产成年无码aⅴ片在线观看| 日本在线免费不卡一区二区三区| 中文字幕av伊人av无码av| 亚洲av无码1区2区久久| 亚洲男人天堂av在线| 免费看片的网站国产亚洲| 777精品出轨人妻国产| 精品国产v无码大片在线观看 | 精品蜜桃视频在线观看| 少妇一区二区三区久久| 亚洲av无码一区二区乱孑伦as | 精品久久中文字幕系列| 亚洲av永久无码精品网址| 伊人网视频在线观看| 国产亚洲激情av一区二区| 青春草在线视频观看| 亚洲高潮喷水无码av电影| 精品国产高清a毛片| 中国亚洲av第一精品| 久久天天躁狠狠躁夜夜av| 五月激情婷婷丁香| 中文亚洲第一av一区二区| 色综合久久久久综合体桃花网| 国产精品jizz在线观看老狼| 国产一区二区三区免费在线视频 | 99久久婷婷亚洲综合国产| 日本大骚b视频在线| 欧美视频在线观看一区二区| 国产自产在线视频一区| 五月天激情电影| 人人妻人人澡av天堂香蕉|