亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測研究

        2022-03-22 08:41:00周文泳馮麗霞段春艷
        關(guān)鍵詞:決策樹分類器神經(jīng)網(wǎng)絡(luò)

        周文泳,馮麗霞,段春艷

        (1.同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 200092;2.同濟(jì)大學(xué)機(jī)械與能源工程學(xué)院,上海 201804)

        企業(yè)破產(chǎn)是企業(yè)財(cái)務(wù)困境中最為嚴(yán)峻的情形,企業(yè)經(jīng)營狀況不僅關(guān)系到企業(yè)的生存和發(fā)展,還影響到全球的經(jīng)濟(jì),因此準(zhǔn)確預(yù)測企業(yè)經(jīng)營狀況至關(guān)重要。傳統(tǒng)的企業(yè)經(jīng)營風(fēng)險(xiǎn)預(yù)測常常是決策者依據(jù)經(jīng)驗(yàn)對(duì)企業(yè)當(dāng)前情況進(jìn)行判斷,然而這對(duì)決策者提出了很高的要求,且決策過程也易受決策者的主觀意識(shí)或外界因素干擾。如今隨著大數(shù)據(jù)時(shí)代的到來,這種傳統(tǒng)的預(yù)測方法已不能滿足現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展的需求。

        早期建立了單變量判別模型[1]、多元線性判別模型[2]等用于破產(chǎn)預(yù)測的數(shù)學(xué)模型,而后多元邏輯回歸模型在財(cái)務(wù)困境預(yù)測研究中漸漸發(fā)展,解決了判別分析中的許多問題,如受假設(shè)條件的約束[3]。自20世紀(jì)90年代以來,隨著人工智能和機(jī)器學(xué)習(xí)的興起,決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù)在破產(chǎn)預(yù)測領(lǐng)域得到了快速發(fā)展,眾多研究也證實(shí)了神經(jīng)網(wǎng)絡(luò)、決策樹等機(jī)器學(xué)習(xí)算法在破產(chǎn)預(yù)測中具有更優(yōu)的預(yù)測效果[4-9]。然而,實(shí)際預(yù)測的樣本中往往是破產(chǎn)企業(yè)數(shù)量遠(yuǎn)小于未破產(chǎn)企業(yè)數(shù)量,樣本數(shù)據(jù)的不均衡總是導(dǎo)致機(jī)器學(xué)習(xí)的預(yù)測性能下降。這一問題的主要特征表現(xiàn)為,在少數(shù)類樣本量極少的情況下,分類器無法充分學(xué)習(xí)到少數(shù)類樣本的特征,進(jìn)而難以識(shí)別少數(shù)類樣本。常見的解決思路是在數(shù)據(jù)層面將數(shù)據(jù)進(jìn)行預(yù)處理,通過重抽樣調(diào)整多數(shù)類與少數(shù)類的數(shù)量以實(shí)現(xiàn)類間樣本量的平衡;此外在算法層面,運(yùn)用集成學(xué)習(xí)算法對(duì)分類器進(jìn)行增強(qiáng)[10]。Galar等[11]根據(jù)不同的基本集成學(xué)習(xí)算法和處理類不平衡問題的手段,劃分了四類集成解決方案——代價(jià)敏感提升和數(shù)據(jù)預(yù)處理后分別基于提升、自助匯聚,以及結(jié)合提升與自舉匯聚的雙集成學(xué)習(xí),并選擇了4.5分類器(Classifier 4.5,C4.5)決策樹作為基分類器,證明了在數(shù)據(jù)不平衡情形下,通過聯(lián)合預(yù)處理技術(shù)(隨機(jī)欠抽樣等)和集成學(xué)習(xí)算法,可以獲得更好的預(yù)測效果。而后也有一些研究基于支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、C4.5決策樹等模型,將人工少數(shù)類過采樣法(SMOTE)和自助匯聚、自適應(yīng)提升等集成技術(shù)結(jié)合,獲得了較好的分類結(jié)果[12-14]。Shen等[15]基于SMOTE抽樣,對(duì)比了支持向量機(jī)、決策樹等多種集成分類器,發(fā)現(xiàn)RF的分類效果較優(yōu)。然而,過大的數(shù)據(jù)量會(huì)限制支持向量機(jī)的使用能力,此外決定其預(yù)測能力的核函數(shù)往往也需要慎重地手動(dòng)選擇[16]。相反,神經(jīng)網(wǎng)絡(luò)不僅適用于大樣本,其自動(dòng)提取數(shù)據(jù)特征的能力可一定程度上緩解核函數(shù)帶來的問題[17]。目前已有學(xué)者將神經(jīng)網(wǎng)絡(luò)集成用于信息安全[18-19]、環(huán)境質(zhì)量鑒別[20]、工業(yè)故障診斷[21]等多個(gè)研究領(lǐng)域,而用于公司破產(chǎn)預(yù)測領(lǐng)域的研究還較少。

        因此,本文在前人研究基礎(chǔ)上,選取神經(jīng)網(wǎng)絡(luò)和決策樹作為基分類器,將數(shù)據(jù)預(yù)處理與集成算法結(jié)合構(gòu)建公司破產(chǎn)預(yù)測模型,并對(duì)加利福尼亞大學(xué)爾灣分校(University of California Irvine,UCI)機(jī)器學(xué)習(xí)數(shù)據(jù)庫提供的2007~2013年間一萬多家波蘭制造業(yè)公司進(jìn)行實(shí)驗(yàn)。主要貢獻(xiàn)包括:①在數(shù)據(jù)層面,選擇三種重抽樣方法——隨機(jī)欠抽樣、隨機(jī)過抽樣、SMOTE抽樣進(jìn)行預(yù)處理以實(shí)現(xiàn)類間樣本量的平衡,并擇優(yōu)選出適合不同基分類器的抽樣方法;②在算法層面,整合集成學(xué)習(xí)自助匯聚思想以提高單一分類器的預(yù)測效果。實(shí)驗(yàn)得出以神經(jīng)網(wǎng)絡(luò)為基分類器的模型結(jié)果優(yōu)于以決策樹為基分類器的模型結(jié)果,表明本文的研究方法能更有效地消除實(shí)際應(yīng)用中不平衡數(shù)據(jù)的影響,且在企業(yè)破產(chǎn)預(yù)測領(lǐng)域具有較高的適用性,可為企業(yè)經(jīng)營檢測提供積極支撐。

        1 研究方法

        1.1 數(shù)據(jù)預(yù)處理技術(shù)

        數(shù)據(jù)的預(yù)處理旨在預(yù)先對(duì)初始數(shù)據(jù)采取相關(guān)的審查、篩選、排序等必要措施[22]。數(shù)據(jù)預(yù)處理技術(shù)包含缺失、冗余信息處理,指標(biāo)集優(yōu)化篩選,標(biāo)準(zhǔn)化處理,抽樣消除樣本數(shù)據(jù)不平衡等多個(gè)階段。

        首先,初始樣本數(shù)據(jù)往往存在缺失值,在所有待考察的屬性下并非均有對(duì)應(yīng)的數(shù)值,若不預(yù)先處理掉缺失值,會(huì)致使一些分類模型無法建立,如神經(jīng)網(wǎng)絡(luò)等。一般可通過特殊值、均值或眾數(shù)等數(shù)值進(jìn)行插補(bǔ),而當(dāng)存在缺失值的個(gè)案在數(shù)據(jù)集里的占比很小時(shí)亦可采取直接剔除的手段。

        其次,在眾多經(jīng)濟(jì)指標(biāo)中,各指標(biāo)之間難免會(huì)有相關(guān)性,因而導(dǎo)致數(shù)據(jù)冗余。若將所有指標(biāo)直接代入建立分類模型,不僅會(huì)拖慢分類器的運(yùn)行速度,還容易降低分類精度和模型的可解釋性,因此選擇類似主成分分析這樣的手段根據(jù)指標(biāo)間的相關(guān)性進(jìn)行線性重組,進(jìn)而得到能表示原始指標(biāo)信息的少數(shù)幾個(gè)綜合性指標(biāo)。

        此外,為了像神經(jīng)網(wǎng)絡(luò)這樣的模型能夠較好地運(yùn)行,其輸入數(shù)據(jù)需進(jìn)行標(biāo)準(zhǔn)化處理以消除量綱的影響,常見的方法如零-均值標(biāo)準(zhǔn)化、最小-最大標(biāo)準(zhǔn)化等。零-均值法適用于當(dāng)數(shù)據(jù)呈正態(tài)分布時(shí),通過轉(zhuǎn)化函數(shù)為將其化為標(biāo)準(zhǔn)正態(tài)分

        布,其中μ為樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。而當(dāng)數(shù)據(jù)呈現(xiàn)非正態(tài)或均勻分布時(shí),可對(duì)每一個(gè)輸入的數(shù)值型向量x,減去x中的最小值再除以x中值的范圍以此將數(shù)據(jù)化至0~1范圍內(nèi),函數(shù)表達(dá)式為

        最后,由于分類器對(duì)不均衡數(shù)據(jù)集的有偏性,即多數(shù)類樣本容易識(shí)別而少數(shù)類樣本識(shí)別困難。本文分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣處理來平衡數(shù)據(jù)集。隨機(jī)欠抽樣主要是對(duì)多數(shù)類觀測數(shù)采取隨機(jī)剔除的方式,使得數(shù)據(jù)集達(dá)到平衡,該方法在數(shù)據(jù)量很大時(shí)非常有效。隨機(jī)過抽樣以隨機(jī)重復(fù)少數(shù)類觀測的方式來增添樣本數(shù)目。SMOTE抽樣也稱人工數(shù)據(jù)合成法,利用生成人工數(shù)據(jù)來消除不平衡現(xiàn)象,而不僅是重復(fù)原始觀測值。該方法基于特征空間(而非數(shù)據(jù)空間)產(chǎn)生與少數(shù)類觀測相似的新數(shù)據(jù),而相似性則通過歐氏距離得以衡量。

        1.2 機(jī)器學(xué)習(xí)算法

        決策樹算法是用于建立預(yù)測模型的有監(jiān)督學(xué)習(xí)算法,是一種以樹形結(jié)構(gòu)來建立模型的遞歸劃分探索法[17],結(jié)構(gòu)示意圖如圖1所示。

        圖1 決策樹結(jié)構(gòu)示意圖Fig.1 Schematic diagram of decision tree structure

        決策樹通過很多算法都可以實(shí)現(xiàn),5.0分類器(Classifier 5.0,C5.0)是其最知名算法之一。它是由計(jì)算機(jī)科學(xué)家J.Ross Quinlan對(duì)之前的C4.5算法的改進(jìn),運(yùn)算速度更快且更精準(zhǔn)。C5.0決策樹算法使用熵(entropy)來度量特征數(shù)據(jù)X的純度,如式(1)所示[23];然后再計(jì)算信息增益(gain)來決定根據(jù)哪一個(gè)特征進(jìn)行分割,如式(2)所示[23]。決策樹對(duì)于絕大多數(shù)的分類問題均適用。

        人工神經(jīng)網(wǎng)絡(luò)是通過仿照生物神經(jīng)網(wǎng)絡(luò)而開拓出來的進(jìn)行信息處理的模型[24]。其中,多層前饋網(wǎng)絡(luò)是應(yīng)用最廣泛和最受歡迎的人工神經(jīng)網(wǎng)絡(luò)之一,特別是在分類判別問題的應(yīng)用中。圖2顯示了該網(wǎng)絡(luò)的基本結(jié)構(gòu)[25]。輸入數(shù)據(jù)的特征數(shù)量直接決定網(wǎng)絡(luò)輸入層的節(jié)點(diǎn)個(gè)數(shù),輸出層的節(jié)點(diǎn)個(gè)數(shù)則由需要得出的結(jié)果數(shù)目決定。而對(duì)于隱藏層的節(jié)點(diǎn)個(gè)數(shù),當(dāng)下尚且并無一個(gè)絕對(duì)的標(biāo)準(zhǔn)。需要反復(fù)訓(xùn)練擁有不同節(jié)點(diǎn)數(shù)的模型,然后對(duì)比并適當(dāng)?shù)丶踊驕p其個(gè)數(shù)。隱層節(jié)點(diǎn)數(shù)目過大則使得模型易于出現(xiàn)過擬合,且計(jì)算量大、訓(xùn)練緩慢;過小則容易導(dǎo)致無法分類。

        圖2 多層前饋網(wǎng)絡(luò)示意圖[25]Fig.2 Schematic diagram of multilayer feedforward network[25]

        集成學(xué)習(xí)算法的核心是通過整合眾多的單個(gè)弱學(xué)習(xí)器來建立強(qiáng)學(xué)習(xí)器。首先,輸入訓(xùn)練數(shù)據(jù)建立多個(gè)模型,產(chǎn)生多個(gè)預(yù)測;之后,再利用投票表決或其他更復(fù)雜的方法來決定最終預(yù)測結(jié)果。使用集成學(xué)習(xí)的好處就是能節(jié)省尋找單一最佳模型的時(shí)間,并且由于集合了多個(gè)學(xué)習(xí)器的結(jié)果,也降低了單一學(xué)習(xí)器過擬合的可能性。自助匯聚法于1996年由Breiman[26]提出,該集成方法通過在一個(gè)訓(xùn)練集合上重復(fù)訓(xùn)練進(jìn)而得到多個(gè)分類器。它對(duì)相對(duì)不穩(wěn)定的單一學(xué)習(xí)器(如決策樹和神經(jīng)網(wǎng)絡(luò)(neural network,NN))能產(chǎn)生較好的分類效果,因?yàn)榇祟悓W(xué)習(xí)器會(huì)由于數(shù)據(jù)的細(xì)小改變而產(chǎn)生差別很大的模型。

        1.3 基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測模型構(gòu)建

        本文將數(shù)據(jù)預(yù)處理技術(shù)與集成算法結(jié)合構(gòu)建企業(yè)破產(chǎn)預(yù)測模型,在數(shù)據(jù)層面,涵蓋缺失值處理、冗余信息處理、消除樣本不平衡等多個(gè)階段;再在算法層面,選取單隱層前饋神經(jīng)網(wǎng)絡(luò)和C5.0決策樹作為基分類器,并結(jié)合集成學(xué)習(xí)自助匯聚思想來提高基分類器的預(yù)測性能。本文的模型構(gòu)建路徑如圖3所示。

        圖3 基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測模型構(gòu)建路徑Fig.3 Building path of corporate bankruptcy prediction model based on imbalanced data

        首先,將原始樣本加載至R軟件中進(jìn)行初步的數(shù)據(jù)預(yù)處理。由于本文所用樣本量較大,因此選擇直接刪除法進(jìn)行缺失值處理。在冗余信息處理時(shí),采用主成分分析法對(duì)通過缺失值處理的剩余指標(biāo)進(jìn)行降維,從縱向上精簡輸入屬性的維數(shù)。然后按9:1的比例將主成分分析之后產(chǎn)生的新數(shù)據(jù)集拆分為訓(xùn)練集和測試集。用0表示未破產(chǎn)類別,1表示破產(chǎn)類別。

        其次,為了消除不均衡數(shù)據(jù)的影響,先在數(shù)據(jù)處理層面進(jìn)行重抽樣處理,分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣三種抽樣處理,使兩類數(shù)據(jù)量的比例達(dá)到1:1。

        進(jìn)而,將隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣三種抽樣技術(shù)分別與C5.0決策樹、單隱層前饋神經(jīng)網(wǎng)絡(luò)兩種基分類器相結(jié)合,創(chuàng)建6種不同的單一分類器,并在測試集上進(jìn)行測試,通過比較選擇出最適合各個(gè)基分類器的抽樣方法。

        最后,再從提高單一分類器性能的角度,將最優(yōu)抽樣技術(shù)與集成算法自助匯聚法結(jié)合,形成隨機(jī)森林(random forest,RF)和神經(jīng)網(wǎng)絡(luò)集成兩類集成分類器。其中,RF是通過C5.0決策樹算法與自助匯聚算法整合,為決策樹模型增添多樣性;神經(jīng)網(wǎng)絡(luò)集成則是通過單隱層前饋神經(jīng)網(wǎng)絡(luò)與自助匯聚算法整合,以重新抽取訓(xùn)練數(shù)據(jù)集的方式來增添神經(jīng)網(wǎng)絡(luò)集成的差異程度。兩者均是從橫向角度對(duì)訓(xùn)練集實(shí)施多次選取得到多個(gè)有差異的網(wǎng)絡(luò)個(gè)體,進(jìn)而獲得有差異的分類器。同樣在測試集上進(jìn)行檢測,最終比較擇出分類效果最佳的破產(chǎn)預(yù)測模型。

        1.4 評(píng)價(jià)指標(biāo)

        (1)ROC曲線下面積

        對(duì)于不平衡數(shù)據(jù)的分類問題,傳統(tǒng)的分類精度評(píng)價(jià)準(zhǔn)則確實(shí)能從宏觀上映現(xiàn)分類性能,但并不表示能得出對(duì)的分類結(jié)果。因?yàn)楫?dāng)多數(shù)類樣本數(shù)目遠(yuǎn)大于少數(shù)類時(shí),后者能被識(shí)別的概率幾乎為零。所以即使把所有樣本都?xì)w為多數(shù)類,評(píng)價(jià)的精度依舊很高。Weiss等[27]的研究也證實(shí),一般的分類精度評(píng)價(jià)標(biāo)準(zhǔn)會(huì)致使少數(shù)類的分類性能不佳。

        受試者操作特征(receiver operating characteristic,ROC)曲線一般用于查驗(yàn)尋找真陽性與規(guī)避假陽性兩者的權(quán)衡性。分別以假陽性比、真陽性比作為橫、縱坐標(biāo)畫平面圖,得到ROC曲線,示意圖見圖4[28]。為了更好地計(jì)量,計(jì)算ROC曲線的下方面積(area under the ROC,AUC)值來評(píng)判其二元分類的優(yōu)劣,它表示預(yù)測的陽性類排在陰性類前面的概率。因其同時(shí)考慮了分類器對(duì)陽性類和陰性類的分類性能,因此即使在樣本數(shù)據(jù)不平衡的情況下也能對(duì)分類器性能做出合理評(píng)價(jià)[29]。通常AUC的值使用如下評(píng)分體系:0.9~1.0=A(優(yōu)秀),0.8~0.9=B(良好),0.7~0.8=C(一般),0.6~0.7=D(較差),0.5~0.6=F(無法區(qū)分)。

        圖4 ROC曲線[28]Fig.4 The ROC curve[28]

        (2)十折交叉驗(yàn)證

        本文所選取的決策樹和神經(jīng)網(wǎng)絡(luò)兩類基分類器均屬于相對(duì)不穩(wěn)定的學(xué)習(xí)器,為了使訓(xùn)練效果取得較為準(zhǔn)確的評(píng)價(jià),對(duì)每個(gè)模型都進(jìn)行十折交叉驗(yàn)證。將數(shù)據(jù)集分成10部分,依次把9份合并當(dāng)成訓(xùn)練集,剩余1份單獨(dú)當(dāng)成驗(yàn)證集來進(jìn)行測驗(yàn)。每次試驗(yàn)都會(huì)產(chǎn)生相應(yīng)的評(píng)價(jià)值,然后將10次結(jié)果的均值作為其最終評(píng)價(jià)。

        2 研究設(shè)計(jì)

        2.1 數(shù)據(jù)預(yù)處理

        本文采用的波蘭公司財(cái)務(wù)狀況數(shù)據(jù)集由UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫提供。樣本數(shù)據(jù)包括64個(gè)財(cái)務(wù)指標(biāo),收集了近700家在2007-2013年間破產(chǎn)的公司和10 000多家仍在運(yùn)營的公司數(shù)據(jù)。根據(jù)數(shù)據(jù)預(yù)測周期建立了5個(gè)分類案例。數(shù)據(jù)預(yù)處理步驟如下:

        (1)統(tǒng)一數(shù)據(jù)類型。將數(shù)據(jù)文件加載至R軟件中,前64列的財(cái)務(wù)指標(biāo)均轉(zhuǎn)化為數(shù)值型,最后一列分類指標(biāo)轉(zhuǎn)化為因子型——“0”表示未破產(chǎn),“1”表示破產(chǎn)。

        (2)缺失值處理。本文所用樣本量較大,首先統(tǒng)計(jì)了有缺失數(shù)據(jù)的行,即指標(biāo)數(shù)據(jù)有缺失的公司,發(fā)現(xiàn)超過50%的公司都有缺失數(shù)據(jù)。接著對(duì)列進(jìn)行缺失值統(tǒng)計(jì),發(fā)現(xiàn)了指標(biāo)x21(銷售(n)/銷售(n-1))和x37((流動(dòng)資產(chǎn)-存貨)/長期負(fù)債)在5個(gè)預(yù)測期的樣本數(shù)據(jù)中存在著大面積的缺失,因此首先剔除掉這兩個(gè)指標(biāo)。此時(shí)再統(tǒng)計(jì)含有缺失值的公司個(gè)數(shù),發(fā)現(xiàn)缺失率都降到了15%以內(nèi),這時(shí)即可直接刪除這些公司數(shù)據(jù)。

        (3)指標(biāo)降維。利用主成分分析方法對(duì)通過缺失值處理的62個(gè)剩余經(jīng)濟(jì)指標(biāo)進(jìn)行降維。為消除各不同指標(biāo)中量綱的影響,先將數(shù)據(jù)通過零-均值標(biāo)準(zhǔn)化,再用函數(shù)提取主成分。當(dāng)方差累積貢獻(xiàn)率至80%時(shí)即舍棄剩余的部分。本實(shí)驗(yàn)中第1至第5年的樣本得到的主成分個(gè)數(shù)分別是10、10、13、15、14個(gè),各碎石圖如圖5所示。

        圖5 第1至第5年的樣本的主成分碎石圖Fig.5 Principal component lithotripsy diagrams of the samples from the first to the fifth years

        (4)創(chuàng)建隨機(jī)的測試集和訓(xùn)練集。為保證分類器的訓(xùn)練效果,以9:1的比例對(duì)主成分分析后的數(shù)據(jù)集進(jìn)行劃分,即90%的訓(xùn)練集和10%的測試集。劃分后的樣本數(shù)量如表1所示。

        表1 劃分后的樣本數(shù)量Tab.1 The number of samples after partition

        (5)抽樣處理不平衡數(shù)據(jù)。對(duì)訓(xùn)練數(shù)據(jù)采取重抽樣——分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣。利用R軟件中的添加包ROSE(Random Over Sampling Examples,隨機(jī)過抽樣例子)以實(shí)現(xiàn)數(shù)據(jù)量1:1的平衡。例如第1年有5 593個(gè)原始多數(shù)類樣本,采用隨機(jī)過采樣法把少數(shù)類樣本也增添至5 593個(gè),由此數(shù)據(jù)集共有11 186條觀測。

        2.2 算法實(shí)現(xiàn)

        本實(shí)驗(yàn)分別測試C5.0決策樹模型和單隱層前饋神經(jīng)網(wǎng)絡(luò)模型在采用隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣技術(shù)后的分類性能,選擇最適合本實(shí)驗(yàn)數(shù)據(jù)的抽樣技術(shù);然后再將最優(yōu)抽樣技術(shù)與自助匯聚法結(jié)合,尋找分類性能最佳的應(yīng)用模型,并運(yùn)用十折交叉驗(yàn)證得到的AUC值進(jìn)行分類效果評(píng)價(jià)。

        (1)三類抽樣法與C5.0決策樹。使用C5.0添加包建立決策樹模型,將抽樣技術(shù)處理過后的訓(xùn)練數(shù)據(jù)集用于訓(xùn)練C5.0決策樹模型,然后再對(duì)仍舊保持不平衡狀態(tài)的測試數(shù)據(jù)集進(jìn)行測試。

        (2)三類抽樣法與神經(jīng)網(wǎng)絡(luò)。為了確保神經(jīng)網(wǎng)絡(luò)運(yùn)行,其輸入數(shù)據(jù)最好是在0附近,因此先將數(shù)據(jù)采用最小-最大標(biāo)準(zhǔn)化。使用NNET添加包構(gòu)建單隱層前饋神經(jīng)網(wǎng)絡(luò)模型。對(duì)于參數(shù)的選擇上,本文根據(jù)以往研究經(jīng)驗(yàn),對(duì)隱藏層的節(jié)點(diǎn)個(gè)數(shù),依照經(jīng)驗(yàn)公式初始設(shè)置為5,再適當(dāng)加上和減去一點(diǎn)余量,反復(fù)訓(xùn)練模型并測試[30]。其次為了更好防止過擬合,設(shè)置權(quán)重衰減參數(shù)。根據(jù)每個(gè)模型訓(xùn)練的實(shí)際情況進(jìn)行權(quán)重衰減參數(shù)值在0.001~0.1之間的調(diào)整。

        (3)RF與神經(jīng)網(wǎng)絡(luò)集成。兩者都是基于自助匯聚法思想,其中,RF是通過C5.0決策樹算法與自助匯聚法算法整合,為決策樹模型增添多樣性;神經(jīng)網(wǎng)絡(luò)集成則是將單隱層的前饋神經(jīng)網(wǎng)絡(luò)與自助匯聚法算法整合,以重新抽取訓(xùn)練數(shù)據(jù)集的方式來增添神經(jīng)網(wǎng)絡(luò)集成的差異程度。本文意圖通過實(shí)驗(yàn)將兩者進(jìn)行比較。使用RF和CARET兩個(gè)添加包分別構(gòu)建RF模型和神經(jīng)網(wǎng)絡(luò)集成模型。最終所有模型都通過十折交叉驗(yàn)證求出AUC值,作為其分類評(píng)價(jià)結(jié)果。

        3 結(jié)果分析

        根據(jù)前面幾節(jié)所介紹的步驟,把5個(gè)預(yù)測期的數(shù)據(jù)都分別代入單一分類器和集成分類器進(jìn)行運(yùn)算,得到對(duì)公司破產(chǎn)預(yù)測的分類評(píng)價(jià)結(jié)果如表2和表3所示。

        表2 單一分類器的預(yù)測效果(AUC值及評(píng)價(jià)等級(jí))Tab.2 Prediction effect of single classifier(AUC value and evaluation grade)

        表3 集成分類器的預(yù)測效果(AUC值及評(píng)價(jià)等級(jí))Tab.3 Prediction effect of ensemble classifier(AUC value and evaluation level)

        (1)單一分類器比較

        首先比較3種數(shù)據(jù)重抽樣技術(shù)分別對(duì)C5.0決策樹和單隱層前饋神經(jīng)網(wǎng)絡(luò)的分類效果的影響。對(duì)于C5.0決策樹,通過五期AUC的平均值來比較三類不同抽樣法,結(jié)果顯示與欠抽樣技術(shù)結(jié)合的決策樹(C等)的分類性能更佳。因此為了后續(xù)模型性能的提升,選擇欠抽樣法與RF結(jié)合。對(duì)于單隱層前饋神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)與欠抽樣、SMOTE抽樣結(jié)合的模型性能都比較優(yōu)良(均為C等),因此為后面階段神經(jīng)網(wǎng)絡(luò)的集成選擇隨機(jī)欠抽樣與SMOTE抽樣。兩種分類器的實(shí)驗(yàn)結(jié)果均顯示欠抽樣技術(shù)在處理不均衡數(shù)據(jù)上的良好效用。其次,比較兩類單一分類器,從AUC平均數(shù)值上來看,欠抽樣、SMOTE抽樣下的單隱層前饋神經(jīng)網(wǎng)絡(luò)(0.79、0.77),更優(yōu)于欠抽樣下的C5.0決策樹(0.73)。

        (2)集成分類器比較

        從集成學(xué)習(xí)的角度比較集成分類器和單一分類器,結(jié)果顯示無論是通過集成學(xué)習(xí)之后的決策樹模型還是集成神經(jīng)網(wǎng)絡(luò),模型的預(yù)測性能都有所提升。尤其是針對(duì)那些集成前分類效果較差的預(yù)測期數(shù)據(jù),模型集成后其性能有顯著的提升,如第3年數(shù)據(jù)的決策樹模型(從D到C)和第5年數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型(從D到B)。再從不同分類器的角度比較隨機(jī)欠抽樣下的RF,與隨機(jī)欠抽樣、SMOTE抽樣下的神經(jīng)網(wǎng)絡(luò)集成,從評(píng)價(jià)均值上來看后兩者對(duì)于公司破產(chǎn)預(yù)測效果更優(yōu)(C、B、B)。

        4 結(jié)論

        2020年新冠疫情的爆發(fā)更是加大了企業(yè)對(duì)破產(chǎn)預(yù)測的重視程度。本文著眼于破產(chǎn)預(yù)測中樣本類別數(shù)據(jù)不均衡且樣本規(guī)模較大的問題,從增加分類器差異度的角度,對(duì)傳統(tǒng)的預(yù)測模型進(jìn)行改進(jìn),建立了基于重抽樣技術(shù)和自助匯聚集成算法兩者聯(lián)合的機(jī)器學(xué)習(xí)模型,并對(duì)UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中一萬余條波蘭制造業(yè)公司數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。本研究選取C5.0決策樹與單隱層前饋神經(jīng)網(wǎng)絡(luò)兩種基分類器,結(jié)合數(shù)據(jù)層和算法層兩方面的改進(jìn),并通過十折交叉驗(yàn)證的AUC值進(jìn)行評(píng)判。

        最終實(shí)證結(jié)果顯示:

        (1)針對(duì)類別不平衡的公司破產(chǎn)預(yù)測樣本,隨機(jī)欠抽樣和SMOTE抽樣技術(shù)能輔助單一分類器獲得更優(yōu)良的預(yù)測效果;

        (2)進(jìn)而結(jié)合集成學(xué)習(xí)自助匯聚思想時(shí),神經(jīng)網(wǎng)絡(luò)集成模型的預(yù)測結(jié)果不僅優(yōu)于其單一分類器模型,也更優(yōu)于RF模型。本文構(gòu)建的預(yù)測模型結(jié)合了數(shù)據(jù)層面和算法層面的改進(jìn),通過大量的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,有效消減了實(shí)際應(yīng)用中不平衡訓(xùn)練集帶來的影響,得到了具有較好預(yù)測性能的集成分類器,能準(zhǔn)確預(yù)測公司破產(chǎn)風(fēng)險(xiǎn),可應(yīng)用于記錄了眾多財(cái)務(wù)指標(biāo)屬性的公司數(shù)據(jù)集中,為公司經(jīng)營檢測提供積極支撐,進(jìn)而使公司及早實(shí)施相關(guān)措施預(yù)防破產(chǎn)。

        總而言之,建立科學(xué)、準(zhǔn)確且實(shí)用的公司破產(chǎn)預(yù)測模型,不僅能夠幫助企業(yè)管理者及時(shí)地識(shí)別公司潛在的經(jīng)營風(fēng)險(xiǎn),還能幫助投資者等眾多利益相關(guān)方做出正確的投融資決定以免遭受巨大損失,同時(shí)對(duì)國家及地方政府的資金、人力等投入規(guī)劃的制定也具有重要的輔助作用。此外,隨著技術(shù)的不斷更新升級(jí),公司破產(chǎn)預(yù)測模型也依舊是在不斷變化中發(fā)展的。從起初企業(yè)家的經(jīng)驗(yàn)判斷、判別分析,到如今的機(jī)器學(xué)習(xí)算法,公司破產(chǎn)預(yù)測研究始終是一個(gè)永恒且熱門的話題。面對(duì)新時(shí)代背景下不斷涌現(xiàn)的新的難題與挑戰(zhàn),未來應(yīng)不斷探索新途徑,持續(xù)對(duì)破產(chǎn)預(yù)測模型進(jìn)行調(diào)整和創(chuàng)新,以完善公司破產(chǎn)預(yù)測領(lǐng)域的研究。

        未來研究可進(jìn)一步從此方向入手:針對(duì)神經(jīng)網(wǎng)絡(luò)這種黑箱方法,建立更優(yōu)參數(shù)配置的神經(jīng)網(wǎng)絡(luò)集成模型,提升集成學(xué)習(xí)后的預(yù)測效果;除了常用的單隱層前饋神經(jīng)網(wǎng)絡(luò),還可以嘗試采用徑向基神經(jīng)網(wǎng)絡(luò)等其他方法。

        作者貢獻(xiàn)聲明:

        周文泳:指導(dǎo)研究方案和論文撰寫,全文審閱。

        馮麗霞:數(shù)據(jù)收集與處理,算法實(shí)現(xiàn),撰寫論文。

        段春艷:指導(dǎo)研究方案和論文撰寫,審閱及修訂論文。

        猜你喜歡
        決策樹分類器神經(jīng)網(wǎng)絡(luò)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于決策樹的出租車乘客出行目的識(shí)別
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        久久精品国产亚洲av不卡国产| 无码在线观看123| 国产成人啪精品视频免费软件| 国产精品麻豆欧美日韩ww| 久久久久久久妓女精品免费影院 | 亚洲aⅴ天堂av天堂无码麻豆| 国产精品自产拍在线18禁| 精品专区一区二区三区| 色佬精品免费在线视频| 亚洲老妈激情一区二区三区| 亚洲国产麻豆综合一区| 久久99久久久精品人妻一区二区 | 亚洲日本无码一区二区在线观看| 久久精品国产自产对白一区| (无码视频)在线观看| 狠狠色噜噜狠狠狠狠888奇禾| 丰满人妻AV无码一区二区三区| 免费在线国产不卡视频| 国产精品特级毛片一区二区三区| 国产精品一区二区久久不卡| 精品人妻中文av一区二区三区| 国产一区二区在线观看av| 国产人妻鲁鲁一区二区| 7777奇米四色成人眼影| 人妻被猛烈进入中文字幕| 精品人妻在线一区二区三区在线| 伊人精品久久久久中文字幕| 亚洲av国产av综合av| 97国产精品麻豆性色| 国产午夜在线视频观看| 夜夜高潮夜夜爽夜夜爱爱| 97色综合| 中美日韩在线一区黄色大片| 国产一区二区女内射| 在线精品无码一区二区三区| 精品国产av一区二区三区| 朝鲜女人大白屁股ass孕交| 玖玖资源站无码专区| 国产一区二区精品久久呦| 亚洲熟妇av一区二区三区| 嗯啊哦快使劲呻吟高潮视频|