陳文青
(安徽大學(xué) 經(jīng)濟(jì)學(xué)院,安徽 合肥,230601)
2020年是全面建成小康社會(huì)和“十三五”規(guī)劃的收官之年,在突如其來的新冠肺炎疫情影響下,如何快速恢復(fù)經(jīng)濟(jì)增速,保持經(jīng)濟(jì)穩(wěn)中向好、長(zhǎng)期向好的發(fā)展局面,對(duì)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展提出了更高要求。從經(jīng)濟(jì)周期角度來看,我國(guó)經(jīng)濟(jì)目前正處于一個(gè)較長(zhǎng)周期的收縮階段,經(jīng)濟(jì)是否持續(xù)回落、何時(shí)到達(dá)轉(zhuǎn)折點(diǎn)也成為了社會(huì)各界熱切討論的話題。為更好地抵御風(fēng)險(xiǎn),開展高效的宏觀經(jīng)濟(jì)管理與調(diào)控,對(duì)當(dāng)前經(jīng)濟(jì)狀態(tài)的清晰了解、對(duì)未來經(jīng)濟(jì)發(fā)展的準(zhǔn)確預(yù)測(cè)就成為最基礎(chǔ)卻重要的工作。我國(guó)經(jīng)濟(jì)已呈現(xiàn)“新常態(tài)”,增速放緩、經(jīng)濟(jì)結(jié)構(gòu)改革、驅(qū)動(dòng)轉(zhuǎn)向,在獨(dú)特的經(jīng)濟(jì)體制作用下,我國(guó)經(jīng)濟(jì)運(yùn)行存在著特有的復(fù)雜性與不確定性。因此,對(duì)當(dāng)前經(jīng)濟(jì)周期狀態(tài)準(zhǔn)確劃分有助于加強(qiáng)對(duì)整個(gè)經(jīng)濟(jì)運(yùn)行態(tài)勢(shì)的了解,對(duì)影響經(jīng)濟(jì)周期狀態(tài)劃分的影響因素及其重要性分析,可以為預(yù)測(cè)經(jīng)濟(jì)形勢(shì)及經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)提供有利幫助,對(duì)政府和投資者來說都具有重要的意義。對(duì)于宏觀經(jīng)濟(jì)政策來說,經(jīng)濟(jì)周期狀態(tài)劃分影響因素的研究結(jié)果可以成為其調(diào)整的理論依據(jù)。
經(jīng)濟(jì)周期狀態(tài)劃分,即判斷該時(shí)點(diǎn)經(jīng)濟(jì)運(yùn)行狀態(tài)處于經(jīng)濟(jì)周期中哪個(gè)階段,由此來確定和預(yù)測(cè)經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn),同時(shí)一旦確定經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn),也可以完成對(duì)經(jīng)濟(jì)狀態(tài)的劃分。對(duì)于經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)的預(yù)測(cè)研究最早是由美國(guó)國(guó)民經(jīng)濟(jì)研究局(NBER)提出的,他們提出的先行指標(biāo)方法具有較大的局限性,存在主觀性和嚴(yán)重滯后性,且不具有可復(fù)制性。鑒于此,Bry和Boschan(1971)提出的經(jīng)濟(jì)周期的非參數(shù)劃分方法(簡(jiǎn)稱B-B法),成為最常用的確定經(jīng)濟(jì)周期波動(dòng)峰、谷日期的傳統(tǒng)方法[1]。該方法對(duì)于確定經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)提出兩個(gè)約束條件:第一,谷到峰或峰到谷的持續(xù)時(shí)間在兩個(gè)季度以上;第二,兩個(gè)相同的轉(zhuǎn)折點(diǎn)即一個(gè)波動(dòng)周期的持續(xù)時(shí)間至少為五個(gè)季度。
在由經(jīng)濟(jì)周期階段性劃分來預(yù)測(cè)經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)的研究中,有兩種較為典型的研究方法,一為利用馬爾科夫狀態(tài)轉(zhuǎn)換模型,二是利用二元變量模型。Hamilton(1989, 1990)提出并發(fā)展完善的馬爾科夫狀態(tài)轉(zhuǎn)換模型,該模型包含一個(gè)離散的狀態(tài)變量,可將經(jīng)濟(jì)處于不同狀態(tài)的概率估算出來[2,3]。王建軍(2007)在傳統(tǒng)馬爾科夫狀態(tài)轉(zhuǎn)換模型的基礎(chǔ)上,引入了新的虛擬變量,該變量能夠較好的反映我國(guó)經(jīng)濟(jì)增長(zhǎng)周期模式的改變和狀態(tài)轉(zhuǎn)移機(jī)制的變遷,由此解決了將馬爾科夫模型應(yīng)用于中國(guó)年度宏觀經(jīng)濟(jì)數(shù)據(jù)研究中國(guó)經(jīng)濟(jì)周期問題的難題[4]。鄭挺國(guó)(2017)在馬爾科夫區(qū)制轉(zhuǎn)移動(dòng)態(tài)因子模型的基礎(chǔ)上使用混頻數(shù)據(jù),構(gòu)造了一種能夠綜合利用不規(guī)則數(shù)據(jù)的經(jīng)濟(jì)周期計(jì)量模型,較好的刻畫出我國(guó)經(jīng)濟(jì)周期波動(dòng)及階段性變化[5]?;诙x擇模型的預(yù)測(cè)研究是以一系列宏觀經(jīng)濟(jì)指標(biāo)為基礎(chǔ),結(jié)合傳統(tǒng)的二元選擇模型來預(yù)測(cè)未來一段時(shí)間衰退發(fā)生的可能性。石柱鮮等(2007)應(yīng)用Logistic回歸模型構(gòu)建了我國(guó)先行3個(gè)月的經(jīng)濟(jì)周期狀態(tài)預(yù)測(cè)模型,同時(shí)結(jié)合小波方法對(duì)2007年主要經(jīng)濟(jì)指標(biāo)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè),取得較好的預(yù)測(cè)效果[6]。
隨著人工智能的興起,機(jī)器學(xué)習(xí)(Machine Learning)方法在各個(gè)領(lǐng)域迅速崛起,為解決互聯(lián)網(wǎng)時(shí)代經(jīng)濟(jì)研究提供了新的研究方法。Lapedes et al(1987)首次將人工神經(jīng)網(wǎng)絡(luò)用于經(jīng)濟(jì)預(yù)測(cè),確定了人工神經(jīng)網(wǎng)絡(luò)在經(jīng)濟(jì)預(yù)測(cè)中具有較高的準(zhǔn)確性和有效性,此后,人工神經(jīng)網(wǎng)絡(luò)等大數(shù)據(jù)方法就成為經(jīng)濟(jì)預(yù)測(cè)領(lǐng)域的研究熱點(diǎn)[7]。陳夢(mèng)根等(2020)通過對(duì)比分析利用傳統(tǒng)方法和利用機(jī)器學(xué)習(xí)方法所得的居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)結(jié)果,發(fā)現(xiàn)相比傳統(tǒng)的回歸方法和時(shí)間序列預(yù)測(cè)方法,神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法對(duì)預(yù)測(cè)結(jié)果具有明顯優(yōu)勢(shì)[8]。
整體上看,目前對(duì)于經(jīng)濟(jì)周期狀態(tài)劃分的相關(guān)研究極為豐富,其中傳統(tǒng)的非參數(shù)方法B-B法對(duì)于經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)的判定結(jié)果已成為世界各國(guó)對(duì)于經(jīng)濟(jì)周期階段劃分及轉(zhuǎn)折點(diǎn)預(yù)測(cè)時(shí)的重要參照,然而該方法無法實(shí)現(xiàn)經(jīng)濟(jì)狀態(tài)的預(yù)測(cè),且無法體現(xiàn)各經(jīng)濟(jì)指標(biāo)對(duì)經(jīng)濟(jì)周期的影響。另一種被廣泛運(yùn)用的思路是通過對(duì)經(jīng)濟(jì)擴(kuò)張期和收縮期狀態(tài)的劃分來確定和預(yù)測(cè)經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn),馬爾可夫狀態(tài)轉(zhuǎn)換模型和二元變量模型是其中較為典型的研究方法。機(jī)器學(xué)習(xí)方法作為一種較新的人工智能方法,其應(yīng)用在經(jīng)濟(jì)問題上的研究還比較少,在已有的對(duì)于經(jīng)濟(jì)周期相關(guān)問題上的應(yīng)用也更多偏向于對(duì)轉(zhuǎn)折點(diǎn)的預(yù)測(cè)及經(jīng)濟(jì)狀態(tài)的劃分,方向較為單一。因此,本文在前人豐富的研究基礎(chǔ)上,應(yīng)用機(jī)器學(xué)習(xí)方法探究經(jīng)濟(jì)周期狀態(tài)劃分及其影響因素,相比已有成果更偏重于對(duì)于影響因素及其重要性的分析。
2.1.1 邏輯回歸模型 邏輯回歸(Logistic Regression)是一種廣義的線性回歸分析模型,可以用于估計(jì)某事件發(fā)生的可能性,本文使用的是二分類的邏輯回歸。邏輯回歸實(shí)現(xiàn)分類問題的處理是通過Sigmoid函數(shù)引入了非線性因素,將函數(shù)的輸入范圍(∞,-∞)映射到了輸出的(0, 1)之間且具有概率意義。對(duì)于輸入x,在給定參數(shù)θ條件下分類結(jié)果為1或0的概率分別為:
(1)
(2)
邏輯回歸模型實(shí)現(xiàn)簡(jiǎn)單,可以較為便利的觀測(cè)樣本概率分?jǐn)?shù),但容易欠擬合,影響分類結(jié)果準(zhǔn)確率。
2.1.2 決策樹模型 決策樹是在分類問題中經(jīng)常使用到的一種監(jiān)督型學(xué)習(xí)算法,可以根據(jù)輸入變量中最顯著的分裂點(diǎn)將總體或樣本劃分為兩類或多類。本文采用的是決策樹中的 CART 分類樹算法(Classification And Regression Tree)。該算法是一種二分遞歸分割技術(shù),把當(dāng)前樣本劃分為兩個(gè)子樣本,使得生成的每個(gè)非葉子結(jié)點(diǎn)都有兩個(gè)分支,即它在每一步的決策都只能是“yes”和“no”,因此 CART分類樹算法生成的決策樹是結(jié)構(gòu)簡(jiǎn)潔的二叉樹。
CART分類樹算法使用基尼系數(shù)Gini(p)作為劃分函數(shù),基尼系數(shù)代表模型的不純度,基尼系數(shù)越小,模型純度越高,特征越好。對(duì)于二分類問題,假設(shè)第一類輸出的概率為p,則
Gini(p)=2p(1-p)
(3)
對(duì)于樣本D,個(gè)數(shù)為|D|,根據(jù)特征A的某個(gè)值a,把D分成|D1|和|D2|,則在特征A的條件下,樣本D的基尼系數(shù)表達(dá)式為:
(4)
CART 算法主要由決策樹的生成和剪枝兩個(gè)步驟組成。
決策樹的輸出結(jié)果比較直觀,易于理解,可以處理多維度輸出的分類問題,但樣本的微小改動(dòng)可能導(dǎo)致樹結(jié)構(gòu)的劇烈改變,該問題可以通過集成學(xué)習(xí)里面的隨機(jī)森林等方法解決。
2.1.3 隨機(jī)森林模型 隨機(jī)森林是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè),其基本思路為:(1)從樣本集中隨機(jī)選取n個(gè)樣本;(2)從所有屬性中隨機(jī)選取K個(gè)屬性,選擇最佳分割屬性作為節(jié)點(diǎn)建立CART決策樹;(3)重復(fù)以上兩步m次,即建立了m棵CART決策樹;(4)這m個(gè)CART形成隨機(jī)森林,通過投票表決結(jié)果,決定數(shù)據(jù)屬于哪一類。
隨機(jī)森林對(duì)于高維數(shù)據(jù)的處理較為理想,在樣本特征維度很高時(shí)仍然能高效的訓(xùn)練模型,且在訓(xùn)練后可以給出各個(gè)特征對(duì)于輸出的重要性。
分類模型的構(gòu)建需要目標(biāo)變量與解釋變量,目標(biāo)變量是描述某時(shí)點(diǎn)經(jīng)濟(jì)狀態(tài)的二分類變量,它的確定需要我們先對(duì)經(jīng)濟(jì)周期進(jìn)行階段劃分。解釋變量是在大量的宏觀經(jīng)濟(jì)指標(biāo)中篩選出的能夠全面、及時(shí)反應(yīng)經(jīng)濟(jì)運(yùn)行態(tài)勢(shì)的指標(biāo),它的確立需要經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)的基準(zhǔn)指標(biāo)作為主要選取標(biāo)準(zhǔn)。
2.2.1 目標(biāo)變量的確定 本文根據(jù)國(guó)家統(tǒng)計(jì)局公布的一致合成指數(shù),基于B-B算法得到1995年以來我國(guó)經(jīng)濟(jì)周期波動(dòng)的轉(zhuǎn)折點(diǎn)日期,如表1所列:
表1 經(jīng)濟(jì)周期波動(dòng)的峰谷日期
圖1 一致合成指數(shù)(月度)曲線圖
依據(jù)經(jīng)濟(jì)周期波動(dòng)轉(zhuǎn)折點(diǎn)判定的約束條件及圖1(圖1中陰影部分區(qū)域?yàn)橐罁?jù)約束條件所確定的經(jīng)濟(jì)周期收縮期)進(jìn)一步判斷,表1中帶下劃線的時(shí)間為經(jīng)濟(jì)周期的谷底。據(jù)此,構(gòu)造一個(gè)描述經(jīng)濟(jì)周期階段的二元序列,其中0表示收縮階段,1表示擴(kuò)張階段,轉(zhuǎn)折點(diǎn)日期的值與其前期相同,狀態(tài)取值的變化從轉(zhuǎn)折點(diǎn)日期下個(gè)月開始。
2.2.2 解釋變量的確定 宏觀經(jīng)濟(jì)指標(biāo)的選取應(yīng)能如實(shí)、全面和及時(shí)地反映當(dāng)前的經(jīng)濟(jì)形勢(shì),需綜合考慮生產(chǎn)、消費(fèi)、投資、進(jìn)出口等方面的經(jīng)濟(jì)活動(dòng),最終綜合考慮數(shù)據(jù)的全面性和可得性。本文在前人研究的基礎(chǔ)上,使用時(shí)差相關(guān)分析、K-L信息量法、峰谷對(duì)應(yīng)法等多種計(jì)量方法,對(duì)經(jīng)濟(jì)預(yù)測(cè)指標(biāo)組進(jìn)行選取,從不同的領(lǐng)域選出了10個(gè)指標(biāo),分別是:進(jìn)出口總額、居民消費(fèi)價(jià)格指數(shù)、貨幣供應(yīng)量(M1)、社會(huì)消費(fèi)品零售總額、固定資產(chǎn)投資完成額、工業(yè)增加值、進(jìn)口總值、出口總值、發(fā)電量月度數(shù)據(jù)作為實(shí)施識(shí)別的基礎(chǔ)數(shù)據(jù)。
本文選取的數(shù)據(jù)期間為1995年1月至2019年12月,所用數(shù)據(jù)均來自中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫公布的月度數(shù)據(jù)。除居民消費(fèi)價(jià)格指數(shù)外,其余各指標(biāo)均使用增長(zhǎng)率數(shù)據(jù),其中固定資產(chǎn)投資完成額使用累計(jì)增速,其余各變量使用當(dāng)期同比增速。補(bǔ)充數(shù)據(jù)缺失值后使用X-12-ARIMA模型進(jìn)行季節(jié)調(diào)整,提取各指標(biāo)趨勢(shì)循環(huán)項(xiàng)并檢驗(yàn)序列平穩(wěn)性,最后對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
3.1.1 邏輯回歸模型構(gòu)建 通過前期的指標(biāo)選取和對(duì)數(shù)據(jù)的預(yù)處理,本文利用R語言作為經(jīng)濟(jì)周期轉(zhuǎn)折點(diǎn)研究的邏輯回歸實(shí)現(xiàn)工具。在數(shù)據(jù)集中選取1995年1月-2012年5月共計(jì)210條數(shù)據(jù)作為訓(xùn)練集,2012年6月-2019年12月共計(jì)90條數(shù)據(jù)作為測(cè)試集。本文綜合模型的復(fù)雜程度和預(yù)測(cè)精度,采用逐步回歸方法,依據(jù)BIC標(biāo)準(zhǔn)進(jìn)行模型篩選,模型回歸結(jié)果如表2所示。
表2 BIC 準(zhǔn)則下的模型回歸結(jié)果
注:***為0.001 顯著 **為0.01 顯著 *為0.05 顯著
為評(píng)估模型分類效果,分別對(duì)訓(xùn)練集與測(cè)試集繪制混淆矩陣圖和ROC曲線圖,結(jié)果如下表3、表4、圖2所示。
表3 邏輯回歸訓(xùn)練集混淆矩陣
表4 邏輯回歸測(cè)試練集混淆矩陣
依照混淆矩陣得該模型訓(xùn)練集準(zhǔn)確率為0.9143,測(cè)試集的準(zhǔn)確率為 0.8778,計(jì)算得出基于測(cè)試集的F值為0.8991,AUC的值為0.879,說明建立的邏輯回歸模型效果良好。因此,用邏輯回歸模型解釋經(jīng)濟(jì)周期狀態(tài)的劃分與各影響因素之間的關(guān)系是合理的。
圖2 邏輯回歸的ROC曲線
3.1.2 基于邏輯回歸模型的影響因素分析 觀察表2中各指標(biāo)對(duì)應(yīng)的回歸系數(shù),系數(shù)絕對(duì)值越大可以理解為變量的重要性相對(duì)越高。因此,依據(jù)邏輯回歸模型的分類結(jié)果,在控制其他因素不變時(shí),貨幣供應(yīng)量(M1)、貨運(yùn)量、工業(yè)增加值越大,該時(shí)點(diǎn)處于經(jīng)濟(jì)周期擴(kuò)張狀態(tài)的概率越大。反之,進(jìn)口總值、社會(huì)消費(fèi)品零售總額、居民消費(fèi)價(jià)格指數(shù)越大,該時(shí)點(diǎn)處于經(jīng)濟(jì)周期收縮狀態(tài)的概率越大,而出口總值、固定資產(chǎn)投資完成額、進(jìn)出口總額、發(fā)電量指標(biāo)的變動(dòng)對(duì)判斷該時(shí)點(diǎn)經(jīng)濟(jì)狀態(tài)沒有顯著的影響。
3.2.1 決策樹模型構(gòu)建 本文選取1995年1月至2013年12月的宏觀經(jīng)濟(jì)數(shù)據(jù)建立決策樹模型的訓(xùn)練集,2014年1月至2019年12月的數(shù)據(jù)作為測(cè)試集。首先利用CART算法建立決策樹模型,其生成的決策樹如圖3所示。
其次,需要對(duì)樹進(jìn)行剪枝來提高其泛化能力,剪枝后的決策樹如圖4所示。
圖3 決策樹模型分類結(jié)果 圖4 剪枝后的決策樹模型分類結(jié)果
為檢測(cè)該模型的分類效果,計(jì)算該模型訓(xùn)練集和測(cè)試集的混淆矩陣如表5、表6所示:
表5 決策樹模型訓(xùn)練集混淆矩陣
表6 決策樹模型測(cè)試集混淆矩陣
由混淆矩陣計(jì)算可得,該決策樹模型在測(cè)試集上的準(zhǔn)確率為 0.8556,基于測(cè)試集的F值為0.8889,由圖5的ROC曲線知AUC=0.832,因此模型分類效果良好。
圖5 決策樹模型的ROC曲線
3.2.2 基于決策樹模型的影響因素分析 根據(jù)圖4剪枝后的決策樹模型的分類結(jié)果,模型共進(jìn)行六輪判斷,生成7個(gè)終端節(jié)點(diǎn),方框內(nèi)第一行為經(jīng)濟(jì)周期狀態(tài)分類標(biāo)記,“0”代表收縮狀態(tài),“1”代表擴(kuò)張狀態(tài),第二行為決策概率,第三行為該類標(biāo)記占總樣本比例。從決策樹的第一層,即居民消費(fèi)價(jià)格指數(shù)這一指標(biāo)來看,當(dāng)CPI_tc大于等于101.2時(shí),y指標(biāo)進(jìn)入圖的左側(cè),CPI_tc小于101.2時(shí),y指標(biāo)進(jìn)入圖的右側(cè)。觀察決策樹的右側(cè),第二層依然是以CPI_tc為依據(jù)進(jìn)行劃分,此次劃分的標(biāo)準(zhǔn)為CPI_tc是否超過99.4,若CPI_tc小于99.4,則進(jìn)入樹的右側(cè),此時(shí)判斷該時(shí)點(diǎn)經(jīng)濟(jì)狀態(tài)為擴(kuò)張階段,否則進(jìn)入樹的左側(cè),開始下一輪判斷。由此可見,經(jīng)濟(jì)周期狀態(tài)的判斷與居民消費(fèi)價(jià)格指數(shù)波動(dòng)有較大關(guān)系,CPI值越小,該時(shí)點(diǎn)處于經(jīng)濟(jì)周期擴(kuò)張狀態(tài)的可能性越大,這與上一節(jié)邏輯回歸的結(jié)果是一致的。決策樹右側(cè)的第三層是以出口總額為父節(jié)點(diǎn)進(jìn)一步劃分,出口_tc小于23.12時(shí),進(jìn)入樹的左側(cè),判斷該時(shí)間經(jīng)濟(jì)狀態(tài)為擴(kuò)張階段的概率為21%,收縮階段的概率為79%,在本文的判斷中,取閾值為0.5,則最后判斷該時(shí)點(diǎn)的經(jīng)濟(jì)狀態(tài)為收縮狀態(tài)。反之,若出口_tc大于等于23.12,則判斷此時(shí)經(jīng)濟(jì)狀態(tài)為擴(kuò)張狀態(tài)。同樣的,我們可以對(duì)其他節(jié)點(diǎn)的分裂結(jié)果進(jìn)行判斷,當(dāng)CPI_tc不小于101.9,發(fā)電量_tc不小于14.33時(shí),判斷經(jīng)濟(jì)狀態(tài)為擴(kuò)張階段;否則,若固定資產(chǎn)投資完成額_tc不小于9.98,判斷經(jīng)濟(jì)狀態(tài)為收縮狀態(tài),;若固定資產(chǎn)投資完成額_tc小于9.98,則根據(jù)M1進(jìn)一步劃分,若M1_tc小于7.45,判斷經(jīng)濟(jì)狀態(tài)為收縮狀態(tài),否則為擴(kuò)張狀態(tài)。
與邏輯回歸的結(jié)果相比,決策樹模型除能夠反映出影響因素之外,對(duì)經(jīng)濟(jì)周期狀態(tài)劃分的條件的解釋能力更強(qiáng)。
3.3.1 隨機(jī)森林模型構(gòu)建 基于決策樹模型的分類原理,單棵決策樹的預(yù)測(cè)受樣本波動(dòng)的影響較大,預(yù)測(cè)效果較不穩(wěn)定,因此,本文考慮用多棵樹投票決定的隨機(jī)森林模型進(jìn)行改進(jìn)。本文利用R語言工具,將所有變量納入到隨機(jī)森林模型進(jìn)行建模,決策樹數(shù)量選擇400。表7、表8分別為訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)的混淆矩陣。
表7 隨機(jī)森林訓(xùn)練集混淆矩陣
表8 隨機(jī)森林測(cè)試集混淆矩陣
圖6 隨機(jī)森林模型的ROC曲線
根據(jù)混淆矩陣計(jì)算得出該隨機(jī)森林模型訓(xùn)練集準(zhǔn)確率為0.9956,測(cè)試集的準(zhǔn)確率為0.9778,基于測(cè)試集的F值為0.9818,由圖6 ROC曲線知AUC值為0.9821429,說明該隨機(jī)森林模型分類效果非常好,其相對(duì)決策樹模型的準(zhǔn)確率有了大幅度提升。
3.3.2 基于隨機(jī)森林模型的影響因素分析 隨機(jī)森林模型能夠直觀的描述各變量對(duì)分類結(jié)果影響的重要性,在圖7中,各經(jīng)濟(jì)變量分別以精確度平均減少值以及節(jié)點(diǎn)不純度平均減少值進(jìn)行降序排列,位置越高的變量被認(rèn)為對(duì)于模型的重要程度越大。對(duì)精確度平均減少值來說,居民消費(fèi)價(jià)格指數(shù)、貨幣供應(yīng)量(M1)、社會(huì)消費(fèi)品零售總額、固定資產(chǎn)投資完成額、發(fā)電量是對(duì)其影響相對(duì)較大的重要變量。對(duì)節(jié)點(diǎn)不純度減少平均值來說,居民消費(fèi)價(jià)格指數(shù)、貨幣供應(yīng)量(M1)、社會(huì)消費(fèi)品零售總額、固定資產(chǎn)投資完成額、工業(yè)增加值可以看作是對(duì)其影響較大的重要變量。
圖7 各變量影響程度
本文以模型在測(cè)試集上的準(zhǔn)確率、AUC值、F值為參照來比較三種模型的分類效果,如表9所示,隨機(jī)森林模型在測(cè)試集上的準(zhǔn)確率、AUC值和F值均最高,表示其分類效果最好,可以認(rèn)定為最優(yōu)模型。
表9 模型評(píng)估
三種模型對(duì)于經(jīng)濟(jì)周期狀態(tài)劃分的影響因素及其重要性的判斷結(jié)果并不完全相同,但綜合來看,居民消費(fèi)價(jià)格指數(shù)對(duì)于經(jīng)濟(jì)周期狀態(tài)劃分具有非常重要的影響。結(jié)合經(jīng)濟(jì)實(shí)際,在經(jīng)濟(jì)“新常態(tài)”背景下,我國(guó)經(jīng)濟(jì)更多依賴國(guó)內(nèi)消費(fèi)需求的拉動(dòng),而消費(fèi)者購買力卻在逐年下降。因此,對(duì)居民消費(fèi)價(jià)格變動(dòng)進(jìn)行準(zhǔn)確預(yù)測(cè),對(duì)于采取合適的宏觀調(diào)控政策、穩(wěn)定我國(guó)經(jīng)濟(jì)發(fā)展態(tài)勢(shì)具有非常重大的意義。
信陽農(nóng)林學(xué)院學(xué)報(bào)2020年2期