岳金秀,陳 堯
(湖北民族大學數(shù)學與統(tǒng)計學院,湖北 恩施 445000)
一直以來,經濟波動預測對國家制定經濟政策和企業(yè)、部門采取相應措施至關重要。而經濟波動與各宏觀經濟指標密不可分,其中,固定資產投資與經濟增長之間具有顯著的雙向影響關系[1]。在現(xiàn)代經濟周期理論中,投資被認為是導致經濟波動的主要原因。消費需求基本保持比較平滑的變化,隨著國際競爭日漸激烈,以及在擴大內需的大背景下,凈出口對經濟的驅動作用也在逐漸降低。因此,投資需求是對經濟波動影響較大的成分。投資的變動將直接或間接影響經濟波動:一方面,投資可以作為資本,直接使GDP增加;另一方面,投資還具有乘數(shù)效應,投資的獲利會刺激更多的投資,加速消費的刺激作用,促進居民消費。
目前僅根據(jù)投資預測經濟波動的研究較少,只有少量文獻涉及相關內容。如戴卓爾等(2023)[2]引入外商直接投資(FDI),基于“三駕馬車”對中國GDP 增長率進行預測,發(fā)現(xiàn)引入FDI后不僅預測精度更高,而且實時預測也比未引入FDI的預測更精準。潘雅茹和羅良文(2020)[3]實證檢驗了固定資產投資對經濟高質量發(fā)展的推動作用。現(xiàn)有文獻已經證實了投資與經濟波動之間有顯著的相關性?;诖?,本文從投資角度構建中國的宏觀經濟波動預測指標并進行實證分析。隨著網(wǎng)絡技術的迅速發(fā)展,使用網(wǎng)絡數(shù)據(jù)進行預測模型修正成為研究熱點。陳衛(wèi)華和徐國祥(2018)[4]利用股票論壇發(fā)帖數(shù)增長率預測股票指數(shù)波動,發(fā)現(xiàn)股票論壇數(shù)據(jù)對預測精度的提高有所貢獻。徐映梅和高一銘(2017)[5]根據(jù)百度取詞構建了高頻和低頻輿情指數(shù),提高了對CPI 的預測精度。Hochreiter 和Schmidhuber(1997)[6]從經濟學角度給出了個體關注的定義,他認為投資者對資源的認知能力是有限的,個體在單位時間內只能進行有限的信息關注和處理。通常投資者更容易關注表現(xiàn)突出和自己感興趣的信息。投資者在單位時間內的有限關注行為,體現(xiàn)了對當前項目的關注。當投資者通過網(wǎng)絡搜索行為產生了正向、積極的心理預期時,就會轉化為投資決策。在整個過程中,網(wǎng)絡搜索數(shù)據(jù)起到了建議和修正的作用。隨著深度學習技術的發(fā)展,長短期記憶(Long-Short Time Memory,LSTM)神經網(wǎng)絡模型因可以更好地學習時間序列之間的長期依賴關系,開始被廣泛應用于預測模型中。徐映梅和陳堯(2021)[7]將傳統(tǒng)的ARIMA模型與LSTM 模型在我國經濟波動預測上比較,發(fā)現(xiàn)LSTM 模型在預測復雜的非線性時間序列數(shù)據(jù)時,能夠取得更好的效果。梁龍躍和陳玉霞(2023)[8]結合LSTM模型和小波分析對季度GDP進行預測,結果顯示,加入小波分析的LSTM 預測模型具有較好的泛化能力,預測精度更高。然而傳統(tǒng)的LSTM神經網(wǎng)絡模型在處理混頻數(shù)據(jù)時,模型的學習性能也會受到影響。對此,Neil 等(2016)[9]提出了一種改進的長短期記憶(Phased-LSTM)網(wǎng)絡模型,適用于處理異步混頻數(shù)據(jù)的建模。
綜上所述,宏觀經濟波動預測多采用傳統(tǒng)計量模型,使用混頻數(shù)據(jù)并利用神經網(wǎng)絡模型進行經濟波動預測的研究還比較少。本文旨在更好地利用高頻數(shù)據(jù)的原始信息,同時實現(xiàn)變量之間非線性關系的探討,構建多源混頻LSTM模型(Multi Source Mixing LSTM,MM-LSTM),采用政府統(tǒng)計月度數(shù)據(jù)、網(wǎng)絡搜索日度數(shù)據(jù)以及GDP 季度數(shù)據(jù)多指標聯(lián)合,從投資視角研究和預測宏觀經濟波動。為了驗證本文提出的混頻數(shù)據(jù)預測宏觀經濟波動的有效性,以及構建的MM-LSTM 模型的預測效果,將其與傳統(tǒng)的AR模型、MIDAS模型進行對比研究,以評估不同數(shù)據(jù)以及不同方法的研究結果。
本文基于《中國統(tǒng)計年鑒》中公布的相關數(shù)據(jù),同時參考與投資相關的文獻,并且兼顧數(shù)據(jù)的可得性,初步挑選出10個候選指標。包括工業(yè)增加值累計增長率[10]、發(fā)電量累計增長率[11]、房地產投資累計增長率[12]、制造業(yè)采購經理指數(shù)(PMI 指數(shù))[13]、固定資產投資額累計增長率[14]等。收集并整理得到上述10 個指標2011 年1 月至2022 年12 月的月度統(tǒng)計數(shù)據(jù),并收集整理2011—2022 年國內生產總值指數(shù)累計值(上年同期=100)季度數(shù)據(jù)。對于政府統(tǒng)計數(shù)據(jù),進行如下處理:
(1)GDP增長率的構建。本文選用反映一定時期內國內生產總值變動趨勢的國內生產總值指數(shù)累計值(上年同期=100)作為預測變量。為了消除各指標間的數(shù)量差異,把國內生產總值指數(shù)累計值(上年同期=100)數(shù)據(jù)轉換為增長率,即GDP 增長率=國內生產總值指數(shù)累計值(上年同期=100)-100,記為GDP_IG。
(2)缺失數(shù)據(jù)處理。根據(jù)官方公布的數(shù)據(jù),工業(yè)增加值累計增長率、固定資產投資額累計增長率、水泥產量累計增長率等指標缺少各年份1月的數(shù)據(jù),為了數(shù)據(jù)的連續(xù)性,取2月和3月的均值補全1月的數(shù)據(jù)。
(3)投資統(tǒng)計指標篩選。計算各指標數(shù)據(jù)與GDP_IG的皮爾遜相關系數(shù),篩選出與經濟波動相關性較高的8個指標,結果如表1所示。
(4)投資統(tǒng)計指數(shù)的構建。前文統(tǒng)計指標篩選已經確定了各指標與因變量的強相關關系。但皮爾遜相關系數(shù)只能衡量兩個變量間的線性關系,而隨機森林算法可以有效處理非線性數(shù)據(jù),因此采用隨機森林算法計算各指標的權重。利用Python中Sklearn機器學習庫建立隨機森林回歸模型,得到各特征的重要性得分。模型輸出特征的重要性得分如表2 所示。把每個特征的重要性得分作為每個特征的權重系數(shù),合成一個月度時間序列,記為投資統(tǒng)計指數(shù)(Investment Statistics Index,ISI)。
表2 各特征重要性得分
本文選用百度指數(shù)[15]作為網(wǎng)絡搜索指數(shù)的代表。百度指數(shù)的計算是以網(wǎng)民的搜索量為基礎,以關鍵詞為統(tǒng)計對象。關鍵詞的選取是合成投資網(wǎng)絡搜索指數(shù)的重要內容。本文選取“投資”作為關鍵詞,利用文本檢索和篩選,在中國知網(wǎng)檢索CSSCI期刊,得到5389條記錄。下載這些文獻,然后利用中文分詞技術對標題進行分詞,篩選出“投資”“創(chuàng)新”“經濟”等100個關鍵詞作為候選關鍵詞。同時利用百度指數(shù)需求圖譜相關詞推薦功能,搜集并整理得到2011 年1 月1 日至2022 年12 月31 日與“投資”“房產”“固定資產”等相關的28 個關鍵詞,將其加入候選關鍵詞中。另外,根據(jù)經驗取詞,選取“發(fā)電量”“金融”“GDP”等8 個關鍵詞加入候選關鍵詞中。選取的關鍵詞還需被百度指數(shù)收錄,因此剔除沒有被收錄的詞,最終整理得到108 個關鍵詞的實時搜索量數(shù)據(jù)集。對于投資網(wǎng)絡搜索數(shù)據(jù),數(shù)據(jù)處理過程如下:
(1)數(shù)據(jù)預處理。百度指數(shù)數(shù)據(jù)是以日為頻率的時間序列,但每月天數(shù)并不相等,將日度數(shù)據(jù)換算成月度、季度等時間序列會產生誤差和波動。因此,本文參照徐映梅和高一銘(2017)[5]的方法,將各月份轉化為相同的天數(shù)。即刪除2月29日及5月、7月、8月、10月、12月中每月31日的數(shù)據(jù),把1月最后一天的數(shù)據(jù)作為2月第一天的數(shù)據(jù),把3月1日的數(shù)據(jù)作為2月最后一天的數(shù)據(jù)。處理后,每年和每月的天數(shù)相等。即每月30天,每年均為360天。
(2)消除網(wǎng)絡發(fā)展趨勢。網(wǎng)絡搜索數(shù)據(jù)不但會受到網(wǎng)民關注的影響,而且會受到互聯(lián)網(wǎng)發(fā)展的影響,例如2013年智能手機的逐漸普及,致使手機客戶端搜索數(shù)量增加。因此,在數(shù)據(jù)分析之前還需消除網(wǎng)絡發(fā)展對搜索量波動的影響。借鑒徐映梅和高一銘(2017)[5]的方法,采用與投資關鍵詞相關性較低的中性詞來消除網(wǎng)絡社會發(fā)展對搜索量的影響。
其中,anum為關鍵詞搜索量數(shù)據(jù),bnum為中性詞“百度”的搜索量數(shù)據(jù),Anew為處理后的搜索量數(shù)據(jù),記為搜索熱度數(shù)據(jù)。為了防止取對數(shù)時出現(xiàn)異常,對所有搜索量值進行加1的平移處理。
(3)篩選核心關鍵詞。獲得各關鍵詞的搜索熱度數(shù)據(jù)后,利用時差相關分析,求出關鍵詞搜索熱度序列和房地產投資累計增長率的時差和相關系數(shù),進一步篩選重要的關鍵詞①根據(jù)各關鍵詞搜索熱度序列與選取的8個政府統(tǒng)計指標選擇最優(yōu)時差相關分析結果確定。。利用Python軟件編程計算,最終選取23個相關性大于0.5的關鍵詞,其中,相同時差的關鍵詞有18個,具有領先和滯后階數(shù)的關鍵詞有5個,將他們調整為相同時差。這23個關鍵詞將用于投資網(wǎng)絡搜索指數(shù)的合成。選取關鍵詞的時差階數(shù)和最大相關系數(shù)如表3所示。
表3 投資網(wǎng)絡搜索指數(shù)關鍵詞
(4)投資網(wǎng)絡搜索指數(shù)的構建。由于選取的關鍵詞數(shù)量較多且部分關鍵詞序列存在較強的相關性,因此本文利用因子分析法,使用少數(shù)的幾個變量來解釋眾多變量,達到降維的目的,同時又保持較高的解釋力。在對關鍵詞序列進行因子分析之前,需要進行KMO 值和Bartlett 球形度檢驗,檢驗結果中KMO值為0.96>0.6,Bartlett球形度檢驗的P值小于0.05,兩個檢驗均通過。利用SPSS分析軟件進行因子分析,前兩個因子的累計方差貢獻率為85.15%。其中,因子1在商務部、長期投資、發(fā)改委、服務業(yè)、管理者等12 個成分上有較大載荷,這些關鍵詞主要體現(xiàn)了投資者對實體投資的關注。因子2 在理財、投資公司、風險投資、融資等11個成分上有較大載荷,這些關鍵詞大部分反映了投資者對金融投資的關注。
(5)合成投資網(wǎng)絡搜索指數(shù)。首先將各因子的成分得分系數(shù)作為關鍵詞的權重系數(shù),合成兩個因子的月度數(shù)據(jù)。然后以兩個因子的月度數(shù)據(jù)為特征,以房地產投資累計增長率月度數(shù)據(jù)為目標變量,利用Python建立隨機森林回歸模型,得到兩個因子的特征重要性。模型輸出特征的重要性如表4 所示。最后把每個特征因子的重要性得分作為每個特征的權重系數(shù),合成了月度投資網(wǎng)絡搜索指數(shù)(Investment Network Search Index,INSI)。
表4 各因子重要性得分
LSTM 模型最早由Hochreiter 和Schmidhuber 在1997年提出。由于能更好地記憶時間序列的長期依賴關系,因此被廣泛用于處理序列信息。Phased-LSTM 模型是在基礎模型上添加了新的時間門kt來擴展LSTM,該門的開啟和關閉由具有一定頻率范圍的參數(shù)振蕩控制。模型結構如圖1所示,原文中的定義公式如下:
圖1 MM-LSTM模型結構
其中,it、ft、ot分別為輸入門、遺忘門、輸出門的計算公式;°表示矩陣按元素相乘運算;xt和ht分別為輸入特征向量和隱藏輸出向量;σi、σf、σo、σc為激活函數(shù);σh與權重矩陣W連接不同的輸入門和記憶單元的輸出;b為偏置項,是模型訓練時要學習的參數(shù)。
與傳統(tǒng)的LSTM 模型相比,Phased-LSTM 模型的更新可以在不規(guī)則的時間點tj上執(zhí)行。本文用簡寫的cj=ctj表示儲存記憶單元在tj時刻的狀態(tài),用cj-1表示儲存記憶單元先前tj-1時刻的狀態(tài),則式(2)中ct和ht更新的方程為:
其中,cj只有在時間門打開的時候才允許更新,從而實現(xiàn)一個周期的一部分區(qū)間產生儲存記憶單元的更新,這使得模型具備了處理不同頻率數(shù)據(jù)的能力。本文合成的INSI為日度數(shù)據(jù),ISI為月度數(shù)據(jù),GDP_IG為季度數(shù)據(jù),不同的模型需要的數(shù)據(jù)和數(shù)據(jù)頻率存在差異。AR 模型僅利用GDP_IG自身的滯后性建模。MIDAS 模型雖然可以用多元高頻數(shù)據(jù)來預測低頻數(shù)據(jù),但多元高頻數(shù)據(jù)由于倍差較大,需要調整為同頻的,本文把INSI降頻為月度數(shù)據(jù),記為INSI_M。MM-LSTM 模型能直接利用月度數(shù)據(jù)、日度數(shù)據(jù)對季度數(shù)據(jù)進行預測,有效地利用了混頻數(shù)據(jù)的信息。
AR 模型通過利用時間序列自身的滯后性,對未來指標的變動進行預測。利用該模型進行時間序列分析時,需要檢驗被研究的序列是否為平穩(wěn)序列,以防止偽回歸。本文采用EViews 10.0 對GDP_IG數(shù)據(jù)進行建模,根據(jù)AIC與SC 準則,其中添加截距項的未進行差分的序列通過平穩(wěn)性檢驗,拒絕了存在單位根的原假設,序列平穩(wěn)。同時,根據(jù)序列的自相關圖和偏自相關圖(圖略)可知,自相關圖呈現(xiàn)拖尾特征,偏自相關圖呈現(xiàn)一階截尾特征,因此應建立AR 模型。通過各種模型參數(shù)建模比較,根據(jù)AIC、SC、HQ值和回歸方程各系數(shù)的顯著性,最終確定應建立添加截距項的AR(1)模型。為了進行擴展預測,將樣本內估計區(qū)間設置為2011 年第一季度至2020 年第四季度,樣本外預測區(qū)間擴展到2022年第四季度①本文采用靜態(tài)預測,每次向前預測一個數(shù)據(jù),并且假設上一期的預測值等于真實值。。其中,樣本內均方根誤差為2.139,樣本外均方根誤差為5.708。
MIDAS 模型最初是由Ghysels 等在2004 年提出的,MIDAS 模型的顯著特點是可以直接使用不同頻率的數(shù)據(jù)進行建模?;A的MIDAS模型主要包括單變量和多變量MIDAS模型,以及加入自回歸項的AR-MIDAS模型和h步向前預測的MIDAS 模型。因宏觀經濟運行的慣性作用,經濟時間序列普遍存在自相關性,因變量的若干期會對當期產生影響,因此此處采用含有自回歸的AR-MIDAS 模型。為了研究不同類型數(shù)據(jù)和不同MIDAS 模型預測差異,本文分別使用ISI和INSI_M數(shù)據(jù)建立單因素AR-MIDAS 模型,并同時使用以上兩類數(shù)據(jù)建立雙因素AR-MIDAS模型進行對比研究。
前文基于AR 模型的分析已經討論了GDP_IG的滯后階數(shù),這里直接令AR-MIDAS模型的自回歸項滯后階數(shù)p=1。利用EViews 軟件建模時,還需要確定高頻回歸器抽取的樣本數(shù)和高頻數(shù)據(jù)的滯后階數(shù)。本文選取阿爾蒙多項式,軟件可以根據(jù)AIC準則自動尋找高頻回歸器的最佳滯后階數(shù),這里最大滯后階數(shù)設置為12,即高頻回歸器最多使用前12 個月的數(shù)據(jù)來擬合當前的GDP_IG數(shù)據(jù)。關于滯后階數(shù)的選擇,通過各種模型建模比較,根據(jù)回歸方程各系數(shù)的顯著性和樣本區(qū)間內外的預測誤差等參數(shù)最終確定。根據(jù)ISI建模得到的模型為AR(1)-MIDAS(4,2),模型的擬合優(yōu)度為0.976,樣本內均方根誤差為0.910,樣本外均方根誤差為1.243。根據(jù)INSI_M建模得到的模型為AR(1)-MIDAS(3,0),樣本內均方根誤差為2.332,樣本外均方根誤差為5.350。結合ISI、INSI_M構建AR-MIDAS模型,為了保證各模型擬合效果和預測結果具有可比性,此處直接引用上述單因素AR-MIDAS建模的各種參數(shù)設置進行建模,記為AR(1)-MIDAS_tn。模型的樣本內均方根誤差為0.763,樣本外均方根誤差為1.212,其樣本內外預測誤差與單因素AR-MIDAS 模型相比均有所降低。
通過上述AR模型、MIDAS模型可知,合成的ISI、INSI數(shù)據(jù)可以用于中國經濟波動預測,這使得構建的MM-LSTM 模型具有理論基礎。由于GDP_IG與ISI和INSI數(shù)據(jù)存在較大差異,對模型進行訓練和測試之前,先對數(shù)據(jù)進行歸一化處理。歸一化公式如下:
其中,xi表示序列X中的第i個值,max(X)、min(X)分別表示序列X的最大值、最小值。與前面模型的樣本內區(qū)間和樣本外區(qū)間設置相同,2011—2020 年的數(shù)據(jù)作為訓練集,2021—2022年的數(shù)據(jù)作為測試集。
(1)MM-LSTM模型參數(shù)設置
通過設置合適的參數(shù),可以獲得良好的深度學習性能,本文的目標是預測經濟波動,故選用均方根誤差(RMSE)作為損失函數(shù)。優(yōu)化器方面,本文采用Adam 優(yōu)化器進行優(yōu)化訓練。Adam 優(yōu)化器是目前最常用的算法,與其他優(yōu)化器相比,Adam算法收斂速度最快,學習效率更高。各網(wǎng)絡層的激活函數(shù)均采用ReLu 函數(shù),模型的最后一層采用線性linear 函數(shù)。為防止出現(xiàn)過擬合現(xiàn)象,對INSI數(shù)據(jù)設置Dropout層,網(wǎng)絡節(jié)點的舍棄率設為0.2。
(2)MM-LSTM模型實證
為了與上文的MIDAS 模型進行對比研究,分別使用ISI、使用INSI以及同時使用ISI和INSI數(shù)據(jù)分開建模。三種模型分別記為MM-LSTM_t、MM-LSTM_n、MM-LSTM_tn。反復修改參數(shù)后,根據(jù)模型的訓練集誤差和測試集誤差得到最優(yōu)參數(shù)設置值,見表5。
表5 最優(yōu)參數(shù)設置
表5 中,n_test表示測試集使用的月份數(shù),epochs和batch_size分別代表模型訓練時的迭代次數(shù)和一次訓練所取的樣本數(shù),nodes代表隱藏神經元個數(shù),month_t和month_p分別代表訓練時使用當季和上一季的月份數(shù)量,gdp_p代表GDP_IG數(shù)據(jù)的滯后期數(shù)。以MM-LSTM_t模型為例,從表5 中的結果來看,其在預測當季的GDP_IG時,使用當季三個月和上季最后一個月的數(shù)據(jù)將取得相對較好的結果。
根據(jù)表5 還可以發(fā)現(xiàn),使用ISI數(shù)據(jù)建立的模型訓練集、測試集誤差與使用INSI數(shù)據(jù)建立的模型誤差都相對較小,這與MIDAS 模型的結果一致。原因可能是,ISI數(shù)據(jù)是由各宏觀經濟指標合成的,與經濟波動直接相關;而INSI數(shù)據(jù)是根據(jù)與投資相關指標的搜索數(shù)據(jù)建立的聯(lián)系,具有一定的不確定性。
由上述結果可知,使用混頻數(shù)據(jù)的MM-LSTM模型訓練集和預測集誤差都最小。為了驗證該模型是否具有提前預測GDP_IG數(shù)據(jù)的功能,將模型參數(shù)month_t分別設置為1、2、3。通過調整表5中其他參數(shù)得到模型的訓練和測試誤差,如表6所示。
表6 MM-LSTM_tn模型訓練和預測誤差比較
表6中,30+1表示使用每季度前30天的INSI數(shù)據(jù)和1 個月的ISI數(shù)據(jù)預測該季度的GDP_IG數(shù)據(jù)。對比發(fā)現(xiàn),僅使用當季前30天和1個月數(shù)據(jù)就可以比國家統(tǒng)計局提前約60天預測該GDP_IG數(shù)據(jù)。而使用當季前60天和2 個月數(shù)據(jù)預測時其預測結果與AR-MIDAS 模型精度相當,但其可提前30天預測該GDP_IG數(shù)據(jù)。因此,可以利用這一預測的先行性,為政府部門制定經濟政策提供決策依據(jù)。
利用實證分析部分各模型的估計結果,計算各模型樣本內擬合誤差和樣本外預測誤差,如表7所示。
表7 各模型樣本內外預測性能比較
第一,根據(jù)投資合成的INSI和ISI數(shù)據(jù)與GDP_IG序列之間存在正向關系,說明自2011年以來,較高的投資率是引起經濟波動的重要因素,若想經濟有較大的波動,則需要用適度的投資刺激我國經濟,但同時應警惕過高的投資率所帶來的GDP大幅度波動。
第二,從所有模型的估計結果來看,MIDAS 模型與MM-LSTM模型比僅利用GDP_IG數(shù)據(jù)的AR模型預測效果有所提高,說明本文合成的投資統(tǒng)計指數(shù)和投資網(wǎng)絡搜索指數(shù)對中國經濟波動的預測具有優(yōu)化作用。其中,投資統(tǒng)計指數(shù)數(shù)據(jù)對經濟波動的預測優(yōu)化效果更好。但綜合來看,預測經濟波動取得了最好的效果。
第三,從使用混頻數(shù)據(jù)估計結果來看,MM-LSTM 模型的樣本內擬合誤差和樣本外預測誤差比AR(1)-MIDAS模型的預測精度分別提高了3.5和38.4個百分點。究其原因,AR(1)-MIDAS 模型直接使用了月度投資統(tǒng)計指數(shù)數(shù)據(jù),但把日度投資網(wǎng)絡搜索指數(shù)數(shù)據(jù)降頻為月度數(shù)據(jù);而MM-LSTM 模型直接使用了月度數(shù)據(jù)和日度數(shù)據(jù)。這說明MM-LSTM模型更為有效地利用了樣本信息,得到了更加精確的預測結果,同時也說明了MM-LSTM模型可以更好地擬合我國宏觀經濟波動。
第四,從使用投資網(wǎng)絡搜索指數(shù)數(shù)據(jù)來看,MIDAS 模型和MM-LSTM模型在添加了投資網(wǎng)絡搜索指數(shù)數(shù)據(jù)后,樣本外預測誤差分別比僅使用投資統(tǒng)計數(shù)據(jù)的樣本外預測誤差降低了3.1和52.2個百分點。這說明本文添加網(wǎng)絡搜索數(shù)據(jù)提高了模型的估計精度?;谶@一特點,本文認為網(wǎng)絡搜索數(shù)據(jù)作為反映用戶關注變化的即時指標,為傳統(tǒng)的監(jiān)測方法提供了有效補充,可以用來預測經濟波動。
綜上,從MM-LSTM模型和對比模型對中國宏觀經濟波動的預測結果可以看出,MM-LSTM 模型在中國宏觀經濟波動預測中的有效性得到了證實。
從圖2 來看,AR 模型對GDP_IG的估計結果類似于將原始值往后平移1 期,當GDP_IG出現(xiàn)較大波動時,不能及時預測。例如,2020年第一季度、2021年第一季度和2022年第二季度,預測結果出現(xiàn)了很大偏差。從下頁圖3來看,與AR模型相比,加入投資統(tǒng)計、網(wǎng)絡搜索指數(shù)數(shù)據(jù)后,AR(1)-MIDAS-tn模型準確預測了2020年第一季度、2021 年第一季度和2022 年第二季度的波動,同時樣本外短期預測效果較好,但2022 年第二季度波動預測誤差較大。從下頁圖4 來看,MM-LSTM_tn 模型短期預測比MIDAS 模型更加準確,中期預測誤差也相對較小,這說明本文提出的MM-LSTM 模型提高了樣本外短期和中期的預測精度。
圖2 AR模型樣本內擬合和樣本外預測結果對比
圖3 AR(1)-MIDAS_tn模型樣本內擬合和樣本外預測結果對比
圖4 MM-LSTM_tn模型樣本內擬合和樣本外預測結果對比
實時、準確地預測我國經濟波動是宏觀經濟研究中的重要課題。本文從宏觀和微觀兩個層面分析了投資對中國經濟增長的影響??紤]到宏觀經濟指標間并不都是同頻數(shù)據(jù),以及大量的網(wǎng)絡搜索數(shù)據(jù)的有效性已得到學者們證實,本文構建了能夠利用季度數(shù)據(jù)、月度數(shù)據(jù)和日度數(shù)據(jù)的多源MM-LSTM 模型。通過選擇國內生產總值指數(shù)累計值(上年同期=100)數(shù)據(jù)和月度統(tǒng)計指標與網(wǎng)絡搜索日度指標,本文從投資角度對我國2011年1月1日至2022年12月31日的經濟波動進行了實證分析。本文的主要結論如下:
(1)投資相關指標與我國GDP_IG之間存在正向關系。加入投資統(tǒng)計指數(shù)或投資網(wǎng)絡搜索指數(shù)的兩種模型比基準模型的預測誤差更小。這說明了用投資指標預測我國經濟波動的可行性。
(2)添加投資網(wǎng)絡搜索數(shù)據(jù)提高了模型的估計精度。MIDAS 模型和MM-LSTM 模型在加入投資網(wǎng)絡搜索指數(shù)后,樣本外預測誤差分別降低了3.1和52.2個百分點,說明網(wǎng)絡搜索數(shù)據(jù)對經濟預測具有積極影響。
(3)MM-LSTM 模型具有更小的預測誤差,提高了短期和中期的預測精度。本文構建的MM-LSTM 模型充分利用了混頻數(shù)據(jù)的信息,與AR 模型、MIDAS 模型的最優(yōu)結果相比,能夠使樣本內擬合誤差降低3.5個百分點,樣本外預測誤差降低38.4 個百分點,并且準確預測了2020 年第一季度、2021 年第一季度、2022 年第二季度的波動,從而驗證了模型的有效性。
(4)本文利用混頻數(shù)據(jù)構建MM-LSTM模型對經濟波動進行預測時,僅使用當季前30天和1個月數(shù)據(jù)就可以比國家統(tǒng)計局提前約60 天預測該季度GDP_IG數(shù)據(jù),其預測精度高于AR模型。而使用當季前60天和2個月數(shù)據(jù)預測時,其預測結果與AR-MIDAS 模型精度相當,但其預測結果可提前30天預測該季度GDP_IG數(shù)據(jù)。可以利用這一預測的先行性,為政府部門制定經濟政策提供決策依據(jù)。