王文勝?吳娜
近年來,互聯(lián)網大數據的快速發(fā)展對整個社會和經濟的發(fā)展都產生了深遠影響。研究學者發(fā)現,互聯(lián)網搜索數據信息能夠幫助我們預測宏觀經濟。選取百度搜索指數作為高頻解釋變量,采用不同權重函數形式的混頻數據模型(MIDAS)以及多變量組合預測模型預測分析其與我國季度GDP增長率之間的關系。結果表明:對比同頻的傳統(tǒng)計量經濟模型,MIDAS模型可以顯著降低預測誤差。在多變量組合預測模型中,在傳統(tǒng)政府統(tǒng)計指標基礎上加入互聯(lián)網搜索行為數據信息作為補充,可以顯著提高對GDP增長率的預測精度。其中,基于MFSE為權重函數形式的組合預測的效果最優(yōu)。因此,互聯(lián)網搜索行為數據可以作為GDP預測指標體系的有效補充。
一、引言
宏觀經濟的發(fā)展走向對于政府經濟政策的制定和企業(yè)的經營戰(zhàn)略的確定都有著極其重要的作用。如何科學有效地預測宏觀經濟的發(fā)展是國內外學者關注的重要課題。在宏觀經濟中,GDP被視為最具概括性的宏觀經濟指標。因為它緊緊圍繞著生產創(chuàng)造的價值,衡量了整體經濟的發(fā)展。但是傳統(tǒng)預測模型的局限性和經濟數據的滯后性影響了GDP預測的精確度和時效性。
就現有的文獻來看,預測宏觀經濟發(fā)展研究方法主要有傳統(tǒng)的計量經濟模型、機器學習法、投入產出法等。近年來基于混頻數據模型處理宏觀經濟的短期預測問題的方法較為突出。許多宏觀經濟數據頻率并不相同,例如GDP增長率是按季度發(fā)布,但固定資產投資額同比增長率等數據是按月度發(fā)布。因此傳統(tǒng)的計量經濟模型同頻的要求就無法滿足。Ghysels, Santa-Clara, and Valkanov(2004)提出混頻數據模型,根據變量的特征、權重多項式函數和滯后階數,綜合計算出該模型參數的最優(yōu)估計值,解決傳統(tǒng)計量模型中無法利用不同頻率數據的問題。Pan等(2018)運用時變參數MIDAS模型(TVP-MIDAS)研究原油價格的漲跌對美國實際增長率的預測分析,研究表明該模型的預測效果相較于傳統(tǒng)預測模型更優(yōu)。在國內有關MIDAS模型的研究中,徐劍剛、張曉蓉等(2007)將MIDAS模型應用在金融領域。劉金全等(2010)結合MIDAS模型,證明該模型在研究宏觀經濟發(fā)展中對混頻數據處理方面具有明顯的優(yōu)勢。劉漢等(2011)構建了預測我國季度GDP的混頻數據模型,實證結果顯示:有關我國季度GDP增長率的預測,MIDAS模型具有即時性、可行性和精準性等特點。
與此同時,國內外學者選取預測GDP的指標從傳統(tǒng)的政府統(tǒng)計指標轉向新興的微觀高頻數據。楊東偉(2013)選取我國電力消費彈性指數,研究分析宏觀經濟增長與電力消費之間的規(guī)律與趨勢。盧秀等(2020)基于夜間燈光數據和土地利用數據,對云南沿邊地區(qū)GDP進行空間化和預測。近年來,不同頻率數據的大量涌現,海量的數據信息對整個社會和經濟的發(fā)展有著深遠影響。因此如何利用大數據對宏觀經濟進行分析預測是一個新領域。Schlegel(2014)研究如何用大數據信息進行預測。劉濤雄和徐曉飛(2015)利用“兩步法”確定最優(yōu)模型,研究表明互聯(lián)網在線搜索行為數據能幫助預測宏觀經濟。因此,作為互聯(lián)網搜索行為中的代表性數據,百度搜索指數在一定程度上能夠反映經濟的發(fā)展,成為預測宏觀經濟的有效指標。
基于以往的文獻,文章使用百度搜索指數專業(yè)版數據庫,利用傳統(tǒng)同頻計量模型、MIDAS模型和組合預測模型,對季度GDP增長率預測進行研究。文章可能存在以下的創(chuàng)新點:一是根據我國的宏觀經濟的發(fā)展特點,從關于消費、投資、進出口、勞動力、資本和技術創(chuàng)新六個方面選擇相應的搜索關鍵詞。結合互聯(lián)網搜索行為信息數據和傳統(tǒng)政府統(tǒng)計指標對季度GDP增長率進行預測,有效提升預測的合理性。二是在構建模型的過程中,不僅包括MIDAS模型,也通過不同權重函數構建組合預測模型并找到其中最優(yōu)的模型。
二、模型構建
(一)同頻預測模型
對于樣本數據中變量頻率不一致的問題,最簡單的解決方法是通過計算平均值將高頻數據轉化為與低頻數據相同的頻率。接著再對變量進行簡單回歸,構建時間平均模型。
其中,和yt屬于同一時間域內并且數據頻率相同,rj是時間平均x上的斜率系數。
時間平均模型是假設x的每個單獨觀測的斜率系數相等,步進加權模型則是假設每個單獨觀測的斜率系數是不相等。
(二)混頻預測模型
時間平均模型存在很大局限性,會損失高頻數據中的潛在信息。步進加權模型雖然保留了高頻數據的時間信息,但是需要估計大量的潛在參數。為了解決以上信息丟失和參數擴散的問題,Ghysels et al.(2004)提出了MIDAS模型:
其中,函數Φ(k;θ)是高頻變量的權重多項式。權函數Φ(k;θ)可以是任意數量的函數形式,文章采用四種函數形式,分別為Beta公式、Beta Non-Zero公式、Almon公式和Exp Almon公式,以此來保證參數節(jié)儉和模型的靈活性。
(三)多變量組合模型
組合預測模型是t時刻的預測組合,即n個h步向前預測的加權值。具體形式如下:
其中,M為解釋變量的個數。
文章選用四種不同的加權方案,分別為等權函數、AIC權函數、BIC權函數和MSFE-related權函數。
三、互聯(lián)網搜索行為數據對中國季度GDP增速預測的實證研究
(一)指標選取與數據處理
百度搜索指數是用來衡量互聯(lián)網搜索行為的指標,其表示某關鍵詞在百度網頁搜索中搜索頻次的加權。根據何強、董志勇等人(2020)的研究,選取與宏觀經濟增長相關性較強的代表性關鍵詞并收集對應的百度搜索指數。文章將搜索關鍵詞分為消費、投資、進出口、勞動力、資本和技術進步六大類。基于橫截面平均的思想,利用主成分分析對選取的30個搜索關鍵詞所對應的百度搜索指數數據進行降維。根據主成分選擇準則確定六個關于百度搜索指數的主成分。根據成分矩陣對六個主成分進行命名,分別為消費類代表(PC1)、投資類代表(PC2)、進出口類代表(PC3)、勞動力類代表(PC4)、資本類代表(PC5)、技術進步類代表(PC6)。
參照王國維和于揚(2016)的研究,選取進出口總額增速、社會消費品零售總額增速、固定資產投資完成額增速這三個政府統(tǒng)計指標作為控制變量,加入百度搜索指數作為補充進行實證分析。文章選取的數據均為同比增長率,樣本數據區(qū)間為2012年1月至2021年10月。在數據預處理方面,所有樣本數據進行季節(jié)性調整和對數化差分處理。
(二)傳統(tǒng)預測模型與MIDAS模型的參數估計結果與對比分析
文章基于MIDAS模型通過百度搜索指數對我國季度GDP預測分析,采用估計方法分別為固定窗口估計和滾動窗口估計。鑒于百度搜索指數(從2012年開始)樣本量較少,模型估計時只考慮最大的滯后階數為15。表2給出了不同權函數下MIDAS模型的預測效果。
比較分析不同估計預測窗口以及不同權函數下的MIDAS模型預測的MSFE值可以得出如下的結論:第一,所有MIDAS模型預測的MFSE值幾乎都小于簡單時間平均模型和步進加權模型,這就意味著基于MIDAS模型進行的預測效果更好。第二,在四種權函數的MIDAS模型中,屬于Exp Almon和Almon形式的權函數的預測精準度要更優(yōu)。
采用前文所述方法確定估計窗口和最優(yōu)權函數,下圖展示了在滾動窗口下各高頻解釋變量的最優(yōu)權函數的權重估計結果。
上圖展示了MIDAS模型中六個高頻解釋變量在最優(yōu)權函數下的權重估計結果。由于篇幅限制,文章只分析由滾動窗口預測的輸出圖。其中,在代表技術進步類(PC1)、資本類(PC4)和勞動力類(PC5)的百度搜索指數對季度GDP增長率預測中,模型中各滯后項前面的系數為正并在十階后趨向于零。這表明代表技術進步類、資本類和勞動力類的百度搜索指數對下一個季度GDP增速的影響效果為正。代表進出口類(PC2)的百度搜索指數在前五階之前為負,表明進出口類代表的百度搜索指數對于下一個季度的GDP的影響效應為負,并且在五階滯后趨于零。代表投資類(PC3)的百度搜索指數在七階滯后之后對下一個季度GDP的影響效應持續(xù)為正,即對投資領域關注度越高對經濟增長越有益。代表消費類(PC6)的百度搜索指數在滯后三階至八階對下一個季度GDP增長率的影響效應為正。
(三)多變量組合模型預測分析
單變量MIDAS模型的預測效果會隨著樣本量和預測區(qū)間而發(fā)生改變。為了得到更有效、更精準的季度GDP增速的預測結果,文章進一步構建多變量組合預測模型。文章采用等權重、AIC、MSFE、DMSFE這四種權重形式的組合預測方法進行季度GDP增速的預測。與此同時,設定兩種組合預測模型進行對比:組合一為根據月度宏觀政府統(tǒng)計指標對季度GDP增速進行預測;組合二為在組合一的基礎之上加入互聯(lián)網搜索行為指標作為補充,對季度GDP增速進行預測。通過組合一、二的對比分析來探究互聯(lián)網搜索行為是否可以預測季度GDP增速以及能否顯著提升模型的預測精度。根據Yu等(2018)的研究,本文采用MSFE、RMSE、MAE這三種指標來衡量各組合預測模型的最終預測效果。結果如表2所示。
根據表2的結果可得到如下結論:第一,傳統(tǒng)政府統(tǒng)計指標并加入互聯(lián)網搜索行為指標進行補充的組合預測模型(組合二)在AIC、MSFE、DMSFE的權函數形式下的組合預測誤差均顯著小于只有政府統(tǒng)計指標的組合預測模型(組合一),證明百度搜索指數作為新的預測指標加入對季度GDP增速的預測中可以顯著提升預測效果。這是因為百度搜索指數作為非結構性數據可以提供除了傳統(tǒng)政府統(tǒng)計指標之外有效的、潛在的增量信息從而提升模型的預測效果。第二,對于不同權函數形式的組合預測,在MSFE、RMSE、MAE這三種損失函數下,基于MSFE權函數模型的預測誤差最小,即預測效果最優(yōu)。其也說明該權重選擇方法對比等權重、AIC、DMSFE權函數形式在預測季度GDP方面具有較好的穩(wěn)健性。
四、結論與啟示
混頻數據模型相較于傳統(tǒng)計量經濟模型更具靈活性和精準性,在短期預測方面有著顯著優(yōu)勢。特別是在當今大數據時代,隨著不同頻率數據的大量涌現,MIDAS模型已成為宏觀經濟分析和短期預測相關領域的重要工具。文章運用不同權函數下的MIDAS模型對互聯(lián)網搜索行為指標與季度GDP增速的關系進行實證分析,結果表明以百度搜索指數為代表的互聯(lián)網搜索行為指標是能夠對宏觀經濟進行預測的。不同權函數下的MIDAS模型的預測效果是不同的,其中基于Exp Almon和Almon的權函數的模型預測效果更優(yōu)。
在傳統(tǒng)政府統(tǒng)計的經濟指標中,加入互聯(lián)網搜索行為指標能夠顯著提高模型對季度GDP增速的預測精準度,從而幫助改進模型的預測效果。其中,傳統(tǒng)政府統(tǒng)計指標屬于結構化數據,其數據規(guī)范、噪音小,但是數據往往存在一定時間上的滯后。然而,互聯(lián)網搜索行為指標屬于數據更新快、實時可得的非結構性數據,但有著數據信息噪音大、數據來源和形式多樣化的缺點?;ヂ?lián)網搜索行為指標往往包含著傳統(tǒng)政府統(tǒng)計指標所沒有的數據信息,因此其是對傳統(tǒng)宏觀經濟指標一定程度上的補充。兩種數據信息各有優(yōu)劣,在對宏觀經濟進行預測時,合理應用結構和非結構的數據信息兩種指標可以有效降低預測誤差。
文章的實證結果還表明,對比單變量MIDAS模型,多變量組合的預測模型能夠顯著提高模型的預測精度,其中以MFSE為權重的組合模型的預測效果最優(yōu)。其背后的機理是將幾個預測精度較高的單變量MIDAS模型通過不同的權重組合起來進行預測,預測精度會得到顯著提升。對比傳統(tǒng)同頻計量經濟模型,混頻數據模型可以深度攫取高頻數據中潛在的信息,充分利用樣本數據對我國宏觀經濟波動做出更精準的預測,對未來的經濟趨勢做出合理的判斷和分析。文章的研究還存在很多的不足之處,比如互聯(lián)網在線搜索數據只選取百度搜索指數,沒有充分利用其他的互聯(lián)網大數據的在線信息,存在一定程度上的局限性。
(作者單位:杭州電子科技大學 經濟學院)
作者簡介:王文勝,男,浙江武義人,博士,教授,博導。研究方向:統(tǒng)計理論與應用研究
基金項目:國家自然科學基金項目(11671115)。