王書平 盧子晗 冀承秀
摘 要:網(wǎng)絡搜索數(shù)據(jù)是研究我國宏觀經(jīng)濟現(xiàn)象的重要微觀信息依據(jù)。本文從需求、供給與政策三方面選取和篩選關鍵詞合成網(wǎng)絡搜索指數(shù),并與我國GDP進行相關性研究。結(jié)果表明:網(wǎng)絡搜索指數(shù)與GDP的相關性較高,且兩者存在長期均衡關系與短期誤差修正機制,當GDP逐漸偏離均衡,將會以1~2個月的調(diào)整速度從非均衡態(tài)過渡到均衡態(tài);網(wǎng)絡搜索指數(shù)的增長對我國GDP有促進作用。
關鍵詞:網(wǎng)絡搜索數(shù)據(jù);GDP;VAR模型;主成分分析;宏觀經(jīng)濟
本文索引:王書平,盧子晗,冀承秀.<變量 2>[J].中國商論,2024(06):-118.
中圖分類號:F123 文獻標識碼:A 文章編號:2096-0298(2024)03(b)--04
GDP(國內(nèi)生產(chǎn)總值)是體現(xiàn)一國宏觀經(jīng)濟運行情況的重要指標。當前,我國經(jīng)濟已由高速增長階段轉(zhuǎn)向高質(zhì)量發(fā)展階段,但國內(nèi)外制約其發(fā)展的不確定因素增多,給宏觀經(jīng)濟帶來了較大的下行風險,因而亟需高效準確的宏觀經(jīng)濟預警數(shù)據(jù)幫助研判對策。網(wǎng)絡搜索數(shù)據(jù)是近年來新興的一種能夠準確記錄網(wǎng)民在互聯(lián)網(wǎng)上搜索活動的指數(shù)化數(shù)據(jù)源。第50次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2022年6月,搜索引擎利用率為78.2%,可以看出互聯(lián)網(wǎng)用戶是我國目前經(jīng)濟活動中最主要的參與者,也是宏觀經(jīng)濟的微觀基礎,網(wǎng)絡搜索量則是其把信息當作決策基礎的一種數(shù)據(jù)表現(xiàn)?;诨ヂ?lián)網(wǎng)數(shù)據(jù)實時更新的特點,將這些網(wǎng)絡搜索數(shù)據(jù)利用起來,可以及時有效地了解經(jīng)濟運行狀況,分析我國所處的經(jīng)濟周期狀態(tài),同時其作為一種新型的數(shù)據(jù)資源,還可為國家戰(zhàn)略發(fā)展和其他各領域的研究提供思路。
利用網(wǎng)絡搜索數(shù)據(jù)來研究宏觀經(jīng)濟問題已成為學者們關注的熱門課題,主要體現(xiàn)在消費指標預測、社會事件監(jiān)測等領域,側(cè)面反映出運用網(wǎng)絡搜索數(shù)據(jù)開展研究的可行性(Fu, Dong, 2018)[1]。在網(wǎng)絡搜索數(shù)據(jù)預測GDP的研究中,部分學者同時運用官方統(tǒng)計數(shù)據(jù)和網(wǎng)絡搜索數(shù)據(jù),構(gòu)建包含有兩種數(shù)據(jù)的混頻預測模型(G?tz, Knetsch, 2019;張偉等,2020)[2-3],也有部分學者采用兩步法原則,先通過官方統(tǒng)計數(shù)據(jù)選擇最優(yōu)模型,再加入網(wǎng)絡搜索數(shù)據(jù)從而得到最終預測模型(劉濤雄和徐曉飛,2015)[4]。關于網(wǎng)絡搜索數(shù)據(jù)與經(jīng)濟指標的關系,張崇等(2012)揭示了網(wǎng)絡搜索數(shù)據(jù)與CPI存在協(xié)整關系 [5]?,F(xiàn)有文獻大多集中于研究網(wǎng)絡搜索數(shù)據(jù)對GDP的預測作用,較少文獻探討GDP與網(wǎng)絡搜索數(shù)據(jù)的關聯(lián)機制。本文以我國季度GDP為研究對象,分析網(wǎng)絡搜索數(shù)據(jù)與GDP的變化趨勢和相互作用,說明用戶的網(wǎng)絡信息搜索對GDP造成的影響,為更高效預測GDP走勢提供參考意義。
1 理論分析
GDP構(gòu)成因素的分析可從需求側(cè)和供給側(cè)兩方面展開。需求側(cè)從“拉動國民經(jīng)濟的三駕馬車”——消費、投資和凈出口入手,三者分別體現(xiàn)內(nèi)部需求、財政投入和外部需求。供給側(cè)以經(jīng)濟增長理論和柯布-道格拉斯生產(chǎn)函數(shù)為基礎,從勞動力、資本、技術(shù)三個方面反映國民經(jīng)濟增長動力。由此可見,需求側(cè)體現(xiàn)GDP的靜態(tài)構(gòu)成,供給側(cè)體現(xiàn)GDP的動態(tài)增長,故有必要將兩方面結(jié)合進行分析。
基于網(wǎng)絡搜索數(shù)據(jù)監(jiān)測并分析社會經(jīng)濟活動的研究在國內(nèi)外已取得了較多成果,該方法的主要原理是捕捉消費者對微觀經(jīng)濟活動的關注行為,通過對蘊含用戶意圖的關鍵詞搜索數(shù)據(jù)匯總分析形成對宏觀指標的監(jiān)測與預測。百度作為我國最大的搜索引擎,記錄了我國網(wǎng)民行為數(shù)據(jù),形成了以百度指數(shù)為核心的數(shù)據(jù)共享平臺。
宏觀經(jīng)濟形勢影響著搜索引擎用戶對經(jīng)濟活動熱點的關注,消費者或生產(chǎn)者在開展經(jīng)濟活動前,需要結(jié)合宏觀經(jīng)濟形勢和行業(yè)經(jīng)濟特征為實施購買或投資決策提供判斷依據(jù)。以投資為例,城鎮(zhèn)住房價格水平的波動或住房政策調(diào)整將吸引投資者在網(wǎng)絡上進行搜索活動,了解相關政策和行業(yè)形勢變化;同時,搜索引擎用戶自身對微觀經(jīng)濟活動的關注也將產(chǎn)生對宏觀經(jīng)濟發(fā)展的影響。消費者或生產(chǎn)者通過搜索活動作出的購買或生產(chǎn)決策將影響相關行業(yè)的發(fā)展動力,從而影響未來走勢。以勞動力市場為例,用戶對就業(yè)市場不同職位關注的偏好將影響相關行業(yè)的人才流入和未來發(fā)展,從而對宏觀經(jīng)濟的總量和結(jié)構(gòu)造成潛在影響。
目前,利用網(wǎng)絡搜索數(shù)據(jù)進行對GDP的相關性分析的研究還較少,對關鍵詞的篩選依據(jù)也沒有公認的標準。此外,由于時代背景差異,我國經(jīng)濟在十九大以來進入高質(zhì)量發(fā)展階段,宏觀經(jīng)濟增速變慢,宏觀經(jīng)濟結(jié)構(gòu)也不斷改善。供給側(cè)結(jié)構(gòu)性改革、經(jīng)濟發(fā)展雙循環(huán)戰(zhàn)略等的提出將作為選取政策環(huán)境維度關鍵詞時的部分參考依據(jù)。
2 實證分析
2.1 數(shù)據(jù)來源與預處理
本文旨在研究網(wǎng)絡搜索數(shù)據(jù)與我國GDP的相關性,采用的數(shù)據(jù)主要分為兩部分:一部分是我國季度GDP值,該數(shù)據(jù)選自國家統(tǒng)計局;另一部分為網(wǎng)絡搜索關鍵詞,該數(shù)據(jù)選自百度指數(shù)官方網(wǎng)站。為了獲取更為全面的網(wǎng)民搜索行為數(shù)據(jù),本文所選取的關鍵詞的搜索指數(shù),既包括PC端搜索指數(shù)(2006年開始),也包括移動端搜索指數(shù)(2011年開始),因而樣本跨度為2011Q1-2022Q4。
網(wǎng)絡搜索關鍵詞的選取按照以下步驟進行:
(1)選取核心網(wǎng)絡搜索關鍵詞。根據(jù)現(xiàn)代經(jīng)濟學的基本思路,對一國或一地區(qū)的宏觀經(jīng)濟發(fā)展狀況可以從供需兩方面進行分析?;趪窠?jīng)濟核算與經(jīng)濟增長理論,宏觀經(jīng)濟發(fā)展狀況在需求端主要受居民消費、投資和凈出口的影響,在供給端主要受勞動力、資本和技術(shù)的影響,且考慮到上文中采用的數(shù)據(jù)樣本為2011年至今的數(shù)據(jù),我國經(jīng)濟從該時期逐步進入新常態(tài)的發(fā)展時期,宏觀經(jīng)濟增速變慢,經(jīng)濟結(jié)構(gòu)也不斷調(diào)整,所以在選擇關鍵詞數(shù)據(jù)上也充分考慮到我國宏觀經(jīng)濟增長的政策條件。因此,本文將從需求、供給與政策三方面來選取網(wǎng)絡搜索關鍵詞。
(2)拓展網(wǎng)絡搜索關鍵詞。根據(jù)核心網(wǎng)絡搜索關鍵詞的分類,對各類關鍵詞進行拓展以獲得更全面且豐富的信息,結(jié)合百度指數(shù)的關鍵詞推薦功能和需求圖譜,最終將初選關鍵詞擴充到148個。
(3)數(shù)據(jù)預處理。首先,排除未被百度收錄和指數(shù)較低的關鍵詞;其次,由于百度指數(shù)關鍵詞數(shù)據(jù)是日度數(shù)據(jù),而國家統(tǒng)計局公布的是GDP季度數(shù)據(jù),需要把日度搜索數(shù)據(jù)轉(zhuǎn)換成季度平均搜索數(shù)據(jù);最后,為消除短期波動,采用三期移動平均對百度指數(shù)數(shù)據(jù)進行平滑處理。
(4)篩選網(wǎng)絡搜索關鍵詞。利用時差相關分析法計算各個關鍵詞與GDP之間的時差相關系數(shù),考慮到后續(xù)建模時樣本容量與變量個數(shù)的關系,本文剔除掉與GDP相關系數(shù)小于0.7且滯后于GDP數(shù)據(jù)變化的關鍵詞指標。最終選取關鍵詞42個。部分關鍵詞如表1所示。
2.2 網(wǎng)絡搜索指數(shù)的合成
為解決在使用網(wǎng)絡搜索數(shù)據(jù)進行綜合指標合成過程中共線性較難消除、指標權(quán)重不能合理確定等問題,本文基于數(shù)據(jù)降維的思想,引入主成分分析方法來構(gòu)建綜合指數(shù)。
首先,對原始數(shù)據(jù)進行KMO和Bartlett檢驗,發(fā)現(xiàn)KMO值為0.680,Bartlett球形度檢驗的顯著性值p<0.001,表明數(shù)據(jù)的內(nèi)關聯(lián)性很高,有助于進一步開展主成分研究。其次,運用特征值大于1的提取方法,提取5個主成分,其方差累計貢獻率為91.802%,即5個主成分能表示原來42個指標91.802%的信息。最后,以每個主成分所對應的特征值和得分矩陣為基礎,得出各個主成分和綜合主成分值,從而編制出網(wǎng)絡搜索指數(shù)F(見式(1))。主成分得分如表2所示。
通過比較合成的網(wǎng)絡搜索指數(shù)F和我國各季度GDP的真實數(shù)值(見圖1),發(fā)現(xiàn) F的變化趨勢和GDP的變化趨勢基本一致,經(jīng)皮爾遜相關系數(shù)檢驗,GDP和網(wǎng)絡搜索指數(shù)F之間的相關性達到0.944。基于此,本文建立向量自回歸(VAR)模型,深入探討兩者之間的關系。
2.3 網(wǎng)絡搜索指數(shù)與我國GDP相關性的實證研究
(1)平穩(wěn)檢驗及協(xié)整檢驗。本文選取的網(wǎng)絡搜索數(shù)據(jù)和GDP數(shù)據(jù)的長度均為2011Q1-2022Q4,考慮到直接使用非平穩(wěn)的時間序列數(shù)據(jù)進行實證分析會造成偽回歸,因此利用ADF方法對樣本的平穩(wěn)度進行單位根檢驗,并以此來確定序列單整階數(shù)。研究發(fā)現(xiàn),所有變量都在5%的顯著性水平下二階差分平穩(wěn),即二階單整,均滿足協(xié)整檢驗的條件。
為了進一步驗證網(wǎng)絡搜索指數(shù)F與GDP之間的長期穩(wěn)定性,利用Engle和Granger 共同提出的兩步協(xié)整檢驗法。首先建立了網(wǎng)絡搜索指數(shù)F與GDP之間的回歸方程,并對所生成的殘差序列進行了單位根檢驗。結(jié)果表明,殘差單位根檢驗的t統(tǒng)計量為-3.7743,其相應的p<0.001,即殘差序列為平穩(wěn)序列。由此可以得出,網(wǎng)絡搜索指數(shù)F與GDP之間存在著協(xié)整關系,協(xié)整向量為(1,-13031.95),協(xié)整方程為:
式(2)刻畫了序列F與序列GDP的長期均衡關系。為了考察網(wǎng)絡搜索指數(shù)F與GDP之間的動態(tài)關聯(lián),構(gòu)建誤差修正模型。研究結(jié)果表明,模型估計結(jié)果的F統(tǒng)計量相應的p<0.001,從而說明了模型估計整體上是顯著的。誤差修正項ECM(-1)的系數(shù)估計值為-1.7495,也就是存在反方向的誤差修正機制,對應的P值為0.000<0.05,即在5%的檢驗水平下是顯著的。因此,為了保持網(wǎng)絡搜索指數(shù)F與GDP之間的長期均衡狀態(tài),當期會用1~2個月的時間來修正上一時期兩者間的不平衡,使之回歸到均衡態(tài)(1/1.7495≈0.57季度)。
(2)構(gòu)建VAR模型。要探討網(wǎng)絡搜索指數(shù)F和GDP之間的動態(tài)影響,還需要通過脈沖響應函數(shù)來分析兩者之間的沖擊效應。在進行脈沖響應之前,首先要建立VAR模型,然后確定最優(yōu)的滯后階。以信息準則為依據(jù),考察LR、FPE、AIC、SC、HQ值,得出最優(yōu)滯后階數(shù)為3,即建立VAR(3)模型。滯后檢驗結(jié)果見表3。
對VAR模型做3次滯后階的AR特征多項式逆根圖,結(jié)果顯示單位根全部在單位圓內(nèi),表明所建立的VAR(3)模型已經(jīng)相當穩(wěn)定。
(3)脈沖響應函數(shù)分析。在圖2中,橫坐標指沖擊作用的滯后時間,縱坐標指脈沖響應函數(shù)的幅度值,圖2中間的實線指脈沖響應函數(shù),上下的兩條虛線指兩倍標準差的偏離值。如圖2所示,當給網(wǎng)絡搜索指數(shù)F一個正向沖擊后,前4期GDP會有一個正向效應,即在這個期間網(wǎng)絡搜索指數(shù)的增長會對我國GDP有促進作用。究其原因,生產(chǎn)者和消費者出于滿足決策需要而進行的網(wǎng)絡信息搜索行為,可以直接反映出市場主體對GDP的預期,預期越高,各市場主體對GDP信息的需求越大,其搜索的動機也就越大。如圖3所示,當給GDP一個正向沖擊后,同樣地,在前4期網(wǎng)絡搜索指數(shù)F的沖擊始終是正向的,并在以后時期趨于在零值上下波動。
3 結(jié)語
本文首先對網(wǎng)絡搜索數(shù)據(jù)與我國GDP的相關性進行了理論分析,并揭示了基于網(wǎng)絡搜索數(shù)據(jù)監(jiān)測GDP的內(nèi)在機理,進而通過實證對其相關性進行了檢驗。得出以下結(jié)論:網(wǎng)絡搜索指數(shù)F與我國GDP之間關系密切,相關系數(shù)高達0.944,且兩者既存在長期均衡關系,又存在短期誤差修正機制,即為保持網(wǎng)絡搜索指數(shù)F與GDP的長期均衡狀態(tài),當期會用1~2個月的時間來修正上一時期兩者間的不平衡,使之回歸到均衡態(tài)。此外,當給網(wǎng)絡搜索指數(shù)F一個正向沖擊后,前4期GDP會有一個正向效應,即在這個期間網(wǎng)絡搜索指數(shù)的增長會對我國GDP有促進作用。
本文通過理論與實證分析表明,關鍵詞數(shù)據(jù)所構(gòu)成的網(wǎng)絡搜索指數(shù)F與GDP存在高度相關性。因此,可以利用網(wǎng)絡搜索指數(shù)來預測GDP,從而提高GDP預測的時效性。
參考文獻
Fu L, Dong Y. Research on internet search data in Chinas social problems under the background of big data[J]. Journal of Logistics, Informatics and Service Science, 2018, 5(2): 55-67.
Thomas B. G?tz and Thomas A. Knetsch. Google data in bridge equation models for German GDP[J]. International Journal of Forecasting, 2019, 35(1): 45-66.
張偉, 田金方, 曹燦. 基于混頻大數(shù)據(jù)的宏觀經(jīng)濟總量實時預測研究[J]. 宏觀經(jīng)濟研究, 2020(2): 15-29.
劉濤雄, 徐曉飛. 互聯(lián)網(wǎng)搜索行為能幫助我們預測宏觀經(jīng)濟嗎?[J]. 經(jīng)濟研究, 2015, 50(12):? 68-83.
張崇, 呂本富, 彭賡,等. 網(wǎng)絡搜索數(shù)據(jù)與CPI的相關性研究[J]. 管理科學學報, 2012, 15(7): 50-59+70.
何強, 董志勇. 利用互聯(lián)網(wǎng)大數(shù)據(jù)預測季度GDP增速的方法研究[J]. 統(tǒng)計研究, 2020, 37(12): 91-104.