王春枝,穆 楠,趙國杰,于 揚
(1.內(nèi)蒙古財經(jīng)大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,呼和浩特 010070;2.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072)
混頻數(shù)據(jù)抽樣模型(Mixed Data Sampling,簡記為MIDAS)近年來得到了學(xué)界的廣泛關(guān)注,其主要思想是利用比較容易觀測到的高頻率數(shù)據(jù)來預(yù)測不容易觀測到的低頻率數(shù)據(jù),但是由于數(shù)據(jù)頻率的差異,在參數(shù)估計方面存在較大的難度。早期,學(xué)術(shù)界對于此問題的處理,主要采用兩大類方法:插值法和橋接模型法。橋接模型法的本質(zhì)和插值法是一樣的,二者都是建立在依時性加總思想基礎(chǔ)之上。此外,還有一些學(xué)者直接采用其他頻率相同的指標(biāo)來近似代替低頻指標(biāo)進行量化分析。Amemiya和Wu(1972)[1]利用處理非平穩(wěn)時間序列的ARIMA模型以及單位根檢驗的ADF方法,對比分析了插值法、橋接模型等方法的適用性以及有效性,對比分析的結(jié)果表明這類依時性加總的處理方法對信息的利用并不充分,因為各種頻率的數(shù)據(jù)都蘊含其獨有的信息和趨勢,將不同頻率數(shù)據(jù)轉(zhuǎn)化為同一頻率數(shù)據(jù)的處理方式造成了高頻數(shù)據(jù)信息損失,降低了模型精度。在這樣的背景下,對不同頻率的混合數(shù)據(jù)進行直接建模的混頻數(shù)據(jù)模型便應(yīng)運而生[2-4]。GDP相關(guān)性較高的CPI等指標(biāo)的月度數(shù)據(jù)實時預(yù)測了季度GDP數(shù)據(jù),這是混頻數(shù)據(jù)直接應(yīng)用的開端,為混頻數(shù)據(jù)抽樣模型的廣泛應(yīng)用奠定了基礎(chǔ)。
Ghysels等(2004)[5]在Koenig[4]研究的基礎(chǔ)上,構(gòu)建了考慮數(shù)據(jù)非平衡性的混頻數(shù)據(jù)抽樣模型(MIDAS),其主要思想是根據(jù)數(shù)據(jù)特征構(gòu)建不同的權(quán)重多項式,將高頻和低頻指標(biāo)結(jié)合,從而可以動態(tài)地考察不同頻率指標(biāo)之間的關(guān)系。此后,MIDAS模型在金融、宏觀經(jīng)濟領(lǐng)域得到普遍應(yīng)用,越來越多的研究成果將高頻數(shù)據(jù)加入到低頻宏觀經(jīng)濟變量預(yù)測模型中,并取得了極大成功,這些成功的案例均表明高頻變量和低頻變量直接應(yīng)用能夠顯著提高模型的預(yù)測精度[6-9]。
縱覽相關(guān)成果,當(dāng)前關(guān)于MIDAS模型的研究主要基于實證角度進行,重在運用MIDAS模型對經(jīng)濟現(xiàn)象進行定量分析與預(yù)測,尚缺乏從理論角度探討其與經(jīng)過轉(zhuǎn)換的傳統(tǒng)同頻率模型之間內(nèi)在關(guān)系的研究,對其估計量的統(tǒng)計性質(zhì)也缺乏相應(yīng)的數(shù)理證明。鑒于此,本文從MIDAS模型的構(gòu)成形式出發(fā),通過對高頻變量的成分進行分解,從而將MIDAS模型與傳統(tǒng)處理混頻數(shù)據(jù)的方法進行比較,傳統(tǒng)的混頻數(shù)據(jù)處理的主要思路是賦予高頻變量均等化的權(quán)重將其轉(zhuǎn)換為低頻變量,得到EQW(Equal Weights)模型。在此基礎(chǔ)上,進一步從數(shù)理統(tǒng)計的角度對EQW模型參數(shù)的普通最小二乘估計量(Ordinary least squares,簡記為OLS)的統(tǒng)計偏倚性和有效性進行推導(dǎo),得出其偏倚為零的約束條件,以期為MIDAS模型在實時預(yù)測的精度保證方面提供理論支持。
首先,以一元混頻數(shù)據(jù)模型為例,設(shè)變量Yt是模型的被解釋變量(因變量),具有低頻屬性,下標(biāo)t代表所考察的時期。一元混頻模型中只含有一個高頻解釋變量(自變量),記為,其中m為高頻數(shù)據(jù)的個數(shù),時間區(qū)間為第t期到t-1期,m實際上就是高頻變量與低頻變量的頻率的倍差。記q代表模型中滯后變量的滯后階數(shù),則一元混頻模型(MIDAS)的函數(shù)方程可以寫為:
式(1)中,ωi(θ)是賦予目標(biāo)參數(shù)θ向量的一個權(quán)重函數(shù),并且滿足權(quán)數(shù)之和等于1的統(tǒng)計要求,即L為模型中的延遲算子,其滿足條件是除之外其他影響被解釋變量Yt的隨機干擾項,滿足零均值、同方差、無自相關(guān)、與解釋變量不相關(guān)等古典假定,并且 μt~N(0'σ2)。
令代表高頻解釋變量與低頻被解釋變量的頻率倍差m內(nèi)的所有樣本數(shù)據(jù)個數(shù)經(jīng)過等權(quán)重平均得到的指標(biāo),即有:
根據(jù)式(2),經(jīng)典的同頻EQW回歸模型可表示為:
設(shè)qm=m-1,則式(1)可以轉(zhuǎn)化為:
進一步展開得到具體形式為式(5):
令(θ)為高頻解釋變量按照不等權(quán)重進行加權(quán)平均的權(quán)重函數(shù),則將其帶入式(5),可以得到:
即:
同理,當(dāng)qm>m-1時,最高滯后階數(shù)設(shè)為qm,式(1)可分解為:
從上述分解過程中可以清晰地看到一元MIDAS模型與EQW模型之間的關(guān)系,觀察式(6)和式(7)可以發(fā)現(xiàn):一元MIDAS模型的解釋變量部分既包含了傳統(tǒng)的按等權(quán)重平均進行數(shù)據(jù)處理的部分同時也包含了獨立引入權(quán)重函數(shù)ωi(θ)的加權(quán)平均部分這意味著通過賦予高頻變量均等化的權(quán)重將其轉(zhuǎn)換為低頻變量得到的EQW模型只是一元MIDAS模型的一個組成部分,EQW模型損失了模型中高頻解釋變量的一部分信息是顯而易見的[10]。
接下來,將MIDAS模型中的高頻解釋變量擴展至一般情形,令為k個同頻的高頻解釋變量,其函數(shù)表達式記為為模型中高頻解釋變量的個數(shù),且 j=1'2…k。另外,設(shè)q為模型中高頻變量的最大滯后階數(shù),從而多元混頻數(shù)據(jù)模型M-MIDAS的方程形式可以表示為:
式(8)中,m1'm2'…'mk代表了k個高頻解釋變量的頻率,不同解釋變量的頻率既可以相等也可以不相等,另外,記為每個高頻解釋變量的滯后階數(shù),一般情況下,認為這些高頻解釋變量的滯后階數(shù)是相同的,即同步變化性,令表示高頻解釋變量的權(quán)重函數(shù),其滿足權(quán)重函數(shù)之和為1的統(tǒng)計要求。
當(dāng) j個高頻解釋變量的頻率滿足m1=m2=…=mk=m,即頻率都相同時,第 j個高頻解釋變量的等權(quán)平均的部分可表示為同理,設(shè)qm=m-1,多元混頻數(shù)據(jù)模型M-MIDAS可轉(zhuǎn)化為:
式(9)中
如果 j個高頻解釋變量的頻率m1'm2'…'mk至少一個不同時,權(quán)重函數(shù)方程的表達式調(diào)整為
設(shè)qm>m-1,模型中高頻變量的最大滯后階數(shù)設(shè)為qm,根據(jù)同樣的思路,可將式(7)進一步變形為:此時,多元混頻數(shù)據(jù)模型M-MIDAS的方程形式就可表示為:
根據(jù)式(10)和式(11)可以看到,在 qm=m-1和qm>m-1兩種情形下,多元混頻數(shù)據(jù)模型M-MIDAS均可以分解為兩部分:按等權(quán)重平均處理的部分、獨立引入權(quán)重函數(shù)的加權(quán)平均部分。由此可得與一元混頻數(shù)據(jù)模型MIDAS同樣的結(jié)論:簡單地將高頻解釋變量等權(quán)低頻化處理的多元EQW模型仍然不可避免的損失了一部分高頻解釋變量自帶的信息。
式(1)和式(8)在分解時,都施加了約束條件:所有高頻解釋變量的各個滯后項權(quán)重函數(shù)ωi(θ)的和等于1,當(dāng)解釋變量與和被解釋變量的頻率倍差較小時,并且所需要估計的參數(shù)個數(shù)較少時,可以放松對權(quán)重函數(shù)之和為1的約束條件,選擇非限制混頻數(shù)據(jù)回歸模型U-M-MIDAS對低頻被解釋變量進行回歸,借鑒分布滯后回歸模型,對高頻解釋變量不賦予權(quán)重,則可得非限制混頻數(shù)據(jù)回歸模型的方程形式為:
其中 Φ(L)和 β(L)為算子-φpLp,回 歸 系 數(shù)的白噪聲序列。
首先,假設(shè)qm=m-1的情形下,按照與前文同樣的方法,式(12)可以分解為:
其中回歸系數(shù)
當(dāng)qm>m-1時,假設(shè)式(12)中,所有高頻解釋變量的最高滯后階數(shù)為qm,據(jù)此,式(12)可分解為:
觀察式(13)和式(14)同樣可以發(fā)現(xiàn),等權(quán)低頻化處理的部分Xj'E
t只是非限制混頻數(shù)據(jù)回歸模型U-M-MIDAS的部分構(gòu)成,而U-M-MIDAS模型其余部分所攜帶的信息,EQW模型是無法體現(xiàn)的。
綜上,通過對三種基本形式的MIDAS模型按等權(quán)重和非等權(quán)重分解高頻回歸元數(shù)據(jù)集,可以清晰地看到MIDAS模型與EQW模型的區(qū)別及內(nèi)在聯(lián)系,也均證明了MIDAS模型進行直接的等權(quán)低頻化處理,會造成高頻變量本身攜帶的信息損失,這種信息損失,會給模型的估計量帶來什么后果?這也是本文接下來要研究的另一個問題。
本文以多元混頻模型(M-MIDAS)為例,從估計量的偏倚角度,探討M-MIDAS模型直接等權(quán)低頻化處理得到的EQW模型,在損失信息的情況下如何影響模型參數(shù)估計的統(tǒng)計性質(zhì)。
將式(8)的多元混頻模型由代數(shù)形式改寫為矩陣形式:
同樣地,假設(shè)所有高頻解釋變量的頻率一致,此時隨機過程滿足:
其中,j為高頻解釋變量個數(shù),j=1'2'…'k,q為高頻解釋變量最高滯后階數(shù)。ωij(θj)為關(guān)于權(quán)重參數(shù)向量θj的權(quán)重函數(shù),滿足條件ωij(θj)∈[0'1],定義變量:
假設(shè)被解釋變量與解釋變量之間真實的函數(shù)關(guān)系為式(8),其中高頻解釋變量Xt(θ)可以表示為兩部分:等權(quán)重加權(quán)部分和非等權(quán)重加權(quán)部分(θ),即 Xt(θ)滿足等式從而式(15)的矩陣形式進一步轉(zhuǎn)化為:
其中隨機項ut服從正態(tài)分布。(θ)是一個對角矩陣,其對角線元素為且
假設(shè)q=m,在模型中加入自回歸項,得到混頻數(shù)據(jù)自回歸模型AR-M-MIDAS形式如下:
其中依據(jù)式(18)建立經(jīng)典回歸模型為:
其中
對式(19)的回歸模型利用普通最小二乘法(OLS)進行回歸,得到參數(shù)估計量的表達式為:
將式(18)帶入式(20),可得:
其中所以EQW模型的普通最小二乘估計量的偏度可表示為:
觀察式(22)可以看到,只要ψ(θ)≠0,EQW模型的普通最小二乘估計量的偏倚就不為0,這意味著偏誤的存在。只有當(dāng)與滿足即
與為正交關(guān)系,則 E(β?*)=β 成立,此時,EQW模型的OLS估計量才具有無偏性。
良好的統(tǒng)計量的另外一個性質(zhì)是有效性,主要考察估計量的方差。接下來,本文對EQW模型和多元混頻M-MIDAS普通最小二乘估計量的漸進分布以及漸進有效性進行對比分析。首先,定義關(guān)于參數(shù)β和θ的參數(shù)空間為Φ=(β'θ),定義模型的兩個組成部分:等權(quán)處理與非等權(quán)處理的總體均值為:
設(shè)導(dǎo)數(shù)存在,從而普通最小二乘估計量可表示為:
對式(24)移項并進一步整理,可得:
根據(jù)逆矩陣是關(guān)于原始矩陣的一個連續(xù)函數(shù)的數(shù)學(xué)性質(zhì),令 plim(X'Xn)-1=Q-1,同時,根據(jù)林德伯格—費樂中心極限定理可以得到:
由式(26)的極限分布為σ2Q-1)。
記
因為等式成立,所以M-MIDAS模型中參數(shù)估計量?的方差為:
如果令
則
從而?的均方誤可表示為:
而多元混頻模型的OLS估計量?的均方誤為:
比較式(29)和式(30),可以得到兩個結(jié)論:
(1)當(dāng) θ=0,且時,
(2)當(dāng) θ=0,而時,由于所以有此時是比β?更有效的一個估計量。
本文進一步分解混頻模型,探索EQW模型普通最小二乘估計量與頻率倍差m的關(guān)系。設(shè)為一個獨
立同分布的隨機過程,并且滿足條件
設(shè)為MIDAS模型等權(quán)重的均值,其
非線性部分記為:
則只有一個獨立同分布回歸元的MIDAS模型可表示為:
因為所以成立。由前文可知,EQW模型的OLS估計量的偏倚為則:
結(jié)合式(27)可得:
由式(34)可以看到,將高頻解釋變量等權(quán)低頻化處理得到低頻數(shù)據(jù),并將其應(yīng)用于傳統(tǒng)回歸模型,按照普通最小二乘法進行擬合,得到的參數(shù)OLS估計量β?*的方差與頻率倍差m呈同方向變化的關(guān)系,高頻解釋變量與低頻被解釋變量的倍差m越大,β?*的方差也越大,統(tǒng)計量β?*的有效性也隨之不斷降低,這對模型而言是一個嚴峻的挑戰(zhàn):首先,從模型檢驗層面看,建立在估計量的方差基礎(chǔ)之上進行的假設(shè)檢驗,如回歸系數(shù)的顯著性檢驗、回歸方程的顯著性檢驗等,其檢驗的信度都會降低;其次,從模型應(yīng)用的層面看,被解釋變量與解釋變量之間關(guān)系的結(jié)構(gòu)分析、被解釋變量未來取值的預(yù)測等常見的模型應(yīng)用都將面臨精度下降的問題。
本文依據(jù)高頻數(shù)據(jù)低頻化的常用變換方法,將三種基礎(chǔ)類型的MIDAS模型從內(nèi)部結(jié)構(gòu)上進行分解,結(jié)果發(fā)現(xiàn)將高頻數(shù)據(jù)直接等權(quán)低頻化處理的EQW模型損失了MIDAS模型的非等權(quán)重加權(quán)平均部分。進而,本文通過數(shù)理推導(dǎo),從估計量的偏倚性以及有效性角度證明了EQW模型OLS估計量的統(tǒng)計性質(zhì)。結(jié)果表明:EQW模型由于信息損失會導(dǎo)致回歸系數(shù)估計時產(chǎn)生偏倚,只有當(dāng)?shù)葯?quán)重加權(quán)平均部分和非等權(quán)重加權(quán)平均部分(θ)正交時,偏倚才會為零;EQW模型OLS估計量的方差與頻率倍差呈同方向變化的關(guān)系,高頻解釋變量與低頻被解釋變量時間頻率的倍差越大,估計量的有效性越低。
[1]Amemiya T,Wu R.The effect of Aggregation on Prediction in the Autoregressive Model[J].Journal of the American Statistical Association,1972,67(339).
[2]Zadrozny.Gaussian Likelihood of Continuous-time ARMAX Models When Data are Stocks and Flows at Different Frequencies[J].Econometric Theory,1988,4(1).
[3]Zadrozny.Estimating a Multivariate ARMA Model With Mixed Frequency Data:An Applicationto Forecasting US GNP at Monthly Intervals[R].Federal Reserve Bank of Atlanta Working Paper Series,1990.
[4]Koenig E F,Dolman S,Piger J.The use and Abuse of real-time Data in Economic Forecasting[J].Review of Economics and Statistics,2003,85(3).
[5]Ghysels E,Santa-Clara P,Valkanov R.The MIDAS touch:Mixed Data Sampling Regression Models[R].Working Paper,Anderson School of Management,UCLA,2004.
[6]G?tz T B,Hecq A,Smeekes S.Testing for Granger Causality in Large Mixed-frequency VARs[J].Journal of Econometrics,2016,193(2).
[7]劉漢,劉營,王永蓮.經(jīng)濟景氣指標(biāo)與實際GDP增長率的混頻預(yù)測[J].統(tǒng)計與決策,2017,(21).
[8]Li X.A MIDAS Modelling Framework for Chinese Inflation Index Forecast Incorporating Google Search Data[J].Electronic Commerce Research and Applications,2015,2(14).
[9]Smith P.Google's MIDAS Touch:Predicting UK Unemployment With Internet Search Data[J].Journal of Forecasting,2016,35(3).
[10]于揚.混頻數(shù)據(jù)回歸模型的建模理論、分析技術(shù)研究[D].大連:東北財經(jīng)大學(xué)碩士論文,2016.