劉曉鑫 景祥云 葉駿驊 金 博 畢文祥
(中國人民銀行長春中心支行,吉林長春 130051)
2008年全球金融危機爆發(fā)以來,隨著國際金融監(jiān)管改革的深化和拓展,如何有效使用快速增長的金融數(shù)據(jù)成為擺在各國中央銀行面前的一項重要課題。由于大數(shù)據(jù)技術能夠有效提升數(shù)據(jù)挖掘和使用的效率,并通過提供更完整、即時和詳細的資料作為“傳統(tǒng)”宏觀經(jīng)濟指標的補充,從而增強分析能力,以便做出更好的決策,因此大數(shù)據(jù)分析工具得到了各國央行的高度重視。在此背景下,本文重點搜集了央行應用大數(shù)據(jù)方法的相關文獻,探索大數(shù)據(jù)為央行制定和執(zhí)行經(jīng)濟政策提供的支持,尤其是如何改善統(tǒng)計信息、宏觀經(jīng)濟分析和預測、金融市場監(jiān)測和金融風險評估。
從央行應用大數(shù)據(jù)的領域來看,大數(shù)據(jù)可以在提高經(jīng)濟分析和金融管理等方面發(fā)揮重要作用。國際貨幣基金組織正在研究大數(shù)據(jù)模型,將大數(shù)據(jù)作為衡量經(jīng)濟指標的一種新方法,如分析價格、勞動力市場狀況、住房市場、商業(yè)情緒等(Hammer等,2017年)。許多央行目前正在研究如何利用金融大數(shù)據(jù)集的特點來執(zhí)行其任務(Coeuré,2017)。大數(shù)據(jù)在細節(jié)、靈活性、及時性和效率方面具有許多優(yōu)勢(Nymand Andersen,2016)。中央銀行有興趣開發(fā)各種試點項目,以更好地理解新的數(shù)據(jù)集和技術,評估其與傳統(tǒng)方法相比的附加值,并開發(fā)具體的“用例”(IFC,2015)。
大數(shù)據(jù)可以成為改進官方統(tǒng)計機構的有用手段。首先,它可以成為支持目前官方統(tǒng)計數(shù)據(jù)編制的新來源,使人們能夠獲得更廣泛的數(shù)據(jù)集。這些數(shù)據(jù)通常不是為特定的統(tǒng)計目的而收集或設計,而是其他活動的副產(chǎn)品(Groves,2011)。它們的范圍相當大,包括交易數(shù)據(jù)(如在線記錄的價格)、其他的數(shù)據(jù)(如社交媒體帖子、互聯(lián)網(wǎng)上顯示的產(chǎn)品評論),以及各種商業(yè)、財務和行政指標,如克強指數(shù)①克強指數(shù)是三種經(jīng)濟指標(工業(yè)用電量新增、鐵路貨運量新增和銀行中長期貸款新增)來評估GDP的增長。。
數(shù)據(jù)可以用來加強現(xiàn)有的統(tǒng)計工作,特別是在現(xiàn)有的統(tǒng)計體系難以完全覆蓋的情況下。例如,在一些發(fā)達經(jīng)濟體在線零售商價格數(shù)據(jù)的直接網(wǎng)絡抓取可以用來更好地衡量通貨膨脹的某些特定組成部分。在極端情況下這些數(shù)據(jù)可以取代官方統(tǒng)計系統(tǒng)不發(fā)達的國家的傳統(tǒng)指標。正如美國麻省理工學院的Roberto Rigobon所開展的“十億價格項目”研究,該項目允許為缺乏官方或綜合指數(shù)的國家構建通脹指數(shù)。
第二,大數(shù)據(jù)分析模型可以更加高效便捷地獲取和分析除官方數(shù)據(jù)以外的海量數(shù)據(jù),消除傳統(tǒng)意義上的統(tǒng)計時間差。由各種網(wǎng)絡和電子設備(如搜索查詢)即時生成的信息提供了高頻指標,有助于當局更及時地跟蹤當前的經(jīng)濟發(fā)展。實際上,“十億價格項目”的另一個目標是以更高的頻率提供包括發(fā)達經(jīng)濟體在內(nèi)的許多國家的通貨膨脹的先行信息,例如消費者物價指數(shù)(CPI)是每天而不是每月一次。在實體經(jīng)濟方面,如新西蘭銀行的Tugrul Vehbi提出的一些指標現(xiàn)在可以通過使用基于網(wǎng)絡的信息和機器學習算法來提前估計,大數(shù)據(jù)源的高速運行有助于提供更及時的信息,這在危機期間尤為重要。
第三,大數(shù)據(jù)分析提供新類型的統(tǒng)計數(shù)據(jù)能夠“補充”傳統(tǒng)統(tǒng)計數(shù)據(jù)集。一方面,數(shù)字化文本信息的可用性大大增加,這使得人們能夠從社交媒體數(shù)據(jù)中得出諸如經(jīng)濟主體的情緒和預期等有用信息?;诨ヂ?lián)網(wǎng)的資源可以涵蓋更廣泛的主題,例如宏觀經(jīng)濟金融形勢特別是系統(tǒng)性風險發(fā)生的概率。另一方面,一個重要因素是增加使用大顆粒數(shù)據(jù)集來改進宏觀經(jīng)濟總量的匯編,從而更好地了解其分散性(IFC,2016)——這類分布信息在國民賬戶體系(SNA)中普遍缺失。李紅艷等(2013)提出新型國民經(jīng)濟核算體系的概念,對全社會經(jīng)濟活動,即每一個產(chǎn)品或服務(存款、或貸款)從其產(chǎn)生到被消費(消亡)的全過程進行動態(tài)跟蹤記錄,對每個經(jīng)濟主體的每次經(jīng)濟活動和經(jīng)濟關聯(lián)活動進行跟蹤記錄,2013年末我國國家統(tǒng)計局就與百度、阿里巴巴等多家企業(yè)簽署的《大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議》以及2020年人民銀行成立的金融基礎數(shù)據(jù)中心使得這一構想成為可能。
許多國家的中央銀行已經(jīng)在使用大數(shù)據(jù)集進行宏觀經(jīng)濟預測。例如,Per Nymand-Andersen(ECB)展示了如何利用Google-Trends數(shù)據(jù)編制歐元區(qū)汽車銷售預估的短期預測;英格蘭銀行的Eleni Kalamara等將文本信息與有監(jiān)督的機器學習技術相結合,改進了對宏觀經(jīng)濟變量(包括GDP、通貨膨脹和失業(yè))的預測。從統(tǒng)計學視角來看,有些指標在預測國內(nèi)生產(chǎn)總值時可能效果良好,但在預測其未來發(fā)展時可能效果不佳。事實上,一些基于網(wǎng)絡的指標在即時預測中的效果可能不如傳統(tǒng)的商業(yè)信心調(diào)查。
鑒于這些注意事項,并考慮到可能獲得的大量數(shù)據(jù),遵循結構化的過程可能是有用的。泰國銀行的Paphatsorn Sawaengsuksant建議,在選擇諸如因特網(wǎng)搜索查詢等感興趣的指標時采用系統(tǒng)方法。例如,Google-Trends數(shù)據(jù)中的關鍵詞可以根據(jù)其通用程度、受歡迎程度(即記錄的搜索次數(shù))、敏感性(即對微小語義變化的敏感度)、預測值(即與宏觀指標的相關性)來選擇關鍵詞,從經(jīng)濟學的角度來看,被測試的關系是否有意義。
與宏觀經(jīng)濟領域一樣,大數(shù)據(jù)模型在監(jiān)測金融市場發(fā)展方面也很有價值,這是央行的一個關鍵領域。例如,香港金融管理局的調(diào)查報告顯示,一些新興的主權債券市場的回報可以用各種技術交易規(guī)則和機器學習技術來預測,評估其穩(wěn)健性與特定外國(如美國貨幣政策)和國內(nèi)因素的相對影響;許偉(2016)通過在基于網(wǎng)絡情感和搜索行為(谷歌搜索)的數(shù)據(jù)挖掘集成模型中加入房地產(chǎn)價格指數(shù)時間序列的滯后項,運用支持向量回歸模型對房地產(chǎn)價格指數(shù)進行了更好的預測。
其他類型的項目是在尋找非結構化的數(shù)據(jù)。例如,印度尼西亞銀行的Okiriza Wibisono(2018)描述了如何使用文本挖掘算法來監(jiān)測公眾對印度尼西亞利率走向的預期。已有多家央行的經(jīng)驗表明,新的大數(shù)據(jù)來源也有助于監(jiān)測金融市場的發(fā)展,并預測其潛在的未來方向。就日本央行而言,高頻數(shù)據(jù)的使用有助于監(jiān)測政府債券市場的流動性和因此有可能導致的價格風險。英格蘭銀行也制定了具體的項目,以監(jiān)測外匯市場動態(tài)和在市場大幅波動時的流動性。
大數(shù)據(jù)方法還可以提升金融當局識別金融風險的效果——無論是負責微觀金融監(jiān)管的機構,還是宏觀審慎監(jiān)管的機構(Tissot,2019)。在該領域早期的研究包括:Nag & Mitra(1999)首次將人工神經(jīng)網(wǎng)絡引入預警模型,之后很多學者利用人工神經(jīng)網(wǎng)絡對系統(tǒng)性風險進行分析,結果表示神經(jīng)網(wǎng)絡的樣本外預測能力明顯優(yōu)于KLR模型。陳秋玲等(2009)基于bp人工神經(jīng)網(wǎng)絡計算了2008年中國國家綜合金融風險,財政貿(mào)易風險,宏觀經(jīng)濟風險等預警等級,與實際情況基本符合。Yu et al.(2010)提出了基于經(jīng)驗模態(tài)分解法(EMD)的多量程神經(jīng)網(wǎng)絡模型,提高了預測精度,改善了泛化性能,結果優(yōu)于其它分類方法和bp神經(jīng)網(wǎng)絡。但是對于小型數(shù)據(jù)集而言,支持向量機有著更好的精度;林宇等(2013)將隨機欠采樣 (RU) 、合成少數(shù)類過采樣 (SMOTE) 與傳統(tǒng)支持向量機 (SVM) 相結合, 提出一種改進的SVM模型,具有更高的預測精度和性能。但是神經(jīng)網(wǎng)絡算法雖然預測結果精確但是計算量很大,計算速度也隨著數(shù)據(jù)量的增加指數(shù)級增長,對設備要求較高且參數(shù)很多不易解釋(李欣海,2013)。
2001年,Breiman等人在貝爾實驗室(Ho,1995, 1998)所提出的隨機決策森林 (random decision forests)的基礎上創(chuàng)造了隨機森林算法,選用隨機化特征和數(shù)據(jù)建立決策樹來降低計算量,運用建立多棵樹形成一片森林最后匯總結果投票選出最佳結果的方法來保證預測精度(Breiman,2001a)。在風險預警方面如Joy et al.(2015)分析1970-2010年36個發(fā)達經(jīng)濟體銀行和貨幣危機爆發(fā)前的經(jīng)濟、金融和結構狀況,通過隨機森林確定了銀行業(yè)危機的短期先兆是凈息差較低,收益率曲線較淺,或是倒掛,長期先兆是高房價通脹;而貨幣危機則可由國內(nèi)短期利率和匯率作為短期預測因素。Xu et al.(2018)結合Wavelet變化和隨機森林模型度貨幣危機進行預測,實證表示在16-32個月的時間范圍內(nèi)衡量的實際匯率升值是影響最大的因子。Takuji(2019)利用隨機森林和DWT變換結合,建立了貨幣危機預測模型,對危機預測具有較高的精度,并證明了月度實際匯率和外匯儲備凈國DWT變換之后可以作為可靠的預測指標。
王克達(2019)基于1970—2011年全球各國金融危機數(shù)據(jù)對系統(tǒng)性銀行危機、貨幣危機和主權債務危機的預警進行了實證研究表示隨機森林預測精度最優(yōu),最能識別先導指標。蕭超武等(2014)建立了基于隨機森林組合分類算法的個人信用評估模型,實證表示該模型具有較好的預測精度和穩(wěn)定性。葉曉楓和魯亞會(2017)將樸素貝葉斯與隨機森林模型融合建立信用評估模型,實證表示具有更高的預測準確度。還有企業(yè)信用及其破產(chǎn)研究,如盛夏等(2016)年比較隨機森林和adaboost對中國上市公司的信用評級變動的預測顯示隨機森林具有更好的預測精度。信用卡風險評估如方匡南等(2010)對信用卡風險實證研究表明隨機森林比logistic回歸和支持向量機具有更好的預測性能。
2008年以來,全球主要國家央行高度重視微觀金融數(shù)據(jù)基礎設施的建設,大量顆粒度較高的微觀金融數(shù)據(jù)被源源不斷地匯聚到中央銀行的數(shù)據(jù)信息系統(tǒng)中。這對于央行的數(shù)據(jù)存儲和分析能力提出了巨大挑戰(zhàn)。如何開發(fā)適合央行特性的金融大數(shù)據(jù)系統(tǒng),探索金融大數(shù)據(jù)分析方法,已經(jīng)成為各國央行亟待解決的重要問題。一般而言,可供央行借鑒和使用的大數(shù)據(jù)分析方法主要包括機器學習、文本挖掘以及網(wǎng)絡分析等方法。中央銀行借助大數(shù)據(jù)分析方法,能夠進一步拓展信息渠道、提升統(tǒng)計時效,改善宏觀經(jīng)濟預測效果,改進金融市場監(jiān)測效率,并進一步強化宏觀審慎監(jiān)管職能。當然,央行在使用大數(shù)據(jù)方法履職時,也面臨一系列的問題和挑戰(zhàn),包括在設立和運行新的大數(shù)據(jù)組織的過程中如何契合現(xiàn)有的央行文化與組織機制,如何更加有效地對大數(shù)據(jù)方法和傳統(tǒng)的計量和統(tǒng)計方法進行融合創(chuàng)新,以及如何解決在數(shù)據(jù)設備投資和數(shù)字人才培養(yǎng)等方面的挑戰(zhàn)等等。顯然,中央銀行探索大數(shù)據(jù)模型和方法的應用,還有相當長一段路要走。