○ 汪毅霖
(西南政法大學(xué) 經(jīng)濟(jì)學(xué)院, 重慶 401120)
?
大數(shù)據(jù)預(yù)測與大數(shù)據(jù)時代的經(jīng)濟(jì)學(xué)預(yù)測〔*〕
○ 汪毅霖
(西南政法大學(xué) 經(jīng)濟(jì)學(xué)院, 重慶 401120)
在大數(shù)據(jù)時代,經(jīng)濟(jì)學(xué)預(yù)測正在受到大數(shù)據(jù)預(yù)測的挑戰(zhàn)。從方法論的角度說,經(jīng)濟(jì)學(xué)預(yù)測與大數(shù)據(jù)預(yù)測存在本質(zhì)性差別,其中最重要的一點(diǎn)在于,經(jīng)濟(jì)學(xué)預(yù)測以理論為基礎(chǔ)且關(guān)注因果性,而大數(shù)據(jù)預(yù)測以數(shù)據(jù)為基礎(chǔ)且止步于相關(guān)性。兩種預(yù)測方法都有各自的缺陷和邊界,二者都無法保證預(yù)測的必然成功。為了提高人類認(rèn)識世界和改造世界的能力,經(jīng)濟(jì)學(xué)預(yù)測和大數(shù)據(jù)預(yù)測應(yīng)該達(dá)成互補(bǔ)。大數(shù)據(jù)時代的到來為經(jīng)濟(jì)學(xué)理論及其預(yù)測的發(fā)展帶來了新的機(jī)遇,而經(jīng)濟(jì)學(xué)理論也可以為完善大數(shù)據(jù)預(yù)測提供思想線索和實(shí)踐指導(dǎo)。
預(yù)測;大數(shù)據(jù);方法論
相較于其模仿對象物理學(xué),經(jīng)濟(jì)學(xué)在預(yù)測重要問題時的頻頻失準(zhǔn)確實(shí)令人感到尷尬。〔1〕對于2008年金融危機(jī),絕大多數(shù)經(jīng)濟(jì)學(xué)家都沒有提前發(fā)出預(yù)警;而對于中國經(jīng)濟(jì)進(jìn)入新常態(tài),經(jīng)濟(jì)學(xué)家們也只能給出事后解釋?;蚴切哂谧云仄涠?,經(jīng)濟(jì)學(xué)界近年來對“預(yù)測”失準(zhǔn)問題討論寥寥。消極的意見從經(jīng)驗(yàn)檢驗(yàn)的方法論地位的角度分析了經(jīng)濟(jì)學(xué)預(yù)測所面臨的困難和局限?!?〕積極的聲音把經(jīng)濟(jì)現(xiàn)象分為經(jīng)濟(jì)學(xué)可以解釋和難以解釋兩類,認(rèn)為對于前者,經(jīng)濟(jì)學(xué)具有充分的預(yù)測能力?!?〕還有經(jīng)濟(jì)學(xué)家叩其兩端而執(zhí)中,認(rèn)為經(jīng)濟(jì)學(xué)的預(yù)測有其自身的方法論基礎(chǔ),準(zhǔn)確的預(yù)測需要經(jīng)濟(jì)學(xué)家觀察約束條件變化的功力加上一些運(yùn)氣?!?〕
之所以人們對于經(jīng)濟(jì)學(xué)預(yù)測方法的熱情明顯下降,很大程度上是因?yàn)樗麄儽灰环N新的預(yù)測方法轉(zhuǎn)移了注意力。近年來,大數(shù)據(jù)預(yù)測逐漸進(jìn)入人們的視野,開始侵入經(jīng)濟(jì)學(xué)預(yù)測原本的專有屬地。很多大數(shù)據(jù)預(yù)測都與經(jīng)濟(jì)問題有關(guān),如對失業(yè)率、通貨膨脹率等宏觀指標(biāo)的預(yù)測和對股票價格等金融指標(biāo)的預(yù)測。當(dāng)前,大數(shù)據(jù)預(yù)測大有后來居上取代傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測的趨勢。在實(shí)踐領(lǐng)域,預(yù)測被認(rèn)作是體現(xiàn)大數(shù)據(jù)價值的重要方面。2016年3月發(fā)布的《十三五規(guī)劃綱要》提出要使用大數(shù)據(jù)技術(shù)“加強(qiáng)經(jīng)濟(jì)監(jiān)測預(yù)測預(yù)警”,從而完善經(jīng)濟(jì)政策的決策機(jī)制。于是,我們需要從理論上回答以下問題:什么是大數(shù)據(jù)預(yù)測?大數(shù)據(jù)預(yù)測與傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測有何種聯(lián)系與區(qū)別?大數(shù)據(jù)時代的到來有望超越傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測,改善對經(jīng)濟(jì)活動的預(yù)測能力嗎?
國外學(xué)者利用大數(shù)據(jù)進(jìn)行經(jīng)濟(jì)分析與預(yù)測的工作開展較早,目前已經(jīng)取得了相當(dāng)豐富的成果。從研究對象看,國外大數(shù)據(jù)研究主要關(guān)注失業(yè)、勞動力市場及房地產(chǎn)市場狀況等領(lǐng)域?!?〕國內(nèi)的大數(shù)據(jù)預(yù)測研究也在很多應(yīng)用領(lǐng)域取得了相當(dāng)明顯的進(jìn)展,如宏觀領(lǐng)域的經(jīng)濟(jì)增長(GDP)趨勢波動預(yù)測和通貨膨脹預(yù)測,以及微觀領(lǐng)域的金融資產(chǎn)定價和企業(yè)代理成本等。〔6〕當(dāng)進(jìn)行大數(shù)據(jù)預(yù)測時,互聯(lián)網(wǎng)通常是國內(nèi)外學(xué)者最重要的數(shù)據(jù)來源?!?〕
國內(nèi)外目前的大數(shù)據(jù)預(yù)測研究有一個共通的趨向,就是主要關(guān)注應(yīng)用而忽視了對大數(shù)據(jù)預(yù)測的理論問題,尤其是方法論問題的思考。少數(shù)理論性文獻(xiàn)或者是對于計量或統(tǒng)計技術(shù)的分析,〔8〕或者是對于已有成果的綜述性思考〔9〕。尤其是,當(dāng)前關(guān)于大數(shù)據(jù)預(yù)測的文獻(xiàn)忽視了其與傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測方法的比較,使得我們無法知曉兩種預(yù)測方法之間的關(guān)系是互補(bǔ)還是互替,是在同一研究綱領(lǐng)下的前后相繼還是意味著范式革命。這類問題如果不加以確認(rèn),那么大數(shù)據(jù)時代的經(jīng)濟(jì)預(yù)測就可能陷入方法論的混亂,故經(jīng)濟(jì)學(xué)工作者必須回應(yīng)其他領(lǐng)域?qū)W者對基于大數(shù)據(jù)的經(jīng)濟(jì)預(yù)測所提出的批評?!?0〕
綜上,將大數(shù)據(jù)預(yù)測與傳統(tǒng)經(jīng)濟(jì)學(xué)加以方法論視野的比較,起碼有三點(diǎn)意義:第一,澄清大數(shù)據(jù)預(yù)測的方法論基礎(chǔ)和其與傳統(tǒng)經(jīng)濟(jì)學(xué)預(yù)測在方法論上的關(guān)系,以避免理論上的混亂。第二,界定大數(shù)據(jù)預(yù)測在經(jīng)濟(jì)社會生活中的適用邊界,以便合理利用大數(shù)據(jù)預(yù)測。第三,在明確各自的方法論特質(zhì)和適用邊界的基礎(chǔ)上,可探尋大數(shù)據(jù)預(yù)測與經(jīng)濟(jì)學(xué)預(yù)測是否有互為助益的可能。
牛頓有一個方法論原則——“不臆造假說(hypotheses non fingo)”,〔11〕因?yàn)槿我鈶{空構(gòu)造的假說在實(shí)驗(yàn)哲學(xué)中是沒有位置的。牛頓的這一宣言是為了破除科學(xué)研究中的蒙昧:任何理論都必須通過實(shí)驗(yàn)證據(jù)加以檢驗(yàn),而不能只是停留在猜想性的假說階段。當(dāng)實(shí)驗(yàn)證據(jù)與理論假說不符時,后者必須被拋棄。
牛頓的方法論原則在20世紀(jì)被凝練為了哲學(xué)上的邏輯實(shí)證主義。按照這一哲學(xué)學(xué)派的觀點(diǎn),對假說性預(yù)測進(jìn)行檢驗(yàn)的目的在于克服學(xué)術(shù)研究中的形而上學(xué)。在同一種邏輯體系中,關(guān)于同一問題可能存在眾多的假說,它們各自在邏輯上都是自洽的。例如在經(jīng)濟(jì)學(xué)領(lǐng)域,經(jīng)濟(jì)學(xué)家的爭論多數(shù)時候并不是邏輯之爭,而是事實(shí)之爭。故“對經(jīng)濟(jì)政策的不同看法,主要產(chǎn)生于對所采取措施的經(jīng)濟(jì)結(jié)果的不同預(yù)測,這是一些可以由實(shí)證經(jīng)濟(jì)學(xué)的進(jìn)步而消除的分歧”?!?2〕因此,自然科學(xué)和社會科學(xué)都要求假說不僅是邏輯可能的,而且是經(jīng)驗(yàn)相符的,經(jīng)驗(yàn)相符的假說的集合只是邏輯可能的假說的集合的一個非常小的子集。
由于以上的哲學(xué)原因和眾多的科學(xué)史中的實(shí)踐成就,〔13〕預(yù)測力在科學(xué)哲學(xué)中幾乎是最重要的判斷科學(xué)理論的優(yōu)劣真?zhèn)蔚臉?biāo)準(zhǔn)。預(yù)測力不僅對于自然科學(xué),而且對于包括經(jīng)濟(jì)學(xué)在內(nèi)的社會科學(xué)來說也是必不可少的,因?yàn)槿鐩]有任何經(jīng)驗(yàn)可檢驗(yàn)性,那么就無法區(qū)分科學(xué)與形而上學(xué)。
1953年,弗里德曼發(fā)表了《實(shí)證經(jīng)濟(jì)學(xué)方法論》這篇可能是經(jīng)濟(jì)思想史上最重要的方法論論文。弗里德曼指出,“實(shí)證經(jīng)濟(jì)學(xué)的最終目的,是要發(fā)展出一種‘理論’或‘假說’,能對尚未觀察到的現(xiàn)象作出正確而有意義(即,不是老生常談的)預(yù)測”?!?4〕就是說,實(shí)證經(jīng)濟(jì)學(xué)的任務(wù)是“對環(huán)境變化所產(chǎn)生的后果作出正確的預(yù)測”?!?5〕弗里德曼把理論工作的目標(biāo)設(shè)定為給出正確的預(yù)測以有效地解決當(dāng)下的政策問題,而不是通過發(fā)展新的理論來追求“真理”(truth)。故弗里德曼樂于被稱為“工具主義者”(instrumentalist),〔16〕他“并不認(rèn)為假設(shè)或理論是真理的體系,它們只是用以產(chǎn)生有用的(因?yàn)槭浅晒Φ?語言的工具”〔17〕。
歸結(jié)起來,新古典經(jīng)濟(jì)學(xué)的以預(yù)測—檢驗(yàn)為核心的方法論框架如圖1所示。
圖1 經(jīng)濟(jì)學(xué)中的預(yù)測的產(chǎn)生和檢驗(yàn)
由圖1,經(jīng)濟(jì)學(xué)模型的構(gòu)建需要首先提出前提性假設(shè),典型的如“經(jīng)濟(jì)人”(homo economicus)假設(shè)。用拉卡托斯(Imre Lakatos)的科學(xué)研究綱領(lǐng)(Scientific Research Programmes)來解讀,這類假設(shè)條件是理論的“硬核”(hard core)。第二步是邏輯推導(dǎo),這實(shí)際上是邏輯或數(shù)學(xué)問題,本質(zhì)上屬于同義反復(fù)的結(jié)構(gòu),而“同義反復(fù)本身的有用性,說到底,還要依賴于實(shí)質(zhì)性假說的可接受性”?!?8〕于是,第三步就是提出“理論”或曰“假說”,但這種“假說”太具有一般性而難以進(jìn)行判決性檢驗(yàn)。故第四步是根據(jù)約束條件的變化作出具體的特殊性“預(yù)測”。
前四步都屬于模型化階段,約束條件(constraint)在其中扮演了重要的角色。新古典經(jīng)濟(jì)學(xué)的基礎(chǔ)模型就是在約束條件下追求目標(biāo)函數(shù)的最優(yōu)化。在模型的邏輯推導(dǎo)步驟中,約束條件屬于“初始條件”(initial conditions) 或者“輔助性假設(shè)”(auxiliary assumption)。如果說硬核假設(shè)可被歸類為一般性原則(大前提),那么約束條件就扮演了特殊化陳述(小前提)的角色,二者共同規(guī)定了作為演繹推理結(jié)論的假說。如果約束條件(如預(yù)算)在經(jīng)驗(yàn)上有所變化,則理論預(yù)測也會隨之調(diào)整,這是為什么理論可以被經(jīng)驗(yàn)所檢驗(yàn)的原因。
“作為一套實(shí)質(zhì)性假說,理論應(yīng)該用其對它旨在加以‘解釋’(explain)的那類現(xiàn)象的預(yù)測能力(predictive power)來檢驗(yàn)”,〔19〕故在做出預(yù)測后,任何科學(xué)理論都必須以相關(guān)的經(jīng)驗(yàn)事實(shí)(既可以是觀察和搜集的自然數(shù)據(jù),也可以是實(shí)驗(yàn)室數(shù)據(jù))來檢驗(yàn)預(yù)測。這是實(shí)證經(jīng)濟(jì)學(xué)方法論的第五個步驟。在對檢驗(yàn)原則的認(rèn)識上,弗里德曼與波普爾(Karl Popper)的證偽主義(falsificationism)一致。弗里德曼也表示“我深信那次交往(指1947年與波普爾)……的確對我產(chǎn)生了很大的影響”?!?0〕按照弗里德曼的波普爾式話語,“事實(shí)證據(jù)從來不能‘證明’(prove)一種假說,而只能是無法否定(disprove)它”——這就是所謂的“假說已經(jīng)被經(jīng)驗(yàn)所‘確證’(confirm)”〔21〕的含義。
經(jīng)驗(yàn)檢驗(yàn)的結(jié)果必然有兩類,一是預(yù)測被確證,二是預(yù)測被證偽。如果被確證,那么理論在出現(xiàn)更好的替代者之前可以被暫時接受。如果被證偽,則我們較多通過修改約束條件而極少通過調(diào)整前提假設(shè)來挽救理論。之所以如此,是因?yàn)樽鳛橛埠说那疤峒僭O(shè)是模型的基礎(chǔ),在科學(xué)研究綱領(lǐng)中要極力避免被質(zhì)疑(否則就會發(fā)生范式轉(zhuǎn)換);相反,約束條件被視為“保護(hù)帶”(protective belt),接受被證偽的檢驗(yàn)結(jié)果的責(zé)任通常被推諉到它的身上。
由圖1可知,經(jīng)濟(jì)學(xué)得出預(yù)測并加以檢驗(yàn)的程序遵循著嚴(yán)格的科學(xué)規(guī)范,其在方法論上與物理學(xué)并沒有本質(zhì)區(qū)別。那么問題來了,為什么經(jīng)濟(jì)學(xué)看似合理的研究方法會得出明顯與經(jīng)驗(yàn)事實(shí)不符的預(yù)測呢?對此問題的回答仍要追溯到經(jīng)濟(jì)學(xué)預(yù)測的方法論之上。
經(jīng)濟(jì)學(xué)的“預(yù)測”是來自于模型的邏輯演繹推導(dǎo)所得出的結(jié)論,故從方法論的角度說,“預(yù)測”(prediction)更適合被翻譯為“推測”?!邦A(yù)測”或曰“推測”是基于理論的,按照邏輯推理,如果某些特定的驗(yàn)證條件(test condition)為真,某些現(xiàn)象在邏輯上就必定會發(fā)生。但對于“預(yù)測”來說,除了不發(fā)生邏輯推導(dǎo)錯誤,結(jié)論準(zhǔn)確還要求約束條件的穩(wěn)定。一旦約束條件發(fā)生了變化,再高明的經(jīng)濟(jì)學(xué)家的預(yù)測也會失準(zhǔn)?!?2〕用科學(xué)哲學(xué)的語言可以表述為,當(dāng)“其他條件不變”(ceteris puribus)的前提不存在時,任何科學(xué)理論的預(yù)測都難免失敗。物理學(xué)可在實(shí)驗(yàn)室中保持環(huán)境的穩(wěn)定,而經(jīng)濟(jì)學(xué)在真實(shí)世界中卻無法避免外生沖擊造成的約束條件變化。用一個微觀經(jīng)濟(jì)學(xué)的例子來說,如果偏好不變,經(jīng)濟(jì)學(xué)可以通過彈性計算較為精確地預(yù)測某一消費(fèi)者的行為??梢坏┘s束條件的穩(wěn)定性被打破了,例如該消費(fèi)者某天中了500萬的彩票,則之前對此君的消費(fèi)行為的預(yù)測幾乎必然失準(zhǔn)。換用一個宏觀經(jīng)濟(jì)學(xué)的例子,幾乎所有經(jīng)濟(jì)學(xué)家在2007年時對下一年度的中國經(jīng)濟(jì)都持樂觀預(yù)期,但這一預(yù)測的約束條件是美國不爆發(fā)金融危機(jī),于是經(jīng)濟(jì)學(xué)家們再一次在經(jīng)濟(jì)危機(jī)中成為了被揶揄的對象??蓢@的是,經(jīng)濟(jì)學(xué)預(yù)測的成功之處大多是如日常消費(fèi)這種家長里短,難免會被看淡;而容易預(yù)測失敗的案例卻都是經(jīng)濟(jì)危機(jī)這類在短期對所有人都有重大負(fù)面影響的顯著性事件。成敗相較,自然是預(yù)測失準(zhǔn)讓人印象更深。當(dāng)然,經(jīng)濟(jì)學(xué)家自身在方法論上的不夠謙遜也難辭其咎。包括弗里德曼在內(nèi)的很多新古典經(jīng)濟(jì)學(xué)家,將預(yù)測的精確性(precision)作為經(jīng)濟(jì)理論性能的判斷依據(jù)和對經(jīng)濟(jì)理論進(jìn)行選擇的外部標(biāo)準(zhǔn)?!?3〕這種自設(shè)陷阱的行為恰是哈耶克所批評的“知識的僭越”(pretence of knowledge),其后果就是由于精確預(yù)測的邏輯不可能性導(dǎo)致了經(jīng)濟(jì)學(xué)預(yù)測受到了無休止的批評,而經(jīng)濟(jì)學(xué)家的自我辯護(hù)又大多不著邊際。
預(yù)測被大數(shù)據(jù)專家們視為大數(shù)據(jù)的核心?!?4〕不同于物理學(xué)預(yù)測、經(jīng)濟(jì)學(xué)預(yù)測等以學(xué)科為名的預(yù)測,大數(shù)據(jù)預(yù)測以“數(shù)據(jù)”為標(biāo)志。這意味著一個重大的方法論轉(zhuǎn)向——讓數(shù)據(jù)自己說話而非數(shù)據(jù)為理論服務(wù)。因此,大數(shù)據(jù)預(yù)測的方法論在更大程度上受到其所用的數(shù)據(jù)的時效性、統(tǒng)計特征和來源〔25〕的影響:
首先,在數(shù)據(jù)時效性上具有“現(xiàn)時預(yù)測”(nowcasting)的特點(diǎn)。所謂“現(xiàn)時預(yù)測”實(shí)際上就是利用大數(shù)據(jù)技術(shù)對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行及時的監(jiān)測、歸集和整理,在極限上縮小可用于預(yù)測的信息和需要被預(yù)測的內(nèi)容之間的時間差。傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測所使用的是常規(guī)統(tǒng)計或調(diào)查數(shù)據(jù),由于此類數(shù)據(jù)具有滯后性,故經(jīng)濟(jì)學(xué)預(yù)測在為政策調(diào)整提供依據(jù)的及時性上不及大數(shù)據(jù)預(yù)測。
其次,在數(shù)據(jù)的統(tǒng)計特征上屬于“全數(shù)據(jù)”(all data)。大數(shù)據(jù)預(yù)測中可使用的數(shù)據(jù)集是所謂的“全數(shù)據(jù)”,即與研究問題相關(guān)的總體樣本數(shù)據(jù)(如全體的互聯(lián)網(wǎng)搜索行為數(shù)據(jù))而非小樣本數(shù)據(jù)。經(jīng)濟(jì)學(xué)領(lǐng)域傳統(tǒng)的統(tǒng)計智慧要求采用隨機(jī)抽樣的數(shù)據(jù),欲從有限的數(shù)據(jù)集中獲得最多的信息?,F(xiàn)有技術(shù)支持大數(shù)據(jù)預(yù)測放棄這種走捷徑的方式,直接利用“全數(shù)據(jù)”來避免抽樣過程中的信息損失。
再次,在數(shù)據(jù)來源上更為豐富。傳統(tǒng)的經(jīng)濟(jì)學(xué)預(yù)測使用的基本上是宏觀的政府統(tǒng)計數(shù)據(jù)或微觀的調(diào)查數(shù)據(jù),大數(shù)據(jù)預(yù)測則利用了很多之前未被使用過的數(shù)據(jù)資源。例如,數(shù)據(jù)采集技術(shù)的進(jìn)步使得我們可以使用Google或Baidu的互聯(lián)網(wǎng)搜索行為、Twitter的“推文”(Tweet)內(nèi)容、微博的文本信息等新型數(shù)據(jù)。此類數(shù)據(jù)都屬于非結(jié)構(gòu)化數(shù)據(jù),在傳統(tǒng)上是無法使用的,但大數(shù)據(jù)技術(shù)的進(jìn)步可將它們都轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。這些新型數(shù)據(jù)雖然不如傳統(tǒng)數(shù)據(jù)精確,但卻是大數(shù)據(jù)預(yù)測最重要的資源。
那么,大數(shù)據(jù)預(yù)測在數(shù)據(jù)品質(zhì)上的“優(yōu)勢”是否可轉(zhuǎn)化為實(shí)踐領(lǐng)域更好的預(yù)測力呢?目前對此問題的回答仍是模糊的。大數(shù)據(jù)預(yù)測近年來有很多具體的成功案例,但是失敗之作也為數(shù)不少。為了理解大數(shù)據(jù)預(yù)測的方法論機(jī)理,我們采取“解剖麻雀”的辦法,以大數(shù)據(jù)預(yù)測的典型代表Google流感趨勢為例加以分析?!?6〕Google流感趨勢是Google公司在2008年推出的一款產(chǎn)品。在使用之初,該系統(tǒng)成功預(yù)測了甲型H1N1流感病毒在美國的傳播趨勢。但從2011年開始,該系統(tǒng)的預(yù)測開始失準(zhǔn),其給出的發(fā)病率是實(shí)際發(fā)病率的二倍。Google流感趨勢的預(yù)測原理并不復(fù)雜:第一步,Google搜索引擎統(tǒng)計了從2003年到2008年的5000萬個關(guān)于流感的查詢的時間序列數(shù)據(jù)。第二步,用一個線性回歸模型計算醫(yī)生實(shí)際接診流感患者的歷史數(shù)據(jù)(此數(shù)據(jù)來自美國疾病控制與預(yù)防中心)和當(dāng)期的流感查詢之間的對數(shù)發(fā)生機(jī)率(此步驟同時從大數(shù)據(jù)中篩選出對線性模型擬合程度最高的搜索關(guān)鍵詞)。第三步,收集和整理各地近期使用Google搜索引擎查詢了與流感有關(guān)的關(guān)鍵詞的數(shù)據(jù)。第四步,根據(jù)用線性回歸方程計算出的對數(shù)機(jī)率來預(yù)測流感傳播情況。
不管Google使用何種關(guān)鍵詞篩選規(guī)則和預(yù)測算法,我們從科學(xué)哲學(xué)的角度都可以給出一個直觀的判斷:大數(shù)據(jù)預(yù)測基于的是典型的歸納法——根據(jù)過去經(jīng)驗(yàn)總結(jié)出一般規(guī)律,再將其延伸到樣本外預(yù)測。Google流感趨勢預(yù)測失準(zhǔn)的原因也不難理解,當(dāng)流感大爆發(fā)時,人們使用Google搜索引擎查詢流感的頻率會大為提高,但很多查詢者是出于對此的新聞性關(guān)心,而不是因?yàn)閼岩勺约赫娴牡昧肆鞲?;同時,流感大爆發(fā)會造成恐慌,很多不大可能染上流感者可能會庸人自擾地反復(fù)查詢,這也將增加大數(shù)據(jù)中的信息噪音。于是,當(dāng)大趨勢發(fā)生了變化時,讓歷史告訴明天自然就行不通了。上述大數(shù)據(jù)預(yù)測的方法論程序見圖2。
圖2 大數(shù)據(jù)預(yù)測的程序
由圖2可知,大數(shù)據(jù)預(yù)測的關(guān)鍵技術(shù)節(jié)點(diǎn)包括:確定關(guān)鍵詞;得出相關(guān)系數(shù);做出并檢驗(yàn)預(yù)測。關(guān)鍵詞的初選是一項主觀性較強(qiáng)的工作,目前并沒有可操作的客觀選擇標(biāo)準(zhǔn),但可以通過計算不同關(guān)鍵詞與預(yù)測目標(biāo)的相關(guān)系數(shù)對初選的關(guān)鍵詞集合進(jìn)行考察,為最終確定關(guān)鍵詞提供依據(jù)。得出相關(guān)系數(shù)純粹是一個數(shù)學(xué)計算過程,相關(guān)系數(shù)依賴于大數(shù)據(jù)專家們外生設(shè)定的大數(shù)據(jù)預(yù)測方程(目前較為流行線性回歸方程)的計算結(jié)果。對預(yù)測進(jìn)行經(jīng)驗(yàn)檢驗(yàn)是必要的,但檢驗(yàn)的目的并不是判斷理論的正誤(大數(shù)據(jù)預(yù)測排斥理論),而是為了改善預(yù)測效果。對比圖1與圖2,我們可得出經(jīng)濟(jì)學(xué)預(yù)測與大數(shù)據(jù)預(yù)測在方法論上的根本區(qū)別(見表1)。
表1 經(jīng)濟(jì)學(xué)預(yù)測與大數(shù)據(jù)預(yù)測的方法論比較
第一,經(jīng)濟(jì)學(xué)預(yù)測以經(jīng)濟(jì)學(xué)理論為構(gòu)建模型的基礎(chǔ),大數(shù)據(jù)預(yù)測則沒有依賴任何理論基礎(chǔ)。第二,從建立模型的方式上看,二者有迥異的取向,經(jīng)濟(jì)學(xué)預(yù)測遵循演繹法,大數(shù)據(jù)預(yù)測則服膺歸納法。經(jīng)濟(jì)學(xué)家所熟悉的傳統(tǒng)統(tǒng)計思路是“假說—檢驗(yàn)”(hypothesis-test),大數(shù)據(jù)的統(tǒng)計思路則是“發(fā)現(xiàn)—總結(jié)”?!?7〕第三,經(jīng)濟(jì)學(xué)理論將模型與對現(xiàn)實(shí)的預(yù)測建立起聯(lián)系(即溝通理論與經(jīng)驗(yàn))的渠道是確立約束條件,此約束條件要求貼近真實(shí)情況(如預(yù)算約束要真實(shí)反映企業(yè)的成本水平或消費(fèi)者的收入水平);大數(shù)據(jù)系統(tǒng)的聯(lián)系方式則是用回歸方程計算大數(shù)據(jù)信息與常規(guī)統(tǒng)計信息之間的相關(guān)系數(shù)。第四,經(jīng)濟(jì)學(xué)預(yù)測所基于的理論中含有核心前提假設(shè),〔28〕大數(shù)據(jù)預(yù)測不以任何理論假設(shè)為前提。第五,經(jīng)濟(jì)學(xué)預(yù)測是關(guān)于變量之間的因果性的預(yù)測,大數(shù)據(jù)預(yù)測則不關(guān)注因果問題,而只關(guān)注相關(guān)性。第六,唯一的共同之處可能是兩類預(yù)測都尋求進(jìn)行經(jīng)驗(yàn)檢驗(yàn),但經(jīng)濟(jì)學(xué)預(yù)測的檢驗(yàn)是為了在理論的正誤之間劃界,而大數(shù)據(jù)預(yù)測的檢驗(yàn)主要是為修正預(yù)測系統(tǒng)提供參考依據(jù)。綜上所述,經(jīng)濟(jì)學(xué)預(yù)測有比較溫和的工具主義傾向,而大數(shù)據(jù)預(yù)測的工具主義傾向則更為極端,干脆不需要理論基礎(chǔ)也不去深究因果問題。
公平地說,傳統(tǒng)經(jīng)濟(jì)學(xué)預(yù)測的準(zhǔn)確性并沒有人們印象中的那么差,大數(shù)據(jù)預(yù)測的效果也沒有人們希望的那樣好。通過方法論的梳理,我們可以較為清晰地辨析大數(shù)據(jù)預(yù)測的缺陷是什么,以及大數(shù)據(jù)預(yù)測的邊界在哪里?!?9〕
首先,大數(shù)據(jù)預(yù)測所基于的歸納邏輯本身存在缺陷。大數(shù)據(jù)預(yù)測的關(guān)鍵步驟是要運(yùn)用過往的數(shù)據(jù)計算變量之間的相關(guān)系數(shù)。從科學(xué)哲學(xué)的角度看,相關(guān)系數(shù)的計算基于的是典型的歸納邏輯(從大量的特殊到一般),從而必然無法避免所謂的“歸納問題”。
按照科學(xué)哲學(xué)的常識,邏輯只能傳遞已知的真理而無法創(chuàng)造新的真理(或者說邏輯無法證明陳述的真實(shí)性),所以當(dāng)我們試圖從單稱命題(特殊陳述)獲致所需的普遍命題(一般陳述)時,歸納法時刻面臨著“黑天鵝”事件的威脅——一旦出現(xiàn)一個反例,整個一般陳述就會瞬間崩潰?!?0〕換句話說,歸納法只有在搜集了所有的特殊性案例后,才能保證(通過大數(shù)據(jù)預(yù)測所得出的)一般陳述的真實(shí)性。而即使有再強(qiáng)的大數(shù)據(jù)搜集技術(shù),窮盡特殊性案例在實(shí)踐上也接近幻想,因?yàn)槲ㄒ徊蛔兊木褪亲兓旧?。只要?dú)v史沒有終結(jié),新生事物就會不斷出現(xiàn),就永遠(yuǎn)不會有真正意義上的全樣本數(shù)據(jù)。故可歸納之?dāng)?shù)據(jù)也有涯,而需探求之真理也無涯,以有涯隨無涯,殆已。例如,Google翻譯基于的原理也是文本的大數(shù)據(jù),其在翻譯日常用語時一般較為準(zhǔn)確,但在翻譯特定學(xué)科領(lǐng)域的文獻(xiàn)時卻往往令人啼笑皆非。這源于特定的專業(yè)領(lǐng)域的專有名詞就相當(dāng)于日常語言環(huán)境中的“黑天鵝”。類似的,大數(shù)據(jù)模型在面對2008年金融危機(jī)這種非常規(guī)經(jīng)濟(jì)事件時會給出過度樂觀的常規(guī)經(jīng)濟(jì)預(yù)測〔31〕。這說明,與傳統(tǒng)經(jīng)濟(jì)學(xué)預(yù)測面對外生沖擊時的束手無策一樣,基于大數(shù)據(jù)的經(jīng)濟(jì)預(yù)測也無法有效地應(yīng)對外部環(huán)境的變化。所以,在反對歸納法的哲學(xué)家看來,大數(shù)據(jù)預(yù)測無疑是在科學(xué)哲學(xué)史上曾屢遭批判的歸納法的再次還魂,但模型在邏輯上的限制決定了其只能獲得有限的成功,尤其是無法預(yù)測“轉(zhuǎn)折點(diǎn)”(turning point)。
其次,即使大數(shù)據(jù)預(yù)測基于的是“全數(shù)據(jù)”,也需要克服數(shù)據(jù)的誤差。數(shù)據(jù)誤差的解決思路包括兩種:一是抽樣(sampling),以解決大數(shù)據(jù)的代表性問題;二是去噪,以解決大數(shù)據(jù)中的噪音問題。實(shí)際上,抽樣與去噪都是為了降低數(shù)據(jù)誤差——科學(xué)合理的抽樣可以控制“抽樣誤差”,而去噪則針對“非抽樣誤差”。
先分析大數(shù)據(jù)的抽樣,從抽樣的基本訴求上看,大數(shù)據(jù)樣本與傳統(tǒng)的小數(shù)據(jù)樣本所要面對的問題是同質(zhì)的——大數(shù)據(jù)本身并沒有避免樣本選擇的偏差。大數(shù)據(jù)的來源,Google搜索行為數(shù)據(jù)、Twitter數(shù)據(jù)、Facebook數(shù)據(jù)都只是自我選擇的數(shù)據(jù)(只包括經(jīng)常上網(wǎng)和使用智能手機(jī)的人,甚至需是樂于使用Google而不是Baidu的人),并不具有同隨機(jī)抽樣所獲得的小樣本一樣的代表性。這類似于去醫(yī)院就診的肯定是存在有效需求的患者(看得起病且相信醫(yī)院),而非所有的患者。再來分析去除大數(shù)據(jù)中的噪音,即并非由于樣本缺乏代表性而造成的數(shù)據(jù)誤差。在大數(shù)據(jù)時代,數(shù)據(jù)總量以幾何級數(shù)增長,但增加的并不都是有用數(shù)據(jù)——噪音要比有用數(shù)據(jù)增長得快(例如,網(wǎng)絡(luò)水軍的“刷單”“刷好評”和“灌票”就會造成數(shù)據(jù)噪音)。所以,數(shù)據(jù)量大并不一定有效信息多,噪音會起到破壞作用,使計量方程產(chǎn)生錯誤的擬合。如果說小數(shù)據(jù)時代要做加法,以搜集有效數(shù)據(jù)做為開展工作的前提;那么,大數(shù)據(jù)時代則要做減法,以去除噪音即提高數(shù)據(jù)質(zhì)量為第一要務(wù)。換句話說,大數(shù)據(jù)不等于會自動產(chǎn)生好的分析結(jié)果,如果不對數(shù)據(jù)進(jìn)行合理的篩選,照樣是“垃圾進(jìn),垃圾出”(garbage in,garbage out)。
再次,大數(shù)據(jù)預(yù)測在技術(shù)上并非純粹從數(shù)據(jù)出發(fā),而是含有一定的先驗(yàn)主觀性。大數(shù)據(jù)分析主張讓數(shù)據(jù)自己發(fā)聲,但大數(shù)據(jù)預(yù)測的程序中的兩個關(guān)鍵節(jié)點(diǎn)——確定關(guān)鍵詞和計算相關(guān)性——都具有很強(qiáng)的主觀性。于是,大數(shù)據(jù)預(yù)測不僅要克服數(shù)據(jù)誤差或曰數(shù)據(jù)的不確定性,也需要解決模型設(shè)定的不確定性。
先看關(guān)鍵詞,確定關(guān)鍵詞是建立大數(shù)據(jù)和預(yù)測目標(biāo)之間聯(lián)系的先決步驟,但關(guān)鍵詞的選擇很大程度上依賴于專家的經(jīng)驗(yàn)和判斷,大體上可以視為是一個不斷試錯的人為過程。如果關(guān)鍵詞選擇不當(dāng),會產(chǎn)生大量數(shù)據(jù)噪音。例如,當(dāng)我們?yōu)榱丝疾靽夤善笔袌龅那闆r而搜索“Bull”和“Bear”兩個單詞時,Google將會給我們反饋大量的兩種動物的信息。〔32〕再看算法,在進(jìn)行大數(shù)據(jù)預(yù)測時,大數(shù)據(jù)專家們設(shè)計的算法內(nèi)含有非常強(qiáng)的假設(shè)性的數(shù)學(xué)屬性(典型的就是假設(shè)變量間存在線性關(guān)系),其并不能反映真實(shí)的微觀過程,尤其是不能反映在社會活動網(wǎng)絡(luò)化背景下新興事物的大量“涌現(xiàn)”(emergency)?!?3〕既然在關(guān)鍵詞和算法兩個環(huán)節(jié)都具有經(jīng)驗(yàn)數(shù)據(jù)之外的先驗(yàn)屬性,我們就需要質(zhì)疑某些大數(shù)據(jù)專家提出的可以不要理論的觀點(diǎn)——關(guān)鍵詞和算法模型的選擇就是未來需要解決的重大理論問題。
最后,不關(guān)注因果關(guān)系是一柄雙刃劍。不考慮因果性意味著大數(shù)據(jù)的應(yīng)用可以不受理論的先驗(yàn)限制,但同時也降低了大數(shù)據(jù)模型的預(yù)測可靠性和實(shí)踐可行性。
擁抱相關(guān)性,拒絕因果性的好處是系統(tǒng)設(shè)計者有充分的自由度,模型設(shè)定不受限制。由于大數(shù)據(jù)預(yù)測來源于數(shù)據(jù)本身,在某種意義上可以視為是數(shù)據(jù)間自發(fā)交互作用的副產(chǎn)品,而非理論推導(dǎo)的必然結(jié)果。又由于沒有理論基礎(chǔ),大數(shù)據(jù)預(yù)測并不考慮事件發(fā)生背后的因果性,而是直接通過設(shè)定的算法來發(fā)現(xiàn)不同類型數(shù)據(jù)間的相關(guān)性,進(jìn)而給出預(yù)測。故而,大數(shù)據(jù)預(yù)測更像是所謂的“預(yù)言”(forecasting)?!?4〕從哲學(xué)視角說,自我設(shè)限于相關(guān)性而有意忽視因果性,幾乎可以視為是一種迷信式的而非科學(xué)化的思維。原始迷信的形成就是先偶然發(fā)現(xiàn)自然界中的相關(guān)性,再編造出一套因果解釋(如天狗吃月亮)。但這種天然的相關(guān)性在預(yù)測上是不可靠的,就算薩滿巫師跳大神的儀式與患者的病情緩解確實(shí)在概率上顯著正相關(guān),但由于二者之間不存在邏輯上必然的因果性,儀式對病情的影響實(shí)際上是不可預(yù)測的。并且,大數(shù)據(jù)預(yù)測畢竟也需要經(jīng)世濟(jì)用,而在很多生產(chǎn)生活領(lǐng)域,僅僅了解相關(guān)性是無法指導(dǎo)實(shí)踐的。比如說,在炎熱的夏天,冰淇淋的銷售量和海邊溺水身亡者的數(shù)量是顯著正相關(guān)的,但這種相關(guān)性對我們來說能有什么指導(dǎo)意義?難道說要禁售冰淇淋?相關(guān)性只是因果性的前提,為了解決實(shí)際問題,我們還是需要在理論上分析事物之間的因果性,否則當(dāng)我們面對宏觀經(jīng)濟(jì)波動和微觀市場失靈時,我們該如何在各種相關(guān)性之間進(jìn)行抉擇并采取有效行動呢?
綜上所述,如果不對大數(shù)據(jù)及其預(yù)測的局限性保持足夠的警惕,大數(shù)據(jù)并非沒有可能淪落為“蠢數(shù)據(jù)”(pig data)。從方法論的角度說,由于大數(shù)據(jù)預(yù)測基于的是歸納法,所以其預(yù)測的成功極度地依賴于未來情境與過往情境之間的相似性(保證相關(guān)系數(shù)基本不變)。不同于經(jīng)濟(jì)學(xué)預(yù)測起碼在理論上可以根據(jù)當(dāng)前的約束條件的變化調(diào)整預(yù)測,大數(shù)據(jù)預(yù)測的方法決定了大數(shù)據(jù)系統(tǒng)無法根據(jù)外部環(huán)境的變化而符合邏輯地自動調(diào)整預(yù)測,只能在預(yù)測失敗后對系統(tǒng)設(shè)計進(jìn)行人工的事后調(diào)整。大數(shù)據(jù)預(yù)測所要克服的缺陷在于數(shù)據(jù)質(zhì)量存疑,且對于關(guān)鍵詞和算法的設(shè)定的主觀性都太強(qiáng)。而大數(shù)據(jù)預(yù)測在功能上的邊界其實(shí)就是相關(guān)性分析的功能的界限——僅僅知道相關(guān)性無法滿足人類認(rèn)識世界和改造世界的愿望,故不要理論的相關(guān)性不可能取代基于理論的因果性。
2012年諾貝爾經(jīng)濟(jì)學(xué)獎獲得者羅斯(Alvin Roth)把經(jīng)濟(jì)學(xué)預(yù)測及其檢驗(yàn)分為三類:一是“與理論經(jīng)濟(jì)學(xué)家對話”(Speaking to Theorists),即檢驗(yàn)經(jīng)濟(jì)學(xué)家已經(jīng)充分闡釋過的經(jīng)濟(jì)理論的預(yù)測,這類工作是典型的理論驅(qū)動。二是“尋找事實(shí)”(Searching for Facts),這涉及檢驗(yàn)方法的設(shè)計,以便把已發(fā)現(xiàn)的規(guī)律性事實(shí)中的因果關(guān)系更準(zhǔn)確地抽離出來,此類工作通常并不源于理論,而是被異常現(xiàn)象所激發(fā)?!皩ふ沂聦?shí)”的成功將使得構(gòu)建關(guān)于行為規(guī)律的新理論成為可能,從而升華為“尋找意義”(Searching for Meaning)。三是“在王子耳邊低語”(Whispering in the Ears of Princes),即通過對政策制定者所關(guān)心的主題加以實(shí)證考察,實(shí)現(xiàn)學(xué)界與政界的直接對話,此類工作通常含有直接或間接的政策目的。〔35〕對預(yù)測的前兩類經(jīng)驗(yàn)檢驗(yàn)與經(jīng)濟(jì)學(xué)的理論工作聯(lián)系緊密,而第三類檢驗(yàn)則更接近政策科學(xué)或者說是“經(jīng)濟(jì)學(xué)藝術(shù)”(art of economics)。〔36〕
按照上述分類,經(jīng)濟(jì)學(xué)預(yù)測及其檢驗(yàn)兼有理論工作的成分和政策應(yīng)用的追求,而大數(shù)據(jù)預(yù)測則幾乎完全專注于政策應(yīng)用領(lǐng)域,故后者的工具主義色彩要比前者濃厚得多。關(guān)注點(diǎn)的區(qū)別是由大數(shù)據(jù)預(yù)測和經(jīng)濟(jì)學(xué)預(yù)測的不同方法論取向所決定的。根據(jù)表1可知,二者最本質(zhì)的方法論差異在于,經(jīng)濟(jì)學(xué)預(yù)測以經(jīng)濟(jì)學(xué)理論為基礎(chǔ),而大數(shù)據(jù)預(yù)測在方法上主張從數(shù)據(jù)本身出發(fā)。這一本質(zhì)性方法論差異衍生出了二者在建模方式、溝通理論與經(jīng)驗(yàn)的渠道、前提假設(shè)、因果性還是相關(guān)性、經(jīng)驗(yàn)檢驗(yàn)的功能定位等方面的一系列區(qū)隔。
雖然說經(jīng)濟(jì)學(xué)預(yù)測和大數(shù)據(jù)預(yù)測有著截然不同的方法論思路,且從預(yù)測效果上看二者也都是成敗參半。但無論是基于經(jīng)濟(jì)學(xué)理論還是使用大數(shù)據(jù)方法所做的經(jīng)濟(jì)預(yù)測,在政策領(lǐng)域都有重要的功用,因?yàn)榻?jīng)濟(jì)學(xué)的實(shí)證科學(xué)水平的提升——最關(guān)鍵的是預(yù)測與經(jīng)驗(yàn)的一致性的提高——要同時依靠理論上的進(jìn)步和經(jīng)驗(yàn)數(shù)據(jù)資源的豐富。所以說,在預(yù)測科學(xué)進(jìn)步的過程中,雖然經(jīng)濟(jì)學(xué)預(yù)測和大數(shù)據(jù)預(yù)測基于的是兩套完全不同的方法論進(jìn)路,但兩類預(yù)測之間并不是互替關(guān)系,反而可以彼此互補(bǔ)。我們對此種互補(bǔ)的前景有如下展望:
一方面,經(jīng)濟(jì)學(xué)方法和技術(shù)可以改善大數(shù)據(jù)預(yù)測。
其一,在大數(shù)據(jù)預(yù)測模型中,實(shí)際上也有某些先驗(yàn)主觀的建構(gòu)。經(jīng)濟(jì)學(xué)理論在決定這些帶有主觀性質(zhì)的內(nèi)容時會起到指導(dǎo)作用,如為初步選擇關(guān)鍵詞和初步設(shè)定算法提供理論線索。人類是有文化傳承和知識積累的高等動物,我們在認(rèn)識世界時總是戴著一副理論的眼鏡。同理,無論是關(guān)鍵詞還是算法的選擇,都會受到研究者的理論上的先驗(yàn)之見的影響。那種認(rèn)為完全可以讓數(shù)據(jù)自己發(fā)聲,不需要任何理論的觀點(diǎn),或許可視之為大數(shù)據(jù)迷信了。
其二,大數(shù)據(jù)仍然需要被篩選,否則總體數(shù)據(jù)樣本中就會存在有偏差的信息(數(shù)據(jù)抽樣問題)和錯誤的信息(數(shù)據(jù)噪音問題)。大數(shù)據(jù)本身不能自動解決數(shù)據(jù)質(zhì)量問題,反而可能令此問題更為嚴(yán)重。因此,大數(shù)據(jù)預(yù)測應(yīng)該借鑒在經(jīng)濟(jì)學(xué)中已經(jīng)很成熟的小樣本數(shù)據(jù)質(zhì)量控制方法,從而減少因數(shù)據(jù)偏差所引起的預(yù)測錯誤。一個或許可行的思路是,將官方統(tǒng)計或?qū)W界調(diào)查所得出的傳統(tǒng)數(shù)據(jù)作為基準(zhǔn)參照系來對大數(shù)據(jù)進(jìn)行糾偏,以(主要來自網(wǎng)絡(luò)的)大數(shù)據(jù)作為可實(shí)時更新傳統(tǒng)數(shù)據(jù)的補(bǔ)充資源。若如此,就不僅是大數(shù)據(jù)影響了經(jīng)濟(jì)學(xué)的經(jīng)驗(yàn)研究,且是經(jīng)濟(jì)學(xué)傳統(tǒng)的經(jīng)驗(yàn)研究方法會對大數(shù)據(jù)產(chǎn)生重要的反作用。
其三,為了解決經(jīng)濟(jì)問題,大數(shù)據(jù)預(yù)測不能僅僅滿足于相關(guān)性而完全放棄因果性,而因果性正是經(jīng)濟(jì)學(xué)理論所要探究的。大數(shù)據(jù)預(yù)測已經(jīng)證明了網(wǎng)絡(luò)搜索中的負(fù)面關(guān)鍵詞的出現(xiàn)頻率與接下來的股市下跌有相關(guān)性,但僅知道這一相關(guān)性能夠帶給我們何種政策啟示呢?難道要封掉發(fā)表悲觀言論者的IP?為了掌握股民情緒,防止心理恐慌所導(dǎo)致的股價下跌,繼續(xù)深究是何種原因影響了股民的預(yù)期才是要務(wù),這是理論所關(guān)注的因果性問題?;蛟S可以說,經(jīng)濟(jì)學(xué)理論能夠幫助大數(shù)據(jù)預(yù)測找到真正有分析價值的問題且提供合理的解釋。實(shí)際上,相當(dāng)多的大數(shù)據(jù)研究者已經(jīng)認(rèn)識到了因果分析的重要性,并開始在大數(shù)據(jù)研究中引入經(jīng)濟(jì)學(xué)理論,從而在理論層面糾正模型設(shè)計的偏差。尤其是對于混合了常規(guī)統(tǒng)計指標(biāo)的大數(shù)據(jù)預(yù)測模型來說,經(jīng)濟(jì)學(xué)理論更有可能起到顯著的指導(dǎo)作用。
另一方面,大數(shù)據(jù)方法和技術(shù)也有助于改善經(jīng)濟(jì)學(xué)理論及其預(yù)測。
其一,大數(shù)據(jù)為確認(rèn)經(jīng)濟(jì)學(xué)模型中的約束條件提供支持。當(dāng)模型的預(yù)測被證偽時,多數(shù)經(jīng)濟(jì)學(xué)家所采取的常規(guī)應(yīng)對方式是重新確認(rèn)模型中的“約束條件”。無論是弗里德曼還是其批評者,都認(rèn)為經(jīng)濟(jì)學(xué)模型中的約束條件應(yīng)該貼近真實(shí)世界?!?7〕弗里德曼的老師暨芝加哥學(xué)派的創(chuàng)始人奈特(Frank Knight)就批評理論家們往往忽略了真實(shí)的經(jīng)濟(jì)制度的影響,從而在認(rèn)識約束條件時會遺漏某些重要的經(jīng)濟(jì)社會因素?!?8〕所以,約束條件的真實(shí)性是加強(qiáng)經(jīng)濟(jì)學(xué)模型的預(yù)測能力的關(guān)鍵一環(huán)。大數(shù)據(jù)技術(shù)不僅能夠?yàn)榻?jīng)濟(jì)學(xué)家提供傳統(tǒng)的物質(zhì)性約束條件信息,如預(yù)算水平等;還可以為研究者提供新型的非物質(zhì)性約束條件的信息,如個人消費(fèi)習(xí)慣、周圍人群的消費(fèi)水平、成癮偏好、性格特征、健康狀況等等。大數(shù)據(jù)技術(shù)所廣泛搜集的多類型數(shù)據(jù),顯然會為經(jīng)濟(jì)學(xué)家認(rèn)識真實(shí)世界提供未曾有過的機(jī)會。
其二,大數(shù)據(jù)為完善經(jīng)濟(jì)學(xué)的理論提供了新的可能。完善經(jīng)濟(jì)學(xué)理論有兩種路徑,一是在原有的理論框架下對研究的內(nèi)容加以豐富和深化,二是對研究綱領(lǐng)的“保護(hù)帶”甚至是“硬核”加以改造。在實(shí)際研究工作中,這兩種路徑的努力往往是結(jié)合在一起的。比如說作為新興學(xué)科的實(shí)驗(yàn)經(jīng)濟(jì)學(xué),其即為新古典經(jīng)濟(jì)學(xué)理論提供了新的經(jīng)驗(yàn)檢驗(yàn)工具,也對傳統(tǒng)理論的“保護(hù)帶”乃至于“硬核”(經(jīng)濟(jì)人假設(shè))提出了挑戰(zhàn)。大數(shù)據(jù)時代的到來意味著,我們可以將大數(shù)據(jù)平臺和實(shí)驗(yàn)經(jīng)濟(jì)學(xué)的方法相結(jié)合,這種大數(shù)據(jù)實(shí)驗(yàn)?zāi)軌蛟诶碚摰膬?nèi)部有效性(通過實(shí)驗(yàn)的可控性實(shí)現(xiàn))和外部有效性(通過作為大數(shù)據(jù)來源的真實(shí)環(huán)境實(shí)現(xiàn))之間實(shí)現(xiàn)平衡,且所獲得的數(shù)據(jù)不僅在規(guī)模上更大,更重要的是能獲得按照傳統(tǒng)方法無法實(shí)證化的信息。例如在傳統(tǒng)上,我們只能知道在市場均衡狀態(tài)下消費(fèi)者的實(shí)際支付價格,而無法掌握他們愿意支付的最高價格,故消費(fèi)者剩余是無法計算的。然而,Cohen et al.利用Uber平臺的大數(shù)據(jù)得到了完整的需求曲線,進(jìn)而估算出了網(wǎng)約車服務(wù)所創(chuàng)造的消費(fèi)者剩余?!?9〕并且,考慮到大數(shù)據(jù)實(shí)驗(yàn)的平臺的真實(shí)性和規(guī)模化,在此類實(shí)驗(yàn)中發(fā)現(xiàn)的人類行為的“異象”(anomality)更具有統(tǒng)計意義上和經(jīng)濟(jì)意義上的顯著性,從而可以為經(jīng)濟(jì)學(xué)家挑戰(zhàn)傳統(tǒng)理論“硬核”并構(gòu)建基于人類真實(shí)主體行為的模型提供特征事實(shí)(stylized facts)。
其三,大數(shù)據(jù)可以幫助經(jīng)濟(jì)學(xué)家們提高經(jīng)濟(jì)學(xué)理論的預(yù)測質(zhì)量。通過大數(shù)據(jù)提高經(jīng)濟(jì)學(xué)理論的預(yù)測質(zhì)量有兩條途徑:一是大數(shù)據(jù)預(yù)測所發(fā)現(xiàn)的相關(guān)性可以為確認(rèn)經(jīng)濟(jì)學(xué)模型中的因果鏈條提供啟發(fā),從而通過完善經(jīng)濟(jì)學(xué)的理論間接改善經(jīng)濟(jì)學(xué)的預(yù)測。雖然大數(shù)據(jù)預(yù)測一般來說并不關(guān)注理論,故大數(shù)據(jù)預(yù)測只能談是否失準(zhǔn),而涉及不到被在理論上證偽的問題。但是,大數(shù)據(jù)預(yù)測卻可以成為經(jīng)濟(jì)學(xué)預(yù)測的一種建設(shè)性的補(bǔ)充檢驗(yàn)手段。大數(shù)據(jù)模型和經(jīng)濟(jì)學(xué)模型可以同時對宏觀或微觀經(jīng)濟(jì)問題作出預(yù)測,如果前者的預(yù)測精度優(yōu)于后者,則前者所發(fā)現(xiàn)的變量間相關(guān)性有助于為構(gòu)建和修正經(jīng)濟(jì)學(xué)理論中的因果分析提供啟發(fā)。二是大數(shù)據(jù)平臺可以消除一些影響因果檢驗(yàn)有效性的因素,從而直接提高對經(jīng)濟(jì)學(xué)的理論預(yù)測進(jìn)行經(jīng)驗(yàn)檢驗(yàn)的精確度。網(wǎng)絡(luò)大數(shù)據(jù)平臺相對來說易于對制度和環(huán)境等因素進(jìn)行人為調(diào)整(且這種調(diào)整可以保證在受眾間的完全隨機(jī)化),故可以產(chǎn)生類似于自然實(shí)驗(yàn)條件下的數(shù)據(jù),從而有效地解決因果分析中的內(nèi)生性問題。例如,F(xiàn)acebook公司的分析師們通過在“點(diǎn)贊”和“回復(fù)”功能上的微小調(diào)整,就可以研究這種受控變化對于用戶在社交媒體上活躍程度的影響,從而強(qiáng)化了我們對于社會網(wǎng)絡(luò)的認(rèn)識。
總之,大數(shù)據(jù)時代的到來為經(jīng)濟(jì)學(xué)理論及其預(yù)測的發(fā)展帶來了新的機(jī)遇,而經(jīng)濟(jì)學(xué)理論也可以為完善大數(shù)據(jù)預(yù)測提供實(shí)踐指導(dǎo)和思想線索。兩種預(yù)測方法都有各自的缺陷和邊界,為了提高人類認(rèn)識世界和改造世界的能力,二者彼此間需要加以合理的互補(bǔ)性借鑒。了解世界從來不是只有一種方式,大數(shù)據(jù)預(yù)測為我們打開了一扇看世界的新窗口,而兩種預(yù)測方法的互補(bǔ)將令我們看得更清晰更深遠(yuǎn)。
注釋:
〔1〕經(jīng)濟(jì)學(xué)家一向?qū)ξ锢韺W(xué)家的方法頗為艷羨,這可追溯到經(jīng)濟(jì)學(xué)鼻祖亞當(dāng)·斯密(Adam Smith),斯密在行文中時常流露出對牛頓的仰慕之情。
〔2〕汪毅霖:《為什么經(jīng)驗(yàn)檢驗(yàn)不應(yīng)是經(jīng)濟(jì)學(xué)中的壓倒性準(zhǔn)則》,《社會科學(xué)戰(zhàn)線》2015年第1期。
〔3〕鄒至莊:《用經(jīng)濟(jì)學(xué)做預(yù)測的成功案例》,《人民論壇》2012年第1期。
〔4〕張五常:《經(jīng)濟(jì)解釋(二〇一四增訂本)》,中信出版社,2015年,第75頁。
〔5〕Choi Hyunyoung,and Hal Varian,Predicting Initial Claim for Unemployment Benefits,Working Paper,2009.
〔6〕劉濤雄、徐曉飛:《互聯(lián)網(wǎng)搜索行為能幫助我們預(yù)測宏觀經(jīng)濟(jì)嗎》,《經(jīng)濟(jì)研究》2015年第12期。
〔7〕Lazer,David,Ryan Kennedy,Gary King,and Alessandro Vespignani,The Parable of Google Flu:Traps in Big Data Analysis,Science,2014,Vol.343,No.6176,pp.1203-1205.
〔8〕Varian,Hal,Big Data:New Tricks for Econometrics,Journal of Economic Perspectives,2014,Vol.28,No.2,pp.3-28.
〔9〕劉濤雄、徐曉飛:《大數(shù)據(jù)與宏觀經(jīng)濟(jì)分析研究綜述》,《國外理論動態(tài)》2015年第1期。
〔10〕張曉強(qiáng)、楊君游、曾國屏:《大數(shù)據(jù)方法:科學(xué)方法的變革和哲學(xué)思考》,《哲學(xué)動態(tài)》2014年第8期。
〔11〕〔英〕伊薩克·牛頓:《自然哲學(xué)之?dāng)?shù)學(xué)原理·宇宙體系》,王克迪譯,武漢出版社,1992年,第553頁。
〔12〕〔14〕〔15〕〔18〕〔19〕〔21〕〔23〕〔美〕米爾頓·弗里德曼:《實(shí)證經(jīng)濟(jì)學(xué)方法論》,載《實(shí)證經(jīng)濟(jì)學(xué)論文集》,商務(wù)印書館,2014年,第6、7、5、13、9、10、20頁。
〔13〕在近代科學(xué)的革命性進(jìn)步的過程中,對預(yù)測進(jìn)行經(jīng)驗(yàn)檢驗(yàn)這一標(biāo)準(zhǔn)起過非常重大的作用。例如,伽利略用實(shí)驗(yàn)物理學(xué)打破亞里士多德的哲學(xué)思辨式物理學(xué)的統(tǒng)治地位,就是通過實(shí)驗(yàn)將亞里士多德的預(yù)測——重的鐵球會比輕的鐵球先著地——證偽實(shí)現(xiàn)的。另一個例子是愛因斯坦的相對論取代牛頓經(jīng)典物理學(xué)。在得到經(jīng)驗(yàn)數(shù)據(jù)的支持之前,愛因斯坦的相對論只能算是一種精致而大膽的假說。愛因斯坦的成功很大程度上歸功于相對論能做出牛頓體系無法給出的預(yù)測,并且得到了驗(yàn)證。先是1919年愛丁頓在西非的普林西比島觀測到日全食,證明了相對論的預(yù)測——太陽的重力會使光線彎曲;接著在1924年,亞當(dāng)斯測度了高密度白矮星伴星天狼星B的譜線波長的偏移,證明了相對論的預(yù)測——恒星光線由于引力場的作用會變紅;兩次對預(yù)測的經(jīng)驗(yàn)上的確證(confirm)保證了相對論作為新范式被廣泛接受。
〔16〕〔17〕〔20〕〔美〕勞倫斯·博蘭:《批判的經(jīng)濟(jì)學(xué)方法論》,王鐵生譯,經(jīng)濟(jì)科學(xué)出版社,2000年,第8、37、81頁。
〔22〕薩繆爾森(Paul Samuelson)就曾斷言:“甚至一個好的經(jīng)濟(jì)學(xué)家或物理學(xué)家會是一個差的預(yù)測者(predictor),如果我們僅是簡單地想要擁有預(yù)言(forecast)未來的能力”。參見Paul Samuelson,Economic Forecasting and Science,In Robert Merton ed.,The Collective Scientific Papers of Paul A.Samuelson,Cambridge,Massachusetts:MIT Press,1965/1972,p.775.
〔24〕〔英〕維克托·邁爾-舍恩伯格、肯尼思·庫克耶:《大數(shù)據(jù)時代:生活、工作與思維的大變革》,盛楊燕、周濤譯,浙江人民出版社,2014年。
〔25〕不同于從“4V”角度對大數(shù)據(jù)的外在特征所做的外延性定義,我們所介紹的是會對預(yù)測產(chǎn)生影響的三個大數(shù)據(jù)特點(diǎn),因此是一種內(nèi)涵式的定義。
〔26〕來自Google搜索引擎的互聯(lián)網(wǎng)搜索行為數(shù)據(jù)是一種特定的大數(shù)據(jù)??偫ㄕf來,這類互聯(lián)網(wǎng)大數(shù)據(jù)有很多有吸引力的特征:第一,包括了一個潛在的非常巨大數(shù)量的回應(yīng)者樣本(世界上多數(shù)國家中經(jīng)常上網(wǎng)的人口比重都已經(jīng)很高)。第二,相對于傳統(tǒng)調(diào)查中受訪者要在事件發(fā)生后回答特定問題,網(wǎng)絡(luò)大數(shù)據(jù)屬于日常的常規(guī)活動的副產(chǎn)品(避免了無回應(yīng)或不準(zhǔn)確回應(yīng)的情況),故有更好的外部有效性。第三,互聯(lián)網(wǎng)大數(shù)據(jù)信息在相當(dāng)廣的范圍內(nèi)可以連續(xù)收集,而非只能獲得在某一時點(diǎn)對少數(shù)預(yù)先設(shè)定的問題的回應(yīng)。但是,使用互聯(lián)網(wǎng)大數(shù)據(jù)也會面臨一些困境:第一,互聯(lián)網(wǎng)大數(shù)據(jù)是一個相對很新的現(xiàn)象,所以無法如其他經(jīng)濟(jì)指標(biāo)一樣進(jìn)行長歷史的回溯比較。第二,網(wǎng)絡(luò)用戶有顯著的年齡和收入等方面的人口學(xué)特征,所以互聯(lián)網(wǎng)大數(shù)據(jù)可能不具有統(tǒng)計學(xué)上的樣本代表性。第三,互聯(lián)網(wǎng)搜索引擎的用法的無規(guī)律性(使用者感興趣于相同的主題卻可能輸入不同的關(guān)鍵詞,反之,使用者關(guān)注不同的主題也可能輸入同一關(guān)鍵詞)可能會制造出一些誤導(dǎo)性的錯誤數(shù)據(jù)——信息噪音。第四,仍然有很多人類(經(jīng)濟(jì))活動的重要領(lǐng)域較少使用互聯(lián)網(wǎng)搜索引擎,如家庭內(nèi)部的成員間資源分配和企業(yè)內(nèi)部的職位調(diào)整。最后,使用互聯(lián)網(wǎng)搜尋大數(shù)據(jù)需要面對一些技術(shù)和倫理上的限制。
〔27〕小樣本數(shù)據(jù)是根據(jù)樣本特征推斷總體特征,其邏輯順序是“分布理論—概率保證—總體推斷”。大數(shù)據(jù)是全樣本數(shù)據(jù),其邏輯順序是“實(shí)際分布—總體特征—概率判斷”,概率不再是理論中的預(yù)先假設(shè),而是從數(shù)據(jù)總體實(shí)際分布中得出的結(jié)果,這種概率結(jié)果就是大數(shù)據(jù)預(yù)測本身。
〔28〕弗里德曼的方法論中并不要求前提假設(shè)的真實(shí)性,這是弗里德曼1953年的論文中被反復(fù)批評的一個焦點(diǎn)。在為假設(shè)的非真實(shí)性辯解時,弗里德曼引入了“好像”(as if)概念。這個工具主義的概念意味著“如果我們試圖解釋某些個人假定行為的效果,則只要該效果事實(shí)上能被觀察到,而且如果他們事實(shí)上如同我們假設(shè)那樣行事時定會產(chǎn)生該效果,我們就能利用我們的行為假設(shè),即使該假設(shè)是虛假的”。參見〔美〕勞倫斯·博蘭:《批判的經(jīng)濟(jì)學(xué)方法論》,王鐵生譯,經(jīng)濟(jì)科學(xué)出版社,2000年,第30-31頁。
〔29〕我們對大數(shù)據(jù)預(yù)測的缺陷和邊界的討論關(guān)注的是大數(shù)據(jù)預(yù)測的內(nèi)在局限性——預(yù)測質(zhì)量本身,我們將不涉及大數(shù)據(jù)預(yù)測的外在局限性——推廣大數(shù)據(jù)預(yù)測可能造成的經(jīng)濟(jì)社會成本。很多人文學(xué)者將這種經(jīng)濟(jì)社會成本歸結(jié)為“大數(shù)據(jù)暴政”。
〔30〕從哲學(xué)的視角看,對歸納問題的注意肯定是弗里德曼不在意假設(shè)是否真實(shí)的原因之一。由于無法解決歸納問題,所以理論工作者們需要假定其模型的前提假設(shè)是真實(shí)的,并且避免使用“真理”(truth)一詞或者像約定主義者(conventionalist)那樣視“真理”為一個約定俗成的概念。如果說約定主義者還會對理論的真實(shí)性時有懷疑的話,弗里德曼干脆把理論的關(guān)注點(diǎn)從前提假設(shè)的真實(shí)性轉(zhuǎn)移到了預(yù)測性結(jié)論的真實(shí)性。對于弗里德曼似的工具主義者來說,發(fā)現(xiàn)唯一的真理并不是理論的目標(biāo),理論只是一種政策工具,故而“理論、前提或假設(shè)的真實(shí)狀態(tài),對任何目的都是無關(guān)緊要的,只要從它們當(dāng)中合乎邏輯地推論出來的結(jié)論是成功的”。參見〔美〕勞倫斯·博蘭:《批判的經(jīng)濟(jì)學(xué)方法論》,王鐵生譯,經(jīng)濟(jì)科學(xué)出版社,2000年,第23頁。
〔31〕Choi Hyunyoung,and Hal Varian,Predicting the Present with Google Trends,Economic Record,2012,Vol.88,No.1,pp.2-9.
〔32〕Mao Huina,Scott Counts,and Johan Bollen,Quantifying the Effects of Online Bullishness on International Financial Markets,Working Paper,2015.
〔33〕從復(fù)雜科學(xué)的視閾看,很多宏觀的經(jīng)濟(jì)社會現(xiàn)象都具有“涌現(xiàn)”的性質(zhì)。所謂“涌現(xiàn)”,是指新的整體系統(tǒng)出現(xiàn)了不可還原和無法通過將個體簡單加總來解釋的性質(zhì),即整體大于各部分之和或整體出現(xiàn)了個體不具備的屬性(例如,一男一女組成的家庭在經(jīng)濟(jì)效率上更高,并且具有二者是獨(dú)立個體時不擁有的新的屬性)。由于通過“涌現(xiàn)”而產(chǎn)生的性質(zhì)是任何既往觀察過的個體及其簡單組合所無法涵蓋的,故在邏輯上,當(dāng)預(yù)測對象是如宏觀經(jīng)濟(jì)危機(jī)之類(超越了個體及其簡單組合的經(jīng)驗(yàn)范疇的)具有“涌現(xiàn)”性質(zhì)的復(fù)雜現(xiàn)象時,我們沒有理由對基于歸納以往的經(jīng)驗(yàn)事實(shí)(海量個體及其簡單組合)而做出的大數(shù)據(jù)預(yù)測的效果抱以樂觀態(tài)度。參見William Arthur,Complexity and the Economy,Science,New Series,1999,Vol.284,No.5411,pp.107-109.
〔34〕“預(yù)言”的例子包括相面先生根據(jù)你的面部特征占卜你的未來吉兇,這實(shí)際上也是一套數(shù)代間積累的大數(shù)據(jù)相關(guān)性判斷。不過相面先生更愿意把相關(guān)性打扮成因果性,大數(shù)據(jù)專家則滿足于相關(guān)性。
〔35〕〔美〕埃爾文·羅斯:《實(shí)驗(yàn)經(jīng)濟(jì)學(xué)概述》,載約翰·卡格爾、埃爾文·羅斯:《實(shí)驗(yàn)經(jīng)濟(jì)學(xué)手冊》,賈擁民、陳葉烽譯,人民大學(xué)出版社,2015年,第21-22頁。亦可參見〔美〕埃爾文·羅斯:《導(dǎo)論與概述》,載埃爾文·羅斯:《經(jīng)濟(jì)學(xué)中的實(shí)驗(yàn)室實(shí)驗(yàn)——六種觀點(diǎn)》,聶慶譯,人民大學(xué)出版社,2007年,第2頁。
〔36〕Keynes,John N.,The Scope and Method of Political Economy,Kitchener:Batoche Books,1890/1999,p.174.
〔37〕弗里德曼和其批評者們之間的差別在于,后者要求的不僅是輔助性假設(shè)(如“約束條件”)要與經(jīng)驗(yàn)事實(shí)相符,且作為演繹推理前提的硬核假設(shè)也要與經(jīng)驗(yàn)一致。
〔38〕Knight,Frank,Some Fallacies in the Interpretation of Social Cost,Quarterly Journal of Economics,1924,Vol.28,No.4,pp.582-606.
〔39〕Cohen,Peter,Robert Hahn,Jonathan Hall,Steven Levitt,and Robert Metcalfe,Using Big Data to Estimate Consumer Surplus:The Case of Uber,2016,NBER Working Paper No.22627.
〔責(zé)任編輯:劉 毅〕
汪毅霖(1981—),理論經(jīng)濟(jì)學(xué)博士,應(yīng)用經(jīng)濟(jì)學(xué)博士后,西南政法大學(xué)經(jīng)濟(jì)學(xué)院副教授。
〔*〕本文系重慶市教委科學(xué)技術(shù)研究項目“基于大數(shù)據(jù)的經(jīng)濟(jì)分析方法在供給側(cè)改革中的應(yīng)用研究”(KJ1600107)和重慶市社會科學(xué)規(guī)劃博士項目“社會選擇的實(shí)證維度及對收入分配的啟示”(2015BS039)的成果。