【摘 要】 隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用于工業(yè)界各個(gè)領(lǐng)域。傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)與機(jī)器學(xué)習(xí)有著共同的理論基礎(chǔ)和相同的研究方法,同時(shí)從研究方式與目的 , 對(duì)模型的要求、模型檢驗(yàn)方式都有著明顯的差異。對(duì)于傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)存在諸多不足,例如理論假設(shè)過(guò)強(qiáng)、樣本不足、模型泛化能力弱等問(wèn)題,機(jī)器學(xué)習(xí)的范式和方法可以應(yīng)用于其中,可以有效解決傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中的問(wèn)題。
【關(guān)鍵詞】 機(jī)器學(xué)習(xí) 計(jì)量經(jīng)濟(jì)學(xué) 模型泛化
一、引言
機(jī)器學(xué)習(xí)被視為人工智能的子集,是對(duì)算法和統(tǒng)計(jì)模型的科學(xué)研究,計(jì)算機(jī)系統(tǒng)使用這些算法和統(tǒng)計(jì)模型來(lái)執(zhí)行特定任務(wù)而無(wú)需使用明確的指令,而是依靠模式和推理。機(jī)器學(xué)習(xí)算法基于樣本數(shù)據(jù)(稱(chēng)為訓(xùn)練數(shù)據(jù))建立數(shù)學(xué)模型,以便進(jìn)行預(yù)測(cè)或決策,而無(wú)需明確程序來(lái)執(zhí)行任務(wù)。隨著信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)普及,大數(shù)據(jù)得以產(chǎn)生,機(jī)器學(xué)習(xí)在諸多領(lǐng)域如醫(yī)學(xué)、金融、數(shù)據(jù)分析等發(fā)揮著重要的作用。隨著機(jī)器學(xué)習(xí)在各行各業(yè)應(yīng)用的不斷深入,經(jīng)濟(jì)學(xué)界也開(kāi)始廣泛應(yīng)用機(jī)器學(xué)習(xí)于經(jīng)濟(jì)領(lǐng)域的研究。這方面,國(guó)外學(xué)者已經(jīng)取得積極進(jìn)展,如諾貝爾獎(jiǎng)得主薩金特就開(kāi)設(shè)“量化經(jīng)濟(jì)”(QuantEco)項(xiàng)目,運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)傳統(tǒng)經(jīng)濟(jì)學(xué)重新演繹。
計(jì)量經(jīng)濟(jì)學(xué)是以數(shù)理經(jīng)濟(jì)學(xué)和數(shù)理統(tǒng)計(jì)學(xué)為方法論基礎(chǔ),對(duì)于經(jīng)濟(jì)問(wèn)題試圖對(duì)理論上的數(shù)量接近和經(jīng)驗(yàn)(實(shí)證研究)上的數(shù)量接近這兩者進(jìn)行綜合而產(chǎn)生的經(jīng)濟(jì)學(xué)分支。然而,傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)有著其固有的缺陷,無(wú)法對(duì)很多現(xiàn)實(shí)問(wèn)題作出令人信服解釋?zhuān)绕涫窃陬A(yù)測(cè)方面。而基于現(xiàn)有的樣本數(shù)據(jù)對(duì)測(cè)試數(shù)據(jù)作出準(zhǔn)確預(yù)測(cè)是機(jī)器學(xué)習(xí)基本任務(wù)。因此,將機(jī)器學(xué)習(xí)范式和方法運(yùn)用于計(jì)量經(jīng)濟(jì)學(xué)中,可以很好地彌補(bǔ)傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中的不足。
二、機(jī)器學(xué)習(xí)與計(jì)量經(jīng)濟(jì)學(xué)的異同
某種程度上,機(jī)器學(xué)習(xí)與計(jì)量經(jīng)濟(jì)學(xué)是“一枚硬幣的兩面”,許多經(jīng)典的機(jī)器學(xué)習(xí)算法如線(xiàn)性回歸、Logit回歸等線(xiàn)性模型最早開(kāi)始也是在經(jīng)濟(jì)學(xué)研究中運(yùn)用,并隨著計(jì)算機(jī)技術(shù)的發(fā)展逐漸開(kāi)始在其他領(lǐng)域中應(yīng)用。線(xiàn)性模型也是機(jī)器學(xué)習(xí)算法的基礎(chǔ),近年興起的神經(jīng)網(wǎng)絡(luò)也是從線(xiàn)性模型發(fā)展而來(lái)。最優(yōu)化是計(jì)量經(jīng)濟(jì)學(xué)主要研究手段,同時(shí)也是機(jī)器學(xué)習(xí)優(yōu)化模型主要方法,因此兩者研究本質(zhì)都是最優(yōu)化問(wèn)題。從中可以看出,計(jì)量經(jīng)濟(jì)學(xué)和機(jī)器學(xué)習(xí)有著共同的理論基礎(chǔ)和研究方法。
然而,兩者的“任務(wù)”是不同的。傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)主要任務(wù)是對(duì)經(jīng)濟(jì)理論進(jìn)行實(shí)證分析,對(duì)研究者提出理論進(jìn)行事后檢驗(yàn),模型的可解釋性非常重要;機(jī)器學(xué)習(xí)的主要任務(wù)是預(yù)測(cè),主要解決回歸和分類(lèi)問(wèn)題,模型的可解釋性的重要程度并非最高。
三、機(jī)器學(xué)習(xí)能彌補(bǔ)計(jì)量經(jīng)濟(jì)學(xué)的不足
傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)廣泛應(yīng)用于主流經(jīng)濟(jì)學(xué)的研究,在學(xué)術(shù)界引起了許多爭(zhēng)議,一方面,很多學(xué)者認(rèn)為這使得“工具主義”在經(jīng)濟(jì)學(xué)界泛濫,忽略經(jīng)濟(jì)研究的本質(zhì);另一方面,傳統(tǒng)經(jīng)濟(jì)學(xué)一直強(qiáng)于解釋而疏于預(yù)測(cè),對(duì)未來(lái)經(jīng)濟(jì)趨勢(shì)總是無(wú)法作出準(zhǔn)確合理預(yù)測(cè)。傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)的實(shí)證結(jié)果僅能對(duì)已有數(shù)據(jù)和觀(guān)測(cè)結(jié)果進(jìn)行檢驗(yàn),往往不重視對(duì)新樣本的預(yù)測(cè),這很容易使得模型過(guò)擬合。而機(jī)器學(xué)習(xí)其中一個(gè)主要研究方向是解決模型的過(guò)擬合問(wèn)題,以更好地給出合理的預(yù)測(cè)。谷歌首席經(jīng)濟(jì)學(xué)家范里安(Hal Varian)認(rèn)為,機(jī)器學(xué)習(xí)的范式和可以和計(jì)量經(jīng)濟(jì)學(xué)無(wú)縫銜接,機(jī)器學(xué)習(xí)諸多方法解決傳統(tǒng)經(jīng)濟(jì)學(xué)存在的諸多問(wèn)題。
1. 劃分訓(xùn)練-測(cè)試數(shù)據(jù)集。傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)主要是通過(guò)統(tǒng)計(jì)量檢驗(yàn)?zāi)P偷臄M合好壞,但這種方法有著很大局限,強(qiáng)于解釋而疏于預(yù)測(cè),尤其在對(duì)未知數(shù)據(jù)的預(yù)測(cè)上。算法模型使用訓(xùn)練集進(jìn)行擬合,并對(duì)訓(xùn)練集預(yù)測(cè),然后再對(duì)測(cè)試集進(jìn)行預(yù)測(cè),將兩者的結(jié)果進(jìn)行比較。如果訓(xùn)練集的預(yù)測(cè)結(jié)果與測(cè)試集的結(jié)果相差很小,則表示模型的泛化能力很好;反之,模型的泛化能力很差。
傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)一般不會(huì)劃分?jǐn)?shù)據(jù)集來(lái)檢驗(yàn)?zāi)P偷臄M合好壞,無(wú)法檢測(cè)模型的泛化能力,這使得計(jì)量經(jīng)濟(jì)模型無(wú)法應(yīng)用到未知的數(shù)據(jù)。
2. 正則化。正則化在機(jī)器學(xué)習(xí)中主要用于防止模型的過(guò)擬合,提高模型的泛化能力。正則化是為解決過(guò)擬合問(wèn)題而加入的額外信息的過(guò)程,而額外信息一般作為懲罰項(xiàng)加入到最優(yōu)化過(guò)程中,以降低模型的復(fù)雜度。復(fù)雜的模型往往無(wú)法很好地?cái)M合訓(xùn)練數(shù)據(jù),但無(wú)法擬合未知數(shù)據(jù)。 損失函數(shù)內(nèi)置正則化技術(shù),以“懲罰”參數(shù)過(guò)多的模型?!罢齽t化”的意思是要讓預(yù)測(cè)更加“規(guī)范”或更可接受,讓模型更能適應(yīng)未知的數(shù)據(jù)。
線(xiàn)性回歸、Logit回歸等線(xiàn)性模型在傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)有著廣泛應(yīng)用,但在計(jì)量經(jīng)濟(jì)學(xué)中線(xiàn)性模型有著很強(qiáng)的假設(shè) ,比如同方差、不存在多重共線(xiàn)性等,這些假設(shè)在現(xiàn)實(shí)中很難實(shí)現(xiàn)。這就導(dǎo)致計(jì)量經(jīng)濟(jì)模型都存在過(guò)擬合現(xiàn)象。通過(guò)在計(jì)量模型加入懲罰項(xiàng)可以很好解決計(jì)量經(jīng)濟(jì)模型中不能滿(mǎn)足假設(shè)的情況,可以很好解決模型過(guò)擬合情況。
3. 馬氏鏈蒙特卡洛方法。馬爾可夫鏈蒙特卡洛方法(MCMC)是一組用馬氏鏈從隨機(jī)分布取樣的算法,之前步驟的作為底本。它從連續(xù)隨機(jī)變量創(chuàng)建樣本,其概率密度與已知函數(shù)成正比。它能有效解決數(shù)據(jù)分析中樣本不足的問(wèn)題。在傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)中,數(shù)據(jù)樣本的獲取和樣本質(zhì)量的好壞對(duì)實(shí)證結(jié)果有著重要的影響。現(xiàn)實(shí)中,樣本不僅在獲取上存在困難,而且取得的樣本質(zhì)量上往往參差不齊。因此,MCMC能有效解決計(jì)量經(jīng)濟(jì)學(xué)中樣本不足的問(wèn)題。
四、結(jié)論與展望
隨著計(jì)算機(jī)技術(shù)的發(fā)展和大數(shù)據(jù)的興起,機(jī)器學(xué)習(xí)與其他學(xué)科領(lǐng)域融合會(huì)越來(lái)越多,而傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)與機(jī)器學(xué)習(xí)有著共同的理論基礎(chǔ)和相同的研究方法。將機(jī)器學(xué)習(xí)的方法和范式運(yùn)用于計(jì)量經(jīng)濟(jì)學(xué)中,既可以有效解決傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)強(qiáng)于解釋而疏于預(yù)測(cè)的不足,還可放寬傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)過(guò)于嚴(yán)苛的理論假設(shè),讓理論模型更貼近于現(xiàn)實(shí)。此外,機(jī)器學(xué)習(xí)更加注重模型的預(yù)測(cè)能力,而不是模型的可解釋性,因而大大降低了研究者的理論門(mén)檻。
【參考文獻(xiàn)】
[1] 高華川.機(jī)器學(xué)習(xí)在經(jīng)濟(jì)學(xué)中的應(yīng)用[J].納稅,2019,13(24):152-153.
[2] 周志華. 《機(jī)器學(xué)習(xí)》[J]. 航空港, 2018(2):94-94.
[3] Chevalier J . Comment on "Artificial Intelligence, Economics, and Industrial Organization"[J]. NBER Chapters, 2018.
作者簡(jiǎn)介:朱明(1992),男,漢,湖南省郴州市,學(xué)生,碩士,廣東財(cái)經(jīng)大學(xué),產(chǎn)業(yè)經(jīng)濟(jì)學(xué)