劉敬偉 羅 君 張小成
(1.茅臺(tái)學(xué)院 工商管理系,貴州 仁懷 564507;2.貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)應(yīng)用與經(jīng)濟(jì)學(xué)院,貴州 貴陽(yáng) 550025)
隨著科技進(jìn)步和發(fā)展,數(shù)據(jù)量急劇增長(zhǎng),大數(shù)據(jù)概念和大數(shù)據(jù)分析應(yīng)運(yùn)而生。大數(shù)據(jù)指無(wú)法使用傳統(tǒng)數(shù)據(jù)處理工具進(jìn)行分析且結(jié)構(gòu)復(fù)雜的大量數(shù)據(jù)的集合。廣泛使用大數(shù)據(jù)分析的主要原因是連續(xù)生成和存儲(chǔ)大量高維或非結(jié)構(gòu)化數(shù)據(jù)的成本比以前低得多。當(dāng)今時(shí)代每天都會(huì)產(chǎn)生大量信息,加上計(jì)算機(jī)硬件和軟件的發(fā)展,人們能夠更細(xì)致地考察和分析這些海量數(shù)據(jù)。借助數(shù)據(jù)挖掘、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)合并以及機(jī)器學(xué)習(xí)算法等,這些數(shù)據(jù)在不同領(lǐng)域得到應(yīng)用。人們更有可能獲得關(guān)于所研究事物的詳細(xì)資料和信息,也在不斷開(kāi)發(fā)新技術(shù)和新方法,以便更好地進(jìn)行大數(shù)據(jù)分析。
大數(shù)據(jù)應(yīng)用的目的是通過(guò)適當(dāng)方法對(duì)海量數(shù)據(jù)和高維數(shù)據(jù)進(jìn)行估計(jì),了解變量之間的關(guān)系,尋找隱藏的數(shù)據(jù)結(jié)構(gòu),并揭示總體重要的共同特征。大數(shù)據(jù)能以不同的格式從不同渠道獲取,除了已知的統(tǒng)計(jì)數(shù)據(jù)庫(kù),如統(tǒng)計(jì)年鑒,也可以是基于計(jì)算機(jī)的數(shù)據(jù),如科學(xué)實(shí)驗(yàn)數(shù)據(jù)、傳感器數(shù)據(jù)、圖片、視頻等,還可以是基于人工的數(shù)據(jù),如社交媒體、個(gè)人博客和網(wǎng)站網(wǎng)頁(yè)等。美國(guó)科技基金會(huì)聯(lián)邦大數(shù)據(jù)委員會(huì)(Tech America Foundation Federal Big Data Commission)將不同來(lái)源的大數(shù)據(jù)定義為:“大數(shù)據(jù)描述了高速生成的海量復(fù)雜數(shù)據(jù),需要先進(jìn)的技術(shù)與方法來(lái)實(shí)現(xiàn)對(duì)信息的收集、存儲(chǔ)、傳輸、管理和分析。”可以看出,大數(shù)據(jù)考慮了要處理數(shù)據(jù)的規(guī)模、結(jié)構(gòu)和復(fù)雜性,也正是由于這些特性,它不同于常用的數(shù)據(jù)類(lèi)型。
在天文學(xué)、生物學(xué)和遺傳學(xué)領(lǐng)域得到廣泛應(yīng)用的大數(shù)據(jù),已經(jīng)開(kāi)始在金融、醫(yī)療、營(yíng)銷(xiāo)和人工智能等其他領(lǐng)域發(fā)揮決定性作用,說(shuō)明大數(shù)據(jù)具有廣闊的應(yīng)用前景。鑒于每個(gè)部門(mén)獨(dú)特的動(dòng)態(tài)變化,大數(shù)據(jù)的使用也因部門(mén)而異,基于此,收集什么樣的數(shù)據(jù)以及如何使用這些數(shù)據(jù)也有所不同。隨著大數(shù)據(jù)在眾多領(lǐng)域廣泛應(yīng)用,近年來(lái),大數(shù)據(jù)和大數(shù)據(jù)分析的概念在統(tǒng)計(jì)學(xué)領(lǐng)域開(kāi)始受到關(guān)注,并不斷發(fā)展出新的統(tǒng)計(jì)技術(shù)與方法。用于大數(shù)據(jù)分析的機(jī)器學(xué)習(xí),由于其視角和難度不同,在統(tǒng)計(jì)學(xué)領(lǐng)域中的應(yīng)用相對(duì)較慢?,F(xiàn)有研究表明,人們對(duì)大數(shù)據(jù)和機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)中的應(yīng)用越發(fā)感興趣,有學(xué)者認(rèn)為從長(zhǎng)遠(yuǎn)看,日益重要的大數(shù)據(jù)必將為統(tǒng)計(jì)學(xué)研究開(kāi)辟新視野。為了在統(tǒng)計(jì)學(xué)中應(yīng)用大數(shù)據(jù)、進(jìn)行大數(shù)據(jù)分析并發(fā)展新的統(tǒng)計(jì)方法,清楚地解釋大數(shù)據(jù)的概念并正確理解機(jī)器學(xué)習(xí)就顯得非常重要。
本文通過(guò)梳理相關(guān)文獻(xiàn),分析大數(shù)據(jù)的特征、優(yōu)勢(shì)和挑戰(zhàn),考察大數(shù)據(jù)和機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)領(lǐng)域的地位和重要性,論證大數(shù)據(jù)和機(jī)器學(xué)習(xí)將成為統(tǒng)計(jì)學(xué)新視野的觀點(diǎn)。
Abaker(2015)為大數(shù)據(jù)下過(guò)一個(gè)簡(jiǎn)單定義:大數(shù)據(jù)是用傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)難以存儲(chǔ)、處理和分析的數(shù)據(jù)量,意味著量大、高維,這些數(shù)據(jù)表示為具有大量的解釋變量和觀測(cè)值。大數(shù)據(jù)分為以下三種:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這三種數(shù)據(jù)類(lèi)型的獲得源不同。結(jié)構(gòu)化數(shù)據(jù)是按照預(yù)先定義的模式存儲(chǔ)在文件中作為固定欄下記錄的信息,以非常系統(tǒng)的方式創(chuàng)建和處理,如表格或其他形式,添加、刪除、更新、存儲(chǔ)、查詢(xún)和分析這些數(shù)據(jù)很簡(jiǎn)單,結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)通常用來(lái)查詢(xún)結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是以非標(biāo)準(zhǔn)的、未知形式寫(xiě)入的數(shù)據(jù),此類(lèi)數(shù)據(jù)來(lái)源于如電子郵件、視頻、圖像、文本文件、社交媒體的帖子等。半結(jié)構(gòu)化數(shù)據(jù)是關(guān)系數(shù)據(jù)庫(kù)中不可用的信息,這些數(shù)據(jù)很難存儲(chǔ)、檢索和分析,執(zhí)行這些操作需要專(zhuān)門(mén)的軟件。
大數(shù)據(jù)有幾個(gè)不同的重要特征。Laney(2001)將大數(shù)據(jù)的特征定義為數(shù)量性(Volume)、多樣性(Variety)和速度性(Velocity)等幾個(gè)組成部分,大數(shù)據(jù)的概念一般通過(guò)考慮這三個(gè)基本特征來(lái)研究,這三個(gè)特征在文獻(xiàn)中也被稱(chēng)為3V維度。隨著研究的深入,除了這幾個(gè)特征,可變性(Variability)、準(zhǔn)確性(Veracity)和價(jià)值性(Value)也被作為大數(shù)據(jù)的特征在文獻(xiàn)中被廣泛討論,從而形成6V維度的特征。
大數(shù)據(jù)的關(guān)鍵特征是數(shù)據(jù)的數(shù)量性,即數(shù)據(jù)量。在大數(shù)據(jù)幾個(gè)特征中數(shù)據(jù)量排第一,無(wú)論是用戶(hù)生成還是機(jī)器自動(dòng)生成的數(shù)據(jù),通常用TB、PB或EB等單位來(lái)衡量數(shù)據(jù)量。大數(shù)據(jù)的速度特征(speed feature)是需要處理的數(shù)據(jù)頻率,意味著數(shù)據(jù)正在以前所未有的速度生成、存儲(chǔ)或更新。多樣性是數(shù)據(jù)中的結(jié)構(gòu)異質(zhì)性,也表示數(shù)據(jù)來(lái)源的多樣性(diversity)??勺冃裕╲ariability)是確定數(shù)據(jù)的結(jié)構(gòu)是否規(guī)則和可靠,即使在極其不確定和不可預(yù)測(cè)的情況下,可變性是數(shù)據(jù)含義的變化而非數(shù)據(jù)的異質(zhì)性。準(zhǔn)確性(veracity)是與某些類(lèi)型數(shù)據(jù)相關(guān)的信度水平,包括可靠性(reliability)、精確性(accuracy)和精準(zhǔn)度(precision)。準(zhǔn)確性是表明數(shù)據(jù)集的可靠性和無(wú)差錯(cuò)程度的屬性。價(jià)值性是從數(shù)據(jù)中可得到的價(jià)值及意義,數(shù)據(jù)的價(jià)值屬性直接關(guān)系最終的研究目的。因此必須確保所做分析基于正確數(shù)據(jù),且在分析結(jié)束時(shí)數(shù)據(jù)仍具有價(jià)值并得到明顯改進(jìn)。
大數(shù)據(jù)的其他特征,如有效性(Validity)、波動(dòng)性(Volatility)、可視化(Visualization)和脆弱性(Vulnerability)在相關(guān)文獻(xiàn)中也有提到。有效性特征與準(zhǔn)確性特征類(lèi)似,表明數(shù)據(jù)對(duì)其預(yù)期用途的準(zhǔn)確度和有效性。波動(dòng)性指數(shù)據(jù)的有效時(shí)長(zhǎng)和存儲(chǔ)時(shí)間。可視化指包含許多數(shù)據(jù)變量的復(fù)雜圖形。脆弱性指數(shù)據(jù)來(lái)源的不足。除了這些10V特征,還可以增加復(fù)雜性(complexity)特征。復(fù)雜性指數(shù)據(jù)處理的難度和困惑。討論大數(shù)據(jù)的這些特征,有助于了解大數(shù)據(jù)的優(yōu)勢(shì)和挑戰(zhàn),為可能遇到的困難提供解決措施。
與傳統(tǒng)數(shù)據(jù)不同,大數(shù)據(jù)具有自身的特點(diǎn),是許多數(shù)據(jù)源的綜合,數(shù)據(jù)源彼此間沒(méi)有共同特征,且來(lái)自不同的總體。大數(shù)據(jù)分析的一個(gè)主要優(yōu)勢(shì)是可以從單個(gè)大群體中獲得額外信息,而不是從統(tǒng)計(jì)總體中單獨(dú)的一個(gè)子群體中獲得。大數(shù)據(jù)的大樣本容量使我們能夠發(fā)現(xiàn)與統(tǒng)計(jì)總體的子群體相關(guān)的隱藏模式,從而有機(jī)會(huì)運(yùn)用需要復(fù)雜統(tǒng)計(jì)技術(shù)的子群體數(shù)據(jù)對(duì)變異性進(jìn)行建模。大數(shù)據(jù)分析的另一個(gè)優(yōu)勢(shì)是數(shù)據(jù)源是實(shí)時(shí)更新的,這一特征使判斷正在發(fā)生的經(jīng)濟(jì)趨勢(shì)成為可能。此外,使用大樣本數(shù)據(jù)集還可以解決由有限觀測(cè)值引起的統(tǒng)計(jì)問(wèn)題,也有機(jī)會(huì)獲得關(guān)于研究對(duì)象更詳細(xì)的信息。
大數(shù)據(jù)除上述優(yōu)勢(shì)外,也面臨著困境和挑戰(zhàn)。從大數(shù)據(jù)的定義和特征可以理解,這些數(shù)據(jù)不同于分析中常用的數(shù)據(jù)類(lèi)型。由于大數(shù)據(jù)的特性,此類(lèi)數(shù)據(jù)的收集、存儲(chǔ)、共享、傳輸、可視化和分析是大數(shù)據(jù)面臨的重要挑戰(zhàn)之一。另一個(gè)挑戰(zhàn)是處理數(shù)據(jù)時(shí)可能出現(xiàn)的問(wèn)題,如RAM限制等內(nèi)存問(wèn)題,在處理過(guò)程中解決時(shí)間問(wèn)題,以及消除索引等數(shù)據(jù)結(jié)構(gòu)化問(wèn)題。
大數(shù)據(jù)樣本容量大和維度高的特點(diǎn)使傳統(tǒng)的統(tǒng)計(jì)方法不再適用,有待發(fā)展新的統(tǒng)計(jì)和計(jì)算方法。由于大數(shù)據(jù)的規(guī)模和樣本量很大,使用大數(shù)據(jù)會(huì)遇到一些困難。首先是大數(shù)據(jù)的高維性可能產(chǎn)生的噪聲累積、虛假相關(guān)和隨機(jī)內(nèi)生性問(wèn)題,以及變異性(異質(zhì)性)和偏差問(wèn)題。其次是大數(shù)據(jù)的高維和大樣本特征結(jié)合在一起時(shí),可能出現(xiàn)分析的計(jì)算成本高和規(guī)則的算法不穩(wěn)定等問(wèn)題。如果在使用大數(shù)據(jù)時(shí)不考慮適當(dāng)?shù)姆椒ǘ腔趥鹘y(tǒng)方法進(jìn)行預(yù)測(cè),上述情形就會(huì)導(dǎo)致模型選擇不一致。大數(shù)據(jù)很難用標(biāo)準(zhǔn)的數(shù)據(jù)處理方法進(jìn)行檢驗(yàn),小樣本的統(tǒng)計(jì)方法不適合大數(shù)據(jù),因此,發(fā)展新的統(tǒng)計(jì)方法以克服可能遇到的困境非常重要且有必要。新的方法將新的統(tǒng)計(jì)思想和算法、機(jī)器學(xué)習(xí)結(jié)合起來(lái),能夠成功解決大數(shù)據(jù)使用中最常遇到的變異性、噪聲積累、虛假回歸和內(nèi)生性等問(wèn)題。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,由建模和算法組成,這些算法使用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法從現(xiàn)有數(shù)據(jù)中推斷,并通過(guò)這些推斷對(duì)未知事物進(jìn)行預(yù)測(cè)。機(jī)器學(xué)習(xí)的主要目的是作出精確預(yù)測(cè),而估計(jì)函數(shù)通常難以解釋且與特定概率模型相關(guān)。機(jī)器學(xué)習(xí)是一個(gè)廣泛的領(lǐng)域,包括人工智能、計(jì)算機(jī)視覺(jué)和統(tǒng)計(jì)學(xué)習(xí)等,統(tǒng)計(jì)學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,在統(tǒng)計(jì)學(xué)中有很好的應(yīng)用,是數(shù)據(jù)分析中不同預(yù)測(cè)方法和規(guī)范方法的總稱(chēng),這些方法是現(xiàn)代經(jīng)濟(jì)中大多數(shù)智能服務(wù)和應(yīng)用的基石。
從事大數(shù)據(jù)分析的研究人員使用各種機(jī)器學(xué)習(xí)算法獲取所需信息并進(jìn)行預(yù)測(cè),這些算法根據(jù)數(shù)據(jù)的學(xué)習(xí)路徑分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩類(lèi)進(jìn)行預(yù)測(cè)。無(wú)監(jiān)督學(xué)習(xí)指用來(lái)尋找數(shù)據(jù)中先前未知的結(jié)構(gòu)與關(guān)系的方法,目的是在數(shù)據(jù)中找到相似的樣本集,并對(duì)數(shù)據(jù)中的底層結(jié)構(gòu)或分布進(jìn)行建模,以了解有關(guān)數(shù)據(jù)的更多信息。有監(jiān)督學(xué)習(xí)指基于訓(xùn)練數(shù)據(jù)集創(chuàng)建機(jī)器學(xué)習(xí)模型的過(guò)程,從訓(xùn)練數(shù)據(jù)中尋找算法學(xué)習(xí)過(guò)程,然后用測(cè)試數(shù)據(jù)對(duì)學(xué)習(xí)過(guò)程進(jìn)行監(jiān)督。有監(jiān)督機(jī)器學(xué)習(xí)主要關(guān)注預(yù)測(cè)和估計(jì)問(wèn)題,分為回歸和分類(lèi)兩個(gè)部分:回歸是用于估計(jì)定量變量的有監(jiān)督學(xué)習(xí),分類(lèi)是將觀察結(jié)果劃分為定性類(lèi)別以建模和預(yù)測(cè)定性變量的有監(jiān)督學(xué)習(xí)。
對(duì)于有監(jiān)督學(xué)習(xí),有不同的機(jī)器學(xué)習(xí)方法,如LASSO、Ridge、隨機(jī)森林、回歸樹(shù)、支持向量機(jī)以及矩陣因子等。統(tǒng)計(jì)學(xué)中的大多數(shù)應(yīng)用都屬于有監(jiān)督學(xué)習(xí),統(tǒng)計(jì)學(xué)方法與有監(jiān)督機(jī)器學(xué)習(xí)之間的區(qū)別在于,很多有監(jiān)督機(jī)器學(xué)習(xí)方法都依賴(lài)于數(shù)據(jù)驅(qū)動(dòng)的模型選擇。對(duì)于有監(jiān)督學(xué)習(xí)方法,數(shù)據(jù)集通常分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分。訓(xùn)練數(shù)據(jù)是由算法決定的觀測(cè)值組成的數(shù)據(jù),使用這些數(shù)據(jù)是通過(guò)所討論的算法進(jìn)行推斷并創(chuàng)建模型,測(cè)試數(shù)據(jù)用來(lái)確定使用訓(xùn)練數(shù)據(jù)獲得的模型與真實(shí)值的接近程度。機(jī)器學(xué)習(xí)可用于傳統(tǒng)數(shù)據(jù)集以及大數(shù)據(jù)的預(yù)處理和估計(jì),在低維數(shù)據(jù)和高維數(shù)據(jù)中都有應(yīng)用。
雖然大數(shù)據(jù)已經(jīng)在很多領(lǐng)域得到普遍應(yīng)用,在統(tǒng)計(jì)學(xué)領(lǐng)域的應(yīng)用卻相對(duì)遲緩,在經(jīng)濟(jì)與統(tǒng)計(jì)分析中使用大數(shù)據(jù)還存在一定的局限性,原因是社會(huì)科學(xué)領(lǐng)域中與大數(shù)據(jù)和大數(shù)據(jù)分析相關(guān)的概念還未被廣泛接受。事實(shí)上大數(shù)據(jù)為更好、更細(xì)致地衡量經(jīng)濟(jì)趨勢(shì),對(duì)不同的主題開(kāi)展新研究、發(fā)展新方法以及進(jìn)行更強(qiáng)大、更準(zhǔn)確的分析提供了重要機(jī)會(huì)。根據(jù)Einav和Levin(2014)的說(shuō)法,大數(shù)據(jù)將影響經(jīng)濟(jì)學(xué)家提出的問(wèn)題類(lèi)型,通過(guò)允許更多的變異性,隨時(shí)間推移對(duì)經(jīng)濟(jì)活動(dòng)進(jìn)行更詳細(xì)的分析來(lái)提供更多信息。
不同領(lǐng)域針對(duì)大數(shù)據(jù)開(kāi)展的研究相對(duì)豐富,但在經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)領(lǐng)域的研究尚在起步階段,而大數(shù)據(jù)的特征正是統(tǒng)計(jì)學(xué)研究的重要源泉,有學(xué)者指出,大數(shù)據(jù)將對(duì)未來(lái)經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)產(chǎn)生重要影響。近年來(lái)大數(shù)據(jù)在統(tǒng)計(jì)學(xué)領(lǐng)域的應(yīng)用受到重視,也發(fā)展出一些新的統(tǒng)計(jì)方法,以大數(shù)據(jù)為主題的理論研究和實(shí)踐應(yīng)用的學(xué)術(shù)會(huì)議也在逐漸增多。
大數(shù)據(jù)統(tǒng)計(jì)學(xué)家試圖在不受數(shù)據(jù)約束的情況下,從更廣泛的范圍考慮內(nèi)在原因來(lái)研究相關(guān)問(wèn)題??紤]到機(jī)器學(xué)習(xí)在分析高維數(shù)據(jù)中的必要性,專(zhuān)家試圖結(jié)合統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)來(lái)提供更多的信息,這樣在收集和分析大型數(shù)據(jù)集、建立變量之間關(guān)系并加以比較時(shí),可以保證所需要的計(jì)算能力和算法精度達(dá)到最高。在獲得經(jīng)濟(jì)計(jì)量與統(tǒng)計(jì)結(jié)果的同時(shí),對(duì)大數(shù)據(jù)和高維數(shù)據(jù)的處理也成了可能。
由于機(jī)器學(xué)習(xí)的適用范圍和存在困難,統(tǒng)計(jì)學(xué)領(lǐng)域大數(shù)據(jù)研究仍相對(duì)較少,但機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的結(jié)合使用已經(jīng)引起人們的廣泛關(guān)注,尤其隨著最近幾年機(jī)器學(xué)習(xí)算法的改進(jìn)更是如此。統(tǒng)計(jì)學(xué)應(yīng)用機(jī)器學(xué)習(xí)算法和方法時(shí)最重要的是了解統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的區(qū)別。統(tǒng)計(jì)學(xué)主要側(cè)重估計(jì)因果效應(yīng)和識(shí)別因果關(guān)系,機(jī)器學(xué)習(xí)提供的算法工具可以匯總數(shù)據(jù)中的各種關(guān)系,并基于模型選擇做出適當(dāng)?shù)墓烙?jì)。簡(jiǎn)單來(lái)說(shuō),機(jī)器學(xué)習(xí)主要包括降維、模型選擇和數(shù)據(jù)分析等。此外,統(tǒng)計(jì)分析主要針對(duì)觀察值數(shù)量大于變量數(shù)量的情況進(jìn)行,機(jī)器學(xué)習(xí)不僅可以分析此類(lèi)數(shù)據(jù),也使在觀察值數(shù)量等于或少于解釋變量數(shù)量的情況下進(jìn)行數(shù)據(jù)分析成為可能。以上這些差異,尤其是機(jī)器學(xué)習(xí)不關(guān)注因果關(guān)系這一事實(shí)導(dǎo)致統(tǒng)計(jì)學(xué)家與機(jī)器學(xué)習(xí)及其算法保持距離。
斯坦福大學(xué)的Athey教授是支持在統(tǒng)計(jì)學(xué)領(lǐng)域使用機(jī)器學(xué)習(xí)的重要人物之一,并在該領(lǐng)域進(jìn)行了許多理論研究。他簡(jiǎn)要概述了機(jī)器學(xué)習(xí)和因果推斷之間的關(guān)系,創(chuàng)建了包括統(tǒng)計(jì)學(xué)習(xí)算法在內(nèi)的研究框架,為統(tǒng)計(jì)學(xué)領(lǐng)域通過(guò)機(jī)器學(xué)習(xí)進(jìn)行因果推斷作出重要貢獻(xiàn)。為了強(qiáng)調(diào)機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)領(lǐng)域應(yīng)用的重要性,Athey(2018)將機(jī)器學(xué)習(xí)定義為“機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)諸多子領(lǐng)域的集合,也是計(jì)算機(jī)科學(xué)、工程學(xué)、統(tǒng)計(jì)學(xué)和社會(huì)科學(xué)中越來(lái)越多地應(yīng)用和發(fā)展的一系列主題?!薄皺C(jī)器學(xué)習(xí)是一個(gè)開(kāi)發(fā)應(yīng)用于數(shù)據(jù)集的算法設(shè)計(jì)的領(lǐng)域,其核心主題包括估計(jì)、回歸、分類(lèi)和聚類(lèi)?!北M管機(jī)器學(xué)習(xí)方法在經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)文獻(xiàn)中占有相對(duì)有限的地位,但基于在統(tǒng)計(jì)學(xué)領(lǐng)域收集大數(shù)據(jù)的可能性以及分析大數(shù)據(jù)的愿望,人們對(duì)這些方法的興趣顯著增加。在統(tǒng)計(jì)分析中,機(jī)器學(xué)習(xí)在降維、模型選擇和數(shù)據(jù)分析等方面作用很大,且在機(jī)器學(xué)習(xí)的框架內(nèi)考慮因果關(guān)系這一事實(shí)也促進(jìn)了新統(tǒng)計(jì)方法的發(fā)展。近年來(lái),與因果推斷相關(guān)的統(tǒng)計(jì)學(xué)出現(xiàn)了新發(fā)展和新方法,機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)中變得越來(lái)越重要。
雖然經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)學(xué)領(lǐng)域關(guān)于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的研究起步較晚,但文獻(xiàn)中也涌現(xiàn)出一些有趣的研究。Varian(2014)指出,在進(jìn)行經(jīng)濟(jì)分析時(shí)集中起來(lái)的計(jì)算機(jī)更有可能執(zhí)行大量的操作,例如數(shù)據(jù)收集和編輯、個(gè)性化和定制、預(yù)測(cè)和分析,同時(shí)強(qiáng)調(diào)通過(guò)計(jì)算機(jī)分析大數(shù)據(jù)的能力對(duì)經(jīng)濟(jì)研究結(jié)果的呈現(xiàn)意義重大。Varian(2014)定義了一些使用、管理和分析大數(shù)據(jù)的工具,指出機(jī)器學(xué)習(xí)在其工作中的重要性,強(qiáng)調(diào)將來(lái)通過(guò)計(jì)算機(jī)專(zhuān)家和統(tǒng)計(jì)學(xué)家的合作,能夠取得非常好的成果。Einav和Levin(2014)廣泛討論了大數(shù)據(jù)如何改變商業(yè)、政府和經(jīng)濟(jì)的其他領(lǐng)域,并給出不同案例開(kāi)展討論,重點(diǎn)討論了不斷發(fā)展中的數(shù)據(jù)源和更詳細(xì)的數(shù)據(jù)將給經(jīng)濟(jì)實(shí)踐和分析帶來(lái)的變化。在同年發(fā)表的其他研究中,他們認(rèn)為,更詳細(xì)全面的數(shù)據(jù)可以更好地量化經(jīng)濟(jì)影響和結(jié)果,從而提供新的研究問(wèn)題。Einav和Levin(2014)強(qiáng)調(diào),大數(shù)據(jù)將改變經(jīng)濟(jì)學(xué)家和統(tǒng)計(jì)學(xué)家處理應(yīng)用研究和研究中使用統(tǒng)計(jì)工具的方式。Fan和Han(2014)討論了大數(shù)據(jù)的挑戰(zhàn),他們通過(guò)解決大數(shù)據(jù)的數(shù)量和高維度困難,引起人們對(duì)復(fù)雜性、噪聲數(shù)據(jù)和異質(zhì)性等問(wèn)題的關(guān)注。Taylor(2014)分析了如何使用大數(shù)據(jù)統(tǒng)計(jì)學(xué)方法來(lái)闡明經(jīng)濟(jì)問(wèn)題,大數(shù)據(jù)將如何發(fā)展和改變經(jīng)濟(jì)模型,以及經(jīng)濟(jì)學(xué)與其他學(xué)科的合作。
有關(guān)機(jī)器學(xué)習(xí)的文獻(xiàn)中,許多研究作了政策預(yù)測(cè),如Jiang和Li(2016)、Athey和Wager(2021)、Dudik和Erhan等(2014)。Athey(2017)總結(jié)了在政策實(shí)施中使用估計(jì)方法時(shí)出現(xiàn)的幾個(gè)問(wèn)題。據(jù)了解,最近的研究主要集中在通過(guò)修正和開(kāi)發(fā)新的統(tǒng)計(jì)技術(shù)進(jìn)行因果推斷,特別是在機(jī)器學(xué)習(xí)算法中。Hastie和Tibshirani(2009)討論了大數(shù)據(jù)中的非參數(shù)方法,LASSO方法是有監(jiān)督機(jī)器學(xué)習(xí)中最重要的方法之一,它是一種懲罰回歸模型,由于大數(shù)據(jù)的高維性,這些估計(jì)方法在大數(shù)據(jù)研究中得到普遍使用。Belloni和Chernozhukov等(2015)展示了在他們的工作中將機(jī)器學(xué)習(xí)方法應(yīng)用于經(jīng)濟(jì)學(xué)因果推理的例子。除此之外,其研究中還加入了人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等概念,并強(qiáng)調(diào)了機(jī)器學(xué)習(xí)的必要性。
Belloni和Chernozhukov(2014)對(duì)LASSO方法提出了改進(jìn),借助這種改進(jìn),得到能夠獲得有效置信區(qū)間的條件。他們?cè)谘芯恐姓故玖苏鎸?shí)數(shù)據(jù)集中可能出現(xiàn)的偏差量,還強(qiáng)調(diào)了預(yù)測(cè)建模和因果效應(yīng)估計(jì)之間的區(qū)別。隨機(jī)森林也是重要的機(jī)器學(xué)習(xí)方法之一,Wager和Athey(2017)在他們的研究中強(qiáng)調(diào),雖然隨機(jī)森林的結(jié)構(gòu)看起來(lái)很復(fù)雜,且與標(biāo)準(zhǔn)的統(tǒng)計(jì)學(xué)方法有很大不同,但它與k近鄰等非參數(shù)方法密切相關(guān)。此外,他們對(duì)隨機(jī)森林方法進(jìn)行了修正,使該方法能夠以真實(shí)條件期望函數(shù)為中心給出漸近估計(jì),并得到漸近方差的一致估計(jì)量。Wager和Athey(2018)引入了因果森林的思想,因果森林是機(jī)器學(xué)習(xí)中使用的大量樹(shù)的平均值。Athey和Tibshirani(2019)還建議用廣義隨機(jī)森林替代局部廣義矩或局部最大相似度方法。在另一項(xiàng)研究中,Athey(2018)定義了機(jī)器學(xué)習(xí)并討論其優(yōu)劣勢(shì),將機(jī)器學(xué)習(xí)與用于因果推斷的傳統(tǒng)統(tǒng)計(jì)學(xué)工具進(jìn)行了比較。
根據(jù)以上文獻(xiàn)梳理與分析,當(dāng)前大數(shù)據(jù)和機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)領(lǐng)域的研究熱點(diǎn)及未來(lái)主要研究趨勢(shì)可以歸納為如下方面:1.大數(shù)據(jù)分析。隨著信息技術(shù)的發(fā)展,越來(lái)越多的數(shù)據(jù)被產(chǎn)生和收集,大數(shù)據(jù)分析正在成為統(tǒng)計(jì)學(xué)的一個(gè)重要方向,它涉及如何從大規(guī)模、復(fù)雜的數(shù)據(jù)集中抽取有用的信息。2.機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)的融合。統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)之間的邊界正在逐漸模糊,兩者的結(jié)合能夠更好地處理復(fù)雜的預(yù)測(cè)和分類(lèi)問(wèn)題。3.深度學(xué)習(xí)。盡管深度學(xué)習(xí)更多被視為人工智能領(lǐng)域的一部分,但其在統(tǒng)計(jì)學(xué)中也有應(yīng)用,特別是在處理高維度、非線(xiàn)性數(shù)據(jù)時(shí)。4.貝葉斯方法的復(fù)興。貝葉斯方法在處理不確定性和復(fù)雜數(shù)據(jù)結(jié)構(gòu)時(shí)具有獨(dú)特的優(yōu)勢(shì),隨著計(jì)算能力的提高,貝葉斯方法在統(tǒng)計(jì)學(xué)中的應(yīng)用越來(lái)越廣泛。5.因果推斷。因果推斷試圖從數(shù)據(jù)中推斷出因果關(guān)系,而不僅僅是相關(guān)關(guān)系,這在很多領(lǐng)域都有應(yīng)用,例如公共衛(wèi)生、經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)。6.計(jì)算統(tǒng)計(jì)。隨著計(jì)算能力的提高,計(jì)算統(tǒng)計(jì)學(xué)正在成為統(tǒng)計(jì)學(xué)的重要分支,涉及使用計(jì)算機(jī)模擬和其他數(shù)值方法解決統(tǒng)計(jì)問(wèn)題。7.隱私保護(hù)和數(shù)據(jù)安全。隨著數(shù)據(jù)收集和分析的增加,如何保護(hù)個(gè)人信息和數(shù)據(jù)安全成為重要問(wèn)題,包括開(kāi)發(fā)新的、對(duì)隱私友好的統(tǒng)計(jì)方法,如差分隱私。8.可解釋性和透明度。在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,統(tǒng)計(jì)模型的可解釋性和透明度越來(lái)越重要,統(tǒng)計(jì)學(xué)家正在尋找方法來(lái)理解和解釋這些復(fù)雜模型。9.統(tǒng)計(jì)學(xué)在非傳統(tǒng)領(lǐng)域的應(yīng)用。統(tǒng)計(jì)學(xué)方法被應(yīng)用于越來(lái)越多的非傳統(tǒng)領(lǐng)域,如社會(huì)網(wǎng)絡(luò)分析、基因組學(xué)和神經(jīng)科學(xué)。10.自動(dòng)化和AI驅(qū)動(dòng)的統(tǒng)計(jì)分析。隨著人工智能和自動(dòng)化技術(shù)的進(jìn)步,更多的統(tǒng)計(jì)分析將被自動(dòng)化,如自動(dòng)特征選擇、自動(dòng)模型選擇和自動(dòng)超參數(shù)調(diào)優(yōu)等正在被研發(fā)應(yīng)用。11.高維統(tǒng)計(jì)。在許多領(lǐng)域如生物信息學(xué)和網(wǎng)絡(luò)分析,統(tǒng)計(jì)學(xué)家常常需要處理高維數(shù)據(jù),高維統(tǒng)計(jì)研究如何從高維數(shù)據(jù)中提取有用信息,同時(shí)避免諸如“維度災(zāi)難”等問(wèn)題。12.穩(wěn)健統(tǒng)計(jì)。穩(wěn)健統(tǒng)計(jì)研究如何創(chuàng)建對(duì)異常值和模型假設(shè)的小偏差具有彈性的方法,隨著數(shù)據(jù)質(zhì)量和數(shù)據(jù)一致性問(wèn)題的增加,該領(lǐng)域的重要性正在增強(qiáng)。13.在線(xiàn)學(xué)習(xí)和數(shù)據(jù)流統(tǒng)計(jì)。在線(xiàn)學(xué)習(xí)指模型在新數(shù)據(jù)到來(lái)時(shí)進(jìn)行更新,而不是一次處理所有數(shù)據(jù),這種方法對(duì)處理大規(guī)模數(shù)據(jù)流和時(shí)變數(shù)據(jù)特別有用。14.時(shí)間序列分析的新方法。新的時(shí)間序列分析方法,如復(fù)雜的非線(xiàn)性模型和多元時(shí)間序列模型正在被開(kāi)發(fā)和應(yīng)用。15.統(tǒng)計(jì)學(xué)軟件和編程語(yǔ)言。編程語(yǔ)言和軟件工具,如R和Python正在持續(xù)發(fā)展以幫助統(tǒng)計(jì)學(xué)家更有效地進(jìn)行數(shù)據(jù)分析,同時(shí)新的統(tǒng)計(jì)學(xué)軟件也在不斷出現(xiàn)。16.圖形模型。包括貝葉斯網(wǎng)絡(luò)和馬爾科夫隨機(jī)場(chǎng)等,可用于表示變量之間的復(fù)雜依賴(lài)關(guān)系,這些模型在處理高維數(shù)據(jù)和非線(xiàn)性關(guān)系時(shí)尤其有用。17.優(yōu)化統(tǒng)計(jì)學(xué)。優(yōu)化方法在統(tǒng)計(jì)學(xué)中的應(yīng)用正在擴(kuò)大,尤其在參數(shù)估計(jì)和模型選擇中,最近凸優(yōu)化、隨機(jī)優(yōu)化和分布式優(yōu)化等方法的應(yīng)用領(lǐng)域正在擴(kuò)大。18.神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的統(tǒng)計(jì)理論。盡管深度學(xué)習(xí)在實(shí)踐中取得了巨大成功,但其統(tǒng)計(jì)理論基礎(chǔ)仍不清楚,理解神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)屬性和學(xué)習(xí)動(dòng)態(tài)是一個(gè)重要的研究方向。19.元分析和系統(tǒng)評(píng)估。元分析和系統(tǒng)評(píng)估是復(fù)雜研究綜述的重要工具,這些方法可將來(lái)自不同研究的結(jié)果進(jìn)行匯總,并評(píng)估研究質(zhì)量和偏倚。20.生存分析或事件史分析的新方法。生存分析或事件史分析是統(tǒng)計(jì)學(xué)重要分支,復(fù)雜協(xié)變量模型和多事件模型等新方法正在不斷被開(kāi)發(fā)和應(yīng)用。
與其他領(lǐng)域一樣,在統(tǒng)計(jì)學(xué)領(lǐng)域能收集到關(guān)于不同測(cè)量變量的大量數(shù)據(jù)。大數(shù)據(jù)分析能夠揭示與經(jīng)典數(shù)據(jù)應(yīng)用及預(yù)測(cè)方法的差異以及帶來(lái)的新問(wèn)題。鑒于大數(shù)據(jù)的樣本量大、高維度等特點(diǎn),在統(tǒng)計(jì)學(xué)領(lǐng)域需要使用機(jī)器學(xué)習(xí)等提供的方法和算法開(kāi)展研究。在統(tǒng)計(jì)分析中使用機(jī)器學(xué)習(xí)方法和算法的同時(shí),要明白統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)之間的差異。為克服這些差異更好地使用大數(shù)據(jù),開(kāi)發(fā)新機(jī)器學(xué)習(xí)算法和方法很重要。
統(tǒng)計(jì)學(xué)中的大數(shù)據(jù)研究可能開(kāi)創(chuàng)一個(gè)全新而有趣的領(lǐng)域。近年來(lái),統(tǒng)計(jì)學(xué)領(lǐng)域的學(xué)術(shù)研究、學(xué)術(shù)會(huì)議等明顯表現(xiàn)出了對(duì)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的興趣。大數(shù)據(jù)統(tǒng)計(jì)學(xué)和大數(shù)據(jù)計(jì)量經(jīng)濟(jì)學(xué)課程已經(jīng)開(kāi)始在碩博士課程中開(kāi)設(shè)。從這種日益增長(zhǎng)的興趣中可以看出,除了統(tǒng)計(jì)學(xué)中現(xiàn)有的大數(shù)據(jù)應(yīng)用,新的機(jī)器學(xué)習(xí)算法和方法將得到廣泛應(yīng)用。有了這些新的機(jī)器學(xué)習(xí)算法和方法,統(tǒng)計(jì)學(xué)研究將在大數(shù)據(jù)的使用上得到廣泛應(yīng)用,利用更詳細(xì)的信息進(jìn)行分析,并利用從不同來(lái)源獲得的信息得出不同的結(jié)果。
通過(guò)統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的跨學(xué)科合作,建立一種通用語(yǔ)言揭示相關(guān)研究十分重要,將在不同領(lǐng)域發(fā)現(xiàn)更多可能。開(kāi)發(fā)符合統(tǒng)計(jì)學(xué)研究目的的算法和方法,將對(duì)在統(tǒng)計(jì)學(xué)領(lǐng)域更廣泛地進(jìn)行大數(shù)據(jù)分析發(fā)揮重要作用。本文梳理最新研究文獻(xiàn)的進(jìn)展,為大數(shù)據(jù)與機(jī)器學(xué)習(xí)在統(tǒng)計(jì)學(xué)的研究開(kāi)辟了新視野。
統(tǒng)計(jì)理論與實(shí)踐2023年10期