葉小青,汪政紅,吳 浩
(中南民族大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,武漢 430074)
隨著通訊和信息技術(shù)的高速發(fā)展,全球數(shù)據(jù)爆炸性地增長.面對(duì)鋪天蓋地的海量大數(shù)據(jù),有效的數(shù)據(jù)分析與挖掘?qū)⑼苿?dòng)國家、企業(yè)乃至整個(gè)社會(huì)的高效、可持續(xù)發(fā)展.值得強(qiáng)調(diào)的是,在大數(shù)據(jù)分析與挖掘任務(wù)中,統(tǒng)計(jì)分析的研究受到更為廣泛的關(guān)注和重視.而大部分傳統(tǒng)統(tǒng)計(jì)方法對(duì)大數(shù)據(jù)的研究存在局限性:一是傳統(tǒng)統(tǒng)計(jì)方法適合分析單個(gè)計(jì)算機(jī)存儲(chǔ)的數(shù)據(jù),無疑導(dǎo)致了數(shù)據(jù)處理和整合的困難;二是傳統(tǒng)統(tǒng)計(jì)方法難以適應(yīng)大數(shù)據(jù)源的高速性和實(shí)時(shí)性等特點(diǎn).因此,為了適應(yīng)大數(shù)據(jù)這一新的研究對(duì)象,傳統(tǒng)統(tǒng)計(jì)學(xué)必須進(jìn)行改進(jìn),以更好地服務(wù)于人類.目前國內(nèi)外將大數(shù)據(jù)和傳統(tǒng)統(tǒng)計(jì)學(xué)相結(jié)合的研究文獻(xiàn)并不多,使得大數(shù)據(jù)背景下統(tǒng)計(jì)分析的研究成為學(xué)術(shù)界關(guān)注的熱點(diǎn)難點(diǎn)問題,其代表性文獻(xiàn)集中于三大方面:分治算法、抽樣法和在線更新算法.
第一,分治算法是將初始大數(shù)據(jù)集分成適合當(dāng)前計(jì)算管理能力的K個(gè)子集,先對(duì)每個(gè)子集做統(tǒng)計(jì)分析,然后綜合K個(gè)子集的分析結(jié)果.分治算法通過對(duì)子集的平行計(jì)算可以縮減計(jì)算成本,但是,如何總結(jié)K個(gè)子集的估計(jì)結(jié)果,才能使最終的估計(jì)結(jié)果更有效?為了得到最終有效的估計(jì)量,部分研究者提出了不同的估計(jì)方法,如Li等對(duì)大數(shù)據(jù)集的單參數(shù)回歸模型提出了二階段法,其研究結(jié)果表明二階段法可以顯著地降低計(jì)算成本,且估計(jì)量具有漸進(jìn)正態(tài)性[1].Lin和Xi對(duì)非線性回歸方程的參數(shù)估計(jì)提出了有效的聚合估計(jì)(AEE,Aggregated Estimating Equation),研究結(jié)果顯示AEE估計(jì)量具有一致性,而且能顯著地縮減計(jì)算成本[2].在應(yīng)用方面,AEE估計(jì)方法適合于大型數(shù)據(jù)立方和數(shù)據(jù)流.Xu等對(duì)廣義回歸方程提出了非參數(shù)分布核估計(jì)方法(DKR,Distributed Kernel Regression),其研究結(jié)論為:在適當(dāng)劃分子樣本集的條件下,DKR估計(jì)方法具有一致性[3].Chen和Xie(2014)運(yùn)用懲罰似然函數(shù)估計(jì)各子集的廣義線性回歸方程,并利用多數(shù)表決法得到大數(shù)據(jù)集的最終估計(jì)量,研究結(jié)果表明估計(jì)量具有符號(hào)一致性[4].
第二,抽樣法的基本思想是從初始大數(shù)據(jù)中隨機(jī)提取子樣本代替原始數(shù)據(jù)對(duì)模型進(jìn)行估計(jì)、預(yù)測以及統(tǒng)計(jì)推斷.抽樣法的難點(diǎn)在于設(shè)計(jì)子樣本的概率分布.最簡單的概率分布是均勻分布,大量研究文獻(xiàn)表明運(yùn)用統(tǒng)計(jì)杠桿值作為子樣本的概率分布優(yōu)于均勻分布(Mahoney等[5],Drineas等[6]).Ma和Sun也認(rèn)為利用杠桿值作為子樣本的概率分布能準(zhǔn)確有效地提取大規(guī)模樣本信息,并且從統(tǒng)計(jì)角度研究了基于杠桿值抽樣算法估計(jì)量的性質(zhì)[7].
第三,隨著科學(xué)技術(shù)的不斷普及,大數(shù)據(jù)的規(guī)模和程度不斷地增大,具有實(shí)時(shí)更新特性.例如在銀行的存款中,每天都有成千上萬的客戶利用自動(dòng)取款機(jī)或人工服務(wù)進(jìn)行交易,每一位客戶對(duì)自己的銀行賬號(hào)進(jìn)行操作,對(duì)于銀行的整個(gè)數(shù)據(jù)系統(tǒng)來說是極小的一部分,面對(duì)這樣實(shí)時(shí)在線更新的大數(shù)據(jù),如何獲得計(jì)算效率高、成本低的算法呢?Schifano等擴(kuò)展了Lin和Xi的理論方法,研究了廣義非線性模型的回歸系數(shù)和標(biāo)準(zhǔn)誤的在線更新估計(jì)量,其研究結(jié)果顯示在線更新估計(jì)量具有一致性,而且有限樣本仿真模擬表明在線更新估計(jì)量具有較小的偏誤[8].Wang等基于Schifano研究結(jié)論首次提出了標(biāo)準(zhǔn)變量選擇的在線更新模型,并根據(jù)AIC、BIC和DIC信息準(zhǔn)則來選擇最優(yōu)變量[9].
從以上大數(shù)據(jù)統(tǒng)計(jì)分析的研究進(jìn)展來看,盡管研究成果尚不豐富,仍處于起步階段,但對(duì)現(xiàn)有成果的梳理與總結(jié),可以為關(guān)注大數(shù)據(jù)統(tǒng)計(jì)分析的研究者、教學(xué)者提供借鑒.
分治算法是將初始大數(shù)據(jù)集分成適合當(dāng)前計(jì)算機(jī)管理能力的K個(gè)子集,先對(duì)每個(gè)子集做統(tǒng)計(jì)分析,然后綜合K個(gè)子集的分析結(jié)果.下面詳細(xì)介紹幾種有效的分治算法.
Li等提出了二階段法,其基本思想:第一階段將整個(gè)數(shù)據(jù)集劃分為若干子樣本,使得每個(gè)子樣本都適合目前的計(jì)算機(jī)管理能力,估計(jì)每個(gè)子樣本參數(shù);第二階段對(duì)每個(gè)子樣本估計(jì)結(jié)果取平均值.
假設(shè)x1,x2,…,xn是獨(dú)立同分布樣本,此處xi可以是隨機(jī)變量或隨機(jī)向量.為了清晰表達(dá)二階段估計(jì)算法,將樣本表示如下:
Xu等提出了非參數(shù)分布核回歸(DKR)方法來估計(jì)參數(shù)方程,該方法不僅具有普適性,而且不依賴于任何真實(shí)模型的參數(shù)假設(shè).
設(shè)Y∈[-M,M]?R是因變量,其界限M>0,X是解釋變量且X∈κ?Rd,κ為d維空間一緊集.總體Z=[-M,M]×κ分布未知,且設(shè)S={zi=(yi,xi),i=1,2,…,N}是來自Z的N個(gè)獨(dú)立樣本觀測值.記f:κ→R為X與Y之間的潛在函數(shù)關(guān)系.在大數(shù)據(jù)背景下,如何估計(jì)函數(shù)關(guān)系f,非參數(shù)分布核回歸算法具體如下:
1) 假設(shè)S平均隨機(jī)分成m份,每份樣本容量為n=N/m,m個(gè)子樣本標(biāo)識(shí)分別為S1,S2,…,Sm;
2) 記TM[·]為閾值M的截取算子,基于子樣本Sj,得fj估計(jì)值為:
Chen和Xie為廣義線性模型的參數(shù)估計(jì)提出了一種分治算法,其估計(jì)思想為基于子樣本的似然函數(shù),加入懲罰項(xiàng),稱為廣義似然函數(shù),并最大化廣義似然函數(shù)估計(jì)子樣本參數(shù),最后運(yùn)用多數(shù)表決法得出大樣本數(shù)據(jù)的綜合估計(jì)量,通過仿真和數(shù)據(jù)實(shí)例表明該方法能極大地縮減計(jì)算時(shí)間和計(jì)算存儲(chǔ)空間.
假設(shè)在給定X=(x1,…,xn)T的情況下,y=(y1,…,yn)T條件分布為典型指數(shù)分布,那么似然函數(shù)為:
其中,b(θ)=[b(θ1),b(θ2),…,b(θn)]T且θ=(θ1,θ2,…,θn)T,函數(shù)b(·)二階可導(dǎo).
相應(yīng)地,第k個(gè)子塊的懲罰估計(jì)量為:
抽樣法基本思想是從初始數(shù)據(jù)中提取伴隨一定概率分布的子樣本代替原始大數(shù)據(jù)對(duì)模型進(jìn)行估計(jì)、預(yù)測以及統(tǒng)計(jì)推斷.抽樣法的難點(diǎn)在于對(duì)各子樣本概率分布的設(shè)計(jì).下面以經(jīng)典線性回歸模型為例,闡述幾種典型的抽樣法.
假設(shè)y=Xβ+ε,y是n×1向量,X是n×p維矩陣,包含截距項(xiàng)和p-1個(gè)解釋變量,β是p×1系數(shù)向量,ε為服從多元正態(tài)分布的殘差項(xiàng),系數(shù)向量β的OLS估計(jì)量為:
(1)
(2)
杠桿值抽樣法(Basic Leverage Sampling Method(BLSM))基本思想是選取對(duì)回歸線具有影響的樣本點(diǎn).最初是Weisberg提出杠桿值的概念[11].杠桿值越大,其影響越大.
Meng等研究發(fā)現(xiàn)當(dāng)不同維度的數(shù)據(jù)集具有不同的分布時(shí),BLSM方法將不利于獲得高倍影響點(diǎn).為了克服這個(gè)缺點(diǎn),下面提出縮減杠桿值法.
縮減杠桿值法(Shrinkage Leveraging Method (SLM))綜合了均勻分布概率法和基本杠桿值得分法,其表達(dá)式為這兩者的線性組合:
(3)
其中,
由此可以得到:
利用這個(gè)近似關(guān)系,式(3)左右兩邊取方差,得到方差的累積更新估計(jì)量為:
(4)
其中,
(5)
(6)
大數(shù)據(jù)表現(xiàn)出的高維性、海量性和實(shí)時(shí)性等特征,為大數(shù)據(jù)統(tǒng)計(jì)分析提出了嚴(yán)峻的挑戰(zhàn).圍繞這些挑戰(zhàn),分治算法、抽樣法和在線更新算法已經(jīng)取得重要進(jìn)展,但鑒于大數(shù)據(jù)的復(fù)雜特征,仍有諸多亟待探索與解決的難題.
(1)模型精確性和計(jì)算效率的權(quán)衡.在大數(shù)據(jù)分析中,為了得到更精確的結(jié)果,通常不僅需要更復(fù)雜的模型,而且需要更多的計(jì)算資源,往往造成計(jì)算極其復(fù)雜,計(jì)算成本偏高,計(jì)算效率偏低.那么如何在計(jì)算精準(zhǔn)性和計(jì)算效率之間權(quán)衡是我們面臨的一大問題.這就需要為簡單模型設(shè)計(jì)有效的算法,也即在大數(shù)據(jù)背景下,使得簡單模型具有更加良好的表現(xiàn).例如,Google公司翻譯和語音識(shí)別系統(tǒng),由于大數(shù)據(jù)的可獲性,顯著提高了傳統(tǒng)經(jīng)典模型優(yōu)良精準(zhǔn)的特征.這個(gè)例子說明傳統(tǒng)簡單模型在大數(shù)據(jù)背景下可能具有更精確的表現(xiàn).那么,如何獲得得益于大數(shù)據(jù)的簡單準(zhǔn)確模型將是一個(gè)巨大的挑戰(zhàn);
(2)排序問題.從海量大數(shù)據(jù)中篩選出最有價(jià)值的信息極其重要.此類統(tǒng)計(jì)排序問題目的是將最重要或關(guān)聯(lián)最強(qiáng)的信息排在最前面.一般來說,最重要的信息排列在前,那么該排序算法最好.研究者面臨如何設(shè)計(jì)統(tǒng)計(jì)意義上合理的量度,來衡量排序的質(zhì)量,以及后續(xù)的對(duì)統(tǒng)計(jì)推斷的研究(Duchi等[13]);
(3)尾部特征分析.在傳統(tǒng)經(jīng)濟(jì)學(xué)中,概率0.05會(huì)被認(rèn)為是可以忽略的稀有事件.然而,在大數(shù)據(jù)背景下,這些所謂的稀有事件可能頻繁發(fā)生,將引起特別的關(guān)注.這就意味著尾部行為特征分析也將成為大數(shù)據(jù)問題的巨大挑戰(zhàn)之一;
(4)大規(guī)模優(yōu)化問題.眾所周知,在建模中,優(yōu)化起著至關(guān)重要的作用.例如最大似然估計(jì)法就是解決優(yōu)化問題的常規(guī)方法.在大數(shù)據(jù)應(yīng)用中,一個(gè)重要的方向便是在線優(yōu)化算法.對(duì)處理實(shí)時(shí)更新的大數(shù)據(jù)流,在線優(yōu)化算法應(yīng)具備兩個(gè)基本特征:1)在線優(yōu)化算法不僅能減小樣本數(shù)據(jù)的存儲(chǔ)量,而且能存儲(chǔ)和實(shí)時(shí)更新模型的估計(jì)參數(shù);2)在線優(yōu)化算法同時(shí)兼顧模型擬合和模型選擇.比如,當(dāng)新數(shù)據(jù)流來臨時(shí),模型擬合和模型選擇能同時(shí)更新嗎?模型選擇參數(shù)能同時(shí)發(fā)生調(diào)整嗎?這些是在線優(yōu)化算法需要考慮的研究課題;
(5)因果推斷模型.在大數(shù)據(jù)背景下,因果推斷問題將面臨極大的機(jī)遇與挑戰(zhàn).主要應(yīng)用方面有:氣候變化問題、醫(yī)療健康療效比較研究以及行為經(jīng)濟(jì)學(xué)等問題.例如,給定100萬人的電子健康記錄,我們哪些藥品在哪些方面有療效?目前這些因果推斷方面的研究在大數(shù)據(jù)背景下少有關(guān)注.
綜合來看,盡管大數(shù)據(jù)統(tǒng)計(jì)分析的研究成果尚處于起步階段,目前僅僅進(jìn)行了一些初步探索.但是,圍繞海量性、高速性及在線更新實(shí)時(shí)性等特征的研究文獻(xiàn)已經(jīng)為大數(shù)據(jù)統(tǒng)計(jì)分析提供了一個(gè)基本的研究框架,為更多有價(jià)值研究的不斷涌現(xiàn)奠定了重要基礎(chǔ).
本文在對(duì)現(xiàn)有大數(shù)據(jù)統(tǒng)計(jì)分析研究文獻(xiàn)進(jìn)行歸納和總結(jié)的基礎(chǔ)上,具體從分治算法、抽樣算法和在線更新算法三方面闡述分析,希望能夠?yàn)殛P(guān)注大數(shù)據(jù)統(tǒng)計(jì)分析理論與應(yīng)用的研究者與實(shí)踐者提供參考.可以預(yù)見,在未來的大數(shù)據(jù)研究中,具有快捷、清晰、高效探測事物內(nèi)在關(guān)系和規(guī)律的大數(shù)據(jù)統(tǒng)計(jì)分析領(lǐng)域?qū)⒂楷F(xiàn)出大量的重要研究成果.