白德發(fā), 徐 欣, 王國長*
(1.暨南大學(xué)地方研究總院, 廣東廣州510632; 2.暨南大學(xué)經(jīng)濟學(xué)院, 廣東廣州510632)
隨著科技和經(jīng)濟的發(fā)展,尤其是計算機儲存技術(shù)的快速發(fā)展,在線觀測成為現(xiàn)實,使得當今觀測的數(shù)據(jù)量越來越大,維數(shù)越來越高,且相鄰觀測間高度相關(guān),導(dǎo)致很多經(jīng)典的統(tǒng)計分析方法不再適用,它們逐漸被推廣到函數(shù)型數(shù)據(jù)[1-3]。本文從函數(shù)型數(shù)據(jù)發(fā)展的數(shù)據(jù)形式、函數(shù)近似包括基底展開和主成分、函數(shù)廣義線性模型和分類等問題的發(fā)展歷程及未來發(fā)展方向等方面進行詳細的綜述。
函數(shù)型數(shù)據(jù)的研究可追溯到20世紀50年代,Grenander[4]研究了隨機過程的理論性質(zhì)及估計方法的問題;Rao[5]應(yīng)用函數(shù)型數(shù)據(jù)分析方法處理兒童的生長曲線數(shù)據(jù),得到了十分顯著的應(yīng)用效果。本文從研究的數(shù)據(jù)形式和函數(shù)型數(shù)據(jù)具體研究的內(nèi)容和進展兩個方面進一步綜述函數(shù)型數(shù)據(jù)的發(fā)展。
函數(shù)型數(shù)據(jù)把整個曲線x(t)t∈T看成是來自Hilbert空間里的一個元素,假設(shè)x1(t),…,xn(t)是來自總體隨機過程x(t)的一組樣本。在實際問題中,由于x1(t),…,xn(t)無法在整個區(qū)間T上觀測到,通常是觀測到離散的點,如{xtij},i=1,…,N,j=1,…,Mi,其中,T是R上的一個緊區(qū)間,tij為第i個個體的觀測點。在函數(shù)型數(shù)據(jù)發(fā)展歷程中,根據(jù)Mi的大小和取值,將函數(shù)型數(shù)據(jù)分為超稠密型數(shù)據(jù)、平衡稠密型數(shù)據(jù)、非平衡稠密型數(shù)據(jù)、稀疏數(shù)據(jù)、超稀疏數(shù)據(jù)、流形數(shù)據(jù)和圖像數(shù)據(jù),具體如下:
(a)超稠密型數(shù)據(jù):對于每一個個體i而言,Mi都很大(成千上萬個觀測),且不同個體可能的觀測點也不同,即tij對不同的個體i取值不一樣。
(b)平衡稠密型數(shù)據(jù):對每一個個體都有相同的觀測,且觀測點也一樣,即M1=M2=…=Mn=M,且每個個體的觀測點也一樣。通常M足夠大,每一個個體僅用自身的觀測點就能很好地擬合出自身的曲線。
(c)非平衡稠密型數(shù)據(jù):對于不同的個體i,Mi和觀測點都不盡相同,但是每一個Mi都足夠大,足以很好地把個體i這條曲線擬合出來。
(d)稀疏數(shù)據(jù):對于不同的個體i,Mi和觀測點都不盡相同,且Mi數(shù)值不大,僅利用Mi個觀測點不能把整個曲線擬合出來,需要借助不同個體的觀測點來進行曲線擬合。
(e)超稀疏數(shù)據(jù):對于每一個i而言,Mi都很小,需要借助其他個體來擬合曲線。
(f )流形數(shù)據(jù):如地球上的運動軌跡。
(g)圖像數(shù)據(jù):主要以FRI和CT數(shù)據(jù)等為研究對象,一般可以看成是2維或多維的函數(shù)型數(shù)據(jù)。
超稠密型數(shù)據(jù)的研究起步較晚,Zipunnikov等[6]提出將重復(fù)測量的高維觀測值的觀測可變性分解為隨機截距、斜率、偏差3個相加分量的方法,解決了使用高維縱向數(shù)據(jù)主成分分析(HD-LFPCA)在多次訪問數(shù)據(jù)中的探索和分析高維圖像種群的問題。Xiao等[7]研究了高維函數(shù)數(shù)據(jù)基于三明治平滑器的快速協(xié)方差平滑估計,讓高維數(shù)據(jù)的計算速度提升了一個數(shù)量級。王德青等[8]則從聚類分析的角度出發(fā),厘清了函數(shù)型數(shù)據(jù)聚類分析的研究現(xiàn)狀,明確了原始數(shù)據(jù)直接聚類、兩步法串聯(lián)聚類、非參數(shù)距離聚類、自適應(yīng)模型聚類,這4種可以將高維函數(shù)數(shù)據(jù)降維的函數(shù)型聚類方法。Xue等[9]開發(fā)了用于后正則化推理的技術(shù),并基于一個能夠在函數(shù)空間中,分離主要參數(shù)和干擾參數(shù)的不相關(guān)分數(shù)函數(shù),提出了一種新式的超密集函數(shù)線性回歸測試方法。
函數(shù)型數(shù)據(jù)最開始的研究是以稠密型數(shù)據(jù)為主,主要的分析工具是借助于基底展開,包括樣條、小波和傅里葉等基底來擬合曲線,具體可以參考由Ramsay等[10]撰寫的函數(shù)型數(shù)據(jù)書籍,而相關(guān)的程序?qū)崿F(xiàn)可以參考文獻[11]和R語言程序包fda。函數(shù)型數(shù)據(jù)非參數(shù)估計方法的研究可以參考Ferraty等[12]撰寫的函數(shù)型數(shù)據(jù)書籍,而相關(guān)的程序可以從網(wǎng)址https:∥math.univ-toulouse.fr/staph/npfda/下載。函數(shù)型稀疏數(shù)據(jù)被廣泛地研究,包括國內(nèi)外眾多知名學(xué)者,如Hall等[13]、Delaigle等[14]、Yuan等[15]Cai等[16-17]、Chiou等[18-19]、Yao等[20-21]、He等[22]、entürk等[23]、Müller等[24]、Wang等[25]等。主要應(yīng)用的工具為隨機過程的Karhunen-Loeve,源于Ash等[26],相關(guān)程序可以參考網(wǎng)址http:∥www.stat.ucdavis.edu/PACE/。James主要提出基于隨機效應(yīng)模型的樣條估計,其相關(guān)程序可以參考網(wǎng)址http:∥faculty.marshall.usc.edu/gareth-james/Research/Research.html。
稀疏數(shù)據(jù)的時間序列模型研究可以參考Horváth等[27]。超稀疏數(shù)據(jù)的研究相對甚少,Zhang等[28]從理論上研究了超稀疏數(shù)據(jù)估計的大樣本性質(zhì)。
流形數(shù)據(jù)的研究始于2018年,Dai等[29]首次研究了光滑黎曼流形函數(shù)型數(shù)據(jù)的主成分分析RFPCA(Riemannian functional principal component analysis),并研究了主成分得分和主成分函數(shù)的理論性質(zhì)。Lin 等[30]推導(dǎo)了黎曼隨機過程上的Karhunen-Loeve展開,并給出了intrinsic RFPCA(iRFPCA)和RFLR(intrinsic Riemannian functional linear regression)等的估計方法,推導(dǎo)了相關(guān)的理論性質(zhì),模擬和實際數(shù)據(jù)分析進一步證實了IRFPCA和IRFLM 方法的優(yōu)越性。Lin等[31]在黎曼流形和李群空間上研究了函數(shù)型數(shù)據(jù)的加性模型,并給出了非參數(shù)估計的最優(yōu)收斂速度和參數(shù)估計的漸近正態(tài)性。關(guān)于這方面研究的程序可以從網(wǎng)址http:∥www.stat.ucdavis.edu/PACE/下載。圖像數(shù)據(jù)或者二維函數(shù)型數(shù)據(jù)的研究主要應(yīng)用于醫(yī)學(xué)FMRI和CT數(shù)據(jù)。Zhu等[32]建議采用空間變系數(shù)模型分析具有跳躍點的神經(jīng)影像數(shù)據(jù)。Goldsmith等[33]建議用空間貝葉斯變量選擇方法估計函數(shù)圖像回歸參數(shù),通過控制潛在的二值指示地圖和內(nèi)在的高斯馬爾可夫隨機域控制非零系數(shù)的光滑程度,從而進行變量選擇。Wang等[34]采用Haar小波分析來分析一維反應(yīng)對3維腦圖像數(shù)據(jù)的回歸問題,并采用非參數(shù)貝葉斯的方法,能夠自動地鑒別附近像素的空間信息。
Ramsay等[3]第一次提出了函數(shù)型數(shù)據(jù)分析的概念,并應(yīng)用到加拿大35個氣象站年降雨量數(shù)據(jù)的預(yù)測中。Silverman[2]把主成分分析推廣到函數(shù)型數(shù)據(jù)分析,通過引入正則項得到光滑的主成分基底函數(shù)估計。James等[1]采用樣條近似預(yù)測曲線和隨機效應(yīng)模型估計稀疏函數(shù)型數(shù)據(jù)的主成分。Yao等[35]利用局部線性核估計和條件期望估計稀疏數(shù)據(jù)的基底函數(shù)和主成分得分,研究了相關(guān)理論性質(zhì)。Peng等[36]采用限制極大似然估計來估計函數(shù)主成分問題,并推導(dǎo)了相關(guān)理論性質(zhì)。Chen等[37]在局部區(qū)間里考慮了函數(shù)主成分分析,并推導(dǎo)了相關(guān)理論性質(zhì)。Leurgans等[38]首次推廣向量的典型相關(guān)分析到函數(shù)型數(shù)據(jù),指出對于無窮維的函數(shù)型數(shù)據(jù),采用基底展開的方式來估計典型相關(guān)函數(shù)必須對待估函數(shù)加上正則化的懲罰才能得到有意義的結(jié)果。He等[39]基于 Karhunen-Loeve[26]展開來估計函數(shù)典型相關(guān)分析,He等[40]列舉了函數(shù)典型相關(guān)分析的具體應(yīng)用。函數(shù)回歸模型是被研究最多的模型,包括線性模型和非線性模型,其中,被研究最多的線性模型有如下幾種:
②反應(yīng)是函數(shù),預(yù)測是隨機變量或向量:Y(t)=XTβ(t)+,
④函數(shù)變系數(shù)模型:Y(t)=α(t)+x(t)β(t)+(t),
⑤函數(shù)方差分析模型:Ymg(t)=α(t)+αg(t)+xmg(t)β(t)+mg(t),
線性模型①是被研究得最早和最廣泛的模型之一,Cardot等[41]首次研究了該線性模型的計算問題,Cardot等[42]基于樣條基底展開和主成分降維的估計,推導(dǎo)了基于樣條展開估計的漸近收斂性質(zhì)。Müller等[43]研究了基于主成分得分的函數(shù)加性模型的估計和理論性質(zhì),Yao等[21]研究了函數(shù)型數(shù)據(jù)二次回歸模型。Cai等[16]在理論上推導(dǎo)了函數(shù)線性模型預(yù)測的收斂速率,在一定條件下,得出了預(yù)測能達到參數(shù)收斂速率的結(jié)論。Hall等[13]提出在不考慮截斷誤差的情況下,函數(shù)主成分是最優(yōu)的基底,并給出了回歸參數(shù)函數(shù)的最優(yōu)收斂速率。在再生核希爾伯特空間上, Yuan等[15]提出懲罰估計相對于主成分回歸能在較弱的條件下達到最優(yōu)收斂速率。 Cai等[17]在再生核希爾伯特空間里研究了預(yù)測的最優(yōu)收斂速率和自適應(yīng)性。Delaigle等[14]建議應(yīng)用偏最小二乘估計的基底函數(shù)來估計函數(shù)線性模型,并推導(dǎo)了回歸參數(shù)函數(shù)的收斂速度。Wang等[44]提出了基于函數(shù)充分性降維基底來估計函數(shù)的線性模型,并推導(dǎo)了相關(guān)理論性質(zhì)。
由Chiou等[18]率先提出的乘法效應(yīng)模型可看成是模型②的推廣,并在其中推導(dǎo)了相關(guān)理論性質(zhì)。Chiou等[19]研究了帶有光滑隨機效應(yīng)的函數(shù)擬似然回歸模型,并研究相關(guān)理論性質(zhì)。這一情形函數(shù)線性模型的檢驗問題也引起了很多學(xué)者的關(guān)注,如:Faraway[45]、 Shen等[46]和 Yang等[47]。
Ramsay等[3]最早研究線性模型③,并將其應(yīng)用到加拿大35個氣候站年降雨量的估計中。Yao等[20]針對稀疏函數(shù)數(shù)據(jù),提出基于主成分的估計方法,并推導(dǎo)了具體的收斂速度。He等[22]研究基于函數(shù)典型相關(guān)基底的函數(shù)估計方法,并研究了相關(guān)理論性質(zhì)。與基于主成分基底估計相比,典型相關(guān)基底能夠有效利用預(yù)測和反應(yīng)曲線的線性信息。為了克服典型相關(guān)基底和主成分基底需要選擇正則化參數(shù)和估計中含有無界算子的逆等導(dǎo)致估計不穩(wěn)定的問題,Yao等[21]提出基于奇異值成分的函數(shù)回歸估計方法,并研究相關(guān)的理論性質(zhì)。
對于變系數(shù)模型④,F(xiàn)an等[48]提出兩步估計法,即首先在任意時刻點t的局部領(lǐng)域內(nèi),采用最小二乘估計得到初始估計,然后再采用非參數(shù)方法光滑初始估計,得到最終的估計,并給出估計的漸近估計。entürk等[23]把回歸函數(shù)在相應(yīng)過程的協(xié)方差算子和方差算子的特征函數(shù)上,進行基底展開來近似回歸參數(shù)函數(shù),并推導(dǎo)了估計的理論性質(zhì)。
函數(shù)方差回歸模型⑤可以參考Ramsay等[10]第14章,其建議用函數(shù)方差分析來研究年降雨量的問題。函數(shù)廣義線性模型⑥和分類方法研究是本文研究的主體,將在第3章進行詳細闡述。
自從2000年以后,研究者逐漸關(guān)注函數(shù)型數(shù)據(jù)非參數(shù)和半?yún)?shù)的回歸方法,包括函數(shù)型數(shù)據(jù)非參數(shù)核估計[12,49]、函數(shù)型數(shù)據(jù)加性模型[43,50]、函數(shù)單指標模型[24,51-52]、函數(shù)多指標模型和函數(shù)充分性降維方法[24,53-58]、函數(shù)部分線性模型[58-62]等。
自從函數(shù)型數(shù)據(jù)得以研究以來,函數(shù)時間序列模型得到廣泛研究,如Bosq[63]定義了在Hilbert空間和巴拿赫空間里的函數(shù)自回歸模型(functional autoregression model, FAR) 和函數(shù)自回歸滑動平均模型(functional ARMA model,F(xiàn)ARMA),并從理論上研究了估計方法、估計存在的條件及估計的大樣本性質(zhì)等問題。H?rmann等[64]推廣了諾貝爾計量經(jīng)濟學(xué)獎獲得者Engle[65]在1982年發(fā)表的autoregressive conditional heteroskedasticity model (ARCH)及函數(shù)ARCH 模型( functional ARCH, FARCH),并研究了FARCH模型的估計方法和漸進性質(zhì);Aue等[66]研究了函數(shù)廣義ARCH模型(functional generalized ARCH,F(xiàn)GARCH)及相關(guān)理論性質(zhì),F(xiàn)GARCH可以看成是Bollerslev[67]廣義ARCH(generalized ARCH, GARCH)的推廣。至今,基本的函數(shù)時間序列模型都得以建立,并被廣泛應(yīng)用到經(jīng)濟、金融等高頻數(shù)據(jù)分析中,取得了顯著的應(yīng)用效果,如:Müller等[68]基于函數(shù)主成分,研究了函數(shù)擴散模型,并應(yīng)用函數(shù)擴散模型分析了S&P 500指數(shù)一天內(nèi)盤中波動的情形及相關(guān)的理論性質(zhì)。Horváth等[69]應(yīng)用函數(shù)動態(tài)因子模型分析了一天內(nèi)盤中價格曲線的問題,并研究了估計的大樣本性質(zhì)。Kokoszka等[70]應(yīng)用動態(tài)函數(shù)回歸模型研究股票收益率的面板數(shù)據(jù),并推導(dǎo)了相關(guān)估計的收斂速度和漸近正態(tài)性。Dette等[71]研究了self-normalization方法的函數(shù)時間序列模型檢驗方法,并研究了相關(guān)理論性質(zhì)。
函數(shù)聚類分析也是函數(shù)型數(shù)據(jù)研究的重點及熱點問題,包括:基于原始數(shù)據(jù)的聚類[72-74]、基于基底展開或主成分基底降維后的聚類[75-82]、基于距離的非參數(shù)聚類[49,83-86]、自適應(yīng)模型聚類[87-88]等。
多變量的函數(shù)曲線估計方法和回歸模型也引起了廣大研究者的廣泛關(guān)注,Lian[56]研究了基于主成分展開的多變量函數(shù)回歸模型的變量選擇方法。Petersen等[89]對多變量函數(shù)數(shù)據(jù)提出了采用 Frechet 積分和距離選擇等方法來估計協(xié)方差函數(shù)。關(guān)于函數(shù)型數(shù)據(jù)的書籍可以參考Ramsay等[10,90]、Ferraty等[12,91]和 Horváth 等[27]。
函數(shù)型數(shù)據(jù)通常將整個曲線或圖像看成是希爾伯特空間里的一個點,但是,實際觀測數(shù)據(jù)是離散的。因此,首先需要將離散數(shù)據(jù)通過非參數(shù)的方法把曲線或曲面估計出來。常用的方法有核回歸估計、基于基底展開的非參數(shù)估計、函數(shù)主成分分析基底和基于函數(shù)充分降維基底等。核回歸估計方法可以參考有關(guān)非參數(shù)估計的相關(guān)書籍,本文詳細講述基于2種基底展開的方法:①基于已知基底展開;②基于主成分基底展開。
設(shè)x1(t),…,x(t)是隨機過程x(t)t∈T的獨立樣本,通常情況下無法觀測到整個樣本,只能在有限個點上觀測,而且觀測通常含有測量誤差,觀測數(shù)據(jù)y(t)如下(本章僅考慮平衡稠密數(shù)據(jù)):
yitj=xitj+ij,i=1,…,n,j=1,…,M。
在非參數(shù)估計中,常用的基底函數(shù)有傅里葉基底、樣條基底和小波基底。每一類基底適應(yīng)的數(shù)據(jù)類型各不同,如傅里葉基底一般適用于周期數(shù)據(jù),如天氣數(shù)據(jù);小波基底適用于脈沖數(shù)據(jù);樣條基底尤其是B樣條基底是比較常用的基底函數(shù),其理論上與核回歸是等價的。本文以B樣條基底為例講述估計基于已知基底展開的函數(shù)估計方法。
樣條是利用一組給定點集(節(jié)點)來擬合曲線,并通過其將觀測區(qū)間劃分為子區(qū)間來構(gòu)造。首先,需要給定L個內(nèi)節(jié)點,記為τ1,…τL,數(shù)據(jù)觀測的端點為τ0和τL+1,τ1,…,τL,通常可以等間隔或按觀測點分位數(shù)來選取。其次,需要給定樣條的次數(shù)R,通常選取R=3,即采用3次樣條來擬合函數(shù),那么樣條基底的個數(shù)為K=L+R,記K個基底為φ1(t),…,φk(t)。以x1(t)為例,接下來詳細闡述估計的具體步驟。
①構(gòu)建基底函數(shù):給定L個內(nèi)部節(jié)點τ1,…τL和樣條函數(shù)的次數(shù)R,K=L+R+1,R程序包fda構(gòu)建B樣條基底函數(shù)的函數(shù)為:BBas=create.bspline.basis(c(τ0,τL+1),K,R+1,c(τ0,τ1,…τL+1))。
②計算基底函數(shù)φ(t)=φ1(t),…,φK(t))T,在t1,…,tM上的值記為:
③計算基底函數(shù)二次導(dǎo)數(shù)平方的積分矩陣:
具體計算R語言程序為:H=inprod(BBas,BBas, Lfdobj1=2, Lfdobj2=2)。
④通過最小化如下目標函數(shù):
Y=(y1(t1),…,y1(tM))T。
⑥光滑參數(shù)λ的選取,采用最小化GCVλ,令
具體估計算法如下:
①由離散數(shù)據(jù)得到函數(shù)曲線,即通過基底展開或者其他的方式得到函數(shù)目標。
具體程序如下:BBas=create.bspline.basis(c(τ0,τL+1),K,R+1,c(τ0,τ1,…τL+1)),其中,τ0,…,τL+1,K,R
定義見2.1節(jié)。
Data.fd=data2fd(data,t1,…,tM,basisobj=BBas),
②計算主成分基底函數(shù)、特征值和主成分得分。
Pca=pca.fd(Data.fd,nharm=3,centerfns=TRUE),其中,nharm表示需要估計的主成分個數(shù),centerfns=TRUE表示計算的特征函數(shù)和主成分得分是中心化后計算得到的。
④采用方差解釋率來選擇主成分的個數(shù)。
這里講的是稠密均衡數(shù)據(jù)的主成分分析和實現(xiàn)程序,關(guān)于稀疏函數(shù)主成分數(shù)據(jù)分析方法和程序?qū)崿F(xiàn)可以從以下2個網(wǎng)址下載:http:∥www.stat.ucdavis.edu/PACE/;http:∥faculty.marshall.usc.edu/gareth-james/Research/Research.html。
函數(shù)型數(shù)據(jù)中被廣泛研究的是回歸模型,在眾多回歸模型中,廣義線性模型與其他回歸模型存在著顯著不同。James[92]首次研究了預(yù)測式函數(shù)的廣義線性模型,首先采用函數(shù)主成分對函數(shù)進行降維,然后研究了反應(yīng)與主成分得分之間的關(guān)系,理論、模擬和實際數(shù)據(jù)分析表明該方法的優(yōu)勢。Escabias等[93]研究了基于基底展開和主成分展開兩種方式的Logistic 回歸模型估計方法。Cardot 等[94]研究了函數(shù)預(yù)測與Scalar隨機反應(yīng)間的廣義線性模型,從理論框架及模型可識別等方面研究函數(shù)廣義線性模型的相關(guān)理論性質(zhì),并基于樣條基底展開來近似函數(shù)預(yù)測,采用懲罰似然估計方法來估計回歸系數(shù),并研究了回歸參數(shù)函數(shù)的收斂速度。Müller等[95]針對稀疏函數(shù)型數(shù)據(jù),研究了方差函數(shù)已知和未知情形下的函數(shù)廣義線性模型,對函數(shù)預(yù)測采用稀疏數(shù)據(jù)主成分基底近似,對基底系數(shù)采用估計方程的方法進行估計,該估計方法包含普通的函數(shù)線性模型、函數(shù)Poission回歸和二值回歸等作為特例,并可以應(yīng)用于函數(shù)數(shù)據(jù)分類模型。為了克服大氣數(shù)據(jù)高維和高度相關(guān)等問題,Escabias等[96]應(yīng)用函數(shù)Logistic回歸分析大氣數(shù)據(jù),并取得了良好的應(yīng)用效果。為了克服預(yù)測函數(shù)是無窮維的問題,通常通過把預(yù)測函數(shù)和回歸參數(shù)函數(shù)在同一個已知基底上展開,把無窮維問題轉(zhuǎn)化為有限維問題,但是,這樣的基底展開所得到的設(shè)置陣通常也存在共線性問題,從而導(dǎo)致參數(shù)估計不精確。為了克服這一問題,函數(shù)主成分基底被廣泛地應(yīng)用到回歸模型中,但是主成分基底僅與預(yù)測函數(shù)有關(guān),與反應(yīng)變量無關(guān),很難保證對預(yù)測重要的基底亦對反應(yīng)變量重要。為了克服主成分的缺陷,Escabias等[97]提出了基于偏最小二乘基底的Logistic回歸模型估計方法,使用模擬數(shù)據(jù)和實際數(shù)據(jù)證明了基于偏最小二乘基底的優(yōu)越性。Aguilera等[98]應(yīng)用函數(shù)Logistic回歸模型分析全身性紅斑狼瘡,與采用縱向數(shù)據(jù)分析的方法相比,函數(shù)型數(shù)據(jù)取得了更好的預(yù)測效果。Zhu等[99]對含有多條預(yù)測曲線的函數(shù)Logistic回歸模型進行變量選擇,并應(yīng)用到宮頸癌的數(shù)據(jù)分析中,取得了顯著的應(yīng)用成果。Gertheiss等[100]研究了函數(shù)廣義線性模型的變量選擇問題。文獻[101]研究函數(shù)廣義加性模型。Matsui[102]研究了多分類函數(shù)Logistic回歸模型,并考慮了變量和函數(shù)邊界的選擇等問題。Fan等[103]應(yīng)用函數(shù)廣義線性模型分析基因組的關(guān)聯(lián)學(xué)習(xí)。Shang等[104]對函數(shù)廣義線性模型提出了一個正則化的非參數(shù)推斷,并在再生核希爾伯特空間的框架下,構(gòu)建了回歸均值的漸近置信區(qū)間和檢驗樣本的預(yù)測區(qū)間等。Fan等[105]應(yīng)用廣義線性模型分析復(fù)雜疾病的基因水平meta分析,并取得很好的應(yīng)用效果。Jadhav等[106]檢驗了預(yù)測是否對多元反應(yīng)變量具有顯著的影響,通過主成分降維和廣義估計方程估計模型參數(shù),并建立參數(shù)的漸近正態(tài)性,基于漸近正態(tài)性構(gòu)建顯著性檢驗,并取得了顯著的應(yīng)用效果。Scheffler等[107]應(yīng)用廣義函數(shù)線性模型分析EEG數(shù)據(jù),建議的方法能夠?qū)ypically developing (TD)和autism spectrum disorder (ASD)兒童提供顯著的區(qū)別。為了提高模型估計和預(yù)測的精度,Zhang等[108]對廣義線性模型提出了基于Cross-validation的模型平均方法,與單一方法相比,模型平均能夠顯著地提高估計和預(yù)測精度。
Stone[109]和Devroye等[110]研究發(fā)現(xiàn)最近鄰分類應(yīng)用于函數(shù)數(shù)據(jù)時與有限維情形存在顯著不同。James等[1]把經(jīng)典的線性判別分析推廣到函數(shù)型數(shù)據(jù),提出了函數(shù)線性判別分析(FLDA),F(xiàn)LDA在曲線只部分被觀測到的情況下效果明顯,還給出了函數(shù)二次判別分析和正則化的函數(shù)判別分析。 Ferraty等[111]提出了采用非參數(shù)核估計的方法估計后驗概率P(δ=1|X=x),并基于后驗概率對多分類反應(yīng)變量進行分類。Biau等[112]為取值于無窮維希爾伯特空間的隨機曲線建立了最近鄰分類方法的弱相合性,通過把函數(shù)預(yù)測在Fourier基底上進行展開后,對其系數(shù)采用KNN分類,并應(yīng)用到語音識別中去。Leng 等[113]應(yīng)用函數(shù)主成分和Logistic 回歸模型對酵母細胞周期數(shù)據(jù)進行分類,并與對預(yù)測進行B樣條展開后的判別分析進行比較后,發(fā)現(xiàn)基于主成分基底的Logistic回歸模型具有一定的優(yōu)越性。Abraham等[114]研究了函數(shù)型數(shù)據(jù)二分類moving window 分類方法,并證明了在一定條件下moving window 分類是收斂的。Rossi等[115]研究了函數(shù)型數(shù)據(jù)支持向量,并研究了核支持向量機,探究了分類的相合性。Wang等[116]應(yīng)用小波基底來近似預(yù)測函數(shù),提出Bayesian Logistic回歸模型。為了克服已知基底和主成分基底展開無法充分應(yīng)用反應(yīng)變量信息的缺陷,Preda等[117]提出使用基于偏最小二乘基底的函數(shù)判別分析方法。Gomez-verdejo等[118]考慮到函數(shù)型數(shù)據(jù)的分類需要在初始集合中選擇一個特征的縮減子集,提出了一種用于分類任務(wù)的交互信息估計方法,解決了交互信息準則雖可以在這種情況下使用,但很難通過有限的樣本集進行估計的問題。Rossi等[119]綜述了函數(shù)SVM分類方法,指出目前大部分函數(shù)SVM分類都是直接采用觀測曲線進行分析,提出一種新的基于函數(shù)導(dǎo)數(shù)的SVM分類方法。Li等[120]結(jié)合經(jīng)典線性判別分析和支持向量機,提出了分段函數(shù)判別分析(FSDA)方法,該方法特別適用于稀疏函數(shù)型數(shù)據(jù),尤其是包含空間異方差和局部凸起的曲線。Berlinet等[121]采用小波基近似函數(shù)預(yù)測,并通過適當數(shù)據(jù)相關(guān)閾值將整體無窮維降為有限維,同時對非零系數(shù)進行有限維分類,通過數(shù)據(jù)分割和經(jīng)驗風(fēng)險最小化,自動選擇維數(shù)和分類器。Delaigle等[14]證明在函數(shù)數(shù)據(jù)分類問題中,利用函數(shù)數(shù)據(jù)固有的高維性質(zhì),通過線性方法能夠?qū)崿F(xiàn)完美的漸近分類。在有限樣本的函數(shù)型數(shù)據(jù)中,通過投影到偏最小二乘法或主成分基底上實現(xiàn)的線性截斷可以獲得良好的分類性能。Rabaoui等[122]提出了一種將生成模型和函數(shù)型數(shù)據(jù)分析方法相結(jié)合的非參數(shù)方法,基于改進后的貝葉斯分類器對音素信號進行識別分析,并與函數(shù)型支持向量機方法進行對比,發(fā)現(xiàn)該非參數(shù)方法具有一定的優(yōu)越性。考慮到函數(shù)型數(shù)據(jù)分類方法的結(jié)果容易受選擇距離的影響,Chang等[123]針對圖像數(shù)據(jù),提出了一種基于小波閾值的距離分類方法,實際數(shù)據(jù)分析表明該方法有很好的分類效果。Berrendero等[124]對函數(shù)分類問題提出了基于距離相關(guān)進行變量選擇的方法。為了克服函數(shù)型數(shù)據(jù)無法進行Bayes分類的困難,Dai等[29]通過主成分基底降維把函數(shù)型數(shù)據(jù)分類轉(zhuǎn)變?yōu)榛谥鞒煞值梅值膯栴},對主成分得分采用Bayes 分類。函數(shù)可以通過與類中心的距離遠近進行分類,Darabi等[125]提出一種基于加權(quán)函數(shù)投影距離進行分類的新方法,通過選擇具有最優(yōu)分類結(jié)果的投影函數(shù),使該方法具有最優(yōu)的分類結(jié)果。
函數(shù)型數(shù)據(jù)由于其自身無限維的特點,符合大數(shù)據(jù)時代下對數(shù)據(jù)信息豐富性和結(jié)構(gòu)復(fù)雜性的要求,使其在近幾年來無論在實際的應(yīng)用中還是在理論探究中,一直是統(tǒng)計研究的熱點。本文以函數(shù)型數(shù)據(jù)為主要研究對象,從數(shù)據(jù)觀測時間點的數(shù)量大小和數(shù)據(jù)取值形式的角度,將函數(shù)型數(shù)據(jù)劃分為7類。根據(jù)模型中響應(yīng)變量和協(xié)變量關(guān)于函數(shù)型數(shù)據(jù)不同的組合方式,將模型主要分為6種,并梳理了這6種函數(shù)型數(shù)據(jù)模型具體研究的內(nèi)容及進展。從基選取的角度出發(fā),討論了基于已知基底展開和基于主成分基底展開的函數(shù)型數(shù)據(jù)近似方法。最后,為了填補目前仍缺少有關(guān)函數(shù)廣義線性模型和分類問題的綜述或書籍的空白,本文對函數(shù)廣義線性模型和分類問題進行了較為詳細的綜述。
根據(jù)函數(shù)型數(shù)據(jù)無限維的特征,基于對現(xiàn)有研究內(nèi)容的剖析和總結(jié),函數(shù)型數(shù)據(jù)未來的研究方向主要可以分為以下幾個方面。
1)超稀疏數(shù)據(jù)的研究。現(xiàn)階段對超稀疏數(shù)據(jù)的研究僅停留在估計的大樣本性質(zhì)上。超稀疏數(shù)據(jù)中含有有限個個體且每個個體觀測數(shù)據(jù)都很少?;诖颂攸c,其可能包含許多更為復(fù)雜的數(shù)據(jù),例如:多元數(shù)據(jù)、相關(guān)數(shù)據(jù),或是包含圖形形狀信息的數(shù)據(jù)等。這會導(dǎo)致下一代新函數(shù)型數(shù)據(jù)的產(chǎn)生,為函數(shù)型數(shù)據(jù)在數(shù)據(jù)特征和回歸分析的研究上提供新思路。
2)空間函數(shù)型數(shù)據(jù)的研究。現(xiàn)如今研究的函數(shù)型數(shù)據(jù)的應(yīng)用主要集中于時序數(shù)據(jù),而缺乏在區(qū)域空間數(shù)據(jù)上的一般性討論。但實際的函數(shù)型數(shù)據(jù)往往與區(qū)域的空間信息相關(guān),例如某地區(qū)的農(nóng)作收成記錄、天氣記錄、交通運輸記錄等。
3)流形數(shù)據(jù)及圖像數(shù)據(jù)的研究。流形數(shù)據(jù)和圖像數(shù)據(jù)的研究還相對較少,如流形半?yún)?shù)模型至今還未研究。圖像數(shù)據(jù)的研究主要是基于醫(yī)學(xué)圖像數(shù)據(jù),但是相關(guān)理論研究甚少。
4)加強理論在各領(lǐng)域的應(yīng)用與推廣?,F(xiàn)階段對函數(shù)型數(shù)據(jù)的分析主要集中于生物醫(yī)療、氣候預(yù)報、金融管理和系統(tǒng)工程等多個領(lǐng)域,但大多數(shù)的應(yīng)用主要是套用在此研究領(lǐng)域已有的經(jīng)驗法則,缺乏在一定的應(yīng)用背景下的理論創(chuàng)新。
附錄
以B樣條基底估計 y=2*sin(2*pi*t)+rnorm(p,0,sig)的程序?qū)崿F(xiàn)
library(fda)#functional data analysis, spline,install.packages(fda)
p=100
t=seq(0,1,length=100)
sig=0.5
y=2*sin(2*pi*t)+rnorm(p,0,sig)
plot(t,y)
K=14
order=4
tfine=seq(0,1,length=1000)
betabasis=create.bspline.basis(c(0,1),K,order,seq(0,1,length=K+2-order))
Lfdobj <- 2
lambda <- 1e-3
Phi=eval.basis(t,betabasis)
R=inprod(betabasis,betabasis, Lfdobj1=2, Lfdobj2=2)
Chat1=solve(t(Phi)%*%Phi)%*%t(Phi)%*%y
Chat=solve(t(Phi)%*%Phi+lambda*R)%*%t(Phi)%*%y
betafd2=fd(matrix(Chat,K,1), betabasis)
yhat=eval.fd(t,betafd2,0)
plot(t,yhat)
betafd2=fd(matrix(Chat1,K,1), betabasis)
yhat1=eval.fd(t,betafd2,3)
plot(t,yhat1)
matplot(t,cbind(y,yhat,yhat1))
growfdPar <- fdPar(betabasis, Lfdobj, lambda)
xttm <- smooth.basis(t, y, growfdPar)$y2cMap
xcoef=xttm%*%(y)
betafd2=fd(matrix(xcoef,14,1), betabasis)
yhat2=eval.fd(t,betafd2,0)
matplot(t,cbind(yhat,yhat2))
loglam <- -15:15
nlam <- length(loglam)
dfsave <- rep(0,nlam)
gcvsave <- rep(0,nlam)
for (ilam in 1:nlam) {
lambda <- 10^loglam[ilam]
fdParobj <- fdPar(betabasis, Lfdobj, lambda)
smoothlist <- smooth.basis(t, y, fdParobj)
fdobj <- smoothlist[[1]]
df <- smoothlist[[2]]
gcv <- smoothlist[[3]]
dfsave[ilam] <- df
gcvsave[ilam] <- sum(gcv)
}
cbind(loglam, dfsave, gcvsave)
cbind(loglam, dfsave, gcvsave)
plot(loglam, gcvsave, type="b",xlab="Log_10 lambda", ylab="GCV Criterion",
main="gilr Smoothing")
plot(loglam, dfsave, type="b",xlab="Log_10 lambda", ylab="Degrees of freedom",
main="gilr Smoothing")
ind=which(gcvsave==min(gcvsave))
ind
growfdPar <- fdPar(betabasis, Lfdobj, (10^loglam[ind]))
xttm <- smooth.basis(t, y, growfdPar)$y2cMap
xcoef=xttm%*%(y)
betafd2=fd(matrix(xcoef,14,1), betabasis)
yhat=eval.fd(t,betafd2,0)
plot(t,yhat)