黃婷婷, 王惠文, SAPORTA Gilbert
(1. 北京航空航天大學(xué) 經(jīng)濟與管理學(xué)院, 北京 100083; 2. 城市運行應(yīng)急保障模擬技術(shù)北京市重點實驗室, 北京 100083;3. 北京航空航天大學(xué) 大數(shù)據(jù)科學(xué)與腦機智能高精尖創(chuàng)新中心, 北京 100083;4. 法國國立工藝學(xué)院 計算機和通信研究中心, 巴黎 75003)
數(shù)據(jù)搜集技術(shù)的快速發(fā)展不僅帶來了海量的數(shù)據(jù),也帶來了類型越來越復(fù)雜的數(shù)據(jù),如函數(shù)數(shù)據(jù)[1-3]、成分數(shù)據(jù)[4]和符號數(shù)據(jù)[5-6]等。在這些類型復(fù)雜的數(shù)據(jù)中,成分數(shù)據(jù)由于關(guān)注部分在總體中的占比信息,受到愈來愈廣泛的關(guān)注。如Fry等[7]利用住戶開支統(tǒng)計調(diào)查結(jié)果研究預(yù)算分配模型,Pawlowsky-Glahn和Egozcue[8]利用成分數(shù)據(jù)比較東歐和西歐國家在食物消費結(jié)構(gòu)上的習(xí)慣差異,Pawlowsky-Glahn[9]等利用成分數(shù)據(jù)回歸模型分析了巴西宗教信仰構(gòu)成的變化。
成分數(shù)據(jù)分析主要研究活動對象結(jié)構(gòu)變化產(chǎn)生的規(guī)律及其對其他對象產(chǎn)生的影響。關(guān)于成分數(shù)據(jù)的理論研究,標(biāo)志性的成果是1986年Aichison撰寫的《成分數(shù)據(jù)統(tǒng)計分析》[10],該書詳細闡述了成分數(shù)據(jù)統(tǒng)計分析方法建立的數(shù)學(xué)基礎(chǔ)。在成分數(shù)據(jù)分析中,線性回歸模型是一種常用的分析技術(shù)?,F(xiàn)有的成分數(shù)據(jù)線性回歸模型可以分為兩大類:第1類因變量是普通數(shù)據(jù)[11-12],第2類因變量是成分數(shù)據(jù)[13-15]。Hron等[12]利用第1類成分數(shù)據(jù)線性回歸模型研究了GDP組成與預(yù)期壽命的關(guān)系;而Wang等[14]利用第2類模型研究了地區(qū)總產(chǎn)值與就業(yè)和投資的關(guān)系。本文在因變量是普通數(shù)據(jù)的成分數(shù)據(jù)回歸模型基礎(chǔ)上進行研究。在成分數(shù)據(jù)回歸模型中,通常以樣本之間獨立同分布作為前提。而在實際應(yīng)用中,獨立同分布的假設(shè)往往是不成立的。如何對現(xiàn)有的成分數(shù)據(jù)線性回歸模型進行改進,使之適應(yīng)實際應(yīng)用的需求,是一個值得深入研究的問題。
在空間計量經(jīng)濟學(xué)[16]中,空間自回歸模型通過引入空間依賴項,打破了因變量相互獨立的假設(shè),使得許多與空間地理位置或社交網(wǎng)絡(luò)有關(guān)的現(xiàn)象得到解釋。利用空間自回歸模型,可以對區(qū)域經(jīng)濟發(fā)展的問題[17-18]、溢出性問題[19-20]等進行分析?,F(xiàn)有的空間自回歸模型在普通數(shù)據(jù)的基礎(chǔ)上已經(jīng)發(fā)展得相對完善,已有的對空間自回歸模型進行估計的方法包括Ord[21]和Lee[22]提出的極大似然估計法、Kelejian、Prucha[23]和Lee[24]提出的廣義矩估計法、Lesage和Pace[25]從貝葉斯的角度提出的馬爾可夫鏈蒙特卡羅方法(Markov chain Monte Carlo method)。
因此,針對經(jīng)典成分數(shù)據(jù)線性回歸模型假設(shè)樣本間相互獨立的嚴格要求,研究因變量之間具有空間依賴的成分數(shù)據(jù)回歸模型,通過在普通數(shù)據(jù)的空間自回歸模型中,引入成分數(shù)據(jù)的協(xié)變量,提出了同時含有成分數(shù)據(jù)和普通數(shù)據(jù)的空間自回歸模型。并依據(jù)成分數(shù)據(jù)的特點,給出了混合2種數(shù)據(jù)的空間自回歸模型的估計方法。提出的新模型比已有的成分數(shù)據(jù)線性回歸模型具有更強的靈活性,可以處理更加復(fù)雜的空間依賴問題。
本節(jié)主要介紹成分數(shù)據(jù)的代數(shù)空間——單形空間(simplex)中的基本運算,以及與成分數(shù)據(jù)聯(lián)系緊密的幾種變換,利用這些變換可以將具有約束的成分數(shù)據(jù)轉(zhuǎn)化成易于處理的普通數(shù)據(jù)。
對于含有d個成分的成分數(shù)據(jù),對應(yīng)的單形空間Sd(上標(biāo)d表示成分數(shù)據(jù)有d個成分,因此實際是d-1維的)定義為
Sd={x=(x1,x2,…,xd)T,
(1)
現(xiàn)有單形空間Sd中的任意2個成分數(shù)據(jù)x、y以及實數(shù)α,記x=(x1,x2,…,xd)T∈Sd,y=(y1,y2,…,yd)T∈Sd,α∈R,則x和y的加法⊕及α和x數(shù)乘運算⊙可分別定義為
x⊕y=C(x1y1,x2y2,…,xdyd)
(2)
(3)
式中:C(·)表示閉合運算,定義為
(4)
不難看出,閉合運算保證了運算結(jié)果仍在Sd中?;谶\算⊕和⊙,可以導(dǎo)出x和y的減法運算,
(5)
x和y的內(nèi)積運算〈x,y〉a定義為
(6)
(7)
(8)
可以證明,含有內(nèi)積運算的單形空間是一個希爾伯特空間。
ilr(x)=(〈x,e1〉a,〈x,e2〉a,…,〈x,ed-1〉a)T
(9)
Egozcue等[26]證明,ilr變換是保內(nèi)積的變換,即對于含有d個成分的成分數(shù)據(jù)x和y,有
〈x,y〉a=〈ilr(x),ilr(y)〉
(10)
下面給出具體的ilr變換過程。
ξi=ilr(Ci)=clr(Ci)ΨT=ln(Ci)ΨT
(11)
式中:
clr(Ci)=
Ψ為(d-1)×d維的矩陣,具體表達式為
Y=ατn+ρWY+〈C,B〉a+XΓ+E
(12)
式中:ατn為截距項,τn為所有元素均為的1的維度為n的向量;ρ為未知的空間自相關(guān)參數(shù),取值在區(qū)間(-1,1)內(nèi);W={wij}n×n為外生的空間矩陣,wij為對象i與j之間的權(quán)重;B為待估的成分數(shù)據(jù)系數(shù),具有p個成分;Γ為普通數(shù)據(jù)的待估系數(shù);E為獨立于X的誤差項,服從均值為0,方差為σ2In多元正態(tài)分布,In為n×n的單位矩陣。
需強調(diào)的是,式(12)中C和回歸系數(shù)B都為成分數(shù)據(jù),〈C,B〉a為一個實數(shù)。在Aitchison內(nèi)積空間中,〈C,B〉a代表X對Y解釋性最強的投影方向。
當(dāng)ρ=0時,式(12)退化為普通的成分數(shù)據(jù)線性模型。在這個意義上,式(12)比經(jīng)典的成分數(shù)據(jù)線性模型具有更強的靈活性,可以處理更加復(fù)雜的數(shù)據(jù)關(guān)系。
為估計模型式(12)中的參數(shù)α,ρ,B,Γ,首先需將相互不獨立的成分數(shù)據(jù)轉(zhuǎn)化為相互獨立的普通數(shù)據(jù),1.2節(jié)中已作詳細介紹;其次,要解決因變量yi之間不相互獨立的問題,此處采用極大似然估計法ilr變換后的模型進行估計。
同樣利用1.2節(jié)中的ilr變換,可得到成分數(shù)據(jù)系數(shù)B的變換坐標(biāo)b=ilr(B)。
由于B是需估計的參數(shù),因此變換后的坐標(biāo)b是未知的。記ξ=(ξ1,ξ2,…,ξn)T,則模型式(12)可寫為
Y=ατn+ρWY+ξb+XΓ+E
(13)
為描述簡便,記:δ=(b,Γ)T,Z=(ξ,X),則式(13)可表示為
Y=ατn+ρWY+Zδ+E
(14)
由于模型式(12)中誤差項服從多元正態(tài)分布,因變量Y的似然函數(shù)為
(15)
(16)
(Y-ατn-ρWY-Zδ)
(17)
(18)
(19)
至此,所有參數(shù)都可以估計出來。
為評估所提出估計方法的統(tǒng)計性質(zhì),下面設(shè)計了幾組數(shù)值模擬實驗檢驗估計量的表現(xiàn)。所有的計算過程都是在R軟件中實現(xiàn),用到的包有“spdep”和“compositions”。
關(guān)于空間自回歸模型的空間網(wǎng)絡(luò)結(jié)構(gòu),采取最常見的“車”相鄰(rook matrix)。假設(shè)n個樣本點隨機地散落在一個R行T列的格子棋盤上,每個樣本點占據(jù)棋盤上的一個方格,那么在棋盤上共享一條邊的2個樣本點就是相鄰的。在這樣的情況下,處在棋盤中間的任意樣本點都有4個鄰居,處在棋盤邊上的樣本點有3個鄰居,而處在棋盤角上的樣本點只有1個鄰居。分別設(shè)置R=10,20,30,T=30,25,30,相應(yīng)地樣本量n=R×T=300,500,900。為了查看空間依賴的強弱是否對估計量有影響,同樣設(shè)計了3組不同的ρ值,ρ=0,0.5,0.8。
(20)
樣本的總方差的計算公式為
(21)
估計結(jié)果如圖1~圖3所示。可以得到如下結(jié)論:
圖和的樣本偏差Fig.1 Sample deviation of
圖的標(biāo)準差及的總方差Fig.2 Standard deviation of and
圖3 n和ρ取不同值時,偏差箱線圖Fig.3 Boxplots of deviation of when n and ρ change
針對普通成分數(shù)據(jù)線性回歸模型要求樣本間相互獨立的局限性,在空間自回歸模型的基礎(chǔ)上,提出了混合成分數(shù)據(jù)與普通數(shù)據(jù)的空間自回歸模型,所提出的模型及估計方法具有如下優(yōu)點:
1) 新提出的模型不僅能夠同時處理成分數(shù)據(jù)和普通數(shù)據(jù),還能表達數(shù)據(jù)中因變量之間相互依賴的問題。特別地,新模型可以處理地理空間中的依賴性。
2) 新模型所提出的估計量具有相合性。隨著樣本量的增大,可以發(fā)現(xiàn)估計值的標(biāo)準差在逐漸減小。除此之外,新提出的估計方法操作簡單,可以在R軟件上直接實現(xiàn)。
在實際應(yīng)用中,新模型可處理社交網(wǎng)絡(luò)、地理空間等含有網(wǎng)絡(luò)結(jié)構(gòu)的依賴問題。而針對其他情況造成成分數(shù)據(jù)線性模型樣本之間不相互獨立的問題,則需要分情況進行深入分析。