劉 兵
(淮南師范學院 經(jīng)管系,安徽 淮南 232038)
面板數(shù)據(jù),即Panel Data,又有人稱之為綜列數(shù)據(jù)集,是指同一截面單元集上的重復觀察值,是截面數(shù)據(jù)與時間序列綜合起來的一種數(shù)據(jù)資源。例如,在一個時點上,從某總體中隨機地收集了一些人的個人工資、工作時間、學歷和其他因素的一個綜列數(shù)據(jù)集,那么,在以后的若干各時點上,要對同樣的這些人反復采訪,以便得到一群人在不同年份里的工資、工作時間、學歷等數(shù)據(jù)。目前絕大多數(shù)的有關面板數(shù)據(jù)的研究都是從計量建模入手,Bonze D.C.和Hermosilla.A.Y.等統(tǒng)計學家則開創(chuàng)性地將多元統(tǒng)計方法引入到面板數(shù)據(jù)的分析中來[1]。在此之后國內(nèi)外的對此相關的研究甚少,國內(nèi)學者朱建平曾對單指標面板數(shù)據(jù)的聚類分析進行了一定的研究,并作了實證分析[2]。鄭兵云構(gòu)造了多指標面板數(shù)據(jù)的距離函數(shù)和離差平方和函數(shù),在此基礎上,說明了多指標面板數(shù)據(jù)的聚類分析過程[3]。但時序數(shù)據(jù)是變化復雜的,鄭兵云雖然沒有在構(gòu)造面板數(shù)據(jù)的離差平方和函數(shù)時談及不同時點的權(quán)重,實際上認為時序數(shù)據(jù)是等權(quán)重的了。這里筆者在面板數(shù)據(jù)聚類分析中引入時間序列趨勢外推預測方法,進行進一步深入探討。
時間序列的基本特征是,其數(shù)值是依時間的變化而變化,起伏交替,有起有伏的,有些有某些變化趨勢??紤]以下幾種序列:(1)具有水平趨勢的數(shù)據(jù)序列;(2)具有非水平趨勢的數(shù)據(jù)序列;(3)具有線性趨勢的數(shù)據(jù)序列。
研究總體共有N個樣品,每個樣品的特征用p個指標表示(X1,X2,…,Xj,…,Xp),時間長度為 T,則 Xij(t)表示第 i個樣品第j個指標在時間t的數(shù)值。
Xij(t)(t=1,2…T)表現(xiàn)為在某一水平線上下波動,Xij=βij+εt,εt~N(0,σ2)則
X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T
其中X^ij表示為第i個樣品第j個指標的估計值。Xij(t)(t=1,2…T)對X^ij的貢獻是等權(quán)的。
考慮到非水平趨勢,可選用加權(quán)平均法,
其中,α1,α2,…,αT≥0,為加權(quán)因子,當 α1,α2,…,αT>0時,意味著所有時點數(shù)據(jù)都有價值。
在線性的時間序列中,存在到底是運用哪一期的估計值的問題,具體要看所要研究的問題。
常見聚類統(tǒng)計量有距離和相似系數(shù)。距離多用于樣品的分類,常見聚類有明氏距離、歐式距離、馬氏距離和蘭氏距離,因而這里以歐式距離為例。假設面板數(shù)據(jù)中指標具有相同的時序趨勢,設Drk表示為歐式空間距離,drk表示為對原面板數(shù)據(jù)進行壓縮后得出的歐式距離。
具有水平趨勢的數(shù)據(jù)序列的歐式距離,將第r樣品與第k樣品之間的歐式空間距離記為
也可以對原面板數(shù)據(jù)進行壓縮,由上節(jié)可知,X^ij=(Xij(1)+Xij(2)+…+Xij(T))/T,則面板數(shù)據(jù)的問題回歸到一般的截面數(shù)據(jù)的聚類分析中,
也可以對原面板數(shù)據(jù)進行壓縮,由上節(jié)可知,
則面板數(shù)據(jù)的問題回歸到一般的截面數(shù)據(jù)的聚類分析中。
如果對于某些研究樣品,不同研究目的導致不同時點的觀察值的價值有差異,如研究各省、市、自治區(qū)城鎮(zhèn)居民生活消費的分布規(guī)律,進而預測未來城鎮(zhèn)居民生活消費的分布情況,在這個例子中年份越近的數(shù)據(jù)對于居民生活消費的未來分布規(guī)律影響越大,因而,越近的時點數(shù)據(jù)可以賦予更高的權(quán)重,αT>αT-1>…>α1。
由上節(jié)知,X^ij(t)=aij+bijt
如果考察初始時期總體樣品的類別,可選用X^ij(0)或X^ij(1),選擇X^ij(0)則更考慮初始化時期總體樣品的類別。
如果想要考察未來時期的聚類情況,可選用未來時點T+t的估計值X^ij(T+t)=aij+bij(T+t)
如果想要考察總體樣品的變化情況的類別,可選用一階差分,即 ΔX^rj(t)=bij。
聚類分析的方法很多,有系統(tǒng)聚類、動態(tài)聚類、有序聚類等,系統(tǒng)聚類法是目前國內(nèi)外使用得最多的一種方法,常用的聚類方法有最短距離法、最長距離法、重心法、離差平方和法等,這里主要選擇離差平方和法來說明各類面板數(shù)據(jù)的聚類過程。
記第g類樣品間的空間離差平方和為Sg,
其中,ig表示第g類中所有樣品序號的集合,)表示第g類所有樣品第j個指標在t時間的平均值。
其中,ig表示第g類中所有樣品序號的集合, 表示第g類所有樣品第j個指標的估計值的平均值。
記第g類樣品間的空間離差平方和為Sg,
其中,ig表示第g類中所有樣品序號的集合,t)表示第g類所有樣品第j個指標在t時間的平均值,
如果進行壓縮數(shù)據(jù),=(α1Xij(1)+α2Xij(2)+…+αT,記第g類樣品間的離差平方和為sg,則
其中,ig表示第g類中所有樣品序號的集合 表示第g類所有樣品第j個指標的估計值的平均值。
如果想要考察總體樣品的變化情況的類別,記第g類樣品間的差分離差平方和為Δsg,
其中,ig表示第g類中所有樣品序號的集合,表示第g類所有樣品第j個指標的bij的平均值。
其中,ig表示第g類中所有樣品序號的集合,表示第g類所有樣品第j個指標在t時間的估計值的平均值。
面板數(shù)據(jù)的聚類分析只是面板數(shù)據(jù)在多元統(tǒng)計分析中的一個方面,本文對面板數(shù)據(jù)的聚類分析作了一些基礎性的研究和實證分析,這里僅僅考慮有限的數(shù)據(jù)時間序列趨勢,而且要求同個面板數(shù)據(jù)中時序趨勢是屬于同一類的,不同的類聚類分析還需要進一步的研究,可喜的是非等時間間隔的面板數(shù)據(jù)的聚類方法的研究可以依照此思路開展下去,有待于進一步探討。
[1]Bonzo D.C.,Hermosilla A.Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002,(4).
[2]朱建平,陳民懇.面板數(shù)據(jù)的聚類分析及其應用[J]統(tǒng)計研究,2007,(4).
[3]鄭兵云.多指標面板數(shù)據(jù)的聚類分析及其應用[J].數(shù)理統(tǒng)計與管理,2008,(3).