戴大洋,鄧光明,b
(桂林理工大學(xué)a.理學(xué)院;b.應(yīng)用統(tǒng)計研究所,廣西 桂林 541006)
面板數(shù)據(jù)(Panel Data)具有截面數(shù)據(jù)和時間序列數(shù)據(jù)的特性,在現(xiàn)實(shí)數(shù)據(jù)庫中比較常見。它既有截面數(shù)據(jù)個體間的差異信息,又有時間序列數(shù)據(jù)的動態(tài)信息,導(dǎo)致單純的時間序列分析方法和截面數(shù)據(jù)多元統(tǒng)計方法不再適用于面板數(shù)據(jù)。國內(nèi)外大多數(shù)面板數(shù)據(jù)的理論都是從建模的角度入手[1],而將多元統(tǒng)計方法引入到面板數(shù)據(jù)中只有十幾年的歷史。Bonzo等[2]運(yùn)用概率鏈接函數(shù)取代傳統(tǒng)聚類中的距離函數(shù)來定義聚類標(biāo)準(zhǔn),把聚類過程看成是一種優(yōu)化問題,運(yùn)用自適應(yīng)模擬退火方法(ASA)對面板數(shù)據(jù)進(jìn)行聚類,首次將多元統(tǒng)計方法引入到面板數(shù)據(jù)中。此后,國內(nèi)掀起面板數(shù)據(jù)聚類的研究熱潮。
在前人的研究中,主要都從降維層面考慮,將面板數(shù)據(jù)的三維信息通過某種技術(shù)手段降為二維信息。朱建平[3]從面板數(shù)據(jù)描述層面出發(fā),構(gòu)造面板數(shù)據(jù)相似性指標(biāo),并提出面板數(shù)據(jù)聚類的單指標(biāo)聚類方法。單指標(biāo)面板數(shù)據(jù)自身具有簡化面板數(shù)據(jù)的效果,且單指標(biāo)面板數(shù)據(jù)在現(xiàn)實(shí)數(shù)據(jù)庫中并不多見,因此,該方法適用性較窄。李因果[4]從面板數(shù)據(jù)時序特征和截面特征出發(fā),重新定義了樣本間“絕對指標(biāo)”、“增量指標(biāo)”和“時序波動”的距離函數(shù)和Ward聚類算法,提出了一套較為合理的面板數(shù)據(jù)聚類算法。黨耀國[5]從特征提取的角度,將每個個體在時間維度上的不同指標(biāo)的統(tǒng)計特征進(jìn)行提取,以此來降低時間維度,并將所有不同指標(biāo)的動態(tài)特征全部看作截面數(shù)據(jù)的指標(biāo)維度,用傳統(tǒng)的動態(tài)聚類方法來聚類。此法對于指標(biāo)提取比較全面和合理,但解決指標(biāo)間具有相似特征的聚類問題就存在一些缺陷:(1)將所有不同指標(biāo)時期內(nèi)的統(tǒng)計特征看成截面數(shù)據(jù)的指標(biāo)維度來聚類,存在信息重疊和未區(qū)分指標(biāo)間重要性差異的問題,對聚類結(jié)果造成很大干擾。(2)在提取統(tǒng)計特征后采用主觀賦權(quán),人為因素過重。(3)動態(tài)聚類方法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響。
本文試圖在特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法上對上述問題做出優(yōu)化和改進(jìn),提出了運(yùn)用主成分分析對不同指標(biāo)“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征分別進(jìn)行主成分提取,對每個特征分別計算綜合得分,再運(yùn)用熵值法計算5個特征綜合得分的權(quán)重,將賦權(quán)后的數(shù)據(jù)進(jìn)行系統(tǒng)聚類,最后用房地產(chǎn)面板數(shù)據(jù)進(jìn)行實(shí)證分析。
單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)格式可用一個二維表表示,每個元素用Xi(t)表示,其中,i表示第i個個體,t表示指標(biāo)記錄的時期數(shù),Xi(t)表示個體i在t時間記錄的單個指標(biāo)值。單指標(biāo)面板數(shù)據(jù)聚類方法目前已沒有爭議,都是直接將時間維度看作是截面數(shù)據(jù)的指標(biāo)維度,用多元統(tǒng)計分析中截面數(shù)據(jù)的聚類方法來解決。
多指標(biāo)面板數(shù)據(jù)是時間序列數(shù)據(jù)和截面數(shù)據(jù)的組合,不能再用簡單二維表表示,嚴(yán)格意義上應(yīng)該用三維表表示,為了容易理解,下面仍用二維表表示,如下頁表1,研究總體共有N個個體,每個個體記錄T期,每期有p個指標(biāo),則個體i的第j個指標(biāo)在第t期的值為Xij(t),i=1,2,...,N,j=1,2,...,p,t=1,2,...,T,該二維表與簡單二維表不同,它包含時間、個體和指標(biāo)這三維信息。
表1 多指標(biāo)面板數(shù)據(jù)
下面將給出多指標(biāo)面板數(shù)據(jù)的幾個統(tǒng)計量,指標(biāo)的特征提取將用到這些統(tǒng)計量。
(1)個體i的第j個指標(biāo)在T時期內(nèi)的均值為:
(2)個體i的第j個指標(biāo)在T時期內(nèi)的標(biāo)準(zhǔn)差為:
面板數(shù)據(jù)各指標(biāo)量綱或數(shù)量級不同會對聚類結(jié)果造成一定影響,故對Xij(t)進(jìn)行均值化的標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式為:
這樣標(biāo)準(zhǔn)化后各指標(biāo)的方差是各指標(biāo)變異系數(shù)的平方,不僅消除了量綱和數(shù)量級的影響,又保留了原指標(biāo)的變異信息。
本文按照文獻(xiàn)[5]中面板數(shù)據(jù)在時期特征量的提取思想,從指標(biāo)考察期內(nèi)的發(fā)展水平、趨勢、波動程度、分布情況等方面對每個指標(biāo)在考察期的特征量定義。對于面板數(shù)據(jù)集,設(shè)其有N個個體,每個個體記錄T個時期的p項指標(biāo)。
定義1:個體i的第j個指標(biāo)全時“絕對量”特征,記為:
AQF(Fij)是指個體i的第j個指標(biāo)在總時期T的均值,該特征量反映個體i的第j個指標(biāo)在整個時期絕對發(fā)展水平。
定義2:個體i的第j個指標(biāo)全時“波動”特征,記為:
定義3:個體i的第j個指標(biāo)全時“偏度”特征,記為:
定義4:個體i的第j個指標(biāo)的全時“峰度”特征,記為:
該特征量反映個體i的第j個指標(biāo)在整個時期分布曲線的尖峭程度;KCF(Fij)小于0,表示該指標(biāo)值的分布比正態(tài)分布更分散,KCF(Fij)小于0,表示該指標(biāo)值的分布比正態(tài)分布更集中在平均值周圍。
定義5:個體i的第j個指標(biāo)全時“趨勢”特征,記為:
TF(Fij)描述了指標(biāo)的長期變化趨勢,若指標(biāo)的TF(Fij)值越接近,說明這兩指標(biāo)都呈同坡度變化,兩指標(biāo)越相似。以第i個個體的第j個指標(biāo)T時期的指標(biāo)列為樣本,建立的回歸模型,利用最小二乘法估計參數(shù)β,此時的β就是TF(Fij)。
文獻(xiàn)[5]在提取面板數(shù)據(jù)整個時期5個方面的特征量后,分別對每個指標(biāo)的各個特征量主觀賦權(quán)后直接用動態(tài)聚類算法聚類出結(jié)果。但在提取每個指標(biāo)相同特征統(tǒng)計量時,它們之間可能具有相關(guān)性。即使個體的每個指標(biāo)間不具相關(guān)性,但所有指標(biāo)在“絕對量”、“波動”、“偏度”、“峰度”和“趨勢”的每一個特征上卻可能具有相關(guān)性。在宏觀經(jīng)濟(jì)數(shù)據(jù)中不同指標(biāo)在同一時期極易存在相同的趨勢或類似的波動等,若利用此時的數(shù)據(jù)集聚類,將會對聚類結(jié)果造成嚴(yán)重干擾。本文將對不同指標(biāo)的相同特征量分別進(jìn)行主成分分析,得到每個特征的綜合得分。
定義6:F1,F(xiàn)2,…,F(xiàn)p為p維指標(biāo)向量AQF(Fi)=(AQF(Fi1),AQF(Fi2),…,AQF(Fip))提取的主成分,記αk(k=1,2,...,p)為主成分Fk的方差貢獻(xiàn)率,則主成分降維后“絕對量”特征AQF(Fij)的綜合得分為:
同理可分別定義“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的綜合得分為
經(jīng)前人的實(shí)驗(yàn)得知,取不同主成分個數(shù)時,聚類結(jié)果會全然不同,當(dāng)取到全部主成分時,聚類結(jié)果趨于穩(wěn)定,并達(dá)到最佳效果。為了避免數(shù)據(jù)集各變量相關(guān)度不高的情況下?。ɡ塾嬝暙I(xiàn)率≥85%)前幾個主成分計算綜合得分時信息損失嚴(yán)重和聚類效果不好,此處取所有主成分,即。為了敘述方便,后面將F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)分別稱為主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征。
本文中主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征對個體差異影響程度會有所不同,根據(jù)它們的影響程度必須賦予相應(yīng)權(quán)重wj(j=1,2,...,5),為了避免主觀臆測,本文采取熵值法客觀賦權(quán)[6]。
熵值法賦權(quán)的基本步驟:
(1)選取N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)的數(shù)據(jù)集{Zij},則Zij為第i個個體第j個指標(biāo)的數(shù)值 (i=1,2,...,N,j=1,2,...,5);
(2)指標(biāo)歸一化:異質(zhì)指標(biāo)同質(zhì)化
采用不同的算法進(jìn)行標(biāo)準(zhǔn)化處理。令Zij=| |Zij,方法如下:
正向指標(biāo):
負(fù)向指標(biāo):
則Z'ij為第i個個體第j個指標(biāo)歸一化的數(shù)值,為了敘述方便,歸一化的數(shù)值仍記作Zij;
(3)計算第j個指標(biāo)的第i個個體占該指標(biāo)的比重pij和第j個指標(biāo)的熵值ej:
其中,k=1/ln(N)>0,需滿足ej≥0。
(4)計算信息熵冗余度dj和各項指標(biāo)的權(quán)重wj:
編寫MATLAB程序代碼實(shí)現(xiàn)上述算法,可得出主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征相應(yīng)的權(quán)重
上文從特征提取的角度減少了面板數(shù)據(jù)的時間維度,將面板數(shù)據(jù)轉(zhuǎn)化為截面數(shù)據(jù),因此,可以直接用截面數(shù)據(jù)聚類方法對面板數(shù)據(jù)進(jìn)行聚類。
動態(tài)聚類算法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響,不同于文獻(xiàn)[5],考慮到聚類效果的穩(wěn)定性,這里采用系統(tǒng)聚類[7]對面板數(shù)據(jù)進(jìn)行聚類。先對N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)在總體上進(jìn)行Z-Score標(biāo)準(zhǔn)化,以消除數(shù)量級影響,標(biāo)準(zhǔn)化后5個指標(biāo)值分別記為F*_AQF(Fi)、F*_VF(Fi)、F*_SCF(Fi)、F*_KCF(Fi)、F*_TF(Fi)。然后再用數(shù)據(jù)集{w1F*_AQF(Fi)、w2F*_VF(Fi)、w3F*_SCF(Fi)、w4F*_KCF(Fi)、w5F*_TF(Fi)(i=1,2,...,N)}進(jìn)行系統(tǒng)聚類。
本文選取房屋平均價格、國內(nèi)生產(chǎn)總值、年末人口數(shù)、房地產(chǎn)開發(fā)投資額、房地產(chǎn)開發(fā)竣工面積、在崗職工平均工資和社會商品零售總額這5個指標(biāo)[8]來反映我國房價的綜合趨勢水平。年末人口數(shù)和在崗職工平均工資從需求層面影響房價,房地產(chǎn)開發(fā)投資額和房地產(chǎn)開發(fā)竣工面積從供給層面影響房價,國內(nèi)生產(chǎn)總值和社會商品零售總額從宏觀經(jīng)濟(jì)層面影響房價,且基本都是正向影響,這些影響因素和房屋平均價格都反映房價的綜合趨勢水平。本文所使用的數(shù)據(jù)來源于國家統(tǒng)計局官網(wǎng)(2006—2015年)。
按照本文提出的面板數(shù)據(jù)聚類方法,使用SPSS20.0、MATLAB和EXCEL2007軟件對我國35個大中型城市的房地產(chǎn)相關(guān)數(shù)據(jù)進(jìn)行聚類。利用MATLAB運(yùn)行熵值法算法程序計算所提取特征的權(quán)重,“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的權(quán)重分別為0.241,0.384,0.099 ,0.144,0.132;從權(quán)重的客觀賦值情況看出,時期的“絕對量”水平和“波動”水平對個體間差異的貢獻(xiàn)程度都比較大,“偏度”、“峰度”和“趨勢”水平的貢獻(xiàn)程度相對而言比較小,可以理解為這些年的數(shù)據(jù)整體上都有一個大的增長趨勢,導(dǎo)致“偏度”、“峰度”和“趨勢”對個體差異影響不大,所以熵值法計算的權(quán)重有一定的合理性。
將本文面板數(shù)據(jù)的聚類方法用EXCEL2007和SPSS20.0軟件實(shí)現(xiàn),根據(jù)軟件輸出結(jié)果作出聚合系數(shù)隨分類數(shù)變化的曲線圖(如圖1),從圖1可以看出,當(dāng)分類數(shù)為5時,曲線變的比較平緩,于是把分類數(shù)確定為5,從而得出房價的綜合趨勢水平的聚類結(jié)果(如表2)。
圖1 聚合系數(shù)隨分類數(shù)的變化
表2 新方法下房價綜合趨勢水平的面板數(shù)據(jù)聚類結(jié)果
第一類包括北京,上海,這些城市發(fā)展較早,又是中國的政治文化中心和金融中心,房地產(chǎn)業(yè)繁榮,屬于房價綜合趨勢水平最高的城市;第二類包括天津,杭州,廣州,深圳,這些城市是中國的重要港口和沿海城市,對外貿(mào)易最活躍,房地產(chǎn)業(yè)相對比較發(fā)達(dá),屬于房價綜合趨勢水平較高的城市;第三類包括石家莊,太原,呼和浩特,沈陽,大連,長春,哈爾濱,南京,寧波,合肥,福州,廈門,南昌,濟(jì)南,青島,武漢,長沙,南寧,海口,成都,貴陽,昆明,西安,蘭州,西寧,銀川,烏魯木齊,這些城市屬于房價綜合趨勢水平一般的城市;第四類包括鄭州,鄭州獨(dú)自成為一類,屬于房價綜合趨勢水平較低的城市;第五類包括重慶,重慶是有名的山城霧都,房地產(chǎn)比較蕭條,屬于房價趨勢水平最低的城市。
從聚類結(jié)果發(fā)現(xiàn),改進(jìn)后的面板數(shù)據(jù)聚類方法很好的將大中型城市房價的綜合趨勢水平進(jìn)行一個合理劃分,劃分的結(jié)果使得每類都比較符合實(shí)際情況。若未消除相同特征間的重疊信息,采用文獻(xiàn)[5]中方法進(jìn)行聚類,聚類結(jié)果(如表3)將多數(shù)成員聚為一類,其余個體單獨(dú)成類,聚類效果極差,與實(shí)際情況不符??梢钥闯?,對指標(biāo)間具有相似特征的這類面板數(shù)據(jù),原方法近乎失效,改進(jìn)后的面板數(shù)據(jù)聚類方法效果顯著。
表3 未改進(jìn)的面板聚類方法的聚類結(jié)果
本文提出的聚類方法適用于少量缺失數(shù)據(jù)的多指標(biāo)面板數(shù)據(jù)的樣本分類問題,該方法綜合考慮了面板數(shù)據(jù)時間維度上的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征等5個動態(tài)特征,消除了每個特征上的信息重疊,利用熵值法解決了這些特征的權(quán)重問題。最后利用該方法對2006—2015年我國大中型城市房價相關(guān)數(shù)據(jù)進(jìn)行了實(shí)證分析,結(jié)果表明新方法能較好的解決指標(biāo)間具有相似特征的多指標(biāo)面板數(shù)據(jù)聚類問題。