亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主成分特征提取的面板數(shù)據(jù)聚類方法

2018-12-03 11:39:22戴大洋鄧光明

統(tǒng)計與決策 2018年21期

戴大洋，鄧光明,b

（桂林理工大學(xué)a.理學(xué)院；b.應(yīng)用統(tǒng)計研究所，廣西桂林 541006）

0 引言

面板數(shù)據(jù)（Panel Data）具有截面數(shù)據(jù)和時間序列數(shù)據(jù)的特性，在現(xiàn)實(shí)數(shù)據(jù)庫中比較常見。它既有截面數(shù)據(jù)個體間的差異信息，又有時間序列數(shù)據(jù)的動態(tài)信息，導(dǎo)致單純的時間序列分析方法和截面數(shù)據(jù)多元統(tǒng)計方法不再適用于面板數(shù)據(jù)。國內(nèi)外大多數(shù)面板數(shù)據(jù)的理論都是從建模的角度入手[1]，而將多元統(tǒng)計方法引入到面板數(shù)據(jù)中只有十幾年的歷史。Bonzo等[2]運(yùn)用概率鏈接函數(shù)取代傳統(tǒng)聚類中的距離函數(shù)來定義聚類標(biāo)準(zhǔn)，把聚類過程看成是一種優(yōu)化問題，運(yùn)用自適應(yīng)模擬退火方法（ASA）對面板數(shù)據(jù)進(jìn)行聚類，首次將多元統(tǒng)計方法引入到面板數(shù)據(jù)中。此后，國內(nèi)掀起面板數(shù)據(jù)聚類的研究熱潮。

在前人的研究中，主要都從降維層面考慮，將面板數(shù)據(jù)的三維信息通過某種技術(shù)手段降為二維信息。朱建平[3]從面板數(shù)據(jù)描述層面出發(fā)，構(gòu)造面板數(shù)據(jù)相似性指標(biāo)，并提出面板數(shù)據(jù)聚類的單指標(biāo)聚類方法。單指標(biāo)面板數(shù)據(jù)自身具有簡化面板數(shù)據(jù)的效果，且單指標(biāo)面板數(shù)據(jù)在現(xiàn)實(shí)數(shù)據(jù)庫中并不多見，因此，該方法適用性較窄。李因果[4]從面板數(shù)據(jù)時序特征和截面特征出發(fā)，重新定義了樣本間“絕對指標(biāo)”、“增量指標(biāo)”和“時序波動”的距離函數(shù)和Ward聚類算法，提出了一套較為合理的面板數(shù)據(jù)聚類算法。黨耀國[5]從特征提取的角度，將每個個體在時間維度上的不同指標(biāo)的統(tǒng)計特征進(jìn)行提取，以此來降低時間維度，并將所有不同指標(biāo)的動態(tài)特征全部看作截面數(shù)據(jù)的指標(biāo)維度，用傳統(tǒng)的動態(tài)聚類方法來聚類。此法對于指標(biāo)提取比較全面和合理，但解決指標(biāo)間具有相似特征的聚類問題就存在一些缺陷：（1）將所有不同指標(biāo)時期內(nèi)的統(tǒng)計特征看成截面數(shù)據(jù)的指標(biāo)維度來聚類，存在信息重疊和未區(qū)分指標(biāo)間重要性差異的問題，對聚類結(jié)果造成很大干擾。（2）在提取統(tǒng)計特征后采用主觀賦權(quán)，人為因素過重。（3）動態(tài)聚類方法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響。

本文試圖在特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法上對上述問題做出優(yōu)化和改進(jìn)，提出了運(yùn)用主成分分析對不同指標(biāo)“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征分別進(jìn)行主成分提取，對每個特征分別計算綜合得分，再運(yùn)用熵值法計算5個特征綜合得分的權(quán)重，將賦權(quán)后的數(shù)據(jù)進(jìn)行系統(tǒng)聚類，最后用房地產(chǎn)面板數(shù)據(jù)進(jìn)行實(shí)證分析。

1 面板數(shù)據(jù)的格式及數(shù)字特征

1.1 單指標(biāo)面板數(shù)據(jù)

單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)格式可用一個二維表表示，每個元素用Xi(t)表示，其中，i表示第i個個體，t表示指標(biāo)記錄的時期數(shù)，Xi(t)表示個體i在t時間記錄的單個指標(biāo)值。單指標(biāo)面板數(shù)據(jù)聚類方法目前已沒有爭議，都是直接將時間維度看作是截面數(shù)據(jù)的指標(biāo)維度，用多元統(tǒng)計分析中截面數(shù)據(jù)的聚類方法來解決。

1.2 多指標(biāo)面板數(shù)據(jù)

多指標(biāo)面板數(shù)據(jù)是時間序列數(shù)據(jù)和截面數(shù)據(jù)的組合，不能再用簡單二維表表示，嚴(yán)格意義上應(yīng)該用三維表表示，為了容易理解，下面仍用二維表表示，如下頁表1，研究總體共有N個個體，每個個體記錄T期，每期有p個指標(biāo)，則個體i的第j個指標(biāo)在第t期的值為Xij(t)，i=1，2，...，N，j=1，2，...，p，t=1，2，...，T，該二維表與簡單二維表不同，它包含時間、個體和指標(biāo)這三維信息。

表1 多指標(biāo)面板數(shù)據(jù)

下面將給出多指標(biāo)面板數(shù)據(jù)的幾個統(tǒng)計量，指標(biāo)的特征提取將用到這些統(tǒng)計量。

（1）個體i的第j個指標(biāo)在T時期內(nèi)的均值為：

（2）個體i的第j個指標(biāo)在T時期內(nèi)的標(biāo)準(zhǔn)差為：

2 面板數(shù)據(jù)的特征提取

2.1 面板數(shù)據(jù)的標(biāo)準(zhǔn)化

面板數(shù)據(jù)各指標(biāo)量綱或數(shù)量級不同會對聚類結(jié)果造成一定影響，故對Xij(t)進(jìn)行均值化的標(biāo)準(zhǔn)化處理，標(biāo)準(zhǔn)化公式為：

這樣標(biāo)準(zhǔn)化后各指標(biāo)的方差是各指標(biāo)變異系數(shù)的平方，不僅消除了量綱和數(shù)量級的影響，又保留了原指標(biāo)的變異信息。

2.2 面板數(shù)據(jù)指標(biāo)的特征量提取

本文按照文獻(xiàn)[5]中面板數(shù)據(jù)在時期特征量的提取思想，從指標(biāo)考察期內(nèi)的發(fā)展水平、趨勢、波動程度、分布情況等方面對每個指標(biāo)在考察期的特征量定義。對于面板數(shù)據(jù)集，設(shè)其有N個個體，每個個體記錄T個時期的p項指標(biāo)。

定義1：個體i的第j個指標(biāo)全時“絕對量”特征，記為：

AQF(Fij)是指個體i的第j個指標(biāo)在總時期T的均值，該特征量反映個體i的第j個指標(biāo)在整個時期絕對發(fā)展水平。

定義2：個體i的第j個指標(biāo)全時“波動”特征，記為：

定義3：個體i的第j個指標(biāo)全時“偏度”特征，記為：

定義4：個體i的第j個指標(biāo)的全時“峰度”特征，記為：

該特征量反映個體i的第j個指標(biāo)在整個時期分布曲線的尖峭程度；KCF(Fij)小于0，表示該指標(biāo)值的分布比正態(tài)分布更分散，KCF(Fij)小于0，表示該指標(biāo)值的分布比正態(tài)分布更集中在平均值周圍。

定義5：個體i的第j個指標(biāo)全時“趨勢”特征，記為：

TF(Fij)描述了指標(biāo)的長期變化趨勢，若指標(biāo)的TF(Fij)值越接近，說明這兩指標(biāo)都呈同坡度變化，兩指標(biāo)越相似。以第i個個體的第j個指標(biāo)T時期的指標(biāo)列為樣本，建立的回歸模型，利用最小二乘法估計參數(shù)β，此時的β就是TF(Fij)。

2.3 特征量的二次提取

文獻(xiàn)[5]在提取面板數(shù)據(jù)整個時期5個方面的特征量后，分別對每個指標(biāo)的各個特征量主觀賦權(quán)后直接用動態(tài)聚類算法聚類出結(jié)果。但在提取每個指標(biāo)相同特征統(tǒng)計量時，它們之間可能具有相關(guān)性。即使個體的每個指標(biāo)間不具相關(guān)性，但所有指標(biāo)在“絕對量”、“波動”、“偏度”、“峰度”和“趨勢”的每一個特征上卻可能具有相關(guān)性。在宏觀經(jīng)濟(jì)數(shù)據(jù)中不同指標(biāo)在同一時期極易存在相同的趨勢或類似的波動等，若利用此時的數(shù)據(jù)集聚類，將會對聚類結(jié)果造成嚴(yán)重干擾。本文將對不同指標(biāo)的相同特征量分別進(jìn)行主成分分析，得到每個特征的綜合得分。

定義6：F1，F(xiàn)2，…，F(xiàn)p為p維指標(biāo)向量AQF(Fi)=(AQF(Fi1)，AQF(Fi2)，…，AQF(Fip))提取的主成分，記αk(k=1，2，...，p)為主成分Fk的方差貢獻(xiàn)率，則主成分降維后“絕對量”特征AQF(Fij)的綜合得分為：

同理可分別定義“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的綜合得分為

經(jīng)前人的實(shí)驗(yàn)得知，取不同主成分個數(shù)時，聚類結(jié)果會全然不同，當(dāng)取到全部主成分時，聚類結(jié)果趨于穩(wěn)定，并達(dá)到最佳效果。為了避免數(shù)據(jù)集各變量相關(guān)度不高的情況下?。ɡ塾嬝暙I(xiàn)率≥85%）前幾個主成分計算綜合得分時信息損失嚴(yán)重和聚類效果不好，此處取所有主成分，即。為了敘述方便，后面將F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)分別稱為主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征。

2.4 特征量的賦權(quán)

本文中主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征對個體差異影響程度會有所不同，根據(jù)它們的影響程度必須賦予相應(yīng)權(quán)重wj（j=1，2，...，5），為了避免主觀臆測，本文采取熵值法客觀賦權(quán)[6]。

熵值法賦權(quán)的基本步驟：

（1）選取N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)的數(shù)據(jù)集{Zij}，則Zij為第i個個體第j個指標(biāo)的數(shù)值 (i=1，2，...，N，j=1，2，...，5)；

（2）指標(biāo)歸一化：異質(zhì)指標(biāo)同質(zhì)化

采用不同的算法進(jìn)行標(biāo)準(zhǔn)化處理。令Zij=| |Zij，方法如下：

正向指標(biāo)：

負(fù)向指標(biāo)：

則Z'ij為第i個個體第j個指標(biāo)歸一化的數(shù)值，為了敘述方便，歸一化的數(shù)值仍記作Zij；

（3）計算第j個指標(biāo)的第i個個體占該指標(biāo)的比重pij和第j個指標(biāo)的熵值ej：

其中，k=1/ln(N)＞0，需滿足ej≥0。

（4）計算信息熵冗余度dj和各項指標(biāo)的權(quán)重wj：

編寫MATLAB程序代碼實(shí)現(xiàn)上述算法，可得出主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征相應(yīng)的權(quán)重

3 面板數(shù)據(jù)的聚類方法

上文從特征提取的角度減少了面板數(shù)據(jù)的時間維度，將面板數(shù)據(jù)轉(zhuǎn)化為截面數(shù)據(jù)，因此，可以直接用截面數(shù)據(jù)聚類方法對面板數(shù)據(jù)進(jìn)行聚類。

動態(tài)聚類算法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響，不同于文獻(xiàn)[5],考慮到聚類效果的穩(wěn)定性，這里采用系統(tǒng)聚類[7]對面板數(shù)據(jù)進(jìn)行聚類。先對N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)在總體上進(jìn)行Z-Score標(biāo)準(zhǔn)化，以消除數(shù)量級影響，標(biāo)準(zhǔn)化后5個指標(biāo)值分別記為F*_AQF(Fi)、F*_VF(Fi)、F*_SCF(Fi)、F*_KCF(Fi)、F*_TF(Fi)。然后再用數(shù)據(jù)集{w1F*_AQF(Fi)、w2F*_VF(Fi)、w3F*_SCF(Fi)、w4F*_KCF(Fi)、w5F*_TF(Fi)(i=1，2，...，N)}進(jìn)行系統(tǒng)聚類。

4 方法應(yīng)用實(shí)例

4.1 數(shù)據(jù)的來源和指標(biāo)選取

本文選取房屋平均價格、國內(nèi)生產(chǎn)總值、年末人口數(shù)、房地產(chǎn)開發(fā)投資額、房地產(chǎn)開發(fā)竣工面積、在崗職工平均工資和社會商品零售總額這5個指標(biāo)[8]來反映我國房價的綜合趨勢水平。年末人口數(shù)和在崗職工平均工資從需求層面影響房價，房地產(chǎn)開發(fā)投資額和房地產(chǎn)開發(fā)竣工面積從供給層面影響房價，國內(nèi)生產(chǎn)總值和社會商品零售總額從宏觀經(jīng)濟(jì)層面影響房價，且基本都是正向影響，這些影響因素和房屋平均價格都反映房價的綜合趨勢水平。本文所使用的數(shù)據(jù)來源于國家統(tǒng)計局官網(wǎng)（2006—2015年）。

4.2 聚類分析

按照本文提出的面板數(shù)據(jù)聚類方法，使用SPSS20.0、MATLAB和EXCEL2007軟件對我國35個大中型城市的房地產(chǎn)相關(guān)數(shù)據(jù)進(jìn)行聚類。利用MATLAB運(yùn)行熵值法算法程序計算所提取特征的權(quán)重，“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的權(quán)重分別為0.241，0.384，0.099 ，0.144，0.132；從權(quán)重的客觀賦值情況看出，時期的“絕對量”水平和“波動”水平對個體間差異的貢獻(xiàn)程度都比較大，“偏度”、“峰度”和“趨勢”水平的貢獻(xiàn)程度相對而言比較小，可以理解為這些年的數(shù)據(jù)整體上都有一個大的增長趨勢，導(dǎo)致“偏度”、“峰度”和“趨勢”對個體差異影響不大，所以熵值法計算的權(quán)重有一定的合理性。

將本文面板數(shù)據(jù)的聚類方法用EXCEL2007和SPSS20.0軟件實(shí)現(xiàn)，根據(jù)軟件輸出結(jié)果作出聚合系數(shù)隨分類數(shù)變化的曲線圖（如圖1），從圖1可以看出，當(dāng)分類數(shù)為5時，曲線變的比較平緩，于是把分類數(shù)確定為5，從而得出房價的綜合趨勢水平的聚類結(jié)果（如表2）。

圖1 聚合系數(shù)隨分類數(shù)的變化

表2 新方法下房價綜合趨勢水平的面板數(shù)據(jù)聚類結(jié)果

第一類包括北京，上海，這些城市發(fā)展較早，又是中國的政治文化中心和金融中心，房地產(chǎn)業(yè)繁榮，屬于房價綜合趨勢水平最高的城市；第二類包括天津，杭州，廣州，深圳，這些城市是中國的重要港口和沿海城市，對外貿(mào)易最活躍，房地產(chǎn)業(yè)相對比較發(fā)達(dá)，屬于房價綜合趨勢水平較高的城市；第三類包括石家莊，太原，呼和浩特，沈陽，大連，長春，哈爾濱，南京，寧波，合肥，福州，廈門，南昌，濟(jì)南，青島，武漢，長沙，南寧，海口，成都，貴陽，昆明，西安，蘭州，西寧，銀川，烏魯木齊，這些城市屬于房價綜合趨勢水平一般的城市；第四類包括鄭州，鄭州獨(dú)自成為一類，屬于房價綜合趨勢水平較低的城市；第五類包括重慶，重慶是有名的山城霧都，房地產(chǎn)比較蕭條，屬于房價趨勢水平最低的城市。

從聚類結(jié)果發(fā)現(xiàn)，改進(jìn)后的面板數(shù)據(jù)聚類方法很好的將大中型城市房價的綜合趨勢水平進(jìn)行一個合理劃分，劃分的結(jié)果使得每類都比較符合實(shí)際情況。若未消除相同特征間的重疊信息，采用文獻(xiàn)[5]中方法進(jìn)行聚類，聚類結(jié)果（如表3）將多數(shù)成員聚為一類，其余個體單獨(dú)成類，聚類效果極差，與實(shí)際情況不符?？梢钥闯?，對指標(biāo)間具有相似特征的這類面板數(shù)據(jù)，原方法近乎失效，改進(jìn)后的面板數(shù)據(jù)聚類方法效果顯著。

表3 未改進(jìn)的面板聚類方法的聚類結(jié)果

5 結(jié)論

本文提出的聚類方法適用于少量缺失數(shù)據(jù)的多指標(biāo)面板數(shù)據(jù)的樣本分類問題，該方法綜合考慮了面板數(shù)據(jù)時間維度上的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征等5個動態(tài)特征，消除了每個特征上的信息重疊，利用熵值法解決了這些特征的權(quán)重問題。最后利用該方法對2006—2015年我國大中型城市房價相關(guān)數(shù)據(jù)進(jìn)行了實(shí)證分析，結(jié)果表明新方法能較好的解決指標(biāo)間具有相似特征的多指標(biāo)面板數(shù)據(jù)聚類問題。