亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主成分特征提取的面板數(shù)據(jù)聚類方法

        2018-12-03 11:39:22戴大洋鄧光明
        統(tǒng)計與決策 2018年21期
        關(guān)鍵詞:偏度峰度面板

        戴大洋,鄧光明,b

        (桂林理工大學(xué)a.理學(xué)院;b.應(yīng)用統(tǒng)計研究所,廣西 桂林 541006)

        0 引言

        面板數(shù)據(jù)(Panel Data)具有截面數(shù)據(jù)和時間序列數(shù)據(jù)的特性,在現(xiàn)實(shí)數(shù)據(jù)庫中比較常見。它既有截面數(shù)據(jù)個體間的差異信息,又有時間序列數(shù)據(jù)的動態(tài)信息,導(dǎo)致單純的時間序列分析方法和截面數(shù)據(jù)多元統(tǒng)計方法不再適用于面板數(shù)據(jù)。國內(nèi)外大多數(shù)面板數(shù)據(jù)的理論都是從建模的角度入手[1],而將多元統(tǒng)計方法引入到面板數(shù)據(jù)中只有十幾年的歷史。Bonzo等[2]運(yùn)用概率鏈接函數(shù)取代傳統(tǒng)聚類中的距離函數(shù)來定義聚類標(biāo)準(zhǔn),把聚類過程看成是一種優(yōu)化問題,運(yùn)用自適應(yīng)模擬退火方法(ASA)對面板數(shù)據(jù)進(jìn)行聚類,首次將多元統(tǒng)計方法引入到面板數(shù)據(jù)中。此后,國內(nèi)掀起面板數(shù)據(jù)聚類的研究熱潮。

        在前人的研究中,主要都從降維層面考慮,將面板數(shù)據(jù)的三維信息通過某種技術(shù)手段降為二維信息。朱建平[3]從面板數(shù)據(jù)描述層面出發(fā),構(gòu)造面板數(shù)據(jù)相似性指標(biāo),并提出面板數(shù)據(jù)聚類的單指標(biāo)聚類方法。單指標(biāo)面板數(shù)據(jù)自身具有簡化面板數(shù)據(jù)的效果,且單指標(biāo)面板數(shù)據(jù)在現(xiàn)實(shí)數(shù)據(jù)庫中并不多見,因此,該方法適用性較窄。李因果[4]從面板數(shù)據(jù)時序特征和截面特征出發(fā),重新定義了樣本間“絕對指標(biāo)”、“增量指標(biāo)”和“時序波動”的距離函數(shù)和Ward聚類算法,提出了一套較為合理的面板數(shù)據(jù)聚類算法。黨耀國[5]從特征提取的角度,將每個個體在時間維度上的不同指標(biāo)的統(tǒng)計特征進(jìn)行提取,以此來降低時間維度,并將所有不同指標(biāo)的動態(tài)特征全部看作截面數(shù)據(jù)的指標(biāo)維度,用傳統(tǒng)的動態(tài)聚類方法來聚類。此法對于指標(biāo)提取比較全面和合理,但解決指標(biāo)間具有相似特征的聚類問題就存在一些缺陷:(1)將所有不同指標(biāo)時期內(nèi)的統(tǒng)計特征看成截面數(shù)據(jù)的指標(biāo)維度來聚類,存在信息重疊和未區(qū)分指標(biāo)間重要性差異的問題,對聚類結(jié)果造成很大干擾。(2)在提取統(tǒng)計特征后采用主觀賦權(quán),人為因素過重。(3)動態(tài)聚類方法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響。

        本文試圖在特征提取的多指標(biāo)面板數(shù)據(jù)聚類方法上對上述問題做出優(yōu)化和改進(jìn),提出了運(yùn)用主成分分析對不同指標(biāo)“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征分別進(jìn)行主成分提取,對每個特征分別計算綜合得分,再運(yùn)用熵值法計算5個特征綜合得分的權(quán)重,將賦權(quán)后的數(shù)據(jù)進(jìn)行系統(tǒng)聚類,最后用房地產(chǎn)面板數(shù)據(jù)進(jìn)行實(shí)證分析。

        1 面板數(shù)據(jù)的格式及數(shù)字特征

        1.1 單指標(biāo)面板數(shù)據(jù)

        單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)格式可用一個二維表表示,每個元素用Xi(t)表示,其中,i表示第i個個體,t表示指標(biāo)記錄的時期數(shù),Xi(t)表示個體i在t時間記錄的單個指標(biāo)值。單指標(biāo)面板數(shù)據(jù)聚類方法目前已沒有爭議,都是直接將時間維度看作是截面數(shù)據(jù)的指標(biāo)維度,用多元統(tǒng)計分析中截面數(shù)據(jù)的聚類方法來解決。

        1.2 多指標(biāo)面板數(shù)據(jù)

        多指標(biāo)面板數(shù)據(jù)是時間序列數(shù)據(jù)和截面數(shù)據(jù)的組合,不能再用簡單二維表表示,嚴(yán)格意義上應(yīng)該用三維表表示,為了容易理解,下面仍用二維表表示,如下頁表1,研究總體共有N個個體,每個個體記錄T期,每期有p個指標(biāo),則個體i的第j個指標(biāo)在第t期的值為Xij(t),i=1,2,...,N,j=1,2,...,p,t=1,2,...,T,該二維表與簡單二維表不同,它包含時間、個體和指標(biāo)這三維信息。

        表1 多指標(biāo)面板數(shù)據(jù)

        下面將給出多指標(biāo)面板數(shù)據(jù)的幾個統(tǒng)計量,指標(biāo)的特征提取將用到這些統(tǒng)計量。

        (1)個體i的第j個指標(biāo)在T時期內(nèi)的均值為:

        (2)個體i的第j個指標(biāo)在T時期內(nèi)的標(biāo)準(zhǔn)差為:

        2 面板數(shù)據(jù)的特征提取

        2.1 面板數(shù)據(jù)的標(biāo)準(zhǔn)化

        面板數(shù)據(jù)各指標(biāo)量綱或數(shù)量級不同會對聚類結(jié)果造成一定影響,故對Xij(t)進(jìn)行均值化的標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式為:

        這樣標(biāo)準(zhǔn)化后各指標(biāo)的方差是各指標(biāo)變異系數(shù)的平方,不僅消除了量綱和數(shù)量級的影響,又保留了原指標(biāo)的變異信息。

        2.2 面板數(shù)據(jù)指標(biāo)的特征量提取

        本文按照文獻(xiàn)[5]中面板數(shù)據(jù)在時期特征量的提取思想,從指標(biāo)考察期內(nèi)的發(fā)展水平、趨勢、波動程度、分布情況等方面對每個指標(biāo)在考察期的特征量定義。對于面板數(shù)據(jù)集,設(shè)其有N個個體,每個個體記錄T個時期的p項指標(biāo)。

        定義1:個體i的第j個指標(biāo)全時“絕對量”特征,記為:

        AQF(Fij)是指個體i的第j個指標(biāo)在總時期T的均值,該特征量反映個體i的第j個指標(biāo)在整個時期絕對發(fā)展水平。

        定義2:個體i的第j個指標(biāo)全時“波動”特征,記為:

        定義3:個體i的第j個指標(biāo)全時“偏度”特征,記為:

        定義4:個體i的第j個指標(biāo)的全時“峰度”特征,記為:

        該特征量反映個體i的第j個指標(biāo)在整個時期分布曲線的尖峭程度;KCF(Fij)小于0,表示該指標(biāo)值的分布比正態(tài)分布更分散,KCF(Fij)小于0,表示該指標(biāo)值的分布比正態(tài)分布更集中在平均值周圍。

        定義5:個體i的第j個指標(biāo)全時“趨勢”特征,記為:

        TF(Fij)描述了指標(biāo)的長期變化趨勢,若指標(biāo)的TF(Fij)值越接近,說明這兩指標(biāo)都呈同坡度變化,兩指標(biāo)越相似。以第i個個體的第j個指標(biāo)T時期的指標(biāo)列為樣本,建立的回歸模型,利用最小二乘法估計參數(shù)β,此時的β就是TF(Fij)。

        2.3 特征量的二次提取

        文獻(xiàn)[5]在提取面板數(shù)據(jù)整個時期5個方面的特征量后,分別對每個指標(biāo)的各個特征量主觀賦權(quán)后直接用動態(tài)聚類算法聚類出結(jié)果。但在提取每個指標(biāo)相同特征統(tǒng)計量時,它們之間可能具有相關(guān)性。即使個體的每個指標(biāo)間不具相關(guān)性,但所有指標(biāo)在“絕對量”、“波動”、“偏度”、“峰度”和“趨勢”的每一個特征上卻可能具有相關(guān)性。在宏觀經(jīng)濟(jì)數(shù)據(jù)中不同指標(biāo)在同一時期極易存在相同的趨勢或類似的波動等,若利用此時的數(shù)據(jù)集聚類,將會對聚類結(jié)果造成嚴(yán)重干擾。本文將對不同指標(biāo)的相同特征量分別進(jìn)行主成分分析,得到每個特征的綜合得分。

        定義6:F1,F(xiàn)2,…,F(xiàn)p為p維指標(biāo)向量AQF(Fi)=(AQF(Fi1),AQF(Fi2),…,AQF(Fip))提取的主成分,記αk(k=1,2,...,p)為主成分Fk的方差貢獻(xiàn)率,則主成分降維后“絕對量”特征AQF(Fij)的綜合得分為:

        同理可分別定義“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的綜合得分為

        經(jīng)前人的實(shí)驗(yàn)得知,取不同主成分個數(shù)時,聚類結(jié)果會全然不同,當(dāng)取到全部主成分時,聚類結(jié)果趨于穩(wěn)定,并達(dá)到最佳效果。為了避免數(shù)據(jù)集各變量相關(guān)度不高的情況下?。ɡ塾嬝暙I(xiàn)率≥85%)前幾個主成分計算綜合得分時信息損失嚴(yán)重和聚類效果不好,此處取所有主成分,即。為了敘述方便,后面將F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)分別稱為主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征。

        2.4 特征量的賦權(quán)

        本文中主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征對個體差異影響程度會有所不同,根據(jù)它們的影響程度必須賦予相應(yīng)權(quán)重wj(j=1,2,...,5),為了避免主觀臆測,本文采取熵值法客觀賦權(quán)[6]。

        熵值法賦權(quán)的基本步驟:

        (1)選取N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)的數(shù)據(jù)集{Zij},則Zij為第i個個體第j個指標(biāo)的數(shù)值 (i=1,2,...,N,j=1,2,...,5);

        (2)指標(biāo)歸一化:異質(zhì)指標(biāo)同質(zhì)化

        采用不同的算法進(jìn)行標(biāo)準(zhǔn)化處理。令Zij=| |Zij,方法如下:

        正向指標(biāo):

        負(fù)向指標(biāo):

        則Z'ij為第i個個體第j個指標(biāo)歸一化的數(shù)值,為了敘述方便,歸一化的數(shù)值仍記作Zij;

        (3)計算第j個指標(biāo)的第i個個體占該指標(biāo)的比重pij和第j個指標(biāo)的熵值ej:

        其中,k=1/ln(N)>0,需滿足ej≥0。

        (4)計算信息熵冗余度dj和各項指標(biāo)的權(quán)重wj:

        編寫MATLAB程序代碼實(shí)現(xiàn)上述算法,可得出主成分“絕對量”特征、主成分“波動”特征、主成分“偏度”特征、主成分“峰度”特征和主成分“趨勢”特征相應(yīng)的權(quán)重

        3 面板數(shù)據(jù)的聚類方法

        上文從特征提取的角度減少了面板數(shù)據(jù)的時間維度,將面板數(shù)據(jù)轉(zhuǎn)化為截面數(shù)據(jù),因此,可以直接用截面數(shù)據(jù)聚類方法對面板數(shù)據(jù)進(jìn)行聚類。

        動態(tài)聚類算法因初始聚類中心選取不同而對聚類結(jié)果造成很大影響,不同于文獻(xiàn)[5],考慮到聚類效果的穩(wěn)定性,這里采用系統(tǒng)聚類[7]對面板數(shù)據(jù)進(jìn)行聚類。先對N個個體的5項指標(biāo)F_AQF(Fi)、F_VF(Fi)、F_SCF(Fi)、F_KCF(Fi)、F_TF(Fi)在總體上進(jìn)行Z-Score標(biāo)準(zhǔn)化,以消除數(shù)量級影響,標(biāo)準(zhǔn)化后5個指標(biāo)值分別記為F*_AQF(Fi)、F*_VF(Fi)、F*_SCF(Fi)、F*_KCF(Fi)、F*_TF(Fi)。然后再用數(shù)據(jù)集{w1F*_AQF(Fi)、w2F*_VF(Fi)、w3F*_SCF(Fi)、w4F*_KCF(Fi)、w5F*_TF(Fi)(i=1,2,...,N)}進(jìn)行系統(tǒng)聚類。

        4 方法應(yīng)用實(shí)例

        4.1 數(shù)據(jù)的來源和指標(biāo)選取

        本文選取房屋平均價格、國內(nèi)生產(chǎn)總值、年末人口數(shù)、房地產(chǎn)開發(fā)投資額、房地產(chǎn)開發(fā)竣工面積、在崗職工平均工資和社會商品零售總額這5個指標(biāo)[8]來反映我國房價的綜合趨勢水平。年末人口數(shù)和在崗職工平均工資從需求層面影響房價,房地產(chǎn)開發(fā)投資額和房地產(chǎn)開發(fā)竣工面積從供給層面影響房價,國內(nèi)生產(chǎn)總值和社會商品零售總額從宏觀經(jīng)濟(jì)層面影響房價,且基本都是正向影響,這些影響因素和房屋平均價格都反映房價的綜合趨勢水平。本文所使用的數(shù)據(jù)來源于國家統(tǒng)計局官網(wǎng)(2006—2015年)。

        4.2 聚類分析

        按照本文提出的面板數(shù)據(jù)聚類方法,使用SPSS20.0、MATLAB和EXCEL2007軟件對我國35個大中型城市的房地產(chǎn)相關(guān)數(shù)據(jù)進(jìn)行聚類。利用MATLAB運(yùn)行熵值法算法程序計算所提取特征的權(quán)重,“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征和“趨勢”特征的權(quán)重分別為0.241,0.384,0.099 ,0.144,0.132;從權(quán)重的客觀賦值情況看出,時期的“絕對量”水平和“波動”水平對個體間差異的貢獻(xiàn)程度都比較大,“偏度”、“峰度”和“趨勢”水平的貢獻(xiàn)程度相對而言比較小,可以理解為這些年的數(shù)據(jù)整體上都有一個大的增長趨勢,導(dǎo)致“偏度”、“峰度”和“趨勢”對個體差異影響不大,所以熵值法計算的權(quán)重有一定的合理性。

        將本文面板數(shù)據(jù)的聚類方法用EXCEL2007和SPSS20.0軟件實(shí)現(xiàn),根據(jù)軟件輸出結(jié)果作出聚合系數(shù)隨分類數(shù)變化的曲線圖(如圖1),從圖1可以看出,當(dāng)分類數(shù)為5時,曲線變的比較平緩,于是把分類數(shù)確定為5,從而得出房價的綜合趨勢水平的聚類結(jié)果(如表2)。

        圖1 聚合系數(shù)隨分類數(shù)的變化

        表2 新方法下房價綜合趨勢水平的面板數(shù)據(jù)聚類結(jié)果

        第一類包括北京,上海,這些城市發(fā)展較早,又是中國的政治文化中心和金融中心,房地產(chǎn)業(yè)繁榮,屬于房價綜合趨勢水平最高的城市;第二類包括天津,杭州,廣州,深圳,這些城市是中國的重要港口和沿海城市,對外貿(mào)易最活躍,房地產(chǎn)業(yè)相對比較發(fā)達(dá),屬于房價綜合趨勢水平較高的城市;第三類包括石家莊,太原,呼和浩特,沈陽,大連,長春,哈爾濱,南京,寧波,合肥,福州,廈門,南昌,濟(jì)南,青島,武漢,長沙,南寧,海口,成都,貴陽,昆明,西安,蘭州,西寧,銀川,烏魯木齊,這些城市屬于房價綜合趨勢水平一般的城市;第四類包括鄭州,鄭州獨(dú)自成為一類,屬于房價綜合趨勢水平較低的城市;第五類包括重慶,重慶是有名的山城霧都,房地產(chǎn)比較蕭條,屬于房價趨勢水平最低的城市。

        從聚類結(jié)果發(fā)現(xiàn),改進(jìn)后的面板數(shù)據(jù)聚類方法很好的將大中型城市房價的綜合趨勢水平進(jìn)行一個合理劃分,劃分的結(jié)果使得每類都比較符合實(shí)際情況。若未消除相同特征間的重疊信息,采用文獻(xiàn)[5]中方法進(jìn)行聚類,聚類結(jié)果(如表3)將多數(shù)成員聚為一類,其余個體單獨(dú)成類,聚類效果極差,與實(shí)際情況不符??梢钥闯?,對指標(biāo)間具有相似特征的這類面板數(shù)據(jù),原方法近乎失效,改進(jìn)后的面板數(shù)據(jù)聚類方法效果顯著。

        表3 未改進(jìn)的面板聚類方法的聚類結(jié)果

        5 結(jié)論

        本文提出的聚類方法適用于少量缺失數(shù)據(jù)的多指標(biāo)面板數(shù)據(jù)的樣本分類問題,該方法綜合考慮了面板數(shù)據(jù)時間維度上的“絕對量”特征、“波動”特征、“偏度”特征、“峰度”特征、“趨勢”特征等5個動態(tài)特征,消除了每個特征上的信息重疊,利用熵值法解決了這些特征的權(quán)重問題。最后利用該方法對2006—2015年我國大中型城市房價相關(guān)數(shù)據(jù)進(jìn)行了實(shí)證分析,結(jié)果表明新方法能較好的解決指標(biāo)間具有相似特征的多指標(biāo)面板數(shù)據(jù)聚類問題。

        猜你喜歡
        偏度峰度面板
        面板燈設(shè)計開發(fā)與應(yīng)用
        擴(kuò)散峰度成像技術(shù)檢測急性期癲癇大鼠模型的成像改變
        對稱分布的矩刻畫
        磁共振擴(kuò)散峰度成像在肝臟病變中的研究進(jìn)展
        MasterCAM在面板類零件造型及加工中的應(yīng)用
        模具制造(2019年4期)2019-06-24 03:36:50
        基于自動反相校正和峰度值比較的探地雷達(dá)回波信號去噪方法
        Photoshop CC圖庫面板的正確打開方法
        基于偏度的滾動軸承聲信號故障分析方法
        考慮偏度特征的動態(tài)多響應(yīng)穩(wěn)健參數(shù)設(shè)計與優(yōu)化
        磁共振擴(kuò)散峰度成像MK值、FA值在鑒別高級別膠質(zhì)瘤與轉(zhuǎn)移瘤的價值分析
        女人被狂躁c到高潮| 亚洲素人av在线观看| 亚洲高清精品一区二区| 狠狠综合久久av一区二区蜜桃| 亚洲av无码一区二区三区乱子伦| 国内少妇偷人精品视频免费| 亚洲日韩AV无码美腿丝袜 | 久久精品国产亚洲AV无码不| 国产丝袜在线福利观看| 日本三区在线观看视频| 婷婷四虎东京热无码群交双飞视频| a级毛片无码免费真人| 亚洲色欲大片AAA无码| 国产偷闻隔壁人妻内裤av| 久久伊人亚洲精品视频| 久久婷婷五月综合97色一本一本| 久草热8精品视频在线观看| 东京热无码人妻中文字幕| 色和尚色视频在线看网站| 国产无遮挡又爽又刺激的视频老师 | 国产精品亚洲婷婷99久久精品| 亚洲国产精品情侣视频| 久久久久久亚洲av无码蜜芽| 五月天婷婷综合网| 国产av一区仑乱久久精品| 日韩欧美中文字幕公布| 品色永久免费| 二区久久国产乱子伦免费精品 | 国产高清一级毛片在线看| 亚洲日本一区二区在线| 国产美女精品一区二区三区| 伊人久久中文大香线蕉综合| 手机在线看片在线日韩av| 欲香欲色天天天综合和网| 最新国产av无码专区亚洲| 99久久精品国产自在首页| 国产麻豆精品久久一二三| 国产精品成人一区二区不卡| 亚洲欧美日韩在线不卡| 国产一毛片| 日本一区二区三区一级片|