梁錦玲,鄧光明,b
(桂林理工大學(xué)a.理學(xué)院;b.應(yīng)用統(tǒng)計研究所,廣西 桂林 541006)
隨著數(shù)據(jù)收集便利程度的不斷提高,面板數(shù)據(jù)在計量建模相關(guān)領(lǐng)域得到了廣泛的應(yīng)用[1]。由于其特殊的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)特征,學(xué)者們也嘗試將面板數(shù)據(jù)引入多元統(tǒng)計分析中[2]。從多元統(tǒng)計角度出發(fā),面板數(shù)據(jù)聚類的思路主要有:一是從聚類原理出發(fā)[3—6],構(gòu)造新的統(tǒng)計量和相應(yīng)聚類算法測度樣本相似性。李因果和何曉群(2010)[3]從樣本指標(biāo)的水平值、增量值、波動特征等方面考慮,構(gòu)造了“綜合”距離函數(shù)和相應(yīng)聚類方法測度樣本相似性。二是對面板數(shù)據(jù)進(jìn)行降維[7—11]。王澤東和鄧光明(2019)[8]采用主成分分析法計算得到樣本的綜合得分序列,并構(gòu)造了綜合趨勢距離度量時間序列的相似性,此方法能較好地捕捉樣本發(fā)展趨勢的變化,也彌補(bǔ)了DTW 法的不足。以上兩種方法均是從面板數(shù)據(jù)指標(biāo)維度降維,也有學(xué)者從時間維度降維。如黨耀國和侯荻青(2016)[9]提取樣本在絕對水平、波動、趨勢、分布等方面的特征,并運(yùn)用重心法對特征量進(jìn)行動態(tài)聚類;戴大洋和鄧光明(2018)[10]利用主成分分析法對前人提取的特征量進(jìn)行二次綜合提取,不僅區(qū)分了樣本指標(biāo)的重要性程度,也解決了潛在的信息重疊問題,提高了樣本聚類結(jié)果的準(zhǔn)確性。以上方法為多指標(biāo)面板數(shù)據(jù)聚類問題提供了切實(shí)可行的思路,但同時也存在一些局限性。在聚類原理方面,多采用歐氏距離測度面板數(shù)據(jù)的相似性,而歐氏距離在測度帶有時間序列的數(shù)據(jù)時由于不能沿時間軸轉(zhuǎn)動,因此難以真正捕捉樣本在時間維度上的變化。在降維角度方面,相關(guān)研究雖避免了第一類方法中歐氏距離的問題,但在降維時存在以下不足:在從面板數(shù)據(jù)指標(biāo)維度降維時多采用主成分分析法,該方法在計算每年綜合得分時不在同一坐標(biāo)系下進(jìn)行,因此無法保證評價系統(tǒng)的一致性以及評價結(jié)果的可比性;在從面板數(shù)據(jù)時間維度降維時,采用均值法提取絕對值特征無法體現(xiàn)不同時間點(diǎn)的重要程度。
鑒于以上方法存在的問題,本文從面板數(shù)據(jù)的維度特征出發(fā),分別對面板數(shù)據(jù)提取指標(biāo)維度綜合評價值和時間維度綜合評價值,并對兩個維度綜合評價值進(jìn)行系統(tǒng)聚類,最后用我國省域高等教育發(fā)展水平相關(guān)數(shù)據(jù)進(jìn)行實(shí)證分析。在計算指標(biāo)維度評價值時,利用“縱橫向”拉開檔次法確定指標(biāo)權(quán)重,并依據(jù)“厚今薄古”的思想加入時間權(quán)重,以避免主成分分析法所得評價值缺乏統(tǒng)一性、可比性以及均值法無法體現(xiàn)時間點(diǎn)重要性的問題。在計算樣本時間維度綜合評價值時,運(yùn)用具有速度特征的綜合評價模型對樣本增量速度進(jìn)行動態(tài)綜合評價,所得評價值融合了樣本增量速度狀態(tài)和趨勢,能較好地體現(xiàn)樣本的波動大小和變化趨勢。
計算面板數(shù)據(jù)指標(biāo)維度綜合評價值的關(guān)鍵在于指標(biāo)權(quán)重的確定,常用的確定指標(biāo)權(quán)重的方法有主成分分析法、熵值法等,但此類方法只適用于靜態(tài)截面數(shù)據(jù),若將其應(yīng)用于面板數(shù)據(jù)中分別計算每年的指標(biāo)權(quán)重,則會造成評價體系不統(tǒng)一、評價結(jié)果缺乏可比性等問題。因此,本文選擇“縱橫向”拉開檔次法[12]確定指標(biāo)權(quán)重?;舅枷牒颓蠼膺^程如下。
(1)設(shè)xij(tk)為第i(i=1,2,…,n)個樣本在tk(k=1,2,…,N)時刻第j(j=1,2,…,m)項(xiàng)指標(biāo)的觀測值。對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理:
(2)對時刻tk(k=1,2,…,N)取綜合評價函數(shù):
(3)確定權(quán)重系數(shù)wj(j=1,2,…,m)。用yi(tk)的總離差平方和σ2表示各種被評價樣本之間整體的差異:
若限定wTw=1,則當(dāng)取w為矩陣H的最大特征值λmax(H)所對應(yīng)的標(biāo)準(zhǔn)特征向量時,σ2最大,且有Hw=λmax(H)。
(4)將歸一化后的w=(w1,w2,…,wm)T代入式(2),可得各個樣本水平的綜合評價序列矩陣Y:
為體現(xiàn)“厚今薄古”的思想,對樣本每個時期綜合評價值賦予時間權(quán)重,進(jìn)而得到樣本i在總時期內(nèi)的指標(biāo)維度綜合評價值Yi:
其中,時間權(quán)重ωtk由反三角函數(shù)F(tk)=arctan(tk)(tk=1,2,…,N)確定[3]。
為體現(xiàn)樣本的波動大小和變化趨勢,運(yùn)用具有速度特征的動態(tài)綜合評價模型[13]計算面板數(shù)據(jù)時間維度綜合評價值。根據(jù)“縱橫向”拉開檔次法得到綜合評價時間序列矩陣式(6),記樣本在[tj,tj+1]時間段的增量速度為vij,得到樣本的增量速度時間序列矩陣為:
根據(jù)式(8)可對樣本的增量速度狀態(tài)和趨勢進(jìn)行測度。
假設(shè)樣本在某一時間段內(nèi)的增量速度狀態(tài)是均勻的,則樣本增量速度的運(yùn)動軌跡如圖1所示。
圖1 樣本增量速度運(yùn)動軌跡
圖1 中折線與橫軸圍成的面積就是樣本在[tj,tj+1]時間內(nèi)增量速度狀態(tài)累計狀況,其動態(tài)綜合評價值可用積分表示為:
由式(8)可求得樣本在時間[j,j+1]內(nèi)的增量加速度為:
為使動態(tài)綜合評價值體現(xiàn)出樣本“上升”或“下降”的變化信息,構(gòu)造如下單調(diào)遞增函數(shù)測度樣本的增量速度趨勢:
若aij→+∞,則λ(aij)趨近于ε;若aij→-∞,則λ(aij)趨近于0。利用λ(aij)的單調(diào)遞增性可對不同的增量速度狀態(tài)進(jìn)行獎懲式修正。若aij=0,λ(aij)=1,ε=2,樣本增量速度不變,則不對增量速度狀態(tài)進(jìn)行獎勵或懲罰;若,樣本增量速度加速上升,則增量速度狀態(tài)得到相應(yīng)大小的獎勵因子;若aij<0,λ(aij)=,樣本增量速度加速下降,則增量速度狀態(tài)得到相應(yīng)大小的懲罰因子。
結(jié)合增量速度狀態(tài)和增量速度趨勢,可得到第i個樣本在時間[tj,tj+1]內(nèi)的增量速度的動態(tài)綜合評價值為:
樣本在時間[t1,tN]內(nèi)的動態(tài)綜合評價值為:
基于動態(tài)綜合評價角度對面板數(shù)據(jù)進(jìn)行聚類分析,具體步驟如下。
步驟1:利用“縱橫向”拉開檔次法對面板數(shù)據(jù)指標(biāo)維度進(jìn)行綜合評價,得到綜合評價序列矩陣式(6),并依據(jù)“厚今薄古”的思想,利用反三角函數(shù)F(t)=arctan(t)(t=1,2,…,N)計算時間權(quán)重,得到每個樣本指標(biāo)維度的綜合評價值Yi(式(7))。
步驟2:根據(jù)式(6)的綜合評價時間序列矩陣計算得到式(8)的變化速度時間序列矩陣,進(jìn)而計算樣本的增量速度狀態(tài)和趨勢,最后得到體現(xiàn)樣本波動大小和變化趨勢的時間維度評價值。
步驟3:將Yi和
本文選取了2011—2018 年我國31 個省份(不含港澳臺)的相關(guān)數(shù)據(jù)分析省域高等教育發(fā)展水平。從教育規(guī)模、教育投入、教育產(chǎn)出3個方面選取了9個指標(biāo),分別為每十萬人口普通高等學(xué)校數(shù)、每萬人在校學(xué)生數(shù),公共財政預(yù)算教育經(jīng)費(fèi)支出占一般公共預(yù)算財政支出的比重、生均教育經(jīng)費(fèi)支出、普通高校師生比、普通高校研究與發(fā)展(R&D)全時人員,普通高校專任教師平均R&D課題數(shù)、普通高校發(fā)表科技論文數(shù)、普通高校專利申請數(shù)。原始數(shù)據(jù)來源于《中國統(tǒng)計年鑒》《中國教育經(jīng)費(fèi)統(tǒng)計年鑒》《中國科技統(tǒng)計年鑒》,部分指標(biāo)數(shù)據(jù)經(jīng)計算得到。
通過R軟件,依據(jù)“縱橫向”拉開檔次法的計算步驟,可以得到隱含時間因素的指標(biāo)權(quán)重為w=(0.1203,0.1370,0.1049,0.1034,0.0401,0.1298,0.1282,0.1278,0.1086)T。根據(jù)所得權(quán)重,可計算得到樣本的綜合評價時間序列矩陣,具體見表1。
表1 高等教育發(fā)展水平綜合評價時間序列矩陣
為進(jìn)一步得到樣本所有時期總的綜合評價值,利用反三角函數(shù)計算得到樣本的時間權(quán)重wt=(0.0776,0.1094,0.1234,0.1309,0.1357,0.1389,0.1412,0.1429) 。樣本在所有時期總的綜合評價值見表2。
表2 高等教育發(fā)展水平指標(biāo)維度綜合評價值
從表2 可以看出,北京的指標(biāo)維度綜合評價值最高,說明北京的高等教育發(fā)展水平最高;上海、江蘇、天津等省份次之,整體的高等教育發(fā)展水平也比較高;遼寧、浙江、湖北、陜西等省份得分也較為不錯,高等教育發(fā)展水平較高;而一些西部地區(qū)的省份,如云南、青海、西藏等得分比較低,說明這些省份的高等教育發(fā)展水平相對較低。
由式(6)得到樣本的變化速度時間序列矩陣式(8),由式(9)得到樣本的高等教育發(fā)展水平增量速度狀態(tài)結(jié)果,結(jié)合式(10)、式(11)得到樣本高等教育發(fā)展水平的增量速度趨勢結(jié)果,由式(12)和式(13)得到樣本高等教育發(fā)展水平時間維度的動態(tài)綜合評價值(見表3)。
表3 高等教育發(fā)展水平時間維度綜合評價值
由表3 可知,廣東、福建等省份的時間維度綜合評價值較高,說明在2011—2018年,這兩個省份的高等教育發(fā)展較快。
圖2 聚類系數(shù)隨聚類數(shù)目變化散點(diǎn)圖
從圖2可以看出,當(dāng)聚類數(shù)目達(dá)到7之后,聚類系數(shù)的散點(diǎn)曲線逐漸趨于平緩,所以將離差平方和系統(tǒng)聚類的結(jié)果分為七類(見表4),并根據(jù)聚類結(jié)果繪制綜合評價趨勢圖(見圖3)。
表4 動態(tài)綜合評價法聚類結(jié)果
圖3 動態(tài)綜合評價法綜合得分趨勢圖
結(jié)合表4和圖3可知,第一類為北京,高等教育發(fā)展水平最高,整體呈現(xiàn)下降的趨勢。第二類為上海、江蘇、天津,高等教育發(fā)展水平也很高且整體發(fā)展趨勢相對平穩(wěn)。第三類為遼寧、陜西、浙江、湖北,高等教育發(fā)展水平較高,發(fā)展趨勢有一定波動起伏。第四類為廣東、福建,高等教育發(fā)展水平中等,整體呈現(xiàn)上升的趨勢,是近幾年發(fā)展較快的省份。第五類為黑龍江、吉林、山東、安徽、湖南、重慶、四川,高等教育發(fā)展水平較低,呈現(xiàn)上下浮動狀態(tài)。第六類為貴州、廣西、寧夏、山西、甘肅、江西、河北、河南,高等教育發(fā)展水平偏低,整體發(fā)展趨勢相對平緩。第七類為內(nèi)蒙古、海南、青海、新疆、云南、西藏,高等教育發(fā)展水平最低,發(fā)展比較緩慢。需要說明的是,整體呈現(xiàn)下降的趨勢不意味著教育水平的下降。如北京,雖然呈現(xiàn)逐年下降趨勢,但教育水平的各項(xiàng)指標(biāo)是沒有下降的,而綜合評價值逐年降低是因?yàn)閷γ磕陻?shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化實(shí)際上是一個縮放的過程,盡管北京的各項(xiàng)指標(biāo)數(shù)值在增加,但其他省份的指標(biāo)數(shù)值增加得更多,因此,北京與其他省份的差距在變小,則標(biāo)準(zhǔn)化后的數(shù)值也會相對變小。這也說明了教育資源從中心地區(qū)不斷向周圍其他地區(qū)下放,各省份間的高等教育水平差距在不斷縮小。
為了進(jìn)行對比分析,運(yùn)用文獻(xiàn)[10]中的特征提取法進(jìn)行聚類,聚類結(jié)果見表5和圖4。
圖4 特征提取法綜合得分趨勢圖
觀察表5 可知,兩種方法聚類結(jié)果較為相似,如北京均是自成一類,福建和廣東也都是聚為同一類,其他類別中也存在較多重疊的省份,但也有一些省份的歸類差別較大。如特征提取法將黑龍江、重慶、湖北、陜西、遼寧歸到了第四類,而動態(tài)綜合評價法是將浙江、湖北、陜西、遼寧聚為第三類。根據(jù)表3中的水平值可知,黑龍江和重慶的高等教育發(fā)展水平值在0 左右,而陜西、湖北、遼寧、浙江都在0.5左右,且在趨勢上也較為相近,所以就地區(qū)的整體水平來看,動態(tài)綜合評價法的聚類結(jié)果更為合理。又如特征提取法中第六類將寧夏、西藏、吉林、湖南等省份都聚到了一類,然而無論是教育的投入、規(guī)模還是產(chǎn)出,寧夏、西藏都與吉林、湖南等省份相去甚遠(yuǎn),將其聚為一類并不合適。
再觀察圖3 和圖4,可以看出圖3 的聚類結(jié)果中各省份的高等教育發(fā)展水平高低和變化趨勢都較為相似,而圖4中特征提取法的聚類結(jié)果在整體趨勢上是較為相似的,但樣本絕對水平的跨度比較大,使得聚類結(jié)果看起來參差不齊。
為使對比更客觀,通過Calinski-Harabasz 指標(biāo)(CH)和Davies-Bouldin指標(biāo)(DB)度量聚類效果。
(1)CH通過類間分散度與類內(nèi)緊密度之比衡量聚類效果[14]。CH值越大表明聚類結(jié)果越好。
其中,n為數(shù)據(jù)個數(shù),k為聚類數(shù),trB(k)為類間離差陣的跡,trW(k)為類內(nèi)離差陣的跡。
(2)DB通過類內(nèi)與類間分散程度之比衡量類與類的相似度[15]。DB值越小,聚類結(jié)果越好。
其中,k為聚類數(shù),Wi、Wj分別為第i類和第j類內(nèi)數(shù)據(jù)到其質(zhì)心的平均距離,Cij為第i、j類的類間距離。
根據(jù)上述指標(biāo)定義,可計算得到兩種方法聚類的CH值和DB值,結(jié)果如表6所示。
表6 CH 值和DB 值
觀察表6可知,動態(tài)綜合評價法聚類結(jié)果的CH值更大,DB值更小,即兩種指標(biāo)結(jié)果都顯示動態(tài)綜合評價法的聚類效果更優(yōu)。
基于面板數(shù)據(jù)聚類的特殊性以及現(xiàn)有面板數(shù)據(jù)聚類方法所存在的一些問題,本文從動態(tài)綜合評價角度提取面板數(shù)據(jù)指標(biāo)維度和時間維度信息。利用“縱橫向”拉開檔次法和具有速度特征的動態(tài)綜合評價模型分別提取樣本的指標(biāo)維度綜合評價值和時間維度綜合評價值,并對兩個維度綜合評價值進(jìn)行系統(tǒng)聚類。此方法避免了對面板數(shù)據(jù)使用歐氏距離所帶來的問題,同時也解決了主成分分析法所得評價值缺乏統(tǒng)一性、可比性以及均值法無法體現(xiàn)時間重要性的問題。最后對2011—2018年我國省域高等教育發(fā)展水平相關(guān)數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果表明所提方法聚類效果良好。