唐婷婷,鄧光明
(桂林理工大學(xué) 理學(xué)院,廣西 桂林 541006)
面板數(shù)據(jù)是現(xiàn)實數(shù)據(jù)庫中極為常見的數(shù)據(jù)形式,是一種多指標的時間序列,包含的信息量較充足,且具有截面數(shù)據(jù)和時間序列的雙重特性,用面板數(shù)據(jù)進行聚類分析能夠更好反映指標的動態(tài)發(fā)展趨勢和發(fā)展狀態(tài),因此,大多數(shù)學(xué)者為得到更為精確的聚類結(jié)果,經(jīng)常使用面板數(shù)據(jù)進行聚類分析。面板數(shù)據(jù)聚類的基本思想是圍繞如何找到更為精準的相似性度量和采用何種方法進行聚類這2個方面展開,其聚類方法大致可分為多元統(tǒng)計方法和非多元統(tǒng)計方法,非多元統(tǒng)計方法主要從數(shù)學(xué)和計算機角度入手,主要包括:灰色聚類[1-3]、模糊C均值聚類[4-6]、基于投影尋蹤的聚類[7]等方法。在基于多元統(tǒng)計方法的面板數(shù)據(jù)聚類中,其聚類的主要思想就是從多元統(tǒng)計的角度尋找更為精準的相似性度量,如李因果等[8]為了能夠展現(xiàn)指標的動態(tài)發(fā)展趨勢,選用“絕對量”“增長速度”和“變異系數(shù)”分別表示面板數(shù)據(jù)的“絕對量”“相對量”和“時序波動”特征,根據(jù)實際需求賦予這3個特征相應(yīng)的權(quán)重,采用歐氏距離重構(gòu)了相似性度量的“綜合”距離函數(shù),改進了Ward聚類算法;任娟[9]提取了面板數(shù)據(jù)的水平指標、增量指標和增長變化率,選擇歐式距離來描述樣品之間的鄰近程度,重構(gòu)了離差平方和函數(shù),再進行系統(tǒng)聚類;黨耀國等[10]針對面板數(shù)據(jù)聚類中采用歐氏距離進行聚類存在缺陷這一問題,對面板數(shù)據(jù)的動態(tài)變化進行深度挖掘,通過提取“絕對量”“波動”“偏度”“峰度”等特征來構(gòu)建新的特征向量,進而進行聚類分析。但這些方法都存在著不足之處,其一,歐氏距離無法處理對應(yīng)數(shù)據(jù)間沿時間軸方向彎曲、伸縮等問題,無法合理的反應(yīng)2個時間序列趨勢的相似性;其二,用特征提取的方法對面板數(shù)據(jù)進行降維之后,需依據(jù)現(xiàn)實需求或主觀給定相應(yīng)的特征權(quán)重,這無法保證賦權(quán)的客觀性和合理性。
基于歐氏距離無法合理反應(yīng)時間序列趨勢相似性和賦權(quán)問題,劉云霞[11]提出了一種基于動態(tài)時間規(guī)整的面板數(shù)據(jù)聚類方法,運用了主成分的思想對面板數(shù)據(jù)進行降維,再對降維后的時間序列采用動態(tài)時間規(guī)整的方法進行面板數(shù)據(jù)的聚類分析,這一方法具有一定的普適性且可視化效果較好,既能反映面板數(shù)據(jù)的動態(tài)發(fā)展趨勢,又能夠避免由于賦權(quán)不合理而影響聚類結(jié)果這一問題。但這一方法易受離群值的影響,數(shù)據(jù)中存在離群值會影響時間序列提取的準確性,進而影響聚類的效果,因此本文運用穩(wěn)健統(tǒng)計量對動態(tài)時間規(guī)整的面板數(shù)據(jù)聚類方法進行改進,通過獲得穩(wěn)健的時間序列,消除離群值對動態(tài)時間規(guī)整結(jié)果的影響。
穩(wěn)健一詞在統(tǒng)計學(xué)中是用以表征控制系統(tǒng)對特性或參數(shù)擾動的不敏感性。Box認為:若過程在所基于的假設(shè)違背的條件下,仍然能給出較好的結(jié)果即為穩(wěn)?。?2]。在統(tǒng)計分析中,通常用穩(wěn)健性來度量模型對離群值的敏感性,采用穩(wěn)健統(tǒng)計量來優(yōu)化不符合規(guī)格的模型,進而提升模型對離群值的抵御能力。穩(wěn)健統(tǒng)計的思想和估計方法最早由Huber等[13]提出,Rousseeuw提出的最小協(xié)方差(minimum covariance determinant,MCD)是最具代表性的一種估計方法[14]。MCD估計是一種最經(jīng)典的用于尋找穩(wěn)健協(xié)方差估計量的方法,其目的是通過構(gòu)造穩(wěn)健的樣本協(xié)方差矩陣來抵御離群值的影響[15]。MCD估計主要利用迭代和馬氏距離的思想構(gòu)造一個穩(wěn)健的協(xié)方差矩陣估計量,其基本步驟如下:
步驟1從n行p列的矩陣中選取h個樣本,計算這h個樣本數(shù)據(jù)的樣本均值和協(xié)方差矩陣,樣本均值記為T1,協(xié)方差矩陣記為S1。
步驟2計算n個樣本數(shù)據(jù)到T1的距離,此處采用的是馬氏距離:
步驟3選取n個距離中最小的h個距離,計算這h個距離所對應(yīng)的樣本數(shù)據(jù)的樣本均值和協(xié)方差矩陣,樣本均值記為T2,協(xié)方差矩陣記為S2。
步驟4 不斷迭代步驟3,當(dāng)det(Sk)=det(Sk-1)時,迭代停止,當(dāng)且僅當(dāng)T1=T2,S1=S2時,det(1)=det(2)。
步驟5根據(jù)得到的Sk對其進行加權(quán),即可得到穩(wěn)健的協(xié)方差矩陣估計量,記為S*。
但這一方法計算復(fù)雜度較高,因此,在實際應(yīng)用中,通常采用的是Rousseeuw提出的快速MCD(FAST-MCD)方法來構(gòu)造算法,獲得穩(wěn)健的協(xié)方差矩陣,進而計算出穩(wěn)健相關(guān)矩陣并進行聚類分析[16]。
動態(tài)時間規(guī)整(dynamic time warping,DTW)是度量時間序列相似性的一種方法,也是時間序列的聚類方法之一[11]。該方法與歐氏距離是用于衡量時間序列相似性的2種常用的度量方法,不同于歐氏距離的是,該方法可以用于時間序列不等長的情況,并且在整體波形形狀很相似,但在時間軸上不對齊的情況下,使用DTW來度量2個時間序列的相似性更為合理。DTW是一個典型的優(yōu)化問題,通過把時間序列進行延伸和縮短,從而達到將2個不等長的時間序列進行對齊的目的,進而找到2個波形對齊的點,在滿足約束條件的眾多路徑中,選取距離最短的那條路徑來計算2個時間序列之間的相似性,將相似性較高的序列劃分為同一組。DTW方法用于面板數(shù)據(jù)聚類時,對時間序列的提取效果有較高的要求,時間序列的提取效果不好對DTW聚類的結(jié)果會產(chǎn)生很大的影響,因此,提升時間序列提取的準確性能夠得到更為準確的DTW距離矩陣,進而提升聚類效果。計算DTW距離的方法如下:
假定比較2個時間序列X=(x1,x2,…,xn)和Y=(y1,y2,…,ym),若m=n,則這2個時間序列為等長時間序列,若m≠n則需要通過動態(tài)規(guī)劃的思想將X和Y這2個時間序列進行對齊。
首先計算2個時間序列中每對元素xi和yj的局部相異性測度函數(shù)f(·),即元素xi和yj間的歐氏距離。有
彎曲曲線(warping curve)定義為:
式中:彎曲函數(shù)Φx(k)和Φy(k)分別映射x和y的時間指數(shù),k=1,…,T,Φx(k)、Φy(k)∈{1,…,t}。
在給定彎曲路徑Φ的前提下,計算彎曲時間序列X和Y的平均累積變形,即X和Y動態(tài)規(guī)整后的距離為:
式中:mΦ(k)是權(quán)重系數(shù);MΦ(k)是對應(yīng)的歸一化常數(shù);Φx(k+1)≥Φx(k)。
在眾多規(guī)整路徑之中找到時間序列X和Y整體代價最小的路徑,即時間序列X和Y的最優(yōu)配置Φ,此路徑對應(yīng)的動態(tài)規(guī)整后的距離即為時間序列X和Y的DTW距離,即:
動態(tài)時間規(guī)整是一種時間序列的聚類方法,作用于面板數(shù)據(jù)提取時間序列之后,因此時間序列的提取會對動態(tài)時間規(guī)整的結(jié)果產(chǎn)生影響,而離群值的存在會影響時間序列提取的準確性,進而影響最后的聚類結(jié)果,因此本文為了提升時間序列提取的準確性,將穩(wěn)健統(tǒng)計量與動態(tài)時間規(guī)整相結(jié)合,構(gòu)建出穩(wěn)健動態(tài)時間規(guī)整的面板數(shù)據(jù)聚類方法,具體步驟如下:
1)用Fast-MCD方法計算t個時間點上的樣本穩(wěn)健均值向量Tt和穩(wěn)健協(xié)方差矩陣,再根據(jù)穩(wěn)健協(xié)方差矩陣計算出穩(wěn)健相關(guān)矩陣:
3)為了減少數(shù)據(jù)信息流失,本文取全部主成分計算每個樣本在每個時間點上的綜合得分F*h。
4)將所得到的F*h作為新的數(shù)據(jù)集,利用DTW方法來度量各綜合得分時間序列的相似性,得到樣本間的初始距離矩陣:
5)根據(jù)DTW距離矩陣,采用系統(tǒng)聚類法中的Ward法進行聚類。
選取2005—2019年,我國31個省市自治區(qū)人口總數(shù)、城鎮(zhèn)人口數(shù)、農(nóng)村人口數(shù)、死亡率、出生率和自然增長率這6項人口情況數(shù)據(jù),并根據(jù)上述數(shù)據(jù)對31個省市自治區(qū)進行聚類分析。本文所使用數(shù)據(jù)均源自《中國統(tǒng)計年鑒》。
首先,以地區(qū)為單位,將原始數(shù)據(jù)分成31個樣本,對每個樣本分別進行穩(wěn)健主成分分析來獲取穩(wěn)健主成分綜合得分,如表1所示。由于篇幅有限,表1給出的是2019年31個省市自治區(qū)的綜合得分,為了便于比較,表1中還給出了未進行穩(wěn)健處理的主成分綜合得分。
表1 2019年31個省市自治區(qū)穩(wěn)健前后的綜合得分
從表1中可以看出:重慶、湖南、新疆、湖北、上海、廣東和遼寧7個地區(qū)在引入穩(wěn)健統(tǒng)計量前、后的綜合得分變化較大,說明數(shù)據(jù)中存在離群值,這7個地區(qū)所對應(yīng)的數(shù)據(jù)在引進穩(wěn)健統(tǒng)計量后,偏離樣本中心的樣本點被排除了,使得引入穩(wěn)健統(tǒng)計量后的綜合得分發(fā)生了改變。
接下來運用動態(tài)時間規(guī)整方法計算引進穩(wěn)健統(tǒng)計量后的各時間序列間的距離,然后用系統(tǒng)聚類法中的Ward法進行聚類。在聚類之前,需要確定合理的聚類數(shù),聚類的數(shù)目可參照碎石圖來確定,圖1給出的是DTW方法的系統(tǒng)聚類碎石圖。
圖1 穩(wěn)健DTW方法的系統(tǒng)聚類碎石圖
從碎石圖中可以看出,當(dāng)聚類數(shù)目取4的時候,曲線坡度變化較小,逐漸趨于穩(wěn)定,因此聚類數(shù)目取4類較為合理。最后采用系統(tǒng)聚類法中的Ward法進行聚類,將31個省市自治區(qū)分為4類,聚類結(jié)果如圖2所示。
圖2 改進后的DTW聚類結(jié)果
為了便于比較改進前后聚類結(jié)果的差異,將改進前與改進后的DTW聚類結(jié)果一并放入表2中。
表2 改進前后的DTW聚類結(jié)果
從聚類結(jié)果中可以看出:改進前后的聚類結(jié)果差異較大。綜合得分發(fā)生較大變化的重慶、湖南、新疆、湖北、上海、廣東和遼寧這7個地區(qū)在聚類后的變化較為明顯,改進前的聚類結(jié)果中,上海、湖南和遼寧聚為一類;廣東一類;新疆、重慶和湖北聚為一類。改進后這7個地區(qū)中,重慶、湖南和新疆聚為一類;湖北、遼寧各自為一類;上海和廣東聚為一類。
從總體聚類效果來看,改進前的DTW聚類結(jié)果將浙江獨自聚為第1類,但在實際情況中,浙江人口情況數(shù)據(jù)的變化趨勢并不是特有的,其總?cè)丝跀?shù)和城鎮(zhèn)人口數(shù)逐年平穩(wěn)增長,農(nóng)村人口數(shù)逐年遞減,出生率和自然增長率在近2年都顯著降低,與重慶、湖南等城市的人口情況數(shù)據(jù)變化趨勢高度相似,因此,將浙江獨自聚為一類顯然是不合理的。第3類中將云南與上海、北京聚為一類,但從人口情況數(shù)據(jù)的變化趨勢來看,云南的各項人口情況數(shù)據(jù)的總體變化趨勢較為平穩(wěn),而北京、上海的總?cè)丝跀?shù)增長速度較快,且自然增長率和出生率的波動起伏較大,與云南的人口情況數(shù)據(jù)變化趨勢差異較大,因此,將云南與上海、北京等地區(qū)聚為一類也是不合理的。
改進后的聚類結(jié)果將浙江與重慶、湖南、新疆聚為一類,這4個地區(qū)的總?cè)丝跀?shù)和城鎮(zhèn)人口數(shù)逐年平穩(wěn)增長,農(nóng)村人口數(shù)逐年遞減,出生率和自然增長率在近2年都顯著降低,可見將這4個地區(qū)聚為一類是合理的。第2類將山東、福建、陜西、湖北、江西、山西、寧夏、青海、內(nèi)蒙古、西藏、河北、吉林、四川、甘肅、黑龍江和海南聚為一類,這類地區(qū)的總?cè)丝跀?shù)增長較為平穩(wěn),且增長幅度非常小,總?cè)丝跀?shù)基本保持不變,出生率和自然增長率均呈現(xiàn)平穩(wěn)或下降的趨勢,這類地區(qū)經(jīng)濟發(fā)展相對穩(wěn)定,人口流動形式多屬于省內(nèi)人口流動。第3類將上海、北京、天津和廣東聚為一類,這類地區(qū)城鎮(zhèn)人口數(shù)的增長速度較快,農(nóng)村人口下降幅度非常小,自然增長率總體呈現(xiàn)較為平穩(wěn)的趨勢,但具體變化趨勢波動性較大,北京、天津、上海、廣州這類地區(qū)經(jīng)濟發(fā)展較為迅速,人才流入量較大,這在一定程度上致使總?cè)丝跀?shù)和城鎮(zhèn)人口數(shù)增長速度較快。第4類將貴州、廣西、江蘇、安徽、河南、云南和遼寧聚為一類,這類地區(qū)的城鎮(zhèn)人口數(shù)的增長速率與農(nóng)村人口數(shù)的下降速率基本一致,總?cè)丝跀?shù)基本持平,自然增長率、死亡率和出生率非常平穩(wěn),無太大的改變,這類的城市經(jīng)濟發(fā)展與文化發(fā)展都非常穩(wěn)定。
為了進一步直觀反映改進后的聚類效果,本文給出2005—2019年各類地區(qū)取全部主成分后的綜合得分趨勢圖,如圖3所示。
圖3 改進后2005—2019年各類地區(qū)綜合得分趨勢圖
從圖中可以較為直觀的看出每一類中的樣本的綜合得分走勢十分相似,第1類呈現(xiàn)穩(wěn)定增長的趨勢,第2類呈現(xiàn)穩(wěn)定下降的趨勢,第3類呈現(xiàn)先下降后平穩(wěn)的趨勢,第4類呈現(xiàn)先平穩(wěn)后下降的趨勢,說明聚類結(jié)果較為穩(wěn)健。
為了更加直觀地比較2種方法的聚類效果,本文還給出了改進前的各類地區(qū)綜合得分趨勢圖,如圖4所示。
圖4 改進前2005—2019年各類地區(qū)綜合得分趨勢圖
從圖中可以看出:第1類的綜合得分趨勢,將增長的趨勢與下降的趨勢聚為一類,顯然是不合理的,且第2類的綜合得分趨勢與第1類中部分變量的增長趨勢相似卻獨自聚為一類也是不合理的。因此,通過比較2種方法得出的綜合得分趨勢圖可以得出以下結(jié)論:采用改進前的方法進行聚類的效果不是非常合理,而改進后的綜合得分趨勢圖中,每個類別中的變量綜合得分趨勢都十分相似,說明此方法能夠更加準確地將綜合得分趨勢相近的城市聚成一類,與改進前的方法相比,改進后的DTW聚類方法得到的聚類效果更好。
綜上所述,將2種方法得到的結(jié)果與實際情況相驗證,可知改進后的動態(tài)時間規(guī)整的面板數(shù)據(jù)聚類的聚類效果要比改進前的動態(tài)時間規(guī)整的面板數(shù)據(jù)聚類的聚類結(jié)果好,提升了時間序列提取的準確性,能夠很好地抵御離群值的影響,使聚類效果更好,更穩(wěn)健,更貼合實際意義。
文中引進Fast-MCD穩(wěn)健統(tǒng)計量消除離群值給聚類結(jié)果的影響,提升時間序列提取的準確性,消除了離群值對動態(tài)時間規(guī)整結(jié)果的影響,得到較為穩(wěn)健的聚類結(jié)果,實證結(jié)果表明:引進穩(wěn)健統(tǒng)計量后的DTW聚類結(jié)果較為穩(wěn)健且更符合實際。