任娟
(南京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院,南京 210016)
面板數(shù)據(jù)結(jié)合了截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的特征,具有優(yōu)良的特性,在研究中日益受到重視。然而,國(guó)內(nèi)外很少學(xué)者考慮面板數(shù)據(jù)的多元統(tǒng)計(jì)分析。Bonzo D.C.和Hermosilla A.Y.[1]開創(chuàng)性地將多元統(tǒng)計(jì)方法引入面板數(shù)據(jù)的分析中,并用概率連接函數(shù)和遺傳算法改進(jìn)了聚類分析。Ren J.[2]基于Fisher有序聚類理論,通過(guò)Frobenius范數(shù)重建了Ward函數(shù),提出了一種多指標(biāo)面板數(shù)據(jù)有序聚類方法。該方法沒(méi)有考慮指標(biāo)的動(dòng)態(tài)性,如指標(biāo)的增長(zhǎng)速度等。朱建平和陳民墾[3]對(duì)單指標(biāo)面板數(shù)據(jù)的聚類分析進(jìn)行了研究,其聚類算法和聚類過(guò)程類似于截面數(shù)據(jù)的聚類分析。李因果和何曉群[4]綜合考慮了面板數(shù)據(jù)的“絕對(duì)指標(biāo)”和“增量指標(biāo)”,在重構(gòu)面板數(shù)據(jù)相似性測(cè)度的基礎(chǔ)上,提出了面板數(shù)據(jù)聚類方法。這種方法的不足之處是它對(duì)指標(biāo)的增長(zhǎng)速度的局部變化不能進(jìn)行區(qū)分。另外,以上方法都是假設(shè)時(shí)間序列是同步的,但是,在現(xiàn)實(shí)世界中,這一條件并不總能滿足,許多情況下它們是非同步的。因此,本文認(rèn)為應(yīng)綜合考慮面板數(shù)據(jù)水平指標(biāo)、增量指標(biāo)、增量變化率指標(biāo)及其非同步時(shí)間序列問(wèn)題,為解決多指標(biāo)面板數(shù)據(jù)聚類問(wèn)題,擬提出一種面板數(shù)據(jù)聚類方法。
單指標(biāo)面板數(shù)據(jù)的數(shù)據(jù)格式可以用一個(gè)二維表來(lái)表示。單指標(biāo)面板數(shù)據(jù)聚類分析有兩種處理方法:一種是轉(zhuǎn)換方法,將單指標(biāo)面板數(shù)據(jù)的時(shí)間維度轉(zhuǎn)換為截面數(shù)據(jù)的指標(biāo)維度表示,兩種數(shù)據(jù)的統(tǒng)計(jì)描述特征相似,在聚類分析中,二者關(guān)于樣品距離的算法、聚類過(guò)程都是相同的,因此,單指標(biāo)面板數(shù)據(jù)的聚類分析可以借鑒截面數(shù)據(jù)的聚類分析,可以直接運(yùn)行相關(guān)軟件進(jìn)行計(jì)算。另一種是一維有序樣品聚類方法,將單指標(biāo)面板數(shù)據(jù)的空間維度轉(zhuǎn)換為有序樣品的指標(biāo)維度表示,但需要進(jìn)行降維處理得到一維指標(biāo)。目前有不少專業(yè)軟件可以完成一維樣品有序聚類計(jì)算,比如DPS等。
在實(shí)際中,由于現(xiàn)象的復(fù)雜性,研究對(duì)象往往表現(xiàn)為多指標(biāo)面板數(shù)據(jù)X,它表示一個(gè)樣本。多指標(biāo)面板數(shù)據(jù)的結(jié)構(gòu)要復(fù)雜一些,嚴(yán)格上應(yīng)該用三維表來(lái)表示,也可以將其表示為矩陣形式。設(shè)一個(gè)樣本X包括的q個(gè)樣品,每個(gè)樣品的特征用p個(gè)指標(biāo)描述,時(shí)間序列長(zhǎng)度為T,實(shí)際上多指標(biāo)面板數(shù)據(jù)含有空間(樣品)、指標(biāo)和時(shí)間三個(gè)維度。
樣本X在空間維度上可表示為一組“空間樣品”,也就是將三維表在空間上展開為二維表,即:樣本X的一個(gè)“空間樣品”Xi的矩陣表示為:
依據(jù)已有文獻(xiàn),按照聚類分析處理面板數(shù)據(jù)的方法有:(1)每年分別進(jìn)行聚類,顯然會(huì)造成各年度分類結(jié)果的不一致。(2)采取退化方法,對(duì)指標(biāo)取其年度平均值進(jìn)行聚類,消去時(shí)間維度,顯然損失了指標(biāo)的時(shí)間維度信息。(3)采取簡(jiǎn)化方法,不考慮指標(biāo)的時(shí)序性,認(rèn)為各時(shí)點(diǎn)上的指標(biāo)對(duì)歐氏距離的貢獻(xiàn)程度一樣,顯然,忽視了指標(biāo)的時(shí)間維度信息。(4)僅采用指標(biāo)的水平值或者增量進(jìn)行聚類,這種聚類結(jié)果不是忽視了指標(biāo)的動(dòng)態(tài)性,就是抹殺了指標(biāo)的水平狀態(tài)。(5)采取綜合方法,采用指標(biāo)的水平值和增量進(jìn)行聚類,雖然提取了增量時(shí)間序列信息,但沒(méi)有進(jìn)一步提取增量變化率時(shí)間序列信息。
顯然,上述五種聚類思路都存在一定的缺陷,對(duì)多指標(biāo)面板數(shù)據(jù)的聚類:一方面要考慮樣本指標(biāo)間的距離,另一方面必須考慮其時(shí)間序列的動(dòng)態(tài)發(fā)展特征。因此,構(gòu)造相似性指標(biāo)時(shí),必須考慮面板數(shù)據(jù)的水平指標(biāo)、增量指標(biāo)和增量變化率指標(biāo)的時(shí)間序列。其中,水平指標(biāo)的時(shí)間序列是第i個(gè)樣品的單個(gè)水平指標(biāo)構(gòu)成的時(shí)間序列增量指標(biāo)的時(shí)間序列是將時(shí)間序列進(jìn)行一階差分得到的序列,其中,增量變化率指標(biāo)的時(shí)間序列是將時(shí)間序列進(jìn)行二階差分得到的序列,其中:
聚類分析是對(duì)q個(gè)樣品進(jìn)行分類或?qū)個(gè)指標(biāo)進(jìn)行分類,其中前者稱為Q型聚類,后者稱為R型聚類。聚類分析有兩個(gè)關(guān)鍵問(wèn)題:一是衡量樣品(或變量)間鄰近或相似程度的度量,另一個(gè)是聚類方法。
聚類分析常用的距離有絕對(duì)距離、歐氏距離、明考斯基距離、切比雪夫距離妙、馬氏距離等。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等。雖然多指標(biāo)面板數(shù)據(jù)與截面數(shù)據(jù)的歐式距離有差異,但只是形式上的差異,本質(zhì)上是一致的。這里,考慮采用樣本各指標(biāo)的水平值、增量、增量變化率時(shí)間系列提取面板數(shù)據(jù)時(shí)間維度信息,選擇歐式距離來(lái)描述樣品之間的鄰近程度,即第u樣品與第v樣品之間的歐式距離d(u,v)為:
其中:
共3T-3個(gè)變量用來(lái)描述第i個(gè)樣品的第j個(gè)指標(biāo)的水平值、增量、增量變化率時(shí)間序列,記為并用表示第i個(gè)樣品Xi。
樣品歐式距離d(u,v)可以認(rèn)為是樣品間水平值、增量、增量變化率時(shí)間序列的三種距離的加權(quán)求和。權(quán)重一般根據(jù)實(shí)際問(wèn)題進(jìn)行設(shè)定,本文認(rèn)為它們是等權(quán)重的。
考慮不同樣品的不同時(shí)期的相似性測(cè)度問(wèn)題,則第u個(gè)樣品滯后h期與第v個(gè)樣品的滯后k期的歐式距離d(u-h,v-k)為:
其中:
用來(lái)描述第i個(gè)樣品的第j個(gè)指標(biāo)滯后k期的水平值、增量、增量變化率時(shí)間系列,記為表示第i個(gè)樣品滯后k期為計(jì)算歐式距離時(shí),對(duì)應(yīng)的時(shí)間序列長(zhǎng)度必須是相同的。
用于計(jì)算歐式距離的指標(biāo)需滿足以下條件:指標(biāo)之間不相關(guān);消除各指標(biāo)量綱的影響。相應(yīng)的解決方法:原始數(shù)據(jù)通過(guò)因子分析得到的公共因子是不相關(guān)的;數(shù)據(jù)標(biāo)準(zhǔn)化處理即可消除量綱的影響。
實(shí)際應(yīng)用中可根據(jù)指標(biāo)重要性進(jìn)行加權(quán)修正,權(quán)重系數(shù)可以根據(jù)研究問(wèn)題的實(shí)際情況主觀給定或客觀測(cè)定,如實(shí)踐中常用的專家調(diào)查法,AHP,模糊判別,方差貢獻(xiàn),熵權(quán)系數(shù)等方法確定權(quán)重系數(shù)。
聚類方法有系統(tǒng)聚類法、分解聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法等多種,其中,系統(tǒng)聚類法是目前國(guó)內(nèi)外使用得最多的一種聚類方法。系統(tǒng)聚類法按類間距離的不同定義又可分為最短距離法、最長(zhǎng)距離法、平均距離法、重心距離法和離差平方和法等。這里僅討論離差平方和法。
在類Gu中的樣品的離差平方和為:
其中,i∈Gu表示樣品Xi是類Gu中的一個(gè)樣品表示類Gu的第j指標(biāo)在t時(shí)間的均值是類Gu中樣品的個(gè)數(shù)。
Wald認(rèn)為兩類合并時(shí)所增加的離差平方和可以定義為兩類的平方距離。類Gu和類Gv間的離差平方和距離D2(u,v)定義為:
其中,Su、Sv和Sl分別是在類Gu和Gv以及它們并成的新類Gl中樣品的離差平方和,s和t分別是類Gu和Gv中樣品的個(gè)數(shù),分別是類Gu和Gv的重心,分別表示Xi是類Gu和Gv中的一個(gè)樣品。
離差平方和法的遞推公式:在類Gm和類Gq合并成新類Gr后,新類Gr與另一類Gk的距離D(k,r)可表示為:
其中nk、nm、nr和nq分別表示類Gk、Gm、Gr和Gq中樣品的個(gè)數(shù)。
系統(tǒng)聚類的計(jì)算步驟包括:定義樣品間距離,計(jì)算樣品兩兩間距離構(gòu)成的距離矩陣;合并距離最近的兩類為一新類,計(jì)算新類與當(dāng)前各類的距離;如此循環(huán),直至并為一類為止;畫聚類圖。
本文采用平均價(jià)格指標(biāo)及其增量、增量變化率衡量公司的差異化戰(zhàn)略,采用銷售量指標(biāo)及其增量、增量變化率衡量公司的低成本戰(zhàn)略?;?009年3月~2010年3月國(guó)內(nèi)空調(diào)市場(chǎng)上24個(gè)品牌(總的市場(chǎng)占有率為98%)的營(yíng)銷統(tǒng)計(jì)數(shù)據(jù),對(duì)24個(gè)品牌進(jìn)行了聚類分析。數(shù)據(jù)來(lái)源于中怡康公司中國(guó)城市家電市場(chǎng)零售監(jiān)測(cè)報(bào)告。戰(zhàn)略變量的描述涉及平均價(jià)格和銷售量?jī)蓚€(gè)關(guān)鍵指標(biāo)。數(shù)據(jù)的處理采用SPSS16.0和Matlab7.4軟件。聚類結(jié)果如圖1所示。第一類為海信、松下、三星、LG、三菱電機(jī)、日立、三菱重工、夏普和大金共9個(gè)品牌,這類企業(yè)產(chǎn)品平均價(jià)格高,價(jià)格波動(dòng)小,溢價(jià)能力強(qiáng),市場(chǎng)占有率比較穩(wěn)定,采用差異化戰(zhàn)略參與市場(chǎng)競(jìng)爭(zhēng)。其中,日立、三菱電機(jī)、三菱重工、夏普、松下均為日本品牌,三星、大金、LG則為韓國(guó)品牌,僅有海信為本土品牌。顯示日韓企業(yè)在中國(guó)市場(chǎng)的競(jìng)爭(zhēng)策略甚為接近,在廣大的中國(guó)市場(chǎng)上不追求市場(chǎng)占有率,采取穩(wěn)扎穩(wěn)打的策略,這是日韓企業(yè)近年來(lái)采用輕資產(chǎn)戰(zhàn)略(降低重資產(chǎn)、增加無(wú)形資產(chǎn))的結(jié)果。海信作為變頻空調(diào)龍頭企業(yè),注重技術(shù)創(chuàng)新和產(chǎn)品質(zhì)量,競(jìng)爭(zhēng)戰(zhàn)略與日韓企業(yè)相似。第二類為新科、揚(yáng)子、奧克斯、志高、惠而浦、長(zhǎng)虹、科龍、TCL、格蘭仕、新飛和春蘭共10個(gè)品牌。除了惠而浦為美國(guó)品牌,其余全為本土品牌。這類企業(yè)產(chǎn)品平均價(jià)格較低,價(jià)格波動(dòng)大,市場(chǎng)占有率不穩(wěn)定,傾向于價(jià)格戰(zhàn)來(lái)爭(zhēng)奪市場(chǎng)份額,溢價(jià)能力弱,創(chuàng)新能力不足,推出新產(chǎn)品較少,采用低成本戰(zhàn)略參與市場(chǎng)競(jìng)爭(zhēng)。第三類為伊萊克斯。伊萊克斯為瑞典品牌,其產(chǎn)品平均價(jià)格較高,價(jià)格波動(dòng)大,溢價(jià)能力一般,既追求市場(chǎng)份額,又塑造高檔形象;體現(xiàn)為在低端路線和高端路線的選擇上搖擺不定,這是因?yàn)橐寥R克斯正處在由低端產(chǎn)品向高端產(chǎn)品戰(zhàn)略的轉(zhuǎn)型時(shí)期,陷入了“夾在中間”的困境。第四類為格力、美的和海爾。其產(chǎn)品平均價(jià)格較高,價(jià)格波動(dòng)較大,市場(chǎng)占有率高,產(chǎn)品溢價(jià)能力強(qiáng),創(chuàng)新能力強(qiáng),新產(chǎn)品推出較多。采用低成本和差異化戰(zhàn)略參與市場(chǎng)競(jìng)爭(zhēng)。
圖1 面板數(shù)據(jù)聚類分析譜系圖
為說(shuō)明本文提出的聚類方法的優(yōu)越性,下面采用上例的數(shù)據(jù)來(lái)進(jìn)行驗(yàn)證,并給出本文方法和文[4]的多指標(biāo)面板數(shù)據(jù)聚類方法分類效果的比較。
文[4]采用水平指標(biāo)和增量指標(biāo)進(jìn)行面板數(shù)據(jù)聚類,一定程度上刻畫了水平指標(biāo)的發(fā)展變化情況,但是沒(méi)有進(jìn)一步對(duì)增量變化程度的刻畫,所得分類結(jié)果不夠細(xì)致。本文方法采用水平指標(biāo)、增量指標(biāo)和增量變化率指標(biāo)綜合測(cè)度面板數(shù)據(jù)的樣品相似性,提取信息比較充分,所得分類結(jié)果(圖1)比較細(xì)致。另外,實(shí)際應(yīng)用中,根據(jù)研究問(wèn)題的實(shí)際情況也可采用三種量的組合進(jìn)行聚類。
表1 24個(gè)空調(diào)品牌的面板數(shù)據(jù)聚類結(jié)果
本文聚類方法特別適用于針對(duì)具有多指標(biāo)的面板數(shù)據(jù)的樣品分類問(wèn)題,綜合考慮面板數(shù)據(jù)的水平指標(biāo)、增量指標(biāo)和增量變化率指標(biāo)的時(shí)間序列特征及其非同步時(shí)間序列問(wèn)題,重新構(gòu)造了離差平方和函數(shù),提出了一種多指標(biāo)面板數(shù)據(jù)聚類方法。通過(guò)實(shí)證分析,表明新方法能夠解決多指標(biāo)面板數(shù)據(jù)聚類的問(wèn)題,分類效果較好。但是分類規(guī)模較大時(shí),分類將呈現(xiàn)組合爆炸的趨勢(shì),計(jì)算量隨著急劇增加,尋找最優(yōu)解變得困難,對(duì)于采用遺傳算法等人工智能方法搜尋次優(yōu)解有待于將來(lái)進(jìn)一步的研究。
[1]Bonzo D C,Hermosilla A Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002,(4).
[2]朱建平,陳民墾.面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].統(tǒng)計(jì)研究,2007,(4).
[3]Ren J,Shi Sh L.Multivariable Panel Data Ordinal Clustering and Its Application in Competitive Strategy Identification of Appliance-wir?ing Listed Companies[C].International Conference on Management Science& Engineering(16th),Moscow,Russia,2009.
[4]李因果,何曉群.面板數(shù)據(jù)聚類方法及其應(yīng)用[J].統(tǒng)計(jì)研究,2010,(9).