王 慧,魏 勇
(西華師范大學(xué) 數(shù)學(xué)與信息學(xué)院,四川 南充 637009)
灰色關(guān)聯(lián)分析是灰色系統(tǒng)理論的一個重要分支,它對作用對象的數(shù)量和有無規(guī)律性沒有要求,計算量小,彌補了采用傳統(tǒng)數(shù)理統(tǒng)計方法時導(dǎo)致的缺點[1]。學(xué)者們以鄧聚龍的灰色關(guān)聯(lián)四公理為理論基礎(chǔ),基于不同研究對象的實質(zhì),提出了不同類型的灰色關(guān)聯(lián)度,如鄧氏關(guān)聯(lián)度、灰色B型關(guān)聯(lián)度、灰色絕對關(guān)聯(lián)度、灰色C型關(guān)聯(lián)度等。但對于現(xiàn)實而言,數(shù)據(jù)的復(fù)雜程度決定了學(xué)者們應(yīng)著力于灰色關(guān)聯(lián)分析在多指標的面板數(shù)據(jù)中的應(yīng)用研究。觀察相關(guān)文獻[2-6]可以發(fā)現(xiàn),應(yīng)用于面板數(shù)據(jù)時學(xué)者們基于不同的理論點提出了不同的關(guān)聯(lián)度計算方法,相似性關(guān)聯(lián)度和接近性關(guān)聯(lián)度是其中的核心部分,已有的文獻暫時沒有一個可以公理化這兩大類關(guān)聯(lián)度計算式的定義,不能清楚地說明各種關(guān)聯(lián)度可以反映哪種實際應(yīng)用,從而導(dǎo)致其他方向應(yīng)用關(guān)聯(lián)度時因為概念混淆而錯誤判斷關(guān)聯(lián)程度。在此基礎(chǔ)上,文獻[7]指出對于時間數(shù)據(jù)序列而言,不可能定義一個既能反映相關(guān)性又能反映接近性的關(guān)聯(lián)度,應(yīng)分門別類地討論相似性和接近性關(guān)聯(lián)度。而且很多關(guān)聯(lián)度計算式在滿足鄧氏關(guān)聯(lián)四公理的規(guī)范性前提下不能均勻分布在[0,1]區(qū)間內(nèi),導(dǎo)致結(jié)果的辨析程度較差,出現(xiàn)多個關(guān)聯(lián)度間結(jié)果差距較小,或者差距太大,不能較好反映序列間關(guān)聯(lián)程度差異。
針對以上情況,本文首先提出了一種新的面板數(shù)據(jù)初始化方法,能較好地反映數(shù)據(jù)在均值附近波動的情況,從而便于觀察數(shù)據(jù)序列間變化形式的相似性,其次分別公理化了面板數(shù)據(jù)的接近性關(guān)聯(lián)度和相似性關(guān)聯(lián)度并給出案例,探討了在規(guī)范性前提下利用分辨系數(shù)ξ(0<ξ<+∞)來拓展關(guān)聯(lián)度取值分布,提高了對結(jié)果的辨析程度,最后通過實例分析來說明結(jié)論的可靠性。
面板數(shù)據(jù)也叫平行數(shù)據(jù),是指在時間序列上取多個截面,在這些截面上同時選取樣本觀測值所構(gòu)成的樣本數(shù)據(jù),區(qū)別于傳統(tǒng)的單指標時間數(shù)據(jù)序列,面板數(shù)據(jù)具有時間維度、指標維度和樣本維度,是多樣本多指標時間序列。對面板數(shù)據(jù)進行關(guān)聯(lián)分析首先要了解其數(shù)學(xué)表達,設(shè)樣本總體數(shù)量為N,指標數(shù)量為m,時間長度為n,文獻[2]采用三維數(shù)據(jù)表來描述面板數(shù)據(jù),由于數(shù)據(jù)表不能體現(xiàn)出面板數(shù)據(jù)的幾何特征,故將二維表中的值對應(yīng)為三維坐標中的點,將其在三維空間中每一個點記作xi(s,t),表示樣本i關(guān)于指標s在時間t處的值。
定義1[2]:若面板數(shù)據(jù)X中的樣本i關(guān)于指標s在時間t的數(shù)值為xi(s,t),則稱
為樣本i的行為矩陣。
定義 2[6]:面板數(shù)據(jù)序列X=(X1,X2,…,XN)為其樣板序列,將面板數(shù)據(jù)投射到n維空間中的n維向量,則設(shè)樣本序列中的Xi滿足:
其中xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m,稱xi(s)為這組面板數(shù)據(jù)中樣本i關(guān)于指標s的時間序列。
定義3:Xi是樣本i的面板數(shù)據(jù),D是初始化算子,若:
灰色關(guān)聯(lián)分析基本思想中的兩大類,一是根據(jù)時間數(shù)據(jù)序列曲線幾何形狀的相似程度來判斷其關(guān)聯(lián)程度大小,二是根據(jù)時間數(shù)據(jù)序列的接近程度來判斷其關(guān)聯(lián)程度大小,對于空間中的向量而言,一方面向量夾角越小其相似程度越高,其關(guān)聯(lián)程度也越大,另一方面兩向量之差的模長越小,則越接近關(guān)聯(lián)程度越大,因此可以利用向量夾角和向量差的模長來描述相似性和接近性關(guān)聯(lián)度。
定義4:設(shè)樣本i與樣本j在s指標下通過均值波動算子初始化后的的時間序列為:
則兩指標序列的夾角為:
值得注意的是利用向量差的模長計算接近性關(guān)聯(lián)度來判斷序列間關(guān)聯(lián)程度大小是不能用均值波動算子處理數(shù)據(jù)的,因為均值波動算子會改變原向量在空間中的位置及距離。
定義5(面板數(shù)據(jù)的接近性關(guān)聯(lián)度):設(shè)面板數(shù)據(jù)序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統(tǒng)特征序列,Xi=(xi(1),xi(2),…,xi(m)),i=1, 2,…,N為系統(tǒng)比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實數(shù)γ(Xi,Xj)滿足:
(1)規(guī)范性:0<γ(Xi,Xj)≤1 且γ(Xi,Xj)=1?Xi=Xj即γ(Xi,Xj)=1?Xi(s,t)=Xj(s,t),s=1,2,…m,t=1,2,…,n;
證明:(1)規(guī)范性:
顯然 0<γ(Xi,Xj)≤1,還需證明γ(Xi,Xj)=1 ?Xi=Xj?Xi(s,t)=Xj(s,t)s=1,2,…,m;t=1,2,…,n。
(2)接近性:
可以發(fā)現(xiàn)案例中的接近性關(guān)聯(lián)度使得除了完全相同的兩面板數(shù)據(jù)在任何分辨系數(shù)下關(guān)聯(lián)度為1保持不變以外,其他任何不同的兩面板數(shù)據(jù)都會隨著分辨系數(shù)增大而關(guān)聯(lián)度值減小,隨著分辨系數(shù)減小而關(guān)聯(lián)度值增大,從而起到了調(diào)節(jié)辨析率的作用。
此處分辨系數(shù)ξ為0<ξ<+∞,并建議根據(jù)具體研究對象的實質(zhì)以及計算出的關(guān)聯(lián)度差異來動態(tài)地確定ξ的取值。如當(dāng)計算出的兩不同方案數(shù)據(jù)序列關(guān)聯(lián)度值均接近于1時接近程度高,不易辨析其二者差異時,可通過分辨系數(shù)動態(tài)地取值來調(diào)節(jié)差距,這時分辨系數(shù)ξ越大,關(guān)聯(lián)度值就越小,就如同放大鏡來放大差距,提高辨析程度。分辨系數(shù)ξ越小,關(guān)聯(lián)度值就越大,且關(guān)聯(lián)度值越接近于1,就越來越淡化其差異,肯定其接近程度,如果允許ξ=0,則將完全抹殺所有序列之間的差異,關(guān)聯(lián)度值衡為1,從而是一種毫無意義的關(guān)聯(lián)度。
值得注意的是:接近性關(guān)聯(lián)度不能對數(shù)據(jù)進行初值單位化、零像化等操作,因為初值單位化會抹殺對應(yīng)項成比例的兩序列之間的差異,初值零像化會抹殺序列各坐標平移某固定常數(shù)前后之間的差異,均會導(dǎo)致對應(yīng)坐標相聚甚遠而關(guān)聯(lián)度值較大的情形,這就必然失去通過計算其接近性關(guān)聯(lián)度來判斷關(guān)聯(lián)程度大小的真實性。
定義6(面板數(shù)據(jù)的相似性關(guān)聯(lián)度):設(shè)面板數(shù)據(jù)序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統(tǒng)特征序列,Xi=(xi(1),xi(2),…,xi(m)) ,i=1,2,…,N為系統(tǒng)比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實數(shù)ρ(Xi,Xj)滿足:
(1)線性相關(guān)規(guī)范性
0<ρ(Xi,Xj)≤1且ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi;即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
(2)線性相關(guān)接近性:
ρ,?αsi≠0,βsi滿 足αsi,即≠0,βsi滿足:則稱ρ(Xi,Xj)為面板數(shù)據(jù)樣本序列中Xi與Xj的相似性關(guān)聯(lián)度。
證明:(1)線性相關(guān)規(guī)范性:
顯然,0<ρ(Xi,Xj)≤1,還需證明ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi,即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
先證必要性:
再證充分性:
即ρ(Xi,Xj)滿足線性相關(guān)規(guī)范性。
(2)線性相關(guān)接近性:
先證必要性:
再證充分性:
?s=1,2,…,m, ?αsi≠0,βsi滿足(s,t)
即ρ(Xi,Xj)滿足線性相關(guān)接近性。
此處分辨系數(shù)ξ仍然為0<ξ<+∞,也建議根據(jù)具體研究對象的實質(zhì)以及計算出的關(guān)聯(lián)度差異來動態(tài)地確定ξ的取值。當(dāng)一組并不完全線性相關(guān)的數(shù)據(jù)序列計算出的關(guān)聯(lián)度值均不等于1但接近于1時,不易辨析,可通過分辨系數(shù)動態(tài)地取值來調(diào)節(jié)差距,這時分辨系數(shù)ξ越大,關(guān)聯(lián)度值就越小。分辨系數(shù)ξ越小,關(guān)聯(lián)度值就越大,關(guān)聯(lián)度值越接近于1,就越來越淡化其并不完全相關(guān)的事實。另外,與接近性關(guān)聯(lián)度一樣決不允許ξ=0。
值得注意的是:相似性關(guān)聯(lián)度與接近性關(guān)聯(lián)度相反,能容忍對數(shù)據(jù)作平移和數(shù)乘變換,因為兩序列各自平移、數(shù)乘任意常數(shù)不影響線性相關(guān)程度。
案例1:設(shè)西部某省A、B、C、D四市在一項政府新政策下達后2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A市面板數(shù)據(jù),X1,X2,X3為B、C、D市的面板數(shù)據(jù),若想要以此探討此項新政策對四市的經(jīng)濟發(fā)展情況的影響,應(yīng)如何運用灰色關(guān)聯(lián)分析?
首先應(yīng)分析題意,選擇接近性或者相似性關(guān)聯(lián)度,題中描述此面板數(shù)據(jù)體現(xiàn)的是在該項新政策影響下平均每戶家庭每月在飲食、旅游、教育上的金額的變化情況,強調(diào)在該政策下不同市之間每戶家庭在不同指標下金額的變化情況的相似性,而不是消費水平的接近性,所以應(yīng)采用相似性關(guān)聯(lián)度來計算,本例即選取例2的相似性關(guān)聯(lián)度:
經(jīng)過均值波動算子處理后的面板數(shù)據(jù)為:取ξ=1時通過改進的關(guān)聯(lián)度計算得到:ρ01=0.6032 ,ρ02=0.8522 ,ρ03=0.2947
即從關(guān)聯(lián)程度上看,有ρ02>ρ01>ρ03,且從時間維度上觀察面板數(shù)據(jù)初始化后在每個指標下的時間序列,X0與X2的變化趨勢確實比X0與X1的變化趨勢接近,X0與X1的變化趨勢也確實比X0與X3的變化趨勢更接近,結(jié)果與實際相符,另本例中設(shè)出的數(shù)據(jù)與文獻[6]的相同,得到的結(jié)論也是一樣的,更加說明此例中采用的關(guān)聯(lián)分析的正確性。
案例2:現(xiàn)有A、B、C、D四省在2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A省面板數(shù)據(jù),X1,X2,X3為B、C、D省的面板數(shù)據(jù),若需要以此為依據(jù)分析A、B、C、D四省的經(jīng)濟發(fā)展情況,該如何利用灰色關(guān)聯(lián)分析?
首先分析題意,選擇接近性或者相似性關(guān)聯(lián)度,題中描述的面板數(shù)據(jù)是平均每戶家庭每月在飲食、旅游、教育上的金額,強調(diào)的是西部四個不同省份之間每戶家庭在飲食、旅游、教育三個指標下消費水平的接近性而不是相似性,所以應(yīng)采用接近性性關(guān)聯(lián)度來計算,本例即選取例1中的接近性關(guān)聯(lián)度,因為是探討的接近性,所以不能對數(shù)據(jù)進行初值單位化、零像化等操作,取分辨系數(shù)ξ=1,直接利用式子計算后得:
即從關(guān)聯(lián)度來看ρ02>ρ03>ρ01,從分指標的時間序列來看,確實C省的數(shù)據(jù)與A省更接近,但B、D兩省與A省計算出的關(guān)聯(lián)度太接近,可嘗試適當(dāng)調(diào)節(jié)分辨系數(shù)來增強辨析性,當(dāng)ξ=1.5時,有ρ03=0.2649>ρ01=0.2702,增大了二者之間差值,但關(guān)聯(lián)序沒有變化,更說明了D省與A省的關(guān)聯(lián)程度比B省與A省的關(guān)聯(lián)程度大。
本文主要作了以下幾方面工作:
(1)提出了基于面板數(shù)據(jù)的接近性和相似性兩類性質(zhì)炯然不同的關(guān)聯(lián)度之公理化定義,舉出的接近性或相似性相應(yīng)類型關(guān)聯(lián)度的實例僅僅是示范,并不唯一;
(2)給出一種的面板數(shù)據(jù)初始化方法,但并不是硬性要求,因為初值化與否并不影響關(guān)聯(lián)度值的計算結(jié)果;
(3)強調(diào)通過適當(dāng)添加分辨系數(shù)來調(diào)節(jié)關(guān)聯(lián)度,此時分辨系數(shù)應(yīng)是動態(tài)的,提高關(guān)聯(lián)度的辨析性,分辨系數(shù)不局限在(0,1),而是所有可能的正數(shù);
(4)就接近性關(guān)聯(lián)度和相似性關(guān)聯(lián)度在實際中的應(yīng)用分別給出實例,并解釋采用哪種類型關(guān)聯(lián)度的原因,為之后的針對應(yīng)用問題的相關(guān)實質(zhì)選擇所需關(guān)聯(lián)度提供參考示例。