靳劉蕊
(河南財(cái)經(jīng)學(xué)院 統(tǒng)計(jì)學(xué)系,鄭州 450002)
與多元統(tǒng)計(jì)分析中的多變量數(shù)據(jù)相比,函數(shù)性數(shù)據(jù)分析面臨著更大的“維度災(zāi)”。函數(shù)性主成份分析能起到降低維度的作用,可以用來(lái)探索函數(shù)性數(shù)據(jù)資料的變異性,例如曲線的重要變化形式、曲線類型、代表特定函數(shù)的典型形態(tài)等。文章對(duì)函數(shù)性主成份分析的思想、方法進(jìn)行了詳細(xì)闡述,并將其應(yīng)用于國(guó)家財(cái)政主要支出項(xiàng)目的變化模式的探索。
函數(shù)性數(shù)據(jù);主成份分析;降維;主要變化模式
函數(shù)數(shù)據(jù)分析是從函數(shù)角度對(duì)數(shù)據(jù)進(jìn)行分析,把函數(shù)數(shù)據(jù)看成單個(gè)整體,表示為光滑曲線或連續(xù)函數(shù)ui(t)(i=1,2,…,n),其中n表示觀測(cè)對(duì)象(曲線)的個(gè)數(shù),t可以表示時(shí)間,也可以表示時(shí)間以外的其它變量。當(dāng)t表示時(shí)間時(shí),函數(shù)ui(t)的觀測(cè)序列即為時(shí)間序列。實(shí)際情況中,關(guān)于ui(t)的信息是在有限個(gè)點(diǎn)(Ti)上收集的,因此觀測(cè)數(shù)據(jù)向量可表示為yi=(yi1,…,yiTi)'。函數(shù)數(shù)據(jù)分析的基本統(tǒng)計(jì)模型為:
這里,對(duì)于所有的觀測(cè)對(duì)象i=1,…,n,不要求它們的觀測(cè)點(diǎn)tij和觀測(cè)次數(shù)Ti相同。
在多元統(tǒng)計(jì)分析中,多變量統(tǒng)計(jì)數(shù)據(jù)是在同一時(shí)期或時(shí)點(diǎn)上對(duì)每一個(gè)觀測(cè)對(duì)象觀測(cè)多個(gè)變量的數(shù)據(jù)信息,為了使分析簡(jiǎn)化,通常把大量的原始變量綜合為少數(shù)幾個(gè)綜合變量。多元主成份分析就是把多個(gè)變量轉(zhuǎn)化為少數(shù)幾個(gè)綜合變量的一種通常適用的統(tǒng)計(jì)分析方法。在函數(shù)性數(shù)據(jù)分析中,函數(shù)性變量記錄了每一個(gè)觀測(cè)對(duì)象的同一個(gè)變量某個(gè)區(qū)間上很多個(gè)時(shí)刻的數(shù)據(jù)信息,如果將函數(shù)性數(shù)據(jù)的變量看作是與多元數(shù)據(jù)對(duì)應(yīng)的時(shí)間(不變因素),而時(shí)間看作與多元數(shù)據(jù)對(duì)應(yīng)的變量(變化因素),則發(fā)現(xiàn)函數(shù)性數(shù)據(jù)分析面臨著更大的“維度災(zāi)”?;谶@種特點(diǎn),可以將多元主成份分析技術(shù)引入函數(shù)性數(shù)據(jù)分析中,稱為函數(shù)性主成份分析(FPCA)。根據(jù)對(duì)觀測(cè)對(duì)象測(cè)度變量的個(gè)數(shù),函數(shù)性主成份分析可分為一元函數(shù)性主成份分析和多元函數(shù)性主成份分析。
在傳統(tǒng)的多元統(tǒng)計(jì)分析中,對(duì)N個(gè)觀測(cè)對(duì)象的p個(gè)觀測(cè)變量 xi1,xi2,…,xip進(jìn)行觀測(cè),觀測(cè)矩陣 X為 N×p矩陣。 多元主成份分析采用簡(jiǎn)單的線性組合方法將這p個(gè)變量綜合成一個(gè)綜合變量,即
其中 βj為加權(quán)系數(shù),β=(β1,β2,…,βp)',x(xi1,xi2,…,xip)'。 fi的值稱為第i個(gè)觀測(cè)對(duì)象的主成份得分。記fk為x1,x2,…,xp的第k主成份,βk為第k主成份的加權(quán)系數(shù),V為方差矩陣,可以證明觀測(cè)變量p個(gè)主成份的加權(quán)系數(shù)向量βk分別為V的 p 個(gè)特征向量,k=1,2,…,p,即滿足
在函數(shù)性數(shù)據(jù)背景下,函數(shù)值xi(s)(s∈T)對(duì)應(yīng)于多元主成份分析中的多變量數(shù)據(jù)xij(j=1,…,p),但 s是連續(xù)的而 j是離散的,i=1,2,…,N。將區(qū)間T上的x(s)綜合為一個(gè)綜合變量的方式為:
可以證明,函數(shù)性主成份的權(quán)重函數(shù)β(s)滿足以下特征方程
則(6)式可表示為
可見(jiàn)函數(shù)性主成份分析的特征方程與多元主成份分析的特征方程相似,不同的是(3)式中的β為向量而(8)式中的β(s)為函數(shù)。另外一個(gè)重要的區(qū)別在于其特征值及對(duì)應(yīng)特征向量的最大對(duì)數(shù)。多元主成份分析中觀測(cè)變量的個(gè)數(shù)p決定了(3)式的特征值及特征向量的最大對(duì)數(shù)為p,進(jìn)而滿足約束條件的主成份的最大個(gè)數(shù)為p;函數(shù)性主成份分析中x(s)是無(wú)限的,觀測(cè)對(duì)象的個(gè)數(shù)N決定了協(xié)方差算子V的秩為N-1,因此(8)式的非零特征值的最大個(gè)數(shù)為N-1,進(jìn)而滿足約束條件的主成份的最大個(gè)數(shù)為N-1。
當(dāng)馬老師給我描述李之恒家里多窮,他是多么努力,多么有出息的時(shí)候,我走神了。如果現(xiàn)在叫我去努力回憶李之恒是個(gè)什么樣的人,我眼前浮現(xiàn)的形象卻是我大學(xué)一個(gè)室友的模樣。
函數(shù)性主成份的選取思想與多元主成份的選取相同,根據(jù)所研究問(wèn)題的需要確定累積貢獻(xiàn)率,然后選擇合適的K使得達(dá)到所確定的累積貢獻(xiàn)率,一般要求累積貢獻(xiàn)率不小于85%。
由前面的分析過(guò)程可知,函數(shù)性主成份分析問(wèn)題就是求解(6)式的特征值和特征函數(shù)問(wèn)題。一種求解策略就是將連續(xù)的函數(shù)性特征分析問(wèn)題轉(zhuǎn)變?yōu)榻频葍r(jià)矩陣的特征分析問(wèn)題。求解的一般步驟如下:
第一步,對(duì)觀測(cè)得到的曲線進(jìn)行曲線套準(zhǔn)、標(biāo)準(zhǔn)化(xi(s)-等初步處理,得到的曲線記為。
第二步,對(duì)函數(shù)進(jìn)行離散化處理,或進(jìn)行基函數(shù)展開(kāi),或采用一般的數(shù)值積分方法,找到近似等價(jià)矩陣并求解其特征值和特征向量,再根據(jù)特征向量求解權(quán)重函數(shù)β(s)。
最簡(jiǎn)單的離散化方法就是在區(qū)間T上等間隔地取n個(gè)點(diǎn)sj,各點(diǎn)對(duì)應(yīng)的函數(shù)值為,表示為 N×n矩陣X*,其樣本方差記為V,從而問(wèn)題轉(zhuǎn)變?yōu)閚個(gè)變量的多元主成份分析:
其中,對(duì)應(yīng)于特征值λ的特征向量u為n維向量。由于n可能比N大,所以不采用n×n矩陣V求解(9)式,轉(zhuǎn)而通過(guò)求X*的SVD UDW'可以得到V的特征值λ及其對(duì)應(yīng)的特征向量u。再將求得的向量u轉(zhuǎn)化為特征函數(shù)β(s)。令,然后對(duì)特征向量采用任一種合適的插值方法來(lái)計(jì)算特征函數(shù)的近似形式。
基函數(shù)展開(kāi)法是對(duì)函數(shù)xi進(jìn)行基函數(shù)展開(kāi),即
問(wèn)題轉(zhuǎn)化為下面所示的等價(jià)對(duì)稱矩陣的特征分析問(wèn)題:
解得u之后根據(jù)b=W-1/2u計(jì)算 b,將b代入(11)式即求得主成份權(quán)重函數(shù)β(s)。
為了避免計(jì)算得到的主成份的權(quán)重函數(shù)β(s)可能會(huì)比較粗糙,從而導(dǎo)致主成份分析結(jié)果的可解釋性降低,需要在函數(shù)性主成份分析過(guò)程中引入平滑方法,施加某種正則化,從而得到較平滑的主成份權(quán)重函數(shù)。常用的方法包括:用粗糙懲罰法對(duì)主成份進(jìn)行平滑;用粗糙懲罰法對(duì)原始數(shù)據(jù)進(jìn)行平滑和逐步粗糙懲罰法。
第三步,將求得的 βk(s)代入(4)式可計(jì)算第 i個(gè)觀測(cè)對(duì)象在第k主成份上的得分。
在客觀現(xiàn)象中,一種現(xiàn)象的數(shù)量變化總是與特定的其它現(xiàn)象的數(shù)量變化緊密聯(lián)系,這多個(gè)變量的變動(dòng)之間往往存在著一定的規(guī)律。針對(duì)相對(duì)于同一個(gè)變量(例如時(shí)間t)測(cè)度的、計(jì)量單位相同的多個(gè)函數(shù),可以用主成份分析來(lái)研究它們之間的聯(lián)立變動(dòng)。當(dāng)對(duì)N個(gè)觀測(cè)對(duì)象測(cè)度P個(gè)函數(shù)變量x1(s),x2(s),…,xp(s)時(shí),記 x(s)=(x1(s),x2(s),…,xP(s))'。多元函數(shù)性變量的主成份f定義為:
其中,主成份 f的權(quán)重函數(shù) β(s)=(β1(s),…,βp(s))'為 P 維向量函數(shù),βp(s)表示 xp(s)的變動(dòng)權(quán)重,p=1,…,P。 記為xp(s)的協(xié)方差算子,為 xp(s)和 xq(s)的交叉協(xié)方差函數(shù),p,q=1,…,P;p≠q。 有。 類似的,多元主成份分析問(wèn)題可轉(zhuǎn)化為特征方程系統(tǒng)Vβ=λβ的求解問(wèn)題,實(shí)際計(jì)算方法與一元情形下相似。
從國(guó)內(nèi)外財(cái)政的具體實(shí)踐上來(lái)看,財(cái)政支出結(jié)構(gòu)受社會(huì)資源配置總體的直接制約,其發(fā)展變化還與經(jīng)濟(jì)發(fā)展階段、經(jīng)濟(jì)發(fā)展程度以及該階段政府所追求的主要經(jīng)濟(jì)政策目標(biāo)密切相關(guān)。財(cái)政支出結(jié)構(gòu)的變化是對(duì)經(jīng)濟(jì)、社會(huì)不斷發(fā)展和政府之能變化的一個(gè)反映。隨著經(jīng)濟(jì)的發(fā)展,我國(guó)的財(cái)政支出結(jié)構(gòu)也發(fā)生了很大的變化。下面利用函數(shù)性主成份分析來(lái)研究我國(guó)1978~2005年的國(guó)家財(cái)政主要支出項(xiàng)目的發(fā)展變化趨勢(shì)。
國(guó)家財(cái)政主要支出項(xiàng)目包括基本建設(shè)支出,增撥企業(yè)流動(dòng)資金、挖潛改造資金和科技費(fèi)用,地質(zhì)勘探費(fèi),工、交、流通部門事業(yè)費(fèi),支農(nóng)支出、文教科學(xué)衛(wèi)生支出、撫恤和社會(huì)救濟(jì)福利費(fèi),國(guó)防支出、行政管理費(fèi),政策性補(bǔ)貼支出等。利用MATLAB編寫函數(shù)性分析程序,首先對(duì)數(shù)據(jù)進(jìn)行平滑、描述、顯示,并進(jìn)行更深一步的函數(shù)性主成份分析。圖1繪制出了國(guó)家財(cái)政各項(xiàng)主要支出項(xiàng)目的平滑曲線,并可根據(jù)平滑曲線求出其變化速度曲線,即一階導(dǎo)數(shù)曲線。根據(jù)各財(cái)政支出項(xiàng)目曲線可以看出國(guó)家財(cái)政各主要支出項(xiàng)目在1978~2005年期間總體趨勢(shì)都是增長(zhǎng)的,但增長(zhǎng)速度差異很大。1989年之前,基本建設(shè)支出高于其它支出項(xiàng)目,為財(cái)政支出最多的項(xiàng)目,但其增長(zhǎng)速度慢于文教、科學(xué)、衛(wèi)生支出項(xiàng)目,后者從1986年開(kāi)始快速增長(zhǎng),1989年之后超過(guò)了基本建設(shè)支出,成為財(cái)政支出最多的項(xiàng)目。此外,行政管理費(fèi)支出的增長(zhǎng)速度也比較快,支出額逐漸接近基本建設(shè)支出額,并在2003年之后超過(guò)了基本建設(shè)支出;其次變化較大的支出項(xiàng)目是國(guó)防支出、支農(nóng)支出、挖潛改造資金和科教三項(xiàng)費(fèi)用和政策性補(bǔ)貼。相對(duì)這些項(xiàng)目支出而言,其它項(xiàng)目如增撥企業(yè)流動(dòng)資金支出項(xiàng)目變化不大。這種支出結(jié)構(gòu)的變化是符合我國(guó)國(guó)民經(jīng)濟(jì)的發(fā)展要求的。在改革開(kāi)放初期,通過(guò)擴(kuò)大基本建設(shè)支出,促進(jìn)經(jīng)濟(jì)發(fā)展,擴(kuò)大經(jīng)濟(jì)規(guī)模和就業(yè)機(jī)會(huì),提高人們生產(chǎn)生活條件;隨著經(jīng)濟(jì)的發(fā)展和市場(chǎng)機(jī)制的完善,財(cái)政可配置資源增加,國(guó)家財(cái)政加大對(duì)滿足人民群眾日益增長(zhǎng)的難以通過(guò)市場(chǎng)機(jī)制實(shí)現(xiàn)的物質(zhì)、文化等方面的支出,其中重要的一項(xiàng)就是文教、科學(xué)、衛(wèi)生支出項(xiàng)目;此外還有國(guó)防支出和為縮小城鄉(xiāng)差距的支農(nóng)支出等。
圖2描述了國(guó)家財(cái)政11個(gè)主要支出項(xiàng)目的均值曲線和標(biāo)準(zhǔn)差曲線。從均值曲線可以明顯地看出財(cái)政支出各主要項(xiàng)目的平均變化趨勢(shì)是逐年遞增的,且增長(zhǎng)速度加快。由標(biāo)準(zhǔn)差曲線可以看出,各項(xiàng)目支出額之間的差異隨著時(shí)間的變化越來(lái)越大。
圖3顯示了國(guó)家財(cái)政11個(gè)主要支出項(xiàng)目的中心化財(cái)政支出曲線,即從各項(xiàng)目的財(cái)政支出曲線中減去它們的均值曲線。該圖清晰地表明各個(gè)支出項(xiàng)目偏離均值曲線的情況:相比較而言,1988年之前11個(gè)國(guó)家財(cái)政主要支出項(xiàng)目之間的差距不大,之后差距增大。其中文教、科學(xué)、衛(wèi)生支出越來(lái)越高于平均水平,此外高于平均水平的支出項(xiàng)目有基本建設(shè)支出和行政管理費(fèi);而增撥企業(yè)流動(dòng)資金,地質(zhì)勘探費(fèi),工、交、流通部門事業(yè)費(fèi)和撫恤和社會(huì)救濟(jì)福利費(fèi)越來(lái)越低于平均水平;其余項(xiàng)目的變化保持與平均水平大體相同。
圖4顯示了四個(gè)主成份(PC)的權(quán)重函數(shù)。為了清晰地顯示各主成份所代表的變化模式,將均值曲線、分別在均值曲線上加上和減去各個(gè)主成份權(quán)重函數(shù)合適倍數(shù)后得到的兩條曲線繪制在一個(gè)坐標(biāo)圖中,如圖5所示,分別用實(shí)線、虛線(…)和長(zhǎng)劃線(--)表示。第一主成份(PC1)解釋了數(shù)據(jù)95.4%的變異,其權(quán)重函數(shù)始終為正,且隨時(shí)間變化越來(lái)越大。第一主成份得分越高的財(cái)政支出項(xiàng)目,受到在1978~2005年期間高于平均支出水平趨勢(shì)的影響越大,例如文教、科學(xué)、衛(wèi)生支出,基本建設(shè)支出,行政管理費(fèi)等;得分越低則說(shuō)明受到低于平均支出水平趨勢(shì)的影響越大,例如增加企業(yè)流動(dòng)資金,地質(zhì)勘探費(fèi),工、交、流通部門事業(yè)費(fèi)和撫恤、社會(huì)福利救濟(jì)費(fèi)等。第二主成份(PC2)解釋了數(shù)據(jù)2.8%的變異,其權(quán)重函數(shù)的波動(dòng)表現(xiàn)為先下降后上升再下降,時(shí)正時(shí)負(fù)。第二主成份得分越高的財(cái)政支出項(xiàng)目,例如政策性補(bǔ)貼支出、基本建設(shè)支出等,受到如圖4右上角所示趨勢(shì)的影響越大,即在1978~1990年期間高于平均支出水平的程度逐漸減少,1990年之后低于平均支出水平越多,1998年之后又開(kāi)始縮小與平均支出水平的差距,之后又增大縮小增大;得分越低的財(cái)政支出項(xiàng)目,例如行政管理費(fèi),受到與前面相反趨勢(shì)的影響。圖6為財(cái)政各支出項(xiàng)目的PC1和PC2得分圖,可清楚看出它們受到PC1和PC2的影響狀況。文教、科學(xué)、衛(wèi)生支出主要受PC1的正向影響,幾乎不受PC2的影響;基本建設(shè)支出和行政管理費(fèi)同時(shí)兩者相同程度的影響,不同的是PC2對(duì)基本建設(shè)支出的影響是正向的,而對(duì)行政管理費(fèi)的影響是負(fù)向的;挖潛改造資金和科技三項(xiàng)費(fèi)用、國(guó)防支出和支農(nóng)支出受兩者的影響都很小,反映它們?cè)谟^測(cè)期間變化不大;政策性補(bǔ)貼支出受PC2影響有較大的波動(dòng);撫恤和社會(huì)福利救濟(jì)費(fèi),工、交、流通部門事業(yè)費(fèi)、地質(zhì)勘探費(fèi)和增撥企業(yè)流動(dòng)資金等項(xiàng)目受PC1的負(fù)向影響比較大,與財(cái)政支出平均水平差距擴(kuò)大的事實(shí)相吻合。
與傳統(tǒng)的分析方法相比,函數(shù)性數(shù)據(jù)分析具有其自身的優(yōu)越性,它依賴較少的假設(shè)條件和較弱的結(jié)構(gòu)約束,不要求不同觀測(cè)對(duì)象的數(shù)據(jù)觀測(cè)點(diǎn)和觀測(cè)次數(shù)相同,不但可以實(shí)現(xiàn)對(duì)無(wú)限維度數(shù)據(jù)的模式挖掘,而且還可用于對(duì)非函數(shù)性數(shù)據(jù)進(jìn)行分析。作為函數(shù)性數(shù)據(jù)分析的一項(xiàng)關(guān)鍵技術(shù),函數(shù)性主成份分析能起到降低維度的作用,可以用來(lái)探索函數(shù)性數(shù)據(jù)資料的變異性,例如曲線的重要變化形式、曲線類型、代表特定函數(shù)的典型形態(tài)等,還可以用于研究多個(gè)函數(shù)之間的聯(lián)動(dòng)性變動(dòng)。隨著信息技術(shù)的發(fā)展,人們獲取和存儲(chǔ)數(shù)據(jù)的能力得到了極大的提高,需要處理越來(lái)越多的具有函數(shù)特征的數(shù)據(jù),經(jīng)濟(jì)數(shù)據(jù)的函數(shù)性主成份分析方法及其應(yīng)用有待進(jìn)一步研究和擴(kuò)展。
[1]雷欽禮.經(jīng)濟(jì)管理多元統(tǒng)計(jì)分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,2002.
[2]朱建平.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社,2006.
[3]朱建平,來(lái)生強(qiáng).流式數(shù)據(jù)挖掘的現(xiàn)狀及統(tǒng)計(jì)學(xué)的研究趨勢(shì)[J].統(tǒng)計(jì)研究,2007,7.
[4]Ramsay,J,Silverman,B.Applied Functional Data Analysis:Methods and Case Studies[M].New York:Springer,2002.
[5]Ramsay,J,Silverman,B.Functional Data Analysis[A].Springer Series in Statistics[M].New York:Springer,1997.
[6]Rice J.A.Functional and Longitudinal Data Analysis:Perspective on Smoothing[J].Statistical Sinica,2004,14.