(蘭州財(cái)經(jīng)大學(xué) 甘肅 蘭州 730000)
主成分分析的思路是降維,通過(guò)對(duì)原始變量進(jìn)行線性變換,從而形成新的變量。新的變量從個(gè)數(shù)上遠(yuǎn)遠(yuǎn)少于原始變量,但是其包含的信息與原始變量相差不多。從理論上講,有多少個(gè)原始變量就可以提取多少個(gè)主成分,然而在線性變換之后,我們?cè)诮稻S和信息的保留上做出了權(quán)衡。目前在許多教科書以及實(shí)際研究工作中,對(duì)于主成分個(gè)數(shù)的保留有多種方法,如,特征值大于1,方差累計(jì)(信息保留)大于85%等等,它的優(yōu)勢(shì)在于簡(jiǎn)單且對(duì)絕大多數(shù)情況都適用。但是這些方法是經(jīng)驗(yàn)性的,沒(méi)有理論上的支持。
在主成分提取之后,我們還會(huì)遇到一個(gè)問(wèn)題,就是提取后主成分的合理解釋。由于主成分是原始變量的線性組合,通常我們用系數(shù)向量中絕對(duì)值較大的變量對(duì)該主成分下定義,然而,實(shí)際中,是不是所有的數(shù)據(jù)在提取主成分后都能夠得到合理的解釋,絕對(duì)值較大是怎樣一個(gè)界限,負(fù)值系數(shù)該如何解釋,都沒(méi)有一個(gè)明確的規(guī)定。
關(guān)于樣本主成分得分排序的問(wèn)題,目前常用的方法是利用主成分做線性組合,并以每個(gè)主成分的方差貢獻(xiàn)率作為權(quán)數(shù)構(gòu)造綜合評(píng)價(jià)函數(shù)。然而這種方法在實(shí)踐中不夠理想,最主要的原因是產(chǎn)生主成分的特征向量的各級(jí)分量符號(hào)不一致,很難進(jìn)行排序評(píng)價(jià)[1]。改進(jìn)的一種辦法是只取第一主成分構(gòu)造評(píng)價(jià)得分,前提是主成分系數(shù)全為正,也就是要求所有評(píng)價(jià)指標(biāo)變量都是正相關(guān)。但是這樣構(gòu)造的評(píng)價(jià)函數(shù)并沒(méi)有考慮提取的其它的主成分(當(dāng)主成分個(gè)數(shù)大于1時(shí)),結(jié)論是否可靠呢?
基于以上的思考,本文在參閱相關(guān)文獻(xiàn)的基礎(chǔ)上加之個(gè)人的理解,對(duì)上述問(wèn)題分別進(jìn)行討論,然后找到相對(duì)合理且具有理論支撐的一套從主成分提取到最后綜合評(píng)價(jià)函數(shù)構(gòu)造的方法。
1.主成分個(gè)數(shù)應(yīng)當(dāng)如何選定?
2.主成分是否能夠有明確的解釋?
我們知道,主成分之間是不相關(guān)的,在X為正向的前提下,主成分中載荷較大的指標(biāo)變量同符號(hào)是相互促進(jìn)的關(guān)系,不同符號(hào)是相互制約的關(guān)系。主成分中有正有負(fù)是多個(gè)相關(guān)變量相互有機(jī)聯(lián)系在一起的正常表現(xiàn)。對(duì)于主成分合理的解釋直接關(guān)系到在綜合評(píng)價(jià)中構(gòu)造綜合評(píng)價(jià)函數(shù)對(duì)樣品進(jìn)行得分評(píng)價(jià),因此,我們將主成分內(nèi)部變量的符號(hào)解釋成相互促進(jìn)或者相互制約,而對(duì)于非正向主成分本身,在正向化之后,綜合評(píng)價(jià)函數(shù)在方向上也應(yīng)當(dāng)是合理的。
3.如何構(gòu)造綜合評(píng)價(jià)函數(shù)使得樣品評(píng)價(jià)得分更加合理?
為了方便起見(jiàn),本文采用《我國(guó)部分省、直轄市、自治區(qū)獨(dú)立核算的工業(yè)企業(yè)經(jīng)濟(jì)效益評(píng)價(jià)》數(shù)據(jù)[1],該數(shù)據(jù)涉及28個(gè)樣品,9項(xiàng)指標(biāo),x1到x9分別表示百元固定資產(chǎn)原值實(shí)現(xiàn)值(%)、百元固定資產(chǎn)原值實(shí)現(xiàn)利稅(%)、百元資金實(shí)現(xiàn)利稅(%),百元工業(yè)總產(chǎn)值實(shí)現(xiàn)利稅(%)、百元銷售收入實(shí)現(xiàn)利稅(%)、每噸標(biāo)準(zhǔn)煤實(shí)現(xiàn)工業(yè)產(chǎn)值(元)、每千萬(wàn)時(shí)電力實(shí)現(xiàn)工業(yè)產(chǎn)值(元)、全員勞動(dòng)生產(chǎn)率(元/人*年)以及百元流動(dòng)資金實(shí)現(xiàn)產(chǎn)值(元)。
因?yàn)樽兞看嬖诹烤V不一致,我們從相關(guān)陣出發(fā)進(jìn)行主成分分析。由于指標(biāo)是正向的,因此首先,只需將X標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化后的變量間的相關(guān)陣。
我們發(fā)現(xiàn)x1與x2、x3、x6、x7、x8、x9具有高度相關(guān)性,可以通過(guò)主成分分析來(lái)進(jìn)行降維處理。
接下來(lái),從成分矩陣中尋找簡(jiǎn)單結(jié)構(gòu)。在SPSS中我們?cè)O(shè)定提取特征值為0,可以得出全成分矩陣。
表1 載荷頻數(shù)分布
現(xiàn)在我們要通過(guò)顯著相關(guān)來(lái)確定主成分的個(gè)數(shù)。由于樣本數(shù)較小,給定顯著性水平α=1%,查相關(guān)系數(shù)臨界值表,得r0.005(26)≈0.487。從成分矩陣中我們找到每列元素中絕對(duì)值最大的與0.487比較,當(dāng)?shù)趉+1列中絕對(duì)值最大元素小于0.487,則提取k個(gè)主成分。依據(jù)此,本例中,k=3,即提取3個(gè)主成分。在spss中主成分分析選項(xiàng)中我們固定提取3個(gè)主成分,得到方差貢獻(xiàn)表,提取的3個(gè)主成分共解釋了92.447%的總方差。
然后,我們通過(guò)成分載荷陣中Yj與X相關(guān)系數(shù)顯著性對(duì)主成分進(jìn)行解釋說(shuō)明??梢钥吹剑琘1與x1、x2、x3、x6、x7、x8、x9具有顯著的正相關(guān)性(與0.487比較);Y2與x4、x5具有顯著的正相關(guān)性;Y3與x5具有顯著的正相關(guān)性。其解釋如下:
Y1:顯著變量為x1、x2、x3、x6、x7、x8、x9,反映了工業(yè)企業(yè)生產(chǎn)中資金投入與勞動(dòng)力產(chǎn)出之間具有相互促進(jìn)的作用,作為第一主成分,還反映了投入產(chǎn)出是衡量企業(yè)經(jīng)濟(jì)效益的第一大要素;
Y2:顯著變量為x4、x5,反映了企業(yè)效益(銷售額)對(duì)利稅積極的影響,在衡量經(jīng)濟(jì)效益時(shí)同時(shí)也要考慮產(chǎn)出對(duì)國(guó)家的貢獻(xiàn);
Y3:顯著變量為x5,反映了企業(yè)收入對(duì)利稅貢獻(xiàn)的補(bǔ)充部分。
根據(jù)顯著性,我們分別對(duì)主成分命名:Y1為企業(yè)投入產(chǎn)出水平;Y2為企業(yè)效益對(duì)利稅的貢獻(xiàn)水平;Y3為企業(yè)效益對(duì)利稅貢獻(xiàn)的補(bǔ)充部分。通過(guò)特征值及成分載荷,我們得到標(biāo)準(zhǔn)化后的主成分表達(dá)式為:
根據(jù)表達(dá)式,三個(gè)主成分在衡量企業(yè)經(jīng)濟(jì)效益上都是正向的,無(wú)需正向化。因此我們直接構(gòu)造綜合評(píng)價(jià)函數(shù):
根據(jù)以上式子我們對(duì)樣品進(jìn)行成分得分和綜合評(píng)價(jià)得分(取綜合評(píng)價(jià)前10個(gè)城市得分):
城市Y綜合序Y1序Y2序Y3序上海5051704113840255浙江26824372-18227-00516天津2663374405390196北京2374282524210662江蘇22553943-28280169廣東09961826-13226-04324山東06270987-0361600412云南0278-00212242-14328福建02490518-05218-03523湖北020100359-031500411
對(duì)于得分中的負(fù)值,其反映的是企業(yè)在該成分中的相對(duì)水平。由于第一主成分對(duì)于原始變量信息解釋力最大,因此從上表我們也看出綜合評(píng)價(jià)得分排序與按照第一主成分排序差異不大。
根據(jù)得分,對(duì)所有28個(gè)城市做系統(tǒng)聚類,方法使用平均聯(lián)接法,從輸出的譜系圖上看到這28所城市在工業(yè)企業(yè)經(jīng)濟(jì)效益上分為4類:
第一類:陜西、新疆、吉林、四川、江西、內(nèi)蒙古、寧夏、青海
第二類:福建、湖北、山東、安徽、河北、河南、湖南、廣西、遼寧、黑龍江
第三類:貴州、甘肅、云南、山西
第四類:北京、天津、江蘇、浙江、廣東、上海
第一類在三個(gè)主成分得分上都偏低,說(shuō)明是無(wú)論在企業(yè)的投入產(chǎn)出還是效益利稅水平上都相對(duì)落后;第二類在三個(gè)主成分得分上屬于一般水平;第三類雖然在第一主成分上的得分不高,但是相對(duì)來(lái)說(shuō),其銷售收入和產(chǎn)值利稅水平要高于其它城市;第四類在投入產(chǎn)出方面屬于領(lǐng)先水平。
結(jié)合綜合評(píng)價(jià)得分和主成分得分,我們對(duì)上海、浙江、云南三個(gè)地區(qū)進(jìn)行企業(yè)效益評(píng)估。上海在投入產(chǎn)出上得分7.04遠(yuǎn)高于其它地區(qū)排名第一,對(duì)生產(chǎn)的高投入換來(lái)高回報(bào),說(shuō)明上海企業(yè)無(wú)論在管理、運(yùn)營(yíng)、產(chǎn)能、銷售方面都具備較高的能力和效率。在效益利稅方面,上海得分1.38,排名第四,說(shuō)明上海企業(yè)在具備較高的經(jīng)濟(jì)利益的同時(shí),對(duì)利稅做出的貢獻(xiàn)同樣處于領(lǐng)先地位。浙江在投入產(chǎn)出上得分4.37,排名第二,但是在利稅方面得分-1.82,排名27,這說(shuō)明,浙江企業(yè)在經(jīng)濟(jì)效益較高的條件下,其產(chǎn)值和銷售對(duì)于利稅的貢獻(xiàn)還遠(yuǎn)遠(yuǎn)不足,因此,有效的提升產(chǎn)品利潤(rùn)、監(jiān)管稅收是該地區(qū)的首要工作。云南在投入產(chǎn)出上得分-0.02,這說(shuō)明云南較其他城市來(lái)說(shuō),投入產(chǎn)出基數(shù)和效率都不理想,然而云南在利稅方面得分2.4位于全國(guó)第2,說(shuō)明其利潤(rùn)率較高。
除此之外,我們還可以從聚類的結(jié)構(gòu)中發(fā)現(xiàn),企業(yè)經(jīng)濟(jì)效益和地域可能存在一定的相關(guān)性,但是從我們的數(shù)據(jù)中還無(wú)法獲知。西部地區(qū)總體經(jīng)濟(jì)效益偏低,中部地區(qū)經(jīng)濟(jì)效益略好,首都和東部沿海地區(qū)經(jīng)濟(jì)效益較好,同時(shí)貴州、甘肅、云南、山西四個(gè)地區(qū)雖然在投入產(chǎn)出上較為落后,但是它們的利稅水平較高,如何提高這些地區(qū)的投入產(chǎn)出水平,使其進(jìn)一步提高利稅貢獻(xiàn)應(yīng)該是需要深入研究的問(wèn)題。
通過(guò)上面的內(nèi)容,我們有了完整的對(duì)于多指標(biāo)數(shù)據(jù)進(jìn)行主成分提取、分析和綜合評(píng)價(jià)的方法,這個(gè)方法對(duì)于指標(biāo)數(shù)據(jù)有一定的應(yīng)用條件,標(biāo)準(zhǔn)化、正向、成分矩陣或者旋轉(zhuǎn)后的因子載荷陣具有簡(jiǎn)單結(jié)構(gòu),主成分與變量有顯著相關(guān)性。這也使得這種方法在對(duì)數(shù)據(jù)進(jìn)行主成分分析的時(shí)候存在一定的局限性,但是我們看到,即便如此,只要前提條件滿足的情況下,整個(gè)分析過(guò)程指標(biāo)的選擇、成分個(gè)數(shù)的選擇、成分的解釋命名方面都有理有據(jù)。同時(shí)這個(gè)方法對(duì)指標(biāo)變量的信息做了最大化的保留,使得在成分得分和綜合評(píng)價(jià)方面不會(huì)因?yàn)樾畔⒌拇罅窟z漏而造成偏頗。
[1]多元統(tǒng)計(jì)分析第三版.何曉群.2004
[2]主成分分析綜合評(píng)價(jià)應(yīng)該注意的問(wèn)題.林海明,杜子芳.統(tǒng)計(jì)研究2013.8
[3]因子分析應(yīng)用中一些常見(jiàn)問(wèn)題的解析.林海明.統(tǒng)計(jì)與決策.2012.15
[4]多指標(biāo)綜合評(píng)價(jià)中主成分分析和因子分析方法的比較.王文博.統(tǒng)計(jì)與信息論壇.2006.9
[5]多元統(tǒng)計(jì)分析引論.方開(kāi)泰,張堯庭.科學(xué)出版社1982