尹 波
(成都東軟信息技術職業(yè)學院,成都 611481)
主成分抽取數(shù)量確定的新方法
尹 波
(成都東軟信息技術職業(yè)學院,成都 611481)
文章針對主成分抽取數(shù)量的確定提出了一種新方法,通過同時聯(lián)立與原始樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來求解主成分數(shù)量,并在SPSS環(huán)境下實現(xiàn)了該方法。實例研究表明相比特征值大于1、Scree碎石、Velicer偏相關檢驗等準則,該方法所得結果更準確更泛化,可應用于主成分分析、因子分析和圖像特征提取等相關研究中。
主成分抽取數(shù)量準則;Kaiser準則;再抽樣樣本;平行檢驗
對樣本數(shù)據(jù)進行主成分抽取或因子抽?。ㄒ韵乱灾鞒煞殖槿斫y(tǒng)一表述)時,必然要涉及的一個重要問題就是主成分數(shù)量的確定。在探索性主成分分析階段,由于預先難以甚至無法確定主成分的數(shù)量,國內(nèi)不少研究者常常是采用特征根大于1的抽取準則(Kaiser準則),往往過多地抽取主成分[1],導致部分主成分難以賦予合適的意義,成為“噪音”;或采用解釋總方差比例(比如大于85%)作為主成分抽取的準則,這些方法不免主觀和武斷,缺乏足夠科學依據(jù)[2]。為此,不少學者對于主成分抽取數(shù)量確定的準則作了改進和提高,在探索性主成分階段確定主成分數(shù)量的備選范圍,在驗證性主成分分析階段檢驗主成分數(shù)量和相應結構模型,較好地提高了主成分數(shù)量確定的科學性[3],但這些算法還存在以下問題:第一是備選主成分數(shù)量如何確定;第二是模型的吻合只針對了樣本數(shù)據(jù),得到的模型對于總體數(shù)據(jù)而言可能有一定系統(tǒng)偏差。
基于以上研究現(xiàn)狀,本文擬提出一種確定主成分抽取數(shù)量的新方法,即通過同時滿足與原始樣本數(shù)據(jù)(Raw Data)吻合良好和與再抽樣樣本數(shù)據(jù)(Resample Data)吻合良好兩個約束條件來求解最優(yōu)主成分數(shù)量,并在SPSS環(huán)境實現(xiàn)了該方法。我們把這個方法稱為R-R法,該方法較好地解決了現(xiàn)有算法中存在的問題,在原始樣本數(shù)據(jù)一定的情況下,可減少主成分數(shù)量模型的系統(tǒng)誤差,提高模型的泛化性和穩(wěn)定性。
基于以上討論,本文提出一個基于原始樣本數(shù)據(jù)和再抽樣數(shù)據(jù)相互檢驗和相互修正的R-R方法,基本想法是通過再抽樣數(shù)據(jù)來檢驗和修正始原樣本數(shù)據(jù)可能存在的系統(tǒng)誤差,通過原始樣本數(shù)據(jù)來檢驗和修正再抽樣數(shù)據(jù)可能存在的偏差,即聯(lián)立與原樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來求解共同主成分數(shù)量。如式(1)所示:
這里與樣本數(shù)據(jù) “吻合良好”是一個未清晰定義的概念,由于“吻合良好”的目標不同,“吻合良好”的判別準則也不相同;但無論基于什么判別準則,其解都是吻合良好的解。我們采用基于不同判別準則的解來表示不同 “吻合良好”的解,有式(2):
由前述討論可知,基于原始樣本數(shù)據(jù)的判別準則多樣,我們可以采用Kaiser準則、Cattel Scree準則、解釋的總方差比例、Bartlett's Sphericity檢驗和Velicer偏相關檢驗等不同準則來確定主成分抽取的數(shù)量。從算法的理論基礎、目標、主成分數(shù)量結構的顯著性等方面來考察,不同的準則有不同的優(yōu)缺點[4];基于再抽樣數(shù)據(jù)的判別準則我們采用基于Bootstrapping再抽樣數(shù)據(jù)的Horn平行檢驗。
基于原始樣本數(shù)據(jù)的解依據(jù)判別準則的不同可能不同,當這個解和基于Bootstrapping再抽樣數(shù)據(jù)Horn平行檢驗的解一致時,共同的主成分抽取數(shù)量確定。
在R-R方法的實現(xiàn)方面,由于Kaiser準則、Scree碎石準則、解釋的總方差比例等都可以通過現(xiàn)有的統(tǒng)計軟件SPSS來實現(xiàn)。因此,我們選擇在SPSS環(huán)境下編程實現(xiàn)Velicer偏相關檢驗和Horn平行檢驗來完整實現(xiàn)R-R方法。
當兩者不一致時,R-R方法失效,需要尋找其他方法,比如用 Bootstrap Bias Corrected and Accelerated(BCa)來修正抽樣偏差[5]。
設F是總體空間,x是F的樣本集合,由于F未知,基于F的統(tǒng)計參數(shù)θ=t(F)無法確定,由估計參數(shù)=s(x)和偏差biasF來表示:
通過bootstrapping方法,基于x產(chǎn)生足夠多x*1,x*2,…,x*B樣本組成來近似代表F,則偏差biasF可以由來估算。
進一步,采用 bootstrap BCa(bias-corrected and accelerated)對置信區(qū)間進行調整,有
這里:
使用Bootstrap BCa等偏差修正方法修正了主成分特征根的置信區(qū)間后,再次使用R-R方法來求解共同的主成分數(shù)量。
如果R-R方法依然失效,則提示樣本數(shù)據(jù)可能有較大的系統(tǒng)偏差,由于當再抽樣數(shù)量足夠大時,Bootstrap再抽樣數(shù)據(jù)的統(tǒng)計參數(shù)足夠穩(wěn)定,因此主要考慮原始樣本數(shù)據(jù)的質量,需要重新進行科學的抽樣調查[6]。
接下來,我們應用R-R方法對成都一酒店的企業(yè)文化調查問卷確定要抽取的主成分數(shù)量,并與Kaiser準則、Scree碎石準則、解釋的總方差比例、Velicer偏相關檢驗、Horn平行檢驗等方法做一個比較,以檢驗R-R方法的有效性和準確性。
2006~2007年間筆者對成都一國際酒店進行了一次企業(yè)文化問卷調查。調查問卷發(fā)放過程中是要求盡可能覆蓋各個部門,不同年齡、不同性別和不同層次等等。我們觀察變量間相關系數(shù)矩陣,不少變量之間存在高度相關;其次觀測KMO值和Bartlett球型檢驗情況,KMO值為0.869。Bartlett Sphercity檢驗拒絕單位矩陣的假設,檢驗結果表明問卷數(shù)據(jù)適合做主成分分析。
在主成分抽取的準則上,首先我們應用SPSS 15.0(for Windows)軟件,進行主成分抽取,共有5個主成分特征值大于1,依據(jù)Kasier準則應抽取5個主成分,依據(jù)總方差比例準則,分別選取比例為70%、80%、95%時,對應要抽取的主成分數(shù)量為5、7、11。采用Cattell Scree法則作為主成分抽取的準則,觀察到圖形的“肘部”位于主成分數(shù)量為2處。采用Velicer偏相關檢驗來求解主成分數(shù)量,結果如表1所示。
最小平均平方根偏相關系數(shù)是0.0404,對應的主成分數(shù)量為2;最小平均1/4次方偏相關系數(shù)是0.0048,也說明對應的主成分數(shù)量為2。這樣,基于Kaiser法則、Cattel碎石法則、解釋的總方差比例、Velicer偏相關檢驗4種法則我們得到了6種不同的結果,如表3所示。
由于原始樣本數(shù)據(jù)較少,故采用Bootstrapping方法生成再抽樣樣本數(shù)據(jù) (和原始樣本數(shù)據(jù)維度和觀察值一樣)1000組,應用Horn平行檢驗來加以驗證,結果如表2和圖1所示。
表4 不同判斷準則得出的主成分數(shù)量
檢驗結果表明:當主成分數(shù)量大于3時,原始樣本數(shù)據(jù)特征值開始小于Bootstrapping再抽樣數(shù)據(jù)平均特征值,抽取2個主成分與Bootstrapping再抽樣1000組樣本數(shù)據(jù)吻合最好。
在完成原樣本數(shù)據(jù)和Bootstrapping再抽樣樣本數(shù)據(jù)條件下主成分抽取數(shù)量的求解后,我們通過下面的表格來方便地求解R-R條件下的共同解。
由表3容易知,原始樣本數(shù)據(jù)條件下Velicer偏相關檢驗和Cattell碎石準則得到的主成分抽取數(shù)量和Bootstrapping再抽樣樣本數(shù)據(jù)條件下Horn平行檢驗方法得到的主成分抽取數(shù)量一致,R-R條件下的共同解為2。本實例研究表明在原始樣本數(shù)據(jù)下,R-R方法所得的解優(yōu)于Kaiser準則;和Scree碎石準則、Velicer準則相比,系統(tǒng)誤差更小。在再抽樣樣本數(shù)據(jù)條件下,和Horn平行檢驗相比,R-R方法所得的解和原始樣本數(shù)據(jù)吻合更好;同時表明在原始樣本條件下,Velicer偏相關檢驗和Cattell碎石準則比Kaiser準則得到的主成分數(shù)量模型泛化和穩(wěn)定,進一步驗證了現(xiàn)有文獻指出的Kaiser法則過多抽取主成分數(shù)量和從樣本數(shù)量,變量數(shù)量,主成分數(shù)量,主成分飽和度等方面考察原始樣本數(shù)據(jù)條件下Velicer偏相關系數(shù)檢驗是最好判別準則的結論。
針對當前主成分抽取數(shù)量確定方法中廣泛使用的一些方法所存在的不足,本文提出了一種新的確定方法 (R-R法),即通過同時滿足與原始樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來確定主成分抽取數(shù)量,并在SPSS環(huán)境下實現(xiàn)了該方法。
應用該方法于成都一酒店企業(yè)文化調查問卷以確定主成分抽取數(shù)量,結果表明相比特征值大于1、總方差比例、Velicer偏相關檢驗等準則,R-R方法所得結果系統(tǒng)誤差更小、更準確和更泛化;相比Horn平行檢驗,R-R方法與原始樣本數(shù)據(jù)吻合更好;同時表明在原始樣本數(shù)據(jù)條件下Velicer偏相關檢驗和Cattell碎石準則比Kaiser準則得到的主成分數(shù)量模型更準確和泛化,支持了現(xiàn)有文獻關于Kaiser準則過多抽取主成分的結論。
本文提出的R-R方法是對目前特征值大于1等準則的改進,可廣泛應用于主成分分析、因子分析和圖像特征提取等相關研究中。
[1]Franklin,S,Gibson,D,Robertson,P,Pohlmann,J,Fralish,J.Parallel Analysis:A Method forDetermining SignificantComponents[J].Journal of Vegetation Science,1995,6(1).
[2]Jackson D.Stopping Rules in Principal Components Analysis:A Comparison of Heuristical and Statistical Approaches[J].Ecology,1993,74(8).
[3]柯江林,孫鍵敏,石金濤,顧琴軒.企業(yè)R&D團隊之社會資本與團隊效能關系的實證研究[J].管理世界,2007,(3).
[4]Ferré L.Selection of Components in Principal Component Analysis:A Comparison of Methods[J].Computational Statistics and Data Analysis,1995,(6).
[4]Hall,P.Theoretical Comparison of Bootstrap Confidence Intervals[J].The Annals of Statistics,1988,(3).
[6]Fan,X,Wang,L.Comparability of Jackknife and Bootstrap Results:An Investigation for A Case of Canonical Correlation Analysis[J].Journal of Experimental Education,1996,64.
(責任編輯/亦 民)
O212;F222
A
1002-6487(2010)19-0008-03
國家自然科學基金資助項目(70772068);四川省教育廳重點資助項目(07ZA197)
尹 波(1971-),男,江西吉安人,博士,副教授,研究方向:組織文化與計量管理。