亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主成分抽取數(shù)量確定的新方法

2010-09-15 08:50:30尹波

統(tǒng)計與決策 2010年19期

關鍵詞：方差準則碎石

尹波

（成都東軟信息技術職業(yè)學院，成都 611481）

主成分抽取數(shù)量確定的新方法

尹波

（成都東軟信息技術職業(yè)學院，成都 611481）

文章針對主成分抽取數(shù)量的確定提出了一種新方法，通過同時聯(lián)立與原始樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來求解主成分數(shù)量，并在SPSS環(huán)境下實現(xiàn)了該方法。實例研究表明相比特征值大于1、Scree碎石、Velicer偏相關檢驗等準則，該方法所得結果更準確更泛化，可應用于主成分分析、因子分析和圖像特征提取等相關研究中。

主成分抽取數(shù)量準則；Kaiser準則；再抽樣樣本；平行檢驗

對樣本數(shù)據(jù)進行主成分抽取或因子抽?。ㄒ韵乱灾鞒煞殖槿斫y(tǒng)一表述）時，必然要涉及的一個重要問題就是主成分數(shù)量的確定。在探索性主成分分析階段，由于預先難以甚至無法確定主成分的數(shù)量，國內(nèi)不少研究者常常是采用特征根大于1的抽取準則（Kaiser準則），往往過多地抽取主成分[1]，導致部分主成分難以賦予合適的意義，成為“噪音”；或采用解釋總方差比例（比如大于85%）作為主成分抽取的準則，這些方法不免主觀和武斷，缺乏足夠科學依據(jù)[2]。為此，不少學者對于主成分抽取數(shù)量確定的準則作了改進和提高，在探索性主成分階段確定主成分數(shù)量的備選范圍，在驗證性主成分分析階段檢驗主成分數(shù)量和相應結構模型，較好地提高了主成分數(shù)量確定的科學性[3]，但這些算法還存在以下問題：第一是備選主成分數(shù)量如何確定；第二是模型的吻合只針對了樣本數(shù)據(jù)，得到的模型對于總體數(shù)據(jù)而言可能有一定系統(tǒng)偏差。

基于以上研究現(xiàn)狀，本文擬提出一種確定主成分抽取數(shù)量的新方法，即通過同時滿足與原始樣本數(shù)據(jù)（Raw Data）吻合良好和與再抽樣樣本數(shù)據(jù)（Resample Data）吻合良好兩個約束條件來求解最優(yōu)主成分數(shù)量，并在SPSS環(huán)境實現(xiàn)了該方法。我們把這個方法稱為R-R法，該方法較好地解決了現(xiàn)有算法中存在的問題，在原始樣本數(shù)據(jù)一定的情況下，可減少主成分數(shù)量模型的系統(tǒng)誤差，提高模型的泛化性和穩(wěn)定性。

1 基于原樣本數(shù)據(jù)和再抽樣數(shù)據(jù)的R-R方法研究

1.1 R-R方法

基于以上討論，本文提出一個基于原始樣本數(shù)據(jù)和再抽樣數(shù)據(jù)相互檢驗和相互修正的R-R方法，基本想法是通過再抽樣數(shù)據(jù)來檢驗和修正始原樣本數(shù)據(jù)可能存在的系統(tǒng)誤差，通過原始樣本數(shù)據(jù)來檢驗和修正再抽樣數(shù)據(jù)可能存在的偏差，即聯(lián)立與原樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來求解共同主成分數(shù)量。如式（1）所示：

這里與樣本數(shù)據(jù) “吻合良好”是一個未清晰定義的概念，由于“吻合良好”的目標不同，“吻合良好”的判別準則也不相同；但無論基于什么判別準則，其解都是吻合良好的解。我們采用基于不同判別準則的解來表示不同 “吻合良好”的解，有式（2）：

由前述討論可知，基于原始樣本數(shù)據(jù)的判別準則多樣，我們可以采用Kaiser準則、Cattel Scree準則、解釋的總方差比例、Bartlett's Sphericity檢驗和Velicer偏相關檢驗等不同準則來確定主成分抽取的數(shù)量。從算法的理論基礎、目標、主成分數(shù)量結構的顯著性等方面來考察，不同的準則有不同的優(yōu)缺點[4]；基于再抽樣數(shù)據(jù)的判別準則我們采用基于Bootstrapping再抽樣數(shù)據(jù)的Horn平行檢驗。

基于原始樣本數(shù)據(jù)的解依據(jù)判別準則的不同可能不同，當這個解和基于Bootstrapping再抽樣數(shù)據(jù)Horn平行檢驗的解一致時，共同的主成分抽取數(shù)量確定。

在R-R方法的實現(xiàn)方面，由于Kaiser準則、Scree碎石準則、解釋的總方差比例等都可以通過現(xiàn)有的統(tǒng)計軟件SPSS來實現(xiàn)。因此，我們選擇在SPSS環(huán)境下編程實現(xiàn)Velicer偏相關檢驗和Horn平行檢驗來完整實現(xiàn)R-R方法。

當兩者不一致時，R-R方法失效，需要尋找其他方法，比如用 Bootstrap Bias Corrected and Accelerated（BCa）來修正抽樣偏差[5]。

1.2 偏差修正

設F是總體空間，x是F的樣本集合，由于F未知，基于F的統(tǒng)計參數(shù)θ=t(F)無法確定，由估計參數(shù)=s(x)和偏差biasF來表示：

通過bootstrapping方法，基于x產(chǎn)生足夠多x*1,x*2,…,x*B樣本組成來近似代表F，則偏差biasF可以由來估算。

進一步，采用 bootstrap BCa（bias-corrected and accelerated）對置信區(qū)間進行調整，有

這里：

使用Bootstrap BCa等偏差修正方法修正了主成分特征根的置信區(qū)間后，再次使用R-R方法來求解共同的主成分數(shù)量。

1.3 失效的情形

如果R-R方法依然失效，則提示樣本數(shù)據(jù)可能有較大的系統(tǒng)偏差，由于當再抽樣數(shù)量足夠大時，Bootstrap再抽樣數(shù)據(jù)的統(tǒng)計參數(shù)足夠穩(wěn)定，因此主要考慮原始樣本數(shù)據(jù)的質量，需要重新進行科學的抽樣調查[6]。

接下來，我們應用R-R方法對成都一酒店的企業(yè)文化調查問卷確定要抽取的主成分數(shù)量，并與Kaiser準則、Scree碎石準則、解釋的總方差比例、Velicer偏相關檢驗、Horn平行檢驗等方法做一個比較，以檢驗R-R方法的有效性和準確性。

2 R-R方法的應用

2.1 基于原始樣本數(shù)據(jù)的主成分抽取數(shù)量的確定

2006～2007年間筆者對成都一國際酒店進行了一次企業(yè)文化問卷調查。調查問卷發(fā)放過程中是要求盡可能覆蓋各個部門，不同年齡、不同性別和不同層次等等。我們觀察變量間相關系數(shù)矩陣，不少變量之間存在高度相關；其次觀測KMO值和Bartlett球型檢驗情況，KMO值為0.869。Bartlett Sphercity檢驗拒絕單位矩陣的假設，檢驗結果表明問卷數(shù)據(jù)適合做主成分分析。

在主成分抽取的準則上，首先我們應用SPSS 15.0(for Windows)軟件，進行主成分抽取，共有5個主成分特征值大于1，依據(jù)Kasier準則應抽取5個主成分，依據(jù)總方差比例準則，分別選取比例為70%、80%、95%時，對應要抽取的主成分數(shù)量為5、7、11。采用Cattell Scree法則作為主成分抽取的準則，觀察到圖形的“肘部”位于主成分數(shù)量為2處。采用Velicer偏相關檢驗來求解主成分數(shù)量，結果如表1所示。

最小平均平方根偏相關系數(shù)是0.0404，對應的主成分數(shù)量為2；最小平均1/4次方偏相關系數(shù)是0.0048，也說明對應的主成分數(shù)量為2。這樣，基于Kaiser法則、Cattel碎石法則、解釋的總方差比例、Velicer偏相關檢驗4種法則我們得到了6種不同的結果，如表3所示。

2.2 基于再抽樣數(shù)據(jù)的主成分抽取數(shù)量的確定

由于原始樣本數(shù)據(jù)較少，故采用Bootstrapping方法生成再抽樣樣本數(shù)據(jù) （和原始樣本數(shù)據(jù)維度和觀察值一樣）1000組，應用Horn平行檢驗來加以驗證，結果如表2和圖1所示。

表4 不同判斷準則得出的主成分數(shù)量

檢驗結果表明：當主成分數(shù)量大于3時，原始樣本數(shù)據(jù)特征值開始小于Bootstrapping再抽樣數(shù)據(jù)平均特征值，抽取2個主成分與Bootstrapping再抽樣1000組樣本數(shù)據(jù)吻合最好。

2.3 基于R-R方法的主成分抽取數(shù)量的確定

在完成原樣本數(shù)據(jù)和Bootstrapping再抽樣樣本數(shù)據(jù)條件下主成分抽取數(shù)量的求解后，我們通過下面的表格來方便地求解R-R條件下的共同解。

由表3容易知，原始樣本數(shù)據(jù)條件下Velicer偏相關檢驗和Cattell碎石準則得到的主成分抽取數(shù)量和Bootstrapping再抽樣樣本數(shù)據(jù)條件下Horn平行檢驗方法得到的主成分抽取數(shù)量一致，R-R條件下的共同解為2。本實例研究表明在原始樣本數(shù)據(jù)下，R-R方法所得的解優(yōu)于Kaiser準則；和Scree碎石準則、Velicer準則相比，系統(tǒng)誤差更小。在再抽樣樣本數(shù)據(jù)條件下，和Horn平行檢驗相比，R-R方法所得的解和原始樣本數(shù)據(jù)吻合更好；同時表明在原始樣本條件下，Velicer偏相關檢驗和Cattell碎石準則比Kaiser準則得到的主成分數(shù)量模型泛化和穩(wěn)定，進一步驗證了現(xiàn)有文獻指出的Kaiser法則過多抽取主成分數(shù)量和從樣本數(shù)量，變量數(shù)量，主成分數(shù)量，主成分飽和度等方面考察原始樣本數(shù)據(jù)條件下Velicer偏相關系數(shù)檢驗是最好判別準則的結論。

3 結論

針對當前主成分抽取數(shù)量確定方法中廣泛使用的一些方法所存在的不足，本文提出了一種新的確定方法（R-R法），即通過同時滿足與原始樣本數(shù)據(jù)吻合良好和與再抽樣數(shù)據(jù)吻合良好兩個約束條件來確定主成分抽取數(shù)量，并在SPSS環(huán)境下實現(xiàn)了該方法。

應用該方法于成都一酒店企業(yè)文化調查問卷以確定主成分抽取數(shù)量，結果表明相比特征值大于1、總方差比例、Velicer偏相關檢驗等準則，R-R方法所得結果系統(tǒng)誤差更小、更準確和更泛化；相比Horn平行檢驗，R-R方法與原始樣本數(shù)據(jù)吻合更好；同時表明在原始樣本數(shù)據(jù)條件下Velicer偏相關檢驗和Cattell碎石準則比Kaiser準則得到的主成分數(shù)量模型更準確和泛化，支持了現(xiàn)有文獻關于Kaiser準則過多抽取主成分的結論。

本文提出的R-R方法是對目前特征值大于1等準則的改進，可廣泛應用于主成分分析、因子分析和圖像特征提取等相關研究中。

[1]Franklin,S,Gibson,D,Robertson,P,Pohlmann,J,Fralish,J.Parallel Analysis:A Method forDetermining SignificantComponents[J].Journal of Vegetation Science，1995,6(1).

[2]Jackson D.Stopping Rules in Principal Components Analysis:A Comparison of Heuristical and Statistical Approaches[J].Ecology,1993,74(8).

[3]柯江林,孫鍵敏,石金濤,顧琴軒.企業(yè)R&D團隊之社會資本與團隊效能關系的實證研究[J].管理世界,2007,(3).

[4]Ferré L.Selection of Components in Principal Component Analysis:A Comparison of Methods[J].Computational Statistics and Data Analysis,1995,(6).

[4]Hall,P.Theoretical Comparison of Bootstrap Confidence Intervals[J].The Annals of Statistics,1988,(3).

[6]Fan,X，Wang,L.Comparability of Jackknife and Bootstrap Results:An Investigation for A Case of Canonical Correlation Analysis[J].Journal of Experimental Education,1996,64.

（責任編輯/亦民）

O212；F222

1002－6487（2010）19－0008-03

國家自然科學基金資助項目（70772068）；四川省教育廳重點資助項目（07ZA197）

尹波（1971－），男，江西吉安人，博士，副教授，研究方向：組織文化與計量管理。