滕達
(吉林工商學院會計分院,吉林 長春 130062)
在現實生活或科學研究過程中,影響某一事物的特征或該事物發(fā)展規(guī)律的因素是多元化的,我們在對這些影響因素對于事物的影響進行研究過程中,該事物的某一特征作為統(tǒng)計學意義上的因變量,而影響因素則作為自變量。為了更加全面的對事物的特征或發(fā)展規(guī)律進行反映,需要綜合與其相關各種影響因素進行評價,即在研究過程中對于影響事物特征或發(fā)展規(guī)律的因素需要更多的引入,對其進行綜合分析和評價。然而,多變量大樣本資料盡管可以對事物特征或發(fā)展規(guī)律提供更加全面的信息,但同時帶來了多重共線性等問題,使得影響因素所反映的信息重復,影響統(tǒng)計結果的真實性和科學性。對此,降維思想成為解決這一問題的有效方式。主成分分析和因子分析方法都是運用降維的思想,將多變量信息歸納為少數幾個相互無關的的綜合變量以反映原來數據的大部分信息。
近年來,主成分分析和因子分析方法作為一種統(tǒng)計分析方法在科學研究中的應用十分廣泛,運用其進行多變量分析的學術文獻越來越多。然而,在實際使用過程中,常常出現一些將兩種方法進行混淆的錯誤,由此產生的統(tǒng)計分析結果在科學性上大打折扣。因子分析方法是主成分分析方法的推廣和發(fā)展,兩種方法之間既存在共同之處,也有著顯著的差別,有必要對兩種方法之間的聯系和區(qū)別進行嚴格區(qū)分,并針對實際問題選擇恰當的分析方法。
主成分分析和因子分析方法都屬于多元統(tǒng)計分析中處理降維的統(tǒng)計方法。在數理統(tǒng)計的基本原理上,兩者都是基于多變量的相關系數矩陣,在確保較少信息缺失的前提下(一般小于或等于15%),用少數幾個不相關綜合變量概括多個變量的信息(多個變量之間存在較強的相關性)。即用少數不相關的綜合變量盡可能全面的反映多個原始變量的信息,消除了原始變量的相關性,可信度得到提高,統(tǒng)計結果可以有效地解釋現實問題。需要注意的是,兩種方法產生的新的變量(因子)不是原始變量篩選后的剩余變量,而是綜合所有變量信息后的新變量。其中,在主成分分析過程中,新變量是原始變量的線性組合,即將多個原始變量經過線性(坐標)變換得到新的變量。在因子分析過程中,新變量則是通過原始變量之間的復雜關系對原始變量進行分解,得到公共因子和特殊因子。其中公共因子是所有原始變量中所共同具有的特征,而特殊因子則是原始變量所特有的部分。兩種方法下得到的主成分變量與因子變量在數量上顯著少于原始變量,起到了降維的作用,也提高了數據有效利用程度。
2.2.1 基本概念不同主成分分析法是將多個指標轉化為少數彼此不相關的綜合指標(即主成分)的統(tǒng)計方法。而因子分析法是主成分分析法的推廣和發(fā)展,它也是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,再根據不同因子還可以對變量進行分類,同時重塑原始變量與因子之間的相互關系。
2.2.2 基本原理不同
主成分分析方法旨在通過方差-協(xié)方差矩陣將多個原始變量通過多次線性變換得到少數幾個主成分(新的變量),這些主成分變量能夠反映原始變量盡可能多的信息(一般大于或者等于85%為通過標準),并且它們之間不相關。從數理上講,主成分分析法是一種矩陣變換的方法,即將給定的變量(原始變量)通過多次線性變換,轉換成一組彼此不相關的變量,在這個過程中,變量的方差之和保持不變,方差最大的作為第一主成分變量,以此類推,得到數量較少的、可以涵蓋大部分原始變量信息幾個主成分,從這個意義上講,主成分分析法是作為因子分析的一種方式。
而因子分析法則是通過原始變量的相關系數矩陣將變量進行分組,分組的原則是將相關性較高的變量置于一組中,但組與組之間的變量相關性較低。這樣各組變量代表一個基本要素(公共因子),所研究的問題可以分解為少數幾個公共因子的線性函數與特殊因子之和。可見,因子分析法下的新變量是對原始變量進行分解得到,而不是原始變量的線性組合。具體而言,就是通過獲取原始變量中可測量的、具有一定相關性的統(tǒng)計指標測定各個因子的狀態(tài)。從該意義上來講,因子分析只能解釋變量的部分變異,而主成分分析法則解釋了所有變異。
2.2.3 數據處理過程不同
在消除量綱和數量級的處理上,主成分分析通常需要對原始數據進行標準化處理,將原始數據轉換成為均值為0、方差為1的標準化數據。而因子分析法對此則要求不高,這是因為因子分析法本身可以通過加權最小二乘法、主成分法等求解因子變量,在這個過程中,因子是原始變量內部分解的結果,與原始變量是否同量綱關系不大。只有通過主成分法確認因子變量時,需要對原始數據進行無量綱化處理。另外一點,主成分分析法下的新變量(主成分)是通過原始變量的多次線性組合后得到的,這個過程本身具有可逆性;而在因子分析法下,因子分析中的載荷矩陣是不可逆的,只能通過可觀測的原變量去估計不可觀測的公共因子。
此外,主成分分析法主要側重于變量的信息貢獻能力,而因子分析法則側重于因子的可解釋性。
2.2.4 統(tǒng)計軟件實現過程不同-以SPSS為例
在利用統(tǒng)計軟件SPSS進行主成分分析時,其基本步驟大致為:(1)對原始數據進行標準化處理;(2)選擇 "分析(Analyze)- 數據提?。―ata Reduction)-成分分析(Factor Analyze)"打開主成分分析對話框,在"數據描述(Descriptives):相關系數矩陣(Correlation Matrix)"框中選系數(Coefficients),"統(tǒng)計(Statistics)"框中選初始解(Initial solution);Step4:"提取(Extraction):方式(Method)"框中選主成分(Principal components);"分析(Analyze)框 "中選相關系數矩陣(Correlation matrix);"顯示(Display)"框中選未經旋轉的因子載荷(Unrotated factor solution);" 提取(Extract)" 框中選特征值(Eigenvalues);Step5:結果顯示在 Output中:提取方差總合計(Total Variance Explained)中主成分的累計貢獻率大于等于85%的主成分個數:"Component Matrix"中第i個主成分的列向量除以相應特征根的平方根后就得到這個主成分的變量系數向量,可以利用"Transform-compute"來實現;Step6:寫出主成分表達式及主成分命名。
在利用統(tǒng)計軟件SPSS進行因子分析時,其基本步驟為:(1)--(4)同主成分分析的實現過程;(5)"旋轉(Rotation):方式(Method)"框中選最大方差法(Varimax),"顯示(Display)"框中選擇旋轉的因子載荷陣(Rotated solution);(6)" 得分(Scores)" 框中變量形式保存(Save as variables),"方法(Method)"框中選中回歸(Regression);(7)結果同樣顯示在 Output中,提取方差總合計(Total Variance Explained)中主成分的累計貢獻率大于等于85%的因子個數,并對各個因子進行命名,并根據因子得分函數對因變量進行排序。
目前,主成分分析法和因子分析法在科學研究中應用十分廣泛,在處理多變量、大樣本的統(tǒng)計問題上優(yōu)勢十分明顯。因此,廣受學術界學者們的青睞。但是,在現實中,因為兩種方法之間存在著諸多內在的聯系,不少學者在運用這兩種方法解決問題過程中常常出現混淆使用的現象,統(tǒng)計軟件輸出的結果也很難解釋,科學性和可信性大打折扣。因此,明確兩種方法之間的聯系和區(qū)別,正確、恰當的使用這兩種方法,對于學術研究十分關鍵。本文正基于此,探討了兩種方法之間的聯系和區(qū)別,以期拋磚引玉。
[1]魏艷華,王丙參,田玉柱.主成分分析與因子分析的比較研究,天水師范學院學報,2009年第3期.
[2]景慧麗.主成分分析和因子分析比較.商業(yè)文化.2008年第8期.
[3]馬娟,楊益民.主成分分析與因子分析之比較及實證分析.市場研究,2007年第3期.