李俊揚林海明
(1.貴州師范大學 數學與計算機科學學院,貴陽 550001;2.廣東商學院a.經濟貿易與統(tǒng)計學院;b.國民經濟研究中心,廣州 510320;3.廣東省電子商務市場應用技術重點實驗室,廣州 510320)
對于多元統(tǒng)計問題的解決,計算出有關模型的結果是一方面,同時能通過計算結果、原始數據進行數據分析,盡可能地解決實際問題同樣是重要的。以下給出初始因子、旋轉后因子較系統(tǒng)的應用步驟和實例。關于變量的總體相關陣通常是不知道的,通常用變量的樣本相關陣替代。
因子分析模型L及其解和優(yōu)良性,數學符號見文獻[1]。
初始因子應用于綜合評價的步驟。
⑴指標的正向化(單獨計算)[2],標準化;
⑵求變量的樣本相關陣∑及其特征值λi,主成分法下的初始因子載荷陣L0,旋轉后因子載荷陣LΓ;
⑶LΓ(要計算出多個 LΓ)與 L0比較,用因子載荷絕對值 0、1兩極分化頻數對比表判斷(見表4),如果L0中行元素絕對值足夠向0、1兩極分化,用初始因子進行分析[3],繼續(xù)[原始變量之間相關度很低或無關時,直接進行逐個指標分析,用∑i=1pXi作綜合分析(Xi是正向化、標準化的)是適合的]。
⑷確定初始因子個數m:用L0和因子與變量顯著相關的臨界值判斷,若因子與某些變量顯著相關,則選入該因子[3],因子個數m、因子方差累計貢獻率隨之確定;
⑸初始因子fi0的命名及其正向化:由L0的第i列l(wèi)i0,將與fi0顯著相關的變量歸為fi0一類,由這些變量的意義對因子fi0進行命名(注意有些變量,可能與兩個因子顯著相關,命名中、分析中也要同時考慮好這些變量的聯系性影響)。正向化[3]:如果這類變量與fi0的相關系數表明該類變量的意義是正向的,fi0不變符號;如果意義是反向的,fi0、li0同時乘上負號;
⑹計算寫出初始因子 F0=(λ1-1/2a1'X,…,λm-1/2am'X)'(用 L0回歸的因子得分);
⑺因為因子不相關,綜合起來可反映樣品的因子累加綜合狀況(不是反映多變量信息最大化時的樣品值狀況),以初始因子方差貢獻率λi/p為權數得綜合初始因子
⑻計算給出m個初始因子樣品值矩陣Hm0、綜合初始因子樣品值并排序;
⑼用m個初始因子樣品值做聚類分析,按綜合初始因子樣品值排名順序給出樣品分類結果;[2]
⑽結合樣品的分類結果,綜合初始因子、初始因子樣品值和排序,原始數據,原始變量的意義,進行優(yōu)勢、劣勢、潛力狀況和影響因素等的綜合評價,給出較客觀、可靠的決策相關性建議。
SPSS軟件初始因子有關結果計算過程:原始數據的正向化數據輸入或拷貝到數據窗口中,選擇Analyze→Date Reduction→Factor→變量框中選入正向化的數據→Descriptives 選擇 Initial solution,Coeffi-cients,Continue→Extraction 選擇 Principal Component,Correlation matrix(數據標準化被 執(zhí) 行 ),Numberoffactor:m,Unrotated factorsolution,Screen Plot(碎石圖),Continue→Rotation 選擇 None,Continue→Scores選擇 Save as Variables,Regression,Display factor score coefficient matrix,Continue→OK。
表1 原始數據正向化數據
計算結果有:樣本相關系數陣R、R的特征值、初始因子載荷陣、初始因子的標準化變量系數陣、初始因子的樣品值數據等,數據窗口中的fac1-1,…,facm-1為初始因子f10,…,fm0的樣品值(注意Extraction選擇Principal Component)。
旋轉后因子載荷陣的計算要用下述1.2中SPSS軟件旋轉后因子有關結果計算過程。
例1.1[4]:2001年廣東卷煙工業(yè)企業(yè)廣州卷煙一廠、廣州卷煙二廠、韶關卷煙廠、南雄卷煙廠、梅州卷煙廠、南海卷煙廠、湛江卷煙廠和廉江卷煙廠(n=8)的經濟效益變量為:x1-總資產貢獻率、x2-資本保值增值率、x3-資產負債率、x4-流動資產周轉率、x5-成本費用利潤率、x6-全員勞動生產率、x7-產品銷售率(p=7),數據見表1。對這些企業(yè)作經濟效益綜合評價。
⑴正向化數據為表1(x3正向化公式為:-x3。中性指標x7正向化公式為:
Ej為公認最好的中性值,這里Ej=1,其余是正向的;或②[|(xij/Ej)-1|+1]-1。表1 x7的正向化用公式①)。
⑵啟用SPSS11.0軟件因子分析過程進行因子分析,輸入例1正向化表1的數據,得特征值表2,相關陣特征值碎石圖圖1,初始因子載荷陣L0、旋轉后因子載荷陣LΓ表3。
⑶表3的L0、LΓ比較得表4,即L0每列系數絕對值較往0、1兩極分化,故使用初始因子。
⑷前2個初始因子設為f10,f20,變量正態(tài)分布下,取顯著水平為5%,顯著相關的臨界值是r(6)=0.707[8],由L0和顯著相關的臨界值r(6)判斷,因子f10,f20與變量顯著相關;其它初始因子與變量沒有顯著相關,故因子個數m=2,此時累計貢獻率為93.56%。
⑸因子的命名與正向化:初始因子設為 f10,f20,根據表3的L0,因子f10與x1-總資產貢獻率、x2-資本保值增值率、x3-資產負債率、x4-流動資產周轉率、x5-成本費用利潤率、x6-全員勞動生產率顯著正相關,故稱f10為內部效益因子;因子f20與x7-產品銷售率顯著正相關,故稱f20為外向效益因子。f10與f20為正向的。
表2 相關陣特征值
表3 因子載荷陣
表4 因子載荷絕對值0、1兩極分化頻數對比表
⑹從初始因子得分系數得因子(Xi是xi的正向化、標準化變量):
⑺以初始因子貢獻率為權數構造綜合因子函數:
70.193),X4-流動資產周轉率(0.17)、X3(正向化)-融資率(0.155)、X1-總資產貢獻率(0.129)的有效性,拉動的是X2-資本保值增值率(0.118)、X6-全員勞動生產率(0.093)、X5-成本費用利潤率(0.038)。
⑻計算各企業(yè)因子值、綜合因子值及排名見表5。
⑼將表5中無相關性的數據f10、f20作系統(tǒng)聚類分析,用歐氏距離、類平均法,按綜合初始因子值相應順序企業(yè)分為如下四類。
第一類:廣州卷煙二廠;
第二類:廣州卷煙一廠、韶關卷煙廠、南海卷煙廠;
第三類:梅州卷煙廠、湛江卷煙廠;
第四類:南雄卷煙廠、廉江卷煙廠。
⑽現結合聚類分析結果、表5、初始因子得分系數、表1進行第一類、第三類(其余類似)綜合實證,提出建議。評價中注意初始因子得分系數:x5-成本費用利潤率既對內部效益因子f10是好影響(系數為0.155),又對外向效益因子f20有較大的負影響(系數為-0.47)。
表5 初始因子、綜合初始因子值及排名
表6 因子方差貢獻
建議:廣州卷煙二廠應繼續(xù)保持發(fā)揮x1-總資產貢獻率、x2-資本保值增值率、x3-資產負債率、x4-流動資產周轉率、x5-成本費用利潤率、x6-全員勞動生產率(內部效益因子)已有優(yōu)勢的條件下,加強銷售力度,提高x7-產品銷售率(外向效益因子),定能進一步提高綜合效益,增強競爭力。
建議:梅州卷煙廠、湛江卷煙廠應明確已有差距、挖掘內部管理與產品質量潛力,在既抓好自身已有立足的前提下,向省內外卷煙企業(yè)優(yōu)點學習,提高綜合經濟效益。
表7 上市公司贏利能力指標數據[9]
旋轉后因子分析的綜合評價步驟。
⑴指標的正向化 (單獨計算)[2], 標準化;
⑵求變量的樣本相關陣∑及其特征值λi,主成分法下初始因子載荷陣L0,旋轉后因子載荷陣 LΓ(要計算出多個 LΓ),旋轉后方差貢獻 qiΓ;
表8 因子載荷陣
表9 因子載荷絕對值0、1兩極分化頻數對比表
⑶LΓ(要計算出多個 LΓ)與 L0比較,用因子載荷絕對值 0、1兩極分化頻數對比表判斷(見表9),如果LΓ中行元素絕對值足夠向 0、1 兩極分化,用旋轉后因子 FΓ=(f1Γ,…,fmΓ)'進行分析[3],繼續(xù)[原始變量之間相關度很低或無關時,直接進行逐個指標分析,用∑i=1pXi作綜合分析 (Xi是標準化的)是適合的];
⑷確定旋轉后因子個數m、因子方差累計貢獻率:用LΓ和兩變量顯著相關的臨界值判斷,若因子與某些變量顯著相關,則選入該因子[3],因子個數m、因子方差累計貢獻率隨之確定;
⑸旋轉后因子fiΓ的命名及其正向化:由LΓ的第i列fiΓ,將與fiΓ顯著相關的變量歸為fiΓ一類,由這些變量的意義對因子fiΓ進行命名(注意有些變量,可能與兩個因子顯著相關,命名中、分析中也要同時考慮好這些變量的聯系性影響)。正向化[3]:如果這類變量與fiΓ的相關系數表明該類變量的意義是正向的,fiΓ不變符號;如果意義是反向的,fiΓ、liΓ同時乘上負號;
⑹計算寫出旋轉后因子 FΓ=Γ'(λ1-1/2a1'X,…,λm-1/2am'X)'(用LΓ回歸的因子得分);
⑺因為因子不相關,綜合起來可反映樣品的因子累加綜合狀況(不是反映多變量信息最大化時的樣品值狀況),以旋轉后因子方差貢獻率qiΓ/p為權數得旋轉后綜合因子
⑻計算給出m個旋轉后因子樣品值矩陣HmΓ、旋轉后綜合因子樣品值并排序;
⑼用m個旋轉后因子樣品值做聚類分析,按旋轉后綜合因子樣品值排名順序給出樣品分類結果;[4]
⑽結合樣品的分類結果,旋轉后綜合因子、其樣品值和排序,原始數據,原始變量的意義,進行優(yōu)勢、劣勢、潛力狀況和影響因素等的綜合評價,給出客觀、可靠的決策相關性建議。
SPSS軟件旋轉后因子有關結果計算過程:原始數據的正向化數據輸入或拷貝到數據窗口中,選擇Analyze→Date Reduction→Factor→變量框中選入正向化的數據→Descriptives 選擇 Initial solution,Coeffi-cients,Continue→Extraction選擇 Principal Component,Correlation matrix(數據標準化被執(zhí)行),Number of factor:m,Unrotated factor solution,Screen Plot(碎石圖),Continue→Rotation 選擇 Varimax,Rotated solution,Continue→Scores 選 擇 Save as Variables,Regression,Display factor score coefficient matrix,Continue→OK。計算結果有:樣本相關系數陣R、R的特征值、旋轉后因子的方差貢獻、初始因子載荷陣、旋轉后因子載荷陣、旋轉后因子的標準化變量系數陣、旋轉后因子的樣品值數據等,數據窗口中的fac1-1,…,facm-1 為旋轉后因子 f1Γ,…,fmΓ的樣品值(注意 Extraction選擇 Principal Component)。
例1.2 上市公司贏利能力的綜合評價,指標體系選為:x1-銷售凈利率、x2-資產凈利率、x3-凈資產收益率、x4-銷售毛利率,上市公司為青島海爾、貴州茅臺、五糧液等16家公司。數據見表6。
⑴表6數據全部是正向的;
⑵調用SPSS軟件因子分析主成分法下的過程命令,輸入表6的數據,計算,經過挑選,m=3時,得初始因子、旋轉后因子方差貢獻表7,相關陣特征值碎石圖圖2,初始因子載荷陣L0、旋轉后因子載荷陣 LΓ表8;
⑶由表8得表9,即旋轉后因子載荷陣LΓ中行元素絕對值足夠向0或1兩極分化,故用旋轉后因子解;
⑷前 3 個旋轉后設為 f1Γ、f2Γ、f3Γ,變量正態(tài)分布下,取顯著水平為5%,顯著相關的臨界值是r(14)=0.5[5],由LΓ和顯著相關的臨界值 r(14)判斷,因子 f1Γ、f2Γ、f3Γ與變量顯著相關;其它因子與變量沒有顯著相關,故因子個數m=3,前三個因子解釋X的信息(累計方差貢獻率)為96%達到最大,誤差因子解釋變量X的信息為4%達到最小,結論可靠。
⑸因子命名與正向化:由LΓ和顯著相關的臨界值r(14)判斷,f1Γ與x2-資產凈利率、x3-凈資產收益率顯著正相關,因子f1Γ稱為資產贏利因子;f2Γ與x1-銷售凈利率顯著正相關,因子f2Γ稱為銷售凈利率因子;f3Γ與x4-銷售毛利率顯著負相關, 因子 f3Γ稱為銷售毛利率因子。 因子 f1Γ、f2Γ、f3Γ是正向化的;
⑹用L?;貧w的因子得分函數(Xi是正向化、標準化的變量):
表10 旋轉后因子、綜合因子樣品值
⑺以旋轉后方差貢獻率qiΓ/p為權數構造綜合因子:
2X1-銷售凈利率(0.1852),拉動的是X4-銷售毛利率(0.1744)、X3-凈資產收益率(0.172)。
⑻旋轉后因子得分、綜合因子樣品值及排序見表10。
⑼調用SPSS軟件的聚類分析類平均法過程命令,選用歐氏距離,通過旋轉后因子得分 f1Γ、f2Γ、f3Γ的樣品值對樣品進行聚類。分成4類,結合綜合因子得分樣品值排名順序給出相應共性分類結果如下:
第一類:煙臺萬華,五糧液,雅戈爾,紅星發(fā)展;
第二類:貴州茅臺,青島海爾,用友軟件;
第三類:太太藥業(yè),歌華有線,紅河光明;
第四類:浙江陽光,伊利股份,方正科技,方正科技,中鐵二局,福建南紙,湖北宜化;
⑽結合前3個旋轉后因子得分樣品值的聚類分析結果,因子得分、綜合因子得分樣品值和排序,因子得分、綜合因子得分函數,原始數據,原始變量名稱的意義,進行優(yōu)勢、劣勢和影響因素等的綜合評價,給出客觀、可靠的決策相關性建議。
第一類的煙臺萬華、五糧液、雅戈爾、紅星發(fā)展,綜合因子得分值依次排第 1、2、3、4,全部高于平均水平。 其資產贏利因子f1Γ值依次排1、2、3、4,全部高于平均水平,優(yōu)勢明顯。 銷售凈利率因子f2Γ值依次排5、7、6、4,全部高于平均水平,優(yōu)勢中上。 銷售毛利率因子 f3Γ值依次排 8、7、10、6,其中紅星發(fā)展、五糧液靠近平均水平,煙臺萬華、雅戈爾低于平均水平。即該類企業(yè)是綜合贏利能力很強的企業(yè),其中資產贏利能力尤其明顯,銷售凈利率略高于平均水平,銷售毛利率在平均水平附近的狀況。建議:該類企業(yè)在繼續(xù)保持資產贏利因子f1Γ中x2-資產凈利率、x3-凈資產收益率明顯優(yōu)勢的情況下,銷售凈利率因子f2Γ中,應提高產品質量和管理水平,降低成本,進一步提高銷售凈利率的贏利能力;銷售毛利率因子f3Γ中,銷售毛利率提高的潛力較大,應向好的企業(yè)學習,改變銷售毛利率贏利能力較差的狀況。
第二~四類企業(yè)的綜合評價、建議方法與第一類企業(yè)類似,此略。
以上1.1和1.2的分析及結論,找到了研究對象的共性、優(yōu)勢、不足、差距狀況和原因等,用具有可控性的原始指標給出了可靠的決策相關性建議,驗證了本文方法的有效性,且因子分析法的應用趨向深入。
請見文獻[6](2004)例6.1。
⑴指標需要進行正向化、標準化,以便進行指標的相對比較。
⑵因子的明確:計算出多個旋轉后因子載荷陣LΓ與初始因子載荷陣L0比較,用因子載荷絕對值0、1兩極分化頻數對比表判斷,確定旋轉后因子、初始因子哪個與變量相關性較高。
⑶確定因子個數m:用因子載荷陣和兩變量顯著相關的臨界值判斷,若因子與某些變量顯著相關,則選入該因子,因子個數m、因子方差累計貢獻率隨之確定,這樣不至于丟掉原始變量(初始因子個數、旋轉后因子個數確定有時是不同的,如例1.2。設相關陣特征值碎石圖拐點處的序號為k,旋轉后因子個數m建議在k-1、k、k+1中挑選)。
⑷因子fi的正向化:由因子載荷陣的第i列l(wèi)i,將與因子fi顯著相關的變量歸為fi一類,如果這類變量與fi的相關系數表明該類變量的意義是正向的,fi不變符號;如果意義是反向的,fi、li同時乘上負號。這是因子進行綜合的前提。
⑸使用旋轉后因子時,因為旋轉后因子方差貢獻已發(fā)生改變,故旋轉后綜合因子以旋轉后因子方差貢獻率為qiΓ/p權數,即這樣能保持方法的一致性。
⑹用前m個因子樣品值做聚類分析,按旋轉后綜合因子樣品值排名順序給出樣品分類結果,這樣既有樣品類的結果,又有樣品序的結果。
⑺結合樣品的分類結果,綜合因子、因子樣品值和排序,原始數據,原始變量的意義,進行優(yōu)勢、劣勢、潛力狀況和影響因素等的綜合評價,盡可能給出客觀、可靠的決策相關性建議。
[1]林海明.因子分析教學內容的改進—因子分析模型L的教學內容[J].統(tǒng)計與決策,2009,(23).
[2]林海明.對主成分分析法運用中十個問題的解析[J].統(tǒng)計與決策(理論版),2007,(8).
[3]林海明.因子分析模型的改進與應用[J].數理統(tǒng)計與管理,2009,(6).
[4]張堯庭,方開泰著.多元統(tǒng)計分析引論[M].北京:科學出版社,1982.
[5]峁詩松等編著.概率論與數理統(tǒng)計[M].北京:中國統(tǒng)計出版社,2000.
[6]何曉群編著.多元統(tǒng)計分析[M].北京:中國人民大學出版社,2004.