李粉紅,劉新平
(1.商洛學院 數(shù)學與計算科學系,陜西 商洛 726000;2.陜西師范大學 數(shù)學與信息科學學院,西安 710062)
分組主成份分析[1]是將主成份分析和因子分析結合的一種方法,它先對樣本做因子分析,然后對各組變量進行主成份分析,只提取第一主成份,僅算各組第一主成份的得分Cj(j=1,2,…,k);再以各組的第一主成份得分 Cj(j=1,2,…,k)為各組得分,以因子旋轉后各因子的方差貢獻率(其中 λl是旋轉后因子的特征值)為權重,建立綜合評價模型進行排序,分類。(為了方便仍用原文中的符號)
在綜合評價中,變異系數(shù)、復相關系數(shù)等一些統(tǒng)計系數(shù)也常用來作為權數(shù)[2],變異系數(shù)反映的是變量之間的變異程度。原始數(shù)據(jù)一般包含兩方面的信息:一是各指標變異程度的差異信息,二是各指標之間相互影響程度上的信息,實際上也就是各指標的變異系數(shù)和相關系數(shù)。而協(xié)方差矩陣能完全刻劃原始數(shù)據(jù)的全部信息,由定義知,其對角線元素即為各指標的方差,非對角元素則包含了各指標間的相關系數(shù)的信息。而通常的主成份分析中對原始數(shù)據(jù)標準化后數(shù)據(jù)的協(xié)方差陣的主對角元素全為1,那么實際上就抹殺了各指標變異程度的差異信息。
主成份分析通常是先將原始數(shù)據(jù)無量綱化,再由其協(xié)方差矩陣或相關系數(shù)矩陣來求主成份。而像其它的無量綱化方法如均值化或比重法等,無量綱化后的數(shù)據(jù)協(xié)方差矩陣的對角線元素都與該變量的變異系數(shù)有關。所以不管是選擇通用的方法是對原始數(shù)據(jù)進行標準化,還是用均值化或比重法等,從協(xié)方差矩陣或相關系數(shù)矩陣來求主成份,則結果中更多反映的是數(shù)據(jù)的相關關系,若加進變異系數(shù),體現(xiàn)出數(shù)據(jù)的變異信息,就能使原始數(shù)據(jù)的全部信息在綜合評價得以體現(xiàn),從而達到對問題全面評價的目的。
在分組主成份分析的基礎之上,將主成份分析作如下改進:
對原始數(shù)據(jù)進行無量綱化,得到數(shù)據(jù)陣X=(xij)n×p,方法選用均值化或其他方法,其余步驟均按照分組主成份分析,在建立綜合評價模型時,選擇將各變量的變異系數(shù)和分組后的方差貢獻率這兩種權數(shù)進行組合,得到綜合評價模型:
其中?k是以分組后各組的方差貢獻率為權數(shù)時各變量Xk的系數(shù),ρk是各變量Xk的變異系數(shù)。
根據(jù)科學性原則和可比性原則,對我國中等職業(yè)教育的發(fā)展情況,選擇以下十個變量作為綜合評價的指標:X1:每萬人口的畢業(yè)生數(shù);X2:每萬人口的招生數(shù);X3:每十萬人口的在校學生數(shù);X4:獲得職業(yè)資格證書占當年畢業(yè)生人數(shù)的比例;X5:每萬人口的職工人數(shù);X6:每萬人口的專任教師;X7:職業(yè)中學教育經(jīng)費支出占地方教育事業(yè)費支出的比例:X8:生均教育經(jīng)費支出占地方教育事業(yè)費支出的比例;X9:生均預算內教育經(jīng)費支出占地方教育事業(yè)費支出的比例:X10:年末購置專用設備金額占本年設備購置費的比例.
指標的原始數(shù)據(jù)取自《中國統(tǒng)計年鑒,2006》和《中國教育經(jīng)費統(tǒng)計年鑒,2005》。
為了加強方法之間的可比性,分別用傳統(tǒng)主成份分析、分組主成份分析和改進后的方法,借助SPSSl2.0[3]及EXCEL軟件,對我國中等職業(yè)教育發(fā)展情況作詳盡的分析(缺少西藏的數(shù)據(jù)),得到如下結果:
表1 特征值及特征向量
表2 分組主成份分析的分組情況
表3 各模型得分及排名
(2)用分組主成份法計算綜合評價值
因子分析后將原指標分成三個組,第三個因子只在X4上有較大載荷,用前面的結果,得到E2,具體值見表3。
建立綜合評價模型為:
(3)用改進方法計算,建立綜合評價模型得到E3(見表3)
從綜合排名情況可以看出,幾種綜合方法在大部分地區(qū)上前后相差不大,而在個別地區(qū)上還是有很大的不同,E2、E3的排名前后有差距,但基本差異不大口浙江按E1排在第1名,按 E2在第 3名,而按 E3在第 7名,青海在 E2、E3中均排在第1位,而若用用第一主成份或衛(wèi)1則位于第30名,從其余省份的排名也可以看出第一主成份或E1排名與E2、E3的排名的差距。這種差異從原始數(shù)據(jù)來看不是模型引起的,因為從原始數(shù)據(jù)來看青海在變量 X8、X9、X1。上的值居于所有省、市之首,尤其在X10上更是超出其他省很多,而在E3中引入了描述變量變異程度的量一變異系數(shù),這幾個奇異值導致了青海的排名靠前,實際上就是沒有引進變異系數(shù)的E2中青海也排在第一位.從此排名可以了解各地區(qū)中等職業(yè)教育的發(fā)展狀況,總體上來看發(fā)達地區(qū)的發(fā)展情況要好,進一步也可以找出各省份存在的問題。
另外,也可根據(jù)綜合評價值按通常方法對各省份分類,不再贅敘。
(1)在用主成份分析做綜合評價時,應堅持理論界的提法,只提取第一主成份,而不能簡單提取多個,以方差貢獻率為權數(shù)加權;
(2)在分組主成份分析基礎上,引進變異系數(shù)建立的綜合評價模型,經(jīng)過實證檢驗,能反映原始數(shù)據(jù)的相關信息和變異信息,證明用該模型作綜合評價更客觀、合理。
(3)對我國31個地區(qū)中等職業(yè)教育的發(fā)展情況進行綜合分析,由綜合得分排名,說明了地域差別對職業(yè)教育的影響,為我國中等職業(yè)教育的健康發(fā)展提供了一定的依據(jù)。
[1]侯文.對應用主成份法進行綜合評價的探討[J].數(shù)理統(tǒng)計與管理,2006,(2).
[2]胡永宏,賀思輝.綜合評價方法[M].北京:科學出版社,2000.
[3]章文波,陳紅艷.實用數(shù)據(jù)統(tǒng)計分析及應用,SPSS12.0[M].北京:人民郵電出版社,2006.