郭 兵 ,胡偉芳,余江瓊
(1. 湖南城市學(xué)院 理學(xué)院,湖南 益陽 413000;2. 吉首大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,湖南 吉首 416000)
在對數(shù)據(jù)進(jìn)行綜合評價的過程中,常常會涉及大量的初始數(shù)據(jù)變量.然而,這些數(shù)據(jù)變量之間可能存在一定的相關(guān)性,這會影響到主成分的提取及相應(yīng)的評價效果,因而需要對初始數(shù)據(jù)變量進(jìn)行篩選,即從中選取部分初始變量來進(jìn)行分析.王惠文等[1]基于Gram-Schmidt 變換提出了基于主基底分析的變量篩選方法,并將篩選出來的變量集合進(jìn)行分析.郭麗娟等[2]將主基底分析方法應(yīng)用到具有二級指標(biāo)體系的變量篩選中,并對區(qū)域創(chuàng)新能力進(jìn)行評價.為了防止在變量篩選過程中一些重要變量被遺漏掉,儀彬等[3]提出了基于主基底分析的兩階段變量篩選方法.通過Gram-Schmidt 變換,Liu 等[4]將泛函變量選取應(yīng)用于多元泛函線性回歸.袁煒楠等[5]將主基底分析方法用于水稻冠層葉片葉綠素含量的估算.
本研究對基于主基底分析的兩階段變量篩選方法進(jìn)行了改進(jìn),并在此基礎(chǔ)上進(jìn)行主成分分析,最后結(jié)合實際案例進(jìn)行綜合評價,探尋該方法的評價效果.
給定1 組數(shù)據(jù)變量,通過Gram-Schmidt 變換來構(gòu)造該數(shù)據(jù)變量空間的1 組正交基底,將正交基底中的每個變量稱為G-S 變量.在構(gòu)造G-S 變量過程中,每個G-S 變量均與初始變量中某個變量存在著對應(yīng)關(guān)系,此時與正交基底相對應(yīng)的初始變量集合就被稱為篩選變量集.本文將介紹該變量篩選方法的相關(guān)定義及變量篩選準(zhǔn)則[1,6].
最后,考慮最小值問題
不妨有
通過基于最大方差法的主基底分析變量篩選法和改進(jìn)的主基底分析變量篩選法,對具有二級指標(biāo)體系的變量進(jìn)行兩階段變量篩選.首先,從每個一級指標(biāo)中選取部分重要的二級指標(biāo);其次,將篩選出來的這些二級指標(biāo)組成1 個新的指標(biāo)集合,并進(jìn)行第2 次變量篩選;最后,在此基礎(chǔ)上進(jìn)行主成分分析,給出相應(yīng)的綜合評價.
儀彬等[3]基于主基底變量篩選和主成分分析,對我國 2010 年區(qū)域創(chuàng)新能力進(jìn)行了評價.本研究將對《中國區(qū)域創(chuàng)新監(jiān)測數(shù)據(jù)2013》[7]進(jìn)行分析,從中獲取2012 年全國各省、自治區(qū)(不包括港、澳、臺)、直轄市反映創(chuàng)新活動特征的數(shù)據(jù),包含5 個一級指標(biāo)和52 個二級指標(biāo) x1, x2, …,x52,具體內(nèi)容如表1 所示.
首先,基于最大方差法對每個一級指標(biāo)中的二級指標(biāo)變量選取其最大線性無關(guān)組;其次,基于改進(jìn)的主基底變量篩選方法,選取每個一級指標(biāo)中合適的初始變量.
3.2.1 基于最大方差法選取最大線性無關(guān)組
按照1.2 節(jié)中的步驟1)~7),對每個一級指標(biāo)中的二級指標(biāo)變量集合選取1 個極大線性無關(guān)組,并按照其方差的大小排序,如表2 所示.
3.2.2 基于改進(jìn)的主基底變量篩選
通過改進(jìn)的主基底變量篩選方法,對每個一級指標(biāo)的極大線性無關(guān)組進(jìn)行重新排序,所得結(jié)果如表3 所示.
首先,基于最大方差法的主基底變量篩選從表2 的每個一級指標(biāo)中選取前2 個初始變量,來構(gòu)成新的變量集合
其次,基于改進(jìn)的主基底變量篩選從表3 的每個一級指標(biāo)中選取前2 個初始變量,來構(gòu)成新的變量集合{x5, x2, x8, x9, x20, x27, x30, x36, x43,x51};
表1 區(qū)域創(chuàng)新能力監(jiān)測指標(biāo)體系
表2 基于最大方差法的主基底變量篩選
表3 改進(jìn)的主基底變量篩選
1)通過篩選所得到的 8 個初始變量為{x8, x29, x19, x13, x47, x2, x43,x5},計算出其相關(guān)矩陣和前4 個主成分對應(yīng)的特征值與貢獻(xiàn)率,具體結(jié)果如表4 所示.
顯然,基于前4 主成分的累積貢獻(xiàn)率已達(dá)到82.378 8%.因此,繼續(xù)以這4 個主成分的貢獻(xiàn)率為權(quán)重,構(gòu)建主成分分析評價模型,所得31 個地區(qū)的綜合評價得分及排名如表5 所示.
表4 前4 個主成分的特征值與貢獻(xiàn)率
表5 31 個地區(qū)(不含港澳臺)的綜合得分
由表5 可知,廣東、上海、江蘇、浙江、天津、北京、福建和重慶位列前8 位,北京只排在第6 位,廣西、貴州、海南和山西的排名在湖南、湖北和四川的前面,這和實際情況不太符合.
2)通過篩選所得到的 8 個初始變量為x8, x43, x9, x51, x5, x2, x20,x36,計算其相關(guān)矩陣和前4個主成分對應(yīng)的特征值與貢獻(xiàn)率,如表6 所示.
表6 中,基于前4 主成分的累積貢獻(xiàn)率已達(dá)到88.804 3%,因此以這4 個主成分的貢獻(xiàn)率為權(quán)重,構(gòu)建主成分分析評價模型,得到這31 個地區(qū)的綜合評價得分及排名,如表7 所示.
由表7 可知,在區(qū)域創(chuàng)新能力方面,上海、廣東、北京、天津、江蘇、浙江、福建和山東位列前8 名,明顯優(yōu)于其他地區(qū);山西和寧夏表現(xiàn)比較突出;作為人口大省的河南,在該模型的評價中,排名比較靠后.對比表5 和表7 發(fā)現(xiàn),表7 的綜合得分排名更為合理.
表6 前4 個主成分的特征值與貢獻(xiàn)率
表7 31 個地區(qū)(不含港澳臺)的綜合得分
利用主成分分析法對大量數(shù)據(jù)進(jìn)行綜合評價時,為了降低數(shù)據(jù)變量間的冗余信息量,需要對初始變量進(jìn)行篩選.基于 Gram-Schmidt 變換的主基底分析兩階段變量篩選方法,能夠有效地對多級指標(biāo)體系的初始變量進(jìn)行篩選;對全國 31個地區(qū)(不包括港澳臺)的2012 年創(chuàng)新監(jiān)測數(shù)據(jù)進(jìn)行綜合評價,得到了一個合理的綜合得分排名.