范圣崗 奚書靜
摘 要: 存在多個(gè)指標(biāo)的多元線性回歸模型容易發(fā)生多重共線性問題,利用手動(dòng)剔除法、逐步回歸法、主成分回歸法解決此問題,并構(gòu)造人口遷移對(duì)教育資源沖擊測定模型對(duì)比三者差異。輸出結(jié)果顯示手動(dòng)剔除法與逐步回歸法剔除無效指標(biāo)后對(duì)模型的預(yù)測更具真實(shí)性,而主成分回歸法雖保留了各項(xiàng)指標(biāo),但其結(jié)果可能是偏離現(xiàn)實(shí)的。
關(guān)鍵詞: 多重共線性;手動(dòng)剔除法;逐步回歸法;主成分回歸法
1 教育資源指標(biāo)的選定與多元線性回歸方程
1.1 教育資源沖擊問題簡介與指標(biāo)選取
人口大量向城鎮(zhèn)進(jìn)行遷移必然會(huì)給當(dāng)?shù)氐慕逃Y源帶來巨大沖擊,當(dāng)發(fā)生教育資源失衡時(shí),可能導(dǎo)致教師負(fù)擔(dān)加重和教學(xué)場地供應(yīng)不足,最終地區(qū)的教育持續(xù)惡性發(fā)展。表1給出我國某縣教育資源的相關(guān)數(shù)據(jù),指標(biāo)“師生比”開始從左至右依次設(shè)為x1,x2,…,x6,Y。
1.2 多元線性回歸模型與共線性問題
多元回歸模型Y? ^ -β0+β1x1+β2x2+…+βnxn+ε利用最小二乘法(minQ=min∑ m j=1 [Yj-(β0+∑ n i=1 βixij)]2)得的參數(shù)是真實(shí)值的無偏估計(jì)。對(duì)數(shù)據(jù)輸出得到方程:
Y? ^ =-0.015+0.545x1+0.008x2+0.034x3-0.002x4-0.005x5+0.104x6
輸出結(jié)果顯示人均教學(xué)面積與人均圖書冊(cè)數(shù)對(duì)Y成反比,即學(xué)生的人均擁有圖書越多則學(xué)生成績?cè)讲?,這與基本邏輯不符。利用模型輸出方差膨脹系數(shù)VIFi= 1 1-R2i 判斷出多個(gè)指標(biāo)存在多重共線性問題(VIF≥10),出現(xiàn)此原因可能是選取的指標(biāo)存在著高度相關(guān)關(guān)系。
2 共線性問題的改進(jìn)與比對(duì)
2.1 手動(dòng)剔除變量
對(duì)兩個(gè)VIF值偏大的指標(biāo)x5,x6進(jìn)行剔除,得到多元回歸方程:
Y? ^ =-0.035+0.932x1-0.009x2+0.032x3+0.003x4
在手動(dòng)剔除了VIF值偏大的指標(biāo)后,剩余四個(gè)變量做多元回歸擬合后的VIF值均呈現(xiàn)下降趨勢(shì):VIF1=4.616,VIF2=5414,VIF3=9.884,VIF4=16.292,并且此模型的統(tǒng)計(jì)量p=000,R2=0.959表明方程有較好的顯著性及對(duì)模型很好的解釋性。根據(jù)x4的VIF值,進(jìn)一步剔除x4得多元回歸模型:Y? ^ =-0039+1.009x1+0.012x2+0.033x3,各系數(shù)均與正常邏輯相符。
2.2 逐步回歸法
逐步回歸中的前進(jìn)法:對(duì)各指標(biāo)與Y? ^ 的一元回歸系數(shù)并進(jìn)行F檢驗(yàn),記F值的集合為 F(1)1,F(xiàn)(1)2,…,F(xiàn)(1)m ,則F(1)max=max F(1)1,F(xiàn)(1)2,…,F(xiàn)(1)m ,若F(1)max大于給定顯著性水平α下F分布的分位數(shù)Fα(1,n-2),則將F(1)max對(duì)應(yīng)指標(biāo)xiγ作為最終回歸指標(biāo)之一,再將xiγ與其他指標(biāo)兩兩組合對(duì)Y? ^ 做二元回歸方程,并記各二元回歸方程對(duì)應(yīng)F值集合 F(2)1,F(xiàn)(2)2,…,F(xiàn)(2)m-1 的最大值為F(2)max,若F(2)max≤Fα(1,n-3)則停止篩選,選對(duì)應(yīng)的回歸方程為最終結(jié)果,若F(2)max>Fα(1,n-3),再選入下一個(gè)指標(biāo)配對(duì)并做關(guān)于Y? ^ 做三元回歸方程,重復(fù)上述步驟。
利用SPSS軟件進(jìn)行逐步回歸得到最佳的多元回歸方程:Y? ^ =-0.039+1.011x1+0.033x3,逐步回歸的結(jié)果顯示學(xué)生的成績主要與師生比例、教育投入有關(guān)。
2.3 主成分回歸法
主成分回歸法將相關(guān)性強(qiáng)的一組指標(biāo)x1,x2,…xn通過替換Z=AX生成一組滿足協(xié)方差Cov(Zi,Zj)=0(i≠j)的綜合指標(biāo)Z1,Z2,…Zm,其中Z=(Z1,Z2,…Zm)T,A=(αi,j)m×n,X=(α1,α2,…,αn)T。通過指標(biāo)的協(xié)方差矩陣的特征值大小順序確定主成分Z1,Z2,…Zm,使其累計(jì)貢獻(xiàn)率∑ m j=1 γj/∑ m i=1 γi≥0.8。主成分進(jìn)行多元回歸有Y? ^ =μ0+μ1Z1+μ2Z2+…+μnZn+ε,再結(jié)合各指標(biāo)在主成分上的載荷系數(shù)得到最終結(jié)果。由于各指標(biāo)呈高度相關(guān)性,此處較為特殊的是僅提取一個(gè)累計(jì)貢獻(xiàn)率為86.70%的主成分Z,下表為各指標(biāo)對(duì)Z的載荷系數(shù):
給出Z與Y的回歸方程Y? ^ =0.064+0.011Z,再代入上表中的載荷系數(shù)得Y? ^ =0.064+0.009735x1+0.00979x2+0.010318x3+0.010824x4+0.010153x5+0.010604x6。主成分回歸雖然保留了六個(gè)指標(biāo),但是明顯的缺陷是Y? ^ 的下限為0.064。
3 人口遷移對(duì)教育資源沖擊測定
設(shè)X1,X2,…,X6分別為地區(qū)原有教師數(shù)、高級(jí)教師數(shù)、教育經(jīng)費(fèi)投入(千元)、教學(xué)面積、圖書數(shù)、設(shè)備數(shù),原有學(xué)生數(shù)為Q0,則xi= Xi Q (i≠2),x2= X2 X1 ,學(xué)生增加ΔQ后有Q1=Q0+ΔQ,則人口遷移的沖擊率為 |Y? ^ Q-Y? ^ Q1| Y? ^ Q 。
例:某地區(qū)原有學(xué)生數(shù)為Q0=2000人,X1=100,X2=5,X3=2500,X4=1000,X5=2500,X6=300,學(xué)生增加量為ΔQ=500,對(duì)沖擊率測定:
4 結(jié)語
通過測定發(fā)現(xiàn)手動(dòng)剔除法與逐步回歸法有著一定的相似性,而主成分回歸法與其他兩方法差異較大。其主要原因是主成分回歸法雖然保留了各項(xiàng)指標(biāo),但對(duì)各項(xiàng)指標(biāo)賦予的系數(shù)較小,導(dǎo)致結(jié)果對(duì)于各項(xiàng)指標(biāo)不敏感。在改進(jìn)多重共線性問題時(shí),若主成分回歸法賦予常數(shù)項(xiàng)系數(shù)過大時(shí),應(yīng)該考慮慎用此方法。
參考文獻(xiàn):
[1]蔡素麗.多元線性回歸模型應(yīng)用實(shí)證分析[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2017,17(04):5-8.
[2]魏紅燕.回歸分析中多重共線性的診斷與處理[J].周口師范學(xué)院學(xué)報(bào),2019,36(02):11-15.
項(xiàng)目: 大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃:201910602262
作者簡介: 范圣崗(1998—),男,漢族,廣西柳州人,本科,研究方向:生物數(shù)學(xué)、應(yīng)用概率統(tǒng)計(jì)。