胡 完 孫巖松 胡良平△
數(shù)據(jù)存在共線性時采用主成分回歸分析與投影尋蹤回歸分析的效果比較*
胡 完1孫巖松2△胡良平1△
目的 比較主成分回歸分析與投影尋蹤回歸分析在數(shù)據(jù)存在共線性時效果之差別。方法 利用實際數(shù)據(jù)從擬合效果和預測效果兩方面評價兩種建模方法的優(yōu)劣。結果 主成分回歸模型的決定系數(shù)為0.8172,相對誤差絕對值的平均值為6.42%,預測誤差的均方為0.61;投影尋蹤回歸分析各模型的決定系數(shù)為0.8851~0.9944,相對誤差絕對值的平均值為1.11%~4.81%,預測誤差的均方為0.03~0.38。結論 本實例數(shù)據(jù)(存在一定共線性)分析結果表明,投影尋蹤回歸分析的擬合效果與預測效果均優(yōu)于主成分回歸分析。
主成分回歸分析 投影尋蹤回歸分析 共線性 擬合效果 預測效果
在進行回歸分析時,經(jīng)常會遇到自變量間存在共線性的問題。當自變量間存在共線性時,可能使回歸系數(shù)的估計變得不穩(wěn)定,從而不能判斷各自變量對因變量的影響程度,甚至會使回歸系數(shù)的正負號與其代表的變量在專業(yè)上的含義不吻合[1]。主成分回歸分析是解決多重線性回歸分析中數(shù)據(jù)存在共線性時的方法之一。主成分回歸分析的原理是:將原來具有共線性的自變量X1,X2,…,Xp,通過計算相關系數(shù)矩陣R的特征根及對應的特征向量,找到相應的p個主成分變量Z1,Z2,…,Zp,然后再利用多重線性回歸分析方法,研究因變量與主成分變量之間的關系,最后再將主成分變量還原為原自變量即可得到因變量對原自變量的回歸模型。
1.投影尋蹤回歸方法簡介
在實際科研中,高維數(shù)據(jù)的統(tǒng)計分析越來越普遍,數(shù)據(jù)高維時出現(xiàn)了計算量大、容易出現(xiàn)“維數(shù)禍根”以及傳統(tǒng)的統(tǒng)計學方法在高維時穩(wěn)健性變差的問題[2],在上述背景下出現(xiàn)了投影尋蹤回歸(projection pursuit regression,PPR)分析法。PPR的基本思想是:將高維數(shù)據(jù)投影到低維(1~3維)子空間上,尋找出能反映原高維數(shù)據(jù)結構或特征的投影后進行回歸分析,從而達到研究和分析高維數(shù)據(jù)的目的[3],使用PPR的關鍵是找到最佳投影方向。1981年,F(xiàn)riedman和Stuetzle[4]基于投影尋蹤的思想最先給出了投影尋蹤回歸分析方法,其主要目的是解決高維空間中的回歸建模問題。他們提出了用若干個嶺函數(shù)加權的形式來逼近回歸函數(shù)的思想。投影尋蹤回歸分析模型的數(shù)學表達式為:
(1)
本文中所用的投影尋蹤回歸模型為基于Hermite多項式的回歸模型,它采用的是可變階的正交Hermite多項式擬合(1)式中的嶺函數(shù)。其r階Hermite函數(shù)的數(shù)學表達式為:
(2)
其中r!代表r的階乘,r為Hermite函數(shù)的階數(shù),z=aTX,φ為標準高斯方程,Hr(z)為Hermite多項式采用遞推的公式給出。Hr(z)遞推關系定義:
(3)
此時投影尋蹤回歸模型的表達式為:
(4)
其中,R為多項式的階數(shù),c是多項式的系數(shù),h表示正交Hermite多項式。
2.投影尋蹤回歸模型求解
投影尋蹤回歸分析的關鍵是找到最佳投影方向,目前一般采用遺傳算法(genetic algorithms,GA)來優(yōu)化投影方向。GA是模擬生物進化中自然選擇、雜交、變異等群體遺傳機制的一種數(shù)值優(yōu)化方法,它把待解決的問題作為對目標函數(shù)的全局優(yōu)化,待優(yōu)化的變量對應生物種群的個體,利用繁殖、交叉、變異與選擇操作,反復迭代直到獲得符合要求的種群或者進化時限[5-7]。本文中投影尋蹤回歸模型求解采用的是基于實數(shù)編碼的遺傳算法來優(yōu)化投影方向和嶺函數(shù)的參數(shù)。具體求解步驟如下:
③重復①和②直至找到使Q最小的最佳投影方向a1和最佳嶺函數(shù)f1。
④檢驗模型是否達到要求,若達到要求則終止計算,若未達到要求則進行下面步驟。
⑤尋找下一個嶺函數(shù):用殘差代替因變量與自變量建立關系,重復①至③,直至找到第m個最佳投影方向am和最佳嶺函數(shù)fm。
⑥重復④和⑤直到模型達到要求。
本文中擬合樣本采用的是原始的樣本數(shù)據(jù),預測樣本采用的是對應于相應變量的平均值、最大值、最小值、中位數(shù)、四分之一分位數(shù)、四分之三分位數(shù)所形成的6個統(tǒng)計量值作為預測樣本。
擬合效果評價采用下列方法:
①決定系數(shù)。
②相對誤差絕對值的平均值(下文中簡寫為“FITave”)。
③利用實際值與擬合值建立簡單回歸方程,然后檢驗回歸方程的斜率是否為1且截距項是否為0。
④殘差分析。
預測效果評價采用下列方法:
①各預測樣本相對誤差的絕對值。
②預測誤差的均方(下文中簡寫為“MSE”):預測誤差的均方比平均絕對誤差或平均相對誤差絕對值能更好地衡量預測的精確度[8]。
表1 17個城市降水中離子濃度和pH值濃度
*:數(shù)據(jù)來源為文獻[2]。
表2為對應于表1中相應變量的平均值、最大值、最小值、中位數(shù)、四分之一分位數(shù)、四分之三分位數(shù)所形成的6個統(tǒng)計量值所形成的預測樣本。
表2 預測樣本詳細數(shù)據(jù)取值
對表1中的數(shù)據(jù)以y為因變量x1、x2、x3、x4、x5為自變量進行多重線性回歸分析,經(jīng)共線性診斷,最大條件數(shù)為14.80215>10,故自變量間存在一定程度的多重共線性關系。
主成分回歸分析:第1個主成分包含了原先5個自變量信息的50.93%,前2個主成分包含了原先5個自變量信息的80.52%,前3個主成分包含了原先5個自變量信息的91.08%,前4個主成分包含了原先5個自變量信息的99.77%。以y為因變量,5個主成分為自變量,采用逐步篩選變量(sle=0.10,sls=0.05)法、前進法結合剔除模型中無統(tǒng)計學意義(檢驗水準設定為0.05)的變量方法、后退法結合剔除模型中無統(tǒng)計學意義(檢驗水準設定為0.05)的變量方法進行多重線性回歸分析,結果均為僅第2個主成分進入回歸方程,此時主成分對原自變量信息的涵蓋量為29.58%。進一步分別繪制y與各主成分、主成分的平方項、各主成分之間的交互項的散點圖,結果顯示僅第2主成分與y之間存在直線關系,并且,y與前述提及的其他派生變量無確定性的曲線變化趨勢。故回歸模型中僅包含第2個主成分的回歸方程是可取的。主成分回歸模型的標準化殘差圖顯示散點均勻隨機分布在以0為參考線±2倍標準差范圍內,未見異常點。
投影尋蹤回歸分析:分別用1~2個嶺函數(shù),Hermite多項式階數(shù)為2~5來進行投影尋蹤回歸分析,投影尋蹤回歸分析各模型命名為pprM_N,其中M代表嶺函數(shù)個數(shù),N代表Hermite多項式的階數(shù),例如ppr1_2代表嶺函數(shù)個數(shù)為1個、Hermite多項式階數(shù)為2時的投影尋蹤回歸模型。ppr1_2,ppr1_3,ppr2_3的標準化殘差圖中除“合肥”落在(-2,-3)倍標準差范圍內外,其余散點均勻隨機分布在以0為參考線±2倍標準差范圍內;ppr1_4的標準化殘差圖中除“北京”落在(+2,+3)倍標準差范圍內外,其余散點均勻隨機分布在以0為參考線±2倍標準差范圍內;ppr1_5的標準化殘差圖中除“貴陽”落在(-2,-3)倍標準差范圍內外,其余散點均勻隨機分布在以0為參考線±2倍標準差范圍內;ppr2_4的標準化殘差圖中除“杭州”落在(+2,+3)倍標準差范圍內外,其余散點均勻隨機分布在以0為參考線±2倍標準差范圍內;ppr2_5的標準化殘差圖中散點均勻隨機分布在以0為參考線±2倍標準差范圍內。故總的來說,從各投影尋蹤回歸模型的標準化殘差圖中未發(fā)現(xiàn)十分明顯的異常點。因篇幅所限,上面提及的殘差圖此處從略。
對各模型采用實際值與擬合值進行簡單回歸分析,然后檢驗截距項是否為0,斜率是否為1,該假設檢驗結果匯總見表3。
表3 斜率和截距項假設檢驗結果匯總
從表3可知,主成分回歸和投影尋蹤回歸各模型的預測值與實際值的一致性均較好。
主成分回歸分析和投影尋蹤回歸分析各模型的決定系數(shù)(R2)、相對誤差絕對值的平均值(FITave)、預測樣本中各觀測的相對誤差、預測樣本的預測誤差的均方(MSE)結果見表4。
表4 主成分回歸分析與投影尋蹤回歸分析各模型結果匯總
從表4可知,主成分回歸模型的決定系數(shù)明顯小于各投影尋蹤回歸模型,相對誤差絕對值的平均值大于各投影尋蹤回歸模型,故從擬合效果而言,可認為投影尋蹤回歸模型的擬合效果好于主成分回歸。并且在Hermite多項式階數(shù)固定時,投影尋蹤回歸的擬合效果隨著嶺函數(shù)個數(shù)的增加呈現(xiàn)更好的變化趨勢;在嶺函數(shù)個數(shù)固定時,投影尋蹤回歸的擬合效果隨著Hermite多項式階數(shù)的增加呈現(xiàn)更好的變化趨勢。
就預測效果而言,各投影尋蹤回歸模型中mean的相對誤差絕對值均大于主成分回歸模型得到的相對誤差絕對值,其余5個預測樣本max、min、median、q1和q3的相對誤差絕對值均小于主成分回歸模型。各投影尋蹤回歸模型預測誤差的均方(MSE)小于主成分回歸模型得到的預測誤差均方。所以從整體上可以認為投影尋蹤回歸模型的預測效果好于主成分回歸。
故對于表1中數(shù)據(jù)而言,采用投影尋蹤回歸模型擬合,其效果要好于主成分回歸。
在多重線性回歸分析中數(shù)據(jù)存在多重共線性是常見的問題,目前對于多重共線性的處理方法主要包括:變量篩選、主成分回歸、嶺回歸、偏最小二乘回歸、增大樣本含量等方法,但因篇幅所限,本文僅考慮主成分回歸。主成分回歸分析在解決變量共線性時可能遇到的問題就是最終進入方程的主成分變量對原自變量信息的貢獻率較低。像本文實例,采用主成分回歸,僅對原自變量信息貢獻率為29.58%的第2個主成分變量進入了回歸方程,并且模型的決定系數(shù)只有0.8172,所以此時采用主成分回歸效果不是很理想。
投影尋蹤回歸(PPR)具有穩(wěn)健性好、預測結果準確度高等優(yōu)點,已被廣泛應用于高維數(shù)據(jù),尤其是非線性、非正態(tài)高維數(shù)據(jù)的分析和處理。本文中實例采用GA對投影方向進行優(yōu)化,利用PPR法將5維數(shù)據(jù)投影到1維后,克服了“維數(shù)禍根”的問題,并且無論是從擬合效果(決定系數(shù)、相對誤差絕對值的平均值)而言,還是從預測效果(各預測個體的絕對誤差和預測誤差的均方)來說,PPR都優(yōu)于主成分回歸分析。
在本實例分析中,考慮到主成分回歸模型中主成分對原自變量信息的貢獻率低可能是造成PPR效果優(yōu)于主成分回歸的原因,故在主成分回歸模型中加入第一主成分(不考慮該成分回歸系數(shù)經(jīng)統(tǒng)計學檢驗無意義)。當主成分回歸模型中包含第一、第二主成分時,對原自變量信息的貢獻率達到了80.52%,模型決定系數(shù)為0.8545,相對誤差絕對值的平均值(FITave)為4.84,預測誤差的均方為0.32。其擬合效果仍差于PPR各模型,預測效果整體上除稍優(yōu)于ppr2_3外,差于其他各PPR模型。故就本實例數(shù)據(jù)而言,尚不能認為主成分對原自變量信息的貢獻率低是造成主成分回歸擬合效果和預測效果要差于PPR的原因。
主成分回歸分析采用正態(tài)標準化處理數(shù)據(jù)會導致信息丟失,預測精度相應降低,而PPR直接從數(shù)據(jù)本身出發(fā),利用GA全局優(yōu)化,不會丟失數(shù)據(jù)的信息,預測精度高,這或許是造成PPR擬合效果和預測效果要好于主成分回歸的原因之一。主成分回歸和PPR效果的差異原因有待進一步的研究。
[1]胡良平.醫(yī)學統(tǒng)計學——運用三型理論進行現(xiàn)代回歸分析.北京:人民軍醫(yī)出版社,2010:98.
[2]付強,趙小勇.投影尋蹤模型原理及其應用.北京:科學出版社,2006,2:139-140.
[3]Zadehl A.Fuzzy sets .Information and Control,1965,8(3):338-353.
[4]Friedman JH,Stuetzle W.Projection pursuit regression .J Amer Statist Assoc,1981,76:817-823.
[5]Holland JH.Genetic algorithms and the optimal allocations of trials .SIAM Journal of Computing,1973,2:88-105.
[6]Holland JH.Genetic algorithms .Scientific American,1992,(4):44-50.
[7]劉勇,康立山,陳毓屏.非數(shù)值并行算法(第二冊)——遺傳算法.北京:科學出版社,1997.
[8]徐國祥.統(tǒng)計預測和決策.第2版.上海:上海財經(jīng)大學出版社,2006:243.
(責任編輯:郭海強)
A Comparative Study on the Effect of Principal Component Regression Analysis and Projection Pursuit Regression Analysis Applied to the Data with Collinearity
Hu Wan,Sun Yansong,Hu Liangping
(ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences(100850),Beijing)
Objective To compare the difference of effect between principal component regression analysis and projection pursuit regression analysis when collinearity exists in data.Methods Evaluating the advantages and disadvantages of the two modeling methods by using the actual data on two aspects: the fitting effect and the predicting effect.Results The principal component regression model showed that the coefficient of determination was 0.8172, the mean of absolute relative error was 6.42%and the mean square of prediction error was 0.61.The projection pursuit regression model, on the other hand, showed that the coefficient of determination ranged from 0.8851 to 0.9944, the mean of absolute relative error ranged from1.11% to 4.81%and the mean square of prediction error ranged from 0.03 to 0.38.Conclusion The analysis results based on the actual data with collinearity indicate that the projection pursuit regression analysis outperforms the principal component regression analysis both in fitting and predicting effect.
Principal component regression analysis; Projection pursuit regression analysis; Collinearity; The fitting effect; The predicting effect
*國家重點研發(fā)計劃,生物安全監(jiān)測網(wǎng)絡系統(tǒng)集成技術研究(2016YFC1200700)
1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計學咨詢中心(100850)
2.軍事醫(yī)學科學院
△通信作者:胡良平,E-mail:lphu812@sina.com;孫巖松,E-mail:sunys@qq.com