于永堂,鄭建國,黃 鑫
(1.機(jī)械工業(yè)勘察設(shè)計(jì)研究院有限公司 陜西省特殊巖土性質(zhì)與處理重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710043;2.西安建筑科技大學(xué) 土木工程學(xué)院, 陜西 西安 710055)
近年來西部黃土丘陵溝壑區(qū)為了增加建設(shè)用地,利用"削峁填溝"方式造地,由此出現(xiàn)了越來越多的高填方工程。高填方場(chǎng)地的沉降和不均勻沉降過大時(shí)會(huì)對(duì)建(構(gòu))筑物的安全及正常使用構(gòu)成威脅。因此如何預(yù)測(cè)高填方場(chǎng)地的工后沉降,指導(dǎo)建(構(gòu))筑物的規(guī)劃布局和合理確定的后續(xù)地面工程的建設(shè)時(shí)機(jī),是當(dāng)前高填方工程中亟待解決的關(guān)鍵問題之一。黃土高填方場(chǎng)地的原地基地質(zhì)條件的復(fù)雜性,填筑體荷載的多變性,外部環(huán)境的不確定性,使得工后沉降的理論計(jì)算值與實(shí)測(cè)值往往存在較大差異,實(shí)際工程中仍多采用基于實(shí)測(cè)數(shù)據(jù)外推預(yù)測(cè)的經(jīng)驗(yàn)?zāi)P头椒?。?dāng)采用經(jīng)驗(yàn)?zāi)P头椒ㄟM(jìn)行工后沉降預(yù)測(cè)時(shí),工后初期的實(shí)測(cè)沉降歷時(shí)數(shù)據(jù)較少或工后沉降觀測(cè)時(shí)間較短,這時(shí)直接采用單一模型進(jìn)行預(yù)測(cè),往往會(huì)出現(xiàn)擬合效果好而預(yù)測(cè)效果差的情況。因此,為了提高預(yù)測(cè)精度,常采用組合預(yù)測(cè)方法,然而有時(shí)用于組合的單項(xiàng)模型之間會(huì)出現(xiàn)信息重疊現(xiàn)象,即存在多重共線性問題,這導(dǎo)致新增加單項(xiàng)模型并不一定總能明顯提高預(yù)測(cè)精度,為此,有學(xué)者建議剔除一些僅增加少量有用信息的單項(xiàng)模型[1]。關(guān)于組合預(yù)測(cè)中單項(xiàng)模型的數(shù)量問題,Granger等[2]和Aiolfi等[3]的研究結(jié)果顯示,參與組合預(yù)測(cè)的單項(xiàng)模型數(shù)量,一般不存在普遍適用的最優(yōu)數(shù)量。此外,Aiolfi等[4]還發(fā)現(xiàn),一些單項(xiàng)模型的預(yù)測(cè)效果并不穩(wěn)定,隨著觀測(cè)時(shí)長的增加,先前預(yù)測(cè)效果好的模型將來可能變差,先前預(yù)測(cè)效果差的模型將來也可能會(huì)變好。因此,僅通過剔除某些單項(xiàng)模型的方法并不能完全解決上述問題。此外,在沉降觀測(cè)初期,在數(shù)據(jù)量少的情況下,采用基于回歸的組合預(yù)測(cè)模型,容易出現(xiàn)單項(xiàng)模型數(shù)量多于樣本數(shù)據(jù)量的情況,還會(huì)導(dǎo)致回歸參數(shù)無法估計(jì)等問題。
主成分分析(Principal Component Analysis,簡(jiǎn)稱PCA)是用幾個(gè)較少的綜合指標(biāo)(即主成分)來代替原來較多的指標(biāo),找出數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除數(shù)據(jù)中的噪音和冗余,將原有復(fù)雜數(shù)據(jù)進(jìn)行降維,揭露隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)[5]。PCA最早由英國生物統(tǒng)計(jì)學(xué)家Pearson[6]在1901年在對(duì)非隨機(jī)變量進(jìn)行討論時(shí)引入,隨后數(shù)學(xué)家Hotelling[7]將其推廣至隨機(jī)變量。之前PCA主要用于計(jì)算機(jī)圖像處理[8]、經(jīng)濟(jì)分析等領(lǐng)域[9],近年有學(xué)者將PCA與逐步回歸法[10]、分類回歸樹[11]、SPE控制圖[12]、BP神經(jīng)網(wǎng)絡(luò)[13]、時(shí)間序列分析[14]、主元回歸建模[15]等方法相結(jié)合進(jìn)行相關(guān)預(yù)測(cè),但PCA在工程建設(shè)領(lǐng)域的應(yīng)用鮮有報(bào)道。
本文采用主成分分析方法對(duì)單項(xiàng)預(yù)測(cè)模型進(jìn)行降維處理,用于解決基于回歸的組合模型中單項(xiàng)預(yù)測(cè)模型數(shù)量多于建模數(shù)量,以及單項(xiàng)模型之間的多重共線性等問題,并結(jié)合某黃土高填方場(chǎng)地的實(shí)測(cè)沉降數(shù)據(jù),對(duì)預(yù)測(cè)結(jié)果進(jìn)行了驗(yàn)證。
假設(shè)實(shí)際問題中共有p個(gè)指標(biāo)X1,X2,…,Xp,每個(gè)指標(biāo)共有n個(gè)樣本,組成n×p階的數(shù)據(jù)矩陣如式(1)所示。
(1)
對(duì)原變量指標(biāo)X1,X2,…,Xp作線性組合,經(jīng)降維處理后,得到新變量指標(biāo)(綜合指標(biāo))為Z1,Z2,…,Zm(m≤p),原變量指標(biāo)與新變量指標(biāo)之間的關(guān)系如式(2)所示。Z1,Z2,…,Zm分別為原變量指標(biāo)X1,X2,…,Xp的第1,2,…,m主成分。
(2)
式(2)滿足如下條件:
(1) 主成分Zi與Zj(i≠j;i,j=1,2,…,m)相互獨(dú)立,無重疊的信息,即Cov(Zi,Zj)=0。
(2) 主成分方差滿足Var(Z1)≥Var(Z2) ≥…≥Var(Zm),即Z1是與X1,X2,…,Xp一切線性組合中方差最大者,含有最大的信息量;Z2是與Z1不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者;依此類推得到各主成分……;Zm是與Z1,Z2,…,Zm-1都不相關(guān)的X1,X2,…,Xp的所有線性組合中方差最大者。
(3)
式中:w0為常數(shù)項(xiàng);wi(i=1,2,…,m)為第i種單項(xiàng)模型的權(quán)重系數(shù);εt為隨機(jī)擾動(dòng)項(xiàng)(隨機(jī)誤差)。當(dāng)主成分分析法進(jìn)行回歸組合預(yù)測(cè)的主要步驟如下:
(4)
由m個(gè)單項(xiàng)模型組成n×m維數(shù)據(jù)矩陣如式(5)所示。
(5)
(6)
由式(6)計(jì)算得到相關(guān)系數(shù)矩陣R=(rij)m×m如式(7)所示,該矩陣為對(duì)稱矩陣。
(7)
(3) 計(jì)算特征值與特征向量。首先運(yùn)用Jacobi迭代方法計(jì)算特征方程1λE-R1=0,求出特征值并按大小順序排列(λ1≥λ2≥…≥λm≥0),然后求出特征值λi對(duì)應(yīng)的特征向量Ui(i=1,2,3,…,m)如式(8)所示。
Ui=[u1i,u2i,…,umi]′
(8)
由特征向量Ui組成的主成分系數(shù)矩陣U如式(9)所示。
(9)
以特征向量的分量值為權(quán)數(shù),將標(biāo)準(zhǔn)化的變量指標(biāo)進(jìn)行加權(quán)得到第i個(gè)主成分。主成分與原變量指標(biāo)之間的關(guān)系如式(10)所示。
Z=U′S=[Z1Z2…Zm]T=
(10)
(4) 建立多元線性回歸模型。在多元回歸分析中,最優(yōu)的回歸模型一般要求表征模型擬合效果的似然函數(shù)最大化,模型中未知參數(shù)個(gè)數(shù)最小化,因此,本次對(duì)主成分的篩選采用赤池信息量準(zhǔn)則(Akaike Information Criterion,AIC)[16],計(jì)算方法見式(11)。
AIC=2k-2lnL
(11)
式中:k為模型參數(shù)個(gè)數(shù);L為似然函數(shù)。當(dāng)進(jìn)行多元回歸組合建模時(shí),每一步新引入一個(gè)主成分,若AICi+1>AICi,則剔除新引入的主成分Zi+1,若AICi+1 根據(jù)上述思路,現(xiàn)舉例如下:首先對(duì)第1主成分 作線性回歸,計(jì)算回歸模型參數(shù)a0、a1,進(jìn)行顯著性檢驗(yàn),計(jì)算AIC值,記為AIC1。 (12) 在式(12)中增加第2主成分Z2,計(jì)算AIC值,記為AIC2。若AIC2 (13) 陜北某黃土高填方工程地處黃土丘陵溝壑區(qū),屬于采用削峁填溝方式的造地工程,原地基采用強(qiáng)夯法處理,填筑體采用分層碾壓法處理,料源黃土的含水率分布區(qū)間為8%~20%;干密度分布區(qū)間為1.53 g/cm3~1.89 g/cm3。典型監(jiān)測(cè)點(diǎn)O5共15期沉降數(shù)據(jù),本次采用前5期數(shù)據(jù),采用Logistic模型[17](模型1)、Gompertz模型[18](模型2)、Usher模型[19](模型3)、Weibull 模型[20](模型4)、MMF模型Ⅰ[21](模型5)、MMF模型Ⅱ[22](模型6)、改進(jìn)Richards模型[23](模型7)、Janoschek模型[24](模型8)、Knothe模型[25](模型9)、改進(jìn)Knothe模型[25](模型10)、鄧英爾模型[26](模型11)、Spillman模型[27](模型12)建模外推預(yù)測(cè)10期數(shù)據(jù),預(yù)測(cè)結(jié)果如表1所示??梢?,在數(shù)據(jù)量較少的情況下,各模型的預(yù)測(cè)效果均較差,存在單項(xiàng)模型收斂過早或過晚等問題。 表1 典型監(jiān)測(cè)點(diǎn)的工后沉降實(shí)測(cè)值及預(yù)測(cè)值 為了提高預(yù)測(cè)精度,采用表1中前6期預(yù)測(cè)數(shù)據(jù)作為PCA組合預(yù)測(cè)模型的建模數(shù)據(jù),采用MATLAB R2014b軟件中的corrcoef(A)函數(shù)計(jì)算各單項(xiàng)模型方法之間的相關(guān)系數(shù),采用[pc,score,latent,tsquare]=princomp(A)函數(shù)計(jì)算特征向量pc(主成分系數(shù))、主成分值Score、特征值(從大到小排列)latent、每個(gè)樣本點(diǎn)霍特林(Hotelling)T2統(tǒng)計(jì)量tsquare。由表1中數(shù)據(jù)計(jì)算得到各單項(xiàng)預(yù)測(cè)方法之間的相關(guān)系數(shù)如表2所示。由表2可看出,各單項(xiàng)模型的預(yù)測(cè)數(shù)據(jù)之間的相關(guān)系數(shù)較高,表明在顯著性水平條件下,這些自變量之間的線性相關(guān)性較高,即各單項(xiàng)模型之間存在多重線性相關(guān)性。這主要是多數(shù)單項(xiàng)模型預(yù)測(cè)值與實(shí)測(cè)值線性相關(guān),進(jìn)而導(dǎo)致各模型之間也線性相關(guān)。 表2 各預(yù)測(cè)模型之間的相關(guān)系數(shù) 各單項(xiàng)模型的主成分系數(shù)和新坐標(biāo)系下各主成分的值,如表3和表4所示。將表1中第7、8、9、10期各模型的預(yù)測(cè)數(shù)據(jù)作為組合模型的檢驗(yàn)數(shù)據(jù),并轉(zhuǎn)化為主成分值,計(jì)算過程如表5、表6所示。 表3 主成分系數(shù) 表4 建模數(shù)據(jù)在新坐標(biāo)系下主成分值 表5 檢驗(yàn)數(shù)據(jù)在新坐標(biāo)下主成分值的計(jì)算結(jié)果 續(xù)表5 表6 檢驗(yàn)數(shù)據(jù)在新坐標(biāo)系下的主成分值 從表4中可以看出,在新坐標(biāo)下,最后7個(gè)主成分不包含任何信息,原數(shù)據(jù)維數(shù)得到降低,其中不為0的主成分值共5個(gè)。逐次增加主成分值Z1、Z2、Z3、Z4、Z5,采用數(shù)據(jù)分析軟件EViews 10建立多元線性回歸模型,求解模型參數(shù)a0,a1,…,ai。當(dāng)主成分值為5個(gè)和4個(gè)時(shí)二者AIC值相差不大,為簡(jiǎn)化計(jì)算防止過擬合,主成分?jǐn)?shù)量取為4個(gè),組合模型見式(14)。 (14) 表5中第i期(i=7、8、9、10)去中心化方法為各模型第i期預(yù)測(cè)值減去前6期均值,將表6中Z1、Z2、Z3、Z4值帶入式(14)可求得組合模型預(yù)測(cè)值。組合模型預(yù)測(cè)效果與各單項(xiàng)模型的預(yù)測(cè)效果比較如圖1所示。組合模型預(yù)測(cè)誤差統(tǒng)計(jì)結(jié)果如表7所示。 圖1 組合模型與單項(xiàng)模型的預(yù)測(cè)曲線 表7 組合模型沉降預(yù)測(cè)誤差統(tǒng)計(jì)結(jié)果 本次以第415 d為起點(diǎn),對(duì)后續(xù)第469 d、510 d、602 d、712 d,共4期數(shù)據(jù)采用組合模型進(jìn)行預(yù)測(cè),預(yù)測(cè)數(shù)據(jù)的時(shí)間跨度為297 d。由預(yù)測(cè)誤差分析結(jié)果可知,在檢驗(yàn)數(shù)據(jù)時(shí)間跨度是建模數(shù)據(jù)時(shí)間跨度1.4倍的情況下,組合模型預(yù)測(cè)值與實(shí)測(cè)值吻合較好,絕對(duì)誤差Δe(預(yù)測(cè)值與實(shí)測(cè)值之差)在±1 mm內(nèi),相對(duì)誤差在-1.5%~1.8%之間,表明基于PCA的組合預(yù)測(cè)模型能大幅度提高預(yù)測(cè)精度。 本文針對(duì)沉降觀測(cè)初期,僅獲得少量短歷時(shí)工后沉降數(shù)據(jù)或單項(xiàng)模型預(yù)測(cè)效果較差等問題,提出了基于主成分分析(PCA)的工后沉降組合預(yù)測(cè)方法,并在實(shí)際工程中進(jìn)行應(yīng)用檢驗(yàn),得到以下主要結(jié)論: (1) 各單項(xiàng)模型之間存在多重共線性,單項(xiàng)模型的沉降預(yù)測(cè)值與實(shí)測(cè)值之間均呈現(xiàn)高度線性相關(guān),因此,具備采用基于回歸的線性組合預(yù)測(cè)方法的基本條件。 (2) 建立基于回歸的組合預(yù)測(cè)模型前,采用主成分分析法對(duì)單項(xiàng)模型進(jìn)行降維處理,可以解決預(yù)測(cè)模型多于組合預(yù)測(cè)樣本數(shù)量、單項(xiàng)模型之間因高度線性相關(guān)導(dǎo)致的共線性等問題。 (3) 本文提出的組合預(yù)測(cè)方法既全面考慮了各單項(xiàng)模型所包含的沉降信息和影響因素,又消除了單項(xiàng)模型之間的多重共線性問題,省去了對(duì)單項(xiàng)模型遴選的步驟。 (4) 本文采用12種回歸參數(shù)模型進(jìn)行組合預(yù)測(cè),組合模型預(yù)測(cè)值與實(shí)測(cè)值吻合較好,預(yù)測(cè)精度明顯優(yōu)于各單項(xiàng)模型。 (5) 本文提出的模型適用于單項(xiàng)模型之間呈現(xiàn)線性關(guān)系時(shí)的組合預(yù)測(cè),當(dāng)各單項(xiàng)預(yù)測(cè)方法之間出現(xiàn)復(fù)雜的非線性關(guān)系時(shí),不能采用本模型進(jìn)行沉降預(yù)測(cè)。3 實(shí)例分析與效果檢驗(yàn)
4 結(jié) 論