汪學琴,岳建平,邱山鳴,岳 順
(1.水能資源利用關(guān)鍵技術(shù)湖南省重點實驗室,湖南 長沙 410014;2.河海大學地 球科學與工程學院,江蘇 南京 210098)
基于長度修正的預(yù)測算法優(yōu)化
汪學琴1,2,岳建平2,邱山鳴1,岳 順1,2
(1.水能資源利用關(guān)鍵技術(shù)湖南省重點實驗室,湖南 長沙 410014;2.河海大學地 球科學與工程學院,江蘇 南京 210098)
當自變量之間存在多重相關(guān)性時,若利用最小二乘法建立預(yù)測模型,參數(shù)估計會存在誤差。若應(yīng)用偏最小二乘回歸算法建立預(yù)測模型,可以克服自變量之間多重相關(guān)性問題,計算結(jié)果更為可靠。長度修正的偏最小二乘回歸算法從預(yù)測的角度對偏最小二乘模型進行了改進。以芹山水電站的水平位移預(yù)測為例,驗證了長度修正的偏最小二乘回歸法比普通偏最小二乘回歸法在預(yù)測方面效果更好。
偏最小二乘;長度修正的偏最小二乘;大壩水平位移;預(yù)測模型
為解決最小二乘法的多重相關(guān)性問題,提出了偏最小二乘法(partial least squares, PLS)。偏最小二乘回歸綜合了多元線性回歸、典型相關(guān)分析和主成分分析[1],回歸分析的精度高于傳統(tǒng)的回歸分析、主成分回歸。為獲得更高的長期預(yù)測精度,對PLS進行優(yōu)化,提出了長度修正的偏最小二乘回歸法(length modified partial least squares, LMPLS)[2]。將LMPLS應(yīng)用于大壩位移的預(yù)測,與傳統(tǒng)偏最小二乘回歸法的預(yù)測模型進行對比,討論其在預(yù)測方面的可行性與優(yōu)越性。
1.1 概述
統(tǒng)計模型為大壩安全監(jiān)控模型的主要建模方法之一,要求包含對效應(yīng)量有重要解釋意義的所有因子,且因子間不存在多重相關(guān)性[3]。大壩位移資料分析時引入“平均因子”的概念,將造成多重相關(guān)性。如果仍然采用多元線性回歸分析方法建立統(tǒng)計模型,則模型的精確性、可靠性不能得到保證[4]。
則模型的預(yù)測偏差均方和為:
當自變量X間完全相關(guān)時,矩陣(XTX)不可逆。無法由公式(2)計算回歸系數(shù)。當自變量X因子間高度相關(guān)時,|XTX|的值接近零,求(XTX)的逆矩陣時存在嚴重的舍入誤差。舍入誤差將影響回歸系數(shù)的求解,增加抽樣的變異性。即使樣本總體不變,不同樣本的選取也會造成系數(shù)估計值差異,導(dǎo)致統(tǒng)計模型異常,表現(xiàn)出最小二乘回歸法在穩(wěn)定性上的缺陷。偏最小二乘法能較好地解決多重相關(guān)問題,有效提高模型穩(wěn)定性。而長度修正的偏最小二乘回歸從理論出發(fā),對模型近一步改進,提高預(yù)測精度。
1.2 偏最小二乘回歸分析
觀測n個樣本點,構(gòu)成數(shù)據(jù)表X=(x1,x2,…,xp)n×p和Y=(y1,y2,…,yp)n×q,用統(tǒng)計分析的方式,研究因變量與自變量的關(guān)系。根據(jù)偏最小二乘回歸理論,在X與Y中提取成分t1和u1(t1為x1,x2,…,xp的線性組合,u1為y1,y2,…,yp的線性組合)[5]。提取t1和u1時,需滿足:①t1和u1盡可能多地攜帶它們各自數(shù)據(jù)表中的變異信息;②t1和u1的相關(guān)程度達到最大。
上述2個要求表明,t1和u1應(yīng)盡可能好地表達數(shù)據(jù)表X和Y,且X=(x1,x2,…,xp)n×p的成分t1對Y=(y1,y2,…,yp)n×q的成分u1亦有較強解釋能力。
對X進行標準化處理,得到的矩陣記為E0=(E01,E02,…,E0p)n×p;對Y進行標準化處理后,得到的矩陣記為F0=(F01,F(xiàn)02,…,F(xiàn)0q)n×q。記t1是E0的第1個成分,u1是F0的第1個成分。提取完t1和u1后,再進行X對t1的回歸、Y對u1的回歸。
偏最小二乘回歸的要求可表示為:
其中, w1為矩陣最大特征值對應(yīng)的單位特征向量;c1為矩陣最大特征值對應(yīng)的單位特征向量。
若精度達到要求,則算法終止;否則,利用X被t1解釋后的殘余信息、Y被t1解釋后的殘余信息進行第2輪提取。循環(huán)執(zhí)行直到精度滿足要求為止。設(shè)X共提取了m個成分t1,t2,…,tm,根據(jù)偏最小二乘回歸理論進行yk(k=1,2,…,q)對t1,t2,…,tm的回歸,再還原成關(guān)于x1,x2,…,xp的回歸方程。
如果X的秩是A,則:
其中,t1,t2,…,tA均可表示成E01,E02,…,E0p的線性組合;再還原成關(guān)于的回歸方程式,即
其中,F(xiàn)Ak是殘差矩陣FA的第k列。
在偏最小二乘回歸方程中,并非一定需要選用全部的成分t1,t2,…,tA建模,可考察增加新成分后模型的預(yù)測功能有無明顯改進后再判斷。設(shè)SSS,h-1為全部樣本點擬合所得具有(h-1)個成分的擬合誤差,SSS,h為增加成分th后的擬合誤差。若h個成分的回歸方程擬合誤差在一定程度上小于(h-1)個成分的擬合誤差,則判定增加成分th后,預(yù)測精度明顯提高。對每個因變量yk,定義為:
對于全部因變量Y,成分th的交叉有效性定義為:
交叉有效性可作為衡量成分th邊際貢獻的指標:①當≥(1-0.95)2=0.097 5 時,th的邊際貢獻是明顯的;②對于k=1,2,…,q,至少有1個k,使得≥0.097 5。若增加成分th,至少使1個因變量yk的預(yù)測模型得到顯著的改善,則認為增加成分th是明顯有益的。
1.3 基于長度修正的優(yōu)化算法
設(shè)由偏最小二乘回歸法得到的估計參數(shù)為βPLS,對偏最小二乘回歸進行改進(LMPLS),相應(yīng)的的估計參數(shù)可表示為:
其中,
AlDRIN M證明了E(Y-XβPLS)2≥E(Y-XβLMPLS)2,即從預(yù)測角度分析,LMPLS精度優(yōu)于PLS[6]。
2.1 工程概況
以穆陽溪梯級中的芹山水電站為例,該水電站位于福建周寧縣灑橋鄉(xiāng)芹山村附近,距周寧縣城關(guān)32 km,于1999年底建成發(fā)電。壩址以上控制流域面積
453 km2,水庫正常蓄水位755.0 m,總庫容2.65億 m3,為多年調(diào)節(jié)水庫。水電站裝機70 MW,大壩為混凝土面板堆石壩,最大壩高120 m,壩頂長260 m。本次應(yīng)用實例選取大壩左側(cè)觀測點從2009-01-19~2010-12-21的35期數(shù)據(jù)建立回歸模型,樣本容量較小,且選擇的因子之間存在一定的多重相關(guān)性,采用傳統(tǒng)的最小二乘法建立回歸模型不能保證模型的精確性和可靠性。本文用偏最小二乘回歸原理,對測點的水平位移進行建模分析,利用前20期變形數(shù)據(jù)為樣本確定模型參數(shù),對后15期變形數(shù)據(jù)進行預(yù)報與分析。
2.2 水平位移模型的建立
大壩壩頂產(chǎn)生水平位移的作用分量很多,其中主要為水位、溫度、時效分量,可表達為:
式中,yH為水位分量;yT為溫度分量,yθ為時效分量。
本文以該大壩一壩段為例,建立統(tǒng)計模型為[7]:
式中,H為水深;ai為水位分量回歸系數(shù);t為觀測日至觀測基準日的累計天數(shù);t0為建模資料系列第一個測值日至觀測基準日的累計天數(shù);b1i、b2i為溫度分量回歸系數(shù);θ為觀測日至觀測基準日的累計天數(shù)除以100;θ0為建模資料系列的第一個測值日至觀測基準日的累計天數(shù)除以100,c1、c2為時效因子回歸系數(shù)。
該模型共選用9項作用分量因子。其中,水壓因子3項,溫度因子4項,時效因子2項。將式(14)簡寫成:
2.3 預(yù)測模型分析
依據(jù)交叉有效性原則確定成分數(shù)h,進而確定回歸模型。
表1 對y的交叉有效性判別
根據(jù)偏最小二乘理論和20期觀測值可得偏最小二乘法回歸系數(shù)、長度修正的偏最小二乘法回歸系數(shù)。由2組回歸系數(shù)所構(gòu)方程和實測15期數(shù)據(jù),可得大壩水平位移值的偏最小二乘預(yù)測值、長度修正的偏最小二乘預(yù)測值以及各自的預(yù)測偏差。預(yù)測結(jié)果對比見表2。
表2 預(yù)測結(jié)果對比表∕mm
由實測位移與預(yù)測位移對比圖(見圖1)可知,長度修正的偏最小二乘法與偏最小二乘法擬合效果相當。在預(yù)測初期,兩種方法效果相差不大,均較為理想。但偏最小二乘法在預(yù)測8期數(shù)據(jù)后出現(xiàn)發(fā)散,預(yù)測精度明顯下降。而長度修正的偏最小二乘法預(yù)測效果穩(wěn)定,在長期預(yù)測中表現(xiàn)更優(yōu)。
為具體評價偏最小二乘回歸模型和長度修正的偏最小二乘回歸模型在預(yù)測方面的優(yōu)劣,繪制預(yù)測誤差圖(見圖2)。由圖2可看出,長度修正的偏最小二乘法預(yù)測精度明顯優(yōu)于未優(yōu)化的偏最小二乘法。
分別計算兩種模型的預(yù)測均方誤差,得偏最小二乘回歸模型的預(yù)測均方誤差為[8]:S1= 4.60 mm。
長度修正的偏最小二乘回歸模型的預(yù)測均方誤差為:S2= 1.53 mm。
圖1 實測位移與預(yù)測位移對比圖
圖2 PLS與LMPLS預(yù)測誤差圖
大壩位移受到水位、溫度、時效等因子的影響,這些因素之間存在多重相關(guān)性。用常規(guī)最小二乘回歸法建模存在理論缺陷與誤差。偏最小二乘回歸法綜合了多元線性回歸、主成分分析和典型相關(guān)分析,克服了自變量間多重相關(guān)性對建模的影響,使得模型更可靠。但偏最小二乘法沒有考慮非線性特性,故預(yù)測精度稍差。本文提出的基于長度修正的偏最小二乘優(yōu)化法提高了預(yù)測模型的精度,并由實例證明該方法在長期預(yù)測中表現(xiàn)更優(yōu)。
[1] 王惠文. 偏最小二乘回歸方法及其應(yīng)用[M]. 北京:國防工業(yè)出版社,1999
[2] 李紅祥,岳東杰. 偏最小二乘回歸在大壩位移監(jiān)控中的應(yīng)用[J].水電自動化與大壩監(jiān)測,2010,34(2):42-44
[3] 吳道聞,韓大建. 因子相關(guān)性對大壩監(jiān)測資料回歸分析的影響[J].大壩觀測與土工測試,1996,20(3):23-25
[4] 徐洪鐘,吳中如. 偏最小二乘回歸在大壩安全監(jiān)控中的應(yīng)用[J].大壩觀測與土工測試,2001, 25(6):22-27
[5] 王惠文,吳載斌,孟潔. 偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006
[6] AlDRIN M. Length Modified RidgeRegression[J]. Computation Statistics & Data Analysis,1997, 25(4): 377-398
[7] 何政翔.模糊聚類和偏最小二乘法在大壩監(jiān)測數(shù)據(jù)分析中的應(yīng)用[D].西安:西北農(nóng)林科技大學,2014
[8] 許鳳華,李述山. 基于改進的偏最小二乘回歸的酸雨pH值預(yù)測[J].山東科技大學學報(自然科學版),2006,25(3):110-112
P258
B
1672-4623(2016)10-0085-03
10.3969/j.issn.1672-4623.2016.10.026
汪學琴,碩士研究生,主要從事大地測量與測量工程方面的研究工作。
2015-11-02。
項目來源:國家自然科學基金資助項目(41174002);水能資源利用關(guān)鍵技術(shù)湖南省重點實驗室開放研究基金資助項目(PKLHD201311);河海大學中央高?;究蒲袠I(yè)務(wù)費資助項目(2013/B14020383)。