高 磊,花勝強(qiáng),陳 意,鄭健兵
(南瑞集團(tuán)公司(國網(wǎng)電力科學(xué)研究院),江蘇 南京 211106)
基于回歸建模的統(tǒng)計(jì)方法是目前大壩變形監(jiān)測分析的主要手段之一,而因子空間和樣本質(zhì)量決定了回歸統(tǒng)計(jì)的精度上限,選用合適的回歸模型和算法只能逼近該上限。通常,在對(duì)大壩變形進(jìn)行分析時(shí)會(huì)選取多個(gè)回歸因子,如多個(gè)承前時(shí)段內(nèi)水頭的1—4次方值及溫度值,多個(gè)周期的溫度諧波因子,以及多種函數(shù)的時(shí)效因子。但是由此也衍生了一系列問題,首先,高維度下數(shù)據(jù)處理的時(shí)空復(fù)雜度劇增;其次,非相關(guān)因子及因子間互相關(guān)性會(huì)嚴(yán)重干擾回歸分析的精度,降低模型的泛化能力和可解釋性;最后,不同因子的采樣周期差異、數(shù)據(jù)的非標(biāo)準(zhǔn)化表示等都會(huì)影響模型的可信度。因此,如何處理和抽取合理的回歸因子,對(duì)基于統(tǒng)計(jì)方法的大壩變形監(jiān)測分析具有決定性的意義[1-3]。
目前業(yè)界內(nèi)變形分析的因子抽取,普遍是基于主成分分析、獨(dú)立成分分析、典型相關(guān)性分析及偏最小二乘回歸分析的原理進(jìn)行抽取和變換的,其主要缺點(diǎn)包括[4-7]:主成分分析、獨(dú)立成分分析側(cè)重于因子側(cè)的最大化信息表述和抽取,典型相關(guān)性分析側(cè)重于效應(yīng)量和因子的相關(guān)性最大化,都不夠全面;典型相關(guān)性分析和偏最小二乘回歸分析都只能考察變量的線性相關(guān)性,對(duì)于非線性系統(tǒng)則容易失真;數(shù)據(jù)的預(yù)處理也極為重要,如果對(duì)未經(jīng)降噪、去量綱、時(shí)序?qū)R等預(yù)處理的因子樣本直接進(jìn)行統(tǒng)計(jì)分析,那分析結(jié)論的精度通常是不可接受的。
通過以上可以看出,行業(yè)內(nèi)目前普遍采用的因子抽取和變換方法都存在著一定的不足和缺陷,影響了大壩安全分析后續(xù)工作的進(jìn)一步展開。
為克服以上這些問題,首先通過降噪、歸一化和測次對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,為后續(xù)的因子抽取提供可信的樣本基礎(chǔ);其次,通過綜合最大化因子的方差及變形效應(yīng)量和因子的相關(guān)性,而不是單純的因子主成分分析,使得因子的抽取更為合理;最后,使用基于互信息而非協(xié)方差的相關(guān)性檢驗(yàn),避免了僅能衡量線性相關(guān)的局限性,進(jìn)一步提高因子抽取的精度,為后續(xù)大壩安全監(jiān)測的成因分析和回歸預(yù)測,提供了更為全面和精密的基礎(chǔ),詳細(xì)技術(shù)方案流程如下:
原始觀察樣本中的粗差對(duì)于后續(xù)的統(tǒng)計(jì)分析可能會(huì)有極大的影響,甚至使得分析失效,例如因子歸一化、某些分類和回歸算法對(duì)于離群點(diǎn)類的粗差比較敏感,因此應(yīng)首先去除離群點(diǎn),本方法采用3σ準(zhǔn)則過濾離群點(diǎn)。
根據(jù)每個(gè)因子的原始樣本序列,計(jì)算出其均值μ和標(biāo)準(zhǔn)差σ,然后遍歷序列的每一個(gè)原始測值V,如果滿足:|V-μ|≥3σ,即判定該值為離群點(diǎn),予以剔除。
接下來對(duì)每個(gè)因子進(jìn)行歸一化以去掉量綱。對(duì)于某因子的測值序列,進(jìn)行變換如下:V’=(V-Vmin)/(Vmax-Vmin),其中,V’為變換后的新測值,V為原始測值,Vmin為本序列中原始測值中的最小值,Vmax為本序列中原始測值中的最大值。
實(shí)際大壩安全監(jiān)測中,變形效應(yīng)量和各個(gè)環(huán)境因子難以保證完全同步測量,存在測量時(shí)序錯(cuò)位的問題。因此,尋找并匹配變形效應(yīng)量和各個(gè)因子的測值,從而組成一個(gè)完整的測次,使得該測次內(nèi)所有變量的時(shí)間差都在有效的時(shí)間間隔內(nèi),并使得總時(shí)間跨度最小,這樣可以得到較佳的樣本質(zhì)量。
互信息是兩個(gè)變量間相關(guān)性的度量,表示兩個(gè)變量間共有信息量的程度,不同于協(xié)方差,互信息可以衡量各種關(guān)系的相關(guān)性。兩個(gè)變量X和Y的互信息I(X;Y)如下:
其中,p(x,y)是X和Y的聯(lián)合概率分布函數(shù),而p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)。
令單位向量u為因子矩陣X的第一主成分的轉(zhuǎn)換系數(shù),則目標(biāo)是要主成分Xu的方差Var(Xu)、變形效應(yīng)量Y與主成分Xu的相關(guān)性綜合最大,考慮二者的協(xié)方差Cov(Y,Xu):
即轉(zhuǎn)化為求二者的協(xié)方差最大,其中Corr(Y,Xu)為二者的皮爾遜相關(guān)系數(shù)。此外,協(xié)方差計(jì)算的是兩個(gè)變量的線性相關(guān)程度,非線性的相關(guān)性通過協(xié)方差難以挖掘出來。考慮到互信息系數(shù)能表征兩個(gè)變量間的非線性相關(guān)性,本文使用互信息I來表征其相關(guān)性,所以目標(biāo)函數(shù)形式化表述為:
引入拉格朗日乘子,得到Γ=I(Y,Xu)-λ(uTu-1)/2,兩邊對(duì)u做偏導(dǎo),即可轉(zhuǎn)為對(duì)互信息矩陣的本征值和本征向量的求解問題,根據(jù)本征值的降序排列,可得到對(duì)應(yīng)的本征向量集合,此即為因子的各個(gè)主成分轉(zhuǎn)換向量。
對(duì)于第k個(gè)主成分轉(zhuǎn)換向量,定義其主成分貢獻(xiàn)率為δk:
式中,λk為第k個(gè)主成分轉(zhuǎn)換向量對(duì)應(yīng)的本征值,n為因子的總數(shù),也是主成分轉(zhuǎn)換向量的總數(shù)。
根據(jù)λk由高到低的順序,依次累加其對(duì)應(yīng)的δk,當(dāng)總和占全部δk總和的98%以上時(shí)候,即停止選擇,則之前所有入選的對(duì)應(yīng)的δk主成分轉(zhuǎn)換向量集合,即為最終的因子抽取的轉(zhuǎn)換矩陣。
以瀾滄江某混凝土壩2000—2015年自動(dòng)化沉降觀測資料為例,分別建立原始全回歸模型,偏最小二乘回歸模型和基于本方法改進(jìn)的全回歸模型。影響沉降的因子包括庫水位H、氣溫T、時(shí)效t等,本次實(shí)例選取因子為當(dāng)日、前兩日、前3~5日、前5~10日的平均水位H、平均水位的平方值H2、平均水位的立方值H3、平均水位的四次方值H4、氣溫T、時(shí)效的自然對(duì)數(shù)值ln(t),來組成原始因子矩陣,以matlab程序作為開發(fā)環(huán)境和宿主程序,擬合結(jié)果如下:運(yùn)行全回歸擬合,得復(fù)相關(guān)系數(shù)為0.923 3,剩余標(biāo)準(zhǔn)差為0.613 3;運(yùn)行偏最小二乘回歸擬合,得復(fù)相關(guān)系數(shù)為0.798 1,剩余標(biāo)準(zhǔn)差為0.702 4。運(yùn)行基于本方法改進(jìn)的全回歸模型,得復(fù)相關(guān)系數(shù)為0.808 3,剩余標(biāo)準(zhǔn)差為0.673 4。
進(jìn)一步分析模型可以發(fā)現(xiàn),全回歸分析雖然針對(duì)樣本的擬合精度最高,但是從物理成因上無法解釋,如水位因子的系數(shù)出現(xiàn)負(fù)數(shù),常數(shù)項(xiàng)值過大,這些都違反了大壩性狀分析基礎(chǔ)成因理論,純粹為擬合方程,不能用于實(shí)際分析和預(yù)測;偏最小二乘回歸和本方法改進(jìn)的回歸模型都較好的克服了上述缺陷,模型系數(shù)相對(duì)合理,也符合實(shí)際,但是本模型無論是在擬合階段,還是在后續(xù)的驗(yàn)證階段,都能取得相對(duì)偏最小二乘回歸較優(yōu)的擬合精度,體現(xiàn)出了其穩(wěn)健性好,魯棒性強(qiáng),對(duì)客觀實(shí)際描述更為恰當(dāng)。
雖然本實(shí)例采用的驗(yàn)證方法比較簡單,因子的選擇和建模結(jié)果的理論分析也有較大的改善空間,但也能從某個(gè)方面顯示出本方法的實(shí)用性,隨著分析研究的不斷深入,希望本方法能對(duì)研究和分析水工建筑物實(shí)際性態(tài)狀況起到良好的輔助作用。
本文提出了一種大壩變形分析中因子抽取和轉(zhuǎn)換的方法。首先,基于3σ準(zhǔn)則和歸一法對(duì)因子進(jìn)行降噪和去量綱處理;其次,基于指定的有效時(shí)間間隔進(jìn)行各個(gè)因子的測次對(duì)齊;再次,基于變形效應(yīng)量和因子的主成分的互信息最大原則,依次抽取因子的主成分向量;最后,按照主成分貢獻(xiàn)率從大到小的規(guī)則對(duì)主成分向量排序,并按照98%的主成分貢獻(xiàn)率總和標(biāo)準(zhǔn)抽取并組合得到最終的因子轉(zhuǎn)換矩陣。通過算例驗(yàn)證表明,本方法提取后的因子空間對(duì)于后續(xù)大壩安全監(jiān)測的成因分析和回歸預(yù)測,提供了更為全面和精密的基礎(chǔ)。