袁 穎,張?zhí)炝?/p>
(1. 河北地質(zhì)大學(xué) 勘查技術(shù)與工程學(xué)院,河北 石家莊 050031;2. 河北省高校生態(tài)環(huán)境地質(zhì)應(yīng)用技術(shù)研發(fā)中心,河北 石家莊 050031)
地裂縫是一種常見的地區(qū)性環(huán)境地質(zhì)災(zāi)害,造成的危害和損失巨大。因此,地裂縫危險性的準(zhǔn)確預(yù)測是保障人民生命財產(chǎn)安全,進行地區(qū)開發(fā)建設(shè)與災(zāi)害防治的必要工作[1]。由于地裂縫發(fā)生的影響因素眾多,且這些因素之間往往具有很強的隨機性和不確定性,難以用一種簡單的數(shù)學(xué)模型準(zhǔn)確的反映出各影響因素之間的復(fù)雜關(guān)系[2]。
長期以來,針對地裂縫危險性預(yù)測研究,專家和學(xué)者們提出了眾多預(yù)測方法。目前,用于地裂縫危險性的預(yù)測方法主要有人工神經(jīng)網(wǎng)絡(luò)[3-6]、灰色關(guān)聯(lián)度法[7-8]、模糊綜合評判法[9-10]、信息量法[11-12]。以上方法在地裂縫危險性預(yù)測中都取得了一定的效果,但也存在不足之處。人工神經(jīng)網(wǎng)絡(luò)的收斂速度比較慢,容易導(dǎo)致局部最優(yōu),使得預(yù)測結(jié)果誤差較大;灰色關(guān)聯(lián)度理論在處理數(shù)據(jù)波動較大的情況時,容易降低模型的預(yù)測精度;模糊綜合評判模型在選擇何種隸屬函數(shù)時仍有較大難度;信息量方法不適用于非構(gòu)造成因的地裂縫危險性預(yù)測。
基于以上分析,本文在結(jié)合主成分分析法(Principle Component Analysis, PCA)較強提取因子能力的同時[13],充分發(fā)揮支持向量機(Support Vector Machine, SVM)在解決小樣本數(shù)據(jù)以及非線性等實際問題中的優(yōu)勢[14],提出了基于主成分分析和支持向量機的地裂縫危險性預(yù)測模型。本文通過主成分分析法對文獻[15]中選取的導(dǎo)水系數(shù)(m2/d)、水位(m)、粘性土層厚度(m)、基巖起伏度(m)、基巖埋深(m)這5個評價指標(biāo)進行分析,通過剔除這5個評價指標(biāo)之間的關(guān)聯(lián)性,重新進行線性組合提取出這些評價指標(biāo)的主成分,并對其進行分析討論。最后通過支持向量機用于蘇錫常地區(qū)地裂縫危險性實測數(shù)據(jù)的訓(xùn)練并建立相應(yīng)的預(yù)測模型。有效解決了復(fù)雜影響因素情況下模型難以確定的問題,為地裂縫危險性的預(yù)測提供了一種新思路。
較多的影響因素之間往往存在一定的關(guān)聯(lián)性,存在信息量的重疊現(xiàn)象,在造成復(fù)雜計算程度的同時,還將直接影響計算的效率以及準(zhǔn)確度[16]。主成分分析法能很好的解決這一問題。主成分分析法主要是通過降維的思想構(gòu)造原始因素之間的線性組合,從而達到減少維數(shù)且產(chǎn)生的主成分之間互不相關(guān)的目的,這些產(chǎn)生的主成分能夠反映原始因素所提供的大部分信息[17]。具體步驟如下:
(1)原始數(shù)據(jù)進行標(biāo)準(zhǔn)化。假設(shè)觀測樣本數(shù)據(jù)矩陣為:
(1)
標(biāo)準(zhǔn)化處理原始數(shù)據(jù):
(2)
式中:
(3)
(2)計算樣本相關(guān)系數(shù)矩陣。原始數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理以后,我們假定其仍然用X表示,則可得到數(shù)據(jù)相關(guān)系數(shù):
(4)
式中:
(5)
(3)計算樣本相關(guān)系數(shù)矩陣R的特征值(λ1,λ2,…,λp)以及相應(yīng)的特征向量:
ai=(ai1,ai2,…,aip),i=1,2,…,p。
(6)
支持向量機作為一種有監(jiān)督的學(xué)習(xí)方法,已知學(xué)習(xí)樣本的類別,通過學(xué)習(xí)樣本和類別之間的對應(yīng)關(guān)系,預(yù)測新的訓(xùn)練點所對應(yīng)的類別。在學(xué)習(xí)過程中,SVM算法構(gòu)建了一個分割兩類的超平面(圖1),當(dāng)對新的樣本分類時,基于學(xué)習(xí)所得的超平面,旨在使兩類之間的分割達到最大化,即使預(yù)測錯誤的概率最小化。
圖1 支持向量機劃分算法示意圖
假設(shè)容量為n的訓(xùn)練樣本集{(xi,yi),i=1,2,…,n}由兩個類別構(gòu)成,假設(shè)xi屬于第一類,則yi=1;xi屬于第二類,則yi=-1。在學(xué)習(xí)過程中,若存在分類超平面:wTx+b=0(w為可調(diào)的權(quán)值矢量;b為偏置值)即具有相同類別的樣本能夠落在分類超平面的同一側(cè),則滿足:
(7)
(8)
由此可得以下目標(biāo)規(guī)劃問題:
(9)
式(9)為一個凸優(yōu)化問題,目標(biāo)函數(shù)是二次的,約束條件則為線性約束,可根據(jù)拉格朗日對偶理論轉(zhuǎn)化為對偶問題,如式(10)所示。
(10)
(11)
式中:xr和xs為兩個類別中的任意一對支持向量。得到最優(yōu)分類函數(shù)為:
(12)
式中:xi表示樣本數(shù)據(jù)中導(dǎo)水系數(shù)、水位、粘性土層厚度、基巖起伏度、基巖埋深這5個地裂縫危險性的評價指標(biāo)。
以文獻[15]中的蘇錫常地區(qū)地裂縫危險性實測數(shù)據(jù)為例,以導(dǎo)水系數(shù)(m2/d)、水位(m)、粘性土層厚度(m)、基巖起伏度(m)、基巖埋深(m)這5個因素作為地裂縫危險性的評價指標(biāo)。對蘇錫常地區(qū)地裂縫調(diào)查表明,地面沉降梯度越大,地裂縫災(zāi)害發(fā)生的可能性越大,但由于地面沉降存在不均一性,因此需對地面沉降梯度進行量化處理[18]。當(dāng)?shù)孛娉两堤荻?0.01%時,量化值為0.9;當(dāng)?shù)孛娉两堤荻忍幱?.005%~0.01%時,量化值為0.75;當(dāng)?shù)孛娉两堤荻忍幱?.001%~0.005%時,量化值為0.25;當(dāng)?shù)孛娉两堤荻?0.001%時,量化值為0.1。將樣本數(shù)據(jù)歸一化處理后從34組樣本數(shù)據(jù)中隨機選出29組作為訓(xùn)練樣本(表1),剩余的5組作為測試樣本(表2)。表中0.9表示地裂縫危險區(qū)、0.75表示較危險區(qū)、0.25表示次安全區(qū)、0.1表示安全區(qū)。
為了更好的表示各影響因素之間的相關(guān)性大小,對表1和表2中的影響因素進行主成分分析,得到相關(guān)系數(shù)矩陣如表3所示。其中,相關(guān)系數(shù)越接近1則反映兩種影響因素的相關(guān)性越大。由表3相關(guān)系數(shù)矩陣可以看出,導(dǎo)水系數(shù)與水位、粘性土層厚度、基巖埋深均有較強的相關(guān)性;粘性土層厚度與基巖埋深有較強的相關(guān)性;如果對這些具有相關(guān)性的因素直接進行分析,可能會導(dǎo)致嚴(yán)重的共線性現(xiàn)象。采用主成分分析方法可以提取適當(dāng)數(shù)量的主成分,并對各評價指標(biāo)重新進行線性組合,可以進一步清楚地闡述各因素之間的關(guān)系。
表1 訓(xùn)練樣本歸一化處理
表2 測試樣本歸一化處理
表3 相關(guān)系數(shù)矩陣
表4 公因子方差比
表5 主成分特征值及貢獻率
表4為各評價指標(biāo)的公因子方差比。可知,其中3個評價指標(biāo)的信息被提取得較充分,而水位有11.5%以及基巖起伏度有10.9%的信息未被提取。
對5個評價指標(biāo)進行主成分分析,得到各主成分特征值及貢獻率如表5所示,經(jīng)過分析可以得到5個主成分,按照各主成分特征值從大到小排序為第1、第2、……、第5主成分。第1主成分的特征值為 2.791,其解釋方差的貢獻率為55.827%,第2主成分的特征值為1.108,貢獻率為22.165%,第3主成分的特征值為0.718,貢獻率為14.356%。由此前3個主成分的累計貢獻率為92.348%,同時結(jié)合圖2的碎石圖得出,從第4個主成分開始,后面的特征值都相對較低,表明對原始數(shù)據(jù)進行分析時用前3個主成分即可。
圖2 主成分分析碎石圖
通過主成分分析中最大方差法進行因子旋轉(zhuǎn),使因子載荷效果更加充分,得到因子載荷矩陣如表6所示。通過觀察前3個主成分在各評價指標(biāo)影響下的權(quán)重系數(shù)可知,在第1主成分中,系數(shù)絕對值較大的影響因素為粘性土層厚度、基巖埋深,表明第1主成分與這兩個影響因素的關(guān)系比較緊密且第1主成分主要反映覆蓋層厚度以及基巖面的深淺對地裂縫的影響;同理可知第2主成分主要反映巖土體的滲透性對地裂縫的影響;第3主成分主要反映地下水的賦存狀態(tài)和基巖面的形態(tài)對地裂縫的影響。
表6 因子載荷矩陣
通過主成分分析得到的因子得分系數(shù)矩陣如表7所示。各評價指標(biāo)可以通過該系數(shù)矩陣對各主成分重新進行線性組合,例如Y1=0.11x1-0.322x2+0.666x3+0.030x4+0.451x5,式中Y1表示第1主成分,x1,x2,x3,x4,x5分別表示導(dǎo)水系數(shù)、水位、粘性土層厚度、基巖起伏度、基巖埋深。同理可寫出第2、第3主成分的表達式見式 (13)。
表7 因子得分系數(shù)矩陣
(13)
使用主成分分析方法對上述樣本數(shù)據(jù)進行分析,將提取出的3個線性無關(guān)的主成分代替原來的5個影響因素,并將其作為輸入變量以此建立支持向量機預(yù)測模型,使得冗余數(shù)據(jù)被剔除、由于量綱不同帶來的影響被消除,有效降低了變量的維數(shù)和數(shù)據(jù)之間的相關(guān)性,極大提高了模型的運算效率,從而對數(shù)據(jù)有一個更加合理的解釋。
為了建立蘇錫常地區(qū)地裂縫危險性預(yù)測模型,引入 SVM 方法從樣本數(shù)據(jù)中隨機抽取29組樣本作為訓(xùn)練樣本,余下的5組樣本作為預(yù)測樣本。為了使預(yù)測模型滿足精度要求,論文選擇徑向基函數(shù)(RBF)作為SVM的核函數(shù),并利用PSO算法對SVM模型的懲罰參數(shù)c和核函數(shù)g進行優(yōu)化取值。粒子群算法的初始參數(shù)為:加速度C1=1.5,C2=1.7,種群數(shù)量N=20,終止代數(shù)=200,其參數(shù)的粒子群算法流程圖和尋優(yōu)過程如圖3和圖4所示,經(jīng)過多次迭代尋優(yōu),最終得到SVM參數(shù)最優(yōu)值c=12.6934,g=14.6204。同時以式(13)確定的3個主成分作為輸入變量,用該c和g參數(shù)確定的SVM模型對訓(xùn)練樣本進行回歸仿真訓(xùn)練,對訓(xùn)練樣本原始數(shù)據(jù)與預(yù)測結(jié)果進行對比,如圖5所示,該模型預(yù)測結(jié)果的相對誤差見圖6。結(jié)合圖5和圖6可以看出,基于PCA-SVM的預(yù)測模型訓(xùn)練樣本的預(yù)測結(jié)果與原始數(shù)據(jù)極為接近,相對誤差較小,精度能夠滿足工程要求。
圖3 粒子群優(yōu)化算法流程圖
圖4 粒子群算法參數(shù)尋優(yōu)
圖5 訓(xùn)練樣本原始值和預(yù)測值對比圖
圖6 基于PCA-SVM模型的訓(xùn)練樣本預(yù)測結(jié)果相對誤差
通過基于PCA-SVM的地裂縫危險性預(yù)測模型對表2的測試樣本進行預(yù)測,并與原始數(shù)據(jù)進行對比,如圖7所示。同時可得到該預(yù)測模型預(yù)測結(jié)果與原始值之間的相關(guān)系數(shù)曲線見圖8。該模型預(yù)測結(jié)果誤差與SVM模型預(yù)測結(jié)果誤差進行比較見表8,以及預(yù)測結(jié)果相對誤差對比見圖9。
由圖8可知預(yù)測結(jié)果與原始值之間的相關(guān)系數(shù)達到99.87%。由表8可知,基于PCA-SVM的預(yù)測模型預(yù)測結(jié)果的最大絕對誤差為0.0082,最大相對誤差0.0820%,而SVM預(yù)測模型預(yù)測結(jié)果的最大絕對誤差為0.1267,最大相對誤差1.2670%。結(jié)合圖7、圖8、圖9以及表8可以看出此模型的預(yù)測結(jié)果與實際值吻合效果較好,在預(yù)測精度上要優(yōu)于SVM模型,能夠滿足實際工程的需要。相對于文獻[15]的預(yù)測模型來說,本文所采用的方法能夠很好的處理小樣本數(shù)據(jù),具有高效、簡便的分類、預(yù)測過程,有效解決了“過學(xué)習(xí)”和“維數(shù)災(zāi)難”的問題[19],應(yīng)用于蘇錫常地區(qū)地裂縫危險性實測樣本數(shù)據(jù)的訓(xùn)練和預(yù)測中,效果更佳。
圖7 測試樣本原始值和預(yù)測值對比圖
表8 誤差對比
圖8 樣本數(shù)據(jù)原始值和預(yù)測值相關(guān)系數(shù)曲線
圖9 測試樣本預(yù)測結(jié)果相對誤差對比圖
(1) 地裂縫的發(fā)生受到眾多因素的共同影響,難以用一種簡單的數(shù)學(xué)模型準(zhǔn)確的反映出各影響因素之間的復(fù)雜關(guān)系。本文通過PCA分析方法結(jié)合SVM模型較好地解決了這一問題,進一步清楚地闡述了各因素之間的關(guān)系。
(2) PCA分析法采用降維的思想確定的3個主成分表達了5個變量所攜帶信息量的92.348%,剔除了變量之間的相關(guān)性,提升了訓(xùn)練速度和預(yù)測精度。地裂縫發(fā)生的影響因素被解釋的更加合理,為今后該地區(qū)地裂縫的探究提供全新的思路。
(3) 利用基于PCA-SVM的地裂縫危險性預(yù)測模型,對蘇錫常地區(qū)34組實測數(shù)據(jù)進行訓(xùn)練并預(yù)測,預(yù)測結(jié)果顯示蘇錫常地區(qū)34組樣本中地裂縫危險區(qū)有14個,較危險區(qū)有3個,次安全區(qū)有0個,安全區(qū)有17個,該結(jié)果與實際情況基本吻合,能夠較為真實的反映該地區(qū)地裂縫危險性的實際情況,具有一定的可行性?;赑CA-SVM這一數(shù)學(xué)方法對蘇錫常地區(qū)地裂縫樣本數(shù)據(jù)進行訓(xùn)練,建立的該地區(qū)地裂縫危險性預(yù)測模型,預(yù)測精度高,為地裂縫危險性預(yù)測提供了一個更實用、準(zhǔn)確的方法。