李 璐,張永強(qiáng),李麗敏,馬 媛,竇婉婷,王 悅
(1.西安思源學(xué)院 理工學(xué)院,西安 710038;2.銅川職業(yè)技術(shù)學(xué)院 機(jī)電工程學(xué)院,陜西 銅川 727031;3.西安工程大學(xué) 電子信息學(xué)院,西安 710048;4.西安交通大學(xué)城市學(xué)院 傳播系,西安 710018)
泥石流災(zāi)害的發(fā)生是在自然演變或人為因素的影響下,一種復(fù)雜的非線性動(dòng)力學(xué)演化過(guò)程。我國(guó)山區(qū)較多,泥石流災(zāi)害是山區(qū)常見(jiàn)的一種自然災(zāi)害,由于它本身高頻發(fā)生、分布區(qū)域廣泛及破壞力極強(qiáng),對(duì)山區(qū)人民生命、財(cái)產(chǎn)有著極大的威脅,對(duì)防災(zāi)減災(zāi)工作提出嚴(yán)峻的考驗(yàn)。泥石流的早期預(yù)報(bào)可以有效減少災(zāi)害的損失,泥石流形成主要有三大條件,分別是地形地貌、松散物源、水源[1]。近年來(lái)國(guó)家對(duì)地質(zhì)災(zāi)害的防災(zāi)減災(zāi)比較重視,陸陸續(xù)續(xù)出臺(tái)政策,隨著災(zāi)害的頻繁發(fā)生,對(duì)泥石流災(zāi)害的研究一直都是熱度較高的課題,相關(guān)學(xué)者針對(duì)泥石流的研究主要有:1)通過(guò)災(zāi)害區(qū)域地面調(diào)查結(jié)合相關(guān)遙感技術(shù),觀察并分析泥石流災(zāi)害全域的地形地貌,從而分析其成災(zāi)機(jī)理[2];2)對(duì)物源動(dòng)儲(chǔ)量、泥沙補(bǔ)給、流量等影響因素通過(guò)力學(xué)及流變學(xué)的理論建立相關(guān)泥石流的運(yùn)動(dòng)方程[3-4];3)通過(guò)實(shí)時(shí)監(jiān)測(cè)收集雨量信息,對(duì)降雨強(qiáng)度與臨界雨量閾值分析并建立雨量模型[5];4)通過(guò)實(shí)時(shí)監(jiān)測(cè)采集成災(zāi)因子,對(duì)泥石流發(fā)生的概率及等級(jí)進(jìn)行預(yù)報(bào),從而達(dá)到提前預(yù)報(bào)預(yù)警提示,減少災(zāi)害重大損失[6]。隨著機(jī)器學(xué)習(xí)理論的不斷發(fā)展,非線性模型也被廣泛應(yīng)用在泥石流災(zāi)害預(yù)測(cè)的理論中,文獻(xiàn)[7]融合泥石流的多個(gè)影響因子,通過(guò)遺傳規(guī)劃法建立臨界降雨指數(shù)智能預(yù)測(cè)模型;文獻(xiàn)[8]基于PCA(principal component analysis)篩選泥石流災(zāi)害成災(zāi)因子并使用BP(back propagation)神經(jīng)網(wǎng)絡(luò)對(duì)泥石流發(fā)生的危險(xiǎn)性進(jìn)行預(yù)測(cè),此方法選用有效成災(zāi)因子的方法結(jié)合預(yù)測(cè)模型極大提升了泥石流危險(xiǎn)性的預(yù)測(cè),但是使用PCA篩選因子處理非線性關(guān)系有一定缺陷。文獻(xiàn)[9]使用混合核函數(shù)改進(jìn)了KPCA篩選因子算法,預(yù)測(cè)等級(jí)達(dá)到一定的提升?;谶@一思想,學(xué)者[10-12]將成災(zāi)因子篩選、模型參數(shù)尋優(yōu)等優(yōu)化模型方式使得預(yù)測(cè)模型精度更加穩(wěn)健。本文借鑒這一思想分析泥石流全域地形地貌成災(zāi)機(jī)理并篩選因子,構(gòu)造出泥石流災(zāi)害預(yù)測(cè)模型。
為進(jìn)一步提升泥石流預(yù)測(cè)的精度,本文以陜西省山陽(yáng)縣中村鎮(zhèn)泥石流全域?yàn)檠芯繉?duì)象,首先分析災(zāi)害區(qū)域地形地貌選出成災(zāi)因子,避免因使用單因子預(yù)測(cè)導(dǎo)致的精度低問(wèn)題;其次采用核主成分分析法(KPCA,Kernel principal component analysis)進(jìn)行高維度影響因子的篩選;另外構(gòu)造最小二乘支持向量機(jī)(LSSVM,least squares support vector machines)模型對(duì)泥石流發(fā)生概率模型的建立,相對(duì)于支持向量機(jī)將非線性問(wèn)題轉(zhuǎn)換為線性問(wèn)題求解方式極大的簡(jiǎn)化,同時(shí)使用多算法進(jìn)行LSSVM中的超參數(shù)優(yōu)化,經(jīng)過(guò)優(yōu)化后的模型解決了過(guò)早收斂導(dǎo)致陷入局部最優(yōu)的問(wèn)題以及參數(shù)隨機(jī)選取導(dǎo)致的精度不佳問(wèn)題,通過(guò)模型優(yōu)化提高了泥石流預(yù)測(cè)的精度。最后通過(guò)與其他尋優(yōu)預(yù)測(cè)算法進(jìn)行比對(duì),比對(duì)出最佳預(yù)測(cè)模型,為泥石流地質(zhì)災(zāi)害研究帶來(lái)活力及新思路。
主成分分析方法[13]是一種無(wú)監(jiān)督降維算法,針對(duì)線性數(shù)據(jù)效果較好,但是其對(duì)于數(shù)據(jù)之間存在非線性關(guān)系時(shí)PCA降維效果比較差,為了彌補(bǔ)這一缺陷,在PCA計(jì)算協(xié)方差矩陣時(shí)加入核函數(shù),用來(lái)解決非線性映射問(wèn)題。KPCA在高維特征空間對(duì)原數(shù)據(jù)映射,經(jīng)過(guò)PCA對(duì)高維數(shù)據(jù)計(jì)算特征向量及特征值來(lái)確定主成分因子。
(1)
通過(guò)特征分解C值得出:
λν=Cν
(2)
當(dāng)所有特征值λ≥0,v為由φ(x1),φ(x2),…,φ(xM)組成的空間,所以式(2)等于:
λ(φ(xk),vr)=(φ(xk),Cvr)k=1,2,…,M
(3)
由于vT是φ(x)的線性組合,所以得出:
(4)
將式(1)、(4)代入式(3),并令Kij=(φ(xi),φ(xj))i,j=1,2,…,M,代入得出:
Mλrcr=Kcr
(5)
Mλr為特征值,cr為特征向量,當(dāng)滿足cr>0條件:cp,cp+1,…,cM,進(jìn)行歸一化后得出:
Mλr(cr,cr)=1
(6)
求得φ(x)在cr特征向量的投影:
r=p,p+1,…,M
(7)
g(x)為φ(x)非線性主元分量,g(x)[g1(x),g2(x),…,gI(x)]T為所有投影矢量表示。使用核函數(shù)K(xi,xj)=〈φ(xi),φ(xj)〉求解g(x)代替空間的點(diǎn)積運(yùn)算,核函數(shù)變?yōu)椋?/p>
g(x)=(vT,φ(x))=K(xi,xj)
(8)
當(dāng)φ(x)≠0時(shí),空間樣本變換:
(9)
通過(guò)式(8)計(jì)算矩陣K,再依據(jù)樣本變換求取特征向量與特性值,最后依據(jù)最大特征值及其對(duì)應(yīng)向量結(jié)合輸入屬性得到主成分。按照式(10)、(11)得出各個(gè)成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率。
(10)
(11)
LSSVM(least squares support vector machines)[14-15]基于SVM將不等式約束轉(zhuǎn)換為等式約束,從而化簡(jiǎn)lagrange乘子α求解,對(duì)求解QP問(wèn)題轉(zhuǎn)為進(jìn)行線性方程組的求解。LSSVM 繼承了 SVM 的泛化能力和魯棒性,但其計(jì)算效率優(yōu)于原始的 SVM。給定訓(xùn)練的數(shù)據(jù)集合(xi,yj),i=1,2,…,n,分別給出SVM及LSSVM需求解的問(wèn)題。
SVM不等式約束問(wèn)題:
s.t.yi[ωT·φ(xi)+b]≥1-ζi,i=1,2,…,n
(12)
LSSVM等式約束問(wèn)題:
s.t.yi[ωT·φ(xi)+b]=1-ei,i=1,2,…,n
(13)
ξ及e為松弛變量,用于SVM及LSSVM中引入離群點(diǎn),c及γ為平衡尋找最優(yōu)超平面與偏差量之間最小值,ω為權(quán)重向量,b為誤差,φ(·)為映射函數(shù)。
使用Lagrangea方法對(duì)式(13)優(yōu)化,轉(zhuǎn)化為單一的參數(shù),求解α的極限值,構(gòu)造出:
L(ω,b,e,α)=
(14)
其中:αi為拉格朗日乘子。
ω,b,ei,αi分別求導(dǎo)=0:
(15)
φ依據(jù)4個(gè)求導(dǎo)的條件可列出線性方程組:
(16)
In為單位矩陣的轉(zhuǎn)置矩陣,E為n維單位矩陣,Φ為核矩陣:
Φij=yiyjφ(xi)Tφ(xj)=
yiyjK(xi,xj),i,j=1,2,…,n
(17)
解方程(16),可得出一組α、b,最后得出LSSVM分類表達(dá)式為:
(18)
LSSVM的訓(xùn)練框架如圖1所示,LSSVM算法中的正則化系數(shù)和核函數(shù)參數(shù)需要進(jìn)行尋優(yōu)防止出現(xiàn)參數(shù)隨機(jī)導(dǎo)致的精度不佳問(wèn)題及過(guò)早收斂導(dǎo)致陷入局部最優(yōu)的問(wèn)題。
圖1 LSSVM模型網(wǎng)絡(luò)結(jié)構(gòu)圖
松鼠覓食算法(sparrow search algorithm)[16]對(duì)于搜索空間中的一些復(fù)雜問(wèn)題搜索能力及精度有明顯優(yōu)勢(shì),松鼠雖不會(huì)飛行,但可以通過(guò)滑翔的方式來(lái)躲避天敵捕食,SSA算法就是模擬其這一行為的過(guò)程。松鼠的搜尋過(guò)程伴隨其覓食的開(kāi)始,尋找食物的方式通過(guò)其從不同的樹(shù)木之間移動(dòng)來(lái)獲取,森林中不同區(qū)域的搜索通過(guò)松鼠位置的改變來(lái)實(shí)現(xiàn)。
假設(shè)松鼠的數(shù)量為n,松鼠移動(dòng)的位置通過(guò)矢量來(lái)確定,并在邊界范圍內(nèi)隨機(jī)初始化其位置。
(19)
FSn,d為第n只老鼠在第d維度上的值,松鼠在森林中的初始位置為:
FSi=FSL+U(0,1)×(FSU-FSL)
(20)
FSU和FSL為松鼠移動(dòng)的上下界,U(0,1)為隨機(jī)數(shù)[0,1]。
食物源的等級(jí)通過(guò)每一只松鼠位置的適應(yīng)度表示,計(jì)算適應(yīng)度值并進(jìn)行升序分類,適應(yīng)度最小的位置:最佳食物源①山核桃,接下來(lái)三只位置正常食物源②橡樹(shù),其他的位置無(wú)食物來(lái)源③普通樹(shù)。
依據(jù)其天敵的出現(xiàn)概率Pdp松鼠更新移動(dòng)的位置。
滑翔路徑一:②→①
(21)
滑翔路徑二:③→②
(22)
滑翔路徑三:③→①
(23)
季節(jié)的變化會(huì)影響松鼠的覓食活動(dòng),使用季節(jié)的變換來(lái)防止出現(xiàn)算法陷入局部最優(yōu)。
(24)
(25)
(26)
FSi,U和FSi,L為松鼠移動(dòng)的上下界,Levy為列維分布,有效地全局搜索,來(lái)找到距離當(dāng)前地點(diǎn)最優(yōu)的一個(gè)新地點(diǎn)。SSA算法具體步驟如圖2所示。
圖2 SSA算法流程
基于KPCA-SSA-LSSVM的山區(qū)泥石流災(zāi)害發(fā)生預(yù)測(cè)流程如圖3所示,具體實(shí)現(xiàn)步驟如下:
圖3 KPCA-SSA-LSSVM算法流程
1)首先對(duì)監(jiān)測(cè)的原始數(shù)據(jù)預(yù)處理,并使用KPCA核主成分分析法篩選出覆蓋率滿足需求的6個(gè)影響因子。
2)數(shù)據(jù)集合理劃分,確定訓(xùn)練集及測(cè)試集百分比。
3)初始化尋優(yōu)參數(shù)及LSSVM參數(shù)。
4)根據(jù)各影響因子建立LSSVM預(yù)測(cè)模型,并在訓(xùn)練集訓(xùn)練最佳適應(yīng)度函數(shù)。
5)將不同預(yù)測(cè)模型在測(cè)試集上分析對(duì)比,篩選得出最佳模型及預(yù)測(cè)結(jié)果。
陜西省商洛市山陽(yáng)縣的中村鎮(zhèn),因其地處秦嶺山下,山脈溝壑眾多,屬于中、低山地形,山體土石量多達(dá)180多萬(wàn)方,占地高達(dá)80%以上,位于地勢(shì)差異較大的峽谷地區(qū),地形地質(zhì)復(fù)雜,山體石量多,更易引發(fā)災(zāi)害。同時(shí)也屬于長(zhǎng)江流域漢江水系,地區(qū)水源較多,河流較多、尤其在夏秋季降雨量也較多,年平均降水量達(dá)到671~865毫米,如果連續(xù)降雨量大容易導(dǎo)致土質(zhì)疏松[17],從而增加了地質(zhì)災(zāi)害的安全隱患點(diǎn)。
參照《T/CAGHP 006-2018泥石流災(zāi)害防治工程勘察規(guī)范》、《滑坡崩塌泥石流災(zāi)害調(diào)查規(guī)范(1:50 000)(DZ/T0261-2014)》[18]結(jié)合山陽(yáng)縣實(shí)地監(jiān)測(cè)區(qū)域監(jiān)測(cè)泥石流活動(dòng)數(shù)據(jù),對(duì)泥石流發(fā)育機(jī)制及成災(zāi)特征分析,本研究區(qū)域按照水源和物源成因劃分為崩塌型泥石流,其中固體物質(zhì)主要由滑坡崩塌等重力侵蝕提供[19-20]。去掉規(guī)范量級(jí)評(píng)分表中5分以下影響因子,最后結(jié)合監(jiān)測(cè)區(qū)實(shí)際泥石流數(shù)據(jù)得出11個(gè)影響因子,分別為溝岸山坡坡度、降雨量(24 h、1 h、10 min最大降雨量)、土壤含水率、溝床平均坡度、巖性影響、流域相對(duì)高差、河溝堵塞程度、河溝縱坡、產(chǎn)沙區(qū)溝槽橫斷面、松散物平均厚度、流域面積、泥砂沿程補(bǔ)給長(zhǎng)度比、孔隙水壓力、沿溝松散物量、區(qū)域構(gòu)造影響、流域植被覆蓋率。因各降雨量24 h、1 h、10 min最大降雨量對(duì)泥石流的發(fā)生有極大的影響,所以選取暴雨強(qiáng)度R作為泥石流災(zāi)害模型的影響因子。暴雨強(qiáng)度R計(jì)算如式(27),各參數(shù)選取如表1所示。
表1 泥石流降雨量因子參數(shù)
R=K(H24/H24(D)+H1/H1(FD)+H1/6/H1/6(D))
(27)
監(jiān)測(cè)數(shù)據(jù)由于環(huán)境的影響會(huì)出現(xiàn)一些如缺失、離群或維度不統(tǒng)一的數(shù)據(jù),這些數(shù)據(jù)對(duì)于模型的建立有極大的消極影響,會(huì)產(chǎn)生跳躍,且無(wú)法與其他數(shù)據(jù)統(tǒng)一,因此需要對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行預(yù)處理。
1)異常值處理:監(jiān)測(cè)數(shù)據(jù)中存在一部分偏離傳感器本身范圍的值或偏離觀測(cè)值較大的值,不處理會(huì)影響數(shù)據(jù)預(yù)測(cè)準(zhǔn)確性,距離達(dá)到5倍或者與均值的距離≥3倍標(biāo)準(zhǔn)差的數(shù)據(jù)稱之為離群點(diǎn)。
2)缺失值的處理:監(jiān)測(cè)數(shù)據(jù)通過(guò)泥石流災(zāi)害區(qū)域多傳感器實(shí)時(shí)傳輸,傳輸過(guò)程中經(jīng)常會(huì)出現(xiàn)遺漏或者個(gè)別離群點(diǎn)情況,會(huì)出現(xiàn)失真損失有效信息,導(dǎo)致屬性值缺失不準(zhǔn)確。按照屬性因素方法進(jìn)行統(tǒng)計(jì)得出缺失率,本文劃分兩種類別數(shù)據(jù)的缺失值,如表2所示。
表2 數(shù)據(jù)缺失值
3)數(shù)據(jù)歸一化:監(jiān)測(cè)數(shù)據(jù)種類較多樣且數(shù)量較多,多傳感器數(shù)據(jù)量綱不同有較大的差異,使用原始數(shù)據(jù)直接建模對(duì)于預(yù)測(cè)的準(zhǔn)確性有極大的影響,所以需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,歸一化處理公式如(28):
(28)
式(28)中,R為某因素歸一化處理后的數(shù)據(jù),Rmin和Rmax表示某因素?cái)?shù)據(jù)中的最小值及最大值。
由于樣本影響因子彼此之間存在相關(guān)性,為避免相關(guān)性對(duì)預(yù)測(cè)結(jié)果的影響,本文通過(guò)KPCA核主成分分析法選取成災(zāi)因子,各主成分的特征值及貢獻(xiàn)率如圖4所示,實(shí)驗(yàn)表明前6個(gè)主成分的累計(jì)的貢獻(xiàn)率已經(jīng)達(dá)到95.48%,覆蓋的信息超過(guò)了90%,覆蓋率達(dá)到要求,所以文中選取前6個(gè)影響因子作為泥石流災(zāi)害模型訓(xùn)練的輸入數(shù)據(jù)。并依據(jù)《T/CAGHP 006-2018泥石流災(zāi)害防治工程勘察規(guī)范》及泥石流相關(guān)資料分析,得出影響因子與泥石流發(fā)生量化等級(jí)關(guān)系如表3所示。以陜西省山陽(yáng)縣重點(diǎn)地災(zāi)監(jiān)測(cè)區(qū)的歷史數(shù)據(jù)作為研究樣本,數(shù)據(jù)使用山陽(yáng)縣2019年4月到2021年4月的10個(gè)監(jiān)測(cè)點(diǎn)的數(shù)據(jù)作為數(shù)據(jù)集,經(jīng)過(guò)數(shù)據(jù)預(yù)處理及成災(zāi)因子選取后數(shù)據(jù)集總共篩選出1 300組數(shù)據(jù),分別分為80%測(cè)試集和20%的兩個(gè)驗(yàn)證集。
表3 泥石流影響因子量化表
圖4 影響因子特征值及主成分貢獻(xiàn)率
注:A.泥石流發(fā)生嚴(yán)重;B.泥石流中等發(fā)生;C.泥石流輕微發(fā)生;D.泥石流不發(fā)生。
LSSVM建模過(guò)程中調(diào)優(yōu)參數(shù)為正則化系數(shù)和核函數(shù)φ參數(shù),文中選取SSA尋優(yōu)算法與遺傳算法 (GA,genetic algorithm)及網(wǎng)格搜索(GC,gridsearchCV)在相同1 040組訓(xùn)練集對(duì)LSSVM模型的正則化系數(shù)γ和核函數(shù)φ參數(shù)進(jìn)行尋優(yōu)。種群的規(guī)模設(shè)置為90,最大迭代次數(shù)設(shè)置為200,每個(gè)優(yōu)化算法分別進(jìn)行60次獨(dú)立實(shí)驗(yàn),并分別畫出最優(yōu)適應(yīng)度函數(shù)值與迭代次數(shù)曲線圖進(jìn)行比對(duì),結(jié)果如圖5所示,適應(yīng)度函數(shù)值隨著迭代次數(shù)的增加而逐漸減小,最終搜尋到最優(yōu)參數(shù)后收斂。GC在第16次迭代大幅下降。跳出了局部最優(yōu)狀態(tài),GA整個(gè)迭代過(guò)程收斂速度較慢,但也逐漸趨向最優(yōu),SSA優(yōu)化效果最好,明顯引導(dǎo)種群向最優(yōu)位置處,說(shuō)明使用SSA算法尋優(yōu),對(duì)松鼠移動(dòng)的位置不斷調(diào)整可以跳出局部最優(yōu)值,且收斂速度快,而且早熟現(xiàn)象明顯,能夠取得更小的適應(yīng)度。最終選取正則化系數(shù)γ=0.274和核函數(shù)φ=7.642。
圖5 尋優(yōu)適應(yīng)度曲線對(duì)比圖
為驗(yàn)證模型的預(yù)測(cè)精度,引入模型評(píng)價(jià)指標(biāo)AUC值,其為ROC曲線結(jié)合坐標(biāo)軸圍成的面積值,范圍一般介于[0.5~1]之間,預(yù)測(cè)的真實(shí)性取決與AUC值接近1的程度,靠近1真實(shí)性高反之則反。MAE預(yù)測(cè)值真實(shí)誤差,RMSE預(yù)測(cè)值和真實(shí)值間偏離程度,MSE真實(shí)值與預(yù)測(cè)值差異,越接近零預(yù)測(cè)精度越高,如式(29)所示:
(29)
為驗(yàn)證本研究?jī)?yōu)化模型的準(zhǔn)確性,將經(jīng)過(guò)數(shù)據(jù)預(yù)處理及降維后的訓(xùn)練數(shù)據(jù)作為泥石流預(yù)測(cè)模型構(gòu)建的輸入數(shù)據(jù),總共1 040組訓(xùn)練集構(gòu)建泥石流預(yù)測(cè)模型,并通過(guò)10%驗(yàn)證集1驗(yàn)證各模型的準(zhǔn)確性。實(shí)驗(yàn)采用LSSVM作為泥石流災(zāi)害預(yù)測(cè)模型,并用SSA算法超參數(shù)尋優(yōu)。使用同一個(gè)驗(yàn)證集驗(yàn)證未優(yōu)化的LSSVM模型及其他尋優(yōu)算法對(duì)LSSVM預(yù)測(cè)效果比對(duì)。利用預(yù)測(cè)結(jié)果計(jì)算模型的MAE、MSE和RMSE,值越接近于零精度越高,可以看出SSA-LSSVM的MAE、MSE和RMSE最小且接近于零,對(duì)比評(píng)估指標(biāo)結(jié)果如圖6所示,傳統(tǒng)的LSSVM相對(duì)誤差較大,最大相對(duì)誤差達(dá)到1.72%,而SSA-LSSVM最大誤差達(dá)到0.19%,誤差是最低的,進(jìn)一步說(shuō)明了該模型預(yù)測(cè)的精度較高。
圖6 模型預(yù)測(cè)評(píng)估指標(biāo)
為進(jìn)一步驗(yàn)證模型的穩(wěn)健性,選取10%驗(yàn)證集2,將其打亂的130個(gè)監(jiān)測(cè)數(shù)據(jù)作為模型預(yù)測(cè)概率及預(yù)測(cè)等級(jí)誤差的評(píng)價(jià),圖7為各模型尋優(yōu)LSSVM模型后的實(shí)際發(fā)生概率與預(yù)測(cè)發(fā)生概率比對(duì)圖。SSA尋優(yōu)后實(shí)際值與預(yù)測(cè)值基本吻合,擬合情況較好,極限的幾個(gè)數(shù)據(jù)27、38、89及111發(fā)生概率存在一些差異,但是其對(duì)應(yīng)的風(fēng)險(xiǎn)預(yù)報(bào)等級(jí)與實(shí)際數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)結(jié)果吻合,不影響預(yù)報(bào)的等級(jí),多個(gè)算法模型在同一預(yù)測(cè)集上的預(yù)測(cè)等級(jí)結(jié)果如圖8所示,按照泥石流發(fā)生等級(jí)準(zhǔn)確率降序排列:SSA達(dá)到100%,GA-LSSVM達(dá)到92.3%,GC-LSSVM達(dá)到90%。實(shí)驗(yàn)說(shuō)明引入SSA對(duì)LSSVM參數(shù)尋優(yōu),泥石流發(fā)生的概率及等級(jí)預(yù)測(cè)準(zhǔn)確率皆有明顯的提升。使用尋優(yōu)后的SSA-LSSVM模型對(duì)研究區(qū)域泥石流進(jìn)行預(yù)測(cè),從發(fā)生的概率及預(yù)測(cè)的等級(jí)兩方面都證明該模型具有較高的可行性。
圖7 模型預(yù)測(cè)預(yù)測(cè)比對(duì)圖
圖8 發(fā)生概率等級(jí)預(yù)測(cè)圖
此外通過(guò)AUC公式計(jì)算得出20%驗(yàn)證集中各模型的ROC曲線如圖9所示,ROC曲線中橫坐標(biāo)為假陽(yáng)性率(FPR/1-Specificity特異度),縱坐標(biāo)為真陽(yáng)性率(TPR/Sensitivity),可以根據(jù)ROC曲線的面積下的AUC值看出各個(gè)預(yù)測(cè)模型對(duì)應(yīng)評(píng)價(jià)指標(biāo)的好壞,AUC值越高說(shuō)明模型精度越佳,各模型AUC值均高于0.88,但是SSA-LSSVM模型指標(biāo)更加,無(wú)論從測(cè)試時(shí)間、AUC值及ROC曲線均明顯優(yōu)于GA和GC尋優(yōu)模型,模型AUC均值為0.932,預(yù)測(cè)效果較其他模型理想。各模型的對(duì)比指標(biāo)參數(shù)如表4所示,SSA-LSSVM模型相比其它模型平均測(cè)試事件最短且平均AUC值最高且接近于1。多組實(shí)驗(yàn)數(shù)據(jù)結(jié)果證明SSA-LSSVM模型具有較好的預(yù)測(cè)效果,在泥石流災(zāi)害預(yù)測(cè)中有較好的預(yù)測(cè)能力。
表4 模型參數(shù)及結(jié)果比對(duì)
圖9 模型ROC曲線
本文以普適的山陽(yáng)縣中村鎮(zhèn)區(qū)域泥石流為例,結(jié)合泥石流全域的地形地貌成災(zāi)機(jī)理,提出KPCA-SSA-LSSVM泥石流預(yù)測(cè)模型,在研究區(qū)實(shí)踐應(yīng)用效果良好,說(shuō)明模型具有一定的可行性和有效性。因此,可以得出以下結(jié)論:
1)參照《T/CAGHP 006-2018泥石流災(zāi)害防治工程勘察規(guī)范》、《滑坡崩塌泥石流災(zāi)害調(diào)查規(guī)范(1:50 000)(DZ/T0261-2014)》并結(jié)合山陽(yáng)縣實(shí)地監(jiān)測(cè)區(qū)域,監(jiān)測(cè)泥石流活動(dòng)數(shù)據(jù),對(duì)泥石流發(fā)育機(jī)制及成災(zāi)特征分析,選出11個(gè)成災(zāi)因子,并使用KPCA主成分分析法依據(jù)因子的貢獻(xiàn)率篩選出6個(gè)重要的成災(zāi)因子;
2)LSSVM建模過(guò)程中調(diào)優(yōu)參數(shù)為正則化系數(shù)和核函數(shù)參數(shù),選取SSA尋優(yōu)算法與遺傳算法 (GA,genetic algorithm)及網(wǎng)格搜索(GC,GridSearchCV)在相同1 040組訓(xùn)練集對(duì)LSSVM模型參數(shù)進(jìn)行尋優(yōu),解決參數(shù)隨機(jī)導(dǎo)致的精度不佳問(wèn)題及陷入局部最優(yōu)問(wèn)題。
3)將尋優(yōu)后的SSA-LSSVM預(yù)測(cè)結(jié)果與GA、GC參數(shù)尋優(yōu)模型預(yù)測(cè)結(jié)果比對(duì),從AUC值、MAE、MSE、RMSE評(píng)價(jià)指標(biāo)都驗(yàn)證了SSA-LSSVM預(yù)測(cè)的精度。
4)使用尋優(yōu)后的SSA-LSSVM模型對(duì)研究區(qū)域泥石流進(jìn)行預(yù)測(cè),從發(fā)生的概率及預(yù)測(cè)的等級(jí)兩方面都證明該模型具有較高的可行性。