欒 洲 張西步 王義昌
(山東科技大學(xué)測繪與空間信息學(xué)院, 山東 青島 266590)
隨著人們對能源需求的增加,在進行“三下”采煤時,為了盡可能地多開采地下煤層并減小對地表建筑物和環(huán)境的影響,礦山開采沉陷預(yù)計非常重要,基于隨機介質(zhì)理論的概率積分法目前已成為我國應(yīng)用最廣泛的沉陷開采預(yù)計方法[1]。地表下沉系數(shù)是概率積分法預(yù)計參數(shù)中重要的參數(shù),其取值的準(zhǔn)確性直接影響地表移動和變形預(yù)計結(jié)果的精度[2]。地表下沉系數(shù)預(yù)測經(jīng)過國內(nèi)外的研究,已有許多準(zhǔn)確度較高的方法。李培現(xiàn)等[3]給出了地表下沉系數(shù)的經(jīng)驗公式,但下沉系數(shù)受到復(fù)雜的地質(zhì)因素和采礦條件的影響,經(jīng)驗公式難以描述復(fù)雜的關(guān)系。郭文兵等[4]將神經(jīng)網(wǎng)絡(luò)應(yīng)用到地表下沉系數(shù)預(yù)測中。欒元重等[5]在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過引入灰色關(guān)聯(lián)分析和主成分分析求取地表下沉系數(shù)。郭凱維等[6]則優(yōu)化反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)提高預(yù)測精度。趙保成等[7]求取下沉系數(shù)使用了隨機森林回歸算法。葉偉[8]將灰色關(guān)聯(lián)分析結(jié)合支持向量機應(yīng)用到預(yù)測概率積分法參數(shù)。史耀凡等[9]利用優(yōu)化后的支持向量機提供新的求取下沉系數(shù)方法。
支持向量機作為一種機器學(xué)習(xí)算法,在處理小樣本、非線性、多維問題上具有較大優(yōu)勢,最小二乘支持向量機(least squares support vector machine,LSSVM)是支持向量機的改進,在不損失精度的基礎(chǔ)上使其求解效率增加。本文基于LSSVM對地表下沉系數(shù)進行預(yù)測,結(jié)合隨機森林在特征選擇領(lǐng)域和灰狼優(yōu)化算法中參數(shù)優(yōu)化領(lǐng)域的優(yōu)勢,以期能提高地表下沉系數(shù)預(yù)測的精度。
LSSVM是在支持向量機(support vector machine,SVM)基礎(chǔ)上通過改進將凸二次規(guī)劃問題轉(zhuǎn)換為方程組求解問題,降低算法的復(fù)雜度,優(yōu)化求解效率。其基本思想如下:
(1)
式中,ω為權(quán)向量;b為偏置量。
LSSVM定義優(yōu)化問題的目標(biāo)函數(shù)J及其約束條件為:
(2)
式中,c為懲罰參數(shù);ei為松弛變量。
引入拉格朗日乘數(shù)法,可得:
(3)
式中,αi為拉格朗日乘子。
由KKT(karush-Kuhn-Tucker)優(yōu)化條件可得:
(4)
式中,Y=(y1,y2,…,yn)T;I為單位陣;e=(1,1,…,1)T;α=(α1,α2,…,αn)T;Ω為核函數(shù)矩陣,Ωi,j=φ(xi)Tφ(xj)=K(xi,xj)。
求解參數(shù)α和b后,可得到最終LSSVM的回歸模型:
(5)
核函數(shù)K(x,xi)是需要滿足Mercer條件的對稱函數(shù),本文采用高斯徑向基核函數(shù)(radial basis function,RBF),該函數(shù)參數(shù)較少,且泛化能力強,其表達(dá)式如下:
(6)
式中,σ為核函數(shù)參數(shù)。
灰狼算法(grey wolf optimization,GWO)是一種新型元啟發(fā)式優(yōu)化算法,具有結(jié)構(gòu)簡單、需要調(diào)節(jié)的參數(shù)少、容易實現(xiàn)等特點,在求解精度和收斂速度方面都有良好性能[10]。GWO通過模擬灰狼群體捕食行為,基于狼群群體協(xié)作的機制達(dá)到優(yōu)化的目的。狼群中嚴(yán)格的等級制度,下一層級的行為需要服從上一層級的帶領(lǐng),并展開相應(yīng)的群體狩獵行動。等級最高的為頭狼,被標(biāo)記為α,剩下的狼群按照社會等級分別被標(biāo)記為β、δ和ω[11-12],如圖1所示。
圖1 灰狼的社會等級制度
在頭狼α的帶領(lǐng)下,狼群通過包圍、獵捕和攻擊三大步驟完成狩獵,每一步驟的數(shù)學(xué)建模如下。
1.2.1包圍
狼群在狩獵過程中對目標(biāo)進行包圍,該過程的數(shù)學(xué)模型為:
式中,D表示個體與獵物間的距離。式(8)是灰狼位置更新公式,其中,t為當(dāng)前的迭代數(shù);A和C為系數(shù)向量;Xp為全局最優(yōu)解向量,即獵物的位置;X為潛在解向量,即灰狼位置。A和C的計算公式如下:
式中,a為收斂因子,隨著迭代次數(shù)從2線性減小到0;r1和r2是取值在[0,1]區(qū)間的隨機向量。
1.2.2捕獵
狼群在完成包圍獵物后,就要進行捕獵行為。實際上并不知道獵物的位置,即目標(biāo)的最優(yōu)值位置,就假設(shè)α最靠近獵物,β和δ其次。該過程中是α、β和δ判斷獵物的位置,并強迫其他灰狼個體(包括ω)根據(jù)最優(yōu)灰狼位置更新其位置,逐漸靠近獵物。該階段灰狼位置更新表達(dá)式如下:
式中,Dα、Dβ和Dδ分別表示為α、β和δ與其他個體間的距離;Xα、Xβ和Xδ分別表示α、β和δ的當(dāng)前位置;C1、C2和C3是隨機向量。位置更新過程如圖2所示。
圖2 GWO算法最優(yōu)解向量位置更新過程圖
1.2.3攻擊
狩獵的最后階段就是攻擊,該階段需要抓獲獵物,即GWO算法獲得最優(yōu)解。隨著迭代次數(shù)的增加,a值從2線性遞減到0,相應(yīng)的A值也將變化。當(dāng)|A|≤1時,狼群能夠集中攻擊到獵物,即得到局部最優(yōu)解,當(dāng)|A|>1時,狼群就會散開去尋找其他的局部最優(yōu)解。
隨機森林(random forest,RF)是由多顆決策樹構(gòu)成的集成算法,它的基本單元是決策樹。其輸出的類別是由每個決策樹輸出類別的眾數(shù)而定。RF算法如圖3所示。
圖3 RF算法示意圖
RF計算特征重要度的方法有多種,選用基于“平均準(zhǔn)確度下降”思想的方法,即隨機打亂某個特征數(shù)據(jù)的排列,如果袋外數(shù)據(jù)的準(zhǔn)確率下降很多,則說明這個特征對于樣本分類或者回歸結(jié)果影響較大,即這個特征的重要程度較高[13-14]。
RF計算特征重要性的步驟如下:
(1)使用袋外數(shù)據(jù)計算每顆決策樹的誤差error1。
(2)隨機打亂一個特征的順序,再計算袋外數(shù)據(jù)的誤差error2和誤差差值d=error1-error2。
為提高LSSVM模型的預(yù)測能力,通過RF進行特征選擇,利用GWO算法對參數(shù)尋優(yōu),建立RF-GWO-LSSVM模型。其主要流程如下:
(1)輸入樣本數(shù)據(jù),并對數(shù)據(jù)進行歸一化處理。
(2)利用RF計算每個特征的重要程度,根據(jù)特征重要度排序生成特征子集。
(3)設(shè)定LSSVM參數(shù)尋優(yōu)范圍,初始化狼群和GWO參數(shù)。
(4)計算灰狼的適應(yīng)度值并將狼群分層級;將預(yù)測結(jié)果的均方根誤差作為適應(yīng)度值,將狼群分為α、β、δ和ω四個層級。
(5)對狼群的位置進行更新,在新的位置上重新計算適應(yīng)度值,重選出新的α、β和δ。
(6)迭代次數(shù)達(dá)到設(shè)定的最大迭代次數(shù)時,表示訓(xùn)練結(jié)束,輸出最優(yōu)的c和σ值;否則繼續(xù)參數(shù)優(yōu)化。
(7)采用最優(yōu)的c和σ值建立模型,對測試集進行預(yù)測,并將預(yù)測結(jié)果進行反歸一化處理輸出。
樣本數(shù)據(jù)來源于文獻(xiàn)[15-16],如表1所示。將樣本數(shù)據(jù)分為訓(xùn)練集和測試集,前36例樣本作為訓(xùn)練集,后5例作為測試集。根據(jù)諸多專家的研究和煤礦生產(chǎn)實踐,影響地表下沉系數(shù)因素較多,選取7個因素為樣本特征,包括:覆巖平均堅固性系數(shù)f、開采厚度M、煤層傾角α、平均采深H0、傾向?qū)捝畋戎礑1/H0、走向?qū)捝畹谋戎礑3/H0和松散層厚度h。輸出則為地表下沉系數(shù)q。
表1 工作面實測數(shù)據(jù)
圖4 下沉系數(shù)特征的重要度
將經(jīng)過RF特征篩選后的數(shù)據(jù)導(dǎo)入到LSSVM模型,并使用GWO算法對c和σ尋優(yōu)。為驗證RF-GWO-LSSVM模型的優(yōu)越性,與GWO-LSSVM、PSO-LSSVM相對比。3個模型優(yōu)化參數(shù)區(qū)間、最大迭代次數(shù)和初始數(shù)量相同,參數(shù)c的搜索區(qū)間為[0.001,1 000],參數(shù)σ的搜索區(qū)間為[0.001,10],最大迭代次數(shù)為50次,種群數(shù)量設(shè)置為20。其中粒子群算法的學(xué)習(xí)因子為2,慣性權(quán)重為0.9。
經(jīng)過數(shù)次迭代各優(yōu)化算法都達(dá)到收斂,各模型優(yōu)化得到的最優(yōu)參數(shù)如表2所示。將最優(yōu)參數(shù)代入到LSSVM模型,建立相應(yīng)的RF-GWO-LSSVM、GWO-LSSVM、PSO-LSSVM模型。各模型預(yù)測結(jié)果如表3所示,從表3可以看出RF-GWO-LSSVM模型預(yù)測結(jié)果更接近實測值。
表2 模型最優(yōu)參數(shù)
表3 預(yù)測模型輸出結(jié)果
為進一步確定訓(xùn)練精度和預(yù)測精度,將均方根誤差值(RMSE)、平均絕對百分比誤差值(MAPE)和決定系數(shù)(R2)作為衡量指標(biāo)。RMSE和MAPE反映預(yù)測值和實測值之間的差距程度,其值越小越好。R2用來評估模型與實測值擬合程度,其值越接近1說明模型的擬合效果越好[17]。各衡量指標(biāo)計算結(jié)果如表4所示。由表4可知,3種模型均能較好地預(yù)測地表下沉系數(shù),但通過比較訓(xùn)練集和測試集的指標(biāo)值,可知RF-GWO-LSSVM模型的訓(xùn)練精度和預(yù)測精度相比另外兩種模型表現(xiàn)都好,更接近實測值。
表4 模型衡量指標(biāo)計算結(jié)果
(1)運用RF算法對影響地表下沉系數(shù)的影響因素進行特征重要度計算,根據(jù)計算的重要度進行排序,剔除重要程度較低的影響因素,篩選出特征重要性較高的因素作為特征子集。篩選后的影響因素為:松散層厚度、開采厚度、覆巖平均堅固性系數(shù)、煤層傾角和傾向?qū)捝畋取?/p>
(2)由于LSSVM模型泛化能力受懲罰因子c和核函數(shù)參數(shù)σ影響很大,使用GWO算法對參數(shù)進行迭代尋優(yōu),使LSSVM模型預(yù)測地表下沉系數(shù)更準(zhǔn)確。
(3)將RF-GWO-LSSVM與GWO-LSSVM、PSO-LSSVM模型進行精度對比。在測試集中,RF-GWO-LSSVM模型決定系數(shù)為0.996,均方根誤差為0.007,平均絕對百分比誤差為0.7%。該模型預(yù)測精度優(yōu)于另外兩種模型,地表下沉系數(shù)預(yù)測值與實測值更加吻合。
(4)影響地表下沉系數(shù)的因素眾多,可以增加影響因素個數(shù),加強影響因子的量化研究并擴充樣本,以提高模型的泛化能力。