欒元重,紀(jì)趙磊,崔 詔,2,梁耀東
(1.山東科技大學(xué) 測(cè)繪科學(xué)與工程學(xué)院,山東 青島 266590;2.黑龍江第三測(cè)繪工程院,黑龍江 哈爾濱 150025)
煤炭資源是我國(guó)的基礎(chǔ)能源和重要原料,在能源消耗結(jié)構(gòu)中占據(jù)重要地位[1]。煤炭資源的大規(guī)模開(kāi)采會(huì)對(duì)地表建(構(gòu))筑物造成破壞,也會(huì)對(duì)生態(tài)環(huán)境產(chǎn)生嚴(yán)重影響[2]。因此,煤礦開(kāi)采過(guò)程中的地表沉陷預(yù)測(cè)極其重要。
地表下沉系數(shù)是表征開(kāi)采沉陷和地表移動(dòng)規(guī)律的重要參數(shù),也是進(jìn)行地表移動(dòng)和變形預(yù)測(cè)時(shí)的關(guān)鍵參數(shù),其取值的準(zhǔn)確性將直接影響沉陷預(yù)測(cè)結(jié)果的精度[3-4]。影響地表下沉系數(shù)的因素很多,因素間的不確定性及非線(xiàn)性關(guān)系使得下沉系數(shù)的預(yù)測(cè)工作極其困難,依靠地表觀(guān)測(cè)站數(shù)據(jù)的實(shí)測(cè)下沉值或水平移動(dòng)值反演地表下沉系數(shù)的方法耗時(shí)費(fèi)力,不適合長(zhǎng)期發(fā)展[5-6]。近些年來(lái),隨著人工智能算法的發(fā)展,越來(lái)越多的學(xué)者利用隨機(jī)森林算法、遺傳算法和支持向量機(jī)等模型進(jìn)行地表下沉系數(shù)預(yù)測(cè)。彭杰帥等[7]利用隨機(jī)森林算法不易出現(xiàn)過(guò)擬合的優(yōu)勢(shì)進(jìn)行了地表下沉系數(shù)預(yù)測(cè),王拂曉等[8]將遺傳算法與廣義回歸神經(jīng)網(wǎng)絡(luò)相融合,建立了GA-GRNN的地表下沉系數(shù)預(yù)測(cè)模型,于寧峰等[9]建立了基于PSO優(yōu)化參數(shù)的SVM預(yù)測(cè)模型實(shí)現(xiàn)地表下沉系數(shù)的預(yù)測(cè)分析。這些方法都是利用一種或幾種算法的優(yōu)勢(shì)對(duì)地表下沉系數(shù)預(yù)測(cè)進(jìn)行有益探索,具有一定的適用性。
筆者借助BP神經(jīng)網(wǎng)絡(luò)較強(qiáng)的非線(xiàn)性映射能力進(jìn)行地表下沉系數(shù)預(yù)測(cè),考慮到地表下沉系數(shù)的影響因素較多且因素間存在相關(guān)性,提出通過(guò)組合權(quán)重來(lái)確定主要影響因素,進(jìn)而實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)輸入?yún)?shù)的預(yù)處理與模型簡(jiǎn)化。利用地表實(shí)測(cè)數(shù)據(jù)對(duì)由主要影響因素建立的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行了驗(yàn)證,得到了較高的預(yù)測(cè)效果,是地表下沉系數(shù)預(yù)測(cè)的又一種有效方法。
主成分分析法(簡(jiǎn)稱(chēng)PCA)是常用的基礎(chǔ)數(shù)學(xué)分析方法,其在數(shù)學(xué)建模、動(dòng)力學(xué)模擬和數(shù)理統(tǒng)計(jì)等領(lǐng)域應(yīng)用廣泛。在眾多領(lǐng)域的研究中,大量變量之間的相關(guān)性增加了問(wèn)題研究的復(fù)雜性,因此考慮利用較少的不相關(guān)變量代替各個(gè)變量中的各種信息,主成分分析就是這樣一種數(shù)據(jù)降維方法。PCA在能夠保留大部分原始數(shù)據(jù)信息的情況下,將N維特征映射到K維上(N>K),從而起到降低數(shù)據(jù)維數(shù)的作用[10]。
有N維數(shù)據(jù)集Xi,構(gòu)造線(xiàn)性組合Y=AX,則主成分分析的數(shù)學(xué)模型[11]如下:
(1)
式中,Y為主成分;X為原始變量;a為主成分系數(shù)。Yi和Yj線(xiàn)性無(wú)關(guān)且ai1+ai2+…+aiN=1。
地表下沉系數(shù)影響因素眾多,例如釆深、采厚、采寬、留寬、煤層傾角、覆巖巖性等[12]。受限于各個(gè)礦區(qū)資料收集的差異性,這里僅僅對(duì)國(guó)內(nèi)35個(gè)礦區(qū)的開(kāi)采厚度、煤層傾角、平均釆深、走向?qū)捝畋取A向?qū)捝畋?、推進(jìn)速度、松散層厚度和覆巖平均堅(jiān)固系數(shù)進(jìn)行研究[13-14],部分樣本數(shù)據(jù)見(jiàn)表1,其信息描述見(jiàn)表2。
表1 礦區(qū)實(shí)測(cè)數(shù)據(jù)
表2 數(shù)據(jù)統(tǒng)計(jì)
利用SPSS20軟件,對(duì)影響地表下沉系數(shù)的8個(gè)因素進(jìn)行主成分分析。由軟件計(jì)算得到的KMO>0.5和Sig<0.05可知(KMO和Sig為主成分分析的適用性),可以對(duì)選取的8個(gè)因素進(jìn)行主成分分析。根據(jù)累計(jì)方差貢獻(xiàn)率大于80%的原則選取主成分,由表3可得,提取5個(gè)主成分,其方差貢獻(xiàn)率分別為36.503%,20.350%,11.091%,10.565%和9.768%,累計(jì)方差貢獻(xiàn)率達(dá)到88.276%。根據(jù)主成分系數(shù)與方差貢獻(xiàn)率可確定各因素的綜合系數(shù),再將各因素的綜合系數(shù)進(jìn)行歸一化處理,最后可以得到各個(gè)因素的權(quán)重[15],見(jiàn)表4。
表3 方差解釋
表4 主成分系數(shù)與因素權(quán)值
灰色關(guān)聯(lián)度分析法(簡(jiǎn)稱(chēng)GRA)是灰色系統(tǒng)理論(我國(guó)著名學(xué)者鄧聚龍教授于1982年提出)的一個(gè)重要分支,也是數(shù)據(jù)分析中常用的方法?;疑P(guān)聯(lián)度分析的基本方法是根據(jù)比較數(shù)列集所構(gòu)成的曲線(xiàn)與參考數(shù)列集所構(gòu)成的曲線(xiàn)的相似程度來(lái)判斷其關(guān)系是否密切,曲線(xiàn)形狀越是相近,越說(shuō)明相應(yīng)數(shù)據(jù)系列關(guān)系越緊密[16-17]。該方法對(duì)樣本數(shù)量的多少和樣本規(guī)律性要求不夠,且計(jì)算量小,不會(huì)出現(xiàn)反常情況。目前,灰色關(guān)聯(lián)度分析法已成功應(yīng)用到工程控制和農(nóng)業(yè)經(jīng)濟(jì)等方面,都取得了不錯(cuò)的效果。
灰色關(guān)聯(lián)度分析法確定權(quán)重的主要步驟如下[18-19]:
1)進(jìn)行灰色關(guān)聯(lián)分析時(shí),首先要確定參考數(shù)列和比較數(shù)列,參考數(shù)列反映系統(tǒng)的行為特征,而比較數(shù)列是由影響系統(tǒng)行為特征的因素組成。
(2)
2)系統(tǒng)中各因素代表不同的物理意義,有著不同的量綱,而量綱的不同會(huì)導(dǎo)致最終的結(jié)論出錯(cuò)。因此,需要對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化處理,將其歸一到一個(gè)近似區(qū)域內(nèi),常用的處理方法有均值法和初值法。采用均值法進(jìn)行數(shù)據(jù)處理的方式如下:
(3)
3)計(jì)算比較數(shù)列與參考數(shù)列對(duì)應(yīng)因素的關(guān)聯(lián)系數(shù)。
(4)
式中:i取值為1,…,M;k取值為1,…,N;ρ為分辨系數(shù),反映關(guān)聯(lián)系數(shù)間的差異性,通常取值為0.5。
4)計(jì)算關(guān)聯(lián)度r(X0,Xi)。
(5)
5)根據(jù)關(guān)聯(lián)度可得影響因素權(quán)重Wi。
(6)
以地表下沉系數(shù)為參考數(shù)列,以影響因素為比較數(shù)列,按照灰色關(guān)聯(lián)度分析確定因素權(quán)重的步驟,對(duì)國(guó)內(nèi)35個(gè)礦區(qū)的8個(gè)影響因素進(jìn)行定權(quán)。由Matlab編程計(jì)算得到:開(kāi)采厚度、煤層傾角、平均釆深、走向?qū)捝畋?、傾向?qū)捝畋取⑼七M(jìn)速度、松散層厚度和覆巖平均堅(jiān)固系數(shù)的灰色關(guān)聯(lián)度分別為0.815,0.776,0.824,0.788,0.788,0.847,0.746和0.874;則各因素對(duì)應(yīng)的權(quán)重為0.126,0.120,0.128,0.122,0.122,0.131,0.116和0.135。
經(jīng)主成分分析法定權(quán)和灰色關(guān)聯(lián)度分析法定權(quán)后,各個(gè)影響因素的PCA權(quán)重和GRA權(quán)重見(jiàn)表5。根據(jù)參考文獻(xiàn)[20]可知,由主成分分析法和灰色關(guān)聯(lián)度分析法確定權(quán)重的公式如下所示:
W=0.5WP+0.5WG
(7)
式中,WP和WG分別為影響因素的PCA權(quán)重和GRA權(quán)重。
各影響因素的組合權(quán)重見(jiàn)表5。由組合權(quán)重可知,各影響因素對(duì)地表下沉系數(shù)的影響程度為:松散層厚度>推進(jìn)速度>平均釆深>傾向?qū)捝畋?開(kāi)采厚度>走向?qū)捝畋?煤層傾角>覆巖平均堅(jiān)固系數(shù)。以權(quán)重大于0.13為主要影響因素的選取原則,選取松散層厚度、推進(jìn)速度、平均釆深和傾向?qū)捝畋葹橹饕绊懸蛩亍?/p>
表5 影響因素組合權(quán)重
BP神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛的模型之一,是一種信息前向傳遞、誤差反向傳播的多層前饋網(wǎng)絡(luò)。它能夠在數(shù)據(jù)間建立輸入與輸出的非線(xiàn)性映射關(guān)系,進(jìn)而完成數(shù)據(jù)預(yù)測(cè)。研究證明,一個(gè)簡(jiǎn)單的3層BP神經(jīng)網(wǎng)絡(luò)就可以以任意精度與任意連續(xù)函數(shù)相擬合[21],3層BP神經(jīng)網(wǎng)絡(luò)包括輸入層、隱含層和輸出層。
1)參數(shù)選取與數(shù)據(jù)預(yù)處理。以表1中的前32組數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練,以后3組數(shù)據(jù)作為預(yù)測(cè)樣本進(jìn)行精度評(píng)價(jià)。以影響地表下沉系數(shù)的主要影響因素松散層厚度、推進(jìn)速度、平均釆深和傾向?qū)捝畋葹檩斎雲(yún)?shù),以地表下沉系數(shù)為輸出參數(shù),建立4—N—1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型,簡(jiǎn)稱(chēng)為W-BP模型。對(duì)于隱層節(jié)點(diǎn)N的選取,通過(guò)參考各種文獻(xiàn)確定節(jié)點(diǎn)N的大致范圍,然后經(jīng)過(guò)“試湊法”進(jìn)行多次訓(xùn)練[22-23],分析實(shí)際模擬效果,最終確定N值為6。為使預(yù)測(cè)結(jié)果更為精確,在進(jìn)行網(wǎng)絡(luò)訓(xùn)練前,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,消除數(shù)據(jù)間的數(shù)量級(jí)差別,并能夠有效減小激活函數(shù)的函數(shù)誤差,這里采用Matlab里的premnmx函數(shù)進(jìn)行歸一化處理。
2)網(wǎng)絡(luò)參數(shù)與函數(shù)的設(shè)置。BP神經(jīng)網(wǎng)絡(luò)的激活函數(shù)(傳遞函數(shù))能夠引入非線(xiàn)性因素,進(jìn)而解決線(xiàn)性模型無(wú)法解決的問(wèn)題。因此,不同的激活函數(shù)會(huì)對(duì)預(yù)測(cè)效果產(chǎn)生不同的影響,借鑒以往研究成果,隱含層的激活函數(shù)選擇S型正切函數(shù)tansig,輸出層的激活函數(shù)選擇線(xiàn)性函數(shù)purelin。學(xué)習(xí)訓(xùn)練函數(shù)和權(quán)重學(xué)習(xí)函數(shù)分別設(shè)為traingdx和learngdm,學(xué)習(xí)率設(shè)為0.01,訓(xùn)練目標(biāo)誤差為10-5。
為更好地分析W-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果,將其與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)(輸入?yún)?shù)為8個(gè)參數(shù))作對(duì)比。 在完成網(wǎng)絡(luò)訓(xùn)練與仿真模擬后,通過(guò)分析預(yù)測(cè)值與實(shí)測(cè)值間的誤差大小來(lái)檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果。誤差對(duì)比見(jiàn)表6。
表6 誤差對(duì)比
由表6可知,2種模型的絕對(duì)誤差都小于7%,與實(shí)測(cè)值有著較好的擬合效果,但傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的整體擬合效果要優(yōu)于W-BP模型。傳統(tǒng)BP神經(jīng)模型的平均相對(duì)誤差為5.215%,W-BP模型的平均相對(duì)誤差為7.179%,從相對(duì)誤差對(duì)比可以發(fā)現(xiàn),2種模型依然能夠產(chǎn)生較好的預(yù)測(cè)效果,但傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果仍然優(yōu)于W-BP模型。經(jīng)分析可知,基于組合權(quán)重得到的主要影響因素雖然簡(jiǎn)化了BP神經(jīng)網(wǎng)絡(luò)模型,但缺失了部分信息,導(dǎo)致最終的預(yù)測(cè)精度低于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型。W-BP模型的絕對(duì)誤差最大值為-6.918%,相對(duì)誤差最大值為8.334%,能夠滿(mǎn)足基本工程需要,是地表下沉系數(shù)預(yù)計(jì)的一種可行方法。
1)利用主成分分析與灰色關(guān)聯(lián)度分析相結(jié)合的方法求取地表下沉系數(shù)影響因素的組合權(quán)重,由組合權(quán)重分析各因素對(duì)地表下沉系數(shù)的影響程度,得到主要影響因素為松散層厚度、推進(jìn)速度、平均釆深和傾向?qū)捝畋取?/p>
2)選取的主要影響因素實(shí)現(xiàn)了BP神經(jīng)網(wǎng)絡(luò)模型的簡(jiǎn)化,由絕對(duì)誤差和相對(duì)誤差對(duì)比分析可知,由主要影響因素建立的地表下沉系數(shù)BP預(yù)測(cè)模型有著較好的預(yù)測(cè)效果,其絕對(duì)誤差最小值為3.954%,最大值僅為-6.918%,平均相對(duì)誤差為7.179%。分析表明,該模型能夠應(yīng)用到地表下沉系數(shù)預(yù)測(cè),是一種可行的方法。
3)地表下沉系數(shù)的實(shí)測(cè)數(shù)據(jù)比較缺乏,導(dǎo)致樣本數(shù)量較少,預(yù)測(cè)模型的精度在一定程度上會(huì)受樣本數(shù)量的影響。隨著智慧型數(shù)字化礦山的發(fā)展,更多的實(shí)測(cè)資料會(huì)得到收集利用,該模型的精度會(huì)有進(jìn)一步的提升空間。