呂文玉,丁 科,伍永平,杜旭峰,胡 馨,羅香玉,張 勇
(1.西安科技大學(xué) 能源學(xué)院,陜西 西安 710054;2.西安科技大學(xué) 西部礦井開采及災(zāi)害防治教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054;3.中國(guó)礦業(yè)大學(xué)(北京) 化學(xué)與環(huán)境工程學(xué)院,北京 100083;4.西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054;5.山西省潞安集團(tuán)司馬煤業(yè)公司,山西 長(zhǎng)治 047105)
煤炭是中國(guó)的主要能源,對(duì)中國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展具有重要的意義。近年來(lái),隨著開采深度和強(qiáng)度的不斷增加,煤炭產(chǎn)量也在不斷增加,各種礦井災(zāi)害更發(fā)生加頻繁,其中頂板事故的發(fā)生占據(jù)較大比重,所以提前預(yù)測(cè)頂板壓力,提前做好預(yù)防措施有利于礦井安全高效生產(chǎn)[1-4]。
在研究煤礦安全高效開采的過(guò)程中,非常重要的一項(xiàng)工作就是計(jì)算煤礦工作面液壓支架的工作阻力。目前,綜采面支架工作阻力主要采用力學(xué)理論分析,現(xiàn)場(chǎng)實(shí)測(cè),數(shù)值模擬實(shí)驗(yàn),工程類比等。劉國(guó)柱為驗(yàn)證8.8 m大采高液壓支架的承載能力,依據(jù)神東礦區(qū)礦壓顯現(xiàn)規(guī)律和理論分析經(jīng)驗(yàn),建立了以采高和工作面長(zhǎng)度為因變量的支護(hù)強(qiáng)度多元線性回歸模型[5]。楊路林采用理論分析確定了頂板的直接頂,基本頂重力,上覆巖層靜載荷是礦壓的來(lái)源,采用位態(tài)方程和統(tǒng)計(jì)相結(jié)合的方法,確定了近距離煤層群頂板壓力的理論值[6]。張仲倫基于大采高工作面礦壓顯現(xiàn)特點(diǎn),從工作面直接頂關(guān)鍵層的結(jié)構(gòu)出發(fā),并通過(guò)理論分析,數(shù)值模擬驗(yàn)證的方法,建立了大采高綜采工作面的支護(hù)強(qiáng)度計(jì)算公式[7]。由于礦壓機(jī)理及控制具有高度的混動(dòng)性,動(dòng)態(tài)性與非線性特點(diǎn)[8],在傳統(tǒng)的計(jì)算方法中存在誤差大、計(jì)算困難等問(wèn)題[9]。
近年來(lái),國(guó)內(nèi)外許多學(xué)者將目光投向基于機(jī)器學(xué)習(xí)建立的預(yù)測(cè)模型,并取得了較好的預(yù)測(cè)效果。相比傳統(tǒng)計(jì)算方法,機(jī)器學(xué)習(xí)具有快速、高效、可靠、實(shí)時(shí)等優(yōu)良特點(diǎn)。以淺埋煤層開采部分?jǐn)?shù)據(jù)為研究對(duì)象,借助主成分分析法,通過(guò)對(duì)變量的相關(guān)系數(shù)矩陣的內(nèi)部結(jié)構(gòu)計(jì)算分析,獲取少數(shù)幾個(gè)具有正交性且能代表原始變量的主成分,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化,不僅最大程度地保留了原有信息的完整性,而且大幅度地減少了運(yùn)算量,克服了多因素的相關(guān)性及反映信息在一定程度上存在重疊性等缺點(diǎn)[10]。后續(xù)使用的回歸型支持向量機(jī)(SVR)在非線性回歸方面取得良好的性能和效果[11]。SVR模型具有優(yōu)秀的泛化能力且結(jié)構(gòu)化風(fēng)險(xiǎn)較小,將主成分分析(PCA)降維后得到的主成分因子輸入到該SVR模型,能夠較好的處理復(fù)雜的非線性數(shù)據(jù),并且迭代次數(shù)較少、快速收斂,該算法模型能夠快速、準(zhǔn)確預(yù)測(cè)支架工作阻力。
主成分分析(principal component analysis,PCA)最先是由皮爾遜和霍特林提出。主成分分析思想主要是用少數(shù)的若干新變量(原變量的線性組合)替代原變量,新變量要盡可能多地反映原變量的數(shù)據(jù)信息,新變量之間相互正交,可以消除原變量中相互重疊的信息[12-13]。數(shù)學(xué)模型如下。
對(duì)于一個(gè)樣本,樣本的標(biāo)準(zhǔn)化輸入變量矩陣為
(1)
構(gòu)造一個(gè)變量P1滿足
P1=Xt1,‖t1‖=1
使得P1能攜帶Xnk的信息,即
(2)
支持向量機(jī)是一種新的機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)主要目的是基于樣本數(shù)據(jù)建立數(shù)學(xué)模型來(lái)研究因變量(輸出值)與一個(gè)或多個(gè)自變量(輸入值)之間的關(guān)系,以便對(duì)未來(lái)做出預(yù)測(cè)或決策,而無(wú)需經(jīng)過(guò)明確的編程。
20世紀(jì)90年代VLADIMIR和CORINNA最早提出現(xiàn)代版支持向量機(jī),支持向量機(jī)最初研究線性可分的問(wèn)題,將數(shù)據(jù)映射到一個(gè)新的高維表示,支持向量機(jī)在這個(gè)高維空間中找到一個(gè)具有最大邊界的線性的超平面,盡量讓超平面與每個(gè)類別最近的數(shù)據(jù)點(diǎn)之間的距離最大化,從而計(jì)算出良好決策邊界,這樣決策邊界可以很好地推廣到訓(xùn)練數(shù)據(jù)集之外的新樣本數(shù)據(jù)集[14]。SVR為了解決擬合方面的問(wèn)題,其基本思想是尋找一個(gè)最優(yōu)分類面使得所有樣本集離該最優(yōu)分類面的誤差最小。同時(shí)支持向量機(jī)模型適用于非線性的小樣本學(xué)習(xí),學(xué)習(xí)速率快且迭代次數(shù)較少的優(yōu)點(diǎn)[15]。因此,SVR模型能夠滿足綜采工作面支架工作阻力快速、準(zhǔn)確預(yù)測(cè)的要求。SVR回歸模型結(jié)構(gòu)如圖1所示。
圖1 SVR結(jié)構(gòu)示意Fig.1 SVR structure sketch
在SVR算法中,核函數(shù)通過(guò)特征變換增加新的特征,使得低維空間中的線性不可分的問(wèn)題變換為高維度空間中線性可分的問(wèn)題,因此選擇合適的核函數(shù)對(duì)于支持向量機(jī)的回歸性能有很大的影響。在 SVR算法中,為了使預(yù)測(cè)結(jié)果具有更高的精確度[16],在對(duì)樣本進(jìn)行訓(xùn)練之前,為了選擇適合樣本數(shù)據(jù)的核函數(shù),隨機(jī)挑選20組樣本與10組測(cè)試集進(jìn)行對(duì)比實(shí)驗(yàn),具體結(jié)果見表1。
從表1可以看出,不同的核函數(shù)對(duì)于SVR算法的回歸性能有很大的影響,高斯徑向核函數(shù)無(wú)論均方誤差(MSE)還是相關(guān)系數(shù)(R2)都較多項(xiàng)式函數(shù)、Sigmoid函數(shù)的擬合均具有明顯優(yōu)勢(shì),因此文中支持向量機(jī)算法模型選取泛化能力最好的核函數(shù)徑向基核函數(shù),通過(guò)交叉驗(yàn)證法尋找最優(yōu)參數(shù)寬度以及懲罰因子c。徑向基(RBF)函數(shù)的表達(dá)式為
(3)
表1 不同核函數(shù)對(duì)模型性能的影響Table 1 Influence of different kernel functions on model performance
目前,針對(duì)綜采工作面支架工作阻力預(yù)測(cè)方法大致分為2類:一是基于傳統(tǒng)彈性力學(xué)與巖石力學(xué)分析礦壓頂板結(jié)構(gòu)的力學(xué)方法;二是基于煤礦海量數(shù)據(jù),利用人工智能方法挖掘數(shù)據(jù)間客觀存在線性、非線性依賴關(guān)系,從而達(dá)到預(yù)測(cè)為目的智能技術(shù)方法[17]。文中是一種基于支持向量機(jī)與主成分分析(PCA-SVR)組合模型的機(jī)器學(xué)習(xí)算法對(duì)綜采工作面支架工作阻力預(yù)測(cè)的方法。
綜采工作面支架工作阻力的影響因素有很多,而影響支架工作阻力的波動(dòng)方向和顯著程度不盡相同。根據(jù)相關(guān)研究,選取了埋深、煤層傾角、工作面走向長(zhǎng)度、工作面傾斜長(zhǎng)度、直接頂厚度、基本頂厚、采高、煤厚、頂板條件8個(gè)參數(shù)作為為影響工作面支架工作阻力的輸入特征,輸出參數(shù)選擇了工作阻力[18]。在數(shù)據(jù)收集過(guò)程中發(fā)現(xiàn),煤層頂板條件是指工作面頂板的控制難易程度(巖性和節(jié)理為主要指標(biāo)),現(xiàn)為了方便機(jī)器學(xué)習(xí),將其頂板條件按頂板控制程度分別用1,2,3,4代替不穩(wěn)定頂板、中等穩(wěn)定頂板、穩(wěn)定頂板、非常穩(wěn)定頂板?,F(xiàn)采集到的79組淺埋煤層開采數(shù)據(jù)樣本,69組數(shù)據(jù)用于訓(xùn)練模型,10組樣本數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。由于輸入數(shù)據(jù)的每個(gè)特征(比如埋深、采高、工作面長(zhǎng)度等)都有不同的取值范圍,將取值范圍差異很大,且單位不一樣的數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,將導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂速度慢,訓(xùn)練時(shí)間較長(zhǎng),且如果網(wǎng)絡(luò)自動(dòng)適應(yīng)這種取值范圍不同的數(shù)據(jù),數(shù)據(jù)范圍較大的輸入在模型擬合中對(duì)結(jié)果影響偏大,而數(shù)據(jù)輸入范圍小的輸入作用偏小,機(jī)器學(xué)習(xí)肯定變得更加困難。對(duì)于這種數(shù)據(jù),將對(duì)每個(gè)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。各個(gè)工作面的支架工作阻力及其主要影響因素?cái)?shù)據(jù)見表2。
表2 工作面的支架工作阻力及其主要影響因素Table 2 Support working resistance of each working face and its main influencing factors
利用MATLAB仿真軟件,設(shè)計(jì)一種PCA-SVR算法,建立了一個(gè)綜采工作面支架工作阻力的預(yù)測(cè)模型。根據(jù)VAPNIK等人的研究可知,支持向量機(jī)性能的主要影響因素為支持向量機(jī)的核函數(shù)、參數(shù)g以及懲罰因子c[19]。高斯徑向基函數(shù)在之前樣本數(shù)據(jù)預(yù)處理中表現(xiàn)出良好的性能,因此采用徑向基函數(shù)作為SVR的核函數(shù)。
懲罰因子c起著控制錯(cuò)分樣本懲罰程度的作用,從而實(shí)現(xiàn)錯(cuò)誤劃分樣本的比例與算法復(fù)雜度間折中[20]。支持向量機(jī)模型的性能除了受核函數(shù)類型、懲罰因子c的影響還受到核函數(shù)參數(shù)g(核函數(shù)中的方差)的影響[21]。文中利用交叉驗(yàn)證方法尋求最佳核函數(shù)參數(shù)g和懲罰因子c的參數(shù)組合,同時(shí),當(dāng)模型性能相當(dāng)時(shí),優(yōu)先選擇懲罰因子c比較小的組合參數(shù)可以減少計(jì)算時(shí)間,建立訓(xùn)練模型。
綜上,將標(biāo)定好的數(shù)據(jù)集分成2部分,使用69組訓(xùn)練集樣本進(jìn)行訓(xùn)練,10組測(cè)試集進(jìn)行仿真測(cè)試,根據(jù)核函數(shù)參數(shù)和數(shù)據(jù)樣本分布之間的經(jīng)驗(yàn),并進(jìn)行數(shù)次實(shí)驗(yàn)分析模型參數(shù),對(duì)比模型性能,最終選取較佳懲罰因子c=20和核函數(shù)參數(shù)g=0.8。
通過(guò)計(jì)算機(jī)仿真實(shí)驗(yàn)的SVR和 PCA-SVR模型分別對(duì)測(cè)試組工作面支架工作阻力進(jìn)行預(yù)測(cè),用MSE、R2作為評(píng)價(jià)指標(biāo),結(jié)果見表3。
從表3可以看出,PCA-SVR算法在利用主成分分析法對(duì)8個(gè)影響綜采工作面支架工作阻力的因素進(jìn)行降維分析4個(gè)綜合因素后,各成分得分如圖2所示。收斂速度0.97 s明顯較SVR算法的1.79 s快;從超平面擬合效果來(lái)看PCA-SVR算法的相關(guān)系數(shù)99.62%明顯優(yōu)于SVR 71.8%;從預(yù)測(cè)的準(zhǔn)確程度來(lái)看,PCA-SVR的均方誤差0.014較SVR的0.447更接近于0,表明支持向量機(jī)在結(jié)合主成分析法后誤差明顯減少,達(dá)到預(yù)期實(shí)驗(yàn)效果。
表3 SVR與PCA-SVR算法結(jié)果比較Table 3 Comparison of SVR and PCA-SVR results
圖2 主成分貢獻(xiàn)率Fig.2 Contribution rate of principal component
從圖3可以看出,SVR最大誤差25.68%,最小誤差1.3%,平均誤差17.86%,模型整理波動(dòng)幅值較大,預(yù)測(cè)結(jié)果不穩(wěn)定,精度較低,存在較大的偶然性;PCA-SVR算法最大誤差16%,最小誤差1.3%,波動(dòng)幅值僅為 4.5%。因此SVR無(wú)論在誤差還是在精度上,都取得了更好的效果。說(shuō)明PCA算法在降低數(shù)據(jù)集維度的同時(shí)保存了原始數(shù)據(jù)攜帶的信息,實(shí)驗(yàn)結(jié)果表明PCA-SVR算法較SVR模型有較好的泛化性,更好實(shí)現(xiàn)綜采工作面支架工作阻力的預(yù)測(cè)。
圖3 SVR和 PCA-SVR模型誤差Fig.3 Errors of SVR and PCA-SVR model
從圖4可以看出,PCA-SVR模型的預(yù)測(cè)值與實(shí)際輸出值擬合度明顯高于SVR預(yù)測(cè)模型,但工作阻力7 000~1 200 kN擬合程度明顯低于3 000~7 000 kN,這是由于樣本數(shù)據(jù)在7 000~12 000 kN分布較少,支持向量機(jī)未能進(jìn)行充分學(xué)習(xí),但總體上PCA-SVR預(yù)測(cè)模型能夠較好地預(yù)測(cè)綜采工作面的支架工作阻力。
圖4 PCA-SVR支架工作阻力預(yù)測(cè)效果Fig.4 PCA-SVR prediction effects of working resistance
1)綜采工作面礦山壓力是一個(gè)高度復(fù)雜的非線性機(jī)理,同時(shí)也受到了諸多因素的影響。利用 PCA-SVR神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行礦壓規(guī)律的預(yù)測(cè),較SVR模型縮短運(yùn)行時(shí)間0.82 s,預(yù)測(cè)精度高99.6%。
2)用機(jī)器學(xué)習(xí)的方法預(yù)測(cè)綜采工作面的支架工作阻力,與其他神經(jīng)網(wǎng)絡(luò)相比,支持向量機(jī)避免了陷入局部最小,且收斂速度較快。PCA-SVR預(yù)測(cè)模型性能優(yōu)良,在淺埋煤層支架工作阻力預(yù)測(cè)中,泛化性較強(qiáng)。
3)PCA-SVR算法對(duì)綜采工作面支架工作阻力的預(yù)測(cè)能夠取得較好的效果,將該模型應(yīng)用于綜采工作面支架工作阻力的預(yù)測(cè)具有很強(qiáng)的現(xiàn)實(shí)意義和推廣價(jià)值,但由于采礦地質(zhì)環(huán)境復(fù)雜,采集數(shù)據(jù)困難,且存在較大誤差,這給機(jī)器學(xué)習(xí)的算法編程帶來(lái)較大的挑戰(zhàn),因此在建模前需要做大量精細(xì)化的數(shù)據(jù)收集工作,且PCA-SVR模型中的參數(shù)仍需進(jìn)一步優(yōu)化。