郭風景,王 斌,賈澎濤,孫劉詠,廖永強
(1.陜西陜煤蒲白礦業(yè)有限公司,陜西省渭南市,715517;2.陜西建新煤化有限責任公司,陜西省延安市,727300;3.西安科技大學計算機科學與技術(shù)學院,陜西省西安市,710054)
煤礦瓦斯?jié)舛阮A測的目的是在充分挖掘歷史數(shù)據(jù)的基礎(chǔ)上,獲取可靠的災害前兆信息,對瓦斯災害進行超前預報或預警,從而避免事故的發(fā)生。隨著人工智能技術(shù)的廣泛應(yīng)用,許多學者將機器學習算法應(yīng)用于瓦斯?jié)舛阮A測,取得了較好的預測效果。綜合來看,這些瓦斯?jié)舛阮A測方法主要分為基于單一傳統(tǒng)機器學習的方法、基于集成學習的方法和基于深度學習的方法3類。
基于單一傳統(tǒng)機器學習的瓦斯?jié)舛阮A測方法主要有灰色關(guān)聯(lián)分析與高斯過程回歸方法[1]、偏最小二乘回歸分析方法[2]、差分自回歸移動平均(ARIMA)方法[3]、BP神經(jīng)網(wǎng)絡(luò)方法[4-8]、支持向量回歸方法[9-10]等。這些研究在瓦斯?jié)舛阮A測方面做出了有益的探索,但是單一機器學習方法受方法本身的局限,預測精度還有待進一步提高,預測的泛化能力也有待改進。
為了克服單一方法的不足,一些學者采用集成學習方法預測瓦斯?jié)舛?。集成學習方法通過組合多個基學習器進行預測,從而達到“取長補短”的目的。付華等[11]在不等權(quán)泛平均運算模型研究的基礎(chǔ)上,提出了集成自回歸和徑向基函數(shù)模型的礦井瓦斯?jié)舛阮A測方法;賈澎濤等[12]基于瓦斯?jié)舛扰c環(huán)境因素相關(guān)性分析,提出了瓦斯災害選擇集成回歸學習模型;LIANG Rong等[13]構(gòu)建了基于前序選擇集成回歸模型的瓦斯?jié)舛阮A測方法。這些集成預測模型彌補了單一方法的不足,精度和泛化能力較單一模型有所提高,但是運行的時間效率有所下降。
隨著深度學習的逐漸應(yīng)用,近年來,一些學者也將其應(yīng)用在瓦斯?jié)舛阮A測領(lǐng)域。李樹剛等[14-15]建立了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的工作面瓦斯?jié)舛阮A測模型,獲得了較好的準確性。但是RNN網(wǎng)絡(luò)隨著數(shù)據(jù)量、隱藏層數(shù)和神經(jīng)元數(shù)量的增大,往往會面臨梯度爆炸、梯度消失和長期依賴的問題。因此,一些學者[16-23]研究了基于長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的瓦斯?jié)舛葧r間序列預測,有效解決了RNN網(wǎng)絡(luò)存在的問題,取得了較好的預測效果。但是LSTM模型存在參數(shù)較多、結(jié)構(gòu)較為復雜、不易收斂、訓練時間長等問題。為了解決LSTM存在的問題,一些學者[24-26]提出了一種基于優(yōu)化門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(GRU)的瓦斯?jié)舛阮A測模型,相比RNN和LSTM具有更高的精度和更少的運行時間。但是,與非深度學習模型相比,深度學習模型訓練耗時長,需要數(shù)據(jù)量大,不能滿足在線預測的要求。
綜合來看,單一的機器學習模型的精度有待提高,而深度學習模型由于網(wǎng)絡(luò)結(jié)構(gòu)復雜、參數(shù)多,導致建模效率較為低下。此外,目前多數(shù)瓦斯?jié)舛饶P蜑殪o態(tài)模型,不支持在線預測,這些都是需要亟待解決的問題。因此,筆者嘗試采用機器學習中有監(jiān)督集成學習方法——梯度提升決策樹(GDBT),進行瓦斯?jié)舛阮A測。首先,采集瓦斯?jié)舛葰v史數(shù)據(jù),應(yīng)用拉格朗日插值法和拉依達準則對數(shù)據(jù)中的異常值和缺失值進行預處理;其次,在集成學習理論的基礎(chǔ)上,構(gòu)建基于梯度提升決策樹的瓦斯?jié)舛阮A測模型;然后,采用L2-范式作為目標函數(shù),確定模型輸入滑動窗口長度的最優(yōu)值,建立瓦斯?jié)舛仍诰€預測模型;最后,實驗驗證了模型的預測有效性、在線預測效率和泛化能力。
GBDT算法是集成學習算法Boosting的一個代表算法,用于解決高維非線性數(shù)據(jù)的分類與回歸預測問題[27]。GBDT算法采用K個分類回歸決策樹(CART)[28]作為基學習器,以K個基學習器輸出結(jié)果的和作為最終結(jié)果。
原始瓦斯?jié)舛葦?shù)據(jù)由于受傳感器故障、傳輸鏈路中斷、環(huán)境等因素影響,可能存在數(shù)據(jù)缺失、噪聲、異常值等“臟數(shù)據(jù)”。在進行瓦斯?jié)舛阮A測之前,必須先對這些“臟數(shù)據(jù)”進行處理。采用拉依達準則查找原始數(shù)據(jù)中的異常值,并將異常值視為缺失值。
拉依達準則是較為常見的異常值判別準則。如果具有n個數(shù)據(jù)的時間序列集合X={x1,x2,…,xn}的殘差絕對值大于3倍的標準偏差時,即如果標準差如式(1)所示時,不等式(2)成立,則認為該測量值為異常值,將異常值處理為缺失值。
式中:σ——數(shù)據(jù)的標準差;
xi——第i個數(shù)據(jù)值;
n——數(shù)據(jù)的總數(shù)量。
然后再應(yīng)用拉格朗日插值法對數(shù)據(jù)中的缺失值進行預處理。拉格朗日插值法是一種多項式插值方法。設(shè)具有n個離散點的瓦斯監(jiān)測時間序列數(shù)據(jù)為G={x1,x2,…xt,…,xn},t時刻瓦斯監(jiān)測數(shù)據(jù)缺失值為xt,有拉格朗日插值函數(shù)L(t),使得xt=L(t)。構(gòu)造n次拉格朗日插值函數(shù)為:
(3)
式中:L(t)——拉格朗日插值函數(shù);
t——時刻;
ti——第i個時刻;
tk——第k個時刻。
拉格朗日插值法簡單易用,但是在實際使用中,為了避免龍格現(xiàn)象(即在兩端處波動極大,產(chǎn)生明顯的震蕩),需要根據(jù)數(shù)據(jù)具體情況確定合適的插值階數(shù)。
GBDT瓦斯?jié)舛阮A測算法的基礎(chǔ)是回歸決策樹CART算法,回歸決策樹本質(zhì)是一個二叉樹,由父節(jié)點和子節(jié)點構(gòu)成。
式中:I——脈沖函數(shù);
ave——平均值函數(shù);
yi——子空間中對于輸入xi的輸出結(jié)果。
(6)
對于此分割問題,存在一個最優(yōu)分割,使得R={x1,x2,…,xn)最小,其中R={x1,x2,…,xn)可表示為:
(7)
式中:|Gm|——屬于子空間Gm樣本點的個數(shù)。
按照上述分割方法,將Gl和Gr作為父節(jié)點遞歸進行分割,直至當前父節(jié)點中樣本的y值方差小于給定方差閾值。條件滿足時,停止遞歸并將當前父節(jié)點設(shè)置為葉子節(jié)點。至此,建立起單棵瓦斯?jié)舛阮A測CART樹。
單顆CART決策樹已經(jīng)能對瓦斯?jié)舛冗M行預測,但精度不高,且不穩(wěn)定。因此,應(yīng)用集成學習的思路,在單棵CART樹的基礎(chǔ)上,構(gòu)建基于GBDT的瓦斯?jié)舛阮A測模型(PGBDT),則可有效彌補單棵CART預測樹的不足。
GBDT算法是一種迭代的決策樹算法,可以看作是M棵CART樹構(gòu)成的加法模型:
(1)初始化一個弱CART樹學習器CART0(x):
(8)
式中:L(xi,c)——損失函數(shù)。
(2)針對瓦斯樣本數(shù)據(jù)集建立M棵CART樹:
對于i=1,2,…,n,計算m(m=1,2,…,M)棵樹損失函數(shù)的負梯度:
(9)
式中:rm,i——損失函數(shù)的負梯度。
(3)使用CART回歸樹擬合數(shù)據(jù)(xi,rm,i)(i=1,2,…,n),獲得第m棵回歸樹,對應(yīng)的葉子節(jié)點區(qū)域為Rm,j(j=1,2,…,Jm),第m棵回歸樹葉子節(jié)點的個數(shù)為Jm。
(4)對于Jm個葉子節(jié)點區(qū)域(j=1,2,…,Jm)計算出最佳擬合值:
(10)
式中:cm,i——最佳擬合值;
c——待擬合的模型參數(shù)。
(5)更新強學習器CARTm(x):
(11)
(6)建立M棵CART樹的輸出加權(quán)求和,得到GBDT模型的結(jié)果:
(12)
式中:w——模型參數(shù);
α——每棵樹的權(quán)重。
PGBDT模型結(jié)構(gòu)如圖1所示。
圖1 PGBDT模型結(jié)構(gòu)
前述建立的PGBDT模型是靜態(tài)模型,并不具備在線預測的能力,不能滿足瓦斯?jié)舛仍诰€預測的需求。因此,對PGBDT模型進行改進,采用L2-范式作為目標函數(shù),確定模型輸入滑動窗口長度的最優(yōu)值,建立瓦斯?jié)舛仍诰€預測模型,使其具備在線預測的能力。
設(shè)在一個時間監(jiān)測周期t內(nèi)的瓦斯?jié)舛葧r間序列為G={x1,x2,…xt},yt+1為t+1即下一時刻的預測值:
yt+1=PGBDT(G,α,w)
(13)
設(shè)PGBDT模型在線學習窗口長度為N,則PGBDT模型參數(shù)估計由xt-1,xt-2,…,xt-N+1確定,窗口長度N的值可由L2-范式最小化(L2-min)方法確定。
設(shè)瓦斯?jié)舛葴y試集誤差ε(t)為:
(14)
取測試集誤差和的最小值,即可求得最佳學習窗口長度N值,并利用寬度為N的滑動窗口實現(xiàn)新監(jiān)測數(shù)據(jù)的增量學習。
在陜西建新煤礦進行工作面瓦斯?jié)舛缺O(jiān)測數(shù)據(jù)采樣,采集時間從2019年4月18日12∶00開始,至2019年5月19日10∶35結(jié)束,數(shù)據(jù)采集粒度為5 min。應(yīng)采集數(shù)據(jù)8 914條,實際采集有效數(shù)據(jù)8 895條,數(shù)據(jù)缺失19條,無異常值和噪聲值。實驗數(shù)據(jù)均值為0.146%,標準差為0.087%,最小值0.021%,最大值0.925%。按照9∶1的比例劃分訓練集與測試集。
采用拉格朗日插值法對數(shù)據(jù)中的空值進行插值處理。處理后的數(shù)據(jù)盒如圖2所示,圖中顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)及上下四分位數(shù)。
圖2 實驗數(shù)據(jù)盒
選擇線性回歸(LR)、差分自回歸移動平均(ARIMA)[3]、支持向量回歸(SVR)[10]、BP神經(jīng)網(wǎng)絡(luò)[4-9]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、LSTM[18-23]、GRU[24-26]等預測方法作為實驗對比方法。
為了檢驗預測方法的有效性,必須用一定的指標對預測效果進行綜合性的衡量和評價。按照預測效果評價的原則和慣例,采用以下評價指標作為參考。
設(shè)瓦斯?jié)舛葦?shù)據(jù)測試集真實值為Gtest={xn+1,xn+2,…,xn+s},預測值集合為Gpre={yn+1,yn+2,…,yn+s},選擇以下3項指標作為評價指標:
(1)平均絕對誤差MAE:
(15)
式中:s——總數(shù)據(jù)量。
(2)均方根誤差RMSE:
(16)
MAE和RMSE越小,說明模型的預測效果越好。
(3)判定系數(shù)R2:
(17)
R2取值為0~1,越接近1,說明模型的預測精度越高。
在測試數(shù)據(jù)集上,對PGBDT方法和對比預測方法進行測試,實驗評價結(jié)果和運行時間數(shù)據(jù)對比見表1。
表1 不同預測方法的評價指標結(jié)果
從表1可以看出,在預測精度方面,在MAE指標上,PGBDT取得了最好的預測效果0.014 5;在RMSE指標上,ARIMA、PGBDT、BP、LSTM和GRU取得了較好的預測效果0.001 0;在R2指標上,PGBDT取得了最好的預測效果0.891 2。在預測效率方面,LR和SVR的訓練和運行時間較短,PGBDT次之,BP、RNN、LSTM、GRU的運行效率較差。
綜合來看,對于靜態(tài)預測模型,LSTM、GRU等深度學習方法預測精度和PGBDT不相上下,但是PGBDT的預測效率較大幅度優(yōu)于LSTM和GRU模型。
學習窗口長度N依據(jù)L2-范式確定。設(shè)定學習窗口的下界為10,上界為600。將窗口值從10增至600,每次增加窗口的長度為1,創(chuàng)建相應(yīng)的PGBDT模型,并在測試集上進行逐點預測,求出每個模型在測試集上的L2-范式,得出L2-范式在不同學習窗口大小下的變化情況,如圖3所示。
圖3 學習窗口長度與L2-范式關(guān)系
由圖3可知,學習窗口在300之前,L2-范式值呈下降趨勢;學習窗口在300~430之間,L2-范式值來回波動;在學習窗口300時,L2-范式值取得最小值;學習窗口大小超過430之后,L2-范式值又呈上升趨勢。因此選擇序貫學習窗口大小為300,此時L2-范式值為0.0 007 981,MAE值為0.011 8,MAE比在全部訓練集上學習取得的MAE誤差率0.014 1降低了16.3%。全訓練集上學習窗口長度為8 023,學習窗口大小300時比靜態(tài)全訓練集窗口長度降低96.3%。學習窗口長度的降低有效地降低了GBDT模型的建模復雜度,因此更適合在線預測。
選擇在線學習窗口大小為300后,使用該預測模型在線逐點預測50個數(shù)據(jù)點,不同模型學習窗口在300時的預測效果對比見表2。
表2 不同模型在線預測方法的評價指標結(jié)果
從表2可以看出,在線預測情況下,PGBDT取得了最好的預測精度,MAE、RMSE和R2指標上均最優(yōu);在預測效率上,LR模型取得了最好的預測效率,其次是SVR和PGBDT,綜合來看,PGBDT取得了較好的綜合預測結(jié)果。
(1)提出了一種基于梯度下降回歸預測方法的瓦斯?jié)舛阮A測方法PGBDT,該方法利用歷史數(shù)據(jù)訓練梯度下降建立回歸模型,通過對缺失值進行預測,實現(xiàn)了針對瓦斯?jié)舛葧r間序列缺失值的插補。
(2)通過實驗,在相同條件下,對不同預測方法在瓦斯?jié)舛葦?shù)據(jù)集上的預測效果進行了比較分析。實驗結(jié)果表明,PGBDT方法相較于LR、ARIMA、SVR、BP、RNN模型,在預測精度和運行時間方面具有較明顯的優(yōu)勢;相較于LSTM和GRU模型,在運行時間方面具有明顯優(yōu)勢。對于實時預測模型,PGBDT在預測精度和預測效率上均有較好的優(yōu)勢。
(3)PGBDT模型能夠方便快捷地部署到煤礦生產(chǎn)應(yīng)用領(lǐng)域,進行實時在線的瓦斯?jié)舛阮A測,對保障煤礦的生產(chǎn)安全和礦工的生命安全具有重要的現(xiàn)實意義。