范京道,黃玉鑫,閆振國,李川,王春林,賀雁鵬
(1. 陜西延長石 油(集團)有限責任公司,陜西 西安 710075;2. 西安科技大學 安全科學與工程學院,陜西 西安 710054;3. 陜西延長石油巴拉素煤業(yè)有限公司,陜西 榆林 719000)
瓦斯?jié)舛戎笜祟A測以日常瓦斯監(jiān)測監(jiān)控數(shù)據(jù)的統(tǒng)計、分析及挖掘為基礎,對瓦斯?jié)舛鹊淖兓?guī)律進行研究,是一種預測瓦斯?jié)舛劝l(fā)展趨勢的方法[1-3]。常用的瓦斯?jié)舛戎笜祟A測方法有神經(jīng)網(wǎng)絡模型法、指數(shù)平滑法、灰色系統(tǒng)理論預測法和時間序列預測法等,其中ARIMA(Autoregressive Intergrated Moving Average,自回歸滑動平均)模型是研究瓦斯?jié)舛葧r間序列數(shù)據(jù)預測的主要方法,但對于非線性數(shù)據(jù)的分析能力不理想。為解決該問題,許多學者在分析數(shù)據(jù)過程中融入了較多的非線性數(shù)據(jù)分析方法[4-5]。劉瑩等[6]融合多種環(huán)境因素,構(gòu)建了基于多因素的LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)瓦斯?jié)舛阮A測模型,該模型預測效果優(yōu)于單因素模型,具有較高的預測精度。吳奉亮等[7]構(gòu)建了基于特征變量選擇的隨機森林回歸模型,并使用該模型對煤礦瓦斯涌出量進行預測,研究表明該方法能夠有效提高預測效率和精度。張震等[8]建立了一種基于Keras長短期記憶網(wǎng)絡的瓦斯?jié)舛阮A測模型,該模型較ARIMA模型預測效果好、誤差小。周松元等[9]構(gòu)建了基于TreeNet算法的瓦斯?jié)舛阮A測方法,并通過測試分析驗證了該方法是一種基于機器學習的工作面預測指標的敏感性判別方法,可用于建立煤礦工作面瓦斯突出預測敏感指標體系。上述方法存在單一瓦斯預測模型挖掘礦井瓦斯?jié)舛葧r間序列全部特征能力較弱的問題[10]。
針對上述問題,將ARIMA模型與支持向量機(Support Vector Machine,SVM)模型融合,對瓦斯?jié)舛冗M行預測。ARIMA模型可實現(xiàn)對瓦斯?jié)舛葧r間序列的高精度預測,對線性波動的解釋能力較強;SVM模型對非線性特征數(shù)據(jù)具有較高的預測和泛化能力。首先,利用ARIMA模型處理瓦斯?jié)舛葧r間序列的歷史數(shù)據(jù),得到相應的線性預測結(jié)果和殘差序列。其次,利用SVM模型進一步對數(shù)據(jù)殘差序列中的非線性因素進行分析,得到組合模型預測結(jié)果。再次,通過對ARIMA模型與SVM模型分配不同的權(quán)重參數(shù),將SVM模型和ARIMA模型分別預測的結(jié)果進行線性疊加。最后,通過礦井實測數(shù)據(jù)與預測結(jié)果進行對比,驗證組合模型的預測精度。
ARIMA(p,d,q)模型通過收集、分析過去時間點的觀測值來刻畫其內(nèi)在聯(lián)系,并對過去時間的觀測值及誤差線性方程進行分析,以實現(xiàn)預測目的[11-12],其中p為自回歸階數(shù),p≥0,d為差分階數(shù),d>0,q為移動平均的階數(shù),q≥0。假定時間序列X={xi,i=1,2,…,N},xi為第i個時間序列數(shù)據(jù),N為時間序列中數(shù)據(jù)總數(shù),則ARIMA(p,d,q)為
式中:為 第i個線性時間序列數(shù)據(jù)的預測值;θq和φp為待估計的參數(shù)值;εi為預測誤差。
SVM是基于統(tǒng)計學理論的新型機器學習方法[13-14]。假設訓練集,其中zA為第A個瓦斯?jié)舛葧r間序列數(shù)據(jù)殘差的輸入,fA為第A個瓦斯?jié)舛葧r間序列數(shù)據(jù)殘差的輸出,則SVM回歸模型為
式中:w和b為超平面參數(shù);ξ為松弛變量;C為懲罰因子,C>0;ξA為第A個瓦斯?jié)舛葧r間序列數(shù)據(jù)的松弛變量;φ(zA)為映射函數(shù);?為決定間隔邊界寬度的超參數(shù)。
瓦斯?jié)舛葧r間序列數(shù)據(jù)中包含線性和非線性2種趨勢,ARIMA模型對于線性部分的數(shù)據(jù)特征有較強的捕捉能力,而SVM模型在分析和預測非線性數(shù)據(jù)具有突出性能。假定瓦斯?jié)舛葧r間序列數(shù)據(jù)X由線性和非線性2個部分構(gòu)成,X={xi,i=1,2,…,N}。首先,采用ARIMA模型分析一維瓦斯?jié)舛葧r間序列的歷史數(shù)據(jù),得到線性時間序列數(shù)據(jù)的預測值l和預測時間序列殘差數(shù)據(jù)δi,δi=xi-。其次,采用SVM模型在影響瓦斯?jié)舛葧r間序列數(shù)據(jù)的面板數(shù)據(jù)上進一步分析預測時間序列殘差數(shù)據(jù)δi中的非線性因素,獲得非線性時間序列數(shù)據(jù)預測值。最后,將2個模型分析預測結(jié)果進行組合,得到目標瓦斯?jié)舛葧r間序列數(shù)據(jù)的最終預測結(jié)果
選取陜北某礦211工作面上隅角2020年9月1-7日共7天的瓦斯?jié)舛葦?shù)據(jù)統(tǒng)計指標作為研究對象。該礦位于榆林市境內(nèi),煤層瓦斯含量較低,地質(zhì)條件變化較小。選取的數(shù)據(jù)源自同一煤層相同盤區(qū),僅考慮在瓦斯?jié)舛葐我蛩赜绊懴碌念A測結(jié)果。從9月1日0時起開始監(jiān)測瓦斯?jié)舛?,? min采集1次,取其平均值,共采集2 016組數(shù)據(jù)作為實驗數(shù)據(jù)。9月1日采集的原始數(shù)據(jù)如圖1所示,部分數(shù)據(jù)見表1。
圖1 原始瓦斯?jié)舛葧r間序列Fig. 1 Original time sequence of gas concentration
表1 9月1日采集的部分瓦斯?jié)舛葦?shù)據(jù)Table 1 Part of the gas concentration data collected on September 1
2.2.1 ARIMA模型預測
將1 440組數(shù)據(jù)作為模型的訓練集,用于模型參數(shù)估計;其余576組數(shù)據(jù)作為測試集,用于模型泛化能力測試與檢驗。采用拉依達準則[15](即先假設1組檢測數(shù)據(jù)僅有隨機誤差,對該數(shù)據(jù)分析后得到標準偏差,按一定概率構(gòu)建一個區(qū)間,若超過該區(qū)間誤差,則不屬于隨機誤差而是粗大誤差,應將其舍棄)對所采集數(shù)據(jù)中的異常數(shù)據(jù)(瓦斯傳感器測量值與其平均值之差的絕對值大于其標準差3倍的數(shù)據(jù))進行處理,將異常數(shù)據(jù)替換為其相鄰2個數(shù)據(jù)的平均值。將預處理后的數(shù)據(jù)進行單位根(Augmented Dickey-Fuller test,ADF)檢驗處理,如果時間序列平穩(wěn),則不存在ADF,否則存在ADF。在ADF檢驗過程中假設訓練集存在ADF,如果得到的顯著性檢驗統(tǒng)計量(T值)小于3個置信度(10%,5%,1% ),則分別對應有90%,95%,99%的把握來拒絕原假設,且T值對應的概率值(P值)小于0.05(最好等于0)時,即可判斷為平穩(wěn)時間序列,否則為非平穩(wěn)時間序列,利用差分法對非平穩(wěn)時間序列進行平穩(wěn)化處理,采用ADF對差分后的序列繼續(xù)進行檢驗,直至其達到平穩(wěn)。ADF檢驗結(jié)果見表2。
由表2可看出,T值為-6.22,小于置信度為1%,5%,10%的臨界值,但P值大于0.05,因此判斷預處理后的瓦斯?jié)舛葦?shù)據(jù)為非平穩(wěn)時間序列。對其分別進行一階差分和二階差分處理,使其成為平穩(wěn)時間序列,如圖2、圖3所示。
圖2 非平穩(wěn)瓦斯?jié)舛葧r間序列的一階差分結(jié)果Fig. 2 Result of first-order difference for time series of nonstationary gas concentrations
圖3 非平穩(wěn)瓦斯?jié)舛葧r間序列的二階差分結(jié)果Fig. 3 Results of second-order difference for time series of nonstationary gas concentrations
表2 ADF檢驗結(jié)果Table 2 Result of ADF test
從圖2和圖3可看出,非平穩(wěn)時間序列在經(jīng)過一階差分、二階差分處理后數(shù)據(jù)已趨于平穩(wěn),且經(jīng)一階差分與二階差分處理后的瓦斯?jié)舛确植稼厔莶町愝^小,均趨于平穩(wěn)序列。
為進一步判斷經(jīng)一階差分處理后的時間序列是否為平穩(wěn)序列,對一階差分后的序列進行ADF檢驗,得P值為5.038×10-8,遠小于0.05,接近0,因此判斷經(jīng)一階差分處理后的非平穩(wěn)時間序列成為平穩(wěn)時間序列。
數(shù)據(jù)平穩(wěn)后使用自相關函數(shù)(Autocorrelation Function,ACF)和偏自相關函數(shù)(Partial Autocorrelation Function,PACF)為ARIMA模型定階,如圖4所示??煽闯鯝CF和PACF在一階或二階后均落在置信區(qū)間,因此初步可得ARIMA(1,1,1),ARIMA(1,1,2),ARIMA(2,1,1),ARIMA(2,1,2)4個模型。
圖4 自相關與偏自相關函數(shù)Fig. 4 Autocorrelation and partial autocorrelation functions
采用貝葉斯準則(Bayesian Information Criterion,BIC)對模型進行選擇,BIC值越小,表示模型越優(yōu),將4個模型進行對比并選取最優(yōu)模型(圖5),其中AR0-AR4為自回歸模型輸出,MA0-MA4為移動平均模型輸出??煽闯霎斪曰貧w模型階數(shù)p為1、移動平均模型階數(shù)q為2時,BIC值最小,因此可判斷ARIMA(1,1,2)為最優(yōu)模型。
圖5 BIC圖Fig. 5 BIC diagram
利用Ljung-Box來檢驗ARIMA(1,1,2)模型的適用性,通過ARMA(1,1,2)模型預測后得到一個新的序列(即預測序列)。如果模型對原始序列解釋性很好(即檢驗結(jié)果中P值均大于等于0.05),則預測序列與原始序列的差值(殘差序列)是白噪聲序列。在本次檢驗中所有P值均大于0.05,部分P值見表3。這說明預測序列與原始序列的差值是白噪聲序列,因此判斷模型對瓦斯?jié)舛葦?shù)據(jù)的變化趨勢較為適用。采用該最優(yōu)模型預測9月6,7日的瓦斯數(shù)據(jù),結(jié)果如圖6所示??煽闯鯝RIMA(1,1,2)模型具有較高的擬合度,但與實際數(shù)據(jù)仍存在一定擬合誤差。
圖6 ARIMA模型的瓦斯?jié)舛阮A測結(jié)果Fig. 6 Gas concentration prediction results by ARIMA model
表3 Ljung-Box檢驗表Table 3 Ljung-Box inspection table
2.2.2 SVM模型預測
利用SVM模型對瓦斯?jié)舛葧r間序列的非線性部分進行預測,以9月1-5日1 440組數(shù)據(jù)作為訓練集對SVM模型進行訓練,對擬合樣本進行歸一化,在確定最優(yōu)懲罰因子為72、最優(yōu)核函數(shù)為0.01后,對9月6,7日576組數(shù)據(jù)進行預測,結(jié)果如圖7所示??煽闯鲱A測結(jié)果與實際數(shù)據(jù)走勢相近,但擬合度相對較差。
圖7 SVM模型的瓦斯?jié)舛阮A測結(jié)果Fig. 7 Gas concentration prediction results by SVM model
2.2.3 ARIMA-SVM模型預測
以9月1-5日1 440組數(shù)據(jù)作為訓練集對ARIMA-SVM組合模型進行訓練,通過ARIMA模型處理線性數(shù)據(jù),SVM模型處理非線性數(shù)據(jù),對ARIMA模型預測誤差進行優(yōu)化,最終通過最優(yōu)ARIMA-SVM組合模型對9月6,7日576組數(shù)據(jù)進行預測,結(jié)果如圖8所示。可看出ARIMA-SVM組合模型預測結(jié)果與實際數(shù)據(jù)的擬合度優(yōu)于ARIMA模型和SVM模型。
圖8 ARIMA-SVM組合模型的瓦斯?jié)舛阮A測結(jié)果Fig. 8 Gas concentration prediction results by ARIMA-SVM combined model
采用ARIMA模型、SVM模型及ARIMA-SVM組合模型對瓦斯?jié)舛葦?shù)據(jù)進行預測分析,結(jié)果如圖9所示??煽闯鱿鄬τ贏RIMA模型、SVM模型,ARIMA-SVM組合模型的誤差大幅度減小,且預測結(jié)果明顯優(yōu)于單一預測模型。
圖9 瓦斯?jié)舛阮A測結(jié)果Fig. 9 Prediction results of gas concentration
為更加客觀地了解各模型預測精度,采用平均絕對誤差(Mean Absolute Error,MAE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和均方根誤差(Root Mean Square Error,RMSE)3個指標來衡量各模型預測結(jié)果(表4)。
表4 各模型預測結(jié)果分析Table 4 Prediction results analysis of each model
從表4可看出,ARIMA-SVM組合模型的MAE,MAPE,RMSE均為最小,說明ARIMA-SVM組合模型預測效果更顯著,預測精度更高。因此ARIMASVM組合模型更加適合瓦斯?jié)舛葧r間序列預測。
針對瓦斯?jié)舛葧r間序列中既有線性趨勢又有非線性趨勢的數(shù)據(jù)特征,采用ARIMA模型預測序列中的線性數(shù)據(jù),利用SVM模型預測序列中的非線性數(shù)據(jù)。結(jié)合ACF,PACF及BIC準則,得到ARIMA最優(yōu)模型為ARIMA(1,1,2),根據(jù)核函數(shù)等參數(shù)尋優(yōu),確立了最優(yōu)SVM模型,從而建立了ARIMA-SVM組合模型。利用3種模型對瓦斯?jié)舛冗M行預測,結(jié)果表明:ARIMA-SVM組合模型預測結(jié)果與實際數(shù)據(jù)的擬合度優(yōu)于ARIMA模型和SVM模型;相對于ARIMA模型、SVM模型,ARIMA-SVM組合模型的誤差大幅減小,且預測結(jié)果明顯優(yōu)于單一模型;ARIMA-SVM組合模型的MAE、MAPE,RMSE均為最小,ARIMA-SVM組合模型預測效果更顯著、預測精度更高,能夠綜合反映瓦斯?jié)舛葧r間序列規(guī)律,對煤礦瓦斯精準預警具有重要意義。