李 偉, 陳海波
(黑龍江科技大學(xué) 黑龍江省普通高校采礦工程重點(diǎn)實(shí)驗(yàn)室, 哈爾濱 150022)
?
急傾斜煤層頂煤可放性隨機(jī)森林模型分類預(yù)測(cè)及應(yīng)用
李偉,陳海波
(黑龍江科技大學(xué) 黑龍江省普通高校采礦工程重點(diǎn)實(shí)驗(yàn)室, 哈爾濱 150022)
為快速、準(zhǔn)確地預(yù)測(cè)急傾斜煤層開采中頂煤可放性等級(jí),借鑒隨機(jī)森林理論,以 19 個(gè)放頂煤工作面為例,選取九大實(shí)測(cè)指標(biāo)作為頂煤可放性識(shí)別因子,建立急傾斜煤層頂煤可放性識(shí)別的隨機(jī)森林模型。通過(guò)五折交叉檢驗(yàn)確定模型最優(yōu)參數(shù),將模型應(yīng)用到五組急傾斜煤層頂煤可放性評(píng)估中。研究表明:隨機(jī)森林模型預(yù)測(cè)結(jié)果符合工程實(shí)際,且當(dāng)分段數(shù)量為 5 時(shí),其精度最優(yōu),分別為 91.0%和 100.0%。該研究可以在工程中推廣使用。
急傾斜煤層; 可放性預(yù)測(cè); 隨機(jī)森林; 交叉檢驗(yàn)
頂煤可放性識(shí)別是急傾斜煤層巷道放頂煤開采技術(shù)的合理應(yīng)用及重要依據(jù),頂煤可放性直接決定巷道放頂煤的開采設(shè)計(jì)與效益[1-3]。為很好地評(píng)價(jià)頂煤可放性,部分學(xué)者在頂煤可放性機(jī)制和預(yù)測(cè)評(píng)價(jià)等方面進(jìn)行了大量富有成效的研究工作,尤其是將先進(jìn)的計(jì)算理論和方法引入到頂煤可放性評(píng)價(jià)中來(lái)[1, 4-6]。新的研究成果具有各自的優(yōu)點(diǎn),但同時(shí)也具有局限性。為此,學(xué)者仍在不斷探索更為科學(xué)有效的評(píng)價(jià)方法。隨機(jī)森林 (Random forest, RF)[7]由著名統(tǒng)計(jì)學(xué)家Breiman提出,是一種基于決策樹的組合分類機(jī)器學(xué)習(xí)模型,其內(nèi)涵是通過(guò)對(duì)大量分類樹的匯總進(jìn)而提高其模型的預(yù)測(cè)精度,與支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)智能算法相比,隨機(jī)森林預(yù)測(cè)精度相對(duì)較高,且運(yùn)算量大大降低。隨機(jī)森林模型在經(jīng)濟(jì)學(xué)、醫(yī)學(xué)等領(lǐng)域應(yīng)用,已體現(xiàn)出卓越的性能[8]。在煤炭領(lǐng)域,從急傾斜煤層頂煤可放性的影響因素考慮,利用RF預(yù)測(cè),可準(zhǔn)確反映輸入變量和輸出變量的關(guān)系,適合于受非線性多元因子影響的頂煤可放性預(yù)測(cè)。
1.1RF計(jì)算原理
RF 算法利用Bagging( Bootstrap aggregating) 抽樣方法從原始數(shù)據(jù)集中抽取若干個(gè)數(shù)據(jù),對(duì)其使用基尼系數(shù)gini為屬性度量,建立分類回歸決策樹。其原理是通過(guò)劃分決策樹各層使初始數(shù)據(jù)集變得相對(duì)純凈,在屬性度量上表現(xiàn)為基尼系數(shù)下降[9]。隨機(jī)森林分類器如圖 1所示。
圖1 隨機(jī)森林分類器
RF 算法采用多棵決策樹并通過(guò)投票數(shù)對(duì)目標(biāo)歸屬進(jìn)行預(yù)測(cè),結(jié)合相應(yīng)的預(yù)測(cè)精度來(lái)進(jìn)行評(píng)估,其算法由以下三步實(shí)現(xiàn)[10-11]:
(1)從初始樣本中抽取ntree個(gè)訓(xùn)練子樣本,訓(xùn)練子樣本大小約占初始樣本的2/3。抽取采用bootstrap技術(shù)完成,在有放回的抽取中約有1/3的樣本未被抽取,這部分樣本自然作為對(duì)照樣本集。
(2)分別對(duì)訓(xùn)練樣本集建立分類回歸樹,組建ntree棵決策樹的“森林”,從全部M個(gè)屬性中隨機(jī)選擇mtry(mtry≤M)個(gè)最優(yōu)分段屬性進(jìn)行分支。
(3) 集合決策樹預(yù)測(cè)結(jié)果,以投票方式確定新樣本的正確歸屬,分類決策為
(1)
式中:H(x)——組合分類模型;
hi——單個(gè)決策樹分類模型;
I(·)——示性函數(shù);
Y——輸出變量。
在RF訓(xùn)練過(guò)程中,每次抽取將有約1/3的袋外數(shù)據(jù)未能被抽中,由此產(chǎn)生了袋裝誤差,袋裝誤差為無(wú)偏估計(jì),趨近于交叉檢驗(yàn)誤差[12]。
1.2RF模型評(píng)價(jià)指標(biāo)
對(duì)模型精度評(píng)價(jià)一般采用混淆矩陣方法,其矩陣為M×M(M為分類數(shù)),用于直觀比較分類點(diǎn)和參照點(diǎn)。Kappa統(tǒng)計(jì)量表征被評(píng)價(jià)分類與完全隨機(jī)分類產(chǎn)生錯(cuò)誤減少的比值,其計(jì)算公式[13-14]為:
(2)
式中:xi+——第i行和;
x+i——第i列和;
xii——第i行i列主對(duì)角線值;
r——混淆矩陣行數(shù);
N——樣本總數(shù)。
2.1輸入/輸出參量的確定
建立急傾斜煤層頂煤可放性的RF預(yù)測(cè)模型時(shí),需考慮分析資料的易獲性和代表性,參考有關(guān)文獻(xiàn)[1-6],經(jīng)綜合考慮選取煤層基本頂 (X1)、直接頂 (X2)、底板平整度 (X3)、瓦斯含量 (X4)、采深 (X5)、煤層傾角 (X6)、煤層厚度 (X7)、煤層堅(jiān)固性系數(shù) (X8)和夾矸程度 (X9) 九個(gè)特征參數(shù)指標(biāo)作為隨機(jī)森林模型評(píng)估指標(biāo),隨后發(fā)展起來(lái)的距離判別分析模型、Fisher分析模型、SVM模型和神經(jīng)網(wǎng)絡(luò)模型等均選用X1、X2、…、X9作為影響頂煤可放性的主要指標(biāo),對(duì)頂煤可放性類別進(jìn)行預(yù)測(cè),并取得了良好的效果。其中X1和X2用所屬分級(jí)和類別表示,X1代表煤層基本頂?shù)燃?jí)為 I ~ IV 級(jí),直接頂X2的等級(jí){1 ~ 4}為{不穩(wěn)定、較穩(wěn)定、穩(wěn)定和堅(jiān)硬}四類;X3代表平整度,即X3的等級(jí) {1 ~ 4 }分別表示{平整、較平整、不平整、極不平整};煤層堅(jiān)固性系數(shù)X8用普氏系數(shù) (f) 表示;夾矸程度指標(biāo)X9=mj/d,其中D代表煤層總厚度,dj代表煤層中總夾矸厚度;其余指標(biāo)為定量指標(biāo)用實(shí)測(cè)值表示。急傾斜煤層頂煤可放性難易程度按四類考慮,即好(A)、較好(B)、一般(C)和差(D)。
2.2仿真數(shù)據(jù)采集
為驗(yàn)證RF的急傾斜煤層頂煤可放性評(píng)價(jià)的有效性,選取文獻(xiàn)[1, 4-6]中19 個(gè)急傾斜煤層放頂煤工作面實(shí)測(cè)數(shù)據(jù)為研究對(duì)象,其原始數(shù)據(jù)見表 1。煤層傾角54°~89°,煤層厚度2.0~7.9 m區(qū)間,數(shù)據(jù)集可視化如圖2所示。
表1 急傾斜煤層頂煤可放性實(shí)測(cè)數(shù)據(jù)及分類結(jié)果
圖2 各指標(biāo)數(shù)據(jù)可視化
2.3參數(shù)尋優(yōu)
RF模型穩(wěn)定性及泛化能力采用兩種方法進(jìn)行驗(yàn)證。第一,獨(dú)立測(cè)試:利用訓(xùn)練樣本集構(gòu)建的RF模型對(duì)測(cè)試樣本集預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果檢驗(yàn)?zāi)P?;第二?交叉檢驗(yàn):采用n倍交叉檢驗(yàn)策略,即將訓(xùn)練集隨機(jī)分成n組樣本,留出1組作為測(cè)試樣本,其余n-1組作為訓(xùn)練樣本,輪流進(jìn)行n次,作為測(cè)試數(shù)據(jù)對(duì)每組樣本進(jìn)行預(yù)測(cè)。隨機(jī)森林五折交叉檢驗(yàn)的結(jié)果如圖3所示,不難發(fā)現(xiàn),當(dāng)n= 5 時(shí),該模型整體識(shí)別精度達(dá)到91.0%,Kappa=0.881,為所有分段數(shù)目中的最佳。
RF在產(chǎn)生分類結(jié)果的同時(shí)可計(jì)算出變量重要性值,如圖4。根據(jù)隨機(jī)森林袋外數(shù)據(jù)自變量值發(fā)生輕微擾動(dòng)后的分類正確率與擾動(dòng)前分類正確率的平均減少量計(jì)算可知,采深 (X5)和瓦斯含量 (X4)重要度最高,其后依次為煤層傾角 (X6)、煤層堅(jiān)固性系數(shù) (X8)、煤層厚度 (X7)、夾矸程度 (X9)、煤層基本頂 (X1)、直接頂 (X2) 和底板平整度 (X3)。綜上得出:基于樹型分類器組合算法的隨機(jī)森林模型用于頂煤可放性等級(jí)預(yù)測(cè),具有精度高、訓(xùn)練速度快等優(yōu)點(diǎn)。
圖3 交叉檢驗(yàn)參數(shù)尋優(yōu)
圖4 RF方法對(duì)自變量重要度的排序
Fig. 4Ranking variable importance that associated with classification evaluation by RF method
為進(jìn)一步驗(yàn)證急傾斜煤層頂煤可放性RF 模型的有效性,將上述訓(xùn)練好的RF模型應(yīng)用到資興礦務(wù)局嘉禾煤礦(E1)、資興礦務(wù)局新集煤礦(E2)、開灤礦務(wù)局馬家溝煤礦(E3)、攀枝花礦務(wù)局大寶頂煤礦(E4)和梅田礦務(wù)局一礦(E5)等急傾斜煤層頂煤可放性分類預(yù)測(cè)中,其原始數(shù)據(jù)如表 2所示。運(yùn)用上述訓(xùn)練好的RF預(yù)測(cè)模型對(duì)其可放性進(jìn)行分類識(shí)別,各模型評(píng)價(jià)結(jié)果和各礦實(shí)際生產(chǎn)情況列入表2中,RF預(yù)測(cè)結(jié)果與實(shí)際情況符合。實(shí)例E2、E4和E5煤層蘊(yùn)含低瓦斯,采深相對(duì)較小煤層堅(jiān)固性系數(shù)較大,現(xiàn)場(chǎng)觀測(cè)發(fā)現(xiàn)煤體基本不產(chǎn)生變形壓力,爆破前放煤巷道變形也很小;而實(shí)例E1和E3煤層屬高瓦斯煤層,且采深較大,且爆破前放煤巷道已產(chǎn)生較大變形,表明頂煤已經(jīng)產(chǎn)生變形和破壞,可放性好?,F(xiàn)場(chǎng)施工實(shí)況驗(yàn)證了頂煤可放性評(píng)估的RF模型準(zhǔn)確可靠,提高了放頂煤開采效果。
表2 預(yù)測(cè)樣本實(shí)測(cè)數(shù)據(jù)與分類結(jié)果及實(shí)際情況
(1) 選取九大實(shí)測(cè)指標(biāo)作為頂煤可放性識(shí)別指標(biāo),建立急傾斜頂煤冒放性識(shí)別的RF模型,用五折交叉驗(yàn)證方法確定模型參數(shù),評(píng)價(jià)結(jié)果與實(shí)際情況吻合,準(zhǔn)確可靠,提高了頂煤可放性評(píng)估水平。
(2) RF在產(chǎn)生分類結(jié)果的同時(shí)也計(jì)算出每個(gè)屬性變量的重要度,得出煤層采深 (X5)和瓦斯含量 (X4)重要度最高,直接頂 (X2) 和底板平整度 (X3)影響很小,該結(jié)論可以為類似工程指標(biāo)選取提供有益參考。
(3) 評(píng)價(jià)指標(biāo)和樣本質(zhì)量決定著評(píng)價(jià)等級(jí)的準(zhǔn)確程度,為此,在應(yīng)用中需更加了解急傾斜煤層頂煤可放性機(jī)制并搜集廣泛的樣本數(shù)據(jù)庫(kù),提高頂煤可放性類別預(yù)測(cè)模型的可靠性。合理選擇識(shí)別參量,該模型同樣適用于其他煤層可放性識(shí)別問(wèn)題。
[1]王衛(wèi)軍, 朱川曲, 熊仁欽. 急傾斜煤層頂煤可放性識(shí)別的神經(jīng)網(wǎng)絡(luò)模型[J]. 煤炭學(xué)報(bào), 2002, 25(1): 36-39.
[2]陳海波, 李偉, 康健. 結(jié)構(gòu)復(fù)雜厚煤層工作面年200萬(wàn)t綜放工藝研究[J]. 煤炭學(xué)報(bào), 2009, 34(2): 159-162.
[3]王飛. 厚煤層頂煤可放性影響因素分析與評(píng)價(jià)[J]. 煤炭工程, 2010(4): 40-41.
[4]劉金海, 馮濤, 王衛(wèi)軍, 等. 急傾斜煤層頂煤可放性識(shí)別的距離判別方法及應(yīng)用[J]. 煤炭學(xué)報(bào), 2008, 33(6): 601-605.[5]董隴軍, 李夕兵, 白云飛. 急傾斜煤層頂煤可放性分類預(yù)測(cè)的Fisher判別分析模型及應(yīng)用[J]. 煤炭學(xué)報(bào), 2009, 34(1): 58-62.
[6]劉年平, 王宏圖, 袁志剛. 急傾斜煤層頂煤可放性識(shí)別的支持向量機(jī)模型[J]. 煤炭學(xué)報(bào), 2010, 35(11): 1859-1862.
[7]BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(2): 25-32.
[8]李寶富, 劉永磊. 沖擊地壓危險(xiǎn)性等級(jí)識(shí)別的隨機(jī)森林模型及應(yīng)用[J]. 科技導(dǎo)報(bào), 2015, 33(1): 57-61.
[9]張修遠(yuǎn), 劉修國(guó). 基于隨機(jī)森林算法的高維模糊分類研究[J]. 國(guó)土資源遙感, 2014, 26(2): 87-91.
[10]李偉賀, 陳志軍, 鄭建軍. 采用核主元成分分析和隨機(jī)森林的電梯故障診斷[J]. 化工自動(dòng)化及儀表, 2014, 41(1): 27-30. [11]吳瓊, 李運(yùn)田, 鄭獻(xiàn)衛(wèi). 面向非平衡訓(xùn)練集分類的隨機(jī)森林算法優(yōu)化[J]. 工業(yè)控制計(jì)算機(jī), 2013, 26(7): 89-90.
[12]黃衍, 查偉雄. 隨機(jī)森林與支持向量機(jī)分類性能比[J].軟件, 2012, 33 (6): 1-7.
[13]萬(wàn)建鵬, 官云蘭, 葉素倩, 等. 基于綜合權(quán)重水體指數(shù)的水體提取研究—以鄱陽(yáng)湖為例[J]. 東華理工大學(xué)學(xué)報(bào): 自然科學(xué)版, 2015(2): 206-211.
[14]努爾比婭烏斯曼, 李新國(guó), 吐爾遜古麗托合提, 等.干旱區(qū)典型綠洲土地利用動(dòng)態(tài)變化分析——以且末綠州為例[J]. 新疆師范大學(xué)學(xué)報(bào): 自然科學(xué)版, 2011, 30(3): 45-48.
(編輯徐巖)
Cavability classification prediction and application of top coal caving for steep seam based on random forest approach
LIWei,CHENHaibo
(Key Laboratory of Heilongjiang University of Science & Technology Mining Engineering College of Heilongjiang Province, Harbin 150022,China)
This paper is motivated by the need for the rapid and accurate prediction of the cavability classification of top coal in steep seam. The study produces a novel method based on the random forest model for top coal cavability identification using 9 indexes as the discriminating factors for top coal cavability, applying the 19 groups of caving working face as a verification example, and using the theory of random forests. The study includes determining the optimal parameters of the RF model using 5-fold cross-validation and evaluating top coal cavability by applying 5 groups steep coal seam . The research reveals that Random forests model could give prediction results conforming to engineering practice and thus features the optimal accuracy of 91.0% and 100.0% respectively when the segment is 5. The results may promise a wider use in engineering.
steep seam; cavability prediction; random forest; cross-validation
2016-05-06
黑龍江省普通高等學(xué)校采礦工程重點(diǎn)實(shí)驗(yàn)室開放課題(2014KF04)
李偉(1979-),男,滿族,遼寧省錦州人,副教授,碩士,研究方向:采礦工程、礦井信息化,E-mail:lw7709@126.com。
10.3969/j.issn.2095-7262.2016.04.005
TD821
2095-7262(2016)04-0373-05
A