薛光輝, 李秀瑩, 錢孝玲, 張?jiān)骑w
(中國礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院, 北京 100083)
目前智能化開采成為煤炭安全高效開采的發(fā)展方向與必然趨勢。國家能源技術(shù)革命創(chuàng)新行動(dòng)計(jì)劃、國家安全生產(chǎn)監(jiān)督管理局“機(jī)械化換人、自動(dòng)化減人”科技強(qiáng)安專項(xiàng)行動(dòng)都將煤炭智能化開采技術(shù)列為重點(diǎn)研究方向[1]。每年地下開采的厚煤層產(chǎn)量占煤炭總產(chǎn)量的45%左右,綜合機(jī)械化放頂煤(綜放)開采是目前我國厚煤層礦區(qū)主要的采煤方式[2]。由于綜放工作面煤矸識(shí)別理論和技術(shù)尚不成熟,目前多采用人工進(jìn)行放煤控制。頂煤放落時(shí),主要依靠放煤工人通過耳聽和眼觀來判斷放落的是煤還是矸石,并以此確定頂煤是否放完。放煤過程中存在放煤口粉塵較大、光線弱、空間狹窄等情況,難以準(zhǔn)確判斷頂煤放落程度,容易導(dǎo)致過放或欠放,且嚴(yán)重?fù)p害工作人員身體健康。因此,垮落煤矸自動(dòng)識(shí)別是綜放開采智能化的基礎(chǔ)理論和關(guān)鍵技術(shù)之一,已成為國內(nèi)外研究熱點(diǎn)。
目前有伽馬射線法[3]、振動(dòng)信號(hào)法[4-5]、聲波信號(hào)法[6]、圖像法[7]等應(yīng)用于煤矸識(shí)別,前3種方法受到煤矸物理特性等條件的限制。越來越多的學(xué)者利用圖像法對煤矸識(shí)別進(jìn)行研究:伍云霞等[8]提出基于字典學(xué)習(xí)算法提取煤矸圖像特征;孫繼平等[9]通過支持向量機(jī)對煤矸特征識(shí)別進(jìn)行了研究;田慧卿等[10]利用小波變換提取圖像紋理特征以進(jìn)行煤矸識(shí)別。但現(xiàn)有方法存在參數(shù)調(diào)節(jié)難度高、預(yù)測準(zhǔn)確率低、易過擬合等問題。針對上述問題,本文提出基于隨機(jī)森林(Random Forest,RF)算法的綜放工作面煤矸識(shí)別方法。利用灰度-梯度共生矩陣提取紋理特征,采用RF算法對煤矸紋理特征重要性進(jìn)行排序降維,對比分析了降維前后RF分類模型對煤矸圖像的識(shí)別效果。該方法可為放煤自動(dòng)化提供理論基礎(chǔ)。
RF算法于1995年由L. Breiman和Adele Cutler提出[11],是基于Bootstrap重采樣法[12],在決策樹模型[13]基礎(chǔ)上,采用Bagging集成方式[14]構(gòu)造的學(xué)習(xí)算法。RF算法下的綜放工作面煤矸圖像樣本分類原理如圖1所示。
設(shè)(X,Y)∈RM×R,其中X為具有M個(gè)元素的特征向量,Y為樣本的標(biāo)簽向量。取N個(gè)樣本構(gòu)成訓(xùn)練集S,Z個(gè)樣本構(gòu)成測試集Q,則RF生成步驟如下。
圖1 RF算法下的綜放工作面煤矸圖像樣本分類原理Fig.1 Classification principle of coal-gangue image in fully mechanized top coal caving face based on RF algorithm
(1) 利用Bootstrap重采樣法從訓(xùn)練集S中隨機(jī)且有放回地抽取樣本,構(gòu)建n個(gè)子訓(xùn)練集Si(i=1,2,…,n),每次未被抽取到的樣本稱為袋外數(shù)據(jù)(Out-of-Bag,OOB)[15]。
(2) 將子訓(xùn)練集Si作為輸入,構(gòu)建分類回歸決策樹,決策樹生成過程中,從M個(gè)特征中隨機(jī)且無放回地抽取m個(gè)特征作為子集(m遠(yuǎn)小于M),使用基尼指數(shù)選取最優(yōu)屬性進(jìn)行節(jié)點(diǎn)分裂。每棵子決策樹ti最大限度生長,不進(jìn)行剪枝,m值在整個(gè)森林生長過程中保持不變,樣本集和特征選擇都是隨機(jī)的,因此子決策樹間相互獨(dú)立,且一定程度上可減少模型過擬合。
(3) 將生成的子決策樹的分類結(jié)果進(jìn)行組合,設(shè)Pi(cz/f)(z=1,2,…,f,f為類別總數(shù))為子決策樹ti分類后某一類別cz出現(xiàn)的概率。煤矸分類為二分類,即f=2,設(shè)c1表示分類結(jié)果為煤,c2表示分類結(jié)果為矸石。
因OOB沒有參與RF模型訓(xùn)練,可采用OOB構(gòu)造袋外誤差EOOB。EOOB與交叉驗(yàn)證得到的誤差基本一致,常作為模型的泛化誤差估計(jì),計(jì)算復(fù)雜度低,其公式為
(1)
式中Ei為單個(gè)OOB預(yù)測誤差。
頂煤放落試驗(yàn)在山西中煤擔(dān)水溝煤業(yè)有限公司擔(dān)水溝煤礦6203綜放工作面進(jìn)行。該工作面開采9號(hào)煤,平均厚度為17.56 m,矸石類型為砂質(zhì)泥矸與中砂矸。利用礦用攝像儀獲取放煤口圖像。煤礦井下工作面光線較弱,因此使用防爆光源進(jìn)行均勻補(bǔ)光。試驗(yàn)中共選取300組垮落煤矸圖像,其中200組組成訓(xùn)練集,100組組成測試集。
對采集到的圖像做裁剪、灰度轉(zhuǎn)化、對比度增強(qiáng)、圖像濾波等預(yù)處理。預(yù)處理前后的垮落煤矸圖像如圖2所示。
煤原圖
灰度圖
增強(qiáng)對比度
圖像濾波
矸石原圖
灰度圖
增強(qiáng)對比度
圖像濾波
灰度-梯度共生矩陣[16]是圖像像素距離和角度的矩陣函數(shù),通過圖像中一定距離和方向的兩點(diǎn)灰度之間的相關(guān)性反映圖像在方向、間隔、變化上的綜合信息。將圖像的梯度信息加入到灰度-梯度共生矩陣中,可使共生矩陣更能包含圖像的紋理基元及其排列信息,即{H(h,g);h=0,1,…,Lh-1;g=0,1,…,Lg-1},其中H(h,g)為灰度-梯度共生矩陣,h為灰度,g為梯度的總像素個(gè)數(shù),Lh為灰度圖像的灰度級(jí)數(shù),Lg為梯度圖像的灰度級(jí)數(shù)。為降低計(jì)算的復(fù)雜性,對灰度-梯度共生矩陣進(jìn)行歸一化處理,使其各元素之和為1。
(2)
在H(h,g)基礎(chǔ)上,提取了300組煤矸圖像的小梯度優(yōu)勢W1、大梯度優(yōu)勢W2、灰度分布不均性W3、梯度分布不均性W4、能量W5、平均灰度W6、平均梯度W7、灰度均方差W8、梯度均方差W9、相關(guān)性W10、灰度熵W11、梯度熵W12、混合熵W13、慣性W14、逆差距W1515個(gè)紋理特征,即煤矸紋理特征數(shù)M=15。構(gòu)建特征向量W,W=[W1,W2,…,W15],定義垮落頂煤標(biāo)簽為1,垮落矸石標(biāo)簽為2。垮落頂煤和矸石的灰度-梯度共生矩陣紋理特征見表1。
RF算法在模型構(gòu)造過程中對煤矸各個(gè)紋理特征重要性進(jìn)行評估。煤矸紋理特征重要性計(jì)算方法有2種。
表1 垮落頂煤和矸石的灰度-梯度共生矩陣紋理特征Table 1 Gray-gradient co-occurrence matrix texture features of caving top coal and gangue
(1) 把一個(gè)特征變量的取值變?yōu)殡S機(jī)數(shù),計(jì)算對應(yīng)的RF預(yù)測精度的降低程度。該值越大表示該煤矸紋理特征變量重要性越大。
(2) 采用基尼指數(shù)計(jì)算每個(gè)特征變量對決策樹節(jié)點(diǎn)上預(yù)測值的異質(zhì)性即節(jié)點(diǎn)不純度的影響。該值越大表示該煤矸紋理特征變量的重要性越大。
衡量煤矸圖像灰度-梯度共生矩陣特征重要性的指標(biāo)如圖3所示,指標(biāo)值越高表示該特征對分類的影響越大。圖3(a)是采用精度平均減少值作為衡量標(biāo)準(zhǔn),而圖3(b)則是采用節(jié)點(diǎn)不純度的平均減少值作為衡量標(biāo)準(zhǔn)。由圖3可知,小梯度優(yōu)勢W1、梯度分布不均性W4、平均灰度W6、慣性W14、逆差矩W155個(gè)特征具有較高的重要性,在RF分裂時(shí)貢獻(xiàn)較大。
(a) 預(yù)測精度平均減少值為衡量標(biāo)準(zhǔn)
(b) 節(jié)點(diǎn)不純度平均減少值為衡量標(biāo)準(zhǔn)
對煤矸紋理特征進(jìn)行降維,只保留小梯度優(yōu)勢W1、梯度分布不均性W4、平均灰度W6、慣性W14、逆差矩W155個(gè)特征值進(jìn)行模型分類。構(gòu)建特征向量V,V=[W1,W4,W6,W14,W15]。定義垮落頂煤標(biāo)簽為1,垮落矸石標(biāo)簽為2,構(gòu)建樣本數(shù)據(jù)庫。
分別采用降維前的煤矸紋理特征W和降維后的煤矸紋理特征V作為RF的輸入向量,構(gòu)建W-RF模型、V-RF模型,進(jìn)行關(guān)鍵參數(shù)的選擇,分析對比2種模型的煤矸圖像分類準(zhǔn)確率及泛化能力,探討所提出的分類算法應(yīng)用在綜放工作面煤矸圖像識(shí)別的可行性。
RF模型在對煤矸紋理特征進(jìn)行訓(xùn)練時(shí),需要調(diào)節(jié)的關(guān)鍵參數(shù)主要包括決策樹個(gè)數(shù)n及每次分裂時(shí)選取的特征數(shù)量m。
決策樹個(gè)數(shù)n主要根據(jù)訓(xùn)練集的規(guī)模和特點(diǎn)而定。為減少隨機(jī)性的影響,設(shè)置決策樹最大個(gè)數(shù)為1 000,m為缺省值,在某一確定的決策樹個(gè)數(shù)下,建立100個(gè)RF模型進(jìn)行訓(xùn)練,取煤矸分類準(zhǔn)確率的平均值為當(dāng)前決策樹個(gè)數(shù)下的分類準(zhǔn)確率,利用兩種RF模型(W-RF、V-RF)進(jìn)行實(shí)驗(yàn),決策樹個(gè)數(shù)對分類性能影響如圖4所示。
由圖4可知,不論是降維前還是降維后的煤矸紋理特征作為輸入向量,煤矸分類準(zhǔn)確率都在決策樹個(gè)數(shù)為100~200區(qū)間內(nèi)達(dá)到最高,綜合考慮分類準(zhǔn)確率及建模速度,選取決策樹個(gè)數(shù)n為150。
圖4 決策樹個(gè)數(shù)對煤矸分類性能的影響Fig.4 Influence of number of decision tree on classification performance of coal-gangue
表2 W-RF和V-RF在不同m值下煤矸分類準(zhǔn)確率Table 2 Coal-gangue classification accuracy by W-RF and V-RF under different m values
(1) RF模型下煤矸分類的查準(zhǔn)率與查全率。對于煤矸分類問題,可將測試集根據(jù)其真實(shí)標(biāo)簽與RF分類結(jié)果劃分為真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),具體指標(biāo)見表3。
表3 降維前后RF模型在測試集上的指標(biāo)Table 3 Indicators of RF model on test set before and after dimension reduction
查準(zhǔn)率是針對RF預(yù)測煤矸分類結(jié)果而言的,它表示預(yù)測為煤的樣本中有多少是真正的煤,即TP/(TP+FP)。
查全率是針對測試煤矸樣本而言的,它表示樣本中的煤有多少被分類正確,即TP/(TP+FN)。
在本次實(shí)驗(yàn)中,降維前RF煤矸分類的查準(zhǔn)率為0.96,查全率為0.9。降維后RF煤矸分類的查準(zhǔn)率為0.98,高出降維前0.02,降維后RF煤矸分類的查全率為0.96,高出降維前0.06。
(2) RF模型煤矸分類的泛化能力。主要從煤矸測試集分類結(jié)果、袋外錯(cuò)誤率對RF模型煤矸分類的泛化能力進(jìn)行分析。
煤矸紋理特征降維前后RF模型在測試集上的分類結(jié)果如圖5所示。同時(shí),如果RF模型對圖像的預(yù)測類別與測試集中標(biāo)簽類別一致,以“○”標(biāo)記,反之用“*”標(biāo)記。
(a) 降維前
(b) 降維后
由圖5可知,降維后的RF模型對于煤矸圖像錯(cuò)誤分類少于降維前的RF模型,錯(cuò)誤分類的煤矸圖像都分布在中心區(qū)域,即在RF模型分類過程中,當(dāng)輸出為煤和矸石的決策樹個(gè)數(shù)相當(dāng)時(shí),會(huì)發(fā)生錯(cuò)誤分類的現(xiàn)象,這種情況下產(chǎn)生錯(cuò)誤是可以接受的,即RF模型的煤矸分類泛化能力可以接受。
降維前后RF模型在煤矸識(shí)別過程中產(chǎn)生的袋外錯(cuò)誤率如圖6所示。
由圖6可知,降維前RF模型煤矸分類袋外錯(cuò)誤率經(jīng)50次迭代緩慢達(dá)到10%~11%,降維后RF模型煤矸分類袋外錯(cuò)誤率經(jīng)50次迭代快速收斂達(dá)到9%,說明降維后RF模型煤矸分類的泛化能力更好,且收斂、訓(xùn)練速度更快。
(1) 開展了綜放工作面頂煤放落試驗(yàn),提取了煤矸圖像的灰度-梯度共生矩陣紋理特征,構(gòu)建了紋理特征向量,為后續(xù)研究提供了數(shù)據(jù)支持。
(a) 降維前
(b) 降維后