沈 寧,竇東陽,楊 程,張 勇
(1.神華寧煤集團 太西洗煤廠,寧夏 石嘴山 753000;2.中國礦業(yè)大學(xué) 化工學(xué)院,江蘇 徐州 221116)
中國能源結(jié)構(gòu)的特點使得煤炭在今后的很長一段時間內(nèi)依然會是主體消耗能源[1]。對于+50mm的原煤,在分選精煤前,通常需要進行手選矸石操作[2]。手選矸的勞動力強度大、選矸操作面的工作環(huán)境惡劣、并且人工分選的效率低。機器視覺技術(shù)是一門多學(xué)科交叉的綜合學(xué)科,人類通過視覺獲取外部信息,機器視覺技術(shù)被研究用來代替人類視覺進行工作[3-5]。在選煤行業(yè)中,機器視覺被應(yīng)用于煤矸石識別領(lǐng)域,剔除原煤中的矸石。機器視覺是用相機代替人眼進行測量,計算機代替人腦進行分析,操控現(xiàn)場的執(zhí)行設(shè)備完成矸石剔除。通過相機將原煤轉(zhuǎn)換成圖像信號,傳遞給圖像識別系統(tǒng),根據(jù)圖像信息提取圖像表面特征,最終進行識別判定。
人工選矸的主要根據(jù)操作工對原煤表面的觀察,由經(jīng)驗判斷將矸石挑出來?;跈C器視覺的煤矸石識別中,特征提取的目的是從一幅圖像中得到有效信息,在煤矸石識別中,顏色和紋理特征能幫助我們正確的分類煤與矸石[6-8]。
采用RGB空間的R分量、G分量、B分量;HSV空間的H分量、S分量、V分量;灰度空間的灰度值描述顏色。提取顏色直方圖的一階矩、二階矩、三階矩作為圖像的顏色特征。
提取灰度共生矩陣的能量、對比度、相關(guān)性、熵;Tamura紋理的粗糙度、對比度、方向度作為圖像的紋理特征。
原煤圖像采集系統(tǒng)如圖1所示。
圖1 視頻圖像采集系統(tǒng)
對于煤與矸石的圖像提取28個特征用于后續(xù)的識別研究,見表1。
表1 圖像表面特征匯總
對于特征數(shù)據(jù)集采用統(tǒng)計觀察的方法進行初步篩選,對于相近特征值可以選擇其中的一個特征作為代表,剔除冗余特征,降低數(shù)據(jù)集維度。在煤與矸石特征數(shù)據(jù)集的可視圖中,能夠直觀的發(fā)現(xiàn)一些規(guī)律,RGB顏色空間特征可視化圖如圖2所示。
圖2 RGB顏色空間特征可視化圖
在煤與矸石表面特征中,F(xiàn)e1≈Fe4≈Fe7,F(xiàn)e2≈Fe5≈Fe8,F(xiàn)e3≈Fe6≈Fe9,R分量、G分量、B分量的特征值相等且灰度值是由RGB顏色空間的三個分量線性組合得到的。因此,選擇Fe19、Fe20、Fe21作為代表特征,將RGB顏色空間的特征整體剔除。初步分析剔除后特征見表2。
表2 初步分析后特征
特征選擇是從提取的全特征F{f1,f2,…,fn}中尋找到子集特征F′{f1,f2,…,fm},n為全特征個數(shù),m為子集特征個數(shù)。特征選擇不會改變原始特征空間的屬性,只是減少原始特征的數(shù)目,從全特征中選取具有代表性、分類能力強的特征作為新特征。
Relief算法根據(jù)特征參數(shù)的分類能力,為每個特征參數(shù)賦予不同的權(quán)重值[9]。Relief算法對于特征權(quán)重是基于特征對近距離樣本的分類,具體的算法思想為從樣本訓(xùn)練集中隨機選取一個樣本A,從與A同類別的樣本中尋找到一個最鄰近樣本點B,從與A不同類別的樣本中尋找到一個最鄰近樣本點C,計算樣本A、B距離DAB和樣本A、C距離DAC。樣本點的一個類類和類間最鄰近點計算公式可以表示為:
DAB=‖A-B‖
DAC=‖A-C‖
在某一維特征中,如果樣本點與同類別樣本的該維距離小于樣本點與不同類樣本的距離,則可以說明該維特征對樣本分類起到正貢獻,增加該特征的權(quán)重。相反,如果樣本點與同類別樣本的該維距離大于樣本點與不同類樣本的距離,則可以說明該維特征對樣本分類起到負貢獻,減小該特征的權(quán)重。重復(fù)多次隨機抽樣n次,計算各維特征n次平均權(quán)重,權(quán)重越大表明該維特征對樣本分類能力越強,相反則表明分類能力越弱。兩類數(shù)據(jù)分類中,特征Fe的權(quán)重表示為:
W(Fe)=Wf-∑diff[Fe,A,B]/n+
∑diff[Fe,A,C]/n
函數(shù)diff定義為:
其中,Wf為特征的初始權(quán)重,都置0,max(Fe)為訓(xùn)練集中該維特征最大值,min(Fe)為訓(xùn)練集中該維特征最小值,n為重復(fù)次數(shù)。
通過Relief算法計算各個特征的權(quán)重,特征權(quán)重值越大,該特征在識別中的貢獻度越大,反之貢獻度越小。
手選矸是通過人在工作中的長期經(jīng)驗進行矸石挑選。通過大腦積累之前獲得的煤和矸石的表面狀態(tài)不同的經(jīng)驗,在下次的識別中,做出準確判斷,識別出矸石。利用計算機系統(tǒng)實現(xiàn)人肉眼對煤與矸石的模式識別有很多方法,如神經(jīng)網(wǎng)絡(luò)、KNN、支持向量機等[10-13]。
支持向量機方法就是在訓(xùn)練集中尋找最大分類間隔的分類面,得到推廣能力強的分類模型。支持向量機的方法對煤與矸石進行識別時采用libsvm工具箱,libsvm中對于懲罰參數(shù)和核函數(shù)參數(shù)用c和g來表征。采用5折交叉驗證和網(wǎng)格搜索來確定最優(yōu)c和g,訓(xùn)練集識別率最高時的c、g值就是模型的最優(yōu)值。
在SVM全特征識別的基礎(chǔ)上,采用基于Relief特征權(quán)重的支持向量機特征遞歸剔除,即SVM-RFE方法來進行特征選擇[14]。
SVM-RFE方法是特征選擇與分類器模型結(jié)合的一種分類方法,用于剔除全特征中的冗余特征,找到最優(yōu)特征子集。SVM-RFE方法的思想為:通過Relief算法計算特征權(quán)重值,循環(huán)剔除數(shù)據(jù)集中權(quán)重值最小的特征,采用網(wǎng)格搜索和K-CV交叉驗證的方法確定訓(xùn)練集循環(huán)剔除最小特征后的分類模型參數(shù)c和g的最優(yōu)值,并在最佳參數(shù)下對測試集進行識別預(yù)測。
圖3 表面類型
基于機器視覺的煤矸石識別的核心是原煤的表面特征,在實際的選矸過程,原煤表面狀態(tài)存在不同類型,而相同批次的原煤表面狀態(tài)基本相同,現(xiàn)將原煤的表面類型分為表面因型(a):外表面無煤泥且表面干燥;表面類型(b):外表面無煤泥且表面濕潤;表面類型(c):外表面覆蓋干煤泥;表面類型(d):外表面覆蓋濕煤泥,分別對應(yīng)實際中的脫泥后干燥、脫泥后淋濕、含原生煤泥、原生煤泥選前淋濕。對4種表面類型進行識別,研究不同表面類型的識別效果。煤和矸石的4種表面類型如圖3所示。其中,左邊為煤的圖像,右邊為矸石的圖像,(c)類型和(d)類型的覆蓋煤泥均為散點狀覆蓋,并且是開采后的原始覆蓋狀態(tài)。該樣本矸中帶煤和煤中帶矸的比例都比較低。
通過分析表面類型局部放大圖,在宏觀上可以觀察出圖像間存在區(qū)別,提取的表面特征特征也必然存在差異。因此,需要對不同表面類型分別進行識別試驗。試驗采用寧夏白芨溝礦原煤進行對比驗證。試驗分為4組進行,每種表面狀態(tài)制備70個樣品,共280個樣本。試驗安排如圖4所示。
圖4 試驗安排
對白芨溝礦外表面無煤泥且表面濕潤的煤和矸石進行基于Relief算法特征權(quán)重的支持向量機特征遞歸剔除分類研究,結(jié)果見表3。特征剔除順序為:Fe28→Fe11→Fe12→Fe18→Fe21→Fe26→Fe14→Fe16→Fe24→Fe19→Fe15→Fe13→Fe10→Fe17→Fe20→Fe22→Fe27→Fe23→Fe25。
表3 表面類型(a)特征遞歸剔除參數(shù)選擇和識別
從表3中可得,最優(yōu)子集為特征權(quán)重排名前8的特征屬性,測試集最高識別率為95%。
對白芨溝礦外表面無煤泥且表面濕潤的煤和矸石進行基于Relief算法特征權(quán)重的支持向量機特征遞歸剔除分類研究,結(jié)果見表4。特征剔除順序為:Fe21(-0.0012)→Fe18(-0.0007)→Fe23(0.0076)→Fe27(0.0082)→Fe16(0.0102)→Fe17(0.0103)→Fe19(0.0106)→Fe20(0.0113)→Fe14(0.0135)→Fe25(0.0151)→Fe22(0.017)→Fe24(0.0192)→Fe11(0.0267)→Fe13(0.0273)→Fe26(0.0345)→Fe15(0.043)→Fe12(0.051)→Fe28(0.0757)→Fe10(0.1177)。
表4 表面類型(b)特征遞歸剔除參數(shù)選擇和識別
從表4中可得,最優(yōu)子集為特征權(quán)重排名前17的特征屬性,測試集最高識別率為97.5%。
對白芨溝礦外表面覆蓋干煤泥的煤和矸石進行基于Relief算法特征權(quán)重的支持向量機特征遞歸剔除分類研究,結(jié)果見表5。特征剔除順序為:Fe15(0.022)→Fe26(0.0235)→Fe18(0.0252)→Fe21(0.0254)→Fe24(0.0354)→Fe28(0.0412)→Fe14(0.0414)→Fe13(0.0443)→Fe11(0.0453)→Fe20(0.0465)→Fe17(0.0467)→Fe25(0.0468)→Fe27(0.0476)→Fe12(0.0482)→Fe23(0.0536)→Fe22(0.0637)→Fe16(0.1077)→Fe19(0.1093)→Fe10(0.1853)。
從表5中可得,最優(yōu)子集為特征權(quán)重排名前5的特征屬性,測試集最高識別率為95%。
表5 表面類型(c)特征遞歸剔除參數(shù)選擇和識別
對白芨溝礦外表面覆蓋濕煤泥的煤和矸石進行基于Relief算法特征權(quán)重的支持向量機特征遞歸剔除分類研究,結(jié)果見表6。特征剔除順序為:Fe24(0.0028)→Fe14(0.0029)→Fe27(0.0053)→Fe17(0.0053)→Fe13(0.0055)→Fe20(0.0056)→Fe23(0.0084)→Fe15(0.0238)→Fe25(0.0416)→Fe19(0.052)→Fe18(0.0523)→Fe16(0.0533)→Fe21(0.0567)→Fe26(0.059)→Fe22(0.0606)→Fe10(0.0614)→Fe11(0.0632)→Fe12(0.0638)→Fe28(0.2091)。
表6 白芨溝礦表面類型(d)特征遞歸剔除參數(shù)選擇和識別
從表6中可得,最優(yōu)子集為特征權(quán)重排名前9的特征屬性,測試集最高識別率為100%。
以上數(shù)據(jù)集中訓(xùn)練集和測試集樣本是隨機選取的,單次的實驗結(jié)果可能存在偶然性。對于4組試驗,每組試驗再進行4次訓(xùn)練集和測試集隨機取樣,樣本數(shù)量保持不變,進行最優(yōu)子集下的識別試驗,4組試驗分別在各自最優(yōu)特征子集下進行的隨機取樣識別結(jié)果見表7,用于檢驗試驗結(jié)果是否存在偶然性。其中,均值為5次隨機試驗識別率的平均值。
表7 基于最優(yōu)特征子集的5次識別
由表7分析可知,5次隨機取樣的訓(xùn)練集和測試集在最優(yōu)特征子集下的識別結(jié)果差距很小,5次的平均值也說明了隨機取樣的識別率波動很小。表明基于Relief權(quán)重的特征遞歸剔除能夠剔除冗余特征,提高多工況識別效率和穩(wěn)定性。
基于機器視覺的煤矸石識別是對煤和矸石的圖像進行識別,從圖像中提取28個顏色和紋理特征,進行初步分析,剔除RGB空間特征,通過Relief算法計算各個特征的權(quán)重值作為特征的評價指標(biāo)。將原煤的表面分為外表面無煤泥且表面干燥、外表面無煤泥且表面濕潤、外表面覆蓋干煤泥、外表面覆蓋濕煤泥4種表面類型。針對白芨溝礦,選擇SVM構(gòu)建識別模型,并且通過特征遞歸剔除方法尋找最優(yōu)特征子集,多次隨機取樣的最優(yōu)特征子集下的識別效果波動小,準確率高。因此,提取的圖像表面特征具有代表性,可以很好的區(qū)分實際工況下的煤和矸石。值得一提的是,如果矸中帶煤過高,可能會制約本方法的應(yīng)用。