萬 宇, 齊金平, 張 儒, 閆 森
(蘭州交通大學(xué)機(jī)電技術(shù)研究所, 蘭州 730070)
目前,隨著社會經(jīng)濟(jì)的蓬勃發(fā)展,中國已成為世界上最大的煤炭生產(chǎn)、消費(fèi)國,安全生產(chǎn)已經(jīng)成為一個(gè)重要現(xiàn)實(shí)問題[1]。煤炭行業(yè)是典型的高危行業(yè),其事故主要包括瓦斯、頂板、底板、放炮、機(jī)電、火災(zāi)、水害、運(yùn)輸以及其他事故,其中瓦斯事故一般被認(rèn)為是威脅性最大的災(zāi)害事故。中國高瓦斯礦井?dāng)?shù)占到了接近總量的一半,每年因瓦斯事故帶來的傷亡人數(shù)不計(jì)其數(shù),而其中瓦斯和煤塵爆炸事故占大多數(shù)[2]。煤炭的安全開采是經(jīng)濟(jì)增長的重要保障,“十三五”規(guī)劃中國家也對能源安全和綠色生產(chǎn)提出了明確的要求。因此,為了響應(yīng)國家號召,應(yīng)將未來的工作重心從事后響應(yīng)轉(zhuǎn)移到預(yù)控預(yù)防,做到從根源上遏制安全事故的發(fā)生,減少人員傷亡率。
瓦斯爆炸是瓦斯事故中典型的一種,傳統(tǒng)預(yù)測方法主要依賴專家判斷,具有較強(qiáng)的主觀性,預(yù)測精度不能達(dá)到分析任務(wù)的要求,近年來隨著計(jì)算機(jī)技術(shù)的進(jìn)步與發(fā)展,機(jī)器學(xué)習(xí)算法的引入極大地推動了風(fēng)險(xiǎn)預(yù)測領(lǐng)域的進(jìn)步,田水承等[3]利用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)對掘進(jìn)面瓦斯爆炸危險(xiǎn)進(jìn)行了安全評價(jià),李潤求等[4]構(gòu)建了基于區(qū)間層次分析法和功效系數(shù)法結(jié)合(interval analytic hierarchy process-efficacy coefficient method, IAHP-ECM)的瓦斯爆炸災(zāi)害風(fēng)險(xiǎn)評估模型,邵良杉等[5]針對數(shù)據(jù)缺失問題將隨機(jī)森林算法引入對瓦斯災(zāi)害進(jìn)行預(yù)測,李爽等[6]將極限學(xué)習(xí)機(jī)與貝葉斯網(wǎng)絡(luò)結(jié)合對風(fēng)險(xiǎn)進(jìn)行預(yù)測。上述方法從不同角度對瓦斯爆炸風(fēng)險(xiǎn)預(yù)測進(jìn)行了研究,機(jī)器學(xué)習(xí)的應(yīng)用很大程度上提升了預(yù)測的精準(zhǔn)度,除了各種算法上的進(jìn)步,改變優(yōu)化特征向量的輸入也是提升速度精度的一大方向。
現(xiàn)將本質(zhì)安全理念引入評價(jià)指標(biāo)集的構(gòu)建,從人、機(jī)、管理、環(huán)境四個(gè)角度構(gòu)建了28個(gè)指標(biāo),并針對煤礦瓦斯爆炸災(zāi)害的特點(diǎn),選取支持向量機(jī)(support vector machine,SVM)模型來進(jìn)行分類預(yù)測,在此基礎(chǔ)上選擇信息增益法(information gain,IG)根據(jù)熵值優(yōu)化輸入變量,組成了IG-SVM的組合模型,以期能夠?qū)崿F(xiàn)對瓦斯爆炸風(fēng)險(xiǎn)的快速、高精預(yù)測。
支持向量機(jī)是一種基于VC維(Vapnik-Chervonenkis dimension)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的監(jiān)督學(xué)習(xí)算法[7],最早起源于分類、回歸領(lǐng)域,Vapnik[8]引入核理論,將原始低維數(shù)據(jù)映射到高維空間,在維數(shù)足夠高的空間中利用超平面來進(jìn)行分類,在數(shù)學(xué)上可歸結(jié)為求解一個(gè)二次規(guī)劃問題。SVM在面對非線性、小樣本等問題時(shí)表現(xiàn)出色,計(jì)算復(fù)雜度取決于支持向量的數(shù)目,從而避免了“維數(shù)災(zāi)難”,并且具有良好的魯棒性和泛化性能[9]。目前已廣泛應(yīng)用于計(jì)算機(jī)視覺、時(shí)間序列預(yù)測、人工智能等領(lǐng)域。
設(shè)樣本數(shù)據(jù)集(xi,yi)(i=1,2,…,l),xi∈Rn,yi∈{-1,+1},l為訓(xùn)練樣本總數(shù),n為空間的維數(shù),xi為待分類數(shù)據(jù),yi為標(biāo)記類別,對線性可分的樣本,存在一個(gè)超平面H能夠?qū)⒉煌惖臉颖痉珠_,用法向量表示其方向,H1、H2分別表示過兩類樣本點(diǎn)中與超平面H距離最近的平行平面,其間的距離稱為分類間隔,在保證能夠正確分類的前提下分類間隔最大的平面稱為最優(yōu)超平面。超平面方程為wx+b=0,d維空間中的線性判別函數(shù)為g(x)=wx+b,其中w∈Rn,w為參數(shù)向量,即超平面的法向量,b∈R為分類閾值。
歸一化使|g(x)|≥1,離分類面最近的樣本的|g(x)|=1,此時(shí)分類間隔為2/‖w‖,要求分類間隔最大,即要求‖w‖最小,要求所有樣本分類正確,則需要滿足:
yi[(wxi+b)]≥1,i=1,2,…,l
(1)
上述條件可以轉(zhuǎn)化為下面帶約束條件的優(yōu)化問題進(jìn)行求解:
(2)
樣本線性可分的情況下,求解即可得到最優(yōu)分類超平面,對于線性不可分的情況,存在一定的訓(xùn)練誤差,一部分無法滿足式(1)的樣本數(shù)據(jù)將被視為噪聲,為了給這樣的噪聲數(shù)據(jù)引入容錯性需要在表達(dá)式中增加一個(gè)松弛變量ξi(ξi≥0),則式(1)變成
yi[(wxi+b)]≥1-ξi,i=1,2,…,l
(3)
(4)
由此可以得到線性不可分時(shí)的最優(yōu)分類超平面,稱為廣義分類超平面,可以表示為
(5)
(6)
式(6)中:αi為拉格朗日乘子。在處理非線性問題時(shí),低維空間中樣本數(shù)據(jù)的離群點(diǎn)數(shù)量非常多,引入松弛變量也無法取得較好的分類效果。根據(jù)泛函理論,只要一種核函數(shù)K=(xi,xj)滿足Mercer條件,就可以代替原空間中的內(nèi)積。本文擬采用的核函數(shù)有雙曲正切(Sigmoid)核函數(shù)、徑向基核函數(shù)(radial basis function, RBF)、線性核函數(shù)(linear kernel function, LKF)以及多項(xiàng)式核函數(shù)(polynomial function, PF)。利用核函數(shù)技巧后的最優(yōu)分類函數(shù)為
(7)
信息增益是一種優(yōu)化特征選取的方法[10]。信息量是對信息的度量,信息的大小與隨機(jī)事件的概率有關(guān),概率越小產(chǎn)生的信息量越大,設(shè)離散隨機(jī)變量X的概率分布為P(X=xi)=pi(i=1,2,…,n)。信息熵代表所有可能發(fā)生事件信息量的期望,也可以理解為離散隨機(jī)變量的復(fù)雜度,表達(dá)式為
(8)
設(shè)有隨機(jī)變量(X,Y),其聯(lián)合概率分布為P(X=xi,Y=yi)=Pij(i=1,2,…,n,j=1,2,…,m)。條件熵H(Y/X)代表在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性,表達(dá)式為
(9)
信息增益代表了在X已知的條件下,信息復(fù)雜度減少的程度,即信息熵與條件熵的差值,特征T對訓(xùn)練數(shù)據(jù)集D所帶來的信息增益為
g(D,T)=H(D)-H(D|T)
(10)
某個(gè)特征的信息增益值越大,也就是說根據(jù)這個(gè)特征所做決定的不確定度減少越多。用這種方法可以考量特征信息對整個(gè)系統(tǒng)的貢獻(xiàn),貢獻(xiàn)越大說明這個(gè)特征對分類決策的影響越深。
IG-SVM模型流程如圖1所示。
圖1 IG-SVM模型流程示意圖Fig.1 Flow diagram of IG-SVM model
模型運(yùn)行步驟如下:
步驟1基于本質(zhì)安全理論從人、機(jī)器、管理、環(huán)境4個(gè)方面構(gòu)建瓦斯爆炸事故風(fēng)險(xiǎn)評價(jià)指標(biāo)體系。
步驟2通過實(shí)際調(diào)查煤礦監(jiān)控系統(tǒng)以及問卷調(diào)查法獲取大量現(xiàn)場數(shù)據(jù)(包括實(shí)時(shí)數(shù)據(jù)與非實(shí)時(shí)數(shù)據(jù)),組成原始數(shù)據(jù)集{D1,D2,…,Dm}。
步驟3將步驟2所得的原始數(shù)據(jù)集進(jìn)行信息增益處理,可以獲得各指標(biāo)的增益值排序,選擇最優(yōu)指標(biāo)組成新的數(shù)據(jù)集{I1,I2,…,Im}。
步驟4用mapminmax函數(shù)對數(shù)據(jù)進(jìn)行歸一化處理,將原始數(shù)據(jù)映射到[0,1]區(qū)間內(nèi),這樣可以避免量綱不同對分類結(jié)果的影響,得到的新數(shù)據(jù)集為{G1,G2,…,Gm},用新實(shí)驗(yàn)數(shù)據(jù)集訓(xùn)練SVM模型,重復(fù)訓(xùn)練優(yōu)化參數(shù)后可以得到分類預(yù)測模型f(Ii)。
步驟5將未知風(fēng)險(xiǎn)的數(shù)據(jù)集導(dǎo)入模型訓(xùn)練,獲得預(yù)測結(jié)果。
瓦斯爆炸事故是煤礦特有的極其嚴(yán)重的一種災(zāi)害,利用事故發(fā)生與否在指標(biāo)上的差異化表現(xiàn)可以對瓦斯爆炸風(fēng)險(xiǎn)進(jìn)行預(yù)測,對事故的預(yù)控預(yù)防具有指導(dǎo)意義。以甘肅、山西、內(nèi)蒙古自治區(qū)等地區(qū)100家中小煤礦企業(yè)為研究對象,收集他們的瓦斯爆炸事故數(shù)據(jù),定性指標(biāo)以問卷調(diào)查法獲取,調(diào)查問卷向目標(biāo)企業(yè)相關(guān)部門的管理人員發(fā)放。此次研究共發(fā)放問卷170份,收回141份,有效問卷為110份。對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)整理,共獲得110個(gè)樣本點(diǎn),包括20個(gè)有風(fēng)險(xiǎn)樣本(事故樣本),90個(gè)無風(fēng)險(xiǎn)樣本。在此基礎(chǔ)上,還需要對用于訓(xùn)練和測試的樣本數(shù)據(jù)集進(jìn)行劃分,本文選取訓(xùn)練和測試的樣本數(shù)量比例為8∶2,分別在有風(fēng)險(xiǎn)和無風(fēng)險(xiǎn)的樣本中按比例隨機(jī)抽取共88個(gè)作為預(yù)測模型的訓(xùn)練樣本,剩下22個(gè)作為檢驗(yàn)?zāi)P皖A(yù)測效果的測試樣本,如表1所示。
表1 實(shí)驗(yàn)樣本分布情況Table 1 Distribution of experimental samples
本質(zhì)安全是一種以事故致因論為基礎(chǔ)的科學(xué)全面的安全理論,完全符合國家安全生產(chǎn)的法律法規(guī)以及“十三五”發(fā)展規(guī)劃,其核心理念是從人、機(jī)器、管理、環(huán)境四個(gè)要素的角度,做到各方面協(xié)調(diào)統(tǒng)一,消除不安全因素,建立本質(zhì)安全型企業(yè)。本文將本質(zhì)安全理念結(jié)合煤礦生產(chǎn)的實(shí)際情況,建立了一套較為全面的指標(biāo)體系,如表2所示。為達(dá)到簡化SVM模型提高預(yù)測正確率的目的,通過IG模型分析輸入變量,提取對瓦斯爆炸風(fēng)險(xiǎn)分類結(jié)果有顯著影響的指標(biāo),影響程度以信息增益值表示,信息增益的排序結(jié)果如表3所示,本文選擇信息增益值大于0.015所對應(yīng)的14個(gè)特征變量組成新數(shù)據(jù)集合。
表2 瓦斯爆炸風(fēng)險(xiǎn)指標(biāo)體系
表3 特征指標(biāo)信息增益排序表
本文建立的預(yù)測模型由Windows系統(tǒng)下的MATLAB19.0實(shí)現(xiàn),采用MATLAB中的mapminmax對原始數(shù)據(jù)進(jìn)行歸一化,得到的新數(shù)據(jù)集與原數(shù)據(jù)集具有高度緊密性。SVM中核函數(shù)的選取對特征空間起著決定性的作用,目前還沒有算法用于選取最適合核函數(shù)的方法,一般采取試湊法,本文選取最常用的4種核函數(shù)分別是:Sigmoid核函數(shù)、LKF、PF、RBF,對分類結(jié)果進(jìn)行對比,選取最優(yōu)的核函數(shù),其中LKF沒有需要專門設(shè)置的參數(shù),其余參數(shù)如表4所示。
表4 核函數(shù)參數(shù)情況Table 4 Parameters of kernel function
瓦斯爆炸事故風(fēng)險(xiǎn)實(shí)際上是一個(gè)二元分類問題,即將煤礦開采區(qū)域分為兩類有風(fēng)險(xiǎn)、無風(fēng)險(xiǎn),采用混淆矩陣來評價(jià)分類模型的性能,如表5所示。
表5 混淆矩陣
P/N(positive/negative)表示預(yù)測對象的所屬類別,T/F(true/false)表示分類的正確與否,例如TP即將實(shí)際有風(fēng)險(xiǎn)的煤礦預(yù)測為有風(fēng)險(xiǎn)的樣本數(shù)量,利用混淆矩陣可以計(jì)算出一些評價(jià)模型性能的指標(biāo)如:正確率Acc=(TP+TN)/(TP+TN+FP+FN)、準(zhǔn)確率Precision=TP/(TP+FP)、召回率Recall=TP/(TP+FN)等[11]。以上指標(biāo)雖然能夠一定程度上的評價(jià)模型性能,但是應(yīng)用于本文的分類器模型評價(jià)中大致有兩方面的問題:一是煤礦瓦斯事故屬于低概率事件,那么在收集數(shù)據(jù)時(shí)極大可能發(fā)生正負(fù)樣本數(shù)量懸殊,例如事故樣本數(shù)量占總量1%時(shí),分類器只需將所有樣本判定為無風(fēng)險(xiǎn),則準(zhǔn)確率也可達(dá)到99%,這顯然是不合理的。其次風(fēng)險(xiǎn)的發(fā)生雖然是一個(gè)二元分類問題,但是所選對象歸屬類別的程度不同,簡單地用0或1概括會導(dǎo)致一些信息丟失。
ROC(receiver operating characteristic)曲線也稱受試者工作特性曲線,其橫縱坐標(biāo)分別是假陽性率(false positive rate,F(xiàn)PR)和真陽性率(true positive rate,TPR),坐標(biāo)(0,1)對應(yīng)的是理想的分類模型,用曲線下的面積(area under curve,AUC)來表示分類器的性能,AUC的大小一般在0.5~1,越靠近1表示越接近理想分類模型。選擇ROC曲線不僅能夠解決前文提出的兩方面問題,而且能直觀地反映不同核函數(shù)模型分類情況的優(yōu)劣。
將數(shù)據(jù)代入不同核函數(shù)的模型,ROC曲線如圖2所示,ROC曲線越靠近左上角表示分類效果越好,為了更加準(zhǔn)確地描述可以計(jì)算曲線下面積,即AUC值,如表6所示。
圖2 模型輸出的ROC曲線Fig.2 ROC curve of model output
表6 不同核函數(shù)AUC比較Table 6 Comparison of AUC values of different kernel functions
由表6可知使用RBF核函數(shù)構(gòu)造的模型輸出的AUC最高,而使用Sigmoid核函數(shù)、PF、LKF的構(gòu)造的模型輸出的AUC都在0.7~0.8,效果不甚理想且相互之間差別不大。LKF作為RBF的一種特殊形式,在實(shí)驗(yàn)過程中發(fā)現(xiàn)兩種核函數(shù)差距較大,推測可能是由于煤礦瓦斯爆炸風(fēng)險(xiǎn)并不是線性可分的。Sigmoid核函數(shù)可能在某些參數(shù)下是無效的,因此給參數(shù)選取帶來困難。PF的支持向量較多分布于邊界處,可能對分類預(yù)測產(chǎn)生干擾。此外,RBF有很強(qiáng)的映射復(fù)雜非線性關(guān)系的能力,且學(xué)習(xí)規(guī)則簡單、調(diào)試參數(shù)迅速,魯棒性強(qiáng)。綜上所述,本文選用RBF作為核函數(shù)建立預(yù)測模型。
為了體現(xiàn)本文選用的IG-SVM模型的效能,將該模型的預(yù)測結(jié)果與一些常用的分類器在同樣的樣本條件下進(jìn)行比較,為了簡化比較結(jié)果,僅對預(yù)測結(jié)果作二元分類(+1表示有風(fēng)險(xiǎn),-1表示無風(fēng)險(xiǎn)),結(jié)果以樣本的分類正確率表示,如表7所示。
表7 各模型分類預(yù)測結(jié)果對比Table 7 Comparison of prediction results of different models
實(shí)驗(yàn)結(jié)果表明:在4種單一分類模型中,SVM對訓(xùn)練樣本的分類正確率為85.23%,略低于決策樹(decision tree, DT)模型和隨機(jī)梯度下降(stochastic gradient descent, SGD)模型,而對測試樣本的分類正確率最高,達(dá)到了86.36%,而本文建模分類的目的是預(yù)測瓦斯爆炸風(fēng)險(xiǎn),顯然測試樣本的結(jié)果更加重要,在有風(fēng)險(xiǎn)樣本和無風(fēng)險(xiǎn)樣本中,SVM的表現(xiàn)要優(yōu)于3種其他模型。比較使用了IG優(yōu)化后的各種模型,4種分類正確率均有所提高,例如IG-SVM模型相對于SVM模型4種正確率分別提高了12.5%、9.09%、5%、7.78%,說明了經(jīng)過IG特征提取后的模型分類性能有所提高。此外,實(shí)驗(yàn)還使用了核主成分分析法(kernel principal component analysis, KPCA)進(jìn)行特征選取優(yōu)化作為對比,可以看出,經(jīng)過KPCA優(yōu)化后的模型,雖然整體水平也有所提升,但普遍低于IG優(yōu)化后的模型,充分說明了IG在特征選取優(yōu)化方面的表現(xiàn)十分優(yōu)異。
依據(jù)本質(zhì)安全理念建立了指標(biāo)集,研究了IG-SVM在處理煤礦瓦斯爆炸風(fēng)險(xiǎn)預(yù)測上的表現(xiàn),具體結(jié)論如下:
(1)針對煤礦瓦斯爆炸風(fēng)險(xiǎn)問題,使用SVM進(jìn)行分類預(yù)測取得了不錯的效果,但是過于龐大的指標(biāo)體系在一定程度上形成了特征信息的冗余,從而影響計(jì)算機(jī)仿真的速度與正確率。因此,優(yōu)化評價(jià)指標(biāo)體系是十分必要的。
(2) IG通過對信息增益值進(jìn)行排序精簡指標(biāo)體系,刪除了不必要的冗余信息,降低了模型整體的運(yùn)算維度,從而優(yōu)化了模型的速度與正確率,并通過實(shí)驗(yàn)證明IG與SVM的組合在解決本文問題時(shí)要優(yōu)于其他模型,最終測試樣本的正確率達(dá)到了95.45%,在防控災(zāi)害上有很好的應(yīng)用價(jià)值。