謝天保, 趙 萌, 雷西玲
1(西安理工大學(xué) 經(jīng)濟(jì)與管理學(xué)院,西安 710054)
2(西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710054)
近幾年我國(guó)煤炭產(chǎn)量不斷增大,但發(fā)生的煤礦事故也較為嚴(yán)重,死亡人數(shù)總量是世界上其他產(chǎn)煤國(guó)家死亡總數(shù)的3倍,遠(yuǎn)遠(yuǎn)超過(guò)世界其他產(chǎn)煤國(guó)家煤礦事故死亡總數(shù),此外全國(guó)每年還有十幾萬(wàn)的事故傷殘人員. 據(jù)統(tǒng)計(jì),“十一五”期間,全國(guó)煤礦發(fā)生特別重大水害事故26起,平均每年發(fā)生5起,共死亡506人. 種種事實(shí)數(shù)據(jù)表明,目前我國(guó)煤炭企業(yè)安全生產(chǎn)形勢(shì)較為嚴(yán)峻,煤礦突水預(yù)測(cè)已成為煤礦安全生產(chǎn)亟需解決的問(wèn)題,具有非常重要的現(xiàn)實(shí)意義.
目前,煤礦突水預(yù)測(cè)方法主要分為兩大類(lèi):即基于突水機(jī)理預(yù)測(cè)法和數(shù)學(xué)與計(jì)算機(jī)模型預(yù)測(cè)法. 基于突水機(jī)理預(yù)測(cè)法的缺陷在于目前的研究大多從力學(xué)角度出發(fā),通過(guò)試驗(yàn)或數(shù)值模擬建立力學(xué)模型,因不能全面考慮突水影響因素,建立的模型并不能真實(shí)反映實(shí)際情況,例如實(shí)際中煤層底板很難滿(mǎn)足薄板理論的基本條件(厚寬比小于1/5~1/7); 數(shù)學(xué)與計(jì)算機(jī)模型預(yù)測(cè)方法通常采用突水指數(shù)法,如突水概率指數(shù)法[1],層次分析法[2],聚類(lèi)分析法[3],脆弱性指數(shù)法[4],Logist二元回歸分析法[5],Probit回歸模型[6],事故樹(shù)分析法[7]以及神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法[8-11]等等. 建立在數(shù)學(xué)方法上的突水預(yù)測(cè)方法,都是基于某種理論并對(duì)其進(jìn)行簡(jiǎn)化建立預(yù)測(cè)模型,使得礦井突水預(yù)測(cè)方法得到一定程度提高,但模型無(wú)法保證所有突水樣本的正判(即突水樣本100%的正判率)[12-14]. 事實(shí)上一次突水事故誤判可能造成無(wú)法估量的經(jīng)濟(jì)損失,為此本文基于煤礦突水預(yù)測(cè)需求、樣本數(shù)據(jù)非均衡、空間交錯(cuò)以及不同樣本誤判后果的巨大差別,提出面向非均衡樣本集的煤礦突水預(yù)測(cè)模型,以不突水樣本誤判率最小為代價(jià),力求突水樣本100%的判別準(zhǔn)確率. 重點(diǎn)研究基分類(lèi)器的構(gòu)建算法、性能評(píng)判指標(biāo)、基于分類(lèi)規(guī)則與樣本貼近度的權(quán)重分析以及集成學(xué)習(xí)算法,實(shí)驗(yàn)表明該算法在保證整體預(yù)測(cè)準(zhǔn)確率前提下,突水樣本正判率100%,模型測(cè)試性能良好,與Bagging算法相比具有較快的收斂速度及較高的預(yù)測(cè)準(zhǔn)確率.
如上所述,目前的研究忽視了對(duì)礦井工程地質(zhì)條件和模型的基礎(chǔ)研究,沒(méi)能查清和分析工程地質(zhì)單元特征、巖體結(jié)構(gòu)、地質(zhì)構(gòu)造、地應(yīng)力情況、水文地質(zhì)條件及開(kāi)采條件對(duì)突水的作用. 針對(duì)這個(gè)問(wèn)題,作者通過(guò)參閱文獻(xiàn)和在煤炭部西安分院、陜西煤炭研究所部分專(zhuān)家的幫助下,依據(jù)煤礦的構(gòu)造條件、巖性組合條件、含水層條件、開(kāi)采條件及突水征兆5個(gè)方面確定了影響煤礦突水的22個(gè)因素(數(shù)據(jù)結(jié)構(gòu)如表1).
煤礦突水機(jī)理具有多樣性,是指在不同的地質(zhì)及水文地質(zhì)條件下,采用破壞或水壓破壞表現(xiàn)出不同的空間組合特征,突水機(jī)理的多樣性反映了地質(zhì)及水文地質(zhì)條件的變化,煤礦突水是否突水受制于諸多因素的綜合影響. 盡管如此,但根據(jù)文獻(xiàn)[2],施工經(jīng)驗(yàn)及《礦區(qū)水文地質(zhì)工程地質(zhì)勘查規(guī)范》,在諸多因素中,斷層充水X5和含水層水壓X12對(duì)煤礦是否發(fā)生突水影響最大.
表1 煤礦突水預(yù)測(cè)樣本數(shù)據(jù)結(jié)構(gòu)
毫無(wú)疑問(wèn),相對(duì)于正常煤礦生產(chǎn),發(fā)生突水畢竟是小概率事件,通常收集的煤礦突水樣本集中,不突水樣本個(gè)數(shù)遠(yuǎn)大于突水樣本數(shù)目,加之各煤礦地質(zhì)條件、施工條件的綜合影響,樣本數(shù)據(jù)集具有如下特征:
(1)樣本種類(lèi)比例呈現(xiàn)非均衡狀態(tài),不突水樣本個(gè)數(shù)遠(yuǎn)大于突水樣本數(shù)目. 突水樣本數(shù)目少,空間分布相對(duì)集中,不突水樣本數(shù)目較大,相對(duì)比較分散.
(2)由于地質(zhì)條件、施工條件及偶然因素的影響,導(dǎo)致樣本數(shù)據(jù)發(fā)生沖突,例如22個(gè)影響因素的數(shù)據(jù)大致相近,大部分樣本數(shù)據(jù)標(biāo)簽為“不突水”,個(gè)別樣本標(biāo)簽為“突水”.
(3)類(lèi)別不同,誤判的嚴(yán)重性差別很大. “不突水”誤判為“突水”無(wú)非是提醒施工人員加強(qiáng)防范,“虛驚一場(chǎng)”;但“突水”誤判為“不突水”那將是“千古罪人”.
對(duì)于傳統(tǒng)的預(yù)測(cè)方法、神經(jīng)網(wǎng)絡(luò)、多元回歸及支持向量機(jī),非均衡數(shù)據(jù)集可能導(dǎo)致訓(xùn)練模型包含過(guò)多的“不突水”樣本信息,但只有少量“突水”樣本信息,擬合過(guò)度,盡管模型整體預(yù)測(cè)率較高(對(duì)大量不突水樣本預(yù)測(cè)準(zhǔn)率較高),但對(duì)“突水”樣本預(yù)測(cè)準(zhǔn)確率較低. 加之上述特征2提到的樣本沖突問(wèn)題,增加了傳統(tǒng)預(yù)測(cè)方法對(duì)“突水”樣本正確預(yù)測(cè)的難度.
近年來(lái)集成學(xué)習(xí)是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)之一. 由于可以取數(shù)量大致相當(dāng)、類(lèi)別不同的樣本構(gòu)建基分類(lèi)器,以及在眾多分類(lèi)器中依據(jù)用戶(hù)需求選擇性能良好的分類(lèi)器,因此集成學(xué)習(xí)成為最有希望解決非均衡樣本集準(zhǔn)確預(yù)測(cè)的方法.
集成學(xué)習(xí)經(jīng)典的兩個(gè)算法是Bagging (Bootstrap Aggregating)和AdaBoost,其工作原理都是首先構(gòu)建若干個(gè)基分類(lèi)器,然后對(duì)各基分類(lèi)器的預(yù)測(cè)結(jié)果進(jìn)行綜合分析,最終確定預(yù)測(cè)結(jié)果,從而提高分類(lèi)預(yù)測(cè)的準(zhǔn)確率. 由于可以取不同類(lèi)別樣本數(shù)量大致相當(dāng)構(gòu)建基分類(lèi)器,以及在眾多分類(lèi)器中依據(jù)用戶(hù)需求選擇合適的分類(lèi)器,因此集成學(xué)習(xí)成為最有希望解決非均衡樣本集準(zhǔn)確預(yù)測(cè)的方法.
從理論上講分類(lèi)器的選擇是任意的,但由于樣本向量數(shù)據(jù)中通常存在數(shù)值型變量、類(lèi)別及次序等多種變量,因此經(jīng)典的Bagging和AdaBoost算法中絕大多數(shù)都采用決策樹(shù)分類(lèi)器. 考慮到煤炭突水影響因素大多為連續(xù)性數(shù)值型變量,采用決策樹(shù)處理這類(lèi)變量時(shí)需要分段離散化處理,分段越多,決策樹(shù)節(jié)點(diǎn)越多,預(yù)測(cè)精度較高,但增加了計(jì)算量. 相反分段越少,決策樹(shù)節(jié)點(diǎn)少,預(yù)測(cè)精度不能保證. 同時(shí)考慮到煤礦突水預(yù)測(cè)隸屬分類(lèi)預(yù)測(cè),本文首先識(shí)別出邊界樣本,選擇部分別界樣本構(gòu)建基分類(lèi)集、采用類(lèi)似聚類(lèi)的距離判別法構(gòu)建煤礦突水的基分類(lèi)器,即通過(guò)判定樣本與不同類(lèi)別聚類(lèi)中心之間的距離遠(yuǎn)近做出分類(lèi),比較適合數(shù)值變量處理.
(1)尋找邊界樣本,更新其邊界樣本抽樣概率.
傳統(tǒng)的隨機(jī)森林法采用隨機(jī)抽取法構(gòu)建分類(lèi)集,盡管具有泛涵性,但由于邊界樣本占總樣本比例較少,這種分類(lèi)集不能保證對(duì)邊界樣本的學(xué)習(xí)能力,而邊界樣本判別的準(zhǔn)確率決定著這個(gè)系統(tǒng)的預(yù)測(cè)精確度. 如何識(shí)別出邊界樣本? 本文思路如下:從訓(xùn)練集突水樣本(突水樣本少,信息重要)中任選一樣本k(圖1中的紅色圓點(diǎn)),給定距離半徑Cr,從訓(xùn)練集中選擇出與k的距離小于Cr的所有樣本集. 如果樣本集中未包含不突水,增大Cr,直至樣本集中至少存在1個(gè)不突水樣本,(如圖1,Cr1圓中包含了3個(gè)三角類(lèi)),找出邊界樣本k1(實(shí)心三角); 再以k1為圓心,逐次增加距離半徑Cr,直至分類(lèi)集中至少包含1個(gè)圓類(lèi)(如圖1中,Cr2圓中包含了2個(gè)圓類(lèi)),然后找出另一個(gè)邊界樣本k2(綠色圓點(diǎn)),找到邊界樣本k1和k2后,根據(jù)附近點(diǎn)距離邊界點(diǎn)的距離更新其附近樣本的抽樣概率.
針對(duì)訓(xùn)練集任一樣本點(diǎn)i,其抽樣概率的更新方法如下:
考慮到i可能與其他邊界樣本的距離更近,因此這里的更新條件要考慮tp>p(i). 邊界樣本抽樣概率提高后,構(gòu)建分類(lèi)器時(shí),便于分類(lèi)集中包含不同類(lèi)別的樣本.
圖1 邊界樣本的查找法
(2)構(gòu)建基分類(lèi)集SD.
基分類(lèi)集是用來(lái)構(gòu)建基分類(lèi)器的,而分類(lèi)通常依靠邊界樣本,因此基分類(lèi)集應(yīng)盡可能包含邊界樣本(或其附近樣本)信息. 隨著分類(lèi)器的增多,更多邊界及其附近樣本抽樣概率在提高,后續(xù)分類(lèi)集包含邊界樣本的比例增多,整個(gè)模型的預(yù)測(cè)準(zhǔn)確率提高. 考慮到煤礦突水非均衡集特點(diǎn),每次樣本成對(duì)出現(xiàn),即隨機(jī)選擇某個(gè)別界樣本(或別界附近樣本)以及與之距離最近的不同類(lèi)樣本,以保證基分類(lèi)集中不同類(lèi)別的樣本數(shù)目均衡. 假設(shè)基分類(lèi)集樣本編號(hào)用數(shù)組TempD(Cn)表示,Cn表示基分類(lèi)集樣本個(gè)數(shù).
Step 1. 構(gòu)建邊界樣本列表Tube(k1,k2);
Step 2. 任取樣本點(diǎn)k,按照?qǐng)D2所示方法尋求邊界點(diǎn)k1和k2,如果k1和k2不在Tube列表中,加入列表,按照公式(1)更新訓(xùn)練樣本的抽樣概率;
Step 3.TempD(1)=k1:TempD(2)=k2:n=2;
Step 4. 產(chǎn)生隨機(jī)概率P,產(chǎn)生隨機(jī)樣本k;
Step 5. 如果樣本k的抽樣概率p(k)大于隨機(jī)概率P,樣本k被抽取,加入基分類(lèi)器TempD數(shù)組,按照以上所述邊界樣本尋找法,尋找另類(lèi)樣本中與k樣本最近的邊界樣本k’加入TempD.
Step 6. 如果基分類(lèi)集中樣本數(shù)n大于等于Cn,轉(zhuǎn)Step 7,否則轉(zhuǎn)Step 4;
Step 7. 根據(jù)抽取樣本的編號(hào)TempD,從訓(xùn)練集讀取樣本數(shù)據(jù),構(gòu)建基分類(lèi)集SD().
(3)構(gòu)建基分類(lèi)器.
以上構(gòu)建的基分類(lèi)集中包含隨機(jī)抽取的樣本和邊界樣本,利用這些樣本如何構(gòu)建基分類(lèi)器呢? 本文的思路為首先采用有監(jiān)督學(xué)習(xí)技術(shù),即根據(jù)基分類(lèi)集樣本標(biāo)簽對(duì)樣本分類(lèi),求出各類(lèi)的初始聚類(lèi)中心,然后采用無(wú)監(jiān)督學(xué)習(xí)法(不考慮樣本分類(lèi)標(biāo)簽,只考慮影響因素,以揭示影響因素與樣本類(lèi)別的內(nèi)在聯(lián)系),即通過(guò)K-means聚類(lèi)法對(duì)基分類(lèi)集樣本進(jìn)行學(xué)習(xí),若干次迭代學(xué)習(xí)后,最終獲取聚類(lèi)中心,根據(jù)樣本與聚類(lèi)中心的距離作為基分類(lèi)器判別分類(lèi)的結(jié)果,考慮到在實(shí)際應(yīng)用中,每個(gè)影響因素對(duì)煤礦是否突水的影響度并不相同,為此本文借鑒隨機(jī)森林構(gòu)建決策樹(shù)的思想,在構(gòu)建基分類(lèi)器時(shí),除了考慮訓(xùn)練集數(shù)據(jù)行信息(隨機(jī)產(chǎn)生分類(lèi)集)外,同時(shí)隨機(jī)抽取Ck個(gè)列變量(各基分類(lèi)器所包含的列變量不同),構(gòu)建基分類(lèi)器,以提高分類(lèi)器的多樣性.
輸入:Numk:基分類(lèi)器編號(hào),按構(gòu)建次序進(jìn)行編號(hào);Cn:基分類(lèi)集樣本數(shù)量; SD(i,j):基分類(lèi)集樣本數(shù)據(jù),i=1,2,…,Cn,j=1,2,…,23 (22個(gè)影響因素外加一個(gè)突水標(biāo)簽);Ck:基分類(lèi)器樣本數(shù)據(jù)的維度 (共22個(gè)影響因素),2≤Ck≤22;
輸出:W(Numk,i)=1/0:基分類(lèi)器列變量 (影響因素),i=1,2,…,22,其中有Ck個(gè)W(Numk,i)=1;CenterP(Numk,i):分類(lèi)器突水類(lèi)中心,i=1,2,…,22;CenterN(Numk,i):分類(lèi)器不突水類(lèi)中心,i=1,2,…,22;
兩個(gè)樣本x1和x2之間的距離計(jì)算采用公式(2):
盡管基分類(lèi)器對(duì)訓(xùn)練樣本集進(jìn)行了學(xué)習(xí),融合了眾多的訓(xùn)練樣本數(shù)據(jù)信息,對(duì)多數(shù)樣本有較好的分類(lèi)準(zhǔn)確率. 但單個(gè)分類(lèi)器的穩(wěn)定性、可靠性不能保障,為此需要構(gòu)建一系列的基分類(lèi)器對(duì)測(cè)試集進(jìn)行預(yù)測(cè)以達(dá)到“集成功效”. 由于分類(lèi)器來(lái)自不同的訓(xùn)練樣本,它們對(duì)同一測(cè)試集的預(yù)測(cè)結(jié)果不一. 因此對(duì)這些分類(lèi)器的預(yù)測(cè)結(jié)果進(jìn)行投票從而確定最終預(yù)測(cè)結(jié)果. 若超過(guò)半數(shù)的分類(lèi)器的預(yù)測(cè)結(jié)果為突水(或不突水),則最終預(yù)測(cè)結(jié)果為突水(或不突水). 假設(shè)采用2n+1個(gè)分類(lèi)器對(duì)同一測(cè)試集進(jìn)行預(yù)測(cè),每個(gè)基分類(lèi)器的預(yù)測(cè)正確率都為P. 根據(jù)概率統(tǒng)計(jì)學(xué)公式,最終預(yù)測(cè)結(jié)果的正確率PA為:
例如,當(dāng)采用11個(gè)預(yù)測(cè)正確率均為0.7的基分類(lèi)器對(duì)同一測(cè)試集進(jìn)行投票預(yù)測(cè)時(shí),根據(jù)公式(3)得到最終預(yù)測(cè)結(jié)果的正確率為0.92. 可見(jiàn)相較于單個(gè)弱分類(lèi)器的預(yù)測(cè)正確率,多個(gè)分類(lèi)器綜合分析法的正確率有很大的提高,這就是集成功效,最終形成一個(gè)強(qiáng)分類(lèi)器.
公式(3)中的P為傳統(tǒng)的預(yù)測(cè)準(zhǔn)確率,即正確預(yù)測(cè)數(shù)(TA=TP+TN,TP為正確預(yù)測(cè)的不突水樣本數(shù),TN為正確預(yù)測(cè)的突水樣本數(shù))所占樣本總數(shù)比例,假如TP=TP+2,TN=TN-2,盡管P未變,但對(duì)煤礦企業(yè)的來(lái)說(shuō),一次突水誤判,企業(yè)將遭受致命打擊. 為此為了選擇出良好的分類(lèi)器,必須修訂分類(lèi)器性能衡量指標(biāo).
ROC(Receiver Operating Characteristic)曲線常被用來(lái)評(píng)價(jià)一個(gè)二值分類(lèi)器的優(yōu)劣,ROC曲線的橫坐標(biāo)為誤判率(False Positive Rate),這里對(duì)應(yīng)不突水誤判率; 縱坐標(biāo)為正判率(True Positive Rate),這里對(duì)應(yīng)突水正判率. ROC曲線用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,曲線下面積越大,判別準(zhǔn)確性越高. 本例中的物理含義為輸出較少的代價(jià)(不突水誤判率較低),就能對(duì)突水樣本獲取較高的判別率. 這里將曲線下面積近似計(jì)算為:
式中,PT為突水樣本的正判率,NF為不突水樣本誤判率.SAUC不僅可以衡量某基分類(lèi)的預(yù)測(cè)性能,也是系統(tǒng)(強(qiáng)分類(lèi)器)的預(yù)測(cè)性能衡量指標(biāo),顯然SAUC越大,分類(lèi)器預(yù)測(cè)性能越好. 考慮到一次突水事故將造成巨大損失,本文的算法思想為確保PT=1的前提下,力求NF最小,即以犧牲不突水樣本的最小誤判率為代價(jià),換取所有突水樣本的正判率.
集成學(xué)習(xí)就是利用眾多的分類(lèi)器綜合評(píng)判,分類(lèi)器性能不同,對(duì)最終判決結(jié)果的貢獻(xiàn)不同,所占權(quán)重就不同. 考慮到即使SAUC相同的分類(lèi)器,其分類(lèi)規(guī)則與樣本的匹配度也不相同,所謂匹配度是指分類(lèi)器規(guī)則與樣本分類(lèi)結(jié)果貼近的程度,所以本文依據(jù)分類(lèi)器的匹配度計(jì)算分類(lèi)器的權(quán)重. 權(quán)重較大的分類(lèi)器的兩分類(lèi)中心的中間點(diǎn)(圖1中的藍(lán)色點(diǎn))連線,就可以把整體樣本劃分為不同的類(lèi),如圖1所示.
假設(shè)某分類(lèi)器的分類(lèi)中心突水類(lèi)和不突水類(lèi)分別為kp和kn,針對(duì)某突水樣本j,分類(lèi)器正判匹配度ψP(j)和誤判匹配度ψN(j)計(jì)算公式如下:
針對(duì)所有訓(xùn)練集樣本,利用公式(5)和(6)分別計(jì)算所有正判樣本的匹配度和所有誤判樣本的匹配度,然后根據(jù)公式(7)計(jì)算分類(lèi)器k對(duì)訓(xùn)練集的匹配度.
在集成學(xué)習(xí)的過(guò)程中,盡可能選取SAUC和ψPN較高的分類(lèi)器,分類(lèi)器數(shù)目選定后,對(duì)其匹配度歸一化處理后,可求取該分類(lèi)器的權(quán)重,為后續(xù)測(cè)試集樣本準(zhǔn)確預(yù)測(cè)奠定基礎(chǔ).
集成學(xué)習(xí)目前應(yīng)用較為廣泛的算法有Bagging和Boosting,采用Bagging算法,各分集隨機(jī)抽樣,基分類(lèi)器可以并行生成. Bagging算法具有“集成功效”,并不具備“學(xué)習(xí)能力”. Boosting算法根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類(lèi)是否正確,以及上次的總體分類(lèi)的準(zhǔn)確率,修正各樣本的抽樣概率,依據(jù)修正后的新數(shù)據(jù)集生成新的分類(lèi)器,基分類(lèi)器串行生成. 這種學(xué)習(xí)能力可以提高錯(cuò)分樣本抽樣概率,無(wú)法保證新分類(lèi)器對(duì)其他樣本的準(zhǔn)確率,為此本文提出改進(jìn)措施:
(1) 新分類(lèi)集構(gòu)建時(shí),除了考慮錯(cuò)分樣本,提高了邊界樣本抽樣概率,確保分類(lèi)集中邊界樣本的比例.
(2) 在保證分類(lèi)器多樣性的同時(shí),后續(xù)選擇性能良好(權(quán)重較大)的分類(lèi)器參與投票,丟棄誤判率較高的分類(lèi)器,見(jiàn)Step 3.
(3) 在集成學(xué)習(xí)(投票)時(shí),考慮了各基分類(lèi)器的權(quán)重,使判別結(jié)果更為客觀、科學(xué).
改進(jìn)后的學(xué)習(xí)步驟如下描述:
Step 1. 設(shè)置合適的參數(shù)Cn,采用3.1節(jié)的算法構(gòu)建分類(lèi)集SD.
Step 2. 采用makeClassifier算法構(gòu)建基分類(lèi)器,計(jì)算分類(lèi)器的突水樣本的正判率PT,如PT=1,Numk=Numk+1,計(jì)算分類(lèi)器的權(quán)重ψW(Numk),轉(zhuǎn)Step 3; 否則轉(zhuǎn)Step 1.
Step 3. 如果分類(lèi)器個(gè)數(shù)Numk大于突水樣本總數(shù),并且ψW(Numk)>(Max(ψW)+Min(ψW))/2,存儲(chǔ)新分類(lèi)器,轉(zhuǎn)Step 4; 否則丟棄新分類(lèi)器,轉(zhuǎn)Step 1. 即選擇性能良好的分類(lèi)器,減小振幅,以便于模型快速趨于穩(wěn)定.
Step 4. 針對(duì)所有的訓(xùn)練樣本數(shù)據(jù),利用這Numk個(gè)基分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè),每個(gè)訓(xùn)練樣本預(yù)測(cè)結(jié)果如公式(8)計(jì)算.
Pr(i,k)為第k個(gè)分類(lèi)器對(duì)樣本i的預(yù)測(cè)值,取值1(突水)/-1(不突水),如Spr(i)>0,最終預(yù)測(cè)結(jié)果為突水,否則為不突水.
Step 5. 對(duì)于訓(xùn)練集中所有預(yù)測(cè)結(jié)果錯(cuò)分的樣本,計(jì)算其錯(cuò)分概率. 假如某樣本k,其樣本標(biāo)簽為1(突水),Numk個(gè)基分類(lèi)器中有N(N>=Numk-N) 個(gè)分類(lèi)器投票它為-1(不突水),那么其錯(cuò)分概率計(jì)算為N/Numk.
Step 6. 錯(cuò)分樣本的抽樣概率被提高后,再次調(diào)用3.1節(jié)的makeClassifier算法構(gòu)建新的基分類(lèi)器,轉(zhuǎn)Step 1.
重復(fù)Step 1和Step 6,直至所有的樣本數(shù)據(jù)都能分類(lèi)正確,或者經(jīng)過(guò)若干次迭代后所有訓(xùn)練樣本的整體分類(lèi)正確率不再明顯變化時(shí),退出循環(huán).
按照第2節(jié)中的影響因素分析,本次實(shí)驗(yàn)共收集華北煤礦(主要來(lái)自河北省和河南省的部分煤礦),工作面突水情況樣本數(shù)據(jù)1551個(gè),其中突水樣本97個(gè),未突水樣本1454個(gè). 隨機(jī)選取2/3的樣本為訓(xùn)練集,全部樣本為測(cè)試集.
集成學(xué)習(xí)的本質(zhì)主要依靠眾多分類(lèi)器對(duì)某樣本的分類(lèi)投票結(jié)果來(lái)進(jìn)行分類(lèi),那么針對(duì)特定的樣本集,每個(gè)分類(lèi)集的樣本數(shù)量Cn如何取值以及時(shí)需要多少個(gè)分類(lèi)器,才能使系統(tǒng)預(yù)測(cè)性能趨于穩(wěn)定,目前還沒(méi)有固定的計(jì)算方式,例如隨機(jī)森林需要構(gòu)建多少個(gè)決策樹(shù)使得系統(tǒng)預(yù)測(cè)準(zhǔn)確率穩(wěn)定,只能通過(guò)實(shí)驗(yàn)來(lái)確定. 因此本次實(shí)驗(yàn)分別取Cn為20,40和60,考慮22個(gè)影響因素,通過(guò)訓(xùn)練集構(gòu)建一系列基分類(lèi)器,分類(lèi)器總數(shù)為200進(jìn)行測(cè)試,這里測(cè)試的是對(duì)總體樣本,而不僅限于測(cè)試集. 實(shí)驗(yàn)結(jié)果如圖2所示.
圖2 分類(lèi)集樣本數(shù)Cn對(duì)模型SAUC性能影響
當(dāng)Cn取值為20和40時(shí),每個(gè)基分類(lèi)器訓(xùn)練樣本較少,隨機(jī)性較強(qiáng),不具有代表性,隨著分類(lèi)器個(gè)數(shù)增加,盡管系統(tǒng)預(yù)測(cè)準(zhǔn)確率振幅有所減少,但幾乎不能穩(wěn)定,可見(jiàn)Cn取值不能過(guò)小.
當(dāng)Cn取值為60時(shí),每個(gè)基分類(lèi)器訓(xùn)練樣本較多,取樣樣本空間分布的代表性較強(qiáng),隨著分類(lèi)器個(gè)數(shù)逐漸增多,當(dāng)分類(lèi)器個(gè)數(shù)大于97后(見(jiàn)3.2.3節(jié)),模型可以選擇性能優(yōu)良的分類(lèi)器,振幅減小,達(dá)到170個(gè)時(shí)系統(tǒng)SAUC趨于穩(wěn)定于0.99.
為了構(gòu)建更多的分類(lèi)器及考察各指標(biāo)因素對(duì)系統(tǒng)整體分類(lèi)的影響,在3.1節(jié)構(gòu)建基分類(lèi)器時(shí),并沒(méi)有采用所有影響因素指標(biāo),而是隨機(jī)抽取Ck個(gè)指標(biāo),就如同隨機(jī)森林中的每個(gè)決策樹(shù)的節(jié)點(diǎn)數(shù),節(jié)點(diǎn)數(shù)如何科學(xué)選取,依然沒(méi)有固定規(guī)律,只能是針對(duì)特定的訓(xùn)練樣本集通過(guò)實(shí)驗(yàn)分析獲取. 為此本文針對(duì)不同的Ck=2,…,22,分別構(gòu)建200個(gè)分類(lèi)器進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖3所示. 從圖3不難發(fā)現(xiàn),當(dāng)基分類(lèi)器中的指標(biāo)取12時(shí),系統(tǒng)SAUC穩(wěn)定于0.99.
圖3 影響因素個(gè)數(shù)Ck對(duì)預(yù)測(cè)準(zhǔn)確率的影響
分類(lèi)集樣本數(shù)量Cn和煤礦突水影響因素Ck確定后,系統(tǒng)的優(yōu)化模型已經(jīng)獲取,本節(jié)通過(guò)與Boosting算法比較,分析本文算法的學(xué)習(xí)能力. 由于本文算法不僅考慮了錯(cuò)分樣本抽樣概率、并且充分考慮邊界樣本的分類(lèi)影響、后續(xù)選擇性能良好的分類(lèi)器及通過(guò)加權(quán)綜合考慮眾多分類(lèi)器的集成功效,因此學(xué)習(xí)能力較強(qiáng).實(shí)驗(yàn)中參數(shù)Cn取60,Ck取12,兩種方法分別構(gòu)建200個(gè)分類(lèi)器進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 本文算法與Boosting算法模型SAUC對(duì)比
分析圖4不難發(fā)現(xiàn),本文算法的集成學(xué)習(xí)功效表現(xiàn)在兩個(gè)方面:一是系統(tǒng)預(yù)測(cè)SAUC指標(biāo)比Boosting高,本文算法SAUC為0.99,Boosting算法學(xué)習(xí)能力差,SAUC穩(wěn)定于0.96和0.97之間震蕩; 二是系統(tǒng)預(yù)測(cè)性能SAUC穩(wěn)定速度快,尤其是在分類(lèi)器數(shù)量大于突水樣本數(shù)目之后,本文算法在170個(gè)分類(lèi)器時(shí)趨于穩(wěn)定,Boosting算法在200個(gè)分類(lèi)器時(shí)幾乎不能穩(wěn)定.
為了更全面的比較分析本文算法與其他模型性能,隨機(jī)抽取訓(xùn)練集(占總樣本比例2/3)構(gòu)建基分類(lèi)器后,以全體樣本作為測(cè)試集,共進(jìn)行5次實(shí)驗(yàn),測(cè)試結(jié)果取平均值,如表2所示.
表2 工作面樣本數(shù)據(jù)(1551:97)算法測(cè)試結(jié)果
由表2不難看出,由于樣本呈非均衡分布,各種算法整體預(yù)測(cè)準(zhǔn)確率PA取決于算法對(duì)不突水樣本的預(yù)測(cè)率NT,四種算法PA都在95%以上,隨機(jī)森林PA最高,支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)存在對(duì)不突水樣本信息過(guò)分?jǐn)M合,泛函能力較差,對(duì)突水樣本預(yù)測(cè)率較低. 但觀察PT和SAUC性能參數(shù),本文算法最好,突水樣本的正判率達(dá)到了100%. 在實(shí)際應(yīng)用中,誤判的不突水樣本其實(shí)危險(xiǎn)系數(shù)很高,已經(jīng)接近于突水,即使誤判也是對(duì)煤礦企業(yè)突水安全工作敲響警鐘,督促企業(yè)提前預(yù)防、整改; 而突水的精準(zhǔn)、無(wú)誤差判別,才是重中之重,是煤礦突水預(yù)測(cè)的最根本目的.
煤礦突水預(yù)測(cè)關(guān)系著國(guó)民經(jīng)濟(jì)的重大發(fā)展及人民群眾的生命安全,是一個(gè)長(zhǎng)期的系統(tǒng)工程,同時(shí)基于大數(shù)據(jù)分析的預(yù)測(cè)技術(shù)已成為當(dāng)前的研究熱點(diǎn). 本文在大數(shù)據(jù)分析技術(shù)的基礎(chǔ)上,考慮到樣本數(shù)據(jù)集呈非均衡分布的特點(diǎn),提出一種基于集成分類(lèi)的煤礦突水預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果證明,該算法可達(dá)到100%的突水樣本正判率,具有一定的現(xiàn)實(shí)意義,且算法簡(jiǎn)單,易于實(shí)現(xiàn).
1 施龍青,韓進(jìn),宋揚(yáng),等. 用突水概率指數(shù)法預(yù)測(cè)采場(chǎng)底板突水. 中國(guó)礦業(yè)大學(xué)學(xué)報(bào),1999,28(5):442-460.
2 李博. 灰色關(guān)聯(lián)——層次分析法的煤層頂板突水危險(xiǎn)性評(píng)價(jià)模型. 河南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(3):333-338.
3 劉雙躍,陳麗娜,王娟,等. 基于模糊聚類(lèi)分析和模糊模式識(shí)別的煤層底板突水區(qū)域預(yù)測(cè). 礦業(yè)安全與環(huán)保,2013,40(2):85-88.
4 李建林,張洪云,王心義,等. 脆弱性指數(shù)法在煤層底板突水預(yù)測(cè)中的應(yīng)用與建議. 煤炭學(xué)報(bào),2014,39(4):725-730.
5 劉再斌,靳德武,劉其聲. 基于二項(xiàng)logistic回歸模型與CART樹(shù)的煤層底板突水預(yù)測(cè). 煤田地質(zhì)與勘探,2009,37(1):56-61.
6 王江榮,趙睿,文暉,等. 基于Probit回歸模型的煤礦底板突水預(yù)測(cè). 中國(guó)煤炭地質(zhì),2015,27(3):40-42,48.
7 許江濤,鄧寅生,文廣超,等. 事故樹(shù)分析法在礦井水害防治中的應(yīng)用. 西安科技大學(xué)學(xué)報(bào),2009,29(4):405-409.
8 雷西玲,張景,謝天保. 基于遺傳神經(jīng)網(wǎng)絡(luò)的煤礦突水預(yù)測(cè). 計(jì)算機(jī)工程,2003,29(11):132-133. [doi:10.3321/j.issn:1002-8331.2003.11.044]
9 姜成志,張紹兵. 建立在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的煤礦突水預(yù)測(cè)模型. 黑龍江科技學(xué)院學(xué)報(bào),2006,16(1):8-11.
10 陶一明,劉瑞英. 基于BP神經(jīng)網(wǎng)絡(luò)的煤礦突水預(yù)測(cè)系統(tǒng)的設(shè)計(jì). 內(nèi)蒙古煤炭經(jīng)濟(jì),2012,(12):66-67. [doi:10.3969/j.issn.1008-0155.2012.12.042]
11 胥良,賈憲生. 基于神經(jīng)網(wǎng)絡(luò)的PID控制方法在礦井提升機(jī)中的應(yīng)用. 工業(yè)儀表與自動(dòng)化裝置,2015,(2):77-80.
12 徐星,孫光中,王公忠. 基于層次分析法的礦井突水風(fēng)險(xiǎn)模糊綜合評(píng)價(jià). 工業(yè)安全與環(huán)保,2016,42(6):26-29.
13 劉仕瑞,王鳳英. 對(duì)兗礦集團(tuán)Y煤礦突水的安全評(píng)價(jià)研究.科技信息,2013,(10):141. [doi:10.3969/j.issn.1673-1328.2013.10.135]
14 魏軍,題正義. 灰色聚類(lèi)評(píng)估在煤礦突水預(yù)測(cè)中的應(yīng)用. 遼寧工程技術(shù)大學(xué)學(xué)報(bào),2016,25(S):44-46.