楊建全1,李 筱,李雅斌
(1.平頂山天安煤業(yè)股份有限公司,河南 平頂山 467000; 2.北京瑞賽長(zhǎng)城航空測(cè)控技術(shù)有限公司,北京 100176)
煤礦安全生產(chǎn)監(jiān)控系統(tǒng)已全面普及,實(shí)現(xiàn)了瓦斯氣體濃度的實(shí)時(shí)監(jiān)測(cè)和聯(lián)網(wǎng)監(jiān)控,及以公司為單位的煤礦安全環(huán)境監(jiān)控參數(shù)的統(tǒng)一集中管理[1]。
但是安全監(jiān)測(cè)系統(tǒng)由于受到環(huán)境、電磁干擾、設(shè)備故障、人為設(shè)備調(diào)校等因素的影響,出現(xiàn)大量異常高值數(shù)據(jù),導(dǎo)致了大量瓦斯誤報(bào)警。目前對(duì)于誤報(bào)警采用的都是人工識(shí)別的方式。公司希望對(duì)甄別報(bào)警進(jìn)行研究,實(shí)現(xiàn)對(duì)誤報(bào)警的自動(dòng)識(shí)別,提高識(shí)別效率,減少人工負(fù)擔(dān)。
為了利用海量數(shù)據(jù)實(shí)現(xiàn)報(bào)警甄別,可借鑒目前研究較多的數(shù)據(jù)挖掘技術(shù)[2]。作為數(shù)據(jù)挖掘的重要研究課題之一,時(shí)間序列的數(shù)據(jù)挖掘與預(yù)測(cè)技術(shù)近幾年發(fā)展迅速,它將數(shù)據(jù)挖掘和時(shí)間序列聯(lián)系起來(lái),支持解決發(fā)現(xiàn)新問(wèn)題,以從海量的時(shí)間序列數(shù)據(jù)中挖掘出有價(jià)值的、潛在的、 未知的知識(shí)為目的[3-6]。
本文基于大數(shù)據(jù)的時(shí)間序列相關(guān)技術(shù)對(duì)瓦斯報(bào)警甄別進(jìn)行了研究。
瓦斯?jié)舛让刻斓臄?shù)據(jù)量達(dá)上萬(wàn)條,如果直接在原始時(shí)間序列上進(jìn)行數(shù)據(jù)挖掘,不但效率低下,而且往往難以獲得滿意的結(jié)果。利用時(shí)間序列具有大數(shù)據(jù)的海量性和復(fù)雜性等數(shù)據(jù)特點(diǎn)進(jìn)行研究。
時(shí)間序列的表示方法主要有頻域表示法、奇異值表示法、符號(hào)表示法、分段線性表示法。
分段線性表示法不改變?cè)蛄械谋硎痉绞?,具有更直觀的形式,因此得到眾多研究者的重視,是當(dāng)前熱門(mén)的模式表示方法[7-11]。
分段線性表示的時(shí)間序列模式:
L={(l1,k1),…,(li,ki)}
(1)
式中,li為第i(i=1,2,…,n)分段的長(zhǎng)度;ki為第i分段的斜率。
在分段基礎(chǔ)上,關(guān)鍵問(wèn)題是相似性度量。
相似度量是通過(guò)被測(cè)模式和正常模式的相似性判斷診斷出哪些是異常數(shù)據(jù)。相似性度量的方法有Minkowski距離、動(dòng)態(tài)模式匹配距離及基于模式特征的K-近鄰動(dòng)態(tài)系統(tǒng)測(cè)量。
(1) Minkowski距離。
Minkowski距離作為相似性度量距離,是歐氏距離的推廣,定義如下:
(2)
當(dāng)p=2時(shí),即為歐式距離。Minkowski距離應(yīng)用于數(shù)據(jù)索引的相似性度量時(shí)具有簡(jiǎn)單直觀、計(jì)算簡(jiǎn)便、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)。然而也存在可靠性較差、對(duì)噪聲及波動(dòng)魯棒性較差等缺點(diǎn)。
(2) 動(dòng)態(tài)模式匹配距離。
與傳統(tǒng)距離不同,動(dòng)態(tài)模式匹配距離是通過(guò)模式進(jìn)行匹配。降低了計(jì)算的數(shù)據(jù)量,提高了算法效率。
假定給定兩個(gè)模式P1=(l1,k1)和P2=(l2,k2),其中l(wèi)和k分別表示模式的長(zhǎng)度與斜率,則兩個(gè)模式之間的距離為
(3)
式中,分母是將長(zhǎng)度和斜率這兩個(gè)不同的量綱進(jìn)行統(tǒng)一,而取最小值則是為了能夠突出短模式的重要性。
若有兩個(gè)時(shí)間序列:
對(duì)應(yīng)模式分別為
則兩模式的動(dòng)態(tài)模式匹配距離為
D(X,Y)=d(px1,py1)+min{D(P(X-1),P(Y)),D(P(X),
P(Y-1)),D(P(X-1),P(Y-1))}
(4)
式中,d(px1,py1)為px1與py1之間的模式距離;P(X)-px1和P(Y)-py1分別為P(X)和P(Y)去除了第一個(gè)元素后的序列。
從上述公式可以看出,模式是由長(zhǎng)度、斜率這兩個(gè)特征表示。由于模式的長(zhǎng)度與時(shí)間序列的振幅大小無(wú)關(guān),而其斜率則體現(xiàn)了時(shí)間序列振幅的相對(duì)大小,所以動(dòng)態(tài)模式匹配距離可以克服時(shí)間序列的振幅平移與伸縮變換。
數(shù)據(jù)異常檢測(cè)算法是利用不同特征間的距離不同進(jìn)行分類[12-13],選用前k個(gè)與待分類數(shù)據(jù)相似的數(shù)據(jù),記錄k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的類別為待分類數(shù)據(jù)的類別。
該檢測(cè)方法檢測(cè)步驟如下:
① 對(duì)已有報(bào)警類型進(jìn)行數(shù)據(jù)建模,提取特征值。
② 對(duì)要檢測(cè)的數(shù)據(jù)進(jìn)行分段,利用式(3)計(jì)算距離。
③ 計(jì)算模式P的K-近鄰可達(dá)距離。
該距離定義為
dist(q,p)=max(d(q,p),dk(p))
(5)
式(5)表示模式p與模式q的K-近鄰可達(dá)距離,至少是模式p的K-近鄰距離,或者等于模式p與模式q間的實(shí)際距離。離模式p最近的k個(gè)模式,模式p到這些模式的K-近鄰可達(dá)距離都等于dk(p)。
④ 計(jì)算模式p的k局部可達(dá)密度。
該密度定義為
(6)
式中,Nk(p)為模式p的第k距離鄰域,即p的K-近鄰距離以內(nèi)的所有模式,表示在模式向量集D中與模式p的距離不超過(guò)dk(p)的所有模式的集合。該值表示密度,密度越大,屬于同一簇的可能性越大,密度越低,為離群模式的概率越高。如果模式p和周圍鄰域模式是相同簇,則可達(dá)距離為較小值dk(p)的可能性大,使得可達(dá)距離求和小,密度值高;如果p和相鄰模式相距較遠(yuǎn),可達(dá)距離可能需要較大的值d(q,p),從而導(dǎo)致密度較小,并且更可能是離群模式。
⑤ 計(jì)算模式p的局部異常系數(shù)。
該系數(shù)定義為
(7)
LOF(p)值能夠判斷某模式異常可能性的大小:如果該值較大,則該模式的局部范圍內(nèi)比較稀疏,說(shuō)明該模式是異常的可能性較大。
由于模式向量的數(shù)據(jù)量遠(yuǎn)小于原時(shí)間序列點(diǎn)數(shù),因此會(huì)大大減小異常檢測(cè)算法復(fù)雜性及計(jì)算時(shí)間。
通過(guò)對(duì)近兩年的瓦斯傳感器報(bào)警數(shù)據(jù)的分析,同時(shí)征詢煤礦安全技術(shù)專家意見(jiàn),尋找出不同原因?qū)е碌膱?bào)警特有的數(shù)據(jù)特征,建立初步的甄別數(shù)學(xué)模型。再結(jié)合基于模式特征的K-近鄰檢測(cè)算法,實(shí)現(xiàn)瓦斯報(bào)警類型的自動(dòng)甄別。
安全監(jiān)控系統(tǒng)中的瓦斯傳感器報(bào)警分為以下3種類型。
瓦斯涌出是指煤礦開(kāi)采過(guò)程中,由受采動(dòng)影響的煤層、巖層,以及由采落的煤、巖石向井下空間釋放瓦斯的現(xiàn)象,分為以下兩種情況。
(1) 一般連續(xù)不斷、緩慢均勻涌出模型。
該情況的曲線如圖1所示。
圖1 一般瓦斯涌出數(shù)據(jù)曲線
此類瓦斯報(bào)警模型如下:
(8)
(2) 集中發(fā)生、涌出量不均勻的突出模型。
該情況的曲線如圖2所示。
圖2 瓦斯突出數(shù)據(jù)曲線
此類瓦斯報(bào)警模型如下:
(9)
注意,式(9)中的符號(hào)相同的各參數(shù)和其他公式中符號(hào)相同的各參數(shù)意義相同,但取值不同。
傳感器每星期需要進(jìn)行調(diào)校,在進(jìn)行高值調(diào)校時(shí),需要先向傳感器充入2%的甲烷氣體,并持續(xù)90 s以上,這會(huì)造成瓦斯傳感器在監(jiān)控系統(tǒng)中超限報(bào)警。曲線如圖3所示。
圖3 傳感器調(diào)校數(shù)據(jù)曲線
此類瓦斯報(bào)警模型如下:
(10)
調(diào)校規(guī)程要求持續(xù)90 s以上,除去采集間隔時(shí)間的影響,定為60 s。
瓦斯傳感器故障、供電異常、進(jìn)水、接線松動(dòng)、通信線路受電磁干擾等都會(huì)造成瓦斯數(shù)據(jù)報(bào)警的情況。主要有滿量程和瞬間高值兩種情況。
(1) 滿量程故障模型。
滿量程情況曲線如圖4所示。
圖4 滿量程故障數(shù)據(jù)曲線
此類瓦斯報(bào)警模型如下:
(11)
(2) 瞬間高值模型。
瞬間高值情況曲線如圖5所示。此類瓦斯報(bào)警模型如下:
(12)
圖5 傳感器瞬間高值故障數(shù)據(jù)曲線
利用軟件程序?qū)崿F(xiàn)系統(tǒng)流程如圖6所示。
圖6 瓦斯甄別判斷流程
(1) 測(cè)試方法。
為了對(duì)系統(tǒng)軟件功能及其效果進(jìn)行考核,集中對(duì)2018年10月—12月三個(gè)月內(nèi)的13075條瓦斯報(bào)警數(shù)據(jù)的甄別結(jié)果,由專業(yè)人員進(jìn)行了詳細(xì)的人工對(duì)比和鑒別,將鑒別結(jié)果錄入數(shù)據(jù)庫(kù),通過(guò)查詢語(yǔ)句分析統(tǒng)計(jì)結(jié)果。
(2) 測(cè)試結(jié)果。
① 在報(bào)警數(shù)據(jù)13075條中,程序甄別為瓦斯超限報(bào)警的927條,識(shí)別為傳感器調(diào)校的10860條,識(shí)別為干擾/故障的1288條。
② 經(jīng)人工鑒別,程序識(shí)別為瓦斯超限報(bào)警的927條記錄中,實(shí)際為瓦斯超限的94條,其余屬于將調(diào)校和故障信息誤判為瓦斯超限信息;程序識(shí)別為傳感器調(diào)校的10860條記錄,經(jīng)人工判斷全部為調(diào)校;程序識(shí)別為干擾/故障的1288條記錄中,有1127條為干擾/故障記錄,其余為調(diào)校誤判為干擾/故障。
③ 經(jīng)統(tǒng)計(jì),本程序識(shí)別正確的共計(jì)12081條,識(shí)別準(zhǔn)確率達(dá)到92%。
本系統(tǒng)在平煤神馬集團(tuán)應(yīng)用后,收到了很好的效果,對(duì)瓦斯報(bào)警類別的識(shí)別準(zhǔn)確率達(dá)到90%以上,有效降低了瓦斯誤報(bào)現(xiàn)象,同時(shí)對(duì)于真實(shí)的瓦斯報(bào)警能及時(shí)通知相關(guān)人員進(jìn)行處理,有效地減少了相關(guān)人員的工作量,提高了工作效率。
系統(tǒng)存在的主要問(wèn)題是甄別率還需要進(jìn)一步提高,影響甄別率的因素主要有:
① 調(diào)校傳感器時(shí)由于充氣過(guò)程中出現(xiàn)間斷,造成整個(gè)調(diào)校過(guò)程不連續(xù),影響系統(tǒng)判斷;
② 故障報(bào)警的情況多種多樣,其數(shù)據(jù)規(guī)律不能完全用現(xiàn)有模型概括,需要引入更多的模型。
后續(xù)研究可以從算法入手,探索更有效的數(shù)據(jù)挖掘方法,降低干擾數(shù)據(jù)的影響,同時(shí)加強(qiáng)對(duì)傳感器間關(guān)聯(lián)關(guān)系的分析研究,排除不符合邏輯規(guī)律的報(bào)警,從而提高瓦斯甄別的準(zhǔn)確率。