冀汶莉,郗劉濤,王斌
(西安科技大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710054)
煤炭工業(yè)是我國支柱產(chǎn)業(yè)之一,隨著智慧礦山的提出,各類煤礦監(jiān)測監(jiān)控系統(tǒng)為礦山安全開采提供了必要的技術(shù)支持。袁亮院士指出,煤礦災(zāi)害監(jiān)測技術(shù)在智能化方向有了較快發(fā)展,但災(zāi)害前兆信息精準(zhǔn)識別和預(yù)警仍是需要研究的重要問題之一[1]。煤礦監(jiān)測監(jiān)控系統(tǒng)產(chǎn)生了大量監(jiān)測數(shù)據(jù),為災(zāi)害前兆信息發(fā)現(xiàn)和識別提供了數(shù)據(jù)基礎(chǔ)。在井下復(fù)雜環(huán)境中,由于傳感器等設(shè)備暫時性故障、網(wǎng)絡(luò)數(shù)據(jù)傳輸錯誤等導(dǎo)致的明顯偏離正常數(shù)據(jù)形態(tài)的數(shù)據(jù)為異常數(shù)據(jù)[2]。異常數(shù)據(jù)可能包含災(zāi)害前兆信息,因此,準(zhǔn)確檢測出異常數(shù)據(jù)對煤礦災(zāi)害前兆信息識別和煤礦安全預(yù)警都具有重要意義。
隨著物聯(lián)網(wǎng)和人工智能技術(shù)的不斷發(fā)展,針對各類監(jiān)測系統(tǒng)的異常數(shù)據(jù)自動識別技術(shù)逐漸成為研究熱點之一。目前,異常數(shù)據(jù)識別方法包括傳統(tǒng)的基于統(tǒng)計學(xué)的方法[3-5]和新的基于人工智能的方法[6-8]。基于人工智能的方法利用最近鄰、聚類、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(Support Vector Machine, SVM)等機器學(xué)習(xí)算法自主訓(xùn)練識別模型,完成異常值識別[6]。但上述方法沒有考慮異常數(shù)據(jù)和多數(shù)類正常數(shù)據(jù)的數(shù)量不平衡性問題。
真實環(huán)境下采集到的監(jiān)測數(shù)據(jù)極易出現(xiàn)以數(shù)據(jù)不平衡和數(shù)據(jù)噪聲等為代表的數(shù)據(jù)不一致現(xiàn)象[9]。一般來說,各種監(jiān)測系統(tǒng)中異常數(shù)據(jù)和多數(shù)類數(shù)據(jù)在數(shù)量上的不平衡性表現(xiàn)在不同數(shù)據(jù)類型的比例上,如1∶100或1∶1 000等。因此,在分析數(shù)據(jù)時,不可忽視其不平衡性。He Haibo等[10]詳細分析了機器學(xué)習(xí)算法應(yīng)用于不平衡數(shù)據(jù)集時存在的問題及解決方法。SVM和ANN等傳統(tǒng)經(jīng)典的機器學(xué)習(xí)算法應(yīng)用于不平衡數(shù)據(jù)集時,易造成極端值、數(shù)據(jù)稀缺等問題,對少數(shù)類的識別能力較差。目前針對不平衡數(shù)據(jù)集的學(xué)習(xí)分類方法有2種。一種是從數(shù)據(jù)角度出發(fā),研究采用不同采樣算法解決不平衡數(shù)據(jù)集的學(xué)習(xí)問題,如Wang Qi等[11]提出基于擴展邊界SMOTE SVM的不平衡學(xué)習(xí)方法,黃建明等[12]提出考慮小波奇異信息與不平衡數(shù)據(jù)集的輸電線路故障識別方法。另一種是從學(xué)習(xí)模型改造角度出發(fā),通過引入代價敏感學(xué)習(xí)算法或進行組合學(xué)習(xí)解決不平衡數(shù)據(jù)學(xué)習(xí)問題,如M. Schubach等[13]提出結(jié)合采樣技術(shù)組合學(xué)習(xí)方法解決基因分類不平衡數(shù)據(jù)問題。
本文以煤礦分布式光纖豎井變形監(jiān)測系統(tǒng)采集的數(shù)據(jù)為研究對象。在煤礦豎井變形監(jiān)測中,一般是通過監(jiān)測點光纖傳感器的波長與中心波長的差值來反映豎井變形。異常點多是根據(jù)人工經(jīng)驗來識別,不但效率低下,還會因為波長漂移等物理因素帶來很大的識別偏差。針對該問題,本文提出了一種基于去重復(fù)下采樣(Removing Dupliation Under-sampling,RDU)、合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)和隨機森林(Random Forest,RF)分類算法的RDU-SMOTE-RF異常數(shù)據(jù)識別方法,并通過實驗驗證了該方法具有較好的泛化性和較強的魯棒性。
RDU-SMOTE-RF異常數(shù)據(jù)識別方法用于解決具有時間序列特征的煤礦監(jiān)測系統(tǒng)不平衡數(shù)據(jù)集中的異常數(shù)據(jù)自動識別問題。首先,通過滑動時間窗提取原始波長數(shù)據(jù)特征屬性,作為RF識別模型的輸入;然后,通過RDU和SMOTE對不平衡數(shù)據(jù)集進行平衡處理;最后,利用優(yōu)化后的數(shù)據(jù)集訓(xùn)練RF識別模型,對6個傳感器產(chǎn)生的監(jiān)測數(shù)據(jù)進行異常數(shù)據(jù)識別。該方法流程如圖1所示。
結(jié)合機器學(xué)習(xí)算法的異常數(shù)據(jù)識別方法具有較強的泛化能力,但前提是需要提取合適的特征屬性并形成大量數(shù)據(jù)樣本。本文原始數(shù)據(jù)來自于某煤礦豎井變形監(jiān)測系統(tǒng),共有6個傳感器的時間序列監(jiān)測值,監(jiān)測值表現(xiàn)為光柵傳感器當(dāng)前時刻的波長。光纖傳感器采集的原始數(shù)據(jù)具有明確的時間特征,為了從原始數(shù)據(jù)中提取能夠準(zhǔn)確表征異常數(shù)據(jù)和正常數(shù)據(jù)的特征屬性,本文提出了移動時間窗τ的概念,通過時間窗的滑動提取原始數(shù)據(jù)的特征屬性。
圖1 異常數(shù)據(jù)識別方法流程
時間窗計算公式為
(1)
式中:T為時間窗內(nèi)的數(shù)據(jù)流分布周期;Δt為采集數(shù)據(jù)的時間間隔,T=5Δt。
(2)
異常數(shù)據(jù)判斷依據(jù)如式(3)所示。根據(jù)項目實施經(jīng)驗,本文選取判斷閾值為0.002和0.004。若數(shù)據(jù)滿足式(3)所示條件,則將原始數(shù)據(jù)和對應(yīng)特征向量標(biāo)記為異常數(shù)據(jù)(用y標(biāo)記,y=1),即少數(shù)類樣本;否則標(biāo)記為正常數(shù)據(jù)(y=0),即多數(shù)類樣本。
xt|y=1 anddt|y=1,
(3)
由于監(jiān)測系統(tǒng)的異常數(shù)據(jù)屬于少數(shù)類,造成了特征屬性樣本集合的數(shù)據(jù)不平衡。若直接對不平衡數(shù)據(jù)集通過識別模型識別異常數(shù)據(jù),可能會發(fā)生過擬合現(xiàn)象,從而使識別性能下降。因此,本文提出使用RDU和SMOTE算法優(yōu)化訓(xùn)練數(shù)據(jù)集。
1.3.1 多數(shù)類樣本下采樣
分析特征向量樣本集可知,多數(shù)類樣本存在較多重復(fù)數(shù)據(jù)。通過RDU算法,可在刪除重復(fù)數(shù)據(jù)的同時保證數(shù)據(jù)信息的完整性。RDU算法流程如圖2所示。將特征向量樣本集中的多數(shù)類樣本放在集合list()中,設(shè)N為多數(shù)類樣本總數(shù),i,j為迭代變量。外循環(huán)采用順序遍歷,內(nèi)循環(huán)采用逆序遍歷,逐個刪除list()集合中的重復(fù)元素。采樣結(jié)束后輸出的新list()集合,即為沒有重復(fù)元素的多數(shù)類樣本集合。
圖2 RDU算法流程
1.3.2 少數(shù)類樣本過采樣
對于特征向量樣本集中已標(biāo)記的異常數(shù)據(jù),采用SMOTE算法產(chǎn)生和已有少數(shù)類樣本近似的新合成異常數(shù)據(jù),以改善數(shù)據(jù)集的不平衡性。用Y表示已建立樣本庫中存在的異常數(shù)據(jù)樣本集合,其數(shù)學(xué)表達式為Y={(dt,y)|y=1}。
SMOTE算法的具體步驟:
(1) 取少數(shù)類樣本集合中的任意一個特征樣本dt,以歐氏距離為標(biāo)準(zhǔn)計算dt到少數(shù)類樣本集中其他樣本da的距離。dt和da的歐氏距離為
(4)
(2) 以dt為中心,選出k個歐氏距離最近的樣本,得到k個近鄰。SMOTE算法原理如圖3所示,這里k=6。
圖3 SMOTE算法原理
(3) 從k個近鄰中隨機選擇一個樣本,用dk-1表示,計算da和dk-1之間的線性插值,得到和da相似的新的少數(shù)類樣本dnew。dnew計算公式為
dnew=da+(dk-1-da)δ
(5)
式中δ為0~1的隨機數(shù)。
(4) 根據(jù)多數(shù)類和少數(shù)類樣本不平衡比例設(shè)置一個采樣比例,以確定采樣倍率。針對每個少數(shù)類樣本,重復(fù)上述的線性插值過程,最終使少數(shù)類樣本數(shù)目與多數(shù)類樣本數(shù)目相匹配,實現(xiàn)樣本集的平衡。
異常數(shù)據(jù)自動識別問題屬于未知樣本的二分類問題。借鑒L.Breiman等[14]定義的RF算法思想,設(shè)計異常數(shù)據(jù)識別模型。RF算法是一種集成學(xué)習(xí)算法[15],以分類回歸決策樹作為基學(xué)習(xí)器,結(jié)合Bagging思想,在決策樹訓(xùn)練過程中引入隨機屬性選擇,最后對所有的子分類器進行集成并通過投票決定分類結(jié)果。RF算法具有泛化能力強、方差小、過擬合程度低等優(yōu)點。RF可表示為{h(X,θg),g= 1,2,…,n},X為輸入變量,n為RF中決策樹的個數(shù),θg為具有獨立同分布的隨機向量,其決定了隨機性的引入程度,設(shè)θg=log2f,其中f為樣本特征向量的維度。RF算法學(xué)習(xí)過程如圖4所示。
圖4 RF算法學(xué)習(xí)過程
1:初始化所有參數(shù)。
U=O=?;Z=Length(D);
α=0; itor=10;
n_estimator=15; max_features=2;
2:Fori=1 toZ
若di是多數(shù)類樣本,則加入集合U,否則加入集合O。
3:采用RDU算法對集合U進行采樣,使集合中沒有重復(fù)元素,得到新的集合Unew。
4:計算集合Unew與集合O中元素個數(shù)的比值α,根據(jù)α值實現(xiàn)函數(shù)SMOTE(O,α),得到Omin:
Omin:= SMOTE(O,α);
5:合并Unew和Omin生成新的均衡的數(shù)據(jù)集D′:
D′=Unew∪Omin;
6:while (itor<=10) do
7:對集合D′使用十折交叉驗證法劃分訓(xùn)練集S_train和測試集S_test。
8:使用RF分類方法訓(xùn)練S_train:
Mi:=RF(S_train);
9:itor:= itor+1;
10:while end;
11:算法結(jié)束。
輸出:迭代完成時識別模型及參數(shù)最優(yōu)值。
異常數(shù)據(jù)識別實質(zhì)是機器學(xué)習(xí)中的二分類問題,但由于異常數(shù)據(jù)和正常數(shù)據(jù)數(shù)量上的不平衡性,存在少數(shù)類識別率很低而總體準(zhǔn)確率很高的情況。因此,單純以準(zhǔn)確率作為算法評價指標(biāo)不能準(zhǔn)確衡量算法對異常數(shù)據(jù)的識別性能。本文引入分類問題中常用的真陽性率(True Positive Rate ,TPR)、真陰性率(True Negative Rate,TNR)、F1度量、G-mean指標(biāo)作為評價指標(biāo),具體定義如下。
(1) TPR是一種代表正確預(yù)測正類樣本的比率,在本文中表示對正常數(shù)據(jù)的正確識別比率,其計算公式為
(6)
式中:TP表示實際是正常數(shù)據(jù)、預(yù)測也是正常數(shù)據(jù)的樣本個數(shù);FN表示實際是正常數(shù)據(jù)、被錯分為異常數(shù)據(jù)的樣本個數(shù)。
(2) TNR是一種針對負類的評價準(zhǔn)則,在本文中表示對異常數(shù)據(jù)的正確識別比率,其計算公式為
(7)
式中:FP表示實際是異常數(shù)據(jù)、被錯分為正常數(shù)據(jù)的樣本個數(shù);TN表示實際是異常數(shù)據(jù)、預(yù)測也是異常數(shù)據(jù)的樣本個數(shù)。
(3) F1度量是綜合考慮查全率R和查準(zhǔn)率P的評價指標(biāo),是基于查準(zhǔn)率與查全率的調(diào)和平均,其計算公式為
(8)
(9)
(10)
(4) G-mean是一種整體上衡量數(shù)據(jù)集分類性能的評價指標(biāo),其計算公式為
(11)
為了驗證面向不平衡數(shù)據(jù)集的異常數(shù)據(jù)識別方法的性能,在相同實驗環(huán)境下,基于Python語言,采用SVM,ANN,RF,RDU-SMOTE-RF,RDU-SMOTE-ANN,RDU-SMOTE-SVM算法對不平衡數(shù)據(jù)集進行異常數(shù)據(jù)識別,并分析比較了各算法的性能。
實驗的原始數(shù)據(jù)來源于某煤礦分布式光纖豎井變形監(jiān)測系統(tǒng)中6個光纖傳感器2010—2011年所采集的波長數(shù)據(jù)。每個傳感器采集到4 591條數(shù)據(jù)。針對每個傳感器數(shù)據(jù)提取特征屬性并建立樣本庫,依據(jù)工程經(jīng)驗對樣本庫內(nèi)的異常數(shù)據(jù)進行標(biāo)記。采用十折交叉驗證法將每個傳感器產(chǎn)生的樣本庫劃分為訓(xùn)練集和測試集。實驗數(shù)據(jù)集基本信息見表1。
RF算法在訓(xùn)練時需要設(shè)定2個參數(shù),即決策樹的數(shù)量n_estimator和每棵樹的特征變量數(shù)量max_features。為訓(xùn)練出最佳分類參數(shù),分別將n_estimator設(shè)置為15,50,70,90,100,將max_features初始值設(shè)為2。特征變量個數(shù)q=log2f。ANN算法選擇tanh作為激活函數(shù),SVM算法選取RBF作為核函數(shù),在SMOTE過采樣中特征變量個數(shù)q取6。
表1 實驗數(shù)據(jù)集基本信息
在6個數(shù)據(jù)集上分別進行訓(xùn)練和測試,實驗過程中發(fā)現(xiàn),RF的分類識別性能隨決策樹數(shù)量的增加而變優(yōu),當(dāng)決策樹的數(shù)量達到90時,分類識別精確度趨于平穩(wěn)。訓(xùn)練好的RF分類器參數(shù)優(yōu)化結(jié)果:n_estimator=90, max_features=2。
為了驗證所提方法的有效性和泛化性,分別在原有訓(xùn)練集和優(yōu)化后的訓(xùn)練集上訓(xùn)練不同類型的分類器,并進行異常數(shù)據(jù)識別。表2—表7分別給出了將RDU-SMOTE-SVM,RDU-SMOTE-ANN,RDU-SMOTE-RF,SVM,ANN,RF應(yīng)用于6個傳感器的數(shù)據(jù)集時的異常數(shù)據(jù)識別結(jié)果。分析識別結(jié)果可知,總體上不同算法的分類性能均受不平衡數(shù)據(jù)集的限制和影響,對少數(shù)類異常數(shù)據(jù)的識別能力較差。通過對不平衡數(shù)據(jù)集進行優(yōu)化,極大地提高了異常數(shù)據(jù)的識別準(zhǔn)確率。
表2 傳感器1不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
傳感器1數(shù)據(jù)不平衡程度最高,傳感器6數(shù)據(jù)不平衡程度最低。以表2和表7進行性能分析。表2中,采用SVM,ANN,RF算法進行異常數(shù)據(jù)識別時,TPR指標(biāo)達到100%,F(xiàn)1為0.99。這是由于傳統(tǒng)分類算法應(yīng)用于不平衡數(shù)據(jù)集時,識別結(jié)果更傾向于多數(shù)類,導(dǎo)致對多數(shù)類樣本的識別正確率特別高。在TNR指標(biāo)上,3種傳統(tǒng)機器學(xué)習(xí)算法的異常數(shù)據(jù)識別性能依次是33.42%,40%和66.67%,表明數(shù)據(jù)的不平衡性直接影響了機器學(xué)習(xí)算法對異常數(shù)據(jù)的識別效率。SVM和ANN算法的G_mean指標(biāo)只有0.661和0.611,RF算法為0.816,表明綜合識別性能不佳。
表3 傳感器2不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
表4 傳感器3不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
表5 傳感器4不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
表6 傳感器5不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
表7 傳感器6不平衡數(shù)據(jù)集異常數(shù)據(jù)識別結(jié)果
當(dāng)對不平衡數(shù)據(jù)集采用RDU和SMOTE混合技術(shù)優(yōu)化后,再使用分類算法SVM,ANN,RF進行異常數(shù)據(jù)識別訓(xùn)練,識別性能得到了明顯提升。RDU-SMOTE-SVM算法的TNR指標(biāo)達到98.56%,性能比SVM算法提升了65.14%。RDU-SMOTE-ANN算法的TNR指標(biāo)達到97.35%,性能比ANN算法提升了57.35%。RDU-SMOTE-RF算法的TNR指標(biāo)達到99.63%,比RF算法提升了32.96%。G_mean指標(biāo)也都得到了較大的提升。
傳感器6數(shù)據(jù)不平衡程度較低,但傳統(tǒng)的分類算法也不能準(zhǔn)確識別異常數(shù)據(jù)。在優(yōu)化后的平衡數(shù)據(jù)集上,3種算法性能都得到了提升,其中RDU-SMOTE-RF算法評估結(jié)果最優(yōu)。綜合分析6個數(shù)據(jù)集的實驗結(jié)果可知,本文所提方法異常數(shù)據(jù)識別準(zhǔn)確率平均達到99.3%。此外,根據(jù)不同識別算法的耗時結(jié)果分析,本文所提方法也是具有較小時間復(fù)雜度。
為了進一步分析提出方法的性能,引入ROC(Receiver Operating Characteristic,受試者工作特征)曲線分析。用二維平面上ROC曲線下的面積(Area Under the Curve, AUC)作為評價指標(biāo)衡量不同分類算法的性能。AUC越大,ROC曲線越接近左上角,表示模型分類性能越強,性能越好。
6個數(shù)據(jù)集經(jīng)RDU-SMOTE算法優(yōu)化后,分別采用RF,ANN,SVM分類算法識別異常數(shù)據(jù),得到的ROC曲線如圖5—圖7所示??梢钥闯?,RF算法的曲線比ANN,SVM曲線更接近于左上角,而且AUC值明顯大于ANN,SVM的AUC值。這說明RDU-SMOTE-RF算法異常數(shù)據(jù)識別性能更強,優(yōu)于RDU-SMOTE-ANN,RDU-SMOTE-SVM算法。
圖5 采用RDU-SMOTE-RF算法得到的ROC曲線
圖6 采用RDU-SMOTE-ANN算法得到的ROC曲線
圖7 采用RDU-SMOTE-SVM算法得到的ROC曲線
針對煤礦監(jiān)控系統(tǒng)中異常數(shù)據(jù)識別問題,提出了面向不平衡數(shù)據(jù)集的RDU-SMOTE-RF異常數(shù)據(jù)識別方法。通過下采樣算法去除重復(fù)樣本,通過過采樣算法合成新的異常數(shù)據(jù),對不平衡數(shù)據(jù)集進行優(yōu)化,這種平衡策略也適用于其他多種人工智能算法對不平衡數(shù)據(jù)集的處理。實驗結(jié)果表明,RDU-SMOTE-RF算法有較高的異常數(shù)據(jù)識別率、較強的魯棒性和泛化能力,同時具有較低的時間復(fù)雜度,性能優(yōu)于RF,ANN,SVM算法及RDU-SMOTE-ANN,RDU-SMOTE-SVM算法。隨著互聯(lián)網(wǎng)+及智能化發(fā)展對能源行業(yè)的促進,將在煤礦大數(shù)據(jù)背景下針對異常數(shù)據(jù)自動識別展開更深入的研究。