徐守坤,瞿詩齊,石 林,王 斌
(常州大學信息科學與工程學院,江蘇常州 213000)
基于多維狀態(tài)參量和時間序列對電機的異常檢測
徐守坤,瞿詩齊,石 林,王 斌
(常州大學信息科學與工程學院,江蘇常州 213000)
針對傳統(tǒng)對電機的異常檢測常常出現誤判或滯后的情況,采用基于時間序列對電機單一狀態(tài)參量用AR擬合,同時利用SOM神經網絡無監(jiān)督的方式量化電機數據;然后,利用得到的量化序列結合AR曲線得到序列的轉移概率,及早發(fā)現某種狀態(tài)參量的異常變化;之后,DBSCAN算法挖掘多維參數之間特征關系來確定電機是否出現異常;最后結合實例說明該方法的檢測過程,并對比驗證了該方法的優(yōu)越性。
異常檢測;時間序列;AR擬合;SOM神經網絡;DBSCAN算法
現在對于電機故障發(fā)生前的異常檢測成為了必然的研究趨勢,對設備進行異常檢測大多是根據經驗對電機部分狀態(tài)參量設置的閾值,或者利用神經網絡訓練等人工智能的方式來檢測異常[1]。這些傳統(tǒng)的檢測方式,不僅存在著數據分析片面性的問題,而且由于異常數據少,數據之間的相關性復雜等問題不能很好的建立比較完善的異常檢測模型。近年,大數據技術中時間序列分析法[2]、隱馬爾科夫算法[3]、聚類算法[4]等也被引入了設備異常檢測領域,為電機的異常檢測提供了新的思路[5]。但是,這些單一的方法對電機異常的檢測,容易出現誤判或者判斷滯后的情況,不能及時高效地進行異常判定。
本文考慮電機運行時狀態(tài)參量與時間序列的相關性,提出通過時間序列分析和無監(jiān)督學習的方式,來對電機進行異常檢測。針對電機正常的單一狀態(tài)參量,通過時間序列的自回歸算法[6]和利用自組織神經網絡[7]分別擬合建立電機的時間序列模型;然后利用訓練好的自組織神經網絡量化數據,根據建立好的AR模型[8],得到監(jiān)測數據基于時間軸的轉移概率序列。同時,將設備的多種狀態(tài)參量通過DBSCAN聚類算法[9]來處理它們之間的復雜關系,從而建立電機的異常檢測模型。該方法通過時間序列模型和自適應模型來挖掘數據的特征,盡早發(fā)現異常的出現,同時利用DBSCAN的方法來綜合多維狀態(tài)參量的關系,解決單一狀態(tài)量的片面性從而減少誤判。與傳統(tǒng)的閾值判定、神經網絡訓練和單一的聚類的方法的方式相比而言,該方法不僅解決了多維參量的相關性和異常數據少的問題,而且還增加了異常判定的準確性。
1.1 時間序列自回歸模型
時間序列自回歸模型(Auto-Regressive,AR)就是按照時間的順序,分析數據序列本身的規(guī)律和特征,從而預測該數據未來的情況。簡言之,利用時間軸上已知的數據,用統(tǒng)計學的方法來預測未來的數據。因為AR系統(tǒng)中數據的變化依賴于上時刻的數據[10],不會發(fā)生突變,這與企業(yè)中電機運行時的低動態(tài)性相符合,所以比較適合對電機進行擬合。
電機在正常工作時,狀態(tài)量主要呈現平穩(wěn)狀態(tài)或者周期性變化。其中變化不大的數據序列因其勢態(tài)比較平穩(wěn),可直接用AR(1)擬合,如:電機的三相電壓電流、功率因素等;周期性變化的數據序列,總的來說波動幅度不大,如電機溫度、振動、噪聲等,在除掉周期性后也可以通過AR(1)擬合,公式如下:
其中:xt為設備狀態(tài)參量的數據序列;et為正態(tài)分布的白
經過多次迭代后,xt距它所屬于的輸出節(jié)點最近,這樣就能將時間序列xt進行量化。
1.3 DBSCAN聚類算法
聚類方法是多維統(tǒng)計分析的有效方法的一種,它將數據中最相近的數據分為一類,不同子類的數據盡可能不相似的方法。其中,DBSCAN算法是基于密度的聚類方法,它依據數據的分布密度來生成簇,同時它具有抗噪聲的能力,而且能處理任何形狀和大小的簇[12]。因此,在電機的多維狀態(tài)參數中利用可以DBSCAN聚類算法(Density-Based Spatial Clustering of Applications With Noise,DBSCAN)時,不僅可以處理數據中的微小噪聲,同時也能發(fā)現電機的異常數據。但是,僅僅利用DBSCAN的方法來分析電機的異常情況,如果最小包含點數(minPts)太小容易誤判;但是如果取值太大,對電機的異常判定往往在發(fā)生異常一段時間之后,造成異常判斷的滯后性。噪聲序列。
由于平時電機如果不發(fā)生一些意外情況,一般不會發(fā)生突發(fā)性的故障,如:操作錯誤、電壓波動等。設備往往更多的是在日積月累的磨損下,發(fā)生的漸變式故障。當電機出現異常的時候,檢測到的狀態(tài)參量常常變化并不大,不容易被察覺。因此,對于電機中那些狀態(tài)量沒有超過規(guī)定閾值的異常,僅僅使用AR模型并不能檢測出來。
1.2 自組織神經網絡
自組織神經網絡(Self-Organized Map,SOM)是一種由互相連接的神經元陣列組成的自組織、無監(jiān)督的競爭式學習網絡,由輸入層和競爭層兩部分構成[11]。在SOM神經網絡結構中,競爭層中的各個神經元,以歐式距離作為競爭的對比條件,競爭與輸入向量相距最短。其中距離最短的為最優(yōu)神經元,它與鄰域中的其它節(jié)點相互激勵,調整輸入層和競爭層的連接權值,使領域中的節(jié)點對輸入都能產生近似的輸出結果。因此SOM算法可以計算出輸入層中數據間的相似程度,并把相似度比較大的數據就近分配。
將電機基于時間序列的單一狀態(tài)參量xt作為輸入節(jié)點,利用SOM的算法進行訓練,得到序列C={C1,C2,…,CN}作為輸出節(jié)點,xt屬于輸出節(jié)點Cj可表示為:
時間序列的自回歸模型的記憶性恰好和電機工作狀態(tài)參量數據連續(xù)性的特性相吻合,因此正好可以用來擬合電機狀態(tài)參量的曲線。由于自組織神經網絡SOM無監(jiān)督分類的特性,電機的單一狀態(tài)參量數據序列利用訓練好的SOM神經網絡訓練后,就變?yōu)闀r間軸上的離散點序列Ct={C1,C2,…,CN}。因此,電機狀態(tài)參量在SOM訓練后,其中每個神經元節(jié)點的臨近節(jié)點相關性最強,與其他的節(jié)點相關性弱[13],量化生成的序列Ct可以看成是一個神經元轉移到另一個神經元,這樣來挖掘電機單一狀態(tài)參量的變化特征。之后,利用DBSCAN聚類算法來處理多維狀態(tài)參量之間的關系。
2.1 電機狀態(tài)參量序列的概率密度函數
電機狀態(tài)參量經過SOM神經網絡訓練后,若序列中數據之間的關系用轉移概率來表示,那么相關性越大則轉移的概率越大,反之,相關性越小則轉移的概率越小。這樣,我們把轉移概率用P來表示,那么AR(1)模型中神經元之間的一階轉移概率為P[ct+1|ct]。令{C1,C2,…,CN}的值為{1,2,…,N},由式(2)可知,在t時刻時,ct為CI的概率可以表示為:
由式(3)可得i(xt)的概率密度函數為:
在式(1)中,et為正態(tài)分布序列,因此xt也應該為正態(tài)分布。令a=(CI+CI+1)/2且b=(CI+CI-1)/2,則xt也應該為正態(tài)分布,xt的分布函數可以寫為:
2.2 電機狀態(tài)參量序列神經元之間的轉移概率
因為AR模型中數據變化的低動態(tài)性,所以神經元之間的轉移概率跟神經元之間距離成反比。神經元間轉移概率分布函數為:
式中,CI1,CI2∈{C1,…,CN},I1=(a1,b1),I2=(a2,b2),又xt為正態(tài)分布,則xt的分布函數為:
其中:ρ(k)=αk表示AR(1)模型的自相關函數[14]。考慮神經元之間的漸變轉移,由式(3)、(5)將式(9)變換為:
如果知道了神經元之間的轉移概率,并將神經元之間的轉移概率基于時間序列的順序表示出來,這樣我們就可以得到一個單狀態(tài)量數據的轉移概率序列。
現用電機的負荷數據來進行異常檢測作為例子來說明該方法,首先把一組電機正常工作的溫度數據帶入AR(1)模型進行擬合,可以算得模型中參數α=0.85,με=0,λ=0.01,然后將負荷數據輸入到SOM中訓練,得到該電機負荷的SOM模型。截取其中一段電機工作的負荷數據作為異常檢測數據,如圖1所示。利用得到的SOM模型進行量化后輸出得到圖2所示的電機負荷量化序列,利用擬合得到的AR模型的參數,計算SOM神經元間的轉移概率,將負荷在時間軸上的序列轉化成負荷在時間序列中的轉移概率,如圖3所示。
由圖中的電機負荷轉移概率序列可知,電機正常工作時,轉移概率都比較高,這表明電機正常工作時溫度數據變化不大,表明電機的工況比較穩(wěn)定,電機工作正常。反之,當序列中的一段數據很小,甚至為零時,表明神經元隨后的變化較大,可能是電機出現了異常,導致負荷數據的變化不再符合建立的AR模型。
圖1 電機負載數據圖
圖2 電機負荷量化序列圖
圖3 負荷在時間序列中的轉移概率
2.3 多維狀態(tài)參量的綜合判定
在實際情況中,電機運行出現異常時,雖然其中某個運行參數的變化量可能過小,但是更多伴隨的是設備的多個運行參數的異常。如果只是針對單一檢測狀態(tài)量進行分析,可能導致對設備的異常出現誤判,因此對多個狀態(tài)量進行綜合判定能有效的提高對異常判定的準確率。
同時,設備在實際運行時不僅在不同的工況下,設備的運行參數會產生差異,而且設備的多種參數之間的相關性和對異常的敏感性難以確切的表示出來。如電機的功率與震動、噪聲、環(huán)境溫度等參數的關系,難以通過簡單的線性關系或者非線性關系算出[15]。這樣,從多個狀態(tài)參量出發(fā)的綜合判定遇到了困難。
在無先驗知識的情況下,聚類分析技術是解決上述問題的首選。針對多維參量融合的問題,利用電機工作出現異常時會產生離群點[16],本文通過基于密度的聚類算法對多維歷史檢測數據進行聚類生成多個簇,然后去對需要監(jiān)測的數據進行檢測是否與歷史數據屬于同一類。若歷史數據不屬于生成的簇類,說明該時刻數據發(fā)生了異常。利用這種算法,不僅能解決不同狀態(tài)參量對異常的敏感性不同和數據流過大的問題,還可以簡化多種狀態(tài)參量的相關性分析。
2.4 異常檢測的方法
根據分析和挖掘設備多個狀態(tài)參量的變化特征,并將多種狀態(tài)參量結合判定異常的步驟如圖4所示。
步驟1:針對設備正常運行的狀態(tài)參量的歷史監(jiān)測數據,首先用AR模型來對數據進行擬合,然后用SOM算法來訓練得到SOM網絡模型,最后用擬合出來的AR模型,得到SOM神經元之間的轉移概率矩陣。
圖4 設備異常檢測流程圖
步驟2:將設備的多維狀態(tài)參量用DBSCAN算法聚類,得到多個簇類。
步驟3:將檢測數據的狀態(tài)參量帶入轉移概率矩陣,可以進行計算得到設備的多種狀態(tài)參量的時刻概率轉移序列。同時,判斷每個時刻點是否屬于之前生成的簇類。
步驟4:利用得到的轉移概率序列和聚類的結果,對設備的異常判定方法為:
1)如果各種在線監(jiān)測狀態(tài)參量的數據都聚到了之前生成的簇類中,那么就可以判斷該時間段沒有出現異常。
2)如果各種在線監(jiān)測狀態(tài)參量的數據僅有少數幾個時間點沒有聚到了之前生成的簇類中,那么可以判斷該時間段可能是數據異?;蛘邆鞲衅鳟惓?,并沒有出現異常。
3)如果各種在線監(jiān)測狀態(tài)參量的數據出現一段時間段沒有聚到了之前生成的簇類中,則可以判斷電機已經處于異常。然后,再根據對應時刻之前的在線監(jiān)測狀態(tài)參量的轉移概率序列來確定異常發(fā)生的點。
為了驗證本文的算法,我以安慶石化港貯部的電機運行數據作為實驗數據。該港貯部已實行了電能耗的智能化管理,通過傳感器和監(jiān)測儀器,可以將現場設備的運行參數采集并傳送到監(jiān)測室,然后對設備的運行數據進行監(jiān)測和備份。本文利用2013年9月電機正常工作的狀態(tài)參量數據作為歷史數據,進行樣本訓練;然后,截取2013年10月中一天電機早上7點開機后連續(xù)工作的數據作為檢測數據,電機溫度、負荷、出口壓力的采樣周期都是min/組,如圖5所示。
首先用AR模型來對選擇的樣本數據進行擬合,用SOM算法來訓練得到SOM網絡模型,然后用擬合出來的AR模型,得到電機溫度、負荷、出口壓力的轉移概率矩陣,最后將圖5所示的檢測數據帶入轉移概率矩陣,分別得到負荷、電機溫度、出口壓力的轉移概率序列,并進行聚類,結果如圖6、7、8、9所示。
從上圖中可以進行對截取的檢驗樣本數據進行判斷:
1)在時間t=85(對應時間8:25)和t=350(對應時間12:50)左右時,電機溫度、負荷、出口壓力的聚類結果出現0值,這說明該時刻電機的狀態(tài)參量不屬于得到的任何一個簇類,但是該0值只是在幾個時刻短暫的出現,判斷該時間段可能是數據異?;蛘邆鞲衅鳟惓#]有出現異常。
圖5 電機的檢測數據圖
圖6 負荷轉移概率圖
圖7 溫度轉移概率圖
圖8 出口壓力轉移概率圖
2)在時間t=580(對應時間16:40)左右時,電機出現一段時間的0值,之后出現短暫的1值后保持0值,這說明電機已經處于異常狀態(tài)。然后查看狀態(tài)量序列,其中電機負載轉移概率在t=460和電機溫度轉移概率在t=470分別出現了0值,之后又多次出現0值,因此可以判斷電機在t=460時發(fā)生了異常。
如直接采用閾值判斷,根據經驗通常選擇正常工作數據的1.2倍。用該方法判斷:在t=110(對應時間8:50)和t=480(對應時間14:00)之后出現異常。
如單獨采用聚類方法判斷,如采用DBSCAN聚類算法對電機進行檢測時:在t=90(對應時間8:30)、t=350(對應時間8:30)和t=570(對應時間8:30)之后出現離群點,判斷在t=90和t=350時,可能為數據或者傳感器的異常,在t=570時刻出現異常。
如采用神經網絡訓練的方式,選用常用的BP神經網絡進行訓練得到結果:在t=480(對應時間14:00)、和t=520(對應時間14:40)之后多次出現異常。
查閱當天該電機的運行記錄顯示:在8:20時,操作員為了應客戶時間要求,調大了泵的閥門開度,加大傳輸速度;在10:00時將開度調回至正常;在14:00時發(fā)現電機轉軸出現輕微卡軸,整理可得表1。
表1 異常檢測結果對比
對比發(fā)現,該本文的方法對于電機的異常檢測更準確、更及時。
之后,在安慶石化港貯部2014年-2015年的電機運行數據中截取100段,利用不同的方法來進行異常檢測,其中誤報率為檢測結果中存在檢測錯誤的百分比,滯后率以滯后400分鐘為基準進行整理可得到表2。
表2 不同方法異常檢測結果對比 %_
該表表明,相比于閾值判斷法、BP神經網絡和單一的聚類的方法,本方法能對用電設備進行更加有效的異常檢測,能減少誤判和對異常發(fā)現的滯后性。
該方法基于時間序列結合多維參數特征挖掘數據變化特征,利用聚類方法提高對電機異常檢測的準確率,同時利用分析數據的變化特征來減少診斷結果的滯后性。
同時,本方法也有不足之處,當選取的多維參數特征受外界影響特別大時,DBSCAN聚類的算法聚類比較麻煩,因而容易出現對異常的誤報,因此在今后的工作中需要進行改進。
[1]高賈超.基于人工免疫算法的電機故障診斷系統(tǒng)研究[D].武漢:武漢理工大學,2010.
[2]蓋詩橋.時間序列挖掘系統(tǒng)中變化檢測算法的研究[D].長春:吉林大學,2012.
[3]史尚哲.基于隱馬爾科夫模型的異常檢測[D].揚州:揚州大學,2012.
[4]付迎丁.基于聚類技術的異常檢測研究[D].鄭州:解放軍信息工程大學,2012.
[5]龔學兵,王日新,徐敏強.基于數據關聯性分析的飛輪異常檢測[J].航空學報,2015,36(3):898-906.
[6]董曉萌,羅鳳娟,郭滿才,等.時間序列的自回歸模型在楊凌地區(qū)降水量預報中的應用 [J].中國農學通報,2007,23(11):403 -407.
[7]劉井波.基于自組織神經網絡的遠程故障診斷技術研究[D].成都:電子科技大學,2008.
[8]閆慶華,程兆剛,段云龍.AR模型功率譜估計及Matlab實現[J].計算機與數字工程,2010,38(4):154-156.
[9]馮少榮,肖文俊.DBSCAN聚類算法的研究與改進[J].中國礦業(yè)大學學報,2008,37(1):105-111.
[10]高 潔.基于時間序列理論方法的生物序列特征分析[D].無錫:江南大學,2009.
[11]于鷃.基于一維SOM神經網絡的聚類及數據分析方法研究[D].天津:天津大學,2009.
[12]宋飛燕.基于密度聚類算法及其模式評估方法的研究與實現[D].包頭:內蒙古科技大學,2007.
[13]嚴英杰,盛戈皞,陳玉峰,等.基于大數據分析的輸變電設備狀態(tài)數據異常檢測方法[J].中國電機工程學報,2015,35(1):52 -59.
[14]程 浩,劉國慶,成孝剛.一種分段平穩(wěn)隨機過程自相關函數逼近模型[J].計算機應用,2012,32(02):589-591.
[15]Shumway-Cook A,Woollacott MH.Motor control:theory and practical applications[M].Williams& Wilkins.
[16]李 棟,劉樹林,劉穎慧,等.基于自適應超環(huán)檢測器的設備異常度檢測方法[J].機械工程學報,2014,50(12):17-24.
Anomaly Detection of Electric Machine Based on Multi-dimension State Parameter and Time Series
Xu Shoukun ,Qu Shiqi,Shi Lin,Wang Bin
(College of Information Science and Engineering,Changzhou University,Changzhou 213000,China)
In view of the traditional abnormal detection of the motor often appear the case of miscarriage of justice or lag,this paper using AR fitting and SOM neural network unsupervised way to quantify the motor data based on the time series of the motor single state parameters.Then,the transition probability of the sequence is obtained by combining the quantitative sequence with the AR curve,and the abnormal changes of some state parameters are discovered as soon as possible.After that,DBSCAN algorithm mining multi-dimensional parameters of the relationship between the characteristics of the motor to determine whether there is abnormal.Finally,the detection process of the method is illustrated with an example,and the advantages of this method are verified by comparison.
anomaly detection;time series;AR fitting;SOM neural network;DBSCAN algorithm
1671-4598(2016)08-0032-04
10.16526/j.cnki.11-4762/tp.2016.08.009
:TP391
:A
2016-02-24;
:2016-03-08。
江蘇省產學研聯合創(chuàng)新基金(BY2013024-06);江蘇省產學研聯合創(chuàng)新基金(BY2013024-03)。
徐守坤(1972-),男,山東省人,教授,碩士研究生導師,主要從事數據庫和信息系統(tǒng)方向的研究。