高智勇,霍偉漢,高建民,姜洪權
(西安交通大學 機械制造系統(tǒng)工程國家重點實驗室,陜西 西安 710049)
化工流程工業(yè)系統(tǒng)是由大量機電設備耦合而成的分布式復雜機電系統(tǒng)。由于其過程復雜,系統(tǒng)呈現(xiàn)非線性、動態(tài)性和多態(tài)性等特征,難以通過對系統(tǒng)的準確建模來分析復雜機電系統(tǒng)的安全性。而且由于系統(tǒng)建模方法過于依賴經(jīng)驗知識,也可能忽視變量間的弱相關性,不能挖掘系統(tǒng)的運行規(guī)律。因此,數(shù)據(jù)驅動的方法,尤其是多元統(tǒng)計法被大量應用于系統(tǒng)的故障識別,如主成分分析(Principal Component Analysis,PCA)、獨立分量分析(Independent Component Analysis,ICA)、線性判別分析(Linear Discriminant Analysis,LDA)、部分最小二乘(Partial Least Squares,PLS)等。這些方法較好地解決了系統(tǒng)海量數(shù)據(jù)的特征提取問題,大幅度提高了后繼構建的故障分類模型的魯棒性和性能。但是這些方法依然存在局限,一些方法對數(shù)據(jù)分布特性有一定要求,同時不能增量地處理動態(tài)系統(tǒng)的數(shù)據(jù)。
自2000年Saul、Tenenbaum 等在Science上發(fā)表了關于流形學習的研究以來[1-2],越來越多的學者開始將流形學習用于故障檢測和識別研究。流形學習假設數(shù)據(jù)是均勻采樣于高維歐氏空間中的低維流形,在局部鄰域內(nèi)樣本具有相似性,通過在高維空間中恢復低維流形實現(xiàn)維數(shù)約簡。流形學習的方法,如等距特征映射(Isometric Mapping,ISOMAP)、局部線性嵌入(Locally Linear Embedding,LLE)、拉普拉斯特征映射(Laplacian Eigenmap,LE)、局部切空間排列算法(Local Tangent Space Alignment,LTSA)、海賽局部線性嵌入(Hessian Locally Linear Embedding,HLLE)等,在圖像處理方面已取得巨大成功。在流程工業(yè)系統(tǒng)故障診斷方面,有越來越多的流形學習方法和其他故障診斷方法相結合的研究。不足的是,大部分流形學習方法沒有充分挖掘系統(tǒng)的動態(tài)特性,同時與之結合的故障分類研究也有待改進。
因此,本文提出擴散映射(Diffusion Mapping,DM)和多類分類的支持向量機(Support Vector Machine,SVM)相結合的流程工業(yè)故障分類方法DM-SVMs,對分布式復雜機電系統(tǒng)的故障實現(xiàn)分類辨識。
擴散映射的理論最早由Coifman等提出[3],在文獻[4]中應用并驗證。擴散映射基于數(shù)據(jù)點建立圖,并在圖上定義Markov隨機游走。擴散映射根據(jù)數(shù)據(jù)點建立圖,頂點表示數(shù)據(jù)點,邊表示頂點之間的相似性,邊的權重表示由某一頂點隨機游動到另一頂點的概率。通過一定時間步長的隨機游走得到數(shù)據(jù)點間的距離函數(shù),定義為擴散距離,以盡可能保持擴散距離為目標,獲取低維流形[5-6]。
對一個給定的高維數(shù)據(jù)集X={x1,x2,…,xN},xi∈RD,采用擴散映射法從中提取一個d維(d<D)的流形特征Y的步驟如下[7]:
步驟1 構建對應數(shù)據(jù)集的圖。圖中邊的權重可以通過高斯核函數(shù)來計算,從而獲得以下關系矩陣W:
式中σ2表示高斯核參數(shù)。通過標準化W得到任意兩點間的單步轉移概率矩陣P:
由此構建了Markov狀態(tài)轉移矩陣P(1)。P(1)表示一個數(shù)據(jù)點到另一個數(shù)據(jù)點的一步轉移概率,t步轉移概率P(t)為(P(1))t。xi和xj之間的t步擴散距離定義如下:
其中:ψ(xk)(0)表示Markov擴散過程的穩(wěn)態(tài)分布,圖中點密度大的部分權重值高。擴散距離表征了數(shù)據(jù)集中任意兩點間的連接性。當兩點間有大量的較短路徑時擴散距離較小,反之則較大。
步驟2 在保持擴散距離的條件下,提取低維流形Y。根據(jù)Markov隨機路的譜圖理論可知,Y由下式的d個非平凡主特征向量構成:
最大特征值λ1=1是平凡的,舍棄其對應的特征向量v1,得到低維流形
擴散映射本質(zhì)上是一種核主元分析技術,可以提取給定數(shù)據(jù)集上相應的規(guī)范隨機游動特征矢量,對數(shù)據(jù)有聚類效果,適用于數(shù)據(jù)分類與識別。同時采用擴散距離,與ISOMAP 和LLE 等方法相比有更好的魯棒性。
實際化工系統(tǒng)在運行過程中不斷產(chǎn)生大量數(shù)據(jù),如果對新樣本重新執(zhí)行擴散映射方法,則不僅實時性低,也無法獲取故障樣本在正常數(shù)據(jù)的映射空間中的投影。因此,需要對算法實現(xiàn)增量式改進。借鑒Kouropteva等提出的局部線性嵌入線性增量方法[8]來解決以上問題。假設存在映射矩陣A=(a1,a2,…,ad)T∈Rd×D,滿足Y=AX。A的每個向量(a1,a2,…,ad)均滿足以下約束條件[9]:
式中1≤j≤d并且yij是yi的第j個元素。解式(8)可得映射矩陣
通過計算Y=AX即可獲取新樣本在原映射空間中的低維流形。
支持向量機是Vapnik等根據(jù)結構風險最小化原則提出的統(tǒng)計學習方法,通過尋找最優(yōu)分類超平面,使兩類的分類間隔最大。常用的C-SVM 不僅在超平面分類時允許一些樣本錯分,而且引入核函數(shù)來處理非線性問題。
設超平面方程為
求最大分類間隔的超平面問題可以轉化為如下二次尋優(yōu)問題:
式中:Xi∈Rn,yi∈{±1},i=1,2,…,l。其對偶問題為:
式中α為Lagrange乘子。由上述問題得到最優(yōu)解α,則SVM 的分類函數(shù)為
引入核函數(shù)后,上述決策函數(shù)可轉換為:
經(jīng)典的支持向量機是二類分類方法,為了解決多類分類問題,不少研究將支持向量機推廣到多類分類,通常有以下方法:
(1)一對多方法 對于n個類別的分類問題,首先通過訓練第i類和其他n-1類之間的分類超平面,構造一個二類分類器。最終對所有n類樣本都訓練分類器,構建n個二類分類器。這樣就可以得到n個分類決策函數(shù),分類時具有最大函數(shù)值的類別即是樣本的類別。
從Z方向進行分析,表2和表3中的1階固有頻率對應仿真中的整體第1階固有頻率。Z方向的1階模態(tài)振型如圖6所示。該振型為電磁鐵梁Z方向的彎曲變形,電磁鐵梁在Z方向相當于一個大跨度簡支梁,其在Z方向的剛度比較小,所以1階頻率較低。Z方向的2階固有頻率對應仿真中的整體第3階固有頻率,Z方向的3階固有頻率對應仿真中的整體第4階固有頻率。其中,Z方向的1階和3階固有頻率數(shù)值與對應的仿真固有頻率數(shù)值吻合較好,誤差較小。
(2)一對一方法 該方法對n個類別兩兩組合,構建n(n-1)/2個二類分類器,每個分類器基于訓練集中的兩類樣本進行訓練。分類時,所有分類器對樣本類型進行判定并投票,得票最多的類型就是測試樣本的類別。
(3)決策有向無環(huán)圖 該方法需構建n(n-1)/2個二類分類器,然后構造一個帶有根節(jié)點的二值有向無環(huán)圖。該圖共有n個葉節(jié)點和n(n-1)/2個節(jié)點,每個內(nèi)部節(jié)點對應一個二值支持向量機分類器。對樣本分類時,從根節(jié)點開始,依據(jù)分類結果選擇下一層的節(jié)點繼續(xù)分類,以此循環(huán),直至到達葉節(jié)點,該葉節(jié)點決策函數(shù)的輸出值即可代表樣本的類。
一對多分類方法決策函數(shù)個數(shù)少,分類速度相對較快。但由于每個訓練器采用全部樣本作為訓練集,不存在推廣性誤差的上界。一對一分類方法精度較高,但是分類速度較慢。決策有向無環(huán)圖分類速度雖優(yōu)于一對一分類方法,但精度不及后者。因此本文采用一對一的分類方法。
DM-SVMs方法結合了擴散映射在數(shù)據(jù)特征提取方面和支持向量機在分類問題方面的優(yōu)點。數(shù)據(jù)樣本經(jīng)過擴散映射的降維后特征會更加明顯,同時數(shù)據(jù)量也大幅度減小,有利于提高支持向量機的分類性能。同時利用支持一對一的向量機對降維后的故障數(shù)據(jù)進行分類,也使模型在遇到新故障類型時能更好地進行擴展。具體分類過程如下(如圖1):
(1)訓練階段
步驟1 對歷史正常運行數(shù)據(jù)樣本Xnormal進行標準化處理,同時得到均值與方差。
步驟2 對標準化的Xnormal數(shù)據(jù),使用擴散映射算法獲得其嵌入空間的投影Ynormal。
步驟3 根據(jù)擴散映射的線性增量方法,由式(11)獲得線性映射關系A。
步驟4n個故障類型數(shù)據(jù)Xfailurek(k=1,…,n)經(jīng)標準化后,通過映射矩陣A獲得嵌入空間投影Yfailurek(k=1,…,n)。
步驟5n個故障數(shù)據(jù)投影Yfailurek(k=1,…,N)兩兩組合,分別訓練C-SVM 分類器;獲得的n(n-1)/2個分類器組成分類模型。
(2)識別階段
步驟1 對在線的系統(tǒng)運行數(shù)據(jù)Xi進行標準化處理,由線性映射關系A變換為嵌入空間的坐標Yi。
步驟2 由分類模型對Yi投票,確定系統(tǒng)故障類型。
田納西—伊斯曼(Tennessee Eastman,TE)化工過程模型是1993 年由Downs等[10]提出的標準測試模型,是典型的復雜機電系統(tǒng)[11]。TE 過程包括41個測量變量和12個控制變量,其中41個測量變量包括22個連續(xù)測量變量和19個成分測量值。22個連續(xù)測量變量為XMEAS(1)~XMEAS(22),它們每3 min 被采樣一次。19 個成分測量值為XMEAS(23)~XMEAS(41)。成分測量值是從流6、9和11中測出來的。流6和流9的采樣間隔和時間延遲都是6min,而流11為15min。所有的過程測量值都包括高斯噪聲。控制變量中,攪拌器速度因為在全過程保持恒定,所以沒有必要作為觀測變量。
TE過程包含21個預設定的故障,其中故障1~7與過程變量的階躍變化有關,故障8~12與一些過程變量的可變性增大有關,故障13反映了慢漂移,故障14、15和21與粘滯閥有關,故障16~20是未知故障。
近年有文獻也研究了結合流形和支持向量機實現(xiàn)故障診斷的方法,如LLE-SVM[12]。這些方法通常用以區(qū)分正常數(shù)據(jù)和故障數(shù)據(jù)。通過這類實驗,可以從一個側面驗證算法的分類能力。21 組樣本中,分別包含500個正常樣本和480個故障樣本共980個樣本。通過DM-SVM 對TE 化工過程的正常運行數(shù)據(jù)和故障數(shù)據(jù)分類,從表1 的結果來看,DM-SVM 分類的正確率遠高于SVM 方法,同時支持向量個數(shù)相比之下也大幅度減少。一些故障類型如故障2,6,18等的提升非常明顯,而對大部分文獻都比較難以檢測的微弱故障3,9,15,21,兩者的結果都不太理想。這些故障之間也難以區(qū)分,因此會對最終的多類分類準確率產(chǎn)生一定的影響。
表1 DM-SVM 和SVM 的TE過程故障檢出結果
使用DM-SVMs對TE 過程的21個故障進行分類。同時為了比較分類性能,提出其他結合流形和支持向量機的方法(Manifold-SVMs)。從表2中SVM 方法和Manifold-SVMs方法的對比可以看出,SVM 方法幾乎不能分類TE 的故障,而Manifold-SVMs方法的分類能力則大大提高。相比之下,C-SVM 方法單純通過核函數(shù)的技巧,是不足以處理高度耦合的復雜機電系數(shù)數(shù)據(jù)的。對于不同故障類型,最優(yōu)的核函數(shù)是不同的。流形學習不僅能有效提取故障的特征,還能提升分類器的魯棒性。表2采用了幾種保持局部鄰域關系的流形方法,計算速度相對較快。在圖像處理的研究方面,有大量的工作對比這幾種方法的優(yōu)缺點[13]。LE 和LLE對樣本噪聲十分敏感,同時LLE假定樣本在歐氏空間中服從局部線性關系,并不完全符合生產(chǎn)數(shù)據(jù)的實際拓撲關系。相比前兩種方法,LTSA 雖然對于帶有空洞的樣本也能較好地恢復出低維流形,但是樣本點的密度和曲率變化會使投影產(chǎn)生偏差;而在工藝不斷調(diào)整的實際化工生產(chǎn)過程中,樣本點的曲率可能會有周期性或隨機性的變化。
對比DM-SVMs方法和其他Manifold-SVMs方法,DM-SVMs方法只錯分了兩個故障,而其他方法平均錯分了11個類型,證明DM-SVMs方法對復雜機電系統(tǒng)運行數(shù)據(jù)的特征提取能力和分類性能更強。
表2 DM-SVMs和類似方法的TE過程故障分類結果對比
煤化工系統(tǒng)是分布式復雜機電系統(tǒng)的一個典型,在實際生產(chǎn)過程中,任何一個設備的微小故障都可能會擴大成停車事故。另外,生產(chǎn)過程中的工藝參數(shù)會根據(jù)實際情況人為調(diào)整,造成數(shù)據(jù)的跳躍和波動。因此針對“典型”TE 過程的分析方法在實際化工過程中需要驗證。本文驗證模型的數(shù)據(jù)集來自某煤化工企業(yè)的分布式控制系統(tǒng)(Distributed Control System,DCS)采集的實際生產(chǎn)數(shù)據(jù),并從中選取了37個點位,全部為連續(xù)變量,部分點位的信息如表3 所示。采樣間隔為1 min,均為有效數(shù)據(jù)。在2010年的大型壓縮機組運行數(shù)據(jù)中取4d的數(shù)據(jù)。以8月31日系統(tǒng)穩(wěn)定運行的數(shù)據(jù)作為正常運行樣本,并取5月5日、5月13日和8月29日故障發(fā)生前一天的數(shù)據(jù)為故障樣本。其中5月5日的故障原因為透平溫度過高,5月13日的故障原因為高位閥不動作,8月29日則是空壓機振動過大,具體原因不明。
表3 實際煤化工設備部分點位信息
由于實際化工過程故障樣本稀少,采用k-fold方法(k取10)將故障樣本分別分成訓練集和測試集,并加入噪聲,用以比較SVMs 和 Manifold-SVMs方法。實驗結果如表4所示。
表4 DM-SVMs的實際煤化工過程故障分類結果
在表4中,故障識別率表示10組故障類型被正確分類的比例,建模和分類時間表示算法建立分類模型并且完成分類測試的時間總和。在實際化工過程故障的分類實驗中,DM-SVMs不但分類能力強,而且算法的計算時間較小、實時性好。LE-SVMs所花費的時間較小,這是因為LE 算法的時間復雜度相比其他流形學習方法最小,但是對化工故障數(shù)據(jù)的特征提取能力顯然不如DM 算法。
本文結合擴散映射的特征提取方法和基于支持向量機的多類分類器,提出了DM-SVMs方法模型,對復雜機電系統(tǒng)故障實現(xiàn)分類辨識,通過TE 故障數(shù)據(jù)和實際化工故障數(shù)據(jù)對該方法進行了驗證,并且與其他同類方法進行了對比。結果表明DMSVMs對故障的分類精度更高,計算速度也較快。但在引入新的故障模式的情況下,模型的適應性和擴展性尚待研究。另外,模型參數(shù)的優(yōu)化策略問題尚缺乏具有指導性的操作方法,這也需要今后深入研究。
[1]ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[2]TENENBAUM J B,DE SILVA V,LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.
[3]COIFMAN R R,LAFON S.Diffusion maps[J].Applied and Computational Harmonic Analysis,2006,21(1):5-30.
[4]NADLER B,LAFON S,COIFMAN R R,et al.Diffusion maps,spectral clustering and reaction coordinates of dynamical systems[J].Applied and Computational Harmonic Analysis,2006,21(1):113-127.
[5]XIA Lurui,HU Niaoqing,QIN Guojun.Abnormal recognition algorithm based on manifold learning for turbopump mass data[J].Journal of Aerospace Power,2011,26(3):698-703(in Chinese).[夏魯瑞,胡蔦慶,秦國軍.基于流形學習的渦輪泵海量數(shù) 據(jù)異常 識別算 法[J].航空動 力學報,2011,26(3):698-703.]
[6]VAN DER MAATEN L,POSTMA E,VAN DEN HERIK J.Dimensionality reduction:a comparative review[EB/OL].(2009-10-26)[2014-03-05].http://wenku.baidu.com/view/d60d27e7524de518964b7dd9.html.
[7]HAN Tao,ZHOU Yiyu.Diffusion features in radar specific emitter identification[J].Acta Electronica Sinica,2013,42(3):502-507(in Chinese).[韓 韜,周一宇.雷達信號的擴散特征及其在特定輻射源識別中的應用[J].電子學報,2013,42(3):502-507.]
[8]KOUROPTEVA O,OKUN O,PIETIK A Inen M.Incremental locally linear embedding[J].Pattern Recognition,2005,38(10):1764-1767.
[9]MA Yuxin,WANG Mengling,SHI Hongbo.Fault detection for chemical process based on locally linear embedding[J].CIESC Journal,2012,63(7):2121-2127(in Chinese).[馬玉鑫,王夢靈,侍洪波.基于局部線性嵌入算法的化工過程故障檢測[J].化工學報,2012,63(7):2121-2127.]
[10]DOWNS J J,VOGEL E F.A plant-wide industrial-process control problemJ].Computers &Chemical Engineering,1993,17(3):245-255.
[11]JIANG Hongquan,GAO Jianmin,CHEN Fumin,et al.Vulnerability analysis to distributed and complex electromechanical system based on network property[J].Computer Integrated Manufacturing Systems,2009,15(4):791-796(in Chinese).[姜洪權,高建民,陳富民,等.基于網(wǎng)絡特性的分布式復雜機電系統(tǒng)脆弱性分析[J].計算機集成制造系統(tǒng),2009,15(4):791-796.]
[12]CHENG Jian,ZHANG Changshui,GUO Yinan.Patterns classification of nonlinear multi-dimensional time series based on manifold learning[C]//Proceedings of the 2011 7th International Conference on Natural Computation.Washington,D.C.,USA:IEEE,2011:373-377.
[13]XU Rong,JIANG Feng,YAO Hongxun.Overview of manifold learning[J].CAAI Transactions on Intelligent Systems,2006,1(1):44-51(in Chinese).[徐 蓉,姜 峰,姚鴻勛.流形學習概述[J].智能系統(tǒng)學報,2006,1(1):44-51.]