鄧曉剛,田學民
(中國石油大學信息與控制工程學院,山東青島 266580)
基于動態(tài)獨立成分的單類支持向量機方法及其在故障診斷中的應用
鄧曉剛,田學民
(中國石油大學信息與控制工程學院,山東青島 266580)
針對工業(yè)過程故障診斷中數據的動態(tài)性、非高斯性和非線性特點,提出一種基于動態(tài)獨立成分的單類支持向量機(OCSVM)方法。為了分析數據的動態(tài)特性和非高斯性,應用動態(tài)獨立成分分析(DICA)方法提取數據變量中的動態(tài)獨立成分作為特征信息,基于特征信息建立OCSVM模型并構造非線性監(jiān)控統計量。檢測到故障后,計算故障數據與故障模式數據決策超平面的相似度,通過相似度分析識別故障模式。在Tennessee Eastman基準過程上的仿真結果表明,提出的方法能夠比單類支持向量機更有效地檢測過程故障,并且能夠正確識別故障模式。
單類支持向量機;動態(tài)獨立成分分析;故障檢測;故障識別
近年來,基于數據驅動的故障診斷方法正在成為工業(yè)過程控制領域的研究熱點[1]。目前研究較多的數據驅動方法有主元分析(principal component analysis,PCA)、獨立成分分析(independent component analysis,ICA)和支持向量機(support vector machine,SVM)等方法[1-5],其中SVM由于其建模的稀疏性和良好的分類能力引起了廣泛關注。單類支持向量機(one-class SVM,OCSVM)是最近提出的一種SVM故障診斷方法[6],該方法只需要一類訓練數據即可完成算法的學習過程,相比于傳統的SVM方法更為簡單實用。目前OCSVM故障診斷方法剛剛引入故障診斷領域中,還存在很多問題值得研究。問題之一是OCSVM方法基于原始測量數據建立統計模型,沒有充分挖掘利用數據中的特征信息;另外一個問題是OCSVM方法側重于如何檢測故障,對于如何診斷故障的模式缺乏深入的研究。針對上述問題,筆者提出一種基于動態(tài)獨立成分(dynamic independent component,DIC)的OCSVM方法DIC-OCS-VM,使用動態(tài)獨立成分分析方法提取數據中的動態(tài)和非高斯特征信息,并通過分析待識別故障數據與故障模式數據決策超平面的相似度診斷故障類型。
OCSVM是由Scholkopf等提出的一種無監(jiān)督學習算法[7],主要用于數據集的異常點檢測和概率密度估計[8-9]。設給定的訓練數據集X=[x1;x2;…; xn]∈Rn×m,包含m個變量的n個樣本。OCSVM在數據空間中構造分類超平面F(x)=<w,x>-ρ=0把訓練數據集與原點分開,且使得該分類超平面與原點的距離最大。OCSVM描述的優(yōu)化問題如下:
式中,w、ρ為分類超平面的參數向量。
實際上,OCSVM是將訓練樣本集視為正類樣本,原點作為負類樣本,分類超平面將數據空間分成正負兩個超半球,最優(yōu)分類超平面使得包含訓練數據的正半球體積最?。?]。在異常點檢測的過程中,函數f(x)的目的在于決策數據點是否屬于異常數據,本文中將其稱為決策超平面。
如果數據中存在非線性關系,則需要假設非線性映射φ:x→φ(x)將數據從原始的非線性空間映射到線性特征空間。在線性特征空間中,進一步引入松弛變量ξi和誤差限v,得到如下優(yōu)化問題[10]:
其中誤差限v用于控制訓練過程中異常點占總樣本數目的上界。
求解上述優(yōu)化問題,需要建立拉格朗日函數:
上述分析過程中采用了非線性映射,而該非線性映射一般是未知的。由核函數理論,非線性映射后特征空間中兩個向量的內積用原始空間中的核函數表示為
現有的核函數包括多項式核函數、RBF核函數、sigmoid核函數等,本文采用RBF核函數。
結合式(3)~(7)可得到優(yōu)化問題的對偶形式
式(8)描述的問題是一個標準的二次規(guī)劃問題,解出αi、ρ即可得到特征空間中的決策超平面。特征空間中的決策超平面映射到原始數據空間中,對應一個超球面[9]。
工業(yè)過程采集的數據中往往存在較強的動態(tài)信息和非高斯信息,因此進行數據特征提取后再應用OCSVM會具有更好的過程監(jiān)控效果。結合動態(tài)獨立成分分析(DICA)技術,建立基于動態(tài)獨立成分的OCSVM方法DIC-OCSVM方法。
ICA是近年來提出的一種新的信號處理方法,能夠有效地分析非高斯信號,提取互相獨立的源變量。傳統ICA方法沒有考慮數據之間的時序相關性,即數據的動態(tài)特性,本文在進行ICA之前,首先對測量變量x進行增廣化處理[x(t)x(t-1)…x(t-d)],其中d為最大時延步數。擴展后的測量變量不但包含當前t時刻的測量變量,而且包括t時刻以前的測量變量。此時的測量數據矩陣為動態(tài)矩陣,即
該矩陣包含了變量自身的動態(tài)時序信息[11-12],對式(9)中的矩陣應用ICA方法,即形成動態(tài)ICA(DICA)方法。
ICA認為數據矩陣X由若干個獨立成分變量混合而成:
式中,A表示混合參數構成的矩陣;S表示獨立成分變量s構成的數據矩陣。
ICA根據已有的測量矩陣X,尋找一個解混矩陣B來對S進行估計:
使得其估計結果^S中的變量盡可能地獨立。
ICA中求解矩陣B的算法有多種,如非高斯性測量、互信息最小化、極大似然估計等方法。本文采用Hyvarinen和Oja提出的負熵最大化算法[13]。
ICA估計出的獨立成分變量s分為兩部分:一部分反映了數據的主要信息,構成獨立成分子空間sd;另一部分反映了剩余的數據信息,構成殘差子空間se。兩個子空間均可反映過程特性的變化,分別對其監(jiān)控可以及時發(fā)現故障。
如果直接對原始測量數據應用OCSVM方法,需要建立決策函數Dx判斷是否發(fā)生故障。Dx是負的決策超平面函數:
當新的數據點與訓練數據不同時,屬于異常點(即故障點),此時Dx應該大于0,反之則Dx小于0,該數據點屬于正常工況數據。
本文中使用DICA提取得到sd和se兩部分數據特征信息,分別描述了獨立成分子空間和殘差子空間的信息。對這兩組特征分別應用OCSVM算法,構建如下兩個統計量Dd和De:
考慮到故障檢測的魯棒性,故障檢測過程中并不采用0作為上述兩個統計量的閾值。統計量的閾值根據核概率密度估計方法估計得到:
式中,f(y)為y的概率密度估計;yi為觀測數據集中的數據;n為觀測數據集樣本的數目;h為平滑參數。求取統計閾值時,首先計算正常工況下的監(jiān)控統計量Dd和De,然后估計每個統計量的概率密度分布,最后根據概率密度分布計算95%統計置信限作為閾值[14]。
一旦檢測到故障,更重要的任務是識別故障模式?;诒疚难芯康腄IC-OCSVM方法,筆者提出一種基于決策超平面相似度的故障模式識別方法。
如果工業(yè)數據庫中已經儲存了多種典型故障模式數據,則可以對每種故障模式分別應用DIC-OCSVM方法,計算該類故障的決策超平面。決策超平面是故障數據的分布超球面,描述了故障的主要分布特征,通過比較決策超平面的相似度,可以判斷兩組數據是否屬于同一類故障數據。
在故障識別過程中,采用全部的獨立成分變量構造分類超平面,第i類故障模式的決策超平面表示如下:
用兩類故障決策超平面的相似度作為兩類故障相似性的度量,定義性能指標SIM(i,j)表示第i類和第j類故障的相似度表達式為
根據式(4),wi、wj是獨立成分變量集的線性組合,式(17)最終用核函數描述為
SIM(i,j)是[0,1]之間的數值,接近1表示兩類故障數據相似度高,接近0表示兩類數據相似度低。獲得新的故障數據后,將其與現有的故障模式數據進行比較并計算相似度,相似度最大的模式為該故障的診斷結果。
以Tennessee Eastman(TE)過程作為監(jiān)控對象進行算法的仿真分析。TE過程是一個評價先進控制和過程監(jiān)控方法的基準過程,來自于美國Eastman化工公司的真實工業(yè)過程,該過程的仿真數據已經在過程監(jiān)控和故障診斷領域得到廣泛應用[12,14-15]。TE過程包含5個主要操作單元:反應器、壓縮機、冷凝器、分離器、汽提塔,仿真過程中可采集52個測量變量,采樣時間為3 min。過程數據包含了正常模式和21種故障模式IDV(1)~IDV (21)。每種故障數據共包含960個樣本,其中故障在第160個樣本后引入。TE流程圖和故障的詳細描述可以參考文獻[15]。
分別使用OCSVM、IC-OCSVM和DIC-OCSVM方法對TE過程21種故障進行檢測。其中OCSVM方法直接對過程測量變量進行監(jiān)控,IC-OCSVM方法、DIC-OCSVM方法分別對過程測量變量應用ICA和DICA方法提取數據特征后再建立OCSVM模型進行監(jiān)控。3種方法的檢測閾值均采用95%統計置信限,OCSVM監(jiān)控統計量的閾值為0.0058,IC-OCSVM監(jiān)控統計量Dd和De的閾值分別為0.002 4、0.0020,DIC-OCSVM監(jiān)控統計量Dd和De的閾值分別為0.020 1、0.016 4。考慮到檢測故障時統計量會在閾值附近波動,因此定義連續(xù)6次超出閾值的采樣時刻作為故障檢測時刻。
以故障IDV(21)為例,圖1為OCSVM方法的檢測結果,圖中的虛線為檢測閾值,監(jiān)控統計量Dx在第613個樣本處超出閾值。圖2為IC-OCSVM方法的故障檢測結果,該方法的兩個監(jiān)控統計量Dd和 De分別在第426個采樣和第618采樣時刻檢測到故障,由此可見ICA提取特征信息后的OCSVM能夠更快地檢測出故障。DIC-OCSVM方法的檢測結果如圖3所示,該方法在特征信息提取過程中進一步考慮了數據的動態(tài)特性,統計量Dd和De分別在第385個樣本和第392個樣本檢測到過程故障出現,檢測速度有了更為明顯的提高。
圖1 OCSVM方法的故障檢測結果Fig.1 Fault detection results by OCSVM
通過分析TE過程21種故障的監(jiān)控結果發(fā)現,3種方法對故障3、9、15的檢測效果均不理想,對故障1、2、6、7、8、12、13、14、18均表現出良好的性能,在其他9種故障4、5、10、11、16、17、19、20、21的檢測過程中,基于數據特征提取的IC-OCSVM和DICOCSVM比OCSVM方法有更好的故障檢測性能。3種方法對這9種故障的檢測時刻和檢測率結果對比見表1、2(故障檢測時刻為檢測到故障的樣本序號,檢測率為故障發(fā)生后報警樣本占總體樣本的比例)。從表中可看出,DIC-OCSVM總體上比OCSVM、IC-OCSVM方法能夠更快地檢測到故障,具有最高的故障檢測率。
檢測到故障后,使用相似度分析方法診斷故障的類型。由于故障3、9、15無法檢測,因此排除在故障模式庫之外。當故障發(fā)生時,采集故障發(fā)生時的200個樣本作為待辨識故障數據,分別與故障模式庫中的8種故障模式進行比較,計算決策超平面的相似性。表3中給出了TE過程8種故障相似度分析的結果。以故障IDV(1)的辨識為例,該故障與故障庫中8種故障模式的相似度分別為0.9476、0.2416、0.1337、0.048 2、0、0.218 7、0.786 2、0.271 1,與模式1的相似度最大,因此可以診斷為第一種故障模式,與實際情況是相符的。表3中故障IDV(6)與其他模式的相似度結果接近0,這是因為相似度指標是根據式(18)中的核函數計算得到的,當兩類故障數據特征有較大差別時,核函數計算結果接近0。從表3可看出,基于決策超平面相似度的識別方法能夠正確識別故障模式。
表1 不同方法的故障檢測樣本序號比較Table 1 Com parison of fault detection sam p le number by differentmethods
表2 不同方法的故障檢測率結果Table 2 Com parison of fault detection rate by differentmethods%
表3 相似度分析結果Table 3 Sim ilarity analysis results
提出了一種新的故障診斷方法——DIC-OCSVM方法,并在基準工業(yè)過程TE上進行了方法的驗證分析。DIC-OCSVM綜合考慮工業(yè)過程數據的動態(tài)特性和非高斯特性,使用DICA提取過程特征信息,基于DIC-OCSVM的決策超平面建立故障模式識別算法。在TE過程上的應用結果表明,進行了特征提取的DIC-OCSVM比基于原始測量變量的OCSVM方法能夠更有效地檢測到過程故障,而且基于DIC-OCSVM的相似度分析可以有效地診斷出故障模式。
[1]周東華,胡艷艷.動態(tài)系統的故障診斷技術[J].自動化學報,2009,35(6):748-758.
ZHOU Dong-hua,HU Yan-yan.Fault diagnosis techniques for dynamic systems[J].Acta Automatic Sinica,2009,35(6):748-758.
[2]WU Q.Hybrid fuzzy support vector classifier machine and modified genetic algorithm for automatic car assembly fault diagnosis[J].Expert Systems with App lications,2011,38(3):1457-1463.
[3]田學民,曹玉蘋.統計過程控制的研究現狀及展望[J].中國石油大學學報:自然科學版,2008,32(5): 175-180.
TIAN Xue-min,CAO Yu-ping.Situation and perspectives of statistical process control[J].Journal of China University of Petroleum(Edition of Natural Science),2008,32 (5):175-180.
[4]CUI J,WANG Y.A novel approach of analog circuit fault diagnosis using support machines classifier[J].Measurement,2011,44(1):281-289.
[5]周延軍,賈江鴻,李榮華.基于粗糙集理論和支持向量機的套管損壞動態(tài)預報方法[J].中國石油大學學報:自然科學版,2010,34(6):71-75.
ZHOU Yan-jun,JIA Jiang-hong,LIRong-hua.Dynamic prediction method of casing damage based on rough set theory and support vector machine[J].Journal of China University of Petroleum(Edition of Natural Science),2010,34(6):71-75.
[6]CHOI Y S.Least squares one-class support vector machine[J].Pattern Recognition Letters,2009,30(13): 1236-1240.
[7]SCHOLKOPF B,PLATT J,SHAEW-TAYLOR J,et al.Estimating the support of a high-dimensional distribution[J].Neural Computation,2001,13(7):1443-1471.
[8]MANEVITZ LM,YOUSEFM.One-class SVMs for document classfication[J].Journal ofMachine Learning Research,2001,2:139-154.
[9]鹿衛(wèi)國,戴亞平,高峰.一種基于概率分布估計的水電機組故障預警方法[J].中國電機工程學報,2005,25 (4):94-98.
LUWei-guo,DAIYa-ping,GAO Feng.A hydroelectricgenerator unit fault early warningmethod based on distribution estimation[J].Proceedings of the CSEE,2005,25(4):94-98.
[10]MAHADEVAN S,SHAH SL.Fault detection and diagnosis in process data using one-class support vectormachines[J].Journal of Process Control,2009,19(10): 1627-1639.
[11]STEFATOS G,HAMZA A B.Dynamic independent component analysis approach for fault detection and diagnosis[J].Expert Systems with Applications,2010,37(12):8606-8617.
[12]LEE JM,YOO C K,LEE IB.Statisticalmonitoring of dynamic processes based on dynamic independent component analysis[J].Chemical Engineering Science,2004,59(14):2995-3006.
[13]HYVARINEN A,OJA E.Independent component analysis:algorithms and applications[J].Neural Networks,2000,13(4/5):411-430.
[14]LEE JM,YOO C K,LEE IB.Statistical processmonitoring with independent component analysis[J].Journal of Process Control,2004,14(5):467-485.
[15]CHIANG L H,RUSSELL F L,BRAATZ R D.Fault detection and diagnosis in industrial systems[M].New York:Springer-Verlag,2001.
One-class support vector m achine based on dynam ic independent com ponent and its app lication to fault diagnosis
DENG Xiao-gang,TIAN Xue-min
(College of Information and Control Engineering in China University of Petroleum,Qingdao 266580,China)
In order to analyze dynamic,non-Gaussian and nonlinear property of data in industrial process fault diagnosis,one-class support vectormachine based on dynamic independent componentwas presented.Dynamic independent component analysiswas firstly applied to dealwith dynamic and non-Gaussian data to obtain dynamic independent components as feature information.Then one-class support vectormachine was used to build nonlinearmonitoring statistics based on feature information.After faultwas detected,the similarity between new fault data and fault pattern data was computed for fault pattern identification according to their decision hyper planes.The simulation results on Tennessee Eastman benchmark process show that the proposed method can detect faultmore effectively than one-class support vector machine and detect diagnosis fault pattern correctly.
one-class support vectormachine;dynamic independent component analysis;fault detection;fault identification
TP 277
A
10.3969/j.issn.1673-5005.2012.03.032
1673-5005(2012)03-0187-05
2011-10-09
山東省自然科學基金項目(ZR2011FM014);中央高?;究蒲袠I(yè)務費專項資金(10CX04046A)
鄧曉剛(1981-),男(漢族),山東廣饒人,副教授,博士,研究方向為工業(yè)過程先進控制、過程故障診斷技術。
(編輯 修榮榮)