嚴(yán)文武, 潘豐
(江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫214122)
基于ICA概率密度指標(biāo)的過(guò)程監(jiān)控
嚴(yán)文武, 潘豐*
(江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫214122)
基于獨(dú)立成分分析的多變量統(tǒng)計(jì)過(guò)程監(jiān)控一般采用PCA方法的監(jiān)控指標(biāo)進(jìn)行過(guò)程監(jiān)控,并沒(méi)有充分利用ICA方法特性。根據(jù)ICA分離得到的成分相互獨(dú)立這一特性,提出了一種概率密度監(jiān)控指標(biāo)。用核密度估計(jì)的方法估計(jì)各成分概率密度,從而得到所有成分的聯(lián)合概率密度,再根據(jù)聯(lián)合概率密度判斷過(guò)程狀態(tài)是否異常。通過(guò)TE過(guò)程仿真表明,新的概率密度指標(biāo)與傳統(tǒng)指標(biāo)相比,能檢測(cè)出更多的故障點(diǎn),監(jiān)控效果更加有效。
獨(dú)立成分分析;概率密度;監(jiān)控指標(biāo);故障;TE過(guò)程
隨著數(shù)據(jù)時(shí)代的來(lái)臨,工業(yè)過(guò)程中大量的數(shù)據(jù)被采集并存儲(chǔ),但這些過(guò)程數(shù)據(jù)很多都未充分利用,導(dǎo)致“數(shù)據(jù)豐富,信息匱乏”現(xiàn)象的出現(xiàn)。因此,多變量統(tǒng)計(jì)過(guò)程監(jiān)控和故障診斷技術(shù)受到學(xué)術(shù)界和工業(yè)界的廣泛重視,并在化工生產(chǎn)過(guò)程中得以應(yīng)用[1]。其中最為普遍的是主成分分析(Principal Component Analysis,PCA)和偏最小二乘(Partial Least Squares,PLS),并在化工、生物、制藥等領(lǐng)域得到迅速發(fā)展[2-4]。
傳統(tǒng)的PCA和PLS方法僅僅利用了低階統(tǒng)計(jì)信息(均值和方差),然而在工業(yè)過(guò)程中常常存在非高斯信息,均值和方差無(wú)法全面描述其統(tǒng)計(jì)信息?;赑CA方法的前提是假設(shè)過(guò)程變量滿足高斯分布且獨(dú)立同分布,然而很多時(shí)候并不能完全滿足這些假設(shè);PCA只能去除相關(guān)性,并不能保證其獨(dú)立性,同時(shí)一些觀測(cè)數(shù)據(jù)中的隱變量也得不到有效估計(jì)[5]。因此,PCA和PLS方法有時(shí)效果并不是很理想。
基于獨(dú)立成分分析(Independent Component Analysis,ICA)的多變量統(tǒng)計(jì)過(guò)程監(jiān)控方法是由PCA方法進(jìn)一步發(fā)展而來(lái),該方法不要求變量滿足高斯分布,能夠有效地利用信號(hào)中高階統(tǒng)計(jì)信息,提取的成分相互獨(dú)立,更好地反應(yīng)過(guò)程特征,從而更有效地進(jìn)行過(guò)程監(jiān)控。
基于ICA的多變量統(tǒng)計(jì)過(guò)程監(jiān)控方法已有大量的文獻(xiàn)對(duì)其加以改進(jìn)。2009年,張曉玲等[6]提出基于非線性多向ICA的間歇過(guò)程監(jiān)控方法;2010年,Yingwei Zhang等[7]提出一種基于PSO-ICA的非高斯過(guò)程故障檢測(cè)方法,改善了ICA算法的分離效果;2011年,陸寧云等[8]提出基于時(shí)延SDG和ICA的多工況過(guò)程故障預(yù)測(cè)方法;2014年,李召等[9]提出基于小波去噪結(jié)合CVA-ICA的故障檢測(cè)方法,主要針對(duì)工業(yè)過(guò)程含噪和隨機(jī)干擾問(wèn)題。
大多ICA監(jiān)控方法的改進(jìn)主要集中在對(duì)ICA算法自身的改進(jìn),少有針對(duì)ICA監(jiān)控指標(biāo)的改進(jìn)。與傳統(tǒng)PCA方法采用SPE和T2統(tǒng)計(jì)量類似,一般的ICA方法采用I2,I2e和SPE 3個(gè)統(tǒng)計(jì)指標(biāo)進(jìn)行過(guò)程監(jiān)控[10],但沒(méi)有充分利用ICA分離的成分相互獨(dú)立這一特性。文中根據(jù)獨(dú)立這一特性,各成分聯(lián)合概率密度等于各單一成分概率密度的積,由此,提出一種概率密度監(jiān)控指標(biāo)(稱作概率密度指標(biāo),記為P),并通過(guò)TE過(guò)程仿真驗(yàn)證其有效性。
獨(dú)立成分分析(ICA)是信號(hào)處理領(lǐng)域在20世紀(jì)90年代后期發(fā)展起來(lái)的一種新處理方法,Kano等[11]首先提出了基于ICA的過(guò)程監(jiān)控方法。
假設(shè)有d個(gè)觀測(cè)變量x1,x2,…,xd可用m個(gè)未知獨(dú)立成分s1,s2,…,sm通過(guò)線性組合表達(dá)。觀測(cè)變量矩陣表示為x=[x1,x2,…,xd]T,獨(dú)立成分矩陣表示為s=[s1,s2,…,sm]T,兩者間有如下關(guān)系:
其中,A=[a1,a2,…,am]∈Rd×m是未知混合矩陣。ICA的基本問(wèn)題就是根據(jù)已知觀測(cè)數(shù)據(jù)x估計(jì)出混合矩陣A和獨(dú)立成分s,等同于找一個(gè)解混矩陣W估計(jì)獨(dú)立成分:
ICA基本原理如圖1所示。
圖1 ICA基本原理Fig.1 Basic p rincip le of ICA
求解獨(dú)立成分的方法有很多,一般采用FastICA算法[12]。在計(jì)算之前要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,標(biāo)準(zhǔn)化數(shù)據(jù)后用PCA對(duì)x進(jìn)行白化處理,消除數(shù)據(jù)間的二階相關(guān)性,從而可集中分析高階統(tǒng)計(jì)量。對(duì)x的協(xié)方差矩陣進(jìn)行特征值分解:
對(duì)x白化后有
其中白化矩陣
將式(1)代入式(4)有
其中,B=QA=Λ-1/2UTA,B為單位正交陣。對(duì)式(5)左乘BT可得
結(jié)合式(2)可知,W=BTQ,即只要求出B就能得到解混矩陣W,B可由FastICA算法求得。
單變量統(tǒng)計(jì)過(guò)程監(jiān)控時(shí),正常狀態(tài)下大量數(shù)值集中分布在其均值附近,越遠(yuǎn)離均值分布越少。根據(jù)樣本統(tǒng)計(jì)原理設(shè)置控制限,超出控制限范圍,就認(rèn)為過(guò)程異常[13]。
多變量統(tǒng)計(jì)過(guò)程監(jiān)控時(shí),PCA方法采用SPE和T2統(tǒng)計(jì)量進(jìn)行監(jiān)控,而一般ICA方法監(jiān)控[14]也采用類似統(tǒng)計(jì)量指標(biāo)I2,SPE:
其中,Wd為W中影響s較大的d行,余下的幾行為We。由于ICA提取獨(dú)立成分的順序是未知的,選擇獨(dú)立成分可以根據(jù)W行向量二范數(shù)大小進(jìn)行排序,較大行作為Wd,較小行作為We。
上述指標(biāo)來(lái)源于傳統(tǒng)PCA多變量統(tǒng)計(jì)過(guò)程監(jiān)控,沒(méi)有充分利用ICA分離得到的成分相互獨(dú)立這一特性。由于ICA方法提取的成分是相互獨(dú)立的,則s聯(lián)合概率密度可以通過(guò)下式求得:
式中:p(si)表示第i個(gè)獨(dú)立成分的概率密度;m為總的獨(dú)立成分個(gè)數(shù)。
由s聯(lián)合概率密度可以得到全部獨(dú)立成分的聯(lián)合分布,這是一個(gè)多維空間分布。對(duì)比單變量統(tǒng)計(jì)過(guò)程監(jiān)控,此處正常狀態(tài)s數(shù)據(jù)大量分布于某一空間點(diǎn)(分布中心)附近,越遠(yuǎn)離這個(gè)空間點(diǎn)s數(shù)據(jù)分布越少。同理,根據(jù)樣本統(tǒng)計(jì)原理可以設(shè)置控制限,超出控制限空間范圍,認(rèn)為過(guò)程異常。
為了實(shí)現(xiàn)ICA概率密度指標(biāo)的過(guò)程監(jiān)控,需要解決兩個(gè)問(wèn)題:①如何得到每個(gè)獨(dú)立成分si的分布,即概率密度;②控制限空間范圍的確定。
對(duì)于問(wèn)題①,每個(gè)獨(dú)立成分的概率可以通過(guò)核密度估計(jì)求得。給出一組給定樣本數(shù)據(jù)X1,X2,…, Xn,則采用核密度估計(jì)方法的變量總體的概率密度為
其中,h為帶寬(平滑參數(shù));K為核函數(shù)。一般而言,核函數(shù)K的選取對(duì)核密度估計(jì)好壞的影響遠(yuǎn)小于帶寬h的選取。文中核函數(shù)K選取常用的高斯核:
帶寬h的選取是影響核密度估計(jì)精度的關(guān)鍵因素。h越小,估計(jì)結(jié)果越局限于觀測(cè)數(shù)據(jù)附近;h越大,估計(jì)結(jié)果越平滑,當(dāng)h不斷增大,估計(jì)結(jié)果趨近于平均分布。通常h的好壞以均方誤差衡量,文中采用Silverman的拇指法則(一種經(jīng)驗(yàn)法則)計(jì)算最優(yōu)帶寬h
式中:σ為樣本標(biāo)準(zhǔn)差估計(jì);n為樣本數(shù)。
對(duì)于問(wèn)題②,多維空間的控制限空間范圍沒(méi)有很好的方法求解,即使求得這一空間也難以表示,不方便應(yīng)用。
設(shè)置信度為(1-α),由于概率密度越遠(yuǎn)離分布中心值越小,則控制限空間范圍的邊界對(duì)應(yīng)某一密度值Pα,該值滿足以下條件:
式(14)表示所有小于Pα的概率密度積分為α。同樣Pα也很難簡(jiǎn)單地通過(guò)公式求得,所以提出一種簡(jiǎn)單的方法估計(jì)Pα。當(dāng)樣本能充分反應(yīng)其分布特性時(shí),有下式:
其中,n為樣本總數(shù);num(P<Pα)為樣本中概率密度小于Pα的個(gè)數(shù)。Pα的值可以簡(jiǎn)單地用樣本中P值較小的a×100%處值近似代替。當(dāng)樣本較小時(shí),可能出現(xiàn)代替值>Pα的情況,這時(shí)可以適當(dāng)減小。
記P為概率密度指標(biāo),Pα是該指標(biāo)的控制限。當(dāng)P≥Pα?xí)r,認(rèn)為狀態(tài)正常;當(dāng)P<Pα?xí)r,認(rèn)為狀態(tài)異常。其中,α的取值并不固定,可以根據(jù)實(shí)際情況進(jìn)行調(diào)整,一般取0<α≤0.05較為合適。
使用P指標(biāo)繪制監(jiān)測(cè)圖時(shí),由于Pα和故障狀態(tài)P值都非常小,在圖中很難看清,不直觀。為了改善P監(jiān)測(cè)圖的直觀性,取(-ln P)為縱坐標(biāo),控制限取(-ln Pα),然后再繪制P監(jiān)測(cè)圖,故障部分將被突出,直觀性得到大大改善。
基于ICA概率密度的過(guò)程監(jiān)控主要分為離線建模和在線監(jiān)控兩大部分。具體流程如圖2所示。
圖2 監(jiān)控過(guò)程Fig.2 M onitoring p rocess
離線建模:對(duì)正常數(shù)據(jù)預(yù)處理后進(jìn)行ICA分析,得到分離矩陣W和獨(dú)立成分s,然后用核密度估計(jì)方法求得所有獨(dú)立成分s的聯(lián)合概率密度p(s),最后確定控制限Pα。其中Pα的值并不固定,該值的確定需要考慮具體的實(shí)際工況并結(jié)合實(shí)際效果作相應(yīng)調(diào)整。
在線監(jiān)控:在線數(shù)據(jù)根據(jù)已知分離矩陣W得到獨(dú)立成分s,再根據(jù)離線建模概率密度p(s)求得對(duì)就P值,最后根據(jù)設(shè)定的Pα判斷狀態(tài)是否正常。
Tennessee Eastman(TE)過(guò)程基于實(shí)際工業(yè)過(guò)程,是一個(gè)標(biāo)準(zhǔn)測(cè)試過(guò)程。此過(guò)程被廣泛作為連續(xù)過(guò)程的策略、監(jiān)視、診斷的研究平臺(tái),有大量的文獻(xiàn)引用它作為數(shù)據(jù)源進(jìn)行相關(guān)研究[15-17]。該過(guò)程包括41個(gè)測(cè)量變量和12個(gè)控制變量,預(yù)設(shè)有21個(gè)故障,具體見文獻(xiàn)[18]。
此次仿真選取500組正常狀態(tài)下的前16個(gè)測(cè)量變量進(jìn)行ICA建模,并對(duì)比各指標(biāo)性能??刂葡奕》謩e取95%和99%。實(shí)際結(jié)果表明,這兩種控制限對(duì)傳統(tǒng)指標(biāo)影響較小,對(duì)P指標(biāo)影響較大。當(dāng)取95%時(shí),P指標(biāo)故障誤報(bào)數(shù)較高。以下實(shí)驗(yàn),控制限都取99%(對(duì)于P指標(biāo),取正常狀態(tài)從小到大排1%處值,此處為500組從小到大排第5個(gè)處的值)。
每種故障測(cè)試給出960組數(shù)據(jù),前160組為正常狀態(tài)數(shù)據(jù),后800組為故障狀態(tài)數(shù)據(jù)。以故障5為例,圖3~圖6分別為故障5的SPE,I2和P監(jiān)測(cè)情況。
圖3 故障5SPE的監(jiān)測(cè)曲線Fig.3 SPEchartofFault5
圖4 故障5I2的監(jiān)測(cè)曲線Fig.4 I2chartofFault5
圖5 故障5的監(jiān)測(cè)曲線Fig.5 chartofFault5
圖6 故障5P的監(jiān)測(cè)曲線Fig.6 PchartofFault5
故障5總共有960個(gè)樣本,故障在第160個(gè)樣本后引入。4幅監(jiān)測(cè)圖中虛線為控制限,超出控制限的被認(rèn)為是故障點(diǎn)。對(duì)于SPE,I2和監(jiān)測(cè)圖,分別檢測(cè)的故障點(diǎn)數(shù)為199,159和140個(gè)。在圖6中,大約第161到第300個(gè)樣本間,其P值基本接近0,經(jīng)處理后,(-lnP)值過(guò)大,未在圖中顯示。圖6經(jīng)過(guò)統(tǒng)計(jì),全部故障區(qū)間檢測(cè)到256個(gè)故障點(diǎn)。P指標(biāo)相對(duì)于其他幾個(gè)指標(biāo)能檢測(cè)到的故障點(diǎn)數(shù)更多,對(duì)故障更為敏感。
對(duì)每種故障的800個(gè)故障數(shù)據(jù)進(jìn)行監(jiān)測(cè),表1給出了各故障不同指標(biāo)檢測(cè)到的故障點(diǎn)數(shù)。
表1 各故障不同指標(biāo)檢測(cè)的故障點(diǎn)數(shù)Tab.1 Numberoffaultdetectionbydifferentindicators foreachfault
由表1可以看出,P指標(biāo)檢測(cè)到的故障點(diǎn)數(shù)相對(duì)其他3個(gè)指標(biāo)要多一點(diǎn),尤其是某些相對(duì)難于檢測(cè)到的故障。如故障4、故障9和故障15,P指標(biāo)檢測(cè)到的故障點(diǎn)數(shù)約是SPE,I2和的2~3倍。
表2給出了每種故障160個(gè)正常狀態(tài)時(shí)誤報(bào)的點(diǎn)數(shù)。
由表2可以看出,P指標(biāo)誤報(bào)數(shù)與傳統(tǒng)指標(biāo)誤報(bào)數(shù)相近,但其檢測(cè)到的故障點(diǎn)數(shù)明顯要多于傳統(tǒng)指標(biāo)(即故障漏報(bào)較少)。
文中根據(jù)ICA分離的成分相互獨(dú)立這一特性提出了一種基于ICA的概率密度指標(biāo)P,并在TE仿真中證實(shí)了其有效性。該指標(biāo)相比傳統(tǒng)指標(biāo)能檢測(cè)到更多的故障點(diǎn),故障檢測(cè)率相對(duì)較高,該指標(biāo)有一定的實(shí)際意義。概率指標(biāo)也可應(yīng)用于一些改進(jìn)的ICA過(guò)程監(jiān)控方法中,同樣也能取得較好效果。
由于沒(méi)有確切的科學(xué)證明指標(biāo)肯定優(yōu)于傳統(tǒng)ICA指標(biāo),所以在使用時(shí)可以考慮結(jié)合傳統(tǒng)指標(biāo)共同參考,以達(dá)到較好的效果。
表2 各故障不同指標(biāo)檢測(cè)的故障誤報(bào)點(diǎn)數(shù)Tab.2 Number of false alarm by different indicators for each fault
[1]YIN S,DING SX,Haghani A,et al.A comparison study of basic data-driven fault diagnosis and processmonitoringmethods on the benchmark Tennessee Eastman process[J].Journal of Process Control,2012,22(9):1567-1581.
[2]周東華,李鋼,李元.數(shù)據(jù)驅(qū)動(dòng)的工業(yè)過(guò)程故障診斷技術(shù)——基于主元分析與偏最小二乘的方法[M].北京:科學(xué)出版社,2011.
[3]LIU Q,CHAITY,QIN SJ,etal.Progress of data-driven and knowledge-driven processmonitoring and fault diagnosis for industry process[J].Control and Decision,2010,25(6):801-807,813.
[4]Joe Qin S.Statistical processmonitoring:basics and beyond[J].Journal of Chemometrics,2003,17(8/9):480-502.
[5]王海清,宋執(zhí)環(huán),王慧.PCA過(guò)程監(jiān)測(cè)方法的故障檢測(cè)行為分析[J].化工學(xué)報(bào),2002,53(3):297-301.
WANG Haiqing,SONG Zhihuan,WANG Hui.Fault detection behavior analysis of PCA based processmonitoring approach[J]. Journal of Chemical Industry and Engineering,2002,53(3):297-301.(in Chinese)
[6]張曉玲,田學(xué)民.基于非線性多向ICA的間歇過(guò)程監(jiān)控方法研究[J].系統(tǒng)仿真學(xué)報(bào),2009(11):3365-3369.
ZHANG Xiaoling,TIAN Xuemin.Monitoringmethod based on nonlinearmulti-way ICA for batch process[J].Journal of System Simulation,2009(11):3365-3369.(in Chinese)
[7]ZHANG Yingwei,ZHANG Yang.Fault detection of non-Gaussian processes based on modified independent component analysis [J].Chemical Engineering Science,2010,65(16):4630-4639.
[8]陸寧云,王磊,姜斌.基于時(shí)延SDG和ICA的多工況過(guò)程故障預(yù)測(cè)方法[J].控制工程,2011,18(4):632-635.
LU Ningyun,WANG Lei,JIANG Bin.A fault prognosismethod based on time-dalayed SDG and ICA for multi-mode industrial processes[J].Control Engineering of China,2011,18(4):632-635.(in Chinese)
[9]李召,楊英華,李智輝.基于小波去噪結(jié)合CVA-ICA的故障檢測(cè)方法的研究[J].儀表技術(shù)與傳感器,2014(4):80-84.
LIZhao,YANG Yinghua,LI Zhihui.Fault detection based on wavelet de-noise and CVA-ICA[J].Instrument Technique and Sensor,2014(4):80-84.(in Chinese)
[10]Lee JM,Yoo C K,Lee IB.Statistical processmonitoring with independent component analysis[J].Journal of Process Control, 2004,14(5):467-485.
[11]Kano M,Tanaka S,Hasebe S,etal.Monitoring independent components for fault detection[J].AIChE Journal,2003,49(4):969-976.
[12]Hyvarinen A.Fast and robust fixed-point algorithms for independent component analysis[J].IEEE Transactions on Neural Networks,1999,10(3):626-634.
[13]錢夕元,荊建芬,侯旭暹.統(tǒng)計(jì)過(guò)程控制(SPC)及其應(yīng)用研究[J].計(jì)算機(jī)工程,2004,30(19):144-145.
QIAN Xiyuan,JING Jianfen,HOU Xuxian.Research of statistical process control(SPC)and its application[J].Computer Engineering,2004,30(19):144-145.(in Chinese)
[14]樊繼聰,王友清,秦泗釗.聯(lián)合指標(biāo)獨(dú)立成分分析在多變量過(guò)程故障診斷中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),2013,39(5): 494-501.
FAN Jicong,WANG Youqing,QIN Sizhao.Combined indices for ICA and their applications tomultivariate process fault diagnosis [J].Acta Automatica Sinica,2013,39(5):494-501.(in Chinese)
[15]ZHANG Hui,FANG Huajing,LIShaxia.Fault diagnosis of the TE process based on discrete hidden Markov model[C]//2013 25th Chinese Control and Decision Conference(CCDC).Guiyang:IEEE,2013:4343-4346.
[16]徐圓,劉瑩,朱群雄.基于多元時(shí)滯序列驅(qū)動(dòng)的復(fù)雜過(guò)程故障預(yù)測(cè)方法應(yīng)用研究[J].化工學(xué)報(bào),2013,64(12): 4290-4295.
XU Yuan,LIU Ying,ZHU Qunxiong.A complex process fault prognosis approach based on multivariate delayed sequenxes[J]. CIESC Journal,2013,64(12):4290-4295.(in Chinese)
[17]ZHANG Yingwei,ZHANG Yang.Fault detection of non-Gaussian processes based on modified independent component analysis [J].Chemical Engineering Science,2010,65(16):4630-4639.
[18]Chiang L H,Braatz R D,Russell E L.Fault Detection and Diagnosis in Industrial Systems[M].London:Springer-Verlag,2001.
(責(zé)任編輯:邢寶妹)
Probability Density Index Based on ICA for the Process M onitoring
YANWenwu, PAN Feng*
(Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi214122,China)
The process monitoring method with multivariate statistics based on independent component analysis(ICA)takes the process monitoring with indexes of PCA.It does not take full use of the features of ICA. According to the characteristic of themutual independence of the components separated with ICA,this paper proposes a processmonitoring index called the probability density index.The index estimates the probability densities of each componentwith the kernel density estimation in order to obtain the joint probability density.Then the joint probability density is used to judge whether the process state is abnormal.By the TE process simulation,it can make a conclusion that the new probability density index detects more fault points and is more effective comparing with the traditional indexes.
independent componentanalysis,the probability density,monitoring index,fault,tennessee eastman process
TP 277
A
1671-7147(2015)03-0283-06
2014-11-05;
2014-12-10。
國(guó)家自然科學(xué)基金項(xiàng)目(61273131);江蘇省產(chǎn)學(xué)研前瞻性聯(lián)合創(chuàng)新項(xiàng)目(BY2013015—39)。
嚴(yán)文武(1989—),男,江蘇常州人,控制理論與控制工程碩士研究生。
*通信作者:潘 豐(1963—),男,江蘇蘇州人,教授,博士生導(dǎo)師。主要從事工業(yè)過(guò)程優(yōu)化控制研究。
Email:pan_feng_63@163.com