周 樂(lè), 宋執(zhí)環(huán)
基于拉普拉斯正則化概率主元分析的故障檢測(cè)
周樂(lè),宋執(zhí)環(huán)
(浙江大學(xué)工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,杭州310027)
概率主元分析(PPCA)及其擴(kuò)展方法用于過(guò)程監(jiān)測(cè)時(shí),只提取了過(guò)程數(shù)據(jù)的全局特征,并未考慮數(shù)據(jù)的局部結(jié)構(gòu).當(dāng)數(shù)據(jù)的流形結(jié)構(gòu)復(fù)雜時(shí),傳統(tǒng)的全局建模方法難以獲得準(zhǔn)確的預(yù)測(cè)效果.提出了一種基于拉普拉斯正則化的概率主成分(LapPPCA)模型,將數(shù)據(jù)的流形結(jié)構(gòu)引入到傳統(tǒng)概率模型的似然函數(shù)中,使得LapPPCA能夠同時(shí)提出數(shù)據(jù)的全局和局部特性.同時(shí)提出了基于LapPPCA的過(guò)程監(jiān)測(cè)模型,并在田納西-伊斯曼(TE)過(guò)程上驗(yàn)證了該方法的有效性.
拉普拉斯正則;概率主元分析過(guò)程監(jiān)測(cè);故障檢測(cè)
現(xiàn)代流程工業(yè)對(duì)產(chǎn)品質(zhì)量、節(jié)能降耗和產(chǎn)生成本的要求不斷提高.因此,以保障生產(chǎn)安全、提高產(chǎn)品質(zhì)量為目的的過(guò)程監(jiān)測(cè)技術(shù)就顯得尤為重要,已經(jīng)成為了實(shí)現(xiàn)流程工業(yè)綜合自動(dòng)化的關(guān)鍵因素之一[1].其中,基于多元統(tǒng)計(jì)分析的過(guò)程監(jiān)測(cè)(MSPM)技術(shù)在近年來(lái)被廣泛研究和應(yīng)用于實(shí)際生產(chǎn)過(guò)程.主成分分析(PCA)和偏最小二乘估計(jì)(PLS)以及其擴(kuò)展方法是多元統(tǒng)計(jì)分析技術(shù)的代表性模型,將原始數(shù)據(jù)分成低維度的隱變量空間和殘差空間,以此來(lái)消除數(shù)據(jù)之間的互相關(guān)性并在兩個(gè)子空間下分別建立統(tǒng)計(jì)模型,并評(píng)估生產(chǎn)過(guò)程是否正常[2-3].
傳統(tǒng)的PCA模型由標(biāo)準(zhǔn)化的線性投影所得到,并確保數(shù)據(jù)被首先投影到方差最大的方向,而這一定義缺乏了對(duì)觀測(cè)數(shù)據(jù)和隱變量的概率解釋.Tipping等[4]針對(duì)這一問(wèn)題提出了概率主元分析(PPCA)方法.作為概率模型,其參數(shù)通過(guò)期望最大化(EM)算法估計(jì)得到,而EM算法易于處理含缺失值數(shù)據(jù)的樣本并且在處理高維數(shù)據(jù)時(shí)計(jì)算效率更高.此外,概率模型通過(guò)極大似然估計(jì)方法得到,這使得模型對(duì)于數(shù)據(jù)的離群點(diǎn)更加魯棒[5].因此,基于PPCA及其擴(kuò)展模型的過(guò)程監(jiān)測(cè)技術(shù)已被廣泛研究并用于過(guò)程監(jiān)測(cè)中[6-8].
PCA和PPCA模型都只考慮了觀測(cè)數(shù)據(jù)的全局結(jié)構(gòu).近年來(lái),越來(lái)越多的學(xué)者認(rèn)為數(shù)據(jù)是均勻采樣于一個(gè)高維歐幾里得空間的低維流形中.因此,為了從高維數(shù)據(jù)中恢復(fù)數(shù)據(jù)的低維流行結(jié)構(gòu),很多流形學(xué)習(xí)算法被提出,如局部線性映射(Locally Linear Embedding,LLE)、拉普拉斯特征映射(Laplacian Eigenmap,LE)和等距映射(Isomap)等.最近,流行學(xué)習(xí)算法開(kāi)始被引入過(guò)程監(jiān)測(cè)領(lǐng)域,用于對(duì)數(shù)據(jù)的非線性特征及局部特征的提取,并取得一定的效果[9-10].
然而,傳統(tǒng)的概率模型及其擴(kuò)展方法均是全局的建模方法,并未考慮數(shù)據(jù)的流行結(jié)構(gòu).因此,在進(jìn)行降維時(shí)并不能提取數(shù)據(jù)的全部信息,尤其當(dāng)數(shù)據(jù)的流形結(jié)構(gòu)復(fù)雜時(shí)更難以獲取滿意的建模效果.本文提出了一種基于拉普拉斯正則化的概率主成分(LapPPCA)模型,將數(shù)據(jù)的流形結(jié)構(gòu)通過(guò)隱變量的概率分布來(lái)表示,即如果兩個(gè)點(diǎn)在流形上相近,則其隱變量的概率分布也相似[11].在LapPPCA中,通過(guò)近鄰點(diǎn)來(lái)估計(jì)數(shù)據(jù)的流形結(jié)構(gòu),并通過(guò)圖形拉普拉斯算子將流行結(jié)構(gòu)引入到似然函數(shù)和EM算法中.因此,Lap PPCA的隱變量同時(shí)提取了數(shù)據(jù)的全局信息和流形結(jié)構(gòu),以此強(qiáng)化了其特征提取能力,使得基于LapPPCA的特征提取技術(shù)能夠更準(zhǔn)確地表達(dá)數(shù)據(jù)的全部特征.基于Lap PPCA的過(guò)程監(jiān)測(cè)模型也會(huì)取得更好的監(jiān)測(cè)效果.
在正常工況下采集到二維數(shù)據(jù)集X=[x1x2…xI]T∈RI×M,其中I為樣本數(shù),M為變量數(shù). PPCA模型被定義為[4]
式中,x∈RM是歸一化后的觀測(cè)樣本,P∈RM×R是負(fù)載矩陣,R是隱變量t的維度.觀測(cè)點(diǎn)x由隱變量的線性組合推衍得到.而隱變量t∈RR被假設(shè)服從標(biāo)準(zhǔn)高斯分布.不同于PCA,噪聲e∈RM不再作為模型分解的殘差,而是也被假設(shè)為服從高斯分布:e~N(0,σ2I),其中I是單位矩陣.
由于PPCA是一種全局的建模方法,并未考慮數(shù)據(jù)的局部特性,即流形結(jié)構(gòu).因此,在數(shù)據(jù)的局部特征非常顯著時(shí),僅使用基于全局的建模方法很難完整地提取出數(shù)據(jù)的全部特征,在這種情況下,就需同時(shí)提取數(shù)據(jù)的全局和局部特征,以獲取更準(zhǔn)確的數(shù)據(jù)模型.
2.1LapPPCA模型結(jié)構(gòu)
LapPPCA的模型結(jié)構(gòu)與PPCA相似,不同的是,LapPPCA的隱變量t∈RR同時(shí)提取了觀測(cè)變量的方差變化(全局特征)和流形特征(局部特征).然而,實(shí)際過(guò)程中,數(shù)據(jù)的流形特征很難得知.因此,本文采用了近鄰點(diǎn)圖形法來(lái)估計(jì)樣本點(diǎn)的局部結(jié)構(gòu).對(duì)任意樣本點(diǎn)xi,把距離xi歐氏距離最近的前K個(gè)點(diǎn)定義為xi的近鄰點(diǎn),每個(gè)近鄰點(diǎn)的權(quán)值定義為
式中:1≤i≤I,1≤j≤I;ω為核參數(shù).
利用樣本的K個(gè)近鄰點(diǎn),每個(gè)采樣的流形結(jié)構(gòu)可以被估計(jì)為[11]
式中:Γ=(E(t1|x1),E(t2|x2),…,E(tn|xn))T;Dii=∑jSij;L=D-S被稱為圖形拉普拉斯算子.
從Ri的定義得知,兩個(gè)樣本點(diǎn)隱變量的分布越相似,其在流形上也越相近.通過(guò)最小化,就可以在低維空間得到一個(gè)足夠平滑的投影,使其保持了原始空間的流形結(jié)構(gòu).因此,基于拉普拉斯正則化的似然函數(shù)可定義為式中,λ是調(diào)整算子,以調(diào)整全局信息和局部信息在似然函數(shù)中比重.通過(guò)極大化似然函數(shù)L(Θ)LapPPCA,LapPPCA的模型參數(shù)可以用EM算法估計(jì)得到.
2.2EM算法
EM算法一般通過(guò)迭代期望步(E步)和極大化步(M步)直到收斂為止.在E步,根據(jù)當(dāng)前的模型參數(shù)估計(jì)隱變量的后驗(yàn)分布并計(jì)算似然函數(shù);在M步,通過(guò)極大化似然函數(shù)模型參數(shù)被重新估計(jì).在LapPPCA模型中,隱變量的期望值在E步被估計(jì)為
式中,M=PTP+σ2I.
在M步,為了極大化似然函數(shù)L(Θ)LapPPCA,需要極大化L(Θ)PPCA,并極小化.為了保證遞減,本文采用了牛頓-拉松方法[11].對(duì)于給定的f(x)和初值xt,則f(x)通過(guò)牛頓-拉松更新公式遞減:
將式(7)的結(jié)果代入式(3),可得
由于圖形拉普拉斯算子L是正定矩陣,故通過(guò)更新式(8)可以保證的遞減.之后可以最大化似然函數(shù)L(Θ)PPCA,則模型參數(shù)更新為
通過(guò)反復(fù)迭代E步和M步直至達(dá)到模型收斂條件可以得到最終的模型參數(shù).由于LapPPCA通過(guò)極大化正則化的似然函數(shù)來(lái)估計(jì)模型參數(shù),使得LapPPCA的隱變量能夠同時(shí)提取數(shù)據(jù)的全局信息和局部結(jié)構(gòu),從而獲取了數(shù)據(jù)更全面的特征.
2.3基于LapPPCA的過(guò)程故障檢測(cè)
類似于傳統(tǒng)的PPCA監(jiān)測(cè)技術(shù),基于LapPPCA的監(jiān)測(cè)模型通過(guò)構(gòu)建T2和SPE統(tǒng)計(jì)量來(lái)監(jiān)測(cè)過(guò)程是否出現(xiàn)異常情況.當(dāng)新的樣本xnew被采集后,其對(duì)應(yīng)的隱變量tnew及模型估計(jì)誤差為
為了監(jiān)測(cè)隱變量和模型殘差,可以構(gòu)建
統(tǒng)計(jì)量來(lái)評(píng)估工業(yè)過(guò)程是否在這兩個(gè)子空間下異常情況.T 2和SPE統(tǒng)計(jì)量的控制限服從近似的χ2分布如下[12-13]:
當(dāng)新樣本的T2new或SPEnew超出控制限時(shí),則認(rèn)為生產(chǎn)過(guò)程發(fā)生了系統(tǒng)故障或傳感器故障,反之,則認(rèn)為生產(chǎn)過(guò)程在平穩(wěn)運(yùn)行,無(wú)異常工況發(fā)生.
運(yùn)用工業(yè)數(shù)據(jù)仿真平臺(tái)田納西-伊斯曼(TE)過(guò)程來(lái)檢驗(yàn)LapPPCA的建模能力及過(guò)程監(jiān)測(cè)效果. TE過(guò)程包括反應(yīng)器、冷凝器、壓縮機(jī)、氣液分離器和解析塔等5個(gè)主要操作單元.更多TE過(guò)程的詳細(xì)介紹及其控制回路設(shè)計(jì)可參考文獻(xiàn)[14].TE過(guò)程包含了41個(gè)過(guò)程及質(zhì)量變量以及12個(gè)操作變量.本文選取了易測(cè)量的16個(gè)變量用于建模,具體變量選擇參考文獻(xiàn)[15],選取了正常工況下500個(gè)樣本點(diǎn)用于訓(xùn)練LapPPCA模型.同時(shí),用相同的樣本點(diǎn)訓(xùn)練了PPCA模型用于比較.
為了測(cè)試模型在過(guò)程監(jiān)測(cè)時(shí)的有效性,選取了TE過(guò)程中21種常見(jiàn)的故障作為測(cè)試樣本.每種故障樣本均包含960個(gè)采樣點(diǎn),而故障均在第160個(gè)采樣點(diǎn)發(fā)生.使用PPCA和LapPPCA模型監(jiān)控所有21種故障的漏報(bào)率比較如表1所示.由表1可知,基于LapPPCA模型的T2和SPE統(tǒng)計(jì)量在大部分情況下都優(yōu)于PPCA的故障檢測(cè)效果,表中黑體標(biāo)注數(shù)據(jù)為更好的監(jiān)測(cè)結(jié)果.由于LapPPCA提取了數(shù)據(jù)的全局特征和局部特征,故基于隱變量構(gòu)建的T2統(tǒng)計(jì)量能夠更準(zhǔn)確地反映過(guò)程的真實(shí)狀態(tài).與此同時(shí),由于LapPPCA的建模精準(zhǔn)度更高,使得模型殘差部分包含的幾乎都是噪聲,與之對(duì)應(yīng)的SPE統(tǒng)計(jì)量的監(jiān)測(cè)效果也獲得了提升.以故障10、15為例(見(jiàn)圖1、2),基于LapPPCA模型的T2或SPE統(tǒng)計(jì)量的監(jiān)測(cè)效果獲得了比較明顯的提升,而由于PPCA未能完全提取數(shù)據(jù)的全部特征,導(dǎo)致在監(jiān)測(cè)一些微小的故障時(shí)效果不甚明顯或延遲較大.
表1 PPCA和LapPPCA的漏報(bào)率比較Tab.1 Comparison of the missing detection rates of PPCA and LapPPCA
圖1 故障10監(jiān)測(cè)結(jié)果Fig.1 Process monitoring results of Fault 10
圖2 故障15監(jiān)測(cè)結(jié)果Fig.2 Process monitoring results of Fault 15
本文提出了一種基于LapPPCA模型,在傳統(tǒng)的概率模型框架下,同時(shí)考慮數(shù)據(jù)的流形結(jié)構(gòu),使得在對(duì)數(shù)據(jù)進(jìn)行特征提取時(shí)能夠同時(shí)獲取全局信息(方差)和局部信息(流形).在LapPPCA中,通過(guò)圖形拉普拉斯算子將數(shù)據(jù)的流行結(jié)構(gòu)引入到似然函數(shù)中,并通過(guò)EM算法估計(jì)模型參數(shù).同時(shí),建立了基于LapPPCA的過(guò)程監(jiān)測(cè)模型,并通過(guò)TE過(guò)程驗(yàn)證了所提故障檢測(cè)方法的有效性.
[1]柴天佑.生產(chǎn)制造全流程優(yōu)化控制對(duì)控制與優(yōu)化理論方法的挑戰(zhàn)[J].自動(dòng)化學(xué)報(bào),2009,35(6):641-649.
[2]Qin J S.Survey on data-driven industrial process monitoring and diagnosis[J].Annual Reviews in Control,2012,36(2):220-234.
[3]Ge Zhiqiang,Song Zhihuan,Gao Furong.Review of recent research on data-based process monitoring[J]. Industrial&Engineering Chemistry Research,2013,52(10):3543-3562.
[4]Tipping M E,Bishop C M.Probabilistic principal component analysis[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),1999,61(3):611-622.
[5]Bishop C M,Nasrabadi N M.Pattern recognition and machine learning[M].New York:Springer-Verlag,2006.
[6]Kim D,Lee I-B.Process monitoring based on probabilistic PCA[J].Chemometrics and Intelligent Laboratory Systems,2003,67(2):109-123.
[7]Choi S W,Martin E B,Morris J,et al.Fault detection based on a maximum-likelihood principal component analysis(PCA)mixture[J].Industrial&Engineering Chemistry Research,2005,44(7):2316-2327.
[8]Yu J,Qin J S.Multiway Gaussian mixture model based multiphase batch process monitoring[J]. Industrial&Engineering Chemistry Research,2009,48(18):8585-8594.
[9]Miao Aimin,Song Zhihuan,Ge Zhiqiang,et al. Nonlinear fault detection based on locally linear embedding[J].Journal of Control Theory and Applications,2013,11(4):615-622.
[10]Shao Jidong,Rong Gang,Lee J M.Generalized orthogonal locality preserving projections for nonlinear fault detection and diagnosis[J].Chemometrics and Intelligent Laboratory Systems,2009,96(1):75-83.
[11]He Xiaofei,Cai Deng,Shao Yuanlong,et al.Laplacian regularized Gaussian mixture model for data clustering[J].Knowledge and Data Engineering,IEEE Transactions on,2011,23(9):1406-1418.
[12]Qin S J.Statistical process monitoring:basics and beyond[J].Journal of Chemometrics,2003,17(8-9):480-502.
[13]Box G E.Some theorems on quadratic forms applied in the study of analysis of variance problems,I. effect of inequality of variance in the one-way classification[J].The Annals of Mathematical Statistics,1954,25(2):290-302.
[14]Downs J J,Vogel E F.A plant-wide industrial process control problem[J].Computers&Chemical Engineering,1993,17(3):245-255.
[15]Zhou Le,Chen Junhui,Song Zhihuan,et al.Probabilistic latent variable regression model for processquality monitoring[J].Chemical Engineering Science,2014,116(16):296-305.
(編輯呂丹)
Laplacian Regularized PPCA for Fault Detection
ZHOU Le,SONG Zhihuan
(State Key Laboratory of Industrial Control Technology,Zhejiang University,Hangzhou 310027,China)
When the traditional probabilistic principal component analysis(PPCA)and its extended methods were used for process monitoring,the global characteristics of the process data were extracted,while,the local structure of the data was not taken into account.When the manifold was complex,the local information needed to be incorporated into the traditional model so that the model prediction could be more accurate.An Laplacian regularized PPCA(LapPPCA)model was proposed for containing both global and local information of the data.Using graph Laplacian,the manifold was introduced into the likelihood of the conventional probabilistic model and EM algorithm.The process monitoring schemes based on LapPPCA were also developed and the case study on TE benchmark indicated that the proposed method was effective for both feature extraction and fault detection.
Laplacian regularization;probabilistic principal component analysis(PPCA)based process monitoring;
TP 277
A
1671-7333(2015)03-0260-05
10.3969/j.issn.1671-7333.2015.03.010fault detection
2015-01-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(61273167);教育部博士學(xué)科點(diǎn)專項(xiàng)科研基金課題(20130101110138)
周樂(lè)(1987-),男,博士生,主要研究方向?yàn)榛跀?shù)據(jù)驅(qū)動(dòng)的故障診斷.E-mail:zjuzhoule@zju.edu.cn
宋執(zhí)環(huán)(1962-),男,教授,博士生導(dǎo)師,主要研究方向?yàn)閺?fù)雜工程系統(tǒng)安全監(jiān)測(cè)與故障診斷.E-mail:zhsong@iipc.zju.edu.cn