林圣才 李 楠 楊煜普
(上海交通大學電子信息與電氣工程學院系統(tǒng)控制與信息處理教育部重點實驗室,上海 200240)
20世紀90年代以來,現代工業(yè)過程向著大規(guī)模和復雜化的方向發(fā)展,導致工業(yè)過程越來越難以用精確的物理模型去描述。由此基于多元統(tǒng)計分析的故障檢測方法應運而生,并在工業(yè)過程中獲得了成功的運用[1~3]。但是傳統(tǒng)的多元統(tǒng)計方法也存在著自身的缺陷,如對微小故障不靈敏及PCA[4]方法要求數據服從高斯分布等。隨著工業(yè)過程的長期運行,過程中存在著設備老化等緩慢變化,這些變化輕則導致產品質量下降,重則可能會導致工業(yè)過程發(fā)生故障進而出現事故,因此此類問題亟待解決。
針對此類微小故障問題,筆者引入多元累積和(Multivariate Cumulative Sum,MCUSUM)控制圖[5]和可預測元分析[6](Forecastable Component Analysis,ForeCA),提出了MCUSUM-ForeCA方法。MCUSUM控制圖用于統(tǒng)計多個變量的歷史累積信息,而ForeCA是一種全新的用于多變量時序相關信號的降維與特征提取方法,它能從歷史數據中捕捉系統(tǒng)的動態(tài)特性,并以此來預測系統(tǒng)的運行變化趨勢。MCUSUM-ForeCA方法首先使用MCUSUM對數據進行處理,獲取累積信息,然后使用ForeCA算法提取過程數據中的可預測分量,構造兩種統(tǒng)計量對過程進行統(tǒng)計監(jiān)控。在TE過程上的仿真結果表明了此方法的可行性和有效性。MCUSUM-ForeCA方法不但克服了傳統(tǒng)多元統(tǒng)計方法無法反映過程時序特性的不足,而且在對微小故障的檢測上顯示了良好的性能。
(1)
其中Sj表示到第j個樣本為止的累積和。如果過程均值保持不變,則Sj將會在0周圍隨機波動;如果過程均值產生了較大的變化(上升或下降),則Sj會跟隨著產生相同方向的變化。
設矩陣X∈Rn×m,假設線性變換WT∈Rk×n,使得S=WTX,其中S為從X中提取的可預測分量。ForeCA算法的目的就是尋找能夠滿足這個要求的線性變換WT。
(2)
(3)
(4)
對式(4)進行變換后,可得平穩(wěn)過程的可預測度為:
(5)
對于多變量二階平穩(wěn)過程Xt,考慮線性變換yt=wTXt,其中w是W的列向量,w∈Rn,此時yt就可以看成是一個單變量的二階平穩(wěn)過程。Goerg G給出了ForeCA的最優(yōu)化問題[6]:
(6)
s.t.wTΣXw=1
文獻[6]給出了求解式(5)的詳細算法。通過該算法可以計算出一組按照可預測度由高到低順序排列的可預測元(可預測元個數可以指定,一般不大于平穩(wěn)過程的變量個數),可預測元之間相互正交,由此即可得到線性變換矩陣WT。
首先選取一段正常工況生成的觀測數據Yn×m,其中n為變量個數,m為采樣點數(時間序列),并假設Yn×m中的數據已經經過標準化處理。此時對Yn×m進行MCUSUM處理,定義t時刻的累積和為:
(7)
其中d表示累積和的步數,yi表示第i個時刻的采樣值。經過上述處理后產生新的數據矩陣Xn×m。對Xn×m運用ForeCA算法,選取可預測元的個數等于觀測數據中變量的個數n,使用算法后得可預測元wi∈Rn,i=1,2,…,n,每個可預測元wi對應的可預測度為Ωi,進而得到線性變換矩陣:
WT=[w1,w2,…,wn]T∈Rn×n
WTW=In∈Rn×n
(8)
(9)
(10)
其中Λ為由前k個可預測元對應的可預測度所組成的對角陣。L2統(tǒng)計量是通過可預測模型內部的可預測元模的波動來反映系統(tǒng)的變化情況,SPE統(tǒng)計量則表示到可預測模型空間的距離,反映了測量值對模型的偏離程度。
根據統(tǒng)計量的公式計算過程正常運行下各采樣點的L2值和SPE值后,由于它們并不一定嚴格的服從正態(tài)分布,因此采用核密度估計法[9]對其進行密度估計,密度函數可按下式進行估計:
(11)
其中m是L2值和SPE值的個數;K(·)是核函數,這里選擇高斯核函數;h是帶寬,使用固定帶寬算法計算得到。獲得統(tǒng)計量的密度函數后,即可確定L2統(tǒng)計量和SPE統(tǒng)計量的控制限。
當把上述統(tǒng)計量用于在線監(jiān)控時,首先使用MCUSUM對在線數據進行處理,用于累積過程的歷史信息,然后將經過MCUSUM處理后的在線數據代入L2統(tǒng)計量和SPE統(tǒng)計量的表達式中,計算出L2值和SPE值,最后把得到的結果與控制限進行比較,若高于控制限,則說明系統(tǒng)發(fā)生故障;若低于控制限,則表示系統(tǒng)運行正常。
TE實驗平臺[10]由Downs J J和Vogel E F于1993年提出。TE過程(圖1)是一個仿真實例,是基于實際工業(yè)過程的,可以很好地模擬現實中的復雜工況,因此被廣泛地應用在故障診斷領域。
圖1 TE過程流程
選取正常的樣本數據500個,每個樣本點包含33個變量,其中33個變量分別為22個連續(xù)變量XMEAS(1)~XMEAS(22)和11個控制變量XMV(1)~XMV(11),變量的具體含義參見文獻[10]。測試數據集包含960個樣本點,每個樣本點包含33個變量。前160個樣本點為正常數據,后800個樣本點為故障數據。將MCUSUM-ForeCA方法和傳統(tǒng)PCA方法進行對比,在PCA法中,選取T2統(tǒng)計量與SPE統(tǒng)計量。由于MCUSUM中的步長d對檢測結果有很大影響,因此筆者在此分兩步進行討論。
首先考慮d為固定值時的情況,選取d=250。圖2、3為MCUSUM-ForeCA和PCA方法對TE過程中的故障9和故障15的故障檢測對比圖。
a. MCUSUM-ForeCA方法
b. PCA方法
a. MCUSUM-ForeCA方法
b. PCA方法
故障9是由D的進料溫度發(fā)生變化導致的,正常工況下和故障狀態(tài)下變量的均值和方差并未發(fā)生明顯的變化,屬于TE過程中的微小故障。由圖2可以看出PCA方法的T2統(tǒng)計量和SPE統(tǒng)計量基本上是無法檢測出故障9的,并且在系統(tǒng)正常運行階段還存在一定的誤報率,分別達到了5.0%和1.9%,而MCUSUM-ForeCA的L2統(tǒng)計量和SPE統(tǒng)計量則在390~520個采樣點之間持續(xù)成功地檢測到故障,并且兩者的誤報率都為0。
故障15是由冷凝器冷卻水閥門粘滯導致的,也屬于TE過程中的微小故障。由圖3中可以看出PCA方法的T2統(tǒng)計量和SPE統(tǒng)計量只是在750個采樣點后偶爾檢測出故障15,而MCUSUM-ForeCA的L2統(tǒng)計量和SPE統(tǒng)計量則在260~330個采樣點之間和800~960個采樣點之間持續(xù)地檢測到故障,并且兩者的誤報率都為0。
表1列出了兩種方法對故障9和故障15的檢測準確率。從表1中可以看出,PCA方法的T2統(tǒng)計量和SPE統(tǒng)計量對微小故障的檢出率非常低,最高檢出率僅有6.0%。而MCUSUM-ForeCA方法的L2統(tǒng)計量和SPE統(tǒng)計量對微小故障的檢出率達到了30.0%左右,遠高于PCA方法。由此可以看出在對微小故障的檢測中,MCUSUM-ForeCA方法顯示出了良好的性能。
表1 MCUSUM-ForeCA和PCA的故障 檢測準確率比較 %
現在考慮步長d的變化對微小故障檢測效果的影響。圖4顯示了采用MCUSUM-ForeCA方法步長d對故障9和故障15檢測準確率的影響。
圖4 步長d對故障9和故障15的檢測準確率的影響
由圖4中可以看出,隨著d的增大,故障檢測率呈現出波動式上升的趨勢。對于故障9,L2統(tǒng)計量在d=260時獲得最大檢測率37.5%,SPE統(tǒng)計量在d=280時獲得最大檢測率35.5%;對于故障15,L2統(tǒng)計量在d=260時獲得最大檢測率25.6%,SPE統(tǒng)計量在d=250時獲得最大檢測率30.3%。當d的取值較小時,對微小故障的檢測準確率較低,因為此時利用MCUSUM得到的歷史信息不夠豐富,對系統(tǒng)的微小變化的累積效果不明顯;當d的取值過大時,一方面累積的歷史信息趨于飽和,另一方面累積的過程中會帶入部分噪聲信息,反而會導致故障的檢測效果下降。因此從整體看,d的取值在250~280之間效果比較好。目前從總體來看,d值的選取并沒有統(tǒng)一的標準,一般更多的是憑借經驗或者交叉驗證的方式來選擇。
筆者針對傳統(tǒng)多元統(tǒng)計方法對過程的微小變化不敏感,無法反映過程時序特性的缺點,將MCUSUM與ForeCA方法相結合,選取可預測主元,構造新的統(tǒng)計量,建立了完整的基于MCUSUM-ForeCA的微小故障檢測方法。MCUSUM可用于累積過程的微小變化,ForeCA方法可以更加精確地描述系統(tǒng)的動態(tài)特性,因而具有較好的對微小故障的檢測能力。最后在TE過程上的仿真結果表明MCUSUM-ForeCA方法的可行性和有效性。但是該方法也存在不足,由于方法中使用了MCUSUM,相應地會在檢測過程中產生一定的延時,因此對于某些實時性要求較高的場合,應當考慮將該方法和其他的方法相結合,保證過程安全穩(wěn)定的運行。
[1] Kimura D,Nii M, Yamaguchi T,et al.Fuzzy Nonlinear Regression Analysis Using Fuzzified Neural Networks for Fault Diagnosis of Chemical Plants[J].JACIII,2011,15(3): 336~344.
[2] Zhang Y W,Zhang Y.Fault Detection of Non-Gaussian Processes Based on Modified Independent Component Analysis[J]. Chemical Engineering Science,2010,65(16):4630~4639.
[3] Kano M, Tanaka S, Hasebe S,et al.Monitoring Independent Components for Fault Detection[J]. AIChE Journal, 2003, 49(4): 969~976.
[4] Wise B M, Ricker N L, Veltkamp D F, et al.A Theoretical Basis for the Use of Principal Component Models for Monitoring Multivariate Processes[J]. Process Control and Quality,1990,1(1): 41~51.
[5] Pignatiello J J, Runger G C. Comparisons of Multivariate CUSUM Charts[J].Journal of Quality Technology, 1990, 22(3): 173~186.
[6] Goerg G.Forecastable Component Analysis[C].Proceedings of the 30th International Conference on Machine Learning.Atlanta, USA:ICML,2013: 64~72.
[7] Shannon C E. A Mathematical Theory of Communication[J].ACM SIGMOBILE Mobile Computing and Communications Review,2001,5(1):3~55.
[8] Kohavi R. A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection[C].Proceedings of the 14th International Joint Conference on Artificial Intelligence.San Francisco,USA:Morgan Kaufmann Publishers Inc,1995:1137~1145.
[9] Wand M P, Jones M C. Kernel Smoothing[M]. Boca Raton: Crc Press,1994.
[10] Downs J J,Vogel E F.A Plant-wide Industrial Process Control Problem[J].Computers & Chemical Engineering,1993,17(3):245~255.