朱守博 趙忠蓋 劉 飛
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 輕工過程先進控制教育部重點實驗室)
在現(xiàn)代工業(yè)過程中, 多元統(tǒng)計過程監(jiān)控(MSPM)方法得到了廣泛應(yīng)用,包括基于主成分分析(PCA)[1]、偏最小二乘(PLS)[2]及典型變量分析(CVA)[3]等監(jiān)控方法。 其中,基于PCA的故障檢測與診斷技術(shù)能夠有效地檢測過程變量,但是根據(jù)過程變量與質(zhì)量變量間的相關(guān)關(guān)系判斷質(zhì)量指標(biāo)和過程運行狀態(tài)更為重要[4]。 CVA的建模目標(biāo)是使兩組變量間的相關(guān)系數(shù)最大化, 而PLS則尋求兩組變量之間的協(xié)方差最大化。 PLS集合了CVA和PCA的基本功能, 在質(zhì)量相關(guān)的故障檢測領(lǐng)域獲得了大量的成功應(yīng)用[5,6]。
PLS的目的是提取過程變量和質(zhì)量變量的特征信息,并使兩者間的相關(guān)性最大[7]。 因此,過程變量的主成分中可能包含了大量與質(zhì)量變量無關(guān)的信息,同樣地,質(zhì)量變量的主成分中也可能包含了大量無法由過程變量估計的信息[8]。 另一方面,PLS不像PCA那樣以降序的方式提取輸入空間中的方差。 因此,殘差中可能會包含大量的有用信息, 并不符合采用Q統(tǒng)計量進行監(jiān)控的條件[9]。
為了解決以上問題,高效潛結(jié)構(gòu)投影(EPLS)方法將過程數(shù)據(jù)分解為質(zhì)量相關(guān)部分和質(zhì)量無關(guān)部分, 并使用PCA對質(zhì)量無關(guān)部分做進一步分解,保證空間分解的完備性。EPLS模型最終生成3個子空間:質(zhì)量相關(guān)子空間、質(zhì)量無關(guān)子空間和殘差子空間[10]。 其中質(zhì)量相關(guān)子空間對輸出的預(yù)測有全部貢獻,質(zhì)量無關(guān)子空間包含與輸出正交的部分,殘差子空間只包含過程數(shù)據(jù)的干擾或噪聲。基于EPLS模型,監(jiān)控方法可以對上述3個子空間的信息分開進行評估,提高了故障檢測的準(zhǔn)確率。
另一方面,在實際的工業(yè)過程中,由于傳感器故障、格式錯誤及非代表性采樣等原因,很多樣本數(shù)據(jù)往往不完整,給數(shù)據(jù)驅(qū)動建模帶來了挑戰(zhàn)[11]。 迭代算法(IA)是一種常用的解決缺失性難題的手段[12,13]。 Smirnov M Y等將PCA和PLS分別集成到IA方法中實現(xiàn)對缺失數(shù)據(jù)的建模[14,15]。 筆者引入IA算法, 提出一種缺失數(shù)據(jù)下的EPLS算法——IA-EPLS。 該方法通過不斷地迭代完成EPLS建模:用估計的缺失數(shù)據(jù)建立EPLS模型,然后基于該EPLS模型重新估計缺失數(shù)據(jù)。兩個步驟交替迭代進行,直到收斂,即可得到EPLS模型和重構(gòu)數(shù)據(jù)集。 筆者還將該方法應(yīng)用到故障檢測中,構(gòu)建EPLS生成的3個子空間的監(jiān)控指標(biāo), 通過一個數(shù)值仿真和田納西伊士曼(TE)過程仿真證明該方法的有效性。
PLS的目的是提取過程變量和數(shù)據(jù)變量的主元,并使兩者的相關(guān)性最大。 假設(shè)給定過程數(shù)據(jù)矩陣X∈RN×m,質(zhì)量數(shù)據(jù)矩陣Y∈RN×p(其中,N為樣本數(shù),m為過程變量數(shù),p為質(zhì)量變量數(shù))。 用非線性迭代偏最小二乘法(NIPALS)將(X,Y)投影到低維空間:
其中,T=[t1,t2,…,tA]為得分矩陣;P=[p1,p2,…,pA]和Q=[q1,q2,…,qA]分別是X和Y的負載矩陣;A為PLS的主元個數(shù), 通常由交叉驗證確定;E和F分別對應(yīng)X和Y的殘差。
在NIPALS算法中,將W=[w1,w2,…,wA]定義為權(quán)重矩陣, 由于無法直接由原始過程數(shù)據(jù)X得到T,所以引入R=[r1,r2,…,rA],滿足T=XR,且有:
基于PLS的監(jiān)控通常使用T2和Q統(tǒng)計量。 對于一個新的樣本xnew,可計算其得分tnew和相關(guān)統(tǒng)計量:
PLS通過兩個子空間對過程進行監(jiān)控仍然會面臨一些問題。 原因在于:主元子空間仍然包含與Y正交的部分,這不利于檢測;PLS強調(diào)了X對Y的解釋作用,并沒有在過程變量矩陣中按方差降序提取主成分。 為了解決這些問題,EPLS首先將過程空間分解為兩個正交子空間:與質(zhì)量相關(guān)的子空間X^ 和與質(zhì)量無關(guān)的子空間X~。其中質(zhì)量相關(guān)子空間不包含正交Y的成分。 其次,對X~進一步進行主元分析, 產(chǎn)生質(zhì)量無關(guān)子空間和殘差子空間。
EPLS模型如下:
EPLS算法將過程數(shù)據(jù)空間分解地更加簡潔和完整。
考慮過程變量數(shù)據(jù)中包含缺失項:
其中,X#表示缺失的測量數(shù)據(jù),X*表示觀測到的測量值。 相應(yīng)地,系數(shù)矩陣M的計算式為:
因此, 系數(shù)矩陣M僅由X*決定。 在EPLS建模中,如果過程變量出現(xiàn)缺失數(shù)據(jù),則該變量所在的所有測量值均無法用于建模,導(dǎo)致大量過程數(shù)據(jù)信息丟失,甚至無法準(zhǔn)確建立模型。 在IA-EPLS中,IA的中心思想是在每次迭代中估計缺失的值。 IA的每次迭代由兩步組成。 在初始化缺失數(shù)據(jù)(通常為零,或?qū)?yīng)列的已知值的均值,或?qū)?yīng)行和列的均值)后,第1步根據(jù)實際數(shù)據(jù)估計出模型參數(shù); 第2步, 利用現(xiàn)有模型的實際數(shù)據(jù)和參數(shù),計算缺失數(shù)據(jù)的期望值。 IA的收斂準(zhǔn)則是連續(xù)兩次迭代過程中缺失數(shù)據(jù)的估計值小于一定的閾值。 IA-EPLS算法的步驟如下:
a. 按行和列的均值初始化缺失數(shù)據(jù);
b. 初始化X和Y;
c. 計算系數(shù)矩陣M;
i. 從初始X和Y中減去缺失部分的估計值,計算誤差平方和,然后除以缺失采樣的個數(shù);
j. 如果計算結(jié)果小于指定的閾值, 如10-4,則滿足收斂條件,轉(zhuǎn)向步驟k,否則轉(zhuǎn)向步驟b;
在上述算法中,用EPLS模型得到的期望值填補缺失數(shù)據(jù),構(gòu)建新的數(shù)據(jù)集,并擬合新的EPLS模型。 迭代結(jié)束后,得到最終的模型可以表示為質(zhì)量相關(guān)和質(zhì)量無關(guān)部分:
其中,ξ和f分別為故障方向變量和故障大小。
采用500個正常工況下的采樣數(shù)據(jù)建立IAEPLS模型:設(shè)置缺失數(shù)據(jù)分別為樣本的10%、20%和30%,隨機分布在輸入數(shù)據(jù)和輸出數(shù)據(jù)中。另有驗證數(shù)據(jù)500個樣本,其中前250個采樣點為正常數(shù)據(jù),后250個樣本為故障數(shù)據(jù)。 基于IA-EPLS方法的檢測結(jié)果如圖1所示(紅線為閾值)。
圖1 缺失數(shù)據(jù)占比為10%、20%和30%下基于IA-EPLS的故障檢測結(jié)果
TE過程是一個開放的仿真系統(tǒng),被廣泛用于過程監(jiān)控方法的驗證研究中[18~20]。 TE過程由5個操作單元組成:化學(xué)反應(yīng)器、冷凝器、壓縮機、汽液分離器和汽提塔, 包含41個過程變量(XMEAS(1~41))、12個控制變量(XMV(1~12))和21種故障類型 (IDV (1~21))[21,22]。 選擇22個過程變量(XMEAS(1~22))和11個控制變量(XMV(2~12))作為輸入矩陣X;過程變量XMEAS(35)作為輸出變量[23]。 每個測試樣本經(jīng)過960次采樣,其中故障在第161個樣本處引入,訓(xùn)練數(shù)據(jù)集由正常工況下的500個樣本組成。 在仿真中,一定比例的缺失數(shù)據(jù)被添加到訓(xùn)練數(shù)據(jù)集中。由于在實際情況下,缺失數(shù)據(jù)通常是未知的, 常用的填補方法是均值填補法,因此訓(xùn)練數(shù)據(jù)集中缺失的元素被視為零。
圖2 缺失數(shù)據(jù)占比為20%下基于IA-EPLS的故障檢測結(jié)果
為了便于比較,EPLS方法用平均值替換缺失數(shù)據(jù)實現(xiàn)最終的監(jiān)控模型。 該部分共設(shè)計3組仿真實驗, 缺失數(shù)據(jù)的比例分別為10%、20%和30%。 基于IA-EPLS和EPLS方法對故障IDV(1)的檢測結(jié)果分別如圖3、4所示(紅線為閾值)。 從兩圖中可以看出, 缺失數(shù)據(jù)下基于IA-EPLS的故障檢測方法比EPLS效果更好。隨著缺失數(shù)據(jù)比例的增加,基于IA-EPLS的方法保持了較高的故障檢測率(FDR),而基于EPLS方法的故障檢測率逐漸降低。 此外,在表1中總結(jié)了不同缺失數(shù)據(jù)比例下兩種方法的FDR。
圖3 缺失數(shù)據(jù)占比為10%、20%和30%下基于IA-EPLS的IDV(1)故障檢測結(jié)果
圖4 缺失數(shù)據(jù)占比為10%、20%和30%下基于EPLS的IDV(1)故障檢測結(jié)果
表1 不同缺失數(shù)據(jù)比例下IA-EPLS和EPLS對IDV(1)的故障檢測率
針對缺失數(shù)據(jù)的情況,筆者提出了一種基于IA-EPLS的質(zhì)量相關(guān)故障檢測方法。 IA-EPLS算法將EPLS集成到IA框架中,成功地構(gòu)建不完整數(shù)據(jù)的數(shù)學(xué)模型,并將其應(yīng)用于質(zhì)量相關(guān)的故障檢測中。通過數(shù)值案例和TE過程驗證了所提方法的有效性, 未來的工作是基于IA-EPLS研究相關(guān)的故障診斷和識別方法。