郭金玉 王東琴 李 元(沈陽化工大學(xué)信息工程學(xué)院 遼寧 沈陽 110142)
數(shù)據(jù)驅(qū)動技術(shù)由于其易于實現(xiàn)、對先驗知識和過程機制要求較低等優(yōu)點,在工業(yè)過程監(jiān)控領(lǐng)域受到了廣泛的關(guān)注[1-6]。主成分分析(Principal component analysis,PCA)方法是工業(yè)系統(tǒng)中常用的一種監(jiān)測和故障檢測方法,但它基本上是一種線性方法。然而,大多數(shù)的實際工業(yè)生產(chǎn)系統(tǒng)是非線性的。為了擴展到實際工業(yè)生產(chǎn)中的非線性系統(tǒng),在離線階段,Jia等[7]采用監(jiān)督核PCA(Supervised kernel PCA,SKPCA)方法,推導(dǎo)出低維子空間的非線性最優(yōu)嵌入。傳統(tǒng)PCA假定采集的數(shù)據(jù)服從單峰或高斯分布,然而由于工業(yè)過程的復(fù)雜性和多模態(tài)特性,采集到的數(shù)據(jù)往往遵循不同的分布。為了提高傳統(tǒng)PCA的有效性,Wang等[8]提出了一種新的故障檢測方法WKNS-PCA,將多模態(tài)數(shù)據(jù)轉(zhuǎn)換成近似單模態(tài)或高斯分布,并將其應(yīng)用于過程異常值的檢測。Lou等[9]將隱半馬爾可夫模型(HSMM)與PCA相結(jié)合,把模式持續(xù)時間概率集成到隱馬爾可夫模型中處理多模態(tài)特征,提出HSMM-PCA方法,其中PCA是一種功能強大的單模過程監(jiān)控方法,HSMM主要負責(zé)模式劃分和識別。為了克服kNN方法[10]不能有效地對方差差異明顯的多模態(tài)過程進行過程監(jiān)視的缺點,Zhang等[11]提出基于加權(quán)k近鄰距離(Weightedk-nearest neighbor,WkNN)的故障檢測方法。馮立偉等[12]提出基于主元分析和WkNN相結(jié)合的方法PCA-WkNN。為了更有效地監(jiān)控多穩(wěn)態(tài)模式的非高斯過程,Zhong等[13]提出了一種基于局部熵?zé)o關(guān)分量分析(LEICA)的過程監(jiān)控方法,該方法利用局部概率密度(Local probability density,LPD)估計來消除多模特性的影響。為了提高非負矩陣分解(Non-negative matrix factorization,NMF)方法在方差差異明顯的多模態(tài)過程中的監(jiān)視效果,本文提出一種新的基于LPD-NMF的多模態(tài)過程監(jiān)視方法,其基本思想是對正常數(shù)據(jù)與故障數(shù)據(jù)運用LPD方法進行預(yù)處理,消除模態(tài)間數(shù)據(jù)的方差差異,使其多模態(tài)的數(shù)據(jù)融合成為單模態(tài)的數(shù)據(jù),利用NMF方法對單模態(tài)的數(shù)據(jù)進行降維處理,然后使用D2統(tǒng)計量作監(jiān)視,從而達到檢測出故障數(shù)據(jù)的目的。
因為在處理多模態(tài)的問題上,局部學(xué)習(xí)方法有著良好的表現(xiàn),所以將kNN思想引入到核密度估計當(dāng)中來計算每個樣本的局部概率密度[14-15]:
(1)
式中:N(xi)是xi的k個近鄰。N(xi)表達如下:
(2)
(3)
(4)
給定一個非負矩陣X∈Rm×n,NMF方法是找到一組非負矩陣W∈Rm×l和H∈Rl×n,使得式(5)成立。
X≈WH
(5)
式中:W∈Rm×l為基矩陣;H∈Rl×n為系數(shù)矩陣。選取的l要求滿足(m+n)l≤nm,從而用低維的矩陣H代替原始數(shù)據(jù)矩陣X,實現(xiàn)降維處理。
NMF方法[16-18]的目標函數(shù)為:
(6)
拉格朗日乘子法:
(7)
(8)
記Z=(X-WH)T(X-WH)。
(9)
(10)
(-WTX+WTWH)ijHij=0
(11)
(12)
當(dāng)NMF方法用于過程監(jiān)控時,其監(jiān)控模型為:
(13)
(14)
采集正常工況下各個模態(tài)的數(shù)據(jù),對各模態(tài)的訓(xùn)練數(shù)據(jù)運用LPD方法進行預(yù)處理后,建立NMF模型,監(jiān)測指標用低維樣本與其k個近鄰樣本的歐氏距離的平方和,運用KDE方法確定控制限。新來的測試樣本數(shù)據(jù)向NMF模型上進行投影,并計算該樣本與其k個近鄰樣本的歐氏距離的平方和。將計算得到的新的統(tǒng)計量與控制限進行比較,從而實現(xiàn)對多模態(tài)過程數(shù)據(jù)的監(jiān)視。
基于LPD-NMF方法的多模態(tài)過程監(jiān)視主要分為建模過程和在線檢測兩部分:
1) 建模過程。對正常工況下的訓(xùn)練數(shù)據(jù)進行局部概率密度進行預(yù)處理,消除多模態(tài)數(shù)據(jù)之間的方差差異;對預(yù)處理后的訓(xùn)練數(shù)據(jù)運用NMF方法降維,并計算這個低維樣本與其k個近鄰樣本的歐氏距離的平方和;利用KDE方法確定控制限。
2) 在線檢測。對新來的校驗數(shù)據(jù)運用LPD方法進行預(yù)處理;預(yù)處理后向NMF模型上進行投影,并計算這個樣本與其k個近鄰樣本的歐氏距離的平方和;比較歐氏距離的平方和與控制限的大小來確定樣本是否正常,若樣本的歐氏距離的平方和位于控制限上方,則該測試數(shù)據(jù)樣本為故障數(shù)據(jù)樣本,反之,則為正常數(shù)據(jù)樣本。
本節(jié)仿真結(jié)果是在MATLAB 8.1.0 R2013a環(huán)境平臺下運行的,所用電腦CPU主頻為3.60 GHz,RAM為6 GB。
本節(jié)通過具有多模態(tài)特性的數(shù)值例子來說明LPD-NMF方法進行過程監(jiān)視的有效性。產(chǎn)生數(shù)據(jù)的模型為[23]:
(15)
式中:變量e1、e2、e3、e4、e5是服從[0,0.01]的高斯白噪聲;數(shù)據(jù)s1和s2為該模型的主要操作變量。因此,可以改變數(shù)據(jù)s1和s2來構(gòu)造兩種不同的操作模態(tài)。模態(tài)1中s1服從(5,10)的均勻分布,s2服從(2,30)的正態(tài)分布;模態(tài)2中s1服從(25,0.1)的正態(tài)分布,s2服從(27,0.2)的正態(tài)分布。
模態(tài)1和模態(tài)2各自產(chǎn)生100個訓(xùn)練樣本、100個測試樣本和3個故障樣本。多模態(tài)的訓(xùn)練和測試樣本都是200個,而多模態(tài)的故障樣本是6個。圖1所示為前兩個變量的原始數(shù)據(jù)散點圖,其中橫軸表示變量1,縱軸表示變量2。由圖1可知,該數(shù)值例子是稀疏程度不同的多模態(tài)實例。
圖1 原始數(shù)據(jù)散點圖
對多模態(tài)的數(shù)值例子運用LPD方法進行預(yù)處理,圖2為預(yù)處理后的數(shù)據(jù)散點圖??梢钥闯?,LPD方法較好地消除了數(shù)據(jù)的多模態(tài)特性,而且能分離出稀疏模態(tài)和密集模態(tài)的所有故障。
對多模態(tài)的數(shù)值例子運用LPD方法進行預(yù)處理后,運用傳統(tǒng)的PCA和NMF兩種方法分別進行降維和特征提取,圖3所示為兩種方法下的訓(xùn)練、校驗和故障樣本前兩個主元的散點圖??梢钥闯?,相較PCA,NMF方法能分離出稀疏模態(tài)和密集模態(tài)的所有故障。這是由于樣本的局部概率密度是非負的,運用NMF在低維空間上得到的特征向量也是非負的,不會出現(xiàn)PCA正負相互抵消的情況,能很好地提取數(shù)據(jù)的局部信息,因此與傳統(tǒng)方法如PCA等相比,NMF具有更好的數(shù)據(jù)解釋能力。
通過尋優(yōu)測試,在LPD-NMF方法中,取降維后的維數(shù)為3。對多模態(tài)的數(shù)值例子分別運用kNN、WkNN、局部概率密度kNN(LPD-kNN)和LPD-NMF方法進行數(shù)據(jù)檢測,檢測性能指標為誤報率和漏報率。在kNN、LPD-kNN和LPD-NMF方法中,近鄰數(shù)k分別為13、23和23;在WkNN方法中,近鄰數(shù)k為3,樣本均值的近鄰數(shù)k為7。圖4為以上四種方法的故障檢測效果圖。可以看出,kNN方法的D2統(tǒng)計量有3個故障樣本未檢測出來,9個樣本出現(xiàn)誤報;WkNN方法的D2統(tǒng)計量有2個故障樣本未檢測出來,6個樣本出現(xiàn)誤報;LPD-kNN方法的D2統(tǒng)計量檢測出全部故障樣本,漏報樣本為0,9個樣本出現(xiàn)誤報;LPD-NMF方法的D2統(tǒng)計量也檢測出全部故障數(shù)據(jù)樣本,漏報樣本也為0,但只有5個樣本出現(xiàn)了誤報。kNN方法的缺點是不能有效地監(jiān)視稀疏多模態(tài)過程,而且計算量較大;而LPD-NMF方法先使樣本數(shù)據(jù)降維,訓(xùn)練數(shù)據(jù)的維度從200×5降到了200×3,從而減少了計算量,校驗數(shù)據(jù)和故障數(shù)據(jù)也做了同樣的處理。
(b) WkNN
(d) LPD-NMF圖4 四種方法對多模態(tài)數(shù)值例子的檢測結(jié)果圖
表1列出了四種方法對數(shù)值例子的檢測結(jié)果??梢钥闯觯琇PD-NMF方法的檢測效果要優(yōu)于kNN、WkNN和LPD-kNN方法。綜上所述,與kNN、WkNN和LPD-kNN方法相比,LPD-NMF方法不僅實現(xiàn)了降維,而且具有較低的誤報率和漏報率,從而改善了監(jiān)視效果。
表1 多模態(tài)數(shù)值例子的檢測結(jié)果對比(%)
表2列出了四種方法對數(shù)值例子的故障檢測時間結(jié)果??梢钥闯?,LPD-NMF方法比LPD-kNN方法檢測耗時少,這是因為NMF方法實現(xiàn)了降維,使訓(xùn)練數(shù)據(jù)的維度從200×5降到了200×3,從而減少了計算量。
表2 多模態(tài)數(shù)值例子的故障檢測時間對比 單位:s
將本文方法應(yīng)用于半導(dǎo)體工業(yè)數(shù)據(jù)[19-23]。半導(dǎo)體數(shù)據(jù)是典型的復(fù)雜多模態(tài)間歇過程數(shù)據(jù)。建模批次96個,校驗批次11個,故障批次20個。20個故障是通過改變變量而產(chǎn)生的,如表3所示。本文的檢測變量是從21個測量變量中選取17個變量,如表4所示。為了消除初始的波動影響,去除每個批次前5個樣本,保留后85個樣本。將三維建模數(shù)據(jù)X(96×85×17)沿批次方向展開成二維矩陣X(96×1 445)。對校驗數(shù)據(jù)和故障數(shù)據(jù)也做同樣的處理。
表3 半導(dǎo)體生產(chǎn)過程所用的故障
表4 半導(dǎo)體生產(chǎn)過程所用的檢測變量
續(xù)表4
分別用kNN、WkNN、LPD-kNN和LPD-NMF四種方法進行故障檢測,檢測性能指標為誤報率和漏報率。在kNN、LPD-kNN和LPD-NMF方法中,近鄰數(shù)k分別為17、3和3;在WkNN方法中,近鄰數(shù)k為3,樣本均值的近鄰數(shù)k為9。圖5為以上方法的故障檢測效果圖??梢钥闯?,kNN方法檢測出來16個故障批次,漏報了4個故障批次,而正常的校驗批次都在控制限下方,誤報批次為0;WkNN方法檢測出來9個故障批次,漏報了11個故障批次,而正常的校驗批次有1個在控制限上方,誤報批次為1;LPD-kNN方法檢測出來17個故障批次,漏報了3個故障批次,而正常的校驗批次都在控制限下方,誤報批次為0;LPD-NMF方法檢測出來20個故障批次,沒有出現(xiàn)漏報,而有1個校驗批次出現(xiàn)誤報。kNN方法的缺點是計算量比較大,而LPD-NMF方法先使樣本數(shù)據(jù)降維,訓(xùn)練批次的維度從96×1 445降到了96×85,從而減少了計算量。
(a) kNN
(b) WkNN
(c) LPD-kNN
表5列出了四種方法對半導(dǎo)體數(shù)據(jù)的檢測結(jié)果??梢钥闯?,LPD-NMF方法與kNN、WkNN和LPD-kNN方法相比,其檢測效果較好,且LPD-NMF方法實現(xiàn)了對數(shù)據(jù)的降維處理,從而減少了很多計算量。綜上所述,與kNN、WkNN和LPD-kNN方法相比,LPD-NMF方法不僅實現(xiàn)了對數(shù)據(jù)的降維處理,而且漏報率為0,雖然存在誤報率,但是采用95%的控制限,誤報率在可接受的范圍內(nèi),因此其檢測性能是最優(yōu)的。
表5 四種方法對半導(dǎo)體數(shù)據(jù)的檢測結(jié)果對比
表6列出了四種方法對半導(dǎo)體數(shù)據(jù)的故障檢測時間結(jié)果??梢钥闯?,LPD-NMF方法比LPD-kNN方法檢測耗時少,這是因為NMF方法實現(xiàn)了降維,使訓(xùn)練數(shù)據(jù)的維度從96×1 445降到了96×85,從而減少了計算量,降低了計算復(fù)雜度。
表6 四種方法對半導(dǎo)體數(shù)據(jù)的故障檢測時間對比 單位:s
本文提出了一種基于LPD-NMF的多模態(tài)過程監(jiān)視方法。該方法用于處理多模態(tài)過程數(shù)據(jù)監(jiān)視,從而能夠最大化地將多模態(tài)過程的正常數(shù)據(jù)和故障數(shù)據(jù)分離出來。通過計算對各個模態(tài)樣本間的局部概率密度,從而消除各模態(tài)間的方差差異,把多模態(tài)的數(shù)據(jù)融合成為一個模態(tài)的數(shù)據(jù)。在此基礎(chǔ)上,通過建立單個模型來實現(xiàn)對多模態(tài)過程數(shù)據(jù)的有效檢測,提高NMF方法在多模態(tài)過程數(shù)據(jù)監(jiān)視中的效果。通過數(shù)值例子和實際的工業(yè)生產(chǎn)過程進行仿真研究,結(jié)果表明LPD-NMF方法實現(xiàn)了降維,降低了算法的復(fù)雜性,從而減少檢測耗時。在檢測性能上,LPD-NMF的漏報率為0,而誤報率在可以接受的范圍內(nèi),因此該方法的過程監(jiān)視結(jié)果優(yōu)于常規(guī)的kNN、WkNN和LPD-kNN方法。