郭金玉,王東琴,李 元
(沈陽(yáng)化工大學(xué) 信息工程學(xué)院,遼寧 沈陽(yáng) 110142)
隨著現(xiàn)代自動(dòng)化技術(shù)的快速發(fā)展,工業(yè)系統(tǒng)無(wú)論在規(guī)模、復(fù)雜程度還是在一體化程度上都在不斷提高,但同時(shí)也造成故障發(fā)生概率不斷增大,所以對(duì)控制精度和可靠性的要求也越來(lái)越高,人們迫切需要建立一個(gè)具有高性能的監(jiān)控系統(tǒng)來(lái)監(jiān)視系統(tǒng)的運(yùn)行狀態(tài),實(shí)時(shí)檢測(cè)出系統(tǒng)發(fā)生的故障[1-3]。近年來(lái),基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測(cè)技術(shù)在工業(yè)過(guò)程中得到了廣泛應(yīng)用,并成為了學(xué)術(shù)界的研究熱點(diǎn)。
主元分析(principal component analysis,PCA)[4]方法已廣泛應(yīng)用于工業(yè)生產(chǎn)過(guò)程監(jiān)視方面,但PCA提取原始數(shù)據(jù)的全局信息,丟失局部信息。因此,尋找保持原始數(shù)據(jù)局部結(jié)構(gòu)的方法開始得到學(xué)術(shù)界的關(guān)注。HU等[5]將局部保持投影 (locality preserving projections,LPP)算法運(yùn)用于工業(yè)過(guò)程的統(tǒng)計(jì)監(jiān)測(cè)中。通過(guò)離線和在線的比較,一定程度上顯示了流形學(xué)習(xí)方法在故障檢測(cè)中的優(yōu)越性。但是投影向量不是正交的,增加了數(shù)據(jù)誤差重構(gòu)方面的難度。為了更好地保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu),CAI等[6]提出正交局部保持投影(orthogonal locality preserving projections,OLPP)算法,在LPP的基礎(chǔ)上增加了一個(gè)正交化的約束條件,通過(guò)迭代計(jì)算得到相互正交的投影方向。在此基礎(chǔ)上,GUO等[7]提出一種基于動(dòng)態(tài)多向正交局部保持投影(dynamic multiway orthogonal locality preserving projections,DMOLPP)算法用于間歇過(guò)程故障檢測(cè),該算法將滑動(dòng)窗口技術(shù)與OLPP相結(jié)合,能夠在保持原始訓(xùn)練樣本局部信息的同時(shí)降低數(shù)據(jù)誤差重構(gòu)方面的難度。LUO等[8]提出核全局-局部保持投影算法(kernel global-local preserving projections,KGLPP),將LPP算法推廣應(yīng)用于非線性生產(chǎn)過(guò)程,但KGLPP方法的檢測(cè)效果受到核參數(shù)的影響。郭金玉等[9]提出集成核局部保持投影(ensemble kernel locality preserving projections,EKLPP)算法,解決KLPP方法的檢測(cè)效果受到核參數(shù)影響的問(wèn)題。為了提高LPP算法的故障檢測(cè)性能,GUO等[10]提出差分局部保持投影(difference locality preserving projections,DLPP)算法,利用差分方法剔除數(shù)據(jù)的非線性和多模態(tài)結(jié)構(gòu),然后利用LPP進(jìn)行故障檢測(cè)。在此基礎(chǔ)上,郭金玉等[11]提出一種基于統(tǒng)計(jì)差分局部保持投影(statistics difference locality preserving projections,SDLPP)的多模態(tài)間歇過(guò)程故障檢測(cè)方法,利用統(tǒng)計(jì)模量分析和差分算法,使多模態(tài)數(shù)據(jù)變?yōu)閱文B(tài),保證數(shù)據(jù)近似服從高斯分布,從而達(dá)到提高LPP在多模態(tài)間歇過(guò)程中故障檢測(cè)性能的目的。然而,這些局部算法不能有效地監(jiān)控稀疏不一致的多模態(tài)過(guò)程。為了解決這個(gè)問(wèn)題,本文嘗試將二階差商和LPP算法相結(jié)合,提出一種新的基于二階差商局部保持投影(second order difference quotient locality preserving projections,SODQ-LPP)的多模態(tài)過(guò)程故障檢測(cè)方法。通過(guò)二階差商預(yù)處理算法消除多模態(tài)數(shù)據(jù)的多中心和稀疏不一致的特性,滿足LPP算法的SPE和T2統(tǒng)計(jì)量要求數(shù)據(jù)服從高斯分布的需求,提高LPP算法在多模態(tài)數(shù)據(jù)中的檢測(cè)效果。
LPP算法[12]是一種用于提取數(shù)據(jù)特征信息的降維方法,它可以很好地保留數(shù)據(jù)的局部信息,主要考慮的是保持?jǐn)?shù)據(jù)中近鄰點(diǎn)之間的結(jié)構(gòu)。算法的核心是尋找轉(zhuǎn)換矩陣A,使一系列的矩陣X=[x1,x2,…,xn]∈Rm×n投影到Y(jié)=[y1,y2,…,yn]∈Rl×n(l<<m)上,即yi=ATxi,使Y盡可能地代表X。其中m為變量數(shù),n為樣本數(shù)。LPP算法的目的是在降維的同時(shí),保持樣本固有的局部流形結(jié)構(gòu)不變,是一種局部子空間學(xué)習(xí)算法。
通過(guò)求解優(yōu)化式(1)的最小值問(wèn)題求解矩陣A:
約束條件是:
式中L是拉普拉斯矩陣,L=D-W,W是定義在數(shù)據(jù)點(diǎn)上的相似矩陣,D是對(duì)角矩陣,Wij的計(jì)算方式為
式中Wij是加權(quán)矩陣中的元素,參數(shù)t是根據(jù)經(jīng)驗(yàn)設(shè)定的。求目標(biāo)函數(shù)的最小值可以保證近鄰點(diǎn)xi和xj的投影yi和yj也是近鄰點(diǎn)。
其中,XLXT和XDXT都是對(duì)稱且半正定的,因此求矩陣(XDXT)-1XLXT的最小特征值對(duì)應(yīng)的特征向量,即得到投影矩陣A。
為消除數(shù)據(jù)的多模態(tài)特性,GUO等[10]運(yùn)用差分算法即一階差分算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,計(jì)算式為:
式中xi代表數(shù)據(jù)集X∈Rm×n中的第i(i= 1,2,…,n)個(gè)樣本,是xi的最近鄰樣本,的選取是根據(jù)歐式距離求得的。差分算法可以消除方差差異不明顯的多模態(tài)特性,但對(duì)于模態(tài)間稀疏程度明顯的多模態(tài)問(wèn)題,差分算法就失去其有效性。
為了解決上述問(wèn)題,消除各模態(tài)間的方差差異,ZHANG等[13]提出近鄰差分算法,對(duì)于樣本xi,先找到它的第k個(gè)近鄰樣本,進(jìn)行一階差分運(yùn)算得到:
運(yùn)用同樣的方法,找到樣本的第k個(gè)近鄰樣本,再進(jìn)行一階差分運(yùn)算得到:
一階差分運(yùn)算消除數(shù)據(jù)的多中心結(jié)構(gòu),同時(shí)能保持當(dāng)前樣本與其近鄰之間的位置信息。為了描述數(shù)據(jù)的結(jié)構(gòu)差異,定義樣本xi的二階差商如下:
下面對(duì)多模態(tài)數(shù)值例子進(jìn)行預(yù)處理。假設(shè)有兩個(gè)不同模態(tài)的數(shù)據(jù),其中每個(gè)模態(tài)有800個(gè)樣本。每個(gè)樣本有兩個(gè)變量,在每個(gè)模態(tài)中都是獨(dú)立的。在模態(tài)1中,變量x1和x2均服從[-100,1]的正態(tài)分布;在模態(tài)2中,變量x1和x2均服從[18,26]的正態(tài)分布。每個(gè)模態(tài)的400個(gè)正常數(shù)據(jù)作為訓(xùn)練樣本,其余400個(gè)正常數(shù)據(jù)作為校驗(yàn)樣本,6個(gè)異常數(shù)據(jù)作為故障樣本。故障2、3和4是密集模態(tài)的故障,而故障1、5和6是稀疏模態(tài)的故障。圖1是訓(xùn)練樣本、校驗(yàn)樣本和故障樣本的數(shù)據(jù)分布散點(diǎn)圖。圖中圓圈表示訓(xùn)練數(shù)據(jù),星號(hào)表示校驗(yàn)數(shù)據(jù),方塊表示故障數(shù)據(jù)。從圖1可以看出,該數(shù)值例子是稀疏程度不同的多模態(tài)實(shí)例。
圖1 原始數(shù)據(jù)散點(diǎn)圖Fig.1 Scatter plot of original data
圖2 差分預(yù)處理散點(diǎn)圖Fig.2 Scatter plot of data preprocessed by difference algorithm
通過(guò)尋優(yōu)測(cè)試,在二階差商算法中,樣本的近鄰數(shù)和近鄰樣本的近鄰數(shù)k分別取為3和7。對(duì)多模態(tài)的數(shù)值例子運(yùn)用差分和二階差商的方法進(jìn)行預(yù)處理,結(jié)果分別如圖2和圖3所示。圖中圓圈表示訓(xùn)練數(shù)據(jù),星號(hào)表示校驗(yàn)數(shù)據(jù),方塊表示故障數(shù)據(jù)。從圖2可以看出,差分算法可以剔除數(shù)據(jù)的多模態(tài)特性,使多模態(tài)數(shù)據(jù)變成單模態(tài)數(shù)據(jù),有效地分離出靠近稀疏數(shù)據(jù)的故障1、5和6,但不能分離出靠近密集數(shù)據(jù)的故障2、3和4。這是由于差分算法能有效地處理方差差異小的多模態(tài)過(guò)程數(shù)據(jù),而對(duì)于方差差異明顯的多模態(tài)過(guò)程數(shù)據(jù)處理效果不理想。從圖3可以看出,二階差商算法不但可以剔除數(shù)據(jù)的多模態(tài)特性,使多模態(tài)數(shù)據(jù)變成單模態(tài)數(shù)據(jù),而且二階差商算法可以有效地將所有故障數(shù)據(jù)分離出來(lái)。綜上所述,二階差商算法對(duì)于方差差異明顯的多模態(tài)過(guò)程數(shù)據(jù)處理效果更好。經(jīng)二階差商方法預(yù)處理后,變量x1的分布如圖4所示。從圖4可以看出,預(yù)處理后數(shù)據(jù)服從高斯分布,滿足LPP算法的SPE和T2統(tǒng)計(jì)量要求數(shù)據(jù)服從高斯分布的需求。
圖3 二階差商預(yù)處理散點(diǎn)圖Fig.3 Scatter plot of data preprocessed by second order difference quotient
圖4 二階差商預(yù)處理后變量x1的分布圖Fig.4 Distribution plot of variable x1 preprocessed by second order difference quotient
采集正常工況下各個(gè)模態(tài)的數(shù)據(jù),運(yùn)用二階差商進(jìn)行預(yù)處理,從而消除多模態(tài)數(shù)據(jù)的多中心和方差差異特性,利用LPP方法建立模型,計(jì)算統(tǒng)計(jì)量并利用核密度估計(jì)法確定控制限。對(duì)新來(lái)的數(shù)據(jù)運(yùn)用二階差商預(yù)處理后,向LPP模型上進(jìn)行投影,然后計(jì)算統(tǒng)計(jì)量并與控制限比較,從而進(jìn)行多模態(tài)過(guò)程的故障檢測(cè)。
基于二階差商LPP的多模態(tài)過(guò)程故障檢測(cè)流程如圖5所示?;诙A差商LPP方法的多模態(tài)過(guò)程故障檢測(cè)步驟主要分為建模過(guò)程和在線檢測(cè)兩部分。
圖5 基于二階差商LPP的多模態(tài)過(guò)程故障檢測(cè)流程圖Fig.5 Fault detection flow chart of multimode processes based on second order difference quotient LPP
(1)建模過(guò)程
1) 對(duì)正常工況下各模態(tài)的訓(xùn)練數(shù)據(jù)運(yùn)用二階差商進(jìn)行預(yù)處理得到矩陣X**,消除多模態(tài)數(shù)據(jù)的多中心和方差差異特性;
2) 確定加權(quán)矩陣W,利用式(4)求出投影矩陣A;
3) 運(yùn)用LPP算法建立模型,并計(jì)算統(tǒng)計(jì)量SPE和T2。SPE和T2的計(jì)算公式為:
其中T=ATX**,T為L(zhǎng)PP降維后的主元矩陣,E=X**-AT,S是矩陣(X**DX**T)-1X**LX**T的l個(gè)最小特征值的對(duì)角陣;
4) 利用核密度估計(jì)法[14-16]確定統(tǒng)計(jì)量SPE和T2的控制限。
(2) 在線檢測(cè)
1) 對(duì)新來(lái)的校驗(yàn)數(shù)據(jù)運(yùn)用二階差商進(jìn)行預(yù)處理;
2) 向LPP模型上進(jìn)行投影,并計(jì)算統(tǒng)計(jì)量SPE和T2;
3) 監(jiān)控統(tǒng)計(jì)量SPE和T2是否超過(guò)控制限。若統(tǒng)計(jì)量大于控制限,則該反應(yīng)時(shí)刻的數(shù)據(jù)樣本是故障的;否則是正常的。
通過(guò)尋優(yōu)測(cè)試,在SODQ-LPP方法中,樣本的近鄰數(shù)和近鄰樣本的近鄰數(shù)k分別取為3和7。對(duì)2.2節(jié)中的多模態(tài)數(shù)值例子運(yùn)用LPP、DLPP和SODQ-LPP方法進(jìn)行故障檢測(cè),檢測(cè)結(jié)果如圖6所示。圖中圓圈表示訓(xùn)練數(shù)據(jù),星號(hào)表示校驗(yàn)數(shù)據(jù),方塊表示故障數(shù)據(jù),虛線為 95% 控制限。從圖6可以看出,LPP算法的SPE和T2統(tǒng)計(jì)量均有3個(gè)故障樣本未檢測(cè)出,38個(gè)樣本出現(xiàn)誤報(bào)。這是因?yàn)長(zhǎng)PP方法不能有效地檢測(cè)多模態(tài)過(guò)程數(shù)據(jù)。DLPP算法的SPE和T2統(tǒng)計(jì)量均有3個(gè)故障樣本未檢測(cè)出,22個(gè)樣本出現(xiàn)誤報(bào)。這是由于DLPP方法能有效地檢測(cè)方差差異小的多模態(tài)過(guò)程數(shù)據(jù),而對(duì)于方差差異明顯的多模態(tài)過(guò)程數(shù)據(jù)檢測(cè)效果不理想。SODQ-LPP算法的SPE統(tǒng)計(jì)量檢測(cè)出全部故障樣本,18個(gè)樣本出現(xiàn)誤報(bào);T2統(tǒng)計(jì)量檢測(cè)出全部故障樣本,7個(gè)樣本出現(xiàn)誤報(bào)。與LPP和DLPP方法相比,SODQ-LPP故障檢測(cè)率較高,誤報(bào)率相對(duì)較低,從而驗(yàn)證SODQ-LPP方法的有效性。
圖6 3種算法對(duì)多模態(tài)數(shù)值例子的檢測(cè)結(jié)果圖Fig.6 Detection results of the three methods for multimodal numerical examples
表1是3種算法對(duì)多模態(tài)數(shù)值例子的檢測(cè)結(jié)果對(duì)比。從表1可以看出,SODQ-LPP方法的檢測(cè)效果要明顯優(yōu)于LPP和DLPP方法。綜上所述,與其它兩種方法相比,SODQ-LPP方法有較低的誤報(bào)率和漏報(bào)率,驗(yàn)證了該方法的有效性和優(yōu)越性。
表1 3種方法多模態(tài)數(shù)值例子的檢測(cè)結(jié)果對(duì)比Table 1 Comparison of detection results of the three methods for multimodal numerical examples
半導(dǎo)體數(shù)據(jù)來(lái)源于美國(guó)德州儀器公司的半導(dǎo)體生產(chǎn)過(guò)程實(shí)際數(shù)據(jù),是個(gè)典型的非線性、時(shí)變、多階段和多工況的復(fù)雜多模態(tài)間歇過(guò)程。該數(shù)據(jù)由3個(gè)模態(tài)的107個(gè)正常批次和20個(gè)故障批次組成,其中1~34批次為第1模態(tài),35~70批次為第2模態(tài),71~107批次為第3模態(tài)。每個(gè)模態(tài)分別選取32個(gè)批次用于建模,其余的正常批次作為校驗(yàn)批次用于驗(yàn)證模型的準(zhǔn)確性,因此建模批次為96個(gè),正常校驗(yàn)批次為11個(gè),故障批次為20個(gè)。本文從 21個(gè)測(cè)量變量中選取 17個(gè)變量作為檢測(cè)變量,參見文獻(xiàn)[17~20]。
每個(gè)批次是不等長(zhǎng)的,持續(xù)時(shí)間在95~112 s變化。運(yùn)用最短長(zhǎng)度法獲得等長(zhǎng)批次。為了消除傳感器中初始的波動(dòng)影響,去除開始的5個(gè)樣本,保留85個(gè)樣本以適應(yīng)最短的批次。將三維建模數(shù)據(jù)X(96×85×17)沿批次方向展開成二維矩陣X(96×1445)。對(duì)校驗(yàn)數(shù)據(jù)和故障數(shù)據(jù)也進(jìn)行同樣的處理。
通過(guò)尋優(yōu)測(cè)試,在SODQ-LPP方法中,樣本的近鄰數(shù)和近鄰樣本的近鄰數(shù)k分別取為13和27。對(duì)二維數(shù)據(jù)矩陣分別運(yùn)用LPP、DLPP和SODQ-LPP方法進(jìn)行建模,并對(duì)11個(gè)校驗(yàn)批次和20個(gè)故障批次數(shù)據(jù)進(jìn)行檢測(cè)。3種方法的檢測(cè)結(jié)果如圖7所示,圖中圓圈表示訓(xùn)練批次,星號(hào)表示校驗(yàn)批次,方塊表示故障批次,虛線為95% 控制限。從圖7中可以看出,LPP方法的SPE統(tǒng)計(jì)量有1個(gè)校驗(yàn)批次誤報(bào),故障批次有3個(gè)未檢測(cè)出來(lái);T2統(tǒng)計(jì)量正確檢測(cè)出全部校驗(yàn)批次,沒(méi)有誤報(bào)批次,但故障批次有13個(gè)未檢測(cè)出來(lái)。LPP方法的檢測(cè)效果不理想,這是因?yàn)長(zhǎng)PP方法不能有效地檢測(cè)多模態(tài)過(guò)程數(shù)據(jù)。DLPP方法的SPE統(tǒng)計(jì)量正確檢測(cè)出全部校驗(yàn)批次,沒(méi)有誤報(bào)批次,而故障批次有2個(gè)未檢測(cè)出來(lái);T2統(tǒng)計(jì)量正確檢測(cè)出全部校驗(yàn)批次,沒(méi)有誤報(bào)批次,但故障批次有17個(gè)未檢測(cè)出來(lái)。DLPP方法能有效地檢測(cè)方差差異小的多模態(tài)過(guò)程數(shù)據(jù),而對(duì)于方差差異明顯的多模態(tài)過(guò)程數(shù)據(jù),DLPP方法檢測(cè)效果不理想。SODQ-LPP方法的SPE統(tǒng)計(jì)量正確檢測(cè)出全部校驗(yàn)批次,沒(méi)有誤報(bào)批次,而故障批次有1個(gè)未檢測(cè)出來(lái);T2統(tǒng)計(jì)量正確檢測(cè)出全部校驗(yàn)批次,沒(méi)有誤報(bào)批次,但故障批次有12個(gè)未檢測(cè)出來(lái)。與LPP和DLPP方法相比,SODQ-LPP方法的檢測(cè)效果最好,驗(yàn)證了基于二階差商LPP方法在多模態(tài)間歇過(guò)程故障檢測(cè)中的有效性和優(yōu)越性。
圖7 3種方法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果圖Fig.7 Detection results of the three methods for semiconductor data
表2是 3種方法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果對(duì)比。由表2可以看出,與 LPP和 DLPP方法相比,SODQ-LPP方法有較低的誤報(bào)率和漏報(bào)率,說(shuō)明該方法對(duì)于多模態(tài)數(shù)據(jù)的故障檢測(cè)非常有效,從而驗(yàn)證了該方法的有效性和優(yōu)越性。
表2 3種方法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果對(duì)比Table 2 Comparison of detection results of the three methods for semiconductor data
提出一種基于二階差商LPP的多模態(tài)過(guò)程故障檢測(cè)方法。該方法在進(jìn)行多模態(tài)過(guò)程故障檢測(cè)時(shí),能夠最大化地分離多模態(tài)的正常和故障數(shù)據(jù)。通過(guò)二階差商預(yù)處理方法消除多模態(tài)數(shù)據(jù)的多中心和模態(tài)間的方差差異特性,從而更加準(zhǔn)確地檢測(cè)出故障數(shù)據(jù)。將提出的方法應(yīng)用到數(shù)值例子和實(shí)際的半導(dǎo)體工業(yè)數(shù)據(jù)中,仿真結(jié)果表明,與傳統(tǒng)的故障檢測(cè)方法相比,本文的方法降低了誤報(bào)率和漏報(bào)率,從而驗(yàn)證了該方法的有效性和優(yōu)越性。
符號(hào)說(shuō)明: