郭金玉, 劉玉超, 李 元
(沈陽(yáng)化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽(yáng) 110142)
隨著工業(yè)過(guò)程檢測(cè)系統(tǒng)的漸趨復(fù)雜,基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測(cè)技術(shù)被廣泛應(yīng)用于控制工程鄰域[1-6].其中以主成分分析(principal component analysis,PCA)為代表的統(tǒng)計(jì)過(guò)程控制方法是典型的基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測(cè)方法[7-9],通過(guò)系統(tǒng)所采集的數(shù)據(jù)來(lái)分析生產(chǎn)過(guò)程樣本是否存在故障,不依賴(lài)于先驗(yàn)知識(shí)和數(shù)學(xué)模型.
PCA算法[10]是一種線性降維方法,通過(guò)線性變換對(duì)原始數(shù)據(jù)進(jìn)行降維,提取數(shù)據(jù)的主要特征,然后利用平方預(yù)測(cè)誤差(squared prediction error,SPE)和Hotelling’sT2對(duì)低維空間的樣本狀態(tài)進(jìn)行監(jiān)控,但是SPE和T2統(tǒng)計(jì)指標(biāo)要求數(shù)據(jù)滿足單模態(tài)多元高斯分布的前提假設(shè),而工業(yè)過(guò)程數(shù)據(jù)通常具有非線性、多模態(tài)和非高斯等特性.為了提高PCA在非線性過(guò)程故障檢測(cè)中的性能,Sch?lkopf等[11]提出基于核主成分分析(kernel principal component analysis,KPCA)方法,通過(guò)非線性核函數(shù)將數(shù)據(jù)映射到高維特征空間,但是這種方法需要數(shù)據(jù)服從獨(dú)立同分布.為了克服KPCA的這一局限性,使其更好地應(yīng)用于實(shí)際生產(chǎn)過(guò)程,Sch?lkopf等[12]又提出將核主成分分析與隱馬爾可夫模型相結(jié)合的方法(kernel principal component analysis and hidden markov model,KPCA-HMM),基本思想是將靜態(tài)降維技術(shù)與經(jīng)典的混合模型相結(jié)合,提高數(shù)據(jù)的轉(zhuǎn)換、降維和分類(lèi)能力,但是該方法應(yīng)用數(shù)據(jù)的靜態(tài)特征對(duì)系統(tǒng)的要求較高.為了適應(yīng)復(fù)雜的非線性過(guò)程,F(xiàn)azai等[13]提出一種可變滑動(dòng)窗口核主成分分析 (variable moving window kernel principal component analysis,VMWKPCA)方法,該方法根據(jù)正常過(guò)程的變化來(lái)改變滑動(dòng)窗口的大小,提高系統(tǒng)的自適應(yīng)能力,并提高故障檢測(cè)性能.上述方法在非線性系統(tǒng)的故障檢測(cè)方面具有很好的效果,但是不適用于多模態(tài)工業(yè)過(guò)程故障檢測(cè).為提高多模態(tài)過(guò)程的故障檢測(cè)率,Ma等[14]提出局部近鄰標(biāo)準(zhǔn)化(local neighborhood standardization,LNS)的數(shù)據(jù)預(yù)處理方法,有效地消除數(shù)據(jù)的多模態(tài)特性.針對(duì)多階段過(guò)程數(shù)據(jù)的多中心、各工序數(shù)據(jù)結(jié)構(gòu)不同等特征,馮立偉等[15]提出基于雙近鄰標(biāo)準(zhǔn)化和PCA的故障檢測(cè)方法,該方法克服了多階段過(guò)程數(shù)據(jù)的多中心和不同階段方差差異明顯的影響.為了提高工業(yè)過(guò)程故障檢測(cè)性能,消除數(shù)據(jù)的多模態(tài)和非高斯特性,本文提出一種基于加權(quán)局部近鄰標(biāo)準(zhǔn)化PCA (weighed local neighborhood standardization principal component analysis,WLNSPCA)的故障檢測(cè)方法,其基本思想是運(yùn)用加權(quán)局部近鄰標(biāo)準(zhǔn)化方法對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理,然后建立PCA模型,利用SPE和T2統(tǒng)計(jì)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行監(jiān)視,提高故障檢測(cè)效果.
已知數(shù)據(jù)集X∈Rn×m,其中n為樣本數(shù),m為變量數(shù),對(duì)數(shù)據(jù)集X中的樣本xi(i=1,2,…,n)進(jìn)行加權(quán)近鄰標(biāo)準(zhǔn)化(weighed neighborhood standardization,WNS)為
(1)
其中:hi為加權(quán)近鄰標(biāo)準(zhǔn)化后的數(shù)據(jù)點(diǎn);mi為樣本xi的前k個(gè)近鄰樣本的加權(quán)均值;kNN(xi)為樣本xi的k近鄰域;i為采樣時(shí)刻.
(2)
(3)
其權(quán)值wij(j=1,2,…,k)為
(4)
(5)
的約束條件.在公式(1)中權(quán)值wij的選取與樣本xi與其第j個(gè)近鄰樣本的距離相關(guān).WNS可以有效地處理離散程度不大的多模態(tài)過(guò)程數(shù)據(jù),但是對(duì)于模態(tài)間方差差異明顯的多模態(tài)問(wèn)題,WNS就失去其有效性.
通過(guò)一個(gè)簡(jiǎn)單的數(shù)值例子說(shuō)明WNS的局限性.隨機(jī)生成兩個(gè)模態(tài)的訓(xùn)練數(shù)據(jù)模態(tài)1和模態(tài)2,兩個(gè)模態(tài)均由500個(gè)樣本構(gòu)成.在每個(gè)樣本中有2個(gè)變量,且服從獨(dú)立同分布.模態(tài)1中的兩個(gè)變量x1和x2服從(0,0.05)的正態(tài)分布;模態(tài)2中的兩個(gè)變量x1和x2服從(5,1)的正態(tài)分布.結(jié)果如圖1所示.
圖1 訓(xùn)練數(shù)據(jù)的散點(diǎn)、變量的分布和序列
圖1(a)為訓(xùn)練數(shù)據(jù)的散點(diǎn)圖,圖1(b)為原始數(shù)據(jù)變量2的分布圖,圖1(c)為原始數(shù)據(jù)的變量序列圖.從圖1可以看出原始數(shù)據(jù)存在兩個(gè)模態(tài),并且具有方差差異明顯、多中心和非高斯特性.
使用WNS方法標(biāo)準(zhǔn)化該數(shù)值例子,結(jié)果如圖2所示.從圖2(a)可以看出:兩個(gè)模態(tài)的數(shù)據(jù)形成圓環(huán),方差大的模態(tài)數(shù)據(jù)覆蓋在方差小的模態(tài)數(shù)據(jù)外面.這是因?yàn)閷?duì)于正常樣本而言其近鄰樣本均來(lái)自于其所屬模態(tài),對(duì)方差不同的模態(tài)數(shù)據(jù)進(jìn)行WNS后不改變其方差特征.
從圖2(b)可以看出WNS標(biāo)準(zhǔn)化方法能夠消除數(shù)據(jù)的非高斯特性,使數(shù)據(jù)近似服從高斯分布.從圖2(c)可以看出WNS標(biāo)準(zhǔn)化方法只是將數(shù)據(jù)中心平移到原點(diǎn)附近,并沒(méi)有改變多模態(tài)數(shù)據(jù)間的方差差異.
為克服WNS的局限性,剔除多模態(tài)數(shù)據(jù)間的方差差異特征,筆者研究了加權(quán)局部近鄰標(biāo)準(zhǔn)化(weighed local neighborhood standardization,WLNS)的改進(jìn)策略,其公式為
(6)
圖2 加權(quán)近鄰標(biāo)準(zhǔn)化數(shù)據(jù)的散點(diǎn)、變量的分布和序列
對(duì)上述的數(shù)值例子進(jìn)行WLNS標(biāo)準(zhǔn)化后的結(jié)果如圖3所示.從圖3(a)可以看出兩個(gè)模態(tài)融合一起,消除了多模態(tài)特性,兩個(gè)模態(tài)的方差差異也明顯拉齊;從圖3(b)可以看出WLNS預(yù)處理后的數(shù)據(jù)服從單峰高斯分布;從圖3(c)可以看出WLNS算法消除了模態(tài)間的多中心結(jié)構(gòu),同時(shí)消除多模態(tài)數(shù)據(jù)的方差差異.
圖3 加權(quán)局部近鄰標(biāo)準(zhǔn)化數(shù)據(jù)散點(diǎn)、
將WLNS標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣L作為初值,建立PCA模型,首先計(jì)算L的協(xié)方差矩陣:
(7)
根據(jù)特征值分解,計(jì)算出協(xié)方差矩陣C的特征值和特征向量.根據(jù)累計(jì)貢獻(xiàn)率確定主元個(gè)數(shù),公式為
(8)
其中λi為協(xié)方差矩陣C的特征根,由前v個(gè)特征向量組成的矩陣即負(fù)載矩陣Qv.利用SPE和T2統(tǒng)計(jì)量對(duì)系統(tǒng)進(jìn)行監(jiān)視.
WLNSPCA算法可以對(duì)離散程度明顯的工業(yè)過(guò)程進(jìn)行故障檢測(cè),主要包括離線建模和故障檢測(cè).
(1) 建模過(guò)程
1) 收集正常操作時(shí)的歷史數(shù)據(jù)集X.
2) 利用加權(quán)局部近鄰標(biāo)準(zhǔn)化算法對(duì)X進(jìn)行預(yù)處理得到L,剔除原始數(shù)據(jù)方差差異明顯的多模態(tài)特征和非高斯性.
3) 對(duì)L進(jìn)行標(biāo)準(zhǔn)化處理,使其各列均值為0、方差為1.
4) 建立PCA模型,獲得負(fù)載矩陣Qv.
(9)
(10)
其中Λ-1為協(xié)方差矩陣C的前v個(gè)特征根組成的對(duì)角矩陣.
(2) 故障檢測(cè)
1) 對(duì)于測(cè)試數(shù)據(jù)xnew,利用WLNS對(duì)xnew進(jìn)行預(yù)處理得到lnew,再向建模數(shù)據(jù)方向投影得到lnew1.
通過(guò)使用Ge和Song設(shè)計(jì)的數(shù)值例子[16]驗(yàn)證基于WLNSPCA算法對(duì)多模態(tài)過(guò)程故障檢測(cè)的有效性.該數(shù)值例子包含5個(gè)變量,模型如下:
(12)
其中e1、e2、e3、e4和e5服從N(0,0.01)的白噪聲.可通過(guò)改變數(shù)據(jù)源s1和s2改變操作條件,由此構(gòu)造出兩種不同的操作模態(tài).
模態(tài) 1:s1∈U[-10,-7],
s2∈N(-15,1).
模態(tài)2:s1∈U[2,5],
s2∈N(7,1).
每個(gè)模態(tài)中分別生成400個(gè)正常樣本作為訓(xùn)練數(shù)據(jù)集.再分別在每個(gè)模態(tài)中生成100個(gè)正常樣本作為檢驗(yàn)數(shù)據(jù)集.當(dāng)模態(tài)1運(yùn)行時(shí),對(duì)變量x1增加一幅值為0.02×(i-400)的故障,產(chǎn)生400個(gè)數(shù)據(jù)組成故障1的測(cè)試數(shù)據(jù)集;在模態(tài)2運(yùn)行時(shí),同樣對(duì)變量x1增加一幅值為0.02×(i-400)的故障,產(chǎn)生400個(gè)數(shù)據(jù)組成故障2的測(cè)試數(shù)據(jù)集.圖4和圖5分別為故障1和故障2的多模態(tài)數(shù)據(jù)分布散點(diǎn)圖,x、y和z軸分別表示變量1、變量2和變量3.從圖4和圖5可以看出原始數(shù)據(jù)有兩個(gè)模態(tài),故障1和故障2是兩種不同的故障.
圖4 故障1的數(shù)據(jù)散點(diǎn)
圖5 故障2的數(shù)據(jù)散點(diǎn)
分別用PCA、KPCA、WNSPCA和WLNSPCA方法對(duì)多模態(tài)數(shù)值例子的故障1進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖6所示.4種方法的主元個(gè)數(shù)根據(jù)累計(jì)貢獻(xiàn)率確定.在WNSPCA和WLNSPCA中,近鄰數(shù)k都為9.從圖6可以看出:在PCA算法中,SPE統(tǒng)計(jì)量出現(xiàn)230個(gè)漏報(bào)樣本,有14個(gè)誤報(bào)樣本;T2統(tǒng)計(jì)量有324個(gè)漏報(bào)樣本,7個(gè)誤報(bào)樣本.在KPCA算法中,SPE統(tǒng)計(jì)量有340個(gè)漏報(bào)樣本,其中有16個(gè)誤報(bào)樣本;T2統(tǒng)計(jì)量有324個(gè)漏報(bào)樣本,7個(gè)誤報(bào)樣本.在WNSPCA算法中,SPE統(tǒng)計(jì)量有75個(gè)漏報(bào)樣本,11個(gè)誤報(bào)樣本;T2統(tǒng)計(jì)量有98個(gè)漏報(bào)樣本,出現(xiàn)2個(gè)誤報(bào)樣本.在WLNSPCA算法中,SPE統(tǒng)計(jì)量漏報(bào)35個(gè)故障樣本,7個(gè)樣本出現(xiàn)誤報(bào);T2統(tǒng)計(jì)量漏報(bào)42個(gè)故障樣本,6個(gè)誤報(bào)樣本.因此,與PCA、KPCA和WNSPCA方法相比,WLNSPCA對(duì)故障1的故障檢測(cè)效果最好,誤報(bào)率也相對(duì)較低,驗(yàn)證了WLNSPCA算法的有效性.
分別用PCA、KPCA、WNSPCA和WLNSPCA方法對(duì)多模態(tài)數(shù)值例子故障2進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖7所示.4種方法的主元個(gè)數(shù)通過(guò)累計(jì)貢獻(xiàn)率確定.在WNSPCA和WLNSPCA中,近鄰數(shù)k都為9.從圖7可以看出:在PCA算法中,SPE統(tǒng)計(jì)量漏報(bào)319個(gè)故障樣本,有14個(gè)誤報(bào)樣本;T2統(tǒng)計(jì)量的漏報(bào)率為100 %,誤報(bào)樣本為7個(gè).在KPCA算法中,SPE統(tǒng)計(jì)量的所有故障樣本均未檢測(cè)出來(lái),并且有16個(gè)樣本出現(xiàn)誤報(bào);T2統(tǒng)計(jì)量的所有故障樣本也均未檢測(cè)出來(lái),有7個(gè)誤報(bào)樣本.在WNSPCA算法中,SPE統(tǒng)計(jì)量有57個(gè)漏報(bào)樣本,但僅有11個(gè)校驗(yàn)樣本出現(xiàn)誤報(bào);T2統(tǒng)計(jì)量有66個(gè)漏報(bào)故障樣本,有2個(gè)樣本出現(xiàn)誤報(bào).在WLNSPCA算法中,SPE統(tǒng)計(jì)量只有11個(gè)漏報(bào)樣本和7個(gè)誤報(bào)樣本;T2統(tǒng)計(jì)量有10個(gè)漏報(bào)樣本,6個(gè)樣本出現(xiàn)誤報(bào).
圖6 4種方法對(duì)故障1的檢測(cè)結(jié)果
圖7 4種方法對(duì)故障2的檢測(cè)結(jié)果
與PCA、KPCA和WDPCA方法相比,WLNSPCA對(duì)故障2的故障檢測(cè)效果較好,誤報(bào)率也相對(duì)較低,從而驗(yàn)證WLNSPCA算法的有效性.
表1是4種算法對(duì)多模態(tài)數(shù)據(jù)兩種故障的檢測(cè)結(jié)果.從表1可以得出:WLNSPCA算法的檢測(cè)效果要明顯優(yōu)于PCA 和KPCA.這是因?yàn)镻CA算法需要數(shù)據(jù)滿足多元高斯分布的前提假設(shè),因此對(duì)多模態(tài)數(shù)據(jù)檢測(cè)效果不理想;而KPCA算法是一種非線性算法,對(duì)單模態(tài)過(guò)程具有很好的故障檢測(cè)效果,但是對(duì)多模態(tài)過(guò)程就會(huì)影響其檢則效果.WNSPCA算法的誤報(bào)率低,故障檢測(cè)率較好,但是該方法受多模態(tài)數(shù)據(jù)方差差異影響,檢測(cè)效果不如WLNSPCA算法.綜上所述,與其他3種算法對(duì)比,WLNSPCA算法在誤報(bào)率允許的條件下有較高的故障檢測(cè)率,驗(yàn)證了該算法的有效性和優(yōu)越性.
表1 4種方法的檢測(cè)結(jié)果對(duì)比
半導(dǎo)體過(guò)程是一個(gè)工業(yè)實(shí)例,在故障檢測(cè)領(lǐng)域廣泛應(yīng)用.筆者以半導(dǎo)體工業(yè)實(shí)例——A1堆腐蝕過(guò)程[17-20]為研究對(duì)象,比較不同故障檢測(cè)方法的性能.半導(dǎo)體生產(chǎn)過(guò)程數(shù)據(jù)具有非線性、時(shí)變、多階段和多工況等特性.生產(chǎn)過(guò)程數(shù)據(jù)由3個(gè)模態(tài)組成,其中包括107個(gè)正常批次和20個(gè)故障批次.在每個(gè)模態(tài)中分別選取32個(gè)批次建模,其余正常批次作為校驗(yàn)批次,因此建模批次為96個(gè),正常校驗(yàn)批次為11個(gè),故障批次為20個(gè).在 21個(gè)測(cè)量變量中選取 17個(gè)變量作為過(guò)程檢測(cè)變量,如表2所示.
表2 半導(dǎo)體生產(chǎn)過(guò)程所用的檢測(cè)變量
使用最短長(zhǎng)度法獲得等長(zhǎng)批次.為消除初始波動(dòng)對(duì)傳感器的影響,去除開(kāi)始的5個(gè)樣本,保留85個(gè)樣本適應(yīng)最短的批次,從而將三維建模數(shù)據(jù)X(96×85×17)沿批次方向展開(kāi)成二維數(shù)據(jù)矩陣得到X(96×1445).同樣,將校驗(yàn)數(shù)據(jù)和故障數(shù)據(jù)也展開(kāi)成二維數(shù)據(jù)矩陣.
運(yùn)用PCA、KPCA、WNSPCA和WLNSPCA方法對(duì)工業(yè)過(guò)程半導(dǎo)體仿真實(shí)例進(jìn)行檢測(cè).4種方法的主元個(gè)數(shù)均根據(jù)累計(jì)貢獻(xiàn)率確定.在WNSPCA和WLNSPCA中,近鄰數(shù)k都為7.4種方法的仿真結(jié)果如圖8所示.在PCA算法中,SPE有3個(gè)故障批次出現(xiàn)漏報(bào),5個(gè)批次出現(xiàn)誤報(bào);T2沒(méi)有出現(xiàn)誤報(bào)批次,但是有15個(gè)漏報(bào)批次.在KPCA算法中,SPE有5個(gè)故障漏報(bào),沒(méi)有出現(xiàn)誤報(bào)批次;T2有10個(gè)故障出現(xiàn)漏報(bào),沒(méi)有出現(xiàn)誤報(bào)批次.在WNSPCA算法中,SPE有1個(gè)批次出現(xiàn)漏報(bào),1個(gè)批次出現(xiàn)誤報(bào);T2有7個(gè)批次出現(xiàn)漏報(bào),沒(méi)有出現(xiàn)誤報(bào).WLNSPCA算法中,在沒(méi)有誤報(bào)批次的情況下,SPE也沒(méi)有出現(xiàn)漏報(bào),T2有6個(gè)故障出現(xiàn)漏報(bào).因此,與PCA、KPCA和WNSPCA方法相比,在誤報(bào)率相對(duì)較低的情況下,WLNSPCA對(duì)半導(dǎo)體數(shù)據(jù)的故障檢測(cè)效果最好,驗(yàn)證了WLNSPCA算法在工業(yè)過(guò)程故障檢測(cè)中的有效性.
圖8 4種方法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果
表3 是PCA、KPCA、WNSPCA和WLNSPCA算法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果對(duì)比.由表3可以看出:與PCA、KPCA和WNSPCA算法對(duì)比,WLNSPCA算法在沒(méi)有誤報(bào)的情況下,故障檢測(cè)率最高,說(shuō)明該方法在工業(yè)過(guò)程的故障檢測(cè)中具有很好的檢測(cè)效果.
表3 4種方法對(duì)半導(dǎo)體數(shù)據(jù)的檢測(cè)結(jié)果對(duì)比
文章研究一種WLNSPCA的工業(yè)過(guò)程故障檢測(cè)方法.根據(jù)每個(gè)樣本近鄰樣本的加權(quán)均值和標(biāo)準(zhǔn)差對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,構(gòu)造加權(quán)局部近鄰標(biāo)準(zhǔn)化數(shù)據(jù)集剔除數(shù)據(jù)的多中心、方差差異和非高斯特性.在此基礎(chǔ)上運(yùn)用PCA進(jìn)行故障檢測(cè),從而有效提高工業(yè)過(guò)程故障檢測(cè)效果.應(yīng)用數(shù)值例子和半導(dǎo)體工業(yè)實(shí)例檢驗(yàn)該方法的有效性,從仿真結(jié)果可以看出與傳統(tǒng)的故障檢測(cè)算法相比,WLNSPCA算法有明顯的優(yōu)越性.
沈陽(yáng)化工大學(xué)學(xué)報(bào)2021年3期