馮立偉,張 成,李 元,謝彥紅
(1.沈陽化工大學(xué) 數(shù)理系,沈陽 110142; 2.沈陽化工大學(xué) 過程故障診斷研究中心,沈陽 110142)(*通信作者電子郵箱li-yuan@mail.tsinghua.edu.cn)
主元分析(Principal Component Analysis, PCA)、偏最小二乘方法(Partial Least Square, PLS)和獨(dú)立元分析(Independent Component Analysis, ICA)是經(jīng)典的故障檢測方法,在工業(yè)過程中已經(jīng)得到廣泛應(yīng)用[1-8],它們都假定數(shù)據(jù)來自單一工況,但現(xiàn)在工業(yè)生產(chǎn)廣泛采用多工況生產(chǎn)過程。多工況過程數(shù)據(jù)具有多中心[9-12]、各工況分布結(jié)構(gòu)不同[13-14]、各批次數(shù)據(jù)為矩陣形式且批次不等長[11-12,15]等特點(diǎn)。由于數(shù)據(jù)具有多中心的特點(diǎn),因此數(shù)據(jù)不服從單一多元高斯分布,而PCA、PLS方法中的統(tǒng)計(jì)量要求數(shù)據(jù)服從多元高斯分布, ICA方法要求數(shù)據(jù)服從單一分布,這導(dǎo)致PCA、PLS、ICA方法在多工況故障檢測過程中出現(xiàn)嚴(yán)重誤報(bào)和漏報(bào)。
針對多工況過程的多中心特征,出現(xiàn)了高斯混合模型(Gaussian Mixture Model, GMM)[9-10],首先對每個(gè)工況使用PCA、PLS、ICA等方法構(gòu)造檢測子模型,再使用貝葉斯推理來綜合各模型檢測結(jié)果。張成等[16]提出基于GMM的馬氏距離k近鄰(k-Nearest Neighbor, kNN)故障檢測。但GMM的子模型個(gè)數(shù)事先未知,在復(fù)雜工業(yè)過程中難于應(yīng)用。如何對多工況過程建立單一檢測模型成為研究重點(diǎn)。He等[17]提出了k近鄰的故障檢測(Fault Detection using kNN rule, FD-kNN)方法,并應(yīng)用在半導(dǎo)體蝕刻工藝過程中,成功檢測出大多數(shù)故障。FD-kNN方法通過使用累計(jì)距離統(tǒng)計(jì)指標(biāo)度量樣本間的相似度,能夠有效降低多中心的影響,提高過程故障檢測率。此外,處理多中心問題的方法還有局部離群因子(Local Outlier Factor, LOF)方法。馬賀賀等[13]提出基于局部鄰域密度的馬氏距離局部離群因子的故障檢測方法。劉幫莉等[14]提出基于局部密度估計(jì)的多工況故障檢測方法。局部離群因子是一種對樣本基于局部密度的離群程度的度量。故障樣本相對于正常樣本集是離群點(diǎn),所以局部離群因子可以用來區(qū)分故障樣本和正常樣本,從而可以實(shí)現(xiàn)故障檢測。但是當(dāng)各工況分布結(jié)構(gòu)差異明顯時(shí),FD-kNN和LOF的檢測性能明顯降低。
針對多工況數(shù)據(jù)中各個(gè)工況分布結(jié)構(gòu)差異明顯的困難,Ma等[18]提出基于局部近鄰標(biāo)準(zhǔn)化(Local Neighborhood Standardization, LNS)的局部離群因子故障檢測方法,并應(yīng)用于TE(Tennessee Eastman)過程中。Ma等[19]提出基于局部近鄰標(biāo)準(zhǔn)化策略的故障檢測方法,也應(yīng)用于TE過程中。局部近鄰標(biāo)準(zhǔn)化能夠?qū)⒐r結(jié)構(gòu)差異明顯的多工況數(shù)據(jù)融合為單一工況數(shù)據(jù)。
此外,很多工業(yè)過程數(shù)據(jù)為矩陣形式且批次不等長,無法直接進(jìn)行故障檢測,在檢測之前需將矩陣數(shù)據(jù)轉(zhuǎn)化成向量形式,文獻(xiàn)[11]中對半導(dǎo)體生產(chǎn)數(shù)據(jù)按時(shí)間方向展開為向量形式,針對批次不等長的特征,只截取了一部分?jǐn)?shù)據(jù)。Wang等[11,15]提出統(tǒng)計(jì)模量分析(Statistics Pattern Analysis, SPA)的數(shù)據(jù)處理方法,用數(shù)據(jù)變量的統(tǒng)計(jì)模量來代替原始數(shù)據(jù)。張成等[12]將統(tǒng)計(jì)模量分析方法應(yīng)用于間歇過程中。建立在統(tǒng)計(jì)模量分析基礎(chǔ)上的故障檢測方法能夠提取過程數(shù)據(jù)的主要信息,將矩陣形式樣本轉(zhuǎn)化為向量形式樣本,同時(shí)克服批次不等長的影響,提高故障檢測效率。
針對多工況過程數(shù)據(jù)的上述特征,本文提出一種在數(shù)據(jù)的統(tǒng)計(jì)模量基礎(chǔ)上使用局部近鄰標(biāo)準(zhǔn)化和局部離群因子的故障檢測方法——SP-LNS-LOF。首先計(jì)算每一個(gè)樣本的統(tǒng)計(jì)模量,其次使用局部近鄰集標(biāo)準(zhǔn)化統(tǒng)計(jì)模量,最后計(jì)算標(biāo)準(zhǔn)樣本的局部離群因子,當(dāng)在線樣本的局部離群因子大于由訓(xùn)練集的局部離群因子所確定的控制限時(shí),判定當(dāng)前樣本為故障;否則為正常。
工業(yè)過程數(shù)據(jù)通常是三維矩陣形式X(I×J×K),如半導(dǎo)體蝕刻過程數(shù)據(jù),I為間歇操作次數(shù),J為過程變量個(gè)數(shù),K為采樣時(shí)刻數(shù)。由于每一批次數(shù)據(jù)都是矩陣形式,在檢測之前需要預(yù)處理為向量形式,經(jīng)典預(yù)處理方法是多向方法。記第i個(gè)批次的數(shù)據(jù)為xi,xi為圖1(a)中的一層數(shù)據(jù)。
(1)
多向方法將矩陣樣本xi按時(shí)間方向展開為向量:
使用多向方法展開后變量數(shù)變?yōu)镴K,當(dāng)采樣時(shí)刻較多時(shí),JK會非常大,給后續(xù)故障檢測方法帶來負(fù)擔(dān);并且多向方法只能處理等長數(shù)據(jù)(采樣時(shí)刻數(shù)K相等),對不等長數(shù)據(jù)需從中截取等長數(shù)據(jù)再進(jìn)行檢測。
統(tǒng)計(jì)模量分析通過計(jì)算樣本變量的各階統(tǒng)計(jì)模量來代替樣本本身。常用的統(tǒng)計(jì)量有變量均值μij、方差σij、偏度γij、峰度κij等。
均值和方差表征了變量的中心和分散程度,偏度和峰度表征了變量分布的偏斜程度和陡峭程度。對于樣本xi計(jì)算其各階統(tǒng)計(jì)模量組成統(tǒng)計(jì)模量向量:
si=[μi1,μi2,…,μim,σi1,σi2,…,σim,γi1,γi2,…,
γim,κi1,κi12,…,κim]
(2)
使用si替換樣本xi進(jìn)行故障檢測。統(tǒng)計(jì)模量si提取了數(shù)據(jù)的主要信息,降低了數(shù)據(jù)維度,同時(shí)克服了批次不等長的困難,能夠?yàn)楹笃诘墓收蠙z測提供良好的數(shù)據(jù)基礎(chǔ)。
圖1給出使用SPA進(jìn)行故障檢測的兩個(gè)基本步驟:
Step1 通過計(jì)算各批次變量的統(tǒng)計(jì)模量提取批次過程的分布特征,將矩陣形式樣本轉(zhuǎn)化為向量形式,如圖1(a)、(b)。
Step2 使用故障檢測方法計(jì)算正常批次統(tǒng)計(jì)模量樣本的檢測指標(biāo),確定控制限,進(jìn)行故障檢測,如圖1(c)。
圖1 SPA故障檢測
因?yàn)閿?shù)據(jù)變量的量綱通常不相同,在進(jìn)行故障檢測之前數(shù)據(jù)需標(biāo)準(zhǔn)化。經(jīng)典的標(biāo)準(zhǔn)化方法是zscore方法。使用zscore方法處理多工況數(shù)據(jù),只能消除變量的量綱,不能消除數(shù)據(jù)的多工況特征。另一種標(biāo)準(zhǔn)化方法是局部近鄰標(biāo)準(zhǔn)化。
(3)
(4)
(5)
圖2 局部近鄰標(biāo)準(zhǔn)化
下面使用例子說明LNS的作用,正常樣本集由含兩個(gè)變量的兩個(gè)工況數(shù)據(jù)組成:工況1的兩個(gè)變量都服從均值為0、標(biāo)準(zhǔn)差為0.05的高斯分布;工況2的兩個(gè)變量都服從均值為3、標(biāo)準(zhǔn)差為1的高斯分布,共有80個(gè)樣本,設(shè)定故障點(diǎn)fault(0.3,0.3)。如圖2(a)所示,原始正常數(shù)據(jù)明顯分為兩個(gè)工況,且兩個(gè)工況的數(shù)據(jù)離散程度差異明顯。使用LNS方法對圖2中數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,近鄰參數(shù)K為10,得到的結(jié)果如圖2(b),兩個(gè)變量的概率密度見圖2(c)~(d)。此時(shí)LNS方法能夠?qū)蓚€(gè)工況數(shù)據(jù)聚合為工況分散程度近似相同的單一工況,且故障點(diǎn)偏離正常數(shù)據(jù)集。
Breunig等[20]提出一種基于局部離群因子(LOF)的離群點(diǎn)檢測方法,LOF方法使用局部離群因子度量樣本點(diǎn)的離群程度。
(6)
3)樣本xi的局部可達(dá)密度:
(7)
表示xi的第k鄰域集Nk(xi)內(nèi)樣本到xi的平均可達(dá)距離的倒數(shù)。
4)樣本xi的局部離群因子:
(8)
表示xi的鄰域集Nk(xi)中樣本的局部可達(dá)密度與xi的局部可達(dá)密度之比的平均數(shù)。
LOF方法使用樣本所在局部鄰域集的樣本相對密度來度量樣本的離群程度。正常樣本周圍的正常樣本較多,因此密度較大,則其局部離群因子較小;而故障樣本離正常樣本較遠(yuǎn),因此其周圍正常樣本密度較小,則其局部離群因子較大。
圖3 SP-LNS-LOF算法流程
1)根據(jù)式(2)計(jì)算訓(xùn)練樣本集中每個(gè)樣本xi的各階統(tǒng)計(jì)模量,組成統(tǒng)計(jì)模量向量si,得到新訓(xùn)練集S。
1)根據(jù)式(2)計(jì)算新樣本x的各階統(tǒng)計(jì)模量,組成統(tǒng)計(jì)模量向量s。
3)根據(jù)式(8)計(jì)算x的局部離群因子LOFx。
4)若LOFx>LOFα,則判定樣本x為故障樣本;否則為正常樣本。
統(tǒng)計(jì)模量向量si提取了數(shù)據(jù)的主要信息,將每一個(gè)矩陣形式數(shù)據(jù)轉(zhuǎn)化為向量形式,簡化了數(shù)據(jù)量,并且克服了數(shù)據(jù)批次不等長的困難;局部近鄰標(biāo)準(zhǔn)化將工況方差不同的多工況數(shù)據(jù)融合為單一工況;局部離群因子度量了樣本間的相似程度,表征了故障樣本和正常樣本的差異。
圖4 半導(dǎo)體數(shù)據(jù)圖
數(shù)據(jù)采自半導(dǎo)體生產(chǎn)中鋁蝕刻工藝過程[21-22],共有來自三組實(shí)驗(yàn)的129個(gè)批次晶片數(shù)據(jù):108個(gè)正常晶片數(shù)據(jù),其中第56個(gè)批次數(shù)據(jù)部分缺失;21個(gè)故障晶片數(shù)據(jù),其中第12個(gè)批次缺失。按文獻(xiàn)[21]選取19個(gè)檢測變量,見表1。故障樣本是在表2所列變量上人為增加或減少相應(yīng)幅度值進(jìn)行實(shí)際實(shí)驗(yàn)得到的,詳細(xì)描述見文獻(xiàn)[21]。半導(dǎo)體數(shù)據(jù)被廣泛應(yīng)用于檢驗(yàn)故障檢測算法的性能,如文獻(xiàn)[11-12,16-17]。
圖4(a)為所有正常樣本的端點(diǎn)A檢測圖像,可看出正常樣本分為三個(gè)工況且批次長度不同。圖4(b)為所有正常樣本的統(tǒng)計(jì)模量向量的兩個(gè)變量μ11、σ12的圖像,數(shù)據(jù)仍然分為三個(gè)工況,其中第56個(gè)批次樣本缺失部分?jǐn)?shù)據(jù)。圖4(c)為變量μ17、σ12的圖像,工況1比較稀疏,工況2、3比較密集,即各工況疏密程度不同。
表1 過程變量
表2 故障類型
本文采用對每一批次的矩陣數(shù)據(jù)計(jì)算變量均值和方差的方法組成統(tǒng)計(jì)模量向量。
在正常樣本中隨機(jī)選擇第12、23、40、45、48、60、 96、104批次作為校驗(yàn)數(shù)據(jù),其余為訓(xùn)練數(shù)據(jù),使用SP-LNS-LOF方法與PCA、核主元分析(kernel PCA, kPCA)、FD-kNN、LOF方法對21個(gè)故障過程數(shù)據(jù)進(jìn)行故障檢測和對比分析。仿真實(shí)驗(yàn)過程中所有方法的置信度α=97%。仿真實(shí)驗(yàn)結(jié)果見圖5和表3。
PCA按95%的累計(jì)貢獻(xiàn)率取主元個(gè)數(shù)為20,檢測結(jié)果見圖5(a)~(b),T2有10個(gè)故障未檢出,平方預(yù)報(bào)誤差(Squared Prediction Error, SPE)檢出全部21個(gè)故障但有3個(gè)正常樣本的誤報(bào)。多工況樣本集不滿足PCA中統(tǒng)計(jì)量T2和SPE對數(shù)據(jù)的多元高斯分布的假設(shè)。kPCA中采用高斯徑向核函數(shù),其中的核參數(shù)取為1 000,仍按95%累計(jì)貢獻(xiàn)率取核主元個(gè)數(shù)為23,檢測結(jié)果見圖5(c)~(d),kPCA的T2有11個(gè)故障未檢出,SPE有1個(gè)故障未能檢測出,且有3個(gè)正常樣本的誤報(bào),這仍然是數(shù)據(jù)的多工況特征造成的。kNN方法近鄰數(shù)k=4,檢測結(jié)果見圖5(e),有7個(gè)故障未能檢測出,未能檢測出的原因在于各工況中樣本的疏密程度不同,見圖4(c)。SP-zscore-LOF方法中近鄰參數(shù)K=10,檢測結(jié)果見圖5(f),有6個(gè)故障未能檢測出,原因仍為各工況疏密程度不同。
表3 故障檢測結(jié)果
圖5 故障檢測結(jié)果
SP-LNS-LOF方法中參數(shù)K=10,k=4,檢測結(jié)果見圖5(g),檢測出全部21個(gè)故障且誤報(bào)為0。LNS處理能夠使各個(gè)工況疏密程度近似相等,使LOF能夠在同一尺度上計(jì)算相對密度,從而實(shí)現(xiàn)故障樣本和正常樣本的分離。
本文針對多工況過程數(shù)據(jù)特征,提出了基于統(tǒng)計(jì)模量的局部近鄰標(biāo)準(zhǔn)化局部離群因子故障檢測方法。通過在統(tǒng)計(jì)模量樣本集上聯(lián)合使用局部近鄰標(biāo)準(zhǔn)化和局部離群因子克服過程數(shù)據(jù)批次不等長、工況中心漂移和工況結(jié)構(gòu)差異明顯的困難,提高多工況過程的故障檢測率。對半導(dǎo)體蝕刻過程數(shù)據(jù)的故障檢測實(shí)驗(yàn),驗(yàn)證了方法的有效性。
參考文獻(xiàn)(References)
[1] GE Z, SONG Z. Semiconductor manufacturing process monitoring based on adaptive substatistical PCA[J]. IEEE Transactions on Semiconductor Manufacturing, 2010, 23(1): 99-108.
[2] CHERRY G A, QIN S J. Multiblock principal component analysis based on a combined index for semiconductor fault detection and diagnosis[J]. IEEE Transactions on Semiconductor Manufacturing, 2006, 19(2): 159-172.
[3] GE Z, YANG C, SONG Z. Improved kernel PCA-based monitoring approach for nonlinear processes[J]. Chemical Engineering Science, 2009, 64(9): 2245-2255.
[4] ZHANG C, LI Y. Study on the fault-detection method in batch process based on statistical pattern analysis[J]. Chinese Journal of Scientific Instrument, 2013, 34(9): 2103-2110.
[5] SANG W C, LEE C, LEE J M, et al. Fault detection and identification of nonlinear processes based on kernel PCA[J]. Chemometrics & Intelligent Laboratory Systems, 2005, 75(1): 55-67.
[6] ZHANG Y, HU Z. Multivariate process monitoring and analysis based on multi-scale KPLS[J]. Chemical Engineering Research & Design, 2011, 89(12): 2667-2678.
[7] GE Z, SONG Z. Mixture Bayesian regularization method of PPCA for multimode process monitoring[J]. AIChE Journal, 2010, 56(11): 2838-2849.
[8] ZHAO C, YAO Y, GAO F, et al. Statistical analysis and online monitoring for multimode processes with between-mode transitions[J]. Chemical Engineering Science, 2010, 65(22): 5961-5975.
[9] YU J, QIN S J. Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models[J]. AIChE Journal, 2008, 54(7): 1811-1829.
[10] YU J, QIN S J. Multiway Gaussian mixture model based multiphase batch process monitoring[J]. Industrial & Engineering Chemistry Research, 2009, 48(18): 8585-8594.
[11] WANG J, HE Q P. Multivariate statistical process monitoring based on statistics pattern analysis[J]. Industrial & Engineering Chemistry Research, 2010, 49(17): 7858-7869.
[12] 張成,李元. 基于統(tǒng)計(jì)模量分析間歇過程故障檢測方法研究[J]. 儀器儀表學(xué)報(bào), 2013, 34(9): 2103-2110.(ZHANG C, LI Y. Study on the fault-detection method in batch process based on statistical pattern analysis [J]. Chinese Journal of Scientific Instrument, 2013, 34(9): 2103-2110.)
[13] 馬賀賀, 胡益, 侍洪波. 基于馬氏距離局部離群因子方法的復(fù)雜化工過程故障檢測[J]. 化工學(xué)報(bào), 2013, 64(5): 1674-1682.(MA H H, HU Y, SHI H B. Fault detection of complex chemical processes using Mahalanobis distance-based local outlier factor[J]. CIESC Journal, 2013, 64(5): 1674-1682.)
[14] 劉幫莉, 馬玉鑫, 侍洪波. 基于局部密度估計(jì)的多模態(tài)過程故障檢測[J]. 化工學(xué)報(bào), 2014, 65(8): 3071-3081.(LIU B L, MA Y X, SHI H B. Multimode process monitoring based on local density estimation[J]. CIESC Journal, 2014, 65(8): 3071-3081.)
[15] HE Q P, WANG J. Statistics pattern analysis: a new process monitoring framework and its application to semiconductor batch processes[J]. AIChE Journal, 2015, 57(1): 107-121.
[16] 張成, 李秀玉, 逄玉俊, 等. 基于GMM的馬氏距離kNN故障檢測方法[J]. 測控技術(shù), 2014, 33(9): 13-17.(ZHANG C, LI X Y, PANG Y J, et al. Mahalanobis distance kNN fault detection method based on Gaussian mixture model[J]. Messurement & Control Technology, 2014, 33(9): 13-17.)
[17] HE Q P, WANG J. Fault detection using thek-nearest neighbor rule for semiconductor manufacturing processes[J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(4): 345-354.
[18] MA H, HU Y, SHI H B. Fault detection and identification based on the neighborhood standardized local outlier factor method[J]. Industrial & Engineering Chemistry Research, 2013, 52(6): 2389-2402.
[19] MA H, HU Y, SHI H B. A novel local neighborhood standardization strategy and its application in fault detection of multimode processes[J]. Chemometrics & Intelligent Laboratory Systems, 2012, 118(7): 287-300.
[20] BREUNIG M M, KRIEGEL H P, NG R T, et al. LOF: identifying density-based local outliers[C]// SIGMOD 2000: Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2000: 93-104.
[21] WISE B M, GALLAGHER N B, BUTLER S W, et al. A comparison of principal component analysis, multiway principal component analysis, trilinear decomposition and parallel factor analysis for fault detection in a semiconductor etch process[J]. Journal of Chemomotrics, 1999. 13(3): 379-396.
[22] Eigenvector research incorporated. Metal etch data for fault detection evaluation [EB/OL]. [2017- 05- 10]. http: //software.eigenvector.com/Data/Etch/index.html.
This work is partially supported by the National Natural Science Foundation of China (61673279), the Project of Education Department in Liaoning (L2015432), the Natural Science Foundation of Liaoning Province (2015020164).