韓志艷,王 健
(渤海大學工學院,遼寧錦州 121000)
基于加權合成少數類過采樣技術的故障診斷
韓志艷,王 健
(渤海大學工學院,遼寧錦州 121000)
合成少數類過采樣技術(Synthetic Minority Oversampling Technique,SMOTE)是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數據。為了改善SMOTE的性能,提出了加權合成少數類過采樣技術(Weighted Synthetic Minority Oversampling Technique,WSMOTE)。WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價值,然后根據采樣價值的不同加權合成樣本。WSMOTE在處理類別不平衡數據時具有優(yōu)異的性能,并在半導體制造過程的監(jiān)控數據仿真中得到了驗證。
故障診斷;類別不平衡;SMOTE;過采樣技術
近年來,半導體制造工業(yè)一直保持較高的增長速度。半導體制造是一個非常復雜的生產過程,由數百個步驟構成,其中晶元制造是其最關鍵的一步。晶元制造工藝包括一系列步驟,以在晶元表面覆蓋特殊的材料層。在這個復雜的過程中,一些很小的缺陷就可以使最終的產品測試失敗。因此,為了滿足半導體工藝的質量要求,故障診斷與分類研究成為當前的熱點問題[1]。
如今,隨著數據收集和采集技術被廣泛應用于半導體制造過程中,如何使用大量的已收集到的數據來有效地描述生產過程,極大地促進了基于數據驅動的故障診斷方法的研究工作。最近一些基于模式識別的故障診斷方法被提出以解決半導體制造過程中出現的非線性和多批次軌跡問題。例如,He等[2]提出在半導體工業(yè)的故障檢測中使用k-最近鄰(KNN)規(guī)則來完成故障分類。Verdier等[3]同樣應用了KNN規(guī)則,但他們提出的方法使用自適應馬氏距離來代替?zhèn)鹘y(tǒng)的歐幾里得距離。然而,在半導體故障診斷過程中的數據類別不平衡特性,給這些方法的應用帶來了困難,由于與正常工況的數據相比,故障工況的數據常常難以獲取,所以工業(yè)現場中收集的監(jiān)測數據常常具有嚴重的類別不平衡特性。在這種情況下,傳統(tǒng)的分類器傾向于將數據歸類于多數類(正常工況),以得到更高的總體準確率而忽視了少數類(故障工況)的準確率。然而,在故障診斷中,最重視的往往是少數類(故障工況)的分類準確率。在解決這一問題的方法中,重采樣技術最為常用,特別是合成少數類過采樣技術(SMOTE)引起了研究者的廣泛關注[4]。Chawla的實驗研究表明,SMOTE能夠比其他采樣方法取得更好的效果[5]。該文在SMOTE的基礎上,提出了一種加權合成少數類過采樣技術(Weighted Synthetic Minority Oversampling Technic,WSMOTE),通過有選擇的過采樣少數類樣本來平衡兩類樣本在數量上的差距。
合成少數類過采樣技術(the Synthetic Minority Oversampling Technique,SMOTE)是一種主要的過采樣技術,主要用來解決在分類問題中出現的樣本分布不均衡。該算法的思想是合成新的少數類樣本,以獲得均衡的樣本分布。合成策略是對每個少數類樣本x,搜索k個少數類最近鄰樣本;若向上采樣的倍率為n,則在其k個最近鄰樣本中隨機選擇n個樣本,記為y1,y2,…,yn;在少數類樣本x與yj(j=1,2,…,n)之間隨機線性插值,構造新的少數類樣本pj。
其中,rand(0,1)表示(0,1)內的一個隨機數。
圖1是一個SMOTE算法的范例。
如圖所示:xi為某一個少數類樣本,xi1,xi2,xi3,xi4分別為xi的四個近鄰,r1,r2,r3,r4為生成的四個新的人造數據。
SMOTE是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數據。為了改善SMOTE的性能,文中提出了加權合成少數類過采樣技術(WSMOTE)。
由于基于流形假設的局部拓撲結構既受到類間的不平衡的影響又受到類內不平衡的干擾,因此WSMOTE算法分別從類內和類間兩個層面研究樣本的分布和潛在的噪聲影響。在本節(jié)中,類間不平衡是指樣本的多數類的數目不同于少數類的數目的情況;類內不平衡是指同一類樣本是由許多不同的子群組成,而這些子群的重要性是不同的。
同SMOTE相似,WSMOTE通過產生合成樣本解決類間不平衡問題。在處理類內不平衡時,WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群再加權合成樣本來解決。
如圖2所示,點q和r分別是近鄰的類間樣本xq和xr,N(xq)和N(xr)是它們各自的近鄰,其對應的鄰域并寫作 N(xq,xr),其中 N(xq,xr)=N(xq)∪N(xr)。顯然,xq和 xr的關系處于 N(xq,xr)的約束下。當xq和xr是類內近鄰樣本,鄰域并也可以用同樣的方式定義。
在鄰域并中,從局部類別分布上看,由于N(xq,xr)對xq和xr間關系的約束能分解為N(xq)和N(xr) 對xq和xr各自的約束。如果Nw(xr)≠?且Nb(xr)≠?,其中?是空集,Nw(xr)和Nb(xr)分別表示xr的類內鄰域和類間鄰域,可以令xr是一個邊界樣本。如果樣本xr的近鄰都位于Nb(xr)里,即Nw(xr)≠?,這樣的樣本可以假定是孤立樣本。如果一個樣本被同類近鄰包圍,即Nb(xr)≠?,令xr是內部樣本。因此,根據局部類別分布與樣本所屬類別的數據量大小,樣本可劃分到六個不同子集中:
ANy:由大類和中等類的孤立樣本所組成的噪聲樣本集;
ALmg:大類和中等類的邊界樣本集; ALin:大類和中等類的內部樣本集; ASiso:小類的孤立樣本集; ASmg:小類的邊界樣本集; ASin:小類的內部樣本集。
在樣本集中,每個樣本僅僅屬于一個集合,這六個子集的并集構成了整個樣本集。圖2給出了特征空間的一個場景示例,其中方塊、圓塊和三角形分別代表大類、中等類和小類的樣本。樣本xq和xr分別受N(xq) 和N(xr)約束,xq和xr之間的關系受N(xq,xr)約束。根據樣本子集的定義,樣本可以如下歸類:ASin={a},ASmg=,ASiso={c},ALin={ALin1∪ALin2∪ALin3∪…},ALmg={ALmg1∪ALmg2∪ALmg3∪…},并且ANy={d,e}。
不同的局部分布類型對具有不同的采樣價值。內部樣本代表了一個特定類別的典型屬性,所以可以看作標準樣本。和內部樣本不同,邊界樣本在特征空間中離類間樣本很近,因此有更高的誤分可能性。因為孤立樣本與異類樣本更相似,所以有最高的誤分可能性。因此,WSMOTE根據不同的策略選擇生成合成樣本。具體規(guī)則如下:算法隨機地從ASin集合中選擇樣本的k近鄰產生合成樣本,從ASmg集合中選擇樣本最近鄰產生合成樣本,對ASiso集合不合成任何樣本,移除ANy集合中的樣本。
文中使用SECOM數據集驗證WSMOTE算法的有效性。首先介紹了不平衡數據分類性能的評估方法。然后,簡要介紹了SECOM數據集。最后,分析了在SECOM數據集中獲得的仿真結果。
3.1 不平衡數據分類性能評估方法
在故障診斷實踐中,由于正常工況數據容易獲得,而故障工況數據難以獲得,導致訓練數據廣泛存在類不平衡情形[6-8]。當處理類分布不平衡數據時,由于多數類占優(yōu)勢,分類邊界偏置于優(yōu)勢數據,經典分類算法面臨對少數類預測能力下降的問題,從而影響整體預測性能。
表1所示的混淆矩陣表達了樣例分類的分布情況?;煜仃囀怯嬎闳舾煞诸惼餍阅芏攘康幕A。
對于兩類問題,通常稱少數類為正類,稱多數類為負類,正確率Acc和錯誤率Err為:
正確率Acc和錯誤率Err是常用的分類器性能度量,但是,這兩個度量對類不平衡敏感,過于偏置多數類。在處理不平衡數據時,使用Acc或Err將會導致性能比較的錯誤結果[9]。
以下度量由混淆矩陣派生,也是其他度量的基礎:
真正率:
真負率:
假正率:
假負率:
顯然,分類器想要在兩個類別中均取得良好的分類性能,單靠其中某一個性能指標是不能勝任的,需要把其中某些指標結合起來,形成一種新的評價基準。
3.2 SECOM數據集簡介
文中使用的SECOM數據集[10]是從真實的半導體制造生產線上獲取的相關數據。SECOM數據集包含2個文件,數據文件包含1 567個樣本,每個樣本包含591個特征,標簽文件包含每個樣本的分類標簽和采樣時間。如同多數采自工業(yè)現場的數據,數據集中很多特征對應著空值或常值,這一情況需要在數據預處理階段進行處理。
3.3 結果和分析
在數據預處理階段,由于SECOM數據集中的某些特征包含空白值或常值,共刪除了137個特征,這些特征符合80%的數據記錄丟失或為常值,在剩余的454個特征中,使用10倍交叉驗證技術驗證用于比較的各種模型算法。所以,首先把SECOM數據集分成訓練數據集和測試數據集,訓練數據集包含從原始數據集中隨機選擇的94個故障樣本和1 037個正常樣本,測試數據集包含250個樣本,其中,故障樣本104個,正常樣本146個。WSMOTE中的ASin取值為3。
為了比較SMOTE+PCA(SPCA),WSMOTE+PCA (WPCA),SMOTE+FDA(SFDA),WSMOTE+FDA(WFDA),SMOTE+MFA(SMFA),WSMOTE+MFA(WMFA)的性能,在SECOM數據集分別使用它們進行特征選擇,進行對比研究。其中,SPCA,SFDA和SMFA是首先使用SMOTE進行類別數據再平衡后再和主元分析(Principal Component Analysis,PCA)[11-13]、費舍爾判別分析(Fisher Discriminant Analysis,FDA)[14]、邊際費舍爾分析(Margin Fisher Analysis,MFA)[15]相結合產生的特征提取算法;WPCA,WFDA和WMFA是首先使用WSMOTE進行類別數據再平衡后再和PCA,FDA和MFA相結合產生的特征提取算法。圖3分別比較了六種算法的多種性能指標。
從圖3可以看出,在六種算法中,WFDA擁有最佳的分類性能,因為它能夠滿足對一個好的特征選擇算法的期望,即擁有高的TPR,TNR和Acc,擁有低的FPR和FNR。而且,所有使用了WSMOTE算法的特征選擇方法在故障樣本的識別性能上均優(yōu)于使用SMOTE算法的特征選擇方法。它表明,WSMOTE算法可以通過有選擇地增加故障樣本的數量,改進訓練數據集的樣本多樣性,從而改善特征選擇算法的性能。但是,有時使用WSMOTE算法的模型會降低多數類(正常樣本)的分類性能,這是由于想在兩個類別中同時獲得更優(yōu)的性能是一件困難的事情,因此在實施這一算法時應綜合考慮多方面因素。
在SMOTE的基礎上,提出WSMOTE算法用于解決故障診斷過程中因故障數據難以獲得而出現的數據類別不平衡問題。該算法分別從類內和類間兩個層面研究樣本的分布和潛在的噪聲影響。同SMOTE相似,WSMOTE通過產生合成樣本解決類間不平衡問題。在處理類內不平衡時,WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價值,然后根據采樣價值的不同加權合成樣本來解決。WSMOTE在處理類別不平衡數據時具有優(yōu)異的性能,并在半導體制造過程的監(jiān)控數據仿真中得到了驗證。
[1] Bleakie A,Djurdjanovic D.Feature extraction,condition monitoring,and fault modeling in semiconductor manufacturing systems[J].Computers in Industry,2013,64(3):203-213.
[2] He Q P,Wang J.Fault detection using the k-Nearest neighbor rule for semiconductor manufacturing processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4): 345-354.
[3] Verdier G,Ferreira A.Adaptive mahalanobis distance and knearest neighbor rule for fault detection in semiconductor manufacturing[J].IEEE Transactions on Semiconductor Manufacturing,2011,24(1):59-68.
[4] Chawla N V,Hall L O,Bowyer K W,et al.SMOTE:synthetic minority over sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[5] Chawla N V.C4.5 and imbalanced datasets:Investigating the effect of sampling method,probabilistic estimate,and decision tree structure[C]//Proceedings of the workshop on learning from imbalanced datasets.Washington D C:[s.n.],2003:17-23.
[6] Chawla N V.Data mining and knowledge discovery handbook [M].Berlin:Springer,2010:857-886.
[7] 王和勇,樊泓坤,姚正安.SMOTE和Biased-SVM相結合的不平衡數據分類方法[J].計算機科學,2008,35(5):174-176.
[8] Cebe M,Gunduz-Demir C.Qualitative test-cost sensitive classification[J].Pattern Recognition Letters,2010,31(13): 2043-2051.
[9] Elazrneh W,Japkowicz N,Matwin S.Evaluating misclassifications in imbalanced data[C]//Proc of the 17th European conference on machine learnin.Berlin:Springer,2006:126-137.
[10]McCann M,Li Y,Maguire L.Causality challenge:benchmarking relevant signal components for effective monitoring and process control[C]//Proc of JMLR.Canada:[s.n.],2008: 277-288.
[11]Wang T,Xu H,Han J,et al.Cascaded h-bridge multilevel inverter system fault diagnosis using a PCA and multiclass relevance vector machine approach[J].IEEE Transactions on Power Electronics,2015,30(12):7006-7018.
[12]Ding S,Zhang P,Ding E,et al.On the application of PCA technique to fault diagnosis[J].Tsinghua Science and Technology,2010,15(2):138-144.
[13]Wang N,Yuan Z H,Wang D.Improving process fault detection and diagnosis using robust PCA and robust FDA[C]//Proc of WRI world congress on computer science and information engineering.USA:IEEE,2009:54-59.
[14]Tang X C,Yuan L.Monitoring and fault diagnosis using fisher discrimnant analysis[C]//Proc of the international conference on machine learning and cybernetics.USA:IEEE,2007:1100-1105.
[15]Tsang I W,Kocsor A,Kwok J T Y.Large-scale maximum margin discriminant analysis using core vector machines[J].IEEE Transactions on Neural Networks,2008,19(4):610-624.
Fault Diagnosis Method Based on Weighted Synthetic Minority Oversampling Technique
HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)
The Synthetic Minority Oversampling Technique(SMOTE)is a famous oversampling method,whereas it doesn’t consider the distribution of samples and latent noises in the data.In order to improve the performance of SMOTE,a modified method,the Weighted Synthetic Minority Oversampling Technique(WSMOTE),is proposed.WSMOTE introduces the neighborhood union to classify the samples into several groups,and different groups have different importance.Then,WSMOTE generates synthetic sample according to the different importance.The proposed method has a better performance when dealing with class imbalance data and it is demonstrated through its application to the semiconductor wafer fabrication process.
fault diagnosis;class imbalance;SMOTE;oversampling technique
TP391.4
A
1673-629X(2016)09-0043-04
10.3969/j.issn.1673-629X.2016.09.010
2015-10-28< class="emphasis_bold">修回日期:20
2016-02-24< class="emphasis_bold">網絡出版時間:
時間:2016-08-23
國家自然科學基金資助項目(61403042,61503038);遼寧省教育科研計劃項目(L2013423)
韓志艷(1982-),女,博士,副教授,研究方向為情感識別、語音識別。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.042.html