賈蓓蓓
(燕山大學 理學院,河北 秦皇島 066004)
隨著科學技術的進步,勞動生產(chǎn)力日益提升,商品市場處于供求平衡或是需求較小的市場飽和狀態(tài),質(zhì)量成為贏得市場的關鍵因素。質(zhì)量管理貫穿產(chǎn)品生產(chǎn)的整個環(huán)節(jié),從設計、生產(chǎn)到銷售,每一個環(huán)節(jié)的產(chǎn)品質(zhì)量管理都不可或缺,對產(chǎn)品生產(chǎn)的全過程進行監(jiān)控管理就顯得尤為重要[1]。統(tǒng)計過程控制(Statistical Process Control,SPC)便是用來監(jiān)控這些波動,保證波動處于穩(wěn)定狀態(tài)或是在可以控制的范圍內(nèi)的一種方法[2]。
控制圖是SPC技術進行產(chǎn)品質(zhì)量監(jiān)控的主要工具。20世紀40年代,Hotelling提出了控制圖,用于解決多元統(tǒng)計過程問題。該控制圖通過當前觀測點,對多變量進行監(jiān)控,由于僅利用了當前信息,歷史數(shù)據(jù)價值損失巨大,對波動較小的過程監(jiān)控極為困難。針對此缺陷,多元累積和控制圖(MCUSUM)與多元指數(shù)加權移動平均控制圖(MEWMA)應運而生[3]。這些控制圖以監(jiān)控數(shù)據(jù)服從多元獨立正態(tài)分布為基本假設,但是在生產(chǎn)過程實際應用中,通常無法判定數(shù)據(jù)所服從的分布類型,并且很難做到變量間相互獨立,使得控制圖監(jiān)控不準確,造成一定的局限性。
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘、機器學習技術飛速發(fā)展,機器學習算法被更多人接受并應用于各大領域[4]。因此,開始將機器學習的方法與控制圖理論相結合,用來解決控制圖由于統(tǒng)計原理不完善、數(shù)據(jù)分布不確定、參數(shù)多元帶來的限制問題[5]。支持向量數(shù)據(jù)描述(SVDD)是基于統(tǒng)計學理論的新興機器學習方法,適用于高維度、小樣本、對樣本分布要求不高的數(shù)據(jù),剛好彌補了控制圖缺陷,應用價值極高。因此,將SVDD模型引進MEWMA控制圖,具有極高的研究價值。
MEWMA控制圖不僅利用了當前信息與歷史信息,而且將時間序列應用于控制圖模型中,對統(tǒng)計過程中的小偏移波動反應敏感,具有良好的監(jiān)控性能。
假設觀測值 X=[x1,x2,x3,…,xp]′服從均值向量為u0,協(xié)方差矩陣為∑的p元正態(tài)分布N(u0,∑)。定義一個統(tǒng)計量:
其中,Zi為第i個樣本觀測值與之前i-1個樣本觀測值的加權值,Zi的初始值為Z0。R代表各質(zhì)量特征值的權重,R=diag(r1,r2,…,rp),0≤rj≤1,j=1,2,…,p。I為p階單位矩陣。根據(jù)統(tǒng)計量Zi,MEWMA控制圖的統(tǒng)計量為:
其中,∑Zi是統(tǒng)計量Zi的協(xié)方差矩陣,如果權重相同,協(xié)方差矩陣可簡化為:
對于MEWMA控制圖的控制限,通常通過平均運行鏈長(ARL)計算獲得,當權重系數(shù)取不同的值,控制限的取值也不同。當控制圖統(tǒng)計量超過控制限范圍,控制圖報警。
支持向量數(shù)據(jù)描述(SVDD)理論是通過將特定的訓練集映射到高維空間獲得超球體,并使超球體盡可能多的將同類數(shù)據(jù)包含其中,將不同類數(shù)據(jù)排除在外的分類方法[6]。因此,該方法也避免了無法獲取異常樣本的問題,減少了過擬合。
比如,有N個訓練集,給定訓練集T={xi∈Rd,i=1,…,N},其中xi是一個d維向量。支持向量數(shù)據(jù)描述的目的就是企圖用一個球心為α,半徑為R,R>0的超球體盡可能多地將目標數(shù)據(jù)集包含其中。若要滿足球體最小,可以通過最小化獲得最優(yōu)解,公式表示為:
其中,ξi代表松弛變量,C為懲罰因子。
在最小化問題中,所有的目標數(shù)據(jù)需要包含在超球體中,即每個目標數(shù)據(jù)到超球體球心的距離小于超球體半徑,條件公式表示為:
對于以上求解最優(yōu)化,一般引進拉格朗日乘子進行計算,有公式:
αi,γi≥0為拉格朗日因子。拉格朗日函數(shù)對各參數(shù)求導,使求導結果為0。
圖1 支持向量數(shù)據(jù)描述的數(shù)據(jù)描述過程
將以上求解結果帶入拉格朗日方程并轉(zhuǎn)化為對偶問題,有:
針對以上對偶問題進行求解,假設α*為最優(yōu)解集,α*不為0時對應點Xi的就為分類器邊界的支持向量。設R2為超球體半徑,定義為支持向量到球心的距離,公式為:
當存在一個點c,判斷c點是否數(shù)據(jù)目標集,就看c點到超球體球心的距離是否在半徑內(nèi),如果在就屬于目標集,不在便可歸類于異常數(shù)據(jù)。點c到球心的距離表示為:
當數(shù)據(jù)點到球心的距離小于等于半徑時,認為該數(shù)據(jù)點屬于目標集,否則認為是異常點。
實際操作中,數(shù)據(jù)并非如此理想化,有些數(shù)據(jù)并不是線性可分的,為了提高支持向量數(shù)據(jù)描述的泛化能力,提高靈活性,引入核函數(shù)這一概念。當原始數(shù)據(jù)集不線性可分時,那么通過核函數(shù)將線性不可分的數(shù)據(jù)集映射到高維空間,轉(zhuǎn)化為高維空間線性可分的問題。研究證明,函數(shù)只要滿足Mercer定理,該函數(shù)便可作為核函數(shù)。用核函數(shù)代替內(nèi)積,問題轉(zhuǎn)變?yōu)椋?/p>
相應的,超球體半徑和數(shù)據(jù)c到球心的距離分別轉(zhuǎn)變?yōu)椋?/p>
產(chǎn)品生產(chǎn)過程受控狀態(tài)下,有一組觀測值為Y(y1,y2,…,ym),作為訓練數(shù)據(jù),用支持向量數(shù)據(jù)描述算法對訓練樣本進行學習,得到一個球心為a,半徑為R2的超球體。一組新的觀察值 X(x1,x2,…,xn),數(shù)據(jù)到超球體球心距離為,基于支持向量數(shù)據(jù)描述的MEWMA控制圖設計如下:
其中,Xk為第k個觀測值,初始值為Z0,權重為λ,0≤λ≤1??刂葡逓閔,當產(chǎn)品生產(chǎn)過程受控時,平均運行鏈長(ARL)決定了控制限h的值。當基于支持向量數(shù)據(jù)描述的MEWMA控制圖統(tǒng)計量Zk>h時,控制圖報警。
本文將通過仿真實驗,將S-MEWMA控制圖MEWMA控制圖進行對比,驗證S-MEWMA控制圖在多元非獨立情況下的性能。利用平均運行鏈長作為控制圖的評價標準,當控制圖在控平均運行鏈長ARL0一定時,監(jiān)控過程發(fā)生不同程度的偏移,對比失控平均運行鏈長ARL1,具有較小ARL1的控制圖性能較好。
表1 S-MEWMA控制圖與MEWMA控制圖控制限h
S-MEWMA控制圖與MEWMA控制圖在不同偏移量下的ARL1結果見表2:
表2 S-MEWMA控制圖與MEWMA控制圖ARL1
通過萬次仿真實驗得出的實驗結果可知,當φ<2時,S-MEWMA控制圖三維正態(tài)分布下的ARL1要低于二維正態(tài)分布的ARL1;當φ>2.5時,三維S-MEWMA控制圖與二維S-MEWMA性能基本相同。說明發(fā)生偏移越小時,支持向量數(shù)據(jù)描述對更高維控制圖的作用越明顯,優(yōu)越性越顯著;當偏移程度增大時,支持向量數(shù)據(jù)描述對更高維控制圖優(yōu)勢減弱。但是對于MEWMA控制圖,二維控制圖ARL1稍微低于三維控制圖ARL1,性能相差不大。無論是二維或是三維,相同維度下,S-MEWMA控制圖ARL1明顯低于MEWMA控制圖ARL1,S-MEWMA控制圖性能優(yōu)于MEWMA控制圖,也驗證了支持向量數(shù)據(jù)描述算法比控制圖的優(yōu)勢大。
基于二維正態(tài)分布,通過構造不同的相關系數(shù),驗證基于支持向量數(shù)據(jù)描述算法的MEWMA控制圖的性能。二維正態(tài)分布中,S-MEWMA控制圖與MEWMA控制圖的ARL0仍然設為200,參數(shù)f、s值仍然為0.025、1.5,控制圖控制限h,失控狀態(tài)下平均運行鏈長ARL1同上節(jié)。
表3 S-MEWMA與MEWMA控制圖的控制限
S-MEWMA控制圖與MEWMA控制圖在不同偏移量、不同、不同的結果見表4:
表4 二維正態(tài)分布下不同相關系數(shù)ARL1值
實驗結果表明,對于S-MEWMA控制圖,變量間相關系數(shù)的變化并不會對ARL1產(chǎn)生較大的影響,但是對MEWMA控制圖來講,當變量間相關系數(shù)逐漸增大時,控制圖性能不穩(wěn)定性增加,因此,當數(shù)據(jù)變量間非獨立時,S-MEWMA控制圖表現(xiàn)出了更好的性能。
本文通過仿真模擬方法,將S-MEWMA控制圖和MEWMA控制圖進行對比,探究S-MEWMA控制圖在服從非獨立二維正態(tài)分布及三維正態(tài)分布的情況下的性能。利用平均運行鏈長作為控制圖的評價標準,當控制圖在控平均運行鏈長一定時,監(jiān)控過程發(fā)生不同程度的偏移,對比失控平均運行鏈長,具有較小鏈長的控制圖性能較好。實驗結果表明,S-MEWMA控制圖在數(shù)據(jù)服從非獨立二維正態(tài)分布及三維正態(tài)分布的情況下,相較MEWMA控制圖具有更好的性能。