鐘琦君
(天津大學管理與經(jīng)濟學部,天津 300072)
在現(xiàn)代制造業(yè)和服務業(yè)中,傳統(tǒng)控制圖無法有效處理高維度且分布未知的復雜數(shù)據(jù),人們經(jīng)常用多元控制圖同時監(jiān)控過程中的多種質(zhì)量特性。多元控制圖的基本任務就是監(jiān)控均值向量μ是否發(fā)生改變,即偏移;識別均值向量μ何時發(fā)生偏移;識別并隔離發(fā)生偏移的變量。通常此類問題會假設:
H0:x1,x2,…,xt~Nm(μ0,∑),
H1:x1,x2,…,xτ-1~Nm(μ0,∑),
xτ,…,xt~Nm(μ1,∑)。
在τ時刻均值向量發(fā)生偏移。傳統(tǒng)控制圖為了解決這個問題,先假設觀測向量Xi=(x1i,x2i,…,xmi),當i=1,2,…,τ-1時服從正態(tài)分布Nm(μ0,∑),當i=τ,…,t時,服從正態(tài)分布Nm(μ1,∑),其中μ0和∑已知,μ0≠μ1。假設協(xié)方差矩陣不發(fā)生偏移,因此可以用樣本協(xié)方差矩陣S代替假設中的總體協(xié)方差陣∑,此時得到HotellingT2統(tǒng)計量[1]?;谠摻y(tǒng)計量,多種多元統(tǒng)計過程控制圖(MSPC,multivariate statistical process control)的控制圖被提出:累計和的多元控制圖(MCUSUM)、指數(shù)加權平滑的多元控制(MEWMA)圖、U2多元控制圖[2-9]。這些方法的監(jiān)控統(tǒng)計量和控制限的計算需要假定該過程服從多元正態(tài)分布。然而,在實際應用中,正態(tài)假設很難滿足,從而會影響控制圖的性能。在當下的控制圖應用場景中,復雜高維數(shù)據(jù)的問題,非高斯分布的受控數(shù)據(jù)集的問題,類別變量、混合變量和缺失數(shù)據(jù)的問題,數(shù)值變量的不同取值范圍問題引起了廣大學者的關注。因此,也有研究指出需要提出不依賴受控數(shù)據(jù)分布假設的非參數(shù)控制圖[10-14]。在對高維數(shù)據(jù)進行監(jiān)控時,傳統(tǒng)的MSPC對變量的小幅偏移敏感,因此功能更強大的控制圖需要被提出來。
為了解決上述問題,最近有些研究者將機器學習的方法應用在了MSPC的問題中。Hwang等[15]將監(jiān)控問題轉(zhuǎn)變成了一個監(jiān)督式學習的問題,人為的生成失控數(shù)據(jù),將參考數(shù)據(jù)集標記為一類,人工數(shù)據(jù)標記為另一類,訓練出分類器,將控制圖的問題轉(zhuǎn)化成了二分類的問題,再通過訓練好的分類器把將來的觀測數(shù)據(jù)分為受控或失控。此類做法統(tǒng)稱為one-class的分類方法在控制圖中的應用,類似如Sun等[16]提出的基于支持向量數(shù)據(jù)描述(SVDD)算法的控制圖,Sukchotrat等[17]提出的基于k-近鄰算法的控制圖都是基于one-class分類方法的控制圖。在one-class的模型里面存在的一個問題是,分類器是早就建立好的,要么根據(jù)人工數(shù)據(jù),要么根據(jù)某種具體的one-class模型,后續(xù)觀測到的數(shù)據(jù)只是通過該分類器進行歸類,因此分類器是沒有用到實時觀測值的任何信息的,這大大降低了控制圖的準確性和敏感性。因此Deng等[18]提出了依據(jù)現(xiàn)代機器學習生成模型的快速性,來構建實時生成分類器的控制圖以提高監(jiān)控性能,該方法被稱作RTC(real time contrast)方法,作者提出的是基于RTC的隨機森林方法控制圖。也有學者提出了基于RTC的核線性判別方法的控制圖[19]和基于RTC的SVM控制圖[20]。
在面對高維數(shù)據(jù)的控制圖研究中,特征提取同樣是值得關注的問題,在生物統(tǒng)計領域很多學者將特征提取與機器學習結合使用,來找出人體龐大基因庫中與特定疾病有關的基因。其中Shen等[21]通過基于Lasso懲罰的Logistic回歸對基因數(shù)據(jù)進行降維,辨別基因庫中與白血病有關的基因。機器學習相關研究發(fā)現(xiàn)在針對復雜關系的高維數(shù)據(jù)時,線性分類器例如Logistic回歸能帶來比SVM方法更好的擬合和分類表現(xiàn)。
綜上可見,隨著傳感器的引入,收集到數(shù)據(jù)的維度越來越高,傳統(tǒng)的MSPC對高維數(shù)據(jù)中只有少數(shù)變量偏移的過程監(jiān)控是不敏感的。一般的控制圖都會假設先驗分布,但在高維數(shù)據(jù)情形下,受控數(shù)據(jù)樣本有限,其分布往往是難以估計的,因此需要提出不依賴受控數(shù)據(jù)分布假設的控制圖?;诜菂?shù)檢驗的控制圖雖然可以解決分布估計問題,但是無法解決復雜計算過程的問題。引入機器學習的分類器,通過RTC方法,將監(jiān)控問題轉(zhuǎn)化為對觀測數(shù)據(jù)進行實時分類的過程,實現(xiàn)對高維數(shù)據(jù)的有效監(jiān)控,不需要先驗分布,計算高效且精確;引入Lasso可以進行特征提取,提高控制圖的敏感性,有利于報警之后快速診斷失效因素。
因此研究提出基于Lasso的Logistic回歸模型來建立控制圖,采用RTC方法進行監(jiān)控設計,為了方便簡稱該控制圖為RTC-LR。
在實際生成過程中,假定過程的m維測量值Xi=(x1i,x2i,…,xmi),其中i=1,2,…,相當于產(chǎn)品生產(chǎn)過程中監(jiān)控到的質(zhì)量特性值。響應變量為Y∈{0,1},相當于產(chǎn)品生產(chǎn)過程中,合格與不合格,監(jiān)控問題可以轉(zhuǎn)化成機器學習中的二分類問題。針對數(shù)據(jù)集X和Y,預測函數(shù)會根據(jù)輸入特征X來計算輸出值h(x)。我們的任務是構造一個hθ函數(shù),來映射數(shù)據(jù)集中的輸入特征X和輸出值Y,使得預測函數(shù)hθ計算出來的值與真實值Y的整體誤差最小。構造hθ的關鍵就是找到合適的θ和θ0值,即模型參數(shù)。
Logistic回歸雖然名叫回歸,但其實是分類器的一種,可以很好的處理二分類問題。在二值變量的Logistic回歸模型中,采用的是對機會比的自然對數(shù)(稱為“l(fā)ogit”)建模的方法,其公式為
(1)
由于感興趣的值是概率,Logistic模型可以轉(zhuǎn)換為概率形式的表達,即
上述形式由激勵函數(shù)Sigmoid轉(zhuǎn)換得到,Sigmoid函數(shù)具有良好數(shù)學性質(zhì),是凸函數(shù),且任意階可導,Sigmoid函數(shù)公式為
(2)
Logistic分類器的實現(xiàn)也可看作將影響分類結果的每個特征乘上相應的權重,再將結果相加代入Sigmoid函數(shù)中,從而得到范圍在(0,1)的數(shù)值。
根據(jù)前述提到的預測函數(shù),在Logistic回歸模型中,預測函數(shù)為
hθ(X)=σ(z)=σ(-θ0-θTX)=
其中:hθ(X)表示在輸入值為X,參數(shù)為θ0,θT前提下y=1的概率。當hθ(X)≥0.5時y=1,當hθ(X)<0.5時y=0。用概率論的公式寫作
hθ(X)=P(y=1|X,θ)。
此時考慮該模型的成本函數(shù)。首先,計算單個樣本X,Y其預測值與真實值的誤差,根據(jù)最大似然估計的成本公式[22]如下:
即
Cost(hθ(X),y)=-ylog(hθ(X))-
(1-y)log(1-hθ(X)),
(3)
則很快計算出所有樣本的成本函數(shù)為
(1-y(i))log(1-hθ(X(i)))]。
(4)
找到模型的成本函數(shù)之后,通過梯度下降等優(yōu)化迭代算法得到參數(shù)的最優(yōu)解[22],從而計算出觀測樣本的分類概率,分類概率可用于構建控制圖。
在半個世紀以前,Logistic回歸模型常常應用于生物醫(yī)學研究,目前在數(shù)據(jù)建模中的應用更為廣泛。當m>N時,會出現(xiàn)參數(shù)過多的情況,模型會變得不穩(wěn)定,出現(xiàn)過擬合的情況。在機器學習中為了避免模型的過擬合,會在最小化模型誤差的同時對參數(shù)進行正則化。考慮多元線性回歸問題:
yi=Xiβ+εi,i=1,2,…p
(5)
其中:λj為懲罰參數(shù),也叫做正則化參數(shù)[23];gλj是懲罰方程。當gλj(|βj|)=λ|βj|,λ為常數(shù)時,相應的懲罰似然方法被稱作Lasso[24]。在Lasso方法中,當λ取值越大時,不重要因素的系數(shù)隨著λ增大而趨近0,當λ足夠大時,不重要因素的系數(shù)會變成0,此時就實現(xiàn)了系數(shù)的稀疏性處理。同時,懲罰似然方法可以通過LARS算法實現(xiàn)高效求解[25]。使用Lasso正則化,也即機器學習里面提到的L1正則化,可以讓模型參數(shù)向量里元素為0 的盡量多,排除對預測值沒有影響的特征,在模型計算時減少特征數(shù)量,當控制圖出現(xiàn)報警的時候,結合Lasso的特征選擇,可以更方便的對偏移因素進行診斷。同時也提高了模型的可解釋性。
統(tǒng)計過程控制通??梢苑譃?個不同的階段。在階段1,我們試著去建立一個生產(chǎn)過程并使之運行穩(wěn)定,從穩(wěn)定運行的過程中收集一組過程數(shù)據(jù)代表受控數(shù)據(jù)集;階段2則通過階段1的受控數(shù)據(jù)集建立控制圖,并監(jiān)控接下來的生產(chǎn)過程,當異常出現(xiàn)時給出警報并診斷異常因素。階段1的數(shù)據(jù)S0往往用來估計受控過程的數(shù)據(jù)分布f0(x)。為了進行數(shù)據(jù)的實時對比監(jiān)控,當前的觀測數(shù)據(jù)會拿來與階段1數(shù)據(jù)S0進行對比分析,因為在每個時刻點觀測到的數(shù)據(jù)樣本都是有限的,所以采用移動窗口來將當前觀測數(shù)據(jù)和部分過去時刻觀測數(shù)據(jù)進行結合,以此與參考數(shù)據(jù)集S0進行對比。在移動窗口內(nèi)的數(shù)據(jù)被記作Sw(t),包含了最近的Nw個觀測值Sw(t)={Xt-Nw+1,…,Xt-1,Xt},作為進行分類的對比數(shù)據(jù)集。由于一旦獲得新的觀測數(shù)據(jù)移動窗口就會被更新,因此移動窗口中的數(shù)據(jù)會實時與參考數(shù)據(jù)集進行對比。
對于RTC的方法,將參考數(shù)據(jù)集和移動窗口數(shù)據(jù)集分為2組:參考數(shù)據(jù)集S0標記為0,移動窗口數(shù)據(jù)集Sw(t)標記為1,即
接下來可以通過合適的分類器對這2類數(shù)據(jù)進行學習,得到分類錯誤率、分類概率,或者其他信息,以此判斷過程是否受控。例如,有控制圖將分類錯誤率作為監(jiān)控變量,過程沒有偏移的時候,分類錯誤率會很高;當存在偏移的時候,參考數(shù)據(jù)和移動窗口數(shù)據(jù)來自不同分布,分類錯誤率會較小。有些分類器不僅可以得到分類錯誤率,還可以直接得到分類概率,分類概率可以用做監(jiān)控變量。
當參考數(shù)據(jù)量少且分布未知的時候,機器學習的方法比傳統(tǒng)控制圖更能發(fā)揮優(yōu)勢。在機器學習和深度學習的領域中,Logistic回歸其實是一種分類模型,且可以將樣本屬于哪一類的概率計算出來,這種概率有助于我們的決策。監(jiān)督學習的問題也就是在規(guī)則化參數(shù)的同時最小化誤差,結合Logistic回歸的成本函數(shù)(4)和對參數(shù)的Lasso正則化,此時要計算的模型成本函數(shù)為
(1-y(i))log(1-hθ(X(i)))]+λ‖θ‖1=
λ‖θ‖1,
(6)
其中:λ為懲罰力度。
基于Lasso懲罰的Logistic回歸模型的成本函數(shù)式(6)是凸函數(shù),似然部分可微,因此可以將此問題看作標準的凸優(yōu)化問題來求解[26]。當通過梯度下降算法解出模型參數(shù)的最優(yōu)值后,則可得到觀測樣本合格與否的分類概率。
基于懲罰Logistic回歸模型構建監(jiān)控統(tǒng)計量的時候,考慮Logistic模型對分類概率的預測能力,即
為提高控制圖敏感性,研究決定采用機會比的自然對數(shù)作為監(jiān)控變量,即
(7)
其中:xj是樣本觀測向量;參數(shù)θ可通過優(yōu)化算法得出。在階段2監(jiān)控的過程中,提前假設觀測樣本屬于分類1,此時計算出式(7)的值,如果較大則代表分類正確,即樣本失控;如果較小則表示分類錯誤,樣本受控。因此在移動窗口中,監(jiān)控統(tǒng)計量為移動窗口內(nèi)Nw個樣本的T的平均值,即
(8)
當T(Sw(k))大于某一值h的時候,稱該過程失控,h為接下來要計算的控制限。
研究對提出的LR-chart進行了設計,計算控制圖的控制限。探討模型中的參數(shù)對控制圖設計的影響,例如懲罰系數(shù)c,移動窗口大小Nw。隨后對提出的控制圖與現(xiàn)有的D-SVM[20],RTC-RF[18]控制圖進行了性能的對比分析,發(fā)現(xiàn)研究提出的控制圖有著優(yōu)異性能,在提供樣本分類概率信息的同時能進行高維數(shù)據(jù)下的故障因素識別。
研究采用的編碼語言是Python,該語言方便操作,針對機器學習有大量的運算包可以使用。由于研究采用的是移動窗口的形式對數(shù)據(jù)進行處理,然后進行監(jiān)控,在開始采集觀測樣本進行監(jiān)控的時候,起初移動窗口內(nèi)的觀測樣本是不足Nw的,如果不加調(diào)整直接進行監(jiān)控,控制圖會在移動窗口搜集夠了Nw個樣本后才開始運行,這樣會造成控制圖報警的延誤。為了避免此問題,首先在除去So的受控數(shù)據(jù)N中隨機抽取Nw-1個樣本,與控制圖開始時收集到的1個樣本進行組合構成第1個移動窗口。隨后,當觀測數(shù)據(jù)每增加1個,相應的來自受控數(shù)據(jù)集的樣本就減少1個,以保證移動窗口大小是恒定在Nw的。直到移動窗口內(nèi)的數(shù)據(jù)完全來自觀測數(shù)據(jù),此時可以通過在觀測數(shù)據(jù)中移動窗口來進行控制圖的設計,如上述提到的RTC原理。
不同的控制圖計算控制限的方法也會不同,在階段2中,通常是給定ARL0來確定對應控制圖的控制限。采用二分法進行控制限的搜索。假定A0為給定的ARL0的值。首先確定好控制限的搜索范圍[CLl,CLu],該范圍可以通過監(jiān)控統(tǒng)計量的取值范圍來確定。設定搜索精度為e,確定搜索經(jīng)歷M次迭代過程,對于其中的一次迭代,步驟如下:
(1) 給定控制限,令CLm=(CLl+CLu)/2;
(2) 在過程沒有發(fā)生偏移的情況下運行控制圖直到出現(xiàn)報警;
(3) 記錄RL0,大量重復過程(2),計算出CLm對應的ARL0;
(4) 如果計算得到的ARLo落在[A0-e,A0+e],則停止迭代,此時的CLm為尋找的控制限。如果ARL0>A0+e,令CLu=CLm,繼續(xù)執(zhí)行步驟(1)~(3)。如果ARL0 由于給定ARL0,因此不同控制圖對異常點的檢測性能可通過ARL1值的大小進行比較。ARL1值大表示檢測性能較差;ARL1值小表示檢測效果更好。 由上述模型可知,在分類器進行分類的過程中,Lasso懲罰項對模型結果是有重要的影響。同時,在構建控制圖時采用的移動窗口大小Nw對控制圖的敏感度也是有影響的。研究討論如何進行懲罰系數(shù)c及移動窗口大小Nw的選擇。 首先探討懲罰系數(shù)c對控制圖性能的影響。構造維度d=100的正態(tài)分布過程,通過該分布生成N=1 000組受控數(shù)據(jù),其中隨機抽取N0=100作為參考數(shù)據(jù)集S0,給定移動窗口為Nw=10,且ARL0≈200,通過計算不同懲罰系數(shù)及不同偏移程度下ARL1值來衡量參數(shù)c對于控制圖性能的影響。取d=100維,給出衡量偏移的一種表達為 (9) 表1 控制圖取不同c值的ARL1值 圖1 不同c值下的ARL1值趨勢Fig.1 Trends of ARL1 values with different c values 研究移動窗口大小Nw對于控制圖性能的影響,計算d=100,c=1時,不同Nw對應的ARL1的值,結果見表2。由表2可知,在Nw∈[5,15]范圍內(nèi),對大偏移的檢測是沒有較大差異的,但是在對小偏移的時候,Nw越小越不敏感。但當移動窗口Nw超出15并增加時,則會降低控制圖的對于無論大還是小偏移的敏感性,導致更差的控制圖性能。由此可知,在后續(xù)實驗中,可選取移動窗口Nw=10。 表2 不同移動窗口大小的ARL1值 將設計好的控制圖應用在一個實際案例中,考慮從手機組裝過程中收集的相機性能測量數(shù)據(jù)集。 表3 不同控制圖的性能對比 對每個手機,通過屏幕上的5個點來收集相機對焦的數(shù)據(jù)集。這些位置分布在手機的中心、左上角、右上角、左下角、右下角。收集到的手機相機生產(chǎn)過程的數(shù)據(jù)集為X=(x1,x2,x3,x4,x5)。我們收集到了來自2 000部手機的正常生產(chǎn)過程的數(shù)據(jù)集,其中隨機抽取1 000個數(shù)據(jù)作為受控數(shù)據(jù)集S0來構建控制圖,剩下的1 000個數(shù)據(jù)留作測試數(shù)據(jù)。該數(shù)據(jù)的描述性統(tǒng)計部分見表4,該數(shù)據(jù)的每個xi的分布是不滿足正態(tài)假設的,且每個xi的分布是類似的,如圖2中x1的分布形狀。 表4 受控樣本的描述性統(tǒng)計 圖2 x1的分布直方圖Fig.2 Distribution histogram of x1 從受控數(shù)據(jù)集S0中隨機抽取N0=100樣本點作為參考數(shù)據(jù)集,其中窗口大小設定為Nw=10,懲罰參數(shù)設定為c=1,給定ARL0≈200時,RTC-LR的控制限為h=0.508。在控制圖正常運行了100個樣本點的時候,為后續(xù)數(shù)據(jù)添加3個單位的偏移,以此來觀察控制圖的檢出性能。圖3展示了RTC-LR圖在前200個樣本中的表現(xiàn),在偏移發(fā)生第6個樣本點的時候給出了警報。 圖3 案例數(shù)據(jù)的控制圖顯示Fig.3 Control chart display of case data 研究提出了基于Lasso懲罰的Logistic回歸模型建立的控制圖用來監(jiān)控多元過程,監(jiān)控統(tǒng)計量是結合了RTC移動窗口的平均對數(shù)機會比。在Lasso懲罰的作用下,多元過程的變量得到了提取,重要影響因素的權重為非零,其余為零,方便在控制圖報警之后對異常因素進行診斷,達到了階段2控制圖監(jiān)控和診斷的雙重目的。對控制圖中的參數(shù)進行了調(diào)試和選擇,隨后在與其他控制圖對比的過程中,顯示出了其優(yōu)良的性能。最后通過一個手機相機性能評價的實際生產(chǎn)案例來進行控制圖的應用。3.2 模型參數(shù)選擇
3.3 性能對比
4 實際案例
5 結論