張艷芬,譚 帥,李彬彬
(1.營口職業(yè)技術(shù)學(xué)院,遼寧營口 115000;2.東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽 110004)
基于高斯混合模型的多模態(tài)過程監(jiān)測
張艷芬1,譚 帥2,李彬彬1
(1.營口職業(yè)技術(shù)學(xué)院,遼寧營口 115000;2.東北大學(xué)信息科學(xué)與工程學(xué)院,遼寧沈陽 110004)
本文針對多模態(tài)復(fù)雜過程的多變量、多工序、變量時變性以及模態(tài)轉(zhuǎn)換時間不確定等多種特性,提出基于高斯混合模型的多模態(tài)過程監(jiān)測算法;針對離線數(shù)據(jù)沒有模態(tài)標簽的問題,提出離線數(shù)據(jù)分類算法;針對在線數(shù)據(jù)無法對應(yīng)模態(tài)類型的問題,提出在線數(shù)據(jù)模態(tài)識別算法。并在以上方法的基礎(chǔ)上建立多模態(tài)過程監(jiān)測模型,以連續(xù)退火機組為背景,利用實際生產(chǎn)過程數(shù)據(jù)驗證了算法的有效性。
多模態(tài)過程;過程監(jiān)測;模態(tài)識別;連續(xù)退火機組
在工業(yè)生產(chǎn)過程中,原料性質(zhì)、過程負荷等條件的變化或產(chǎn)品類型、過程生產(chǎn)方案的變動等,可能會導(dǎo)致生產(chǎn)過程具有多個工況的情況[1-6].產(chǎn)品多樣化、生產(chǎn)多工序、過程多模態(tài)逐漸成為現(xiàn)代工業(yè)界主導(dǎo)的生產(chǎn)模式,因此多模態(tài)過程監(jiān)測技術(shù)也逐漸受到學(xué)術(shù)界和工業(yè)界的廣泛重視.近年來采用混合模型的多模態(tài)監(jiān)測算法引起了不少學(xué)者的關(guān)注,如:韓國的Sang Wook Choi[7]、Chang Kyoo Yoo[8],荷蘭的U. Thissen[9],澳大利亞的RJ Hyndman[10],美國的Jie Yu、S. Joe Qin[11-12]等人均對基于混合高斯模型的多模態(tài)過程監(jiān)測問題進行了深入的研究.這種基于概率的建模思路很好地啟發(fā)了對于多模態(tài)過程建模的思考.
本文在前人研究的基礎(chǔ)上,深入分析多模態(tài)過程特點,提出基于混合模型的多模態(tài)過程監(jiān)測方法.針對之前學(xué)者所研究方法中未涉及的難點問題,譬如離線數(shù)據(jù)模態(tài)識別(如何區(qū)分不同模態(tài)的建模數(shù)據(jù))、在線數(shù)據(jù)模態(tài)識別(如何及時的識別出在線數(shù)據(jù)所對應(yīng)的模態(tài)類別)等,進行重點研究,全面考慮算法實施過程中的每一個環(huán)節(jié),提出多模態(tài)復(fù)雜工業(yè)過程監(jiān)測方法.
圖1 多模態(tài)過程監(jiān)測方法結(jié)構(gòu)圖
多模態(tài)過程監(jiān)測分為離線和在線兩部分(圖1),離線部分是對離線建模數(shù)據(jù)進行分析,提取歷史正常數(shù)據(jù)中所蘊含的過程特性,這部分包括離線模態(tài)識別和離線建模兩步;在線部分是對實時采集的樣本數(shù)據(jù)進行分析,判斷所對應(yīng)的模態(tài)類型,并調(diào)用所對應(yīng)的模態(tài)模型實現(xiàn)實時監(jiān)測的功能,這部分包括在線模態(tài)識別和在線監(jiān)測兩步.
離線建模數(shù)據(jù)的模態(tài)劃分與識別是實現(xiàn)多模態(tài)過程監(jiān)測的基礎(chǔ).多模態(tài)過程中潛在的變量相關(guān)關(guān)系并非隨時間時刻變化,而是跟隨過程操作模態(tài)的變化呈現(xiàn)分段性.在不同的模態(tài)中,變量相關(guān)性有著顯著的差異;但是在同一個模態(tài)中,不同采樣時刻的過程變量相關(guān)關(guān)系卻近似一致.
離線模態(tài)識別可以分為兩種情況:一種是過程在運行時有明確的模態(tài)指示標簽(例如某個在線可測的過程變量),這種情況下,可以根據(jù)指示標簽準確獲得不同模態(tài)建模數(shù)據(jù);另一種情況是過程沒有明確的模態(tài)轉(zhuǎn)換指示變量,在這種情況下,需要從大量的生產(chǎn)數(shù)據(jù)中提取出可以區(qū)分不同模態(tài)過程特性的信息,實現(xiàn)模態(tài)劃分.本文主要針對后一種情況進行研究.
本文采用長度固定的切割窗口作為分析的基本單元.首先選取長度為H的窗口,變量H是根據(jù)經(jīng)驗選取的可以涵蓋同一種模態(tài)過程特性的最短運行時間長度.將離線數(shù)據(jù)劃分成一系列長度為H的窗口,利用主成分分析提取每個窗口的負載矩陣Pk,通過定量評估各窗口矩陣Pk與某一種運行模態(tài)代表Pbase的相似度,通過比較每個窗口與參考窗口過程特性的相似度來識別模態(tài)類型,定義負載矩陣與參考窗口負載矩陣的相似度如式(1)所示.
.
(1)
其中,pj,k和pj,base分別是矩陣Pk和Pbase的第j列向量.相似度定量地指示了各窗口與模態(tài)參考窗口過程相關(guān)特性的相似度,γ∈[0,1],相似度由大到小代表了過程特性一致性的由強到弱.如果兩個窗口特征矩陣的相似度大于給定的模態(tài)閾值,認為這兩個窗口內(nèi)的數(shù)據(jù)屬于同一個模態(tài);反之,如果窗口的相似度小于定義的閾值,則認為這兩個窗口的數(shù)據(jù)蘊含的過程特性不可以用一個模型描述.利用公式(1)定義的相似度γ作為度量兩種模態(tài)相似性程度的指標,引入可以調(diào)節(jié)的相似度閾值β作為邊界參數(shù),按照如下的準則進行聚類:如果γk>β,說明第k個窗口內(nèi)數(shù)據(jù)的過程特性與參考窗口數(shù)據(jù)的過程特性相似程度較高,該窗口與參考窗口模態(tài)類型一致;如果γk≤β,說明第k個窗口內(nèi)數(shù)據(jù)的過程特性與參考窗口數(shù)據(jù)的過程特性相差較大,該窗口內(nèi)的數(shù)據(jù)包含了另一種模態(tài)的過程數(shù)據(jù).利用聚類算法對K=N/H種負載矩陣Pk進行聚類,得到C種運行模態(tài).對應(yīng)每一種模態(tài)的建模數(shù)據(jù)是Xc(c=1,2,…,C).
之前學(xué)者研究流程工業(yè)過程時基于前提假設(shè):實際生產(chǎn)與科學(xué)實驗中很多隨機變量的概率分布都可以近似地用高斯分布來描述,即認為過程變量服從或近似服從高斯分布.然而這種假設(shè)非常局限,并且沒有充分的理論支撐依據(jù).因此,本文針對更為泛化的情況,不基于此種前提假設(shè),對多種生產(chǎn)模態(tài)分別建立高斯混合模型進行監(jiān)測.這樣既可以提高模型的準確性,又可以減少監(jiān)測的漏報率.
高斯混合模型是單一高斯概率密度函數(shù)的延伸,具有平滑逼近任意形狀密度分布的特性.Xc的密度函數(shù)可以利用有限混合概率模型,被描述成存在不同統(tǒng)計分量的樣本群體,表示如下:
(2)
其中,g(xc|θm)是第m個混合分量,θ={μm,∑m}是它的參數(shù);ωm表示第m個混合分量的系數(shù),滿足
對于高斯混合分布,第m個分量g(xc|θm)的密度函數(shù)可以表示如下:
(3)
其中,θm={μm,∑m}為第m個分量的參數(shù)集,μm是均值向量,∑m是協(xié)方差矩陣.當已知分布的形式,而所要估計的參數(shù)是非隨機的未知常量(或者待估參數(shù)是隨機的,但先驗密度未知)時,一般用極大似然估計(Maximum Likelihood Estimation, MLE)方法來估計參數(shù).EM算法是一種從“不完全數(shù)據(jù)”中求解模型分布參數(shù)的極大似然估計方法.EM算法通過不斷重復(fù)E步驟(E-step)和M步驟(M-step)直到對數(shù)似然函數(shù)收斂到一定閾值,最終獲得這個后驗概率和相應(yīng)的分布參數(shù).EM算法求解未知參數(shù)θm的迭代步驟如下:
(4)
(5)
當對多模態(tài)過程進行在線監(jiān)測時,關(guān)鍵問題在于判斷出當前時刻數(shù)據(jù)的運行模態(tài),也就是說,過程當前時刻運行在什么模態(tài),然后才能調(diào)用對應(yīng)的模型進行過程監(jiān)測.如果在線運行的數(shù)據(jù)具有模態(tài)指示變量,則可以根據(jù)指示信息直接找到對應(yīng)的模型;當無法在線獲得模態(tài)指示變量時,需要通過計算在線數(shù)據(jù)與各個模態(tài)運行特性的相似度來判斷當前運行模態(tài).
假設(shè)當前運行模態(tài)已知,在線運行時,沿用當前模態(tài)模型進行監(jiān)測,如果過程運行正常,則說明模態(tài)沒有發(fā)生改變也沒有故障;如果過程運行非正常,此時,人為假設(shè)過程進入另一種模態(tài),需要進一步判斷進入(C-1)種模態(tài)的哪種模態(tài).
分別計算在線數(shù)據(jù)xnew(1×J)與(C-1)種模型的聯(lián)合密度,在線數(shù)據(jù)xnew屬于第c種模態(tài)的后驗概率為:
(6)
其中,c=1,2,…,(C-1).當前運行數(shù)據(jù)xnew所對應(yīng)最大密度值的模型,是xnew所對應(yīng)具有最大可能概率的模態(tài).為了提高監(jiān)測系統(tǒng)的魯棒性能,盡量避免模態(tài)誤判斷,在模態(tài)發(fā)生改變時,采用一段時間內(nèi)的過程數(shù)據(jù)信息實現(xiàn)對當前運行模態(tài)的識別.在運行模態(tài)發(fā)生改變后,累計ΔK時刻的在線數(shù)據(jù)識別結(jié)果,得到魯棒的在線模態(tài)識別結(jié)果.
選擇對應(yīng)最大可能概率的模態(tài)進行監(jiān)測,通過計算比較在線聯(lián)合貝葉斯概率指標BIP(Bayesian inference probability)與建模樣本的貝葉斯概率指標閾值α,監(jiān)測當前樣本的運行狀態(tài).BIP指標計算如下:
(7)
(8)
在一個事先給定的置信水平(1-α)100%下,如果BIP≤1-α,那么就認為過程處于正常工作狀態(tài),否則就認為過程出現(xiàn)了故障.如果在一段可信窗口內(nèi)過程在最大可能概率模態(tài)下繼續(xù)運行非正常,說明人為假設(shè)錯誤,過程是故障模態(tài);否則,則說明模態(tài)識別正確,繼續(xù)沿用當前模態(tài)進行過程監(jiān)測.
在寶鋼連續(xù)退火生產(chǎn)線中,退火爐是進行退火熱處理的重要設(shè)備.本方法用退火生產(chǎn)線的實際過程運行數(shù)據(jù)進行方法驗證.退火爐內(nèi)主要通過加熱、均熱、慢冷、快冷、過時效、終冷等過程,如圖2自左向右所示.其內(nèi)部結(jié)構(gòu)經(jīng)歷晶?;謴?fù)、再結(jié)晶、晶粒長大、碳化物析出等幾個階段的組織變化過程,使帶鋼的內(nèi)在質(zhì)量得到改善.
圖2 連續(xù)退火機組生產(chǎn)工藝示意圖
根據(jù)不同的帶鋼調(diào)質(zhì)度要求,退火生產(chǎn)線需要設(shè)置不同的工作模態(tài)來獲得不同硬度和延伸率的帶鋼成品.本文以調(diào)質(zhì)度為T-3CA和T-4CA的兩種帶鋼為例,采集的建模數(shù)據(jù)中包含以下變量:退火機組均熱溫度、慢冷,1冷,2冷的降溫速率、10A、20A(過時效)的溫度、中央段速度等可以獲得的過程信息,如表1所示.顯然,這些過程數(shù)據(jù)中蘊含有大量與生產(chǎn)過程運行狀態(tài)以及最終產(chǎn)品質(zhì)量密切相關(guān)的變量,對帶鋼退火爐不同調(diào)質(zhì)度的爐況信息進行實時監(jiān)測,將對提高生產(chǎn)效率、降低廢品率等具有十分重要的意義.
表1 連續(xù)退火機組過程的建模變量
首先生產(chǎn)過程歷經(jīng)0.76小時的T-4C穩(wěn)定生產(chǎn),采集獲得T-4CA模態(tài)的數(shù)據(jù)XT4(2736×24);根據(jù)生產(chǎn)調(diào)度的要求,此時過程開始轉(zhuǎn)為T-3CA生產(chǎn)模態(tài),在T-3CA模態(tài)下穩(wěn)定生產(chǎn)1.45小時,累積T-3CA穩(wěn)定模態(tài)的數(shù)據(jù);根據(jù)要求過程再次回到T-4CA模態(tài)下,在T-4CA模態(tài)下持續(xù)穩(wěn)定生產(chǎn),采集0.52小時的數(shù)據(jù)XT4(1872×24).離線數(shù)據(jù)模態(tài)識別的結(jié)果如圖3所示,模態(tài)1(1-2765)和模態(tài)1(7980-9828)是識別出的T-4CA穩(wěn)定模態(tài);模態(tài)9(2766-7979)是識別出的T-3CA穩(wěn)定模態(tài).
在線應(yīng)用時,重新獲取8460個在線采樣數(shù)據(jù),數(shù)據(jù)包含建模時的兩種模態(tài)T-4CA和T-3CA.已知數(shù)據(jù)于第1728秒采樣時刻開始由調(diào)質(zhì)度T-4CA向T-3CA轉(zhuǎn)變,于第5940秒采樣時刻開始由調(diào)質(zhì)度T-3CA轉(zhuǎn)回T-4CA.在第7000秒時人為引入故障,此時,過程運行在T-4CA模態(tài)下,人為所引入的故障特性與T-3CA模態(tài)特性相似.
在線數(shù)據(jù)的BIP統(tǒng)計量趨勢如圖4所示,識別結(jié)果如下:1-1764為模態(tài)T-3CA;從1765到5959為模態(tài)T-4CA;由調(diào)質(zhì)度T-4CA向T-3CA轉(zhuǎn)變的起始時刻為5960.對比結(jié)果發(fā)現(xiàn),模態(tài)識別的轉(zhuǎn)變開始時間與實際情況相比略有延遲,但最大誤差沒有超過一分鐘,在實際生產(chǎn)中這種精度完全可以滿足要求.此外,圖3中算法在第7012秒監(jiān)測出故障發(fā)生.
圖3 離線模態(tài)識別結(jié)果
圖4 基于模態(tài)識別監(jiān)測模型的在線監(jiān)測結(jié)果 (實線是在線統(tǒng)計量,虛線是控制限)
為了對比所提出算法的效果,利用之前學(xué)者所提出的全局高斯混合模型監(jiān)測方法[11]和基于主成分分析(PCA)的多模型監(jiān)測方法[10]與本文算法進行對比.
(2)基于PCA的多模型監(jiān)測方法:這種建模方法要求離線或者在線數(shù)據(jù)具有明確的模態(tài)指示變量,利用多模型的思路,對同一模態(tài)的數(shù)據(jù)建立PCA監(jiān)測模型,對于多個模態(tài)分別建立多個PCA監(jiān)測模型.
監(jiān)測結(jié)果如圖5和圖6所示,可以發(fā)現(xiàn),在過程運行正常異常時,圖4的漏報率為20%,圖5的漏報率為90%,圖6的漏報率為19.1%(圖中兩個統(tǒng)計量只要有一者超限就定義為故障點).
圖5 基于全局高斯混合模型的在線監(jiān)測結(jié)果(實線是在線統(tǒng)計量,虛線是控制限)
圖6 基于PCA模型的在線監(jiān)測結(jié)果(實線是在線統(tǒng)計量;虛線是控制限)
分析圖4和圖5可知,由于所引入的故障特性與T-3CA模態(tài)特性相似,所以利用全局高斯混合模型監(jiān)測方法進行監(jiān)測無法區(qū)分故障特性與其他模態(tài)特性,該方法所建立模型的漏報率較高,相比而言,本文所提出方法所建立模型準確度較高,并且利用所提出的算法指導(dǎo)在線模態(tài)識別,縮短了計算時間,大大提高了在線監(jiān)測效率.
分析圖4和圖6可知,基于PCA的多模型監(jiān)測方法漏報率與本文方法的漏報率差不多,監(jiān)測效果沒有明顯區(qū)別,但是基于PCA的多模型監(jiān)測方法要求必須有明確的模態(tài)指示變量,在離線時才能夠區(qū)分出不同調(diào)質(zhì)度的建模數(shù)據(jù),在線時才能夠?qū)?yīng)找到當前樣本所對應(yīng)的PCA模型,這大大限制了算法的應(yīng)用性.
通過以上仿真驗證可以發(fā)現(xiàn),本文算法可以較準確地識別出數(shù)據(jù)的模態(tài)類型,不需要提供數(shù)據(jù)的模態(tài)指示信息,這對于算法的現(xiàn)場推廣具有重要意義.該算法不但可以應(yīng)用在仿真背景的生產(chǎn)過程,同時可以應(yīng)用于具有多模態(tài)特性的其他連續(xù)生產(chǎn)過程.
本文深入分析多模態(tài)過程的特性,在建立多模態(tài)監(jiān)測模型的同時,還充分考慮到生產(chǎn)中數(shù)據(jù)模態(tài)未知的普遍問題,補充關(guān)于模態(tài)數(shù)據(jù)離線識別、在線識別的算法,完善了復(fù)雜工業(yè)過程監(jiān)測的框架.同時本文還以實際工業(yè)生產(chǎn)數(shù)據(jù)為依托,對提出的方法和技術(shù)進行驗證,結(jié)論說明了所提方法的有效性,為進一步推廣到實際工業(yè)應(yīng)用中提供可能,體現(xiàn)了算法的工業(yè)應(yīng)用價值.
[1]胡殊.一類多模式PCA過程監(jiān)控方法研究[M].北京:北京理工大學(xué),2010:4.
[2]Hu Shu. Studies on a multi-mode PCA based process monitoring method[D].Beijing: Beijing Institute of Technology,2010:4.
[3]Zhang,Y.and Y. Teng. Adaptive multiblock kernel principal component analysis for monitoring complex industrial processes[J].Journal of Zhejiang University-Science C,2010,11(12):948-955.
[4]Yew Seng Ng,Rajagopalan Srinivasan.An adjoined multi-model approach for monitoring batch and transient operations[J].Computers and Chemical Engineering,2009(33):887-902.
[5]Yuan Yao,Furong Gao.Phase and transition based batch process modeling and online monitoring[J].Journal of Process Control,2009(19):816-826.
[6]Wold S.,Kettaneh N, Friden H,Holmberg A. Modelling and diagnosis of batch processes and analogous kinetic experiments[J].Chemometrics Intell.Lab.Syst.,1998(44):331.
[7]R·nnar S,Macgregor J F,Wold S.Adaptive batch monitoring using hierarchical PCA[J].Chemometrics and Intelligent Laboratory Systems,1998,41(1):73-81.
[8]Anshuman Bhagwat, Rajagopalan Srinivasan, P. R. Krishnaswamy. Multi-linear model-based fault detection during process transitions[J].Chemical Engineering Science,2003(58):1649-1670.
[9]Lee J.M.,Yoo C.K., Lee I.B.Enhanced process monitoring of fed-batch penicillin cultivation using time-varying and multivariate statistical analysis[J].Journal of Biotechnology,2004(1):110-119.
[10]Yew Seng Ng,Rajagopalan Srinivasan.An adjoined multi-model approach for monitoring batch and transient operations[J].Computers and Chemical Engineering,2009(33):887-902.
[11]Zhao C H, Wang F L, Lu N Y, Jia M X. Stage-based soft-transition multiple PCA modeling and on-line monitoring strategy for batch processes[J].Process Control,2007,17(9):728-741.
[12]Jie Yu,S.Joe Qin.Multimode Process Monitoring with Bayesian Inference-Based Finite Gaussian Mixture Models[J]. AICHE,2008,54(7):1811-1829.
[13]陸寧云,王磊,姜斌.基于時延SDG和ICA的多工況過程故障預(yù)測方法[J].控制工程,2011,18(4):632-654.
[14]Lu Ningyun,Wang Li,Jiang Bin.A Fault Prognosis Method Based on Time-Delayed SDG and ICA for Multi-Mode Industrial Processes[J].Control Engineering of China,2011,18(4):632-654.
[15]Dunia, R.,Qin,S.J..Subspace approach to multidimensional fault identification and reconstruction[J].AICHE J.1998,44(8):1813-1831.
Online Monitoring for Multiple Mode Processes Based on Gaussian Mixture Model
ZHANG Yan-fen1, TAN Shuai2, LI Bin-bin1
(1. Yingkou Vocational & Technical College, Yingkou Liaoning 115000, China;2. School of Information Science & Engineering, Northeast University, Shenyang Liaoning 110004, China)
Considering the process high dimensionality, multi-operation, time-variant characteristics, and unknown mode duration, the article proposes the multiple mode monitoring algorithm based on the gaussian mixture model. It also proposes the offline data classification algorithm aiming at the problem that offline data has no modal tag. For online data to corresponding modal type of problem, online data modal identification algorithm is put forward. And on the basis of the above methods establishing the model of multimodal process monitoring in continuous annealing line as the background, the effectiveness of the algorithm was validated by actual production data.
multiple mode processes; process monitoring; mode identification; continuous annealing line
2013-10-09
中央高校基本科研專項資金(N120304004);中國博士后科學(xué)基金(2013M530937)。
張艷芬(1976- ),女,遼寧海城人,營口職業(yè)技術(shù)學(xué)院副教授,從事智能控制研究。
TP391.9
A
1008-178X(2014)01-0021-06