付曉幸 于佐軍
?
基于改進的離群點檢測軟測量方法研究
付曉幸 于佐軍
(中國石油大學(xué)(華東)信息與控制工程學(xué)院)
提出一種改進的離群點檢測方法,采用參數(shù)更新的支持向量數(shù)據(jù)描述的離群點檢測方法,并引入貝葉斯分類原理對離群點分類,對校正離群點后的數(shù)據(jù)用最小二乘支持向量機建模并預(yù)測。工業(yè)聚丙烯熔融指數(shù)軟測量模型的應(yīng)用結(jié)果表明:該方法預(yù)測精度更高,泛化能力更強。
軟測量;離群點檢測;貝葉斯分類
石油、化工等工業(yè)生產(chǎn)過程中,為確保產(chǎn)品的質(zhì)量和生產(chǎn)過程持續(xù)穩(wěn)定,關(guān)系到產(chǎn)品質(zhì)量的過程變量需要被實時控制和監(jiān)測[1]。但是實際生產(chǎn)過程中大量過程變量難以用傳感器直接檢測甚至無法檢測,例如航空煤油干點、紙漿的Kappa值以及聚合反應(yīng)中聚合物的熔融指數(shù)等。軟測量技術(shù)應(yīng)運而生。
軟測量技術(shù)的核心是軟測量模型的建立[2-3]。在目前軟測量建模中,基于數(shù)據(jù)的統(tǒng)計建模占主導(dǎo)地位。由于測量儀表自身故障和傳感器容易受化工環(huán)境影響,使測量數(shù)據(jù)偏離原來范圍,導(dǎo)致離群點產(chǎn)生,而離群點對軟測量模型的預(yù)測精度影響很大,因此需要排除離群點。生產(chǎn)過程中生產(chǎn)過程切換或物料改變會產(chǎn)生不同于歷史采集的數(shù)據(jù),易被誤判成離群點排除。如何確定離群點是由干擾產(chǎn)生,還是由過程變化引起,已成為軟測量技術(shù)研究的重點。
為解決上述問題,Wang Jin等[4]提出一種在線離群點檢測和分類的自適應(yīng)軟測量,該方法先以故障檢測PCA算法中的SPE指標(biāo)作為離群點判斷的準(zhǔn)則,再把檢測出的離群點進一步進行判斷。Galicia H等[5]在控制過程應(yīng)用中,提出一種貝葉斯方法檢測離群點并對其分類。如何鑒別工業(yè)生產(chǎn)過程采集樣本數(shù)據(jù)的離群點,并判斷其是否為真正意義上的離群點,仍沒有通用的方法。
針對上述問題,本文引入基于支持向量數(shù)據(jù)描述(support vector data description,SVDD)的離群點檢測方法,對化工運行過程中存在的離群點進行檢測。為判斷離群點是否為真正意義上的離群點,提出離群點分類的概念?;谪惾~斯分類原理把離群點分為脈沖型離群點、短階躍型離群點和長階躍型離群點。其中脈沖型和短階躍型是真正意義上的離群點需要排除校正,而長階躍型代表化工過程的變化。對需要校正的離群點采用時間序列校正的方法進行校正后用最小二乘支持向量機(least square support vector machine,LSSVM)建模。
1.1SVDD算法
Tax等人提出SVDD是解決單值分類問題的有效方法,是一種基于支持向量機學(xué)習(xí)的算法[6]。單個值分類要解決的問題是區(qū)分目標(biāo)類的數(shù)據(jù)和其他所有不屬于目標(biāo)類的數(shù)據(jù)(稱為異常類)。支持向量數(shù)據(jù)描述可以將目標(biāo)數(shù)據(jù)建立支持向量數(shù)據(jù)描述模型,包括目標(biāo)數(shù)據(jù)超領(lǐng)域、與所有異常類的目標(biāo)類。輸入的空間不可分離,通過一個非線性映射函數(shù),把數(shù)據(jù)從輸入空間映射到一個高維空間,尋找支持向量在特征空間中構(gòu)造包圍與最小半徑和超球體的最佳點。
(1)
(3)
把式(2)表示為對偶問題,并引入核函數(shù)取代特征空間上的內(nèi)積運算得
(4)
SVDD算法在不使用類標(biāo)的情況下,解決了單值分類問題,通過引入懲罰參數(shù),使在訓(xùn)練數(shù)據(jù)中包含噪聲的條件下SVDD算法仍能工作。
1.2改進的支持向量數(shù)據(jù)描述參數(shù)更新
模型在實際運行中,如果發(fā)生過程變化,如汽油干點軟測量中精餾塔的原油發(fā)生變化,則測量數(shù)據(jù)會超出檢測判斷的正常范圍。SVDD的參數(shù)半徑和球心應(yīng)隨著數(shù)據(jù)的變化而變化,這樣才能適應(yīng)過程的變化而不會導(dǎo)致誤判正常數(shù)據(jù)為離群點[7]。針對這個過程引入了指數(shù)加權(quán)移動平均(EWMA)魯棒的方式更新SVDD參數(shù),指數(shù)加權(quán)移動平均的公式如下:
(6)
2.1樸素貝葉斯理論
貝葉斯分類器是一種基于統(tǒng)計方法的典型分類模型,它基于貝葉斯理論,先驗概率和后驗概率被巧妙地聯(lián)系在一起,利用先驗信息和樣本數(shù)據(jù)來確定所述事件的后驗概率[8-9]。
(7)
(8)
2.2改進的基于樸素貝葉斯的離群點分類算法
為判斷離群點是否為真正意義上的離群點,采用貝葉斯分類原理對已檢測到的離群點進一步分類。
2.2.1長階躍數(shù)據(jù)的判斷準(zhǔn)則
對于一個階躍干擾,通過計算每個Post-Change Window中的聯(lián)合后驗概率來確定后驗概率的模式。因為,所以對每個子集,階躍幅值可用的均值表示
假設(shè)所有的數(shù)據(jù)都服從高斯分布,則正常狀態(tài)下和發(fā)生階躍后的概率密度函數(shù)分別用和表示。所以,發(fā)生階躍時任意離群點的似然函數(shù)表示為
(10)
把式(10)代入式(11),得
(12)
因此,用式(8)計算的聯(lián)合后驗概率變?yōu)?/p>
(14)
假設(shè)干擾的類型是階躍,則在Post-Change Window中第一個數(shù)據(jù)點的后驗概率是
(16)
僅依靠式(17)無法判斷此時發(fā)生的階躍是否為長階躍。因此,還需要Post-Change Window中更多的數(shù)據(jù)來證明。由于假設(shè)階躍發(fā)生在Post-Change Window的開始,所以隨著樣本數(shù)目的增加,后驗概率也單調(diào)遞增
為提高對長階躍信號檢測和分類的精確性,需讓整個Post-Change Window的后驗概率比置信限大
(18)
2.2.2脈沖數(shù)據(jù)的判斷準(zhǔn)則
對于脈沖信號的干擾,在Post-Change Window中的第一個值提供了脈沖信號的幅值,而階躍信號需要很多數(shù)據(jù)才能確定。因此,對于脈沖干擾,要確定脈沖干擾,首先需滿足式(16),其中,為置信限,滿足分布。
2.2.3短階躍數(shù)據(jù)的判斷準(zhǔn)則
假設(shè)干擾是短階躍,在Post-Change Window中短階躍持續(xù)階段的后驗概率必須滿足和長階躍一樣的關(guān)系:
與式(19)一樣,在Post-Change Window中短階躍持續(xù)階段的后驗概率必須大于1個置信限
(21)
為了識別短階躍干擾結(jié)束,在Post-Change Window后的短階躍的后驗概率必須小于一個閾值:
式(20)~式(22)就是判斷短階躍的準(zhǔn)則。
具體分類過程如圖1所示。
圖1 貝葉斯對離群點的分類過程
聚丙烯以其良好的應(yīng)用性能越來越受到人們的關(guān)注,成為全球發(fā)展最迅速的熱塑性材料。本文以某石化企業(yè)聚丙烯生產(chǎn)裝置采用的Spheripol工藝技術(shù)為例進行仿真。數(shù)據(jù)來源為某石化公司在2007年8月~12月間,聚丙烯的生產(chǎn)過程數(shù)據(jù)[10]。結(jié)合現(xiàn)場操作中的實際經(jīng)驗和機理分析的結(jié)果,選定用于建立聚丙烯熔融指數(shù)軟測量的輔助變量有:第一環(huán)管反應(yīng)器R201中丙烯的濃度、氫氣的濃度、催化劑的濃度;第二環(huán)管反應(yīng)器R202中丙烯的濃度、氫氣的濃度、催化劑的濃度以及總的宏觀反應(yīng)熱?,F(xiàn)場采用DCS系統(tǒng),每20 s采集一次數(shù)據(jù),而化驗數(shù)據(jù)每4 h一次,經(jīng)過時序匹配等處理后得到379組數(shù)據(jù),其中229組用來建模,150組用來測試。
圖2 熔融指數(shù)的離群點檢測
表1 兩種離群點檢測方法性能對比
當(dāng)過程發(fā)生變化,數(shù)據(jù)偏離原來的中心范圍時被判為離群點,因此離群點的參數(shù)更新才不會被誤判,而不能實現(xiàn)參數(shù)更新。在短階躍型離群點判別前,根據(jù)聚丙烯熔融指數(shù)的先驗知識規(guī)定1個離群點為脈沖型離群點;連續(xù)2~15個離群點為短階躍型離群點;連續(xù)15個以上的離群點表示過程切換。所以,用來測試的180組數(shù)據(jù)的第37~40組數(shù)據(jù)規(guī)定為短階躍型數(shù)據(jù)。沒有參數(shù)更新和分類的SVDD離群點檢測的仿真結(jié)果如圖3所示,有參數(shù)更新和分類的SVDD離群點的仿真結(jié)果如圖4所示。
圖4 有參數(shù)更新和分類的SVDD離群點檢測
由圖3和圖4可知,本文所提出的離群點分類方法可行,能夠很好地判斷出離群點的類型。針對不同類型的離群點采取不同的方法來處理,用時間校正方法的自回歸移動平均模型對離群點進行校正,校正后的仿真結(jié)果如圖5所示。
圖5 聚丙烯熔融指數(shù)離群點校正的曲線
校正數(shù)據(jù)時沒有對過程變化引起的數(shù)據(jù)進行校正說明本文提出的離群點分類算法起了很好的效果。對離群點校正前和校正后的數(shù)據(jù)用LSSVM建模。圖6和圖7分別為兩種情況的預(yù)測曲線,表2列出了2種方法的泛化誤差。
圖6 離群點校正前的熔融指數(shù)預(yù)測曲線
圖7 離群點校正后的熔融指數(shù)預(yù)測曲線
表2 模型預(yù)測誤差比較
由表2中的定量數(shù)據(jù)可知采用改進后的離群點檢測方法處理的數(shù)據(jù)建模,模型的預(yù)測效果更好,泛化能力更強。
以聚丙烯熔融指數(shù)為研究對象,對本文的離群點檢測、分類、校正等方法進行驗證,結(jié)果表明:所給出的SVDD檢測方法能很好地應(yīng)用在離群點檢測中,其中基于Bayesian算法的離群點分類方法較好地對脈沖型離群點、短階躍型離群點和長階躍型數(shù)據(jù)進行區(qū)分,用離群點校正后的數(shù)據(jù)建模提高了模型的預(yù)測精度。
[1] 吳長江.常壓蒸餾產(chǎn)品質(zhì)量與收率預(yù)測模型建立與應(yīng)用[D].大慶:大慶石油學(xué)院,2008.
[2] 俞金壽,劉愛倫,張克進.軟測量技術(shù)及其在石油化工中的應(yīng)用[M].1版.北京:化學(xué)工業(yè)出版社,2000:2-7.
[3] 李海青,黃志堯.軟測量技術(shù)原理及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2000.
[4] Wang Jin, He Q Peter. A Bayesian approach for disturbance detection and classification and its application to state estimation in run-to-run control[J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(2): 126-136.
[5] Galicia H, He Q, Wang Jin. Adaptive outlier detection and classification for online soft sensor update[J]. Advanced Control of Chemical Processes, 2012, 8(1):402-407.
[6]Hawkins D M. Identification of outliers[M]. 1980.
[7] 王震.基于距離的離群點檢測算法分析與研究[D].重慶:重慶大學(xué),2011.
[8] Pell R J. Multiple outlier detection for multivariate calibration using robust statistical techniques[J]. Chemometrics and Intelligent Laboratory Systems, 2000, 52(1): 87-104.
[9] 趙玉霞,王克如,白中英,等.貝葉斯方法在玉米葉部病害圖像識別中的應(yīng)用[J].計算機工程與應(yīng)用,2007,43(5):193-195.
[10] 巨穩(wěn),田學(xué)民.基于混合核函數(shù)的OLS軟測量建模方法研究[J].石油化工自動化,2011,47(1):31-35.
Soft Sensor Research Based on Improved Outlier Detection
Fu Xiaoxing Yu Zuojun
(College of Information and Control Engineering in the University of Petroleum)
A soft sensor research based on improved outlier detection is proposed and the method of outlier detection based on support vector data description (SVDD) is introduced in this paper. To determine whether the outliers get is authentic, the concept of outlier classification is put forward. The application of industrial polypropylene melt index soft measurement modeling has indicated that method has better prediction accuracy and generalization performance.
Soft Measurement; Outlier Detection; Bayesian Classification
付曉幸,女,1990年生,碩士研究生,主要研究方向:工業(yè)過程建模、控制與優(yōu)化等。E-mail:ymnlfuxiaoxing@126.com
于佐軍,男,1960年生,碩士生導(dǎo)師,主要研究方向:工業(yè)過程建模、控制與優(yōu)化等。E-mail:yuzuojun@gmail.com