王春鵬
(中海油石化工程有限公司,山東 濟南 250001)
Tax等人提出的支持向量數(shù)據(jù)描述(SVDD)是解決單值分類問題的有效方法,SVDD是一種基于支持向量機學(xué)習(xí)的算法;通過一個非線性映射函數(shù),把數(shù)據(jù)從輸入空間映射到一個高維空間,尋找支持向量在特征空間中,構(gòu)造包圍與最小半徑和超球體的最佳點[1]。超球體的描述模型目標類是由支持向量,超球外點被判定為離群點的數(shù)據(jù)不屬于目標類(也稱為離群點)確定。以二維空間為例的超球體示意如圖1所示。
圖1 超球體示意圖
加入拉格朗日乘子αi,βi≥0,將原來的問題(1)可以轉(zhuǎn)化稱無約束的問題(2):
把(2)表示為對偶問題,并引入核函數(shù)來取代特征空間上的內(nèi)積運算得:
當(dāng)模型在實際運行中,如果發(fā)生過程的變化,如汽油干點軟測量中精餾塔的原油發(fā)生變化,那么測量的數(shù)據(jù)也會發(fā)生變化超出我們檢測判斷的正常范圍。因此,SVDD的參數(shù)半徑和球心也得隨著數(shù)據(jù)的變化而變化,這樣才能適應(yīng)過程的變化而不會導(dǎo)致誤判正常數(shù)據(jù)為離群點。
本文針對這個過程引入了指數(shù)加權(quán)移動平均(EWMA)這種魯棒的方式來更新SVDD參數(shù),指數(shù)加權(quán)移動平均的公式如下:
R_old和a_old代表著更新前離群點檢測的判斷參數(shù),R_new和a_new代表著更新后離群點檢測的判斷參數(shù),R_current和a_current是用一定量新的樣本所構(gòu)成的離群點檢測參數(shù)。λ為更新因子代表著參數(shù)更新的速度。
對一個正常的過程,譬如沒有連續(xù)檢測出大量離群點,更新因子我們通常設(shè)定為0.7<λ<0.9。而當(dāng)連續(xù)檢測出大量的離群點時更新因子我們通常設(shè)為0.01<λ<0.05。
貝葉斯分類器是一種基于統(tǒng)計方法的典型的分類模型,它是基于貝葉斯理論,先驗概率和后驗概率被巧妙地聯(lián)系在一起,利用先驗信息和樣本數(shù)據(jù)來確定所述事件的后驗概率[2-3]。
采用貝葉斯分類原理對以檢測到的離群點進一步分類,分類過程如圖2 所示。
圖2 貝葉斯對離群點的分類過程
為了表示在x1點發(fā)生階躍,我們定義置信限C1,則需要滿足:
僅僅依靠公式(7)我們還不能判斷此時發(fā)生的階躍是不是長階躍,因為還有可能是脈沖或者短階躍。因此,我們還需要Post-ChangeWindow中更多的數(shù)據(jù)來證明。由于我們假設(shè)階躍發(fā)生在Post-ChangeWindow的開始,所以隨著樣本數(shù)目的增加,后驗概率也單調(diào)遞增:
為了提高對長階躍信號檢測和分類的精確性,我們需要讓整個Post-ChangeWindow的后驗概率比置信限C2要大:
方程(6)~(9)用來作為判斷長階躍的準則,一般情況下C1取0.8,C2取0.99,本文也是取這個值。
對于脈沖信號的干擾,在Post-ChangeWindow中的第一個值x1提供了脈沖信號的幅值。這是和階躍信號所不同的,階躍信號需要很多數(shù)據(jù)一起才能確定。因此,對于脈沖干擾μD=x1。為了確定脈沖干擾,我們首先需要滿足:
C1為置信限,x1滿足N(μD,σ2)分布。
根據(jù)上面講的長階躍和脈沖干擾的知識,我們很容易確定對短階躍信號的處理。短階躍的幅值μD是對每個Post-ChangeWindow的子集來計算的。同樣的,在Post-ChangeWindow中的第一個值x1應(yīng)滿足:
因為我們假設(shè)干擾是短階躍,在Post-ChangeWindow中短階躍持續(xù)階段的后驗概率必須滿足和長階躍一樣的關(guān)系:
和式(9)一樣,在Post-ChangeWindow中短階躍持續(xù)階段的后驗概率必須大于一個置信限C2:
最后,為了指出短階躍干擾結(jié)束,在Post-ChangeWindow后的短階躍的后驗概率必須小于一個閾值,和式(14)對脈沖干擾一樣:
方程(13)-(15)就是判斷短階躍的準則。
為了驗證所給出的算法的有效性,我們針對化工過程中常用的軟測量技術(shù)進行仿真研究,本文采用某煉化廠航空煤油的干點數(shù)據(jù)進行研究仿真。
首先離線進行離群點的檢測,把檢測到的離群點排除掉然后利用PLS-RBF進行離線建模作為軟測量模型[4],然后,用建立的模型對工業(yè)數(shù)據(jù)進行仿真預(yù)測,最后針對在線過程中檢測到的離群點引入離群點分類方法。
對于大型煉油裝置來說,常減壓蒸餾的主要裝置之一就是常壓塔。航空煤油(簡稱,航煤)是常壓塔的主要餾分,其中一個重要衡量質(zhì)量的指標是其干點,經(jīng)濟效益直接受干點影響。
本文選用的是某煉化公司航空煤油干點數(shù)據(jù),該數(shù)據(jù)是通過DCS采集與干點相關(guān)的現(xiàn)場數(shù)據(jù)生成。采集頻率10 min/次,化驗數(shù)據(jù)采樣6次/d,時間間隔為4 h。共采集樣本數(shù)據(jù)近250組用于仿真研究,其中100組作為訓(xùn)練數(shù)據(jù),150組作為檢驗數(shù)據(jù),其中150組數(shù)據(jù)中后50組是代表了過程變化。
本文建模之前,了解現(xiàn)場工藝情況及向相關(guān)工藝人員咨詢后,確定其中9個過程變量為該模型的輔助變量,首先采用主元分析法,設(shè)定貢獻率為90%,提取了6個主元作為模型的輸入。首先我們針對100組訓(xùn)練數(shù)據(jù)進行離線離群點檢測,為了說明我們所引入的支持向量數(shù)據(jù)描述方法的有效性我們和常規(guī)離群點判別方法“3δ”方法進行對比。下圖為兩者對離群點的檢測圖像。其中現(xiàn)場采集的數(shù)據(jù)時所規(guī)定的溫度為253℃允許誤差為±1.5%。仿真圖像如圖3、4。
圖3 航空煤油干點的3δ離群點檢測
圖4 航空煤油干點的SVDD離群點檢測
表1是在計算機上的仿真參數(shù),本文以Matlab10.0(a)作為工具,計算機配置為2.82GHz。
表1 兩種離群點檢測方法性能對比
由圖3、4和表1比較可得,SVDD的離群點檢測方法要比 方法檢測率要高,也就是說誤判率要小,但是SVDD仿真時間比 要長。但是對于離線處理數(shù)據(jù)而言我們要求高檢測率為第一位,因此SVDD可以很好的作為離群點檢測的方法。針對離群點檢測完的數(shù)據(jù)采用PLS-RBF建模。仿真如圖5。
圖5 不含離群點的PLS-RBF建模曲線
當(dāng)模型建好之后在運行過程中,我們要實時的對采集的數(shù)據(jù)進行預(yù)測,有離群點的時候我們也會通過SVDD算法進行檢測,但是當(dāng)化工過程受到物料變化,工藝切換等改變生產(chǎn)流程的影響時,我們所預(yù)測到的數(shù)據(jù)因為偏移了所規(guī)定的范圍將會被連續(xù)的誤判為離群點,針對這個問題我們引入的離群點分類的概念就可以輕松的解決這個問題。下面還是以航空煤油干點作為研究的對象,這次我們用100組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),150組數(shù)據(jù)作為測試數(shù)據(jù),其中150組測試數(shù)據(jù)中前100組是和訓(xùn)練數(shù)據(jù)是同一過程的數(shù)據(jù),而后50組數(shù)據(jù)是同一生產(chǎn)裝置在改變原料時所確定的數(shù)據(jù),以此來表示過程的變化來驗證本文所給出出的貝葉斯分類方法的有效性。其中前100組數(shù)據(jù)時的狀態(tài)所規(guī)定的的標準數(shù)值為253℃允許誤差為±1.5%,而后50組數(shù)據(jù)的規(guī)定標準值為273℃允許誤差為±1.5%,根據(jù)先驗知識規(guī)定在航空煤油干點仿真過程中本文提出的只有1個離群點為脈沖型離群點,短階躍離群點規(guī)定為連續(xù)2~10離群點,連續(xù)10個以上的離群點為長階躍離群點也就是新的過程變化,仿真圖像如圖6、7。
圖6 沒有參數(shù)更新和分類的離群點檢測
圖7 有參數(shù)更新和分類的離群點檢測
由圖6和圖7可知,當(dāng)加入Bayesian分類算法和SVDD參數(shù)更新時由過程變化的所引起的數(shù)據(jù)偏移不會被誤判為離群點。由上圖也很容易看出,當(dāng)過程發(fā)生變化后模型的預(yù)測已經(jīng)完全不符合實際了,這是由于模型還是原來的模型并沒有根據(jù)實際數(shù)據(jù)進行更新,在第四章將會介紹模型更新的相關(guān)算法。由于汽油干點過程沒有本文所給出出的短階躍離群點狀態(tài),所以在下面的聚丙烯熔融指數(shù)的軟測量仿真過程中將會體現(xiàn)。
本文主要對離群點檢測和分類的算法進行了分析和研究。根據(jù)故障檢測的理論,對在線軟測量模型引入了基于支持向量數(shù)據(jù)描述(SVDD)算法的離群點檢測方法。通過仿真研究驗證了該方法作為離群點檢測算法的有效性。針對實際過程的變化也會引起數(shù)據(jù)的偏移,導(dǎo)致誤判為離群點處理掉問題,本文創(chuàng)造性的引入了離群點分類的概念,將離群點根據(jù)實際工況的先驗知識主要分為脈沖型、短階躍型和長階躍型,其中,脈沖型和短階躍型是我們要排除的真正意義上的離群點而長階躍型是代表了化工過程的變化。本文離群點的分類算法采用的是貝葉斯分類算法。通過航空煤油干點數(shù)據(jù)的仿真研究該方法能有效的判斷出離群點的類別,從而實現(xiàn)對離群點的分類。
參考文獻
[1]黃光鑫.支持向量數(shù)據(jù)描述與支持向量機及其應(yīng)用[D].成都:電子科技大學(xué),2011.
[2]周開武.貝葉斯方法在化工軟測量建模中的應(yīng)用研究[D].無錫:江南大學(xué),2009.
[3]劉 敏.臭氧技術(shù)中的神經(jīng)網(wǎng)絡(luò)軟測量建模研究[D].大連:大連理工大學(xué),2003.
[4]Qin S J,McAvoy T J.Non-linear PLS modeling using neural networks.[J] Comput Chem Eng,1992,16:379-391.