汪愷,杜文莉,3,隆建
(1 華東理工大學信息科學與工程學院,上海200237; 2 華東理工大學化工過程先進控制和優(yōu)化技術教育部重點實驗室,上海200237; 3 化學工程聯(lián)合國家重點實驗室(華東理工大學),上海200237)
近年來,近紅外光譜分析技術已被廣泛應用于各個領域的在線過程分析中,如煤礦[1]、醫(yī)療[2]、食品[3]、石油[4]等行業(yè)。例如,在汽油調和過程中,近紅外光譜已被用于評估產品研究法辛烷值(research octane number,RON)、馬達法辛烷值(motor octane number,MON)、最終沸點(final boiling point,FBP)、密度和烯烴含量等[5?6]。使用這種方法最大的優(yōu)勢是它能夠實時記錄光譜來捕獲過程屬性,并用于分析化學混合物中的物質成分。校準模型通常是由光譜與參考濃度的成分共同構成的定量預測關系。然而,在某些情況下模型性能可能發(fā)生惡化,例如過程特性的變化[7?8]。傳統(tǒng)的波長選擇方法大多只能離線建立模型,在汽油屬性的在線檢測過程中,這些方法所選擇的波長結構將保持不變;而在實際生產過程中,受到儀器誤差、調和配方、原油種類等改變的影響,原先建立的近紅外光譜模型的預測性能也會發(fā)生改變。而且在不同工況下,由于參調組分油種類及屬性等因素的影響使得相同波長區(qū)間所包含的信息量不同。在在線檢測過程中使用固定的波長結構將會導致模型的預測性能隨著時間推移而降低[9]。本文提出了一種在線自適應近紅外波長選擇方法,可以根據(jù)新測量的光譜數(shù)據(jù)實時更新最優(yōu)波長區(qū)間,并給出了在實際汽油工業(yè)應用中的有效性。
近紅外光譜數(shù)據(jù)通常包含多達幾百上千的變量,變量間具有較強的相關性,而且相比于維數(shù)較高的變量數(shù),有標簽樣本數(shù)量較少,對于這種問題具有潛變量提取功能的方法如主成分分析(principal component regression, PCR)[10]和偏最小二乘(partial least squares,PLS)[11?12]回歸方法被廣泛應用于近紅外光譜定量分析中,這些方法即可降低變量維數(shù),也可消除變量間的相關性。另外研究人員也提出了消除無信息變量的波長選擇方法,這些方法主要可以分為兩類:(1)單個波長選擇,如Monte Carlo 無 信 息 變 量 消 除[13];遺 傳 算 法[14];粒 子 群 算法[15];重要變量投影法[16];變量迭代空間收縮法[17];動態(tài)聯(lián)合互信息[18]和局部線性投影法[19];(2)區(qū)間波長選擇,此類方法的目的是找到包含豐富信息的光譜帶,相較于單個波長選擇,區(qū)間波長選擇方法可以使得模型更加穩(wěn)定,間隔偏最小二乘是一種非常典型的區(qū)間波長選擇方法,這種方法將光譜分成等寬的光譜帶,在每一個譜區(qū)建立PLS子模型,并根據(jù)交叉驗證均方根值進行區(qū)間選擇[20]。但是選擇單一區(qū)間且對區(qū)間寬度沒有進行優(yōu)化。后向區(qū)間偏最小二乘[21]和協(xié)同區(qū)間偏最小二乘[22]是基于區(qū)間偏最小二乘的改進對區(qū)間組合進行了優(yōu)化。除此之外還有移動窗口偏最小二乘[23],間隔變量迭代空間收縮法[24]以及一些改進算法[25?26]。
上述波長選擇方法在實際應用中都取得了很好的效果,但是均為離線建模方法。這類方法離線構建波長結構,在實際應用過程中所構建的波長結構保持不變。在汽油調和過程中,汽油屬性檢測的準確性至關重要,要求近紅外模型可以根據(jù)現(xiàn)場工況進行實時調整。為了彌補現(xiàn)有建模方法的不足,本文提出一種自適應波長選擇方法,并應用于實際汽油辛烷值屬性實時分析中。在利用該技術對汽油辛烷值屬性實時分析的過程中,將分為離線與在線兩個部分。在離線過程中將樣本庫中樣本光譜的波長等間隔地分成若干波長區(qū)間,之后在每個波長區(qū)間上建立局部高斯過程回歸(Gaussian process regression,GPR)模型;在在線過程中,當采集到新的待測樣本時,根據(jù)離線過程中的分區(qū)方式將待測樣本分成若干波長區(qū)間,并將每一區(qū)間的光譜數(shù)據(jù)分別代入離線過程中建立的局部GPR 模型中計算變量重要性指標,且根據(jù)該指標選擇一個或者多個波長區(qū)間作為最優(yōu)波長選擇范圍,并在此最優(yōu)波長選擇范圍下建立汽油辛烷值近紅外光譜模型。該方法可以根據(jù)實際工業(yè)情況實時更新波長區(qū)間結構和汽油辛烷值屬性模型。
汽油近紅外光譜中包含了大量的汽油的物理和化學信息,對于不同的屬性并不是所有波長點的貢獻都相同,含有無效信息的波長點可能會引入噪聲等干擾,導致模型的性能和解釋性降低,并且增加了計算的復雜度。因此波長選擇是建立可靠的近紅外光譜模型的至關重要的步驟。針對特定的樣品,通過對波長的適當選擇可以盡可能地取出無信息變量對校正模型的影響,并且簡化模型、提高模型的預測精度和魯棒性。
傳統(tǒng)的波長選擇方法是離線進行的,在模型維護的間隔波長結構保持不變。然而,在應用于汽油調和過程中的近紅外分析系統(tǒng)中,需要對汽油的相關性質進行在線監(jiān)測,傳統(tǒng)靜態(tài)的波長選擇方法往往導致模型無法較好地跟蹤工況和環(huán)境的變化,造成模型的預測精度下降,模型的適應性較差。為了提高近紅外光譜模型的適應性和使用壽命,波長結構的實時更新是具有重要意義的。本文提出一種基于高斯過程回歸的自適應波長區(qū)間選擇方法,該方法根據(jù)待測樣本的特性自適應地選擇波長區(qū)間,提高模型的工況跟蹤能力和適應性。
高斯過程回歸是一種有監(jiān)督的機器學習算法,它通過提出許多概率預測函數(shù)來插值觀測值,并對觀測值進行驗證。一些研究表明GPR 在小樣本和非線性等復雜回歸問題上有較好的表現(xiàn)[27?31]。
對于訓練數(shù)據(jù)集X ∈Rn×m和y ∈Rn,其中X =[x1,x2,…,xn],xi是輸入數(shù)據(jù)即m 維的光譜數(shù)據(jù),y 為輸出數(shù)據(jù)即汽油屬性值。高斯過程回歸模型可以在X 和y 之間建立函數(shù)關系y = f(x),而回歸函數(shù)y = f(x)服從均值為0的高斯先驗分布:
式中,GP(0,C)表示均值為0 且協(xié)方差函數(shù)為C的高斯過程。C是n×n協(xié)方差矩陣,其第ij元素定義為Cij=(xi,xj)。為了計算GPR 模型,可以選擇不同的協(xié)方差函數(shù),本文使用了一種常用的協(xié)方差函數(shù)表述形式:
其中:
ynew的后驗概率為:
其中:
在近紅外光譜定量分析中多元校正方法發(fā)揮著不可或缺的作用,多元校正方法的質量取決于對象和變量的質量。近紅外光譜通常由寬、弱、非特異性和重疊帶組成[14]。此外,近紅外數(shù)據(jù)集維度較高可達到數(shù)千個波長。因此,可能存在一些不相關的變量進行多元校正。消除非信息變量可以簡化模型,提高模型的準確性和魯棒性。通過選擇包含特定樣品或組分特定信息的特征波長而不是全光譜,可以獲得更好的定量校準模型。而傳統(tǒng)的波長選擇方法大多都為離線選擇方法,即僅利用已有樣本集進行分析,所選波長區(qū)間不會根據(jù)待測樣本不同而進行改變。
本文基于高斯過程回歸方法進行變量重要性分析,可根據(jù)待測樣本的特性調整優(yōu)選波長區(qū)間。如2.1 節(jié)中所述,在高斯過程回歸方法中,對于待測樣本xnew,其回歸預測目標值ynew的表示形式為一服從高斯分布,而ynew的最佳估計值為該分布的均值= μynew。由上節(jié)可以看出估計值的不確定性可以通過該概率分布的方差進行表示:
而估計值ynew的不確定性同時也反映了最優(yōu)估計值-ynew的可信度,如果預測值ynew的方差越大,ynew的不確定性越強,則-ynew的可信度越低,即模型可以準確預測待測樣本xnew的能力越弱;反之,當ynew的方差越小,則表示模型可以準確預測待測樣本xnew的能力越強。以此為基礎,將其應用于近紅外光譜分析的波長選擇過程中。
基于高斯過程回歸的變量重要性分析方法首先將全部光譜分成不同的若干區(qū)間,在每一個波長區(qū)間上都建立高斯過程回歸模型,當獲得待測樣本xnew時,需按照相同劃分規(guī)則將待測樣本xnew劃分成若干個變量子集xnew=[x1,new,x2,new,…,xk,new],并將所有變量子集代入對應的局部高斯過程回歸模型中,可得到一組方差數(shù)據(jù)
式中,FS(xi,new)表示對應變量子集xi,new的波長區(qū)間中包含的有用信息量。FS 越大,波長區(qū)間內包含的有用信息越多;反之,F(xiàn)S 越小,波長區(qū)間內包含的無用信息越多。式(7)中引入了新樣本xnew的信息,因此本文提出的變量重要性指標可以根據(jù)待測樣本實時調整。
為了降低在線過程中的計算成本,本文所提出的在線自適應區(qū)間GPR 波長選擇方法分為離線和在線兩個部分。如圖1 所示,該方法的離線過程中將波長等距離的劃分成若干個波長區(qū)間,并且在每個波長區(qū)間下基于樣本庫中的樣本建立局部GPR模型。在線過程中將采樣得到的新的待測樣本根據(jù)離線過程的分區(qū)方式進行分區(qū),之后代入到對應GPR 模型中計算波長區(qū)間重要性指標,實時更新波長區(qū)間。方法的詳細步驟如下所示。
離線過程:
(1)收集樣本的近紅外光譜及其對應的濃度信息,建立樣本庫,并對所有樣本的光譜進行基線校正,濃度信息進行標準化處理;
(2)將樣本庫中樣本的光譜等間隔的劃分成k個波長區(qū)間,間隔步長為z個波長點;
(3)基于樣本庫中的樣本對每一個波長區(qū)間建立局部GPR模型hi(i = 1,2,…,k)。
在線過程:
(1)獲取待測樣本的近紅外光譜,并對該光譜進行基線校正得到xnew;
(2)根據(jù)離線過程步驟(3)中的劃分規(guī)則將待測 樣 本 xnew分 割 成 k 個 區(qū) 間 光 譜 xnew=[x1,new,x2,new,…,xk,new];
(3)將待測樣本xnew分割后的區(qū)間近紅外光譜數(shù)據(jù)xi,new代入到對應的離線過程步驟(4)得到的局部GPR 模型hi中,計算波長區(qū)間重要性指標FS(xi,new);
(4)根據(jù)計算得到的波長區(qū)間重要性指標FS(xi,new),選擇重要性指標最大的j 個波長區(qū)間作為最終的最優(yōu)波長區(qū)間。
本文所提出方法的偽代碼如下所示:
算法:在線自適應區(qū)間GPR 波長選擇方法——離線過程
輸入:光譜數(shù)據(jù)X =[x1,x2,…,xn],汽油屬性數(shù)據(jù)y,區(qū)間個數(shù)k
開始:
將光譜數(shù)據(jù)等間隔的劃分成k個波長區(qū)間
for i=1:k do
圖1 在線自適應區(qū)間GPR波長選擇方法Fig.1 Online adaptive interval GPR wavelength selection method
在第i 個區(qū)間Xi上建立局部GPR 模型hi(i =1,2,…,k)
end
算法:在線自適應區(qū)間GPR 波長選擇方法——在線過程
輸入:待測樣本的近紅外光譜xnew,區(qū)間個數(shù)k,局部模型集合[h1,h2,…,hk]
開始:
While
將光譜數(shù)據(jù)等間隔的劃分成k 個波長區(qū)間xnew=[x1,new,x2,new,…,xk,new]
for i=1:k do
將xi,new代入局部模型hi中計算得到=C(xi,new,xi,new)?KT(xi,new)C?1K(xi,new)
end
對FS 進行排序并與FS(x1,new)> FS(x2,new)> …>FS(xj,new)> …> FS(xk,new)
更新的最優(yōu)波長區(qū)間Xbest=[X1,X2,…,Xj]
end
本研究中使用的所有樣本來自國內一家煉油廠的在線汽油調和最優(yōu)控制生產線。使用Guided Wave 光柵型在線近紅外光譜儀采集汽油樣本的光譜,其波長范圍為1000~1600 nm,實際使用的波長范圍為1100 ~1300 nm,共包含201 個變量。數(shù)據(jù)集包含486 組樣本,其中172 組數(shù)據(jù)作為訓練數(shù)據(jù),294組數(shù)據(jù)作為測試樣本。本研究以汽油RON值作為估計值,數(shù)據(jù)集中的RON 值通過離線實驗室分析獲得。
實驗驗證了波長區(qū)間實時更新的必要性和所提出的在線自適應區(qū)間GPR 波長選擇方法的有效性。為了證明AIGPR 的優(yōu)勢,另外與2 種方法進行了比較,具體如下:
(1)重要變量投影法(VIP)[7]利用重要變量投影法進行波長選擇,并建立PLS 模型。該方法是一種離線的波長選擇方法,在預測過程中用于建模的波長結構保持不變;
(2)改進的相關系數(shù)法(RV)[16]利用改進的相關系數(shù)法對波長進行選擇,并建立局部PLS 模型。在應用過程中,每一個待測樣本都對波長結構進行更新。因此,每個新獲得的待測樣本均對應一個局部模型;
各個模型的預測效果如表1 所示,模型的性能由均方根誤差RMSEP和擬合優(yōu)度R2證明,R2的取值范圍為0 式中,n 為樣本個數(shù);yi為第i 個樣本的實驗值;為第i個樣本的預測值;為實驗值的平均值。 從表1 中可以看出:AIGPR?PLS 與RV?PLS 方法的預測效果相近,而其中AIGPR?PLS 的擬合優(yōu)度為三個模型中最大,且均方誤差RMSEP為最小。三種波長選擇方法中,VIP?PLS 擁有最低的均方根誤差和最大的決定系數(shù)。 表1 模型預測結果Table 1 The prediction results of three methods 對比VIP?PLS、RV?PLS 與AIGPR?PLS,可以發(fā)現(xiàn)后兩種算法的模型性能比前一種算法的性能優(yōu)越。這說明在實際應用中波長區(qū)間實時更新是十分必要的。VIP?PLS 的波長結構是固定的,而RV?PLS 和AIGPR?PLS 兩個算法的波長結構是根據(jù)待測樣本的光譜做出調整,使得模型具有更好地跟蹤工況的能力,并且提高了模型的適應性。對比RV?PLS 與AIGPR?PLS 兩種方法,可以發(fā)現(xiàn)在汽油辛烷值預測實驗中,這兩種方法的預測效果相近,這是因為兩種方法都可以根據(jù)待測樣本的光譜特性實時更新所選的波長范圍。而AIGPR?PLS 的預測效果要略優(yōu)于RV?PLS 方法是因為AIGPR?PLS 方法是一種區(qū)間組合選擇方法,該方法可以較好地考慮波長組合效應并提高模型的穩(wěn)定性。表1也展示了RV?PLS和AIGPR?PLS兩種在線自適應波長選擇方法的單個樣本的平均計算時間。在實際應用中,汽油近紅外光譜的采樣間隔為10 min,為兩種方法的計算時間均在5 s 以內,符合實際的在線應用的需求。 圖2 三種方法的波長選擇結果Fig.2 Wavelength selection results of three methods 圖3 兩個待測樣本的波長選擇結果Fig.3 Wavelength selection results of two samples 圖2(a)、(b)和(c)分別為VIP、RV 和AIGPR 三種波長選擇方法對于同一光譜所選擇的最優(yōu)波長組合,從圖中可以發(fā)現(xiàn)三種方法選擇的波長組合都相對比較集中,其中相比于VIP?PLS 方法,RV?PLS和AIGPR?PLS 兩個方法所選擇的最優(yōu)波長結構更為相似,這可能與這兩種方法都考慮了待測樣本的特性有關,也證明了AIGPR?PLS 方法的實際有效性。 圖3(a)和(b)分別為第1 個待測樣本和第50 個的待測樣本兩個不同階段的AIGPR 波長區(qū)間選擇結果。由圖中可以看出在兩個階段都對1180~1220 nm 區(qū)間的譜圖進行選擇。第50 個待測樣本對1160~1180 nm 和1220~1240 nm 區(qū)間的譜圖進行了選擇,而第1 個待測樣本并沒有選擇這一部分,這可能是因為在調和過程中,兩個階段的調和配方出現(xiàn)調整,使得第50 個汽油樣品中出現(xiàn)了新的物質,原始的波長區(qū)間已經無法滿足之后的建模要求。這個現(xiàn)象也證明了波長區(qū)間實時調整是十分必要的。 本文提出的方法中將光譜等距離地分割成k 個波長區(qū)間,并建立局部GPR 模型。這里的參數(shù)k 的變化對模型有較大的影響,當參數(shù)k 取值過大時會增加計算成本,可能造成延遲,當參數(shù)k 取值過小時,每個波長區(qū)間包含過多的波長點,其中可能包含冗余信息,使得模型中引入噪聲等干擾信息。表2 和圖4 展示了隨著步長z 的改變模型的預測能力的變化趨勢。當步長從5 增加至25 時,隨著步長z的增加,模型的預測誤差RMSEP 降低了51.9%;當步長從25 增至50 時,RMSEP 從0.2035 逐漸增加至0.2979。經過多次試驗本文最終選擇步長為25。 本文提出一種可應用于近紅外光譜模型在線更新技術中的波長選擇方法。該方法基于高斯過程回歸方法,利用不同波段建立的GPR 子模型對待測光譜的預測結果的方差選擇最優(yōu)波長區(qū)間。該方法為一種區(qū)間選擇方法,因為官能團在相對較短的波長范圍內吸收,相對于單個波長點選擇,區(qū)間選擇更有意義,并且具有更好的預測穩(wěn)定性。本文提出的方法可以根據(jù)待測樣本的特性自適應的更新波長區(qū)間結構,提高模型的跟蹤性能。在汽油近紅外光譜預測汽油辛烷值的實驗中驗證了該方法的有效性。在后續(xù)的工作中將對方法中步長的自適應選擇進行進一步的研究。 表2 不同步長的近紅外模型預測結果Table 2 The prediction results of NIR model with different step size 圖4 不同步長的近紅外模型的預測結果Fig.4 The prediction results of NIR model with different step size3.3 參數(shù)分析
4 結 論