楚慶玲,平振東,于明加,唐 鑫
(長安大學,陜西 西安 710064)
汽油是目前小型汽車使用最多的燃料,汽車尾氣排放對空氣污染尤為嚴重。我國也高度重視汽車尾氣排放問題[1]。汽油的清潔對于環(huán)境保護尤為重要。其中,烯烴是汽油中的高辛烷值組分,辛烷值是交通工具所使用的燃料抵抗震爆的指標。為解決車用汽油調(diào)和問題,在盡可能保持汽油辛烷值的同時,降低汽油中的硫和烯烴含量,為應對國Ⅵ車用汽油標準問題提供一定的指導[2]。
機器學習的迅速發(fā)展為建立學習模型提供了許多有效的算法[3-10]。周小偉等人[3]采用多元線性回歸和BP神經(jīng)網(wǎng)絡建立了復雜反映辛烷值的預測模型;經(jīng)測試,BP神經(jīng)網(wǎng)絡的性能較好。朱曉等人[4]研究了化學物質(zhì)的結構與性能之間的關系,利用支持向量機算法建立了基于分子結構的辛烷值預測模型;結果表明,該模型具有較好的預測能力,為烷烴馬達法辛烷值的預測提供了新的思路。孫忠超等人[5]將改進的支持向量機和BP神經(jīng)網(wǎng)絡模型應用于烯烴、烷烴的數(shù)據(jù)預測,建立了汽油中環(huán)烷烴和芳烴辛烷值預測的數(shù)學模型。計算結果表明,在樣本較少的情況下,BP神經(jīng)網(wǎng)絡的預測性能略優(yōu)于改進的支持向量機算法;當樣本數(shù)增加到40個時,兩者的性能有所改善,且沒有顯著差異。
本文采用最大信息系數(shù)篩選特征變量,選取代表性好、獨立性高的主變量,采用徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡預測辛烷值損失,并通過實驗驗證算法的適用性和可行性。
本文采用中石化高橋石化實時數(shù)據(jù)庫和LIMS實驗數(shù)據(jù)庫中的數(shù)據(jù),收集2017年4月至2020年5月近三年共354個操作位點數(shù)。2017年4月至2019年9月,數(shù)據(jù)采集頻次為3 min/次,后續(xù)時間使用采集頻次為6 min/次。原料、產(chǎn)品和催化劑數(shù)據(jù)來自于LIMS實驗數(shù)據(jù)庫,數(shù)據(jù)時間范圍為2017年4月至2020年5月。其中原料及產(chǎn)品的辛烷值是重要的建模變量,該數(shù)據(jù)采集頻次為每周兩次。
原始數(shù)據(jù)中包含大量的缺省值和異常值。缺省值處理過程中,對于只含有部分時間點的位點,如果數(shù)據(jù)中殘缺部分較多,且無法補充,則刪除;若325個樣本中位點數(shù)據(jù)全部為空值,則刪除;對于部分數(shù)據(jù)為空值的位點,用其前后兩個小時數(shù)據(jù)的平均值代替。異常值處理過程中,根據(jù)拉依達準則(3σ準則)進行異常值的處理。首先對被測量變量進行等精度測量,得到x1, x2, ..., xn,計算出被測變量的算數(shù)平均值x:
以及剩余誤差vi:
按照貝塞爾公式算出標準誤差σ:
若某個測量值xb的剩余誤差vb(1≤b≤n)滿足:
最終剔除含有粗大誤差值的異常值xb。
在預處理的數(shù)據(jù)中,兩小時內(nèi)的平均值與目標辛烷值對應,其中出現(xiàn)大量的次要數(shù)據(jù)與冗余數(shù)據(jù),且各個操作變量之間具有高度非線性和相互強耦聯(lián)的關系,所以本文選用可以處理非線性數(shù)據(jù)的相關性分析—最大信息系數(shù)(MIC),衡量兩個變量X和Y之間的關聯(lián)程度,即線性或非線性的強度,通過相關性的強弱完成數(shù)據(jù)的降維操作。
圖1 數(shù)據(jù)降維思路結構圖
1.3.1 最大信息系數(shù)(MIC)
最大信息系數(shù)是一種不需要對數(shù)據(jù)分布做任何假設的評估變量間函數(shù)關系和統(tǒng)計變量的相關性算法[7]。給定有序對數(shù)據(jù)集D={(xi, yi), i=1, 2, ..., 3},如果將X軸劃分出x個格子,Y軸劃分為y個格子,得到一個x×y的網(wǎng)格劃分G,將數(shù)據(jù)集D中的點落入到G中格子的比例看作其概率分布D|G[8]。對于一個固定的數(shù)據(jù)集D,不同的網(wǎng)格劃分則得到不同概率分布D|G,給出最大化信息如下:
對式(5)進行歸一化處理,以便進行不同的維數(shù)之間的比較,固定取值區(qū)間[0,1],則有:
此時,定義數(shù)據(jù)集D中兩個變量x、y的MIC公式如下:
其中B(n)表示需要搜尋的網(wǎng)格數(shù)量,一般設定B(n)=n0.6。
1.3.2 數(shù)據(jù)耦合性
對數(shù)據(jù)中的354個操作變量分別做MIC分析,得到各個操作變量之間對應的相關性系數(shù)。變量之間的相關性系數(shù)越大,證明變量之間的相關性越強。重點研究產(chǎn)品性質(zhì)中硫含量和研究法辛烷值(RON)與其他變量的相關性系數(shù)大小關系,將其分別對應的變量進行相關性系數(shù)大小的排序,選取相關性系數(shù)強度在前100的變量,完成數(shù)據(jù)的初次降維。
將一次降維后的變量進行重新分析,進行二次篩選,如圖2所示。變量二次降維過程重點分析相關性系數(shù)相近的操作變量之間是否存在高度耦合的情況。通過分析操作變量之間的相關性系數(shù)大小,確定變量之間的耦合程度。若相關性系數(shù)較高,則說明數(shù)據(jù)之間存在高度耦合的情況,需要對其進行分類、篩選,在同一類型的數(shù)據(jù)中選取具有代表性的操作變量作為主要操作變量。根據(jù)這個原則,對一次篩選的100個變量進行相關性耦合度分析;將相關性系數(shù)高于0.3作為篩選主要變量的依據(jù),并對數(shù)據(jù)進行提取,得到最終的結果。
圖2 數(shù)據(jù)降維流程
輸入變量具有高度非線性和強耦合性,因此適合建立的是一個非線性數(shù)學模型;又因為實際數(shù)據(jù)量較大,所以本文選擇徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡建立辛烷值損失預測模型。
1.4.1 徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡
RBF神經(jīng)網(wǎng)絡通常只有三層,包含輸入層、徑向基函數(shù)神經(jīng)元的隱含層和輸出層。圖3所示是一個有多輸入、單輸出的RBF神經(jīng)網(wǎng)絡拓撲結構。
圖3 RBF神經(jīng)網(wǎng)絡拓撲圖
第一層輸入層:將外部數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡中,其節(jié)點是由信號源節(jié)點組成。設X=(x1, x2, ..., xn)∈Rn,為RBF神經(jīng)網(wǎng)絡的n個輸入樣本值,即數(shù)據(jù)降維后的28個主要操作變量,xn=28為RBF神經(jīng)網(wǎng)絡的第n個輸入信號矢量。
第二層隱含層:中間層計算輸入矢量xi與樣本矢量ci的歐式距離,對輸入數(shù)據(jù)做非線性變換。節(jié)點的多少直接影響RBF的泛化能力,多數(shù)量節(jié)點的優(yōu)點是結果更加準確,但會降低執(zhí)行效率。令φ(·)為隱含層節(jié)點的激活函數(shù),則有:
其中:||xi-ci||2為歐氏距離;σi為第i個基函數(shù)中心的寬度;ci是第i個節(jié)點的中心值。
第三層輸出層:這是前兩者的線性組合,即從倉儲空間到輸出層空間的變換是線性的,且有:
其中:yi為輸出層第k個節(jié)點的輸出;wi為權值。
RBF神經(jīng)網(wǎng)絡辛烷值損失預測模型具體執(zhí)行步驟如下:
第一步:數(shù)據(jù)的選擇。在上一節(jié)樣本特征數(shù)據(jù)挖掘與提取分析中,有354個操作變量。首先分析變量之間的相關性,得到28個主要變量,其中包括17個可操作變量和11個不可操作變量;然后將其作為BP神經(jīng)網(wǎng)絡預測辛烷值損失的輸入,輸出為產(chǎn)品中的辛烷值。
第二步:數(shù)據(jù)歸一化處理。為提高網(wǎng)絡訓練的精度和速度,樣本輸入進模型之前,先根據(jù)離差標準化將輸入和輸出值進行歸一化處理,得到最終輸出后將數(shù)據(jù)進行反歸一化,便于辛烷值損失的求解。歸一化公式為:
第三步:初始化。確定RBF神經(jīng)網(wǎng)絡輸入層的各個變量和隱含層節(jié)點數(shù)。
第四步:開始訓練。將28個主要操作變量的數(shù)據(jù)輸入到RBF神經(jīng)網(wǎng)絡進行訓練,計算訓練出的結果與實際辛烷值的誤差,不斷修正,直至達到設定誤差范圍結束。
第五步:測試RBF神經(jīng)網(wǎng)絡。將25個樣本數(shù)據(jù)輸入到訓練好的辛烷值損失預測模型中,輸出最終結果,與真實值進行擬合。
第六步:計算辛烷值損失,通過模型中預測出的產(chǎn)品辛烷值推導出預測的辛烷值損失:
其中:RON_loss表示辛烷值損失;I_RON表示原料中辛烷值;P_RON表示產(chǎn)品中的辛烷值。
1.4.2 辛烷值損失預測模型的評估
為了進一步驗證模型的準確性,選取決定系數(shù)R2為評價指標,對預測模型進行評估。
統(tǒng)計學里R2表示決定系數(shù),R2的計算方法為:
其中:SSR為回歸平方和;SST為總平方和;SSE為殘差平方和。
R2的主要特點:(1)決定系數(shù)是非負的統(tǒng)計量;(2)取值范圍:0≤R2≤1;(3)R2是隨機抽樣且變動的隨機變量,是樣本觀測值的函數(shù)。為此,對可決系數(shù)的統(tǒng)計可靠性也應進行檢驗。
原始操作變量經(jīng)過一次降維和二次降維的處理后,最終確定所有的非操作變量和17個可操作變量,共計28個建模主要變量,對這28個變量進行相關性分析。篩選的建模所需主要變量如下:
(1)原料性質(zhì)變量:硫含量、辛烷值、飽和烴體積分數(shù)、烯烴體積分數(shù)、芳烴體積分數(shù)、溴值、密度(20 ℃)。
(2)待吸附劑性質(zhì)變量:待吸附焦炭質(zhì)量分數(shù)、待吸附硫質(zhì)量分數(shù)。
(3)再吸附劑性質(zhì)變量:再吸附焦炭質(zhì)量分數(shù)、再吸附硫質(zhì)量分數(shù)。
(4)其他變量:反應過濾器壓差、精制汽油出裝置流量、原料進裝置流量累計、-S-ZORB.FT_1204.PV、廢氫排放累計流量、火炬氣排放累計流量、原料進裝置流量、累計1、EH101出口、K-101A排氣壓力、K-101A進氣壓力、K-101A進氣溫度、E203重沸器管程出口凝結水流量、加氫裂化輕石腦油進裝置累積流量、汽油產(chǎn)品去氣分累積流量、8.0MPa氫氣至循環(huán)氫壓縮機入口、8.0MPa氫氣至反吹氫壓縮機出口、D101原料緩沖罐壓力。
本文確定模型的輸入為上一步確定的28個主要操作變量,輸出為辛烷值損失。由于主要操作變量影響產(chǎn)品的辛烷值,它們之間具有較強的相關性,其損失與主要操作變量并無較強的相關性,所以對模型的輸出加以更改,將產(chǎn)品辛烷值作為輸出變量,再根據(jù)原料中的辛烷值與產(chǎn)品中辛烷值的關系,求出辛烷值損失。經(jīng)過對模型的不斷改進,最終得到較為準確的損失預測值。
如圖4所示,模型輸出為辛烷值損失,決定系數(shù)R2=0.242 68。改進模型輸出,再次進行預測,如圖5所示,將預測的辛烷值與產(chǎn)品辛烷值進行擬合,決定系數(shù)R2=0.964 8,數(shù)據(jù)擬合效果較上一步的模型效果有明顯的提升。根據(jù)式(11)發(fā)現(xiàn),辛烷值損失的預測效果更加精確。
圖4 RBF神經(jīng)網(wǎng)絡模型預測產(chǎn)品辛烷值損失
圖5 RBF神經(jīng)網(wǎng)絡模型預測產(chǎn)品辛烷值
本文使用中石化高橋石化實時數(shù)據(jù)庫及LIMS實驗數(shù)據(jù)庫對辛烷值損失進行預測。首先分析數(shù)據(jù)特性,處理缺省值和異常值;其次對所有變量進行MIC分析,對變量進行篩選,完成數(shù)據(jù)一次降維,在此基礎上根據(jù)數(shù)據(jù)的強耦合性,對數(shù)據(jù)進行二次降維,篩選出主要變量作為預測模型的輸入;最后,選用RBF神經(jīng)網(wǎng)絡對辛烷值損失進行預測,評估結果表明,曲線擬合精度高,預測結果良好。