亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進PCA-RFR算法的汽油辛烷值損失預測模型的構(gòu)建與分析

2022-01-13 00:25:08佟國香

石油學報(石油加工) 2022年1期

蔣偉，佟國香

(上海理工大學光電信息與計算機工程學院，上海 200000)

研究法辛烷值(RON)是反映汽油燃燒性能的最重要指標。按照車用汽油國家標準，車用汽油RON應分別達到89/92/95。中國現(xiàn)有技術(shù)在對催化裂化汽油進行脫硫和降烯烴過程中，普遍降低了汽油辛烷值，每降低一個單位的辛烷值約相當于損失150 CNY/t[1-4]。為了盡可能減少汽油催化裂化過程中辛烷值的損失，需要建立化工過程模型對RON損失進行預測[5-8]。由于煉油工藝過程的復雜性以及設備的多樣性，催化裂化中涉及到的操作變量之間具有高度非線性和相互強偶聯(lián)的關系；且傳統(tǒng)的數(shù)據(jù)關聯(lián)模型中變量相對較少、機理建模對原料的分析要求較高，對過程優(yōu)化的響應不及時，也很難全面地描述工藝過程，所以建模的效果并不理想[9-15]。孔金生等[16]對催化裂化數(shù)據(jù)進行了預處理并建立了粗汽油終餾點的神經(jīng)網(wǎng)絡模型，4.7%的樣本誤差小于±1 ℃、98.3%的樣本誤差小于±2 ℃、樣本均方差為0.7379 ℃、絕對誤差的平均值為0.5779 ℃，結(jié)果證明該模型具有較高的預測能力。楊帆等[17]基于某石化企業(yè)的LIMS及DCS中的工業(yè)生產(chǎn)數(shù)據(jù)，利用GBDT模型預測汽油收率，模型預測準確率為98.9%，平均絕對誤差為0.531%。張忠洋等[18]以某煉油廠催化裂化反應-再生系統(tǒng)為研究對象，用遺傳算法優(yōu)化了已建立的6-11-1結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡，成功將汽油產(chǎn)率預測均方誤差從5.16%降低到4.92%。上述研究都是通過神經(jīng)網(wǎng)絡、遺傳算法等人工智能算法對工業(yè)經(jīng)驗中已知的影響催化裂化產(chǎn)品收率的指標進行分析，并構(gòu)建催化裂化汽油收率預測模型，實現(xiàn)相應的汽油產(chǎn)率預測。通過建立化工過程模型，基于數(shù)據(jù)挖掘技術(shù)，對重要指標的相關數(shù)據(jù)進行分析，尋找優(yōu)化方案，最終實現(xiàn)催化裂化裝置經(jīng)濟效益的提升。但是基于神經(jīng)網(wǎng)絡的預測模型的解釋性較差，基于遺傳算法的預測模型無法處理大規(guī)模復雜問題且其自身存在局部最優(yōu)性。因此，筆者將使用主成分分析算法對數(shù)據(jù)進行降維，降低算法的計算開銷，結(jié)合具有較好解釋性的樹類隨機森林模型進行預測。

為了優(yōu)化汽油精制處理過程，實現(xiàn)最大化經(jīng)濟效益，對裝置運行積累的數(shù)據(jù)進行分析，利用隨機森林回歸模型進行預測，并在實際生產(chǎn)中指導生產(chǎn)，及時優(yōu)化操作變量。筆者以霍尼韋爾(PHD)實時數(shù)據(jù)庫及實驗室信息管理系統(tǒng)(LIMS)數(shù)據(jù)庫的數(shù)據(jù)為基礎，基于改進主成分分析的隨機森林回歸PCA-RFR模型，對操作變量進行篩選，構(gòu)建了汽油辛烷值損失預測模型。

1 數(shù)據(jù)預處理

1.1 數(shù)據(jù)格式統(tǒng)一

筆者使用的原始數(shù)據(jù)來自于中國石化上海高橋分公司催化裂化汽油精制脫硫裝置的PHD實時數(shù)據(jù)庫及LIMS實驗數(shù)據(jù)庫。通過PHD及LIMS數(shù)據(jù)庫采集到原料、產(chǎn)品和催化劑等相關數(shù)據(jù)，其采集頻率為2次/周。為了采集到足夠多的數(shù)據(jù)，并保證實驗的準確性和有效率，LIMS數(shù)據(jù)分別采集了從2017年4月至2019年9月和2019年10月至2020年5月2個時間段，共約3年。通過PHD數(shù)據(jù)庫可采集到操作變量數(shù)據(jù)，第一時間段數(shù)據(jù)采集頻次為3 min/次，第二時間段數(shù)據(jù)采集頻次為6 min/次。原始數(shù)據(jù)包括7個原料性質(zhì)、2個待生吸附劑性質(zhì)、2個再生吸附劑性質(zhì)、2個產(chǎn)品性質(zhì)等不可操作變量以及另外354個操作變量(共計367個變量)，將所有的數(shù)據(jù)按照時間戳降序排列，以方便系統(tǒng)化的數(shù)據(jù)處理和分析。再對數(shù)據(jù)進行如下處理：

(1)數(shù)據(jù)格式統(tǒng)一。第二個字段為Timestand類型，不符合Float類型，直接將此列刪除。

(2)缺失數(shù)據(jù)填充。刪除缺失率大于20%的數(shù)據(jù)列，對于缺失率小于20%的數(shù)據(jù)列，使用其前后2 h數(shù)據(jù)的平均值進行替代填充。

(3)噪聲處理。根據(jù)工藝要求與操作經(jīng)驗，總結(jié)出原始數(shù)據(jù)變量的操作范圍，刪除不在該范圍的數(shù)據(jù)。

(4)根據(jù)拉依達準則(3σ準則)去除異常值。3σ準則：對被測量變量進行等精度測量，得到x1，x2，……,xn，計算其算術(shù)平均值x及剩余誤差vi=xi-x(i=1,2,…,n)，利用按貝塞爾公式計算標準誤差σ，若某個測量值xb的剩余誤差vb(1≤b≤n)滿足|vb|=|xb-x|>3σ，則認為xb是含有粗大誤差值的壞值，應予剔除。貝塞爾公式如式(1)所示。

(1)

1.2 模型變量篩選

數(shù)據(jù)中含有354個操作變量，如果將所有操作變量都考慮進去，不但會增加計算的復雜度，并且由于樣本數(shù)量太少，導致過擬合，從而影響模型準確性。由于煉油工藝過程的操作變量之間具有高度非線性和相互強偶聯(lián)的關系，考慮采用改進PCA算法對處理后的數(shù)據(jù)進行降維，篩選出相關性較高的30個操作變量作為預測模型的輸入，改進PCA算法執(zhí)行過程如下：

(1)對數(shù)變換。傳統(tǒng)的主成分分析是一種線性的降維方法，為了實現(xiàn)對高度非線性數(shù)據(jù)的高效處理，采用對數(shù)變化來改變數(shù)據(jù)的分布使其接近假設的模型[19]。設格式統(tǒng)一后的數(shù)據(jù)矩陣如式(2)所示。

X=(xij)n×p

(2)

令yij=lnxij，則對數(shù)變換后矩陣如式(3)所示。

Y=(yij)n×p

(3)

(2)數(shù)據(jù)標準化。為了消除樣本不同屬性具有不同量級的影響，需要對對數(shù)變換后的數(shù)據(jù)進行標準化處理，使結(jié)果值映射到[0～1]之間，轉(zhuǎn)換公式如式(4)所示。

(4)

式中：X*為標準化后的數(shù)據(jù)，X為原始數(shù)據(jù)，Xmax為樣本數(shù)據(jù)的最大值，Xmin為樣本數(shù)據(jù)的最小值。

(3)協(xié)方差矩陣。協(xié)方差矩陣表示一組隨機變量之間的兩兩相關性。根據(jù)標準化矩陣，計算其協(xié)方差矩陣。

(4)主成分特征值得分及其對應貢獻率。對協(xié)方差矩陣進行奇異值分解求出所有的特征值得分，并從大到小排列。表1為所有特征值中排名前30的得分情況。

表1 排名前30主成分的特征值得分Table 1 The top 30 principal component characteristics

根據(jù)所有的主成分特征值的得分，求出所有主成分的特征值得分占比，以貢獻率(Φ)表示，提取貢獻率前30對應的主成分及其貢獻率。前m個主成分的貢獻率(Φ)如式(5)所示。

(5)

式中：λi為第i個主成分特征值的得分情況;m為1～30。

采用改進PCA算法對所有操作變量進行分析和篩選，得出與RON損失相關性較高的操作變量及其特征值得分和相應貢獻率。如圖1所示。

D-109,D-110,D-113,D-114,D-121,D-122,D-123,D-124,D-125,D-201,D-202 are the serial number of feed liquid storage tanks of S Zorb adsorption desulfurization unit.圖1 主要操作變量及其貢獻率和綜合得分Fig.1 Main operating variables and their contribution rate and comprehensive score

2 模型構(gòu)建

筆者采用改進主成分分析-隨機森林回歸算法PCA-RFR建模。改進PCA-RFR模型結(jié)構(gòu)如圖2所示，包含輸入層、隱藏層、輸出層。RFR從輸入數(shù)據(jù)中隨機抽樣，并訓練得到若干棵決策樹，再將測試集輸入模型中，由各決策樹預測值的平均值決定最終的預測結(jié)果，模型的輸出即為對汽油辛烷值損失的預測值。

圖2 改進PCA-RFR模型結(jié)構(gòu)示意圖Fig.2 Improved structure diagram of PCA-RFR model

算法的執(zhí)行步驟如下：

輸入：篩選出的主要操作變量的數(shù)據(jù)。

Step 1：初始化RFR隨機森林回歸模型，建立訓練集和測試集。

Step 2：從訓練樣本集S中每次隨機取出m個樣本點，得到n個子訓練集。

Step 3：選擇第j個變量和其取值s，作為切分變量和切分點，將每個子訓練集D遞歸地劃分為2個子區(qū)域D1和D2，構(gòu)建二叉決策(回歸)樹。劃分方法如式(6)～式(9)所示。

D1(j,s)=(x,y)∈D|A(x)≤s

(6)

D2(j,s)=(x,y)∈D|A(x)>s

(7)

c1=average(yi|xi∈D1(j,s))

(8)

c2=average(yi|xi∈D2(j,s))

(9)

式(8)～式(9)中：c1為D1的樣本輸出均值；c2為D2的樣本輸出均值。

Step 4：然后尋找最優(yōu)的切分變量以及最優(yōu)的切分點，選擇使式(10)達到最小值的(j,s)。

(10)

Step 5：對2個子區(qū)域重復1和2步驟，直到滿足停止條件。

Step 6：將輸入空間劃分為M個區(qū)域R1，R2，……，Rm，生成多棵CART回歸樹Tm，組成隨機森林。劃分方法如公式(11)所示。

(11)

Step 7：將測試集樣本輸入隨機森林回歸模型中，隨機森林最終的預測結(jié)果即為所有CART回歸樹預測結(jié)果的均值。

3 結(jié)果與討論

筆者所使用的數(shù)據(jù)共有450組，其中，2018年1月1日至2020年5月26日期間的315組數(shù)據(jù)作為訓練集，2017年4月17日至12月29日期間的135組數(shù)據(jù)作為驗證集。通過實驗，分別獲得筆者建立模型PCA-RFR與BP神經(jīng)網(wǎng)絡模型BP-NN和隨機森林模型Random Forest在測試集上的評估標準值，如表2所示。

由表2可以發(fā)現(xiàn)，PCA-RFR模型預測的誤差最小，準確率最高，且R2值接近1，表明該模型非常擬合訓練數(shù)據(jù)。

表2 3種模型的實驗結(jié)果對比Table 2 The experimental results of the three models

在相同的測試集上，分別使用3種模型對汽油辛烷值損失進行預測，并將預測結(jié)果和實際數(shù)據(jù)進行比較，3種模型的汽油辛烷值損失預測值和實際值對比，如圖3所示。由圖3可以看出：BP神經(jīng)網(wǎng)絡模型中的整體預測值在實際值附近上下波動，對汽油辛烷值損失預測有一定的偏離，可以大致地擬合出汽油RON損失的變化趨勢。隨機森林模型對汽油RON損失預測較為平穩(wěn)，大部分預測值與實際值偏差不大，但是模型的預測值變化幅度較小，無法對汽油RON損失的突然變化進行預測。改進PCA-RFR模型對汽油RON損失預測結(jié)果基本與實際值相符，且可以預測出汽油RON損失曲線的突變。對比3種模型對汽油RON損失的預測結(jié)果，改進PCA-RFR模型的預測更加準確。

圖3 3種模型對汽油辛烷值損失預測值和實際值對比Fig.3 The predicted and actual octane loss values of three models(a)Back propagation-neural network (BP-NN);(b)Random forest;(c)Principal component analysis-random forest model (PCA-RFR)

根據(jù)3種訓練模型樣本的實際值和模型的預測值構(gòu)建散點圖，如圖4所示。由圖4可以看出：BP神經(jīng)網(wǎng)絡的回歸樣本呈區(qū)域集中，實際值與預測值差距較大；隨機森林和改進PCA-RFR回歸樣本分布均勻，但后者的預測值與實際值更為接近。

最后，對訓練模型中的450組樣本中硫含量數(shù)據(jù)進行微調(diào)：原數(shù)據(jù)加上一個由random函數(shù)隨機生成的0～1之間的數(shù)，將調(diào)整后的數(shù)據(jù)放入模型的數(shù)據(jù)庫中，通過已建立的PCA-RFR汽油辛烷值預測模型訓練新的數(shù)據(jù)，得出改變硫含量后的汽油RON損失預測，如圖5所示?？梢钥闯觯P者所建立的PCA-RFR預測模型在對操作變量進行優(yōu)化的過程中，能夠非常直觀地展示汽油RON損失值的變化情況，及時為生產(chǎn)控制提供分析數(shù)據(jù)，有效地解決化工過程RON損失預測建模問題。

圖5 硫含量變化后汽油辛烷值損失預測圖Fig.5 Prediction chart of the octane loss after sulfur content change

優(yōu)化過程中主要操作變量調(diào)整后，對應的汽油辛烷值損失和硫含量的相對值變化軌跡，如圖6所示。圖中，汽油辛烷值損失是由參數(shù)調(diào)整后模型的出的結(jié)果與原數(shù)據(jù)模型得出的結(jié)果做差得到的，硫含量的值也是調(diào)整后硫含量的值與原硫含量的值做差得到的?？梢钥闯?，硫含量變化與RON損失變化呈一定的線性相關性，部分點數(shù)值變化幅度過大，分析數(shù)據(jù)存在一定的波動，但仍在重復性標準要求范圍之內(nèi)。

圖6 汽油RON損失值與硫含量變化軌跡圖Fig.6 Track diagram of the gasoline RON loss and sulfur content change

4 結(jié) 論

筆者基于PHD實時數(shù)據(jù)庫及LIMS實驗數(shù)據(jù)庫，通過改進PCA算法，分析各操作變量與實際催化裂化汽油精制處理過程中汽油辛烷值損失的相關性，篩選出了30個潛在影響辛烷值損失的關鍵操作變量作為預測模型的輸入，利用RFR模型預測催化裂化汽油辛烷值的損失，并將模型對汽油辛烷值損失的預測效果作為基準。結(jié)果表明，由改進PCA-RFR構(gòu)建的汽油辛烷值損失預測模型預測結(jié)果的準確率為99.13%，R2為0.983，均方根誤差為3.2169×10-4。模型對真實汽油辛烷值損失的擬合效果非常接近，有助于在實際生產(chǎn)中優(yōu)化操作條件，減少辛烷值的損失，提高生產(chǎn)經(jīng)濟效益。開發(fā)高辛烷值汽油技術(shù)仍然是未來催化裂化發(fā)展的主題，下一步工作考慮采用NSGA-Ⅱ多目標參數(shù)優(yōu)化算法[20]，分析各個操作變量的支配強度Pareto等級和擁擠度，最終找到減少汽油辛烷值損失的Pareto最優(yōu)解集。