亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)挖掘的汽油精制過程辛烷值損失預(yù)測模型

2021-07-27 06:44:57李東超

科技創(chuàng)新導(dǎo)報 2021年5期

李東超

摘? 要：汽油精制過程中造成的辛烷值損失會降低汽油的燃燒效率，如何降低汽油精制過程中辛烷值的損失量是目前相關(guān)企業(yè)面臨的一個重要課題。本文利用我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù)，建立基于神經(jīng)網(wǎng)絡(luò)、測量誤差模型以及DC-SIS數(shù)據(jù)降維方法的兩階段特征篩選模型，選擇出對辛烷值影響比較大的因素。設(shè)計了一種基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值預(yù)測模型，可以實現(xiàn)對不同原材料和不同操作下精制后辛烷值的預(yù)測，經(jīng)驗證，模型的均方誤差為0.06876，所設(shè)計模型在處理辛烷值預(yù)測問題時可以達到比較好的預(yù)測效果。

關(guān)鍵詞：辛烷值? 高維降維? 測量誤差模型? 神經(jīng)網(wǎng)絡(luò)? XGBoost

中圖分類號：TP274? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A? ? ? ? ? ? ? ? ? ? 文章編號：1674-098X（2021）02（b）-0092-05

Prediction Model of Octane Number Loss in Gasoline Refining Process Based on Data Mining

LI Dongchao

（School of Mathematics and Statistics， Nanjing University of Information Science & Technology， Nanjing， Jiangsu Province， 210044 China）

Abstract： The loss of octane number in the process of gasoline refining will reduce the combustion efficiency of gasoline. How to reduce the loss of octane number in the process of gasoline refining is an important issue facing related enterprises. This paper uses the data accumulated by a petrochemical enterprise during the refining process of catalytic cracking gasoline to establish a two-stage feature screening model based on neural network， measurement error model and DC-SIS data dimensionality reduction method， and select the one that has a greater impact on the octane number factor. An octane number prediction model based on XGBoost and neural network is designed， which can predict the octane number after refining under different raw materials and different operations. After verification， the mean square error of the model is 0.06876. A better prediction effect can be achieved in the alkane number prediction problem.

Key Words： Octane number; High dimensionality reduction; Neural networks; XGBoost

汽油是小型車輛的主要燃料，汽油燃燒產(chǎn)生的尾氣排放對大氣環(huán)境有重要影響。降低汽油中的硫、烯烴含量，同時盡量保持其辛烷值是汽油清潔化重點。我國原油對外依存度超過70%，且大部分是中東地區(qū)的含硫和高硫原油。原油中的重油通常占比40%～60%，這部分重油（以硫為代表的雜質(zhì)含量也高）難以直接利用。為了有效利用重油資源，我國大力發(fā)展了以催化裂化為核心的重油輕質(zhì)化工藝技術(shù)，將重油轉(zhuǎn)化為汽油、柴油和低碳烯烴，超過70% 的汽油是由催化裂化生產(chǎn)得到，因此成品汽油中95% 以上的硫和烯烴來自催化裂化汽油。故必須對催化裂化汽油進行精制處理，以滿足對汽油質(zhì)量要求。辛烷值（以RON 表示）是反映汽油燃燒性能的最重要指標。在進行精制處理時，應(yīng)該盡可能減小辛烷值的損失，以保證汽油的燃燒性能[1-2]。

本文嘗試從數(shù)據(jù)挖掘的角度出發(fā)，基于我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù)，對應(yīng)影響辛烷值的因素進行了探索，并利用XGBoost模型建立了辛烷值的預(yù)測模型。

1? 數(shù)據(jù)來源以及數(shù)據(jù)預(yù)處理

本文分析所用的數(shù)據(jù)來自于我國某石化企業(yè)催化裂化汽油精制脫硫裝置在多年運行中積累的操作數(shù)據(jù)。獲取的數(shù)據(jù)中包含325個樣本，每個樣本包括7個原料性質(zhì)、2個待生吸附劑性質(zhì)、2個再生吸附劑性質(zhì)、2個產(chǎn)品性質(zhì)等13個屬性變量以及另外354個操作變量，共計367個變量。而響應(yīng)變量則為精制過程中辛烷值的損失量。

原始數(shù)據(jù)中，大部分變量數(shù)據(jù)正常，但每套裝置的數(shù)據(jù)均有部分變量存在問題：部分變量只含有部分時間段的數(shù)據(jù)，部分變量的數(shù)據(jù)全部為空值或部分數(shù)據(jù)為空值。這些數(shù)據(jù)缺失、不合理/異常的情況需要進行包括數(shù)據(jù)填補、刪除變量、異常值提出等數(shù)據(jù)預(yù)處理。具體的處理方式如下：

（1）對于只含有部分時間點的變量，部分缺失，則填補缺失值，如果缺失較多可將此類變量刪除;

（2）對于樣本中數(shù)據(jù)全部為空值的變量，將此類變量刪除;

（3）對于部分數(shù)據(jù)為空值的變量，空值處用其前后兩個小時數(shù)據(jù)的平均值代替;

（4）對于部分不在范圍內(nèi)的樣本，可根據(jù)操作要求及經(jīng)驗總結(jié)出原始數(shù)據(jù)變量的操作范圍，采用最大最小的限幅方法將其剔除;

（5）對于異常值的處理，可根據(jù)拉依達準則（3準則）去除異常值。

2? 變量篩選

由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性，需要操作的變量較多且各個變量之間具有高度非線性和相互強耦聯(lián)的關(guān)系[3]。這就導(dǎo)致這些變量之間是存在冗余信息的，在進行預(yù)測時引入這些存在冗余的變量，不僅會增大訓(xùn)練的成本，也有可能導(dǎo)致模型過擬合，甚至導(dǎo)致一些模型無法正常構(gòu)建（如多重共線性問題）。因此為了減少過擬合、減少特征數(shù)量（降維）、提高模型泛化能力，也為了使模型獲得更好的解釋性，在建模之前需要首先進行特征篩選處理。

在進行特征篩選時，一個必須堅持的原則就是盡可能充分的挖掘出特征之間的相互關(guān)系，這種相互關(guān)系可能是線性關(guān)系，也可能是非線性的關(guān)系。一般的，線性關(guān)系是比較容易識別出來的，而非線性關(guān)系則相對比較難以識別。因此本文將神經(jīng)網(wǎng)絡(luò)模型和測量誤差模型結(jié)合起來，并采用兩階段處理的思路，創(chuàng)建了一種新的特征篩選的方法。該算法的基本流程如圖1所示。下面對該算法的細節(jié)進行介紹。

一般情況下，在進行工業(yè)操作時，比較接近的工業(yè)操作往往是存在一定的非線性和相互強耦聯(lián)的關(guān)系的，因此本文在篩選變量的第一階段先對相鄰變量間的相互關(guān)系進行探索。具體地，首先對數(shù)據(jù)中的所有變量按照工業(yè)操作順序進行排序處理，得到排序后的變量數(shù)據(jù)集為，其中P為數(shù)據(jù)集中變量的總個數(shù)。然后，再采用滑動分箱的手段將這P個變量分為個“箱子”?；瑒臃窒涞募毠?jié)為：

對于第i個變量X1，我們選中其前后各K個變量作為第i個箱體bini中的變量。對每個變量執(zhí)行上面的操作，可以得到分箱后的箱體集合為，其中值得注意的是，對于靠近邊界處的變量，其某一側(cè)變量的個數(shù)可能不足K個，則按不足 K個變量選擇。

完成對變量的分箱之后，下面對每個箱體內(nèi)部變量之間的相關(guān)性進行探索?？紤]變量之間的關(guān)系可能不是簡單的線性關(guān)系，本文利用神經(jīng)網(wǎng)絡(luò)模型在擬合非線性關(guān)系上的優(yōu)異表現(xiàn)，設(shè)計了一種基于神經(jīng)網(wǎng)絡(luò)的測量誤差變量篩選模型[4-5]，模型的基本思路見圖2。

對于第i個箱體bini，我們選擇變量k作為中心變量，為協(xié)變量，擬合變量與xi之間的神經(jīng)網(wǎng)絡(luò)模型NNi，得到預(yù)測結(jié)果。

接下來，根據(jù)測量誤差模型的思路，如果協(xié)變量結(jié)合中的變量Xj與Xi之間存在強耦合關(guān)系，那么當我們給Xj加上一個比較小的誤差時，在利用神經(jīng)網(wǎng)絡(luò)模型NMi對預(yù)測時，預(yù)測的結(jié)果應(yīng)該會發(fā)生比較大的變化，相反的，如果兩者的相互關(guān)系比較弱時，那么預(yù)測的結(jié)果應(yīng)該不會發(fā)生比較大的變化。我們分別逐次給協(xié)變量集合中的每個變量加上一個比較小的誤差，然后將加上誤差的協(xié)變量集合帶到模型NMi中，得到對Xi結(jié)果預(yù)測結(jié)果。得到預(yù)測結(jié)果后，為了衡量加上誤差后預(yù)測結(jié)果的變動程度，我們設(shè)計了一個靈敏度指標這個指標的取值越大說明對應(yīng)變量對中心變量的影響程度越大，即可以認為兩個變量的耦合關(guān)系越強。我們給定閾值Wesholol，選擇靈敏度小于閾值對應(yīng)的變量，便可以對箱體Bini內(nèi)的變量進行降維處理。

對每個箱體進行相同的處理，然后將得到的所有變量合并去重組合在一起，便可以完成第一階段的降維處理。

第二階段的特征降維主要是利用DC-SIS算法[6-7]對第一階段的結(jié)果再次進行降維處理。DC-SIS即基于距離系數(shù)的特征篩選方法，該方法通過定義特征與響應(yīng)變量之間的距離相關(guān)系數(shù)來衡量變量的重要程度，具體地，對于隨機變量u和v，他們之間的距離相關(guān)系數(shù)定義為

其中，和表示隨機變量u和v的特征向量，表示它們的聯(lián)合特征函數(shù)，du和dv表示隨機向量u和v的維數(shù)，而，該式中，則表示的歐式范數(shù)。

按照上述方式定義距離相關(guān)系數(shù)的優(yōu)勢在于，兩個隨機向量的距離相關(guān)系數(shù)為0當且僅當它們相互獨立.此外，兩個一元正態(tài)隨機變量的距離相關(guān)系數(shù)則隨著它們之間的皮爾遜相關(guān)系數(shù)的絕對值嚴格遞增。同時，該特征篩選方法能夠直接用來處理分組變量以及多維因變量的篩選過程，也不需要預(yù)先假定變量與因變量之間的模型框架，所以可以稱得上是完全無模型方法，適合用于處理本問題中非線性特征重要性的分析。

根據(jù)上面的定義，只需要通過對距離相關(guān)系數(shù)進行估計與排序，便可以計算出各個變量的重要性了。

對汽油精制過程按照前述三步兩階段的方法進行處理，可以得到汽油精制過程中重要的特征有19個，如表1所示。

根據(jù)表1可以發(fā)現(xiàn)，對辛烷值損失量影響比較大的特征中除了一些操作變量之外，還有一些原材料屬性變量，如辛烷值、硫含量、飽和烴、烯烴。這與一般的認知是相符的，在進行精制時，辛烷值的損失量不僅取決于操作技術(shù)的水平，還取決于原材料的原始屬性。

3? 基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值損失預(yù)測

XGBoost模型是Boosting 算法的一種。該算法思想就是不斷地添加樹，并通過特征分裂來生長一棵樹，每添加一棵樹就是學(xué)習(xí)一個新函數(shù)，去擬合上一步預(yù)測的殘差。通過不斷的迭代學(xué)習(xí)，最終實現(xiàn)對目標變量的預(yù)測。

盡管XGBoost模型作為一個機器學(xué)習(xí)模型有很好的表現(xiàn)，但是考慮到樹模型在處理回歸問題時仍存在一定的局限性，因此本文將XGBoost模型與神經(jīng)網(wǎng)絡(luò)模型進行了融合，首先利用XGBoost模型進行訓(xùn)練并計算殘差，然后再利用神經(jīng)網(wǎng)絡(luò)模型對XGBoost模型的預(yù)測殘差進行擬合，以便達到一個比較好的預(yù)測效果，即辛烷值損失量的預(yù)測值為，其中表示XGBoost模型的預(yù)測結(jié)果，表示神經(jīng)網(wǎng)絡(luò)對參加的進一步擬合結(jié)果。接下來將對具體解決問題的過程進行說明。

在本文要解決的問題中，由于煉油工藝過程的復(fù)雜性以及設(shè)備的多樣性，操作變量眾多，且變量間具有高度非線性和相互強耦聯(lián)的關(guān)系，不利于分析并發(fā)現(xiàn)模型的主要變量和因素。這里選擇經(jīng)過數(shù)據(jù)預(yù)處理和建模變量篩選后的19個具有代表性的主要變量來作為訓(xùn)練辛烷值損失預(yù)測模型的解釋變量，經(jīng)過前面的特征選擇方法，認為這19個變量可以比較充分的反應(yīng)原始變量中的信息。而響應(yīng)變量則為辛烷值的損失量。

在訓(xùn)練模型時，本文首先在原始的325個樣本中隨機選擇70%的樣本數(shù)據(jù)作為訓(xùn)練集，用以訓(xùn)練模型，確定XGBoost模型和BP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)。而另外30%的樣本數(shù)據(jù)則作為測試集，用來測試模型的預(yù)測效果如何。

經(jīng)過測試，該模型對汽油精制過程中辛烷值損失量的預(yù)測效果是比較好的，模型的MSE（均方誤差）為0.06876。具體的預(yù)測效果如下圖所示：

由圖3-1可以看出，經(jīng)過精制處理后真實的辛烷值與預(yù)測的辛烷值是比較吻合的，這證明基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值損失預(yù)測算法在預(yù)測辛烷值的損失情況時是有一定的可參考性，我們可以利用該模型來對不同的原材料和處理工藝進行分析，以便針對不同質(zhì)量水平的原材料設(shè)計不同的精制工藝。

4? 總結(jié)

本文為了預(yù)測汽油精制過程的辛烷損失情況，利用我國某石化企業(yè)在催化裂化汽油精制過程中積累的數(shù)據(jù)，對精制過程中影響辛烷值損失量的因素進行了探索，設(shè)計了一種基于神經(jīng)網(wǎng)絡(luò)、測量誤差模型以及的DC-SIS數(shù)據(jù)降維方法的兩階段特征篩選模型，可以在較多的操作變量中選擇出對辛烷值影響比較大的因素，進一步地，本文設(shè)計了一種基于XGBoost和神經(jīng)網(wǎng)絡(luò)的辛烷值預(yù)測模型，可以實現(xiàn)對不同原材料和不同操作下精制后辛烷值的預(yù)測，這有利于相關(guān)工作人員根據(jù)不同的原料選擇不同的操作方法來減少辛烷值的損失量，經(jīng)過驗證，模型的均方誤差為0.06876，相對較小，說明該模型是有一定的實用價值的。

參考文獻

[1] 鮑樹海.煉油化工企業(yè)催化汽油加氫工藝技術(shù)[J].化學(xué)工程與裝備，2020（10）：25-26.

[2] 趙鵬，焦峰，郭良，趙娟.降低催化裂化汽油烯烴含量的操作手段及優(yōu)化方向[J].中外能源，2019，24（07）：74-78.

[3] 張大齊.催化裂化汽油中輕汽油脫硫的研究[D].武漢工程大學(xué)，2016.

[4] Jae Kwon Kim， Sanggil Kang. Neural Network-Based Coronary Heart Disease Risk Prediction Using Feature Correlation Analysis[J]. Journal of Healthcare Engineering， 2017， Article ID 2780501， 13 pages.

[5] White， K. R.， Stefanski， L. A.， and Wu， Y. Variable Selection in Kernel Regression Using Measurement Error Selection Likelihoods[J]. Journal of the American Statistical Association， 2017， 112， 1587–1597.

[6] Li， R.， Zhong， W. and Zhu， L.Feature Screening via Distance Correlation Learning. Journal of American Statistical Association，2012，107， 1129-1139.

[7] 連亦旻.超高維特征篩選方法SEVIS及其應(yīng)用[D]. 中國科學(xué)技術(shù)大學(xué)， 2017.

科技創(chuàng)新導(dǎo)報2021年5期

科技創(chuàng)新導(dǎo)報的其它文章: 公共建筑外墻內(nèi)保溫施工技術(shù)應(yīng)用的探討; 橋梁工程施工中混凝土技術(shù)應(yīng)用分析; 預(yù)應(yīng)力檢測技術(shù)在高速公路橋梁檢測中的應(yīng)用; 基于ARINC661的座艙顯示控件庫的特性研究; 基于粒子群算法的機型排班系統(tǒng)研究; 航空航天用管閥關(guān)鍵技術(shù)應(yīng)用