摘要:混合輸送是不同原油在同一管道中輸送最常用的一種方式,快速、精準(zhǔn)地掌握混合原油的流動參數(shù),是制定混合原油配輸方案、保證管道安全高效靈活運(yùn)行的基礎(chǔ),通過人工取樣測試確定混合原油凝點(diǎn),難以及時有效對進(jìn)管原油進(jìn)行管控;運(yùn)用基于組分原油配比和凝點(diǎn)的經(jīng)驗(yàn)?zāi)P陀嬎慊旌显湍c(diǎn),雖簡便易行,但在方法上存在預(yù)測精度提升的瓶頸;建立一種基于XGBoost集成機(jī)器學(xué)習(xí)模型的混合原油凝點(diǎn)預(yù)測方法。結(jié)果表明:當(dāng)模型以組分原油凝點(diǎn)、密度、黏度以及配比為輸入?yún)?shù)時,經(jīng)8 912組數(shù)據(jù)訓(xùn)練后的混合原油凝點(diǎn)預(yù)測平均絕對偏差為1.12 ℃;當(dāng)輸入?yún)?shù)中組分原油凝點(diǎn)缺失時,預(yù)測平均絕對偏差為1.93 ℃,其中絕對偏差小于2 ℃的占88.0%。
關(guān)鍵詞:混合原油; 凝點(diǎn); 機(jī)器學(xué)習(xí); 預(yù)測
中圖分類號:TE 832""" 文獻(xiàn)標(biāo)志碼:A" 文章編號:1673-5005(2025)02-0214-09
Gel point estimation method of mixed crude oil based on ensemble machine learning model
HE Yuxuan1,2, SU Huai1,2, ZHANG Cheng1,2, SU Yang1,2, LI Hongying1,2,HUANG Qian1,3, ZHANG Jinjun1,2
(1.National Engineering Laboratory for Pipeline Safety in China University of Petroleum (Beijing), Beijing 102249, China;
2.Key Laboratory of Beijing City for Urban Oil and Gas Transmission and Distribution Technology in China University of Petroleum (Beijing), Beijing 102249, China;
3.PetroChina Planning and Engineering Institute, Beijing 100083, China)
Abstract: Mixed transport is the most common way to transport multiple crude oil in the same pipeline. Grasping the flow properties of the mixed oil quickly and accurately is the basis of making the mixed crude oil distribution scheme and ensuring the safe, efficient and flexible operation of the pipeline. The gel point of mixed crude oil is often determined by the manual sampling test, so it is difficult to effectively control the crude oil into the pipeline in time. It is simple and easy to calculate the gel point of mixed crude oil by using the empirical model based on the ratio and gel point of component crude oil, but there is a bottleneck in the method to improve the prediction accuracy. An integrated machine learning model based on XGBoost was proposed to predict the gel point of mixed crude oil. The results show that, with the inputs of gel point, density, viscosity" and ratio in component oils, the mean absolute error of the model prediction estimations after training with 8912 data is 1.12 ℃. When the gel point of the component crude oil is missing, the mean absolute error is 1.93 ℃ and the percentage of the predicted absolute error within 2 ℃ is 88.0%.
Keywords: mixed crude oil; gel point; machine learning; prediction
不同物性的原油常通過混合方式在同一管道輸送。凝點(diǎn)是原油管輸溫度控制、輸送方式選擇的重要依據(jù)。在原油管道生產(chǎn)中通過人工取樣對進(jìn)管混合原油凝點(diǎn)進(jìn)行監(jiān)測。這種操作存在兩大問題:①人工取樣測試效率低,不能及時獲取混合原油凝點(diǎn);②混合原油進(jìn)管后再測凝點(diǎn),難以及時、有效對管輸原油物性進(jìn)行管控。為此混合原油輸送管道的智能化安全高效運(yùn)行需要解決原油物性的在線監(jiān)測與混合原油物性的實(shí)時預(yù)測問題,其中凝點(diǎn)是關(guān)鍵參數(shù)之一。混合原油凝點(diǎn)實(shí)時預(yù)測有兩個難點(diǎn):①凝點(diǎn)是原油各種組分(如蠟、膠質(zhì)、瀝青質(zhì)和輕質(zhì)烴類等)相互作用的結(jié)果,因此混合原油的凝點(diǎn)與組分原油凝點(diǎn)的關(guān)系不服從加和規(guī)律,目前也沒有可靠的理論模型[1];②長輸管道所輸原油可來自多個油源,同一油田不同區(qū)塊的原油物性可有顯著差異,因此“同一種油”的物性經(jīng)常存在大幅波動[2]。目前混合原油凝點(diǎn)計算的經(jīng)驗(yàn)?zāi)P?sup>[1]雖簡便易行,但其預(yù)測精度提升存在瓶頸。隨著機(jī)器學(xué)習(xí)算法的快速發(fā)展,從實(shí)測數(shù)據(jù)中挖掘多組分混合原油的凝點(diǎn)規(guī)律,建立機(jī)器學(xué)習(xí)模型,是提升混合原油凝點(diǎn)預(yù)測精度的一條新途徑。目前混合原油凝點(diǎn)計算的經(jīng)驗(yàn)?zāi)P途诮M分原油凝點(diǎn)和配比,但凝點(diǎn)的在線監(jiān)測目前尚無可靠技術(shù),妨礙了混合原油凝點(diǎn)的實(shí)時在線預(yù)測。原油的典型物性(凝點(diǎn)、黏度、密度)及其耦合的非線性關(guān)系,應(yīng)可在一定程度上對原油特別是混合原油進(jìn)行表征。因此機(jī)器學(xué)習(xí)模型與原油其他物性(如密度、黏度等)在線監(jiān)測相結(jié)合,有望實(shí)現(xiàn)管輸混合原油凝點(diǎn)的在線預(yù)測與管控。但目前對混合原油不同物性關(guān)系的建模研究還鮮有報道。作為機(jī)器學(xué)習(xí)模型預(yù)測效果的對比基礎(chǔ),筆者回顧混合原油凝點(diǎn)預(yù)測經(jīng)驗(yàn)?zāi)P停ㄟ^對多類混合原油凝點(diǎn)預(yù)測的機(jī)器學(xué)習(xí)模型進(jìn)行比較,優(yōu)選出基于XGBoost集成機(jī)器學(xué)習(xí)算法的混合原油凝點(diǎn)預(yù)測模型;在此基礎(chǔ)上,從提升機(jī)器學(xué)習(xí)模型輸入靈活性(無需組分原油凝點(diǎn),而采用密度、黏度)和模型對工程中可能遇見的苛刻條件(數(shù)據(jù)量和輸入缺失)兩個角度出發(fā),提出一種工程適應(yīng)性較好的混合原油凝點(diǎn)預(yù)測模型。
1 混合原油凝點(diǎn)預(yù)測方法
混合原油凝點(diǎn)與組分原油凝點(diǎn)間并不服從線性加權(quán)規(guī)律[3](表1中的式(1)),表1中,Tgm為混合原油凝點(diǎn),Tgi為組分原油i的凝點(diǎn),Xi為組分原油i的配比,Tgjk為組分原油j和k等配比混合原油的凝點(diǎn),Bjk與Cjk為修正系數(shù)。為此研究者們嘗試對其進(jìn)行修正。典型的工作如劉天佑等[4]提出的模型(式(2))和李闖文[5]提出的模型(式(3))。這兩個模型均引入了兩個修正系數(shù),一個面向混合原油配比,另一個面向兩組分油按1∶1混合后(等配比)的凝點(diǎn)。經(jīng)此修正,混合原油凝點(diǎn)計算精度有顯著提升[1],但等配比混合原油凝點(diǎn)的引入,也因使用條件苛刻而約束了該類模型的實(shí)用性,特別是對多組分混合原油。在組分原油物性波動大的現(xiàn)場應(yīng)用情形,這種模型實(shí)際上難以使用。此外,因凝點(diǎn)的條件敏感性強(qiáng)以及測定方法本質(zhì)所限,原油凝點(diǎn)測定精度有限(測試規(guī)范的重復(fù)性要求是2 ℃)。因此這類經(jīng)驗(yàn)?zāi)P腿狈?shù)據(jù)噪聲的魯棒性。
為解決等配比混合原油需求導(dǎo)致模型適用條件苛刻的問題,陳俊等[6]對大量混合原油凝點(diǎn)數(shù)據(jù)進(jìn)行了分析,發(fā)現(xiàn)線性加權(quán)方法計算的等配比混合原油凝點(diǎn)偏差絕對值與兩組分原油凝點(diǎn)之差的絕對值間存在良好的相關(guān)性,進(jìn)而提出了表1中的式(4)?;陬愃频乃悸?,蔣文學(xué)[7]和錢建華[8]分別利用76種兩組分原油等配比混合原油的凝點(diǎn)數(shù)據(jù)建立了無需兩組分原油等配比數(shù)據(jù)的混合原油凝點(diǎn)計算模型(式(5)、(6)),但在擺脫對等配比混合原油凝點(diǎn)依賴的同時,也付出了預(yù)測精度下降的代價。
與通過擬合確定數(shù)學(xué)方程的經(jīng)驗(yàn)?zāi)P拖啾?,機(jī)器學(xué)習(xí)對于數(shù)據(jù)隱含的規(guī)律具有更強(qiáng)的挖掘能力,且對數(shù)據(jù)具有動態(tài)自適應(yīng)能力。韓坤[9]、侯磊等[10]分別建立了基于反向傳播全連接神經(jīng)網(wǎng)絡(luò)的混合原油凝點(diǎn)預(yù)測模型,基于試驗(yàn)及文獻(xiàn)調(diào)研所得數(shù)據(jù),以組分原油凝點(diǎn)、配比作為輸入?yún)?shù),以混合后原油凝點(diǎn)為輸出參數(shù)。相比于經(jīng)驗(yàn)?zāi)P?,取得了更好的預(yù)測效果。但這兩項(xiàng)研究中,訓(xùn)練樣本量為357組(原油混合前后數(shù)據(jù)記為一組),驗(yàn)證樣本量為36組。所建立機(jī)器學(xué)習(xí)模型的抗數(shù)據(jù)噪聲性能未見分析。此外機(jī)器學(xué)習(xí)算法近些年來已有了很大的發(fā)展,完全可以把功能更強(qiáng)大的算法運(yùn)用于混合原油凝點(diǎn)預(yù)測。
綜上,現(xiàn)有混合原油凝點(diǎn)預(yù)測必需的輸入?yún)?shù)包括混合原油配比、組分油凝點(diǎn),預(yù)測精度較好的經(jīng)驗(yàn)?zāi)P停ㄊ剑?)、(3))則需要等配比混合原油的凝點(diǎn)。也就是說,其他可在一定程度上表征原油的物性參數(shù)(如密度、黏度)還沒有引入混合原油凝點(diǎn)預(yù)測。
集成學(xué)習(xí)是目前機(jī)器學(xué)習(xí)算法的發(fā)展趨勢,其基本思想是在總數(shù)據(jù)集中采樣形成多個子數(shù)據(jù)集,基于子數(shù)據(jù)集建立子模型,將多個子學(xué)習(xí)器有效融合,形成一個精度和泛化性顯著優(yōu)于單一學(xué)習(xí)器的集成學(xué)習(xí)器。這種模式可以彌補(bǔ)單個學(xué)習(xí)器易欠擬合的缺點(diǎn),達(dá)到更好的穩(wěn)定性和預(yù)測效果[11]。集成學(xué)習(xí)框架下的機(jī)器學(xué)習(xí)模型具有高非線性擬合能力、高抗噪聲、高計算效率的優(yōu)勢[12],為實(shí)現(xiàn)原油各物性間關(guān)系建模提供了助力。為此本文中把集成式機(jī)器學(xué)習(xí)方法引入混合原油凝點(diǎn)預(yù)測。各混合原油凝點(diǎn)預(yù)測模型的輸入輸出演化關(guān)系如圖1所示。
2 基于集成學(xué)習(xí)算法的混輸原油凝點(diǎn)預(yù)測模型
2.1集成學(xué)習(xí)算法
集成式機(jī)器學(xué)習(xí)模型多基于樹模型展開。將不同的集成原理與樹模型結(jié)合,組成了2類典型的集成式機(jī)器學(xué)習(xí)模型分支[13]。樹模型與bagging策略結(jié)合,形成了隨機(jī)森林模型;與boosting策略結(jié)合,形成了梯度提升決策樹(gradient boosting decision tree,GBDT)模型。GBDT方法在多領(lǐng)域研究及數(shù)據(jù)競賽中有優(yōu)異表現(xiàn),但高額的參數(shù)訓(xùn)練時間成本制約了GBDT的工程應(yīng)用。XGBoost(eXtreme gradient boosting)是一種高效、靈活的集成模型[14]。通過添加正則項(xiàng)和優(yōu)化GBDT的二階導(dǎo)數(shù)計算,在保障預(yù)測性能的同時,提升了GBDT模型的訓(xùn)練效率。LightGBM模型在XGBoost的基礎(chǔ)上進(jìn)行了結(jié)構(gòu)優(yōu)化,但犧牲了一定的預(yù)測精度。在凝點(diǎn)預(yù)測的工程應(yīng)用中,模型對于訓(xùn)練和自優(yōu)化過程的時間需求不高,即可應(yīng)用預(yù)訓(xùn)練好的模型,在使用中根據(jù)數(shù)據(jù)更新情況定期對模型進(jìn)行更新即可。綜合模型表現(xiàn)和訓(xùn)練效率,基于XGBoost展開混合原油凝點(diǎn)預(yù)測建模。
XGBoost模型的基學(xué)習(xí)器為CART(classification and regression tree)。單棵CART由多個葉子節(jié)點(diǎn)組成。在模型的訓(xùn)練和適用過程中,對于一組確定的輸入數(shù)據(jù),存在一個與之對應(yīng)的葉子節(jié)點(diǎn)輸出值。單棵CART的多個葉子結(jié)點(diǎn)綜合表征了該CART對當(dāng)前輸入數(shù)據(jù)的預(yù)測結(jié)果?;诖?,XGBoost模型將所有CART對樣本的預(yù)測值之和作為該樣本的輸出值i,計算過程為
i=φ(xi)=∑Kk=1fk(xi), fk∈Γ,(7)
其中
Γ={f(x)=wq(x)}(q:Rm→n,w∈Rn).
式中,i為模型預(yù)測值;xi為第i個樣本;fk為第k棵樹模型;Γ為決策樹的空間; m為特征數(shù)量;n為每棵樹的葉節(jié)點(diǎn)數(shù)量;q為每棵樹的結(jié)構(gòu)映射每個樣本到相應(yīng)的葉節(jié)點(diǎn)的分?jǐn)?shù),即q表示樹的模型,輸入一個樣本,根據(jù)模型將樣本映射到葉節(jié)點(diǎn)輸出預(yù)測的分?jǐn)?shù);wq(x)為樹q的所有葉節(jié)點(diǎn)的分?jǐn)?shù)組成集合。
機(jī)器學(xué)習(xí)模型的本質(zhì)是以損失函數(shù)在訓(xùn)練數(shù)據(jù)上統(tǒng)計值最小為目標(biāo)的優(yōu)化問題。XGBoost模型的損失函數(shù)(優(yōu)化目標(biāo))定義為
L(φ)=∑il(i,yi)+∑kΩ(fk),(8)
其中
Ω(fk)=γn+12λ∑nj=1w2j.
式中,n為一個是樹里面葉子節(jié)點(diǎn)的個數(shù);γ為L1正則的懲罰項(xiàng),葉子個數(shù)越多,懲罰力度越大;λ為一個是樹上葉子節(jié)點(diǎn)的得分w的L2模平方。
等式(8)右側(cè)第一項(xiàng)為損失函數(shù)項(xiàng),即訓(xùn)練誤差,是一個可微的凸函數(shù)。第二項(xiàng)為正則化懲罰項(xiàng),即每棵樹的復(fù)雜度之和,目的是控制模型的復(fù)雜度,防止過擬合。
因此,模型的訓(xùn)練目標(biāo)變化為:在L(φ)取得最小化時得出對應(yīng)的模型fk。由于XGBoost模型中的優(yōu)化參數(shù)是模型fk,不是一個具體的值,不能用傳統(tǒng)的優(yōu)化方法在歐式空間中進(jìn)行優(yōu)化。需采用增量訓(xùn)練的方式去學(xué)習(xí)模型。每一次保留原來的模型不變,加入一個新的函數(shù)ft(xi)到模型中,表示為
(0)i=0,
(1)i=f1(xi)=(0)i+f1(xi),
(2)i=f1(xi)+f2(xi),
…
(t)i=∑tk=1fk(xi)=(t-1)i+ft(xi).(9)
在擬合問題下,基于式(9)的平方誤差損失函數(shù)轉(zhuǎn)換為
L(t)=∑ni=1(yi-((t-1)i+ft(xi)))2+Ω(ft)=
∑ni=1[2((t-1)i-yi)ft(xi)+ft(xi)2]+Ω(ft).(10)
泰勒公式對式(10)進(jìn)行近似展開,抽離常數(shù)項(xiàng)以簡化目標(biāo)函數(shù)。泰勒展開公式為
f(x+Δx)≈f(x)+f′(x)Δx+12f″(x)Δx2.(11)
結(jié)合式(11),對式(10)的展開結(jié)果表示為
L(t)≈∑ni=1[l(yi,(t-1))+gift(xi)+12hif2t(xi)]+Ω(ft).
(12)
從而基于式(12)對XGBoost模型進(jìn)行迭代訓(xùn)練。為便于直觀理解,將基于XGBoost的混合原油凝點(diǎn)預(yù)測模型的訓(xùn)練流程整理見圖2。
2.2 模型構(gòu)建流程
基于集成機(jī)器學(xué)習(xí)框架,設(shè)計了相應(yīng)的機(jī)器學(xué)習(xí)訓(xùn)練流程。如圖3所示,流程主要包括數(shù)據(jù)預(yù)處理、模型設(shè)計與訓(xùn)練、結(jié)果評估3個部分。
2.2.1 數(shù)據(jù)分析
在管道的在線監(jiān)測和人工監(jiān)測數(shù)據(jù)中,人為的記錄錯誤和數(shù)據(jù)的缺失、重疊是常見問題。在數(shù)據(jù)集的構(gòu)建過程中,首先需開發(fā)出數(shù)據(jù)爬蟲,整合零散分布在日常監(jiān)測日報中的有效數(shù)據(jù)。依次經(jīng)過數(shù)據(jù)對齊、異常值剔除、缺失值填補(bǔ)的流式數(shù)據(jù)清洗。結(jié)合在線監(jiān)測數(shù)據(jù)的對比與補(bǔ)充,得到整潔的混合原油物性預(yù)測數(shù)據(jù)集。劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集,并進(jìn)行標(biāo)準(zhǔn)化,以消除不同輸入特征之間量綱和數(shù)量級的影響,降低回歸模型過擬合的風(fēng)險。min-max標(biāo)準(zhǔn)化公式為
x′=(x-Xmin)(Xmax-Xmin) .(13)
式中,x為原始數(shù)據(jù);x′為標(biāo)準(zhǔn)化后的數(shù)據(jù);Xmax、Xmin分別為某一特征向量中的最大值和最小值。
將預(yù)處理后的訓(xùn)練數(shù)據(jù)輸入模型進(jìn)行參數(shù)迭代,并利用測試集測試訓(xùn)練后的模型。結(jié)合遺傳算法不斷優(yōu)化用于模型訓(xùn)練的超參數(shù),降低模型的再訓(xùn)練成本,提升模型的表現(xiàn)和對新引入數(shù)據(jù)的自適應(yīng)能力。
2.2.2 原油凝點(diǎn)預(yù)測模型評估指標(biāo)
為了評估回歸模型的預(yù)測性能,引入了兩類指標(biāo):①用于評價機(jī)器學(xué)習(xí)模型的經(jīng)典指標(biāo);②適用于凝點(diǎn)預(yù)測問題的評價指標(biāo)。
(1)經(jīng)典的機(jī)器學(xué)習(xí)評價指標(biāo)。
用平均絕對偏差(mean absolute deviation,MAD)表征模型預(yù)測的平均偏差水平,其定義為
EMAD=1n∑ni=1i-yi.(14)
式中,yi為測量值;i為模型預(yù)測值; n為樣本數(shù)量。
用均方根偏差(root mean square deviation,RMSD)表征模型預(yù)測的平均偏差水平及偏差的發(fā)散程度,其定義為
ERMSD=1n∑ni=1(i-yi)2 .(15)
最大絕對偏差(max absolute deviation ,EADmax)表征模型預(yù)測的最大偏差程度,表示為
EADmax=max(i-yi). (16)
R2為回歸決定系數(shù),表征模型對目標(biāo)數(shù)據(jù)的擬合水平,其值介于[0,1]之間,趨向于1表征模型完美擬合,表示為
R2=1-∑ni=1(i-yi)2∑ni=1(i-yi)2 . (17)
式中,i為樣本測量值的平均值。
式(14)~(17)的值越小,代表模型表現(xiàn)越好。
(2)凝點(diǎn)預(yù)測模型評價指標(biāo)。
中華人民共和國石油天然氣行業(yè)標(biāo)準(zhǔn)SY/T0541-2009《原油凝點(diǎn)測定法》規(guī)定:“由同一操作者,在同一實(shí)驗(yàn)室,使用同一設(shè)備,按方法規(guī)定的步驟,在連續(xù)時間內(nèi)對相同油樣進(jìn)行重復(fù)測量,兩次結(jié)果之差不得超過2 ℃”。由該標(biāo)準(zhǔn)引申,使用凝點(diǎn)絕對偏差
EDp(deviation percentage),即絕對偏差落在給定區(qū)間[0, 2]外的點(diǎn)數(shù)占總數(shù)據(jù)點(diǎn)的比例。EDp定義為
EDp=n{yi-igt;2}N .(18)
式中,n{yi-igt;2}為預(yù)測偏差超過2 ℃的樣本;N為總樣本數(shù)。
3 算 例
3.1 數(shù)據(jù)基礎(chǔ)
以4組分原油混合外輸?shù)膱鼍盀槔?,進(jìn)行了試驗(yàn)驗(yàn)證和對比分析。4種原油混合和外輸?shù)牧鞒倘鐖D4所示。
原油物性數(shù)據(jù)集源于管道歷時10 a的現(xiàn)場人工取樣測試,共計11140組樣本。物性數(shù)據(jù)包括4種組分原油和不同配比下混合后原油的凝點(diǎn)、密度、20 s-1黏度、混合原油配比。20 ℃下的密度與15 ℃下的黏度是現(xiàn)場生產(chǎn)要求。因是人工測試,測溫可以精確調(diào)整,如采用在線測定數(shù)據(jù),油溫大多是波動的。對于密度數(shù)據(jù),可使用成熟的石油密度換算方法(ρ20=ρt+γ(t-20))換算為20 ℃的密度ρ20,其中γ為石油密度溫度系數(shù),可查表得到。對于黏度,可基于在線儀表得到的黏度數(shù)據(jù)通過相應(yīng)的原油黏溫關(guān)系,轉(zhuǎn)換為15 ℃下的黏度。
組分原油的物性統(tǒng)計結(jié)果見表2??梢姽茌斣陀驮磸?fù)雜,物性差異大,波動大。
3.2 建模方案
圖5為基于經(jīng)驗(yàn)?zāi)P秃蜋C(jī)器學(xué)習(xí)模型的混合原油凝點(diǎn)預(yù)測建模方案。為了定量分析兩種模型的準(zhǔn)確性與適用性采用留出法將總數(shù)據(jù)集劃分為兩部分:數(shù)據(jù)集Ⅰ占總數(shù)據(jù)量的80%(8912組),數(shù)據(jù)集Ⅱ占總數(shù)據(jù)量的20%(2228組)?;趦蓚€數(shù)據(jù)集的測試方案如下:①面向經(jīng)驗(yàn)?zāi)P停ㄊ剑?)、(4)~(6)),選用數(shù)據(jù)集Ⅱ(2228組)進(jìn)行擬合及測試,將混合前各組分原油的凝點(diǎn)、混合配比作為輸入,混合后原油凝點(diǎn)作為輸出;②面向不同原理的機(jī)器學(xué)習(xí)模型,選用數(shù)據(jù)集Ⅰ(8912組)支持機(jī)器學(xué)習(xí)模型的訓(xùn)練,選用數(shù)據(jù)集Ⅱ(2228組)做模型驗(yàn)證。將混合前的各組分原油凝點(diǎn)、黏度、密度、混合配比作為可選輸入,混合后原油凝點(diǎn)作為輸出。并在此基礎(chǔ)上驗(yàn)證了多元數(shù)據(jù)特征模式(數(shù)據(jù)量變化、輸入數(shù)據(jù)缺失)下,機(jī)器學(xué)習(xí)模型的穩(wěn)定性。
3.3 預(yù)測結(jié)果
3.3.1 經(jīng)驗(yàn)?zāi)P蜋z驗(yàn)結(jié)果
基于建模方案(1)展開測試。在缺少兩組分等配比混合原油凝點(diǎn)數(shù)據(jù)的情況下,各經(jīng)驗(yàn)?zāi)P偷念A(yù)測結(jié)果如表3所示。
可見,式(4)具有更高的預(yù)測精度,平均絕對偏差為2.65 ℃;而式(6)穩(wěn)定性較好,預(yù)測偏差絕對值超過2 ℃的比例為8.2%。
3.3.2 機(jī)器學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果
面向多元線性回歸(MLR)、支持向量機(jī)(SVR)、隨機(jī)森林(RF)、反向傳播全連接神經(jīng)網(wǎng)絡(luò)(BPNN)、LightGBM、XGBoost,共6種不同原理的機(jī)器學(xué)習(xí)模型進(jìn)行測試[15-20]。對模型的訓(xùn)練超參數(shù)隨機(jī)初始化,并應(yīng)用遺傳算法進(jìn)行優(yōu)化,以確保最終訓(xùn)練好的模型具備各自原理下的最佳能力。圖6為6種機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果,統(tǒng)計指標(biāo)見表4。若以準(zhǔn)確度為優(yōu)選原則,XGBoost表現(xiàn)最優(yōu);MLR模型結(jié)構(gòu)最簡單,但預(yù)測誤差大,且出現(xiàn)極端預(yù)測值的概率更高;相比之下,SVR、BPNN及LightGBM學(xué)習(xí)能力略強(qiáng),預(yù)測效果適中;相比于其他5種機(jī)器學(xué)習(xí)預(yù)測模型,XGBoost的預(yù)測結(jié)果分布更為集中,具有更佳的預(yù)測穩(wěn)定性。
綜合表3、4和圖6,相比于經(jīng)驗(yàn)?zāi)P停琗GBoost集成機(jī)器學(xué)習(xí)模型預(yù)測精度顯著提高。
3.3.3 模型敏感性分析
(1)模型對數(shù)據(jù)量的敏感性。
數(shù)據(jù)量是影響數(shù)據(jù)驅(qū)動模型的核心因素。對經(jīng)驗(yàn)?zāi)P图皺C(jī)器學(xué)習(xí)模型,從總樣本中隨機(jī)抽樣生成用于測試的數(shù)據(jù)集。抽樣比例從0.01(112組)遞增至0.1(1120組),遞增間隔為0.01。測試結(jié)果如圖7所示。由圖7(a)可知,在研究范圍內(nèi)經(jīng)驗(yàn)?zāi)P偷念A(yù)測精度幾乎不受樣本數(shù)的約束。機(jī)器學(xué)習(xí)模型對樣本量具有明顯的依賴性。數(shù)據(jù)量較少時,經(jīng)驗(yàn)?zāi)P途雀哂跈C(jī)器學(xué)習(xí)模型,但隨著樣本量積累,機(jī)器學(xué)習(xí)模型的表現(xiàn)要明顯優(yōu)于經(jīng)驗(yàn)?zāi)P?。工程?yīng)用前期數(shù)據(jù)量積累較少時,可先行采用經(jīng)驗(yàn)?zāi)P?;?shù)據(jù)量積累到一定程度(1000組樣本),可以采用具有優(yōu)化自提升機(jī)制的機(jī)器學(xué)習(xí)模型,將混合原油凝點(diǎn)預(yù)測平均絕對偏差控制在2 ℃以內(nèi)。
(2)模型對輸入?yún)?shù)缺失的敏感性。
在輸油管道生產(chǎn)中常常出現(xiàn)某些參數(shù)缺失的情況。從本質(zhì)上講,將原油的密度、黏度、凝點(diǎn)作為輸入或輸出,是對原油的定義過程。某些數(shù)據(jù)的缺失使得模型對這些原油的定義失準(zhǔn),從而影響預(yù)測精度;對于經(jīng)驗(yàn)?zāi)P?,如果組分原油凝點(diǎn)缺失,則混合原油凝點(diǎn)完全無法預(yù)測。機(jī)器學(xué)習(xí)具有挖掘數(shù)據(jù)深層信息能力強(qiáng)的優(yōu)勢。本文中在4種數(shù)據(jù)缺失場景下,驗(yàn)證了XGBoost模型的魯棒性能。5種測試場景如表5所示。
模型在不同數(shù)據(jù)缺失的各場景下的預(yù)測結(jié)果如圖8所示。
由圖8可知,與輸入數(shù)據(jù)無缺失(場景5)相比,當(dāng)輸入數(shù)據(jù)缺失組分原油黏度(場景2)、組分原油密度(場景3)或缺失兩者(場景1)時,預(yù)測精度都有不同程度的下降;當(dāng)輸入?yún)?shù)僅具有組分原油密度和黏度(場景4,即缺失組分原油凝點(diǎn))時,預(yù)測精度下降最多。但當(dāng)數(shù)據(jù)量較大時(6796組),模型預(yù)測的平均絕對偏差都在2 ℃以內(nèi)(場景1~5中分別為1.96、1.98、1.83、2.00和1.48 ℃),在工程上仍具有可用性。其意義在于,目前凝點(diǎn)在線測量仍無成熟技術(shù),而黏度、特別是密度的在線測量技術(shù)比較成熟,因此可以通過人工測量積累一定數(shù)據(jù)后,運(yùn)用機(jī)器學(xué)習(xí)方法解決凝點(diǎn)在線預(yù)測問題。
機(jī)器學(xué)習(xí)模型均以學(xué)習(xí)的數(shù)據(jù)集為基礎(chǔ)。當(dāng)新品種原油引入或者模型在不同管道(實(shí)質(zhì)為不同組分及物性的原油)間遷移時,其精度需要驗(yàn)證。
4 結(jié) 論
(1)XGBoost集成機(jī)器學(xué)習(xí)模型預(yù)測性能最優(yōu),以原油混合配比、組分原油凝點(diǎn)、黏度和密度為輸入時,在8912組訓(xùn)練數(shù)據(jù)條件下,預(yù)測的平均絕對偏差為1.12 ℃,其中88%的點(diǎn)偏差小于2 ℃,該預(yù)測效果遠(yuǎn)優(yōu)于經(jīng)驗(yàn)?zāi)P停ㄆ骄^對偏差均大于2 ℃)。
(2)XGBoost模型在組分原油物性不同程度缺失時,預(yù)測精度下降,但在8912組訓(xùn)練數(shù)據(jù)條件下,凝點(diǎn)的平均絕對偏差仍小于2 ℃,其中組分原油凝點(diǎn)缺失影響最大,但此時以原油混合配比、組分原油黏度和密度為輸入,混合原油凝點(diǎn)的平均絕對偏差為1.93 ℃;利用機(jī)器學(xué)習(xí)模型的強(qiáng)大數(shù)據(jù)挖掘能力可解決生產(chǎn)上遇到的數(shù)據(jù)缺失(如組分原油凝點(diǎn))情況下混合原油凝點(diǎn)在線預(yù)測的問題。
(3)經(jīng)驗(yàn)?zāi)P蛯M合數(shù)據(jù)量的敏感性不強(qiáng),而機(jī)器學(xué)習(xí)模型敏感性較強(qiáng),在數(shù)據(jù)量較少的情況下可先用經(jīng)驗(yàn)?zāi)P瓦M(jìn)行預(yù)測;隨著數(shù)據(jù)量增大,將經(jīng)驗(yàn)?zāi)P团c機(jī)器學(xué)習(xí)模型綜合應(yīng)用,最終過渡到機(jī)器學(xué)習(xí)模型。
參考文獻(xiàn):
[1] 楊筱蘅.輸油管道設(shè)計與管理[M].青島:中國石油大學(xué)出版社:2013:143-146.
[2] 閔希華,張勁軍.多品種原油同管道輸送技術(shù)[M].北京:石油工業(yè)出版社,2020:12-17.
[3] 聶超飛,王歡歡,李其撫,等.混合原油凝點(diǎn)預(yù)測方法對比研究//第十三屆全國流變學(xué)學(xué)術(shù)會議論文集[C].北京:中國化學(xué)會,2016.
[4] 劉天佑,張秀杰,徐誠,等.新疆混合油凝固點(diǎn)的計算[J].油氣儲運(yùn),1993,12(2):7.
LIU Tianyou, ZHANG Xiujie, XU Cheng, et al . Calculation of the pour point of xinjiang mixed oil[J]. Oil amp; Gas Storage and Transportation,1993,12(2):7.
[5] 李闖文.混合原油流變性及其配伍規(guī)律的研究[D].北京:中國石油大學(xué)(北京),1992.
LI Chuangwen. Study on the rheological properties and compatibility laws of mixed crude oil[D]. Beijing:China University of Petroleum(Beijing),1992.
[6] 陳俊,張勁軍,張帆,等.計算混合原油凝點(diǎn)的一種新方法[J].石油大學(xué)學(xué)報(自然科學(xué)版),2003,27(5):76-80.
CHEN Jun, ZHANG Jinjun, ZHANG Fan, et al. A new model for determining gel points of mixed crude[J]. Journal of the University of Petroleum, China(Edition of Natural Science),2003,27(5):76-80.
[7] 蔣文學(xué).新疆混合原油凝點(diǎn)、粘度計算模型研究及其應(yīng)用[D].北京:中國石油大學(xué)(北京),2005.
JIANG Wenxue. Research on the calculation model of pouring point and viscosity of Xinjiang mixed crude oil and its application[D]. Beijing:China University of Petroleum (Beijing), 2005.
[8] 錢建華.中國石化進(jìn)口原油輸送方案研究[D].北京:中國石油大學(xué)(北京),2005.
QIAN Jianhua. Research on Sinopecs imported crude oil transportation plan[D]. Beijing:China University of Petroleum (Beijing), 2005.
[9] 韓坤.基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的混合原油黏度、凝點(diǎn)預(yù)測[D].北京:中國石油大學(xué)(北京), 2007.
HAN Kun. Prediction of viscosity and pour point of mixed crude oil based on artificial neural network technology[D]. Beijing:China University of Petroleum (Beijing), 2007.
[10] 侯磊,許新裕,劉秀聯(lián).BP神經(jīng)網(wǎng)絡(luò)在混合原油凝點(diǎn)預(yù)測中的應(yīng)用[J].石油化工高等學(xué)校學(xué)報,2009,22(3):86-88.
HOU Lei, XU Xinyu, LIU Xiulian. Application of BP neural network in the gel point prediction of blend crude oil[J]. Journal of Petrochemical Universities,2009,22(3):86-88.
[11] 彭巖,馬鈴,張文靜,等.基于集成學(xué)習(xí)的風(fēng)險預(yù)測模型研究與應(yīng)用[J].計算機(jī)工程與設(shè)計,2022,43(4):956-961.
PENG Yan, MA Ling, ZHANG Wenjing, et al. Research and application of risk forecast model based on ensemble learning[J]. Computer Engineering and Design, 2022,43(4):956-961.
[12] ZHOU Y, LI T, SHI J, et al. A CEEMDAN and XGBOOST-based approach to forecast crude oil prices [J]. Complexity,2019(1):4392785.
[13] DONG X, YU Z, CAO W, et al. A survey on ensemble learning[J]. Frontiers of Computer Science, 2020(14): 241-258.
[14] RAMRAJ S, UZIR N, SUNIL R, et al. Experimenting XGBoost algorithm for prediction and classification of different datasets[J]. International Journal of Control Theory and Applications, 2016,9(40):651-662.
[15] 邵必林,任萌,田寧.基于STL-XGBoost-NBEATSx的小時天然氣負(fù)荷預(yù)測[J].中國石油大學(xué)學(xué)報(自然科學(xué)版),2024,48(3):170-179.
SHAO Bilin, REN Meng, TIAN Ning. Hourly natural gas load forecast based on STL-XGBoost-NBEATSx[J]. Journal of China University of Petroleum (Edition of Natural Science),2024,48(3):170-179.
[16] 孫艷文,詹天明.基于優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的銷售預(yù)測算法研究[J].計算機(jī)技術(shù)與發(fā)展,2022,32(1):5.
SUN Yanwen, ZHAN Tianming. Research on sales forecasting based on improved BP neural network [J]. Computer Technology and Development,2022,32(1):5.
[17] 王艷松,申曉陽,李強(qiáng),等.基于PCA-GRD-LWR模型的海上油田中長期最大電力負(fù)荷預(yù)測[J].中國石油大學(xué)學(xué)報(自然科學(xué)版),2023,47(2):129-135.
WANG Yansong, SHEN Xiaoyang, LI Qiang, et al. Forecasting of medium and long-term maximum power load for offshore oilfields based on PCA-GRD-LWR model [J]. Journal of China University of Petroleum (Edition of Natural Science),2023,47(2):129-135.
[18] GU Z, CAO M, WANG C, et al. Research on mining maximum subsidence prediction based on genetic algorithm combined with XGBoost model[J]. Sustainability, 2022,14(16):10421.
[19] 趙巒嘯,劉金水,姚云霞,等.基于隨機(jī)森林算法的陸相沉積烴源巖定量地震刻畫:以東海盆地長江坳陷為例[J].地球物理學(xué)報,2021,64(2):700-715.
ZHAO Luanxiao, LIU Jinshui, YAO Yunxia, et al. Quantitative seismic characterization of source rocks in lacustrine depositional setting using the random forest method: an example from the Changjiang sag in East China Sea basin[J]. Chinese Journal of Geophysics,2021,64(2):700-715.
[20] 劉禹含,曹萃文.基于LightGBM的催化重整裝置產(chǎn)品預(yù)測及操作優(yōu)化相關(guān)性分析[J].石油學(xué)報(石油加工),2020,36(4):756-766.
LIU Yuhan, CAO Cuiwen. Product prediction technology and optimal operation correlation analysis for catalytic reforming unit based on LightGBM[J]. Acta Petrolei Sinica (Petroleum Processing Section),2020,36(4):756-766.
(編輯 沈玉英)
基金項(xiàng)目:國家自然科學(xué)基金青年科學(xué)基金項(xiàng)目(51904316);中國石油大學(xué)(北京)科研基金項(xiàng)目(2462021YJRC013)
第一作者:何宇軒(1998-),男,博士研究生,研究方向?yàn)閿?shù)據(jù)與知識融合的油氣管道可靠性分析。 E-mail: 1061225524@qq.com。
通信作者:蘇懷(1990-),男,副教授,博士,研究方向?yàn)橛蜌鈨\(yùn)系統(tǒng)可靠性與數(shù)據(jù)分析。 E-mail: suhuai@cup.edu.cn。
張勁軍(1962-),男,教授,博士,研究方向?yàn)橛蜌忾L距離管道輸送技術(shù)與油氣儲運(yùn)安全工程。 E-mail: zhangjj@cup.edu.cn。
引用格式:何宇軒,蘇懷,張成,等.基于集成機(jī)器學(xué)習(xí)模型的混合原油凝點(diǎn)預(yù)測方法[J].中國石油大學(xué)學(xué)報(自然科學(xué)版),2025,49(2):214-222.
HE Yuxuan, SU Huai, ZHANG Cheng, et al. Gel point estimation method of mixed crude oil based on" ensemble machine learning model[J]. Journal of China University of Petroleum (Edition of Natural Science),2025,49(2):214-222.