劉 行 王秋晨 文韻豪 王 藝 巴璽立
1. 中國(guó)石油大學(xué)(北京)油氣管道輸送安全國(guó)家工程實(shí)驗(yàn)室·石油工程教育部重點(diǎn)實(shí)驗(yàn)室·城市油氣輸配技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 102200;2. 中國(guó)石油天然氣股份有限公司規(guī)劃總院, 北京 100080
天然氣處理廠是氣田開(kāi)發(fā)的重要地面生產(chǎn)設(shè)施[1-2],天然氣處理廠連續(xù)、平穩(wěn)、安全的運(yùn)行直接關(guān)系到天然氣的安全穩(wěn)定供應(yīng)[3],以及用戶的生產(chǎn)和生活需要。天然氣處理廠負(fù)荷率是一個(gè)關(guān)鍵性指標(biāo),它是指天然氣處理廠的實(shí)際產(chǎn)能與設(shè)計(jì)產(chǎn)能之比。天然氣處理廠負(fù)荷率的高低受原料氣的質(zhì)量、流量、設(shè)備運(yùn)行狀況、氣體處理工藝流程、生產(chǎn)計(jì)劃和管理等因素影響,直接關(guān)系天然氣處理廠的生產(chǎn)效率和經(jīng)濟(jì)性。因此,有必要對(duì)天然氣處理廠負(fù)荷率進(jìn)行準(zhǔn)確預(yù)測(cè),以指導(dǎo)生產(chǎn)計(jì)劃。
目前,較多學(xué)者使用時(shí)間序列預(yù)測(cè)模型對(duì)能源相關(guān)的數(shù)據(jù)進(jìn)行了預(yù)測(cè)。梁倩雯[4]選用自回歸積分滑動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)、Prophet和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)三種模型對(duì)管輸下游不同用戶群體的天然氣平均負(fù)荷進(jìn)行了預(yù)測(cè),認(rèn)為L(zhǎng)STM模型表現(xiàn)最好。Zheng Jianqin等人[5]采用粒子群算法對(duì)LSTM模型進(jìn)行優(yōu)化,與LSTM、ANN(Artificial Neural Network)、XGBoost(eXtreme Gradient Boosting)模型進(jìn)行誤差對(duì)比,突出優(yōu)化模型的準(zhǔn)確性,高效預(yù)測(cè)了太陽(yáng)能發(fā)電量。Ning Yanrui等人[6]使用ARIMA、LSTM、Prophet三種模型和傳統(tǒng)油品產(chǎn)量預(yù)測(cè)模型進(jìn)行了產(chǎn)油量預(yù)測(cè),預(yù)測(cè)誤差顯示ARIMA模型對(duì)于短期預(yù)測(cè)較為突出,Prophet模型整體的預(yù)測(cè)效果最好。田文才等人[7]提出一種小波變換分解的麻雀搜索算法(Sparrow Search Algorithm,SSA)-LSTM優(yōu)化模型,用于預(yù)測(cè)華北某市燃?xì)忾T(mén)站的天然氣負(fù)荷,提高了預(yù)測(cè)精度。Fan Dongyan等人[8]集成了線性和非線性時(shí)間序列預(yù)測(cè)模型的優(yōu)勢(shì),提出了一種ARIMA-LSTM-DP(Daily Production)的混合模型,對(duì)于油井產(chǎn)量預(yù)測(cè)表現(xiàn)較好。目前的研究大多基于傳統(tǒng)預(yù)測(cè)模型進(jìn)行開(kāi)展,對(duì)于時(shí)間序列預(yù)測(cè)模型的改進(jìn)和優(yōu)化還可以繼續(xù)進(jìn)行。
現(xiàn)有研究較少對(duì)天然氣處理廠負(fù)荷率進(jìn)行預(yù)測(cè),尚未形成通用的負(fù)荷率預(yù)測(cè)模型。天然氣處理廠負(fù)荷率按照數(shù)據(jù)類型可分為平穩(wěn)型和波動(dòng)型。選取波動(dòng)型負(fù)荷率和平穩(wěn)型負(fù)荷率數(shù)據(jù)進(jìn)行研究,提出基于貝葉斯優(yōu)化(Bayesian Optimization,BO)-LSTM模型實(shí)現(xiàn)對(duì)天然氣處理廠負(fù)荷率預(yù)測(cè),極大地提高模型的計(jì)算效率和預(yù)測(cè)精度。同時(shí),對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)模型檢驗(yàn)優(yōu)化模型的優(yōu)越性,天然氣處理廠負(fù)荷率預(yù)測(cè)模型可為制定合理生產(chǎn)計(jì)劃提供數(shù)據(jù)支撐,滿足市場(chǎng)需求和避免天然氣資源浪費(fèi)。
LSTM是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),主要為解決傳統(tǒng)RNN可能遇到的梯度消失和爆炸問(wèn)題[9-10]。由于具有反饋連接,可以處理長(zhǎng)期的數(shù)據(jù)序列,避免了一般RNN的長(zhǎng)期依賴問(wèn)題。LSTM內(nèi)部由3個(gè)門(mén)實(shí)現(xiàn)控制傳輸,分別是遺忘門(mén)、輸入門(mén)和輸出門(mén),結(jié)構(gòu)見(jiàn)圖1。圖1中:g為隱藏層的輸入狀態(tài);c為狀態(tài)單元;h為隱藏層的輸出狀態(tài);W為對(duì)應(yīng)門(mén)的權(quán)重。
圖1 LSTM原理結(jié)構(gòu)示意圖
遺忘門(mén)決定信息是否通過(guò)神經(jīng)元傳遞,輸入門(mén)決定新信息是否存儲(chǔ)在神經(jīng)元中,輸出門(mén)決定信息是否作為當(dāng)前狀態(tài)的輸出。模塊中每個(gè)門(mén)由乘法運(yùn)算和Sigmoid函數(shù)組成,Sigmoid函數(shù)控制通過(guò)門(mén)的信息,數(shù)值范圍為0~1。Sigmoid函數(shù)的輸出值和“tanh”層的候選值相乘作為神經(jīng)元狀態(tài)值。
貝葉斯優(yōu)化算法是一種全局優(yōu)化方法,可以利用較少的迭代步數(shù)和已知數(shù)據(jù)去獲取最優(yōu)解,可用于調(diào)節(jié)機(jī)器學(xué)習(xí)算法的超參數(shù)。貝葉斯優(yōu)化算法的核心由兩部分構(gòu)成:一是通過(guò)高斯過(guò)程回歸建立目標(biāo)函數(shù)的數(shù)學(xué)模型,即計(jì)算每點(diǎn)處函數(shù)值的均值和方差[11];二是根據(jù)后驗(yàn)概率分布構(gòu)造采集函數(shù)[12-13],用于決定本次迭代時(shí)的最優(yōu)采樣點(diǎn)。
由貝葉斯定理可知[14-15]:
后驗(yàn)分布=先驗(yàn)分布+觀察數(shù)據(jù)
(1)
(2)
f(x)=GP(m(x),C(x,x′))
(3)
采集函數(shù)根據(jù)后驗(yàn)分布構(gòu)造,用于選擇下一個(gè)采樣點(diǎn),即
(4)
貝葉斯優(yōu)化超參數(shù)流程:
3)經(jīng)過(guò)一定的迭代次數(shù)后,即可獲得全局最優(yōu)值。
在進(jìn)行基本LSTM模型訓(xùn)練時(shí),以典型天然氣處理廠負(fù)荷率的歷史數(shù)據(jù)作為輸入,將當(dāng)前時(shí)刻的天然氣處理廠負(fù)荷率作為預(yù)測(cè)目標(biāo)。網(wǎng)絡(luò)層中超參數(shù)的設(shè)置對(duì)模型的預(yù)測(cè)性能有很大影響,由于超參數(shù)大部分通過(guò)手動(dòng)調(diào)整,需反復(fù)試驗(yàn)才能獲取較好的模型。因此,本文提出一種基于貝葉斯優(yōu)化的超參數(shù)優(yōu)化方法,實(shí)現(xiàn)自動(dòng)選擇超參數(shù),提高模型的泛化能力,貝葉斯優(yōu)化流程見(jiàn)圖2。本研究主要是對(duì)LSTM網(wǎng)絡(luò)的結(jié)構(gòu)、隱藏層層數(shù)、隱藏層神經(jīng)元個(gè)數(shù)、初始學(xué)習(xí)率和正則化系數(shù)進(jìn)行貝葉斯優(yōu)化,超參數(shù)范圍設(shè)置見(jiàn)表1。
表1 LSTM網(wǎng)絡(luò)超參數(shù)選擇表
圖2 貝葉斯優(yōu)化流程圖
BO-LSTM模型預(yù)測(cè)天然氣處理廠負(fù)荷率流程見(jiàn)圖3,基本步驟如下。
圖3 BO-LSTM模型預(yù)測(cè)天然氣處理廠負(fù)荷率流程圖
2)數(shù)據(jù)歸一化處理,并構(gòu)建模型數(shù)據(jù)的訓(xùn)練集和測(cè)試集。
3)貝葉斯優(yōu)化算法調(diào)節(jié)LSTM網(wǎng)絡(luò)超參數(shù)。
4)利用優(yōu)化后的BO-LSTM模型進(jìn)行天然氣處理廠負(fù)荷率預(yù)測(cè)。
5)在測(cè)試集上對(duì)預(yù)測(cè)結(jié)果進(jìn)行誤差評(píng)估,檢驗(yàn)?zāi)P偷臏?zhǔn)確度。
6)結(jié)束。
數(shù)據(jù)預(yù)處理部分包括數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)集劃分、數(shù)據(jù)歸一化等過(guò)程。本研究的天然氣處理負(fù)荷率數(shù)據(jù)來(lái)源于某油氣田處理廠的各季度報(bào)表,數(shù)據(jù)分訓(xùn)練集和測(cè)試集兩部分。為了加快算法的收斂速度提高預(yù)測(cè)精度,需要對(duì)歷史數(shù)據(jù)進(jìn)行歸一化處理。采用最大—最小標(biāo)準(zhǔn)化方法處理,將數(shù)據(jù)值映射到[0,1]。歸一化表達(dá)式如下:
(5)
(6)
(7)
(8)
本研究選取國(guó)內(nèi)某油氣田天然氣處理廠(包含處理廠A、B、C、D)歷史負(fù)荷率數(shù)據(jù),樣本數(shù)據(jù)記錄了2017年6月1日至2022年2月28日的數(shù)據(jù)。剔除無(wú)效數(shù)據(jù)后,處理廠A、B、C、D的實(shí)際數(shù)據(jù)分別為1 734 d、1 711 d、1 711 d、1 670 d,原始數(shù)據(jù)見(jiàn)圖4。數(shù)據(jù)集按照起伏情況分為波動(dòng)型(處理廠A、B)和平穩(wěn)型(處理廠C、D)。另外,按天然氣處理廠負(fù)荷率高低劃分為中低型(處理廠A、C)和中高型(處理廠B、D)。所選天然氣處理廠數(shù)據(jù)覆蓋面廣,可用于檢驗(yàn)?zāi)P偷倪m應(yīng)性。
圖4 天然氣處理廠負(fù)荷率原始數(shù)據(jù)圖
由圖4可知,僅處理廠B出現(xiàn)極少天數(shù)滿負(fù)荷運(yùn)行,天然氣處理廠負(fù)荷率受天然氣日處理量和檢修天數(shù)直接影響,具有一定的時(shí)間序列特征。處理廠A、B受檢修天數(shù)影響較大,天然氣處理廠負(fù)荷率呈現(xiàn)明顯的周期性波動(dòng);處理廠C、D的天然氣日處理量變化較小,天然氣處理廠負(fù)荷率總體呈平穩(wěn)趨勢(shì)。
為了驗(yàn)證BO-LSTM模型的優(yōu)劣,本研究選用反向傳播神經(jīng)網(wǎng)絡(luò)(Back-propagation Neural Network,BPNN)、支持向量機(jī)(Support Vector Machine,SVM)、ARIMA、LSTM這4種傳統(tǒng)時(shí)間序列預(yù)測(cè)模型作對(duì)比。BPNN模型是基于誤差逆向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò),初始權(quán)值或閾值容易導(dǎo)致訓(xùn)練結(jié)果陷入局部最優(yōu)值[17-18]。SVM模型可用于回歸預(yù)測(cè)、分類預(yù)測(cè),核心思想是在預(yù)測(cè)值與實(shí)際值的誤差平方和最小的情況下找到一個(gè)最大間隔平面[19]。ARIMA(p,d,q)模型是常用的隨機(jī)時(shí)序模型,將非平穩(wěn)序列轉(zhuǎn)為平穩(wěn)序列,然后僅對(duì)目標(biāo)參數(shù)的滯后值與隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸[20-21]。雙向的(Bi-directional,Bi)LSTM模型是將LSTM網(wǎng)絡(luò)分為向前和向后兩個(gè)方向,綜合考慮序列的歷史和未來(lái)的數(shù)據(jù),從而提高準(zhǔn)確度。ARIMA模型的關(guān)鍵參數(shù):p為自回歸階數(shù),q為滑動(dòng)平均指數(shù),d為時(shí)間序列化為平穩(wěn)時(shí)所需的差分次數(shù)。BPNN模型的神經(jīng)元數(shù)目為50,學(xué)習(xí)率設(shè)置為0.5。SVM模型的懲罰系數(shù)取5.0,核函數(shù)選擇常用的徑向基函數(shù)(Radial Basis Function,RBF),RBF的gamma值取1.0。ARIMA模型的超參數(shù)由數(shù)據(jù)平穩(wěn)性、赤池信息準(zhǔn)則和貝葉斯信息準(zhǔn)則確定[6,22]。LSTM模型隱含層層數(shù)為1,神經(jīng)元數(shù)目為50,初始學(xué)習(xí)率為0.5,L2正則化系數(shù)為1×10-4。
對(duì)比模型統(tǒng)一設(shè)置條件:時(shí)間序列模型的延時(shí)步長(zhǎng)設(shè)置為30,最大迭代步數(shù)均為200。為防止模型過(guò)擬合,采用數(shù)據(jù)集的后10%數(shù)據(jù)作為測(cè)試集。初始的1組延時(shí)步長(zhǎng)數(shù)據(jù)不做預(yù)測(cè),故處理廠A、B、C、D的測(cè)試集樣本數(shù)分別為144、142、143、137。通過(guò)貝葉斯優(yōu)化算法尋找LSTM模型的超參數(shù),經(jīng)過(guò)多次迭代尋優(yōu),確定最優(yōu)超參數(shù)值,BO-LSTM模型超參數(shù)的最優(yōu)值見(jiàn)表2。
表2 BO-LSTM網(wǎng)絡(luò)超參數(shù)表
a)預(yù)測(cè)結(jié)果
a)預(yù)測(cè)結(jié)果
a)預(yù)測(cè)結(jié)果
a)預(yù)測(cè)結(jié)果
由圖5~8可知,ARIMA和SVM模型的預(yù)測(cè)結(jié)果有明顯偏差,其余模型均與實(shí)際值的歷史走向相似。SVM模型的預(yù)測(cè)結(jié)果波動(dòng)幅度較大,與Du Jian等人[23]給出的SVM模型善于捕捉數(shù)據(jù)的波動(dòng)性相吻合。BPNN模型對(duì)歷史數(shù)據(jù)的擬合效果較好,但對(duì)于有波動(dòng)負(fù)荷率的預(yù)測(cè)效果不如LSTM模型,這是由于LSTM模型內(nèi)部存在控制儲(chǔ)存結(jié)構(gòu)的模塊,能較好地捕捉長(zhǎng)期趨勢(shì)的特征。另外,BO-LSTM模型的預(yù)測(cè)樣本集中在殘差最小[-5,5]范圍內(nèi),說(shuō)明測(cè)試樣本的預(yù)測(cè)結(jié)果均接近實(shí)際值,且對(duì)于平穩(wěn)型處理廠的優(yōu)勢(shì)最為明顯。LSTM模型經(jīng)貝葉斯優(yōu)化后,彌補(bǔ)了參數(shù)造成預(yù)測(cè)波動(dòng)的缺陷,減少了殘差值較高的樣本數(shù),預(yù)測(cè)數(shù)據(jù)明顯更貼近實(shí)際值。
表3 不同模型的預(yù)測(cè)誤差表
a)MAE結(jié)果對(duì)比
通過(guò)對(duì)波動(dòng)型和平穩(wěn)型天然氣處理廠負(fù)荷率預(yù)測(cè)結(jié)果比較,可以得出BO-LSTM模型的預(yù)測(cè)精度和穩(wěn)定性相較于傳統(tǒng)時(shí)間序列預(yù)測(cè)模型具有顯著提升,通用性較高。圖10給出了天然氣處理廠負(fù)荷率預(yù)測(cè)模型的預(yù)測(cè)結(jié)果,所有樣本的預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)基本吻合,說(shuō)明本研究的BO-LSTM模型能較好地捕捉因檢修天數(shù)和日處理量等主要因素引起的時(shí)間特征,預(yù)測(cè)效果顯著。
a)波動(dòng)型
本文對(duì)天然氣處理廠負(fù)荷率預(yù)測(cè)開(kāi)展研究,由于歷史數(shù)據(jù)周期性較弱、數(shù)據(jù)量大,有一定的波動(dòng)幅度,預(yù)測(cè)難度較高,現(xiàn)有研究未提出較好的預(yù)測(cè)模型。因此,本文基于數(shù)據(jù)的時(shí)間序列特性建立了BO-LSTM模型。為驗(yàn)證模型的準(zhǔn)確性和通用性,選擇了波動(dòng)型(處理廠A、B)和平穩(wěn)型(處理廠C、D)的天然氣處理廠負(fù)荷率,并對(duì)比ARIMA、BPNN、SVM、LSTM和BiLSTM等傳統(tǒng)預(yù)測(cè)模型以檢驗(yàn)?zāi)P偷膬?yōu)劣。
1)ARIMA、BPNN、SVM、LSTM、BiLSTM和BO-LSTM模型均可用于天然氣處理廠負(fù)荷率預(yù)測(cè)。其中,預(yù)測(cè)效果最好的模型為BO-LSTM和LSTM。針對(duì)不同類型天然氣處理廠,BO-LSTM模型能較好捕捉時(shí)間特征,天然氣處理廠負(fù)荷率的預(yù)測(cè)精度最高,穩(wěn)定性最強(qiáng),處理廠A的MAE值和RMSE值分別為0.561和1.961,處理廠B的MAE值和RMSE值分別為3.242和10.316,處理廠C的MAE值和RMSE值分別為0.762和0.908,處理廠D的MAE值和RMSE值分別為0.643和1.373。與傳統(tǒng)LSTM模型相比,預(yù)測(cè)誤差MAE值和RMSE值最大可提升57.8%和30.1%。
2)本研究的BO-LSTM模型能夠?qū)崿F(xiàn)對(duì)天然氣處理廠負(fù)荷率的實(shí)時(shí)預(yù)測(cè)和監(jiān)控,可為天然氣處理廠生產(chǎn)運(yùn)行和決策提供技術(shù)支持。
3)傳統(tǒng)LSTM模型的預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性高于ARIMA、BPNN和SVM模型。因此,在LSTM模型基礎(chǔ)上結(jié)合物理機(jī)理作進(jìn)一步優(yōu)化可實(shí)現(xiàn)更加準(zhǔn)確的預(yù)測(cè)模型,未來(lái)可應(yīng)用于電廠、水廠負(fù)荷率預(yù)測(cè)等領(lǐng)域。