王洪亮,穆龍新,時付更,竇宏恩
(中國石油勘探開發(fā)研究院,北京 100083)
油田開發(fā)指標(biāo)預(yù)測是評價油田開采狀況、編制油田開發(fā)規(guī)劃、進行油田開發(fā)方案設(shè)計與調(diào)整等決策問題的基礎(chǔ)和依據(jù),只有對油田開發(fā)指標(biāo)進行科學(xué)可靠的預(yù)測,才能實現(xiàn)對各項措施工作的科學(xué)安排部署和工作量的合理匹配,確保規(guī)劃目標(biāo)的實現(xiàn)。
油田進入特高含水(含水率大于 90%)階段,利用水驅(qū)特征曲線預(yù)測特高含水期產(chǎn)量,水驅(qū)特征曲線發(fā)生上翹,預(yù)測結(jié)果誤差較大,已不適于描述特高含水期產(chǎn)量遞減規(guī)律[1-3]。一些學(xué)者對水驅(qū)特征曲線進行了改造,在不同程度上都可以對特高含水期的實際生產(chǎn)數(shù)據(jù)進行擬合,但所得水驅(qū)特征曲線多為非線性曲線,不便于應(yīng)用且外推預(yù)測的誤差較大。此外,油田地質(zhì)條件復(fù)雜,進入特高含水期,地層物性變化多樣,常規(guī)油藏工程方法考慮的影響因素少,一般只能進行平滑預(yù)測[4-5];油藏數(shù)值模擬等方法的時效性不強,費用高。因此,需要一種能夠提高工作效率、提高預(yù)測精度的開發(fā)指標(biāo)預(yù)測方法。
近年來,隨著人工智能在科學(xué)和工程領(lǐng)域的廣泛應(yīng)用,數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)、人工智能已經(jīng)成為石油和天然氣工業(yè)的熱點[6-12]。石油工業(yè)上游領(lǐng)域的學(xué)術(shù)期刊中頻繁出現(xiàn)人工智能應(yīng)用的相關(guān)報道[13-18]。很多學(xué)者利用支持向量機(Support Vector Machine,簡稱SVM)、自回歸(Autoregressive,簡稱AR)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,簡稱ANN)等方法來進行地質(zhì)特征預(yù)測[19]、巖性判別[20]、油井產(chǎn)量主控因素分析[21-23]等。其中,用于油井產(chǎn)量預(yù)測的人工神經(jīng)網(wǎng)絡(luò)以全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Neural Network,簡稱FCNN)為主[24-28]。由于FCNN無法保存、利用之前時刻的信息,無法預(yù)測時間序列數(shù)據(jù),一些學(xué)者通過組合模型來預(yù)測油井產(chǎn)量[29-30]。為了生成油田高含水階段產(chǎn)量時間序列數(shù)據(jù),更加合理的選擇是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)。在RNN中,每個神經(jīng)單元內(nèi)存在一個能夠重復(fù)使用該單元的自循環(huán)結(jié)構(gòu),這一循環(huán)結(jié)構(gòu)使得先前的信息可以保留并在之后被使用。由于信息可以在循環(huán)神經(jīng)網(wǎng)絡(luò)中自由流動,基于該方法預(yù)測的產(chǎn)量綜合考慮了時間因素,更加符合實際生產(chǎn)情況。
本文使用深度學(xué)習(xí)算法的長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,簡稱LSTM)[31]預(yù)測油田特高含水期產(chǎn)量,其也適用于預(yù)測其他階段的油田與油井產(chǎn)量[32-33]。該網(wǎng)絡(luò)在每個自循環(huán)結(jié)構(gòu)內(nèi)引入門結(jié)構(gòu),進一步模仿生物神經(jīng)元信息傳導(dǎo)模式,不需任何額外的調(diào)整即可儲存更加長期的序列信息。這一優(yōu)點使其在人工智能和深度學(xué)習(xí)領(lǐng)域獲得了極大關(guān)注,在自然語言處理[34]、語音識別[35]、機器翻譯[36]等領(lǐng)域都得到了廣泛應(yīng)用。另外,LSTM 也被應(yīng)用于水文學(xué)、金融等領(lǐng)域來處理包含時間序列數(shù)據(jù)的問題[37-38]。
本文旨在根據(jù)油田生產(chǎn)歷史數(shù)據(jù),通過使用LSTM預(yù)測油田特高含水期的產(chǎn)量。首先,闡述LSTM的理論基礎(chǔ)以及相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計和特殊設(shè)置。其次,分析 LSTM 在油田特高含水期產(chǎn)量預(yù)測中的應(yīng)用效果,并與傳統(tǒng)水驅(qū)曲線方法和FCNN模型的預(yù)測結(jié)果進行對比。
和回歸預(yù)測不同,時間序列預(yù)測在時間上具有復(fù)雜的序列依賴關(guān)系。FCNN無法根據(jù)序列數(shù)據(jù)中先前步驟的預(yù)測結(jié)果來預(yù)測當(dāng)前步驟中的計算結(jié)果,無法分析序列數(shù)據(jù)中前后數(shù)據(jù)之間的相互關(guān)系。RNN的結(jié)構(gòu)可以讓之前步驟中的信息持續(xù)保留并影響后續(xù)步驟的運算,然而,如果先前的相關(guān)信息所在的位置與當(dāng)前計算步驟之間距離非常遠,因為不斷輸入數(shù)據(jù)的影響,模型中的記憶模塊(單一的tanh層或sigmoid層)無法長期有效地保存歷史信息,容易產(chǎn)生梯度消失或者梯度爆炸等問題[39]。LSTM是一種特殊的RNN,它改進了傳統(tǒng)RNN中的記憶模塊。通過門結(jié)構(gòu)和記憶單元狀態(tài)的設(shè)計,使得LSTM可以讓時間序列中的關(guān)鍵信息有效地更新和傳遞,有效地將長距離信息保存在隱藏層中。LSTM 中隱藏層的循環(huán)網(wǎng)絡(luò)包含遺忘門、輸入門、輸出門和1個tanh層。處理器狀態(tài)有選擇地保存先前步驟中的有用信息并貫穿整個 LSTM。交互層中的門可以根據(jù)上一步的隱狀態(tài)和當(dāng)前步驟的輸入對處理器狀態(tài)中的信息進行增加、刪除和更新操作,更新后的處理器狀態(tài)和隱狀態(tài)向后傳遞[27]。LSTM 模型支持端到端預(yù)測,可以實現(xiàn)單因素預(yù)測單指標(biāo)、多因素預(yù)測單指標(biāo)和多因素預(yù)測多指標(biāo)。
在機器學(xué)習(xí)問題上,不相關(guān)變量可能對模型預(yù)測精度產(chǎn)生負(fù)面影響。特征選擇可以消除不相關(guān)的變量,改進模型精度,規(guī)避過擬合現(xiàn)象。
遞歸特征消除(Recursive feature elimination)[40]算法是特征選擇方法之一,其主要思想是使用一個基模型(本文利用支持向量機模型)來進行多輪訓(xùn)練。首先基于全部特征進行訓(xùn)練,針對訓(xùn)練結(jié)果對每個特征進行打分,每個特征的打分規(guī)則如(1)式所示。去掉得分最小的特征,即最不重要的特征。利用剩余的特征進行第2輪訓(xùn)練,遞歸此過程直至剩余最后1個特征。特征消除順序即特征的重要性排序,最先消除的特征重要程度最低,最后消除的特征重要程度最高。
本文以國內(nèi)某油田產(chǎn)量數(shù)據(jù)為例,建立產(chǎn)量預(yù)測模型。該油田為中高滲透砂巖水驅(qū)開發(fā)油田,2005年進入特高含水階段。目前采油井1.4×104口,年產(chǎn)油800多萬噸,含水率大于95%。本文采用該油田2001年1月至2018年12月的生產(chǎn)數(shù)據(jù)開展模型驗證實驗。依據(jù)砂巖油田水驅(qū)開發(fā)特征以及油田開發(fā)生產(chǎn)歷史,篩選出產(chǎn)量影響因素包括新井?dāng)?shù)、新井產(chǎn)量、前 1年投產(chǎn)采油井?dāng)?shù)、前1年投產(chǎn)采油井產(chǎn)量貢獻、前2年投產(chǎn)采油井?dāng)?shù)、前 2年投產(chǎn)采油井產(chǎn)量貢獻、…、前 9年投產(chǎn)采油井?dāng)?shù)、前9年投產(chǎn)采油井產(chǎn)量貢獻、前10年及以前投產(chǎn)采油井?dāng)?shù)、前10年及以前投產(chǎn)采油井產(chǎn)量貢獻、注水井?dāng)?shù)、月注入量、含水率、生產(chǎn)天數(shù)、剩余可采儲量、新區(qū)動用可采儲量、老區(qū)新增可采儲量、措施井次、措施增油量及原油價格,共計32項。需要說明的是,以2018年為例,前1年為2017年,前2年為2016年,以此類推。實驗的主要目的是:①評價LSTM根據(jù)產(chǎn)量影響因素以及歷史產(chǎn)量數(shù)據(jù)預(yù)測未來產(chǎn)量的能力;②比較 LSTM、傳統(tǒng)水驅(qū)曲線方法和FCNN的預(yù)測結(jié)果。
使用全部32個產(chǎn)量影響因素對數(shù)據(jù)質(zhì)量要求高,相關(guān)性較小的因素會對模型精度造成干擾。只使用主控因素可以增加模型靈活性,降低模型復(fù)雜度,提高模型精度。因此,本文利用基于支持向量機的遞歸特征消除方法進行特征選擇,將各影響因素按重要程度排序。經(jīng)交叉驗證得到最優(yōu)的特征數(shù)量為17,所以選擇重要程度排前 17的影響因素,即生產(chǎn)天數(shù)、前 10年及以前投產(chǎn)采油井產(chǎn)量貢獻、前 1年投產(chǎn)采油井產(chǎn)量貢獻、前9年投產(chǎn)采油井產(chǎn)量貢獻、前7年投產(chǎn)采油井產(chǎn)量貢獻、前6年投產(chǎn)采油井產(chǎn)量貢獻、前4年投產(chǎn)采油井產(chǎn)量貢獻、前 3年投產(chǎn)采油井產(chǎn)量貢獻、前8年投產(chǎn)采油井產(chǎn)量貢獻、前5年投產(chǎn)采油井產(chǎn)量貢獻、前2年投產(chǎn)采油井產(chǎn)量貢獻、前10年及以前投產(chǎn)采油井?dāng)?shù)、當(dāng)年投產(chǎn)采油井產(chǎn)量貢獻、措施增油量、措施井次、當(dāng)年投產(chǎn)采油井?dāng)?shù)、月注入量。
為了提高模型的預(yù)測精度和消除指標(biāo)之間量綱的影響,需要對輸入和輸出數(shù)據(jù)進行預(yù)處理。由于數(shù)據(jù)較穩(wěn)定,不存在極端的最大、最小值,本文采用歸一化處理方法,將其映射到[0,1]區(qū)間,線性變換式為:
2.3.1 特征向量構(gòu)造
假設(shè)Xt為t時刻的產(chǎn)量影響因素特征向量,目標(biāo)是預(yù)測未來N個月的產(chǎn)量。每個特征向量包含17個特征,編號為F1—F17。其中,F(xiàn)1—F9為前1—9年投產(chǎn)采油井產(chǎn)量貢獻,F(xiàn)10為前10年及以前投產(chǎn)采油井產(chǎn)量貢獻,F(xiàn)11為前10年及以前投產(chǎn)采油井?dāng)?shù),F(xiàn)12為當(dāng)年投產(chǎn)采油井產(chǎn)量貢獻,F(xiàn)13為措施增油量,F(xiàn)14為生產(chǎn)天數(shù),F(xiàn)15為當(dāng)年投產(chǎn)采油井?dāng)?shù),F(xiàn)16為月注入量,F(xiàn)17為措施井次。特征F1—F13采用t時刻的數(shù)據(jù)。特征F14—F17采用t+N時刻的數(shù)據(jù),如果有實際的生產(chǎn)數(shù)據(jù)則使用生產(chǎn)數(shù)據(jù),否則使用計劃數(shù)據(jù)。也就是說,后4個特征的時間比前13個特征的時間滯后N個月。
2.3.2 時間序列化數(shù)據(jù)構(gòu)造
LSTM的特殊結(jié)構(gòu)要求其輸入是特征向量的序列,而序列是由連續(xù)的M個特征向量組成,M為時間序列步長。所以,在進行訓(xùn)練之前,需要構(gòu)造LSTM的輸入序列。假設(shè)Xt為t時刻的特征向量,則本文構(gòu)造的輸入序列形式為{Xt-M+1,Xt-M+2,…,Xt}。第 1 個序列為{X1,X2,…,XM},第2個序列為{X2,X3,…,XM+1},并以此類推得到其他序列。
2.3.3 樣本數(shù)據(jù)集構(gòu)造
本文利用LSTM模型的多對多預(yù)測功能,即用歷史上多個月的生產(chǎn)數(shù)據(jù)預(yù)測未來多個月的產(chǎn)量。樣本由輸入時間序列和輸出時間序列構(gòu)成。假設(shè)生產(chǎn)時間為T,即記錄了T個月的生產(chǎn)數(shù)據(jù),時間步長為M,預(yù)測產(chǎn)量滯后N個月,Yt為t時刻的月產(chǎn)油量。則輸入時間序列包括SI1={X1,X2,…,XM},SI2={X2,X3,…,XM+1},…,SIZ={XZ,XZ+1,…,XZ+M-1};輸出時間序列包括SO1={YM+1,YM+2,…,YM+N},SO2={YM+2,YM+3,…,YM+N+1},…,SOZ={YM+Z,YM+Z+1,…,YM+Z+N-1},共組成Z個監(jiān)督學(xué)習(xí)樣本,則Z=T-N-M+1。模型要求的輸入樣本為形如(Z,M,F(xiàn))的三維張量,其中F為特征向量的維度。在輸入時間序列中,將輸入數(shù)據(jù)劃分為A、B兩個部分:A部分包含特征F1—F13,代表第1個月到第T-N個月的實際生產(chǎn)數(shù)據(jù);B部分包含特征F14—F17,代表第T-N+1個月到第T個月的計劃數(shù)據(jù)。
2.3.4 數(shù)據(jù)集劃分
本文選取2001年1月至2018年12月的生產(chǎn)數(shù)據(jù)為實驗數(shù)據(jù),總共有 18×12=216個月的生產(chǎn)數(shù)據(jù)。結(jié)合前文的時間滯后和序列化方法組裝成算法需要的樣本數(shù)據(jù)集。其中2001年1月至2016年12月的數(shù)據(jù)作為訓(xùn)練集,2017年1月至2017年12月的數(shù)據(jù)為驗證集,2018年1月至2018年12月的數(shù)據(jù)作為測試集。
為了評估LSTM模型在產(chǎn)量預(yù)測上的準(zhǔn)確度,本文采用相關(guān)系數(shù)和平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)這兩個評價指標(biāo)。
本文實驗驗證采用 Tensorflow開源平臺作為深度學(xué)習(xí)平臺,采用 Python 3.3編寫實驗程序,同時使用了一些第三方庫,如使用Sklearn、Numpy計算技術(shù)指標(biāo),使用Keras搭建網(wǎng)絡(luò)結(jié)構(gòu)。
2.5.1 模型訓(xùn)練
首先隨機初始化LSTM神經(jīng)網(wǎng)絡(luò)參數(shù)。設(shè)置神經(jīng)網(wǎng)絡(luò)層數(shù)(layers)為 1、時間序列步長(timesteps)為 12個月、神經(jīng)元個數(shù)(neurons)為 55、訓(xùn)練循環(huán)次數(shù)(epochs)為60、批量大?。╞atchsize)為3。然后使用訓(xùn)練數(shù)據(jù)進行模型訓(xùn)練,模型訓(xùn)練完成后準(zhǔn)備驗證模型。
以預(yù)測2018年12個月的產(chǎn)量為例,輸入數(shù)據(jù)為時間步長為12的序列數(shù)據(jù),A部分為2017年1月至2017年12月的實際生產(chǎn)數(shù)據(jù),B部分為2018年1月至2018年12月的計劃數(shù)據(jù);輸出數(shù)據(jù)為2018年1月至2018年12月的月產(chǎn)油量數(shù)據(jù)序列。模型預(yù)測結(jié)果的相關(guān)系數(shù)為0.83,平均絕對百分誤差為25%。
2.5.2 參數(shù)自動調(diào)優(yōu)
隨機初始化神經(jīng)網(wǎng)絡(luò)參數(shù),模型的預(yù)測結(jié)果不一定理想,而神經(jīng)網(wǎng)絡(luò)模型參數(shù)非常多,每個參數(shù)又有較寬的取值范圍,因此本文采用手動確定參數(shù)范圍,計算機自動尋找最優(yōu)解的方式來訓(xùn)練模型。首先通過手動嘗試的方法來開發(fā)過擬合的模型,如添加更多的隱層、每層設(shè)置更多的神經(jīng)元節(jié)點,同時監(jiān)控訓(xùn)練誤差和驗證誤差的變化情況,通過尋找驗證數(shù)據(jù)集上性能開始下降(過擬合)的位置,確定參數(shù)范圍。以網(wǎng)絡(luò)層數(shù)和時間序列步長為例。如圖 1所示,當(dāng)網(wǎng)絡(luò)層數(shù)為 2時,預(yù)測值與實際值的相關(guān)系數(shù)為 0.94,平均絕對百分誤差為2%;當(dāng)網(wǎng)絡(luò)層數(shù)繼續(xù)增加時,發(fā)生過擬合,預(yù)測結(jié)果與實際值偏差較大,所以設(shè)置網(wǎng)絡(luò)層數(shù)范圍為[1, 2]。如圖2所示,當(dāng)時間序列步長小于13個月時,相關(guān)系數(shù)大于 0.80,平均絕對百分誤差小于20%,所以確定時間步長參數(shù)范圍為[1, 12]。
確定所有參數(shù)的范圍后,采用計算機自動調(diào)優(yōu)的方法尋找最優(yōu)參數(shù)組合。自動調(diào)優(yōu)的參數(shù)包括網(wǎng)絡(luò)層數(shù)、時間步長、神經(jīng)元個數(shù)、訓(xùn)練循環(huán)次數(shù)、批量大小。依據(jù)確定的參數(shù)范圍,結(jié)合油田開發(fā)生產(chǎn)經(jīng)驗,設(shè)置每個參數(shù)的步長,各參數(shù)及其取值如表1所示。
圖1 不同層數(shù)神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測值與實際值對比
圖2 不同時間序列步長下的相關(guān)系數(shù)、平均絕對百分誤差
表1 神經(jīng)網(wǎng)絡(luò)模型參數(shù)組合
LSTM的損失函數(shù)(loss function)使用均方誤差(Mean Square Error,MSE)。
優(yōu)化器(optimizer)使用“adam”,用來計算神經(jīng)網(wǎng)絡(luò)每個參數(shù)的自適應(yīng)學(xué)習(xí)率。采用Dropout(按照一定的比例將神經(jīng)元暫時從網(wǎng)絡(luò)中丟棄)方法防止過擬合,Dropout的比例為30%。
這里共有34 848個參數(shù)組合,程序采用分布式技術(shù)將每組參數(shù)生成對應(yīng)的模型文件和預(yù)測結(jié)果進行存儲。待所有參數(shù)訓(xùn)練完成后,選用相關(guān)系數(shù)高且平均絕對百分誤差小的模型為最優(yōu)模型。
利用最優(yōu)模型預(yù)測該油田2018年的產(chǎn)量,通過與實際產(chǎn)量對比,相關(guān)系數(shù)為 0.93,平均絕對百分誤差為1%(見表2)。LSTM最優(yōu)參數(shù)組合為:隱藏層層數(shù)為2,隱藏層神經(jīng)元個數(shù)分別為55和25,時間步長為9個月,即用過去9個月的信息來預(yù)測未來1個月的產(chǎn)量,批量大小為2,即用每2個樣本更新1次網(wǎng)絡(luò)參數(shù),訓(xùn)練循環(huán)次數(shù)為60。
通過模型在測試集上的預(yù)測結(jié)果可知(見圖3),LSTM 模型的預(yù)測結(jié)果與實際產(chǎn)量的趨勢基本相同,并且數(shù)值也較為接近,比傳統(tǒng)水驅(qū)曲線和FCNN模型預(yù)測得更準(zhǔn)確。實驗結(jié)果表明LSTM模型能較好地用于油氣產(chǎn)量時間序列的預(yù)測。
表2 水驅(qū)曲線、FCNN及LSTM預(yù)測結(jié)果指標(biāo)對比
圖3 水驅(qū)曲線、FCNN和LSTM預(yù)測結(jié)果
利用LSTM模型預(yù)測了另外兩個油田2018年的月產(chǎn)油量(見表 3),顯示了較好的預(yù)測結(jié)果,驗證了本文方法的通用性。
表3 應(yīng)用LSTM模型對兩個油田進行產(chǎn)量預(yù)測的結(jié)果
本文將機器學(xué)習(xí)中的LSTM應(yīng)用于油田特高含水期的產(chǎn)量預(yù)測。LSTM 能夠有效建立在時間上具有長期相關(guān)性的產(chǎn)量序列的模式,并基于這些模式對產(chǎn)量進行預(yù)測。
在模型訓(xùn)練過程中,模型考慮因素的多少影響預(yù)測精度。LSTM 模型既考慮了產(chǎn)量指標(biāo)與影響因素之間的關(guān)系,又考慮了產(chǎn)量指標(biāo)自身的變化趨勢,預(yù)測準(zhǔn)確度和相關(guān)性都較高;FCNN只考慮了產(chǎn)量指標(biāo)與影響因素之間的關(guān)系,預(yù)測結(jié)果高于實際值;水驅(qū)曲線模型只考慮了產(chǎn)量自身的變化趨勢,預(yù)測結(jié)果高于實際值。特征工程對模型預(yù)測精度也有重要影響。針對同樣的模型結(jié)構(gòu),進行特征工程操作后的預(yù)測結(jié)果明顯優(yōu)于未進行特征工程操作的預(yù)測結(jié)果。根據(jù)特征工程分析,歷年投產(chǎn)井在當(dāng)年的產(chǎn)量、生產(chǎn)天數(shù)、新投產(chǎn)井?dāng)?shù)、措施井次、措施增油量、月注入量等對產(chǎn)量的影響較大。根據(jù)預(yù)測結(jié)果分析,LSTM 針對時間序列數(shù)據(jù)的特征提取能力較強,可以提取歷年投產(chǎn)井在當(dāng)年的產(chǎn)量剖面數(shù)據(jù),并依靠神經(jīng)網(wǎng)絡(luò)記憶單元中儲存的歷史生產(chǎn)信息,模擬出歷年投產(chǎn)井的產(chǎn)量隨時間變化的趨勢,相當(dāng)于預(yù)測老井產(chǎn)量;利用新投產(chǎn)井?dāng)?shù)和新井產(chǎn)量的歷史數(shù)據(jù),挖掘二者之間的關(guān)系,并預(yù)測新井產(chǎn)量;利用措施井次和措施增油量歷史數(shù)據(jù)能夠反映措施工作量帶來的增油量情況。
利用LSTM實現(xiàn)了基于數(shù)據(jù)驅(qū)動方法預(yù)測油田特高含水期產(chǎn)量,并與傳統(tǒng)水驅(qū)曲線方法進行對比,顯示出良好的趨勢和較小的誤差,可以快速預(yù)測新井、老井產(chǎn)量變化情況。與數(shù)值模擬相比,該方法不需要建立物理模型,可實現(xiàn)快速預(yù)測。雖然物理意義缺失,但可以豐富產(chǎn)量預(yù)測方法,支撐油田開發(fā)調(diào)整工作。
LSTM 具有強大的非線性擬合和時間記憶能力,從訓(xùn)練數(shù)據(jù)中提取信息的能力較強。既能考慮產(chǎn)量指標(biāo)與影響因素之間的關(guān)系,又能考慮產(chǎn)量指標(biāo)自身的變化趨勢。LSTM 是基于歷史數(shù)據(jù)建立目標(biāo)和影響因素之間的非線性映射關(guān)系。要利用LSTM建立特高含水期產(chǎn)量預(yù)測模型,需要獲取一定時間段的特高含水期生產(chǎn)數(shù)據(jù)。本文所選擇油田具備10年以上特高含水期生產(chǎn)歷史,并選擇了特高含水之前的 4年生產(chǎn)數(shù)據(jù)參加了模型訓(xùn)練。針對生產(chǎn)歷史較短的油田,可以考慮遷移學(xué)習(xí)的方法,利用其他具備較長生產(chǎn)歷史的油田訓(xùn)練獲得的模型進行預(yù)測分析。特征工程操作有助于提高模型精度。特征選擇可以過濾掉非主控因素;標(biāo)準(zhǔn)化操作可以消除量綱的影響。網(wǎng)絡(luò)的深度要適應(yīng)數(shù)據(jù)的復(fù)雜情況,從淺層網(wǎng)絡(luò)開始嘗試,通過觀察模型精度變化曲線確定模型參數(shù)的取值范圍,再采用分布式技術(shù)針對不同模型參數(shù)組合并行訓(xùn)練,有助于提高模型訓(xùn)練效率。
符號注釋:
ci——第i個特征的得分;F——特征向量維度;M——時間步長,月;N——滯后時間,月;t——時間,月;T——生產(chǎn)時間,月;X——生產(chǎn)指標(biāo)的特征值;Xmax——生產(chǎn)指標(biāo)的最大值;Xmin——生產(chǎn)指標(biāo)的最小值;Xnorm——標(biāo)準(zhǔn)化處理后的值;Xt——t時刻的特征向量;Yt——t時刻的月產(chǎn)油量預(yù)測結(jié)果,t;Z——組裝的樣本總數(shù);ωi——支持向量機模型中最優(yōu)超平面第i個特征的權(quán)重。