李春生,張圣權,張 巖,張可佳
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
制定科學的清防垢方案是油田解決采出系統(tǒng)結垢的主要手段,清、防垢劑的藥量控制是方案實施的關鍵,因此更加精確的預測加藥量對油田的穩(wěn)產(chǎn)具有重要意義。
目前,國內外對清防垢加藥量預測主要有以下三個方向:
(1)室內模擬試驗。針對不同油田,室內模擬預測加藥量。由于不同油田具有差異性,該方法泛化能力弱,可移植性差,難以推廣應用。
(2)數(shù)據(jù)分析預測。通過挖掘數(shù)據(jù)間的聯(lián)系進行數(shù)學建模,得到加藥量預測模型。主要有決策樹、支持向量機、人工神經(jīng)網(wǎng)絡等類別。CART多用于分類,處理特征多、相關性強的數(shù)據(jù)時準確率低。SVM難以訓練大規(guī)模樣本,難與油田大數(shù)據(jù)匹配。ANN收斂速度慢、易過擬合,在波動劇烈時段常出現(xiàn)較大偏差,且其多數(shù)研究是對浮選過程加藥量預測。
(3)人工經(jīng)驗預測。通過經(jīng)驗預測不同結垢階段的加藥量。該方法具有效率慢、預測精度低、清防垢效果差等弊端。
經(jīng)研究發(fā)現(xiàn)隨機森林回歸應用在采出井結垢預測領域效果較好,而結垢預測與加藥量預測相似程度較高,通過大量研究,發(fā)現(xiàn)隨機森林回歸泛化能力強、對誤差的敏感度不高、可分析特征重要度,且能同時處理連續(xù)、離散屬性,運行效率高。綜上所述,該文應用隨機森林回歸算法進行清防垢加藥量預測。
隨機森林是Leo Breiman在21世紀提出的基于決策樹的機器學習算法,在機器學習算法中,隨機森林回歸預測精度較高,在環(huán)境、電力、醫(yī)學等領域得到了廣泛應用,但將其應用在油田領域的卻少之又少。
n
個樣本,然后按隨機選取一定數(shù)目特征的方法將n
個子訓練集生成決策回歸樹,以構成隨機森林,最后,對于n
個測試樣本,以每棵決策回歸樹輸出的均值為最終結果。其示意圖如圖1所示。圖1 隨機森林回歸示意圖
隨機森林應用隨機特征子空間和裝袋算法,使模型的泛化能力得到提高。通過研究表明,決策樹的數(shù)量、最大特征數(shù)和樹最大深度對隨機森林回歸模型的預測影響很大,所以這三個參數(shù)的取值至關重要。
影響模型效果的因素有很多,其中最為關鍵的就是參數(shù)選擇,它可以有效避免過擬合,從而提高模型的泛化能力。在機器學習和統(tǒng)計學中常用K折交叉驗證的方法評價模型的泛化能力,K折交叉驗證基本流程如下:
(1)將原始訓練集進行互不相交的劃分處理,分成K
個子集;(2)將K
個子集中的K
-1份取出,用于訓練,剩余1份用于測試;(3)重復K
次訓練,將各次指標的均值作為交叉驗證模型的指標。網(wǎng)格搜索是一種調參方法,通過指定參數(shù)值,循環(huán)遍歷參數(shù)范圍,采用交叉驗證方法得到最優(yōu)參數(shù)。該方法既簡單又高效,同時又有很強的通用性,因此,該文采用網(wǎng)格搜索算法進行參數(shù)選擇,進而得到參數(shù)最優(yōu)的模型。
在評價模型時,采取通用的模型精度和效率作為評價指標,作為模型結論與實際值的吻合程度的衡量標準。
(1)模型精度。
平均相對誤差MRE和確定性系數(shù)R是評價模型預測精度的兩個主要指標,MRE越小、R越大,則模型精度越高。
(1)
(2)
(2)模型效率。
模型效率主要以模型的訓練時間作為評價依據(jù),訓練時間越短,則模型效率越高。
E
,對樣本特征值a
增加噪聲干擾,現(xiàn)模型的袋外誤差為E
,則該特征的重要度F
為:(3)
其中,K
為模型先驗輸入的特征集。經(jīng)過對油田專家充分的調研和實驗分析,選取預測加藥濃度、實際加藥濃度、計算排量等20種特征因素作為特征分析對象。表1列出了選取出的具體特征因素。
表1 特征因素選取
其中采出井的生產(chǎn)數(shù)據(jù)、藥劑濃度、加藥泵流量、加藥泵計算排量屬于數(shù)值型特征,其余為非數(shù)值型特征。該文對非數(shù)值型特征進行量化,轉化為數(shù)值型特征并放入“[]”中。例如:“預測結垢類型”取值為“[1,2]”,分別代表2種結垢類型:碳酸鹽垢、硅酸鹽垢;“藥劑類型”取值為“[1,2,3]”,分別代表3種藥劑類型:碳酸鹽防垢劑、硅酸鹽防垢劑、緩釋阻垢劑;“結垢階段”的取值為“[1,2,3]”,代表3種結垢階段:結垢前期、結垢中期、結垢后期;“加藥類型”取值為“[1,2]”,代表2種加藥類型:井口加藥、計量間加藥;“加藥方式”取值為“[1,2,3,4]”,代表4種加藥方式:間歇加藥、集中加藥、連續(xù)點滴加藥、清防一體加藥。
根據(jù)隨機森林基本原理,隨機森林回歸預測清防垢加藥量的模型構建流程如圖2所示。
圖2 隨機森林回歸模型預測流程
由圖2可知,隨機森林回歸預測清防垢加藥量的模型構建的具體步驟如下:
步驟一:特征選取與預處理。根據(jù)經(jīng)驗選取輸入特征,收集數(shù)據(jù)并進行預處理,得到樣本集。
步驟二:網(wǎng)格搜索及交叉驗證??煞譃橐韵?個子步驟:
(1)將樣本集劃分為訓練集和測試集,對訓練集進行K
折劃分;(2)根據(jù)經(jīng)驗和特征維度設定網(wǎng)格搜索的參數(shù)范圍,設定決策樹數(shù)量n
、最大特征數(shù)m
、樹最大深度d
;(3)選取訓練集中的任意K
-1折數(shù)據(jù);(4)選取網(wǎng)格搜索范圍內的任一組參數(shù),從選取的K
-1折數(shù)據(jù)中有放回地抽取樣本數(shù)據(jù)(等于樣本總數(shù))作為單棵決策樹的樣本;(5)利用網(wǎng)格搜索參數(shù)中的特征集選擇方法從特征集中選取z
個特征,當樹深小于樹最大深度時,根據(jù)最優(yōu)分支特征和分割點,將該節(jié)點樣本分支到下一層兩個節(jié)點中,直到達到預定的樹的棵數(shù)n
;(6)對上述隨機森林預測剩余的一折數(shù)據(jù)進行計算,得出預測數(shù)據(jù)的確定性系數(shù),將其作為評價指標;
(7)重復步驟(4)~(6),完成測試集數(shù)據(jù)K
-1種組合的遍歷,計算出所有組合的評價指標,并求其平均值,作為該組參數(shù)所確定的模型的評價指標;(8)重復步驟(3)~(6),直到遍歷網(wǎng)格搜索的所有參數(shù)組合,選取最優(yōu)的模型參數(shù)。
步驟三:構建隨機森林回歸模型。根據(jù)步驟(8)選取的最優(yōu)參數(shù),對測試集的所有數(shù)據(jù)重復步驟(5)建立隨機森林回歸模型。
步驟四:特征篩選。整理樣本的各個特征取值,并對其進行噪聲處理,用公式(3)計算各個特征的重要度。
步驟五:將特征重要度比較高的t
個特征篩選出來,重復步驟二,構建參數(shù)優(yōu)化后的隨機森林回歸模型。步驟六:輸入測試集數(shù)據(jù),得到每棵樹的回歸結果,進行取均值操作,最終得到模型預測結果。
該文選取大慶市某采油廠某三元復合驅區(qū)塊的189口采出井2020年1月至9月的清防垢數(shù)據(jù),先驗輸入特征選取結垢預測數(shù)據(jù)、生產(chǎn)數(shù)據(jù)及加藥數(shù)據(jù)等20維數(shù)據(jù),其中,訓練集為9月1日零時前的數(shù)據(jù),共6 086個,測試集為9月1日零時后的數(shù)據(jù),共764個。
參數(shù)設定的范圍決定了網(wǎng)格搜索計算的時間,范圍越大,計算時間就越長。該文根據(jù)經(jīng)驗確定了決策樹數(shù)量的范圍,參考樣本條件確定了最大特征數(shù)和樹最大深度的范圍,設定參數(shù)范圍如表2所示。最終通過計算,得到各個參數(shù)在訓練集上的交叉驗證表現(xiàn)情況,其中交叉驗證分數(shù)最高為0.531 0,對應的參數(shù)如下:決策樹數(shù)量為27,最大特征數(shù)為12,樹最大深度為3。
表2 初始模型參數(shù)設定
通過網(wǎng)格搜索確定參數(shù)后,改變訓練集各個特征的取值,得到各特征的重要性,分別如圖3所示。
圖3 特征重要度分布
由該結果可知原特征集20維特征中重要性最高的為預測日當天的計算排量數(shù)據(jù),其次為前一天的實際加藥量數(shù)據(jù),剩余18項特征的重要性排序依次為:實際加藥濃度、預測加藥濃度、泵流量和前兩天實際加藥量數(shù)據(jù),而其他14項特征與預測日實際加藥量的關聯(lián)性較低,不會對加藥量預測模型效果產(chǎn)生影響,所以將這14項特征進行剔除。最終選取輸入特征6個,分別為預測日當天的計算排量數(shù)據(jù)、前一天的實際加藥量數(shù)據(jù)、實際加藥濃度、預測加藥濃度、泵流量和前兩天實際加藥量數(shù)據(jù)。
利用網(wǎng)格搜索方法,計算各個參數(shù)在新的樣本訓練集上的交叉驗證得分情況,其中交叉驗證分數(shù)最高為0.592 0,對應的參數(shù)為決策樹數(shù)量為44,最大特征數(shù)為3,樹最大深度為4。參考上述結果,選取最優(yōu)參數(shù)如表3所示。
表3 預測模型參數(shù)設定
為了避免隨機森林回歸在構建模型過程中的隨機性,該文進行了60次試驗,得到所有結果中的最小值、最大值及平均值,如表4所示。其中指標MSE、R分別為預測集上的均方誤差、確定性系數(shù),time、oobscore分別為模型運行時間和袋外誤差。
表4 隨機森林模型預測結果統(tǒng)計
從表4得知,R的平均值為0.763,說明模型的精度較高,oobscore的平均值達到了0.835,說明模型的泛化能力較強,因此,模型的預測結果是比較穩(wěn)定的。
為了驗證特征篩選方法和隨機森林回歸模型在清防垢加藥量預測的實用效果,該文使用相同數(shù)據(jù)集進行相同次數(shù)的訓練實驗,分別利用人工神經(jīng)網(wǎng)絡回歸模型、支持向量機回歸模型、決策回歸樹進行預測,得出了各個模型在最優(yōu)參數(shù)下的預測結果,數(shù)據(jù)如表5所示。其中RFR代表未經(jīng)特征篩選,RFR’代表經(jīng)過特征篩選。
表5 模型預測結果對比
整體分析以上預測結果可以得出如下結論:
(1)從模型預測的平均誤差來看,經(jīng)特征篩選后的隨機森林模型取得了最高的預測精度,與ANN、CART和SVR相比,平均誤差分別減少了25.3%、34.4%和24.4%;未經(jīng)特征篩選的隨機森林模型預測精度也比較高,比ANN、CART和SVR的平均誤差分別減少了23.7%、33%和23%;
(2)從特征篩選的結果來看,經(jīng)特征篩選后的隨機森林模型的預測精度更高,平均誤差較未經(jīng)特征篩選的隨機森林回歸模型減小了1.86%,證明了特征篩選對提高模型的預測精度具有一定作用;
(3)在訓練時間方面,人工神經(jīng)網(wǎng)絡和支持向量機的訓練時間是隨機森林模型的幾十倍,說明隨機森林模型計算效率更高,具有明顯的時間優(yōu)勢,更適合大規(guī)模樣本的訓練。
綜上所述,經(jīng)特征篩選后的隨機森林回歸模型比其他預測模型具有更強的優(yōu)越性。
該文將隨機森林回歸應用于復合驅清防垢加藥量的預測,為了提高預測精度,通過隨機森林特征重要性評估功能對輸入的20維特征進行篩選,以此來剔除不必要的干擾項,分析清防垢數(shù)據(jù)特點,完成加藥量預測模型的構建。對于模型的預測結果,通過真實數(shù)據(jù)進行驗證,證實該模型預測精度高、穩(wěn)定性強,并且經(jīng)過特征篩選后,模型預測精度更高。因此,將基于隨機森林回歸的預測模型應用于清防垢作業(yè)中來解決加藥量預測問題是一種切實可行的思路和方法。