徐英卓, 王若禹, 王六鵬
(1 西安石油大學 計算機學院, 西安 710065; 2 西安石油大學 石油工程學院, 西安 710065)
隨著經濟的快速發(fā)展,石油天然氣等自然資源的消耗量也在不斷增加。 機械鉆速(ROP)是影響鉆井效率的關鍵因素之一,是石油工程鉆井作業(yè)的重要經濟指標。 傳統(tǒng)工藝技術實現“硬”提速,但由于各井之間地質條件不同導致提速效果差異大,從而陷入提速瓶頸。 所以快速、準確地提高機械鉆速,得到主要影響因素,進而優(yōu)化鉆井參數,該課題已成為鉆井工程領域亟需解決的研究熱點。
2007 年,范翔宇等學者[1]利用地震資料提出以數理統(tǒng)計方法對鉆速進行預測,符合率達到70%,然而由于地震資料的精度導致準確率難以進一步提升。 2019 年,劉勝娃等學者[2]建立基于誤差反向傳播神經網絡設計的機械鉆速預測模型,但因為數據有限、特征較少導致對機械鉆速影響規(guī)律未能進行有效探索。 2021 年,許明澤等學者[3]研究多模型集成學習應用于機械鉆速預測中,預測效果優(yōu)于單一模型。 但并未對單一模型進行調參,并不能解釋集成模型優(yōu)劣。
綜上所述,目前學界對機械鉆速影響因素的研究并不全面,導致機械鉆速模型的精確度也不高。本文提出遺傳算法-隨機森林(GA-RandomForest)機械鉆速預測模型,仿真實驗結果表明所建預測模型具有更高精度。
(1)隨機森林算法。 該方法是一種通過集成學習思想將多個決策樹集成在一起的算法。 隨機地從數據集中抽取數據用作決策樹[4]的訓練集,并隨機地從特征數據中選取特征節(jié)點建立決策樹,重復操作后形成森林。 在此基礎上,對所有樹得出的值進行選擇,被選擇最多的即是最終的輸出結果。
(2)遺傳算法。 該方法是解決復雜優(yōu)化問題最常用的方法[5]。 遺傳算法模擬生物遺傳進化的過程。首先,初始化總體,每個染色體代表一個解決方案。其次,適應度函數決定了種群進化的方向,適應度函數的值決定了解的質量。 適應度函數定義為:
然后,按照適者生存的自然選擇原則,優(yōu)秀的個體更有可能保留自己的基因,因此具有高適應值的個體更有可能被選為下一代的父母。 本研究用輪盤賭法進行選擇操作,使個體被選擇概率與其適應度值成正比,個體α被選擇的概率pα可表示為:
其中,Fα為個體α的適應度值,Fα′為個體α′的適應度值。
最后,通過交叉和變異生成下一代種群,當得到滿意解或達到定義代數時,則結束進化過程。
(3) GA-Random Forest 算 法[6]。 GA-Random Forest 機械鉆速預測模型的建模過程如圖1 所示。由圖1 可看到,首先,將隨機森林中的每一個決策樹作為染色體對其進行編碼,規(guī)定決策樹的數量就是染色體的長度。 然后,設置條件函數來計算該樹的準確率,用來評價決策樹組合的優(yōu)缺點。 每個決策樹組合的分類正確率作為對應染色體的適應度。 其次,用輪盤賭法進行選擇操作,規(guī)定其中每一代優(yōu)秀率高的組合具有更高的被選擇遺傳下來的概率。 最后,通過交叉產生子代,變異可為決策樹的組合提高隨機性,從而避免陷入局部最優(yōu)。 通過上述步驟,得到了更加優(yōu)秀的個體,如此即可以加快進化速度。
圖1 模型框架結構圖Fig. 1 Model frame structure
本次實例數據選用某油田特定區(qū)塊下的井史數據。 表1 列舉了部分數據。 文中對此進行初步篩選后,擬以表1 中的特征參數作為影響因素。
表1 機械鉆速預測模型輸入數據表Tab. 1 Partial data of ROP prediction
2.2.1 CatBoost 對類別變量的處理
CatBoost 編碼器可以避免均值編碼對y變量敏感的弊端,并減少過擬合且不改變數據集的大小。其基本思想也是計算某一行數據的特征編碼時,避免使用到該行的目標值(Target)。 首先,將相同類別的元素分組,求出每一組target的平均值作為其對應的編碼。 然后,引入“前綴和”的思想,即對于某一類別的某一個值,其對應的編碼值等于其之前行的所有該類別值的對應target的平均值。 前綴和定義如下:
本文中,巖性作為有11 種類別的變量,將采用CatBoost編碼器對類別特征無序且對類別數量較多的目標變量編碼方式進行處理。 編碼結果見表2。
表2 類別變量編碼結果表Tab. 2 Category variable coding results
2.2.2 卡爾曼濾波數據降噪處理
卡爾曼濾波是一種借助線性算法的方程,通過系統(tǒng)輸入輸出觀測數據,對系統(tǒng)狀態(tài)進行最優(yōu)估計的算法。
卡爾曼濾波分為2 個步驟。 第一步,基于上一時刻狀態(tài)數據預測當前時刻狀態(tài)。 第二步,是綜合第一步預測出的當前時刻狀態(tài)和實際觀測狀態(tài),估計出最優(yōu)的狀態(tài)作為濾波的結果。 對此數學方法,可用如下公式進行描述:
這里,式(4)是狀態(tài)預測;式(5)是誤差矩陣預測;式(6)是卡爾曼增益計算;式(7)是狀態(tài)校正,運算輸出的就是最終的卡爾曼濾波結果;式(8)是誤差矩陣更新。
卡爾曼濾波對其中機械鉆速數據的降噪前后對比如圖2 所示。 分析圖2 可知,經過卡爾曼濾波處理,本來包含許多尖峰和突變的原始數據相較于之前變得輪廓更加清晰,峰值不再尖銳。 所以卡爾曼濾波有效去除了原始數據中明顯的信號干擾,在處理過后并未改變原數據的變化特性。
圖2 卡爾曼濾波降噪處理對比圖Fig. 2 Comparison of Kalman filter denoising
在工程實踐中獲得的鉆井數據類別繁多,將收集到的所有特征參數輸入機器學習模型進行訓練,會導致模型維度過多,也就無法有效提升擬合程度。為此,利用最大互信息系數(MIC), 最大程度地根據信息尋找參數之間線性或者非線性的關系。
最大互信息系數計算公式如下:
其中,a、b分別表示在x,y方向上的區(qū)域分割個數;B表示可設置參數;I(x;y)表示MIC值。 式(9)為在不同規(guī)定范圍下得到各自的MIC值,并在歸一化處理后來求得最大值。
鉆井特征參數最大互信息相關分析圖如圖3 所示。 由圖3 可見,立壓與泵壓、相關性極強(0.98),排量和入口流量、相關性極強(0.98)。 因此,通過MIC計算值與實際工程原理結合篩選井深、巖性、鉆壓、轉盤轉速、鉆井液密度、入口流量、立壓、扭矩等8 項參數篩選作為機械鉆速預測模型的輸入變量。
圖3 鉆井特征參數最大互信息相關分析圖Fig. 3 MIC of drilling characteristic parameters
這里,研發(fā)建立了GA-Random Forest 機械鉆速預測模型。 隨機森林模型中涉及到的2 個主要參數是樹的深度和決策樹的數量,所以利用遺傳算法對其進行優(yōu)化。 首先,根據經驗設定樹的深度和決策樹的數量,并在遺傳算法中設定繁殖的代數為100,種群的數量為500,同時設定交配的概率為0.6,變異概率為0.01。 當代數達到設定的100 代時算法停止,給出最優(yōu)的一代和其中解碼后的參數。 研究中得到的繁殖迭代過程參數見表3。
表3 每一代繁殖參數表Tab. 3 Parameters value of each generation
最終,確定最優(yōu)代為第76 代,n_estimators為120,max_depth為16,R2_score為0.937 4。
為了證明GA-Random Forest 機械鉆速預測模型在本次實驗中與其他模型相比具有更高精度,故選取決策樹回歸模型、KNN 回歸模型、SVR 回歸模型進行對比分析,實驗結果如圖4 所示。
圖4 多模型預測結果對比圖Fig. 4 Prediction results of multiple models
為比較模型的優(yōu)劣,用擬合優(yōu)度R2作為區(qū)別的標準。R2越大,模型的解釋程度越高,預測點在回歸直線附近越密集。 由圖4 可見,GA-Random Forest 模型的預測值與實測數據曲線變化一致、對應數值點相近,并且該模型的R2值優(yōu)于其他3 種算法模型。 因而可知,本文研究的機械鉆速預測模型精度更高。
(1)使用CatBoost encoder 得到更直接表示分類變量和目標變量之間的關系的目標編碼,并且有效降低模型過擬合。
(2)去除多余的干擾獲得真實有用的數據,使用卡爾曼濾波降噪處理后達到信噪分離的效果,進一步提高算法模型的擬合程度。
(3)本次研究提出的方法在隨機森林的基礎上又提高了計算準確度和適應能力,并通過簡化模型的結構,有效提高了計算速度。