基金項目:國家重點研發(fā)計劃“變革性技術(shù)關(guān)鍵科學(xué)問題”“復(fù)雜油氣智能鉆井理論與方法”(2019YFA0708300);中國石油天然氣集團(tuán)有限公司-中國石油大學(xué)(北京)戰(zhàn)略合作科技專項“物探、測井、鉆完井人工智能理論與應(yīng)用場景關(guān)鍵技術(shù)研究”(ZLZX2020-03);國家自然科學(xué)基金杰出青年基金項目“油氣井流體力學(xué)與工程”(52125401);中國石油大學(xué)(北京)科學(xué)基金項目“深井氣侵自動壓井井底壓力智能預(yù)測和控制方法”(2462022SZBH002)。
在油氣鉆探過程中,由于井下條件復(fù)雜、地層認(rèn)識不清等因素,導(dǎo)致卡鉆事故頻發(fā),嚴(yán)重制約鉆井效率。目前國內(nèi)外學(xué)者所研究的卡鉆預(yù)測方法在準(zhǔn)確性、時效性及遷移性等方面仍存在不足。為此提出了一種融合集成學(xué)習(xí)思想與智能優(yōu)化算法的卡鉆智能預(yù)測方法。該方法根據(jù)實際井場的卡鉆數(shù)據(jù),基于合理的標(biāo)簽標(biāo)定方法,將標(biāo)簽準(zhǔn)確定位于卡鉆發(fā)生前而非卡死點;通過參數(shù)相關(guān)性分析、表征意義分析、時效性以及可信性分析優(yōu)選了7個輸入?yún)?shù);使用了隨機森林(RF)、支持向量機(SVM)和BP神經(jīng)網(wǎng)絡(luò)3種算法建立了卡鉆預(yù)測模型,并對比了各模型在卡鉆與非卡鉆樣本比例嚴(yán)重不均時(卡鉆與非卡鉆比例1∶117)的表現(xiàn);然后使用投票分類器(VC)將多個模型集成,并分類預(yù)測,優(yōu)選SVM模型作為卡鉆預(yù)測基模型,使用集成學(xué)習(xí)的思想加以改進(jìn),并采用粒子群算法同時對多個SVM分類器進(jìn)行超參數(shù)優(yōu)化,簡化了調(diào)參過程的同時實現(xiàn)了耦合尋優(yōu)。最終以某區(qū)塊10次卡鉆樣本進(jìn)行訓(xùn)練測試。測試結(jié)果表明,改進(jìn)后的模型可有效尋找不同類別卡鉆的超平面,遷移預(yù)測虛警率可控制在9%,漏警率不到7%,有效預(yù)測了每一次卡鉆的大部分?jǐn)?shù)據(jù)點。研究結(jié)果有望提高現(xiàn)場鉆井風(fēng)險預(yù)警效率,為保障油氣井安全高效鉆進(jìn)提供支撐。
卡鉆智能預(yù)測;支持向量機;BP神經(jīng)網(wǎng)絡(luò);投票分類器;粒子群算法;遷移能力測試;耦合尋優(yōu)
Intelligent Prediction Method of Pipe Sticking Based on
VC-SVM and Particle Swarm Optimization
Liu Zihao1 Song Xianzhi1 Zhu Shuo2 Ye Shanlin1 Zhang Chengkai1 Ma Baodong1 Zhu Zhaopeng3
(1.College of Petroleum Engineering, China University of Petroleum (Beijing); 2. Jianghan Machinery Research Institute Limited Company of CNPC; 3. College of Mechanical and Transportation Engineering, China University of Petroleum (Beijing))
In the process of well drilling, pipe sticking frequently occurs due to the factors such as complex downhole conditions and unclear knowledge of the strata, seriously restricting the drilling efficiency. However, the existing prediction methods of pipe sticking are defective in aspects such as accuracy, timeliness and transferability. This paper presents an intelligent prediction method of pipe sticking based on ensemble learning idea and intelligent optimization algorithm. First, based on the actual sticking data at well site and a reasonable label calibration method, the label was accurately positioned at the point before the occurrence of sticking rather than at the freeze-in point, and by means of parametric dependence analysis, characterization significance analysis, and timeliness and creditability analysis, 7 input parameters were selected. Second, three algorithms, i.e. random forest (RF), support vector machine (SVM) and BP neural network, were used to build a sticking prediction model, and the performances of each model under seriously uneven proportions of sticking and non-sticking samples (sticking to non-sticking ratio: 1∶117) were compared. Third, the SVM model was selected as the basic model for the prediction of pipe sticking, and improved using the ensemble learning idea. Meanwhile, the particle swarm optimization (PSO) was used to simultaneously conduct hyperparameter optimization on multiple SVM classifiers, simplifying the parameter tuning process while achieving coupled optimization. Finally, the 10 times of sticking samples of a block were used to conduct training test. The results show that the improved model can effectively search for hyperplanes of different types of pipe sticking, with a transfer prediction 1 alarm rate controlled at 9% and a missed alarm rate of less than 7%, effectively predicting most of the data points of each pipe sticking. This study is expected to improve the risk warning efficiency of field drilling, and provides support for ensuring safe and efficient drilling of wells.
intelligent prediction on pipe sticking; SVM; BP neural network;voting classifier; PSO; transfer ability test; coupled optimization
0 引 言
在油氣勘探開發(fā)過程中,鉆井作為油氣開發(fā)中關(guān)鍵的環(huán)節(jié)之一,其成本可占勘探開發(fā)總成本的一半以上[1],并且在鉆進(jìn)過程中,有相當(dāng)一部分時間與成本被用來處理鉆井事故與風(fēng)險[2]。卡鉆事故便是鉆井事故中較為嚴(yán)重的一種,如果能夠預(yù)測或及時判別可能發(fā)生的卡鉆事故,將能夠節(jié)省開發(fā)費用并提升鉆井效率。
目前國內(nèi)外對卡鉆已經(jīng)有了較多的研究。在卡鉆機理研究方面,1962年M.R.ANNIS等[3]進(jìn)行了壓差卡鉆的室內(nèi)試驗并總結(jié)了相關(guān)規(guī)律。1984年賈仲宣[4]研究了壓差、鉆井液、接觸面積等因素對壓差卡鉆的影響,并進(jìn)行了詳細(xì)的分析與公式推導(dǎo)。在卡鉆預(yù)測方面,W.B.HEMPKINS等[5]在1987年開創(chuàng)性地使用判別分析方法建立了一個統(tǒng)計模型來判別卡鉆工況。此后越來越多的學(xué)者使用大數(shù)據(jù)分析和機器學(xué)習(xí)算法進(jìn)行卡鉆工況的識別[6-7];多個學(xué)者[8-10]通過收集大量卡鉆案例,建立一些判別卡鉆的專家系統(tǒng)和仿真系統(tǒng),用于卡鉆后的原因分析和解卡方案優(yōu)選。隨著機器學(xué)習(xí)算法在處理復(fù)雜問題方面的優(yōu)勢不斷被挖掘,朱丹和劉光星等[11-13]使用時間序列分析方法與滑動窗口方法分析參數(shù)波動,并基于此預(yù)測卡鉆事故;A.CHAMKALANI等[14]建立了輸入為轉(zhuǎn)速、機械鉆速、鉆井液塑性黏度等參數(shù)的支持向量機(SVM)模型來預(yù)測卡鉆;劉建明和易思琦等[15-16]對傳統(tǒng)隨機森林模型的數(shù)據(jù)采樣方式進(jìn)行改進(jìn),使模型精度有所提高;B.I.AI、A.K.ABBAS等[17-18]對比了決策樹、BP神經(jīng)網(wǎng)絡(luò)等算法在卡鉆預(yù)測模型中的效果,但并未分析各模型間結(jié)果差異的原因;C.SIRUVURI等[19]使用卷積神經(jīng)網(wǎng)絡(luò)等智能算法建立模型,從訓(xùn)練預(yù)測準(zhǔn)確度上做相關(guān)分析,相對傳統(tǒng)機器學(xué)習(xí)模型雖無明顯提升,但訓(xùn)練時間顯著增加;謝鑫等[20]建立了鉆進(jìn)過程中的RSI(降低卡鉆指數(shù))參數(shù)來表征鉆進(jìn)狀態(tài),當(dāng)鉆進(jìn)狀態(tài)發(fā)生異常時自動判斷為卡鉆;李紫璇等[21]將井眼清潔度模型與摩阻扭矩模型結(jié)合,其中機器學(xué)習(xí)算法用于井眼清潔度參數(shù)的更新;劉慕臣、朱碩等[22-24]將摩阻扭矩與卡鉆趨勢分析相結(jié)合,以此來預(yù)測可能發(fā)生的遇阻或者卡鉆事故。
綜上,現(xiàn)有方法大多為卡鉆的判別模型,主要對卡鉆做事后分析與判斷,在時效性方面很難達(dá)到提前預(yù)防的要求,且智能模型在測試過程中由于輸入?yún)?shù)優(yōu)選、模型構(gòu)建等方面不夠貼近現(xiàn)場實際,在落地應(yīng)用過程中存在一定的欠缺。此外,大部分智能模型在遷移過程中表現(xiàn)不佳,因此,仍需對卡鉆事故的預(yù)測方法進(jìn)行進(jìn)一步的研究與優(yōu)化。
針對卡鉆判別時效性不足、模型遷移性差、模型難落地等一系列問題,本文提出了一種基于集成學(xué)習(xí)改進(jìn)SVM與粒子群優(yōu)化算法的卡鉆智能預(yù)測方法。通過相關(guān)性、表征意義、時效性以及可信性分析來優(yōu)選適用于現(xiàn)場的模型輸入特征,以特殊的標(biāo)簽標(biāo)定方式劃分卡鉆與非卡鉆樣本;對比隨機森林(RF)、支持向量機(SVM)、BP神經(jīng)網(wǎng)絡(luò)3種機器學(xué)習(xí)算法,在機器學(xué)習(xí)理論訓(xùn)練集(正負(fù)樣本比例為5∶6)與實際現(xiàn)場模擬樣本(正負(fù)樣本比例為1∶117)下的表現(xiàn),并分析模型的遷移泛化能力。最終使用集成學(xué)習(xí)的思想,通過將多個SVM模型集成為投票分類器(VC),并使用粒子群算法進(jìn)行超參數(shù)尋優(yōu),得到了可以滿足現(xiàn)場實際使用需求的卡鉆智能預(yù)測模型。該模型將對減少卡鉆事故、提高鉆井效率和節(jié)省鉆井費用具有一定的指導(dǎo)意義。
1 卡鉆風(fēng)險機理與算法
1.1 卡鉆風(fēng)險分類及成因
目前井場經(jīng)常發(fā)生的卡鉆主要有8種(見表1),按主要成因可以分為3大類,即壓差卡鉆、機械卡鉆及循環(huán)卡鉆[25]。壓差卡鉆的發(fā)生場景為鉆具在井下靜置一段時間并且受到井壁的厚濾餅吸附,受地層巖性、鹽水侵等影響而遇阻[26];機械卡鉆多為受到巖塊、落物或井壁不規(guī)則、井眼條件差的影響而造成的硬性機械遇阻,包括鍵槽卡鉆、落物卡鉆和縮徑卡鉆;循環(huán)卡鉆的發(fā)生與鉆井液的性能以及鉆井液的循環(huán)狀況有著很大的關(guān)系,其形式包括坍塌卡鉆、沉砂卡鉆、泥包卡鉆和干鉆卡鉆。
1.2 智能算法
1.2.1 隨機森林(Random Forest,RF)
隨機森林分類算法通過自助重采樣技術(shù),從原始訓(xùn)練樣本集中抽取N個樣本,生成一個新的訓(xùn)練決策樹,然后生成M個決策樹形成隨機森林,過程如圖1所示,最后結(jié)果由各個決策樹的結(jié)果綜合決定[27]。由于其較高的算法穩(wěn)定性,目前仍然被廣泛使用。
1.2.2 支持向量機(Support Vector Machine,SVM)
支持向量機是一種二元分類模型,其通過尋找兩類樣本的“間隙”,并將這個間隙形成一個超平面[28-30]。當(dāng)樣本線性可分時,SVM就可將樣本分開,當(dāng)樣本并不完全線性可分時,可通過軟間隔將其分開;當(dāng)訓(xùn)練樣本完全線性不可分時,就需要建立非線性SVM進(jìn)行分割。2種支持向量機的可視化圖形如圖2所示。
1.2.3 人工神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)即反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BP),其為人工神經(jīng)網(wǎng)絡(luò)中最經(jīng)典的一種,是一種按誤差反向傳播訓(xùn)練的多層前饋網(wǎng)絡(luò)[31]。BP神經(jīng)網(wǎng)絡(luò)由多層、多個神經(jīng)元相連組成,結(jié)構(gòu)如圖3所示。其基本思想是利用梯度搜索技術(shù),使用梯度下降法來使網(wǎng)絡(luò)輸出的實際值與期望值之間的誤差最小。在分類模型中,神經(jīng)網(wǎng)絡(luò)基于其強大的非線性擬合能力也可取得較好的效果。
2 數(shù)據(jù)特征工程
2.1 卡鉆數(shù)據(jù)獲取
本研究選取某區(qū)塊的10次卡鉆事故數(shù)據(jù)作為樣本。由于現(xiàn)場日志所記錄的卡鉆時間往往與實際有偏差,因此需要綜合分析記錄節(jié)點、數(shù)據(jù)變化情況進(jìn)行卡鉆標(biāo)簽的標(biāo)定。
首先,通過自然語言處理方法于鉆井日志中進(jìn)行關(guān)鍵詞檢索。由于現(xiàn)場日志中很少出現(xiàn)“卡鉆”字樣,因此將關(guān)鍵詞擴充為 “遇阻”、“憋”、“憋?!薄H罩局兴涗浀臅r間即為卡鉆發(fā)生的大致時間。
隨后開始標(biāo)簽標(biāo)定。需要注意的是,現(xiàn)場發(fā)覺卡鉆事故的發(fā)生時間與實際遇阻的時間可能相差較遠(yuǎn)。以泥包卡鉆為例,鉆頭在遭遇泥包后,鉆壓與扭矩會發(fā)生一定幅度的波動,然而此時并未明顯遇阻;當(dāng)泥包程度逐漸嚴(yán)重,鉆頭與扶正器直徑有所增加,鉆進(jìn)破巖愈發(fā)困難時,此時扭矩會快速上升,現(xiàn)場才會有所察覺。如果以此時作為卡鉆發(fā)生時間,卡鉆演化過程便無法發(fā)掘,這也是大部分研究進(jìn)行標(biāo)簽標(biāo)定時的局限處。
下面以樣本中的某次卡鉆事故為例,展示標(biāo)簽標(biāo)定過程:通過對該次現(xiàn)場鉆井日志的記錄機制進(jìn)行分析,5月3日所記錄的日志是5月2日的相關(guān)操作,因此實際卡鉆時間為5月2日,大致節(jié)點如圖4紅框所示。
隨后將5月2日的鉆進(jìn)數(shù)據(jù)挑出,如圖5所示。根據(jù)圖5,鎖定參數(shù)波動較大的范圍為該日的20:48到21:38。將此時間段放大展示,結(jié)果如圖6所示。
由圖6可知,真正的卡鉆發(fā)生時間節(jié)點是在當(dāng)天的20:48前后,相比于現(xiàn)場所記錄的20:50,提前了2 min??ㄣ@樣本的標(biāo)定不可僅僅標(biāo)注于卡死點,卡死點前的參數(shù)波動、地層條件等信息都可以提供關(guān)鍵信息。因此,將卡鉆樣本標(biāo)定至數(shù)據(jù)波動開始處,此點前即為正常鉆進(jìn)樣本,如圖7所示。
以此模式完成其他卡鉆案例的樣本標(biāo)定,形成卡鉆樣本初始數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
在卡鉆樣本標(biāo)定完成后,需對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、缺失值補全、數(shù)據(jù)變換等一系列操作,從數(shù)據(jù)科學(xué)層面提升模型學(xué)習(xí)訓(xùn)練及預(yù)測效果。
①數(shù)據(jù)清洗?,F(xiàn)場錄井?dāng)?shù)據(jù)在進(jìn)行部分特殊鉆井工況時會產(chǎn)生較多異常值與空值,應(yīng)用常規(guī)的3σ原則清洗數(shù)據(jù)會刪除卡鉆導(dǎo)致的風(fēng)險表征數(shù)據(jù),此處僅通過常規(guī)的線性插值進(jìn)行數(shù)據(jù)補全,以保證數(shù)據(jù)的完整性。②數(shù)據(jù)集成。將10個卡點數(shù)據(jù)整合到同一個csv文件中,將其異名同義,同名異義的名稱修改成正確的格式,如“Bit_Depth”和“BITDEP”為相同意思,將其統(tǒng)一改成“BITDEP”。③數(shù)據(jù)變換。在后續(xù)訓(xùn)練支持向量機以及神經(jīng)網(wǎng)絡(luò)前,需要對數(shù)據(jù)進(jìn)行歸一化處理,此舉可以消除變量之間因量綱不同或取值范圍不同所帶來的影響,包括(0,1)標(biāo)準(zhǔn)化,Z-score標(biāo)準(zhǔn)化等等。
本研究采用(0,1)標(biāo)準(zhǔn)化進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)處理過程如下式所示:
式中:Xi表示某一數(shù)據(jù)的原始特征;max(Xi)與min(Xi)分別代表該特征的最大值與最小值;X~i表示標(biāo)準(zhǔn)化后的數(shù)據(jù)特征。
2.3 模型輸入?yún)?shù)選取
實時錄井?dāng)?shù)據(jù)庫共包含了60種錄井參數(shù),需根據(jù)卡鉆判別需求來優(yōu)選參數(shù)。從數(shù)據(jù)科學(xué)方面來說,所選取的模型參數(shù)應(yīng)與卡鉆事故之間存在數(shù)據(jù)相關(guān)性,并盡可能地選取相關(guān)性更高的參數(shù)來降低其余參數(shù)波動對模型的干擾,以提升模型計算效率;從業(yè)務(wù)邏輯層面來看,選取參數(shù)需能夠代表卡鉆事故中的某種因素,并具有一定的可靠性與時效性。
2.3.1 參數(shù)相關(guān)性分析
Pearson相關(guān)性系數(shù)可定量描述2個變量間的線性相關(guān)程度,本研究中分析60個錄井參數(shù)與卡鉆標(biāo)簽間的相關(guān)性。
式中:X與Y分別為需要計算相關(guān)性的2個變量;Cov(X,Y)為二者的協(xié)方差;σX與σY分別為兩變量的標(biāo)準(zhǔn)差;ρXY即為Pearson相關(guān)性系數(shù)。
經(jīng)計算,與卡鉆標(biāo)簽相關(guān)性最高的9個參數(shù)分別為:扭矩、大鉤載荷、鉆壓、轉(zhuǎn)盤轉(zhuǎn)速、立管壓力、鉆井液出口流量、鉆井液黏度、鉆頭深度、鉆井液出口溫度,其相關(guān)性系數(shù)范圍為0.87~0.58,如圖8所示。
此外,經(jīng)計算發(fā)現(xiàn),大鉤載荷和鉆壓的相關(guān)性系數(shù)也很大,達(dá)到了0.95,大鉤載荷是實測參數(shù),而鉆壓通過大鉤載荷與摩阻來粗略計算出,二者線性相關(guān),因此可以選擇舍棄鉆壓這一參數(shù)。
2.3.2 參數(shù)意義、可信性及時效性分析
為了使模型實時計算的準(zhǔn)確性有所保障,需確保模型參數(shù)能夠被實時精確獲取,時效性較差的參數(shù)也要舍棄。比如,鉆井液出口溫度這一參數(shù)由鉆井液循環(huán)狀況決定,而熱量的傳遞需要一定的時間,并且地層水的干擾讓鉆井液溫度的變化不僅僅是因為卡鉆,因此選擇將其舍棄。
2.3.3 參數(shù)選取結(jié)果
經(jīng)過參數(shù)相關(guān)性分析、參數(shù)表征意義分析、時效性分析,最終選取了7個參數(shù)作為模型的輸入?yún)?shù),如表2所示。
2.4 模型評價指標(biāo)
卡鉆作為經(jīng)典的二分類問題,可通過準(zhǔn)確率、漏警率、虛警率來分析模型的性能。其計算方法如下:
(1)準(zhǔn)確率。判斷為正類的樣本中正確的個數(shù)所占的比例:
(2)虛警率。誤判為卡鉆的樣本占預(yù)測為卡鉆的所有樣本的比例:
(3)漏警率。誤判為不卡鉆的樣本占實際為卡鉆的所有樣本的比例:
式中:TP和TN表示正確預(yù)測為卡鉆和不卡鉆的樣本數(shù)量;FP表示將不卡鉆樣本錯誤預(yù)測為卡鉆樣本數(shù)量;FN表示將卡鉆樣本錯誤預(yù)測為不卡鉆的樣本數(shù)量。
3 卡鉆智能預(yù)測模型建立
在前一部分研究中,經(jīng)標(biāo)簽標(biāo)定形成了包含10個卡鉆點、卡鉆樣本與非卡鉆樣本比例約為5∶6的數(shù)據(jù)集,數(shù)據(jù)量為25 640條。隨后按照訓(xùn)練集∶驗證集∶測試集為6∶2∶2的比例進(jìn)行劃分,并進(jìn)行建模。
3.1 RF模型建立
RF模型[27]超參數(shù)取值設(shè)置如表3所示。本部分通過網(wǎng)格搜索法進(jìn)行遍歷尋優(yōu)。
當(dāng)決策樹數(shù)量和深度分別超過50與10之后,模型訓(xùn)練效果較好,但測試集精度開始下降,出現(xiàn)過擬合現(xiàn)象。最終確定超參數(shù)組合為決策樹數(shù)量50,最大深度10,節(jié)點樣本最小值2,葉節(jié)點樣本數(shù)1。此時,模型準(zhǔn)確率97.7%,虛警率3.1%,漏警率1.8%,建模總體效果較好。
3.2 SVM模型建立
SVM模型[28-30]的核函數(shù)是決定其模型性能的關(guān)鍵指標(biāo)之一,且不同核函數(shù)的超參數(shù)也有一定區(qū)別,各類核函數(shù)超參數(shù)如表4所示。
調(diào)參過程在此不再贅述,以Sigmoid核函數(shù)為例,其最優(yōu)參數(shù):懲罰因子為20,松弛因子為1,Gamma值為0.1。SVM模型經(jīng)調(diào)參后的模型精度如圖9所示。
由圖9可知,4個模型的精度出現(xiàn)較大差異,其中高斯核函數(shù)精度略微超過了隨機森林模型,這代表了SVM模型在某種程度上具有更高的上限,但具有一定的波動性。下面的研究將通過更多測試來分析原因。
3.3 BP神經(jīng)網(wǎng)絡(luò)模型建立
神經(jīng)網(wǎng)絡(luò)模型[31]的參數(shù)尋優(yōu)相對復(fù)雜,因為神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)需要人為進(jìn)行設(shè)定,其參數(shù)優(yōu)選流程如下:
(1)首先選擇網(wǎng)絡(luò)層數(shù)。通過設(shè)定經(jīng)驗性的神經(jīng)元個數(shù)與學(xué)習(xí)率進(jìn)行訓(xùn)練,3層網(wǎng)絡(luò)的精確度為95.86%,虛警率為3.8%,漏警率為5.21%;相比之下4層神經(jīng)網(wǎng)絡(luò)精確度雖然有略微的下降,為95.34%,但漏警率減小為4.82%,現(xiàn)場更看重漏警率。因此選擇4層神經(jīng)網(wǎng)絡(luò)模型。
(2)隨后設(shè)定學(xué)習(xí)率取值區(qū)間為:0.000 1,0.001,0.01,0.1,進(jìn)行遍歷測試。
(3)最后進(jìn)行神經(jīng)元與訓(xùn)練次數(shù)的設(shè)置,如表5所示。
最終BP神經(jīng)網(wǎng)絡(luò)卡鉆預(yù)測模型最優(yōu)參數(shù)組合為:4層網(wǎng)絡(luò)結(jié)構(gòu),第1層隱藏層神經(jīng)元數(shù)128,第2層32,學(xué)習(xí)率0.01,訓(xùn)練次數(shù)100次。此時,模型準(zhǔn)確率97.3%,虛警率3.5%,漏警率2.3%。
3.4 模型分析
通過分析評價指標(biāo)可知,3類模型參數(shù)優(yōu)化后的準(zhǔn)確率都可達(dá)到90%,說明其均可學(xué)習(xí)到卡鉆的關(guān)鍵特征。其中,高斯核函數(shù)SVM與RF模型表現(xiàn)較為突出,BP神經(jīng)網(wǎng)絡(luò)次之。此處RF模型通過多棵不同的決策樹進(jìn)行綜合評判,體現(xiàn)了其在集成學(xué)習(xí)思想中解決復(fù)雜問題時強大的學(xué)習(xí)能力;SVM模型通過調(diào)整不同的核函數(shù)將卡鉆與非卡鉆樣本映射到不同的高維空間,這也使得其模型精度存在較大差異;BP神經(jīng)網(wǎng)絡(luò)模型非線性擬合能力強,當(dāng)神經(jīng)元個數(shù)足夠多時,大部分情況下可以有效分析出卡鉆樣本的特征。
4 模型實際遷移測試
4.1 實際比例樣本測試
在前一部分的研究中,數(shù)據(jù)集中卡鉆與非卡鉆樣本比例為5∶6(約1∶1),整體均衡,然而在實際的鉆井過程中,遇阻數(shù)據(jù)與正常鉆進(jìn)數(shù)據(jù)比例遠(yuǎn)不及這個比例。因此將10次卡鉆當(dāng)天及前一天的數(shù)據(jù)全部調(diào)出,并進(jìn)行數(shù)據(jù)清洗、工況篩選等工作,得到了卡鉆與非卡鉆樣本比例為1∶117的真實比例數(shù)據(jù)集,數(shù)據(jù)總數(shù)約為137萬條。
基于新數(shù)據(jù)集,仍采用6∶2∶2的比例劃分訓(xùn)練、驗證、測試集,并進(jìn)行訓(xùn)練預(yù)測。6個模型的表現(xiàn)如表6所示。
由表6可知:由于樣本的嚴(yán)重不均衡,準(zhǔn)確率參考意義較低;BP神經(jīng)網(wǎng)絡(luò)由于樣本的嚴(yán)重傾斜,已經(jīng)無法正常收斂;Sigmoid核函數(shù)由于其類似神經(jīng)網(wǎng)絡(luò)的輸出原理,導(dǎo)致其適應(yīng)性同樣較弱。但隨機森林和其余的SVM算法仍然可以控制虛警率及漏警率在20%以內(nèi),且多項式核函數(shù)實現(xiàn)了對高斯核函數(shù)的反超。
4.2 模型遷移能力測試
經(jīng)實際比例樣本測試后,已將BP神經(jīng)網(wǎng)絡(luò)模型淘汰。在先前的模型測試中,將樣本隨機劃分為10份,其中6份訓(xùn)練,2份驗證,2份測試。在模型遷移測試中,測試井?dāng)?shù)據(jù)將不是隨機選出,而是完整的2口井卡鉆樣本,即8口井訓(xùn)練驗證,2口井進(jìn)行遷移測試(見圖10),符合實際應(yīng)用過程中“基于先前同區(qū)塊井卡鉆事故進(jìn)行訓(xùn)練,對后續(xù)卡鉆事故進(jìn)行預(yù)測”的應(yīng)用流程。
模型遷移測試效果如圖11所示。通過對圖11分析發(fā)現(xiàn),RF模型與多項式SVM模型效果出現(xiàn)了較大程度的降低,這證明隨機森林模型在訓(xùn)練樣本擬合完成后,后續(xù)進(jìn)行新樣本的判別時,由于未見過新井?dāng)?shù)據(jù),模型未擬合形成相應(yīng)的子決策樹,導(dǎo)致模型無法遷移。
而SVM模型仍具有不錯的預(yù)測效果,綜合前3次測試,表現(xiàn)在:①不同核函數(shù)精度差異大,②模型可以適應(yīng)不均衡樣本,③并非某一類核函數(shù)一直保持最高精度。由此可以判斷,SVM模型在處理不同類別卡鉆時,不同的核函數(shù)可以帶來不同的適應(yīng)性:如上提下放遇阻,參數(shù)為簡單的線性變化,線性核函數(shù)可取得最好效果;當(dāng)存在泥包卡鉆等循環(huán)卡鉆時,參數(shù)存在波動,高斯核函數(shù)表現(xiàn)更強。
5 基于VC-SVM與粒子群的改進(jìn)模型
在前一部分研究中,RF模型與BP神經(jīng)網(wǎng)絡(luò)模型分別在遷移測試與實際樣本測試中被淘汰。SVM模型由于可以為各類卡鉆形成對應(yīng)的分割超平面而獲得了較好效果,但精度難以滿足實際需求。RF模型的集成學(xué)習(xí)原理為解決卡鉆提供了新思路,通過將多個SVM模型集成,進(jìn)行投票表決,實現(xiàn)卡鉆預(yù)測。
5.1 投票分類器集成框架
投票分類器(Voting Classifier)是將多個模型進(jìn)行集成并分別預(yù)測,將預(yù)測結(jié)果進(jìn)行投票計算,輸出最終結(jié)果的集成學(xué)習(xí)框架,如圖12所示。
本研究通過集成多個SVM模型,即VC-SVM模型進(jìn)行卡鉆預(yù)測。在投票方式選擇中選擇“軟投票”,即自動賦予更自信的分類器以更高的權(quán)重并加權(quán)平均,此方式可有效避免單個SVM模型的錯誤判斷。
5.2 基于粒子群算法的模型耦合尋優(yōu)
多個模型共同決策有望去除偶然性,增加可靠性,但各模型的超參數(shù)優(yōu)化成了一個難題。將各個模型分別優(yōu)化不僅效率極低,也很難確定多模型集成后是否仍為最優(yōu)參數(shù)。粒子群算法(PSO)作為一種搜索速度快、效率高,算法簡單的智能優(yōu)化算法[32],可在本研究中用于優(yōu)化模型超參數(shù),其流程如圖13所示。
通過設(shè)置不同的粒子群參數(shù)進(jìn)行遍歷,最終所選擇的粒子群優(yōu)化算法參數(shù)為:目標(biāo)函數(shù)為VC-SVM模型的3折交叉驗證準(zhǔn)確率,種群大小為50,最大迭代次數(shù)400。迭代停止條件為:30次未產(chǎn)生新的最優(yōu)值,個體加速因子與群體加速因子分別為1.5和1,慣性因子1,最小權(quán)重0.5。
通過粒子群算法對各個子模型超參數(shù)(見表4)同時進(jìn)行尋優(yōu),從而為模型找到整體最適合的超參數(shù)。粒子群算法的應(yīng)用不僅可以解決4個SVM模型分別調(diào)參的問題,也解決了交叉驗證和網(wǎng)格搜索的漫長過程,實現(xiàn)了4個SVM模型的耦合尋優(yōu)。此外,由于BP神經(jīng)網(wǎng)絡(luò)與隨機森林模型在先前的測試中被淘汰,這里復(fù)現(xiàn)了目前較多卡鉆預(yù)測所使用的智能算法(如卷積神經(jīng)網(wǎng)絡(luò)CNN、長短期記憶網(wǎng)絡(luò)LSTM、極端梯度提升決策樹XGBoost)并加入對比之中。各模型效果對比見表7。
如表7所示,經(jīng)改進(jìn),與PSO算法優(yōu)化后的PSO-VC-SVM模型相比,單獨優(yōu)化超參數(shù)的VC-SVM模型的虛警率降低至8.8%,漏警率也得到有效控制(約為6.4%),預(yù)測出了絕大部分卡鉆點,符合現(xiàn)場應(yīng)用需求。而一些常用算法在樣本比例完全失衡的遷移測試中則表現(xiàn)不夠理想,但也有部分模型的部分指標(biāo)具有一定參考價值,如XGBoost模型漏警率控制相對較好。
6 結(jié) 論
卡鉆機理復(fù)雜、種類眾多,針對目前判別時效性不足、模型遷移性差、模型難落地等一系列問題,研究提出了一種基于集成學(xué)習(xí)思想與優(yōu)化算法的卡鉆智能預(yù)測方法,并得出以下結(jié)論:
(1)為了使模型具備“先于現(xiàn)場發(fā)現(xiàn)”的預(yù)測能力,通過將日志與錄井?dāng)?shù)據(jù)進(jìn)行比對,為卡鉆發(fā)展過程“打標(biāo)簽”而不僅僅采用鉆具卡死點作為標(biāo)簽。這使得卡鉆模型能夠?qū)W習(xí)到事故發(fā)生前的參數(shù)變化特征,使模型擁有卡鉆預(yù)測基礎(chǔ),從而可真正具備預(yù)測能力。
(2)通過進(jìn)行參數(shù)相關(guān)性分析、參數(shù)表征意義分析、參數(shù)可信性及時效性分析,選擇了大鉤載荷、立管壓力等7個參數(shù)作為模型的輸入特征,這些參數(shù)可有效表征卡點,利于模型提取卡鉆事故特征。
(3)通過構(gòu)建樣本不平衡(1∶117)的卡鉆數(shù)據(jù)集來模擬實際應(yīng)用場景,從而深入評價模型性能。由于樣本比例不均衡,且各卡點數(shù)據(jù)特征不同,導(dǎo)致大部分常用智能模型的效果較差或完全無法收斂。
(4)使用集成學(xué)習(xí)的思想建立了投票分類器(VC)集成的SVM卡鉆預(yù)測模型,并使用粒子群算法同時優(yōu)化子模型的超參數(shù),實現(xiàn)了子模型的耦合尋優(yōu)。多個超平面有利于劃分不同類型的卡鉆事故,使模型虛警率降低至8.8%,漏警率控制在6.4%,滿足現(xiàn)場工程需要。
參考文獻(xiàn)
[1] 孫曉娜.石油企業(yè)鉆井工程經(jīng)濟(jì)分析與評價研究[D].成都:西南石油大學(xué).
SUN X N.Economic analysis and evaluation of drilling engineering in petroleum enterprises[D].Chengdu:southwest Petroleum University.
[2] D’AMICIS S, PAGANI M, MATTEUCCI M, et al.Stuck pipe prediction from rare events in oil drilling operations[J].Upstream Oil and Gas Technology, 2023, 11: 100096.
[3] ANNIS M R, MONAGHAN P H.Differential pressure Sticking-Laboratory studies of friction between steel and mud filter cake[J].Journal of Petroleum Technology, 1962, 14(5): 537-543.
[4] 賈仲宣.粘吸卡鉆因素淺析[J].石油鉆采工藝,1984(2):37-44.
JIA Z X.Analysis of factors of sticky snap drill[J].Oil Drilling amp; Production Technology, 1984(2): 37-44.
[5] HEMPKINS W B, KINGSBOROUGH R H, LOHEC W E, et al.Multivariate statistical analysis of stuck drillpipe situations[J].SPE Drilling Engineering, 1987, 2(3): 237-244.
[6] MIRZA M A, GHOROORI M, CHEN Z X.Intelligent petroleum engineering[J].Engineering, 2022, 18(11): 27-32.
[7] OSAROGIAGBON A U, KHAN F, VENKATESAN R, et al.Review and analysis of supervised machine learning algorithms for hazardous events in drilling operations[J].Process Safety and Environmental Protection, 2021, 147: 367-384.
[8] 孫正義,高興坤,曹錫玲.鉆井卡鉆事故預(yù)測及診斷專家系統(tǒng)模型的建立與實現(xiàn)[J].石油鉆采工藝,1996(1):20-23,106.
SUN Z Y, GAO X K, CAO X L.Development and application of sticking prediction and diagnosis expert system[J].Oil Drillingamp;Production Technology, 1996(1): 20-23, 106.
[9] 沈小翠.基于關(guān)聯(lián)模型的鉆井卡鉆事故仿真與預(yù)測控制方法研究[D].東營:中國石油大學(xué)(華東),2009.
SHEN X C.Research on simulation and predictive control method of drilling jamming accident based on correlation model[D].Dongying: China University of Petroleum(East China), 2009.
[10] 羅能.水平井卡鉆事故預(yù)測與處理方法研究[D].成都:西南石油大學(xué),2014.
LUO N.Research on prediction and treatment method of horizontal well jamming accident[D].Chengdu: Southwest Petroleum University, 2014.
[11] 朱丹.基于神經(jīng)網(wǎng)絡(luò)的卡鉆預(yù)測方法研究[D].西安:西安石油大學(xué),2013.
ZHU D.Research on jamming prediction method based on neural network[D].Xi’an: Xi’an Shiyou University, 2013.
[12] 劉光星,翟坤,陶宇龍,等.單因素時間序列ARMA建模在卡鉆預(yù)測中的應(yīng)用研究[J].重慶科技學(xué)院學(xué)報(自然科學(xué)版),2015,17(1):92-96.
LIU G X, ZHAI K, TAO Y L, et al.Application of univariate time series ARMA modeling in the prediction of sticking[J].Journal of Chongqing University of Science and Technology(Natural Sciences Edition), 2015, 17(1): 92-96.
[13] AHMED O S, AMAN B M, ZAHRANI M A, et al.Stuck pipe early warning system utilizing moving window machine learning approach[C]∥Abu Dhabi International Petroleum Exhibition amp; Conference.Abu Dhabi: UAE, 2019: SPE 197674-MS.
[14] CHAMKALANI A, PORDEL SHAHRI M, POORDAD S.Support vector machine model: a new methodology for stuck pipe prediction[C]∥proceedings of the SPE unconventional gas conference and exhibition.Muscat, Oman: SPE, 2013: SPE 164003-MS.
[15] 劉建明,李玉梅,張濤,等.一種基于PCA-RF的卡鉆預(yù)測方法[J].北京信息科技大學(xué)學(xué)報(自然科學(xué)版),2021,36(1):18-22.
LIU J M, LI Y M, ZHANG T, et al.Research on PCA-RF-based sticking prediction method[J].Journal of Beijing Information Scienceamp;Technology University, 2021, 36(1): 18-22.
[16] 易思琦,魏凱.基于SMOTE欠采樣的隨機森林卡鉆風(fēng)險評估方法[J].石油地質(zhì)與工程,2023,37(4):100-103.
YI S Q, WEI K.Random forest sticking risk assessment method based on SMOTE under sampling[J].Petroleum Geology and Engineering, 2023, 37(4): 100-103.
[17] AL B I, HEINZE L.Implementing artificial neural networks and support vector machines in stuck pipe prediction[C]∥proceedings of the SPE Kuwait International Petroleum Conference and Exhibition.Kuwait: SPE, 2012: SPE 163370-MS.
[18] ABBAS A K, ALMUBARAK H, ABBAS H, et al.Application of machine learning approach for intelligent prediction of pipe sticking[C]∥proceedings of the Abu Dhabi International Petroleum Exhibition and Conference.Abu Dhabi, UAE: SPE, 2019: SPE 197396-MS.
[19] SIRUVURI C, NAGARAKANTI S, SAMUEL R.Stuck pipe prediction and avoidance: a convolutional neural network approach[C]∥proceedings of the IADC/SPE Drilling Conference.Miami, Florida, USA: SPE, 2006: SPE 98378-MS.
[20] 謝鑫,付建紅,唐世忠,等.基于鉆井液性能的卡鉆預(yù)測[J].鉆井液與完井液,2011,28(4):25-26.
XIE X, FU J H, TANG S Z, et al.Drilling prediction based on drilling fluid performance[J].Drilling Fluid amp; Completion Fluid, 2011, 28(4): 25-26.
[21] 李紫璇,張菲菲,祝鈺明,等.鉆井模型與機器學(xué)習(xí)耦合的實時卡鉆預(yù)警技術(shù)[J].石油機械,2022,50(4):15-21,93.
LI Z X, ZHANG F F, ZHU Y M, et al.Real-time pipe sticking early warning technology based on coupling of drilling model and machine learning[J].China Petroleum Machinery, 2022, 50(4): 15-21, 93.
[22] 劉慕臣,宋先知,李大鈺,等.鉆柱摩阻扭矩智能預(yù)測模型與解釋[J].煤田地質(zhì)與勘探,2023,51(9):89-99.
LIU M C, SONG X Z, LI D Y, et al.An intelligent prediction method and interpretability for drag and torque of drill string[J].Coal Geology amp; Exploration, 2023, 51(9): 89-99.
[23] 朱碩,宋先知,李根生,等.鉆柱摩阻扭矩智能實時分析與卡鉆趨勢預(yù)測[J].石油鉆采工藝,2021,43(4):428-435.
ZHU S, SONG X Z, LI G S, et al.Intelligent real-time analysis of friction torque of drill string and prediction of drilling trend[J].Oil Drilling amp; Production Technology, 2021, 43(4): 428-435.
[24] 劉景峰,袁旭,龍遠(yuǎn),等.考慮巖屑影響的智能實時卡鉆風(fēng)險預(yù)測[J].中國科技論文,2023,18(9):1007-1014.
LIU J F, YUAN X, LONG Y, et al.Intelligent real time stuck pipe risk prediction considering the effect of cuttings[J].China Sciencepaper, 2023, 18(9): 1007-1014.
[25] 于潤橋.卡鉆事故預(yù)測技術(shù)研究[J].石油鉆探技術(shù),1996(2):15-17,59-60.
YU R Q.Prediction techniques for stuck pipe[J].Petroleum Drilling Techniques, 1996(2): 15-17, 59-60.
[26] 湯明,葉寒,何世明,等.鹽水溢流衍生黏附卡鉆的機理研究[J].石油機械,2023,51(4):16-22.
TANG M, YE H, HE S M, et al.Mechanism of adhesive sticking derived from brine overflow[J].China Petroleum Machinery, 2023, 51(4): 16-22.
[27] SCHORR S, M?LLER M, HEIB J, et al.Quality prediction of drilled and reamed bores based on torque measurements and the machine learning method of random forest[J].Procedia Manufacturing, 2020, 48: 894-901.
[28] WANG D W, LIU S W, ZHANG C, et al.An improved semantic segmentation model based on SVM for marine oil spill detection using SAR image[J].Marine Pollution Bulletin, 2023, 192: 114981.
[29] 王娟,梅啟亮,鄒永玲,等.基于多參數(shù)時間序列及粒子群優(yōu)化算法的油藏產(chǎn)量動態(tài)建模預(yù)測方法[J].石油鉆采工藝,2023,45(2):190-196.
WANG J,MEI Q L,ZOU Y L,et al.Reservoir production performance prediction model based on multi-parameter time series and particle swarm optimization algorithm[J].Oil Drilling amp; Production Technology,2023,45(2):190-196.
[30] 丁帥偉,席怡,劉騫,等.基于粒子群算法的低滲油藏CO2驅(qū)油與封存自動優(yōu)化[J]. 中國石油大學(xué)學(xué)報(自然科學(xué)版),2022,46(4):109-115.
DING S W,XI Y,LIU Q,et al.An automatic optimization method of CO2 injection for enhanced oil recovery and storage in low permeability reservoirs based on particle swarm optimization algorithm[J]. Journal of China University of Petroleum (Edition of Natural Science),2022,46(4):109-115.
[31] MONDAL N, MANDAL S, MANDAL M C.FPA based optimization of drilling burr using regression analysis and ANN model[J].Measurement, 2020, 152: 107327.
[32] 夏怡杰,楊侃,夏超,等.基于GWO-PSO算法的小尺度地區(qū)LID布設(shè)優(yōu)化模型研究[J].水利水電技術(shù)(中英文),2024,55(3):90-101.
XIA Y J, YANG K, XIA C, et al.Research on the optimization model of LID deployment in small scale regions based on GWO-PSO algorithm[J].Water Resources and Hydropower Engineering, 2024, 55(3): 90-101.
第一作者簡介:劉子豪,在讀博士生,生于1999年,2021年畢業(yè)于中國石油大學(xué)(北京)石油工程專業(yè),2021年起攻讀中國石油大學(xué)(北京)油氣井工程博士學(xué)位,主要從事智能鉆井風(fēng)險監(jiān)測相關(guān)研究。地址:(102249)北京市昌平區(qū)。email:2021310150@student.cup.edu.cn。
通信作者:宋先知,教授。email:songxz@cup.edu.cn。