陳凱楓 楊學(xué)文 宋先知 陳 冬 張 偉 韓 亮 邢 星
(1.中國石油塔里木油田分公司2.中國石油大學(xué)(北京))
陳凱楓,楊學(xué)文,宋先知,等.基于工程錄井?dāng)?shù)據(jù)的井漏智能診斷方法.石油機(jī)械,2022,50(11):16-22.
井漏是鉆井過程中常見的井下風(fēng)險(xiǎn),它往往突然發(fā)生且處理起來十分復(fù)雜,還可能會(huì)誘發(fā)溢流、井塌等其他井下風(fēng)險(xiǎn)。實(shí)現(xiàn)井漏高效準(zhǔn)確診斷對(duì)于鉆井作業(yè)的安全性和經(jīng)濟(jì)性具有重要意義。
綜合錄井法[1]是應(yīng)用最廣泛的井漏診斷方法,它通過實(shí)時(shí)監(jiān)測(cè)錄井參數(shù)是否超過閾值來診斷井漏,但閾值設(shè)定依賴于經(jīng)驗(yàn),主觀性較強(qiáng),導(dǎo)致井漏診斷準(zhǔn)確率有限;亓和平等[2]采用聲波液位測(cè)量裝置對(duì)井漏后井下環(huán)空液面進(jìn)行了實(shí)時(shí)監(jiān)測(cè);唐世春[3]采用立管壓力法對(duì)井漏的層位進(jìn)行了準(zhǔn)確診斷,但當(dāng)存在多個(gè)漏層時(shí)診斷效果不佳;門菲[4]和張學(xué)洪等[5]通過分析選取井漏表征參數(shù),基于案例推理技術(shù)建立了井漏風(fēng)險(xiǎn)診斷模型,但不適用于探井較少的區(qū)塊;D.M.SCHAFER等[6]設(shè)計(jì)了高分辨率流量計(jì)來檢測(cè)井漏,但僅依靠單一參數(shù)導(dǎo)致效果不佳。傳統(tǒng)方法僅采用一個(gè)或幾個(gè)因素進(jìn)行井漏識(shí)別,需要提前設(shè)定閾值,存在較高的誤判和漏判,且時(shí)效性不高。井漏是一種隨機(jī)的復(fù)雜非線性問題,人工智能方法可很好解決這個(gè)問題。HOU X.X.等[7]綜合考慮地質(zhì)、鉆井液性能和鉆井參數(shù),利用神經(jīng)網(wǎng)絡(luò)對(duì)井漏等級(jí)進(jìn)行了預(yù)測(cè);侯艷偉等[8]基于地質(zhì)和工程異常參數(shù)利用模糊數(shù)學(xué)對(duì)井下事故進(jìn)行判斷;LI Z.J.等[9]基于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等算法,輸入泵壓、流量和地應(yīng)力等工程和地質(zhì)參數(shù)建立了井漏診斷模型,這些模型雖然精度較高,但需要實(shí)時(shí)輸入地質(zhì)參數(shù)導(dǎo)致其應(yīng)用受限。國內(nèi)外企業(yè)已研發(fā)了一批較為成熟的井漏事故診斷系統(tǒng),如DrillEdge鉆井風(fēng)險(xiǎn)識(shí)別系統(tǒng)[10]、e-Drilling自動(dòng)化鉆井系統(tǒng)[11]、NDS鉆井風(fēng)險(xiǎn)管理系統(tǒng)[12]、KDS井涌井漏監(jiān)測(cè)系統(tǒng)[13]和ALS-K井涌井漏快速探測(cè)系統(tǒng)[14]等,但需要與隨鉆測(cè)量工具配合使用。因此亟需建立基于實(shí)時(shí)工程錄井?dāng)?shù)據(jù)的井漏智能診斷模型,以提高井漏診斷效率和準(zhǔn)確率。
筆者針對(duì)以上井漏診斷方法所存在的問題,分析并總結(jié)了井漏事故發(fā)生機(jī)理,將相關(guān)性分析和經(jīng)驗(yàn)知識(shí)相結(jié)合優(yōu)選井漏表征參數(shù),基于現(xiàn)場(chǎng)實(shí)時(shí)工程錄井?dāng)?shù)據(jù),利用隨機(jī)森林(Random Forests,RF)、支持向量機(jī)(Support Vector Machine,SVM)、BP神經(jīng)網(wǎng)絡(luò)(error Back Propagation Neural Network,BP)和邏輯回歸(Logistic Regression,LR)4種機(jī)器學(xué)習(xí)算法分別建立多錄井表征參數(shù)的井漏智能診斷模型,并分析各表征參數(shù)的相對(duì)重要性,對(duì)準(zhǔn)確及時(shí)發(fā)現(xiàn)井漏風(fēng)險(xiǎn)和保障鉆井安全有重要意義。
根據(jù)漏失原因井漏可分為2種:一是鉆遇滲透率大或裂縫發(fā)育的地層,鉆井液在壓差作用下通過這些漏失通道向地層中滲漏;二是由于鉆井液密度過高,液柱壓力大于地層破裂壓力導(dǎo)致地層被壓漏,形成人工漏失通道造成鉆井液向地層滲漏[15]。
井漏發(fā)生時(shí)會(huì)導(dǎo)致工程參數(shù)發(fā)生明顯變化,只依靠一種參數(shù)的變化來識(shí)別井漏并不準(zhǔn)確,要結(jié)合多種參數(shù)變化來綜合判斷[16]。
(1)鉆井液總池體積:鉆井液地層內(nèi)滲漏導(dǎo)致井筒內(nèi)鉆井液減少,上返至地面的鉆井液體積減少,故鉆井液總池體積減少。
(2)鉆井液出入口流量差:井漏時(shí)井筒中部分鉆井液流入地層中,出口流量減少,入口流量與出口流量的差值為正,若不及時(shí)處理,流量差會(huì)進(jìn)一步增加。
(3)立管壓力:井漏時(shí)鉆井液上返速度降低,與環(huán)空間摩阻減小,導(dǎo)致立壓降低。
(4)大鉤載荷:由于鉆井液密度和地層流體密度存在差異,一般情況下鉆井液密度大于地層流體密度,密度差產(chǎn)生的浮力變化會(huì)造成大鉤載荷波動(dòng)。
(5)泵壓:漏失時(shí)鉆井液流入地層導(dǎo)致上返流體減少,舉升壓力減小導(dǎo)致泵壓降低。
(6)鉆速:在鉆遇裂縫發(fā)育或溶洞地層時(shí),鉆頭破巖阻力減小,鉆速會(huì)突然加快。
本文所使用的工程錄井?dāng)?shù)據(jù)來自于國內(nèi)某油田,采用特征工程方法對(duì)工程錄井?dāng)?shù)據(jù)進(jìn)行了清洗、相關(guān)性分析及歸一化等處理,建立用于人工智能模型訓(xùn)練測(cè)試的數(shù)據(jù)集。
對(duì)于缺失值,基于數(shù)據(jù)類別的分布規(guī)律和重要性采取不同處理方法,當(dāng)特征缺失率超過70%時(shí)直接刪除;若缺失值占比較低,特征符合均勻分布則采用均值補(bǔ)全,特征符合線性分布則用中位數(shù)補(bǔ)全。對(duì)于異常值,將其轉(zhuǎn)換為空值后利用均值或中位數(shù)對(duì)空值補(bǔ)全。
相關(guān)性分析是特征選擇的一種重要方法,能夠衡量各參數(shù)與目標(biāo)值間的相關(guān)性程度,優(yōu)選相關(guān)性強(qiáng)的特征作為輸入,有利于降低模型復(fù)雜度,提高模型訓(xùn)練速度和泛化能力。
采用Pearson相關(guān)系數(shù)衡量各個(gè)變量與目標(biāo)變量之間的相關(guān)性強(qiáng)度,其計(jì)算公式為:
式中:X、Y為變量,Cov X,Y( )為X、Y的協(xié)方差,D X()為X的方差,D Y()為Y的方差,ρXY為X、Y的Pearson相關(guān)系數(shù)。
特征與井漏的相關(guān)性如圖1所示。通過計(jì)算各工程錄井參數(shù)與井漏間的Pearson相關(guān)系數(shù),結(jié)合井漏表征規(guī)律對(duì)輸入?yún)?shù)進(jìn)行優(yōu)選。最終選取總池體積、立管壓力、進(jìn)出口流量差、大鉤載荷、鉆時(shí)、鉆井液密度和井斜方位角等7種特征參數(shù)作為模型輸入?yún)?shù)。
圖1 特征與井漏的相關(guān)性Fig.1 Correlation between characteristics and lost circulation
鉆井過程中井漏屬于小樣本事件,數(shù)據(jù)樣本存在嚴(yán)重失衡導(dǎo)致在模型訓(xùn)練過程中預(yù)測(cè)結(jié)果更偏向于比例較大的非井漏。為解決數(shù)據(jù)比例不平衡問題,選取井漏井段和其上部非井漏井段建立數(shù)據(jù)集,井漏與非井漏數(shù)據(jù)比例為4∶6,其中井漏標(biāo)簽為1,非井漏標(biāo)簽為0。
不同特征的量綱和單位差異巨大,嚴(yán)重影響數(shù)據(jù)分析和模型預(yù)測(cè)結(jié)果,因此利用數(shù)據(jù)標(biāo)準(zhǔn)化處理消除不同量綱與單位之間的影響。原始數(shù)據(jù)經(jīng)數(shù)據(jù)標(biāo)準(zhǔn)化處理后落在特定區(qū)間,有利于模型訓(xùn)練和對(duì)比。本文采用最大-最小歸一化方法對(duì)數(shù)據(jù)進(jìn)行處理,計(jì)算公式如下:
3.1.1 隨機(jī)森林算法
決策樹是隨機(jī)森林基本單位,主要由根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)3部分組成[17]。隨機(jī)森林算法通過集成學(xué)習(xí)思想將多個(gè)決策樹集成,將不同決策樹結(jié)果進(jìn)行統(tǒng)計(jì),以數(shù)量最多的結(jié)果作為模型預(yù)測(cè)結(jié)果。其結(jié)構(gòu)如圖2所示。
圖2 隨機(jī)森林算法示意圖Fig.2 Schematic diagram of random forest algorithm
3.1.2 支持向量機(jī)[18]
支持向量機(jī)的基本思想是尋找一個(gè)可將數(shù)據(jù)區(qū)分且?guī)缀尉嚯x最大的“超平面”,當(dāng)數(shù)據(jù)集為非線性問題時(shí),通過核函數(shù)將線性不可分?jǐn)?shù)據(jù)映射到高維空間中,轉(zhuǎn)換為高維空間線性可分?jǐn)?shù)據(jù),并在高維空間求解最佳分類超平面。當(dāng)數(shù)據(jù)集線性可分時(shí),其超平面方程為:
則空間中點(diǎn)x到最佳分類超平面的距離為:
式中:W為平面法向量,x為點(diǎn)x的坐標(biāo),b為平面的截距,d為點(diǎn)x到平面的距離。
3.1.3 BP神經(jīng)網(wǎng)絡(luò)
神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成單位,其接收輸入后通過加權(quán)計(jì)算總輸入并與閾值進(jìn)行比較,利用激活函數(shù)對(duì)其進(jìn)行非線性處理得到最終輸出[19]。BP神經(jīng)網(wǎng)絡(luò)將神經(jīng)元逐層組織連接,并利用誤差逆向傳播算法進(jìn)行訓(xùn)練,不斷調(diào)整網(wǎng)絡(luò)權(quán)重和閾值,將誤差降到最低[20]。神經(jīng)元及BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
圖3 神經(jīng)元與BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Neuron and BP neural network structure
3.1.4 邏輯回歸
邏輯回歸原理是將線性回歸的結(jié)果輸入到sigmoid函數(shù)中,并設(shè)置一個(gè)適當(dāng)?shù)拈撝?如果樣本類別概率大于閾值,則劃分為1,小于閾值則劃分為0。
井漏診斷是二分類問題,由于井漏和非井漏數(shù)據(jù)量不平衡,造成準(zhǔn)確率偏高,所以綜合多個(gè)指標(biāo)來衡量模型的泛化能力。本文采取準(zhǔn)確率、漏警率和虛警率評(píng)價(jià)井漏診斷模型的性能。
準(zhǔn)確率(Accuracy)是指分類模型診斷正確的樣本數(shù)量占整個(gè)診斷樣本數(shù)量的比例,其表達(dá)式如下:
漏警率(Missing Alarm Rate)指未被識(shí)別的井漏樣本占實(shí)際井漏樣本的比例,其表達(dá)式為:
虛警率(False Alarm Rate)指識(shí)別為井漏的樣本中實(shí)際為非井漏樣本的比例,其表達(dá)式為:
式中:ATP表示將正類預(yù)測(cè)為正類的樣本數(shù)量,ATN表示將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù)量,AFP表示將負(fù)類預(yù)測(cè)為正類的樣本數(shù)量,AFN表示將正類預(yù)測(cè)為負(fù)類的樣本數(shù)量。
基于建立的井漏數(shù)據(jù)集,選取其中75%用于訓(xùn)練驗(yàn)證,25%的樣本用于測(cè)試,利用隨機(jī)森林、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸算法分別建立井漏智能診斷模型。
3.3.1 隨機(jī)森林模型
對(duì)于隨機(jī)森林模型,利用網(wǎng)格搜索算法對(duì)隨機(jī)森林模型的分類器數(shù)量、葉子節(jié)點(diǎn)最小樣本數(shù)、樹的最大深度和內(nèi)部節(jié)點(diǎn)劃分最小樣本數(shù)等參數(shù)進(jìn)行調(diào)整尋優(yōu),各模型參數(shù)設(shè)置及優(yōu)選結(jié)果如表1所示。
表1 隨機(jī)森林模型參數(shù)組合Table 1 Parameter combination of random forest model
不同參數(shù)組合下隨機(jī)森林模型在測(cè)試集上的準(zhǔn)確率、漏警率、虛警率如圖4所示,其橫坐標(biāo)為不同參數(shù)組合下的隨機(jī)森林模型。當(dāng)分類器數(shù)量為40、樹的最大深度為15、內(nèi)部節(jié)點(diǎn)劃分最小樣本數(shù)為2、葉子節(jié)點(diǎn)最小樣本數(shù)為1時(shí),隨機(jī)森林模型的效果最佳,準(zhǔn)確率為98%,漏警率為3%,虛警率為1%。
圖4 隨機(jī)森林模型在不同參數(shù)組合下的評(píng)價(jià)指標(biāo)對(duì)比Fig.4 Comparison of assessment indicators of random forest model with different parameter combinations
3.3.2 支持向量機(jī)模型
對(duì)于支持向量機(jī)模型,通過預(yù)訓(xùn)練優(yōu)選出徑向基核(Radial Basis Function,RBF)作為核函數(shù),利用網(wǎng)格搜索算法對(duì)支持向量機(jī)模型的懲罰因子、核函數(shù)系數(shù)、誤差容忍度等參數(shù)進(jìn)行調(diào)整尋優(yōu),模型各參數(shù)范圍及優(yōu)選結(jié)果如表2所示。
表2 支持向量機(jī)模型參數(shù)組合Table 2 Parameter combination of support vector machine model
不同參數(shù)組合下支持向量機(jī)模型在測(cè)試集上的準(zhǔn)確率、漏警率和虛警率如圖5所示,其橫坐標(biāo)為不同參數(shù)組合下的支持向量機(jī)模型。當(dāng)懲罰因子為12、核函數(shù)系數(shù)為15、誤差容忍度為0.001時(shí),支持向量機(jī)模型的效果最佳,準(zhǔn)確率為96%,漏警率為2%,虛警率為6%。
圖5 支持向量機(jī)模型在不同參數(shù)組合下的評(píng)價(jià)指標(biāo)對(duì)比Fig.5 Comparison of assessment indicators of support vector machine model with different parameter combinations
3.3.3 BP神經(jīng)網(wǎng)絡(luò)模型
對(duì)于BP神經(jīng)網(wǎng)絡(luò)模型,隱藏層激活函數(shù)為relu,輸出層激活函數(shù)為sigmoid,選用Adam優(yōu)化器,建立BP神經(jīng)網(wǎng)絡(luò)井漏智能診斷模型,利用網(wǎng)格搜索算法對(duì)隱藏層神經(jīng)元數(shù)量、訓(xùn)練迭代輪數(shù)和學(xué)習(xí)率等超參數(shù)進(jìn)行調(diào)整尋優(yōu),參數(shù)設(shè)置及優(yōu)選情況如表3所示。
表3 BP神經(jīng)網(wǎng)絡(luò)模型參數(shù)組合Table 3 Parameter combination of BP neural network model
不同參數(shù)組合下BP神經(jīng)網(wǎng)絡(luò)模型在測(cè)試集上的準(zhǔn)確率、漏警率和虛警率如圖6所示,其橫坐標(biāo)為不同參數(shù)組合下的BP神經(jīng)網(wǎng)絡(luò)模型。當(dāng)?shù)?層隱藏層神經(jīng)元數(shù)量為32個(gè)、第2層隱藏層神經(jīng)元數(shù)量為16個(gè)、訓(xùn)練迭代輪數(shù)為800、學(xué)習(xí)率為0.001時(shí),BP神經(jīng)網(wǎng)絡(luò)模型的效果最佳,其井漏診斷準(zhǔn)確率為88%,漏警率為7%,虛警率為16%。
圖6 BP神經(jīng)網(wǎng)絡(luò)模型在不同參數(shù)組合下的評(píng)價(jià)指標(biāo)對(duì)比Fig.6 Comparison of assessment indicators of BP neural network model with different parameter combinations
3.3.4 邏輯回歸模型
對(duì)于邏輯回歸模型,利用網(wǎng)格搜索算法對(duì)邏輯回歸模型的優(yōu)化參數(shù)、multi_class、正則化強(qiáng)度的倒數(shù)C和誤差容忍度等參數(shù)進(jìn)行調(diào)整尋優(yōu),模型各超參數(shù)設(shè)置如表4所示。最終基于邏輯回歸算法建立最優(yōu)的井漏智能診斷模型。不同參數(shù)組合下邏輯回歸模型在測(cè)試集上的準(zhǔn)確率、漏警率和虛警率如圖7所示。
表4 邏輯回歸模型參數(shù)組合Table 4 Parameter combination of logistic regression model
圖7 邏輯回歸模型在不同參數(shù)組合下的評(píng)價(jià)指標(biāo)對(duì)比Fig.7 Comparison of assessment indicators of logistic regression model with different parameter combinations
其橫坐標(biāo)為不同參數(shù)組合下的邏輯回歸模型。當(dāng)優(yōu)化參數(shù)為Newton-cg、multi-class為ovr、正則化強(qiáng)度的倒數(shù)C為3、誤差容忍度為0.000 1時(shí),邏輯回歸模型的效果最佳,準(zhǔn)確率為70%,漏警率為37%,虛警率為30%。
3.3.5 4種機(jī)器學(xué)習(xí)模型對(duì)比
將采用最優(yōu)參數(shù)的4種機(jī)器學(xué)習(xí)模型在測(cè)試集上的表現(xiàn)效果進(jìn)行對(duì)比,如圖8所示。在井漏診斷準(zhǔn)確率方面,最優(yōu)的隨機(jī)森林模型在測(cè)試集上為98%,支持向量機(jī)模型為96%,BP神經(jīng)網(wǎng)絡(luò)模型為88%,邏輯回歸模型為70%;在井漏診斷漏警率方面,最優(yōu)的支持向量機(jī)模型為2%,隨機(jī)森林模型為3%,遠(yuǎn)遠(yuǎn)低于BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型;在井漏診斷虛警率方面,最優(yōu)的隨機(jī)森林模型在測(cè)試集上虛警率為1%,遠(yuǎn)低于支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸模型。由此可見,隨機(jī)森林模型的井漏診斷效果更好,其在測(cè)試集上的泛化能力相對(duì)較好,能夠有效地診斷井漏風(fēng)險(xiǎn),且漏警率和虛警率相對(duì)較低。
3.3.6 隨機(jī)森林適配性及特征重要性分析
隨機(jī)森林是用隨機(jī)方式建立并包含多個(gè)決策樹的分類器。每棵決策樹從所有數(shù)據(jù)和所有特征中有放回地隨機(jī)采樣選取特征子集,且特征子集中的特征可隨機(jī)組合,每棵決策樹進(jìn)行獨(dú)立訓(xùn)練,并將各個(gè)樹輸出類別的眾數(shù)定為隨機(jī)森林的最終輸出。由于特征采樣的隨機(jī)性,大多數(shù)決策樹模型中不含或只含少量異常數(shù)據(jù),導(dǎo)致隨機(jī)森林模型對(duì)異常值不敏感并具有較強(qiáng)的抗干擾能力,即使存在一些特征遺失,仍可以保持一定的準(zhǔn)確度,且對(duì)于不平衡的數(shù)據(jù)集來說隨機(jī)森林在一定程度上可以平衡誤差,所以其在井漏診斷的問題上表現(xiàn)較好。
此外,隨機(jī)森林模型可以基于基尼指數(shù)計(jì)算出輸入特征的重要程度來評(píng)價(jià)各輸入特征的貢獻(xiàn)大小,7個(gè)輸入特征的相對(duì)重要性如圖9所示。由圖9可以看出,總池體積、立管壓力、進(jìn)出口流量差、鉆井液密度和大鉤載荷5個(gè)特征的相對(duì)重要性占比超過80%,表明這5種參數(shù)是隨機(jī)森林模型準(zhǔn)確診斷井漏的主控參數(shù)。鉆時(shí)和井斜方位角的相對(duì)重要性雖然占比不大,但其對(duì)隨機(jī)森林模型準(zhǔn)確率的提升具有重要作用。
圖9 各輸入特征的重要性Fig.9 Importance of each input characteristics
井漏機(jī)理復(fù)雜,影響因素眾多,本文基于國內(nèi)某油田的工程錄井?dāng)?shù)據(jù),利用4種機(jī)器學(xué)習(xí)算法建立了不同的井漏智能診斷模型,主要結(jié)論如下:
(1)分析了工程錄井參數(shù)與井漏之間的相關(guān)性,結(jié)合鉆井經(jīng)驗(yàn)知識(shí)優(yōu)選出總池體積、立管壓力、大鉤載荷、鉆時(shí)、進(jìn)出口流量差、鉆井液密度和井斜方位角7種特征參數(shù)作為模型輸入。
(2)基于隨機(jī)森林、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸4種算法分別建立了井漏智能診斷模型,其中隨機(jī)森林模型的表現(xiàn)效果最好,能夠準(zhǔn)確地識(shí)別井漏井段,準(zhǔn)確率為98%,漏警率為3%,虛警率為1%,滿足現(xiàn)場(chǎng)工程需要。
(3)分析了隨機(jī)森林模型在解決井漏問題中的優(yōu)點(diǎn)和各輸入特征的相對(duì)重要性,結(jié)果表明總池體積、立管壓力、進(jìn)出口流量差、鉆井液密度和大鉤載荷5種特征參數(shù)是隨機(jī)森林模型準(zhǔn)確診斷井漏風(fēng)險(xiǎn)的主控參數(shù)。