劉慕臣,宋先知,李大鈺,朱 碩,付 利,祝兆鵬,張誠愷,潘 濤
(1.中國石油大學(xué) (北京)人工智能學(xué)院,北京 102249;2.中國石油大學(xué) (北京)石油工程學(xué)院,北京 102249;3.油氣資源與工程全國重點實驗室,北京 102249;4.中石油江漢機械研究所有限公司,湖北 武漢 430024;5.中國石油集團(tuán)工程技術(shù)研究院有限公司,北京 102206;6.中國石油大學(xué) (北京)機械與儲運工程學(xué)院,北京 102249)
摩阻扭矩是鉆井管柱受力的重要分析參數(shù),可用于大鉤載荷預(yù)測、管柱可下入性分析、井眼軌道優(yōu)化設(shè)計與卡鉆風(fēng)險預(yù)測等。在鉆井過程中鉆柱與井壁直接接觸產(chǎn)生巨大的接觸力和摩擦力,使鉆柱受到巨大磨損,為鉆進(jìn)過程埋下潛在安全隱患[1]。此外,鉆柱摩阻過大將導(dǎo)致鉆壓和扭矩不足,降低鉆進(jìn)效率,鉆柱與井壁間的巨大摩擦力會嚴(yán)重破壞井壁穩(wěn)定性,誘發(fā)井塌等井下事故,對鉆井效率與安全影響巨大[2]。因此,準(zhǔn)確預(yù)測鉆柱摩阻扭矩對油氣鉆井的提質(zhì)增效具有重要意義。
對于摩阻扭矩計算方法,目前國內(nèi)外已有許多學(xué)者進(jìn)行了研究,包括機理模型方法和智能化方法兩個方面。在機理模型方面,最經(jīng)典且應(yīng)用最廣泛的是C.A.Johancsik 等[3]提出的軟桿模型,該模型忽略了管柱的抗彎剛度,為摩阻扭矩分析奠定了理論基礎(chǔ)。M.Lesage 等[4]在Johancsik 模型的基礎(chǔ)上分析了鉆井工況的影響,通過軟桿模型反演起下鉆、旋轉(zhuǎn)摩擦因數(shù)。J.F.Brett 等[5]將軟桿模型進(jìn)行實際應(yīng)用,通過反演摩阻系數(shù)分析井眼狀況。黃文君等[6]考慮了鉆柱接頭的影響,建立了修正的摩阻扭矩模型。鉆柱摩阻扭矩機理模型發(fā)展愈發(fā)成熟,摩阻系數(shù)作為其中的關(guān)鍵參數(shù),反映了阻礙鉆柱與井壁之間相互運動的量化程度[7],是對摩阻扭矩預(yù)測的關(guān)鍵依據(jù),但受到巖屑床高度、扶正器等諸多因素影響,尚未形成直接計算鉆柱摩阻系數(shù)的有效方法,目前工程應(yīng)用以經(jīng)驗估算或鉆后反演為主,準(zhǔn)確性和時效性有待提升[8-9]。在智能化方法方面,國內(nèi)外相關(guān)研究剛剛起步。朱碩[2,10]等通過實時智能計算井底鉆壓扭矩反演摩阻系數(shù),進(jìn)行摩阻扭矩實時分析而非超前預(yù)測,且鉆壓預(yù)測準(zhǔn)確性直接影響摩阻系數(shù)反演準(zhǔn)確性。C.Hegde 等[11]通過地面實測工程數(shù)據(jù)及測井資料,結(jié)合機器學(xué)習(xí)方法(MLR、SVM、RF)預(yù)測摩阻扭矩。丁培宇[12]、申靜波[13]等基于實鉆數(shù)據(jù)使用BP 網(wǎng)絡(luò)預(yù)測摩阻系數(shù),但是未考慮摩阻系數(shù)隨井深分布的序列特征、未分析黑箱模型可解釋性。祝兆鵬等[14]通過提取特征及時序的權(quán)重系數(shù)表征參數(shù)重要性,實現(xiàn)了井底壓力預(yù)測結(jié)果的可解釋。
人工智能方法在復(fù)雜的非線性映射問題求解方面具備顯著優(yōu)勢,引領(lǐng)了新一代變革性鉆井技術(shù)并形成了油氣鉆完井人工智能應(yīng)用場景體系[15-16]。筆者提出了一種機理-數(shù)據(jù)融合的鉆柱摩阻扭矩預(yù)測方法,基于已鉆井?dāng)?shù)據(jù)使用鉆柱摩阻扭矩模型反演摩阻系數(shù),為智能預(yù)測模型提供數(shù)據(jù)基礎(chǔ),進(jìn)而使用考慮數(shù)據(jù)序列特征的LSTM 網(wǎng)絡(luò)建立摩阻系數(shù)智能預(yù)測模型,結(jié)合實時數(shù)據(jù)和黑箱模型解釋方法對預(yù)測模型進(jìn)行合理性驗證,形成機理數(shù)據(jù)融合的鉆柱摩阻扭矩智能預(yù)測方法,為鉆井管柱力學(xué)的準(zhǔn)確表征與動態(tài)分析提供理論與技術(shù)支撐。
摩阻扭矩智能預(yù)測整體工作流程如圖1 所示:綜合錄井?dāng)?shù)據(jù)處理,包括時間域、深度域數(shù)據(jù);針對起下鉆工況使用軟桿模型反演摩阻系數(shù),進(jìn)行特征工程確定摩阻系數(shù)數(shù)據(jù)集;基于LSTM 的鉆柱摩阻系數(shù)智能預(yù)測;基于SHAP 方法的摩阻系數(shù)智能預(yù)測模型解釋方法;鉆柱摩阻扭矩預(yù)測及驗證。
圖1 智能預(yù)測方法工作流程Fig.1 Workflow of intelligent prediction method
首先對時間域和深度域數(shù)據(jù)進(jìn)行收集與處理,然后反演鉆柱摩阻系數(shù),將反演值作為樣本標(biāo)簽結(jié)合相關(guān)參數(shù)建立摩阻系數(shù)深度域數(shù)據(jù)集。
數(shù)據(jù)來源為國內(nèi)某油田,共計74 口井,時間域數(shù)據(jù)庫數(shù)據(jù)為每2 s 采集1 個點,貫穿鉆井全流程,包含起鉆、下鉆、鉆進(jìn)、短起下、下套管、固井、電測以及復(fù)雜事故處理。對于鉆柱摩阻扭矩模型,管柱井口與井底的邊界條件是摩阻系數(shù)反演的必要條件,井口鉤載有實測值,為了避免鉆壓預(yù)測不準(zhǔn)導(dǎo)致摩阻系數(shù)反演不準(zhǔn),本研究主要針對鉆壓為0 的起下鉆工況進(jìn)行摩阻系數(shù)反演,用以預(yù)測分析鉆進(jìn)工況。首先需要從時間域數(shù)據(jù)庫提取起下鉆工況數(shù)據(jù)。根據(jù)鉆頭深度與井深大小關(guān)系及運動方向初步識別管柱運動工況,某井識別效果如圖2 所示。為了摩阻系數(shù)反演的連續(xù)性和完整性,選取鉆頭從井底上提至井口或從井口下放至井底的完整過程,圖3 顯示了該井2019 年2 月15日和16 日2 d 數(shù)據(jù)。提取該時間段內(nèi)下放工況數(shù)據(jù),將鉆頭深度和大鉤載荷的時間域數(shù)據(jù)進(jìn)行深度域轉(zhuǎn)化,具體方法包括對齊、刪除、拼接等。轉(zhuǎn)換前后結(jié)果如圖4 所示,最終得到不同井深處摩阻系數(shù)反演的邊界條件,為摩阻系數(shù)反演提供數(shù)據(jù)基礎(chǔ)。
圖2 工況識別效果Fig.2 Condition identification result
圖3 起下鉆工況數(shù)據(jù)Fig.3 Tripping condition data
圖4 大鉤載荷深度域轉(zhuǎn)換Fig.4 Depth-domain coversion of hook load
深度域數(shù)據(jù)庫中包括5 種數(shù)據(jù)表,各數(shù)據(jù)表的采樣頻率與數(shù)據(jù)類型見表1。
表1 各數(shù)據(jù)表采樣頻率與數(shù)據(jù)類型Table 1 Sampling frequency and data type of various data sheets
首先需要將5 種數(shù)據(jù)的采樣頻率統(tǒng)一為1 次/ m。對于井斜數(shù)據(jù),通過計算各點井眼曲率將軌跡劃分為直線和圓弧部分。直線部分每一米處的井斜角、方位角均一致。而圓弧段利用三次樣條曲線進(jìn)行插值,最終得到采樣頻率1 次/ m 的軌跡數(shù)據(jù)。泥漿性能數(shù)據(jù)主要是由現(xiàn)場工作人員定期記錄,采樣頻率均為幾十米,由于鉆井液數(shù)據(jù)不會存在較大的變化,認(rèn)為在某段內(nèi)每米處的鉆井液數(shù)據(jù)均與該段內(nèi)測量點相同。類似地,鉆頭記錄數(shù)據(jù)和巖屑描述記錄數(shù)據(jù)也作如此處理。
統(tǒng)一數(shù)據(jù)采樣頻率后,需要對已有數(shù)據(jù)進(jìn)行分析與處理,為下一步特征分析與智能建模提供基礎(chǔ)。井斜數(shù)據(jù)與工程參數(shù)數(shù)據(jù)類型均為數(shù)值型數(shù)據(jù)。泥漿性能參數(shù)主要包括:漏斗黏度、塑性黏度、屈服度、鉀離子含量、3 轉(zhuǎn)讀數(shù)、6 轉(zhuǎn)讀數(shù)、100 轉(zhuǎn)讀數(shù)、鉆井液體系等。鉆井液體系為字符型,其余均為數(shù)值型。通過數(shù)據(jù)分析發(fā)現(xiàn)鉆井液體系細(xì)分種類較多,因此,粗分類為水基、油基、氣基3 類大體系,其中水基包含:不分散、分散、聚合物、低固相、鈣處理、飽和鹽水鉆井液等,氣基包括空氣與泡沫鉆井液,見表2。
表2 鉆井液體系數(shù)據(jù)處理Table 2 Data processing of drilling fluid system
鉆頭記錄數(shù)據(jù):主要包括鉆頭直徑、鉆頭型號、入井新度、出井新度、鉆壓、轉(zhuǎn)速、鉆頭水眼、鉆具組合信息等。巖屑描述記錄數(shù)據(jù):原始巖屑描述記錄中包含層位、井段、巖性定名、巖性及含油氣水描述等信息,均是文本信息,需要利用python 中的正則表達(dá)式提取信息。
2.3.1 數(shù)據(jù)融合與編碼
經(jīng)過統(tǒng)一采樣頻率、數(shù)據(jù)預(yù)處理后,以井深為索引將以上5 種數(shù)據(jù)進(jìn)行數(shù)據(jù)拼接處理,形成綜合錄井?dāng)?shù)據(jù)集。由于神經(jīng)網(wǎng)絡(luò)不能直接識別字符型數(shù)據(jù),而巖性等對摩阻系數(shù)的影響不能忽略,因此需要對字符進(jìn)行編碼。獨熱編碼采用稀疏矩陣方式存儲數(shù)據(jù),需要占用更多神經(jīng)網(wǎng)絡(luò)參數(shù)空間,不利于模型穩(wěn)定性,因此采用索引編碼方法。以某一口井為例,編碼結(jié)果見表3。
2.3.2 數(shù)據(jù)歸一化
原始數(shù)據(jù)各個特征的尺度差異較大,易引起梯度問題,進(jìn)行歸一化或z-score 標(biāo)準(zhǔn)化,可以消除量綱的影響,避免梯度問題。數(shù)據(jù)集是以井深為索引的序列性數(shù)據(jù),并無明顯的正態(tài)分布性,因此,更適合歸一化處理。
2.3.3 數(shù)據(jù)劃分與模型評價
按照8∶2 比例劃分?jǐn)?shù)據(jù),選取均方根誤差ERMS(Root Mean Squared Error,RMSE)、平均相對誤差δ、最大相對誤差δmax、訓(xùn)練用時作為模型對大鉤載荷預(yù)測效果的評價指標(biāo),其中訓(xùn)練用時可以間接反映模型的空間復(fù)雜度。
式中:yit為第i條數(shù)據(jù)的目標(biāo)真實值;yip為第i條數(shù)據(jù)的目標(biāo)預(yù)測值;N為樣本總數(shù)量;δi為第i個值的相對誤差。
摩阻系數(shù)是軟/剛桿模型計算摩阻扭矩的重要參數(shù),智能模型準(zhǔn)確預(yù)測摩阻系數(shù)的前提是準(zhǔn)確的樣本標(biāo)簽值。為了避免鉆進(jìn)工況下井底鉆壓預(yù)估不準(zhǔn)確導(dǎo)致摩阻系數(shù)反演精度低、波動大,針對鉆壓為0 的起下鉆工況反演摩阻系數(shù)。
3.1.1 鉆柱摩阻扭矩模型
首先建立鉆柱摩阻扭矩模型。摩阻扭矩模型已經(jīng)有了大量的研究并逐漸成熟。目前根據(jù)是否考慮鉆柱的彎矩,分為軟桿模型和剛桿模型。采用經(jīng)典的軟桿模型進(jìn)行摩阻系數(shù)反演。軟桿模型差分方程如下:
式中:Fi、Fi+1分別為第i段鉆柱微元段上下處的軸向力,N;q為第i段鉆柱線重,N/m;為第i段鉆柱平均井斜角,(°);μ1與μ2分別為第i段鉆柱軸向和周向摩阻系數(shù);ni為第i段鉆柱與井壁的單位長度接觸力,N/m;Δsi為第i段鉆柱長度,m;Mi、Mi+1分別為第i段鉆柱上下處的扭矩,N·m;Db為第i段鉆柱外徑,m;αi、αi+1為第i段鉆柱上下處井斜角,(°);φi、φi+1為第i段鉆柱上下處方位角,(°)。
摩阻扭矩求解流程如圖5 所示。
圖5 軟桿模型求解流程Fig.5 Solution process of soft string model
3.1.2 鉆柱摩阻系數(shù)反演方法
使用二分法反演全井段摩阻系數(shù)。起下鉆時,鉆頭軸向受力為0。對鉆柱微元進(jìn)行受力分析,如圖6所示。
圖6 鉆柱微元受力分析Fig.6 Force analysis of drill string element
可得鉆柱微元上端軸向力Fi的計算公式(5)。在起下鉆工況下認(rèn)為鉆壓為0,因此,將該式從井底累積求和至井口可得井口軸向力計算如下式。
式中:|F|為井口軸向力大小,N;Wi為第i段鉆柱微元沿切線方向的重力大小,N;μi為第i段鉆柱微元的軸向摩阻系數(shù);nti為第i段鉆柱微元與井壁的接觸力大小,N;j為單元總數(shù)目;“ ?”中,負(fù)號代表上提,正號代表下入;每段的Wi已知,nti可以通過式(4)求得,大鉤載荷現(xiàn)場可以實際測量。
式(9)中只有摩阻系數(shù)μi是未知的。由于總共有j個μi,無法一次反演求解,需要從井口不斷重復(fù)反演計算至井底,才能得到j(luò)個μi。反演方法采用二分法。以鉆頭下入工況第i段鉆柱微元為例,設(shè)定初始摩阻系數(shù)取值范圍為(0,1),計算步驟為:第一步,令μ1=0,μ2=1,精度閾值ε=0.01。第二步,令μa=(μ1+μ2)/2。第三步,將μa代入式(9),計算井口鉆柱軸向力Ta。以管柱下入為例,若地面鉤載實測值TR>Ta則表明真實摩阻系數(shù)μR<μa,設(shè)μ2=μa;若Ta>TR則表明真實摩阻系數(shù)μR>μa,則μ1=μa。第四步,若 |1-Ta/TR|>ε,則返回第二步;否則停止程序,μa為最終摩阻系數(shù)反演值。繼續(xù)令式(9)中μi=μa,然后繼續(xù)反演第i+1 段鉆柱微元的摩阻系數(shù)μi+1。摩阻系數(shù)反演流程框圖如圖7 所示,某兩口井的摩阻系數(shù)反演結(jié)果如圖8 所示。
圖7 鉆柱下入摩阻系數(shù)反演流程Fig.7 Inversion process of friction coefficient for tripping of drill string
圖8 鉆柱摩阻系數(shù)反演值Fig.8 Inversed value of friction coefficient of drill string
預(yù)測摩阻系數(shù)首先需要確定與摩阻系數(shù)有潛在映射關(guān)系的參數(shù)。由于摩阻系數(shù)是鉆柱與井壁間的固有屬性,在選取參數(shù)時,應(yīng)更多考慮井筒內(nèi)的固有屬性參數(shù)。首先是軌跡數(shù)據(jù),選取井深、井斜角、方位角、井眼曲率、閉合距、閉合方位共6 個參數(shù)。鉆井液性能參數(shù)對摩阻系數(shù)同樣有重要影響,尤其是鉆井液體系,選取鉆井液密度、黏度、屈服度、塑性黏度、600 轉(zhuǎn)讀數(shù)與鉆井液體系共6 個參數(shù)。井身結(jié)構(gòu)、鉆具參數(shù)與地質(zhì)數(shù)據(jù)同樣有不可忽略的影響,選取鉆柱內(nèi)徑、鉆柱外徑、井徑與巖性共4 個參數(shù)?;?6 個參數(shù)結(jié)合摩阻系數(shù)建立鉆柱摩阻系數(shù)數(shù)據(jù)集,為智能預(yù)測提供樣本支撐。
3.2.1 特征定量化分析與優(yōu)選
首先進(jìn)行降維處理,提取強相關(guān)特征,起到簡化模型,降低過擬合,增強泛化能力的作用。采用Filter 方法[17]中的距離相關(guān)系數(shù)(Distance correlation coefficient),定義如下。
式中:Dcorr(X,Y)為X,Y的距離相關(guān)系數(shù);Dcov(X,Y)為X,Y的距離協(xié)方差;Dcov(X,X)為X的距離方差;Dcov(Y,Y)為Y的距離方差。
摩阻系數(shù)是按照井深索引排列的,且某一井深處的摩阻系數(shù)與上部地層的摩阻系數(shù)存在某種復(fù)雜的影響關(guān)系,包括地層數(shù)據(jù)的連續(xù)性等,屬于序列數(shù)據(jù)范疇。因此,需要利用相關(guān)性分析探究序列性質(zhì)以便指導(dǎo)模型選擇。圖9 和圖10 為18 個參數(shù)的相關(guān)性系數(shù)。μ1m和μ10m分別表示上1 m 和上10 m 處的摩阻系數(shù),由圖發(fā)現(xiàn),二者與μ相關(guān)系數(shù)較大,說明數(shù)據(jù)內(nèi)部含有較強的序列性,因此,相比于BP 網(wǎng)絡(luò),考慮序列性質(zhì)的LSTM 更適用于本研究。為了減少模型參數(shù)量,增強模型魯棒性,選取與摩阻系數(shù)相關(guān)性強,而與其他輸入?yún)?shù)相關(guān)性弱的參數(shù)。鉆柱內(nèi)徑、鉆柱外徑與摩阻系數(shù)的相關(guān)系數(shù)均為0.2,但二者彼此相關(guān)系數(shù)高達(dá)1.0,故僅保留鉆柱外徑。最終選取15 種參數(shù),包括標(biāo)準(zhǔn)井深、井斜角、方位角、井眼曲率、閉合距、閉合方位、鉆井液密度、黏度、屈服度、塑性黏度、600 轉(zhuǎn)讀數(shù)、鉆井液體系、井徑、鉆柱外徑、巖性。
圖9 各參數(shù)與μ 的距離相關(guān)系數(shù)Fig.9 Distance correlation coefficient between parameters and μ
圖10 各參數(shù)間的距離相關(guān)系數(shù)熱力圖Fig.10 Thermodynamic diagram of the distance correlation coefficient between parameters
LSTM(Long Short-Term Memory)擅長處理和預(yù)測序列數(shù)據(jù)[18]。神經(jīng)元包含輸入門i、遺忘門f、輸出門o、記憶單元C。“門”結(jié)構(gòu)使用sigmoid 作為激活函數(shù),輸出一個0 到1 之間的數(shù)值,描述通過此結(jié)構(gòu)的信息量,進(jìn)而影響神經(jīng)網(wǎng)絡(luò)狀態(tài),避免產(chǎn)生梯度爆炸或梯度消失問題。十分適合處理鉆井過程中的動態(tài)變化問題。本文利用LSTM 的非線性擬合和長期、短期記憶的能力表征15 種參數(shù)與摩阻系數(shù)的映射關(guān)系,同時考慮工程參數(shù)自身在深度維度上的變化關(guān)系,結(jié)構(gòu)如圖11 所示。
圖11 LSTM 模型結(jié)構(gòu)Fig.11 Structure of LSTM model
正交實驗法是研究多影響因素的實驗設(shè)計方法,它依據(jù)伽羅瓦理論選擇部分具有代表性的參數(shù)組合進(jìn)行實驗,可以有效減少實驗次數(shù)。對于LSTM 網(wǎng)絡(luò),設(shè)計3 種不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每種網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計4種超參數(shù)組合,包括神經(jīng)元個數(shù)、激活函數(shù)、學(xué)習(xí)率、Dropout,共計12 種網(wǎng)絡(luò)模型。為了測試魯棒性,訓(xùn)練過程不設(shè)置固定的隨機種子參數(shù),以保證充分的隨機性。每組進(jìn)行10 次訓(xùn)練與測試,記錄實驗結(jié)果的平均值與標(biāo)準(zhǔn)差。每次訓(xùn)練的Epoch 為3 000。結(jié)果見表4。
綜合考慮均方根誤差、平均相對誤差、最大相對誤差以及一口井?dāng)?shù)據(jù)的訓(xùn)練用時共4 個指標(biāo)對MLP模型進(jìn)行優(yōu)選。由表4 和圖12 可知,均方根誤差和平均相對誤差最小為0.000 12 和3.1%,均對應(yīng)第4 個模型,且最大相對誤差為26.4%也處于相對低水平。魯棒性方面,3 個評價指標(biāo)的標(biāo)準(zhǔn)差區(qū)間均最小,意味著模型在初始參數(shù)完全隨機的情況下,性能表現(xiàn)較為穩(wěn)定。但訓(xùn)練用時35 s 相比較長,表明模型復(fù)雜度更高。相比于準(zhǔn)確度要求,本預(yù)測任務(wù)對模型反應(yīng)速度無較高要求,只需在同一數(shù)量級內(nèi)且無指數(shù)級增長趨勢即可,因此,優(yōu)選第4 個模型。
圖12 12 個模型預(yù)測評價指標(biāo)對比Fig.12 Comparison of evaluation indexes for prediction of 12 models
LSTM 作為一種神經(jīng)網(wǎng)絡(luò)是典型的不可解釋黑箱模型,其性能能夠達(dá)到較高水平但無法得知內(nèi)部決策機理以及輸入對輸出的影響等,導(dǎo)致模型的可靠性不足。因此,有必要對建立的摩阻系數(shù)智能預(yù)測模型使用黑箱模型解釋方法,進(jìn)一步分析模型的可靠性。機器學(xué)習(xí)可解釋性方法主要分為全局解釋方法和局部解釋方法[19]。全局解釋方法指的是全面理解黑箱模型內(nèi)部復(fù)雜的運算邏輯與成因,受限于應(yīng)用場景、具體算法等,當(dāng)前階段很難實現(xiàn)全局解釋。局部解釋方法更專注于分析模型輸入與輸出之間的邏輯關(guān)系,解釋輸入是如何影響輸出變化的,而不是解釋決策函數(shù)本身。由于局部解釋方法發(fā)展較成熟且應(yīng)用更廣泛,本文使用該方法進(jìn)行可解釋性分析[20]。
SHAP(SHapley Additive explanation)是一種受博弈論啟發(fā)的方法,通過計算每個特征對單一預(yù)測結(jié)果的重要性值分析可解釋性。它是一種模型無關(guān)的方法,適用于任何單一輸出的模型。在解釋任意黑箱模型上,SHAP 方法是迄今為止在可視化交互和特征重要性方面最全面和最主導(dǎo)的方法[21]。其本質(zhì)上是對輸入特征進(jìn)行排列組合,將特征輸入依次設(shè)為0,根據(jù)模型輸出的變化,量化評價每個輸入特征對輸出結(jié)果的影響程度,方法簡示圖如圖13 所示。輸入對輸出的量化影響程度用Shapley 值表示[22],如下式。
圖13 SHAP 方法簡示圖Fig.13 Simple diagram of SHAP method
式中:φij為基于第j個數(shù)據(jù)樣本分析的第i個特征Shapley 值;xij為第j個數(shù)據(jù)樣本分析的第i個特征;N為所有輸入特征的集合;S為包含xij的特征集合;|S|為集合S包含的輸入特征個數(shù);n為所有輸入特征的個數(shù);f(S)為特征集合S作為模型輸入時的模型輸出值;為特征集合S排除特征xij后模型輸出值。
經(jīng)過式(11)的計算,得到了第j個數(shù)據(jù)樣本中第i個特征的SHapley 值(影響程度),從宏觀上(考慮所有數(shù)據(jù))證明局部可解釋性,基于Shapley 值引入SHAP系數(shù),定義第i個特征的SHAP 系數(shù)為:
式中:SSHAPi為第i個特征的SHAP 系數(shù),取值[0,1],即基于第j個數(shù)據(jù)樣本分析的第i個特征SHapley 值;n為所有輸入特征的個數(shù);M為所有數(shù)據(jù)樣本的個數(shù)。
SHAP 系數(shù)基于現(xiàn)有數(shù)據(jù)集從宏觀上表征影響程度,根據(jù)Y.Nohara 等的推導(dǎo)[23],各特征的Shapley 值之和等于模型當(dāng)前輸出和輸出期望的差,表示為:
式中:EX(f(X))為模型輸出的期望;該式能夠在微觀角度以線性模型形式進(jìn)一步理解黑箱模型,輔助判斷主控因素。
基于優(yōu)選的第4 個模型,圖14 展示了某兩口井的預(yù)測效果。其中藍(lán)色是真實值,黃色是部分訓(xùn)練集預(yù)測結(jié)果,紅色是測試集預(yù)測結(jié)果。圖14a 中,在訓(xùn)練集基本擬合較好的基礎(chǔ)上,除了3 000 m 和4 000 m 處的預(yù)測存在極端值,測試集能夠基本正確預(yù)測趨勢,測試集平均誤差為5.49%,最大誤差為25.07%;圖14b 中,數(shù)據(jù)集整體更為平滑,擬合效果較好,測試集平均誤差為5.89%,最大誤差為26.53%。
圖14 兩口井的預(yù)測效果Fig.14 Prediction results of two wells
摩阻系數(shù)是一種間接存在的物理量,并無實測值,僅依靠現(xiàn)有數(shù)據(jù)集的驗證不足以說明預(yù)測結(jié)果的準(zhǔn)確性與模型的合理性。因此基于摩阻系數(shù)智能預(yù)測結(jié)果,進(jìn)行摩阻扭矩實例預(yù)測分析,作進(jìn)一步的準(zhǔn)確性驗證。針對同一區(qū)塊的某3 口井,收集與處理數(shù)據(jù),使用建立的LSTM 模型預(yù)測鉆柱摩阻系數(shù)并代入軟桿模型進(jìn)行摩阻扭矩預(yù)測分析,對比大鉤載荷預(yù)測值與錄井實測值,驗證摩阻系數(shù)預(yù)測的準(zhǔn)確性。表5 列舉了該3口井的大鉤載荷智能預(yù)測值與基于不同摩阻系數(shù)經(jīng)驗值的大鉤載荷計算值。結(jié)果表明,在不同經(jīng)驗值中,摩阻系數(shù)取0.25 誤差最小,誤差率為8.67%。與不同經(jīng)驗值相比,摩阻系數(shù)智能預(yù)測值最接近實測值,誤差率為4.26%,顯著降低了4.41%,具有較好的預(yù)測效果。因此,相比于鉆井現(xiàn)場摩阻系數(shù)取經(jīng)驗值的方法,本方法預(yù)測摩阻扭矩更加準(zhǔn)確。
表5 大鉤載荷預(yù)測結(jié)果對比Table 5 Comparison of hook load prediction results
SHAP 系數(shù)從宏觀上反映了各輸入?yún)?shù)對模型輸出值的貢獻(xiàn)程度。針對現(xiàn)有模型,計算每個特征的SHAP 系數(shù),結(jié)果如圖15 所示。模型是否具備一定程度的局部可解釋性,取決于各參數(shù)的SHAP 系數(shù)大小關(guān)系是否符合真實的物理規(guī)律。根據(jù)前人的總結(jié)與分析[24],地層數(shù)據(jù)、鉆井液性能數(shù)據(jù)與部分工程數(shù)據(jù)是影響鉆柱摩阻系數(shù)的主要因素。例如,在鉆井過程,地層數(shù)據(jù)中不同的巖性會導(dǎo)致形成不同厚度的泥餅,進(jìn)而影響摩阻系數(shù);工程數(shù)據(jù)中的井眼曲率或鉆柱外徑越大,都會導(dǎo)致鉆柱與井壁的接觸面積越大,導(dǎo)致摩阻系數(shù)增大。而井深與方位角影響程度較小,只有鉆進(jìn)方位角與設(shè)計方位角出現(xiàn)偏差時,才會輕微影響摩阻力;鉆井液性能同樣會很大程度上影響摩阻系數(shù),例如鉆井液黏度、鉆井液體系的不同會產(chǎn)生不同的潤滑效果。圖15 中,地層、鉆井液性能與部分工程3 類數(shù)據(jù)基本占據(jù)了主要位置,表明這些參數(shù)對摩阻系數(shù)預(yù)測產(chǎn)生了主要影響作用,其中巖性影響程度最大。而井深與方位角整體排在最后,對摩阻系數(shù)預(yù)測影響最小。這一結(jié)果比較符合上文所述的摩阻系數(shù)影響因素與規(guī)律,說明模型輸入輸出的響應(yīng)機制基本符合工程實際,能夠表征管柱力學(xué)機理,具備一定程度的局部可解釋性。此結(jié)果進(jìn)一步提高了模型的穩(wěn)定性和可靠性。
圖15 各參數(shù)的SHAP 系數(shù)Fig.15 SHAP coefficient of parameters
圖16 展示了該井3 882 m 處的微觀解釋過程,線性分析形式表征了模型在不同參數(shù)影響下由均值輸出0.175 變?yōu)楫?dāng)前輸出0.215。圖中Shapley 值正負(fù)表示了該特征參數(shù)對模型輸出作正或負(fù)貢獻(xiàn),可以輔助判斷主控因素。圖中該井深處摩阻系數(shù)的增大主要由鉆井液塑性黏度、井眼曲率貢獻(xiàn),而巖性對摩阻系數(shù)產(chǎn)生了降低作用。因此,對于該井需要注意井眼曲率較大的井段,若監(jiān)測到摩阻異常增大趨勢,可及時降低鉆井液塑性黏度以避免發(fā)生阻卡風(fēng)險。模型僅達(dá)到局部可解釋而未達(dá)到全局可解釋,雖不能完全代替現(xiàn)場專家決策,但可以在異常發(fā)生前及時提供參考信息輔助決策,提高作業(yè)效率。
圖16 3 882 m 處數(shù)據(jù)的微觀解釋Fig.16 Microscopic interpretation of data at 3 882 m
a.本研究建立了機理-數(shù)據(jù)融合的鉆柱摩阻扭矩預(yù)測方法,具有較好的準(zhǔn)確性和可靠性,解決了傳統(tǒng)方法中摩阻系數(shù)選取的盲目性和滯后性問題。
b.選取15 個特征建立了基于LSTM 的摩阻系數(shù)智能預(yù)測模型,平均誤差為5.89%。同時結(jié)合軟桿模型實現(xiàn)機理-數(shù)據(jù)融合的摩阻扭矩預(yù)測方法,鉤載預(yù)測值相比經(jīng)驗計算值誤差降低4.41%,驗證了預(yù)測結(jié)果的準(zhǔn)確性。使用SHAP 方法進(jìn)行可解釋性分析,結(jié)果表明,模型表征的輸入特征與摩阻系數(shù)的映射關(guān)系符合管柱力學(xué)機理,具備一定可解釋性,進(jìn)而驗證了方法的可靠性,同時能夠輔助判斷主控因素。
c.本研究與先前工作相比,能夠?qū)崿F(xiàn)摩阻扭矩的可靠智能預(yù)測。為摩阻扭矩分析提供了新的思路,同時也是智能鉆完井理論與方法的進(jìn)一步探索。但智能模型未達(dá)到全局可解釋,建議進(jìn)行更深一步研究,以指導(dǎo)參數(shù)優(yōu)化進(jìn)而避免風(fēng)險。