李臻 宋先知,2 李根生,2 張洪寧 祝兆鵬 王正 劉慕臣
1.中國(guó)石油大學(xué)(北京)石油工程學(xué)院;2.油氣資源與工程全國(guó)重點(diǎn)實(shí)驗(yàn)室;3.中國(guó)石化石油工程技術(shù)研究院;4.中國(guó)石油大學(xué)(北京)機(jī)械與儲(chǔ)運(yùn)工程學(xué)院
提高井眼軌跡預(yù)測(cè)精準(zhǔn)度和時(shí)效性有助于提高儲(chǔ)層鉆遇率、保障鉆井安全,但井眼軌跡影響因素眾多且高度非線性,井下力學(xué)行為極其復(fù)雜,往往難以準(zhǔn)確預(yù)測(cè)。國(guó)內(nèi)外專家學(xué)者針對(duì)井眼軌跡預(yù)測(cè)問題進(jìn)行了廣泛研究,取得了深刻認(rèn)識(shí)。白家祉等[1]和高德利[2]分別基于縱橫彎曲梁理論和加權(quán)殘值法系統(tǒng)地總結(jié)了底部鉆具組合力學(xué)分析方法,用于預(yù)測(cè)井眼軌跡;潘起峰等[3]建立了地層力計(jì)算新方法,并將其用于指導(dǎo)鉆頭與地層相互作用下的井眼軌跡預(yù)測(cè);Hajianmaleki M 等[4]、Walker B 等[5]利用有限元分析、能量法等建立了井眼軌跡預(yù)測(cè)模型;劉修善等[6-7]通過研究曲線結(jié)構(gòu)先后建立了井眼軌跡的幾何外推預(yù)測(cè)模型。盡管井眼軌跡預(yù)測(cè)研究已經(jīng)較為深入,但目前仍存在一定局限,例如,幾何外推模型僅考慮了曲線幾何關(guān)系,未考慮底部鉆具組合受力變形以及鉆井參數(shù)的影響,預(yù)測(cè)精度仍需提高;力學(xué)模型機(jī)理復(fù)雜,假設(shè)條件較多,在許多環(huán)境下無法滿足[8],同時(shí)鉆頭與地層之間復(fù)雜的相互作用機(jī)制尚未完全明確,仍需借助大量實(shí)鉆數(shù)據(jù)以確定部分經(jīng)驗(yàn)系數(shù),其使用也受到一定限制。
近年來,人工智能技術(shù)取得了長(zhǎng)足發(fā)展,其具備多源、多模態(tài)、多尺度建模能力[9],在復(fù)雜數(shù)據(jù)處理、非線性擬合等方面具有顯著的優(yōu)越性,已作為一種新的研究范式逐漸應(yīng)用到鉆井領(lǐng)域中[10],包括井眼軌道優(yōu)化設(shè)計(jì)[11]、機(jī)械鉆速預(yù)測(cè)[12]、儲(chǔ)層物性參數(shù)反演[13]、鉆井風(fēng)險(xiǎn)預(yù)警[14]等方面。在井眼軌跡預(yù)測(cè)上,王延江等[8]、馬玉鳳等[15]、袁野[16]利用支持向量機(jī)以井眼曲率、鉆進(jìn)方式、井斜角和方位角為輸入特征進(jìn)行了井眼軌跡預(yù)測(cè),對(duì)井斜角預(yù)測(cè)效果比較好。孟慶華等[17]將井眼軌跡時(shí)間序列進(jìn)行了小波分析重構(gòu),并將分解所得序列作為輸入來建立神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。
當(dāng)前,關(guān)于井眼軌跡智能預(yù)測(cè)的研究較為有限,使用的智能算法也相對(duì)陳舊,多為離線模型,未充分考慮地層性質(zhì)、底部鉆具組合結(jié)構(gòu)等非時(shí)序特征,預(yù)測(cè)精度存在進(jìn)一步提升空間;此外,目前使用的智能模型均為多對(duì)一或一對(duì)一的預(yù)測(cè)范式,在進(jìn)行多步預(yù)測(cè)時(shí)往往效果較差;同時(shí)鉆井環(huán)境復(fù)雜多變,離線模型無法利用實(shí)時(shí)數(shù)據(jù),模型存在滯后性,泛化能力不足[18]。因此亟需一種高精度、高效率的井眼軌跡預(yù)測(cè)方法。本文將采用以下對(duì)策進(jìn)行針對(duì)性研究:(1)針對(duì)機(jī)理模型機(jī)制復(fù)雜,假設(shè)條件多、難以同時(shí)滿足的問題,擬采用機(jī)器學(xué)習(xí)算法,建立端到端的預(yù)測(cè)模型。(2)針對(duì)當(dāng)前智能模型未能具體考慮非時(shí)序特征,無法實(shí)現(xiàn)序列預(yù)測(cè)的難題,擬引入并改造自然語言處理領(lǐng)域廣泛應(yīng)用的序列到序列模型(Sequence to Sequence)來解決軌跡多步預(yù)測(cè)的難題并提升預(yù)測(cè)精度[19]。底部鉆具組合結(jié)構(gòu)、地層性質(zhì)、鉆進(jìn)方式等非時(shí)序特征是井眼軌跡的重要影響參數(shù)[20],但并非數(shù)值類型,無法直接輸入模型之中,常規(guī)的做法是進(jìn)行獨(dú)熱(one-hot)編碼將其數(shù)值化[21],然而隨著特征類型的增多,編碼特征維度將會(huì)迅速增加,使網(wǎng)絡(luò)結(jié)構(gòu)變得稀疏,造成模型精度降低。為此,本文在獨(dú)熱編碼數(shù)值化的基礎(chǔ)上加入嵌入層(Embedding)來處理非時(shí)序特征,實(shí)現(xiàn)數(shù)據(jù)降維,改善模型結(jié)構(gòu)[22-23]。(3)針對(duì)當(dāng)前智能模型多為離線模型,無法適應(yīng)井下環(huán)境變化的難題,擬通過增量訓(xùn)練,建立模型動(dòng)態(tài)更新機(jī)制,實(shí)時(shí)預(yù)測(cè)井眼軌跡。
數(shù)據(jù)質(zhì)量是影響神經(jīng)網(wǎng)絡(luò)模型性能和泛化能力最顯著的因素[24],甚至超過了模型本身結(jié)構(gòu)的影響,因此對(duì)數(shù)據(jù)進(jìn)行處理,建立一個(gè)優(yōu)質(zhì)數(shù)據(jù)集至關(guān)重要。
本文數(shù)據(jù)來源于國(guó)內(nèi)某區(qū)塊平臺(tái)的12 口井,包含實(shí)時(shí)錄井、測(cè)井與鉆具組合等約40 余種類型的參數(shù)。該區(qū)塊地層一共分為9 層,底部造斜工具采用了單彎螺桿鉆具組合和旋轉(zhuǎn)導(dǎo)向系統(tǒng),鉆頭均采用同款PDC 鉆頭,因此本次構(gòu)建模型時(shí)無需考慮鉆頭因素的影響。
測(cè)斜數(shù)據(jù)通常每隔30 m 或10 m 記錄一次,為了與其他工程參數(shù)統(tǒng)一深度間隔,便于模型訓(xùn)練,并使模型具備1 m 間隔的連續(xù)預(yù)測(cè)能力,需要對(duì)測(cè)斜數(shù)據(jù)進(jìn)行插值連續(xù)化處理,此外連續(xù)化還能擴(kuò)充原有數(shù)據(jù)集,增強(qiáng)智能模型性能。常用的插值方法有圓柱螺線法、最小曲率法[25]、三次樣條插值法等,3 種方法的精度從工程應(yīng)用上來說并無明顯差別,其中三次樣條插值曲線更加光滑[26],適合神經(jīng)網(wǎng)絡(luò)訓(xùn)練,本文選擇三次樣條曲線進(jìn)行測(cè)斜數(shù)據(jù)插值連續(xù)化。
時(shí)序數(shù)據(jù)通常由傳感器實(shí)時(shí)采集,難免存在異常和缺失的情況,需要進(jìn)行數(shù)據(jù)處理。本文采用深度學(xué)習(xí)領(lǐng)域常用的3σ異常值檢測(cè)和線性填充方法進(jìn)行時(shí)序數(shù)據(jù)清洗,對(duì)非時(shí)序數(shù)據(jù)采用獨(dú)熱編碼數(shù)值化。
影響井眼軌跡的因素眾多,可分為地層性質(zhì)(可鉆性、巖性、自然造斜特性等)、底部鉆具組合(鉆頭類型,鉆具類型,穩(wěn)定器數(shù)量、位置、間距等)、井眼形狀(井斜方位、井眼曲率等)以及鉆井工藝參數(shù)(鉆壓、鉆速、轉(zhuǎn)速等)四部分[20]。然而在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),特征并非越多越好,過多的輸入特征可能會(huì)增加訓(xùn)練時(shí)間、造成特征冗余等問題,從而導(dǎo)致模型性能降低。因此有必要進(jìn)行特征優(yōu)選,以提高模型性能。
相關(guān)性分析是機(jī)器學(xué)習(xí)任務(wù)中廣泛采用的特征優(yōu)選方法,但這僅是對(duì)數(shù)值從統(tǒng)計(jì)學(xué)角度進(jìn)行直觀分析,而鉆井領(lǐng)域數(shù)據(jù)與井眼軌跡之間關(guān)系復(fù)雜,非線性強(qiáng),因此還需結(jié)合鉆井領(lǐng)域知識(shí)進(jìn)行特征選擇,對(duì)機(jī)理解釋尚不清晰的參數(shù)可從數(shù)據(jù)角度采用相關(guān)性分析進(jìn)行優(yōu)選。Spearman 相關(guān)系數(shù)能在一定程度上衡量非正態(tài)分布、非線性特征之間的相關(guān)性,符合鉆井領(lǐng)域數(shù)據(jù)特征[27],在實(shí)際應(yīng)用中,可由下式計(jì)算。
式中,ρ為Spearman 相關(guān)系數(shù),其絕對(duì)值越接近1,變量之間的相關(guān)性越強(qiáng);di為第i個(gè)數(shù)據(jù)對(duì)應(yīng)的排序位次差值;n為數(shù)據(jù)數(shù)量。
本文采用Spearman 相關(guān)系數(shù)來計(jì)算井斜角和方位角與各參數(shù)之間的相關(guān)性,計(jì)算結(jié)果如圖1所示,可以看出,sigma 指數(shù)和dc指數(shù)的相關(guān)性較低,但二者可以在一定程度上反映地層可鉆性。另外,地層密度、自然伽馬、孔隙度相關(guān)系數(shù)也較低,但這3 種測(cè)井?dāng)?shù)據(jù)可以反映地層性質(zhì)的變化,因此以上5 種參數(shù)也作為輸入特征。
圖1 Spearman 相關(guān)系數(shù)分析結(jié)果Fig.1 Results of Spearman correlation coefficient analysis
地層對(duì)井眼軌跡有著顯著影響,可總結(jié)為地層造斜力,但井下地層情況往往十分復(fù)雜,地層造斜力不僅與傾角、走向等地層自身性質(zhì)有關(guān),還與鉆頭類型、井斜方位、鉆壓等外界作用條件密切相關(guān),使得地層造斜力至今仍難以精確表征。對(duì)于已有歷史井資料的特定區(qū)塊,傾角、走向等地層性質(zhì)在一定程度上可由已鉆井歷史軌跡參數(shù)反映[8]。此外,地層分層通常是根據(jù)地層巖性、構(gòu)造、沉積環(huán)境等進(jìn)行劃分,可以反映地層性質(zhì)的變化,也能對(duì)其進(jìn)行定性表征。因此本文使用歷史軌跡參數(shù)、地質(zhì)隨鉆測(cè)井參數(shù)和地層分層來表征特定區(qū)塊地層對(duì)井眼軌跡的影響。
綜上分析,最終優(yōu)選出井深、垂深、井斜角、方位角、井眼曲率、鉆壓、鉆速、轉(zhuǎn)盤轉(zhuǎn)速、鉆井液密度、sigma 指數(shù)、dc指數(shù)、聲波時(shí)差、電阻率、泥質(zhì)含量、地層密度、自然伽馬、孔隙度共17 種時(shí)序特征和鉆進(jìn)方式、地層分層、底部鉆具組合類型3 種非時(shí)序特征。鉆進(jìn)方式:造斜(滑動(dòng)鉆進(jìn))、穩(wěn)斜(復(fù)合鉆進(jìn))、降斜(滑動(dòng)鉆進(jìn));地層分層:J2z、J1y、chang1、chang2、chang3、chang4、chang5、chang6、chang7;底部鉆具組合類型:直螺桿鉆具、1.25°單彎雙穩(wěn)螺桿鉆具、1.5°單彎單穩(wěn)螺桿鉆具、旋轉(zhuǎn)導(dǎo)向鉆具組合。
鉆進(jìn)方式、地層分層、底部鉆具組合類型需要進(jìn)行數(shù)值化處理。最廣泛使用的方法是獨(dú)熱編碼,通過“0”和“1”兩種數(shù)值來定義特征的不同取值。首先,將同一特征的所有可能取值按序排列,均用“0”填充,然后將某一時(shí)刻的真實(shí)取值定義為“1”。
獨(dú)熱編碼數(shù)值化后的特征維度取決于該特征的取值范圍。當(dāng)非時(shí)序特征種類過多時(shí),獨(dú)熱編碼后的維度會(huì)迅速增加,并且除了當(dāng)前時(shí)刻取值為“1”,其余位置均為“0”。這會(huì)產(chǎn)生一個(gè)異常稀疏的矩陣,而稀疏矩陣會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)模型性能產(chǎn)生較大的影響,特別是對(duì)于RNN、LSTM 等時(shí)序性神經(jīng)網(wǎng)絡(luò),這可能是造成現(xiàn)有井眼軌跡智能預(yù)測(cè)模型未具體考慮非時(shí)序特征的原因之一。本文將在模型建立部分探討解決獨(dú)熱編碼產(chǎn)生的特征高維稀疏性問題的方法。
均方根誤差RMSE可用于評(píng)估數(shù)據(jù)的波動(dòng)程度,平均絕對(duì)誤差MAE則更好地反映了誤差的實(shí)際情況,最大誤差ME可以表示預(yù)測(cè)誤差的最大值。因此采用RMSE、MAE和ME作為模型評(píng)價(jià)指標(biāo),計(jì)算公式如下。
式中,yi為第i個(gè)樣本的預(yù)測(cè)值,為第i個(gè)樣本的真實(shí)值,n為樣本數(shù)。
如前所述,井眼軌跡時(shí)序性和序列性特征顯著,屬于一段序列預(yù)測(cè)另一段序列的問題,因此選擇序列到序列模型框架進(jìn)行建模,選擇具有記憶功能的長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM 作為編碼器和解碼器的模型基礎(chǔ)。
LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò),通過引入門控機(jī)制來控制信息的保留與舍棄,被用來解決長(zhǎng)序列訓(xùn)練過程中的信息丟失問題,比傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)更能提取時(shí)間序列信息[28]。
序列到序列模型最早由Sutskever 于2014 年提出[19],克服了循環(huán)神經(jīng)網(wǎng)絡(luò)在多對(duì)多序列預(yù)測(cè)上的局限,解決了輸入和輸出序列長(zhǎng)度不對(duì)等的問題,被谷歌成功應(yīng)用到機(jī)器翻譯之中。該模型由編碼器(Encoder)和解碼器(Decoder)構(gòu)成,模型基礎(chǔ)通常選擇LSTM、GRU、RNN 等循環(huán)神經(jīng)網(wǎng)絡(luò),輸入序列通過編碼器進(jìn)行編碼,完成編碼后,編碼器會(huì)保留最后的隱藏狀態(tài)并傳遞給解碼器,該狀態(tài)經(jīng)過訓(xùn)練提取了輸入序列的特征信息;解碼器首先輸入一個(gè)開始信號(hào),然后接收編碼器最后的隱藏狀態(tài)作為自己的初始狀態(tài),經(jīng)過訓(xùn)練,輸出標(biāo)簽y1和新的隱藏狀態(tài),并將y1作為下一個(gè)時(shí)刻的輸入,不斷重復(fù)此過程,直至輸出結(jié)束信號(hào)標(biāo)簽yT,結(jié)束預(yù)測(cè)。
由于輸入特征包含時(shí)序和非時(shí)序兩種不同類型的數(shù)據(jù),模型需要設(shè)計(jì)雙輸入結(jié)構(gòu):將編碼器分為時(shí)序編碼器和非時(shí)序編碼器兩部分,時(shí)序特征直接輸入時(shí)序編碼器;非時(shí)序特征先由獨(dú)熱編碼數(shù)值化,再通過嵌入層轉(zhuǎn)化為低維稠密向量輸入非時(shí)序編碼器。最后將兩部分編碼器的編碼信息合并起來,輸入解碼器逐步解碼,生成輸出序列。解碼器選擇了雙向LSTM(Bi-LSTM)神經(jīng)網(wǎng)絡(luò)[29],該網(wǎng)絡(luò)由兩個(gè)獨(dú)立的LSTM 組成,分別對(duì)應(yīng)正序和逆序輸入序列,因此具備了正反雙向提取特征的能力,能夠解決步長(zhǎng)過長(zhǎng)而導(dǎo)致的前部信息遺忘問題。模型結(jié)構(gòu)設(shè)計(jì)如圖2 所示。
圖2 雙輸入序列到序列模型(Di-S2S)結(jié)構(gòu)Fig.2 Structure of the Di-S2S model
2.3.1 時(shí)序編碼器
時(shí)序編碼器采用LSTM 作為模型基礎(chǔ)。訓(xùn)練方法與LSTM 模型相同,但不同之處在于需要舍棄最后時(shí)刻LSTM 單元的輸出yT,而保留隱藏狀態(tài)hT,作為解碼器LSTM 單元的初始狀態(tài)。
2.3.2 非時(shí)序編碼器
非時(shí)序編碼器在時(shí)序編碼器的基礎(chǔ)上加入了嵌入層(Embedding),用以處理高維的獨(dú)熱編碼特征。鉆進(jìn)方式、地層分層等非時(shí)序特征首先通過獨(dú)熱編碼數(shù)值化,此時(shí)的特征是高維稀疏的,將此高維稀疏矩陣輸入嵌入層進(jìn)行降維,轉(zhuǎn)化為稠密的數(shù)字向量再輸入到LSTM 編碼單元中。對(duì)嵌入層的介紹如下。
深度學(xué)習(xí)能在圖像分割、時(shí)間序列預(yù)測(cè)、自然語言處理等領(lǐng)域優(yōu)于其他機(jī)器學(xué)習(xí)算法,嵌入層Embedding 發(fā)揮了不可或缺的作用[30],其本質(zhì)是進(jìn)行空間映射,通過模型訓(xùn)練,將高維稀疏的離散變量用低維稠密向量表達(dá),實(shí)現(xiàn)數(shù)據(jù)降維。圖3 為嵌入層訓(xùn)練示意圖,計(jì)算公式如下。
圖3 嵌入層訓(xùn)練結(jié)構(gòu)Fig.3 Embedded layer training structure
式中,KN×M為獨(dú)熱編碼輸入矩陣;WM×V為嵌入層系數(shù)矩陣,由模型訓(xùn)練得到;ZN×V為嵌入層輸出矩陣;N、M、V為數(shù)據(jù)維度,當(dāng)M>V時(shí),便能實(shí)現(xiàn)數(shù)據(jù)的降維。
在本文的具體操作中,將嵌入層的輸出維度設(shè)置為3,分別表征鉆進(jìn)方式、地層分層和鉆具組合結(jié)構(gòu)。嵌入層的系數(shù)矩陣可初始化為0 或1,隨著訓(xùn)練的進(jìn)行,系數(shù)矩陣會(huì)隨誤差反向傳播而不斷學(xué)習(xí)更新,最終訓(xùn)練出鉆進(jìn)方式、地層分層和鉆具組合結(jié)構(gòu)的最佳數(shù)字向量表達(dá)。相比于主成分分析等其他降維方法,嵌入層的獨(dú)特優(yōu)勢(shì)在于其系數(shù)矩陣能夠“嵌入”到神經(jīng)網(wǎng)絡(luò)模型之中,隨著訓(xùn)練進(jìn)行而不斷更新,將信息損失降至最低,泛化性和魯棒性更強(qiáng)。
最終將嵌入層輸出的三維稠密向量輸入非時(shí)序編碼器的神經(jīng)網(wǎng)絡(luò)單元進(jìn)行編碼,保留隱藏狀態(tài),作為解碼器LSTM 單元的初始狀態(tài)。
2.3.3 解碼器
將時(shí)序和非時(shí)序編碼器的最終隱藏狀態(tài)拼接作為解碼器的初始狀態(tài),解碼器的輸入由初始狀態(tài)和上一時(shí)刻LSTM 單元的隱藏狀態(tài)決定。解碼長(zhǎng)度設(shè)置為待預(yù)測(cè)序列長(zhǎng)度,取預(yù)測(cè)序列的最后一個(gè)值作為模型最終輸出。
雙輸入序列到序列模型(Di-S2S)總的訓(xùn)練計(jì)算公式如下。
時(shí)序編碼器:
非時(shí)序編碼器:
解碼器:
式中,Ht,time和Ht,nontime分別代表時(shí)序編碼器和非時(shí)序編碼器的隱藏狀態(tài);Wtime、btime,Wnontime、bnontime,W′、b′分別為時(shí)序編碼器、非時(shí)序編碼器和解碼器神經(jīng)網(wǎng)絡(luò)單元的權(quán)重矩陣和偏置向量;Kt,nontime為非時(shí)序特征獨(dú)熱編碼后的數(shù)值向量;WN×M為非時(shí)序編碼器嵌入層系數(shù)矩陣,Zt,nontime表示嵌入層輸出的稠密向量;表示解碼器神經(jīng)網(wǎng)絡(luò)單元的初始狀態(tài),表示解碼器神經(jīng)網(wǎng)絡(luò)單元任一時(shí)刻的隱藏狀態(tài)。
本文采用增量訓(xùn)練[18]的方法結(jié)合滑動(dòng)窗口進(jìn)行實(shí)時(shí)軌跡預(yù)測(cè)。首先,使用區(qū)域歷史數(shù)據(jù)訓(xùn)練出基礎(chǔ)模型,當(dāng)實(shí)測(cè)數(shù)據(jù)更新時(shí),在相鄰兩個(gè)實(shí)測(cè)點(diǎn)數(shù)據(jù)之間進(jìn)行插值得到連續(xù)化軌跡參數(shù)。然后,將連續(xù)化軌跡參數(shù)和其他特征一起輸入基礎(chǔ)模型并使用滑動(dòng)窗口讀取數(shù)據(jù)進(jìn)行增量訓(xùn)練,在每次迭代時(shí)更新模型權(quán)重并進(jìn)行一次預(yù)測(cè)。在下一次增量訓(xùn)練時(shí),模型將以當(dāng)前權(quán)重作為起點(diǎn)進(jìn)行梯度下降尋優(yōu),具體流程見圖4。
本文方法可分三步實(shí)現(xiàn)。首先是數(shù)據(jù)集建立。收集并處理鉆-測(cè)-錄井多源數(shù)據(jù),按照時(shí)序特征和非時(shí)序特征劃分,對(duì)時(shí)序特征進(jìn)行異常值檢測(cè)、缺失值填充等數(shù)據(jù)預(yù)處理,對(duì)非時(shí)序特征采用獨(dú)熱編碼數(shù)值化,完成特征優(yōu)選。
其次是模型訓(xùn)練。將時(shí)序特征與非時(shí)序特征分別輸入Di-S2S 模型的時(shí)序編碼器和非時(shí)序編碼器進(jìn)行訓(xùn)練和超參數(shù)調(diào)優(yōu)。解碼序列長(zhǎng)度設(shè)置為待預(yù)測(cè)序列長(zhǎng)度,取最后時(shí)刻的預(yù)測(cè)值作為模型輸出。
最后是進(jìn)行模型的實(shí)時(shí)更新。首先使用區(qū)域歷史井?dāng)?shù)據(jù)訓(xùn)練出離線模型,并以此為基礎(chǔ),通過實(shí)測(cè)數(shù)據(jù)插值連續(xù)化和增量訓(xùn)練,采用滑動(dòng)窗口法進(jìn)行滑動(dòng)訓(xùn)練,實(shí)現(xiàn)井眼軌跡的實(shí)時(shí)預(yù)測(cè),流程如圖5所示。
圖5 Di-S2S 模型預(yù)測(cè)井眼軌跡流程Fig.5 Workflow of well trajectory prediction by Di-S2S model
為了提高模型的泛化能力,采用11 口鄰井加測(cè)試井前10%井段作為訓(xùn)練集,采用測(cè)試井后90%井段作為測(cè)試集。根據(jù)前期預(yù)實(shí)驗(yàn)結(jié)果,選擇實(shí)測(cè)點(diǎn)已鉆井段上部150 m 的數(shù)據(jù)預(yù)測(cè)實(shí)測(cè)點(diǎn)下部15 m 未鉆井段的軌跡參數(shù)。激活函數(shù)設(shè)置為tanh,訓(xùn)練批次設(shè)置為64,迭代次數(shù)設(shè)置為128。
對(duì)Di-S2S 模型網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)選,具體包括:神經(jīng)元數(shù)量,隱藏層數(shù),是否雙向解碼。共設(shè)計(jì)12 種參數(shù)組合,如表1 所示。
表1 Di-S2S 模型網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)優(yōu)選Table 1 Optimal table of network hyperparameters of Di-S2S model
統(tǒng)一訓(xùn)練64 輪,根據(jù)與實(shí)測(cè)點(diǎn)的均方根誤差、平均絕對(duì)誤差和最大誤差3 種評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)選。預(yù)測(cè)結(jié)果如表2 所示。
表2 不同參數(shù)下模型預(yù)測(cè)結(jié)果Table 2 Structure parameters of model network
由表2 預(yù)測(cè)結(jié)果可知,井斜角整體預(yù)測(cè)誤差低于方位角,這可能是由于本區(qū)塊不同井之間的井斜角變化趨勢(shì)相似,智能模型容易學(xué)習(xí)到井斜角變化的趨勢(shì);而不同井之間方位角的變化可能很大,變化趨勢(shì)也不盡相同,因此預(yù)測(cè)難度比井斜角更大。此外,當(dāng)模型結(jié)構(gòu)偏簡(jiǎn)單時(shí),解碼器采用單向解碼模型性能更優(yōu),而隨著模型網(wǎng)絡(luò)結(jié)構(gòu)不斷加深時(shí),解碼器采用雙向解碼預(yù)測(cè)精度更高。通過對(duì)比模型表現(xiàn),模型6 的井斜角和方位角預(yù)測(cè)誤差均最低,平均絕對(duì)誤差分別為0.36°和0.66°,且模型復(fù)雜度較低,因此最終選擇模型6 作為最優(yōu)模型進(jìn)行后續(xù)分析。
隨機(jī)交叉選擇5 種數(shù)據(jù)集組合,利用最優(yōu)模型進(jìn)行軌跡參數(shù)預(yù)測(cè),結(jié)果如表3 和圖6、圖7 所示。
表3 Di-S2S 模型在W1 井造斜段和穩(wěn)斜段的預(yù)測(cè)誤差對(duì)比Table 3 Prediction errors of Di-S2S model for the buildup and hold sections of Well W1
圖6 W1 井井眼軌跡預(yù)測(cè)結(jié)果Fig.6 well trajectory prediction results of Well W1
圖7 W1 井井斜角、方位角絕對(duì)誤差隨井深分布Fig.7 Absolute error distribution of well inclination and azimuth with depth in Well W1
以W1 井為例,測(cè)試集包含造斜段和穩(wěn)斜段,共3 203 m,其中實(shí)測(cè)點(diǎn)333 個(gè),全井段井斜角預(yù)測(cè)值與實(shí)測(cè)值平均絕對(duì)誤差和最大誤差分別為0.23°和2.32°;方位角預(yù)測(cè)值與實(shí)測(cè)值的平均絕對(duì)誤差和最大誤差分別為0.52°和3.12°。雖然造斜段整體誤差略高于穩(wěn)斜段,但平均絕對(duì)誤差相差較小??傮w來看,造斜段和穩(wěn)斜段的誤差范圍都處于較低水平,說明模型對(duì)造斜段和穩(wěn)斜段均具有較好的預(yù)測(cè)效果。井斜角和方位角預(yù)測(cè)值與真實(shí)值非常接近,變化趨勢(shì)也很吻合,平均絕對(duì)誤差均小于0.6°。
在相同參數(shù)條件下分別對(duì)W1~W5 井進(jìn)行預(yù)測(cè),如表4 所示,結(jié)果表明,5 口井的井斜角和方位角與實(shí)測(cè)點(diǎn)的平均絕對(duì)誤差均低于1°,其中井斜角平均絕對(duì)誤差小于0.5°,證明本文提出的Di-S2S 模型具有較好的泛化性能。
表4 Di-S2S 模型對(duì)5 口井井眼軌跡預(yù)測(cè)誤差Table 4 well trajectory prediction errors of Di-S2S model for 5 wells
為了驗(yàn)證Di-S2S 模型的性能,將Di-S2S 模型與BP(時(shí)序特征按時(shí)間順序單輸入)、BP-one-hot(時(shí)序特征-非時(shí)序特征獨(dú)熱編碼雙輸入)、LSTM(時(shí)序特征單輸入)、LSTM-one-hot(時(shí)序特征-非時(shí)序特征獨(dú)熱編碼雙輸入)、LSTM-Embedding(時(shí)序特征-非時(shí)序特征獨(dú)熱編碼+嵌入層雙輸入)模型進(jìn)行了對(duì)比分析。
以W1 井為例,優(yōu)選各模型的最優(yōu)參數(shù)組合進(jìn)行對(duì)比。BP、BP-one-hot、LSTM、LSTM-one-hot 模型單層神經(jīng)元數(shù)可取16、32、64,隱藏層數(shù)可取1、2、3;LSTM-Embedding 模型隱藏層數(shù)可取1、2、3,時(shí)序與非時(shí)序部分神經(jīng)元數(shù)均取16、32;Di-S2S 采用3.1 節(jié)的最優(yōu)參數(shù)組合。模型對(duì)比結(jié)果如表5 和圖8 所示。
表5 采用不同模型得到的井斜角、方位角預(yù)測(cè)誤差對(duì)比Table 5 Prediction errors of well inclination and azimuth of different models
根據(jù)表5 和圖8 可知,Di-S2S 模型預(yù)測(cè)的井斜角和方位角平均絕對(duì)誤差、均方根誤差最??;方位角最大誤差也最小,盡管井斜角最大誤差偏高,但在圖8(a)誤差分布圖中可以發(fā)現(xiàn),Di-S2S 模型的井斜角誤差主要集中在0.5°以內(nèi),僅有8 個(gè)點(diǎn)超過了1°,且僅有1 個(gè)點(diǎn)超過了2°。綜合表現(xiàn)來看,Di-S2S 模型表現(xiàn)最優(yōu)。相比之下,BP 模型井斜角預(yù)測(cè)表現(xiàn)較好,最大誤差僅為1.88°,但方位角預(yù)測(cè)表現(xiàn)較差。LSTM 模型方位角預(yù)測(cè)精度高于BP 模型,提升了33%,但井斜角精度不如BP 模型。由于井眼軌跡在井下是復(fù)雜的三維變化,井斜角和方位角預(yù)測(cè)精度同樣重要,必須統(tǒng)籌考慮。因此,Di-S2S 模型更適合進(jìn)行現(xiàn)場(chǎng)應(yīng)用。
無論是BP-one-hot 模型還是LSTM-one-hot 模型,加入獨(dú)熱編碼后的預(yù)測(cè)誤差均增大,LSTM 模型尤其敏感,如圖8 所示。對(duì)比LSTM-Embedding 模型和LSTM-one-hot 模型可以發(fā)現(xiàn),使用嵌入層后,模型預(yù)測(cè)誤差顯著下降,幅度超過70%。此外,LSTM-Embedding 模型的表現(xiàn)還優(yōu)于LSTM 模型,井斜角平均絕對(duì)誤差降低16%,方位角平均絕對(duì)誤差降低7%,這既說明了嵌入層能夠顯著改善模型的稀疏性,同時(shí)也證明了地層分層、鉆進(jìn)方式和鉆具組合等非時(shí)序特征對(duì)模型性能確有提升作用,在建立智能模型時(shí)需予以考慮。
以第3.1 節(jié)優(yōu)選的Di-S2S 模型為基礎(chǔ),采用增量訓(xùn)練的方式建立了該模型的動(dòng)態(tài)更新機(jī)制,預(yù)測(cè)結(jié)果和誤差分布如表6 和圖9 所示。
表6 采用離線模型與實(shí)時(shí)更新模型預(yù)測(cè)的井斜角、方位角誤差對(duì)比Table 6 Prediction errors of well inclination and azimuth of offline and real-time updating models
圖9 W1 井Di-S2S 實(shí)時(shí)更新模型絕對(duì)誤差分布Fig.9 Absolute error distribution of Di-S2S real-time updating model in Well W1
采用實(shí)時(shí)更新模型預(yù)測(cè)井斜角和方位角誤差均顯著降低,二者平均相對(duì)誤差分別為0.12%和0.13%。其中井斜角平均絕對(duì)誤差、最大誤差及均方根誤差分別為0.09°、0.55°和0.14°,較Di-S2S 離線模型分別降低61%、76%和61%;方位角的平均絕對(duì)誤差、最大誤差及均方根誤差分別為0.17°、1.79°和0.26°,較Di-S2S 離線模型分別降低67%、43%和62%。并且從圖9 可以看出,隨著訓(xùn)練不斷進(jìn)行,絕對(duì)誤差逐漸降低,模型對(duì)環(huán)境的適應(yīng)性越來越強(qiáng)。
(1)提出了一種基于雙輸入序列到序列模型的井眼軌跡智能預(yù)測(cè)方法。設(shè)計(jì)了時(shí)序特征和非時(shí)序特征雙輸入結(jié)構(gòu),通過嵌入層將高維非時(shí)序獨(dú)熱編碼特征轉(zhuǎn)化為3 維稠密向量,分別表征鉆進(jìn)方式、地層分層和鉆具組合結(jié)構(gòu)對(duì)軌跡參數(shù)的影響,解決了高維非時(shí)序特征造成的網(wǎng)絡(luò)結(jié)構(gòu)稀疏問題,有效提高了井眼軌跡的預(yù)測(cè)精度。
(2)基于增量訓(xùn)練構(gòu)建了模型的動(dòng)態(tài)更新機(jī)制,更能適應(yīng)復(fù)雜多變的井下真實(shí)環(huán)境,預(yù)測(cè)精度得到了明顯提升。此外,使用GeForce RTX 3060 顯卡進(jìn)行單次數(shù)據(jù)訓(xùn)練僅需4 s 左右,滿足現(xiàn)場(chǎng)應(yīng)用的時(shí)效性,可為井眼軌跡的實(shí)時(shí)監(jiān)測(cè)/預(yù)測(cè)與控制提供一定技術(shù)基礎(chǔ)。
(3)模型對(duì)于地層因素的考慮還較為簡(jiǎn)單,如何更加具體地考慮地層造斜特性,提升模型的遷移性能還有待進(jìn)一步研究。此外,進(jìn)一步細(xì)化底部鉆具組合的編碼形式(例如編碼穩(wěn)定器個(gè)數(shù)與管柱尺寸等),也是下一步完善模型的方向。
(4)當(dāng)前考慮的非時(shí)序特征有限,未來應(yīng)考慮更多非時(shí)序性特征,在大區(qū)域數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,以進(jìn)一步驗(yàn)證該方法的有效性。
致謝
中國(guó)石油大學(xué)(北京)廖勤拙副教授在本文撰寫過程中提出了寶貴的指導(dǎo)意見,張誠(chéng)愷博士對(duì)本研究提出了誠(chéng)懇的建議,在此一并表示感謝。