李 謙,曹彥偉,朱海燕
(1.成都理工大學環(huán)境與土木工程學院,四川 成都610059;2.成都理工大學能源學院,四川 成都610059)
鉆探鉆井作業(yè)是固體礦產(chǎn)與油氣資源勘探過程中至關重要的環(huán)節(jié)。鉆速作為評估鉆探鉆井作業(yè)最有效的指標之一,鉆速預測對于優(yōu)化鉆探工藝、降低作業(yè)成本、實現(xiàn)科學鉆探具有重要意義,它是鉆探鉆井作業(yè)的一項重要內(nèi)容。國內(nèi)外眾多學者對鉆速的評估與預測進行了大量的研發(fā)。但由于地層與工藝的復雜性,影響鉆速的因素繁多,同時相關領域理論體系的不完備性,這些因素之間至今未建立較為令人信服的通用分析模型。各國學者基于不同的現(xiàn)場參數(shù)與鉆速的關系,先后建立了多種不同的鉆速預測模型。
截止目前,常規(guī)的鉆速預測方案有理論推導型與數(shù)據(jù)挖掘型兩種形式。理論推導型預測方程主要基于鉆頭結構、受力平衡、機械比能等理論進行推演,如孟英峰等[1]、Chen 等[2]均提出基于機械比能理論可實現(xiàn)鉆速的預測與優(yōu)化;鄒德永等[3]提出基于鉆頭力學平衡的迭代可實現(xiàn)定向鉆井中PDC 鉆頭的鉆速預測;劉軍波等[4]認為將鉆頭轉速的影響帶入傳統(tǒng)的三維鉆速方程將提高鉆速預測的精度。?這類研究中也有結合數(shù)值仿真模擬進行的分析,如Saksala 等[5]提出將基于粘塑性和損傷力學的本構模型引入有限元模擬,結合接觸力學模型建立了較為準確的鉆速-鉆頭-巖石相互作用預測模型。
理論推導型模型固然可以獲得顯著的解析解,但建模過程中為簡化邊界條件而引入的大量假設條件,無疑為模型的應用帶來較大的限制。因此,利用現(xiàn)場監(jiān)測數(shù)據(jù),從中進行挖掘和分析的鉆速預測技術近年來備受矚目。同時得益于近年來機器學習技術的發(fā)展,越來越多的鉆速預測方式引入人工智能的相關概念(如表1 所示),均獲得了較高的預測精度。隨著人工智能技術的深度介入,鉆速預測的效率開始引起關注。Bataee 等[6]將神經(jīng)網(wǎng)絡的預測精度與常規(guī)模型的預測精度進行了對比,發(fā)現(xiàn)同參數(shù)條件下神經(jīng)網(wǎng)絡的預測精度可達98.5%,均高于其余方案;Hegde 等[7-8]評估了試驗驅動型模型與使用人工智能的數(shù)據(jù)驅動型模型的建模精度,發(fā)現(xiàn)數(shù)據(jù)驅動的模型相較于其他模型可降低預測誤差達12%。
表1 近年基于數(shù)據(jù)挖掘與人工智能的鉆速預測方案匯總(部分)Table 1 ROP prediction algorithm based on data mining and artificial intelligence in recent years (partial)
在人工智能與大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的當前,對數(shù)據(jù)的渴望前所未有。而在鉆探鉆井行業(yè)中,現(xiàn)場作業(yè)的多影響因素及條件復雜性無疑對精確模型的需求更高,同時帶來對更多數(shù)據(jù)的采集與分析需求。但值得注意的是,隨著對數(shù)據(jù)采集類型與數(shù)據(jù)量的激增,對施工作業(yè)中的數(shù)據(jù)采集作業(yè)會引起施工成本與難度的增加,過多的數(shù)據(jù)采集操作也會潛在影響常規(guī)鉆探鉆井施工。當數(shù)據(jù)采集量超過實際需求量時,原本用以降低成本提高效率的數(shù)據(jù)采集分析反而將拖累鉆探鉆井施工,達到事倍功半的效果。因此,鉆探鉆井數(shù)據(jù)建模中的數(shù)據(jù)采集規(guī)模與精度的下限判定是避免這種情況產(chǎn)生的必要條件。故本文基于中國南海某片區(qū)10 口井的相關數(shù)據(jù),對通過使用神經(jīng)網(wǎng)絡建立鉆速預測方程需求的數(shù)據(jù)規(guī)模下限問題進行了分析與探討。
本文使用的數(shù)據(jù)源于中國南海某片區(qū),經(jīng)過數(shù)據(jù)采集、整合、清洗、缺失值補充與錯誤值刪除后,獲得源自10 口井,涵蓋包括井眼位置、施工工藝、鉆井液性能、地質(zhì)條件、鉆頭鉆具共5 大類44 種不同類型的21917 條數(shù)據(jù)生成初始數(shù)據(jù)集。如表2 所示為初始數(shù)據(jù)集所包含的所有數(shù)據(jù)類型。
表2 初始數(shù)據(jù)集包含的數(shù)據(jù)變量及縮寫Table 2 Data variables and abbreviations in the initial data set
續(xù)表
在數(shù)據(jù)建模分析前,對輸入輸出數(shù)據(jù)進行相關性分析是判定建模數(shù)據(jù)是否有用的必備步驟。本次研究使用Person 相關系數(shù)計算法,令ρab為變量a,b的Person 相關系數(shù),主要計算方法如式(1)所示,其計算結果區(qū)間為[-1,1],主要的判定標準如所表3所示。
式 中:cov(a,b)——變 量a,b的 協(xié) 方 差 矩 陣;σa,σb——變量a,b各自的標準差;ai,bi——變量a,b數(shù)據(jù)集中第i個變量值——變量a,b平均值;n——變量a,b的數(shù)據(jù)集大小。
分別計算如表2 所示前43 個輸入?yún)?shù)與輸出參數(shù)鉆速之間的相關性統(tǒng)計如圖1 中柱狀圖所示,可知在當前初始數(shù)據(jù)集中,低相關參數(shù)包含16 種,其中8 種相關性系數(shù)<0.1;中相關系數(shù)包含15 種,其中9 種相關性系數(shù)位于[0.5,0.6]區(qū)間;高相關系數(shù)包含12 種,相關性系數(shù)全部位于[0.6,0.7]區(qū)間。對3 種相關性級別的參數(shù)進行類別統(tǒng)計如圖1 中餅圖所示,可見高相關性參數(shù)中施工工藝與鉆井液性能占據(jù)75%的比例,中相關性參數(shù)中鉆井液性能占據(jù)67%的比例。參考圖1 柱狀圖的高相關區(qū)參數(shù)詳細清單,可發(fā)現(xiàn)高相關性參數(shù)中的施工工藝類參數(shù)具體包括扭矩(T)、泵量(Q)、出入口鉆井液密度(MI、MO)、大鉤載荷(WOH)和井徑(d)。嚴格來說,其中泵量、出入口鉆井液密度也可視為鉆井液性能參數(shù)。綜上所述,該初始數(shù)據(jù)集中鉆井液性能是影響鉆速的主要參數(shù)類型。
表3 相關性判定標準Table 3 Correlation criteria
圖1 初始數(shù)據(jù)集相關性計算結果Fig.1 Correlation calculation results of the initial data set
本文擬采用BP 神經(jīng)網(wǎng)絡結合10 折交叉驗證的數(shù)據(jù)分組方式完成不同維度與取樣精度的模擬分析。因本次研究數(shù)據(jù)總量較大(21917 條),綜合考慮建模精度,選用10 折交叉驗證法進行數(shù)據(jù)分組。將該初始數(shù)據(jù)集劃分為相斥的10 個互斥子集如式(2)所示。為避免數(shù)據(jù)劃分過程中引入額外的偏差而對最終結果產(chǎn)生影響,數(shù)據(jù)分組以“分層采樣”的形式進行劃分,保證分組完成后訓練集與測試集的數(shù)據(jù)分布與原數(shù)據(jù)集相同。故每個子集Di均需要從初始數(shù)據(jù)集(令其為ini_data_all)中分層采樣得到。在本次訓練建模中,將以井號和地層深度2 個參數(shù)為主(2 個參數(shù)的結合可視為整個區(qū)塊的地層分布與位置)進行分層采樣。完成分層采樣后,如圖2 所示,每次用其中的9 個子集的并集作為訓練集,余下的作為測試集。最終形成10 組訓練/測試集,從而可進行10 次訓練和測試,最終返回10 個測試結果均值作為建模精度的評估。
圖2 10 折交叉驗證基本原理Fig.2 Basic principle of 10-fold cross-validation
鉆速預測屬于典型的多輸入單輸出的非線性擬合,因此建模方式選用為在該方面擬合精度非常高的BP 神經(jīng)網(wǎng)絡,建立網(wǎng)絡結構如圖3 所示。該網(wǎng)絡包含3 層結構,輸入層、隱藏層和輸出層。每層均包含若干神經(jīng)元,其中只有相鄰層的所有神經(jīng)元兩兩連接,同層與不相鄰層的神經(jīng)元均完全不相連。輸入與輸出層的神經(jīng)元數(shù)量分別與輸入、輸出變量相同,分別負責網(wǎng)絡的數(shù)據(jù)輸入與計算結果的輸出。隱藏層的神經(jīng)元數(shù)量則會影響分析速率與精度,如果隱藏層結點數(shù)過少,網(wǎng)絡不能具有必要的學習能力和信息處理能力。反之,若過多,會大大增加網(wǎng)絡結構的復雜性。參考相關研究基礎,本次研究中選用隱藏層神經(jīng)元數(shù)量p=10。
圖3 本次研究使用的BP 神經(jīng)網(wǎng)絡基本結構Fig.3 Basic structure of the BP neural network used in this study
本次研究中BP 神經(jīng)網(wǎng)絡建模精度選擇以預測輸出yi-output與真實值yi-true之間的絕對誤差RMSE與擬合精度R2為精度度量,其各自計算方法如式(3)所示,當計算結果|RMSE|=0,R2=1 時,BP 神經(jīng)網(wǎng)絡的預測輸出與真實值完全匹配,達到最高精度。
式中:yi-output——第i個元素BP 神經(jīng)網(wǎng)絡的預測輸出;yi-true——第i個元素真實值;m——元素數(shù)量。
建模數(shù)據(jù)維度是指建立鉆速預測模型的參數(shù)類型數(shù)量,而建模數(shù)據(jù)維度的下限則可被定義為達到足夠建模預測精度需求的最少參數(shù)數(shù)量。對滿足精度的建模參數(shù)數(shù)量下限的研究,可最大程度地降低現(xiàn)場對參數(shù)檢測需求或后期分析數(shù)據(jù)需求,避免由于對建模數(shù)據(jù)量的盲目增長需求而帶來的生產(chǎn)與分析成本的急劇上升。結合圖1 所示的相關性分析結果,本次研究分別針對高、中、低相關區(qū)的建模參數(shù)組合進行。具體分析方案設計為依次從高、中、低相關性參數(shù)組中相關性最低的參數(shù)開始,逐漸增加引入BP 神經(jīng)網(wǎng)絡輸入?yún)?shù)的數(shù)量,分別計算并統(tǒng)計引入不同輸入?yún)?shù)數(shù)量后的網(wǎng)絡建模預測精度,從而獲取鉆速預測精度隨引入?yún)?shù)數(shù)量不同的改變趨勢。
基于高、中、低3 種不同相關性的參數(shù)進行建模數(shù)據(jù)維度變化的鉆速預測建模精度分析,分析結果如圖4 所示,其變化趨勢完全類似。隨著引入?yún)?shù)數(shù)量的提升,BP 神經(jīng)網(wǎng)絡預測鉆速與真實鉆速的絕對誤差RMSE值逐漸下降,同時預測精度R2也逐漸上升。可觀察到的是高、中、低3 種相關性參數(shù)在引入3 個及以上的參數(shù)數(shù)量后,無論其預測誤差還是預測精度均得到躍升,當相關性越低時,其躍升的幅度越高。引入?yún)?shù)數(shù)量3 可視為預測建模精度的躍升閾值。
除躍升閾值以外,還可觀察到不同相關性的參數(shù)的建模精度隨引入數(shù)量的提升范圍存在上限,低相關性參數(shù)在引入15 個參數(shù)后建模精度達到上限約為92%,中相關性參數(shù)在引入13 個參數(shù)后建模精度達到上限約92 %,高相關性參數(shù)在引入11 個參數(shù)后達到上限約94%。精度上限的存在說明初始數(shù)據(jù)集中參數(shù)包含的信息量存在上限,這也與相關性計算結果中最高相關性未超過0.7 相符。
圖4 鉆速預測模型建模數(shù)據(jù)維度下限試驗結果Fig.4 Test results of the lower limit of the data dimension for the ROP prediction model
橫向對比3 種相關性參數(shù)組(如圖4 所示),在引入相同數(shù)量的參數(shù)時,參數(shù)的相關性越高,最終鉆速預測的誤差越低,預測精度也越高。但值得注意的是,這種區(qū)別并不如相關性指數(shù)的區(qū)分度那么明顯。在僅引入單參數(shù)時,低相關性參數(shù)鉆速預測最大誤差達到13.31 m/h,同時其精度僅有19.28%。對比之下,單參數(shù)引入時中相關性參數(shù)預測的最大誤差為11.78 m/h,預測精度49.92%,高相關性參數(shù)預測的最大誤差為10 m/h,預測精度為67.58%??梢娫谝胼^少參數(shù)時,即使相關性很高的參數(shù)預測誤差也很大,預測精度也較低。同理,將同相關性所有參數(shù)引入后,低相關性參數(shù)能夠取得的最低預測誤差為5.42 m/h,預測精度為91.70%;中相關性參數(shù)能夠取得的最低預測誤差為5.41 m/h,預測精度為91.72%;高相關性參數(shù)能夠取得的最低誤差為4.59 m/h,預測精度為94.12%。三者之間差距并不大,這說明當引入?yún)?shù)數(shù)量達到一定程度后,即使是相關性較低的參數(shù),通過增加引入?yún)?shù)的數(shù)量,BP 神經(jīng)網(wǎng)絡也能取得較高的預測精度與較低的預測誤差。
參數(shù)間相關性的不同對鉆速預測精度的影響則表現(xiàn)為到達指定精度需要的參數(shù)數(shù)量下限不同。如圖5 所示,以工業(yè)常用的最低精度標準85%為限,基于本數(shù)據(jù)集,低相關性參數(shù)需要引入9 個,中相關性參數(shù)需要引入6 個,而高相關性參數(shù)僅需要引入4 個。若將精度指標下限提升至90%,則低相關性、中相關性與高相關性參數(shù)則需分別引入12個、10 個與9 個。由此可見,隨精度指標下限的提高,不同相關性參數(shù)的引入數(shù)量(維度下限)也在上升,且不同相關性參數(shù)引入數(shù)量差距在逐漸減少。這是由于原始數(shù)據(jù)建模精度存在上限所致,這表征原始數(shù)據(jù)集中包含的真正影響鉆速的信息存在上限。該觀點在如圖4 所示的建模數(shù)據(jù)維度下限試驗中也得到驗證,當引入?yún)?shù)數(shù)量超過10 以后,高、中、低3 種相關性參數(shù)的預測精度均達到上限,不再隨數(shù)據(jù)維度的上升而改變。
圖5 不同相關性參數(shù)達到需求預測精度的維度下限Fig.5 Lower limit of the dimension of different correlation parameters for the required accuracy
由維度下限分析可知,當引入數(shù)據(jù)維度足夠多時,即使是低相關參數(shù)也可取得較高的預測精度。在此基礎上,本研究進一步分析在數(shù)據(jù)維度保持不變時,維持建模精度所需的數(shù)據(jù)取樣間隔精度下限。對取樣精度下限的研究,可減少數(shù)據(jù)分析時對數(shù)據(jù)量的需求,提高分析效率,避免對分析數(shù)據(jù)量的疑惑而引起對分析結論的懷疑。同時,也可降低實際鉆探鉆井采樣時對錄井、監(jiān)測數(shù)據(jù)的要求。尤其是使用成本較高的隨鉆測量/測井(MWD/LWD)技術時,對采樣精度的降低可提高設備的使用壽命,進一步降低使用成本。本次分析以圖5 所示85%和90%兩組精度下的參數(shù)組合為藍本,逐漸增加取樣間隔,從基本數(shù)據(jù)集默認的1 m 一個樣本開始,逐步擴大到100 m 一個樣本。通過對不同精度樣本進行建模誤差和精度分析,觀察是否能夠找到建模精度下限。
高、中、低3 種相關性精度下限分析結果如圖6所示。整體來看,無論是相關性的區(qū)別(高、中、低)還是初始精度的區(qū)別(85%、90%),在取樣間隔逐漸增大時呈現(xiàn)相同的變化趨勢,即隨著取樣間隔的增大,鉆速預測模型的誤差同步增大,建模精度也逐漸下降。同時值得注意的是,如表4 所示,在不同相關性與初始精度的數(shù)據(jù)結果統(tǒng)計中發(fā)現(xiàn),當取樣精度超過10 m 時,所有不同相關性和初始精度條件下的建模預測誤差增長幅度與建模下降率明顯上升。說明取樣精度10 m 左右可視為建模取樣精度的下限值。當取樣精度超過10 m 時,會引起精度的急劇下降,對建模及后續(xù)使用帶來極大的分析誤差。
結合表4 與圖6 相關數(shù)據(jù),可發(fā)現(xiàn)在改變?nèi)娱g隔時,建模參數(shù)的相關性相較初始精度更加敏感。低相關參數(shù)在取樣精度間隔逐漸增大時會更明顯的反映出建模誤差增大與建模精度減小的情況,其變化幅度明顯大于中相關與高相關參數(shù)。當數(shù)據(jù)取樣間隔由1 m 增長到100 m 時,85%初始精度的低相關性參數(shù)建模誤差由6.94 m/h 增長到15.83 m/h,增長率為128%,同時建模精度由85.9%下降到52.2%,下降幅度33.7%;而90%初始精度的低相關性參數(shù)建模誤差由5.80 m/h 增長到12.47m/h,增長率為115 %,同時建模精度由90.4%下降至58.7%,下降幅度31.5%。相對而言,中相關性與高相關性參數(shù)的變化幅度稍小。85%初始精度的中相關性參數(shù)建模誤差增長率為88%,精度下降22.2%;90%初始精度的中相關性參數(shù)建模誤差增長率95%,精度下降29.9%。85%初始精度的高相關性參數(shù)建模誤差增長率為52.8%,精度下降14.1%;90%初始精度的高相關性參數(shù)建模誤差增長率86.8%,精度下降19.9%。由此說明,當建模數(shù)據(jù)相關性增大時,相應的由于建模取樣數(shù)據(jù)間隔增大而導致的建模誤差會減小,這說明基于高相關性參數(shù)建立的模型更加穩(wěn)定與健壯,受數(shù)據(jù)取樣精度的影響更小。
結合數(shù)據(jù)建模維度與精度下限分析結果,分別以10 m 的取樣精度,以85%的初始精度建立基于低相關性參數(shù)(引入9 參數(shù))、中相關性參數(shù)(引入6參數(shù))、高相關性參數(shù)(引入4 參數(shù))BP 神經(jīng)網(wǎng)絡預測模型,將預測鉆速與實測鉆速對比如圖7 所示。由圖7 可知,無論初始數(shù)據(jù)的相關性如何,在數(shù)據(jù)維度與精度均達到下限值時,BP 神經(jīng)網(wǎng)絡都能取得較高的預測精度。其中各模型主要的缺陷與隱患在于數(shù)據(jù)模型的穩(wěn)定性,低相關性模型的穩(wěn)定性將低于中、高相關性預測模型,建模參數(shù)發(fā)生變化時可能會引起較大的預測誤差波動。
基于中國南海某片區(qū)10 口井相關參數(shù)的初始數(shù)據(jù)集(包含井眼位置、施工工藝、鉆井液性能、地質(zhì)條件、鉆頭鉆具5 大類44 種不同參數(shù)共21917 條數(shù)據(jù)),本文根據(jù)Person 相關系數(shù)的定義,計算了43種不同輸入?yún)?shù)與實際鉆速之間的相關性,并將所有輸入?yún)?shù)劃分為低相關性參數(shù)(含16 種參數(shù))、中相關性參數(shù)(含15 種參數(shù))和高相關性參數(shù)(含12種參數(shù))。通過使用BP 神經(jīng)網(wǎng)絡,結合10 折交叉驗證法,分別就低、中、高相關性參數(shù)建立了不同的鉆速預測方程,并計算了各自的預測誤差與預測精度,獲得如下結論:
圖6 鉆速預測取樣精度下限分析結果Fig.6 Analysis results of the lower limit of sampling accuracy for ROP prediction
表4 精度下限建模試驗分析結果Table 4 Analysis results of modeling test for the lower accuracy limit
圖7 基于最低維度與取樣精度下限的建模預測效果Fig.7 Prediction results of the model based on the lowest data dimension and sampling accuracy
(1)就建模數(shù)據(jù)維度上看,BP 神經(jīng)網(wǎng)絡建模預測的精確度將隨引入?yún)?shù)數(shù)量的上升而上升。參數(shù)的相關性決定了引入?yún)?shù)數(shù)量的下限。以工業(yè)常用的85%精度為下限,低相關性參數(shù)需要引入9個,中、高相關性參數(shù)則分別需要引入6 個與4 個,當精度下限提升到90%,相應的需要引入的低、中、高相關性參數(shù)分別提升為12 個、10 個與9 個。
(2)在引入足夠的參數(shù)后,無論引入?yún)?shù)的相關性高低,都可取得大于90 %的預測精度。但不同參數(shù)能夠達到的預測精度存在上限,本數(shù)據(jù)集中低、中、高相關性參數(shù)建模精度的上限分別為92%、92%與94%左右。該上限值與引入?yún)?shù)包含的有效信息相關,預測精度達到上限后繼續(xù)引入?yún)?shù)并不會提高預測精度。
(3)在確定初始預測精度較高(≥85%)的前提下,建模參數(shù)取樣的精度間隔增大,會引起建模參數(shù)數(shù)量的降低和其中包含信息的丟失,從而會引起預測精度的下降。通過分別對高、中、低相關性參數(shù)組進行建模驗證可知,當數(shù)據(jù)取樣間隔超過10 m后會引起建模精度的急劇下降,故本文數(shù)據(jù)集的鉆速預測模型的建模取樣精度下限為10 m。
(4)針對不同相關性與初始精度的預測建模對比后發(fā)現(xiàn),參數(shù)相關性的降低會增大由于取樣間隔增大而導致的建模誤差,即使用低相關性參數(shù)建立模型需要的取樣精度下限應略高于高相關性參數(shù)建立模型時的取樣要求,以防建模過程中產(chǎn)生的波動。
(5)驗證結果表明,在引入足夠的參數(shù)數(shù)量與取樣間隔精度后,低相關性、中相關性、高相關性參數(shù)均可建立足夠準確的BP 神經(jīng)網(wǎng)絡鉆速預測方程。