唐 誠 王崇敬 梁 波 顧炎午 李 柯
(①中石化經(jīng)緯有限公司西南錄井分公司;②中石化西南油氣分公司石油工程監(jiān)督中心)
四川盆地及周緣地區(qū)的海相頁巖氣勘探開發(fā)已取得重大突破[1-2],在頁巖氣解釋評價方面也取得了重要成果。當前普遍認為含氣頁巖儲層的典型響應(yīng)特征具有高自然伽馬、高有機碳、低巖石密度的特征,并廣泛應(yīng)用密度、中子、伽馬能譜、電阻率等測井項目來評價地層孔隙度、含氣飽和度、有機碳含量、獲取鏡質(zhì)體反射率Ro、計算礦物組分體積含量等[3-4]。但是,頁巖氣開發(fā)的降本增效壓力大,且普遍采用水平井施工,由于水平井段長,絕大部分水平井大幅度減少測井項目,部分工區(qū)的開發(fā)井甚至取消了測井項目,也不開展巖石熱解錄井,僅依靠隨鉆伽馬測井資料與氣測錄井資料開展儲層評價等工作,導(dǎo)致測試選層時缺乏可靠的評價依據(jù)。因此,亟需依托錄井數(shù)據(jù)開展頁巖氣評價參數(shù)的計算方法研究,為頁巖氣井的儲層評價、測試選層提供可靠的依據(jù),滿足頁巖氣開發(fā)的需要。
川南地區(qū)頁巖氣目的層為五峰組-龍馬溪組一段,自下而上細劃分為①-⑨號層,其中①-④號層具有高TOC、高脆性礦物、低黏土、低密度的特征,為主要的開發(fā)層系,為了確保開發(fā)效益,主要采用水平井進行鉆探[1]。
由于頁巖氣儲層的巖性、物性、含氣性等特征與常規(guī)油氣藏相比有明顯的不同,難以通過常規(guī)手段來描述、評價頁巖氣??碧匠跗谠诔R?guī)測井的基礎(chǔ)上,大量開展了ECS、Litho Scanner特殊測井技術(shù)的應(yīng)用,并輔以巖心含氣量測量、電鏡掃描、全巖分析等分析化驗手段,形成了頁巖氣“六性”關(guān)系評價方法,巖石組分、總有機碳、巖石密度等均是重要的評價參數(shù),并在解釋評價過程中廣泛應(yīng)用[1-3,5-6],頁巖氣隨鉆評價方法則以錄井評價為主。趙紅燕等[7]應(yīng)用鉆時比值、烴對比系數(shù)、巖石熱解等方法,開展頁巖儲層地化特征和含氣性綜合評價。隨著特殊錄井技術(shù)的推廣應(yīng)用,唐謝等[8]通過巖石熱解、元素錄井、氣測與工程錄井、巖屑自然伽馬能譜錄井建立了長寧地區(qū)的頁巖錄井隨鉆解釋評價方法。顧炎午等[9]應(yīng)用逐步回歸方法,基于元素數(shù)據(jù)開展了頁巖氣評價參數(shù)的隨鉆計算研究,建立了巖石組分、巖石密度、孔隙度等參數(shù)的錄井計算模型。這些研究為頁巖氣的解釋評價技術(shù)發(fā)展起到了積極推動作用。
1.2.1 大量開發(fā)井壓縮了測井項目甚至不測井
測井項目在頁巖氣解釋評價過程中發(fā)揮了重要的作用,特別是巖石密度測井是評價頁巖氣甜點的關(guān)鍵參數(shù)[5-6]。但是頁巖氣開發(fā)井基本為水平井,因長水平段條件下測井風險大,相當部分的頁巖氣區(qū)塊取消了放射性測井項目。同時由于頁巖氣開發(fā)的降本增效壓力大,大量的開發(fā)井已經(jīng)完全取消了測井項目,導(dǎo)致完井后沒有測井資料可以采用,缺少測井評價參數(shù)。
1.2.2 水平井工況限制了常規(guī)錄井解釋方法應(yīng)用
頁巖氣水平井以油基鉆井液為主,氣測背景值高,為了防止井壁坍塌,鉆井液密度相對較高,導(dǎo)致鉆遇油氣時氣測顯示變化并不明顯,故水平段基本不使用巖石熱解錄井,巖屑伽馬能譜錄井在中石化區(qū)塊內(nèi)沒有得到推廣應(yīng)用。由于鉆時受鉆井工況的影響較大,使用旋轉(zhuǎn)導(dǎo)向工具鉆進時鉆時很低,而使用LWD工具滑動鉆進時鉆時普遍較高,常規(guī)錄井解釋方法受到了極大的限制,缺乏有效的錄井解釋評價參數(shù)。
1.2.3 現(xiàn)有方法的計算精度不能完全滿足需求
唐謝、顧炎午等[8-9]研究了利用錄井數(shù)據(jù)計算頁巖評價參數(shù)的計算模型,取得了積極進展,但采用的方法以單參數(shù)擬合、多參數(shù)線性回歸為主。已發(fā)表的文獻表明,計算鈣質(zhì)、硅質(zhì)含量的相關(guān)系數(shù)僅為0.57~0.71,表明評價參數(shù)之間存在復(fù)雜的非線性關(guān)系,常規(guī)的線性計算模型不能完全滿足需求。
基于元素數(shù)據(jù)開展巖石組分及評價參數(shù)的計算方法研究,能為解釋評價提供依據(jù)[9],但目前計算的準確性還有提升的空間。機器學習算法能夠從大量的數(shù)據(jù)中學習到相關(guān)的規(guī)律和邏輯,利用學習獲取的規(guī)律預(yù)測未知事物,在工業(yè)界得到了廣泛的應(yīng)用[10],因此有必要基于機器學習算法建立計算模型,提高計算的準確性。由于巖石組分是脆性評價的關(guān)鍵,而巖石密度、總有機碳是含氣性評價的重點[5-6,11],本文針對巖石組分、巖石密度、總有機碳三個參數(shù)研究計算模型。
機器學習算法眾多,算法性能高度依賴于調(diào)優(yōu)參數(shù)(超參數(shù))的選擇,因此調(diào)優(yōu)參數(shù)的設(shè)定是重要的步驟。通常采用交叉驗證(CV)來進行模型的訓練,把原始數(shù)據(jù)分組,一部分為訓練集,另一部分為驗證集,首先用訓練集對模型進行訓練,再利用驗證集來測試訓練得到的模型,根據(jù)擬合度(r2)對模型進行評價,r2越接近1,說明擬合度越好[10]。
計算模型的建立流程確定如下:根據(jù)擬合對象選擇合適的錄井數(shù)據(jù),構(gòu)成訓練數(shù)據(jù)集;選擇不同的機器學習算法對數(shù)據(jù)進行訓練,利用CV交叉驗證的方法進行調(diào)優(yōu)參數(shù)的優(yōu)選,根據(jù)擬合度(r2)從訓練結(jié)果中優(yōu)選出最佳模型。
機器學習是人工智能的核心,是通過利用數(shù)據(jù),訓練出模型,然后使用模型預(yù)測的一種方法,主要有監(jiān)督學習、無監(jiān)督學習和強化學習三種類型[12]。它們各有不同的適應(yīng)范圍,在不同的機器學習類型里,又有非常多的算法,不同的算法對最終的分析結(jié)果有明顯影響。因此,需要針對不同的應(yīng)用場景與應(yīng)用目的,開展算法分析與優(yōu)選。
本次研究的重點是頁巖氣評價參數(shù)的計算或預(yù)測,主要用到的是監(jiān)督學習中的回歸算法。線性回歸與邏輯回歸應(yīng)用非常廣泛,模型易于理解,實現(xiàn)簡單,但泛化能力弱,對于非線性問題擬合較差;決策樹、隨機森林算法在決策與分類方面效果顯著,但在應(yīng)用于回歸中時預(yù)測能力有限;支持向量機、神經(jīng)網(wǎng)絡(luò)、多元自適應(yīng)回歸樣條通常在應(yīng)用于回歸問題時,其非線性映射能力較強,具有良好的擬合及預(yù)測能力,泛化能力較強[10,12]。因此,本文選擇支持向量機、多元自適應(yīng)回歸樣條、神經(jīng)網(wǎng)絡(luò)三種算法來開展頁巖氣評價參數(shù)模型的研究。
2.2.1 支持向量機算法
支持向量機(SVM)算法主要取決于核函數(shù)的選擇,徑向基核函數(shù)(RBF)應(yīng)用最廣,需要確定的參數(shù)少,可以減少應(yīng)用過程中的復(fù)雜程度。兩項調(diào)優(yōu)參數(shù)分別為RBF核函數(shù)參數(shù)的解析估計值Sigma和代價參數(shù)C。其中C表示對誤差的寬容度,C值高容易過擬合,C值低容易欠擬合。Sigma會影響每個支持向量對應(yīng)的RBF的作用范圍:如果Sigma過大,那么此時支持向量的輻射范圍就非常小,對于未知樣本分類效果很差,存在訓練準確率可以很高,而測試準確率不高的可能;若Sigma 過小,將使模型受限制太多,被選定的支持向量的輻射范圍很大,則會造成平滑效應(yīng)太大,無法在訓練集上得到特別高的準確率,也會影響測試集的準確率,從而影響泛化性能[10,12]。模型訓練流程及驗證結(jié)果如圖1所示。訓練結(jié)果表明,硅質(zhì)礦物的效果最差,r2為0.88,DEN與黏土礦物效果最佳,r2均達到0.95。
圖1 基于支持向量機算法的模型訓練過程及調(diào)優(yōu)參數(shù)的確定結(jié)果
2.2.2 多元自適應(yīng)回歸樣條算法
多元自適應(yīng)回歸樣條(MARS)能自適應(yīng)處理高維數(shù)據(jù)。該方法的本質(zhì)是將每一個預(yù)測變量(輸入?yún)?shù))設(shè)定一個切分點拆成兩組,然后在每一組中建立預(yù)測變量與結(jié)果變量的關(guān)系,形成一對鉸鏈函數(shù)。針對每一個變量形成鉸鏈函數(shù),建立分段線性模型,每個鉸鏈函數(shù)擬合原始數(shù)據(jù)的一部分,且相互不發(fā)生影響。通過反復(fù)的窮舉搜索,尋找擬合最好的切分點,完成全部預(yù)測變量的擬合后,移除其中對模型沒有顯著貢獻的變量,優(yōu)選出最合適的模型。MARS方法需要設(shè)定兩個調(diào)優(yōu)參數(shù),為預(yù)測變量的階數(shù)degree和保留特征的項數(shù)nprune。degree為大于或等于1的整數(shù),較高的階數(shù)會導(dǎo)致計算量大幅度增加,并導(dǎo)致數(shù)值大幅度膨脹或縮小,不適宜取值過大;nprune一般取值大于或等于2,當變量數(shù)小于10個時,其上限建議為20[12-13]。通過模型訓練,獲得的調(diào)優(yōu)參數(shù)見表1。從表1中可以看出,硅質(zhì)礦物的效果最差,r2僅為0.80,TOC和黏土礦物相對較好,r2達到0.92。
表1 基于多元自適應(yīng)回歸樣條算法的模型調(diào)優(yōu)參數(shù)
2.2.3 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)算法(NN)非常多,其中前饋神經(jīng)網(wǎng)絡(luò)算法最常用。前饋神經(jīng)網(wǎng)絡(luò)中各個神經(jīng)元按接收信息的先后分為不同的組,每一組可以看作一個神經(jīng)層。每一層中的神經(jīng)元接收前一層神經(jīng)元的輸出,并輸出到下一層神經(jīng)元,整個網(wǎng)絡(luò)中的信息是朝一個方向傳播,沒有反向的信息傳播。前饋神經(jīng)網(wǎng)絡(luò)可以看作是一個函數(shù),通過簡單非線性函數(shù)的多次復(fù)合,實現(xiàn)輸入空間到輸出空間的復(fù)雜映射。這種網(wǎng)絡(luò)結(jié)構(gòu)簡單,易于實現(xiàn)[10,12]??紤]到時效性,本次研究采用3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。圖2中:前饋神經(jīng)網(wǎng)絡(luò)算法里,I1,I2,…,I8為輸入層,代表各個元素數(shù)據(jù);H1,H2,H3,H4為隱藏層;O1為輸出層;B1和B2為各層的系數(shù)。
圖2 基于神經(jīng)網(wǎng)絡(luò)算法的三層結(jié)構(gòu)示意
設(shè)定初始隨機數(shù)權(quán)值和最大迭代次數(shù)后,需要確定調(diào)優(yōu)參數(shù)為隱蔽單元個數(shù)(size)和權(quán)值衰減參數(shù)(decay)[10,12],通過訓練后得到的最佳參數(shù)如表2所示。整體而言,神經(jīng)網(wǎng)絡(luò)算法效果較好,r2介于0.88~0.95之間。
表2 基于神經(jīng)網(wǎng)絡(luò)算法的模型調(diào)優(yōu)參數(shù)
三種算法的擬合度(r2)對比如表3所示。三種機器學習算法獲得的結(jié)果均明顯高于常規(guī)方法,效果最差的為硅質(zhì)礦物,r2為0.80~0.88,MARS算法計算的DEN的r2也不高(為0.85),其他參數(shù)的擬合度均高于0.90。比較而言,MARS算法的整體效果均略低于其他兩種算法,SVM算法獲得的DEN和TOC效果最佳,而SVM算法和NN算法獲得的黏土礦物、硅質(zhì)礦物、碳酸鹽礦物效果一致。這表明,整體而言SVM算法效果最佳,是首選的機器學習算法。
表3 三種算法的擬合度(r2)對比
將本文建立的參數(shù)計算模型在威遠、永川工區(qū)共28口井進行了應(yīng)用,下面以A 9井為例分析應(yīng)用效果。
A 9井是部署在川西南坳陷白馬鎮(zhèn)向斜的一口開發(fā)評價井,應(yīng)用基于支持向量機算法的相關(guān)模型,計算得到黏土礦物、碳酸鹽礦物、硅質(zhì)礦物、TOC和DEN參數(shù),將計算結(jié)果與特殊測井等同類參數(shù)進行對比,如圖3所示。標注SVM的圖道是本次研究建立的模型計算結(jié)果,未標注的是其他方法獲取的同類參數(shù),其中TOC來源于巖石熱解錄井,DEN來源于常規(guī)測井,黏土礦物、碳酸鹽礦物、硅質(zhì)礦物數(shù)據(jù)來源于斯倫貝謝Litho Scanner測井。
從圖3可以看出,大部分井段應(yīng)用SVM算法計算的DEN、TOC與其他方法獲得的結(jié)果趨勢基本一致,兩者整體相關(guān)性較好,r2均為0.85。部分井段計算值與實測值有一定誤差,如3 676.00~3 694.50 m井段DEN實測平均值2.503 g/cm3、計算平均值2.500 g/cm3,TOC實測平均值3.755%、計算平均值3.422%,計算值略小于實測值,但絕對值相差較小。在3 696.10 m等井深實測DEN、TOC曲線表現(xiàn)為小尖峰,但計算的DEN和TOC由于元素錄井采樣間隔較大,這一特征并不明顯。在巖石成分方面,計算的黏土礦物與實測黏土礦物差別不大,僅少部分井段有所差異,r2達到0.86。碳酸鹽礦物整體也基本一致,r2可達到0.83,個別井段有差別,如在3 668.50~3 670.50 m井段實測碳酸鹽礦物有所升高,但其計算值未體現(xiàn)這一特征。計算的硅質(zhì)礦物在上部井段整體要大于實測硅質(zhì)礦物,且該段計算的硅質(zhì)礦物值變化不大,較實測值有所差異,導(dǎo)致硅質(zhì)礦物的相關(guān)性要略低于前兩種礦物。在下部井段,即水平鉆井的目的層段,計算的硅質(zhì)礦物與實測吻合度有所提高,r2為0.81。
圖3 A 9井計算參數(shù)與實測對比圖
由于受到巖屑代表性的影響,以及不同的元素分析儀器導(dǎo)致測量精度存在一定的差異,基于機器學習算法建立的計算模型,在應(yīng)用過程中相關(guān)性有所降低,但r2也達到了0.81~0.86,應(yīng)用效果較好。
(1)通過分析主要機器學習算法的原理與適用場景,優(yōu)選并建立了基于支持向量機、多元自適應(yīng)回歸樣條、神經(jīng)網(wǎng)絡(luò)算法的參數(shù)計算模型,其中支持向量機算法效果更佳。
(2)應(yīng)用基于機器學習算法建立的模型,計算準確性較好,可解決頁巖氣井隨鉆評價參數(shù)匱缺的問題,為頁巖氣隨鉆分析與評價提供技術(shù)手段。
(3)機器學習算法在解決非線性、復(fù)雜模型的建模過程中具有明顯優(yōu)勢,但部分參數(shù)的計算精度還有提升空間,因而有必要進一步加強研究,挖掘更多錄井數(shù)據(jù)的價值,擴展到含氣量、孔隙度、巖石力學等其他參數(shù),更好地支撐頁巖氣的快速評價與壓裂測試選層。