秦瑞寶,葉建平,李 利,余 杰,黃 濤,李銘宇
(1.中海油研究總院有限責任公司勘探開發(fā)研究院,北京100028;2.中海石油(中國)有限公司勘探部,北京100016)
煤層氣開發(fā)利用的最主要價值是其環(huán)境效益[1-2]。中國的煤礦眾多,但煤礦瓦斯事故頻發(fā),而瓦斯的抽取不僅可以減少煤礦事故的發(fā)生,還可以防止資源浪費,降低瓦斯排放對大氣臭氧層的污染破壞。煤層氣與常規(guī)天然氣不同,其主要成分是甲烷,燃燒只生成水和二氧化碳,不產(chǎn)生灰渣、二氧化硫或其它重金屬有害物質(zhì),因此煤層氣是清潔能源。其次,我國煤層氣資源儲量豐富,是良好的天然氣后備資源[3-4],能緩解我國能源短缺的問題。煤層含氣量是評價煤儲層的關鍵參數(shù),如何準確評價煤層含氣量直接影響煤層氣勘探開發(fā),因此煤層含氣量是煤層氣勘探開發(fā)中研究的熱點與重難點[5-6]。
煤層氣為非常規(guī)油氣資源,其儲集與滲流機理與常規(guī)天然氣相比差異明顯[7],煤層含氣量受控于煤層儲層厚度、煤體結構分布、煤巖變質(zhì)程度、煤層儲層埋深及儲層溫度壓力等多類型因素[8-12]。目前用于測定或評價煤層含氣量的方法從數(shù)據(jù)來源分為實驗法和地球物理測井方法。實驗法中有通過井壁取心后對煤樣進行解吸校正后得到煤層樣品含氣量的方法,這一方法最為準確且直接,但煤層機械強度差、易碎,使得煤層取心完整率低進而導致對應實驗資料數(shù)量受限[13-14];另一種方法則是通過等溫吸附曲線等實驗公式法求取,這些方法都受制于實驗數(shù)據(jù),不適用于實驗數(shù)據(jù)缺乏的區(qū)塊。地球物理測井資料因具有性價比高,連續(xù)性強及可靠性高的特點被廣泛應用于煤層氣含量評價中。隨著對煤層含氣量評價精度要求的不斷提高,加之煤層問題的特殊性,機器學習方法被逐漸應用于煤層氣勘探開發(fā)中[15]。機器學習方法能挖掘數(shù)據(jù)間的非線性關系[16],尤其面對地球物理測井資料響應與煤層含氣量間的復雜關系,侯俊勝等[17]、孟召平等[5]將BP神經(jīng)網(wǎng)絡、支持向量機[18]等方法用于煤層含氣量預測,證明了這類方法在該領域的可行性;李澤辰等[19]建立了煤層含氣量的支持向量機、神經(jīng)網(wǎng)絡、隨機森林和梯度提升樹模型,重點介紹了訓練模型的過程,分析了4種模型的性能;郭建宏等[20]基于地球物理測井資料運用隨機森林方法預測了煤層氣含量,詳細介紹了超參數(shù)的選擇等問題,且該方法在實際區(qū)塊得到了驗證。以上方法主要集中在機器學習方法的研究上,但在實際應用中超參數(shù)如何選擇,實際井應用效果如何,樣品數(shù)據(jù)的多少對模型有何影響等沒有明確結論,很難在新區(qū)塊中得到推廣應用。
基于上述問題,結合前人的研究,將BP神經(jīng)網(wǎng)絡、支持向量機與隨機森林3種機器學習方法應用于沁水盆地柿莊南區(qū)塊煤層含氣量的評價預測。訓練集數(shù)據(jù)利用交叉驗證與網(wǎng)格尋優(yōu)方法確定各機器學習模型超參數(shù),對3種模型進行盲井檢驗,根據(jù)盲井檢驗結果對3種方法進行對比分析,以確定3種模型的優(yōu)劣及適用條件,并將模型運用于生產(chǎn)井中,與實際生產(chǎn)數(shù)據(jù)進行對比,以檢驗模型的實用性和可推廣性。
BP(Back Propagation)神經(jīng)網(wǎng)絡是一種函數(shù)信號前向傳播、誤差信號反向傳播的多層神經(jīng)網(wǎng)絡,是一種通過網(wǎng)絡自適應映射進行反向傳播的多層前饋網(wǎng)絡,可完成輸入至輸出的非線性運算。整個BP神經(jīng)網(wǎng)絡結構由輸入層、隱含層和輸出層構成,其中隱含層的結構相對復雜,為多層復合層,層與層之間僅相鄰的神經(jīng)元間可產(chǎn)生反饋連接。BP神經(jīng)網(wǎng)絡模型的本質(zhì)是基于求解目標結果最理想時對應的網(wǎng)絡權值并將其返回至輸入層進行計算,重復這一過程直至網(wǎng)絡誤差值減小至滿足要求后輸出結果。
理論上這一網(wǎng)絡可對任何復雜非線性關系進行逼近求解,信息由輸入層向輸出層方向傳遞,網(wǎng)絡權值與偏置值的修正與信息傳遞的方向相反。
BP神經(jīng)網(wǎng)絡模型通過輸出層逐層計算各神經(jīng)元的輸出誤差,并根據(jù)梯度下降的方式對權值與偏置值進行調(diào)整,在訓練中不斷調(diào)試、修改使得誤差降低至期望誤差內(nèi),該模式即是誤差反向傳播。
支持向量機(support vector machine,SVM)模型具有通用性、魯棒性、計算簡單等優(yōu)點,這一模型在解決小樣本、高維模式識別及非線性問題時優(yōu)勢明顯。以模式分類的二分類問題為例,其主要思想為:對于給定訓練樣本,采用核函數(shù)方法,讓支持向量機建立一個使正例和反例之間的隔離邊緣最大化的最優(yōu)超平面。
對于由輸入值x和相應輸出值y組成的訓練樣本,該樣本在低維空間中的線性回歸函數(shù)為:
y=wx+b
(1)
式中:w是權重向量;b是偏置量。該樣本在高維特征空間的回歸函數(shù)為:
f(x)=wφ(x)+b
(2)
(2)式中的非線性變換φ(x)為低維空間到高維空間的映射。
隨機森林模型是一種以決策樹為基礎的集成類模型,以單一決策樹對目標建立的模型進行組合得到新的模型。隨機森林模型預測的結果為各單棵決策樹結果的平均值。隨機森林模型中為防止模型出現(xiàn)過擬合或訓練不充分導致的精度過低問題,將套袋和隨機子空間思想引入至模型中。套袋思想指的是對原始n個樣本進行有放回n次抽取以生成訓練樣本,并基于每個訓練樣本生成回歸決策樹K。
套袋思想一則可以保證決策樹建立的多樣化與隨機化,二則還可以保證各決策樹間的相互獨立性。隨機子空間思想與套袋思想類似,即在構建單棵決策樹時,各分裂節(jié)點的特征數(shù)選取多為從總特征空間F中隨機抽取f個特征,并依照基尼指數(shù)作為指標選取最優(yōu)特征進行分支生長,這一思想可以保證不同樹節(jié)點與其節(jié)點間的特征子集的差異性,進而促進各決策樹的獨立性與多樣性。因而在隨機森林回歸中,決策樹K與特征數(shù)f對模型預測性能存在顯著影響。
柿莊南區(qū)塊位于沁水盆地東南部,構造帶對應東南部向西北傾的斜坡帶,西部發(fā)育NE向展布的寺頭斷層,該區(qū)塊經(jīng)歷印支期、燕山期和喜山期等多期構造運動[21]。柿莊南區(qū)塊自下而上發(fā)育奧陶統(tǒng)峰峰組(O2f),中石炭統(tǒng)本溪組(C2b),上石炭統(tǒng)太原組(C3t),下二疊統(tǒng)山西組(P1s)、下石盒子組(P1x),上二疊統(tǒng)上石盒子組(P2s)、石千峰組(P3sh)以及新生界新近系等地層。山西組3號煤層在區(qū)塊內(nèi)廣泛展布,煤層平均厚度5.95m,平均埋深816m,厚度較大且埋深適中,是本文主要研究的層位(圖1)[22]。
2.2.1 測井原始數(shù)據(jù)
本文用于評價煤層含氣量的井為22口參數(shù)井,它們在柿莊南區(qū)塊中分布較均勻。參數(shù)井測井曲線主要包括井徑、自然伽馬、自然電位、電阻率(深、淺側(cè)向)與三孔隙度(補償密度,聲波時差與補償中子)測井曲線,參數(shù)井共8條常規(guī)測井曲線,無特殊測井資料。
2.2.2 含氣量原始測試數(shù)據(jù)
以SZN-1井為例,展示其含氣量數(shù)據(jù)來源,該樣品含氣量測定遵照GB/T19559-2004《煤層氣含量測定方法》。SZN-1井中3號煤層共采集11個解吸樣(表1所示),各參數(shù)井在3號煤層采集樣品個數(shù)平均為8個,共收集到柿莊南區(qū)塊煤層含氣量實驗數(shù)據(jù)185組,總含氣量主要在5~25cm3/g,含氣量值的分布如圖2所示。由圖2可見,含氣量數(shù)據(jù)分布合理。
2.3.1 煤層含氣量評價步驟
1) 數(shù)據(jù)預處理。包括巖心數(shù)據(jù)深度歸位、測井數(shù)據(jù)標準化、擴徑校正、數(shù)據(jù)清洗等。
2) 針對樣本數(shù)據(jù),進行機器學習方法建模。為了保證模型的正確性與泛化性,將數(shù)據(jù)按照7:3的比例分開,對70%的數(shù)據(jù)進行模型訓練,為保證模型訓練的有效性,利用K折交叉驗證(K-Cross Validation)和網(wǎng)格尋優(yōu)進行超參數(shù)選擇及模型正確性驗證,具體操作是將參與訓練的數(shù)據(jù)分為k組子集,針對每組子集使其成為一次測試集,其它k-1組子集為訓練集,重復這一步驟可得到k個模型,利用這k個模型對k個測試集進行預測而得到結果誤差,計算誤差平均值得到k折交叉驗證結果,在交叉驗證的基礎上,通過網(wǎng)格尋優(yōu)的方式對超參數(shù)進行遍歷求解,找出最優(yōu)組合建立煤層含氣量評價模型。
3) 評價各方法在煤層含氣量預測中的效果。針對測試集進行分析,并利用完全未參與訓練和測試的新井檢驗模型的泛化性。
2.3.2 煤層測井響應特征分析
柿莊南區(qū)塊于2007年開始勘探開發(fā),地球物理測井曲線資料較少,僅有常規(guī)測井曲線資料,這也是該區(qū)塊煤層參數(shù)評價的制約因素之一。共收集到8條測井曲線,分析認為煤層含氣量的變化與地球物理測井資料響應存在密切關系[23-25],例如,煤層產(chǎn)氣能力隨著煤化作用的增強而增加,煤層氣密度較低使得隨著煤層含氣量的增加,補償密度減小,這也表明了利用地球物理測井資料建立含氣量評價模型的可行性,且地球物理測井資料相對實驗資料在數(shù)量上更加豐富,具有更好的推廣性。基于此,選取自然伽馬測井曲線、補償密度測井曲線、聲波時差測井曲線、補償中子測井曲線和深淺側(cè)向電阻率曲線為特征向量,建立煤層含氣量評價模型。
圖1 研究區(qū)區(qū)域位置及柱狀地層
表1 SZN-1井3號煤層含氣量測試結果
圖2 實驗含氣量數(shù)據(jù)分布
2.3.3 煤層含氣量評價模型的建立
2.3.3.1 BP神經(jīng)網(wǎng)絡模型
將樣本數(shù)據(jù)劃分為訓練集與測試集,利用BP神經(jīng)網(wǎng)絡結合訓練集數(shù)據(jù)建立含氣量評價模型,當隱含層個數(shù)為1,隱含層神經(jīng)元個數(shù)為7,學習率為0.1,迭代1000次時,傳遞誤差達到目標設置值,其對應權值分布如表2所示。
表2 BP神經(jīng)網(wǎng)絡權值及閾值
基于BP神經(jīng)網(wǎng)絡模型超參數(shù)建立訓練模型。圖3a為訓練集回判結果,其中平均絕對誤差為1.27cm3/g,平均相對誤差為11.6%,結合交會圖及零誤差線分析發(fā)現(xiàn)該模型訓練結果針對高值與低值預測效果不佳,存在一定有偏現(xiàn)象;圖3b為測試集預測結果,測試集預測結果平均絕對誤差為1.58cm3/g,平均相對誤差為15.6%。
2.3.3.2 支持向量機模型
利用支持向量機模型評價煤層含氣量時,需要確定核函數(shù)(Kernel Function)與懲罰因子(C),其中核函數(shù)包括:多項式內(nèi)積函數(shù)、高斯徑向基(RBF)核函數(shù)與Sigmoid核函數(shù)。結合前人經(jīng)驗[26-27],本文選用高斯徑向基(RBF)核函數(shù),該核函數(shù)應用準確率高且受控參數(shù)少,如(3)式所示。
(3)
式中:σ為核函數(shù)參數(shù);K(xi,x)為核函數(shù)。在建模過程中,需對核函數(shù)參數(shù)σ與懲罰因子C進行網(wǎng)格尋優(yōu),在給定的范圍內(nèi)根據(jù)每個組合參數(shù)預測誤差率的高低進行判斷,選擇最優(yōu)參數(shù)。為了初步確定核函數(shù)與懲罰因子的范圍,利用粒子群優(yōu)化(PSO)進行初尋使其快速收斂,后得到核函數(shù)與懲罰因子的適應范圍,結合交叉驗證與網(wǎng)格尋優(yōu)進行超參數(shù)計算,最終確定核函數(shù)σ為12.59,懲罰因子C為3.15。
圖3 BP神經(jīng)網(wǎng)絡模型評價煤層含氣量a BP神經(jīng)網(wǎng)絡模型訓練集回判結果; b BP神經(jīng)網(wǎng)絡模型測試集預測結果
基于支持向量機模型超參數(shù),建立訓練模型。圖4a 為訓練集回判結果,其中平均絕對誤差為0.78cm3/g,平均相對誤差為7.2%,結合交會圖及零誤差線分析發(fā)現(xiàn)該模型訓練結果無偏;圖4b為測試集預測結果,其平均絕對誤差為1.24cm3/g,平均相對誤差為12.2%。
圖4 支持向量機模型評價煤層含氣量a 支持向量機模型訓練集回判結果; b 支持向量機模型測試集預測結果
2.3.3.3 隨機森林模型
利用隨機森林模型評價煤層含氣量時,結合算法原理及李澤辰等[19]在小樣本數(shù)據(jù)下的研究結果,需要確定分裂特征數(shù)與決策樹的棵數(shù),選擇的測井曲線為6條,因而確定分裂特征數(shù)為1~5,將決策樹棵樹尋優(yōu)步長設置為50,從1棵模型樹尋至600棵。在網(wǎng)格尋優(yōu)的基礎上,再利用每棵決策樹未參與建模的袋外數(shù)據(jù)誤差進行評價,其計算公式為:
(4)
利用交叉驗證與網(wǎng)格尋優(yōu),確定分裂特征樹為3,模型樹棵數(shù)為500時,評價得分最高,如圖5a所示;對應袋外誤差曲線如圖5b所示。結合袋外誤差曲線圖,當特征分裂數(shù)為3時,模型樹棵數(shù)在500時袋外誤差已經(jīng)收斂且穩(wěn)定,證明了超參數(shù)的有效性。
基于隨機森林模型超參數(shù)建立訓練模型。圖6a為訓練集回判結果,其中平均絕對誤差為0.56cm3/g,平均相對誤差為5.2%,結合交會圖及零誤差線分析發(fā)現(xiàn)該模型訓練結果無偏;圖6b為測試集預測結果,其平均絕對誤差為1.44cm3/g,平均相對誤差為13.4%。
圖5 隨機森林模型建立過程a 隨機森林模型網(wǎng)格尋優(yōu)結果; b 隨機森林袋外誤差曲線
圖6 隨機森林模型評價煤層含氣量a 隨機森林模型訓練集回判結果; b 隨機森林模型測試集預測結果
2.3.4 盲井檢驗及有效性分析
利用機器學習方法結合柿莊南區(qū)塊數(shù)據(jù)資料中的訓練集建立了煤層含氣量評價模型,并用測試集對模型的正確性進行了檢驗,結合測試集誤差(表3)證明了模型的有效性。但由于測試集與訓練集數(shù)據(jù)可能為同井同層數(shù)據(jù),無法驗證模型的泛化性,因此在完成煤層含氣量評價模型的基礎上,通過引入同地質(zhì)構造背景下的新參數(shù)井作為驗證集進行泛化性檢驗,即用未參與模型建立的數(shù)據(jù)進行驗證,結果如圖7所示。共有20個巖心實驗樣本,其中支持向量機模型和隨機森林模型計算的含氣量與實驗室煤層解吸含氣量吻合度高,隨機森林模型在低含氣量預測中效果最好。同時展示了驗證集盲井SZN-013井的預測效果(圖8),并結合表3實際誤差數(shù)據(jù)進行分析。統(tǒng)計各類方法在不同數(shù)據(jù)集上的表現(xiàn)并進行評價,3種機器學習模型在訓練集與測試集中平均誤差均較低,但BP神經(jīng)網(wǎng)絡模型評價會將高值預測偏低,將低值預測偏高,對含氣量相對高值與低值預測效果差,對含氣量數(shù)據(jù)集中段具有較好的評價效果,這也導致BP神經(jīng)網(wǎng)絡模型泛化性差,在盲井驗證集上誤差最高且在SZN-013井含氣量預測中出現(xiàn)異?,F(xiàn)象,在擴徑段與夾矸段出現(xiàn)異常波動預測結果,這也表明了該方法抗干擾能力差,不適用于不均衡數(shù)據(jù)訓練。支持向量機模型與隨機森林模型整體表現(xiàn)效果好,但隨機森林模型在盲井驗證集上表現(xiàn)最好,各類誤差均為最低。誤差數(shù)據(jù)也表明了3種機器學習方法的有效性與泛化性,BP神經(jīng)網(wǎng)絡模型訓練難度大且對數(shù)據(jù)質(zhì)量要求高,只能有效預測數(shù)據(jù)分布集中段范圍的含氣量;支持向量機模型適用于小樣本數(shù)據(jù),且具有泛化性,但在含氣量低值區(qū)預測能力相對較弱;隨機森林模型由于采用重采樣模式建模,因此,能平衡數(shù)據(jù)分布不均的問題,在含氣量低值數(shù)據(jù)較少的情況下也能有效訓練模型,模型準確性高且具有泛化性。
表3 機器學習方法評價煤層含氣量誤差
圖7 驗證集煤層含氣量評價效果
圖8 驗證井SZN-013井煤層含氣量評價
煤層氣產(chǎn)量受地質(zhì)和工程等多種因素影響,含氣量是地質(zhì)因素中的一個因素,是產(chǎn)氣量高的基礎,含氣量的準確預測在一定程度上可以指導煤層氣開發(fā)。我們利用優(yōu)選評價模型對柿莊南區(qū)塊62口開發(fā)井進行煤層含氣量評價,得到各開發(fā)井含氣量曲線。為了呈現(xiàn)平面效果,計算3號煤層含氣量均值,對含氣量進行了平面繪制,繪制3號煤層含氣量等值線熱圖如圖9a所示;并根據(jù)開發(fā)井排采生產(chǎn)數(shù)據(jù),計算出對應62口開發(fā)井平均有效日產(chǎn)氣量,繪制等值線熱圖如圖9b所示。由圖9可見,除了個別區(qū)域存在含氣量預測誤差外(如研究區(qū)西南部),含氣量高值區(qū)基本對應平均有效日產(chǎn)氣量高值區(qū),整體分布趨勢相近,即可以通過評價煤層含氣量指示出開發(fā)有利區(qū)塊。將開發(fā)井3號煤層含氣量均值與3號煤層平均有效日產(chǎn)氣量進行交會分析(圖10),兩者皮爾遜(Pearson)指數(shù)達到0.76,擬合優(yōu)度為0.57,從數(shù)據(jù)上也表明了兩者相關性強,但從樣本點分布分析,煤層含氣量評價的準確性與排采制度及壓裂改造等施工因素制約著兩者的相關性,與實際生產(chǎn)情況相符,這也進一步驗證了開發(fā)井煤層含氣量評價的正確性。開發(fā)井應用效果表明了煤層含氣量對煤層氣勘探開發(fā)具有重要的指導作用,也進一步證實了機器學習方法在煤層含氣量評價中的可靠性與可推廣性。
圖9 柿莊南區(qū)塊3號煤層含氣量評價與排采生產(chǎn)數(shù)據(jù)分析a 3號煤層含氣量等值線; b 3號煤層平均有效日產(chǎn)氣量等值線
圖10 柿莊南區(qū)塊3號煤層含氣量評價與排采生產(chǎn)數(shù)據(jù)交會分析結果
1) 利用BP神經(jīng)網(wǎng)絡模型、支持向量機模型和隨機森林模型可以有效評價煤層含氣量,但是在實際應用中這3種模型的評價效果有所不同。其中BP神經(jīng)網(wǎng)絡模型受制于原理與實際數(shù)據(jù)質(zhì)量,評價效果差;支持向量機模型與隨機森林模型因適用于小樣本數(shù)據(jù),評價效果良好;隨機森林模型因重采樣抽取方式能平衡數(shù)據(jù)樣本分布不均的問題,使得這一模型在含氣量低值區(qū)的評價效果更為可靠。這為今后含氣量評價提供了方法選擇的依據(jù)。
2) 為了驗證模型的泛化能力,應用盲井對3種模型進行檢驗,3種方法平均相對誤差分別為17.6%、11.7%和10.4%,誤差數(shù)據(jù)表明3種機器學習方法評價煤層含氣量的有效性與泛化性存在差異。
3) 將最終形成的煤層氣評價方法直接應用于實際開發(fā)井含氣量預測,與實際生產(chǎn)數(shù)據(jù)對比符合率較高,說明優(yōu)選出的模型的適用性和可推廣性更強;對實際煤層氣勘探開發(fā)具有指導意義。