譚辰陽,張占松,周雪晴,郭建宏,肖 航,陳 濤,秦瑞寶,余 杰
(1.長(zhǎng)江大學(xué)地球物理與石油資源學(xué)院,湖北 武漢 430100;2.油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(長(zhǎng)江大學(xué)),湖北 武漢 430100;3.中海油研究總院,北京 100027)
煤層氣作為新型清潔資源[1-3],歷經(jīng)近30 年的勘探開發(fā),減少開發(fā)成本、提升開發(fā)產(chǎn)量、合理分配開發(fā)優(yōu)先順序等,已經(jīng)成為煤層氣當(dāng)前勘探開發(fā)領(lǐng)域的熱點(diǎn)之一。煤層氣產(chǎn)能模式的劃分研究是煤層氣的勘探開發(fā)不可或缺的一部分,不同井往往具有不同的排采規(guī)律。近年來我國學(xué)者對(duì)煤層氣的產(chǎn)能模式和排采類型提出了多種的分類方法和分類依據(jù),如:依據(jù)解吸壓力、廢棄壓力和產(chǎn)氣量提出“五段三壓”法的排采控制技術(shù)[4];結(jié)合穩(wěn)產(chǎn)時(shí)間,排采曲線形態(tài)上的差異提出的4 種產(chǎn)能模式,8 個(gè)亞類[5];根據(jù)煤層氣井的產(chǎn)水、產(chǎn)氣特征提出的煤層氣排采階段的六段劃分法[6];參照煤層氣的穩(wěn)產(chǎn)期產(chǎn)氣量以及排采曲線形態(tài)提出的5 種產(chǎn)能等級(jí)、3 種產(chǎn)能模式,7 個(gè)亞類[7];統(tǒng)計(jì)大量生產(chǎn)數(shù)據(jù)的基礎(chǔ)上由產(chǎn)氣量,峰值產(chǎn)氣量,排采曲線形態(tài)上確定了4 種產(chǎn)能模式,共8 種亞類[8];根據(jù)壓力下降幅度、下降速度及壓力曲線的變化形態(tài)特征將生產(chǎn)井分為了3 類[9]。
柿莊南區(qū)塊位于沁水盆地東南部,具有豐富的煤層氣資源[10],是勘探開發(fā)煤層氣的主戰(zhàn)場(chǎng)之一[11],但該區(qū)塊各井產(chǎn)氣量差異較大,而且低效井較多。目前,煤層氣產(chǎn)能預(yù)測(cè)的方法主要有:數(shù)值模擬[12]、BP 神經(jīng)網(wǎng)絡(luò)[13]、支持向量機(jī)[14-15]、多元回歸[16-17]、灰色系統(tǒng)[18-19]、隨機(jī)森林[20-21]等,這些方法在各自研究區(qū)塊取得了不錯(cuò)效果,但這些方法模型適用范圍、模型實(shí)際預(yù)測(cè)精度都有待探究和提高。例如,數(shù)值模擬的理論計(jì)算與實(shí)際結(jié)果相比,預(yù)測(cè)精度不高;BP 神經(jīng)網(wǎng)絡(luò)和數(shù)字模擬兩者模型的建立往往需要大量生產(chǎn)數(shù)據(jù)和儲(chǔ)層參數(shù)數(shù)據(jù),這大大制約了其使用范圍;支持向量機(jī)在解決二分類問題時(shí)效果較好,但在實(shí)際煤層氣產(chǎn)能預(yù)測(cè)過程中往往要解決的是多類問題,單一的線性關(guān)系遠(yuǎn)遠(yuǎn)不能滿足預(yù)測(cè)建模的需要,這對(duì)算法本身提出了更高的要求,所以改善支持向量機(jī)模型的泛化性和過度擬合是需要解決的問題;由于煤層氣儲(chǔ)層參數(shù)受地質(zhì)因素影響較大,并不能用簡(jiǎn)單的線性關(guān)系進(jìn)行多元回歸分析,因此回歸模型的精度無法保證,與實(shí)際不相符;利用灰色理論方法形成的灰色模型預(yù)測(cè)精度不高,且容易出現(xiàn)過擬合的現(xiàn)象。
基于前人研究的基礎(chǔ)上,結(jié)合柿莊南區(qū)塊120口生產(chǎn)井實(shí)際排采數(shù)據(jù),根據(jù)其4 個(gè)排采曲線特征值:平均日產(chǎn)氣量、峰值日產(chǎn)氣量、從見氣到峰值日產(chǎn)氣量所經(jīng)歷的時(shí)間、生產(chǎn)時(shí)間,與排采曲線形態(tài)相結(jié)合,將120 口開發(fā)井的產(chǎn)能特征分為3 類產(chǎn)能模式,并對(duì)其進(jìn)行深入地分析和解釋。不同于以往的產(chǎn)能劃分標(biāo)準(zhǔn),提出的類別劃分方法,主要目的在于為實(shí)際勘探開發(fā)過程中的開發(fā)優(yōu)先順序提供指導(dǎo),對(duì)實(shí)現(xiàn)產(chǎn)區(qū)煤層氣的勘探開發(fā)具有指導(dǎo)作用,盡可能地提升產(chǎn)區(qū)經(jīng)濟(jì)效益。在提出3 類產(chǎn)能模式后結(jié)合不同開發(fā)井在地球物理測(cè)井資料上表現(xiàn)出的不同響應(yīng)值,利用隨機(jī)森林算法,對(duì)地球物理測(cè)井資料與上述提出的產(chǎn)能模式進(jìn)行相關(guān)性分析,進(jìn)而建立了基于測(cè)井曲線的預(yù)測(cè)煤層氣產(chǎn)能模式的隨機(jī)森林分類模型。
根據(jù)排采曲線的特點(diǎn),基于沁水盆地柿莊南區(qū)塊的120 口開發(fā)井的排采數(shù)據(jù),選取了排采數(shù)據(jù)中的4 個(gè)變量:峰值日產(chǎn)氣量、平均日產(chǎn)氣量、見氣到峰值日產(chǎn)氣量的時(shí)間、生產(chǎn)時(shí)間。根據(jù)這4 個(gè)特征值可以充分表征出某口煤層氣生產(chǎn)井的排采特點(diǎn),結(jié)合排采曲線形態(tài)特征將這120 口井分為3 類產(chǎn)能模式,煤層氣井產(chǎn)能模式示意圖如圖1,不同產(chǎn)能模式對(duì)應(yīng)的排采特征值范圍見表1。
圖1 煤層氣井產(chǎn)能模式示意圖Fig.1 Schematic diagram of CBM well productivity model
表1 不同產(chǎn)能模式對(duì)應(yīng)的排采特征值范圍Table 1 Range of drainage characteristic values corresponding to different production capacity modes
模式Ⅰ的數(shù)量占參與研究的開發(fā)井?dāng)?shù)量的36.7%,該類井多為低產(chǎn)井,對(duì)應(yīng)的平均日產(chǎn)氣量普遍偏低或基本不產(chǎn)氣,其中86%的開發(fā)井日產(chǎn)氣量小于500 m3,峰值日產(chǎn)氣量普遍小于1 000 m3。生產(chǎn)時(shí)間在1 213~2 840 d。排采曲線連續(xù)性差,曲線幅度變化小,日產(chǎn)氣量峰值普遍小于900 m3。模式Ⅰ的開發(fā)井可分為2 類:Ⅰ-1 持續(xù)低產(chǎn),無穩(wěn)產(chǎn)階段,出現(xiàn)持續(xù)產(chǎn)氣波動(dòng);Ⅰ-2 持續(xù)低產(chǎn),穩(wěn)產(chǎn)時(shí)間很短,穩(wěn)產(chǎn)日產(chǎn)氣量也很低,整體產(chǎn)氣周期呈現(xiàn)緩慢上升再下降的趨勢(shì)。
選擇其中2 口具有代表性的井進(jìn)行分析,產(chǎn)能模式Ⅰ代表性井排采曲線圖如圖2。
圖2 產(chǎn)能模式Ⅰ代表性井排采曲線圖Fig.2 Representative well drainage curves diagram of productivity model I
由圖2(a)可知,A1 井平均日產(chǎn)氣量為427.58 m3。該井從見氣開始經(jīng)歷了持續(xù)1 100 d 左右的低產(chǎn)狀態(tài),期間平均日產(chǎn)氣量為142 m3,產(chǎn)量波動(dòng)不明顯。經(jīng)過持續(xù)低產(chǎn)階段后,該井產(chǎn)氣量逐漸上升,從排采曲線上看不見明顯峰值,穩(wěn)產(chǎn)時(shí)間較短,持續(xù)有600 d 左右,穩(wěn)產(chǎn)期間日產(chǎn)氣量穩(wěn)定在600~864 m3,但始終無法達(dá)到中高產(chǎn),并在600 多d 的穩(wěn)產(chǎn)后出現(xiàn)產(chǎn)氣量下降的趨勢(shì)。整體排采過程中出現(xiàn)了1次排采不連續(xù)的情況,出現(xiàn)在持續(xù)低產(chǎn)階段,打斷排采的時(shí)間較長(zhǎng),持續(xù)了175 d,導(dǎo)致產(chǎn)氣量直線下降,通過對(duì)實(shí)際排采資料核實(shí)發(fā)現(xiàn)機(jī)器故障發(fā)生斷電是打斷排采連續(xù)性的主要原因。由圖2(b)可知,A2 井整體平均日產(chǎn)氣量?jī)H有180.24 m3,該井經(jīng)歷了長(zhǎng)期不產(chǎn)氣只產(chǎn)水的階段,持續(xù)500 d 左右,并在500 d 以后進(jìn)入見氣階段,隨之產(chǎn)氣量快速上升到達(dá)峰值后,便開始迅速下降,經(jīng)過數(shù)次波動(dòng)后產(chǎn)氣量再次下降為0,產(chǎn)氣持續(xù)波動(dòng)持續(xù)2 年以上。該井的前期排水較為持續(xù),且在產(chǎn)氣波動(dòng)階段產(chǎn)氣峰值較低,峰值日產(chǎn)氣量有680 m3,穩(wěn)定低產(chǎn)階段持續(xù)最長(zhǎng)時(shí)間僅150 d 左右。所以該井整體含氣量較低,開采潛力弱。
模式Ⅱ的數(shù)量占參與研究的開發(fā)井?dāng)?shù)量的35%,多為中產(chǎn)井,部分中高產(chǎn)井,對(duì)應(yīng)的開發(fā)井主要排采特征:峰值日產(chǎn)氣量大于500 m3以上,平均日產(chǎn)氣量在500~2 755 m3,峰值日產(chǎn)氣量為1 440~6 350 m3,見氣到峰值產(chǎn)氣的時(shí)間為369~2 389 d,整體生產(chǎn)時(shí)間為1 576~2 718 d。模式Ⅱ的開發(fā)井排采曲線可分為2 類:低產(chǎn)-穩(wěn)產(chǎn)(Ⅱ-1)和低產(chǎn)-穩(wěn)產(chǎn)-低產(chǎn)(Ⅱ-2)。模式Ⅱ-1 對(duì)應(yīng)的開發(fā)井見氣后經(jīng)歷了較長(zhǎng)時(shí)間的低產(chǎn)階段,經(jīng)過持續(xù)低產(chǎn)階段迅速達(dá)到產(chǎn)氣峰值階段,并能保持較高日產(chǎn)氣量持續(xù)產(chǎn)出。模式Ⅱ-2 對(duì)應(yīng)的開發(fā)井見氣后經(jīng)過較長(zhǎng)時(shí)間的低產(chǎn)階段,但在低產(chǎn)階段整體呈現(xiàn)緩慢上升的趨勢(shì),隨后迅速到達(dá)穩(wěn)產(chǎn)階段并在穩(wěn)產(chǎn)時(shí)期出現(xiàn)產(chǎn)氣峰值,經(jīng)過一段時(shí)間的穩(wěn)定高效地產(chǎn)氣后,再次迅速回落到低產(chǎn)階段。模式Ⅱ的煤層氣井由于低產(chǎn)階段時(shí)間較長(zhǎng),導(dǎo)致其整體產(chǎn)氣量往往達(dá)不到高產(chǎn)井的標(biāo)準(zhǔn)。但其峰值日產(chǎn)氣量較為理想,均高于1 000 m3,且有71%的井高于2 000 m3。同時(shí)模式Ⅱ的開發(fā)井產(chǎn)氣下降階段出現(xiàn)的時(shí)間都比較晚,這樣是維持該模式下中產(chǎn)井出現(xiàn)的原因之一。
選擇2 口具有代表性的井進(jìn)行分析,產(chǎn)能模式Ⅱ代表性井排采曲線圖如圖3。
“哼哼嘰嘰”、“唱唱咧咧”這兩個(gè)詞中的“哼”和“唱”是可以單獨(dú)成詞的,而“嘰”和“咧”不可以。重疊后也是一樣,AA式“哼哼”和“唱唱”是可以獨(dú)立使用的,而BB式“嘰嘰”和“咧咧”一般不能單獨(dú)使用。但“嘰嘰”作為疊音詞時(shí)改變聲調(diào),音為“jìji”時(shí)變成動(dòng)詞是可以單獨(dú)成詞的,當(dāng)然,這種情況是比較少見的。
由圖3(a)可知,A3 井在見氣后經(jīng)歷了較長(zhǎng)時(shí)間的低產(chǎn)氣階段,持續(xù)有4 年左右的時(shí)間,整體低產(chǎn)階段具有緩慢上升的趨勢(shì)。隨后在短期內(nèi)(10 d)迅速達(dá)到產(chǎn)氣峰值,并進(jìn)入高效穩(wěn)產(chǎn)階段,該階段持續(xù)有700 多d。如圖3(b)可知,A4 井在見氣后同樣經(jīng)歷了持續(xù)低產(chǎn)階段,但該井的低產(chǎn)階段整體上升趨勢(shì)更為明顯,由低產(chǎn)到穩(wěn)產(chǎn)的曲線連續(xù)性更好,由低產(chǎn)到穩(wěn)產(chǎn)的過度時(shí)間更長(zhǎng),且具有明顯階梯趨勢(shì)。該井低產(chǎn)階段持續(xù)有2 年多時(shí)間,其中產(chǎn)量由低產(chǎn)到高效穩(wěn)產(chǎn)的上升階段經(jīng)歷了250 d 左右,呈階梯式上升。高效穩(wěn)產(chǎn)持續(xù)為500 多d,隨后產(chǎn)氣量波動(dòng)迅速回落到相對(duì)較低的900 m3,并持續(xù)了較長(zhǎng)時(shí)間。
圖3 產(chǎn)能模式Ⅱ代表性井排采曲線圖Fig.3 Representative well drainage curves diagram of productivity model Ⅱ
模式Ⅲ的數(shù)量占參與研究的開發(fā)井?dāng)?shù)量的28.3%,多為中高產(chǎn)井,部分井達(dá)到高產(chǎn)井的產(chǎn)氣水平,該模式下的生產(chǎn)井主要排采特征:峰值日產(chǎn)氣量為888~4 815 m3,平均日產(chǎn)氣量為397~1 358 m3,見氣到產(chǎn)氣峰值的時(shí)間為34~2 274 d,整體生產(chǎn)時(shí)間為2 169~3 022 d。該模式下的主要特點(diǎn)表現(xiàn)為穩(wěn)產(chǎn)時(shí)間長(zhǎng),持續(xù)有2 到4 年,其中有82%的井平均日產(chǎn)氣量大于500 m3。整體生產(chǎn)時(shí)間均超過2 000 d以上,該類型開發(fā)井排采曲線連續(xù)性都有明顯波動(dòng),見氣階段儲(chǔ)層氣解吸速度快,產(chǎn)氣量上升迅速,上述特點(diǎn)說明該模式下的開發(fā)井具有較高的開發(fā)潛力。產(chǎn)能模式Ⅲ代表性井排采曲線圖如圖4。
圖4 產(chǎn)能模式Ⅲ代表性井排采曲線圖Fig.4 Representative well drainage curves diagram of productivity model Ⅲ
由圖4(a)可知,A5井平均日產(chǎn)氣量為1 358.47 m3,峰值日產(chǎn)氣量為2 356 m3,從見氣到產(chǎn)氣峰值僅用了262 d 的時(shí)間。該井在產(chǎn)氣上升階段產(chǎn)量上升速度很快,上升至產(chǎn)氣峰值后持續(xù)穩(wěn)產(chǎn)時(shí)間很長(zhǎng),穩(wěn)產(chǎn)階段產(chǎn)氣量始終維持在1 000~2 000 m3,整體穩(wěn)產(chǎn)階段呈現(xiàn)小范圍的緩慢遞減趨勢(shì),并在穩(wěn)產(chǎn)階段出現(xiàn)多次產(chǎn)氣量上下波動(dòng),但波動(dòng)幅度不大。該井煤層氣含量較高,資源富集,所處的地質(zhì)條件和儲(chǔ)層條件都對(duì)煤層氣的高效產(chǎn)出十分有利,日產(chǎn)氣量始終保持在較高的水平。由圖4(b)可知,A6 井平均日產(chǎn)氣量為675.66 m3,峰值日產(chǎn)氣量為1 270 m3。見氣迅速,開采的第26 d 就開始產(chǎn)氣,產(chǎn)氣期間排采曲線波動(dòng)很小,一直持續(xù)產(chǎn)氣。從見氣后,到達(dá)產(chǎn)氣峰值之前,產(chǎn)氣持續(xù)且呈現(xiàn)緩慢上升的趨勢(shì),整體穩(wěn)產(chǎn)時(shí)間較長(zhǎng)(2~3 年),具有良好的產(chǎn)氣潛力。但在穩(wěn)產(chǎn)階段后產(chǎn)氣量迅速回落到500 m3左右,隨后產(chǎn)氣量逐漸遞減,穩(wěn)產(chǎn)階段后的產(chǎn)氣遞減階段持續(xù)時(shí)間長(zhǎng)達(dá)2~3 年,最終導(dǎo)致該井累計(jì)產(chǎn)氣不高,整體產(chǎn)量偏低,導(dǎo)致產(chǎn)氣迅速回落的原因可能是排采制度的改變或者是機(jī)器故障打斷了排采的連續(xù)性。整體來看,模式Ⅲ下的開發(fā)井,穩(wěn)產(chǎn)時(shí)間較長(zhǎng),峰值產(chǎn)氣較高,產(chǎn)氣下降時(shí)間較晚,生產(chǎn)時(shí)間較長(zhǎng),整體含氣量較高,具有較高開采潛力。
結(jié)合箱線圖分析3 種不同產(chǎn)能模式對(duì)應(yīng)3 號(hào)煤層段地球物理測(cè)井曲線響應(yīng)均值之間的關(guān)系,3 類產(chǎn)能模式對(duì)應(yīng)3 號(hào)煤層測(cè)井響應(yīng)值范圍如圖5。
圖5 3 類產(chǎn)能模式對(duì)應(yīng)3 號(hào)煤層測(cè)井響應(yīng)值范圍Fig.5 Three types of productivity models correspond to the logging response value range of No. 3 coal seam
煤是一種相對(duì)基質(zhì)密度較低的物質(zhì),在補(bǔ)償密度測(cè)井曲線上表現(xiàn)出較低值。甲烷氣體的密度相對(duì)煤的密度要小很多,所以煤層氣含量的增加會(huì)導(dǎo)致相應(yīng)煤的體積密度減小。故反映在測(cè)井補(bǔ)償密度曲線上時(shí),煤層氣含量的增加,補(bǔ)償密度曲線值減小。由圖5(a)可知,模式Ⅰ對(duì)應(yīng)的大多為低產(chǎn)井和無效井,其煤層含氣量較低;模式Ⅱ和模式Ⅲ對(duì)應(yīng)的多為中高產(chǎn)井,含氣量相對(duì)較高,3 類模式下的密度響應(yīng)值并未呈現(xiàn)出理論角度上的下降趨勢(shì)。根據(jù)實(shí)際參數(shù)井巖心資料響應(yīng)分析,產(chǎn)能模式Ⅰ中的開發(fā)井煤體結(jié)構(gòu)多可判別為碎粒結(jié)構(gòu),結(jié)合參數(shù)井取心結(jié)果證實(shí),碎粒結(jié)構(gòu)煤一定程度上受到泥漿和地層水侵入影響,導(dǎo)致其補(bǔ)償密度測(cè)井資料響應(yīng)值偏??;另一方面,產(chǎn)能模式Ⅱ和產(chǎn)能模式Ⅲ產(chǎn)氣較好,其煤體結(jié)構(gòu)多判別為原生結(jié)構(gòu)和碎裂結(jié)構(gòu),均為有利產(chǎn)氣煤,經(jīng)觀察煤樣取心照片,存在原生結(jié)構(gòu)和碎裂結(jié)構(gòu)的破碎程度差異性不明顯的煤樣,兩者孔裂隙空間均發(fā)育良好,且鏡質(zhì)組含量較高,利于實(shí)際開發(fā)中的壓裂作用,故產(chǎn)能模式Ⅱ和產(chǎn)能模式Ⅲ的密度測(cè)井值比較接近。綜合來看,3 類模式的密度測(cè)井影響因素眾多,呈現(xiàn)復(fù)雜的非線性關(guān)系,難以利用箱線圖這種一維方法進(jìn)行區(qū)分展示。
煤的自然放射性很低,表現(xiàn)出的放射性主要取決于黏土等,放射性物質(zhì)吸附在灰分上,吸附在灰分上的礦物質(zhì)會(huì)影響煤層對(duì)氣體的吸附能力,使得煤層有效孔隙度減少。故煤層隨著灰分的增加,自然伽馬值增大,煤層氣含量也隨之減少。結(jié)合圖5(b)可知,3 類產(chǎn)能模式隨著排采潛能的提高,自然伽馬測(cè)井曲線響應(yīng)值呈現(xiàn)下降趨勢(shì),3 類產(chǎn)能模式之間的下降趨勢(shì)十分明顯,尤其是模式Ⅰ對(duì)應(yīng)的低產(chǎn)井與模式Ⅱ、模式Ⅲ對(duì)應(yīng)的中高產(chǎn)井之間的下降趨勢(shì)。但在模式Ⅱ、模式Ⅲ之間存在小部分重合。
煤層的電阻率影響因素眾多,煤層氣含量越大,電阻率越高,所以深側(cè)向電阻率曲線響應(yīng)值較大時(shí),煤層中含氣量越大,深側(cè)向電阻率曲線響應(yīng)值也隨之增大,通過對(duì)比深側(cè)向電阻率曲線的差異,可以分析煤層氣含量的差異。由圖5(c)可以看出,3 類產(chǎn)能模式對(duì)應(yīng)的深側(cè)向電阻率曲線響應(yīng)值表現(xiàn)出的上升趨勢(shì)明顯,但模式Ⅱ、模式Ⅲ之間存在較多重疊部分。
綜上分析,3 類產(chǎn)能模式在不同地球物理測(cè)井資料上表現(xiàn)出的特征存在一定的差異性,但生產(chǎn)井的煤層氣實(shí)際排采過程中影響因素過于復(fù)雜。通過測(cè)井曲線箱線圖分析發(fā)現(xiàn)不同產(chǎn)氣模型測(cè)井響應(yīng)值重疊部分較多,導(dǎo)致這一現(xiàn)象的原因可能是實(shí)際測(cè)井資料受到擴(kuò)徑、煤體結(jié)構(gòu)的不同、泥質(zhì)夾矸段的存在等的影響。簡(jiǎn)單的線性方程無法表征測(cè)井資料與產(chǎn)能模式之間的關(guān)系,所以需要引入機(jī)器學(xué)習(xí)的方法探究不同產(chǎn)能模式與地球物理測(cè)井資料之間的復(fù)雜非線性關(guān)系。考慮到3 種產(chǎn)能模式井?dāng)?shù)量之間存在比例相對(duì)不均衡且整體數(shù)據(jù)量偏小的情況下,采用隨機(jī)森林的算法挖掘測(cè)井曲線與不同產(chǎn)能模式之間在高維空間的非線性關(guān)系。
隨機(jī)森林是一種基于集成學(xué)習(xí)的思想,借助Bagging 算法和隨機(jī)子空間技術(shù)的機(jī)器學(xué)習(xí)算法。Bagging 算法的訓(xùn)練過程是對(duì)訓(xùn)練集樣本進(jìn)行N(訓(xùn)練集樣本大?。┐坞S機(jī)有放回式的抽樣,形成1 個(gè)基分類器,重復(fù)n 次,得到n 個(gè)基分類器,即1 個(gè)基分類器集合。在Bagging 分類過程中,各基分類器同時(shí)參與測(cè)試集中的樣本分類過程,并對(duì)各基分類器的分類結(jié)果進(jìn)行統(tǒng)計(jì),同一樣本得到最多的分類器認(rèn)可的類別就是這一樣本的最終類別。隨機(jī)子空間技術(shù)是一種分類算法,與Bagging 算法的不同在于是對(duì)訓(xùn)練集的特征數(shù)據(jù)中進(jìn)行無放回式的隨機(jī)抽取部分特征形成新的特征子集。
隨機(jī)森林通過自助法(bootstrap)重采樣技術(shù),從原始的訓(xùn)練集中隨機(jī)并有放回地抽取n 個(gè)樣本,從而形成1 個(gè)新的訓(xùn)練子集,在新的訓(xùn)練子集M 個(gè)特征中隨機(jī)抽取m(m<M)個(gè)特征,從m 個(gè)特征中優(yōu)選最佳的特征作為決策樹分裂的依據(jù),重復(fù)進(jìn)行直到獲取N 棵決策樹,這些樹的集合就是最終的訓(xùn)練模型。隨機(jī)森林將每個(gè)決策樹聯(lián)合在一起,建模得到的每棵樹都依賴于每次獨(dú)立抽取的樣本,預(yù)測(cè)分類的誤差取決于每棵決策樹的分類能力和每棵樹之間的相關(guān)性。
大量研究表明[22-24],隨機(jī)森林的特點(diǎn)主要集中在以下幾點(diǎn):自助法重采樣使得高維特征數(shù)據(jù)更容易被處理;二維采樣的方式使得數(shù)據(jù)得到平衡處理并獲得較高精度的計(jì)算結(jié)果;對(duì)訓(xùn)練集規(guī)模較大、特征較多的數(shù)據(jù)進(jìn)行快速訓(xùn)練,并形成高精度的分類器;可以有效地避免對(duì)訓(xùn)練集或者測(cè)試集中某個(gè)特征的遺失現(xiàn)象;決策樹的形成過程中,內(nèi)在的誤差評(píng)估和相關(guān)性對(duì)比可以在總體上提升算法的精度。
交叉驗(yàn)證是機(jī)器學(xué)習(xí)建模過程中模型精確度評(píng)估的處理手段,其中K-fold 叉驗(yàn)證[25-26]是較為常見的模型評(píng)估的方法。K-fold 交叉驗(yàn)證可以大大降低預(yù)測(cè)結(jié)果的偶然性,提高模型的泛化性,主要步驟:將原始訓(xùn)練集數(shù)據(jù)隨機(jī)分為K 組,分別將每個(gè)訓(xùn)練子集做1 次驗(yàn)證集,剩余的K-1 組子集作為新的訓(xùn)練集,用新的訓(xùn)練集建立模型測(cè)試驗(yàn)證集,重復(fù)得到K 個(gè)模型,計(jì)算每次測(cè)試的錯(cuò)誤率,取K 次誤差率的平均值作為K-fold 交叉驗(yàn)證最終誤差結(jié)果。
由隨機(jī)森林的原理可知,樹的數(shù)量(ntree)和節(jié)點(diǎn)分裂特征的個(gè)數(shù)(mtry)對(duì)隨機(jī)森林模型的效果具有決定性作用。對(duì)于超參數(shù)的選擇,理論上來說,隨機(jī)森林樹的棵樹越多,模型效果越好,但是達(dá)到一定棵樹后,模型效果提升空間很小,而大量棵樹會(huì)帶來計(jì)算的負(fù)擔(dān),所以樹的棵數(shù)選擇在一個(gè)稍微大的范圍內(nèi)即可。網(wǎng)格搜索就是尋找最優(yōu)模型對(duì)應(yīng)的參數(shù)組合,可以有效地避免模型過擬合或者欠擬合造成的誤差值。ntree 和mtry 分別在一定范圍內(nèi)隨機(jī)取值,對(duì)應(yīng)的參數(shù)組合訓(xùn)練出不同的隨機(jī)森林分類模型,再根據(jù)K-fold 交叉驗(yàn)證法對(duì)每組ntree 和mtry對(duì)應(yīng)的分類模型學(xué)習(xí)精度進(jìn)行評(píng)估,進(jìn)而對(duì)比每組分類模型學(xué)習(xí)精度優(yōu)選出最佳的參數(shù)組合方式。Kfold 交叉驗(yàn)證與網(wǎng)格搜索相結(jié)合的方式,可以有效提高確定參數(shù)的效率及參數(shù)的優(yōu)度,大大提高分類模型的可靠性,降低隨機(jī)選取訓(xùn)練集對(duì)模型準(zhǔn)確率的影響。隨機(jī)森林分類算法和網(wǎng)格搜索均在python語言平臺(tái)中實(shí)現(xiàn),產(chǎn)能模式分類流程圖如圖6。
圖6 產(chǎn)能模式分類流程圖Fig.6 Production capacity model classification flowchart
結(jié)合柿莊南區(qū)塊120 口開發(fā)井的實(shí)際測(cè)井曲線,選取補(bǔ)償密度、自然伽馬、深側(cè)向曲線、自然電位這4 條測(cè)井曲線在對(duì)應(yīng)每口生產(chǎn)井3 號(hào)煤層的響應(yīng)均值作為特征向量,利用隨機(jī)森林算法建立產(chǎn)能模式劃分模型。利用網(wǎng)格搜索法對(duì)隨機(jī)森林算法模型進(jìn)行參數(shù)優(yōu)選,優(yōu)選mtry 參數(shù)的范圍為(1、2、3、4),優(yōu)選ntree 參數(shù)的范圍為(100、200、300、400、500)。mtry 和ntree 兩兩組合,形成20 種參數(shù)組合方式??紤]到Ⅰ類產(chǎn)能模式有44 口井,Ⅱ類產(chǎn)能模式有42 口井,Ⅲ類產(chǎn)能模式有34 口。將這些井分成訓(xùn)練集樣本和測(cè)試集樣本,其中96 口井?dāng)?shù)據(jù)為訓(xùn)練集,24 口井?dāng)?shù)據(jù)為測(cè)試集,測(cè)試集數(shù)據(jù)不參與實(shí)際建模過程,僅用于評(píng)價(jià)模型精度。所以選擇3 折交叉驗(yàn)證,對(duì)隨機(jī)情況下的96 組訓(xùn)練集進(jìn)行評(píng)估,最終優(yōu)選出mtry、ntree 分別取1 和300 ,對(duì)應(yīng)的交叉驗(yàn)證結(jié)果為85.4%,此時(shí)訓(xùn)練集建立的模型相對(duì)于其他參數(shù)組合最具有泛化性和有效性。利用優(yōu)選的mtry 和ntree 參數(shù)并結(jié)合96 組訓(xùn)練集對(duì)測(cè)試集進(jìn)行產(chǎn)能模式預(yù)測(cè)分析,最終結(jié)果正確率為91.7%,隨機(jī)森林產(chǎn)能模式分類結(jié)果與實(shí)際模式的混淆矩陣見表2,測(cè)試集中預(yù)測(cè)正確代表井展示圖如圖7,測(cè)試集中預(yù)測(cè)錯(cuò)誤代表井展示圖如圖8。
表2 隨機(jī)森林產(chǎn)能模式分類結(jié)果與實(shí)際模式的混淆矩陣Table 2 Confusion matrix between the classification results of random forest productivity model and the actual model
圖7 測(cè)試集中預(yù)測(cè)正確代表井展示圖Fig.7 Display diagram of the representative well predicted correctly in the test set
圖8 測(cè)試集中預(yù)測(cè)錯(cuò)誤代表井展示圖Fig.8 Display diagram of representative wells with prediction errors in the test set
結(jié)果顯示,隨機(jī)森林模型對(duì)產(chǎn)能模式Ⅰ、模式Ⅱ判別精度很高,有2 組模式Ⅲ的井被錯(cuò)誤的預(yù)測(cè)為模式Ⅱ,造成誤差的原因:實(shí)際生產(chǎn)過程中,排采受到各種地質(zhì)因素及生產(chǎn)工藝的影響,生產(chǎn)制度的改變、停井檢修、卡泵等都會(huì)對(duì)實(shí)際排采曲線的形態(tài),排采特征值造成改變;由區(qū)塊現(xiàn)有數(shù)據(jù)發(fā)現(xiàn),在3 號(hào)煤層段中普遍存在泥質(zhì)夾矸,夾矸段的巖性和煤層的巖性存在較大差異,導(dǎo)致實(shí)際測(cè)井曲線響應(yīng)發(fā)生改變和失真。例如自然伽馬曲線響應(yīng)和補(bǔ)償密度曲線響應(yīng)在夾矸段發(fā)生異常偏高情況,深側(cè)向電阻率曲線響應(yīng)發(fā)生異常偏低情況;模式Ⅱ和模式Ⅲ多為中高產(chǎn)井,由前文測(cè)井曲線箱線圖也可以看到,雖然3 類產(chǎn)能模式在自然伽馬、深側(cè)向曲線、自然電位相關(guān)性趨勢(shì)較為明顯,但模式Ⅱ和模式Ⅲ之間存在不同程度的重疊部分,這也可能是測(cè)試集中2 口模式Ⅲ的井預(yù)測(cè)錯(cuò)誤的原因之一。
1)柿莊南3 號(hào)煤層產(chǎn)氣排采曲線可分為3 類產(chǎn)能模式,將3 類產(chǎn)能模式結(jié)合測(cè)井曲線響應(yīng)值進(jìn)行分析,探究補(bǔ)償密度、自然伽馬、深側(cè)向曲線、自然電位與產(chǎn)能模式類別之間的非線性關(guān)系。
2)柿莊南區(qū)塊劃分的3 類產(chǎn)能模式都具有一定的表征性,對(duì)其他區(qū)塊煤層氣井的排采產(chǎn)能歸納總結(jié)具有一定的借鑒意義,有助于本區(qū)塊煤層氣后續(xù)勘探開發(fā)過程中提出指導(dǎo)意義。
3)柿莊南區(qū)塊的3 種產(chǎn)能模式分別對(duì)應(yīng)3 種不同的產(chǎn)氣潛力,通過對(duì)產(chǎn)能模式的預(yù)測(cè)實(shí)現(xiàn)生產(chǎn)開發(fā)過程中效益最大化,減少低產(chǎn)井、無效井的干擾,對(duì)區(qū)塊內(nèi)精細(xì)化生產(chǎn)開發(fā)提出了指導(dǎo)性意見。