孟雅蕾 賀姍 關(guān)曉琳
摘要:氣井產(chǎn)量評價預(yù)測對氣田高效開發(fā)具有重要意義。由于不同氣井儲層物性及生產(chǎn)特征存在較大差異,因此開發(fā)策略急需改善。針對這一問題,文章提出了一種基于機器學(xué)習(xí)的氣井產(chǎn)量預(yù)測方法。首先,通過對特征參數(shù)進行皮爾遜相關(guān)分析,篩選出用于氣井產(chǎn)量預(yù)測的12種儲層特征。然后,采用改進的ID3算法建立基學(xué)習(xí)器,并采用隨機森林算法對基學(xué)習(xí)器進行優(yōu)化組合。其次,利用訓(xùn)練集數(shù)據(jù)完成模型訓(xùn)練并調(diào)整參數(shù)。最后,對相關(guān)區(qū)塊的儲層進行氣井產(chǎn)量預(yù)測。研究結(jié)果表明,文章提出的氣井產(chǎn)量預(yù)測方法預(yù)測結(jié)果良好,準(zhǔn)確率為95.3%。該預(yù)測方法提高了氣井產(chǎn)量預(yù)測的實效性,降低了人為判斷的主觀性,對氣田產(chǎn)量預(yù)測和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
關(guān)鍵詞:氣井產(chǎn)量;儲層特征;隨機森林;決策樹;ID3
中圖分類號:TP391? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)09-0119-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
全球非常規(guī)油氣資源量占油氣總儲量的 80%,非常規(guī)天然氣資源的勘探、開發(fā)、投產(chǎn)在我國能源安全中發(fā)揮著重要作用[1-2]。中國非常規(guī)天然氣資源儲量大,但儲層物性差、單井產(chǎn)量低,且天然氣儲層非均質(zhì)性強,同一區(qū)域內(nèi)氣井生產(chǎn)特征和生產(chǎn)效果參差不齊[3-4]。因此,對氣井進行合理、精準(zhǔn)、高效的分類預(yù)測,有利于制訂合理開發(fā)措施,降低勘探開發(fā)成本,提高氣田收益。
本文通過特征參數(shù)的皮爾遜相關(guān)分析,篩選出用于氣井產(chǎn)量預(yù)測的12種儲層特征;然后,采用改進的ID3算法建立基學(xué)習(xí)器,并采用隨機森林算法對基學(xué)習(xí)器進行組合;其次,采用訓(xùn)練集數(shù)據(jù)完成模型訓(xùn)練并調(diào)整參數(shù);最后,對相關(guān)區(qū)塊進行氣井產(chǎn)量預(yù)測。
研究結(jié)果表明,本文提出的氣井產(chǎn)量預(yù)測方法預(yù)測結(jié)果良好,準(zhǔn)確率為95.3%。該研究提高了氣井產(chǎn)量預(yù)測的實效性,降低了人為判斷的主觀性,對氣田產(chǎn)量預(yù)測和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
1 儲層相關(guān)因素分析
1.1 儲層特征
儲層的特征包括了儲層的物性、巖性、含油性、含氣性等方面的特征,這也是儲層預(yù)測的主要方向。儲層巖性是描述儲層礦物質(zhì)組成成分的主要特征,反映了巖層的儲藏性能和儲層特征,常用參數(shù)包括儲層巖石物理結(jié)構(gòu)、分布范圍、儲層厚度等。儲層物性是描述儲層的物理性質(zhì),廣義上包括了儲集層巖石的骨架性質(zhì)、孔隙性、滲透性、含流體性、熱學(xué)性質(zhì)、導(dǎo)電性、聲學(xué)性質(zhì)、放射性及各種敏感性等;狹義的一般指儲層巖石的孔隙率和滲透率,既物性參數(shù)性質(zhì)、物性空間展布等。
儲層含油氣性主要指儲層內(nèi)的流體性質(zhì)、流體類型等特性。對儲層含油氣性評價,可以利用測井等資料對地找出滲透層,然后對含油性進行評價預(yù)測,識別儲層的油層、氣層、水層、干層等不同層位,就可以對油氣富集區(qū)域即進行預(yù)測,為油氣鉆探指明位置,為開采方案的制定提供參考依據(jù)[5-7]。
1.2 影響因素
本文將氣井產(chǎn)量影響因素分為地質(zhì)、工程、排液因素幾個方面[8-9]:
1) 地質(zhì)因素是儲層的固有特征,包含有效厚度、電阻率、密度、泥質(zhì)含量、泊松比、孔隙度、含氣飽和度、基質(zhì)滲透率、射孔厚度等。
2) 工程因素指與氣井開采過程相關(guān)的各項參數(shù),包含稠化酸、降阻酸、頂替液、含砂濃度、破裂壓力、停泵壓力、垂向壓力、砂比等。
3) 排液因素可以提升返排效能,達到穩(wěn)定高效地排液。與排液相關(guān)的參數(shù)有關(guān)井油壓、關(guān)井套壓、累計排液量等。
1.3 數(shù)據(jù)處理
原始數(shù)據(jù)的數(shù)據(jù)量大且復(fù)雜程度高、數(shù)據(jù)缺失多,存在一定的異常值。可以進行儲層評價的數(shù)據(jù)類型為連續(xù)型,且評價因素要進行相關(guān)性分析。因此,在評價之前,需要對大量的儲層原始數(shù)據(jù)進行預(yù)處理。
1) 缺失值處理。對原始數(shù)據(jù)進行分析,數(shù)據(jù)缺失高達23.4%,因此采用多重插補法對缺失值進行插補:基于除缺失值外的變量建立線性模型,以此預(yù)測要填補的數(shù)據(jù)[10]。對插補后的數(shù)據(jù)進行分析,未出現(xiàn)明顯異常值,因此多重插補結(jié)果可信度較高,不影響后續(xù)氣井產(chǎn)量預(yù)測。
2) 異常值處理及相關(guān)性分析。對于簡單的異常數(shù)據(jù)(如數(shù)量級差距較大)易于分辨,而對于不明顯的異常,人工篩選效果較差。本文選用箱型法,可迅速判斷單個因素中的異常值,但對于多個因素相關(guān)性較強的情況而言,箱型法得出結(jié)論較片面[11]。在進行異常值判斷時,需找到不同因素彼此之間的關(guān)聯(lián)。對在異常值處理后,采用皮爾遜相關(guān)系數(shù)法對連續(xù)數(shù)據(jù)進行分析[12-13]。
1.4 特征篩選
本文用皮爾遜相關(guān)系數(shù)篩選出用于產(chǎn)量預(yù)測的12種儲層特征。皮爾遜相關(guān)系數(shù)r檢驗兩個變量之間的相關(guān)程度,其中r的取值[-1,1]。假設(shè)兩個儲層特征含氣飽和度和泥質(zhì)含量分別用X和Y表示,Xi、Yi是隨機的樣本值,[X]和[Y]隨機樣本的平均值,則隨機變量X和Y的皮爾遜相關(guān)系數(shù)r的計算公式如式(1) 所示[14-15]:
[r=i=1n(Xi-X)(Yi-Y)i=1n(Xi-X)2i=1n(Yi-Y)2]? ? (1)
優(yōu)質(zhì)儲層是一個相對的概念,并沒有絕對評價指標(biāo),在不同的氣田和不同的儲層中,評價指標(biāo)也是完全不同的。本文通過研究鄂爾多斯某區(qū)塊目的層12口井、58個顯示層的試氣數(shù)據(jù),根據(jù)皮爾遜相關(guān)系數(shù),篩選出的12個儲層特征因素相關(guān)性較小,但對該儲層具有較大影響的特征指標(biāo),這些儲層特征指標(biāo)的皮爾遜相關(guān)系數(shù)如表1所示。
2 氣井產(chǎn)量預(yù)測算法
我國天然氣資源豐富,市場需求發(fā)展旺盛,創(chuàng)新勘探開發(fā)技術(shù),實現(xiàn)氣井產(chǎn)量的智能化預(yù)測對增加氣田產(chǎn)能、降低開發(fā)成本和促進氣井管理精細化發(fā)展具有重要意義。近年來,國內(nèi)外專家學(xué)者產(chǎn)出了大量氣井產(chǎn)能預(yù)測的方法。但是由于儲層因素復(fù)雜,每個氣田產(chǎn)量的主控因素都有較大差別,且很多參數(shù)是無法量化的,無法直接加入機器學(xué)習(xí)的預(yù)測模型中。氣井產(chǎn)量作為一個預(yù)測目標(biāo)是一個有監(jiān)督學(xué)習(xí)問題。在氣井產(chǎn)量預(yù)測中,本文選擇使用ID3決策樹和隨機森林這兩種機器學(xué)習(xí)器來進行訓(xùn)練和預(yù)測。
2.1 ID3決策樹
傳統(tǒng)的ID3算法存在傾向選擇取值較多的屬性,因此本文使用改進的ID3算法。首先,基于均衡系數(shù)對ID3算法得到的信息增益進行優(yōu)化;當(dāng)某個條件屬性的取值個數(shù)非常接近總數(shù)時會導(dǎo)致增益率修正補償過度,引入屬性偏向閾Q避免屬性偏向問題;引入均衡系數(shù)的概念,平衡多值偏向?qū)π畔⒃鲆娴挠绊懞托畔⒃鲆嫘拚a償過度;每一次搜索都使用全部數(shù)據(jù)訓(xùn)練樣本,在一定程度上降低了個別噪聲數(shù)據(jù)對構(gòu)建決策樹的影響,改進的ID3算法如下:
[I=-i=1znpjlog2(pj)]? ? ? ? ? ?(2)
[EBj=j=1mpBjIBj=-j=1mZ1j+…+ZmjZi=1npijlog2(pij)]? ? (3)
[GBj=I-E(Bj)]? ? ? ? (4)
其中,[E(Bj)是條件熵]、[GBj]是信息增益[,I]為信息熵,[pij]是指訓(xùn)練集[Zi]中第j類樣本的概率,[ pj]是指訓(xùn)練集[Z]中的任意樣本數(shù)據(jù)元組屬于第j類的概率,[pj=ZjZ]。
[ G'Bj=fm1GBj]? ? ? ? ? (5)
其中,[G'Bj]是對屬性[Bj]的信息增益[GBj]進行修正得到修正信息增益,f(m1)為修正參數(shù),其中m1表示各決策屬性的取值個數(shù),[f(m1)=1m1]。
[Q=1m1j=1mE(Bj)]? ? ? ? ?(6)
屬性偏向閾Q通常取值為所有條件熵[E(Bj)]的平均值,m1表示條件屬性的個數(shù)。
[TBj=1m1GBj×1m1E(Bj)1m1GBj+1m1E(Bj)]? ? ? (7)
[GBjnew=GBj×TBj]? ?(8)
均衡系數(shù)[TBj]由修正信息增益[G'Bj]和屬性偏向閾Q得到;優(yōu)化信息增益[GBjnew]利用均衡系數(shù)[TBj]對信息增益[GBj]進行優(yōu)化。
重復(fù)公式(2) -公式(8) ,使用改進的ID3算法,利用優(yōu)選好的儲層特征因素建立基學(xué)習(xí)器。
2.2 隨機森林算法
集成學(xué)習(xí)屬于機器學(xué)習(xí)中的一種思想,通過結(jié)合多個弱學(xué)習(xí)器進行聯(lián)合預(yù)測形成精度更高的模型。隨機森林是一種集成學(xué)習(xí)算法,隨機森林以決策樹為基本單元,通過集成大量的決策樹構(gòu)成了隨機森林。由多個決策樹共同組成的隨機森林模型可以提高最終預(yù)測值的準(zhǔn)確率和健壯性[16-17]。
隨機森林算法中的決策樹能夠?qū)δP瓦M行可視化展示,對結(jié)果的控制因素級數(shù)由決策樹的最上層往下層依次減弱[18]。當(dāng)隨機森林模型用于預(yù)測問題時,輸出為所有決策樹輸出值的平均值:
[Q(X)=1Mi=1Mwihij(x)]? ? ?(9)
其中[hi(x)]為每一個子決策樹的輸出,[wi]為子決策樹的權(quán)重,[hij(x)]為[hi(x)]在基學(xué)習(xí)器上的輸出。在使用隨機森林進行基學(xué)習(xí)器組合時,首先在每個訓(xùn)練集上采用隨機森林分類算法獨立地訓(xùn)練出M個預(yù)測結(jié)果,最終采用投票的方式,投票多的決策樹最終進行決策。
[Q(X)=argmaxi=1Mwihi(x)]? ? (10)
3 實驗與分析
本文選取鄂爾多斯某區(qū)塊的12口單井的相關(guān)數(shù)據(jù)作為訓(xùn)練集Y,將數(shù)據(jù)集按照8:2的比例分為訓(xùn)練集和測試集,訓(xùn)練集用于構(gòu)建機器學(xué)習(xí)模型,測試集用于模型預(yù)測和參數(shù)調(diào)整[19-20]。實驗中對隨機森林模型進行調(diào)參,調(diào)參結(jié)果如表2所示:
實驗的運行環(huán)境為Intel Core-i7,內(nèi)存16GB的PC機,操作系統(tǒng)是Windows10,編程語言是Python, 每個實驗獨立運行10次,使用訓(xùn)練后的模型對20%的預(yù)測集進行預(yù)測,預(yù)測值與實際值的對比如圖1所示。
從預(yù)測值和實際值的對比可知,用隨機森林算法構(gòu)建的機器學(xué)習(xí)模型在對測試數(shù)據(jù)做預(yù)測時,預(yù)測值與實際值出現(xiàn)偏差情況較少,預(yù)測值曲線變化趨勢與實際值曲線幾近重合,擬合效果良好,預(yù)測準(zhǔn)確率分別達到了95.3%,本文提出的基于機器學(xué)習(xí)的氣井預(yù)測方法的準(zhǔn)確率和穩(wěn)定性較高。
4 總結(jié)
隨著鄂爾多斯盆地勘探的不斷深入,多變的地質(zhì)條件、日趨復(fù)雜的儲層物性及油水關(guān)系,使得勘探開發(fā)工作變得更富有挑戰(zhàn)和難度。本文提出的基于機器學(xué)習(xí)的氣井產(chǎn)量預(yù)測方法預(yù)測結(jié)果良好,準(zhǔn)確率高、穩(wěn)定性高。該項研究可以提高氣井產(chǎn)量預(yù)測的實效性,降低人為判斷的主觀性,本研究具有良好的推廣應(yīng)用前景,對氣田產(chǎn)量預(yù)測和開發(fā)策略的制訂具有一定的指導(dǎo)意義。
參考文獻:
[1] 劉豪.二氧化碳壓裂地面射流混砂裝置設(shè)計及其性能研究[D].西安:西安石油大學(xué),2021.
[2] 付金華,牛小兵,李明瑞,等.鄂爾多斯盆地延長組7段3亞段頁巖油風(fēng)險勘探突破與意義[J].石油學(xué)報,2022,43(6):760-769,787.
[3] 劉長春,楊永興,方鐵園,等.鄂爾多斯盆地頁巖油優(yōu)質(zhì)儲層評價方法[J].錄井工程,2023,34(3):49-54,62.
[4] 柳潔,田冷,劉士鑫,等.基于復(fù)合機器算法的致密氣井產(chǎn)能預(yù)測模型:以鄂爾多斯盆地SM區(qū)塊為例[J].大慶石油地質(zhì)與開發(fā). 2023(8):10-18.
[5] WANG H Y.What factors control shale-gas production and production-decline trend in fractured systems:a comprehensive analysis and investigation[J].SPE Journal,2017,22(2):562-581.
[6] JOSHI K G,AWOLEKE O O,MOHABBAT A.Uncertainty quantification of gas production in the barnett shale using time series analysis[C]//Day 5 Thu,April 26,2018.April 22-26,2018.Garden Grove,California,USA.SPE,2018.
[7] LOLON E,HAMIDIEH K,WEIJERS L,et al.SPE Hydraulic Fracturing Technology Conference - Evaluating the Relationship Between Well Parameters and Production Using Multivariate[C].Spe Hydraulic Fracturing Technology Conference,2016.
[8] 聶云麗,高國忠.基于隨機森林的頁巖氣 “甜點” 分類方法[J].油氣藏評價與開發(fā),2023,13(3):358-367.
[9] 劉佳慧.基于數(shù)據(jù)驅(qū)動的多聯(lián)機系統(tǒng)用能評估與診斷[D].武漢:華中科技大學(xué),2019.
[10] 張文浩,苗苗青,姜鯤鵬,等.中國油氣資源勘探開發(fā)特點、趨勢及生態(tài)管理[J].地質(zhì)與資源,2019,28(5):454-459.
[11] 張凱兵,馬東佟,孟雅蕾.基于雙源自適應(yīng)知識蒸餾的輕量化圖像分類方法[J].西安工程大學(xué)學(xué)報,2023,37(4):82-91.
[12] 路兆陽.基于大數(shù)據(jù)分析的致密氣藏氣井產(chǎn)量預(yù)測方法研究[D].成都:西南石油大學(xué),2019.
[13] VIKARA D,REMSON D,KHANNA V.Machine learning-informed ensemble framework for evaluating shale gas production potential:case study in the Marcellus Shale[J].Journal of Natural Gas Science and Engineering,2020,84:103679.
[14] 祝元寵,咸玉席,李清宇,等.基于大數(shù)據(jù)的頁巖氣產(chǎn)能預(yù)測[J].油氣井測試,2019,28(1):1-6.
[15] 紀(jì)磊,李菊花,肖佳林.隨機森林算法在頁巖氣田多段壓裂改造中的應(yīng)用[J].大慶石油地質(zhì)與開發(fā),2020,39(6):168-174.
[16] 黃家宸,張金川.機器學(xué)習(xí)預(yù)測油氣產(chǎn)量現(xiàn)狀[J].油氣藏評價與開發(fā)期刊, 2021,11(4):613-620.
[17] 王建波,馮明剛,嚴(yán)偉,等.焦石壩地區(qū)頁巖儲層可壓裂性影響因素及計算方法[J].斷塊油氣田,2016,23(2):216-220,225.
[18] 陳桂華,肖鋼,徐強,等.頁巖油氣地質(zhì)評價方法和流程[J].天然氣工業(yè),2012,32(12):1-5,123.
[19] 陳桂華,肖鋼,徐強,等.頁巖油氣地質(zhì)評價方法和流程[J].天然氣工業(yè),2012,32(12):1-5,123.
[20] 馬永生,蔡勛育,趙培榮.中國頁巖氣勘探開發(fā)理論認識與實踐[J].石油勘探與開發(fā),2018,45(4):561-574.
【通聯(lián)編輯:梁書】