用于儲(chǔ)量滲透率預(yù)測(cè)的高效梯度提升決策模型

2021-10-08 07:57:12谷宇峰張道勇阮金鳳張晨朔

科學(xué)技術(shù)與工程 2021年26期

關(guān)鍵詞：模型

谷宇峰，張道勇，阮金鳳，王琴，張晨朔，張臣

(1.自然資源部油氣資源戰(zhàn)略研究中心，北京 100034; 2. 中國(guó)石油長(zhǎng)慶油田采油五廠，西安 710200)

在早期勘探階段，為更好地了解目的層儲(chǔ)層地質(zhì)特征，儲(chǔ)層巖性和物性等需進(jìn)行重點(diǎn)分析，其中滲透率便是重要的分析因素[1-3]。滲透率的研究對(duì)于判定儲(chǔ)層儲(chǔ)集能力和洞察壓力改造特性極為重要，因此滲透率預(yù)測(cè)一直為地質(zhì)勘探階段中一重要研究?jī)?nèi)容[2-4]。物理模型為預(yù)測(cè)滲透率的常規(guī)手段，主要以地球物理測(cè)井理論為指導(dǎo)進(jìn)行建立。因有測(cè)井理論支撐，物理模型更被地球物理學(xué)家接受和使用，使其在早期測(cè)井解釋研究領(lǐng)域中得以迅速發(fā)展。代表模型有廣泛應(yīng)用于砂泥巖儲(chǔ)層的Index模型、Kozeny-Carman模型、Timur模型、Herron模型等[5-7]。這些模型在地球物理資料充足或儲(chǔ)層地質(zhì)情況簡(jiǎn)單條件下應(yīng)用效果良好。然而，隨著油氣勘探難度加大，研究目的層的地質(zhì)情況愈發(fā)復(fù)雜，如儲(chǔ)層因受多期機(jī)械壓實(shí)、溶蝕和膠結(jié)等成巖作用的影響而含有極為復(fù)雜的孔喉系統(tǒng)，或因發(fā)育裂縫，儲(chǔ)層的滲流性在各方向上變化極為不一。為更好地進(jìn)行滲透率預(yù)測(cè)，物理預(yù)測(cè)模型也隨之復(fù)雜化，導(dǎo)致其適用性和推廣性逐漸變差，所以如何在復(fù)雜地質(zhì)條件下對(duì)儲(chǔ)層進(jìn)行簡(jiǎn)單且有效的滲透率預(yù)測(cè)成為當(dāng)前一測(cè)井解釋難點(diǎn)[1-4]。從物理模型的自變量和應(yīng)變量對(duì)應(yīng)關(guān)系角度考慮，滲透率預(yù)測(cè)實(shí)際上是一擬合問(wèn)題，因此可用擬合模型進(jìn)行解決[2,8-9]。早期用于滲透率預(yù)測(cè)的擬合模型為逐步迭代，其應(yīng)用效果已在研究中證實(shí)[2,8-9]。雖然逐步迭代在預(yù)測(cè)中取得了一定認(rèn)可，但其應(yīng)用上的缺點(diǎn)也十分明顯：因在分析前無(wú)法確定自變量和應(yīng)變量之間準(zhǔn)確的對(duì)應(yīng)關(guān)系，如該關(guān)系可為線性或者復(fù)雜的多項(xiàng)式等，導(dǎo)致建模后得到的純線性擬合公式一般情況下擬合優(yōu)度不高，或含有高次項(xiàng)的擬合公式雖然擬合性很好但因?qū)υ胍魯?shù)據(jù)點(diǎn)敏感而無(wú)法推廣應(yīng)用。

為在擬合問(wèn)題中避開選擇自變量與應(yīng)變量對(duì)應(yīng)關(guān)系的問(wèn)題，屬于灰箱或黑箱的機(jī)器學(xué)習(xí)模型逐漸在滲透率預(yù)測(cè)中得到研究與應(yīng)用。目前常用的模型以FFNN (feed forward neural network) 和 SVR (support vector regression) 等為主。FFNN是典型的三層神經(jīng)網(wǎng)絡(luò)模型，能通過(guò)輸入層與輸出層之間的網(wǎng)絡(luò)映射有效解決自變量與應(yīng)變量之間線性或非線性的擬合問(wèn)題。得益于BP (back propagation) 算法的使用，F(xiàn)FNN可快速完成數(shù)據(jù)訓(xùn)練，且隨著訓(xùn)練數(shù)據(jù)樣本量的增加，形成的網(wǎng)絡(luò)映射的魯棒性能越強(qiáng)，展示出了良好的擬合能力[10-12]。鑒于FFNN的擬合計(jì)算特性，陳科貴等[10]、汪雷等[11]和董滿倉(cāng)等[12]在滲透率預(yù)測(cè)問(wèn)題上，對(duì)該模型進(jìn)行了嘗試，并根據(jù)預(yù)測(cè)數(shù)據(jù)的分析肯定了該模型的應(yīng)用性。SVR在計(jì)算原理上不同于FFNN，是采用支持向量進(jìn)行預(yù)測(cè)。所謂的支持向量是指學(xué)習(xí)樣本中能真正對(duì)預(yù)測(cè)對(duì)象的變化起到作用的樣本。因?yàn)橹С窒蛄康臄?shù)量一般小于學(xué)習(xí)樣本量，所以SVR一般情況下可用更少的樣本進(jìn)行建模和預(yù)測(cè)，這樣無(wú)論在預(yù)測(cè)速度上，還是在處理學(xué)習(xí)樣本的容錯(cuò)率上，較FFNN都表現(xiàn)出更好的性能[13-15]。李其聰?shù)萚13]基于改進(jìn)的SVR對(duì)煤層滲透率進(jìn)行了預(yù)測(cè)研究，并根據(jù)實(shí)驗(yàn)結(jié)果證實(shí)了改進(jìn)模型是預(yù)測(cè)利器。李佳[14]在研究多孔介質(zhì)滲透率問(wèn)題上使用了大量的機(jī)器學(xué)習(xí)模型，最后通過(guò)驗(yàn)證對(duì)比發(fā)現(xiàn)SVR是出色的預(yù)測(cè)模型之一。谷宇峰等[15]在研究長(zhǎng)4+5段致密砂巖儲(chǔ)層滲透率預(yù)時(shí)采用SVR進(jìn)行驗(yàn)證，并以多重實(shí)驗(yàn)結(jié)果對(duì)比分析證實(shí)了SVR在一般情況下給出的預(yù)測(cè)信息是可靠的。雖然上述模型的預(yù)測(cè)能力在一些研究案例中得到了肯定，但其適用性和推廣性仍較差，主要體現(xiàn)在：① FFNN因使用BP學(xué)習(xí)方法，使其預(yù)測(cè)性能受制于網(wǎng)絡(luò)初始化，所以一般情況下模型在訓(xùn)練中容易收斂于局部最小，導(dǎo)致在預(yù)測(cè)時(shí)難以給出最佳結(jié)果；② FFNN和SVR均在訓(xùn)練過(guò)程中均使用了矩陣計(jì)算，因此計(jì)算耗時(shí)隨著訓(xùn)練樣本容量的擴(kuò)大會(huì)出現(xiàn)指數(shù)級(jí)增長(zhǎng)的現(xiàn)象，這在處理現(xiàn)實(shí)問(wèn)題 (real-world problems) 上表現(xiàn)出了計(jì)算性能不足這一缺點(diǎn)；③ FFNN和SVR在訓(xùn)練中會(huì)追求較高的擬合優(yōu)度，這容易導(dǎo)致過(guò)擬合問(wèn)題的產(chǎn)生，而如何控制過(guò)該問(wèn)題發(fā)生或者從另一角度出發(fā)令模型在訓(xùn)練后有更強(qiáng)的魯棒性在現(xiàn)實(shí)案例中難以完美地做到。

為盡可能地避免模型在預(yù)測(cè)中發(fā)生上述問(wèn)題，以XGBoost (extreme gradient boosting) 等為代表的決策樹模型被逐漸應(yīng)用到滲透率預(yù)測(cè)中[16]。該模型以目標(biāo)值與計(jì)算值之間的差值為擬合對(duì)象，并通過(guò)眾多決策樹的分類處理，令差值逐漸減小，以期達(dá)到最優(yōu)擬合效果[16]。因決策樹對(duì)擬合對(duì)象進(jìn)行分類處理，所以在建模過(guò)程中可對(duì)噪音樣本或者錯(cuò)誤樣本進(jìn)行篩選，表現(xiàn)出良好的容錯(cuò)性，而這種分類處理為一種線性計(jì)算，不涉及矩陣轉(zhuǎn)換或核函數(shù)轉(zhuǎn)換，所以在理論上較上述模型擁有更快的預(yù)測(cè)速度。然而，XGBoost在訓(xùn)練時(shí)也會(huì)產(chǎn)生過(guò)擬合問(wèn)題，且在處理大容量學(xué)習(xí)樣本情況下構(gòu)建決策樹非常耗時(shí)，為此Guo等[17]通過(guò)針對(duì)性的研究后提出一種計(jì)算性能更強(qiáng)的LightGBM (light gradient boosting machine) 模型。該模型的預(yù)測(cè)性能已在Tang等[18]研究中進(jìn)行了驗(yàn)證，其實(shí)驗(yàn)結(jié)果都一致顯示出LightGBM較XGBoost和其他經(jīng)典機(jī)器學(xué)習(xí)模型在處理擬合問(wèn)題上表現(xiàn)更為出色。雖然LightGBM擁有強(qiáng)大的擬合性能，但其表現(xiàn)受自變量的數(shù)量和質(zhì)量影響嚴(yán)重，同時(shí)由于使用了較多的超參數(shù)，在建模后其預(yù)測(cè)狀態(tài)難以保證為最優(yōu)。為此，提出利用MIV (mean impact value) 算法[19-20]和CD (coordinate descent) 算法[21-22]對(duì)LightGBM進(jìn)行改進(jìn)，進(jìn)而提出一種新的混合預(yù)測(cè)模型MIV-CD-LightGBM。

提出模型在滲透率預(yù)測(cè)上較常規(guī)物理模型而言，其最大優(yōu)勢(shì)在于計(jì)算不受儲(chǔ)層孔隙系統(tǒng)的物理?xiàng)l件限制，可基于純數(shù)據(jù)驅(qū)動(dòng)進(jìn)行建模和預(yù)測(cè)，因此具備良好的適用性和推廣性。由于建模和預(yù)測(cè)效果完全取決于數(shù)據(jù)質(zhì)量和模型本身構(gòu)造，因此嵌入的MIV算法和CD算法在保證LightGBM的計(jì)算有效性方面奠定了基礎(chǔ)，進(jìn)而理論上提出模型應(yīng)有良好的預(yù)測(cè)能力。

1 計(jì)算原理與計(jì)算流程

1.1 計(jì)算原理

通過(guò)分析Index、Kozeny-Carman、Timur和Herron等模型得知，滲透率在測(cè)井解釋理論上可由含有孔隙度、束縛水飽和度、巖石各礦物含量等儲(chǔ)層參數(shù)的非線性公式求得[5-7]，而這些參數(shù)又可由帶有測(cè)井曲線的理論公式或經(jīng)驗(yàn)公式確定[1-4]。由此可見，滲透率能由帶有測(cè)井曲線的非線性公式計(jì)算。上述推論過(guò)程可描述為

K=f[g1(AC),g2(RT,SGR),

K=f′1(AC,RT,SGR,CGR,…)

(1)

式(1)中：K為滲透率，mD；φ為孔隙度，%；Swirr為束縛水飽和度，%；Bvol為巖石礦物含量，%；AC為聲波曲線，μs/m；RT為原狀地層電阻率曲線，Ω·m；SGR為總自然伽馬曲線，API；CGR為去鈾自然伽馬曲線，API；f、g1、g2、g3、f′1為不同類型的函數(shù)。

基于測(cè)井曲線數(shù)據(jù)，擬合模型可用于預(yù)測(cè)滲透率。由于預(yù)測(cè)時(shí)除測(cè)井?dāng)?shù)據(jù)外，無(wú)其他信息摻入，因此滲透率預(yù)測(cè)又可進(jìn)一步定為純數(shù)據(jù)驅(qū)動(dòng)下的擬合問(wèn)題[2,16]。此時(shí)，對(duì)于學(xué)習(xí)樣本集或建模數(shù)據(jù)集，其表達(dá)式可設(shè)為{Xmn,Ym}，其中，Xmn為測(cè)井?dāng)?shù)據(jù)矩陣，由m個(gè)樣本和n條測(cè)井曲線構(gòu)成；Ym為巖性滲透率數(shù)據(jù)向量，由巖心實(shí)驗(yàn)確定。為消除各測(cè)井曲線數(shù)據(jù)因其數(shù)量級(jí)不同在建模時(shí)產(chǎn)生數(shù)據(jù)淹沒(méi)現(xiàn)象[2,16]，測(cè)井?dāng)?shù)據(jù)要進(jìn)行歸一化。歸一化有多種處理方式，本文中采用[0,1]歸化方式，即令每條測(cè)井曲線變化范圍壓縮在0～1。計(jì)算公式[2,16]為

(2)

式(2)中：xoj為原始第j條測(cè)井曲線；xoj_max為原始第j條測(cè)井曲線最大值；xoj_min為原始第j條測(cè)井曲線最小值；xj為均一化后第j條測(cè)井曲線。

假設(shè)Xmn為均一化后的測(cè)井?dāng)?shù)據(jù)矩陣。對(duì)于LightGBM，其預(yù)測(cè)一般由訓(xùn)練后得到的強(qiáng)學(xué)習(xí)器來(lái)完成。強(qiáng)學(xué)習(xí)器[17-18]可表示為

(3)

式(3)中：F(xi)為作用在樣本xi上的強(qiáng)學(xué)習(xí)器；FL為損失函數(shù)；yi為第i個(gè)巖心滲透率值；v為常數(shù)，能使損失函數(shù)最小化；ηL為學(xué)習(xí)速率；wrt為在t次迭代中決策樹第r個(gè)葉節(jié)點(diǎn)中所有樣本最佳替代值；TB為迭代次數(shù)；Rt為第t迭代中決策樹葉節(jié)點(diǎn)個(gè)數(shù)。

式(3)中wrt由經(jīng)驗(yàn)公式[式(4)][17-18]確定：

(4)

雖然LightGBM主要計(jì)算原理與以XGBoost為代表的其他決策樹模型的相似，但因Guo等[17]在研究中提出GOSS (gradient-based one-side sampling) 和EFB (exclusive feature bundling) 等算法使得LightGBM在預(yù)測(cè)上效率更高。決策樹只會(huì)對(duì)損失函數(shù)值較大的樣本做出顯著處理，因此損失函數(shù)值較小的樣本可在構(gòu)建下一個(gè)決策樹之前剔除掉，而如何確定這些函數(shù)值較小的樣本可通過(guò)設(shè)定一閾值來(lái)實(shí)現(xiàn)，這便是GOSS算法原理。當(dāng)樣本中的變量個(gè)數(shù)較多，可通過(guò)變量之間互斥特征進(jìn)行綁定，以此來(lái)縮減在實(shí)際處理中變量的個(gè)數(shù)，達(dá)到快速建模，這便是EFB算法原理。由于測(cè)井曲線個(gè)數(shù)一般情況下較少，因此該算法在下述驗(yàn)證中不涉及。XGBoost等類似模型之所以在構(gòu)建決策樹上耗時(shí)較多，是因?yàn)椴捎昧藀re-sorted算法尋找最佳分裂點(diǎn)。Guo等[17]通過(guò)深入研究該算法后提出了Histogram算法。該算法摒棄傳統(tǒng)逐點(diǎn)試算最佳分裂點(diǎn)的思想，采用類似于柱狀圖統(tǒng)計(jì)的桶歸類思想進(jìn)行分析。由于進(jìn)行桶歸類后試算點(diǎn)大大減少，因此葉節(jié)點(diǎn)的生長(zhǎng)速度非?？?，為L(zhǎng)ightGBM快速建模奠定了基礎(chǔ)。雖然決策樹構(gòu)建速度得到了提高，但葉節(jié)點(diǎn)生長(zhǎng)過(guò)快容易產(chǎn)生過(guò)擬合現(xiàn)象，因此，“l(fā)eaf-wise”這一新的生長(zhǎng)模式被提出[17]。該模式通過(guò)限制葉節(jié)點(diǎn)個(gè)數(shù)使決策樹不易過(guò)“茂盛”，進(jìn)而為L(zhǎng)ightGBM的魯棒性做了保障。

LightGBM在各計(jì)算平臺(tái)上屬于集成程序[17-18]，因此上述算法除EFB外，都會(huì)在下面驗(yàn)證中予以默認(rèn)執(zhí)行，不再贅述。

LightGBM的計(jì)算性能受自變量的數(shù)量和性質(zhì)影響較大，且較多超參數(shù)的使用使其預(yù)測(cè)狀態(tài)難以保證為最優(yōu)。鑒于測(cè)井曲線一般情況下較少，自變量數(shù)量問(wèn)題不用考慮。由于在擬合中，測(cè)井?dāng)?shù)據(jù)矩陣最好只由能引起滲透率變化的測(cè)井曲線組成，因此每條曲線對(duì)于擬合的重要性要先進(jìn)行判定，即先要對(duì)每條曲線在擬合中的貢獻(xiàn)程度進(jìn)行量化分析，而這恰好符合MIV算法流程特點(diǎn)，因此采用該算法判定每條測(cè)井曲線的重要性。

MIV算法一般通過(guò)變化某一自變量值來(lái)考察其對(duì)目標(biāo)值變化的影響程度[19-20]。對(duì)于第j條曲線，MIV算法首先通過(guò)漲幅因子來(lái)變化曲線值，進(jìn)而組成一新測(cè)井?dāng)?shù)據(jù)矩陣，可表示為

(5)

之后，將新矩陣帶入預(yù)測(cè)模型中得到新的預(yù)測(cè)結(jié)果，再將結(jié)果與原預(yù)測(cè)結(jié)果進(jìn)行對(duì)比得到差值。由于這種差值一般為向量，所以MIV算法常采用2-范數(shù)進(jìn)行處理以得到一種綜合差值，而這種綜合差值也稱為該變量的MIV[19-20]。該過(guò)程可描述為

(6)

式(6)中：Ej為對(duì)應(yīng)于第j條測(cè)井曲線的MIV；ABS為絕對(duì)值函數(shù)；FLGB為L(zhǎng)ightGBM模型。

將相同的漲幅因子分別帶入n條曲線后會(huì)得到n個(gè)MIV，之后算法通過(guò)設(shè)定一閾值對(duì)各MIV進(jìn)行判定。MIV高于閾值則認(rèn)為對(duì)應(yīng)的曲線在預(yù)測(cè)中具有重要性。閾值判定公式[19-20]可表示為

(7)

式(7)中：S為重要的曲線集合；α為設(shè)定的閾值。

由于單個(gè)漲幅因子帶來(lái)的判定效果往往不可靠，因此在實(shí)際應(yīng)用中算法常用多個(gè)漲幅因子來(lái)進(jìn)行分析。當(dāng)有p個(gè)漲幅因子時(shí)，某一曲線最終的MIV以各漲幅因子情況下得到的MIV的均值來(lái)確定。例如，當(dāng)p為3時(shí)，某曲線將會(huì)得到3個(gè)MIV，則最終MIV以這3個(gè)MIV的均值來(lái)確定。

對(duì)于LightGBM超參數(shù)優(yōu)化問(wèn)題，采用一容易實(shí)現(xiàn)的CD算法來(lái)解決。該算法的優(yōu)化思想[21-22]是：① 首先固定住其他超參數(shù)，令剩余一超參數(shù)在規(guī)定的變化范圍內(nèi)以規(guī)定的變化步長(zhǎng)逐漸變大；② 對(duì)于該超參數(shù)的每一次變化，都要進(jìn)行一次預(yù)測(cè)，并對(duì)預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)結(jié)果進(jìn)行對(duì)比來(lái)判定該結(jié)果的可靠程度；③ 如果該結(jié)果的可靠程度低于該超參數(shù)在下一次變化中得到的結(jié)果的可靠程度，則最優(yōu)結(jié)果記錄為下一次變化得到的預(yù)測(cè)結(jié)果，否則以這次得到的預(yù)測(cè)結(jié)果為準(zhǔn)；④ 當(dāng)該參數(shù)對(duì)應(yīng)的最優(yōu)結(jié)果確定后，令其和其他參數(shù)固定，讓剩余的另一超參數(shù)繼續(xù)在規(guī)定范圍內(nèi)以規(guī)定的步長(zhǎng)變化，不斷更新最優(yōu)結(jié)果；⑤ 當(dāng)所有超參數(shù)更新完畢后，即完成一次算法迭代，而當(dāng)?shù)戤厱r(shí)，最優(yōu)結(jié)果對(duì)應(yīng)的超參數(shù)組合即為最優(yōu)超參數(shù)組合。

當(dāng)CD算法確定出最優(yōu)超參數(shù)組合后，LightGBM的最優(yōu)預(yù)測(cè)狀態(tài)將得到保障。

1.2 計(jì)算流程

根據(jù)上述計(jì)算原理，針對(duì)混合模型MIV-CD-LightGBM在滲透率預(yù)測(cè)上提出一計(jì)算流程，如圖1所示。計(jì)算流程大致分為以下幾個(gè)步驟：① 原始數(shù)據(jù)首先進(jìn)行均一化，主要是對(duì)測(cè)井?dāng)?shù)據(jù)，之后將其分為建模和預(yù)測(cè)兩類數(shù)據(jù)集；② 第二步進(jìn)行MIV處理，包括設(shè)置漲幅比例處理每條測(cè)井曲線，并將每種漲幅情況下的建模數(shù)據(jù)集帶入LightGBM中進(jìn)行預(yù)測(cè)得到預(yù)測(cè)結(jié)果，最后根據(jù)計(jì)算的平均MIV篩選曲線；③ 根據(jù)篩選的曲線組成新的建模和預(yù)測(cè)數(shù)據(jù)集，并進(jìn)入CD算法優(yōu)化過(guò)程；④ 在此過(guò)程中，首先確定LightGBM超參數(shù)，并相應(yīng)地設(shè)置每種超參數(shù)的變化范圍和變化步長(zhǎng)，以及CD算法迭代次數(shù)，之后計(jì)算每種超參數(shù)在每種情況下的預(yù)測(cè)結(jié)果，并判定是否為最優(yōu)預(yù)測(cè)結(jié)果；⑤ 當(dāng)?shù)螖?shù)達(dá)到最大時(shí)，優(yōu)化完畢，最優(yōu)結(jié)果對(duì)應(yīng)的超參數(shù)組合即為最優(yōu)超參數(shù)組合；⑥ 建立的MIV-CD-LightGBM即為最終預(yù)測(cè)模型，可用于處理實(shí)際資料。

圖1 MIV-CD-LightGBM滲透率預(yù)測(cè)計(jì)算流程Fig.1 Computational flow of MIV-CD-LightGBM used for permeability prediction

2 模型預(yù)測(cè)性能驗(yàn)證

2.1 數(shù)據(jù)來(lái)源與實(shí)驗(yàn)設(shè)計(jì)

以鄂爾多斯盆地姬塬油田西部長(zhǎng)8段致密砂巖儲(chǔ)層為例對(duì)提出模型的滲透率預(yù)測(cè)能力進(jìn)行驗(yàn)證。姬塬油田位于鄂爾多斯盆地天環(huán)坳陷和陜北斜坡兩個(gè)一級(jí)構(gòu)造單元之間(圖2)。大量早期勘探資料表明油田油氣資源富集，且多位于延長(zhǎng)組致密砂巖儲(chǔ)層段中，如長(zhǎng)4+5、長(zhǎng)6和長(zhǎng)8等[23-25]。雖然早前研究已經(jīng)揭示了油田致密砂巖儲(chǔ)層的一些特征[23-25]，但限于部分資料匱乏 (如缺少充足的自然伽馬能譜測(cè)井資料) 和解釋方法的適用性差 (如解釋儲(chǔ)層物性參數(shù)的物理模型不完善)，這些認(rèn)識(shí)并不完全可靠。為進(jìn)一步準(zhǔn)確圈定出更多的油氣富集有利區(qū)，儲(chǔ)層特征需在獲取更可靠的解釋資料條件之上進(jìn)行了解，因此儲(chǔ)層參數(shù)迫切需要一些的新方法或新模型來(lái)重新解釋。滲透率是儲(chǔ)層重要的表征參數(shù)之一，對(duì)于了解儲(chǔ)層孔喉系統(tǒng)特征和開展壓裂改造等都極為重要。早期用于解釋滲透率的模型以物理模型為主，如Index模型、Kozeny-Carman模型、Timur模型和Herron模型等。Index模型主要用孔隙度資料通過(guò)指數(shù)方程確定滲透率。對(duì)于砂泥巖地層，該模型應(yīng)用性良好，但對(duì)于致密砂巖儲(chǔ)層，由于儲(chǔ)層受多期成巖作用和裂縫發(fā)育等因素影響，形成的孔喉系統(tǒng)復(fù)雜，導(dǎo)致孔隙度和滲透率之間難以存在良好的正比關(guān)系，所以模型的應(yīng)用效果常常很差[5-7]。雖然可以利用分層數(shù)據(jù)或者FZI(flow zone indicator) 指數(shù)來(lái)改善Index的應(yīng)用效果，這種改善卻使得模型的推廣性變差。對(duì)于其他模型，由于需要的支撐資料 (如束縛水飽和度、巖石礦物含量和巖石單位體積表面積等) 難以獲取或難以準(zhǔn)確獲取，解釋結(jié)果往往可靠性較低，最終展示出的應(yīng)用效果并不理想[5-7]。滲透率預(yù)測(cè)的本質(zhì)是擬合問(wèn)題，而機(jī)器學(xué)習(xí)模型恰好是解釋擬合問(wèn)題的利器，所以選用出色的機(jī)器學(xué)習(xí)模型來(lái)解釋滲透率是新的思路與研究方向?；谇把运?，現(xiàn)采用混合模型MIV-CD-LightGBM預(yù)測(cè)儲(chǔ)層滲透率。

綠色點(diǎn)為提供建模數(shù)據(jù)；紅色點(diǎn)為提供預(yù)測(cè)數(shù)據(jù)；P1、P2、P3和P4為驗(yàn)證數(shù)據(jù)井圖2 姬塬油田西部位置及其建模、驗(yàn)證數(shù)據(jù)井分布Fig.2 Location of western Jiyuan Oilfield and distribution of modeling and validating wells

模型的驗(yàn)證對(duì)象如圖2(a)所示。為方便示例，以中南部井區(qū)為樣本。區(qū)內(nèi)共有34口取心井，其中30口井定為建模數(shù)據(jù)井，其他4口井定為驗(yàn)證數(shù)據(jù)井。建模數(shù)據(jù)井共提供2 670個(gè)樣本，而驗(yàn)證數(shù)據(jù)井提供的則有100個(gè)。建模樣本和預(yù)測(cè)樣本都由9種測(cè)井曲線和1個(gè)巖心滲透率值構(gòu)成。曲線包括AC、補(bǔ)償中子測(cè)井(compensated neutron log，CNL)、地層密度測(cè)井(density log，DEN)、SGR、CGR、沖洗帶電阻率測(cè)井(resistivity of flushed zone，RXO)、過(guò)渡帶電阻率測(cè)井(resistivity of invaded zone，RI)、RT和光電吸收截面指數(shù)(photoelectric absorption cross-section index，PE)。測(cè)井曲線分辨率為8點(diǎn)/m或者測(cè)量間隔為0.125 m。共設(shè)計(jì)三個(gè)實(shí)驗(yàn)對(duì)提出模型進(jìn)行驗(yàn)證。實(shí)驗(yàn)1驗(yàn)證MIV算法的嵌入對(duì)于LightGBM預(yù)測(cè)性能的影響。實(shí)驗(yàn)2驗(yàn)證CD算法的嵌入對(duì)于MIV-LightGBM預(yù)測(cè)性能的影響。由于CD算法主要服務(wù)于LightGBM，所以實(shí)驗(yàn)2實(shí)際上是驗(yàn)證CD算法對(duì)于LightGBM超參數(shù)的優(yōu)化性能。為更好地突出提出模型的預(yù)測(cè)能力，在實(shí)驗(yàn)3中加入FFNN和SVR兩個(gè)經(jīng)典機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比。由于所用模型需要用相同的建模和驗(yàn)證數(shù)據(jù)集，且對(duì)比模型在建模時(shí)也用到了超參數(shù)，所以為公平地驗(yàn)證，F(xiàn)FNN和SVR也設(shè)定嵌入MIV算法和CD算法優(yōu)化，即實(shí)際的對(duì)比模型為MIV-CD-FFNN和MIV-CD-SVR。為保證建模和預(yù)測(cè)樣本質(zhì)量，所有測(cè)井樣點(diǎn)深度已經(jīng)與巖心滲透率值的深度進(jìn)行校正。所有驗(yàn)證模型的實(shí)現(xiàn)平臺(tái)為Spyder 3 (Python 3.7.6)。

在滲透率預(yù)測(cè)中，常用均方誤差(mean squared error，MSE) 指標(biāo)來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果，但該指標(biāo)值通常較小，難以進(jìn)行顯著的區(qū)分，為此均方根誤差(root mean squared error，RMSE) 用作評(píng)價(jià)指標(biāo)[15-16]，進(jìn)而式(6)中的2-范數(shù)在實(shí)驗(yàn)中以該指標(biāo)替代。由于滲透率是呈數(shù)量級(jí)變化的，所以對(duì)于單一樣本，其預(yù)測(cè)結(jié)果誤差應(yīng)采用數(shù)量級(jí)差絕對(duì)值進(jìn)行評(píng)價(jià)。例如，如果巖心滲透率值為1 mD，而預(yù)測(cè)結(jié)果有兩個(gè)，分別為2 mD和0.1 mD，此時(shí)如果按照絕對(duì)誤差評(píng)價(jià)，則0.1 mD被認(rèn)為更準(zhǔn)確，但實(shí)際上2 mD更可靠。對(duì)于該情況，如果以數(shù)量級(jí)差絕對(duì)值進(jìn)行評(píng)價(jià)，則兩個(gè)預(yù)測(cè)結(jié)果對(duì)應(yīng)的誤差分別為0.3和1，此時(shí)2 mD認(rèn)為更準(zhǔn)確，符合實(shí)際。至此，三個(gè)實(shí)驗(yàn)中，對(duì)于單一預(yù)測(cè)結(jié)果，其誤差用數(shù)量級(jí)差絕對(duì)值衡量，而對(duì)于整體預(yù)測(cè)結(jié)果，用RMSE衡量。

2.2 實(shí)驗(yàn)1過(guò)程及結(jié)果討論

MIV算法需在設(shè)定多種漲幅因子情況下對(duì)測(cè)井曲線在擬合中的重要性進(jìn)行綜合判定，為此，設(shè)定漲幅因子共有三個(gè)，分別為1.1、1.3和1.5。

按照?qǐng)D1所示的計(jì)算流程，數(shù)據(jù)首先進(jìn)行均一化。均一化公式以式(2)為準(zhǔn)。之后，每條測(cè)井曲線先以漲幅因子γ=1.1進(jìn)行試算。試算前要先對(duì)LightGBM模型進(jìn)行初始化。根據(jù)已有研究，表1展示出一套經(jīng)驗(yàn)參數(shù)設(shè)置[17-18]。模型初始化后，便可對(duì)漲幅后的測(cè)井?dāng)?shù)據(jù)矩陣進(jìn)行建模和預(yù)測(cè)。圖3(a)展示了在γ=1.1情況下每種測(cè)井曲線對(duì)應(yīng)的MIV。圖3(a)中明確顯示DEN、SGR和RT對(duì)于滲透率變化的影響較其他測(cè)井曲線的程度更大，但這并不完全可靠，需結(jié)合其他漲幅因子試算情況來(lái)綜合確定。對(duì)于γ=1.3和γ=1.5，每條測(cè)井曲線對(duì)應(yīng)的MIV也展示在圖3(a)中。橙色和綠色線顯示除了DEN、SGR和RT外，AC、CNL、CGR和RI也顯示出較大的影響程度，所以進(jìn)行多種漲幅因子試算對(duì)于MIV檢測(cè)是十分必要的。對(duì)于所有測(cè)井曲線，三種試算結(jié)果得到的平均MIV如圖3(b)所示。所有曲線的平均MIV不盡相同，需通過(guò)設(shè)定多種閾值進(jìn)行討論。圖3(b)中顯示了三條紅線，表示4種閾值判定情況，分別為α=0.1、0.2、0.3、0.4。當(dāng)α=0.1時(shí)，測(cè)井曲線全部判定為重要，而當(dāng)α=0.2和α=0.3時(shí)，重要的測(cè)井?dāng)?shù)據(jù)集分別由{AC、CNL、DEN、SGR、CGR、RI、RT}和{CNL、DEN、SGR、RI}構(gòu)成。當(dāng)α=0.4時(shí)，只有DEN和SGR判定為重要，而建模數(shù)據(jù)集只由兩種測(cè)井曲線構(gòu)成勢(shì)必不能在建模中提供充足的分析數(shù)據(jù)，所以該情況不考慮。前3種閾值的判定情況為預(yù)測(cè)帶來(lái)的增效不能從選定的測(cè)井曲線數(shù)量上直接看出，需做進(jìn)一步驗(yàn)證分析。圖3(c)為3種閾值判定情況下，LightGBM模型得到的預(yù)測(cè)結(jié)果及誤差。限于資料保密協(xié)議，深度信息不能展示，但為了更好地進(jìn)行說(shuō)明，在圖題中給出了大致深度范圍。圖3中后三列展示的數(shù)量級(jí)差范圍在0～1。誤差如果落在該范圍內(nèi)，則預(yù)測(cè)結(jié)果和實(shí)際值 (巖心滲透率) 處于同一數(shù)量級(jí)中，而只有這種情況下的預(yù)測(cè)結(jié)果在滲透率解釋研究領(lǐng)域中才被認(rèn)為是可靠的[2-4]。因此，預(yù)測(cè)誤差一列中數(shù)據(jù)點(diǎn)量越多，且越靠近0線，則表明預(yù)測(cè)結(jié)果越準(zhǔn)確。不難發(fā)現(xiàn)，α=0.1和α=0.2情況下，預(yù)測(cè)誤差列中數(shù)據(jù)點(diǎn)更多，但對(duì)比該兩列時(shí)，由于數(shù)據(jù)點(diǎn)量接近，且數(shù)據(jù)點(diǎn)靠近0線的程度也接近，所以需從計(jì)算結(jié)果入手進(jìn)行分辨。表2給出了該實(shí)驗(yàn)的RMSE計(jì)算結(jié)果。數(shù)據(jù)表明，α=0.2時(shí)LightGBM的預(yù)測(cè)結(jié)果最為可靠，因此由MIV算法確定出的重要測(cè)井曲線有7條，分比為AC、CNL、DEN、SGR、CGR、RI和RT。

表1 各驗(yàn)證模型、CD優(yōu)化算法初始參數(shù)設(shè)置和各驗(yàn)證模型超參數(shù)優(yōu)化結(jié)果Table 1 Initial parameter settings of all validated models and CD optimizing algorithm, and optimal results of hyper-parameters of all validated models

圖3 MIV算法在LightGBM預(yù)測(cè)中性能分析Fig.3 Analysis of integration of MIV algorithm in the prediction of LightGBM

由于MIV算法的引入改變了原測(cè)井?dāng)?shù)據(jù)矩陣的構(gòu)成，所以在下述實(shí)驗(yàn)中，關(guān)于LightGBM預(yù)測(cè)的模型都是以MIV-LightGBM方式表達(dá)。

2.3 實(shí)驗(yàn)2過(guò)程及結(jié)果討論

對(duì)CD算法的優(yōu)化作用進(jìn)行分析。執(zhí)行CD算法前，需確定LightGBM的超參數(shù)，模型的超參數(shù)類型如表1所示。確定后，根據(jù)優(yōu)化算法需求，各超參數(shù)的變化范圍和變化步長(zhǎng)如表1所示。本實(shí)驗(yàn)設(shè)定的CD算法迭代次數(shù)為50。設(shè)置之后，CD算法便可執(zhí)行優(yōu)化計(jì)算。優(yōu)化過(guò)程中，MIV-LightGBM模型的RMSE的變化過(guò)程如圖4(a)所示。從圖4(a)中可見，隨著迭代次數(shù)的增加，RMSE呈現(xiàn)出明顯的下降趨勢(shì)，從0.611 2減少為最終的0.289 3。RMSE的減小很好地說(shuō)明了CD算法能有效優(yōu)化預(yù)測(cè)模型的超參數(shù)，且RMSE在迭代20次后便不再變化，又說(shuō)明該算法優(yōu)化效率高，可在少量迭代次數(shù)中完成最優(yōu)值的尋找。LightGBM超參數(shù)的優(yōu)化結(jié)果如表2所示。圖4(b)顯示了MIV-LightGBM在優(yōu)化前和優(yōu)化后的預(yù)測(cè)結(jié)果情況。根據(jù)兩預(yù)測(cè)誤差列的對(duì)比可看出，模型在嵌入CD算法后其預(yù)測(cè)結(jié)果誤差大幅下降 (更多數(shù)據(jù)點(diǎn)落在列中且更靠近0線)，表明該算法的嵌入對(duì)于提高模型的預(yù)測(cè)性能作用極大。表2中RMSE數(shù)據(jù)之間的差距也很好地印證了這一點(diǎn)。

圖4 CD算法在MIV-LightGBM預(yù)測(cè)中性能分析Fig.4 Analysis of integration of CD algorithm in the prediction of MIV-LightGBM

表2 實(shí)驗(yàn)中各驗(yàn)證模型評(píng)價(jià)信息Table 2 Evaluating information of all validated models produced in three experiments

2.4 實(shí)驗(yàn)3過(guò)程及結(jié)果討論

將MIV-CD-FFNN、MIV-CD-SVR和MIV-CD-LightGBM進(jìn)行預(yù)測(cè)對(duì)比。按照計(jì)算流程，建模之前需對(duì)FFNN、SVR和LightGBM進(jìn)行初始化。根據(jù)已有研究[10-11,13-14]，表2列出了三個(gè)驗(yàn)證模型的初始參數(shù)設(shè)置，同時(shí)也標(biāo)出了各模型的超參數(shù)類型。相應(yīng)地，超參數(shù)在CD算法中的設(shè)置情況如表2所示。確定設(shè)置后，經(jīng)CD算法優(yōu)化，各超參數(shù)的優(yōu)化結(jié)果如表2所示。各超參數(shù)的優(yōu)化結(jié)果與初始設(shè)置有很大不同，這說(shuō)明CD算法的嵌入不僅對(duì)LightGBM具有意義，對(duì)于其他機(jī)器學(xué)習(xí)模型亦如此。各模型的預(yù)測(cè)結(jié)果如圖5所示。圖5中預(yù)測(cè)誤差三列展示的數(shù)據(jù)點(diǎn)數(shù)量整體上看相近，且數(shù)據(jù)點(diǎn)靠近0線的程度也相近，但如果仔細(xì)觀察還是可發(fā)現(xiàn)區(qū)別之處。在圖5中標(biāo)出4處示例來(lái)進(jìn)行說(shuō)明。對(duì)于第1處 (No.1)，雖然三列都顯示出凸起，但凸起左邊的數(shù)據(jù)點(diǎn)在MIV-CD-SVR和MIV-CD-LightGBM的列中更靠近0線。對(duì)于第2處 (No.2)，關(guān)于MIV-CD-SVR和MIV-CD-LightGBM的數(shù)據(jù)點(diǎn)全部落在數(shù)據(jù)列中，但后者的數(shù)據(jù)點(diǎn)整體上更接近0線。對(duì)于第3處 (No.3)，雖然圈定的數(shù)據(jù)點(diǎn)全部落在三列中，但MIV-CD-SVR和MIV-CD-LightGBM的更靠近0線。對(duì)于第4處 (No.4)，只有MIV-CD-LightGBM的數(shù)據(jù)點(diǎn)全部落在列中。綜合下來(lái)，MIV-CD-LightGBM的預(yù)測(cè)誤差相對(duì)更小，說(shuō)明模型的預(yù)測(cè)結(jié)果準(zhǔn)確度更高，這一點(diǎn)在表2中的各模型預(yù)測(cè)結(jié)果RMSE的對(duì)比也能得到證實(shí)。

圖5 3種驗(yàn)證模型滲透率預(yù)測(cè)結(jié)果及其誤差 (22xx.m～23xx.m)Fig.5 Predicted results and errors of three validated models

2.5 計(jì)算耗時(shí)討論

表2中除了記錄各實(shí)驗(yàn)預(yù)測(cè)結(jié)果的RMSE外，還記錄了耗時(shí)。對(duì)于實(shí)驗(yàn)1和實(shí)驗(yàn)2，由于只是在縱向上驗(yàn)證如何提高LightGBM預(yù)測(cè)性能，因此計(jì)算時(shí)間對(duì)比無(wú)意義。對(duì)于實(shí)驗(yàn)3，通過(guò)對(duì)比各模型的計(jì)算時(shí)間可發(fā)現(xiàn)提出模型的耗時(shí)最少，同時(shí)給出的預(yù)測(cè)誤差最小，有力地說(shuō)明了提出模型在預(yù)測(cè)致密砂巖儲(chǔ)層滲透率上是高效的。造成這種情況的主要原因主要是LightGBM自身的計(jì)算機(jī)制較FFNN和SVR的優(yōu)異，這也從側(cè)面表明基于LightGBM改造的模型在發(fā)展智能地球物理的方向上更具推廣應(yīng)用價(jià)值。

3 結(jié)論

通過(guò)對(duì)滲透率預(yù)測(cè)本質(zhì)的分析、機(jī)器學(xué)習(xí)模型在滲透率預(yù)測(cè)上可行性的分析、LightGBM在嵌入MIV算法和CD算法后性能提升的分析以及3種驗(yàn)證模型在實(shí)驗(yàn)中表現(xiàn)的分析與討論后，現(xiàn)有如下幾點(diǎn)總結(jié)。

(1)用于滲透率預(yù)測(cè)的經(jīng)典物理模型雖然有測(cè)井理論支撐，但需要的計(jì)算參數(shù)有時(shí)難以獲取或難以準(zhǔn)確獲取，因此在缺少必要資料的情況下，其適用性非常受限。

(2)通過(guò)對(duì)經(jīng)典物理模型自變量與應(yīng)變量之間關(guān)系的研究發(fā)現(xiàn)滲透率實(shí)際上與多種測(cè)井曲線存在非線性關(guān)系，因此滲透率預(yù)測(cè)可歸為基于測(cè)井?dāng)?shù)據(jù)的擬合問(wèn)題，而這種問(wèn)題恰好可用機(jī)器學(xué)習(xí)模型進(jìn)行解決。

(3)滲透率預(yù)測(cè)在以擬合方式解決條件下，所用的測(cè)井曲線的重要性需要先進(jìn)行判斷，而這個(gè)問(wèn)題可用MIV算法有效解決。

(4)LightGBM是出色的機(jī)器學(xué)習(xí)擬合模型，可用于預(yù)測(cè)滲透率，而模型的超參數(shù)優(yōu)化問(wèn)題，可用CD算法高效解決。

(5)實(shí)驗(yàn)證明，在嵌入MIV算法和CD算法后，LightGBM在預(yù)測(cè)致密砂巖儲(chǔ)層滲透率上其性能有很大提升，因此混合模型MIV-CD-LightGBM更適用于解決滲透率預(yù)測(cè)實(shí)際問(wèn)題。

(6)實(shí)驗(yàn)證明，相比于MIV-CD-FFNN和MIV-CD-SVR，MIV-CD-LightGBM在致密砂巖儲(chǔ)層滲透率預(yù)測(cè)上表現(xiàn)更為高效，說(shuō)明該模型具備更高的實(shí)用性，而造成這種情況發(fā)生的主要原因在于LightGBM的計(jì)算機(jī)制較FFNN和SVR的優(yōu)異，這也從側(cè)面說(shuō)明基于LightGBM的模型在智能地球物理研究領(lǐng)域中更具推廣應(yīng)用價(jià)值。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放