肖 曉,閆建平,3*,郭 偉,鐘光海,丁明海,羅光東
(1.西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,四川成都 610500;2.西南石油大學(xué)地球科學(xué)與技術(shù)學(xué)院,四川成都 610500;3.天然氣地質(zhì)四川省重點(diǎn)實(shí)驗(yàn)室(西南石油大學(xué)),四川成都 610500;4.中國石油勘探開發(fā)研究院,北京 100083;5.中國石油西南油氣田公司頁巖氣研究院,四川成都 610500;6.中國石油大慶油田公司鉆探工程公司,黑龍江大慶 163712)
頁巖氣具有典型的自生自儲(chǔ)、原位飽和成藏的特征,賦存方式主要以吸附氣和游離氣為主[1]。頁巖含有一定量的有機(jī)質(zhì),頁巖氣儲(chǔ)層多屬特低滲-超低滲致密儲(chǔ)層,發(fā)育微米-納米級孔隙[2]??紫抖确从沉颂烊粴鈨?chǔ)集空間的多少,總有機(jī)碳含量(TOC)是評價(jià)頁巖氣儲(chǔ)層生烴能力的重要指標(biāo)[3],含氣量是頁巖氣資源量預(yù)測和有利區(qū)優(yōu)選的關(guān)鍵參數(shù)[4-6],含氣量又主要分為吸附氣量與游離氣量[7-9],而吸附氣量與游離氣量的比例也關(guān)系到頁巖氣的開發(fā)方式。因而準(zhǔn)確計(jì)算孔隙度(POR)、總有機(jī)碳含量(TOC)和含氣量對頁巖氣勘探開發(fā)具有十分重要的意義。目前,國內(nèi)外學(xué)者利用測井曲線數(shù)據(jù)計(jì)算頁巖氣儲(chǔ)層甜點(diǎn)參數(shù),主要采用了多元回歸法、經(jīng)驗(yàn)公式法等[10-14]。但由于頁巖氣儲(chǔ)層礦物組分、物性、含氣量、有機(jī)質(zhì)含量及有機(jī)質(zhì)成熟度等都具有較強(qiáng)的非均質(zhì)性,孔隙度、有機(jī)碳含量和含氣量等甜點(diǎn)參數(shù)也受構(gòu)造作用、埋深等多種地質(zhì)因素的影響,最終導(dǎo)致測井曲線與儲(chǔ)層甜點(diǎn)參數(shù)之間不具備較好的線性關(guān)系,即往往是復(fù)雜的非線性關(guān)系。因而,利用多元回歸方法和經(jīng)驗(yàn)公式法往往計(jì)算精度不盡如意,或僅對特定地區(qū)或?qū)游坏膽?yīng)用效果較好,推廣性較差。
LightGBM 是由微軟公司在2017 年提出的一種基于梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)的快速機(jī)器學(xué)習(xí)算法[23],原理與GBDT類似[24],是將當(dāng)前決策樹殘差的近似值替換為損失函數(shù)負(fù)方向,依次來擬合新的決策樹,每一次迭代都是在原來模型不變的基礎(chǔ)上,通過新增一個(gè)函數(shù)到模型中,使預(yù)測值不斷逼近真實(shí)值。由于LightGBM算法采用了選擇最優(yōu)分裂點(diǎn)的直方圖算法、基于梯度的單邊采樣(Gradient-based One-Side Sampling,GOSS)和帶有深度限制的按葉生長(Leaf-wise)策略,因此其可以兼顧分類和回歸任務(wù),且在不失模型準(zhǔn)確率的同時(shí),極大改善模型的訓(xùn)練速度和內(nèi)存的占用。
(1)直方圖算法
當(dāng)使用梯度提升算法訓(xùn)練決策樹時(shí),需要在每個(gè)節(jié)點(diǎn)上選擇最優(yōu)的特征和分裂點(diǎn)來拆分?jǐn)?shù)據(jù)。最常用的方法是遍歷每個(gè)特征的每個(gè)可能的分裂點(diǎn),計(jì)算每個(gè)分裂點(diǎn)的增益,然后選擇增益最大的特征和分裂點(diǎn)。為了解決這個(gè)問題,LightGBM 使用了一種稱為“直方圖”的算法來加速特征選擇過程(圖1)。直方圖算法的基本思想是將每個(gè)連續(xù)的特征值劃分為一個(gè)有限數(shù)量的離散區(qū)間,每個(gè)區(qū)間被稱為一個(gè)“直方圖箱”(histogram bin)。
圖1 LightGBM 中的直方圖算法Figure 1 Histogram algorithm in LightGBM
在構(gòu)建直方圖時(shí),LightGBM 首先計(jì)算每個(gè)箱子內(nèi)的樣本數(shù)量,然后計(jì)算每個(gè)箱子內(nèi)的樣本的一階梯度和二階梯度的統(tǒng)計(jì)信息,即平均一階梯度、平均二階梯度、梯度平方和、二階梯度平方和。這些統(tǒng)計(jì)信息可以有效地近似每個(gè)箱子內(nèi)的樣本分布。由于LightGBM 使用梯度提升算法訓(xùn)練模型,它只需要計(jì)算樣本的一階和二階導(dǎo)數(shù),即梯度和二階梯度,而不需要計(jì)算高階導(dǎo)數(shù)。這使得統(tǒng)計(jì)信息的計(jì)算非常高效。在使用直方圖算法構(gòu)建決策樹時(shí),LightGBM 會(huì)遍歷每個(gè)特征的每個(gè)箱子,并計(jì)算選擇該箱子作為分裂點(diǎn)的增益[25]。選擇最優(yōu)分裂點(diǎn)的過程是基于兩個(gè)原則:增益最大化和最小數(shù)據(jù)遍歷。LightGBM 使用一種稱為“ 近似貪心”(approximate greedy)的算法,從每個(gè)特征的候選集中選擇最優(yōu)的分裂點(diǎn)。使用直方圖算法,LightGBM可以顯著加速?zèng)Q策樹的訓(xùn)練過程,同時(shí)保持高精度的模型質(zhì)量。
(2)基于梯度的單邊采樣(GOSS)
GOSS是LightGBM 中一種用于加速梯度提升決策樹訓(xùn)練過程的樣本采樣算法,且通過樣本權(quán)重上的優(yōu)化,可以實(shí)現(xiàn)不降低模型精度的情況下,顯著減少訓(xùn)練時(shí)間。
GOSS 算法將數(shù)據(jù)集分為兩個(gè)部分:一個(gè)高梯度樣本集和一個(gè)低梯度樣本集。GOSS 保留高梯度樣本集中所有的樣本權(quán)重,并使用一些規(guī)則來選擇低梯度樣本集中的一部分樣本,并減少其權(quán)重。GOSS分為兩個(gè)階段[20]。
第一階段,計(jì)算每個(gè)樣本的梯度,并將樣本按梯度大小降序排列,得到梯度從大到小的樣本序列。
在第三個(gè)學(xué)習(xí)階段當(dāng)中,學(xué)生可以學(xué)習(xí)解決人類反復(fù)勞動(dòng)的程序編程,通過設(shè)計(jì)一個(gè)重復(fù)的機(jī)器人動(dòng)作從而減輕人們的勞動(dòng)負(fù)擔(dān),比如可以設(shè)計(jì)機(jī)器人去進(jìn)行迷宮試驗(yàn),設(shè)計(jì)機(jī)器人前進(jìn)的方向和距離,減輕人工的投入。
第二階段,從梯度較小的樣本中選擇一部分樣本進(jìn)行采樣,刪除一些樣本或減少其權(quán)重,以便使梯度較小的樣本占整個(gè)數(shù)據(jù)集的比例盡可能小,同時(shí)保留重要的梯度較小的樣本。
具體地說,GOSS算法會(huì)將梯度較小的樣本分為多個(gè)組,每個(gè)組的大小取決于每個(gè)樣本的梯度大小和一個(gè)超參數(shù),該超參數(shù)控制了保留梯度較小的樣本的比例。對于每個(gè)組,GOSS會(huì)計(jì)算一個(gè)重要性分?jǐn)?shù),用于指示該組中樣本的貢獻(xiàn)大小。GOSS會(huì)選擇重要性分?jǐn)?shù)高的組,并保留組中所有樣本的權(quán)重。對于重要性分?jǐn)?shù)低的組,GOSS會(huì)根據(jù)梯度值的大小選擇一定比例的樣本進(jìn)行保留。通過這種方式,GOSS可以保留重要的梯度較小的樣本,同時(shí)減少對模型貢獻(xiàn)相對較小的樣本,從而加速模型訓(xùn)練。
(3)帶有深度限制的按葉子生長(Leaf-wise)策略
按層生長(Level-wise)和按葉子生長(Leafwise)是兩種常用的決策樹生長策略(圖2)。它們的主要區(qū)別在于決策樹的分裂方式和生長順序。按層生長策略會(huì)按照從上到下、從左到右的順序逐層分裂,每一層都會(huì)同時(shí)處理完所有節(jié)點(diǎn)。這種方式通??梢员WC生成相對平衡的決策樹。
圖2 決策樹生長策略比較Figure 2 Comparison of decision tree growth strategies
與傳統(tǒng)的按層生長策略不同,按葉子生長策略不需要為每層節(jié)點(diǎn)分配固定的數(shù)量,而是可以根據(jù)數(shù)據(jù)的復(fù)雜度和分布動(dòng)態(tài)地生成不同數(shù)量的節(jié)點(diǎn),并會(huì)優(yōu)先生長增益最大的節(jié)點(diǎn),因此也被稱為“最大增益優(yōu)先”(Max-Deep)策略[23]。相比于按層生長策略,按葉子生長策略可以更快地生長出更深的樹,并在保持模型精度的同時(shí)減少內(nèi)存開銷。
LightGBM 算法能夠在保持精度不變的同時(shí),快速地構(gòu)建回歸樹,它通過選擇最佳的測井特征來分裂節(jié)點(diǎn),并且通過調(diào)整不同梯度的采樣比例來提高弱學(xué)習(xí)器的多樣性,從而增強(qiáng)模型對于未參與訓(xùn)練的頁巖氣井的泛化能力。同時(shí),它還通過限制樹的最大深度來防止過擬合,確保訓(xùn)練的高效性。
本文實(shí)驗(yàn)數(shù)據(jù)來源于川南LZ 地區(qū)HX03、LX05、LX06、LX07 及LX08 共5 口具有巖心測試數(shù)據(jù)的頁巖氣井,其中HX03、LX05、LX06、LX074口井的樣本數(shù)據(jù)(表1)用于建立頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型,LX08 井作為驗(yàn)證井不參與模型訓(xùn)練,用于檢驗(yàn)?zāi)P头夯芰?。?shù)據(jù)樣本包括GR、KTh、Th/K、Th/U、U、Th、K、AC、DEN和CNL共10條測井曲線,以及巖心測試的POR、TOC、吸附氣量、游離氣量和總含氣量,將這些數(shù)據(jù)按照7∶3 隨機(jī)劃分為訓(xùn)練集和測試集開展模型構(gòu)建工作。限于篇幅,本文以TOC(總有機(jī)碳含量)回歸模型為例,從其訓(xùn)練集中隨機(jī)抽取部分樣本數(shù)據(jù)如表2所示。
表1 樣本數(shù)據(jù)個(gè)數(shù)Table 1 Number of sample data
表2 訓(xùn)練集部分樣本數(shù)據(jù)(TOC回歸模型)Table 2 Partial sample data of training set(TOC regression model)
采用LightGBM 算法中的回歸方法對頁巖氣儲(chǔ)層各甜點(diǎn)參數(shù)進(jìn)行預(yù)測。由于LightGBM 回歸算法能夠輸出各個(gè)特征因子的重要程度,因此可以確定不同測井曲線對目標(biāo)儲(chǔ)層甜點(diǎn)參數(shù)的貢獻(xiàn)率。為了實(shí)現(xiàn)這一目的,需要將10條測井曲線作為模型輸入的基礎(chǔ)指標(biāo),當(dāng)然需要保障這10條測井曲線的數(shù)據(jù)質(zhì)量(如沒有擴(kuò)徑影響等),相對應(yīng)的目標(biāo)儲(chǔ)層甜點(diǎn)參數(shù)作為輸出預(yù)測變量,分析測井曲線與目標(biāo)儲(chǔ)層甜點(diǎn)參數(shù)之間的非線性關(guān)系。
在LightGBM 算法中,回歸樹的構(gòu)建過程使用特征的直方圖尋找最優(yōu)的特征分裂點(diǎn),這一過程中只關(guān)心特征取值的順序,不受單調(diào)變換的影響,也不需要對不同特征之間進(jìn)行距離度量。因此LightGBM 算法不需要對數(shù)據(jù)進(jìn)行歸一化處理。通過LightGBM 回歸算法計(jì)算得到的各個(gè)目標(biāo)儲(chǔ)層甜點(diǎn)參數(shù)的評價(jià)指標(biāo)貢獻(xiàn)率及排序如圖3所示。
圖3 表明:以TOC 回歸模型為例,10 項(xiàng)基礎(chǔ)評價(jià)指標(biāo)貢獻(xiàn)率之和為1,其中貢獻(xiàn)率超過0.1 的指標(biāo)有5 項(xiàng),分別為AC(0.138)、Th/K(0.132)、DEN(0.117)、GR(0.106)和CNL(0.104)。其中,AC貢獻(xiàn)率最高,說明該研究區(qū)域內(nèi)TOC 與其聯(lián)系最為密切。相對應(yīng)的,貢獻(xiàn)率在0.1 以下的指標(biāo)也有5 項(xiàng),分別為U(0.096)、Th(0.093)、KTh(0.075)、K(0.07)和Th/U(0.069),Th/U 貢獻(xiàn)率最低,這僅說明在該研究區(qū)域內(nèi)這些指標(biāo)因素與TOC的聯(lián)系較弱。
遞歸特征消除(Recursive Feature Elimination,RFE)是一種特征選擇算法,它通過多次訓(xùn)練模型并逐步消除對模型貢獻(xiàn)最小的特征,以實(shí)現(xiàn)特征選擇的目的,得到的甜點(diǎn)參數(shù)模型精度隨特征個(gè)數(shù)變化見圖4。圖4b 顯示TOC 回歸模型在選擇6 個(gè)特征時(shí),達(dá)到了最高精度0.701 8,即選擇了TOC 回歸模型貢獻(xiàn)率排序(圖3b)中前6 個(gè)屬性:AC、Th/K、DEN、GR、CNL、U,同時(shí)刪除貢獻(xiàn)率較低的Th、KTh、K、Th/U,從而確定了最優(yōu)的TOC 回歸模型評估指標(biāo)體系。在這種情況下,模型輸入的冗余特征最少,性能達(dá)到頂峰,預(yù)測結(jié)果最為精確。其它的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)回歸模型同理,最優(yōu)特征子集的選擇結(jié)果如表2所示。
圖4 各甜點(diǎn)參數(shù)模型精度隨特征個(gè)數(shù)變化圖Figure 4 Variation diagram of the model accuracy of each sweet spot parameter with the number of features
為了獲得具有高精度的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型,LightGBM 回歸算法中對甜點(diǎn)參數(shù)預(yù)測模型建立的三種超參數(shù)值的設(shè)定十分關(guān)鍵。第一個(gè)是弱學(xué)習(xí)器個(gè)數(shù)(n_estimators),即模型中包含的決策樹個(gè)數(shù),作用是控制模型的復(fù)雜度和預(yù)測性能;第二個(gè)是學(xué)習(xí)率(learning_rate),即每次迭代更新的步長,作用是控制模型在更新過程中對上一輪迭代結(jié)果的影響程度;第三個(gè)是決策樹的最大葉子節(jié)點(diǎn)數(shù)(num_leaves),即決策樹最多擁有的葉子節(jié)點(diǎn)個(gè)數(shù),作用是控制決策樹的復(fù)雜度。
在弱學(xué)習(xí)器個(gè)數(shù)即決策樹數(shù)量較少時(shí),模型的擬合能力較弱,可能會(huì)欠擬合;而當(dāng)決策樹數(shù)量過多時(shí),模型的擬合能力會(huì)變得過強(qiáng),容易出現(xiàn)過擬合。較小的學(xué)習(xí)率會(huì)讓模型更新時(shí)保留之前的結(jié)果,從而讓模型更加平滑;而較大的學(xué)習(xí)率則會(huì)讓模型更加關(guān)注當(dāng)前的迭代結(jié)果,使得模型收斂速度加快,出現(xiàn)過擬合的情況。較大的num_leaves 可以讓模型更加復(fù)雜,能夠更好地?cái)M合訓(xùn)練數(shù)據(jù),當(dāng)然也容易出現(xiàn)過擬合的情況;而較小的num_leaves 可以減小模型的復(fù)雜度,從而避免過擬合的情況,但可能無法完全擬合訓(xùn)練數(shù)據(jù)。因此,需要在合適的范圍內(nèi)調(diào)整n_estimators、learning_rate 和num_leaves的值,以取得最佳的性能。
帶交叉驗(yàn)證的網(wǎng)格搜索(GridSearchCV)是一種超參數(shù)優(yōu)化方法,通過指定超參數(shù)的候選值范圍,遍歷所有可能的超參數(shù)組合,并使用交叉驗(yàn)證來評估每個(gè)超參數(shù)組合的性能,優(yōu)點(diǎn)是能夠遍歷所有可能的超參數(shù)組合,保證找到全局最優(yōu)解。具體來說,網(wǎng)格搜索方法將每個(gè)超參數(shù)的候選值組成一個(gè)網(wǎng)格,然后在這個(gè)網(wǎng)格中搜索最優(yōu)的超參數(shù)組合。對于每個(gè)超參數(shù)組合,網(wǎng)格搜索方法使用交叉驗(yàn)證來評估模型的性能。它將訓(xùn)練集分成若干份,每次使用其中的一份作為驗(yàn)證集,其余的作為訓(xùn)練集。然后對于每個(gè)超參數(shù)組合,計(jì)算模型在所有驗(yàn)證集上的平均性能指標(biāo)。最終,網(wǎng)格搜索方法返回性能指標(biāo)最優(yōu)的超參數(shù)組合作為最終的模型超參數(shù)。
表3列出了建立頁巖氣儲(chǔ)層不同甜點(diǎn)參數(shù)回歸模型的最優(yōu)特征子集、網(wǎng)格搜索范圍及最佳超參數(shù)取值。
表3 不同模型最優(yōu)特征子集、網(wǎng)格搜索范圍及最佳超參數(shù)Table 3 Optimal feature subsets,Grid search ranges,and optimal hyperparameters of different models
儲(chǔ)層甜點(diǎn)參數(shù)在頁巖氣儲(chǔ)層評價(jià)中扮演著重要角色,對于頁巖氣的勘探開發(fā)具有重要的指導(dǎo)作用。由于取心數(shù)據(jù)的獲取成本較高,有效地利用已有的巖心測試數(shù)據(jù)來構(gòu)建頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型是一種重要的手段。為了驗(yàn)證構(gòu)建的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型的應(yīng)用效果,首先以作為參與訓(xùn)練集的LX06 井連續(xù)測井剖面中的POR、TOC、吸附氣量、游離氣量及總含氣量為例,得到預(yù)測結(jié)果如圖5 所示,并分析了預(yù)測結(jié)果與巖心測試數(shù)據(jù)之間的相關(guān)系數(shù)。從圖6 中可以發(fā)現(xiàn),LightGBM 回歸模型預(yù)測的數(shù)據(jù)點(diǎn)絕大部分接近于45 度線,且預(yù)測結(jié)果與巖心測試值的相關(guān)系數(shù)均超過0.96,表明該模型預(yù)測頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)精度較高。
圖6 LX06井甜點(diǎn)參數(shù)預(yù)測結(jié)果和巖心測試數(shù)據(jù)相關(guān)性分析Figure 6 Correlation analysis between prediction results of sweet spot parameters and core test data in Well LX06
作為參與訓(xùn)練集LX06 井的預(yù)測效果還不足以說明問題,進(jìn)一步利用基于LightGBM 回歸算法預(yù)測模型預(yù)測未參與頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)模型訓(xùn)練的LX08 頁巖氣井,該井的POR、TOC、吸附氣量、游離氣量和總含氣量這5 項(xiàng)甜點(diǎn)參數(shù),預(yù)測結(jié)果見圖7,離散桿狀數(shù)據(jù)與預(yù)測曲線吻合度較高,各項(xiàng)甜點(diǎn)參數(shù)預(yù)測結(jié)果與巖心測試結(jié)果的相關(guān)系數(shù)也均達(dá)到了0.9 以上(圖8),說明基于LightGBM 回歸算法模型可以準(zhǔn)確地預(yù)測頁巖氣儲(chǔ)層目標(biāo)甜點(diǎn)參數(shù)。
圖8 LX08井甜點(diǎn)參數(shù)預(yù)測結(jié)果和巖心測試數(shù)據(jù)相關(guān)性分析Figure 8 Correlation analysis between prediction results of sweet spot parameters and core test data in Well LX08
與傳統(tǒng)的多元回歸、經(jīng)驗(yàn)公式、巖石體積物理解釋模型等相比,機(jī)器學(xué)習(xí)模型充分利用多元海量測井曲線的大數(shù)據(jù)特性,以及測井曲線數(shù)據(jù)和巖心樣本測試數(shù)據(jù)的非線性關(guān)系來進(jìn)行模型訓(xùn)練和預(yù)測,不需要太多考慮頁巖氣儲(chǔ)層的地質(zhì)差異性。本文采用的機(jī)器學(xué)習(xí)中基于LightGBM 回歸算法的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型可以很好地?cái)M合多測井曲線變量與目標(biāo)甜點(diǎn)參數(shù)之間的非線性關(guān)系,具有較強(qiáng)的泛化能力,是一種有效、低成本的預(yù)測方法。
1)頁巖氣儲(chǔ)層在礦物、有機(jī)質(zhì)、物性及含氣性等方面具有強(qiáng)的非均質(zhì)性,甜點(diǎn)參數(shù)(孔隙度、TOC、含氣量等)與測井曲線之間往往是復(fù)雜的非線性關(guān)系,多元回歸法和經(jīng)驗(yàn)公式法等常規(guī)方法難以精確計(jì)算頁巖氣儲(chǔ)層的甜點(diǎn)參數(shù)。
2)LightGBM 機(jī)器學(xué)習(xí)回歸算法具有訓(xùn)練效果好、不易過擬合及訓(xùn)練速度快等優(yōu)點(diǎn),在特征貢獻(xiàn)度分析和遞歸特征消除算法確定甜點(diǎn)參數(shù)評價(jià)指標(biāo)和帶交叉驗(yàn)證的網(wǎng)格搜索確定最優(yōu)模型超參數(shù)值的基礎(chǔ)上,構(gòu)建了基于LightGBM 回歸算法的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型。
3)運(yùn)用基于LightGBM 回歸算法的頁巖氣儲(chǔ)層甜點(diǎn)參數(shù)預(yù)測模型,對川南LZ地區(qū)未參與模型訓(xùn)練的LX08 井進(jìn)行甜點(diǎn)參數(shù)預(yù)測,預(yù)測結(jié)果與巖心實(shí)測值相關(guān)系數(shù)均達(dá)到0.9 以上,表明該方法具有較強(qiáng)的泛化能力,可有效預(yù)測復(fù)雜頁巖氣儲(chǔ)層甜點(diǎn)參數(shù),且成本低、可操作性強(qiáng),易于推廣。