摘要: 針對(duì)傳統(tǒng)巖性識(shí)別方法在處理測(cè)井曲線缺失、準(zhǔn)確性以及模型可解釋性等方面的不足,提出了一種基于MSCNN?GRU 神經(jīng)網(wǎng)絡(luò)補(bǔ)全測(cè)井曲線和Optuna 超參數(shù)優(yōu)化的XGBoost 模型的可解釋性的巖性識(shí)別方法。首先,針對(duì)測(cè)井曲線在特定層段丟失或失真的問題,引入了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)(MSCNN)與門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò)相結(jié)合的曲線重構(gòu)方法,為后續(xù)的巖性識(shí)別提供了準(zhǔn)確的數(shù)據(jù)基礎(chǔ);其次,利用小波包自適應(yīng)閾值方法對(duì)數(shù)據(jù)進(jìn)行去噪和歸一化處理,以減少噪聲對(duì)巖性識(shí)別的影響;然后,采用Optuna 框架確定XGBoost算法的超參數(shù),建立了高效的巖性識(shí)別模型;最后,利用SHAP 可解釋性方法對(duì)XGBoost 模型進(jìn)行歸因分析,揭示了不同特征對(duì)于巖性識(shí)別的貢獻(xiàn)度,提升了模型的可解釋性。結(jié)果表明,Optuna?XGBoost 模型綜合巖性識(shí)別準(zhǔn)確率為79. 91%,分別高于支持向量機(jī)(SVM)、樸素貝葉斯、隨機(jī)森林三種神經(jīng)網(wǎng)絡(luò)模型24. 89%、12. 45%、6. 33%?;贠ptuna?XGBoost 模型的SHAP 可解釋性的巖性識(shí)別方法具有更高的準(zhǔn)確性和可解釋性,能夠更好地滿足實(shí)際生產(chǎn)需要。
關(guān)鍵詞: 巖性識(shí)別,多尺度卷積神經(jīng)網(wǎng)絡(luò),門控循環(huán)單元神經(jīng)網(wǎng)絡(luò),XGBoost,超參數(shù)優(yōu)化,可解釋性
中圖分類號(hào):P631 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10. 13810/j. cnki. issn. 1000?7210. 20240144
0 引言
巖性數(shù)據(jù)在地質(zhì)研究工作中至關(guān)重要,如地層格架建立、沉積環(huán)境分析、儲(chǔ)層評(píng)價(jià)與建模等。其中,巖性識(shí)別和分類是核心。通過巖性識(shí)別和分類獲取儲(chǔ)層信息,可為油氣勘探與開發(fā)提供科學(xué)依據(jù)[1?4]。
傳統(tǒng)的測(cè)井巖性識(shí)別多是根據(jù)交會(huì)圖法[5],然而該方法主要依賴于地質(zhì)學(xué)家的經(jīng)驗(yàn)和知識(shí),并且通常需要大量的時(shí)間和人力資源,難以滿足現(xiàn)代石油勘探與開發(fā)的要求[6?9]。為了提高識(shí)別結(jié)果的準(zhǔn)確性和效率,研究人員利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行巖性識(shí)別,包括支持向量機(jī)[10?11]、決策樹[12]、隨機(jī)森林[13]等。它們通過從海量數(shù)據(jù)中學(xué)習(xí)、推斷模式和規(guī)律,能夠自動(dòng)化地進(jìn)行巖性識(shí)別[14]。然而,這些方法普遍采用單一的學(xué)習(xí)器進(jìn)行學(xué)習(xí),不能對(duì)錯(cuò)誤樣本進(jìn)行二次學(xué)習(xí),對(duì)巖性識(shí)別具有一定的局限性。
近年來,Chen 等[15]使用基于決策樹的集成學(xué)習(xí)模型XGBoost(eXtreme Gradient Boosting,極端梯度提升)進(jìn)行巖性識(shí)別,彌補(bǔ)了因單一學(xué)習(xí)器學(xué)習(xí)而導(dǎo)致低準(zhǔn)確率的不足。然而,XGBoost 模型在時(shí)間和資源方面消耗較大,缺乏對(duì)超參數(shù)的系統(tǒng)優(yōu)化。Dev 等[16]同樣采用了XGBoost 進(jìn)行巖性識(shí)別,通過實(shí)驗(yàn)分析表明該模型在巖性識(shí)別中具有優(yōu)勢(shì)。但是,手動(dòng)調(diào)整XGBoost 模型超參數(shù)過程耗時(shí)耗力,很難確定哪些參數(shù)在訓(xùn)練過程中對(duì)模型的性能產(chǎn)生了影響。因此,本文提出了使用Optuna 框架進(jìn)行XGBoost 超參數(shù)優(yōu)化的方法。Optuna 使用貝葉斯優(yōu)化算法,可以快速地找到最佳超參數(shù)組合,節(jié)省了時(shí)間和計(jì)算資源。它不僅可以找到最優(yōu)的超參數(shù),還能提供每個(gè)超參數(shù)的相對(duì)重要性。
然而,由于機(jī)器學(xué)習(xí)模型在內(nèi)部進(jìn)行的復(fù)雜計(jì)算過程和決策規(guī)則難以被外部理解和解釋,模型的預(yù)測(cè)結(jié)果缺乏可解釋性。為了解決這一問題,研究人員提出了一些提高機(jī)器學(xué)習(xí)模型可解釋的方法[17]。其中,Yang 等[18]使用沙普利附加解釋(Shap?ley Additive Explanations,SHAP)方法對(duì)決策路徑機(jī)器學(xué)習(xí)模型進(jìn)行可解釋性分析,分別從全局和局部角度研究了不同特征對(duì)模型中典型決策路徑的影響。Wu 等[19] 基于支持向量回歸(Support VectorRegression,SVR)和生成對(duì)抗網(wǎng)絡(luò)(Generative Ad?versarial Network,GAN)相結(jié)合的模型,采用SHAP 方法解釋了抗壓強(qiáng)度的輸入變量的重要性和貢獻(xiàn),提高了模型的可信度和適用性。但是,SHAP方法在測(cè)井巖性識(shí)別方面應(yīng)用的報(bào)道較少。因此,本文針對(duì)測(cè)井巖性識(shí)別問題,提出了基于Optuna 框架優(yōu)化的XGBoost 模型和SHAP 可解釋性的測(cè)井巖性識(shí)別方法。首先,針對(duì)缺失部分的測(cè)井曲線提出了一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi ? ScaleConvolution Neural Network,MSCNN)與門控循環(huán)單元(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)模型,其中MSCNN 在提取局部特征時(shí),允許在不同尺度下捕捉特征信息;GRU 神經(jīng)網(wǎng)絡(luò)有助于捕捉測(cè)井?dāng)?shù)據(jù)中的時(shí)序特性。然后,建立Optuna?XGBoost 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行巖性識(shí)別。最后,為解決“ 黑盒”性質(zhì)導(dǎo)致其難以解釋模型預(yù)測(cè)結(jié)果的問題,利用SHAP 方法對(duì)Optuna?XGBoost 模型進(jìn)行歸因分析。本文方法旨在為測(cè)井巖性識(shí)別領(lǐng)域提供新的思路和方法,推動(dòng)后續(xù)相關(guān)研究的深入發(fā)展。