中圖分類號:P631.8 文獻標志碼:A
Abstract: In the domains of oil and gas exploration and geoengineering, precise lithology identification holds paramount importance for the assessment and utilization of resources. The inherent complexity of geologic data and the imbalanced distribution of lithology samples pose significant challenges to traditional methods in terms of lithology identification. In this paper,we propose a methodology for lithology identification that combines SMOTE(synthetic minority over-sampling technique) with extra trees.Firstly,the SMOTE method is employed to enhance the representation of minority class samples,thereby improving the balance of the training data. Secondly,the lithology classification model is constructed using the high efficiency and strong generalization ability of extra trees. The experimental findings demonstrate that the recognition accuracy of extra trees is 85.54% , which is 5.58% , 2.55% , 2.35% ,and 2.08% higher than that of other machine learning methodsgradient boosting decision tree (GBDT),extreme gradient boosting (XGBoost),light gradient boosting machine(LightGBM),and random forest method,respectively. The prediction bias of the model caused by sample imbalance is mitigated by SMOTE sampling,resulting in enhanced recognition accuracy for specific lithology categories within each model. Consequently,this leads to an overall enhancement in the performance of the model. The extra trees model exhibits the best performance,achieving an identification accuracy of 86.62% ,which represents improvements of 4.71% , 2.56% , 1.55% ,and 2.02% over GBDT,XGBoost,LightGBM,and random forest,respectively. These results confirm the effectiveness of combining SMOTE with extra trees for lithology identification.
Key words:lithology identification; machine learning; random forest; extra trees; data balancing
0 引言
巖性識別是勘探和儲層評價等地質工作的基礎,在油氣勘探和開發(fā)中扮演著至關重要的角色[1-2],它不僅提升了鉆探效率,也對優(yōu)化油氣田的開發(fā)策略起到了核心作用。傳統(tǒng)的巖性識別方法如薄片分析、巖心觀察和物性測量等,依賴于地質學家的經(jīng)驗以及地質、物理和化學性質的綜合分析,往往耗時、成本高,且受限于樣本的可獲取性和質量[3]隨著測井技術的發(fā)展,常規(guī)測井曲線獲取方便且成本低,包含了地下儲集層巖性的豐富信息[4-5],利用測井曲線進行巖性識別成為常規(guī)方法[6],如交會圖法通過不同的測井曲線組合來識別巖石類型。由于測井巖石物理特征的復雜性,傳統(tǒng)的交會圖法在巖性區(qū)分上往往表現(xiàn)出較低的區(qū)分度和識別精度[7]
近年來,機器學習技術快速發(fā)展,在巖性識別中也得到了廣泛應用[8]。傳統(tǒng)方法在處理復雜地質數(shù)據(jù)時常常受限,難以有效捕捉測井數(shù)據(jù)與巖性之間的復雜非線性關系。機器學習在處理大規(guī)模和多維度數(shù)據(jù)方面具有獨特優(yōu)勢。機器學習主要分為監(jiān)督學習,如支持向量機(supportvectormachine,SVM)、 K 近鄰[9]( K -nearest neighbors,KNN)、隨機森林和多層感知機;半監(jiān)督學習,如生成對抗網(wǎng)絡[10]、變分自編碼器;無監(jiān)督學習,如 k -均值[11]、DBSCAN (density-based spatial clusteringofapplicationswithnoise)、層次聚類和強化學習(如Q 學習、蒙特卡羅樹搜索)。牟丹等[12]比較了三種機器學習算法—KNN、SVM和自適應增強在火山巖測井巖性識別中的應用,發(fā)現(xiàn)自適應增強算法識別精度最高;李曦等[13]提出基于粒子群優(yōu)化支持向量機的測井巖性識別方法,通過優(yōu)化SVM參數(shù),顯著提高了巖性識別的準確率和速度;江麗等[14詳細比較了多層感知機、決策樹、隨機森林和極端梯度提升(extreme gradient boosting,XGBoost)四種機器學習模型的表現(xiàn),結果顯示XGBoost在泛化性能上最優(yōu),準確率達到 95% ;谷宇峰等[15-17]在研究中采用梯度提升決策樹(gradientboostingdecisiontree,GBDT)、輕量級梯度提升機(lightgradientboosting machine,LightGBM) 和 XGBoost 進行巖性識別,同時采用網(wǎng)格搜索、粒子群優(yōu)化和連續(xù)受限玻爾茲曼機算法優(yōu)化了模型性能。Yan等[18]通過動態(tài)調整決策樹的權重和配置提升了識別的精度和效率;王新領等[19利用隨機樹嵌入方法將低維數(shù)據(jù)編碼為高維稀疏特征,提升了隨機森林算法的識別效果,且優(yōu)于極端隨機樹算法;安鵬、武中原等[20-21]利用多種測井參數(shù)和地質約束變量,通過構建深度神經(jīng)網(wǎng)絡模型進行了巖性識別;Lu等[22]利用
GraphSAGE(graph sample and agggregate)方法改進陸相頁巖的巖性識別,通過構建圖表和分類節(jié)點提高了識別準確率;Ren等[23]通過結合高斯混合模型估算概率密度以及主動學習和偽標簽檢測技術有效利用未標記數(shù)據(jù),提升了巖性識別的準確度和魯棒性;王宗俊等[24]利用貝葉斯概率模型進行無監(jiān)督學習,通過主成分分析和聚類分析實現(xiàn)了巖性的自動識別和分類。實際應用中常常面臨巖性類別不平衡的問題,即某些巖性類別的樣本數(shù)量遠多于其他類別。上述算法很少考慮到巖性多樣性的非均衡數(shù)據(jù)處理,數(shù)據(jù)不平衡會影響模型的訓練效果,制約模型對少數(shù)類巖性樣本的識別準確率。
本文提出一種基于合成少數(shù)類過采樣技術( syntheticminority over-samplingtechnique,SMOTE)結合極端隨機樹算法進行巖性識別的方法。通過SMOTE合成新的少數(shù)類樣本平衡訓練數(shù)據(jù)集,使模型在各類巖性上學習到更為豐富和廣泛的特征,減少因類不平衡導致的偏差;極端隨機樹隨機選擇特征和分裂點,增加模型隨機性,采用集成學習方式提高模型對數(shù)據(jù)變化的適應性和泛化能力。該方法旨在提高少數(shù)巖性類別的識別精度,進而提升模型的整體分類性能。
1 方法原理
1.1 SMOTE
SMOTE是Chawla等[25]在2002年提出的一種解決分類問題中類別不平衡的方法,主要采用KNN技術,通過生成合成樣本來增加少數(shù)類的數(shù)量,從而達到類別均衡的目的。SMOTE的基本思想是對少數(shù)類別中的每個樣本,從其最近鄰中隨機選取若干個樣本,然后在這些樣本和選定樣本之間插人新的合成樣本(圖1)。假設訓練集樣本 s 包含N 個樣本 {Xi,yi},i=1 ,2,…, N ,每個樣本包含M 個特征, yi∈Y 是類標簽,SMOTE步驟如下。
1)選擇樣本。從數(shù)據(jù)集中的少數(shù)類樣本中隨機選擇一個樣本點 Xi 作為目標樣本。
2)找到 K 近鄰。計算 Xi 與少數(shù)類樣本之間的歐幾里得距離,找出 K 個最近鄰居。
3)生成合成樣本。對于每個選中的近鄰 Xk ,計算 Xi 與 Xk 之間的差異 Dk=∣Xk-Xi∣ ,生成新樣本Xnewk,
式中: k∈[1,K]; !為[0,1]區(qū)間內的隨機數(shù),用于控制新樣本與原樣本和近鄰之間的相似度。
圖1 SMOTE示意圖
Fig.1 SchematicillustrationofSMOTE
隨機過采樣(random over-sampleing,ROS)方法僅通過隨機復制原始少數(shù)樣本來平衡數(shù)據(jù)集,無法避免過度擬合的風險;SMOTE通過引入新的、人工合成的樣本而非簡單重復少數(shù)類樣本,能夠在一定程度上增強模型的泛化能力。
1.2 隨機森林
隨機森林是Breiman[26]提出的一種集成學習算法。包括兩個關鍵的隨機過程:首先,在數(shù)據(jù)層面,隨機森林對原始數(shù)據(jù)集進行有放回的抽樣(Bootstrap抽樣),形成多個子集,每個子集用來訓練一棵決策樹;其次,在特征層面,每次節(jié)點分裂時并不使用所有特征,而是從特征集合中隨機選取一部分特征,進一步增加了模型的多樣性。這兩種隨機性的引入有效減少了模型的過擬合風險,增強了泛化能力。隨機森林通過聚合所有決策樹的預測結果做出最終決策[27],通常采用多數(shù)投票法確定分類任務的輸出(圖2)。隨機森林算法步驟如下。
1)隨機選擇樣本。從訓練集S中通過Boostrap方式抽樣,生成新訓練集 Si 用于每棵決策樹的訓練。
2)隨機選擇特征。在每棵決策樹的每個節(jié)點上,從所有特征 M 中隨機選擇一部分特征 Ψm ( ?m? M )進行節(jié)點分裂。
3)構建決策樹。對于每棵決策樹,使用選定的樣本和特征構建決策樹模型。通常采用的是分類與回歸樹算法。在每個節(jié)點上,計算基尼不純度選擇最優(yōu)屬性分裂節(jié)點,樹的生成過程中不剪枝,迭代此過程,直到滿足停止條件為止。
基尼不純度是一個衡量數(shù)據(jù)集分裂后不純度的指標,其值越小表示數(shù)據(jù)集中的目標變量越純凈。基尼不純度計算公式如下:
式中: Gi 為節(jié)點 i 的基尼不純度; pik 為在節(jié)點 i 中屬于類 k 的樣本比例; K 為目標變量的類別總數(shù)。
圖2 隨機森林示意圖
Fig.2 Schematic illustration of random forest
分裂特征選擇 ΔG (分裂導致的基尼不純度)最大化,即最大程度降低不純度的分裂點。在隨機選定的特征子集中,計算每個特征分裂過程中的基尼不純度。分裂后的基尼不純度公式為
式中: Ni 為在節(jié)點 i 中的樣本總數(shù); Nleft 和 Nright 分別為分裂后左右子節(jié)點的樣本數(shù); Gleft 和 Gright 分別為左右子節(jié)點的基尼不純度。
4)重復以上步驟,構建多棵決策樹,直到達到預 定的決策樹數(shù)量。
5)對于分類問題,每棵決策樹投票選擇最終的類別標簽。
式中: YRF(x) 為隨機森林的預測結果; Ψc 為類別; 為隨機森林中決策樹的數(shù)量; I(x) 為指示函數(shù); fi(x) 為第 i 棵決策樹的預測結果。
1.3 極端隨機樹
極端隨機樹是Geurts等[28]提出的一種集成學習算法,類似于隨機森林。與隨機森林的兩點不同之處為:采樣方式不同,隨機森林采用有放回的隨機采樣選擇每個決策樹的訓練集,而極端隨機樹中每個決策樹訓練時均采用原始訓練集;選擇分裂節(jié)點方式不同,在隨機森林中,節(jié)點分裂時選擇最優(yōu)特征分割點,極端隨機樹的分割點是隨機選取的。
表1是決策樹、隨機森林和極端隨機樹的特性對比。隨機森林從原始數(shù)據(jù)集中使用有放回的抽樣方法隨機選擇樣本,會導致一些樣本可能會重復選擇,一些樣本可能不被選中,而極端隨機樹中每棵決策樹都基于整個數(shù)據(jù)集訓練得到,保證了樣本的利用率,能一定程度上減少最終預測偏差;決策樹間的隨機性會有所降低,但極端隨機樹通過隨機化劃分節(jié)點引人更多的隨機性,對噪聲數(shù)據(jù)和特征之間的冗余性具有更好的魯棒性;極端隨機樹中決策樹的規(guī)模大于隨機森林,模型方差減小,相比于隨機森林泛化能力更強、訓練速度更快。
1.4 模型評估方法
交叉驗證是將數(shù)據(jù)集劃分為 k 個子集,其中一個子集被保留作為測試集,其余 k-1 個子集用于訓練模型。交叉驗證分數(shù)是在每個測試集上計算的模型性能指標的平均值,可以更全面地評估模型的性能,減小因為單次劃分帶來的隨機性。本研究采用分層交叉驗證,即在每個子集(折)的數(shù)據(jù)中保持原始數(shù)據(jù)集中各類別的比例。
混淆矩陣用于描述模型在不同類別上的預測結果,幫助評估模型的分類準確性和錯誤情況(表2)。通過混淆矩陣,可以計算出模型的準確率 (A )、精確率 (P) 、召回率 (R)λ,F(xiàn)1 分數(shù)和幾何平均值 (Gmean )等評估指標,從而更全面地評估模型的性能。準確率是用于衡量分類模型整體性能的指標;精確率用于衡量模型在預測為正類別的樣本中,真正為正類別的樣本所占的比例;召回率用于衡量模型在所有真
表1決策樹、隨機森林和極端隨機樹的特性對比
le1Comparison of the characteristics of decision tree,random forest,and extra tree
表2混淆矩陣
Table 2 Confusion matrix
注:TP.真正類;FN.假負類;FP.假正類;TN.真負類。
正為正類別的樣本中成功預測為正類別的比例; F1 分數(shù)是精確率和召回率的調和平均值,用于衡量模型在正類別的識別和預測方面的綜合表現(xiàn);幾何平均值通過計算所有類別召回率的幾何平均來衡量模型性能。公式如下:
式中, nTP?nFN?nFP 和 nTN 分別為真正類、假負類、假正類和真負類的樣本數(shù)。
接受者操作特征(receiveroperatingcharacteristic,
ROC)曲線基于真正例率和假正例率展示了在不同分類閾值下,模型在識別正例和負例方面的性能。真正例率為真正例與所有實際正例的比例,假正例率為假正例與所有實際負例的比例。ROC曲線上分布的點越靠近左上角,表示模型性能越好。AUC(areaunderthecurve)是ROC曲線下(ROC曲線與橫軸之間)的面積,可以用來比較不同模型的性能[29]。AUC越大表示模型性能越好。
2 測井數(shù)據(jù)集分析與處理
2.1 數(shù)據(jù)集介紹
本實驗研究數(shù)據(jù)是大慶油田某工區(qū)的實際測井曲線。選取的數(shù)據(jù)集共4954個樣本,部分數(shù)據(jù)集如圖3a所示。測井曲線采樣間隔為 0.125m ,包含自然電位 (VSP )、自然伽馬(GR)、聲波時差(AC)、淺側向電阻率 (RLLS )、深側向電阻率 (RLLD )、補償密度(DEN)和井徑(CAL)7種特征曲線及泥巖、粉砂巖、泥質粉砂巖、粉砂質泥巖和油頁巖5種巖性,其中泥巖數(shù)量為2461;粉砂巖數(shù)量為689;泥質粉砂巖數(shù)量為915;粉砂質泥巖數(shù)量為820;油頁巖數(shù)量為69。采用 7:3 的比例隨機劃分訓練集為3467個樣本點和測試集為1487個樣本點,巖性呈現(xiàn)不均衡分布,如圖3b所示。
2.2 數(shù)據(jù)預處理
測井數(shù)據(jù)中可能包含由于設備故障、操作錯誤或極端地質條件產(chǎn)生的異常值。測井數(shù)據(jù)基本符合
正態(tài)分布[3o],依據(jù)拉依達準則(pautacriterion)檢測異常值,用相鄰正常值的均值填充異常值,使數(shù)據(jù)更加可靠。根據(jù)拉依達準則,若 Xi 不滿足式(10),則為異常值。部分測井曲線 RLLD 異常值處理前后的曲線如圖4所示。
式中: 為均值; Xσ 為標準差。
圖4部分 RLLD 特征曲線去野值對比曲線圖Fig.4 Comparison chart of partial RLLD feature curves withoutliersremoved
測井數(shù)據(jù)涉及多種不同的物理量度,對其進行最大最小歸一化處理,確保不同特征之間在量級上保持一致。將各屬性的取值范圍調整到[0,1之間,歸一化公式為
式中: Xnorm 為歸一化后的數(shù)據(jù); X 為原始數(shù)據(jù); Xmax
和 Xmin 分別為數(shù)據(jù)集中的最大值和最小值。
2.3 測井數(shù)據(jù)敏感性分析
圖5和圖6展示了不同測井參數(shù)對巖性識別的貢獻和分布情況。交會圖方法通過比較不同巖性數(shù)據(jù)點的聚集區(qū)域判別巖性,圖5是部分測試數(shù)據(jù)集的巖性交會圖,可以看出不同巖性的測井數(shù)據(jù)分布具有較大的重疊區(qū),只能進行粗略判別。小提琴圖結合了箱形圖和核密度估計的特點,可視化了數(shù)據(jù)分布的密度和范圍,有助于比較不同數(shù)據(jù)組的分布差異。通過分析各特征的小提琴圖(圖6)可以觀察到,不同巖性的測井響應特征表現(xiàn)出一定的差異,如泥巖和油頁巖的聲波時差較高,而粉砂巖和泥質粉砂巖的聲波時差較低;泥巖、粉砂質泥巖和油頁巖的自然伽馬較高,而粉砂巖的自然伽馬較低;泥巖和粉砂質泥巖的電阻率較低,而粉砂巖的電阻率較高。這些差異說明,利用這些測井曲線參數(shù)進行巖性識別具有一定的可行性。
2.4 SMOTE采樣
訓練集經(jīng)過SMOTE采樣前后的巖性數(shù)量如表3所示,巖性占比如圖7所示。t-SNE(t-distributed stochastic neighbor embedding)[31]是一種非線性降維方法,常用于高維數(shù)據(jù)集的可視化[32]。其核心原理是通過概率分布的方式在低維空間中模擬高維數(shù)據(jù)點之間的相似性,t-SNE保持了原高維數(shù)據(jù)中點與點之間的相對距離和結構,使得相似的數(shù)據(jù)點在低維空間中也相鄰。為了更清楚地觀察到SMOTE采樣前后的樣本點分布變化,使用 t-SNE 將高維樣本壓縮到二維空間,訓練集分層抽樣 30% 的樣本經(jīng)過SMOTE采樣前后的 t-SNE 圖如圖8所示,可以看出,采樣后(圖8b)少數(shù)類別的簇相比于采樣前(圖8a)分界更加明確,分離更加清晰,類別之間更易區(qū)分。
3 實驗環(huán)境及模型構建
3.1 實驗環(huán)境
本研究硬件實驗環(huán)境:Intel(R)Core(TM)i5-10210U CPU (∞1.60GHz 2.11GHz 、內存為16GB;軟件實驗環(huán)境:64位WindowslO操作系統(tǒng)、Python3.7.6、PyCharm-Professional 2022.2和scikit-learnO.20.1。
3.2 模型構建
為了評估SMOTE采樣后極端隨機樹的性能,選取GBDT、XGBoost、LightGBM和隨機森林模型進行對比實驗,每個模型獨立地在訓練集上進行訓練,然后用訓練好的模型在測試集上進行測試,得到巖性識別結果。實驗結構如圖9所示。
3.3 超參數(shù)設置
在訓練集上采用5折交叉驗證的策略進行參數(shù)調優(yōu)。通過網(wǎng)絡搜索的方式分別尋找各模型的最優(yōu)樹的數(shù)量和樹的深度,樹的數(shù)量尋優(yōu)范圍為[200,300,500]。在原始訓練數(shù)據(jù)集中:GBDT、XGBoost、LightGBM、隨機森林和極端隨機樹中最優(yōu)樹的數(shù)量均為3OO;GBDT中樹的深度為4,XGBoost中樹的深度為5。SMOTE采樣后:隨機森林的最優(yōu)樹的數(shù)量為300,其余4個模型最優(yōu)樹的數(shù)量為500;GBDT中樹的深度為4,XGBoost中樹的深度為6。采樣前后LightGBM、隨機森林和極端隨機樹的深度均為“None”;隨機森林和極端隨機樹的max_features設為“sqrt”,其他參數(shù)為默認值。
圖5部分測試數(shù)據(jù)的巖性交會圖
圖6不同巖性的測井曲線響應數(shù)據(jù)分布
Fig.6 Distribution of well logging curve response data for different lithologies
表3訓練集采樣前后的巖性分布
Table 3 Distribution of lithologiesin the training set before and after sampling
SMOTE的 K 值尋優(yōu)范圍為[1,2,3,4,5,6,7」,綜合考慮各模型在不同參數(shù)下的交叉驗證平均準確率和標準差的均值,本研究 K 值取5。
4實驗結果分析
4.1 模型有效性評估
GBDT、XGBoost、LightGBM、隨機森林和極端隨機樹依次在訓練集上進行交叉驗證來評估模型的性能,排除樣本劃分的偶然性,即將訓練集平均分為5份,其中每份依次作為驗證集,其余四份作為訓練集進行模型訓練來評估每個模型的平均分數(shù)和標準差,同時通過SMOTE對劃分出來的新訓練集進行采樣,結果如表4所示。平均分數(shù)用來評價模型的平均性能,標準差衡量模型性能的穩(wěn)定性??梢钥闯?,相較于其他模型,極端隨機樹在SMOTE采樣前后平均分數(shù)均最高,分別為 83.16% 和 84.08% ,且有較小的標準差0.0152和0.0104。
圖10可視化了不同模型在不同測試數(shù)據(jù)子集上的識別準確率,可以看出,極端隨機樹在不同子集上的準確率均高于其他模型,進一步驗證了極端隨機樹的穩(wěn)定性和可靠性。
圖7訓練集采樣前后巖性占比
圖8部分訓練集采樣前(a)后(b)巖性t-SNE分布
Fig.8Partial training set lithology t-SNE distribution before (a) and after (b) samplin
表4不同模型交叉驗證的結果
Table4Resultsof cross-validation fordifferentmodels
4.2 測試結果分析
SMOTE平衡訓練數(shù)據(jù)集前后不同模型在測試集上的性能比較如表5所示,包括準確率、精確率、召回率、 Fi 分數(shù)和幾何平均值5個評價指標??梢钥闯?,平衡數(shù)據(jù)前:極端隨機樹的準確率為 85.54% ,相比GBDT、XGBoost、LightGBM和隨機森林分別提高了 5.58%.2.55%.2.35% 和 2.08% ;精確率為87.34% , F1 分數(shù)為 84.22% ,幾何平均值為 81.51% ,均高于其他模型;召回率為 81.82% ,略低于XGBoost的 81.85% 。平衡數(shù)據(jù)后,大多數(shù)模型中準確率、召回率、 F1 分數(shù)和幾何平均值顯著提升:極端隨機樹的準確率達到最高,為 86.62% ,相比采樣前提高了 1.08% ,相比GBDT、XGBoost、LightGBM和隨機森林分別提高了 4.71%.2.56%.1.55% 和2.02% ;精確率、召回率、 F1 分數(shù)和幾何平均值達到最高,分別為 84.04%.87.10%.85.42% 和 86.78% ,分類結果更加準確和均衡。
圖10訓練集5折交叉驗證準確率可視化
Fig.10 Visualization of 5-fold cross-validation accuracy on the training set
表5不同模型采樣前后的評價指標
Table5 Evaluation metrics before and after sampling for different models
SMOTE平衡數(shù)據(jù)后,極端隨機樹的ROC曲線更接近左上角,具有最高的AUC值(0.9789)。
為進一步驗證SMOTE的有效性,對比了采樣方法ALLKNN、OSS(one-sided selection)、ROS和ADASYN(adaptive synthetic sampling)結合極端隨機樹在測試集上的性能,不同采樣方法的ROC曲線如圖11b所示。從圖11b中可以看出,SMOTE的AUC為0.9789,相較于其他采樣方法是最高的。ROS簡單重復現(xiàn)有樣本,而SMOTE通過在少數(shù)類樣本間進行插值生成新的合成樣本,增加了數(shù)據(jù)的多樣性;ALLKNN和OSS主要通過欠采樣多數(shù)類或清洗噪聲數(shù)據(jù)來平衡類分布,導致了重要信息的丟失;ADASYN側重于自適應地調整那些被認為更“困難\"的樣本,而SMOTE通過均勻地在少數(shù)類樣本間插值,可以更好地保持原始數(shù)據(jù)的分布特性。
圖12是不同模型的混淆矩陣,混淆矩陣中對角線上的值越大,表示模型對各類別的識別準確性越高??梢钥闯觯篠MOTE采樣前,極端隨機樹中泥巖、粉砂巖、泥質粉砂巖、粉砂質泥巖和油頁巖被正確識別的樣本數(shù)分別為688、173、222、174和15(圖12e),整體結果優(yōu)于其他模型;SMOTE采樣后,極端隨機樹中泥巖、粉砂巖、泥質粉砂巖、粉砂質泥巖和油頁巖被正確識別的樣本數(shù)分別為673、179、222、196和18,相比采樣前極端隨機樹分類結果更加均衡,少數(shù)類別的識別能力也有所提升(圖12f)。
各巖性SMOTE采樣前后各模型的精確率、召回率和 F1 分數(shù)如表6、表7和表8所示。可以看出,極端隨機樹在SMOTE采樣前后大多數(shù)巖性的精確率、召回率和 F1 分數(shù)均優(yōu)于其他模型;各模型在SMOTE采樣后,少數(shù)巖性類別召回率整體上有所提升,粉砂巖、粉砂質泥巖和油頁巖的召回率顯著提升,分別提升了 2.72%.9.06% 和 16.67% ,泥質粉砂巖的召回率持平(表7)。
圖11不同模型和采樣方法的ROC曲線
Fig.11ROC curves for different models and sampling methods
圖12 不同模型的混淆矩陣
Fig.12 Confusion matrices of different models
表6各模型中不同巖性的精確率
表7各模型中不同巖性的召回率
表8各模型中不同巖性的 分數(shù)
Table8 scoresofdifferent lithologiesineachmodel
圖13通過直觀的條形高度差異,展示了各模型在不同巖性上的性能強弱和穩(wěn)定性??梢钥闯觯簶O端隨機樹的精確率、召回率和 F1 分數(shù)整體高于GBDT、XGBoost(XGB)、LightGBM(LGBM)和隨機森林;SMOTE采樣后,極端隨機樹結合SMOTE′ET+SM) 模型中少數(shù)巖性類別的召回率柱子整體上有所增高,表明少數(shù)巖性類別的識別準確率有所提升。
圖13各模型中不同巖性評價指標的可視化
Fig.13Visualization of evaluation metrics for different lithologies in each model
5 結論
1)在處理類別不平衡的數(shù)據(jù)集時,模型易受到多數(shù)類別的支配,導致對少數(shù)類別的識別能力弱。使用SMOTE技術生成少數(shù)巖性類別樣本來平衡訓練數(shù)據(jù)集,不僅能增強少數(shù)巖性類別的表征,而且使模型能夠更全面地學習到各類巖性的特征,顯著提升了模型的整體性能和泛化能力。
2)對比實驗結果表明:在應用SMOTE平衡數(shù)據(jù)前后,極端隨機樹在巖性識別中性能均優(yōu)于GBDT、XGBoost、LightGBM和隨機森林;數(shù)據(jù)平衡后,提高了各模型對少數(shù)類巖性的識別精度,各模型整體識別準確率均有所提升,其中SMOTE結合極端隨機樹表現(xiàn)最佳,識別準確率最高,達到了86.62% 。
3)本研究為處理類別不平衡的地質數(shù)據(jù)提供了參考,展示了SMOTE結合極端隨機樹在巖性識別中的應用潛力。
參考文獻(References):
[1] Shi H, ΔXuZH ,Lin P,et al. Refined LithologyIdentification: Methodology,Challenges and Prospects[J].Geoenergy Science and Engineering,2O23,231:
212382.
[2] Yu Z,Wang Z,Zeng F,et al. Volcanic LithologyIdentification Based on Parameter-Optimized GBDTAlgorithm:ACaseStudy in theJilin Oilfield,SongliaoBasin,NE China[J]. Journal of Applied Geophysics,
2021,194:104443.
[3] 許振浩,馬文,李術才,等.巖性識別:方法、現(xiàn)狀及智能化發(fā)展趨勢[J].地質論評,2022,68(6):2290-
2304.Xu Zhenhao,Ma Wen,Li,Shucai,et al.LithologyIdentification:Method, ResearchStatus andIntelligent Development Trend[J].Geological Review,
2022,68(6):2290-2304.
[4] Li Z,Deng S,Hong Y,et al. A Novel Hybrid CNN-SVM Method for Lithology Identification in Shale
[5]Zhu X,Zhang H,Zhu R,et al.Classification withNoisy Labels Through Tree-Based Models and Semi-Supervised Learning: A Case Study of LithologyIdentification[J]. Expert Systems with Applications,2024,240:122506.
[6]Shuvo M A I, Joy S M H. A Data Driven Approach toAssess the Petrophysical Parametric Sensitivity forLithology Identificationbased on Ensemble Learning[J].Journal of Applied Geophysics, 2024, 222:105330.
[7]Han R Y,Wang Z W,Xu F H,et al.LithologyIdentification of Igneous Rocks Based on XGboost andConventional Logging Curves: A Case Study of theEastern Depression of Liaohe Basin[J]. Journal ofApplied Geophysics,2021,195:104480.
[8]Kumar T, Seelam N K,Rao G S. Lithology Predictionfrom Well Log Data Using Machine LearningTechniques:A Case Study from Talcher Coalfield,Eastern India [J]. Journal of Applied Geophysics,2022,199:104605.
[9]郭雨姍,王萬銀.基于特征加權的 KNN 模型巖性識別方法[J].物探與化探,2024,48(2):428-436.Guo Yushan, Wang Wanyin. A Method for IdentifyingLithology Based on a Feature-Weighted KNN Model[J]. Geophysical and Geochemical Exploration,2024,48(2):428-436.
[10] Zhao F,Yang Y,Kang J,et al. CE - SGAN:Classification Enhancement Semi-SupervisedGenerative Adversarial Network forLithologyIdentification[J].Geoenergy Science andEngineering,2023,223:211562.
[11]Ren Q,Zhang H,Zhang D,et al.A Novel HybridMethod of Lithology Identification Based on K-Means ++ Algorithm and Fuzzy Decision Tree[J].Journal of Petroleum Science and Engineering,2022,208:109681.
[12]牟丹,張麗春,徐長玲.3種經(jīng)典機器學習算法在火山巖測井巖性識別中的對比[J].吉林大學學報(地球科學版),2021,51(3):951-956.Mu Dan, Zhang Lichun,Xu Changling.Comparisonof Three Classical Machine Learning Algorithms forLithology Identification of Volcanic Rocks Using WellLogging Data[J]. Journal of Jilin University (EarthScience Edition),2021,51(3):951-956.
[13]李曦,范翔宇,王兆峰,等.基于PSO-SVM的測井Li Xi,F(xiàn)an Xiangyu,Wang Zhaofeng,et al.LoggingLithology Identification Method Research Based onPSO - SVM: A Case Study of Paleozoic ( Pz )Reservoir in the K Oilfield,South Turgay Basin,Kazakhstan[J]. Progress in Geophysics, 2022,37(2):617-626.
[14]江麗,張智謨,王琦瑋,等.基于不同機器學習模型的石油測井數(shù)據(jù)巖性分類對比研究[J].物探與化探,2024,48(2):489-497.Jiang Li, Zhang Zhimo, Wang Qiwei, et al.Comparative Study on Lithology Classification of OilLogging Data Based on Different Machine LearningModels[J].GeophysicalandGeochemicalExploration,2024,48(2): 489-497.
[15]谷宇峰,張道勇,鮑志東.利用混合模型CRBM-PSO-XGBoost識別致密砂巖儲層巖性[J].石油與天然氣地質,2021,42(5):1210-1222.Gu Yufeng, Zhang Daoyong,Bao Zhidong.LithologyIdentification in Tight Sandstone Reservoirs UsingCRBM- PSO - XGBoost[J]. Oil amp; Gas Geology,2021,42(5):1210-1222.
[16]谷宇峰,張道勇,鮑志東,等.利用GS-LightGBM機器學習模型識別致密砂巖地層巖性[J].地質科技通報,2021,40(4):224-234.Gu Yufeng, Zhang Daoyong,Bao Zhidong,et al.Lithology Prediction of Tight Sandstone FormationUsing GS - LightGBM Hybrid Machine LearningModel[J]. Geological Science and TechnologyBulletin,2021,40(4):224-234.
[17]谷宇峰,張道勇,鮑志東,等.GBDT識別致密砂巖儲層巖性[J].地球物理學進展,2021,36(5):19561965.Gu Yufeng, Zhang Daoyong,Bao Zhidong,et al.Lithology Prediction of Tight Sandstone ReservoirsUsing GBDT[J]. Progress in Geophysics, 2021,36(5):1956-1965.
[18]Yan T,Xu R,Sun S H,et al. A Real-TimeIntelligent Lithology Identification Method Based on aDynamic Felling Strategy Weighted Random ForestAlgorithm[J].Petroleum Science,2024,21(2):1135 -1148.
[19]王新領,祝新益,張宏兵,等.基于隨機樹嵌入的隨鉆測井巖性識別方法[J].吉林大學學報(地球科學版),2024,54(2):701-708.Wang Xinling, Zhu Xinyi,Zhang Hongbing,et al.Lithology Identification Method for Logging WhileDrilling Based on Random Tree Embedding [J].Journal of Jilin University (Earth Science Edition),2024,54(2):701-708.
[20]安鵬,曹丹平.基于深度學習的測井巖性識別方法研究與應用[J].地球物理學進展,2018,33(3):1029-1034.An Peng,Cao Danping. Research and Application ofLogging Lithology Identification Based on DeepLearning[J]. Progress in Geophysics,2018,33(3):1029 -1034.
[21]武中原,張欣,張春雷,等.基于LSTM循環(huán)神經(jīng)網(wǎng)絡的巖性識別方法[J].巖性油氣藏,2021,33(3):120-128.Wu Zhongyuan, Zhang Xin, Zhang Chunlei,et al.Lithology Identification Based on LSTM RecurrentNeural Network[J]. Lithologic Reservoirs,2021,33(3):120-128.
[22]Lu G, Zeng L,Dong S,et al. Lithology IdentificationUsing Graph Neural Network in Continental Shale OilReservoirs: A Case Study in Mahu Sag, JunggarBasin,Western China[J]. Marine and PetroleumGeology,2023,150:106168.
[23]Ren Q,Zhang H,Zhang D,et al.A Framework ofActive Learning and Semi-Supervised Learning forLithology Identification Based on Improved NaiveBayes[J]. Expert Systems with Applications,2022,202:117278.
[24]王宗俊,董洪超,范廷恩,等.基于無監(jiān)督學習的測井巖相分析技術及其應用[J].石油物探,2021,60(3):403-413.Wang Zongjun, Dong Hongchao, Fan Ting'en, et al.Logging Lithofacies Analysis Based on UnsupervisedLearning[J]. Geophysical Prospecting for Petroleum,2021,60(3),403-413.
[25」 Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:SyntheticMinority Over-SamplingTechnique [J]. Journal of Artificial IntelligenceResearch,2002,16:321-357.
[26] Breiman L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[27]付海濤,張智勇,王增輝,等.改進 SHO算法優(yōu)化隨機森林模型[J].吉林大學學報(理學版),2025,63(3):861-866.Fu Haitao, Zhang Zhiyong,Wang Zenghui,et al.Improve SHO Algorithm to Optimize Random ForestModel[J]. Journal of Jilin University (ScienceEdition),2025,63(3):861-866.
[28] Geurts P, Ernst D, Wehenkel L. ExtremelyRandomized Trees[J].Machine Learning,2006,63(1):3-42.
[29] 周程陽,劉偉,吳天潤,等.基于混合專家模型的巖石薄片圖像分類[J].吉林大學學報(理學版),2024,62(4):905-914.Zhou Chengyang,Liu Wei ,Wu Tianrun,et al.Classification of Rock Thin Section Images Based onMixture of Expert Model [J]. Journal of JilinUniversity(Science Edition),2024,62(4):905-914.
[30] Zhu X,Zhang H,Ren Q,et al.An AutomaticIdentification Method of Imbalanced Lithology Basedon Deep Forest and K-Means SMOTE[J]. GeoenergyScience and Engineering,2023,224:211595.
[31]Maaten V,Hinton G. Visualizing Data Using t-SNE[J]. Journal of Machine Learning Research,2008,9(11):2579-2605.
[32]Ji C, Yu K, Wei X Z, et al. Active DomainAdaptation with Application to Intelligent LoggingLithology Identification[J]. IEEE Transactions onCybernetics,2021,52(8):8073-8087.