王懷秀 ,馮思怡 ,劉最亮
(1.北京建筑大學(xué) 電氣與信息工程學(xué)院, 北京 102616;2.華陽(yáng)新材料科技集團(tuán)有限公司, 山西 陽(yáng)泉 045000)
隨著煤炭資源向深部開采,煤層開采難度增大,各種復(fù)雜的地質(zhì)構(gòu)造嚴(yán)重影響煤礦開采人員安全。地震屬性就是經(jīng)過數(shù)學(xué)變換而導(dǎo)出的有關(guān)地震波的幾何形態(tài)、運(yùn)動(dòng)學(xué)特征、動(dòng)力學(xué)特征和統(tǒng)計(jì)學(xué)特征,通過對(duì)地震屬性進(jìn)行分析,并做出標(biāo)定,消除畸變,就有可能揭示有關(guān)儲(chǔ)層信息。然而地下地質(zhì)情況的復(fù)雜性和地震信息的影響因素太多,存在較大的不確定性或模糊性,應(yīng)用任何單一的地震屬性都不能準(zhǔn)確地進(jìn)行構(gòu)造識(shí)別,展開地震多屬性融合分析就顯得十分必要。
地震屬性融合的研究有很多種,BALCH[1]于1971 年將地震資料用彩色進(jìn)行顯示,提高了對(duì)地下地質(zhì)異常的識(shí)別能力。2002 年,我國(guó)樂友喜教授[2]優(yōu)先將聚類分析的方法應(yīng)用于地震屬性融合,多元線性回歸法[3]也可以用于屬性融合(季玉新和歐欽,2003)。隨著大數(shù)據(jù)時(shí)代的來臨,目前發(fā)展較快的是基于地震屬性數(shù)據(jù)的融合,即通過數(shù)學(xué)統(tǒng)計(jì)、人工智能等方式提取最優(yōu)地震屬性,如2010 年,曹琳昱[4]首次將基于粒子群優(yōu)化的 BP 網(wǎng)絡(luò)技術(shù)應(yīng)用于多屬性融合中。神經(jīng)網(wǎng)絡(luò)融合屬性法識(shí)別速度很快,并且自適應(yīng)性以及容錯(cuò)能力強(qiáng),該方法適用范圍廣。但這種方法不能自主優(yōu)選屬性,同時(shí)需要足夠的樣本數(shù)據(jù)來對(duì)網(wǎng)格進(jìn)行訓(xùn)練;2012 年,Bruno 將 PCA[5]用于斷層屬性的融合,通過對(duì)地震屬性進(jìn)行 PCA 融合,得到了融合后的新屬性,對(duì)于微小斷層識(shí)別的準(zhǔn)確度有了較大的提高。但是PCA 是一種線性降維方法,當(dāng)數(shù)據(jù)中存在非線性關(guān)系的時(shí)候,PCA 的效果會(huì)大打折扣;2017 年,孫振宇[6]將SVM 算法用于地震小斷層識(shí)別,SVM 模型融合各屬性預(yù)測(cè)斷層的優(yōu)勢(shì),從不同的角度挖掘斷層信息,降低了解釋人員主觀因素對(duì)解釋結(jié)果的影響。但是在構(gòu)建SVM 模型時(shí),模型本身的結(jié)構(gòu)直接影響模型識(shí)別準(zhǔn)確率,且地震屬性的選擇對(duì)模型準(zhǔn)確率影響也很大。
近年來,地震屬性融合技術(shù)發(fā)展迅速,已廣泛應(yīng)用于儲(chǔ)層預(yù)測(cè)[7-8]、砂體預(yù)測(cè)[9-10]、構(gòu)造識(shí)別等各個(gè)領(lǐng)域。在地震屬性融合過程中,需要解決的關(guān)鍵問題是選擇一種準(zhǔn)確率高并且適用于多種樣本數(shù)據(jù)集的算法,能夠更有效地對(duì)地震屬性數(shù)據(jù)進(jìn)行解釋,提高構(gòu)造識(shí)別模型的準(zhǔn)確率。
隨機(jī)森林算法作為一種高度靈活的算法近年來廣受歡迎,擁有廣泛的應(yīng)用前景。在當(dāng)前所有的算法中,作為一種集成算法的隨機(jī)森林算法本身精度比大多數(shù)單個(gè)算法好,準(zhǔn)確性高,且對(duì)數(shù)據(jù)集的要求不高,適用于多種數(shù)據(jù)集(線性與非線性、高維數(shù)據(jù)集等)。隨機(jī)森林算法的隨機(jī)性在于2 個(gè)方面:①每棵樹的訓(xùn)練樣本是隨機(jī)的,②樹中每個(gè)節(jié)點(diǎn)的分裂屬性集合也是隨機(jī)選擇確定的。正因?yàn)檫@兩個(gè)隨機(jī)性,隨機(jī)森林對(duì)噪聲數(shù)據(jù)不敏感,克服了過擬合的問題。但是目前為止,對(duì)隨機(jī)森林中決策樹的數(shù)量k、單棵決策樹的最大特征數(shù)m等參數(shù)進(jìn)行優(yōu)化與選擇的研究還比較少,一般情況下都是通過經(jīng)驗(yàn)選擇參數(shù),往往可能不是最優(yōu)參數(shù)。
針對(duì)上述問題,提出一種改進(jìn)的網(wǎng)格搜索算法,基于模型得分對(duì)算法模型進(jìn)行評(píng)估,對(duì)隨機(jī)森林算法的分類器數(shù)量與單棵決策樹的最大特征數(shù)這2 個(gè)參數(shù)進(jìn)行優(yōu)化,克服以往依據(jù)經(jīng)驗(yàn)選擇參數(shù)的缺點(diǎn),選取最優(yōu)參數(shù)值,并且利用得到的算法模型進(jìn)行地質(zhì)構(gòu)造識(shí)別與預(yù)測(cè)。
2001 年,Breiman 等提出隨機(jī)森林算法[11](Random Forest,簡(jiǎn)稱RF)。該算法是一種基于傳統(tǒng)的決策樹理論的集成學(xué)習(xí)(Ensemble Learning)方法。隨機(jī)森林在決策樹的訓(xùn)練中引入隨機(jī)屬性選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;而在隨機(jī)森林中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含d個(gè)屬性的子集,然后再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。隨機(jī)森林通過Bagging(集成)方法,生成彼此之間互不相同的訓(xùn)練樣本集,該算法主要用于分類和回歸,對(duì)于分類問題,采用簡(jiǎn)單多數(shù)投票法的結(jié)果作為隨機(jī)森林的輸出;對(duì)于回歸問題,根據(jù)單棵樹輸出結(jié)果的簡(jiǎn)單平均作為隨機(jī)森林的輸出[12]。文中,我們選擇隨機(jī)森林分類算法進(jìn)行分類預(yù)測(cè)。
隨機(jī)森林的算法流程如圖1 所示[13]。
圖1 隨機(jī)森林算法流程Fig.1 Random forest algorithm flow
1)假設(shè)原始訓(xùn)練集有N個(gè)樣本,應(yīng)用bootstrap 法隨機(jī)有放回的抽樣組成訓(xùn)練集;
2)設(shè)樣本有D個(gè)特征,在每一棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取d(d<D)個(gè)特征,融合在d個(gè)特征終選擇一個(gè)最具有分類能力的變量,變量分類的閾值通過檢查每一個(gè)分類點(diǎn)確定。
3)用抽取的特征進(jìn)行構(gòu)造隨機(jī)森林模型。
4)輸入數(shù)據(jù),隨機(jī)森林分類器對(duì)新的數(shù)據(jù)及逆行判別和分類,分類結(jié)果按照樹分類器的投票多少而定。
隨機(jī)森林中的每一棵樹都是按照自頂向下的遞歸分裂原則,即從根節(jié)點(diǎn)開始依次對(duì)訓(xùn)練集進(jìn)行劃分。隨機(jī)森林在試驗(yàn)中性能較好,由于隨機(jī)性,使得隨機(jī)森林不容易過擬合,有很好的抗噪能力并且可以處理很高維度的數(shù)據(jù)。但是在處理非平衡性數(shù)據(jù)集的時(shí)候,存在缺陷。選擇的數(shù)據(jù)集是某礦區(qū)地質(zhì)勘探得到的地震屬性數(shù)據(jù),數(shù)據(jù)標(biāo)簽分布較為均衡,因此該數(shù)據(jù)集適用于隨機(jī)森林算法。
網(wǎng)格搜索(Grid Search CV),又被稱作窮舉搜索,是目前機(jī)器學(xué)習(xí)中很常用的一種尋優(yōu)調(diào)參的方法。其基本原理是將變量區(qū)域網(wǎng)格化,遍歷所有網(wǎng)格點(diǎn),求解滿足約束函數(shù)的目標(biāo)函數(shù)值,最終比較選擇出最優(yōu)點(diǎn)。在隨機(jī)森林算法中,每棵樹的分類能力越強(qiáng),整個(gè)森林的錯(cuò)誤率越低;減小特征選擇的個(gè)數(shù),樹的相關(guān)性和分類能力也會(huì)相應(yīng)的降低,增大特征選擇的個(gè)數(shù),兩者也會(huì)隨之增大。所以關(guān)鍵是如何選擇最優(yōu)的特征個(gè)數(shù)。目前為止仍然沒有單棵決策樹的分類正確率和樹的多樣性兩者之間的關(guān)系對(duì)隨機(jī)森林性能影響的研究[14-15]。
基于經(jīng)典的隨機(jī)森林算法,提出一種改進(jìn)的網(wǎng)格搜索優(yōu)化算法。首先在較大范圍內(nèi)大步長(zhǎng)劃分網(wǎng)格,進(jìn)行初步粗搜索選擇出最優(yōu)點(diǎn);然后在最優(yōu)點(diǎn)附近進(jìn)行小步長(zhǎng)劃分網(wǎng)格,再次進(jìn)行網(wǎng)格搜索出最優(yōu)點(diǎn)。
隨機(jī)森林中有2 個(gè)重要的參數(shù),分別是決策樹數(shù)目“n_estimators”和單棵決策樹的最大特征數(shù)“max_features”,這兩個(gè)參數(shù)能夠較好的提升模型對(duì)噪聲的處理能力,克服過擬合問題[16-18]。本研究選擇這兩個(gè)參數(shù)作為需要搜索的超參數(shù),將二者組成參數(shù)對(duì),進(jìn)行搜索尋優(yōu)(圖2),最終利用網(wǎng)格搜索模型得分作為評(píng)估標(biāo)準(zhǔn)得到最優(yōu)模型以及最佳參數(shù)。
圖2 改進(jìn)網(wǎng)格搜索算法的尋優(yōu)流程Fig.2 Optimization process of improved grid search algorithm
具體步驟如下:
1)確定決策樹的數(shù)量k和最大特征數(shù)m的范圍,設(shè)定大步長(zhǎng)搜索范圍。
2)大步長(zhǎng)搜索結(jié)果確定小步長(zhǎng)搜索范圍,若輸出的最優(yōu)參數(shù)滿足要求,則進(jìn)行下一步,否則,縮小步長(zhǎng),重復(fù)上述步驟,繼續(xù)搜索。
3)對(duì)網(wǎng)格節(jié)點(diǎn)上的每一組參數(shù)構(gòu)建隨機(jī)森林,選擇得分最優(yōu)的參數(shù)k,m。
隨機(jī)森林通過網(wǎng)格搜索得到最優(yōu)參數(shù)值,最優(yōu)參數(shù)得到的模型可以使用網(wǎng)格搜索參數(shù)best_score,即模型的平均交叉驗(yàn)證得分來評(píng)估分類效果的好壞,得分越高表明該分類模型的分類效果更好。
以山西新元煤礦二條帶二采區(qū)三煤層作為研究區(qū)域,該區(qū)域的地質(zhì)異常體主要是斷層,還含有較少的陷落柱。斷層改變了煤巖層的埋藏條件,使煤層錯(cuò)斷并發(fā)生顯著位移,一方面破壞了煤層的連續(xù)性和完整性,為煤層開采帶來阻力;另一方面,斷層處容易發(fā)生瓦斯突水、透水等事故,嚴(yán)重影響礦區(qū)的安全開采[19-20];而陷落柱會(huì)破壞煤層的穩(wěn)定性及連續(xù)性,減少煤炭資源儲(chǔ)量,同時(shí)陷落柱的存在還影響了工作面的常規(guī)布置,給煤礦安全生產(chǎn)帶來了重大的不利影響[21]。前期工程中利用地震勘探等地球物理探測(cè)方法得到的地震屬性數(shù)據(jù)信息量非常大。由于不同的屬性對(duì)相同目標(biāo)體敏感度不同,針對(duì)特定目標(biāo)體合理選擇敏感度較高的屬性數(shù)據(jù)進(jìn)行分析有利于提高識(shí)別精度和結(jié)果的準(zhǔn)確性[22]。
研究中利用三維地震勘探成果,按照5×5 網(wǎng)格提取出研究區(qū)域3 號(hào)煤層所對(duì)應(yīng)的x、y坐標(biāo)及相關(guān)屬性數(shù)據(jù),基于已有研究成果及專家推薦選取對(duì)構(gòu)造敏感的十二種地震屬性,根據(jù)礦方提供的實(shí)際揭露構(gòu)造CAD 圖,對(duì)該區(qū)域內(nèi)的屬性數(shù)據(jù)進(jìn)行分類標(biāo)記,將斷層區(qū)域標(biāo)記為2,陷落柱區(qū)域標(biāo)記為1,無構(gòu)造區(qū)域標(biāo)記為0。經(jīng)過屬性敏感性測(cè)試,最后得到1 397 組包含x、y坐標(biāo)以及標(biāo)記的數(shù)據(jù)集,而且該數(shù)據(jù)集包含有12 種地震屬性分別是:方差體切片、相干體切片、分頻、均方根振幅、平均能量、傾角、曲率、瞬時(shí)相位、瞬時(shí)振幅、瞬時(shí)頻率、最小振幅和最大振幅)。在算法改進(jìn)以及模型構(gòu)建過程中,首先對(duì)這12 種屬性進(jìn)行特征分析,之后進(jìn)行優(yōu)化網(wǎng)格搜索的隨機(jī)森林模型的構(gòu)建以及模型預(yù)測(cè)效果的驗(yàn)證。
利用特征相關(guān)性分析與特征在隨機(jī)森林算法分類效果中的影響二者結(jié)合對(duì)特征進(jìn)行綜合性分析。首先對(duì)12 種屬性進(jìn)行特征相關(guān)性分析,得到的屬性間相關(guān)性見表1,相關(guān)系數(shù)越大,兩個(gè)特征間的相關(guān)性越強(qiáng),特征存在冗余,相關(guān)性越小則兩個(gè)特征間的相關(guān)性越弱,當(dāng)相關(guān)系數(shù)為0 時(shí)表明兩個(gè)特征之間是獨(dú)立的。之后在隨機(jī)森林算法中,對(duì)屬性進(jìn)行特征重要性分析,確定這12 種屬性對(duì)于分類器構(gòu)建以及算法預(yù)測(cè)的重要性,見表2 與圖3。依據(jù)特征間的相關(guān)性分析與特征重要性分析來選擇特征。
表1 特征相關(guān)性分析Table 1 Feature correlation analysis
表2 特征重要性Table 2 Feature importance
圖3 地震屬性特征重要性Fig.3 Importance of seismic attribute feature
本數(shù)據(jù)集中特征相關(guān)性分析見表1,可以看到最大振幅與平均能量、瞬時(shí)振幅與均方根振幅之間相關(guān)性較大,而從表2 和圖3 中可以看到,不同的特征對(duì)于分類效果的影響不同,且這4 種屬性間的特征重要性差距不大。經(jīng)過進(jìn)一步的算法測(cè)試對(duì)比試驗(yàn),發(fā)現(xiàn)4 個(gè)特征對(duì)本數(shù)據(jù)集分類效果影響都比較大,而且刪掉其中某一個(gè)特征后,算法預(yù)測(cè)的準(zhǔn)確率會(huì)下降(約下降3%),且本數(shù)據(jù)集特征較少,因此選擇保留原本12 個(gè)特征進(jìn)行后續(xù)的算法優(yōu)化。
首先對(duì)分類器數(shù)量進(jìn)行大步長(zhǎng)搜索,設(shè)定隨機(jī)森林分類樹的數(shù)量n_estimators 初始搜索范圍為[50,1 000],步長(zhǎng)設(shè)置為50,設(shè)定max_features 的范圍為[1,12],步長(zhǎng)為1。利用Python 中的模型得分參數(shù)對(duì)模型進(jìn)行評(píng)估,大步長(zhǎng)搜索過程中模型得分受2 個(gè)參數(shù)影響的曲線如圖4 所示。小步長(zhǎng)搜索過程中模型得分受2 個(gè)參數(shù)影響的曲線如圖5 所示。
圖4 大步長(zhǎng)搜索模型得分Fig.4 Large step search model score
圖5 小步長(zhǎng)搜索得分Fig.5 Small step search scores
由圖4 中曲線峰值為0.960 5,輸出參數(shù)值('max_features':3,'n_estimators': 50)。而且從圖4 中可以看到,當(dāng)基分類器的數(shù)目超過一定值時(shí),模型的得分基本收斂,再增加基分類器的數(shù)目,效果基本不會(huì)提升,而且代碼運(yùn)行速度會(huì)變慢。
下一步進(jìn)行小范圍搜索,初步設(shè)定n_estimators 的范圍為[1,100];max_features 的范圍為[1, 12]。得到最優(yōu)參數(shù)對(duì)('max_features':3,'n_estimators': 58)。由于參數(shù)數(shù)據(jù)較多,因此在本論文中選擇最優(yōu)參數(shù)點(diǎn)附近的20 組數(shù)據(jù)作為參考,見表3。當(dāng)分類器數(shù)目為58,最大特征數(shù)為3 時(shí),模型得分最高為0.963 3。
表3 參數(shù)對(duì)及得分Table 3 Parameter pairs and scores
為進(jìn)一步驗(yàn)證模型的可靠性,利用實(shí)地采集并且經(jīng)過處理后的其他幾個(gè)開采區(qū)域的地震屬性數(shù)據(jù)集進(jìn)行驗(yàn)證。在進(jìn)行驗(yàn)證時(shí),為了節(jié)省工作,直接進(jìn)行大步長(zhǎng)(步長(zhǎng)設(shè)定為50)網(wǎng)格搜索,初步得到較優(yōu)分類器數(shù)目,進(jìn)行第二步小范圍搜索(步長(zhǎng)設(shè)定為10),得到更加精確的分類器數(shù)目取值,最后進(jìn)行步長(zhǎng)為1 的細(xì)化分,得到最終模型參數(shù)以及參數(shù)。各數(shù)據(jù)集在改進(jìn)網(wǎng)格搜索的隨機(jī)森林模型中的得分見表4。可以看到,經(jīng)過改進(jìn)后的隨機(jī)森林算法模型精確度均有不同程度的提高。
表4 隨機(jī)森林參數(shù)優(yōu)化算法驗(yàn)證Table 4 Validation of optimization algorithm for random forest parameters
將改進(jìn)后的隨機(jī)森林算法與GBDT(Gradient Boosting Decision Tree,梯度提升樹)、邏輯回歸、決策樹等3 種算法在本數(shù)據(jù)集上的預(yù)測(cè)結(jié)果進(jìn)行比較,在比較預(yù)測(cè)分類效果時(shí),為了對(duì)分類器的評(píng)估更全面,利用正確率、準(zhǔn)確率和f1score 等評(píng)估指標(biāo)來評(píng)估模型的分類效果。
在訓(xùn)練樣本中,真陽(yáng)性(True Positive,TP):指被分類器正確分類的正例數(shù)據(jù);真陰性(True Negative,TN):指被分類器正確分類的負(fù)例數(shù)據(jù);假陽(yáng)性(False Positive,F(xiàn)P):被錯(cuò)誤地標(biāo)記為正例數(shù)據(jù)的負(fù)例數(shù)據(jù);假陰性(False Negative,F(xiàn)N):被錯(cuò)誤地標(biāo)記為負(fù)例數(shù)據(jù)的正例數(shù)據(jù)。
針對(duì)全體訓(xùn)練樣本,正確率(Accuracy,A)計(jì)算方式為
針對(duì)正例:準(zhǔn)確率P計(jì)算公式為
召回率R的計(jì)算公式為
f1score 被定義為準(zhǔn)確率和召回率的調(diào)和平均數(shù),用它來綜合評(píng)估模型性能調(diào)和平均數(shù):
結(jié)果見表5??梢钥吹较啾扔谄渌惴?,改進(jìn)后的隨機(jī)森林算法模型預(yù)測(cè)準(zhǔn)確率更高,而且從算法正確率A、準(zhǔn)確率P、f1score等得分來看,模型的分類效果得到了相應(yīng)的提高。
表5 算法對(duì)比Table 5 Algorithm comparison
利用改進(jìn)后的隨機(jī)森林算法模型進(jìn)行構(gòu)造識(shí)別預(yù)測(cè)。依據(jù)礦方提供的新元煤礦二條帶二采區(qū)實(shí)際揭露后的勘探成果,按照1∶5 000 比例尺繪制得到該區(qū)域的實(shí)際揭露構(gòu)造CAD 圖,如圖6 所示。構(gòu)造圖中,斷層為線(圖6 中紫色線),陷落柱為面(圖6 中紅色面區(qū)域),藍(lán)色線部分為開采劃定的巷道。從圖6可以看到,該區(qū)域中主要構(gòu)造為斷層,陷落柱比較少。
圖6 二條帶實(shí)際揭露構(gòu)造CAD 圖Fig.6 CAD drawing of actual exposed structure of the second belt
研究中將地震屬性數(shù)據(jù)按照7∶3 的比例劃分為訓(xùn)練集和測(cè)試集對(duì)模型進(jìn)行訓(xùn)練以及預(yù)測(cè)。預(yù)測(cè)得到地震屬性數(shù)據(jù)坐標(biāo)點(diǎn)以及標(biāo)記類型文件,利用課題組開發(fā)的軟件進(jìn)行識(shí)別結(jié)果顯示,模型預(yù)測(cè)呈現(xiàn)出來的圖中斷層為線,陷落柱為面,得到識(shí)別結(jié)果如圖7 所示。
圖7 預(yù)測(cè)構(gòu)造Fig.7 Prediction structure
與該區(qū)域勘探得到的三維地震構(gòu)造CAD 圖(圖6)進(jìn)行對(duì)比,可以看到預(yù)測(cè)得到的結(jié)果中,構(gòu)造數(shù)量預(yù)測(cè)較為準(zhǔn)確,而且預(yù)測(cè)生成的文本文件中構(gòu)造對(duì)應(yīng)的坐標(biāo)點(diǎn)比較精確,可以有效地預(yù)測(cè)該區(qū)域構(gòu)造所處地理位置,且進(jìn)行有效識(shí)別。
為了進(jìn)一步驗(yàn)證模型,利用新元北采區(qū)西部地震屬性數(shù)據(jù)進(jìn)行驗(yàn)證,該礦區(qū)的三維地震構(gòu)造如圖8 所示,該驗(yàn)證礦區(qū)中陷落柱構(gòu)造較多,斷層較少。得到的構(gòu)造預(yù)測(cè)如圖9 所示,改進(jìn)后的算法模型預(yù)測(cè)得到的結(jié)果與該礦區(qū)構(gòu)造類型基本一致而且通過對(duì)生成文本文件中的數(shù)據(jù)對(duì)比觀察到坐標(biāo)基本符合。二條帶采區(qū)斷層構(gòu)造較多,陷落柱構(gòu)造較少;而北采區(qū)西部礦區(qū)陷落柱構(gòu)造較多,斷層構(gòu)造相對(duì)較少。但是通過試驗(yàn)結(jié)果,可以看到該算法模型對(duì)于斷層和陷落柱都有較準(zhǔn)確地識(shí)別效果。
圖8 北采區(qū)西部實(shí)際揭露構(gòu)造CAD 圖Fig.8 CAD drawing of actual exposed structure in the west of North Mining Area
圖9 驗(yàn)證礦區(qū)構(gòu)造預(yù)測(cè)結(jié)果Fig.9 verification of structural prediction results of the mining area
利用山西新元煤礦二條帶二采區(qū)三維地震勘探成果提取到的地震屬性數(shù)據(jù)集(感謝礦方與勘探方提供的數(shù)據(jù)),針對(duì)現(xiàn)有的研究中對(duì)地震屬性數(shù)據(jù)集要求較高且數(shù)據(jù)處理較復(fù)雜的問題,基于經(jīng)典的隨機(jī)森林算法模型,提出了一種改進(jìn)網(wǎng)格搜索優(yōu)化隨機(jī)森林算法模型的方法。通過對(duì)網(wǎng)格搜索進(jìn)行分步長(zhǎng)搜索,對(duì)參數(shù)對(duì)進(jìn)行調(diào)整,利用改進(jìn)后的隨機(jī)森林算法對(duì)地震屬性數(shù)據(jù)進(jìn)行融合分類預(yù)測(cè),進(jìn)而建立地質(zhì)構(gòu)造識(shí)別模型。將該算法模型與邏輯回歸、決策樹、GBDT 等幾種算法模型進(jìn)行比較,在模型預(yù)測(cè)準(zhǔn)確率、算法正確率、準(zhǔn)確率、f1score 等評(píng)估標(biāo)準(zhǔn)進(jìn)行比較證明該算法優(yōu)于其他機(jī)器學(xué)習(xí)算法。而且經(jīng)過在新元北采區(qū)西部地震屬性數(shù)據(jù)集上的測(cè)試,驗(yàn)證了該算法模型在斷層和陷落柱等構(gòu)造識(shí)別中分類結(jié)果的準(zhǔn)確性與適用性。