張文革 董隴軍 王加闖 龔甦文 羅才嚴(yán) 郝晨良 曹 恒
(1.陜西鳳縣四方金礦有限責(zé)任公司,陜西 寶雞721000;2.中南大學(xué)資源與安全工程學(xué)院,湖南 長沙410083)
礦柱是在地下礦山中支撐層狀礦體的柱狀結(jié)構(gòu),在一定程度上,礦柱穩(wěn)定性直接影響著礦山安全生產(chǎn)。由于礦山內(nèi)部存在著各種力學(xué)特征的礦石、巖體、空區(qū),礦柱作為一種支撐結(jié)構(gòu)顯得尤為重要。如果礦柱不穩(wěn)定,可能導(dǎo)致礦柱的破裂或坍塌,從而引發(fā)礦山地面沉陷、塌陷等災(zāi)害事故[1],嚴(yán)重威脅礦山工作人員的生命安全[2-3]。
從現(xiàn)有進(jìn)展來看,礦柱穩(wěn)定性風(fēng)險(xiǎn)評(píng)估方法可分為數(shù)學(xué)統(tǒng)計(jì)分析分類模型、數(shù)值模擬技術(shù)及機(jī)器學(xué)習(xí)算法3類。在數(shù)學(xué)統(tǒng)計(jì)分析方法方面,徐恒等[4]從自然條件和人為影響兩個(gè)方面建立了基于綜合指數(shù)法的礦山穩(wěn)定性評(píng)價(jià)體系,并將其應(yīng)用于深部開采隔離礦柱的失穩(wěn)危險(xiǎn)性評(píng)價(jià)中。楊清平等[5]選擇了礦柱安全性的7個(gè)主要影響因素作為評(píng)價(jià)的指標(biāo),并引入信息熵理論建立了未確知測度模型。陳順滿等[6]在系統(tǒng)分析礦柱穩(wěn)定性影響因素的基礎(chǔ)上,結(jié)合貢獻(xiàn)率確定了各指標(biāo)權(quán)重,并建立了未確知測度模型。由于礦柱失穩(wěn)是復(fù)雜的非線性問題[7-8],因此利用上述方法進(jìn)行礦柱穩(wěn)定性評(píng)估過程中,得到的也只能是近似值;另外,對(duì)于穩(wěn)定性風(fēng)險(xiǎn)級(jí)別的界定有一定的模糊性,僅依靠經(jīng)驗(yàn)方法仍存在著模糊性。
數(shù)值模擬技術(shù)可以利用模擬軟件考慮礦柱的邊界條件和巖體性質(zhì),同時(shí)也可以對(duì)礦山開采設(shè)計(jì)提供技術(shù)支撐[9-10],因此得到了廣泛應(yīng)用。劉波等[11]采用FLAC3D軟件,從位移等多個(gè)方面分析了礦體在外力擾動(dòng)下水平礦柱的力學(xué)效應(yīng)。李湘洋等[12]基于Voronoi圖和FLAC3D軟件對(duì)南溫河鎢礦礦柱安全系數(shù)進(jìn)行了研究。DENG等[13]使用 FEM、神經(jīng)網(wǎng)絡(luò)和可靠性分析方法進(jìn)行了礦柱優(yōu)化設(shè)計(jì)。從現(xiàn)有成果來看,數(shù)值模擬方法在一定程度上消除了數(shù)學(xué)方法中的模糊性影響,但由于巖體的復(fù)雜力學(xué)特征和各向異性,在構(gòu)建本構(gòu)模型時(shí)仍具有理想化特點(diǎn),因此該類方法應(yīng)用依然受限。
隨著機(jī)器學(xué)習(xí)算法的發(fā)展,利用機(jī)器學(xué)習(xí)模型分析礦柱穩(wěn)定性逐漸演化成一種趨勢(shì),特別是機(jī)器學(xué)習(xí)模型計(jì)算過程往往具有客觀性,減少了人為因素干擾,增強(qiáng)了評(píng)估結(jié)果的可靠度。趙國彥等[14]結(jié)合高斯過程建立了礦柱狀態(tài)與其主要影響因素之間的映射關(guān)系,提出了一種新的礦柱狀態(tài)識(shí)別模型。DING等[15]采用隨機(jī)梯度提升模型評(píng)估礦柱穩(wěn)定性,發(fā)現(xiàn)該模型相較于傳統(tǒng)的機(jī)器算法(如隨機(jī)森林(RF)、支持向量機(jī)(SVM)等)性能更優(yōu)。LIANG等[16]利用梯度提升決策樹(GBDT)、極端梯度提升(XGBoost)等算法模型也開展了礦柱穩(wěn)定性分析。與傳統(tǒng)的數(shù)學(xué)分析方法和數(shù)值模擬方法相比,機(jī)器學(xué)習(xí)方法可以通過挖掘變量與結(jié)果之間的隱含映射關(guān)系和規(guī)律,更好地處理非線性問題,同時(shí),在一定程度上也可以減少主觀模型誤判風(fēng)險(xiǎn)[17-18]。
為了確保礦山安全、高效和可持續(xù)發(fā)展,開展礦柱的穩(wěn)定性分析具有必要意義。本研究在獲取礦柱穩(wěn)定性分析數(shù)據(jù)庫的基礎(chǔ)上,選取兩類機(jī)器學(xué)習(xí)算法進(jìn)行礦柱穩(wěn)定性風(fēng)險(xiǎn)評(píng)估,主要包括傳統(tǒng)機(jī)器學(xué)習(xí)算法和以這些算法為元模型的Stacking融合集成模型。首先對(duì)獲取的原始數(shù)據(jù)樣本進(jìn)行統(tǒng)計(jì)分析,并在此基礎(chǔ)上確定訓(xùn)練集和測試集,通過隨機(jī)搜索網(wǎng)格法進(jìn)行超參數(shù)調(diào)優(yōu),進(jìn)一步驗(yàn)證各類算法的評(píng)價(jià)性能。最后,為了分析各方法的優(yōu)劣性,選取準(zhǔn)確率、召回率、精準(zhǔn)率及F1指數(shù)作為評(píng)價(jià)指標(biāo),對(duì)比確定最優(yōu)的評(píng)價(jià)方法。
原始數(shù)據(jù)集合是開展機(jī)器學(xué)習(xí)和樣本分析的基礎(chǔ),本研究從已有成果[19-22]中選取236組數(shù)據(jù)進(jìn)行礦柱穩(wěn)定性分析,這些數(shù)據(jù)主要來源于Elliot Lake鈾礦、Selebi-Phikwe礦等多家礦山。礦柱穩(wěn)定性樣本數(shù)據(jù)及統(tǒng)計(jì)特征見表1。其中,x1表示礦柱寬度,x2表示礦柱高度,x3表示礦柱寬度和礦柱高度的比值,x4表示單軸抗壓強(qiáng)度,x5表示礦柱受到的平均應(yīng)力。
表1 礦柱各參數(shù)的數(shù)學(xué)統(tǒng)計(jì)特征Table 1 Mathematical statistical characteristics of ore pillar parameters
表1所示各指標(biāo)在一定程度上可以作為衡量礦柱穩(wěn)定性的指標(biāo),包含了礦柱尺寸、強(qiáng)度和載荷大小,同時(shí)也反映了礦柱穩(wěn)定性的主要影響因素。礦柱穩(wěn)定性受多種因素影響,包括巖石力學(xué)性質(zhì)、地應(yīng)力狀態(tài)、開采方法和工藝、礦柱尺寸和形狀等。當(dāng)這些因素超過了礦柱的承載能力時(shí),礦柱可能會(huì)發(fā)生破壞和塌陷,從而導(dǎo)致事故和生產(chǎn)中斷。
由于本研究采用先驗(yàn)信息的分類算法,即利用已有的先驗(yàn)知識(shí)或先驗(yàn)概率來指導(dǎo)分類的過程,因此這236組數(shù)據(jù)的穩(wěn)定性分布是已知的。礦柱穩(wěn)定性可分為3個(gè)類別,即穩(wěn)定、不穩(wěn)定和失效3種。其中,穩(wěn)定型礦柱共100組數(shù)據(jù),約占總樣本的42.37%,穩(wěn)定型礦柱主要是指礦柱沒有出現(xiàn)因荷載導(dǎo)致的壓裂現(xiàn)象,只有部分巖石輕微剝落;不穩(wěn)定型礦柱共53組數(shù)據(jù),約占總樣本的22.46%,不穩(wěn)定型礦柱表明礦柱部分功能失效,礦石剝落現(xiàn)象較為嚴(yán)重;失效型礦柱共83組數(shù)據(jù),約占總樣本的35.17%,失效型礦柱主要是礦柱上有明顯的裂口,已無法承載過多應(yīng)力,隨時(shí)都可能發(fā)生坍塌事故。樣本數(shù)據(jù)分布及對(duì)應(yīng)各等級(jí)和各因素指標(biāo)的箱型圖如圖1所示。
圖1 礦柱穩(wěn)定性水平分布及各指標(biāo)箱型圖Fig.1 Horizontal distribution of ore pillar stability and the box plot of each index
結(jié)合圖1及樣本指標(biāo)分布圖(圖2)可以看出,部分樣本數(shù)據(jù)比較離散,同時(shí)不同級(jí)別的指標(biāo)范圍內(nèi)存在重疊數(shù)據(jù)。另外,數(shù)據(jù)樣本的中值數(shù)并不在圖示的中心,即表示樣本具有一定的不平衡性,特別是部分影響因素對(duì)應(yīng)的樣本中仍存在異常值,因此本研究采用SMOTE過采樣方法對(duì)原始數(shù)據(jù)集進(jìn)行處理。其中,圖1和圖2中的“0”表示穩(wěn)定型礦柱,“1”表示不穩(wěn)定型礦柱,“2”表示失效型礦柱。
圖2 樣本指標(biāo)分布Fig.2 Distribution of sample indexes
圖3表示樣本指標(biāo)相關(guān)性,是一種用于評(píng)估和量化不同指標(biāo)之間相關(guān)性程度的統(tǒng)計(jì)方法。通過該方法有助于了解指標(biāo)之間的關(guān)聯(lián)關(guān)系,并揭示它們之間的線性關(guān)系強(qiáng)度和方向。當(dāng)相關(guān)系數(shù)接近-1時(shí),表示指標(biāo)之間存在強(qiáng)烈的負(fù)相關(guān)關(guān)系,即一個(gè)指標(biāo)增加時(shí),另一個(gè)指標(biāo)減少;當(dāng)相關(guān)系數(shù)接近1時(shí),表示指標(biāo)之間存在強(qiáng)烈的正相關(guān)關(guān)系,即一個(gè)指標(biāo)增加時(shí),另一個(gè)指標(biāo)也增加;當(dāng)相關(guān)系數(shù)接近0時(shí),表示指標(biāo)之間不存在線性相關(guān)關(guān)系。對(duì)于一個(gè)機(jī)器學(xué)習(xí)算法來說,指標(biāo)間的相關(guān)性越大,模型評(píng)估和評(píng)估精度和穩(wěn)定性都會(huì)受到影響,因此,分析特征指標(biāo)的相關(guān)性尤為重要。
圖3 樣本指標(biāo)相關(guān)性Fig.3 Correlation of the sample indexes
由圖3可知:指標(biāo)x1和x2的相關(guān)系數(shù)為0.736,主要是兩個(gè)參數(shù)均表征礦柱尺寸,一般情況下礦柱高度越大,寬度越大,即存在著一定的正相關(guān)性。對(duì)于x2和x3,由于x3表示礦柱寬度和高度的比值,因此兩個(gè)因素間呈負(fù)相關(guān)性。而對(duì)于荷載指標(biāo)相關(guān)的x4及x5指標(biāo)與x1~x3相關(guān)性較小,而x4和x5具有一定的正相關(guān)性。從樣本指標(biāo)分布和樣本指標(biāo)相關(guān)性來看,礦柱穩(wěn)定性評(píng)價(jià)方法具有一定的復(fù)雜性。
礦柱穩(wěn)定性分類模型的構(gòu)建過程如圖4所示。首先,基于獲取的原始數(shù)據(jù)樣本進(jìn)行統(tǒng)計(jì)分析,利用SMOTE過采樣方法對(duì)數(shù)據(jù)集進(jìn)行平衡化處理,處理后的數(shù)據(jù)集為300組,有助于提升樣本均衡性,減少因樣本不均衡導(dǎo)致的各類問題。在進(jìn)行過采樣處理后,分別選取數(shù)據(jù)樣本中的80%作為訓(xùn)練集,選擇20%作為測試集。其次,分別選取隨機(jī)森林算法(RF)、K-近鄰算法(KNN)、支持向量機(jī)算法(SVM)、線性判別降維算法(LDA)、多層神經(jīng)網(wǎng)絡(luò)算法(MLPC)及邏輯回歸算法(LR)進(jìn)行分類計(jì)算,并結(jié)合Stacking融合策略進(jìn)行融合。然后,通過隨機(jī)搜索算法及五折交叉驗(yàn)證獲取不同模型中的最優(yōu)超參數(shù),并利用得到的超參數(shù)獲取最終的評(píng)估模型。最后,選取準(zhǔn)確率、召回率、精準(zhǔn)率及F1指數(shù)作為評(píng)價(jià)指標(biāo),確定最優(yōu)的評(píng)估方法。
圖4 礦柱穩(wěn)定性分類模型構(gòu)建流程Fig.4 Construction process of stability classification model for ore pillar
在分類算法中,通常會(huì)將原始數(shù)據(jù)樣本進(jìn)行分割,將其分成測試集與訓(xùn)練集。所謂訓(xùn)練集,主要是用于訓(xùn)練模型,即利用先驗(yàn)經(jīng)驗(yàn)數(shù)據(jù)樣本和標(biāo)簽促使所采用的訓(xùn)練模型發(fā)現(xiàn)數(shù)據(jù)規(guī)律,進(jìn)而對(duì)其他樣本數(shù)據(jù)進(jìn)行分析。然而,僅在訓(xùn)練集上評(píng)估模型性能是不夠的,因?yàn)槟P涂赡軙?huì)過于擬合訓(xùn)練數(shù)據(jù),導(dǎo)致在處理新數(shù)據(jù)上表現(xiàn)不佳。為了衡量模型的泛化能力,需要使用一個(gè)獨(dú)立的、未在訓(xùn)練過程中使用過的測試集來評(píng)估模型在未知數(shù)據(jù)上的表現(xiàn)。通過將測試集與訓(xùn)練集分離,可以更加客觀地評(píng)估模型性能。測試集上的結(jié)果可以反映出模型對(duì)未知數(shù)據(jù)的分類能力,從而判斷模型是否具有良好的泛化能力。本研究礦柱穩(wěn)定樣本共236組,利用SMOTE算法進(jìn)行過采樣處理獲取300組數(shù)據(jù)后,選取80%作為訓(xùn)練集,保證模型獲取學(xué)習(xí)特征,之后利用其余的20%樣本測試模型的分類性能。
超參數(shù)是在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等算法中,會(huì)影響算法性能和泛化能力的重要參數(shù),通常不是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的,而是利用不同手段提前指定的值。調(diào)整超參數(shù)的過程通常是一種試錯(cuò)的過程,需要多次訓(xùn)練和評(píng)估模型,并比較它們?cè)隍?yàn)證集或交叉驗(yàn)證集上的性能。一些常見的超參數(shù)優(yōu)化方法包括網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化和遺傳算法等,本研究采用的超參數(shù)確定方法為隨機(jī)搜索法。該方法通常是對(duì)制定的超參數(shù)選取一定的取值范圍,通過對(duì)不同參數(shù)組合進(jìn)行評(píng)估,進(jìn)而確定最佳的超參數(shù)。超參數(shù)隨機(jī)搜索的優(yōu)勢(shì)在于可以在較大的超參數(shù)空間中進(jìn)行搜索,不受回溯法等局部搜索方法的限制。然而,可能需要更多的迭代次數(shù)才能找到最佳的超參數(shù)組合。因此,隨機(jī)搜索通常用于預(yù)先探索合適的超參數(shù)范圍,并在后續(xù)使用更精細(xì)的方法進(jìn)行調(diào)優(yōu)。本研究選取的各算法的超參數(shù)及搜索步長、最終確定的超參數(shù)值見表2。
分類器的準(zhǔn)確率是衡量分類器性能的一個(gè)指標(biāo),表示分類器在測試數(shù)據(jù)集上正確分類的樣本數(shù)與總樣本數(shù)之間的比例,計(jì)算公式為
式中,yi為樣本空間中第i個(gè)樣本的實(shí)際風(fēng)險(xiǎn)等級(jí);為對(duì)應(yīng)樣本空間中第i個(gè)樣本的礦柱穩(wěn)定性等級(jí)。當(dāng)標(biāo)簽等級(jí)相同時(shí),說明分類器分類正確,此時(shí)sign取值為1;當(dāng)標(biāo)簽等級(jí)不同時(shí),表示分類器分類錯(cuò)誤,此時(shí)sign取值為0。
混淆矩陣(Confusion Matrix)是一種常用的評(píng)估分類算法性能的工具,通常用來解決多分類問題[18]。混淆矩陣是一個(gè)二維表格,行表示實(shí)際類別,列表示評(píng)估和評(píng)估類別。它展示了分類模型在測試集中各個(gè)類別的評(píng)估結(jié)果,如表3所示。
表3 混淆矩陣Table 3 Confusion matrix
表3中,TP(True Positive)為真陽性,表示評(píng)估為陽性的陽性數(shù),即分類器正確評(píng)估為正例的樣本數(shù);FN(False Negative)是假陰性,表示評(píng)估為陰性的陽性數(shù);FP(False Positive)是假陽性,表示評(píng)估為陽性的陰性數(shù),表示分類器錯(cuò)誤評(píng)估為正例的樣本數(shù),TN(True Negative)是真陰性,表示評(píng)估為陰性的陰性數(shù)。
精確率(Precision)是用于評(píng)估分類模型性能的指標(biāo)之一,它衡量了分類器評(píng)估為正例的樣本中,實(shí)際為正例的比例。該指標(biāo)可進(jìn)行如下計(jì)算:
通常情況下,精確率越高,表示分類器在評(píng)估為正例的樣本中,其準(zhǔn)確率越高。精確率高意味著分類器更有能力準(zhǔn)確地識(shí)別出真正的正例,而減少了將負(fù)例錯(cuò)誤分為正例的情況。
召回率表示分類器正確評(píng)估的樣本占所有陽性樣本的比例,計(jì)算公式為
根據(jù)定義分析可知,精準(zhǔn)率和召回率指標(biāo)在極端條件下會(huì)比較矛盾,此時(shí)需綜合考慮精確率(precision)和召回率(recall)這兩個(gè)度量值,F1-score綜合了P和Recall的結(jié)果,公式為
在獲取最佳超參數(shù)后,需要在不同的算法中確定隨機(jī)數(shù)種子,本研究所有算法的隨機(jī)數(shù)種子為89,其主要作用是在機(jī)器學(xué)習(xí)算法中控制偽隨機(jī)數(shù)的生成,進(jìn)而確保每次運(yùn)行程序時(shí)生成的隨機(jī)數(shù)序列是相同的。另外,在獲取最終結(jié)果時(shí),本研究選取“macro avg”作為除了準(zhǔn)確率以外其他評(píng)估指標(biāo)的最終結(jié)果,是通過計(jì)算每個(gè)類別的指標(biāo)的平均值得到的。"macro avg"的計(jì)算不考慮每個(gè)類別的樣本數(shù)量,即每個(gè)類別被視為同等重要。因此,該值能夠反映出整個(gè)模型在各個(gè)類別上的性能情況,并且適用于類別不平衡的情況。傳統(tǒng)機(jī)器學(xué)習(xí)算法在進(jìn)行礦柱穩(wěn)定性評(píng)估中的計(jì)算結(jié)果見表4。
表4 傳統(tǒng)機(jī)器學(xué)習(xí)算法計(jì)算結(jié)果Table 4 Calculation results of the traditional machine learning algorithms
由表4可知:在準(zhǔn)確率方面,SVM算法表現(xiàn)最佳,其次為RF和KNN,SVM算法為0.933 3,LDA和LR表現(xiàn)一般。在精準(zhǔn)率方面,SVM仍舊表現(xiàn)最佳且超過0.9,而RF和KNN均高于0.8,LDA表現(xiàn)最差,僅超過0.5。在召回率方面,SVM表現(xiàn)最好依然超過了0.9,RF和KNN超過了0.8。從F1指數(shù)來看,仍是SVM表現(xiàn)最佳,F1指數(shù)值為0.934 1。從以上計(jì)算結(jié)果來看,利用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)礦柱穩(wěn)定性進(jìn)行分類評(píng)估時(shí),其表現(xiàn)排序?yàn)镾VM>RF>KNN>MLPC>LR>LDA。
為進(jìn)一步探究傳統(tǒng)機(jī)器學(xué)習(xí)算法與融合集成算法的優(yōu)異,本研究選擇Stacking集成策略對(duì)傳統(tǒng)算法進(jìn)行集成。Stacking(堆疊)是一種集成學(xué)習(xí)方法,通常用于提升機(jī)器學(xué)習(xí)模型的性能。該方法主要是將多個(gè)基礎(chǔ)模型的評(píng)估結(jié)果作為輸入,再利用元模型進(jìn)行堆疊,進(jìn)而將這些評(píng)估結(jié)果進(jìn)行整合,從而獲取新的集成模型。此處有兩個(gè)概念比較重要,一個(gè)是基模型,即最初的分類模型,通常使用不同的機(jī)器學(xué)習(xí)算法或同一個(gè)算法的不同配置來構(gòu)建基礎(chǔ)模型,可以一種或多種;另一個(gè)則是元模型,它的作用是對(duì)基礎(chǔ)模型的評(píng)估輸出進(jìn)行進(jìn)一步的組合和調(diào)整,以提高整體模型的評(píng)估性能。它可以通過學(xué)習(xí)不同基礎(chǔ)模型評(píng)估的權(quán)重、串聯(lián)或并聯(lián)基礎(chǔ)模型等方式來實(shí)現(xiàn)評(píng)估結(jié)果的整合。
基于上述傳統(tǒng)機(jī)器學(xué)習(xí)算法,本研究分別選擇6種算法中的5種算法作為基模型,并將剩余模型作為元模型,則會(huì)得到6個(gè)Stacking融合模型,融合策略見表5,計(jì)算結(jié)果如圖5所示。
圖5 Stacking融合策略下的集成學(xué)習(xí)算法計(jì)算結(jié)果Fig.5 Calculation results of the ensemble learning algorithms under the Stacking fusion strategy
表5 Stacking算法融合策略Table 5 Fusion strategies of Stacking algorithms
由圖5可知:以隨機(jī)森林為元模型的Stacking 1算法表現(xiàn)最佳,準(zhǔn)確率、精準(zhǔn)率、召回率及F1指數(shù)在所有的Stacking集成算法中表現(xiàn)最好,各參數(shù)值均超過0.8,與傳統(tǒng)算法中MLPC算法表現(xiàn)接近。以LDA為元模型的Stacking 4算法和以LR為元模型的Stacking 6算法表現(xiàn)接近,單從精準(zhǔn)率和準(zhǔn)確率來看,Stacking 6表現(xiàn)更好;對(duì)比召回率和F1指數(shù),Stacking 4表現(xiàn)略優(yōu)于Stacking 6,但從對(duì)比增幅來看,Stacking 6表現(xiàn)更佳,Stacking 5表現(xiàn)略低于這兩種集成模型。以SVM為元模型的Stacking 3算法僅準(zhǔn)確率高于以KNN為元模型的Stacking 2,其余指標(biāo)均低于Stacking 2。從以上分析可知:以Stacking為融合策略的集成模型表現(xiàn)排序?yàn)镾1>S6>S4>S5>S2>S3。
結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法及以各類算法為元模型的Stacking集成模型對(duì)比分析可知,S1模型各評(píng)價(jià)指標(biāo)僅低于傳統(tǒng)機(jī)器學(xué)習(xí)算法中的SVM。Stacking集成模型中表現(xiàn)最差的S2模型表現(xiàn)仍高于LDA和LR模型。結(jié)合兩大類算法模型對(duì)應(yīng)的不同評(píng)價(jià)指標(biāo)的平均值來看,以各類算法為元模型的Stacking融合策略下6種模型的各評(píng)價(jià)指標(biāo)均高于各傳統(tǒng)機(jī)器學(xué)習(xí)算法。
(1)本研究將機(jī)器學(xué)習(xí)算法和隨機(jī)交叉驗(yàn)證方法引入礦柱穩(wěn)定性分析中,建立了包括傳統(tǒng)機(jī)器學(xué)習(xí)算法(隨機(jī)森林算法、K-近鄰算法、支持向量機(jī)算法、線性判別降維算法、多層神經(jīng)網(wǎng)絡(luò)算法(及邏輯回歸算法)和Stacking融合策略下的集成模型,通過236組數(shù)據(jù)的樣本平衡化處理對(duì)評(píng)價(jià)模型進(jìn)行了分析驗(yàn)證,結(jié)果顯示:傳統(tǒng)機(jī)器學(xué)習(xí)算法中SVM算法、Stacking融合策略下的集成模型以及以隨機(jī)森林為元模型的Stacking模型性能較優(yōu)。
(2)結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)算法及以各類算法為元模型的Stacking集成模型對(duì)比分析可知,傳統(tǒng)機(jī)器學(xué)習(xí)算法 SVM略優(yōu)于以隨機(jī)森林為元模型的Stacking模型。另外,結(jié)合兩大類算法模型對(duì)應(yīng)的不同評(píng)價(jià)指標(biāo)的平均值來看,以各類算法為元模型的Stacking融合策略下6種模型的各評(píng)價(jià)指標(biāo)均優(yōu)于各傳統(tǒng)機(jī)器學(xué)習(xí)算法??梢?Stacking融合策略下的集成算法模型性能相較于各算法對(duì)應(yīng)的元模型整體有所提升。
(3)本研究僅選擇了236組礦柱穩(wěn)定性數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)集相對(duì)較小且不平衡,因此部分機(jī)器學(xué)習(xí)算法受數(shù)據(jù)集數(shù)量和質(zhì)量的影響很大,通過SMOTE過采樣方法對(duì)原始數(shù)據(jù)進(jìn)行了樣本均衡處理,在一定程度上克服了算法在處理不平衡樣本時(shí)表現(xiàn)不佳的不足。從各類模型對(duì)應(yīng)的不同等級(jí)評(píng)價(jià)指標(biāo)計(jì)算結(jié)果來看,與其他水平相比,不穩(wěn)定型礦柱計(jì)結(jié)果表現(xiàn)欠佳,在一定程度上降低了算法整體的評(píng)價(jià)性能和泛化能力,主要是由于該類樣本數(shù)據(jù)量較少,也反映出不平衡的數(shù)據(jù)對(duì)分析結(jié)果的不利影響。因此,對(duì)原始數(shù)據(jù)樣本進(jìn)行平衡化處理十分必要。