李振雷,李 娜,楊 菲,SOBOLEV Aleksei,宋大釗?,王洪磊,納 然,曹亞利
1) 北京科技大學(xué)金屬礦山高效開(kāi)采與安全教育部重點(diǎn)實(shí)驗(yàn)室,北京 100083 2) 北京科技大學(xué)土木與資源工程學(xué)院,北京 100083 3) 俄羅斯科學(xué)院遠(yuǎn)東分院哈巴羅夫斯克聯(lián)邦研究中心,哈巴羅夫斯克 680000
近年來(lái),隨著我國(guó)淺部煤炭資源日益枯竭,許多煤礦已經(jīng)進(jìn)入深部開(kāi)采階段[1-3],開(kāi)采規(guī)模、強(qiáng)度和深度不斷加大,采場(chǎng)結(jié)構(gòu)越來(lái)越復(fù)雜,煤巖動(dòng)力災(zāi)害的發(fā)生頻次和破壞程度均呈上升趨勢(shì)[4-7],有效預(yù)測(cè)煤巖失穩(wěn)破壞具有重要的工程意義.聲發(fā)射監(jiān)測(cè)技術(shù)是評(píng)價(jià)煤巖材料穩(wěn)定性的一種重要手段,能夠有效揭示煤巖受載破壞特征規(guī)律,在實(shí)驗(yàn)室和工程現(xiàn)場(chǎng)得到了成功的應(yīng)用,被證明是一種有效的地球物理預(yù)警方法[8-10].
在煤巖破壞聲發(fā)射信號(hào)研究方面,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究,發(fā)現(xiàn)聲發(fā)射特征參數(shù)與煤巖損傷破壞程度密切相關(guān).Jin 等[11]通過(guò)煤巖單軸壓縮聲發(fā)射實(shí)驗(yàn)研究,驗(yàn)證了煤巖受載塑性應(yīng)變與聲發(fā)射特征參數(shù)之間具有高度正相關(guān)關(guān)系.鄧緒彪等[12]發(fā)現(xiàn)粉砂巖應(yīng)力-應(yīng)變?nèi)^(guò)程可劃分為7 個(gè)階段且都具有不同的聲發(fā)射綜合特征,分析得到峰前軟化段的多種聲發(fā)射特征可以作為巖石破裂前兆.任建喜等[13]分析了沖擊傾向性煤巖在動(dòng)靜載下的聲發(fā)射特性,得出聲發(fā)射能量演化規(guī)律可作為判斷煤巖所處應(yīng)力狀態(tài)及先期加載應(yīng)力水平的參考依據(jù).紀(jì)洪廣等[14]提出巖體內(nèi)部聲發(fā)射和壓力具有相互耦合模式—“升壓平靜-降壓活躍”和“升壓降壓平靜”模式,可以作為沖擊地壓事件預(yù)測(cè)的判別依據(jù).
常規(guī)的聲發(fā)射特征參數(shù)與煤巖的受力水平及破壞狀態(tài)之間尚未揭示出顯著的函數(shù)關(guān)系,難以進(jìn)行煤巖損傷程度的定量化準(zhǔn)確評(píng)價(jià).語(yǔ)音識(shí)別領(lǐng)域的特征提取技術(shù)能夠提取出準(zhǔn)確表征語(yǔ)音信號(hào)的特征參數(shù)[15-16],如梅爾倒譜系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、離散小波變換等.目前,語(yǔ)音特征提取技術(shù)已經(jīng)在其他涉及波形處理的工程領(lǐng)域得到了的應(yīng)用.Mei 等[17]通過(guò)倒譜系數(shù)分析橋梁變形、跨中剛度等信號(hào),不僅實(shí)現(xiàn)橋梁損傷識(shí)別,還定量分析出損傷程度.江鶯等[18]利用倒譜系數(shù)、短時(shí)過(guò)零率等特征參數(shù)提出了根據(jù)火花放電聲音進(jìn)行電除塵中火花識(shí)別的方法.聲發(fā)射與聲音信號(hào)本質(zhì)上都是機(jī)械波,因此語(yǔ)音識(shí)別領(lǐng)域的特征提取技術(shù)在理論上適用于煤巖聲發(fā)射特征分析.Wang 等[19]將自動(dòng)語(yǔ)音識(shí)別的特征提取技術(shù)應(yīng)用于煤樣聲發(fā)射的特征分析,得到了煤樣聲發(fā)射梅爾倒譜系數(shù)的變化規(guī)律,并提出了利用梅爾倒譜系數(shù)(MFCC)評(píng)價(jià)煤樣應(yīng)力狀態(tài)的準(zhǔn)則.近年來(lái)隨著計(jì)算機(jī)技術(shù)的迅速發(fā)展,機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用,可以實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)的深度學(xué)習(xí),具有較高的準(zhǔn)確率且識(shí)別速度快[20].專家學(xué)者們[21-23]將梅爾倒譜系數(shù)、線性預(yù)測(cè)倒譜系數(shù)等高維的特征參數(shù)與卷積神經(jīng)網(wǎng)絡(luò)、K 均值聚類、隱馬爾可夫模型等機(jī)器學(xué)習(xí)方法相結(jié)合在地震信號(hào)震源類型識(shí)別、地震相分析、礦山微震事件識(shí)別分類等方面進(jìn)行了應(yīng)用,效果良好.
綜上可知,將語(yǔ)音識(shí)別領(lǐng)域的特征提取技術(shù)和機(jī)器學(xué)習(xí)方法應(yīng)用到煤巖破壞聲發(fā)射分析領(lǐng)域有望得到可喜的結(jié)果.本文同步采集了煤樣單軸壓縮過(guò)程的聲發(fā)射全波形數(shù)據(jù)和應(yīng)力數(shù)據(jù),提取了聲發(fā)射信號(hào)梅爾倒譜系數(shù)作為樣本特征,并以煤樣的應(yīng)力狀態(tài)作為樣本標(biāo)簽,利用機(jī)器學(xué)習(xí)方法建立了煤樣破壞狀態(tài)預(yù)測(cè)模型,實(shí)現(xiàn)了對(duì)煤樣危險(xiǎn)狀態(tài)的準(zhǔn)確預(yù)測(cè).
Davis 和Mermelstein 提出了梅爾倒譜系數(shù)(Melfrequency Cepstral coefficient,簡(jiǎn)稱MFCC),是對(duì)信號(hào)波形的短時(shí)能量譜的一種表示,是將波形信號(hào)的對(duì)數(shù)功率譜通過(guò)線性余弦變換運(yùn)算投影至非線性梅爾尺度中所得[24].Mel 尺度的值和赫茲頻率之間的轉(zhuǎn)換關(guān)系為:
式中,f為赫茲頻率.
煤樣聲發(fā)射的MFCC 求解步驟分為五步:
(1)波形分幀:在非常短時(shí)間內(nèi),聲發(fā)射信號(hào)由一次裂紋擴(kuò)展產(chǎn)生,因此可以視為平穩(wěn)信號(hào).將聲發(fā)射波形分割成等長(zhǎng)度的短幀片段.本文實(shí)驗(yàn)中聲發(fā)射采樣率為3 MHz,因此將每一幀長(zhǎng)度設(shè)定為40 ms,對(duì)應(yīng)的窗口長(zhǎng)度為120000(見(jiàn)圖1 中N),同時(shí)為減少幀與幀之間的變化過(guò)大,相鄰幀之間重疊一段長(zhǎng)度,設(shè)定為10 ms,對(duì)應(yīng)的重疊長(zhǎng)度為30000(見(jiàn)圖1 中L).
圖1 聲發(fā)射信號(hào)分幀示意圖Fig.1 Schematic diagram of acoustic emission signal framing
(2)加漢明窗:為了增加聲發(fā)射信號(hào)s分幀后每一幀與相鄰幀之間的連續(xù)性,對(duì)幀信號(hào)進(jìn)行窗函數(shù)處理得到信號(hào)s',即讓波形的每一幀乘以漢明窗,計(jì)算公式為[21]:
式中,s(n)為信號(hào)s的第n個(gè)值;s'(n)為信號(hào)s'的第n個(gè)值;N為每幀數(shù)據(jù)的長(zhǎng)度;α為漢明窗系數(shù).
(3)離散傅里葉變換:將聲發(fā)射信號(hào)從時(shí)域變換到頻域,對(duì)分解后的每一幀信號(hào)作傅里葉變換,計(jì)算頻率域上的每一幀的功率譜,計(jì)算公式為[23]:
式中,X(k)為功率譜X的第k個(gè)值.
(4)濾波并提取對(duì)數(shù)能量譜:通過(guò)梅爾濾波器組濾波,計(jì)算每個(gè)梅爾濾波器輸出能量的對(duì)數(shù),得到對(duì)數(shù)能量,即相應(yīng)頻帶的對(duì)數(shù)功率譜,計(jì)算公式如式(4)所示[21].其中,梅爾濾波器組是一系列的三角窗,均勻重疊地排列在梅爾頻率軸上.
式中,s(m)為對(duì)數(shù)能量s的第m個(gè)值;M為濾波器總數(shù);H為濾波器組;Hm(k)為第m個(gè)濾波器轉(zhuǎn)換函數(shù)的第k個(gè)值.
(5)離散余弦變換:利用離散余弦變換把頻譜變換到時(shí)域上,所得結(jié)果就是梅爾頻率倒譜系數(shù),計(jì)算公式為[21]:
機(jī)器學(xué)習(xí)算法可以實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)的轉(zhuǎn)換、處理和深度學(xué)習(xí),具有較高的準(zhǔn)確率且識(shí)別速度快,如決策樹(shù)、隨機(jī)森林[25]、人工神經(jīng)網(wǎng)絡(luò)等[26].Light GBM 算法(Light gradient boosting machine)是一種使用單邊梯度采樣和互斥特征捆綁方法相結(jié)合的改進(jìn)梯度提升決策樹(shù)算法.該算法具有訓(xùn)練效果好、訓(xùn)練速度快、能處理海量數(shù)據(jù)、不易過(guò)擬合等特點(diǎn).本文優(yōu)選此方法構(gòu)建煤樣破壞狀態(tài)預(yù)測(cè)模型,構(gòu)建過(guò)程如圖2 所示.
圖2 煤樣破壞狀態(tài)預(yù)測(cè)模型構(gòu)建流程圖Fig.2 Flow chart for the building of coal failure forecasting model
首先,制作聲發(fā)射樣本,將采集的聲發(fā)射數(shù)據(jù)分割成長(zhǎng)度為120000 個(gè)數(shù)據(jù)點(diǎn)的40 ms 聲發(fā)射片段,每個(gè)聲發(fā)射片段作為一個(gè)樣本;其次,提取樣本特征,前12 個(gè)梅爾倒譜系數(shù)作為樣本特征,MFCCn是第n個(gè)特征;然后,添加樣本標(biāo)簽,定義煤樣當(dāng)前受力與其峰值載荷的比值為煤樣的應(yīng)力狀態(tài),設(shè)置0.8 為應(yīng)力狀態(tài)閾值,若聲發(fā)射樣本對(duì)應(yīng)的應(yīng)力狀態(tài)小于0.8 即為安全,樣本標(biāo)簽為y=0,若大于0.8 即為危險(xiǎn),樣本標(biāo)簽為y=1;最后,訓(xùn)練預(yù)測(cè)模型,使用Light GBM 算法中LGBM Classifier 函數(shù)構(gòu)建煤樣破壞狀態(tài)預(yù)測(cè)模型.借鑒文獻(xiàn)[27]的做法,本文采用機(jī)器學(xué)習(xí)庫(kù)sklearn 提供的Grid-SearchCV(網(wǎng)格搜索和交叉驗(yàn)證結(jié)合法)對(duì)Light GBM 主要參數(shù)進(jìn)行調(diào)優(yōu),參數(shù)設(shè)置如表1 所示,其余參數(shù)均為默認(rèn)值.參數(shù)調(diào)優(yōu)步驟主要包括:選擇較高的learning rate 以加快收斂速度,一般大于0.1;對(duì)決策樹(shù)基本參數(shù)調(diào)優(yōu);調(diào)整正則化參數(shù)以防止過(guò)擬合;降低learning rate 來(lái)提高模型準(zhǔn)確率.
表1 Light GBM 算法參數(shù)設(shè)置Table 1 Parameter setting of Light GBM algorithm
根據(jù)周志華[28]的研究,訓(xùn)練集數(shù)據(jù)占總數(shù)據(jù)量的比例一般為2/3~4/5,本文取訓(xùn)練集占總樣本80%,測(cè)試集占總樣本20%.為保證劃分后的數(shù)據(jù)集分布均勻,本文利用sklearn 的分層抽樣函數(shù)StratifiedShuffleSplit 從每個(gè)煤樣的聲發(fā)射樣本中抽取80%作為訓(xùn)練集,其余樣本作于測(cè)試集.各煤樣聲發(fā)射樣本中安全和危險(xiǎn)樣本數(shù)量統(tǒng)計(jì)如表2 所示.
表2 煤樣聲發(fā)射樣本統(tǒng)計(jì)Table 2 Statistics of acoustic emission samples of each coal sample
K折交叉驗(yàn)證是檢驗(yàn)機(jī)器學(xué)習(xí)模型效果的常用方法[28],它能夠充分利用有限的數(shù)據(jù).借鑒Jung和Rodriguez 等[29-30]的研究,本文設(shè)置K為5,即使用五折交叉驗(yàn)證方法來(lái)評(píng)價(jià)建立的預(yù)測(cè)模型的預(yù)測(cè)效果.五折交叉驗(yàn)證將前述得到的訓(xùn)練集數(shù)據(jù)分割為5 個(gè)子集,其中一個(gè)子集作為驗(yàn)證數(shù)據(jù),其他四個(gè)子集用于訓(xùn)練[31].每個(gè)子集均被用作一次驗(yàn)證集,其余四個(gè)被用作訓(xùn)練,由此可以得到五個(gè)子模型用于檢驗(yàn)整體模型的預(yù)測(cè)穩(wěn)定性.交叉驗(yàn)證有效利用了有限數(shù)據(jù),使評(píng)價(jià)結(jié)果能最大程度地體現(xiàn)模型的整體性能.
準(zhǔn)確度(ACC)、真陽(yáng)性率(TPR)、真陰性率(TNR)以及受試者工作特征曲線(ROC)和該曲線下圍成的面積(AUC)等是評(píng)價(jià)機(jī)器學(xué)習(xí)模型預(yù)測(cè)效果的常用指標(biāo)[31-32].準(zhǔn)確度表示預(yù)測(cè)正確的樣本占總樣本的比例,即模型找到的真陽(yáng)性類和真陰性類占整體預(yù)測(cè)樣本的比例,其取值范圍是[0,1],越接近1 則說(shuō)明模型預(yù)測(cè)性能越好.真陽(yáng)性率表征分類為1 樣本的預(yù)測(cè)準(zhǔn)確度.真陰性率是分類為0 樣本的預(yù)測(cè)準(zhǔn)確度.TP 是真陽(yáng)性,表示被預(yù)測(cè)為正樣本的正樣本;FN 為假陰性,表示被預(yù)測(cè)為負(fù)樣本的正樣本;FP 是假陽(yáng)性,表示被預(yù)測(cè)為正樣本的負(fù)樣本;TN 為真陰性,表示被預(yù)測(cè)為負(fù)樣本的負(fù)樣本.基于混淆矩陣(表3)中TP、TN、FN和FP 的準(zhǔn)確度、真陽(yáng)性率和真陰性率的計(jì)算公式見(jiàn)式(6)~(8).ROC 曲線是一種顯示分類模型在所有分類閾值下分類效果的圖表,曲線的橫縱坐標(biāo)分別是假陽(yáng)性率(FPR)和真陽(yáng)性率(TPR),其中FPR=1-TNR.AUC 被定義為ROC 曲線下的面積,作為一個(gè)數(shù)值能更清晰地判斷模型效果.ROC 曲線的(0,1)點(diǎn)代表完美的分類與閾值,所以曲線越接近這一點(diǎn)或?qū)?yīng)的AUC 值越大,則說(shuō)明分類器效果越好.
表3 混淆矩陣[33]Table 3 Confusion matrix[33]
實(shí)驗(yàn)系統(tǒng)主要包括壓力機(jī)和聲發(fā)射采集系統(tǒng),系統(tǒng)示意如圖3 所示.壓力機(jī)采用YAW-600微機(jī)控制電源伺服巖石試驗(yàn)機(jī).聲發(fā)射采集系統(tǒng)采用DS5 聲發(fā)射采集儀,最高采樣頻率為10 MHz,聲發(fā)射前置放大器的放大倍數(shù)分別為20、40 和60 dB 可調(diào),聲發(fā)射傳感器為RS2-A,響應(yīng)頻率為50~400 kHz,中心頻率為150 kHz,實(shí)驗(yàn)中每個(gè)試樣布置6 個(gè)聲發(fā)射傳感器.
圖3 實(shí)驗(yàn)系統(tǒng)示意圖及聲發(fā)射探頭布置圖Fig.3 Schematic diagram of experimental system and layout of acoustic emission sensors
實(shí)驗(yàn)采用軸向行程控制的加載方式,加載速率分別設(shè)為3、7、11、15 和20 μm·s-1,應(yīng)力和應(yīng)變數(shù)據(jù)的采集頻率設(shè)置為25 Hz.聲發(fā)射采集儀采樣頻率設(shè)置為3 MHz,放大器的放大倍數(shù)調(diào)至20 dB.試樣采自于寬溝煤礦,按照國(guó)際巖石力學(xué)學(xué)會(huì)的標(biāo)準(zhǔn)將原煤加工成φ50 mm×100 mm 圓柱體標(biāo)準(zhǔn)煤樣,將10 塊煤樣分成5 組加載速率,見(jiàn)表4.實(shí)驗(yàn)前,為使聲發(fā)射傳感器與試樣充分接觸,在傳感器上涂抹耦合劑,然后固定于試樣上,布置方式如圖3 所示.實(shí)驗(yàn)時(shí)同步采集聲發(fā)射數(shù)據(jù)和應(yīng)力數(shù)據(jù),直至實(shí)驗(yàn)結(jié)束.
表4 煤樣加載實(shí)驗(yàn)方案Table 4 Coal sample loading scheme
利用1.1 節(jié)所述的方法,將煤樣破壞過(guò)程中的聲發(fā)射數(shù)據(jù)分割成40 ms 的片段,利用Python 程序中l(wèi)ibrosa 模塊實(shí)現(xiàn)提取MFCC,選取梅爾倒譜系數(shù)的前12 個(gè)系數(shù)作為聲發(fā)射特征參數(shù)和描述煤樣破壞狀態(tài)的樣本特征,同時(shí)MFCC 的值使用滑動(dòng)平均的處理方法,采用Python 編程語(yǔ)言庫(kù)中的rolling 和mean 函數(shù),窗口長(zhǎng)度設(shè)為10.煤樣在加載過(guò)程中聲發(fā)射信號(hào)變化規(guī)律近似.限于篇幅,本文以4-1 煤樣的一個(gè)聲發(fā)射通道采集信號(hào)為例展開(kāi)敘述.4-1 煤樣的MFCC 與應(yīng)力隨時(shí)間的變化如圖4 所示.圖中,MFCC-n表示第n個(gè)MFCC,每一個(gè)MFCC 點(diǎn)對(duì)應(yīng)一個(gè)應(yīng)力采集點(diǎn),其中虛線表示煤樣載荷達(dá)到峰值載荷的80%所在時(shí)刻.
由圖4 可以看出,MFCC-1、MFCC-2 和MFCC-12 的MFCC 曲線與應(yīng)力表現(xiàn)出正相關(guān)的規(guī)律.在壓密和彈性階段MFCC-1 的整體變化不大,當(dāng)應(yīng)力即將達(dá)到峰值時(shí),MFCC-1 突然增加,在后破裂階段,即煤樣承載力達(dá)到峰值強(qiáng)度后,MFCC-1 上下波動(dòng)幅度較大.MFCC-2 表現(xiàn)出相似的規(guī)律,但是在煤樣即將到達(dá)應(yīng)力峰值前的突增程度沒(méi)有MFCC-1 明顯.MFCC-3 至MFCC-6 整體上隨著應(yīng)力增加而逐漸減小,在前期加載過(guò)程中波動(dòng)幅度較小,其中當(dāng)應(yīng)力約超過(guò)峰值載荷的80%后,MFCC-3、MFCC-4 及MFCC-6 出現(xiàn)明顯的突降,同時(shí)在應(yīng)力達(dá)到峰值以后,MFCC 曲線隨著應(yīng)力的變化表現(xiàn)出尤為顯著的波動(dòng).MFCC-7 至MFCC-11 表現(xiàn)出較為一致的規(guī)律,在壓密階段和彈性階段都出現(xiàn)了顯著的波動(dòng),當(dāng)應(yīng)力約超過(guò)峰值的80%后,MFCC 隨著應(yīng)力的增加,先短暫增大而后突然下降,且在煤樣達(dá)到強(qiáng)度極限時(shí),MFCC-7 至MFCC-10 減小到其極小值.
圖4 4-1 煤樣MFCC 與應(yīng)力隨時(shí)間的變化.(a) MFCC-1;(b) MFCC-2;(c) MFCC-3;(d) MFCC-4;(e) MFCC-5;(f) MFCC-6;(g) MFCC-7;(h) MFCC-8;(i) MFCC-9;(j) MFCC-10;(k) MFCC-11;(l) MFCC-12Fig.4 Variation of MFCC and stress of coal sample No.4-1 with increasing time: (a) MFCC-1;(b) MFCC-2;(c) MFCC-3;(d) MFCC-4;(e) MFCC-5;(f) MFCC-6;(g) MFCC-7;(h) MFCC-8;(i) MFCC-9;(j) MFCC-10;(k) MFCC-11;(l) MFCC-12
分析發(fā)現(xiàn),在應(yīng)力峰值的80%這一時(shí)間點(diǎn)前后,梅爾倒譜系數(shù)具有不同的變化規(guī)律,約在超過(guò)該值后多數(shù)表現(xiàn)出明顯突增或突降或先增加后突降的現(xiàn)象,如MFCC-1、MFCC-3、MFCC-10 等.通過(guò)肉眼觀察可以得到梅爾倒譜系數(shù)隨應(yīng)力狀態(tài)變化的直觀特征,但是難以利用梅爾倒譜系數(shù)對(duì)煤樣的破壞狀態(tài)進(jìn)行定量化分析預(yù)測(cè).
由3.1 節(jié)分析可知,MFCC-1 和MFCC-2 在應(yīng)力峰值80%附近表現(xiàn)出的突增趨勢(shì)最為明顯.通過(guò)這兩個(gè)系數(shù)分析加載速率對(duì)梅爾倒譜系數(shù)變化規(guī)律的影響,分別選取不同加載速率下的煤樣1-2、2-1、3-1、4-2 和5-1,聲發(fā)射通道選取與3.1 節(jié)中的相同,然后對(duì)聲發(fā)射數(shù)據(jù)進(jìn)行梅爾倒譜系數(shù)提取.由圖5 可以看出,煤樣在不同的加載速率下,MFCC-1 都在壓密和彈性階段隨著應(yīng)力的增加保持較為平穩(wěn)的增長(zhǎng),而在80%峰值載荷附近突然增大,且在試樣達(dá)到峰值載荷后,系數(shù)值上升到最大值.由圖6 可以看出,煤樣在不同的加載速率下,MFCC-2 的變化規(guī)律與MFCC-1 基本相同,在80%峰值載荷附近突增的幅度略小于MFCC-1.可見(jiàn),本文采取的加載速度3~20 μm·s-1范圍內(nèi)對(duì)煤樣梅爾倒譜系數(shù)的變化規(guī)律沒(méi)有產(chǎn)生大的影響,實(shí)驗(yàn)采集的煤樣聲發(fā)射數(shù)據(jù)均可以作為煤樣破壞狀態(tài)預(yù)測(cè)模型的樣本集.
圖5 不同煤樣在不同加載速率下MFCC-1 的變化.(a) No.1-2,3 μm·s-1;(b) No.2-1,7 μm·s-1;(c) No.3-1,11 μm·s-1;(d) No.4-2,15 μm·s-1;(e) No.5-1,20 μm·s-1Fig.5 Variation of MFCC-1 of different coal samples under different loading rates: (a) No.1-2,3 μm·s-1;(b) No.2-1,7 μm·s-1;(c) No.3-1,11 μm·s-1;(d) No.4-2,15 μm·s-1;(e) No.5-1,20 μm·s-1
圖6 不同煤樣在不同加載速率下MFCC-2 的變化.(a) No.1-2,3 μm·s-1;(b) No.2-1,7 μm·s-1;(c) No.3-1,11 μm·s-1;(d) No.4-2,15 μm·s-1;(e) No.5-1,20 μm·s-1Fig.6 Variation of MFCC-2 of different coal samples under different loading rates: (a) No.1-2,3 μm·s-1;(b) No.2-1,7 μm·s-1;(c) No.3-1,11 μm·s-1;(d) No.4-2,15 μm·s-1;(e) No.5-1,20 μm·s-1
使用五折交叉驗(yàn)證方法評(píng)價(jià)建立的預(yù)測(cè)模型的預(yù)測(cè)效果.將訓(xùn)練集數(shù)據(jù)分割為5 個(gè)子集,每個(gè)子集數(shù)據(jù)均被用作一次驗(yàn)證集,其余四個(gè)被用作訓(xùn)練,由此得到5 個(gè)子模型,通過(guò)分析5 個(gè)子模型的預(yù)測(cè)效果來(lái)評(píng)價(jià)整體模型的預(yù)測(cè)性能.本文的訓(xùn)練集數(shù)據(jù)利用sklearn 的分層抽樣函數(shù)StratifiedShuffleSplit 從試樣1-1、1-2、2-1、2-2、3-1、3-2、4-1、4-2、5-1、5-2 中抽取的80%聲發(fā)射數(shù)據(jù)組成的數(shù)據(jù)集,即利用這些數(shù)據(jù)來(lái)進(jìn)行五折交叉驗(yàn)證,分組情況和五折交叉驗(yàn)證結(jié)果如表5、表6 和圖7 所示.
圖7 基于五折交叉驗(yàn)證的模型ROC 曲線圖Fig.7 ROC graph based on five-fold cross validation
表5 五折交叉驗(yàn)證方法分組情況Table 5 Grouping of the five-fold cross validation
由表6 可以看出,煤樣破壞狀態(tài)預(yù)測(cè)模型預(yù)測(cè)的準(zhǔn)確率為88.61%、真陽(yáng)性率為72.34%、真陰性率為93.16%、AUC 為0.93.雖然Fold-1、Fold-3、Fold-4 的真陽(yáng)性率相對(duì)于Fold-2 和Fold-5 偏低,但他們的整體值都較高并且未出現(xiàn)過(guò)擬合現(xiàn)象,由此可知Light GBM 算法的擬合情況良好.從預(yù)測(cè)準(zhǔn)確度可知,各種狀態(tài)下預(yù)測(cè)模型的準(zhǔn)確率均在83%以上,最高超過(guò)96%,真陰性率表現(xiàn)同樣優(yōu)秀,ROC 曲線也都非常靠近左上角(0,1)點(diǎn),AUC值均在0.88 以上,最高達(dá)到0.99,說(shuō)明模型的預(yù)測(cè)效果良好且穩(wěn)定.
表6 基于五折交叉驗(yàn)證的模型ACC、TPR、TNR 和AUC 結(jié)果Table 6 Results showing the ACC,TPR,TNR,and AUC of the forecasting based on five-fold cross validation
將1.2 節(jié)劃分好的測(cè)試集的聲發(fā)射數(shù)據(jù)輸入煤樣破壞狀態(tài)預(yù)測(cè)模型中,計(jì)算煤樣聲發(fā)射樣本的預(yù)測(cè)結(jié)果.然后將預(yù)測(cè)結(jié)果與實(shí)際聲發(fā)射樣本標(biāo)簽對(duì)比,得到模型在測(cè)試集上的混淆矩陣并計(jì)算ACC、TPR、TNR 和AUC,分別為93.87%、85.67%、96.03%和0.98,均優(yōu)于模型五折交叉驗(yàn)證的結(jié)果,說(shuō)明煤樣破壞狀態(tài)預(yù)測(cè)模型在測(cè)試集上的實(shí)際預(yù)測(cè)效果良好.
機(jī)器學(xué)習(xí)具有能處理大規(guī)模數(shù)據(jù)集、計(jì)算速度快、擁有較強(qiáng)的自適應(yīng)特征學(xué)習(xí)能力等特點(diǎn),在分析類似MFCC 的高維數(shù)據(jù)方面具有顯著優(yōu)勢(shì).通過(guò)3.3 節(jié)模型效果評(píng)價(jià)結(jié)果可知,MFCC 作為樣本特征,煤樣破壞狀態(tài)預(yù)測(cè)模型的預(yù)測(cè)效果良好.為研究各樣本特征的重要度對(duì)預(yù)測(cè)結(jié)果的影響,使用Light GBM 算法中plot_importance 函數(shù)畫(huà)出MFCC 重要度條形圖進(jìn)行分析,如圖8 所示.選擇五折交叉驗(yàn)證中各方面準(zhǔn)確率較優(yōu)的Fold-5 劃分方法,即訓(xùn)練集為煤樣1-1、1-2、2-1、2-2、3-2、4-1、4-2、5-1,驗(yàn)證集為煤樣3-1、5-2.
圖8 煤樣破壞狀態(tài)預(yù)測(cè)模型的MFCC 特征重要度Fig.8 Importance of each MFCC parameter of the forecasting model
由圖8 可知,MFCC-2 重要度最高,符合煤樣的MFCC 隨時(shí)間的變化規(guī)律,與應(yīng)力狀態(tài)呈現(xiàn)正相關(guān)且在破壞前出現(xiàn)明顯的突增特征,可以較容易地觀察出分類標(biāo)志;MFCC-12 在加載中期與應(yīng)力狀態(tài)呈正相關(guān),在達(dá)到峰值載荷80%后先上升然后出現(xiàn)小幅突降,分類標(biāo)志并不明顯,但是具有較高的重要度;MFCC-3 和MFCC-1 重要度次之,結(jié)合圖4 可以看出系數(shù)值在接近應(yīng)力峰值時(shí)發(fā)生突增或突降,分類標(biāo)志亦較為明顯;MFCC-10 和MFCC-8 具有一般重要度,在接近應(yīng)力峰值時(shí)發(fā)生突降,但前期加載過(guò)程中表現(xiàn)出明顯的波動(dòng)性變化,在一定程度上影響了分類標(biāo)志;MFCC-11、MFCC-4 和MFCC-7 的重要度普遍較低,在煤樣整個(gè)加載過(guò)程中,MFCC 基本保持不變或一直上下波動(dòng)且幅度較大,基本難以體現(xiàn)出與應(yīng)力狀態(tài)較強(qiáng)的相關(guān)性,分類標(biāo)志不明顯;MFCC-5、MFCC-9 和MFCC-6 的重要度最低,分類標(biāo)志難以識(shí)別.可見(jiàn),與應(yīng)力狀態(tài)具有相關(guān)性或分類特征明顯的梅爾倒譜系數(shù)往往在模型中的重要度較高,如MFCC-2、MFCC-3 和MFCC-1;但是也存在直觀感受相關(guān)性較弱的系數(shù)而具有較高重要度的現(xiàn)象,如MFCC-12、MFCC-10 和MFCC-8;這說(shuō)明在煤樣破壞狀態(tài)預(yù)測(cè)方面,機(jī)器學(xué)習(xí)可以識(shí)別出肉眼難以辨識(shí)的重要樣本特征及其潛在的特征規(guī)律.
為優(yōu)化煤樣破壞狀態(tài)預(yù)測(cè)模型的樣本特征,對(duì)不同MFCC 組合作為樣本特征對(duì)模型的影響進(jìn)行研究.根據(jù)圖8 樣本特征重要度的排序,從重要度最大的MFCC-2 開(kāi)始依次添加一個(gè)重要度次大的系數(shù)直到將12 個(gè)系數(shù)全部添加,得到12 種特征組合,再依次減去重要度最大的系數(shù)得到11 種特征組合,共23 種MFCC 特征組合.然后分別使用不同的組合作為樣本特征訓(xùn)練得到23 個(gè)機(jī)器學(xué)習(xí)模型,計(jì)算每個(gè)模型的ACC、TPR、TNR,分析使用不同MFCC 特征組合作為樣本特征模型的預(yù)測(cè)效果.23 種MFCC 特征組合如表7 所示,中括號(hào)內(nèi)的數(shù)字表示選用的MFCC 編號(hào),如MFCC-[2,12]表示使用MFCC 的第2 個(gè)和第12 個(gè)系數(shù)作為樣本特征.
表7 23 種MFCC 特征組合Table 7 23 MFCC feature combinations
煤樣破壞狀態(tài)預(yù)測(cè)模型的ACC、TPR、TNR 和AUC 如圖9 所示.由圖可知,組合[1~15]包含重要度較高的樣本特征MFCC-2、MFCC-12、MFCC-3 和MFCC-1,ACC 一直保持在82%以上,而沒(méi)有包含高重要度樣本特征的組合[16~23]的ACC 開(kāi)始下降,說(shuō)明存在重要度高的樣本特征能使模型保持良好的預(yù)測(cè)效果.
圖9 不同樣本特征下煤樣破壞狀態(tài)預(yù)測(cè)模型的ACC、TNR、TPR 和AUCFig.9 ACC,TNR,TPR,and AUC of the forecasting model under different MFCC combinations
從圖中還可以看出,從組合[1~6],每增加一個(gè)樣本特征,模型的預(yù)測(cè)準(zhǔn)確度都有所變化,而從組合[6~14],再增加或減少樣本特征已經(jīng)對(duì)模型的預(yù)測(cè)準(zhǔn)確度沒(méi)有大的影響,說(shuō)明當(dāng)特征組合中包含有重要度高的樣本特征后再改變模型的樣本特征,對(duì)模型的影響十分有限.
此外,從組合[14~15],缺少了MFCC-3 這一特征,TPR 從84.68%突然下降到69.02%,AUC 減小至0.89,ACC 也發(fā)生明顯降低.為分析導(dǎo)致這一現(xiàn)象的原因,增加兩個(gè)樣本特征組合,即[2,1,10,8,11,4,7,5,9,6]和[12,1,10,8,11,4,7,5,9,6],并訓(xùn)練得到2 個(gè)機(jī)器學(xué)習(xí)模型,計(jì)算2 個(gè)模型的ACC、TPR、TNR、AUC 分別為86.65%、92.84%、84.92%、0.91和84.82%、91.83%、82.86%、0.90.對(duì)比表7 中第14個(gè)組合即[3,1,10,8,11,4,7,5,9,6]的預(yù)測(cè)效果(即ACC、TPR、TNR、AUC 分別為85.67%、84.68%、85.95%、0.92)發(fā)現(xiàn),使用這3 個(gè)樣本組合訓(xùn)練的模型的預(yù)測(cè)效果相近,即當(dāng)樣本組合中存在MFCC-2、MFCC-12 和MFCC-3 中的任意一個(gè)特征時(shí),模型的預(yù)測(cè)結(jié)果都較好;當(dāng)樣本組合中同時(shí)缺少這三個(gè)特征時(shí),模型的預(yù)測(cè)效果顯著降低.這表明,樣本特征MFCC-2、MFCC-12 和MFCC-3 是關(guān)鍵的樣本特征,關(guān)鍵樣本特征對(duì)模型的影響非常大,它主要影響模型的真陽(yáng)性率和真陰性率,尤其是嚴(yán)重影響真陽(yáng)性率,在缺少關(guān)鍵樣本特征的情況下,模型在危險(xiǎn)樣本上的預(yù)測(cè)準(zhǔn)確度將嚴(yán)重失準(zhǔn),這對(duì)災(zāi)害預(yù)測(cè)十分不利,為合理運(yùn)用樣本特征組合進(jìn)而取得最優(yōu)的模型預(yù)測(cè)效果提供了依據(jù).
(1) 提取了煤樣加載全程的12 個(gè)聲發(fā)射梅爾倒譜系數(shù)作為煤樣破壞預(yù)測(cè)的特征參量,該參量隨煤樣載荷的升高而規(guī)律性變化,在煤樣受力約超過(guò)峰值載荷的80%后表現(xiàn)出明顯突增或突降或先增加然后突降的現(xiàn)象,而在前期加載過(guò)程中,MFCC-1、MFCC-2 和MFCC-12 與應(yīng)力呈現(xiàn)正相關(guān)的規(guī)律,MFCC-3 至MFCC-6 整體上與應(yīng)力呈現(xiàn)負(fù)相關(guān)的規(guī)律,MFCC-7 至MFCC-11 隨應(yīng)力增加出現(xiàn)較明顯的波動(dòng),可以很好地表征煤樣的破壞狀態(tài).
(2) 將聲發(fā)射梅爾倒譜系數(shù)作為樣本特征,煤樣應(yīng)力狀態(tài)作為樣本標(biāo)簽,利用機(jī)器學(xué)習(xí)的Light GBM 算法構(gòu)建了煤樣破壞狀態(tài)預(yù)測(cè)模型,可以預(yù)測(cè)煤樣的危險(xiǎn)狀態(tài).在測(cè)試集上的預(yù)測(cè)準(zhǔn)確度、真陽(yáng)性率、真陰性率和AUC 分別為93.87%、85.67%、96.03%和0.98;進(jìn)一步利用五折交叉驗(yàn)證方法評(píng)價(jià)了預(yù)測(cè)模型的穩(wěn)定性,結(jié)果顯示交叉驗(yàn)證模型的準(zhǔn)確度、真陽(yáng)性率、真陰性率和AUC 分別為88.61%、72.34%、93.16%和0.93,說(shuō)明模型的預(yù)測(cè)效果和穩(wěn)定性均良好.
(3) 討論了樣本特征組合對(duì)模型預(yù)測(cè)效果的影響,發(fā)現(xiàn)機(jī)器學(xué)習(xí)方法可以識(shí)別出肉眼難以辨識(shí)的重要樣本特征,樣本中含有重要度高的樣本特征是模型預(yù)測(cè)準(zhǔn)確度高的關(guān)鍵,在樣本中增加重要度低的樣本特征對(duì)模型預(yù)測(cè)準(zhǔn)確性的影響十分有限,樣本中缺少關(guān)鍵樣本特征時(shí)將顯著影響模型的真陽(yáng)性率、真陰性率和AUC.