閆鵬程, 張孝飛, 尚松行, 張超銀
1.安徽理工大學,深部煤礦采動響應(yīng)與災(zāi)害防控國家重點實驗室,安徽 淮南 232001 2.安徽理工大學電氣與信息工程學院,安徽 淮南 232001
煤礦資源對于國家發(fā)展和生產(chǎn)起著重要作用,是重要的不可再生資源和基礎(chǔ)能源,能否合理開發(fā)與利用煤礦資源,直接影響經(jīng)濟社會的安全發(fā)展與國民經(jīng)濟可持續(xù)發(fā)展,而煤礦的安全生產(chǎn)不僅關(guān)乎經(jīng)濟發(fā)展,也關(guān)乎到人民的生命財產(chǎn)安全[1]。礦井水害嚴重威脅著煤礦的安全生產(chǎn),是煤礦生產(chǎn)過程中存在的主要災(zāi)害之一[2-4]。雖然近些年來礦井采掘技術(shù)的不斷提高,災(zāi)害處理能力的不斷加強,已經(jīng)大幅度減少傷亡人員數(shù)量,但隨著礦井采掘深度加深,開采規(guī)模日益加大,導(dǎo)致水文地質(zhì)環(huán)境也在隨之變得復(fù)雜,在不確定的工作環(huán)境中,礦井水害的發(fā)生概率也會隨之提高,威脅著礦井工作者的生命財產(chǎn)安全[5]。因此快速識別礦井突水水源類型,對于水害預(yù)防工作和災(zāi)后救援工作都有著重大意義[6-7]。
LIF技術(shù)能夠完成非擾動、實時原位測量,熒光光譜分析具有靈敏度高,速度快等優(yōu)點,近幾年在科研中得到了廣泛的應(yīng)用[8]。例如,陳至坤等[9]運用LIF的光譜特征提取,實現(xiàn)了對油類的檢測;張大源等[10]運用LIF技術(shù),實現(xiàn)了對HCCI發(fā)動機甲醛的定量測量;朱家健等[11]將LIF技術(shù)運用到燃燒診斷的研究。在礦井突水水源識別研究中,LIF技術(shù)也在近幾年得到了應(yīng)用,但仍然有待改進和完善[12]。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在解決長序列訓(xùn)練過程中產(chǎn)生的梯度消失、梯度爆炸等問題上存在明顯不足,而特殊變體RNN即長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)很好地彌補了RNN的短板及缺陷。輸入門、輸出門和遺忘門結(jié)構(gòu)是LSTM相較于RNN,添加的三個門結(jié)構(gòu)[13]。LSTM的關(guān)鍵是細胞狀態(tài),它貫穿整個神經(jīng)網(wǎng)絡(luò),用來篩選并保留信息,光譜數(shù)據(jù)往往含有比較多的復(fù)雜冗余的信息,所以LSTM非常適合用來處理光譜數(shù)據(jù)。
鑒于此,提出運用LIF技術(shù)得到水樣的熒光光譜數(shù)據(jù),通過MinMaxScaler,SNV和SG三種方法對光譜數(shù)據(jù)進行預(yù)處理,再將包括原始光譜數(shù)據(jù)在內(nèi)的四組數(shù)據(jù),通過LDA進行降維處理,最后結(jié)合LSTM神經(jīng)網(wǎng)絡(luò),搭建四種礦井突水水源識別模型,進行對比,選擇最優(yōu)模型。
實驗樣本采自淮南礦區(qū),以砂巖水和老空水為原始樣本,并將砂巖水和老空水按照不同比例(7∶10,4∶10,10∶10,10∶7,10∶4)混合配制成5種混合水樣,共7種待測水樣進行實驗,并且每種水樣均采集30個,共計210個水樣待測樣本。按照不同混合比例,為樣本編號1,2,3,4,5,6,7,將貼好標簽的210個水樣密封存儲在遮光玻璃瓶中。
實驗使用的儀器包括北京華源拓達生產(chǎn)的405 nm的單模激光器,廣州標旗光電生產(chǎn)的浸入式熒光探頭(FPB-405-V3),美國海洋公司生產(chǎn)的微型光纖光譜儀(USB2000+)。實驗參數(shù)設(shè)置:激光功率為100 mW,積分時間1 s,采樣間距340~1 020 nm,光譜分辨率為1 nm。
首先對不同樣本的光譜數(shù)據(jù)進行添加標簽處理,按照樣本采取時的編號,給對應(yīng)的樣本光譜數(shù)據(jù)添加相應(yīng)的標簽數(shù)值(1,2,3,4,5,6,7)。LSTM神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練集與之對應(yīng)的標簽形成的映射關(guān)系,進行訓(xùn)練學習。調(diào)整合適的訓(xùn)練周期以及一次訓(xùn)練抓取的樣本數(shù),使用Adam優(yōu)化器調(diào)整合適的學習率并對模型其他相關(guān)參數(shù)進行優(yōu)化。用Python3.9軟件建立模型。
模型優(yōu)劣的評判是通過測試集預(yù)測(Prediction)結(jié)果與真實值(Real)比較、訓(xùn)練樣本準確率變化趨勢(Accuracy)和迭代損失(Loss)來進行模型的評估和對比。測試集預(yù)測值與真實值相符越多,則模型識別效果越好;訓(xùn)練集準確率(Accuracy)是通過測試集經(jīng)過模型輸出的預(yù)測值和測試機對應(yīng)的標簽真實值對比,是準確個數(shù)與總樣本數(shù)的比值;迭代損失(Loss)屬于多分類交叉熵損失,當?shù)鷵p失趨于平穩(wěn)則反應(yīng)系統(tǒng)訓(xùn)練良好,系統(tǒng)性能更具有優(yōu)勢。
如圖1所示,除原始光譜數(shù)據(jù)外,實驗采用3種方法對原始光譜數(shù)據(jù)進行預(yù)處理,分別為MinMaxScaler、SG以及SNV,總共得到4組光譜數(shù)據(jù)。由圖1可知在420~650 nm波段,水樣的光譜數(shù)據(jù)區(qū)別比較明顯,而在340~420以及650~1 020 nm波段光譜圖像十分相近。
圖1 原始光譜曲線及預(yù)處理后的光譜曲線
灰?guī)r水所含有機物比較少,而老空水成分復(fù)雜,所以水樣熒光光譜圖像會隨著老空水含量增加,熒光光譜特征逐漸明顯。根據(jù)水源類的識別研究機理,這是由于不同水源中所含的物質(zhì)成分以及濃度等特征不同,從而導(dǎo)致在光譜圖像中形成了明顯的差異。與原始數(shù)據(jù)比較,SG和MinMaxScaler預(yù)處理后的光譜圖像都有較好的處理效果,組間間距有所增加或保持良好,SNV處理后的數(shù)據(jù)比較冗雜,效果不如SG和MinMaxScaler理想。
對原始數(shù)據(jù)及預(yù)處理后的熒光光譜數(shù)據(jù)進行LDA降維處理,降維至3維特征數(shù),其降維效果圖如圖2所示。由圖2可得經(jīng)SG預(yù)處理后的LDA降維聚類效果最為明顯;原始光譜數(shù)據(jù)及MinMaxScaler預(yù)處理后的數(shù)據(jù)進行LDA降維后效果相差不大;SNV預(yù)處理后LDA降維效果沒有其他的效果明顯?;谶@四種分別搭建LSTM識別模型。
圖2 不同預(yù)處理下的LDA降維結(jié)果圖
基于四組光譜數(shù)據(jù),經(jīng)LDA降維處理后分別搭建LSTM水源識別模型。通過對比測試集的預(yù)測情況、訓(xùn)練集的準確率變化趨勢以及迭代損失函數(shù)變化趨勢三個方面,多角度考慮,選擇最優(yōu)模型。四種模型的測試集的預(yù)測情況如圖3所示。其中SNV+LDA處理后的數(shù)據(jù)所搭建的LSTM模型預(yù)測效果最差;MinMaxScaler+LDA處理后的模型預(yù)測準確率比較高;SG+LDA以及原始光譜數(shù)據(jù)經(jīng)LDA處理后的兩組模型,在測試集的準確率上都有著很好的表現(xiàn),準確率能夠達到100%。測試集預(yù)測準確率如表1所示。
圖3 不同模型下的測試集識別結(jié)果
表1 不同模型測試集準確率
訓(xùn)練集訓(xùn)練準確率也是很重要的比較依據(jù)。如圖4所示,SNV+LDA之后的光譜數(shù)據(jù)在經(jīng)過30次迭代訓(xùn)練之后,訓(xùn)練集訓(xùn)練準確率依舊很難達到100%,模型訓(xùn)練效果比較差;原始光譜數(shù)據(jù)經(jīng)過LDA和MinMaxScaler+LDA處理后的光譜數(shù)據(jù)在數(shù)次迭代之后訓(xùn)練集訓(xùn)練準確率會有一個下降過程,說明該模型在前期訓(xùn)練效果比較差,如果訓(xùn)練次數(shù)不夠,很難達到最佳狀態(tài);而SG+LDA處理后的光譜數(shù)據(jù)在訓(xùn)練過程中,訓(xùn)練集訓(xùn)練準確率處于持續(xù)上升的趨勢,比較少的訓(xùn)練次數(shù)就能很快達到100%的訓(xùn)練準確率。
圖4 不同模型的訓(xùn)練過程準確率變化趨勢圖
損失函數(shù)也是評判模型優(yōu)劣的重要指標之一。如圖5不同模型訓(xùn)練過程損失函數(shù)變化趨勢圖來看,SG+LDA處理后的光譜數(shù)據(jù)建立的模型具有更好的收斂性和穩(wěn)定性;原始光譜數(shù)據(jù)經(jīng)過LDA處理和MinMaxScaler+LDA處理后的光譜數(shù)據(jù),兩者建立的模型收斂相對較慢,性能不如前者;SNV+LDA處理后的數(shù)據(jù)建立的模型收斂性穩(wěn)定性最差,并不具有較好的性能。
圖5 不同模型的訓(xùn)練過程損失化數(shù)變化趨勢圖
綜合上述分析,SNV+LDA處理后的光譜數(shù)據(jù)建立的LSTM識別模型效果最差;原始光譜數(shù)據(jù)經(jīng)過LDA降維處理后建立的LSTM識別模型和MinMaxScaler+LDA處理后的光譜數(shù)據(jù)建立的LSTM識別模型有不錯的識別效果和性能表現(xiàn);SG+LDA處理后的光譜數(shù)據(jù)建立的LSTM識別模型在預(yù)測準確率、訓(xùn)練過程準確率以及損失函數(shù)變化趨勢都有更好的表現(xiàn)。
利用淮南謝橋煤礦的砂巖水和老空水為原始樣本,并將兩種水按照不同比例混合成5種水樣,共七種水樣樣本,對七種水樣的激光誘導(dǎo)熒光光譜進行識別分析。經(jīng)過MinMaxScaler,SG以及SNV三種方法預(yù)處理,包括原始光譜數(shù)據(jù)再進行LDA降維處理,搭建四種LSTM識別模型。從測試集預(yù)測結(jié)果,訓(xùn)練集訓(xùn)練準確率變化趨勢以及訓(xùn)練過程的損失函數(shù)變化趨勢三個方面進行比較,選擇出最優(yōu)模型。結(jié)果表明,采用SG+LDA處理后的光譜數(shù)據(jù)搭建的LSTM識別模型對水樣樣本識別效果最好,這是由于三種預(yù)處理方法對于光譜數(shù)據(jù)的作用不同導(dǎo)致的,其中MinMaxScaler主要消除光譜數(shù)據(jù)尺度差異過大的影響,SG用來消除隨機噪聲并且提高信噪比,而SNV主要是降低分布不均勻帶來的影響;本工作中SG預(yù)處理方法表現(xiàn)最佳。LSTM識別模型具有比較好的性能實現(xiàn)對水源的識別,對人工智能在礦井突水水源識別方面提供了新的探索和改進。