陳梓華,馬占元,李敬兆
(1.安徽理工大學(xué) 電氣與信息工程學(xué)院,安徽 淮南 232001;2.大同煤礦集團(tuán)有限責(zé)任公司,山西 大同 037000
煤礦安全檢查是煤礦企業(yè)日常生產(chǎn)與管理的重要環(huán)節(jié)[1]?,F(xiàn)階段,煤礦日常安全隱患排查流程主要采用定期派遣工作人員下井檢查記錄,并將檢查后存在的隱患問題通過書面文檔的形式匯總,上級排查人員以隱患問題記錄項(xiàng)為條件,檢索煤礦安全規(guī)程違反條例項(xiàng),錄入煤礦安全隱患智能語義采集與決策系統(tǒng),最終通過系統(tǒng)分析決策,制定安全隱患事故解決措施[2]。其中,煤礦安全生產(chǎn)檢查與記錄存在以下問題:安全隱患問題描述不準(zhǔn)確且繁雜,對于相同安全隱患問題表述方式不統(tǒng)一等。此類問題致使煤礦安全隱患檢索效率低下,無法實(shí)現(xiàn)煤礦安全隱患實(shí)時(shí)排查處理。政府和煤礦企業(yè)迫切需要一種智能過濾隱患表述中不必要詞句,實(shí)時(shí)精確檢索煤礦安全隱患關(guān)鍵詞的煤礦安全隱患語義信息智能提取系統(tǒng)。
目前,國內(nèi)外針對煤礦安全隱患語義特征提取等方面的研究相對較少[3,4],但對于網(wǎng)絡(luò)文本語義分析等相關(guān)方面的研究相對完善,主要采用加權(quán)匹配相似度[5-7]、深度學(xué)習(xí)算法[8-11]等方法。其中,文獻(xiàn)[5]針對普通關(guān)鍵詞提取方法未考慮詞間隱含關(guān)系,提出了一種依據(jù)詞語文本圖和間的相似度進(jìn)行加權(quán),使用隨機(jī)游走的方法迭代計(jì)算出相關(guān)節(jié)點(diǎn)間的相似度,最終以降序的排序方式獲取文本關(guān)鍵特征詞。該方法獲取短文本體征詞典準(zhǔn)確率較高,但無法解決煤礦安全隱患表述冗余且不準(zhǔn)確現(xiàn)象。文獻(xiàn)[9]介紹了一種基于的全卷積神經(jīng)網(wǎng)絡(luò)的高精度文本特征圖語義分割方法,該方法通過特征圖切分模塊,局部區(qū)域放大特征,高效且精細(xì)分割邊緣,使得網(wǎng)絡(luò)語義判別力得到提高。文獻(xiàn)[10]提出了一種基于CNN-LSTM的短文本語義特征提取模型,通過劃分大小不同的卷積窗口,引入長短記憶模型分析文本中語義情感傾向,從而提取短文本的語義特征。文獻(xiàn)[9]和[10]使用了基于不同神經(jīng)網(wǎng)絡(luò)算法的深度學(xué)習(xí)方法,動態(tài)劃分待提取特征區(qū)域,進(jìn)行細(xì)密語義特征提取,但對于煤礦具體安全生產(chǎn)場景適應(yīng)性不強(qiáng),無法高效篩選特定煤礦安全隱患關(guān)鍵詞,且未涉及相同安全隱患表述不統(tǒng)一現(xiàn)象。
本文針對上述研究存在煤礦安全隱患描述繁雜現(xiàn)象與相同問題表述方式等問題,提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的煤礦安全隱患智能提取系統(tǒng),實(shí)現(xiàn)規(guī)范化存儲隱患數(shù)據(jù),實(shí)時(shí)精確提取待檢索關(guān)鍵詞,準(zhǔn)確獲取對應(yīng)煤礦安全規(guī)程違反項(xiàng),規(guī)范化存儲相關(guān)安全隱患數(shù)據(jù),提高煤礦安全檢查核心人員的工作效率。
煤礦安全隱患信息關(guān)鍵語義智能提取系統(tǒng)主要采用基于RNN語義特征提取的關(guān)鍵技術(shù)。本系統(tǒng)后臺依次遍歷煤礦安全隱患描述項(xiàng)語句,以逗號為界限分割語句,逐句提取關(guān)鍵語義特征,積累過往提取的特征記憶,獲取安全隱患特征關(guān)鍵詞,最終使用系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)處理技術(shù),通過語義關(guān)鍵詞映射表,實(shí)現(xiàn)煤礦安全規(guī)程違反條例項(xiàng)的精確檢索。
煤礦安全隱患關(guān)鍵語義智能提取系統(tǒng)由數(shù)據(jù)采集層、模型推理層、特征提取層、智能檢索層構(gòu)成,如圖1所示。
圖1 煤礦安全隱患關(guān)鍵語義智能提取系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)采集層主要采集的是日常安全隱患排查后的問題匯總項(xiàng)數(shù)據(jù)。煤礦安全人員周期性的將煤礦井下安全檢查隱患問題匯總,核心檢查人員依據(jù)隱患程度篩選,人工統(tǒng)計(jì)安全隱患需待檢索項(xiàng),并以“時(shí)間-地點(diǎn)-問題-人員”格式的文檔存儲。同時(shí),人工分析煤礦安全規(guī)程條例內(nèi)容,提取標(biāo)準(zhǔn)關(guān)鍵詞并建立“一級-二級-三級”多級模式的煤礦安全規(guī)程條例項(xiàng)存儲數(shù)據(jù)庫,各級分類數(shù)據(jù)表間的索引等。數(shù)據(jù)采集層結(jié)構(gòu)如圖2所示。
圖2 數(shù)據(jù)采集層結(jié)構(gòu)
基于RNN的煤礦安全隱患關(guān)鍵語義提取模型推理層是本系統(tǒng)的核心。系統(tǒng)通過已獲取的物理信息源,如煤礦安全人員記錄的隱患時(shí)間、地點(diǎn)和內(nèi)容等,進(jìn)行實(shí)際需求分析、算法邏輯設(shè)計(jì)、實(shí)例化對象等操作,構(gòu)建出基于RNN的煤礦安全隱患數(shù)據(jù)關(guān)鍵語義提取模型,經(jīng)過測試反饋調(diào)整,從而使用穩(wěn)定的系統(tǒng)模型來進(jìn)行精確語義關(guān)鍵詞提取?;赗NN的煤礦安全隱患關(guān)鍵語義提取模型推理過程,如圖3所示。
圖3 模型推理層結(jié)構(gòu)
特征提取層主要是對煤礦安全隱患記錄內(nèi)容中的關(guān)鍵詞精確提取,服務(wù)器數(shù)據(jù)庫初期構(gòu)建標(biāo)準(zhǔn)關(guān)鍵詞字典和同詞性相近詞詞典,隨著數(shù)據(jù)量增加,各詞性相近詞詞典不斷豐富,待檢索語句基于煤礦隱患信息關(guān)鍵語義智能提取模型處理后,該語義關(guān)鍵詞可映射數(shù)據(jù)庫標(biāo)準(zhǔn)關(guān)鍵詞,規(guī)范安全規(guī)程關(guān)鍵詞檢索操作,如圖4所示。
圖4 特征提取層結(jié)構(gòu)
智能檢索層主要工作方式是多級分類數(shù)據(jù)表互聯(lián)索引。該系統(tǒng)調(diào)用數(shù)據(jù)映射的標(biāo)準(zhǔn)關(guān)鍵詞至服務(wù)器數(shù)據(jù)庫,依據(jù)類別各級所屬數(shù)據(jù)表進(jìn)行遞進(jìn)式檢索,“一級分類”按照煤礦安全規(guī)程專業(yè)分類分為“一通三防、掘進(jìn)、防治水、機(jī)電等”,“二級分類”依據(jù)為“人員、設(shè)備、環(huán)境等”,“三級分類”根據(jù)隱患程度分為“一般隱患、重大隱患、紅線隱患”,各級類別表之間采用一對多的鏈?zhǔn)酱鎯δJ?,最后一級?shù)據(jù)表采用平面數(shù)組方式定向存儲隱患程度、標(biāo)準(zhǔn)關(guān)鍵詞詞典、安全規(guī)程編號與名稱、條例編號、條例內(nèi)容等關(guān)聯(lián)屬性項(xiàng)。系統(tǒng)通過特征提取層獲取到的標(biāo)準(zhǔn)關(guān)鍵詞與標(biāo)準(zhǔn)關(guān)鍵詞詞典中的詞句匹配,從而并行式進(jìn)行煤礦安全規(guī)程違反條例項(xiàng)精準(zhǔn)檢索,如圖5所示。
圖5 智能檢索層結(jié)構(gòu)
基于RNN的關(guān)鍵語義智能提取模型構(gòu)建過程如圖6所示。其核心思想是:首先將以逗號為界限進(jìn)行語句分割,從首句開始,比對同詞性相近詞數(shù)據(jù)表,過濾句中除名詞和動詞以外的詞,通過0,1,2,…,n的序列對初提取關(guān)鍵詞標(biāo)號,并以正向?qū)顷嚨男问捷敵?;然后在記憶第一句的基礎(chǔ)上,對第二句進(jìn)行關(guān)鍵詞提取,建立對角陣,直至系統(tǒng)檢測遍歷到句號終止,獲取由正向?qū)顷嚇?gòu)成的特征矩陣;接著,通過特征矩陣與詞性權(quán)值矩陣,得到輸出層正向方陣序列,最后通過最大池化函數(shù),以一維n×1的矩陣存儲各時(shí)段關(guān)鍵詞的最大系數(shù),從而獲取對應(yīng)的關(guān)鍵詞組輸出,映射標(biāo)準(zhǔn)關(guān)鍵詞數(shù)據(jù)表,即可得到煤礦安全隱患表述項(xiàng)的標(biāo)準(zhǔn)關(guān)鍵詞組,從而進(jìn)行后續(xù)煤礦安全規(guī)程精確檢索功能。
圖6 基于RNN的關(guān)鍵語義智能提取模型原理圖
基于RNN的關(guān)鍵語義智能提取模型算法步驟如下:
1)初始階段,設(shè)輸入的關(guān)鍵詞待提取語句為Ci,(如:待提取語句為“煤礦人員沒戴安全帽,請戴安全帽”;樣本權(quán)重為1),其樣本權(quán)重為Ui,同詞性相近詞數(shù)據(jù)表為W(v,n),并對數(shù)據(jù)表中每個詞標(biāo)識Wid,以便后續(xù)辨識,記匹配過濾后獲取的詞集為Xi,(例如:第一次過濾前詞集為“煤礦”“人員”“沒戴”“安全帽”;多次過濾后詞集為“人員”“戴”“安全帽”“戴”“安全帽”; 分別為1,2,3,2,3),則輸入層中提取各階段初始詞集合,可用式(1)表示。
2)記動詞詞性權(quán)值為Wv,名詞詞性權(quán)值為Wn(如“戴”的權(quán)值為0.8,“人員”“安全帽”的權(quán)值為0.6,),樣本在t-1時(shí)刻的記憶為hi=t-1,t-1時(shí)刻輸入語句獲取的關(guān)鍵詞詞集矩陣為St-1。當(dāng)t=1時(shí),St=X1,則St-1元素表示為:{V(t-1)i,i,N(t-1)j,j},則t-1時(shí)刻詞集中動詞集合V(t)和名詞集合N(t)具體形式,可用式(2)表示。
St-1={V(t-1)i,i,N(t-1)j,j+ht-2}=
{v1,1,v2,2,…,vi,i,n1,1,n2,2,…,nj,j+ht-2}
(2)
則:示例語句第一次的關(guān)鍵詞集矩陣為S1=diag(0,0.8,0.6,0.6)。
由于t時(shí)刻詞集的提取需要考慮t-1時(shí)刻的記憶,則t時(shí)刻關(guān)鍵詞詞集矩陣表達(dá)式St見式(3)。關(guān)鍵詞樣本在t時(shí)刻的樣本活動情況見式(4)。
St={V(t-1)i,i,V(t)i+1,i+1,N(t-1)j,j,N(t)j+1,j+1}
(3)
ht=St-1Wn+St-1Wv+UtXt
(4)
3)記各時(shí)刻提取的關(guān)鍵詞詞集St集合為矩陣F(v(t),n(t))見式(5),則隱含層處理后輸出的特征關(guān)鍵詞矩陣O(1,…,t-1,t)表達(dá)式見式(6)。
O(X1,…,Xt-1,Xt)=F(v(t),n(t))×[Wv,Wn]T
(6)
則:示例語句算法處理后特征矩陣為F(v(2),n(2))=diag(0,0.8,0.6,0.6,0,1.8,1.6,1.6)。
則:示例語句的F(v(2),n(2))在隱含層處理后的關(guān)鍵詞特征矩陣為O(X2)=(0,0.6,0.4,0.4,0,1.4,1.0,0)T。
4)將獲取到的輸出結(jié)果集進(jìn)行最大池化,獲取每一時(shí)刻最大權(quán)值,同時(shí)依據(jù)中所在矩陣位置編號獲取關(guān)鍵詞標(biāo)識Wid,考慮樣本活動強(qiáng)弱,從而得到局部語義關(guān)鍵詞數(shù)列Q{Q1,Q2,…,Qn},其池化公式見式(7)。
(7)
則:示例語句的局部語義關(guān)鍵詞數(shù)列Q{Q1,Q2}={(0.8)T,(1.4,1.0)T},其對應(yīng)的Wid為(2,2,3)。
5)對相同局部關(guān)鍵語義關(guān)鍵詞標(biāo)識Wid進(jìn)行化簡,得到全句最終語義關(guān)鍵詞集合P{P1,P2,…,Pn},則可得到示例語句提取的關(guān)鍵詞集合為{“戴”,“安全帽”}。
山西同煤集團(tuán)于2018年1月采用了基于CNN的煤礦安全隱患智能語義采集系統(tǒng),2019年6月份開始使用該系統(tǒng)。
本文為驗(yàn)證基于RNN的關(guān)鍵語義智能提取模型在不同語句長度條件下,標(biāo)準(zhǔn)關(guān)鍵詞命中率以及用于檢索過程中關(guān)鍵詞檢索準(zhǔn)確度和消耗時(shí)間,在山西同煤集團(tuán)下屬的忻州窯礦區(qū)煤層進(jìn)行了相關(guān)實(shí)驗(yàn)。實(shí)驗(yàn)1:實(shí)驗(yàn)采樣待提取關(guān)鍵詞數(shù)據(jù)量為10000條,實(shí)驗(yàn)分組10組,每組1000條。將基于RNN的關(guān)鍵語義智能提取模型(模型1)、基于CNN算法的智能采集模型(模型2)[2],以及相似關(guān)鍵字匹配算法模型(模型3)應(yīng)用于安全隱患違反條例項(xiàng)的檢索過程中,檢索均采用煤礦安全隱患智能采集與智慧決策系統(tǒng)軟件[12-15],驗(yàn)證其提取關(guān)鍵詞的準(zhǔn)確度,召回率,F(xiàn)-score值(評判指標(biāo))和消耗時(shí)間,實(shí)驗(yàn)結(jié)果對比見表1。其中,召回率=[(正確檢索的條數(shù))/1000],準(zhǔn)確率=[(正確檢索的條數(shù))/(實(shí)際檢索的條數(shù))],F(xiàn)-score=[(2*準(zhǔn)確率*召回率)/(準(zhǔn)確率+召回率)],耗時(shí)=關(guān)鍵詞提取耗時(shí)+檢索耗時(shí)。
表1 各模型提取語義關(guān)鍵詞檢索的平均精確率與耗時(shí)實(shí)驗(yàn)結(jié)果對比
通過表1的對比實(shí)驗(yàn)表明:與基于其他模型的系統(tǒng)相比,基于RNN的關(guān)鍵語義智能提取模型的檢索系統(tǒng),語義提取準(zhǔn)確率高、綜合評價(jià)F-score值等評判指標(biāo)優(yōu)、提取語義關(guān)鍵詞檢索耗時(shí)少,解決了安全隱患關(guān)鍵語義提取效率、語義表述不規(guī)范,以及精確度不夠高問題,保證了安全檢查人員的條例檢索效率,大大減輕了其日常工作量。
實(shí)驗(yàn)2:實(shí)驗(yàn)采樣待提取關(guān)鍵詞的語句長度為10、30、50、70、100、120、140、160、180和200字,在不同長度語句,基于RNN的關(guān)鍵語義智能提取模型和基于CNN的智能采集模型,共進(jìn)行10組實(shí)驗(yàn),一組兩模型各10次,進(jìn)行映射標(biāo)準(zhǔn)關(guān)鍵詞命中率平均趨勢對比,實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 不同長度語句下標(biāo)準(zhǔn)關(guān)鍵詞命中率實(shí)驗(yàn)對比結(jié)果
通過圖7標(biāo)準(zhǔn)關(guān)鍵詞平均命中率變化趨勢對比,可以得出:基于RNN的關(guān)鍵語義智能提取模型和基于CNN的智能采集模型在語句長度為100字以內(nèi)時(shí),標(biāo)準(zhǔn)關(guān)鍵詞映射命中率均非常高;隨著語句長度的增加,基于RNN的關(guān)鍵語義智能提取模型關(guān)鍵詞映射命中率趨于高系數(shù)穩(wěn)定,而基于CNN的智能采集模型呈現(xiàn)下降趨勢,關(guān)鍵詞平均命中率最終低于90%。實(shí)驗(yàn)驗(yàn)證了基于RNN的語義特征提取算法具有高可靠性,且適用于煤礦企業(yè)安全生產(chǎn)檢查環(huán)節(jié)。
煤礦安全隱患信息關(guān)鍵語義智能提取系統(tǒng)針對現(xiàn)階段煤礦安全生產(chǎn)面臨的嚴(yán)峻問題,以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),構(gòu)建語義關(guān)鍵詞智能提取模型,高效獲取語義關(guān)鍵詞,為精準(zhǔn)檢索安全規(guī)程條例項(xiàng)提供條件。該系統(tǒng)解決了煤礦安全隱患問題表述不標(biāo)準(zhǔn),核心隱患問題描述不清等問題,提高了煤礦安全隱患排查能力,減輕了日常安全檢查人員的工作量,極大促進(jìn)了煤礦企業(yè)安全生產(chǎn)管理的智能化。