潘理虎,趙彭彭,龔大立,閆慧敏,張英俊
(1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024;2.精英數(shù)智科技股份有限公司,山西 太原 030006;3.中國(guó)科學(xué)院 地理科學(xué)與資源研究所,北京 100101)
煤炭是中國(guó)能源體系的主要組成部分,煤礦安全生產(chǎn)管理始終是經(jīng)濟(jì)社會(huì)安全穩(wěn)定的重要工作。據(jù)統(tǒng)計(jì),中國(guó)2004-2020年因煤礦事故導(dǎo)致的死亡人數(shù)達(dá)到了40 000,煤礦事故已經(jīng)成為威脅煤礦安全生產(chǎn)的最大挑戰(zhàn)。煤礦事故的預(yù)防是保障煤礦安全、穩(wěn)定生產(chǎn)的重要手段。得益于知識(shí)圖譜理論和技術(shù)的發(fā)展,煤礦事故的預(yù)防可通過(guò)整合多源、異構(gòu)的煤礦事故案例信息,構(gòu)建煤礦事故領(lǐng)域知識(shí)圖譜,通過(guò)與現(xiàn)有的煤礦領(lǐng)域核心知識(shí)圖譜融合,構(gòu)建煤礦安全生產(chǎn)知識(shí)圖譜,對(duì)煤礦事故、人員、設(shè)備、操作及環(huán)境進(jìn)行智能化管理來(lái)實(shí)現(xiàn)。煤礦事故領(lǐng)域命名實(shí)體識(shí)別(named entity recognition,NER)是構(gòu)建煤礦事故領(lǐng)域知識(shí)圖譜的基礎(chǔ)工作。
NER任務(wù)的目的是找出文本序列中特定標(biāo)識(shí)符的開(kāi)頭和結(jié)尾,并將其進(jìn)行分類,是自然語(yǔ)言處理的一項(xiàng)基本任務(wù)?;谝?guī)則的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)是早期NER識(shí)別任務(wù)的常用方法。其中基于規(guī)則的方法依賴于人工構(gòu)建規(guī)則庫(kù)來(lái)解決特定領(lǐng)域的實(shí)體識(shí)別任務(wù),費(fèi)時(shí)費(fèi)力且可移植性差,因此使用率越來(lái)越低,逐漸被基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法所替代;基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法出現(xiàn)了隱馬爾可夫、條件隨機(jī)場(chǎng)(conditional random field,CRF)、層疊馬爾可夫及多層條件隨機(jī)場(chǎng)等經(jīng)典模型,這些模型面向海量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,最大程度摒棄了對(duì)于人工的依賴,取得了較高的準(zhǔn)確率,但是存在泛化能力不強(qiáng)的缺點(diǎn)。近年來(lái)深度學(xué)習(xí)和圖形處理器(graphics processing unit,GPU)的發(fā)展極大地促進(jìn)了自然語(yǔ)言處理技術(shù)的升級(jí),與基于規(guī)則和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比,深度學(xué)習(xí)擁有速度更快、泛化能力更強(qiáng)的優(yōu)點(diǎn),因此神經(jīng)網(wǎng)絡(luò)模型成為解決命名實(shí)體識(shí)別任務(wù)的主流方法。由于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的線性結(jié)構(gòu)與文本序列天然對(duì)齊,RNN在命名實(shí)體識(shí)別任務(wù)中應(yīng)用廣泛,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-direction short and long term memory networks,Bi-LSTM)作為RNN的變體,以其獨(dú)特的門控結(jié)構(gòu)解決了RNN的梯度消失和梯度爆炸問(wèn)題,Bi-LSTM也成為了解決NER任務(wù)的典型代表。盡管基于RNN實(shí)體識(shí)別方法取得了不錯(cuò)的成績(jī),但是RNN的序列依賴結(jié)構(gòu)決定其無(wú)法充分利用GPU的并行計(jì)算能力,導(dǎo)致模型的訓(xùn)練時(shí)間過(guò)長(zhǎng),造成計(jì)算資源的嚴(yán)重浪費(fèi)。為了充分利用GPU資源,縮短訓(xùn)練時(shí)間,學(xué)者們將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用于NER中。盡管CNN與RNN相比有明顯的計(jì)算優(yōu)勢(shì),但受限于卷積核的大小,CNN抽取長(zhǎng)距離特征的能力弱于RNN。
目前,面向煤礦事故領(lǐng)域的命名實(shí)體識(shí)別工作存在以下難點(diǎn):第一,沒(méi)有煤礦事故領(lǐng)域的命名實(shí)體標(biāo)注語(yǔ)料;第二,煤礦事故案例沒(méi)有統(tǒng)一的書(shū)寫規(guī)范,存在大量口語(yǔ)化表達(dá);第三,相同實(shí)體表述不同,如“頂板冒落”、“片幫冒落”、“冒落”、“頂、邊幫冒落坍塌事故”都是指同一事故類型,但是表述卻不一致;第四,實(shí)體長(zhǎng)度不一,識(shí)別難度較大;第五,煤礦事故案例文本涉及大量的專業(yè)詞匯,如“煤與瓦斯突出事故”、“瓦斯爆炸”、“頂板垮塌”等。
針對(duì)以上問(wèn)題,基于帶有Dropout和自適應(yīng)矩估計(jì)的迭代擴(kuò)張卷積(iterative dilated convolution with dropout and adaptive moment estimation,IDCDA),該文給出了一種命名實(shí)體識(shí)別模型ALBERT-IDCDA-CRF,主要工作包括以下幾個(gè)方面:(1)構(gòu)建了煤礦事故領(lǐng)域?qū)嶓w標(biāo)注語(yǔ)料CoalMineCorpus;(2)使用ALBERT預(yù)訓(xùn)練語(yǔ)言模型獲取文本序列的字向量表示,提升原有字向量的表達(dá)能力,解決實(shí)體表述不一致的問(wèn)題;(3)針對(duì)長(zhǎng)實(shí)體問(wèn)題,采用四個(gè)相同結(jié)構(gòu)的迭代擴(kuò)張卷積模塊提升傳統(tǒng)CNN的特征抽取抽取長(zhǎng)距離特征的能力;(4)研究了結(jié)合Dropout和自適應(yīng)矩估計(jì)(adaptive moment estimation,ADAM)的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化算法解決過(guò)擬合問(wèn)題。
煤礦事故案例主要包括時(shí)間、地名、煤礦名稱、事故原因、事故類型、傷亡情況及救援過(guò)程等,是關(guān)于煤礦事故的重要數(shù)據(jù)。該文以從煤礦安全生產(chǎn)網(wǎng)、煤礦安全網(wǎng)、國(guó)家煤礦安全監(jiān)察局等網(wǎng)站發(fā)布的煤礦事故案例作為原始數(shù)據(jù),預(yù)處理后得到規(guī)范的煤礦事故案例數(shù)據(jù)集,以句末點(diǎn)號(hào)為標(biāo)志對(duì)數(shù)據(jù)集進(jìn)行句子級(jí)劃分。針對(duì)煤礦事故領(lǐng)域?qū)嶓w邊界模糊問(wèn)題,結(jié)合煤礦領(lǐng)域?qū)<业囊庖?jiàn)及實(shí)際應(yīng)用需求對(duì)煤礦事故領(lǐng)域命名實(shí)體進(jìn)行分類,在字級(jí)別對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,構(gòu)建了包含時(shí)間、地名、煤礦名稱、事故類型四類實(shí)體的語(yǔ)料集CoalMineCorpus。
使用DATE、LOC、ORG、ACC分別表示時(shí)間、地名、煤礦名稱、事故類型四類實(shí)體,采用“BIO”標(biāo)注體系進(jìn)行實(shí)體標(biāo)注,其中“B-”表示實(shí)體開(kāi)始,“I-”表示實(shí)體的中間和結(jié)尾部分,“O”表示其他,所定義的標(biāo)簽集合如表1所示。
表1 實(shí)體標(biāo)簽集合
為了保證實(shí)體標(biāo)注的準(zhǔn)確性,該文使用支持多人同步進(jìn)行標(biāo)注工作和結(jié)果對(duì)比的YEDDA標(biāo)注軟件完成序列標(biāo)注。在實(shí)體標(biāo)注過(guò)程采用雙人標(biāo)注同一文檔的方式,標(biāo)注完成后對(duì)結(jié)果進(jìn)行對(duì)比,避免實(shí)體標(biāo)注不一致問(wèn)題;其次標(biāo)注完成后請(qǐng)煤礦領(lǐng)域?qū)<覍?duì)標(biāo)注結(jié)果進(jìn)行檢查來(lái)避免實(shí)體標(biāo)注錯(cuò)誤。以“云南曲靖祠堂坡煤礦頂板冒落事故致5死2傷”為例,標(biāo)注結(jié)果如表2所示。
表2 序列標(biāo)注結(jié)果
應(yīng)用1.2節(jié)的實(shí)體分類及標(biāo)注方法對(duì)煤礦事故案例數(shù)據(jù)集進(jìn)行處理,得到可用于煤礦事故領(lǐng)域的命名實(shí)體識(shí)別研究工作的煤礦事故領(lǐng)域標(biāo)注語(yǔ)料集CoalMineCorpus,每類實(shí)體數(shù)目統(tǒng)計(jì)如表3所示。
表3 CoalMineCorpus語(yǔ)料集實(shí)體數(shù)目統(tǒng)計(jì)
ALBERT-IDCDA-CRF模型結(jié)構(gòu)如圖1所示,包括詞嵌入層、CNN層和CRF層三個(gè)部分。模型的輸入為字向量序列,因此需要把煤礦事故案例文本數(shù)據(jù)嵌入到向量空間,將字符轉(zhuǎn)變?yōu)橐欢ňS度的字向量。該文使用ALBERT預(yù)訓(xùn)練語(yǔ)言模型融合文本序列的上下文語(yǔ)義信息,將得到的字向量序列輸入CNN層,CNN層采用四個(gè)迭代擴(kuò)張卷積(iterative dilated convolution,IDC)模塊來(lái)完成特征抽取,將四個(gè)模塊的結(jié)果疊加作為CNN層的輸出,使用結(jié)合Dropout和ADAM優(yōu)化器的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化方法來(lái)解決神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題。最后使用條件隨機(jī)場(chǎng)作為解碼器,通過(guò)在數(shù)據(jù)集中學(xué)習(xí)標(biāo)簽的依賴關(guān)系,利用維特比算法進(jìn)行推理,從而獲得最佳的標(biāo)簽順序,對(duì)最終結(jié)果進(jìn)行修正。筆者將在以下各節(jié)對(duì)三部分內(nèi)容進(jìn)行詳細(xì)介紹。
圖1 ALBERT-IDCDA-CRF網(wǎng)絡(luò)結(jié)構(gòu)
詞嵌入層使用ALBERT預(yù)訓(xùn)練語(yǔ)言模型獲取字向量表示,ALBERT為多層的雙向Transformer結(jié)構(gòu),Transformer是一個(gè)僅使用注意力機(jī)制的機(jī)器翻譯模型,由Encoder和Decoder兩部分組成,ALBERT僅使用其Encoder部分,Encoder由六個(gè)相同的層堆疊組成,每層主體結(jié)構(gòu)為多頭注意力機(jī)制和全連接前饋網(wǎng)絡(luò)兩個(gè)子層。
多頭注意力機(jī)制(multi-head attention mechanism)是ALBERT最重要的部分,可視為h
個(gè)獨(dú)立注意力的拼接,如圖2所示。圖2 多頭注意力機(jī)制結(jié)構(gòu)
首先利用公式(1)對(duì)Q
、K
、V
進(jìn)行線性變換,重復(fù)h
次,其中Q
、K
、V
為字向量:(1)
將h
個(gè)結(jié)果輸入放縮點(diǎn)積注意力(scaled dot-product attention),利用公式(2)計(jì)算作為放縮點(diǎn)積注意力的結(jié)果:(2)
最后將h
個(gè)結(jié)果利用公式(3)拼接后作為多頭注意力的最終輸出:(3)
為了保證模型在提升訓(xùn)練效率的同時(shí)保持充足的文本表示能力,ALBERT采用嵌入層參數(shù)因式分解和跨層的參數(shù)共享策略來(lái)減少參數(shù)量,并且添加句間連貫(sentence ordering objectives,SOP)子任務(wù),通過(guò)預(yù)測(cè)句子間的順序來(lái)增強(qiáng)模型的理解能力。
2.3.1 擴(kuò)張卷積(dilated convolution,DC)
在自然語(yǔ)言處理中,CNN通常是一維的,通過(guò)卷積核在向量序列上的移動(dòng)來(lái)完成卷積操作,實(shí)現(xiàn)特征的抽取。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)如圖3(a)所示,卷積核大小為3×3,感受野大小為3×3,提取長(zhǎng)距離特征的方法為增大卷積核大小或加深網(wǎng)絡(luò)層數(shù)。如堆疊3層圖3(a)所示的CNN進(jìn)行卷積操作,在步長(zhǎng)為1的情況下,雖然感受野增大為7×7,但會(huì)使模型參數(shù)量變大,導(dǎo)致訓(xùn)練時(shí)間增加。擴(kuò)張卷積執(zhí)行相同的卷積操作時(shí),通過(guò)設(shè)置不同的擴(kuò)張率來(lái)擴(kuò)大有效的輸入寬度以增大感受野,從而卷積得到更多特征,捕獲更多的上下文信息。圖3(b)為擴(kuò)張率為4的擴(kuò)張卷積,感受野增大為15×15。由此可知,擴(kuò)張卷積可以在不增加網(wǎng)絡(luò)層數(shù)的同時(shí)實(shí)現(xiàn)感受野的擴(kuò)散,從而縮短了訓(xùn)練時(shí)間。
(a)傳統(tǒng)CNN (b)擴(kuò)張率為4的擴(kuò)張卷積
2.3.2 迭代擴(kuò)張卷積(iterative dilated convolution,IDC)
簡(jiǎn)單堆疊多層圖3(b)所示的擴(kuò)張卷積可以有效整合序列的全局信息,但會(huì)造成局部信息的缺失,使卷積結(jié)果缺乏相關(guān)性,如圖中灰色區(qū)域的特征并沒(méi)有被提取到。而對(duì)于上下文關(guān)系緊密的NER任務(wù)而言,丟失一部分特征會(huì)對(duì)模型準(zhǔn)確率產(chǎn)生很大影響。
該文采用四個(gè)如圖4所示的迭代擴(kuò)張卷積模塊來(lái)避免丟失特征連續(xù)性,其中上一個(gè)迭代擴(kuò)張卷積模塊的輸出是下一個(gè)模塊的輸入,最后將四次迭代的結(jié)果疊加作為最終的輸出。每個(gè)模塊由三層擴(kuò)張率分別為1、1、2的擴(kuò)張卷積組成,通過(guò)設(shè)置不同的擴(kuò)張率來(lái)抽取多尺度上下文特征,前兩層使用擴(kuò)張率為1的擴(kuò)張卷積來(lái)避免局部信息丟失,保證特征提取的準(zhǔn)確性;最后一層將擴(kuò)張率設(shè)置為2,使卷積核的感受野擴(kuò)大為7×7,提升模型提取長(zhǎng)距離特征的能力。
圖4 擴(kuò)張率分別為1、1、2的三層擴(kuò)張卷積模塊
(4)
將式(4)的結(jié)果輸入網(wǎng)絡(luò)進(jìn)行迭代,可以得到第k
次迭代時(shí)第一次循環(huán)結(jié)束的結(jié)果:(5)
第k
次迭代中第j
次循環(huán)結(jié)束的結(jié)果為:(6)
定義堆疊函數(shù)Stacking(),疊加四次迭代結(jié)果,可以得到最終的卷積結(jié)果C
:(7)
2.3.3 損失函數(shù)及網(wǎng)絡(luò)優(yōu)化
針對(duì)神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,該文采用結(jié)合Dropout和ADAM優(yōu)化器的卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化方法。在全連接層和輸出層之間加入Dropout層,以概率P
隨機(jī)選擇一部分神經(jīng)元,使其暫時(shí)停止工作,概率P
為:P
=(P
=1|x
)=(8)
其中,P
=1表示樣本a
生成1的概率值,B
表示所有i
類神經(jīng)元中屬于a
的數(shù)量。同時(shí)采用交叉熵?fù)p失函數(shù)衡量模型預(yù)測(cè)結(jié)果的好壞,公式為:(9)
在訓(xùn)練階段調(diào)整ADAM優(yōu)化器的學(xué)習(xí)率對(duì)損失函數(shù)進(jìn)行優(yōu)化,通過(guò)最小化交叉熵來(lái)提升模型的性能。
CNN層雖然可以有效整合煤礦事故案例文本的上下文信息,但不能考慮實(shí)體標(biāo)簽之間的先后順序,如“B-LOC”只能出現(xiàn)在地點(diǎn)實(shí)體的開(kāi)頭,而不能出現(xiàn)在其他位置;而CRF可以在數(shù)據(jù)集中學(xué)習(xí)標(biāo)簽的依賴關(guān)系,利用維特比算法進(jìn)行推理,對(duì)CNN層的輸出結(jié)果進(jìn)行修正,從而獲得最優(yōu)的標(biāo)簽序列。因此,該文選擇CRF作為模型最終的輸出層。
給定一條煤礦事故案例文本序列:W
=(w
,w
,…,w
),經(jīng)過(guò)CRF可以得到一個(gè)預(yù)測(cè)標(biāo)簽序列:X
=(x
,x
,…,x
),定義其預(yù)測(cè)分?jǐn)?shù)為:(10)
其中,為標(biāo)簽由x
轉(zhuǎn)移到x
+1的概率轉(zhuǎn)移矩陣,N
為第i
個(gè)詞語(yǔ)被標(biāo)記為標(biāo)簽y
的概率。最后利用維特比算法即可得到當(dāng)前文本序列W
的最優(yōu)標(biāo)簽序列。y
=argmax(P
(W
,X
))(11)
P
)、召回率(Recall,R
)和F測(cè)量度(F-measure,F
),概念公式如式(12)所示。(12)
其中,n
為預(yù)測(cè)為真且正確預(yù)測(cè)的實(shí)體個(gè)數(shù),M
為預(yù)測(cè)為真的實(shí)體個(gè)數(shù),N
為標(biāo)準(zhǔn)結(jié)果中的實(shí)體個(gè)數(shù)。通過(guò)多組對(duì)比實(shí)驗(yàn),分析了不同超參數(shù)設(shè)置對(duì)模型識(shí)別效果的影響,得到ALBERT-IDCDA-CRF模型最優(yōu)的超參數(shù),如表4所示。其中過(guò)濾器大小為3×3,字向量維度為100維,訓(xùn)練次數(shù)和Batch size設(shè)置為100、20。在訓(xùn)練過(guò)程中,將Dropout的概率值設(shè)置為0.5,測(cè)試階段設(shè)置為1。
表4 ALBERT-IDCDA-CRF模型超參數(shù)
3.3.1 實(shí)驗(yàn)1:不同學(xué)習(xí)率下ADAM優(yōu)化器對(duì)ALBERT-IDCDA-CRF模型F值的影響
考慮到ADAM優(yōu)化器的數(shù)學(xué)特性,若學(xué)習(xí)率過(guò)大或者過(guò)小都會(huì)導(dǎo)致交叉熵?fù)p失函數(shù)難以收斂,因此通過(guò)將學(xué)習(xí)率設(shè)置為0.02,0.03,…,0.09進(jìn)行實(shí)驗(yàn),不同學(xué)習(xí)率下ALBERT-IDCDA-CRF模型的F值變化如圖5所示。
圖5 ALBERT-IDCDA-CRF模型F值變化
觀察圖5可知,當(dāng)學(xué)習(xí)率位于[0.02,0.05)時(shí),模型的F值與學(xué)習(xí)率呈正相關(guān)關(guān)系;當(dāng)學(xué)習(xí)率位于[0.05,0.07],F(xiàn)值趨于穩(wěn)定;當(dāng)學(xué)習(xí)率大于0.07,F(xiàn)值呈下降趨勢(shì)。因此在后續(xù)實(shí)驗(yàn)中將學(xué)習(xí)率設(shè)置為0.05。
3.3.2 實(shí)驗(yàn)2:ALBERT-IDCDA-CRF在不同優(yōu)化器下的性能對(duì)比
為了分析不同優(yōu)化算法對(duì)模型識(shí)別性能的影響,分別采用隨機(jī)梯度下降(stochastic gradient descent, SGD)、自適應(yīng)梯度算法(Adagrad)、ADAM三種優(yōu)化算法對(duì)ALBERT-IDCDA-CRF模型進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果如表5所示,可以發(fā)現(xiàn)當(dāng)采用ADAM優(yōu)化器時(shí),模型的準(zhǔn)確率、召回率和F值明顯優(yōu)于其他兩種算法,因此后續(xù)實(shí)驗(yàn)采用ADAM優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。
表5 不同優(yōu)化器下模型性能對(duì)比 %
3.3.3 實(shí)驗(yàn)3:ALBERT-IDCDA-CRF與其他模型的比較
由表6可知,在采用相同特征抽取模型的情況下,分別使用ALBERT和word2vec生成字向量,當(dāng)使用ALBERT預(yù)訓(xùn)練語(yǔ)言模型生成詞向量時(shí),BILSTM-CRF的F值由76.64%提升到86.20%,IDCDA-CRF的F值由74.11%提升到90.65%,分別提高了9.56%和16.54%,說(shuō)明使用雙向Transformer結(jié)構(gòu)的ALBERT預(yù)訓(xùn)練語(yǔ)言模型生成的字向量具有更好的文本表示能力,包含的語(yǔ)義信息更加豐富。同時(shí)ALBERT-IDCDA-CRF取得了最高的準(zhǔn)確率、召回率和F值,和BILSTM-CRF和IDCDA-CRF相比F值提高14.01%、16.54%,比識(shí)別效果最好的ALBERT-BILSTM-CRF提高4.45%,可見(jiàn)該文所使用的迭代擴(kuò)張卷積特征抽取能力最強(qiáng),并且略優(yōu)于經(jīng)典的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。
表6 不同模型性能對(duì)比 %
由圖6不同模型訓(xùn)練時(shí)間對(duì)比結(jié)果可以看出,該文采用的方法解決了傳統(tǒng)命名實(shí)體識(shí)別方法訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題,與BILSTM-CRF、IDCDA-CRF、ALBERT-BILSTM-CRF相比時(shí)間變化分別為-133 s,+148 s,-1 501 s(正為時(shí)間增加,負(fù)為時(shí)間減少),和ALBERT-BILSTM-CRF相比,訓(xùn)練時(shí)間縮短一半,和IDCDA-CRF相比,雖然訓(xùn)練時(shí)間有所增加,但P、R、F值卻大幅提升。
圖6 不同模型訓(xùn)練時(shí)間對(duì)比
上述對(duì)比分析結(jié)果表明,所采用的ALBERT-IDCDA-CRF神經(jīng)網(wǎng)絡(luò)模型在各項(xiàng)評(píng)價(jià)指標(biāo)上有明顯提高,訓(xùn)練時(shí)間也大幅縮短,是進(jìn)行煤礦事故案例命名實(shí)體識(shí)別的最佳模型。
以自構(gòu)的煤礦事故領(lǐng)域?qū)嶓w標(biāo)注語(yǔ)料集CoalMineCorpus為研究對(duì)象,該文提出了面向煤礦事故案例的ALBERT-IDCDA-CRF命名實(shí)體識(shí)別模型。該模型詞嵌入層通過(guò)使用輕量級(jí)預(yù)訓(xùn)練語(yǔ)言模型ALBERT來(lái)產(chǎn)生更高質(zhì)量的詞向量,提升命名實(shí)體識(shí)別的性能;CNN層使用四個(gè)迭代擴(kuò)張卷積模塊來(lái)提升CNN抽取長(zhǎng)距離特征的能力和縮短模型的訓(xùn)練時(shí)間,采用結(jié)合Dropout和ADAM的優(yōu)化算法解決模型的過(guò)擬合問(wèn)題;最后采用CRF對(duì)標(biāo)簽序列進(jìn)行約束,提升預(yù)測(cè)結(jié)果。通過(guò)多組對(duì)比實(shí)驗(yàn),驗(yàn)證了ALBERT-IDCDA-CRF模型在煤礦事故領(lǐng)域命名實(shí)體識(shí)別任務(wù)中的有效性。
在未來(lái)的研究工作中,將進(jìn)一步擴(kuò)大語(yǔ)料集CoalMineCorpus的規(guī)模,將實(shí)體標(biāo)注工作規(guī)范化,考慮采用融合字、詞特征的詞向量提升模型性能,抽取更多有應(yīng)用價(jià)值的實(shí)體。
計(jì)算機(jī)技術(shù)與發(fā)展2022年2期