張 磊,付山勇,于世寶
(陜西永明煤礦有限公司,陜西延安 717300)
隨著煤礦智能化技術的快速發(fā)展,煤礦設備的復雜性不斷提高,設備維修資源不斷豐富。傳統(tǒng)的煤礦設備維修知識管理技術已經(jīng)不能滿足當前設備維修知識管理的需要,利用率低、互操作性差、知識流失嚴重等問題逐漸顯現(xiàn)。研究大型煤礦設備維修資源的新型知識體系建設和知識管理應用技術迫在眉睫。知識圖譜是利用圖譜模型來描述客觀世界中事物之間關系的一種技術方法,可以有效解決大規(guī)模數(shù)據(jù)下的知識動態(tài)挖掘和管理問題。本文基于煤礦設備維修領域沒有統(tǒng)一的基礎知識體系的現(xiàn)狀,建立了煤礦設備維修本體論(CMEMO),以解決維修知識沒有統(tǒng)一表示、整合、共享的問題,為煤礦設備維修知識圖譜的構建提供支持。
本章基于煤礦設備維修領域構建的本體模型,利用BERTBiLSTM-CRF 模型,根據(jù)某煤礦集團各子公司保留的文本數(shù)據(jù),如煤礦設備維修手冊等,完成煤礦設備維修的命名實體識別。
針對CMEM(Comprehensive Modal Emission Model)實體識別中實體數(shù)量龐大、交替頻率高、煤語義復雜等問題,需要選擇合適的命名實體識別方法。由于基于監(jiān)督的統(tǒng)計學習方法在實體識別過程中依靠大型標注語料進行模型訓練,不適合沒有大規(guī)模專業(yè)語料庫的CMEM,容易出現(xiàn)實體識別不準確的情況。因此,本文采用改進的神經(jīng)網(wǎng)絡模型實現(xiàn)CMEM 實體識別。
結合條件隨機場雙向神經(jīng)網(wǎng)絡模型(BiLSTM-CRF),基于BiLSTM-CRF 神經(jīng)網(wǎng)絡模型,引入BERT(預訓練語言)模型作為CMEM 的命名實體識別模型(即BERT-BiLSTM-CRF)。首先,將預處理后的數(shù)據(jù)分為訓練集和測試集:訓練集通過來自變壓器的雙向編碼器表示(BERT)模型將輸入文本序列轉換為具有豐富上下文語義的768 維詞向量,將BERT 模型的輸出向量作為BiLSTM 模型的輸入,提取上下文的特征值,利用CRF模型對輸入標注序列的實體進行標注,最后得到識別結果。
本文將BERT 引入CRF(條件隨機場)的BiLSTM(雙向長短記憶網(wǎng)絡)中,構建基于BERT-BiLSTM-CRF 的命名實體識別模型。BERT-BiLSTM-CRF 模型將實體識別任務直接轉換為序列標注問題,即通過構建BERT-BiLSTM-CRF 序列注釋模型。序列注釋模型有5 層,分別為輸入層、BERT 層、BiLSTM 層、CRF層(輸入是BiLSTM 層的輸出結果)和輸出層。其中,輸入層表示要標注的輸入序列,輸出層表示標注序列。
雖然BiLSTM 可以學習一個單詞或短語的上下文信息,并且在選擇輸出標簽時可以使用最高概率的標簽結果,沒有考慮不同單詞之間的關系,因此輸出標簽可能會被混淆,缺乏邏輯。因此,引入CRF 模型來解決BiLSTM 中單詞關系的不識別問題,并獲取全文信息并預測結果。在CRF 模型訓練過程中,為了保證單詞標簽的正確性,在制作預測標簽時添加約束。
根據(jù)本研究的需要,其目的是解決文本序列注釋的問題,因此選擇添加線性鏈條件隨機場(Linear CRF 是一種條件隨機場)層來有效地解決上述問題。CRF 模型的操作過程如下:①預先定義了特征函數(shù)fα;②利用給定的數(shù)據(jù)對模型進行訓練,確定權值參數(shù)λk;③利用所確定的模型實現(xiàn)序列標注。
CRF 模型是基于BERTBiLSTM-CRF 模型的最后一層,其主要職責是捕捉前后標簽之間的依賴關系,并對標簽進行約束。該模型可以用P(Y|X)表示,其中X 是輸入變量,代表標記的觀察序列;Y 是輸出序列,代表與X 相對應的標簽序列。
鑒于隨機變量x 是觀察序列(x1,…,xi),隨機變量y 是隱藏狀態(tài)序列(y1,…,yi),每個(xi,yi)對是線性鏈中的最大clique,并且滿足:
給定預設觀測序列,則CRF 求解隱態(tài)序列x、y 的方程為:
其中,i 表示節(jié)點的當前位置,k 表示當前的特征函數(shù),每個特征函數(shù)都有一個權值λk。由于狀態(tài)序列與兩個標記之間的關系有限,因此為CRF 模型定義了連續(xù)特征函數(shù),即:
其中,用Z(x)歸一化形成概率值;tj表示i 處的傳遞特征,對應的權值為λj;sl為i 處的狀態(tài)特征,對應的權值為ul;j 和l分別表示特征函數(shù)的個數(shù)。
本文利用收集到的煤礦設備維修數(shù)據(jù),包括維修手冊、維修案例庫、設備維修計劃、設備完整性標準等,通過數(shù)據(jù)爬蟲從網(wǎng)頁抓取煤礦設備維修相關數(shù)據(jù),形成煤礦設備維修命名實體識別的語料集。
首先,對數(shù)據(jù)進行預處理。也就是說,語料庫被清理,無用的信息被消除。
然后使用Jieba 分詞工具包對語料庫進行分詞。
最后,根據(jù)標記策略完成語料集的標注。
在實驗過程中,語料庫被隨機分為訓練集、測試集和評估集。訓練集包含2254 個句子和48 972 個單詞;測試集包括1636 個句子和26 548 個單詞;評估集包含899 個句子和9837 個單詞。
本文以SIGHAN 定義的4 個測試指標,即精度P、召回率R、F1值(F1-Measure,F(xiàn)1)和準確度A 作為命名實體識別的評價指標。它們通常用于評估檢索任務、分類任務和識別任務的實驗結果。具體定義公式如下:
本實驗是在相同的配置環(huán)境中使用相同的語料庫完成的,以展示基于提出的BERT-BiLSTM-CRF 模型的CMEM 實體識別的優(yōu)越性。基于評估系統(tǒng),引入精度、召回率、F1(F-measure)和準確度來分析每個模型的實體識別結果。實驗結果表明,對于同一數(shù)據(jù)集中CMEM 實體的識別效果,BERT-BiLSTM-CRF 模型的識別在準確性、召回率和F1值方面優(yōu)于Word2ve-LSTM 模型(表1)。
表1 實驗結果的比較 %
與基本的Word2ve-LSTM 模型相比,BiLSTM-CRF 的準確率、召回率和F1值分別大幅提升了5.85%、8.49%和7.21%,表明雙向神經(jīng)網(wǎng)絡模型在命名實體識別方面具有高精度的優(yōu)勢。與BiLSTM-CRF 相比,BERT-CRF 的F1值略有提高,識別的召回率和F1值分別提高了2.94%和2.86%;與BERT-CRF 模型相比,識別的召回率和F1值分別提高了2.93%和2.71%。這表明BERT 和BiLSTM 的組合更有利于CMEM 命名實體識別。
為了更直觀地展示每個模型的識別情況,圖1 將每個模型的F1值與不同的訓練迭代進行比較??梢钥闯?,BERT-BiLSTM-CRF 模型的F1值高于其他3 個模型,特別是在訓練迭代次數(shù)增加到15 次之后,其F1值的領先趨勢趨于穩(wěn)定。
圖1 不同訓練迭代下的F1 值分析
從圖1 和表1 可知,Word2ve-LSTM 和BiLSTM-CRF 的改進模型在CMEM 命名實體識別方面存在一定的局限性,主要是因為這兩個模型僅限于單詞的特征提取,而BERT-CRF 模型和BERT-BiLSTM-CRF 模型可以很好地解決這個問題。BERT 模型的核心是構建一個雙向轉換器,以使用上下文進行預訓練。因此,BERT 模型不僅實現(xiàn)了短語級信息表示的學習,還實現(xiàn)了豐富的語義學習。通過上述模型比較,可知在所有指標中BERT-BiLSTM-CRF 模型的表現(xiàn)最佳,這表明其在實體識別方面表現(xiàn)最佳。
隨著知識圖譜技術的日益成熟及其在各個領域的成功應用,知識圖譜為各行業(yè)的知識管理提供了新的研究思路?;谶@一背景,本文完成的主要研究工作有:
(1)建立煤礦設備維護領域知識圖譜體系,將知識圖譜技術創(chuàng)新性地應用于煤礦設備維護領域的研究,為知識圖譜構建關鍵技術的研究提供理論支撐。
(2)在分析煤礦設備維修知識體系和特點的基礎上,將本體引入煤礦設備維修知識模型構建中。構建煤礦設備維修知識本體模型CMEMO。
(3)提出了BERT-BiLSTM-CRF 煤礦設備維護的實體識別模型。引入谷歌最新發(fā)布的BERT 模型,使煤礦設備維護的命名實體識別準確率和F1值分別達到88.56%和88.23%。實驗結果表明,該模型具有較好的命名實體識別效果。