丁浩 孔令圓 劉清 胡廣偉
摘 要: [目的/ 意義] 本文針對農業(yè)領域提出一種基于融合多重特征詞嵌入模型的農業(yè)命名實體識別方法,以提高識別準確度。[方法/ 過程] 通過使用結合字符、位置語義、領域知識字典特征等多重特征向量作為嵌入層, 充分考慮字符的位置信息和上下文語義信息, 并根據(jù)農業(yè)領域的中文實體的特點改進了單一字符向量嵌入,獲得更多的農業(yè)實體特征, 同時采用雙向長短時記憶網絡BiLSTM 和多頭注意力機制來學習文本的長距離依賴信息, 再利用條件隨機場CRF 獲得全局最優(yōu)標注序列。[結果/ 結論] 本文在農業(yè)領域中文實體語料數(shù)據(jù)集中與9種基于基線方法進行對比實驗, 模型的Precision 為92 2%, Recall 為92 0%, F1 值為92 11%, 均優(yōu)于其他基線模型, 說明本文模型對于中文農業(yè)命名實體識別更精確。
關鍵詞: 自然語言處理; 命名實體識別; 農業(yè)文本; 信息抽??; BiLSTM; CRF
DOI:10.3969 / j.issn.1008-0821.2023.11.011
〔中圖分類號〕TP391 1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 11-0135-11