趙慧子,周逸凡,段 浩,趙紅莉,張 東
(1.中國水利水電科學研究院,北京 100038;2.水利部數(shù)字孿生流域重點實驗室,北京 100038;3.大連海事大學,遼寧 大連 116026)
隨著信息技術(shù)的發(fā)展,社會各領(lǐng)域信息量呈現(xiàn)爆發(fā)式增長,如何更好地收集、管理和利用各領(lǐng)域海量信息,提供智能化領(lǐng)域知識服務,成為亟待解決的熱點問題。知識抽取是領(lǐng)域知識服務的基礎(chǔ),即從大量非結(jié)構(gòu)化數(shù)據(jù)中獲取有用的知識文本,主要包括實體抽取、關(guān)系抽取、事件抽取三個方面。其中,知識實體的抽取又被稱為命名實體識別[1](Named Entity Recognition,NER),旨在將文本中的知識實體識別出來,并按照專家預先定義的知識體系進行分類存儲、管理。
命名實體識別的方法可分為基于規(guī)則、基于機器學習和基于深度學習的方法[2]。早的命名實體識別采用基于人工編制字典和規(guī)則的方法,在數(shù)據(jù)量較少時,識別的準確率較高,然而隨著數(shù)據(jù)量的增大,規(guī)則的復雜性顯著增加,此類方法由于缺乏魯棒性和可移植性[3],單純依靠此類方法,人工處理工作量大,難以完成大規(guī)模識別任務。隨后有專家將實體識別作為序列標注任務,據(jù)此提出基于特征定義和統(tǒng)計的監(jiān)督學習方法,改善了單純基于規(guī)則的方法可移植性較的問題,主要模型有條件隨機場模型(Conditional Random Field,CRF)[4]、隱馬爾科夫模型(Hidden Markov Model,HMM)[5]、最大熵模型(Maximum Entropy,ME)[6]、支持向量機(Support Vector Machine,SVM)[7]等,這類引入了機器學習的方法顯著提升了模型識別性能和可移植性。隨著以復雜人工神經(jīng)網(wǎng)絡技術(shù)為基礎(chǔ)的深度學習技術(shù)的興起,其在自然語言識別任務中發(fā)揮了巨大作用,基于深度學習的方法相對于機器學習的方法無需復雜的特征定義,能夠自動學習文本特征,當前已成為命名實體識別方法研究的主流,代表模型有雙向長短記憶-條件隨機場(BiLSTM-CRF)模型[8]、BERT模型[9]等。其中BERT模型在通用領(lǐng)域具有很好的效果,在自然語言處理領(lǐng)域的多項任務上都取得了領(lǐng)先的成績,然而面對某些特定垂直細分領(lǐng)域,BERT模型仍然存在一些挑戰(zhàn)和局限性,需要進一步的優(yōu)化和改進[10-11]。
水利領(lǐng)域知識圖譜的發(fā)展也推動了水利命名實體識別的研究,段浩等[12]通過分析整合各類水利業(yè)務與學科知識數(shù)據(jù),構(gòu)建了面向水利綜合知識的圖譜(又稱“水問”),圖譜實體抽取采用BiLSTM-CRF和模式識別結(jié)合的方法,獲得了一定規(guī)模的實體總量,截至202210月,圖譜共收錄了160余萬個水利實體;顧乾暉等[13]構(gòu)建了基于對抗訓練的BERT-CRF模型識別水利命名實體,在訓練速度和識別性能上均有較優(yōu)效果。水利領(lǐng)域?qū)嶓w具有細分領(lǐng)域多、文本數(shù)據(jù)量大、知識融合復雜等特征,因此垂直細分領(lǐng)域?qū)嶓w識別較通用領(lǐng)域?qū)嶓w識別更加復雜,上述兩項研究中均沒有針對這一難點展開專門研究。
本文以水利垂直領(lǐng)域之一的水文模型領(lǐng)域相關(guān)知識抽取為例,開展命名實體識別研究,以水文模型中文刊論文為數(shù)據(jù)源構(gòu)建了水文模型實體數(shù)據(jù)集,針對細粒度水利命名實體的抽取問題,構(gòu)建了基于多策略的水文模型命名實體識別方法:即融合BERT-Base-Chinese模型、LAC(Lexical Analysis of Chinese)工具和模式識別的方法,對水文模型領(lǐng)域命名實體進行抽取,具有較高的精確率和召回率。本研究可為其他水利業(yè)務知識實體提取及水利綜合知識圖譜構(gòu)建提供技術(shù)參考。
本文以面向刊文獻的水文模型知識學習為研究場景,以刊論文為數(shù)據(jù)源,嘗試建立水文模型相關(guān)知識中命名實體的識別方法。
2.1 命名實體識別場景設(shè)定本文從刊論文中學習水文模型的名稱、模擬要素、應用流域、計算時段、精度、繼承-發(fā)展關(guān)系、研發(fā)人、研發(fā)單位等知識,設(shè)定8類實體如下:“流域”(BAS)、“監(jiān)測站點”(STA)、“模型名稱”(MOD)、“水文要素”(ELE)、“計算時段類型”(TIM)、“評價指標”(IND)、“自然人”(PER)、“機構(gòu)”(INS),同時還設(shè)定識別評價指標對應的“數(shù)值”(DAT)和“計算時段”(CYC)兩類實體屬性?!傲饔颉焙汀氨O(jiān)測站點”實體指論文中模型應用的流域;“模型名稱”實體包括論文中提到模型及父模型;“自然人”“機構(gòu)”實體指模型開發(fā)或改進的人及所在機構(gòu);其余實體主要用于提取模型應用精度相關(guān)的關(guān)鍵信息,其中“計算時段類型”為模型率定、驗證等描述,“計算時段”為各計算時段起止時間,如“1998—2010”。 以《SWAT模型在黃河流域?qū)幭亩蔚倪m用性評價及展望》一文為例,水文模型知識抽取示例見表1。
表1 水文模型知識抽取示例
2.2 輸入數(shù)據(jù)構(gòu)建
2.2.1 數(shù)據(jù)集數(shù)據(jù)來源 本文數(shù)據(jù)主要來源于CNKI中國刊全文數(shù)據(jù)庫。以“水文模型”、特定模型名稱等為關(guān)鍵詞進行檢索,搜集了2005—202117間水文模型研究的中文核心刊論文共883篇。通用領(lǐng)域?qū)嶓w可用人民日報標注語料庫[14]等進行訓練,水文模型領(lǐng)域中的大部分實體為詞法分析中未登陸詞識別的命名實體,需要構(gòu)建水文模型相關(guān)實體數(shù)據(jù)集,并基于此進行語句抽取作為模型輸入。
2.2.2 數(shù)據(jù)集標注方法 由人工標注除“自然人”和“機構(gòu)”以外的8種命名實體及屬性,用于模型訓練與性能評價。本文采用BMOES標注法對txt文本進行標注,其中,“B-實體類型” 表示實體的開頭(如“B-ELE”表示水文要素實體的開頭),“M-實體類型”表示實體的中間位置,“E-實體類型”表示實體的末尾位置,“S-實體類型”表示一個單獨字詞作為實體,“O”表示非實體。其中實體類型為“流域”(BAS)、“監(jiān)測站點”(STA)、“模型名稱”(MOD)、“水文要素”(ELE)、“計算時段類型”(TIM)、“評價指標”(IND)、“數(shù)值”(DAT)和“計算時段”(CYC)8類,數(shù)據(jù)集共有33種標注符號。
2.2.3 數(shù)據(jù)集構(gòu)建 用于命名實體識別任務的數(shù)據(jù)集為標注后的句子,其構(gòu)建包括實體標注和語句抽取兩部分:
(1)實體標注。首先將883篇水文模型領(lǐng)域論文pdf解析為分句的文本數(shù)據(jù)流,由人工對其進行實體標注,并對標注內(nèi)容進行篩選,剔除或修正錯標、漏標;通過基于少量人工和遠程監(jiān)督的短語挖掘技術(shù),構(gòu)建正例短語挖掘(Robust Positive-Only Distant Training)和基于詞性標注的短語分詞(POS-Guided Phrasal Segmentation)模型,將水利名詞短語標識為帶有實體類別標簽的候選單詞,即將句子文本中的語料與標注實體對齊,以獲取更多標注實體數(shù)據(jù)。
(2)語句抽取。解析后的文本存在大量不包含實體的句子,過量不包含實體的句子會影響模型的實體識別準確率,因此需要將pdf解析后截斷的句子與上述實體數(shù)據(jù)進行匹配,抽取含有各類實體的句子,同時保留一定數(shù)量不包含實體的句子。
數(shù)據(jù)集的具體形式為輸入模型的序列標注,數(shù)據(jù)集每行由兩部分組成,分別是字符和標簽,字符和標簽中間使用空格隔開。數(shù)據(jù)集結(jié)構(gòu)示意見圖1。
圖1 數(shù)據(jù)集結(jié)構(gòu)Fig.1 Dataset structure
2.2.4 數(shù)據(jù)集構(gòu)建成果 水文模型知識實體數(shù)據(jù)集共包含各實體45 621個,句子26 078個,其中不包含實體的句子6000余個,每個句子的最大長度為128個字符。用于BERT模型訓練時,數(shù)據(jù)集按照8∶2的比例劃分為訓練集和測試集兩部分。
3.1 識別策略基于多策略的水利命名實體識別,對除“自然人”和“機構(gòu)”以外的8種實體及屬性采取了三種不同的識別策略,分別為模型識別、工具預測和模式識別。其中:①“流域”實體通過字典采用模式識別的方式抽??;②“監(jiān)測站點”“模型名稱”“水文要素”“計算時段類型”“評價指標”命名實體采用BERT模型識別和模式識別結(jié)合的方法,如針對在單BERT模型識別下效果不佳的中英結(jié)合“模型名稱”,采用模式識別的方式以提升識別性能,如針對“監(jiān)測站點”實體,采用與水利綜合知識圖譜(“水問”)[12]中已有實體數(shù)據(jù)進行匹配的方式以提升識別性能;③“計算時段”和“數(shù)值”實體表現(xiàn)為“1998—2010”、“大于0.8”、“均大于0.8”等形式,存在很強的規(guī)律性,因此數(shù)字部分采用對時間和數(shù)值結(jié)構(gòu)識別性能較優(yōu)的LAC分詞工具,其模型整體效果F1值超過了0.91;中文部分結(jié)合常見的修飾詞進行模式識別,例如“均小于”、“超過”、“以上”等,能精確地提取文本中的“計算時段”和“數(shù)值”實體;④“自然人”和“機構(gòu)”實體可通過導入半結(jié)構(gòu)化的題錄信息的方式直接獲得。具體命名實體識別策略見圖2。
圖2 水文模型命名實體識別策略Fig.2 Hydrological model named entity recognition strategy
3.2 BERT模型
3.2.1 模型結(jié)構(gòu) BERT模型是Google公司開發(fā)的預訓練語言模型,用于自然語言處理中的各項任務,BERT的核心結(jié)構(gòu)為多層雙向Transformer結(jié)構(gòu):一個由編碼層(Encoder)和解碼層(Decoder)組成的基于 Transformer 的可訓練神經(jīng)網(wǎng)絡,其中每個編(解)碼層由多層堆疊的編(解)碼器組成。BERT模型處理命名實體識別任務的主要原理為:將處理后的自然語句轉(zhuǎn)換為向量矩陣X作為模型輸入,經(jīng)由雙向Transformer提取詞向量特征后輸出實數(shù)向量矩陣,由Softmax層映射為逐字對應的概率矩陣Z,最終輸出逐字最高概率標注符號。本文使用的Tramsformer結(jié)構(gòu)分別有6層編碼器和6層解碼器,本質(zhì)上為一個總計 12 層的Encoder-Decoder結(jié)構(gòu)。BERT模型結(jié)構(gòu)示意見圖3。
圖3 BERT模型結(jié)構(gòu)示意Fig.3 Transformer structure schematic diagram
如圖3右側(cè)框圖所示,每個編碼器分別包含多頭注意力層(Multi-Head Attention)和前饋神經(jīng)網(wǎng)絡層(Feed Forward Network)兩部分,多頭注意力包含多個自注意力層,前饋神經(jīng)網(wǎng)絡層則用于傳遞注意力層的結(jié)果;多頭注意力層和前饋神經(jīng)網(wǎng)絡層分別包含一個下接的全連接層(Residual Connection and Layer Normalization,Add&Norm),每一個編碼器的結(jié)構(gòu)都相同,區(qū)別為使用不同的權(quán)重參數(shù);解碼器為在編碼器結(jié)構(gòu)的基礎(chǔ)上,增加了一層多頭注意力層(encoder-decoder attention),用于關(guān)注當前預測字符和編碼層輸出的特征向量之間的關(guān)系。
3.2.2 輸入層 BERT模型基于字符輸入,BERT自帶詞典Vocabe.txt能夠?qū)⒚總€字轉(zhuǎn)換成字典索引輸入。BERT的輸入層由詞嵌入(Token embedding)、句子嵌入(segment embedding)、位置嵌入(position embedding)三部分疊加而成,用于將每個字嵌入到大小為512的向量中。
詞嵌入在每句話的開頭都插入一個字符[CLS],用于判斷兩句話之間是否存在上下文關(guān)系,在每句話的最后插入字符[SEP],用于區(qū)分兩句話,同時詞嵌入將每一個字符轉(zhuǎn)換為字向量;句子嵌入為利用給相同句子的每一個詞賦予相同的句子向量,來區(qū)分序列中的不同句子;位置嵌入則將序列中字符的位置信息轉(zhuǎn)換為位置向量,用于區(qū)分不同位置的字符。以“降水量”示意,輸入層結(jié)構(gòu)見圖4(向量框為簡化示意,不代表真實大小)。最終輸入層為序列中每個字符向量xi組成的矩陣X。
圖4 模型輸入層結(jié)構(gòu)Fig.4 Model input layer structure
3.2.3 水文模型命名實體預測 本文命名實體識別任務中BERT模型輸入包含五種命名實體,共有21種標注符號。解碼器輸出的字符向量經(jīng)由全連接層映射到與標注符號種類數(shù)量一致的logits向量上,使Logits向量的每一個數(shù)字對應一種標注符號的分數(shù),由Softmax層計算后將分數(shù)轉(zhuǎn)換為該種標注符號的概率,輸出逐字對應的標注符號的概率矩陣Z。轉(zhuǎn)換后輸出為每個字對應最高概率的標注符號。
本文基于BERT-Base-Chinese模型微調(diào),根據(jù)預訓練模型的參數(shù)初始化,調(diào)整最優(yōu)超參數(shù)設(shè)置后使用標注好的訓練集訓練模型。微調(diào)訓練后的模型可預測“監(jiān)測站點”“模型名稱”“水文要素”“計算時段類型”“評價指標”5個實體并評價性能。模型的預測結(jié)果包括逐字標注符號及其概率,具體見圖5。
圖5 BERT模型預測結(jié)果Fig.5 BERT prediction results
垂直領(lǐng)域命名實體往往表現(xiàn)為具有較為復雜的內(nèi)部結(jié)構(gòu),單一的BERT模型識別具有局限性,模型應用于完整實體識別時性能有限,因此需要引入模式識別。
3.3 模式識別為進一步提高實體抽取性能,在BERT模型抽取的基礎(chǔ)上設(shè)計模式識別,模式識別主要用到正則表達式,又稱規(guī)則表達式。在實體識別任務中,可制定規(guī)則匹配需要的文本。本文模式識別方法主要用于:①中英文夾雜的水文模型名稱在BERT模型識別任務中性能指標結(jié)果較,需要模式識別中的正則表達式和字典匹配混合識別,使用規(guī)則對實體進行匹配和篩選,在保證對現(xiàn)有模型識別精確度的同時,能夠有效識別新發(fā)布的模型;②單一模型或工具預測的實體抽取方法存在大量多抽或誤抽實體,需要通過正則方法進行輔助識別,如依據(jù)不同評價指標的數(shù)學特性,限定“數(shù)值”實體的閾值,以正確抽取某評價指標對應的數(shù)值結(jié)果。
模式識別的一種變體是字典匹配,本文主要用于消除同詞異構(gòu)。針對“流域”“監(jiān)測站點”“模型名稱”“評價指標”“水文要素”“計算時段類型”六個專有名詞實體分別構(gòu)建了字典。構(gòu)建字典采用的方法為基于遠程監(jiān)督的短語挖掘和人工補充校驗結(jié)合的方法,使用少量的領(lǐng)域標注實體,從大量的非結(jié)構(gòu)文本語料中提取高質(zhì)量垂直領(lǐng)域短語,在自動詞挖掘生成初始字典后,人工剔除誤抽詞并劃分同義詞。
3.4 LAC工具LAC工具是百度研發(fā)的一款基于深度學習的聯(lián)合詞法分析模型,主要功能有中文分詞、詞性標注和專名識別等。LAC工具可將“計算時段”和“數(shù)值”兩類實體屬性分別作為時間和數(shù)量詞進行詞性標注,具有較高的準確性。
3.5 評價方法本文采用主流的三種評價指標對結(jié)果進行評價,分別為Precision(精確率)、Recall(召回率)、F1-score(F1值),精確率體現(xiàn)了識別出來的實體為正確的比例;召回率體現(xiàn)了正確識別出來的實體占測試集中總實體個數(shù)的比例;F1值為綜合考慮精確率和召回率的綜合指標。計算公式如下:
(1)
(2)
(3)
4.1 BERT模型參數(shù)設(shè)置BERT模型超參數(shù)的選擇是優(yōu)化模型性能的關(guān)鍵因素之一。選擇超參數(shù)需要充分考慮模型的性能、訓練效率、內(nèi)存消耗等多個因素。本文主要對訓練集迭代次數(shù)epoch、使用樣本數(shù)量batch size以及輸入最大序列長度max sequence length等參數(shù)進行了優(yōu)選。
(1)Epoch。在選擇epoch數(shù)時需要在過擬合和欠擬合之間取得平衡??刂破渌麉?shù)不變,對不同epoch下模型在訓練集上的表現(xiàn)進行評估,可以發(fā)現(xiàn),在epoch小于3時模型性能迅速提升,在3~9間提升緩慢,在epoch大于9后便趨于穩(wěn)定不再有顯著提升。
(2)Batch size。在基于最佳epoch的基礎(chǔ)上,控制其他參數(shù)為定值,改變batch size的大小,對模型的訓練效果進行評估。由于本次實驗的訓練集規(guī)模相對較小,為了避免過擬合并提高模型的收斂速度,選擇了相對較小的8、16、32、64四組方案作為對照,發(fā)現(xiàn)batch size為32時模型的性能較好,且訓練所需時間較為合理。
(3)Max sequence length。選擇max sequence length為64、128、256、384四組參數(shù)來進行對比,足以覆蓋大多數(shù)命名實體的長度,同時也可以避免出現(xiàn)過擬合等情況。實驗結(jié)果表明 max sequence length為128時整體性能最優(yōu)。
本實驗的主要硬件配置與軟件環(huán)境為:GPU采用NVIDIA GeForce RTX 3070 Ti;CPU為Intel Core i7-12700K Processor(25M Cache,up to 5.0 GHz,8 cores,16 threads);操作系統(tǒng)為Microsoft Windows 11(22000.1455)。試驗Anaconda環(huán)境配置為:python=3.8.0;transformers=3.0.2;pytorch=1.6.0;預訓練模型為pytorch框架下的BERT-Base-Chinese,綜上所述,本文最優(yōu)超參數(shù)設(shè)置如下表2。
表2 超參數(shù)設(shè)置
在該實驗環(huán)境下,BERT命名實體識別模型的平均訓練時間為110 min/epoch;訓練完成后對所有測試集的推理時間約為13.75 s,對單條數(shù)據(jù)的推理時間約為0.016 s。
4.2 模式識別設(shè)計模式識別可以根據(jù)預設(shè)的模式來匹配和識別文本中的實體。本文使用模式規(guī)則的模式識別的方法來輔助BERT模型的實體識別。模式規(guī)則使用re.findall正則表達模塊設(shè)計,針對不同實體的命名特點設(shè)計規(guī)則。規(guī)則設(shè)計示例見表3。
表3 規(guī)則設(shè)置示例
4.3 LAC工具設(shè)置與調(diào)用使用LAC工具對指定句子進行“數(shù)值”和“計算時段”的抽取,抽取出“評價指標”對應的數(shù)值和“計算時段”對應的具體時間段。使用LAC工具進行命名實體識別時需要設(shè)置相應的參數(shù)。LAC主要參數(shù)設(shè)置見表4。其中user_dict為自定義詞典,默認為None,mode為工具使用模式,在命名實體識別任務下設(shè)置為ner??梢栽趐ython中直接調(diào)用LAC庫,并創(chuàng)建LAC實例如:LAC=lac.LAC(mode=ner),LAC.ner(text)。直接對文本內(nèi)容進行命名實體識別。
表4 LAC工具主要參數(shù)設(shè)置
4.4 BERT訓練與測試結(jié)果分析使用訓練集train.tsv對BERT-Base-Chinese訓練,使用測試集test.tsv測試模型的性能,評估模型的泛化能力。對訓練集與測試集的評估結(jié)果見表5。
表5 BERT-Base-Chinese模型抽取性能
從表5中可以看出:
①模型在“計算時段類型”的識別任務中表現(xiàn)最好,而在“模型名稱”的識別任務中表現(xiàn)最。這可能是因為“計算時段類型”通常具有固定的格式和數(shù)據(jù)特征,這意味著模型可以更容易地從數(shù)據(jù)中學習其特征和模式,從而更準確地對其進行識別;而“模型名稱”這個類別在數(shù)據(jù)集中出現(xiàn)的頻率較低,加上其存在一定的內(nèi)部異性,如在形式和語義上的歧義等,可能導致了模型對其識別的準確性不高。
②模型在訓練集上的表現(xiàn)整體要略優(yōu)于測試集,這是由于模型已經(jīng)在訓練集上進行了優(yōu)化?!八囊亍薄坝嬎銜r段類型”“評價指標”三類實體在測試集上的性能與訓練集上的性能相的并不大,表明對于這三個實體,模型可以很好地將訓練集中學到的知識泛化到未見過的測試集數(shù)據(jù)上;“監(jiān)測站點”和“模型名稱”在訓練集和驗證集上的性能異較大,在“模型名稱”的識別上的性能異甚至達到10左右,這是由于實體內(nèi)部結(jié)構(gòu)特征很難由單一的BERT模型描述,需要引入模式規(guī)則的模式識別增強識別性能。
③從整體來看,模型的各項性能指標平均約為94左右,這表明BERT模型在水文模型領(lǐng)域的命名實體識別任務中準確度較高,且泛化性較好,但在一些實體類別上的識別性能仍需要進一步提高。可以通過增加訓練輸入的數(shù)據(jù)量以提高模型的魯棒性和泛化能力;或者對數(shù)據(jù)集進行進一步的清理和優(yōu)化,以提高數(shù)據(jù)的質(zhì)量;調(diào)整模型結(jié)構(gòu)和參數(shù),例如使用更深的神經(jīng)網(wǎng)絡結(jié)構(gòu)、調(diào)整學習率等方法進一步探索BERT模型在水利領(lǐng)域命名實體識別的應用潛力。
4.5 基于多策略的水文模型命名實體識別結(jié)果各實體識別性能及識別方法見表6,F(xiàn)1值均超過90,整體識別性能較優(yōu),且針對不同實體類別采取不同的命名實體識別方法較單BERT模型識別方法能有效提高識別性能。
表6 實體抽取性能
①多策略結(jié)合的方法進行預測的性能相比只使用BERT模型的性能整體更高,尤其是在“水文模型”和“監(jiān)測站點”的抽取上。多策略結(jié)合的方法可以彌補BERT模型在實體抽取中的不足。由于“水文模型”和“監(jiān)測站點”等實體本身具有一定的語義復雜性,且數(shù)據(jù)量較少,因此在BERT模型上的識別效果不佳,模式識別和詞典匹配的方法可以彌補其識別效果上的不足,從而顯著提高實體抽取的性能。
②在屬性實體方面,工具預測的方法很好的契合了其在自然語言處理中的特殊性,LAC工具利用其規(guī)律性和固定特征,快速準確地識別“數(shù)值”和“計算時段”實體,評價指標均高于90,高效率、高精度地完成了實體抽取任務,避免了耗費大量的計算資源與時間。
具體而言,模式識別和工具預測等策略可以充分利用先驗知識,提高實體抽取的準確性和魯棒性,特別是在實體語義即特征復雜的情況下,能夠有效提高模型的抽取性能。此外,多策略結(jié)合的方法還可以在數(shù)據(jù)量較小的情況下提高實體抽取的性能,從而減輕數(shù)據(jù)量不足的問題,并通過對抽取結(jié)果進行后處理和糾錯,進一步提高抽取性能。這種方法可以為其他實體抽取任務提供啟示和借鑒,根據(jù)具體的應用場景和需求,可以針對性地選取不同的策略相結(jié)合,進一步提高實體抽取的性能和魯棒性,使得實體抽取模型具有更廣泛的應用前景。
4.6 基于刊文獻的水文模型實體識別示例以隨機8篇水文模型相關(guān)文獻抽取結(jié)果為例,限于篇幅,僅展示從文中抽取的部分實體,“計算時段”實體作為“計算時段類型”實體的屬性展示,“數(shù)值”實體作為“評價指標”實體的屬性展示。實例以表格形式展示,見下表7。
表7 實體抽取實例
本文在探索水利垂直領(lǐng)域命名實體識別的過程中,構(gòu)建了一種基于多策略的實體抽取方法,該方法充分考慮不同實體的結(jié)構(gòu)特征,采用BERT-Base-Chinese模型、模式匹配、LAC工具等方法,分別對不同命名實體進行識別,有效地降低了模型訓練的難度,保證了實體識別的性能,該方法對8種水文模型領(lǐng)域命名實體識別的F1值均達到90以上,并且能夠有效地更新字典中的實體,減少人工成本。同時本文構(gòu)建了水文模型領(lǐng)域命名實體數(shù)據(jù)集,數(shù)據(jù)集中各實體在句子中滿足均勻分布,各實體的語料一致性較高,該數(shù)據(jù)集可為BERT模型在水文模型垂直領(lǐng)域提供強化訓練數(shù)據(jù)。
本文針對水文模型領(lǐng)域的命名實體識別仍有一定不足,未來可以從以下幾方面繼續(xù)開展研究探索:①進一步拓展命名實體的樣本種類和數(shù)量。針對水文模型領(lǐng)域的其他知識特征繼續(xù)擴充實體類型,如水文模型的尺度特征實體、參數(shù)優(yōu)化算法實體等,更加完整地提取水文模型領(lǐng)域知識體系,未來的研究應該注重擴大數(shù)據(jù)集的規(guī)模和多樣性,包括增加樣本數(shù)量、增加實體類別的覆蓋范圍、增加實體在不同上下文中的出現(xiàn)次數(shù)等;②進一步研究提升樣本標注質(zhì)量和效率的方法??瘮?shù)據(jù)處理質(zhì)量不一,數(shù)據(jù)清洗后的數(shù)據(jù)仍存在包含缺失值、特殊符號等問題,這會影響模型的訓練效果,同時數(shù)據(jù)標注的質(zhì)量對命名實體識別的準確性和效率也具有重要影響,不同標注人員之間的標注質(zhì)量存在異,未來的研究應該采用更完善的數(shù)據(jù)清洗和預處理技術(shù),注重標注質(zhì)量的監(jiān)控和控制,建立高質(zhì)量的標注團隊,制定標準化的標注規(guī)范和流程,并引入自動化標注和校驗方法,以提高標注質(zhì)量和效率;③進一步提高識別方法遷移能力。本研究針對水文模型領(lǐng)域的命名實體進行了探究和優(yōu)化,多策略方法使用了較多基于規(guī)則和特征的方法對實體進行識別和篩選,對于一些新出現(xiàn)的實體類型或數(shù)據(jù)特征,需要手動進行規(guī)則和特征的設(shè)計和修改,不夠靈活和自適應,在未來的研究中,需要進一步探索更加通用和靈活的命名實體識別方法,探索跨領(lǐng)域、跨語言、跨媒體的命名實體識別技術(shù),擴大識別方法在整個水利行業(yè)的遷移能力;④進行多模型識別性能的橫向?qū)Ρ?,在未來的研究中仍需要尋求在水利領(lǐng)域性能表現(xiàn)更佳的模型結(jié)構(gòu),并采用多元的模型學習方式如遷移學習、小樣本學習等以提高水利命名實體識別的準確性與泛化能力。當前我國仍需大力加強水利信息化建設(shè)[17],通過對水利垂直領(lǐng)域——水文模型領(lǐng)域命名實體識別方法的探究,有助于為水利行業(yè)其他垂直領(lǐng)域提供示范,打破數(shù)據(jù)孤島,助力水利行業(yè)信息化、智慧化。