李超 侯霞 喬秀明
北京大學(xué)學(xué)報(自然科學(xué)版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.070
北京市自然科學(xué)基金(4224090)資助
2023–05–12;
2023–08–23
融合知識的文博領(lǐng)域低資源命名實體識別方法研究
李超 侯霞?喬秀明
北京信息科技大學(xué)計算機(jī)學(xué)院, 北京 100192; ?通信作者, E-mail: houxia@bistu.edu.cn
文物數(shù)據(jù)的實體嵌套問題明顯, 實體邊界不唯一, 且文博領(lǐng)域已標(biāo)注數(shù)據(jù)極度缺乏, 導(dǎo)致該領(lǐng)域命名實體識別性能較低。針對這些問題, 構(gòu)建一個可用于文物命名實體識別的數(shù)據(jù)集 FewRlicsData, 提出一種融合知識的文博領(lǐng)域低資源命名實體識別方法 RelicsNER。該方法將類別描述信息的語義知識融入文物文本中, 使用基于跨度的方式進(jìn)行解碼, 用于改善實體嵌套問題, 并采用邊界平滑的方式緩解跨度識別模型的過度自信問題。與基線模型相比, 該方法在 FewRlicsData 數(shù)據(jù)集上的 F1 值有所提升, 在文博領(lǐng)域命名實體識別任務(wù)中取得較好的性能。在公開數(shù)據(jù)集 OntoNotes 4.0 上的實驗結(jié)果證明該方法具有較好的泛化性, 同時在數(shù)據(jù)集 OntoNotes 4.0 和 MSRA 上進(jìn)行小規(guī)模數(shù)據(jù)實驗, 性能均高于基線模型, 說明所提方法適用于低資源場景。
文博領(lǐng)域; 命名實體識別; 知識融合; 注意力機(jī)制
命名實體識別(named entity recognition, NER)[1–3]用于從文本中識別并提取具有特定意義的命名實體(如人名、地名、組織機(jī)構(gòu)名等), 是構(gòu)建知識圖譜和自然語言處理的重要基礎(chǔ)。文博領(lǐng)域的命名實體識別是從博物館藏品中的文獻(xiàn)以及文物展覽介紹等相關(guān)文本中識別出文物名稱、類別、年代、作者和出土地等重要信息, 構(gòu)建文博領(lǐng)域的知識圖譜, 有助于文物數(shù)字化研究, 也有助于文物保護(hù)、研究和展示工作, 對展現(xiàn)和傳承傳統(tǒng)文化具有重要意義。然而, 面向文博領(lǐng)域的命名實體識別存在領(lǐng)域標(biāo)注數(shù)據(jù)極度缺乏以及實體嵌套問題嚴(yán)重兩大難點。
首先, 現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練需要大量標(biāo)注數(shù)據(jù), 但文博領(lǐng)域高質(zhì)量標(biāo)注數(shù)據(jù)極度缺乏。由于文博領(lǐng)域的專業(yè)性強(qiáng), 非專業(yè)人士難以標(biāo)注高質(zhì)量的數(shù)據(jù), 導(dǎo)致數(shù)據(jù)標(biāo)注成本巨大。針對數(shù)據(jù)稀缺的問題, 學(xué)者們提出不同的解決方案, 諸如基于半監(jiān)督的方法和增強(qiáng)句子表示方法等[4–6]。Zhang等[7]使用基于半監(jiān)督的方法, 在大量無標(biāo)注數(shù)據(jù)集中重復(fù)選擇高置信度高的樣本, 通過反復(fù)迭代的方式, 逐步擴(kuò)大訓(xùn)練集的規(guī)模。但是, 半監(jiān)督方法不僅受閾值選擇影響, 并且難免有錯誤樣本, 影響模型效果。
其次, 文物名稱是文博領(lǐng)域的重要實體, 構(gòu)成復(fù)雜, 可能包含文物的年代、款識或作者(窯口)、地域、紋飾、題材、工藝技法、形態(tài)質(zhì)地、顏色和用途等很多信息, 導(dǎo)致實體嵌套問題嚴(yán)重。例如, 在文物名稱“登封窯白釉珍珠地刻花文字枕”中, “登封窯”代表窯口即本文定義的生產(chǎn)機(jī)構(gòu), “白釉”代表瓷器釉色, “珍珠地”代表表面紋飾, “枕”表示用途。
序列標(biāo)注和跨度(span)識別是命名實體識別任務(wù)中兩種常用的方法。序列標(biāo)注方法將整個文本視為一個序列, 在序列上對每個字進(jìn)行標(biāo)注, 標(biāo)簽通常包括實體和非實體兩種; 跨度識別方法則將每個實體視為一個跨度, 跨度的起點和終點是該實體在文本中的位置, 目標(biāo)是預(yù)測每個實體的跨度和對應(yīng)的實體類型, 通過識別每個跨度的起點、終點和實體類型來完成實體識別任務(wù)。相比于序列標(biāo)注的命名實體識別方法, 基于跨度識別方法的優(yōu)點在于可以準(zhǔn)確地定位實體的位置, 從而提高實體識別的準(zhǔn)確性, 更有助于解決實體嵌套問題[8–9]。
但是, 常見的基于跨度識別方法中, 訓(xùn)練數(shù)據(jù)中標(biāo)注實體的分布是離散的[10], 即實體的分布概率為 1, 非實體的分布概率為 0。這種銳度明顯的離散分布不利于模型的訓(xùn)練, 同時在語義層面, 這種明顯的邊界不適合文博領(lǐng)域的數(shù)據(jù)。例如, “明嘉靖”和“嘉靖”代表同一個意思, 不應(yīng)該根據(jù)標(biāo)注規(guī)則就斷定另一個候選實體的分布概率為 0。另外, 數(shù)據(jù)稀少導(dǎo)致的數(shù)據(jù)多樣性降低, 會加劇基于跨度識別模型的過度自信問題[11]。
針對上述問題, 本文提出一種融合知識的文博領(lǐng)域低資源命名實體識別方法 RelicsNER, 將類別描述語句知識融入文物文本表示, 輔助模型預(yù)測實體, 減少模型對訓(xùn)練數(shù)據(jù)量的依賴。同時, 該方法在基于跨度實體識別的基礎(chǔ)上, 采用邊界平滑的方式進(jìn)行模型訓(xùn)練, 顯式地將一小部分分布概率分配給真實實體周圍的候選實體, 從而一次性地識別出內(nèi)嵌于文物名中的多個實體。為了驗證 RelicsNER方法面向文博領(lǐng)域數(shù)據(jù)的有效性及方法的泛化性, 本文構(gòu)建一個文物數(shù)據(jù)集 FewRlicsData, 并選取兩個公開數(shù)據(jù)集 OntoNotes 4.0 和MSRA 進(jìn)行實驗。
有一些研究工作采用序列標(biāo)注的方法面向文博領(lǐng)域進(jìn)行命名實體識別, 通?;诂F(xiàn)有命名實體識別工具或模型進(jìn)行改進(jìn)和優(yōu)化[12–15], 以便適應(yīng)文博領(lǐng)域數(shù)據(jù)的特點。例如, 楊云等[12]基于中文分詞工具, 加入文博領(lǐng)域的專有名詞詞典, 提高文物名稱識別的準(zhǔn)確率; 鞏一璞等[13]使用文博領(lǐng)域的相關(guān)知識和特征對模型進(jìn)行優(yōu)化, 提升文物類別和年代等信息的識別效果。然而, 基于序列標(biāo)注的命名實體識別方法很難處理文博領(lǐng)域數(shù)據(jù)的實體嵌套問題。
很多研究工作使用基于跨度識別的方式進(jìn)行命名實體識別, 可以在很大程度上緩解實體嵌套的問題。基于跨度識別的方式一般分為兩步, 跨度識別和跨度分類。Yu 等[16]通過 BiLSTM 獲得單詞表示之后, 使用兩個獨立的前饋神經(jīng)網(wǎng)絡(luò)分別表示跨度的開始和結(jié)束, 隨后使用雙仿射模型對句子中的開始、結(jié)束位置對進(jìn)行打分, 最后為此跨度分配類別。Li 等[17]首次將命名實體識別任務(wù)定義為問答(QA)任務(wù), 對于嵌套的實體, 只需回答不同的問題, 就能識別不同的實體類型, 但是每次回答一個問題的方式使得模型訓(xùn)練速度緩慢。Shen 等[18]提出并行實例查詢網(wǎng)絡(luò), 實現(xiàn)并行查詢所有的實體, 模型中的多個查詢實例在模型訓(xùn)練過程中學(xué)習(xí)查詢語句的語義, 可以避免手動引入外部知識。查詢語句提供了相關(guān)標(biāo)簽類別的先驗知識, 故問答形式的命名實體識別模型在零樣本學(xué)習(xí)場景下有著不錯的表現(xiàn)。Yang 等[5]利用注意力機(jī)制, 將類別相關(guān)的查詢語句語義融入文本表示中, 更加充分地利用標(biāo)簽知識。Mengge 等[19]通過維基百科數(shù)據(jù)訓(xùn)練模型的跨度識別模塊, 利用基于詞典的遠(yuǎn)程監(jiān)督策略訓(xùn)練模型提取跨度的粗粒度類型, 最后通過聚類方法, 挖掘更細(xì)粒度的實體類型。Fu 等[20]在識別實體跨度之后, 根據(jù)預(yù)定義實體類的自然語言描述對提取的跨度進(jìn)行分類。
本文提出一種融合知識的文博領(lǐng)域低資源命名實體識別方法 RelicsNER, 整體結(jié)構(gòu)如圖 1 所示。設(shè)需要識別的實體類別集合為={1,2, …,|C|}, 為了豐富類別的語義, 本文對中每種標(biāo)簽給定一個類別解釋Q, 得到集合={1,2, …,|C|} (||是文物屬性類別的數(shù)量)。例如, 對于類別“作者”, 其描述信息為“作者是指進(jìn)行文學(xué)、藝術(shù)或科學(xué)創(chuàng)作的人”。
對文物描述文本和類別解釋進(jìn)行預(yù)處理后, 分別輸入兩個 RoBERTa 編碼器網(wǎng)絡(luò)中。兩個編碼器在處理各自的輸入時共享模型權(quán)重, 借此可緩解類別解釋數(shù)據(jù)量不足的問題。然后, 通過注意力機(jī)制引導(dǎo)的語義融合模塊, 將類別解釋的知識融入文本表示中, 得到文本的增強(qiáng)表示。最后, 在基于跨度的解碼過程中, 使用增強(qiáng)嵌入來預(yù)測每個標(biāo)記是某個類別的開始索引還是結(jié)束索引。同時, 通過優(yōu)化損失函數(shù), 對人工標(biāo)注的數(shù)據(jù)進(jìn)行邊界平滑處理, 用于緩解跨度解碼器的過度自信問題。
融合知識的增強(qiáng)表示是借助文物實體類別解釋中的知識, 對文本的表示進(jìn)行增強(qiáng)。本文使用RoBERTa[21]預(yù)訓(xùn)練語言模型, 分別編碼文物文本語句和文物屬性描述文本, 得到各自的 token 表示∈R×d和∈R|C|×m×d, 其中和分別是文物文本和文物屬性標(biāo)簽描述語句的長度,是編碼器的向量維度。由于文物屬性標(biāo)簽的文本數(shù)量有限, 文物屬性描述文本的編碼器共享文物文本語句的編碼器1, 計算公式如下:
=1() , (1)
=1()。 (2)
得到類別解釋的 tokenh后, 計算每個文本表示h與每個文物屬性描述語句h的注意力分?jǐn)?shù), 再把注意力分?jǐn)?shù)作為權(quán)重信息, 將類別解釋的語義融入文物文本語句的 token 中, 具體做法如式(3)~ (5)所示:
圖1 RelicsNER模型結(jié)構(gòu)
RelicsNER 在 token 中融合文物類別解釋的語義信息后, 通過計算句子中某個類別開始位置或結(jié)束位置的概率, 確定該類別實體在句子中的跨度。目前, 某類別實體開始位置和結(jié)束位置的匹配方法有兩種。1)就近匹配原則[22–23]: 某類別實體的開始位置與模型預(yù)測出的最近的同類別實體的結(jié)束位置匹配。2)啟發(fā)式原則[24]: 在某類別的候選起始位置和結(jié)束位置中, 只匹配某類別實體最高概率的起始位置和結(jié)束位置。但是, 同一類別中的跨度可能是嵌套的或重疊的, 此時啟發(fā)式原則不起作用。
本文基于 Li 等[17]的方法, 通過訓(xùn)練, 獲得 3 個分類器, 包括起始位置分類器、結(jié)尾位置分類器和區(qū)間匹配分類器。
結(jié)尾位置分類器 end的原理與起始位置分類器相同:
區(qū)間匹配分類器用于計算模型預(yù)測出的實體跨度是否屬于類別的概率:
在進(jìn)行實體識別時, 如果實體邊界的分布是離散型, 容易導(dǎo)致基于跨度的模型過度自信, 不適用于文物數(shù)據(jù)。也就是說, 在判斷實體邊界時, 基于跨度的模型可能只考慮到少數(shù)幾個具體位置, 忽略了其他可能的邊界位置。在這種情況下, 模型很可能只關(guān)注最高概率預(yù)測實體的位置而忽略其他可能的邊界。例如, 在對句子“絳色緞緝米珠彩繡云龍海水江崖紋龍袍清嘉慶長 141 厘米通袖寬 214 厘米形制為圓領(lǐng), 右衽, 斜襟, 馬蹄袖, 四開裾直身長袍式……”進(jìn)行數(shù)據(jù)標(biāo)注時, 將“嘉慶”指定為年號, 則算法就無法識別“清嘉慶”, 或者認(rèn)為“清嘉慶”沒有年號的含義。因此, 本文借鑒 Zhu 等[10]的思想, 在 Yang 等[5]工作的基礎(chǔ)上, 增加邊界平滑處理之后的損失函數(shù)。具體做法是, 將標(biāo)注實體的分布概率由 1 改為 1–, 其余分布概率分配給標(biāo)注實體周圍的候選實體。設(shè)平滑窗口大小為, 所有離標(biāo)注實體曼哈頓距離為(≤)的候選實體的分布概率總和為/。例如, 句子“藥師佛像明景泰元年銅鍍金高 85 厘米, 這是一組三世佛像……”經(jīng)過邊界平滑處理后標(biāo)注實體的分布概率如圖 2 所示。
損失函數(shù)的定義如下:
由于缺乏文博領(lǐng)域可用于文物實體識別的公開標(biāo)注語料庫, 本文從首都博物館官方網(wǎng)站(https:// www.capitalmuseum.org.cn)爬取 507 條非結(jié)構(gòu)化文物文本, 并進(jìn)行預(yù)處理, 構(gòu)建一個小型文物數(shù)據(jù)集FewRlicsData。該數(shù)據(jù)集的規(guī)模為訓(xùn)練集 303 句, 測試集 101 句, 驗證集 102 句。參考 CDWA(Cate-gories for the Description of Works of Art)[25]元數(shù)據(jù)標(biāo)準(zhǔn), 確定 7 種實體類別, 文物實體類別、中文簡稱、類別解釋以及各類別數(shù)量如表 1 所示。其中, 類別解釋作為額外的知識融合在文本表示中?;诒?1 中的類別定義, 本文以 json 形式標(biāo)注文物文本, 形成數(shù)據(jù)集, 數(shù)據(jù)標(biāo)注實例如下。
{
“text”: “釉陶多子盒, 西晉(265-317), 長 25.6 厘米, 寬 17.1 厘米, 高 5.2 厘米, 1962 年北京西郊景王墳西晉墓葬出土首都博物館藏。泥質(zhì)紅陶。明器。長方形, 共分為十個大小不等的格子。外施褐色釉, 底部有座, 并有弧形裝飾, 是魏晉南北朝時期的典型隨葬器物之一, 并且可作為中原地區(qū)墓葬分期的標(biāo)準(zhǔn)器物之一, 流行于公元 3 世紀(jì)中期至 5 世紀(jì)末期?!?
“entities”: [{
“l(fā)abel”: “RelicsName”,
“text”: “釉陶多子盒”,
“start_offset”: 0,
“end_offset”: 5
}, {
“l(fā)abel”: “Dynasty”,
“text”: “西晉”,
“start_offset”: 6,
“end_offset”: 8
}, {
“l(fā)abel”: “Collection”,
“text”: “首都博物館”,
“start_offset”: 112,
“end_offset”: 121
}, {
“l(fā)abel”: “OutOfLand”,
“text”: “北京西郊景王墳西晉墓葬”,
“start_offset”: 59,
“end_offset”: 64
}]
}
表1 FewRlicsData類別名與類別解釋
在自建的文物數(shù)據(jù)集 FewRlicsData 以及公開數(shù)據(jù)集 OntoNotes 4.0 和 MSRA 上分別進(jìn)行實驗。Onto Notes 4.0 由新聞領(lǐng)域的文本組成, 其中標(biāo)注了18 種命名實體類別, 本文采用 Meng 等[26]的切分方式。MSRA 來自新聞領(lǐng)域, 標(biāo)注了 3 種類別的命名實體。OntoNotes 4.0 和 MSRA 這兩個數(shù)據(jù)集常用于評價命名實體識別模型的性能。
基于 RoBERTa-large 模型[21]實現(xiàn)命名實體識別模型, 將 Adam[27]作為優(yōu)化算法。根據(jù) Zhu 等[10]的實驗結(jié)果, 將分配出去的分布概率(見 2.3 節(jié))設(shè)為0.2, 平滑窗口的大小設(shè)為 1。初始化隨機(jī)數(shù)生成器的種子值設(shè)為 42, 學(xué)習(xí)率遵循 Yang 等[5]的設(shè)置, 其他參數(shù)如表 2 所示。
采用精確度(), 召回率()和 F1 值作為文物實體識別的評價指標(biāo)。代表模型識別出的實體中與實際情況相符的實體數(shù)量,表示測試集中的真實正例有多少被模型正確地識別, F1 值是精確度和召回率的綜合指標(biāo), 取決于二者的加權(quán)平衡。
3.3.1對比模型
為驗證 RelicsNER 的有效性, 本文選擇 MRC-NER[17]、PIQN[18]、LEAR[5]和 CoFEE-main[19]這 4種基于跨度識別的命名實體識別模型以及序列標(biāo)注的模型 BERT-Tagger[28]進(jìn)行對比。MRC-NER 將命名實體識別任務(wù)視為機(jī)器閱讀理解問答任務(wù), 將提取實體類別視為回答某類問題, 可以處理嵌套的NER 任務(wù)。PIQN 初始化大量實例查詢, 在訓(xùn)練過程中學(xué)習(xí)不同的查詢實例語義, 每個實例查詢預(yù)測一個實體, 可以并行查詢所有實體, 避免人工構(gòu)造實例查詢, 具有更好的泛化性, 模型訓(xùn)練速度比MRC-NER 快。LEAR 分別將句子與問題輸入預(yù)訓(xùn)練語言模型, 生成句子表示, 隨后通過注意力機(jī)制, 將問題語句中包含的標(biāo)簽知識集成到文本表示中, 并且模型訓(xùn)練速度比 MRC-NER 快。CoFEE-main是特定于 NER 的預(yù)訓(xùn)練框架, 其中的跨度識別模塊在大量維基百科數(shù)據(jù)中學(xué)習(xí)通用知識, 再通過字典引導(dǎo)學(xué)習(xí)領(lǐng)域知識, 最后通過聚類, 學(xué)習(xí)領(lǐng)域內(nèi)更細(xì)粒度的知識。
表2 模型參數(shù)設(shè)置
3.3.2命名實體識別結(jié)果
首先, 在本文構(gòu)建的文物數(shù)據(jù)集 FewRlicsData上進(jìn)行實驗, 結(jié)果如表 3 所示。本文模型 Relics-NER 的 F1 值高于其他模型, 說明它適用于文物領(lǐng)域的命名實體識別任務(wù)。LEAR 模型通過顯式的語義融合模塊, 學(xué)習(xí)與類別相關(guān)的知識增強(qiáng)表示, 在數(shù)據(jù)稀缺的文物數(shù)據(jù)集中表現(xiàn)較好。相較于 LEAR模型, 本文模型 RelicsNER 的 F1 值又提升 0.93%。通過配對 t 檢驗, 證明本文模型(包含邊界平滑模塊)顯著優(yōu)于 LEAR 模型(<0.05, 顯著性水平= 0.05)。這是因為 RelicsNER 的邊界平滑模塊緩解了模型進(jìn)行實體識別時的過度自信問題??缍冉獯a器提高判定預(yù)測實體為正確實體的閾值, 模型的精確度就會提高, 反之, 模型的召回率會提高。本文對模型的邊界平滑訓(xùn)練方式隱式地使模型建立一個更高的實體識別閾值, 所以模型預(yù)測實體的精確度有很大的提升。
各模型在通用的 OntoNotes 4.0 中文數(shù)據(jù)集上的實驗結(jié)果如表 4 所示??梢钥吹? 本文模型也有較好的表現(xiàn), 精確度高于其他模型。MRC-NER 模型對提取的實體類型做了非常重要的先驗知識編碼, 并且其機(jī)器閱讀理解問答模式不受標(biāo)注數(shù)據(jù)稀疏性的影響, 所以表現(xiàn)好于 BERT-Tagger 類的模型。同時, MRC-NER 模型在標(biāo)注數(shù)據(jù)稀少的文物數(shù)據(jù)中有著不錯的表現(xiàn)。PIQN 模型的表現(xiàn)較差, 說明其查詢實例在 OntoNotes 4.0 中文數(shù)據(jù)集中沒有很好地學(xué)習(xí)到語義區(qū)別。CoFEE-main 模型引入大量的外部知識, 所以在領(lǐng)域數(shù)據(jù)較少的情況下依然有不錯的表現(xiàn), 但首次訓(xùn)練速度較慢, 并且存在錯誤傳播問題。
表3 各模型在文物數(shù)據(jù)集FewRlicsData上的4折交叉驗證結(jié)果(%)
說明: 粗體數(shù)字表示最優(yōu)結(jié)果, 下同。
表4 各模型在中文數(shù)據(jù)集OntoNotes 4.0上的實驗結(jié)果(%)
3.3.3低資源場景實驗結(jié)果
為了進(jìn)一步驗證本文提出的 RelicsNER 模型對低資源情況的適用性, 在公共數(shù)據(jù)集 OntoNotes 4.0和MSRA 中隨機(jī)抽取每種類別的實體作為對比模型的訓(xùn)練數(shù)據(jù), 分別稱為 zhonto4 和 zhmsra。訓(xùn)練數(shù)據(jù)量的取值范圍根據(jù)文物實體的各類實體數(shù)量(20~ 300)界定。
圖 3 顯示, 在低資源情境下, 通過注意力機(jī)制將標(biāo)簽知識集成到文本表示中的方式效果好于其他模型。在 100 條訓(xùn)練數(shù)據(jù)的情況下, LEAR 模型的F1 值比全數(shù)據(jù)訓(xùn)練模型低 2.61%, 而在訓(xùn)練數(shù)據(jù)達(dá)到 300 條時, F1 值只比全數(shù)據(jù)(15650 條訓(xùn)練數(shù)據(jù))訓(xùn)練模型低 1.69%。因此, 本文模型借鑒 LEAR 模型的方式, 將標(biāo)簽知識融入文本表示中, 以便減少模型對訓(xùn)練數(shù)據(jù)量的依賴。通過與 LEAR 模型對比可以發(fā)現(xiàn), 在只有 20 條訓(xùn)練數(shù)據(jù)時, 本文模型的 F1值提高 0.98%, 在有 300 條訓(xùn)練數(shù)據(jù)時提高 0.07%。在訓(xùn)練數(shù)據(jù)量少的情況下, 本文模型的效果略微好于 LEAR 模型, 說明邊界平滑的操作有利于模型對數(shù)據(jù)特征的學(xué)習(xí)。由于本文模型與 LEAR 模型在zhonto4 數(shù)據(jù)集上的差距并不明顯(圖 3), 故本文進(jìn)行配對 t 檢驗, 結(jié)果表明本文模型(包含邊界平滑模塊)顯著優(yōu)于 LEAR 模型(<0.05, 顯著性水平= 0.05)。從圖 3 可以發(fā)現(xiàn), PIQN 模型比其他模型更依賴訓(xùn)練數(shù)據(jù)量, 這是因為查詢實例也需要較多的數(shù)據(jù)才能準(zhǔn)確地學(xué)習(xí)查詢語句的語義。但是, PIQN 模型并不需要人為地定義查詢語句語義, 可以在數(shù)據(jù)中自動地學(xué)習(xí)。MRC-MAIN 模型在 zhmsra 數(shù)據(jù)集上存在過擬合問題, 但是在 zhonto4 數(shù)據(jù)集上表現(xiàn)正常。
3.3.4訓(xùn)練速度
表 5 顯示, 各模型的訓(xùn)練時間與類別數(shù)量|| 正相關(guān)。LEAR 對所有類別解釋進(jìn)行一次編碼, 其訓(xùn)練速度遠(yuǎn)小于傳統(tǒng)的問答 MRC-NER 模型。本文提提出的 RelicsNER 模型對邊界做平滑處理, 在訓(xùn)練時增加了模型的計算負(fù)荷, 導(dǎo)致訓(xùn)練時間大于LEAR 模型, 但少于其他基線模型。CoFEE-main 模型在預(yù)熱階段要從 20 萬條維基百科數(shù)據(jù)中訓(xùn)練模型的通用 span 提取能力, 故其第一階段的訓(xùn)練十分耗時。本次實驗中從預(yù)熱階段之后開始計算訓(xùn)練時間, CoFEE-main 模型在聚類挖掘數(shù)據(jù)特征的過程中耗時較多。PIQN 模型在訓(xùn)練過程中需要選擇最佳的查詢實例, 故訓(xùn)練時間較長, 并且在類別種類增加時, 訓(xùn)練時長成倍增長。
圖3 各模型在數(shù)據(jù)集zhonto4和zhmsra上的實驗結(jié)果
表5 不同模型的訓(xùn)練速度對比
說明: 括號內(nèi)為相較于LEAR模型訓(xùn)練時間的倍數(shù)。
3.3.5消融實驗
為了驗證模型中各個成分的有效性, 我們進(jìn)行消融實驗, 結(jié)果如表 6 和 7 所示。
變體 1(w/o BS): 不采用邊界平滑方式訓(xùn)練模型。zhonto4 數(shù)據(jù)集實驗結(jié)果的 F1 值下降 0.12%, 文物數(shù)據(jù)集實驗結(jié)果的 F1 值下降 0.93%, 說明邊界平滑操作能夠緩解模型自信問題, 在文物數(shù)據(jù)集中的表現(xiàn)有所提升。
變體 2(w/o fusion): 刪除了融合標(biāo)簽知識的模塊。zhonto4 數(shù)據(jù)集實驗結(jié)果的 F1 值下降 1.48%, 文物數(shù)據(jù)集實驗結(jié)果的 F1 值下降 0.75%。這個結(jié)果說明融合標(biāo)簽知識的模塊可以將標(biāo)簽知識有效地集中到文本表示中, 從而增加 token 作為實體邊界位置的概率。
對比表 6 與 7 可以發(fā)現(xiàn), 融合標(biāo)簽知識的模塊對 zhonto4 數(shù)據(jù)集實驗結(jié)果的影響較大。為了分析數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)量對融合標(biāo)簽知識模塊的影響程度, 我們在 zhonto4 數(shù)據(jù)集中隨機(jī)抽取 20~300 條每種類別的實體作為模型的訓(xùn)練數(shù)據(jù), 據(jù)此觀察在zhonto4 數(shù)據(jù)集的低資源情況下, 融合標(biāo)簽知識模塊對模型的影響, 結(jié)果如圖 4 所示??梢钥闯? 在低資源情況下, RelicsNER 模型在 zhonto4 數(shù)據(jù)集上實驗結(jié)果的 F1 平均值比變體 2 高 1.18%, 說明訓(xùn)練數(shù)據(jù)量不會影響融合標(biāo)簽知識模塊的作用。
表6 本文模型在文物數(shù)據(jù)集FewRlicsData上的4折交叉驗證結(jié)果(%)
表7 本文模型在zhonto4數(shù)據(jù)集上的實驗結(jié)果(%)
針對同一文本, 不同模型的命名實體識別結(jié)果如表 8 所示。CoFEE-main 沒有正確地識別出文物名, 說明通用知識與文博領(lǐng)域存在一定的差異。此外, 大部分基線模型對出土地(OutOfLand)和生產(chǎn)機(jī)構(gòu)(ProductionAgency)類別的命名實體識別效果欠佳。LEAR 模型將“西晉”錯誤地識別為“西”和“晉”, 可見存在過度自信的識別邊界, 導(dǎo)致出現(xiàn)分詞錯誤。本文提出的 RelicsNER 模型中邊界平滑, 學(xué)習(xí)到實體表示的多樣性, 減少了這種過度自信的問題, 提高了分詞的準(zhǔn)確性。
為了解決文博領(lǐng)域的命名實體識別任務(wù)中缺乏已標(biāo)注數(shù)據(jù)以及因文物名內(nèi)嵌一些文物的重要屬性而導(dǎo)致命名實體嵌套這兩類問題, 本文標(biāo)注 507 條非結(jié)構(gòu)化文物數(shù)據(jù), 構(gòu)建一個小型數(shù)據(jù)集FewRlics-Data, 并提出 RelicsNER 模型的框架。RelicsNER模型采用基于跨度的方式, 一次性地識別多個實體, 通過注意力機(jī)制, 將類別解釋語義融入文物文本特征中, 從而可以融入更多的文博領(lǐng)域知識, 降低模型對訓(xùn)練數(shù)據(jù)量的依賴程度, 并通過邊界平滑操作緩解模型過度自信問題。在 FewRlicsData 數(shù)據(jù)集上的實驗結(jié)果證明, RelicsNER 模型適合于低資源文博領(lǐng)域的命名實體識別任務(wù)。在文物數(shù)據(jù)集和兩個公開數(shù)據(jù)集的實驗中, 本文 RelicsNER 方法的性能都比基線模型有所提升。
圖4 本文模型與w/o fusion在不同訓(xùn)練數(shù)據(jù)量下的實驗結(jié)果
表8 不同模型的識別結(jié)果對比
Table 8 Case study of different models
說明: 紅字為未識別出的命名實體。
[1] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition // Procee-dings of NAACL-HLT. San Diego, 2016: 260–270
[2] Cao P, Chen Y, Liu K, et al. Adversarial transfer lear-ning for Chinese named entity recognition with self-attention mechanism // Proceedings of EMNLP. Brus-sels, 2018: 182–192
[3] Trieu H L, Miwa M, Ananiadou S. Named entity reco-gnition for cancer immunology research using distant supervision // Proceedings of the 21st Workshop on Biomedical Language Processing. Dublin, 2022: 171–177
[4] Ke P, Ji H, Liu S, et al. SentiLARE: sentiment-aware language representation learning with linguistic know-ledge // Proceedings of EMNLP. Online Meeting, 2020: 6975–6988
[5] Yang P, Cong X, Sun Z, et al. Enhanced language representation with label knowledge for span extrac-tion // Proceedings of EMNLP. Punta Cana, 2021: 4623–4635
[6] Zhao X, Yu Z, Wu M, et al. Compressing sentence representation for semantic retrieval via homomorphic projective distillation // Findings of ACL. Dublin, 2022: 774–781
[7] Zhang M, Geng G, Chen J. Semi-supervised bidirec-tional long short-term memory and conditional random fields model for named-entity recognition using em-beddings from language models representations. Entro-py, 2020, 22(2): 252–271
[8] 趙山, 羅睿, 蔡志平. 中文命名實體識別綜述. 計算機(jī)科學(xué)與探索, 2022, 16(2): 296–304
[9] 王穎潔, 張程燁, 白鳳波, 等. 中文命名實體識別研究綜述. 計算機(jī)科學(xué)與探索, 2023, 17(2): 324–341
[10] Zhu E, Li J. Boundary smoothing for named entity re-cognition // Proceedings of ACL. Dublin, 2022: 7096–7108
[11] Guo C, Pleiss G, Sun Y, et al. On calibration of mo-dern neural networks // International Conference on Machine Learning. Amsterdam: PMLR, 2017: 1321–1330
[12] 楊云, 宋清漪, 云馨雨, 等. 基于BiLSTM-CRF的玻璃文物知識點抽取研究. 陜西科技大學(xué)學(xué)報, 2022, 40(3): 179–184
[13] 鞏一璞, 王小偉, 王濟(jì)民, 等. 命名實體識別技術(shù)在“數(shù)字敦煌”中的應(yīng)用研究. 敦煌研究, 2022(2): 149–158
[14] 李文亮. 基于深度學(xué)習(xí)的歷史文物知識圖譜構(gòu)建方法研究與應(yīng)用[D]. 太原: 中北大學(xué), 2022
[15] 馮強(qiáng). 文物藏品知識圖譜構(gòu)建技術(shù)研究[D]. 西安: 西北大學(xué), 2022
[16] Yu J, Bohnet B, Poesio M. Named entity recognition as dependency parsing // Proceedings of ACL. Seattle, 2020: 6470–6476
[17] Li X, Feng J, Meng Y, et al. A unified MRC framework for named entity recognition // Proceedings of ACL. Seattle, 2020: 5849–5859
[18] Shen Y, Wang X, Tan Z, et al. Parallel instance query network for named entity recognition // Proceedings of ACL. Dublin, 2022: 947–961
[19] Mengge X, Yu B, Zhang Z, et al. Coarse-to-fine pre-training for named entity recognition // Proceedings of EMNLP. Online Meeting, 2020: 6345–6354
[20] Fu J, Huang X J, Liu P. SpanNER: named entity re-/ recognition as span prediction // Proceedings of ACL. Bangkok, 2021: 7183–7195
[21] Zhuang L, Wayne L, Ya S, et al. A robustly optimized BERT pre-training approach with post-training // Pro-ceedings of the 20th Chinese National Conference on Computational Linguistics. Huhhot, 2021: 1218–1227
[22] Du X, Cardie C. Event extraction by answering (al-most) natural questions // Proceedings of EMNLP. Online Meeting, 2020: 671–683
[23] Wei Z, Su J, Wang Y, et al. A novel cascade binary tagging framework for relational triple extraction // Proceedings of ACL. Seattle, 2020: 1476–1488
[24] Yang S, Feng D, Qiao L, et al. Exploring pre-trained language models for event extraction and generation // Proceedings of ACL. Florence, 2019: 5284–5294
[25] Baca M, Harpring P. Categories for the description of works of art. New York: Art Association, 2017
[26] Meng Y, Wu W, Wang F, et al. Glyce: glyph-vectors for chinese character representations // Advances in Neu-ral Information Processing Systems. Piscataway, 2019: 2746–2757
[27] Kingma D, Ba J. Adam: a method for stochastic optimi-zation. Computer Science, 2014, doi: 10.48550/arXiv. 1412.6980
[28] Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language under-standing // Proceedings of NAACL. Minneapolis, 2019: 4171–4186
A Low-Resource Named Entity Recognition Method for Cultural Heritage Field Incorporating Knowledge Fusion
LI Chao, HOU Xia?, QIAO Xiuming
Computer School, Beijing Information Science & Technology University, Beijing 100192; ? Corresponding author, E-mail: houxia@bistu.edu.cn
In cultural heritage field, entity nesting of cultural relics data is obvious, the entity boundary is not unique, and the marked data in the field of cultural relics is extremely lacking. All the problems above can lead to the low recognition performance of named entities in the field of cultural relics. To address these issues, we construct a dataset called FewRlicsData for NER in the field of cultural heritage and propose a knowledge-enhanced, low-resource NER method RelicsNER. This method integrates the semantic knowledge of category description information into the cultural relics text, employs the span-based method to decode and solve the entity nesting problem, and uses the boundary smoothing method to alleviate the overconfidence problem of span recognition model. Compared with the baseline model, the proposed method achieves higher F1 scores on the FewRlicsData dataset and demonstrates good performance in named entity recognition tasks in the cultural heritage field. Experimental results on the public dataset OntoNotes 4.0 indicate that the proposed method has good generalization ability. Additionally, small-scale data experiments on OntoNotes 4.0 and MSRA datasets show that the performance of the proposed method surpasses that of the baseline model, demonstrating its applicability in low-resource scenarios.
cultural heritage field; named entity recognition; knowledge fusion; attention mechanism