摘 要:
近些年來,提示學習在小樣本命名實體識別任務上得到了廣泛應用。然而,命名實體識別仍然是一個令牌級的標記任務,在通過提示模板調(diào)動預訓練知識時,很容易忽略新實體類型的語義信息。為此,提出了一個語義優(yōu)先的提示學習方法。具體來說,首先檢測少量示例中實體類型蘊涵的語義信息,然后將實體語義信息和詢問實體位置的提示模板輸入模型中,利用模型中的非自回歸解碼器并行預測來提取實體;此外,為了確保語義信息與實體類型的關聯(lián)性,使用對比學習的方法來訓練一個分類器,以去除與實體類型無關的語義信息;最后在兩個常用的公共基準數(shù)據(jù)集上評估了所提方法,實驗結(jié)果證明了該方法的有效性。
關鍵詞:小樣本命名實體識別;提示學習;語義信息;對比學習
中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2024)12-013-3622-06
doi: 10.19734/j.issn.1001-3695.2024.04.0160
Entity semantic-priority prompt learning method for few-shot named entity recognition
He Li1,2, Zeng Xiaoyong1,2, Liu Jie1,2, Duan Jianyong1,2, Wang Hao1,2
(1.School of Information, North China University of Technology, Beijing 100144, China; 2. CNONIX National Standard Application amp; Promotion Laboratory, Beijing 100144, China)
Abstract:
In recent years, prompt learning has been widely applied in few-shot named entity recognition tasks. However, named entity recognition remains a token-level tagging task that can easily overlook the semantic information of new entity types when mobilizing pre-trained knowledge via prompt templates. To address this issue, this paper proposed a semantic-priority prompt learning method. Specifically, the method firstly detected semantic information implied by entity types in a few examples, then the entity semantic information, along with a prompt template for querying entity positions, was input into the model. The model utilized a non-autoregressive decoder for parallel entity extraction. Additionally, considering the correlation between semantic information and entity types, this paper employed a contrastive learning approach to train a classifier, aiming to remove semantic information unrelated to entity types. Finally, the proposed method was evaluated on two common public benchmark datasets, and the experimental results demonstrate its effectiveness.
Key words:few-shot named entity recognition; prompt learning; semantic information; contrastive learning
0 引言
命名實體識別(named entity recognition, NER)是一項在文本中定位實體位置并按照預先定義的類型對其分類的任務,如組織、地點等。傳統(tǒng)的命名實體識別方法在有大量標注的數(shù)據(jù)的基礎上取得了優(yōu)秀的成績[1,2],但標注數(shù)據(jù)不足的問題影響了方法的泛用性,于是,只依賴少量示例識別新實體的方法受到了關注[3,4]。
在眾多解決小樣本任務的方法中,提示學習將下游任務轉(zhuǎn)換為語言建模任務[5],用與人類相似的自然語言的方式構建提示,引導模型完成下游任務與預訓練目標的對齊,展現(xiàn)了良好的性能和效率[6]。典型命名實體識別任務的提示學習方法主要是通過模板引導模型枚舉所有跨度,預測每個跨度的實體類型[7]并假定輸入中的實體數(shù)量,使用大于假定值數(shù)量的提示模板完成實體標注任務[8]。假定一個長度為N,實體類型數(shù)為C的輸入,提示建立的方法如圖1所示。為了解決這些方法存在過度耗時的問題,于是提出了無模板的方法[9],通過遠程數(shù)據(jù)集獲取標簽詞來替換實體進行直接預測的方法減少了耗時,但是遠程數(shù)據(jù)集的標注影響了方法的準確度和泛用性。
雖然這些方法也取得了相當程度的成功,但是實體類型的語義信息仍然被低估,實體識別被定義為單純的分類任務,僅僅將實體類型替換成為了無意義的類別ID,這在小樣本任務中遇到新領域未見過的實體類型時會影響模型識別能力。比如要識別“武器”這個新實體類型,將其簡單地替換為“type12”,會阻止模型從中了解其中的語義信息,即“用于進攻或防御的器械”。
為了解決這個問題,本文提出了一種面向小樣本命名實體識別的實體語義優(yōu)先提示學習框架(entity semantics-first prompt learning framework for few-shot named entity recognition, ESPNER),核心思想是通過捕捉實體類型的語義信息,然后和詢問實體位置的提示組成提示模板進行實體識別。即通過“武器是刀,手槍,炸彈等,__是武器”的語義提示來引導模型。具體來說,實體語義優(yōu)先的提示學習框架主要由實體語義檢測和實體定位兩個模塊組成。對于實體語義檢測模塊,首先根據(jù)少量示例提取一組語義信息,即該實體類型的概念與解釋。然后用對比學習思想[10]訓練的分類器過濾掉不相關的語義信息。對于實體定位模塊,將命名實體識別任務轉(zhuǎn)換為填空任務,用實體類型的語義信息引導模型填補實體位置空槽,解碼出句子中的實體位置。值得注意的是,本文方法提問的次數(shù)與實體類型數(shù)量一致,同時不依賴遠程數(shù)據(jù)集,實現(xiàn)了效率與準確度的統(tǒng)一。
本文的主要貢獻如下:
a)提出了一個語義優(yōu)先的提示學習網(wǎng)絡(ESPNER),用于小樣本命名實體識別任務,首先檢測實體類型的語義,然后通過提示學習提取實體位置;
b)為了減輕無用信息的負面影響,保證語義信息與實體類型的相關性,利用對比學習的思想訓練了一個分類器,過濾不相關的實體語義信息;
c)在兩個公開的小樣本命名實體識別數(shù)據(jù)集上的實驗結(jié)果表明,本文方法在小樣本任務下能達到最優(yōu)水平,且能有效處理未見過的新型實體類型。
1 相關研究
1.1 小樣本命名實體識別任務
小樣本命名實體識別任務受到了研究人員的極大關注,其基于微調(diào)的方法通過少量實例重新調(diào)整模型權重,完成新類型識別任務[11,12]。該方法效果突出,但有著訓練成本高昂的問題,對標注數(shù)據(jù)和訓練時間要求較高?;诙攘康姆椒ㄍㄟ^比較新實例和原型來識別實體[13],降低了訓練要求,但也面臨領域漂移的問題。近些年來,為了解決這些問題,涌現(xiàn)出了很多新方法。Huang等人[14]對小樣本NER任務進行對比研究,發(fā)現(xiàn)帶噪聲的監(jiān)督預訓練可以顯著提高識別準確度。Huang等人[15]將實體類別縮寫進行補全,然后對跨度和實體類型用對比學習訓練。
Chen等人[16]提出一種基于上下文學習的NER方法,通過將訓練模型與微調(diào)的模型提取特征向量對齊,完成上下文學習的預訓練。文獻[17,18]利用雙塔 BERT 來分別對文本和標簽進行編碼,取得了很好的效果,證明了實體類型語義的重要性,不過在進行小樣本NER時,需要對未見過的實體類型進行手動解釋,損害了模型的泛用性。所以本文方法利用示例來挖掘語義信息,而非人為補充。
1.2 提示學習
提示學習涉及將輸入信息嵌入到預定義的模板中,并將不同類型的下游任務轉(zhuǎn)換為一致的填空任務,巧妙地調(diào)用預訓練階段的知識。提示學習憑借效率和準確度在分類和生成任務中取得了良好的效果[6,19]。Cui等人[7]首次在命名實體識別任務中使用提示學習。該方法是為每一個跨度構建一個“[X] is a [MASK] entity”的提示來進行實體識別,一個簡單句子需要冗長的多輪推理。Ma 等人[9]為了解決這個問題,提出了無模板的提示學習方法,通過尋找文本單詞中近義詞的方法,擺脫了模板的依賴,提高了識別效率,但是在缺乏標注的識別場景不能很好地發(fā)揮作用。Lee等人[20]在提示中引入示例,通過舉例引導模型理解命名實體任務,提高了識別效率。另一類提示學習方法是利用問答的方式引導模型進行實體識別[21]。Shen等人[8]在提示中加入多個實體和實體類型的空槽,使用二分匹配一次性為空位分配標簽和實體。Ye等人[22]通過流水線的方法首先定位實體位置,然后構建提示模板完成實體識別。這些方法完成了標注任務和提示學習的結(jié)合。本文方法與上述不同,首先檢測實體類型的語義,然后通過提示學習提取該實體類型的位置。
2 模型
本章將詳細介紹整體模型,整個模型架構如圖2所示,由實體語義檢測模塊和實體定位模塊兩個部分組成。
2.1 問題定義
命名實體識別任務通常被視為一個序列標注任務。對于每個輸入句子χ={x1,x2,…,xi,…,xn},NER 模型旨在為每個標記 xi分配一個標簽 ti∈T,其中T是一個預定義的標簽集。分配的標簽顯示了標記是否是命名實體的一部分或不在任何實體類別中。
小樣本命名實體識別任務即對于新的實體類別,只為NER模型提供非常有限的注釋作為監(jiān)督。具體來說,在一個具有標簽空間C的數(shù)據(jù)集Dsupport上訓練一個少樣本NER模型,其中每個實體類別只有K個樣本。然后,使用相同標簽空間C的查詢集Dquery對模型進行評估。預訓練模型需要僅憑少量訓練樣本學習NER任務。
2.2 整體框架概述
按照文獻[7],本文將命名實體識別任務建模為一個填空任務。具體來說,對于一個長度為N的句子X,按預設的模板格式,插入M個固定的提示和一個類型語義提示,并與 X 相結(jié)合,形成一個完整的輸入序列 T,如圖1所示。在這個序列中,模型在整個句子中識別出命名實體,同時填充至每個提示的位置插槽 [P]。
利用實體語義檢測模塊,將少量示例變成詞向量后與初始化向量進行注意力計算,得到實體類型的語義信息后,進行語義篩選,去除不相關的信息,保證提示的準確性,最后通過實體位置查詢提示和實體類型信息計算實體的位置,完成小樣本實體識別。接下來將分別介紹實體語義檢測模塊和實體定位模塊。
2.3 實體語義檢測模塊
2.3.1 候選語義檢測
為了將少數(shù)有標注句子和實體類型轉(zhuǎn)換為向量表示,使用BERT[23,24]作為特征編碼器。給定訓練樣本 χ={x1,x2,…,xi,…,xn}, xi表示這個句子里面的第i個字符,然后與需要檢測實體語義的實體類型t組成引導模板γ,如該實體類型t是“weapon”,那么引導模板就是“[CLS] weapon”,即將χ和γ拼接起來作為BERT的輸入:
Q=[CLS]χ[SEP]γ[SEP](1)
其中:[CLS]表示句子的開頭;[SEP]用于提示實體類型。將引導模板輸入BERT后,可以得出其特征向量。
He=BERT([Q])=BERT([x1,…,xn,t])=[hcls,h1,…,hn,ht](2)
其中:t表示實體類型;h表示訓練樣本和實體類型的隱藏狀態(tài);He是整個輸入特征的向量表示。獲得了句子和實體類型的特征向量之后,使用基于Transformer[25]非自回歸解碼器預測實體類型包含在句子中的潛在語義信息。如圖2所示,解碼器的輸入初始化使用nq個可學習的嵌入向量E ∈Euclid ExtraaBpnq×d,其中nq為實體類型中語義數(shù)量的最大值。在這里使用基于標記的交叉注意力,將特征向量He也作為輸入的一部分,經(jīng)過注意力計算輸出向量表示為Hs ∈Euclid ExtraaBpnq×d,實體類型的語義由式(3)計算獲得。
2.3.2 語義篩選
經(jīng)過候選語義檢測模塊之后,獲得實體類型的語義信息,如“GPE: country, sovereign state,capital”,即該新型實體類型在少數(shù)標注語例中包含的信息,這些信息對于模型識別未見過的實體類型的實體有指導作用。而候選語義判斷在預測一組潛在語義信息后,計算語義信息和實體類型的關聯(lián)程度,過濾掉不相關的,以有效生成實體定位提示。將候選語義檢測模塊中解碼器的輸出特征矩陣Hs和[CLS]通過一個語義篩選模塊即一個二元分類器[26]解析出一個布爾掩碼向量M,來對候選語義信息進行篩選:
M=σ(Ws[Hs;cls]+bs)(4)
其中:Ws是可訓練的權重;bs是偏置;σ是sigmoid激活函數(shù)。值越高,實體類包含該實體語義的可能性就越高,越低則相反。在這一步中,對于每個實體類型,分類器過濾掉無用的語義信息,并預測一個子集Ri∈Euclid ExtraaBp來保留與實體類型相關性高的語義信息。如果實體類型包含第j個語義信息,它將被保留在Ri中,然后被輸入到實體定位模塊中,以幫助識別實體對。
為了保證指導信息的正向作用,采用對比學習的思想訓練分類器,以此來過濾不相關的語義信息。首先利用Wikidata數(shù)據(jù)集建立實體類別集合x,隨機抽取Wikidata中每一個項的各個屬性值作為正樣本對(xt,v[t]),如圖3所示。然后通過隨機抽取與該項無關的分類標簽作為負樣本對,訓練分類器縮小與正樣本對之間的表示距離,同時增大與負樣本對之間的表示距離。對于標記xt,用式(5)計算對比損失[27]。
2.4 實體定位模塊
2.4.1 提示構建
與以往構建提示的方法不同,本文方法將實體類型和實體類型的語義統(tǒng)一至提示里面,通過語義信息引導模型完成實體定位。實體定位模塊的輸入序列主要由兩部分構成:第一部分是實體類型語義信息,以及預定義數(shù)量的實體位置槽作為提示M,通過填充空位的方式完成實體定位;另一部分是輸入的句子X。例如,對于一個句子“Musk was not born in the United States”和實體類型“LOC”,默認的實體語義優(yōu)先的輸入序列可以表示為
T={LOC is country…,[Pi] is a LOC entity}i=1,2…M[cls]Musk was not born in the United State(7)
其中:“[Pi]是某類型的實體”是第i個提示;[P]表示其位置槽,表示句子中實體的位置;M為提示的數(shù)量。
2.4.2 實體定位
模型運行如圖4所示,即根據(jù)語義檢測模塊中抽取出來的實體類型語義信息組成提示模板,然后根據(jù)提示定位實體位置,完成實體識別。
實體定位模塊同樣使用BERT編碼器對輸入序列T進行編碼,如式(2)所示,但在編碼時使用掩碼阻止提示和句子進行交叉注意力計算。得到提示的特征嵌入和原句的特征嵌入,這個組件利用語義提示和實體類型提示定位相應實體的位置,完成實體識別。即使用與語義檢測模塊相似的非自回歸Transformer解碼器作為實體對提取器,在每個Transformer層中,多頭自注意力用于建模提示位置槽與實體類型語義信息之間的關聯(lián),查詢、鍵、值都來自提示向量,用自注意力對提示序列內(nèi)部各部分關聯(lián)程度進行計算,而多頭交叉注意力用于融合輸入序列句子信息,查詢向量來自于提示序列,鍵和值來自文本序列,計算提示序列中信息與文本序列信息相似度。
M個提示序列經(jīng)過解碼器之后,轉(zhuǎn)換為M個輸出嵌入,記為Hd ∈Euclid ExtraaBpM×d。隨后這些輸出嵌入Hd與原始文本的嵌入He表示被獨立解碼為實體的左邊界和右邊界。通過前饋神經(jīng)網(wǎng)絡完成最后的實體定位。具體而言,給定Hd中的一個輸出嵌入hd∈Euclid ExtraaBpd,預測的實體位置由式(8)(9)給出。
2.5 模型訓練
模型使用維基百科數(shù)據(jù)和Wikidata[29]進行預訓練,維基百科龐大的原始文本可以使用填空的方式[23]幫助模型提高對文本的基礎理解能力,同時利用維基百科和Wikidata的關聯(lián)構建文本、實體、實體類,Wikidata 中的條目視為實體,“instance of”“subclass of”和“occupation”作為實體類。其次,使用 Wikipedia 中的錨文本和其條目頁面前 3的名詞短語作為實體,通過將其鏈接到其 Wikidata 項目的類型來識別其實體類型。給定一個實體類型,收集與之描述相同實體的實體類型作為其語義信息的描述。通過這種方法構建了實體類型和解釋其語義概念的集合,使用通用的交叉熵函數(shù)利用此集合,獲取預測語義pSσ(i)與實際語義ysi的差距作為損失值,K為語義信息數(shù)量:
ζ =-∑Ki=1logpSσ*(i)(ysi)(10)
根據(jù)實體在文本中的順序進行排序,實體定位的損失函數(shù)計算公式如下:
ζ=-∑Mi=11{ti≠}[logplσ(i)(li)+logprσ(i)(ri)](11)
其中:M是提示的預定義數(shù)量;1{ti≠}是一個指示函數(shù),用來判斷提示的位置槽是否為空,如果為空則取值為0,如果不為空則取值為1。句子中相同實體類型的實體數(shù)是有限的,所以有一部分提示中實體位置為空,利用指示函數(shù)將為空提示的損失值直接置為零,計算非空的提示時,plσ(i)為模型預測的實體左邊界, (li)為實體實際左邊界,右邊界也是同理,再利用交叉熵函數(shù)計算左右邊界預測和實際之間的差值,然后相加即為該條提示的損失值,進行M次累加。
3 實驗
3.1 數(shù)據(jù)集和評價指標
和之前工作一樣[8,11],本文使用開放的維基百科數(shù)據(jù)和Wikidata為模型進行預訓練。維基百科含有豐富的實體知識,這對于命名實體識別、關系提取、實體鏈接等實體相關任務非常有用。維基百科龐大語料庫可以有效訓練模型的理解能力。維基百科中的實體相關超鏈接稱為wiki錨點,這些錨點主要為位置注釋,模型使用這部分注釋的數(shù)據(jù)來訓練模型的定位能力。本文使用CoNLL-2003[30] 和MIT-Movie[31]兩個常用命名實體識別數(shù)據(jù)集進行微調(diào)和評估,主要評估標準為P(準確率)、R(召回率)、F1分數(shù)。
a)CoNLL-2003。該數(shù)據(jù)集最初是為 NER 上的共享任務創(chuàng)建的,內(nèi)容是路透社新聞報道的文檔集合,有人名(PER)、組織名(ORG)、地名(LOC)和雜項(Miscellaneous)四種不同類型的命名實體標簽。
b)MIT-Movie。該數(shù)據(jù)集是一個用于電影劇本解析的數(shù)據(jù)集,它主要關注于劇本的結(jié)構化元素,如場景、行動和對話。它包含了劇本中的多種實體類型,如場景(scene)、行動(action)、對話(dialogue)、角色(character)等12種實體類型。
3.2 基線模型
為了全面評估語義優(yōu)先的提示學習方法(ESPNER)的有效性,本文選取了一些具有代表性面向小樣本命名實體識別任務的模型作為基線模型:
a)NNShot[32]是一種通過比較每個標記(例如單詞)的相似性來識別新的類別或?qū)嶓w的簡單方法。
b)StructShot[33]在NNShot的基礎上添加了額外的Viterbi解碼器。
c)TemplateNER[7]是一種構造提示模板的方法,通過枚舉所有可能的跨度,完成實體識別。
d)EntLM[9]是一種不構造模板的提示學習方法,主要方法是預測實體位置上與類相關的中心單詞。
e)COPNER[15]構建包含特定類別關鍵詞(如“person”對應人名類別PER)的提示完成實體識別,并采用對比學習技術來優(yōu)化標記的嵌入表示。
f)TFP[34]是一種基于提示的對比學習方法,用于小樣本NER,無須模板構建和標簽詞映射。
3.3 參數(shù)設置和評估標注
使用BERT-Base-Cased English模型作為模型嵌入層,非自回歸解碼器中Transformer塊的數(shù)量被設置為3。模型采用AdamW優(yōu)化器,批量大小為8,進行了100個周期的訓練。對于預訓練參數(shù),設置學習率為1E-5;對于交叉注意力,學習率為5E-5;對于其他部分,學習率為7E-5。預定義提示數(shù)量M設置為10,可學習的嵌入數(shù)量nq設置為8。
模型的最終結(jié)果采用準確率precision、召回率recall和綜合評價指標F1三個指標作為模型性能的評價標準。
3.4 對比實驗
在各數(shù)據(jù)集上的實驗結(jié)果如表1所示。本文ESPNER方法和其他常用的小樣本命名實體識別方法相比,在CoNLL-2003和MIT-Movie上性能均有提升。其中在CoNLL-2003上,樣本條件為5和10的情況下能夠分別提升1.29和1.15百分點。在MIT-Movie上,樣本條件為5和10的情況下能夠分別提升1.59和1.3百分點。實驗結(jié)果證明了ESPNER在小樣本命名實體任務的有效性。
通過分析實驗的結(jié)果,可以得出以下結(jié)論:
本文方法與常用的小樣本命名實體識別方法相比,在CoNLL-2003與MIT-Movie兩個數(shù)據(jù)集上均有所提升,其中標注樣本為5和10時效果比較明顯,而隨著標注樣本量的上升,優(yōu)勢逐漸變小。這說明了本文方法在小樣本情況下的有效性,同時也說明了對實體類型語義概念的解釋,可以幫助模型理解命名實體識別任務。隨著標注數(shù)據(jù)量的增多,效果逐漸不明顯,可能的原因在于,語義信息作為提示可以幫助模型理解命名實體識別任務中未見過的實體類型,而隨著標注數(shù)據(jù)量的上升,模型通過標注材料上下文得到的語義信息,比直接使用模型總結(jié)出來的信息更為準確,更加貼近實體類型的真實語義。這就導致提示中對實體類型語義的概括信息在標注數(shù)據(jù)充足時,對模型完成實體識別任務便無法發(fā)揮正向作用了。所以可以說,本文提出的語義優(yōu)先的提示方法主要針對樣本量不足的情況,通過包含語義信息的提示對新實體類型和預訓練階段知識進行對齊,有效增加了對新實體類型的理解,提高了模型的泛化能力。
總的來說,本文方法引入實體語義信息對于缺乏標注材料的新領域的實體識別至關重要,大大提高了模型遷移預訓練知識的能力。其次,實體語義檢測模塊的語義篩選,將每個實體類型的無用甚至負面語義信息進行了過濾,保證了實體語義的準確性。從另一種角度上來說,過濾無關和負面語義信息為進行實體提取提供了額外的幫助。
3.5 消融實驗
為了分析語義信息、提示學習和語義篩選的有效性,本節(jié)進行了以下消融實驗:
a)ESPNER w/o semantic。直接使用實體類型作為提示,不再使用實體類型的語義信息,例如LOC、ORG。從表2可知,去除了提示中的語義信息之后,兩個數(shù)據(jù)集的F1值都有一定程度的降低,這證明了語義信息可以幫助模型理解實體類型完成NER。同時,使用實體類型作為提示后,在精確度下降的情況下,召回率有所提高,原因可能是實體類型作為提示相比起包含語義信息的提示放寬了標準,識別出來的實體中假陽性樣本增多,影響了精確度。
b)ESPNER w/o prompt。將實體定位模塊獲得的提示嵌入替換為可訓練嵌入,如結(jié)果所示,性能顯著下降。可以觀察到,如果提示僅由可訓練嵌入表示,則模型無法依靠提示信息完成預訓練知識與新領域識別任務的對齊,理解識別未見過實體類型,容易造成實體識別錯誤。說明包含語義信息的提示模板可以捕獲實體類型的細粒度語義信息,這有助于提取實體。
c)ESPNER w/o filter。直接使用實體語義檢測模塊中生成的語義信息,而不經(jīng)過語義篩選模塊的過濾。實驗表明,去除篩選模塊造成了模型性能下降,這表明該語義篩選模塊有助于減少不相關的語義信息帶來的噪聲。
3.6 實體類型的語義
為了驗證語義信息的有效性[35],在消融實驗中,將實體類型的語義簡化為實體名稱來驗證語義對小樣本NER的作用。為了進一步驗證不同實體類型的語義作為提示標簽對模型性能的影響,本文在CoNLL-2003數(shù)據(jù)上展開了實驗,結(jié)果如圖5所示。
a)語義優(yōu)先的提示,即本文方法。b)無語義的提示,即提示中不包含關于實體類型有意義的信息。即將實體類型和其類型的語義改為隨機的無意義標簽,如“l(fā)ocation is port, park, city, country”改為“type11”,這模擬了少數(shù)標注樣本無法提供足夠語義信息的情況,同時評估在輸入中給定無意義信息對模型性能的影響。與語義標簽相比,在1和5樣本設置中結(jié)果下降比較明顯,隨著標注樣本的增大,逐漸恢復到了與語義標簽相當?shù)乃?,這表明實體語義信息對模型完成小樣本實體識別有著重要作用,因此需要保證實體類型的語義準確度。c)包含誤導信息的提示,隨機使用其他實體類型作為目標實體類型的語義對模型進行誤導,例如,“l(fā)ocation is miscellaneous”和“ORG is PER”,用錯誤的解釋作為提示引導模型進行實體識別,實驗表明,誤導性的標簽需要更多的標注樣例來糾正提示中給予的錯誤信息。從實驗結(jié)果可知,無論是無語義信息的提示還是包含誤導性的信息提示,隨著標注樣本的增加,這些提示方法的性能都逐漸與包含語義信息的提示靠近,一方面說明語義優(yōu)先的提示方法的有效性,另一方面也說明隨著可學習樣本的增加,模型可以通過學習更多標注知識來對錯誤信息進行糾正改進,通過上下文理解實體類型的具體語義,完成實體識別。
3.7 案例分析
實體從MIT-Movie數(shù)據(jù)集中抽取一個句子作為例子進行示例分析,其中,不再使用實體類型的語義信息,而是直接使用實體類型作為提示的方法(w/o semantic)作為模型的對比案例。表3展示了直接使用實體類型作為提示和使用完整語義提示兩種方法完成實體識別的結(jié)果。直接使用實體類型作為提示的方法,面對新實體類型“Director”,模型無法很好地理解該類型的內(nèi)在含義,于是將“Director”與更常見的實體類型“Actor”錯誤地混為一談,將“John Cassvetes”識別為“Actor”實體類型,而語義優(yōu)先的提示方法通過含有語義概念解釋的提示“Director is contributor to the creative work, film director…”正確地將“John Cassavetes”識別為“Director”,由此進一步說明了本文提出的語義優(yōu)先提示方法的有效性。
4 結(jié)束語
本文介紹了用于小樣本命名實體識別的語義優(yōu)先提示學習方法。與以前的提示學習方法相比,語義優(yōu)先的提示方法不再將實體類型簡單地視為無意義的類別號碼,而是通過挖掘少數(shù)標注樣本中蘊涵的語義信息構建提示模板,并使用非自回歸解碼器完成并行的實體定位。同時還利用對比學習思想訓練分類器來對語義信息進行過濾,保證語義與實體類型的相關性。在兩個廣泛使用數(shù)據(jù)集中進行了對比實驗,證明了語義優(yōu)先的提示方法對于模型檢索預訓練階段的先驗知識非常重要。未來工作可對有嵌套結(jié)構或多標簽屬性的復雜實體類型,進行有針對性的優(yōu)化。
參考文獻:
[1]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition [EB/OL]. (2016-04-07). https://arxiv.org/abs/1603.01360.
[2]Li Xiaoya, Feng Jingrong, Meng Yuxian, et al. A unified MRC framework for named entity recognition [EB/OL]. (2022-11-22). https://arxiv.org/abs/1910.11476.
[3]Huang Jiaxin, Li Chunyuan, Subudhi K, et al. Few-shot named entity recognition: a comprehensive study [EB/OL]. (2020-12-29). https://arxiv.org/abs/2012.14978.
[4]Wang Yaqing, Chu Haoda, Zhang Chao, et al. Learning from language description: low-shot named entity recognition via decomposed framework [EB/OL]. (2021-09-11). https://arxiv.org/abs/2109.05357.
[5]Shin T, Razeghi Y, Logan Ⅳ R L, et al. Autoprompt: eliciting knowledge from language models with automatically generated prompts [EB/OL]. (2020-11-07). https://arxiv.org/abs/2010.15980.
[6]Ding Ning, Chen Yulin, Han Xu, et al. Prompt-learning for fine-grained entity typing [EB/OL]. (2021-08-24). https://arxiv.org/abs/2108.10604.
[7]Cui Leyang, Wu Yu, Liu Jian, et al. Template-based named entity recognition using BART [EB/OL]. (2021-06-03). https://arxiv.org/abs/2106.01760.
[8]Shen Yongliang, Tan Zeqi, Wu Shuhui, et al. PromptNER: prompt locating and typing for named entity recognition [EB/OL]. (2023-05-26). https://arxiv.org/abs/2305.17104.
[9]Ma Ruotian, Zhou Xin, Gui Tao, et al. Template-free prompt tuning for few-shot NER [EB/OL]. (2022-11-23). https://arxiv.org/abs/2109.13532.
[10]劉楊, 線巖團, 相艷, 等. 融合相似度負采樣的遠程監(jiān)督命名實體識別方法[J]. 計算機應用研究, 2024, 41(8): 2322-2328. (Liu Yang, Xian Yantuan, Xiang Yan, et al. Incorporating similarity negative sampling for distantly supervised NER[J]. Application Research of Computers, 2024, 41(8): 2322-2328.)
[11]Chen Jiawei, Liu Qing, Lin Hongyu, et al. Few-shot named entity recognition with self-describing networks [EB/OL]. (2022-03-23). https://arxiv.org/abs/2203.12252.
[12]Das S S S, Katiyar A, Passonneau R J, et al. CONTaiNER: few-shot named entity recognition via contrastive learning [EB/OL]. (2022-03-28). https://arxiv.org/abs/2109.07589.
[13]Yang Yi, Katiyar A. Simple and effective few-shot named entity recog-nition with structured nearest neighbor learning [EB/OL]. (2020-10-06). https://arxiv.org/abs/2010.02405.
[14]Huang Jiaxin, Li Chunyuan, Subudhi K, et al. Few-shot named entity recognition: an empirical baseline study [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 10408-10423.
[15]Huang Yucheng, He Kai, Wang Yige, et al. COPNER: contrastive learning with prompt guiding for few-shot named entity recognition [C]// Proc of the 29th International Conference on Computational Linguistics. [S.l.]: International Committee on Computational Linguistics, 2022: 2515-2527.
[16]Chen Jiawei, Lu Yaojie, Lin Hongyu, et al. Learning in-context learning for named entity recognition [EB/OL]. (2023-05-26). https://arxiv.org/abs/2305.11038.
[17]Li Zhe, Fu Luoyi, Wang Xinbing, et al. RFBFN: a relation-first blank filling network for joint relational triple extraction [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2022: 10-20.
[18]Ma Jie, Ballesteros M, Doss S, et al. Label semantics for few shot named entity recognition [EB/OL]. (2022-03-16). https://arxiv.org/abs/2203.08985.
[19]Wadden D, Wennberg U, Luan Yi, et al. Entity, relation, and event extraction with contextualized span representations [EB/OL]. (2019-09-10). https://arxiv.org/abs/1909.03546.
[20]Lee D H, Kadakia A, Tan Kangmin, et al. Good examples make a faster learner: simple demonstration-based learning for low-resource NER [EB/OL]. (2022-03-31). https://arxiv.org/abs/2110.08454.
[21]Liu A T, Xiao Wei, Zhu Henghui, et al. QaNER: prompting question answering models for few-shot named entity recognition [EB/OL]. (2022-03-04). https://arxiv.org/abs/2203.01543.
[22]Ye Feiyang, Huang Liang, Liang Senjie, et al. Decomposed two-stage prompt learning for few-shot named entity recognition [J]. Information, 2023, 14(5): 262.
[23]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[24]楊三和, 賴沛超, 傅仰耿, 等. 面向中文小樣本命名實體識別的BERT優(yōu)化方法 [J/OL]. 小型微型計算機系統(tǒng). (2024-02-02) [2024-04-27]. http://kns.cnki.net/kcms/detail/21.1106.TP.20240202.0926.002. html. (Yang Sanhe, Lai Peichao, Fu Yange, et al. A BERT optimization method for Chinese small sample named entity recognition [J/OL]. Microcomputer Systems. (2024-02-02) [2024-04-27]. http://kns.cnki. net/kcms/detail/21.1106.TP.20240202.0926.002.html.)
[25]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2023-08-02). https://arxiv.org/abs/1706.03762.
[26]Sui Dianbo, Zeng Xiangrong, Chen Yubo, et al. Joint entity and relation extraction with set prediction networks [J]. IEEE Trans on Neural Networks and Learning Systems, 2024, 35(9): 12784-12795.
[27]Lin Qika, Liu Jun, Zhang Lingling, et al. Contrastive graph representations for logical formulas embedding [J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(4): 3563-3574.
[28]Chen Ting, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]// Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org, 2020: 1597-1607.
[29]Yamada I, Asai Akari, Shindo H, et al. LUKE: deep contextualized entity representations with entity-aware self-attention [EB/OL]. (2020-10-02). https://arxiv.org/abs/2010.01057.
[30]Toutanova K, Klein D, Manning C D, et al. Feature-rich part-of-speech tagging with a cyclic dependency network [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg, PA: Association for Computational Linguistics, 2003: 252-259.
[31]Liu Jingjing, Pasupat P, Cyphers S, et al. Asgard: a portable architecture for multilingual dialogue systems [C]// Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2013: 8386-8390.
[32]Wiseman S, Stratos K. Label-agnostic sequence labeling by copying nearest neighbors [EB/OL]. (2021-08-20). https://arxiv.org/abs/1906.04225.
[33]Yang Yi, Katiyar A. Simple and effective few-shot named entity re-cognition with structured nearest neighbor learning [EB/OL]. (2020-10-06). https://arxiv.org/abs/2010.02405.
[34]He Kai, Mao Rui, Huang Yucheng, et al. Template-free prompting for few-shot named entity recognition via semantic-enhanced contrastive learning[J/OL]. IEEE Trans on Neural Networks and Learning Systems. (2023-09-26). http://doi.org/10.1109/tnnls.2023.3314807.
[35]潘理虎, 劉云, 謝斌紅, 等. 基于語義增強的多特征融合小樣本關系抽取 [J]. 計算機應用研究, 2022, 39(6): 1663-1667. (Pan Lihu, Liu Yun, Xie Binhong, et al. Semantic-enhanced multi-feature fusion for few-shot relation extraction [J]. Application Research of Computers, 2022, 39(6): 1663-1667.)