面向遠(yuǎn)程監(jiān)督命名實體識別的噪聲檢測

2024-04-29 05:35:38王嘉誠王昊奮何之棟劉井平

計算機研究與發(fā)展 2024年4期

關(guān)鍵詞：單詞監(jiān)督文本

王嘉誠王凱王昊奮杜渂何之棟阮彤劉井平

1（華東理工大學(xué)信息科學(xué)與工程學(xué)院上海 200237）

2（同濟(jì)大學(xué)設(shè)計與創(chuàng)意學(xué)院上海 200092）

3（迪愛斯信息技術(shù)股份有限公司上海 200032）

（y80220109@mail.ecust.edu.cn）

命名實體識別（named entity recognition,NER）旨在從文本中定位命名實體，并將其分類到預(yù)定義的實體類型，如人、組織和位置.NER 是自然語言處理（natural language processing,NLP）的基本任務(wù)，有助于各種下游應(yīng)用，如關(guān)系抽取[1]、問答系統(tǒng)[2]、知識庫的構(gòu)建[3-6].

傳統(tǒng)的NER 監(jiān)督方法如BERT-CRF[7]和指針網(wǎng)絡(luò)[8]嚴(yán)重依賴于大量的標(biāo)注數(shù)據(jù)，而數(shù)據(jù)的標(biāo)注過程往往既費時又費力.因此，遠(yuǎn)程監(jiān)督技術(shù)被提出用于自動生成NER 的標(biāo)注數(shù)據(jù)，其核心思想是識別文本中存在于知識庫，如維基數(shù)據(jù)開放知識庫的實體提及，并將相應(yīng)類型分配給它們.然而，使用遠(yuǎn)程監(jiān)督技術(shù)會產(chǎn)生2 類噪聲：假陰性（false negatives,FNs）和假陽性（false positives,FPs）[9].首先，由于知識庫覆蓋的范圍有限，文本中并非所有正確實體都會被標(biāo)注，因此會產(chǎn)生FNs.其次，由于使用簡單的字符串匹配來識別實體提及，知識庫中實體的模糊性可能會導(dǎo)致FPs.圖1 展示了一個遠(yuǎn)程監(jiān)督標(biāo)注示例，其中“PRO”指產(chǎn)品名稱類型，“PER”指人名.第1 行是初始文本，第2 行是遠(yuǎn)程監(jiān)督標(biāo)注，第3 行是正確標(biāo)注.示例中，由于知識庫的規(guī)模有限，產(chǎn)品實體“拖把”沒有被正確匹配，這屬于FNs.此外，示例中的“包”表示一個量詞，而不是一個產(chǎn)品，但因為知識庫的模糊性被錯誤匹配，這屬于FPs.

Fig.1 An example of distantly supervised annotation圖1 遠(yuǎn)程監(jiān)督標(biāo)注示例

為了解決上述遠(yuǎn)程監(jiān)督NER 的噪聲問題，研究者提出了一系列噪聲檢測的方法.這些方法主要可以被分為2 類：一類是在訓(xùn)練過程中設(shè)計樣本降噪策略來減小噪聲對模型的負(fù)面影響.常見的降噪策略有數(shù)據(jù)聚類[10]、負(fù)采樣[11-12]等.然而，這類方法僅能處理FNs 噪聲，仍無法解決遠(yuǎn)程監(jiān)督過程中的FPs噪聲.另一類是是在訓(xùn)練之前設(shè)計噪聲過濾手段來刪除訓(xùn)練集中的噪聲樣本，該方法可以同時處理FNs 與FPs 這2 類噪聲，但是對噪聲過濾的準(zhǔn)確性有較高要求.此外，由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征，許多研究者將其視為一個決策問題，并使用強化學(xué)習(xí)的強大決策能力來解決.典型的方法是制定不同的獎勵和策略，并使用強化學(xué)習(xí)框架訓(xùn)練一個噪聲識別器模型[13-14].然而，這類方法都以句子為單位進(jìn)行噪聲檢測，可能會丟棄其中正確的實體標(biāo)注信息，進(jìn)而無法為模型提供充足的訓(xùn)練語料.比如，在圖1 中，模型可能會因為“包”和“拖把”這2 個噪聲實體把整個語句刪除，導(dǎo)致正確的實體標(biāo)注信息“小明”和“釘子”也會被刪除.

為此，本文提出了一種新穎的基于強化學(xué)習(xí)的遠(yuǎn)程監(jiān)督NER 方法，稱為RLTL-DSNER（reinforcement learning and token level based distantly supervised named entity recognition）.該方法可以從遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲文本中準(zhǔn)確識別正確實例，減少噪聲實例對遠(yuǎn)程監(jiān)督NER 的負(fù)面影響.具體而言，本文把強化學(xué)習(xí)框架中的策略網(wǎng)絡(luò)中引入了標(biāo)簽置信度函數(shù)，為文本語句中的每個單詞提供了標(biāo)簽置信分?jǐn)?shù).此外，本文提出了一種NER 模型預(yù)訓(xùn)練策略，即預(yù)訓(xùn)練階段的F1 分?jǐn)?shù)達(dá)到85%～ 95%時即停止訓(xùn)練.該策略可以為強化學(xué)習(xí)的初始訓(xùn)練提供精準(zhǔn)的狀態(tài)表示和有效獎勵值，幫助策略網(wǎng)絡(luò)在訓(xùn)練初期以正確的方向更新其參數(shù).

總的來說，本文的主要貢獻(xiàn)有3 點：

1）提出了一種新的基于強化學(xué)習(xí)的方法，用于解決遠(yuǎn)程監(jiān)督NER 任務(wù)，稱為RLTL-DSNER.該方法利用策略網(wǎng)絡(luò)與一個標(biāo)簽置信函數(shù)，從有噪聲的遠(yuǎn)程監(jiān)督數(shù)據(jù)中，以單詞為單位識別正確實例，最大限度保留樣本中的正確信息.

2）提出了一種NER 模型預(yù)訓(xùn)練策略，以幫助RLTL-DSNER 在訓(xùn)練初期就能以正確的方向更新其可學(xué)習(xí)參數(shù)，使訓(xùn)練過程穩(wěn)定.

3）實驗結(jié)果表明，RLTL-DSNER 在3 個中文數(shù)據(jù)集和1 個英文醫(yī)學(xué)數(shù)據(jù)集上都顯著優(yōu)于最先進(jìn)的遠(yuǎn)程監(jiān)督NER 模型.在NEWS 數(shù)據(jù)集上，相較于現(xiàn)有最先進(jìn)的方法，獲得了4.28%的F1 值提升.

1 相關(guān)工作

傳統(tǒng)的NER 方法是基于人工標(biāo)注的特征，常用的方法有最大熵[15]、隱馬爾可夫模型[16]、支持向量機[17]和條件隨機場[18].近年來，深度神經(jīng)網(wǎng)絡(luò)的發(fā)展使其成為研究的主流.深度神經(jīng)網(wǎng)絡(luò)自動提取隱藏的特征，從而使研究人員不用再把重心放在特征工程中.

預(yù)訓(xùn)練語言模型BERT[19]被提出后，以其動態(tài)詞向量獲取能力強、通用性強兩大優(yōu)點備受研究者關(guān)注，許多方法都以其作為編碼器.Souza 等人[7]構(gòu)建了BERT-CRF 模型，在BERT 的基礎(chǔ)上，使用CRF 層學(xué)習(xí)句子的約束條件，提升句子的整體標(biāo)注效果.Hao等人[8]使用了基于指針網(wǎng)絡(luò)的模型結(jié)構(gòu)，提升了模型對實體邊界的敏感性，并解決了現(xiàn)實中普遍存在的重疊實體問題.除了對模型架構(gòu)的設(shè)計，許多研究將重點放在了額外特征的探索和挖掘中.羅凌等人[20]在模型中引入了包含漢字內(nèi)部結(jié)構(gòu)的筆畫信息，Xu等人[21]融合了中文文本中的詞根、字符以及單詞信息，這些額外特征的引入進(jìn)一步提高了模型的表現(xiàn).

雖然文獻(xiàn)[7-8,20-21]方法都在NER 任務(wù)上取得了不錯的效果，然而它們都依賴于大量的人工標(biāo)注數(shù)據(jù).在缺乏人工標(biāo)注數(shù)據(jù)的情況下，為了緩解數(shù)據(jù)不足帶來的負(fù)面影響，許多研究者提出了遠(yuǎn)程監(jiān)督標(biāo)注方法.Shang 等人[22]提出了AutoNER 模型，采用“Tie or Break”標(biāo)注方案代替?zhèn)鹘y(tǒng)的B?O 方案或B?OES 方案.同時，他們引入字典裁剪方法和高質(zhì)量的短語來實現(xiàn)遠(yuǎn)程監(jiān)督NER，并在3 個基準(zhǔn)數(shù)據(jù)集上取得了最先進(jìn)的F1 值.繼Shang 等人[22]之后，Wang 等人[23]在不完全字典的幫助下實現(xiàn)字符串匹配，以檢測可能的實體.此外，他們利用匹配實體和不匹配候選實體的上下文相似性來檢測更多的實體.相比常規(guī)僅使用精準(zhǔn)字符串匹配生成自動標(biāo)注的遠(yuǎn)程監(jiān)督方法，通過詞典拓展、匹配策略修改等方法，提高了數(shù)據(jù)質(zhì)量.然而，這些方法的效果好壞與他們使用的詞典質(zhì)量有密切關(guān)系.在詞典質(zhì)量較差的情況下，依然無法避免自動標(biāo)注產(chǎn)生的FNs 與FPs 這2類噪聲標(biāo)注.

針對噪聲標(biāo)注問題，主要有2 類方法：

1）在訓(xùn)練過程中設(shè)計樣本降噪策略來減小噪聲對模型的負(fù)面影響.高建偉等人[24]利用外部知識圖譜當(dāng)中的結(jié)構(gòu)化知識和文本語料中的語義知識，設(shè)計了一種實體知識感知的詞嵌入表示方法，豐富句子級別的特征表達(dá)能力.Lange 等人[10]建議利用數(shù)據(jù)特征對輸入實例進(jìn)行聚類，然后為聚類計算不同的混淆矩陣.Peng 等人[25]將遠(yuǎn)程監(jiān)督NER 任務(wù)定義為正樣本無標(biāo)簽學(xué)習(xí)問題，其中正樣本由匹配的實體組成，非實體單詞構(gòu)成無標(biāo)簽數(shù)據(jù).為了擴展字典，他們使用修改的AdaSampling 算法來迭代地檢測可能的實體.Liang 等人[26]提出了一個2 階段框架，利用預(yù)訓(xùn)練模型的優(yōu)勢解決遠(yuǎn)程監(jiān)督NER 任務(wù).他們引入了一種自訓(xùn)練策略，將微調(diào)的BERT 作為教師和學(xué)生模型，并使用教師模型生成的偽標(biāo)簽對學(xué)生模型進(jìn)行訓(xùn)練.Li 等人[11]引入負(fù)采樣以緩解噪聲未標(biāo)注實體的影響.然而，這類方法僅能處理FNs 噪聲，仍無法解決FPs 噪聲.

2）在訓(xùn)練之前設(shè)計噪聲過濾手段來刪除訓(xùn)練集中的噪聲樣本.由于噪聲過濾過程的試錯搜索與延遲反饋兩大特征，許多研究者使用強化學(xué)習(xí)技術(shù)實現(xiàn)此類方法.此類方法發(fā)揮了強化學(xué)習(xí)的強大決策能力，識別遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲樣本，一齊解決假陰性與假陽性實體問題.Qin 等人[27]使用關(guān)系抽取器的F1 值作為策略網(wǎng)絡(luò)的獎勵.Feng 等人[28]使用關(guān)系提取器的預(yù)測概率計算獎勵.受其啟發(fā)，一些研究人員[13-14]將強化學(xué)習(xí)和CRF 層的拓展Partial CRF 結(jié)合起來完成遠(yuǎn)程監(jiān)督NER 的任務(wù).然而，他們的方法中，策略網(wǎng)絡(luò)模型架構(gòu)都較簡單，僅使用MLP 建模，識別能力較弱.此外，都以完整的句子樣本為單位進(jìn)行識別，導(dǎo)致句子中的部分正確信息被丟棄.

2 方法概述

本節(jié)首先給出問題的形式化定義，然后概述本文提出的基于強化學(xué)習(xí)的遠(yuǎn)程監(jiān)督方法NER.

2.1 問題定義

NER 通常被建模為序列標(biāo)注任務(wù)，并使用B?O模式對樣本進(jìn)行標(biāo)注.給定文本S=[s1,s2,…,sn]，其中n表示S中單詞的數(shù)量，NER 的目的是將標(biāo)簽序列T=[t1,t2,…,tn] 分配給S，其中ti∈{BX,IX,O}.B 和? 分別表示實體的首部和后續(xù)部分；X表示對應(yīng)實體提及的類型；O 表示該單詞不屬于任何類型的實體.需要注意的是，類型往往是預(yù)先定義的.與許多研究[13-14,29-30]類似，本文NER 任務(wù)的數(shù)據(jù)集包括少量人工標(biāo)注的數(shù)據(jù)集合H和大量通過遠(yuǎn)程監(jiān)督獲取的數(shù)據(jù)集合D.具體數(shù)據(jù)量見表1.

2.2 算法框架

如圖2 所示，本文提出的RLTL-DSNER 模型主要包括2 階段：模型預(yù)訓(xùn)練階段和迭代訓(xùn)練階段.

Fig.2 The main framework of RLTL-DSNER圖2 RLTL-DSNER 的主要框架

1）在模型預(yù)訓(xùn)練階段，擬通過少量人工標(biāo)注的數(shù)據(jù)來預(yù)訓(xùn)練NER 模型，使得NER 模型在訓(xùn)練集上的F1 值達(dá)到某一閾值 α（α一般取值為85%～ 95%）.這一做法的目的是幫助NER 模型在迭代訓(xùn)練階段的初期為策略網(wǎng)絡(luò)生成高質(zhì)量的狀態(tài)和獎勵.

2）在迭代訓(xùn)練階段，以深度強化學(xué)習(xí)作為框架，提出了單詞級別的噪聲檢測模型.具體而言，首先通過預(yù)訓(xùn)練的NER 模型為文本數(shù)據(jù)生成向量表示和標(biāo)簽概率分布，并將兩者作為狀態(tài)輸入到策略網(wǎng)絡(luò).策略網(wǎng)絡(luò)利用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network,CNN）、標(biāo)簽置信函數(shù)以及多層感知器（multilayer perceptron,MLP）進(jìn)行單詞級別的噪聲檢測，判斷文本數(shù)據(jù)中的各個單詞是否被保留，如圖2 中刪除了噪聲實體“鴿子蛋”與“機械”，因為“鴿子蛋”算作一個產(chǎn)品而不是“鴿子”，“機械”算作描述產(chǎn)品“鍵盤”的規(guī)格，保留了正確實體“陳明亮”“鍵盤”“北京”.隨后，將保留的數(shù)據(jù)與人工標(biāo)注的數(shù)據(jù)進(jìn)行合并，聯(lián)合訓(xùn)練NER 模型.同時，NER 模型為保留的數(shù)據(jù)進(jìn)行打分，并將其作為獎勵來更新策略網(wǎng)絡(luò)參數(shù).上述流程不斷循環(huán)迭代，直到達(dá)到預(yù)定義的輪次.

3 NER 模型預(yù)訓(xùn)練

在RLTL-DSNER 中，NER 模型主要用于狀態(tài)與獎勵的生成，其性能將會直接影響噪聲檢測結(jié)果.NER 模型若不進(jìn)行預(yù)訓(xùn)練，在迭代訓(xùn)練的初期往往無法為遠(yuǎn)程監(jiān)督文本語句生成高質(zhì)量的狀態(tài)和獎勵，可能導(dǎo)致策略網(wǎng)絡(luò)被誤導(dǎo)到錯誤的更新方向.

本文向EC 數(shù)據(jù)集人工標(biāo)注集合中手動添加噪聲數(shù)據(jù)來研究深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)特性.具體來說，本文將數(shù)據(jù)集合中一定比例數(shù)據(jù)的標(biāo)注實體隨機替換為其他實體，并將其視為噪聲數(shù)據(jù)，其余數(shù)據(jù)視為干凈數(shù)據(jù).圖3 展示了添加不同比例噪聲情況下模型的訓(xùn)練情況.

Fig.3 The training situation after artificially adding different proportions of noise to the dataset圖3 人工往數(shù)據(jù)集中添加不同比例噪聲后的訓(xùn)練情況

由圖3 可以看出，在訓(xùn)練過程中，模型在干凈數(shù)據(jù)上的F1 值會先得到大幅度提升，當(dāng)干凈數(shù)據(jù)上的F1 值較大時，模型才會漸漸提升其在噪聲數(shù)據(jù)上的F1 值.這個現(xiàn)象表明了深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中通常先學(xué)習(xí)簡單且通用的數(shù)據(jù)模式，然后逐漸強制擬合噪聲數(shù)據(jù).換言之，模型的訓(xùn)練F1 值達(dá)到某一閾值時，其在干凈數(shù)據(jù)上的F1 值較高，而在噪聲數(shù)據(jù)上的F1 值較低，此時模型將獲得最佳性能.因此，本文擬采用上述方法對NER 模型進(jìn)行預(yù)訓(xùn)練.由于此階段采用的數(shù)據(jù)集由人工標(biāo)注，噪聲較少，閾值α一般取值為85%～95%.

給定人工標(biāo)注數(shù)據(jù)集合H，本文定義作為H中的實例，其中MH表示集合大小，即包含的樣本個數(shù)，分別表示集合H中第m個樣本的文本和標(biāo)簽序列.此外，假定NER 模型用f(θ)表示，其中 θ表示模型的參數(shù)，當(dāng)f(θ)擬合H中的實例的F1值達(dá)到閾值時，NER 模型停止預(yù)訓(xùn)練.

上述預(yù)訓(xùn)練方式與早期停止（early stop）策略相似.但兩者不同之處在于早期停止是指當(dāng)驗證集上的損失值增加或訓(xùn)練集的F1 值達(dá)到99.9%時，模型停止訓(xùn)練.本文采用的預(yù)訓(xùn)練方法更像是“非常早期停止”.相對于早期停止策略，本文的預(yù)訓(xùn)練方式有2 點優(yōu)勢：

1）即使是人工標(biāo)注的數(shù)據(jù)集，也難免存在噪聲數(shù)據(jù).因此當(dāng)訓(xùn)練F1 值達(dá)到85%～ 95%時，模型已經(jīng)學(xué)到大部分的數(shù)據(jù)模式；而繼續(xù)學(xué)習(xí)，只會強制記憶噪聲數(shù)據(jù)，損害模型性能.

2）預(yù)訓(xùn)練過程僅有少量的數(shù)據(jù)樣本，當(dāng)模型訓(xùn)練到F1 值達(dá)到99%時，很容易導(dǎo)致過擬合，降低了模型的泛化能力和噪聲檢測能力.

5.3 節(jié)的實驗表明，通過上述預(yù)訓(xùn)練方式的NER模型具有將正確樣本和噪聲樣本分離的能力，有助于策略網(wǎng)絡(luò)在迭代訓(xùn)練初期正確更新.

4 RLTL-DSNER 中的強化學(xué)習(xí)方法

本節(jié)主要介紹RLTL-DSNER 中的3 個組件，即狀態(tài)、動作和獎勵.與常規(guī)的基于強化學(xué)習(xí)的噪聲過濾方法不同的是，RLTL-DSNER 在策略網(wǎng)絡(luò)中引入了一個標(biāo)簽置信函數(shù)，其結(jié)合噪聲判定模型識別正確實例.需要注意的是，實例的識別是單詞級別的，而不是傳統(tǒng)樣本級別的.

4.1 狀態(tài)

由于訓(xùn)練數(shù)據(jù)中的輸入句子是相互獨立的，僅將句子的信息作為當(dāng)前狀態(tài)很難滿足馬爾可夫決策過程（Markov decision process,MDP）.RLTL-DSNER 將通過NER 模型獲得的當(dāng)前句子表示與標(biāo)簽概率進(jìn)行拼接，以此作為強化學(xué)習(xí)智能體的狀態(tài).需要注意的是NER 模型是通過歷史所選擇的句子進(jìn)行參數(shù)更新的.換言之，第i步的狀態(tài)融入了前i-1步的狀態(tài)與動作信息.因此，RLTL-DSNER 建模方式滿足馬爾可夫決策過程，即未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài)，而與過去狀態(tài)無關(guān)，因為過去狀態(tài)的信息都已經(jīng)隱式融入到當(dāng)前狀態(tài)了.

在RLTL-DSNER 中，狀態(tài)由2 部分組成：當(dāng)前文本的表示和其各個單詞用遠(yuǎn)程監(jiān)督標(biāo)注標(biāo)簽的概率.具體而言，給定文本S=[s1,s2,…,sn]，本文首先將S與特殊字符 [cls] 和 [sep] 進(jìn)行拼接，即 [cls];S;[sep]，并輸入到大規(guī)模預(yù)訓(xùn)練語言模型中（如BERT）.其次，取語言模型中最后一層隱藏狀態(tài)即S=(s1,s2,…,sn)作為文本S的語義表示，其中si(i=1,2,...,n) 是單詞si的隱藏狀態(tài).針對各單詞si的標(biāo)簽概率，本文首先將上述的文本表示輸入到全連接層中，為每個單詞獲取所有標(biāo)簽的概率即其中L表示標(biāo)簽類型的數(shù)量，表示tj是單詞sj的標(biāo)簽的概率.其次，根據(jù)上述的標(biāo)簽概率分布，為每個單詞取出遠(yuǎn)程監(jiān)督自動標(biāo)注標(biāo)簽的概率.因此，可得到文本中所有單詞的標(biāo)簽概率，定義為其中是單詞si的標(biāo)簽概率.

4.2 動作

以往基于強化學(xué)習(xí)的噪聲檢測往往定義樣本的取舍作為動作[8,10,27-28]，但這會丟棄大量正確的實體信息.因此，在RLTL-DSNER 中，本文為文本中的每個單詞定義一個動作ai∈{0,1},(i=1,2,…,n)，其中ai=0 表示丟棄當(dāng)前單詞，ai=1表示保留當(dāng)前單詞.為了這一目標(biāo)，本文設(shè)計了由2 個組件組成的策略網(wǎng)絡(luò)：噪聲實體判別器和標(biāo)簽置信度（tag confidence,TC）函數(shù).

噪聲實體判別器是由CNN 和MLP 所構(gòu)成，其輸入是文本語句表示 S和其所有單詞的標(biāo)簽概率P，輸出是每個單詞保留的概率.這一過程形式化定義為

其中Wc是卷積核的可學(xué)習(xí)參數(shù)，c表示CNN 網(wǎng)絡(luò)，Wm和b是線性層的參數(shù)，m 表示MLP 網(wǎng)絡(luò)，σ(·)是具有參數(shù)θ={Wc,Wm,b}的sigmoid函數(shù)，a∈{0,1}表示動作，?表示卷積運算，⊕表示矩陣拼接運算.整體運算流程為：文本語句表示 S和其所有單詞的標(biāo)簽概率P作為噪聲實體判別器的輸入，先通過CNN 對文本語句表示 S作卷積運算 ?，得到文本語句的整體表示；隨后，將結(jié)果 (Wc?S) 與所有單詞的標(biāo)簽概率P進(jìn)行矩陣拼接，并通過線性層得到 ((Wc?S)⊕P)Wm+b；最終將結(jié)果輸入sigmoid函數(shù)，得到每個單詞的保留概率，即動作分別為0 和1 的概率.

通常情況下，僅使用噪聲實體判別器是不充分的，原因有：在訓(xùn)練樣本量少和數(shù)據(jù)不平衡的情況下，NER 模型會傾向分配較高的概率給樣本中出現(xiàn)次數(shù)較多的標(biāo)簽，分配較低的概率給出現(xiàn)次數(shù)較少的標(biāo)簽.換言之，當(dāng)數(shù)量較少的標(biāo)簽的預(yù)測概率有較大提升時，噪聲實體判別器可能會選取另一頻繁出現(xiàn)的標(biāo)簽（預(yù)測概率較高），而忽略標(biāo)簽概率的相對提升.

一種直接的做法是根據(jù)文本的長度進(jìn)行歸一化，凸顯標(biāo)簽概率的相對提升.然而，不同文本的長度是不一致的，導(dǎo)致無法定義統(tǒng)一的閾值進(jìn)行單詞的篩選.因此，本文采用TC 函數(shù)對單詞標(biāo)簽歸一化.具體而言，給定一個批次的語句 {S1,S2,…,Sm}，其中第i條文本Si=[s1,s2,…,sn]，本文首先定義單詞sj(j=1,2,…,n) 的標(biāo) 簽預(yù)測為l的概率為pi,j,l，并定義ql為所有文本中各個單詞標(biāo)簽預(yù)測為l的概率的平方和，即

其中L表示標(biāo)簽類型的數(shù)量.

然后，對同一批次中每個單詞的標(biāo)簽預(yù)測概率，通過ql歸一化，并取出所有標(biāo)簽中的最大值作為文本Si中第j個單詞sj的標(biāo)簽置信分?jǐn)?shù)，定義為

從本質(zhì)上來說，該標(biāo)簽置信分?jǐn)?shù)可看作歸一化后的標(biāo)簽最大預(yù)測概率，本文通過上述手段進(jìn)行歸一化，為了削弱僅使用噪聲實體判別器的不充分性，凸顯標(biāo)簽概率的相對提升.

值得注意的是，本文在ql的定義以及歸一化的過程中都對單詞sj的標(biāo)簽預(yù)測概率pi,j,l取平方處理，由于概率的取值范圍為 [0,1]，且平方函數(shù)在該范圍內(nèi)的導(dǎo)數(shù)單調(diào)遞增，有助于篩選高置信度單詞，提高篩選質(zhì)量.

對于每條文本，本文使用噪聲實體判別器與TC函數(shù)確定是否保留文本中的每個單詞：

其中 φ是預(yù)先設(shè)定的TC 閾值.

圖4 展示了針對給定文本的動作選擇，其中最終動作“0”表示丟棄該單詞，“1”表示保留該單詞.通過遠(yuǎn)程監(jiān)督對初始文本自動標(biāo)注，生成人物實體“小明”與產(chǎn)品實體“包”“釘子”，在得到文本的句子表示和標(biāo)簽概率后，通過策略網(wǎng)絡(luò)分別得到噪聲實體判別器與TC 函數(shù)的輸出，并根據(jù)閾值篩選得到相應(yīng)結(jié)果.噪聲實體判別器輸出閾值為 ?=0.5 進(jìn)行篩選，TC 函數(shù)輸出閾值自定義（圖4 中閾值 φ=0.9）.根據(jù)噪聲實體判別器輸出 π，將丟棄單詞“包”，根據(jù)TC 函數(shù)輸出conf，將丟棄單詞“拖”“把”.最終結(jié)合2 個輸出，得到最終動作為丟棄單詞“包”“拖”“把”.圖4 中可以看出，TC 函數(shù)幫助識別出了噪聲實體判別器無法篩選出的噪聲實體，相比通常情況下僅使用噪聲實體判別器進(jìn)行篩選，增強了策略網(wǎng)絡(luò)的噪聲識別性能.

Fig.4 An example of action selection圖4 動作選擇示例

4.3 獎勵

在策略網(wǎng)絡(luò)的每次迭代中，當(dāng)某一批次文本語句的所有動作執(zhí)行完后，策略網(wǎng)絡(luò)會接受以批次為單位的獎勵.該獎勵r與NER 模型的性能有關(guān).

其中 B表示一個批次的文本，即一次選取的所有文本，S表示批次中的任意文本，文本長度為N，i表示文本中的單詞下標(biāo)，T表示標(biāo)注序列，首先得到文本S輸入NER 模型后，預(yù)測標(biāo)簽序列為標(biāo)注序列T的概率，并通過對該單詞執(zhí)行的動作ai∈{0,1}來判斷是否要將第i個單詞對應(yīng)的值pi(T|S)加入計算，表示在句子層面，根據(jù)所選擇單詞的數(shù)量進(jìn)行平均.最終，根據(jù)批次大小 |B|平均所有文本的反饋來獲得最終獎勵.在式（5）定義下，模型保留單詞的標(biāo)注標(biāo)簽，預(yù)測概率越高，獎勵越大，以此來衡量動作選擇的正確程度.策略網(wǎng)絡(luò)由RE?NFORCE 算法[31]更新為：

其中 θ表示策略網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù)，η表示學(xué)習(xí)率，是一個超參數(shù)，表示可學(xué)習(xí)參數(shù) θ 的梯度，π(a|S;P;θ)表示策略網(wǎng)絡(luò)對文本語句表示 S和句中所有單詞的標(biāo)簽概率P的輸出結(jié)果.

5 實驗

本節(jié)首先介紹了數(shù)據(jù)集、基線模型、評估指標(biāo)以及參數(shù)設(shè)置；隨后，詳細(xì)對比了不同模型在中英文數(shù)據(jù)集上的結(jié)果；最后，對模型進(jìn)行詳細(xì)分析，如進(jìn)行消融實驗和NER 模型預(yù)訓(xùn)練，并給出案例分析.

5.1 實驗設(shè)置

1）數(shù)據(jù)集.本文擬采用3 個中文數(shù)據(jù)集EC[13]，NEWS[13]，CCKS-DS 和1 個英文NER 數(shù)據(jù)集BC5CDR[32].下面詳細(xì)介紹這4 個數(shù)據(jù)集.

①EC 是一個中文基準(zhǔn)數(shù)據(jù)集，共有5 種標(biāo)簽類型：品牌（pp）、產(chǎn)品（cp）、型號（xh）、原料（yl）和規(guī)格（gg）.

②NEWS 是一個中文基準(zhǔn)數(shù)據(jù)集.該數(shù)據(jù)集由MSRA[33]生成，只有一種實體類型：人名（PER）.

③CCKS-DS 由一個名為CCKS2017 的開源中文臨床數(shù)據(jù)集構(gòu)建，它包含5 種類型的醫(yī)療實體：檢查和檢驗、疾病和診斷、癥狀和體征、治療、身體部位.

本文從CCKS2017 的數(shù)據(jù)集中提取了約1 700 個實例作為人工標(biāo)注的訓(xùn)練集.其余的大約5 800 個原始句子被收集為遠(yuǎn)程監(jiān)督集，并通過遠(yuǎn)程監(jiān)督方法進(jìn)行標(biāo)注.遠(yuǎn)程監(jiān)督使用的知識庫為人工標(biāo)注訓(xùn)練集中的所有特殊實體.

④BC5CDR 是一個英文生物醫(yī)學(xué)領(lǐng)域基準(zhǔn)數(shù)據(jù)集，它包含2 種類型的實體：疾?。╠isease）和化學(xué)品（chemical）.本文從Shang 等人[22]提供的原始文本庫中選取了15 000 條文本，并使用其提供的詞典對這些語料庫進(jìn)行遠(yuǎn)程監(jiān)督自動標(biāo)注.

這4 個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)如表1 所示，每個數(shù)據(jù)集都包含人工標(biāo)注的小樣本數(shù)據(jù)和遠(yuǎn)程監(jiān)督生成數(shù)據(jù).

2）基線模型.本文共對比了DSNER[13]，NER+PA+RL[14]，LexiconNER[25]，Span-based+SL[34]，NegSampling-NER[11]，NegSampling-variant[12]，MTM-CW[35]，BioFLA?R[36]，Spark-Biomedical[37]等方法.

①DSNER 與NER+PA+RL 都利用部分標(biāo)注學(xué)習(xí)的方法來解決標(biāo)簽標(biāo)注不完整的問題，并設(shè)計基于強化學(xué)習(xí)的實例選擇器，以句子級別篩選噪聲.

②LexiconNER 將遠(yuǎn)程監(jiān)督NER 任務(wù)定義為正樣本無標(biāo)簽學(xué)習(xí)問題，并使用自采樣算法迭代地檢測可能的實體，降低了對詞典質(zhì)量的要求.

③NegSampling-NER 在訓(xùn)練過程中采用負(fù)采樣策略，以減少訓(xùn)練過程中未標(biāo)記實體的影響.

④NegSampling-variant 在負(fù)采樣的基礎(chǔ)上，通過自適應(yīng)加權(quán)抽樣分布，處理錯抽樣和不確定性問題.

⑤Span-based+SL 采用跨度級特征來更新遠(yuǎn)程監(jiān)督的字典.

⑥MTM-CW 通過一個可重用的BiLSTM 層對字符級特征進(jìn)行建模，并利用多任務(wù)模型的優(yōu)勢解決缺乏監(jiān)督數(shù)據(jù)的問題.

⑦BioFLA?R 是一個使用額外的生物醫(yī)學(xué)文本預(yù)訓(xùn)練而成的池化上下文嵌入模型.

⑧Spark-Biomedical 使用混合雙向LSTM 和CNN的模型架構(gòu)，自動檢測單詞和字符級別的特征.

⑨RLTL-DSNER（句子級別）是本文方法RLTLDSNER 的一個變體.其基于本文提出的模型架構(gòu)，以句子級別識別正確實例，TC 函數(shù)修改為式（7），采用句子中各單詞標(biāo)簽置信分?jǐn)?shù)的最小值作為該句子的整體標(biāo)簽預(yù)測分?jǐn)?shù).

3）評估指標(biāo).本文報告了3 個評估指標(biāo)：準(zhǔn)確率（P）、召回率（R）和F1 值（F1）.需要注意的是僅當(dāng)預(yù)測實體與標(biāo)注實體完全匹配時，才將其視為正確實體.在訓(xùn)練過程中，本文保存模型在驗證集上F1 最高的參數(shù)，并報告其在測試集上的各個指標(biāo).

4）參數(shù)設(shè)置.對于每個數(shù)據(jù)集，本文采用相同的參數(shù)設(shè)置.在第1 階段，訓(xùn)練的F1 值限制為90%.在第2 階段，優(yōu)化器采用隨機梯度下降；策略網(wǎng)絡(luò)和NER 模型的學(xué)習(xí)率均為 1×10-5；每一網(wǎng)絡(luò)層的Dropout 設(shè)置為0.3，迭代次數(shù)設(shè)為80；式（4）中的置信度閾值 φ設(shè)置為0.9.本文使用的標(biāo)注方法為B?O標(biāo)注.

對于BC5CDR 數(shù)據(jù)集，本文使用“allenai/sciBERTscivocab-uncased[38]”作為預(yù)訓(xùn)練模型（PLM）.對于其他數(shù)據(jù)集，PLM 使用“BERT-base-chinese”.報告的結(jié)果采用5 次結(jié)果的平均值，以減少隨機性.

5.2 模型對比

為了驗證模型的有效性，本文擬在2 個通用領(lǐng)域數(shù)據(jù)集EC 和NEWS 上進(jìn)行實驗.實驗結(jié)果如表2 和表3 所示.從表2～3 中可以得出3 點結(jié)論：

Table 2 Main Results on EC Dataset表2 EC 數(shù)據(jù)集的主要結(jié)果 %

Table 3 Main Results on NEWS Dataset表3 NEWS 數(shù)據(jù)集的主要結(jié)果 %

1）本文提出的RLTL-DSNER 獲得了最好的性能.特別地，RLTL-DSNER 在EC 數(shù)據(jù)集上獲得了2.31 個百分比的性能提升，并在NEWS 數(shù)據(jù)集上獲得了4.28 個百分比的性能提升.

2）與句子級別的噪聲過濾方法相比（如DSNER，NER+PA+RL），即使在句子級別的選擇策略下，本文提出的噪聲過濾方法都獲得了更好的效果，說明策略網(wǎng)絡(luò)中引入的TC 函數(shù)的有效性.

3）RLTL-DSNER 相較于RLTL-DSNER（句子級別）效果更好，說明以單詞為單位識別正確實例可以最大限度保留樣本4～5 中的正確信息，提升模型性能.

此外，為了進(jìn)一步驗證模型的通用性，本文擬在CCKS-DS（中文）和BC5CDR（英文）2 個醫(yī)療領(lǐng)域數(shù)據(jù)集中進(jìn)行實驗.實驗結(jié)果如表4 和表5 所示，從表4～5 中可以得出2 點結(jié)論：

Table 4 Main Results on CCKS-DS Dataset表4 CCKS-DS 數(shù)據(jù)集的主要結(jié)果 %

Table 5 Main Results on BC5CDR Dataset表5 BC5CDR 數(shù)據(jù)集的主要結(jié)果 %

1）無論是在中文數(shù)據(jù)集還是英文數(shù)據(jù)集，RLTLDSNER 在F1 值上達(dá)到了新的SOTA，說明了該模型具有良好的語言適配性.

2）本文的RLTL-DSNER 相較于醫(yī)學(xué)領(lǐng)域的模型，如BioFLA?R，Spark-Biomedical 依然獲得了小幅度的F1 值提升，說明該模型具有較好的領(lǐng)域適配性.

5.3 數(shù)據(jù)分析

本節(jié)擬通過消融實驗來驗證模型每一模塊的有效性，并進(jìn)一步驗證預(yù)訓(xùn)練方式的有效性.

1）消融實驗.本節(jié)將在4 個數(shù)據(jù)集上進(jìn)行消融實驗.實驗條件設(shè)置為：

①不使用RL 框架，只利用人工標(biāo)注的數(shù)據(jù)集作為訓(xùn)練集來訓(xùn)練NER 模型，記為“baseline: H”；

②使用人工標(biāo)注和遠(yuǎn)程監(jiān)督的數(shù)據(jù)集作為訓(xùn)練集，而不利用RL 框架，記為“baseline: H+D”；

③不采用預(yù)訓(xùn)練策略，即訓(xùn)練階段在人工數(shù)據(jù)集上的F1 值達(dá)到近100%才進(jìn)入第2 階段的迭代訓(xùn)練，記為“w/o HT”.

實驗結(jié)果如表6 所示，從表6 中得出2 點結(jié)論：

Table 6 Ablation Study表6 消融實驗 %

①在4 個數(shù)據(jù)集上，RLTL-DSNER 模型在所有指標(biāo)上都取得了最佳的效果，說明模型中的每一模塊（包括NER 模型預(yù)訓(xùn)練、遠(yuǎn)程監(jiān)督數(shù)據(jù)和單詞級別的噪聲檢測）都是十分重要的.

②在3 種基線中，baseline:H+D 模型的效果是最差的，說明遠(yuǎn)程監(jiān)督自動生成數(shù)據(jù)中存在大量的噪聲實例.特別地，在CCKS-DS 數(shù)據(jù)集中F1 值下降了9.40 個百分比.而在BC5CDR 數(shù)據(jù)集上，F(xiàn)1 值獲得了1.32 個百分比的提升，這是由于本文使用了Shang等人[22]提供的詞典進(jìn)行自動標(biāo)注，詞典質(zhì)量較高，噪聲較少，因此并沒有很大程度影響模型的性能.

2）預(yù)訓(xùn)練NER 模型的有效性.為了說明本文采用預(yù)訓(xùn)練方式的有效性，將NER 模型的F1 值訓(xùn)練到90%的方式，擬與將模型的F1 值訓(xùn)練到近100%的方式進(jìn)行對比.這2 種方式的F1 值是迭代訓(xùn)練過程中的前20 個迭代次數(shù)在測試集上進(jìn)行測試得到的.實驗結(jié)果如圖5 所示，從圖5 中可以得出2 點結(jié)論：

Fig.5 ?nitial training performance of the same model under different strategies圖5 不同策略下相同模型的初期訓(xùn)練表現(xiàn)

①使用本文的預(yù)訓(xùn)練方式，RL 模型的訓(xùn)練較為穩(wěn)定，僅在NEWS 數(shù)據(jù)集上出現(xiàn)小幅度的性能下降.這說明了該預(yù)訓(xùn)練方式避免了模型的過擬合現(xiàn)象，可以為RL 模型在訓(xùn)練初期提供高質(zhì)量的文本表示和反饋獎勵.

②將NER 模型訓(xùn)練到近100%的情況下，RL 的訓(xùn)練過程十分不穩(wěn)定.在4 個數(shù)據(jù)集上都出現(xiàn)了十分嚴(yán)重的性能下降，在EC，NEWS，BC5CDR 數(shù)據(jù)集上，經(jīng)過5 個迭代次數(shù)后訓(xùn)練趨于穩(wěn)定，而在CCKS-DS數(shù)據(jù)集上，模型直至10 個迭代次數(shù)后訓(xùn)練才逐漸穩(wěn)定.這是由于NER 模型對小樣本的人工標(biāo)注數(shù)據(jù)集過擬合，記住了許多訓(xùn)練樣本.此外，模型也學(xué)習(xí)到了人工標(biāo)注數(shù)據(jù)集中難免存在的部分標(biāo)注噪聲.因此導(dǎo)致其生成的句子表示和獎勵質(zhì)量不高.

5.4 案例分析

本節(jié)擬通過具體的數(shù)據(jù)實例與模型預(yù)測結(jié)果，進(jìn)一步說明本文提出的RLTL-DSNER 的有效性.

圖6 顯示了遠(yuǎn)程監(jiān)督數(shù)據(jù)中噪聲檢測的7 個示例，動作一欄表示在句子級別的動作選擇策略下模型的輸出結(jié)果，動作“0”表示丟棄該句子，動作“1”表示保留該句子.

Fig.6 ?nstances selection examples for the distantly supervised data圖6 遠(yuǎn)程監(jiān)督數(shù)據(jù)的實例選擇示例

從圖6 可以看出，本文提出的模型準(zhǔn)確識別出了FNs 如“梁連起（人名）”“等大等圓（癥狀和體征）”“全脂（產(chǎn)品）”“農(nóng)夫山泉（品牌）”“天然（產(chǎn)品）”，F(xiàn)Ps 如“金燦燦（無類型）”“面色（無類型）”.這些示例表明，本文的方法能夠精準(zhǔn)地在單詞級別進(jìn)行噪聲檢測，選擇正確的實體，并丟棄有噪聲的實體，最大限度保留樣本中的正確信息.

此外，根據(jù)相同示例下句子級別選擇策略的預(yù)測結(jié)果，可以看出在此策略下會丟棄許多正確信息，如第5 個句子中的“純牛奶（產(chǎn)品）”、第7 個句子中的“礦泉水（產(chǎn)品）”，同時會使模型學(xué)習(xí)到許多噪聲信息，如第1 個句子中的“梁連起”、第4 個句子中的“面色（身體部位）”等，降低了模型性能.

圖7 展示了3 個中文數(shù)據(jù)集中部分人工標(biāo)注實例，可以看到“廚房紙（產(chǎn)品）”“王太守則（人名）”“腸管（身體部位）”“干濕性啰音（檢查和檢驗）”這些實體并沒有被標(biāo)注出.此現(xiàn)象說明了人工標(biāo)注數(shù)據(jù)集耗時耗力，工作量龐大，但是依然無法避免小部分由于人為疏漏或標(biāo)注人員間判斷標(biāo)準(zhǔn)的差異引入的噪聲實體，再次證明了我們提出的NER 模型預(yù)訓(xùn)練策略的有效性.

Fig.7 ?nstances of manual annotation data圖7 人工標(biāo)注數(shù)據(jù)示例

6 結(jié)論

本文提出了一種解決遠(yuǎn)程監(jiān)督NER 任務(wù)中噪聲標(biāo)注問題的新方法RLTL-DSNER.其在強化學(xué)習(xí)框架中的策略網(wǎng)絡(luò)引入了TC 函數(shù)，為文本語句中的每個單詞提供了標(biāo)簽置信分?jǐn)?shù)，并使用單詞級別的實例選擇策略以最大限度保留樣本中的正確信息，減少噪聲實例對遠(yuǎn)程監(jiān)督NER 的負(fù)面影響.此外，本文提出了一種NER 模型預(yù)訓(xùn)練策略，該策略可以為強化學(xué)習(xí)的初始訓(xùn)練提供精準(zhǔn)的狀態(tài)表示和有效獎勵值，幫助策略網(wǎng)絡(luò)在訓(xùn)練初期以正確的方向更新其參數(shù).在3 個中文數(shù)據(jù)集和1 個英文醫(yī)學(xué)數(shù)據(jù)集上的大量實驗結(jié)果驗證了RLTL-DSNER 的優(yōu)越性，在NEWS數(shù)據(jù)集上，相較于現(xiàn)有最先進(jìn)的方法，獲得了4.28%的F1 值提升.

作者貢獻(xiàn)聲明：王嘉誠和王凱完成了算法思路設(shè)計、實驗方案制定，并完成實驗和論文撰寫工作；王昊奮提供論文撰寫指導(dǎo)、技術(shù)支持；杜渂和何之棟完成了相關(guān)文獻(xiàn)梳理、實驗數(shù)據(jù)整理，并討論方案；阮彤完成了論文框架設(shè)計、整體內(nèi)容規(guī)劃；劉井平提供論文撰寫指導(dǎo)和完善實驗方案.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放