亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)中文命名實(shí)體識(shí)別研究進(jìn)展

        2023-12-27 14:52:48奚雪峰盛勝利崔志明徐家保
        關(guān)鍵詞:信息方法模型

        李 莉,奚雪峰,3,盛勝利,崔志明,3,徐家保

        1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215000

        2.蘇州市虛擬現(xiàn)實(shí)智能交互應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215000

        3.蘇州科技大學(xué) 智慧城市研究院,江蘇 蘇州 215000

        4.德州理工大學(xué),美國(guó)德克薩斯州 拉伯克市 79401

        命名實(shí)體識(shí)別(named entity recognition,NER)是一項(xiàng)基本的信息提取任務(wù),在自然語(yǔ)言處理(nature language processing,NLP)應(yīng)用,例如信息檢索[1]、自動(dòng)文本摘要[2]、智能問(wèn)答[3]、機(jī)器翻譯[4]、知識(shí)圖譜[5]中起著至關(guān)重要的作用。NER的目標(biāo)是從句子中提取一些預(yù)定義的特定實(shí)體,并識(shí)別其正確的類型,例如人物、位置、組織。

        早期的NER 方法可以分為兩種:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法是根據(jù)任務(wù)手動(dòng)設(shè)計(jì)特定字段的大量規(guī)則來(lái)匹配命名實(shí)體,并將其泛化和限制在其他字段上。因此,基于規(guī)則方法很費(fèi)時(shí)費(fèi)力[6]?;诮y(tǒng)計(jì)的方法將NER 任務(wù)轉(zhuǎn)換為序列標(biāo)記任務(wù),并使用人工標(biāo)記的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。由于基于統(tǒng)計(jì)的方法的標(biāo)注成本遠(yuǎn)低于設(shè)計(jì)規(guī)則的成本,因此在深度學(xué)習(xí)爆發(fā)之前成為主流方法,比如隱馬爾可夫模型(hidden Markov models,HMM)[7]或條件隨機(jī)場(chǎng)(conditional random fields,CRF)[8]。據(jù)統(tǒng)計(jì),在CoNLL-2003 大會(huì)中,參加比賽的16個(gè)NER系統(tǒng)全部采用統(tǒng)計(jì)方法[9]。

        本文調(diào)研了中文NER發(fā)展史上有代表性的綜述論文,趙山等人[10]調(diào)研了在不同神經(jīng)網(wǎng)絡(luò)架構(gòu)下最具代表性的晶格結(jié)構(gòu)的中文NER 模型。王穎潔等人[11]從字詞特征融合角度介紹中文NER方法。Liu等人[12]從三層體系結(jié)構(gòu)(字符表示、上下文編碼器、上下文編碼器和標(biāo)簽譯碼器)總結(jié)中文NER的工作??碘盏热薣13]從深度學(xué)習(xí)的角度單獨(dú)地對(duì)中文NER輸入嵌入表示進(jìn)行了詳細(xì)的總結(jié)和分析。以上綜述都是集中在扁平中文NER方法的總結(jié)和分析上,沒有包含中文嵌套命名實(shí)體識(shí)別,雖然張汝佳等人[14]介紹了中文嵌套NER,但是沒有詳細(xì)地包含中文嵌套NER 的方法,且以上綜述并未對(duì)中文小樣本的NER方法進(jìn)行總結(jié)。

        本文首先回顧了命名實(shí)體識(shí)別的發(fā)展進(jìn)程,同時(shí)給出了中文NER 的特殊性;其次從中文命名實(shí)體識(shí)別的特殊性和任務(wù)分類出發(fā)。分別從扁平實(shí)體邊界問(wèn)題、中文嵌套命名實(shí)體識(shí)別和中文小樣本問(wèn)題,這三個(gè)方面對(duì)目前中文NER 研究工作進(jìn)行系統(tǒng)性梳理,歸納總結(jié)了每一個(gè)方面的主流方法和具有代表性的模型以及部分內(nèi)容的優(yōu)缺點(diǎn)。再次整合了中文NER中廣泛且常用的數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn);最后概述了該領(lǐng)域未來(lái)的發(fā)展方向。

        1 研究現(xiàn)狀

        命名實(shí)體識(shí)別經(jīng)歷了三大發(fā)展階段,基于規(guī)則的識(shí)別方法,基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法和基于深度的學(xué)習(xí)方法。在命名實(shí)體識(shí)別中,BiLSTM-CRF的出現(xiàn)拉開了命名實(shí)體識(shí)別在深度學(xué)習(xí)的序幕。它的出現(xiàn)使得模型更加簡(jiǎn)潔、魯棒,成為解決NER問(wèn)題的深度學(xué)習(xí)基準(zhǔn)。如圖1 所示展示了基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別的通用架構(gòu)分為輸入分布式表示層、文本編碼層和標(biāo)簽解碼層。表示層以字符信息為基礎(chǔ),在字符信息的基礎(chǔ)上添加部首、字形、詞性、讀音、詞典等信息;文本編碼可利用神經(jīng)網(wǎng)絡(luò)獲取上下文依賴關(guān)系。標(biāo)簽解碼層對(duì)輸入序列進(jìn)行預(yù)測(cè)并標(biāo)注。這些模型處理實(shí)體時(shí)有各自的優(yōu)缺點(diǎn),比如CNN可對(duì)數(shù)據(jù)進(jìn)行并行化處理,因此計(jì)算速度較快,但是存在上下文信息記憶缺失的問(wèn)題。LSTM是RNN的變體,可以有效地學(xué)習(xí)長(zhǎng)距離依賴的信息,不過(guò)仍然存在梯度問(wèn)題。而GNN憑借不斷挖掘圖數(shù)據(jù)的模型,可以更高效地挖掘?qū)嶓w之間的關(guān)系,但是模型結(jié)構(gòu)過(guò)于龐大,因此靈活性和拓展性差。Transformer是常常與BERT組合進(jìn)行預(yù)訓(xùn)練,從而生成深層次的語(yǔ)言特征,但是需要消耗大量算力資源。因此在選擇模型上要根據(jù)具體情況分析。

        圖1 基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別的通用架構(gòu)Fig.1 Common architecture for Chinese named entity recognition based on deep learning

        字符表征是CNER研究的重點(diǎn)。簡(jiǎn)單的外部特征,如詞性、部首和筆畫,包含的信息量較少,在信息量不足的情況下是有效的,在BERT 預(yù)訓(xùn)練模型提出之前,這些特征表現(xiàn)良好。然而,隨著BERT等預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,預(yù)訓(xùn)練字符表示可以抓住漢字的大部分語(yǔ)義信息,因此在使用這些預(yù)訓(xùn)練語(yǔ)言模型時(shí),CNER 模型很難從簡(jiǎn)單的外部特征中受益。除此以外,借鑒現(xiàn)有的英文NER方法對(duì)于解決中文NER問(wèn)題是非常必要且有價(jià)值的。

        1.1 預(yù)訓(xùn)練模型

        在NER 的深度學(xué)習(xí)模型中,詞嵌入是一種常用的數(shù)據(jù)預(yù)處理方法,可以學(xué)習(xí)到單詞向量表示并捕捉句子相應(yīng)的語(yǔ)義和句法信息。

        Qiu 等人[15]對(duì)NLP 的預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model)進(jìn)行了全面的綜述,并將PTM 分為預(yù)訓(xùn)練的詞嵌入和預(yù)訓(xùn)練的上下文編碼器。在分類的基礎(chǔ)上,將預(yù)訓(xùn)練的字符嵌入分為靜態(tài)嵌入和動(dòng)態(tài)上下文嵌入。靜態(tài)嵌入被訓(xùn)練為查找表,每個(gè)字符的嵌入固定在表中,如NNLM、Word2vec、FastText、Glove 等。但由于靜態(tài)嵌入的訓(xùn)練結(jié)果是一個(gè)固定的詞向量矩陣,不能被動(dòng)態(tài)修改,因此無(wú)法解決一詞多義現(xiàn)象和實(shí)現(xiàn)真正的文本語(yǔ)義理解。

        動(dòng)態(tài)上下文嵌入也被稱為預(yù)訓(xùn)練語(yǔ)言模型,這些模型生成的表示會(huì)根據(jù)上下文而變化,如ELMo、BERT、ERNIE、ALBERT、NEZHA 等,其中BERT 是最常用的。對(duì)于給定的字符,BERT將其字符位置嵌入、句子位置嵌入和字符嵌入作為輸入,然后使用掩碼語(yǔ)言模型(MLM)對(duì)輸入的句子進(jìn)行深度雙向表征的預(yù)訓(xùn)練,獲得魯棒的上下文字符嵌入。由于BERT出色的表現(xiàn),一些學(xué)者開始探索如何在減少訓(xùn)練資源的情況下獲得相似的效果。因此,基于BERT模型改進(jìn)的RoBERTa、SpanBERT等模型相繼提出。此類模型限制輸入序列的長(zhǎng)度,因而在文本自動(dòng)摘要等生成式任務(wù)上表現(xiàn)不佳。為解決此類問(wèn)題,XLNet通過(guò)應(yīng)用Transformer-XL 來(lái)提取長(zhǎng)文本特征。此外,百度提出的ERNIE 模型也更專注于中文領(lǐng)域的詞向量訓(xùn)練。

        1.2 中英文NER之間的關(guān)聯(lián)性

        近年來(lái),深度學(xué)習(xí)在NLP 領(lǐng)域的優(yōu)越特性,即可直接從數(shù)據(jù)中學(xué)習(xí)特征表示,為該領(lǐng)域帶來(lái)了顯著的突破。在英文命名實(shí)體識(shí)別方面,深度學(xué)習(xí)模型也已大幅提升了其性能。與此同時(shí),相對(duì)于中文命名實(shí)體識(shí)別技術(shù),英文文本的NER技術(shù)由于英語(yǔ)特有的分詞規(guī)則,即詞與詞之間存在天然的空格屏障,研究難度更小,起步更早,已經(jīng)達(dá)到相對(duì)成熟的階段。因此,近年來(lái),國(guó)內(nèi)外學(xué)者開始將英文NER 技術(shù)應(yīng)用到中文命名實(shí)體識(shí)別中,因?yàn)橹杏⑽奈谋径季哂忻黠@的語(yǔ)法和詞匯特征;其次,中文和英文都是上下文重要的語(yǔ)言,實(shí)體的上下文信息對(duì)實(shí)體識(shí)別具有重要影響。此外,中文NER 和英文NER 面臨的問(wèn)題具有相似性,例如,未登錄詞的問(wèn)題。隨著各領(lǐng)域和大數(shù)據(jù)時(shí)代的發(fā)展,會(huì)出現(xiàn)大量新實(shí)體,但這些新實(shí)體在詞典中缺乏統(tǒng)一的命名規(guī)范規(guī)則。所以,命名實(shí)體識(shí)別(NER)需要具備強(qiáng)大的上下文推理能力,能夠識(shí)別中英文中的嵌套實(shí)體,包括外層實(shí)體和內(nèi)層實(shí)體。這是當(dāng)前NER 研究中的熱點(diǎn)之一。同時(shí),中英文NER 都存在文本歧義問(wèn)題,同一文本在不同位置所代表的實(shí)體類型可能不同,因此需要在進(jìn)行NER之前進(jìn)行實(shí)體消歧的處理。

        綜上所述,由于中文語(yǔ)言的特殊性,加上中文NER起步又晚,所以當(dāng)其中一些的深度學(xué)習(xí)的方法直接用在中文命名實(shí)體識(shí)別任務(wù)上時(shí)并不能取得在英文命名實(shí)體識(shí)別上一樣的良好的效果。因此中文命名實(shí)體識(shí)別較為困難。而中文NER的特殊性和難點(diǎn)體現(xiàn)在如下幾點(diǎn):

        (1)中文詞語(yǔ)邊界模糊。和英文文本不同的是,中文文本不具有顯示的分隔符(比如空格)和明顯的詞性變換特征(例如,英文中的地名和人名會(huì)首字母大寫)作為邊界標(biāo)志。因此難以確定分詞邊界。

        (2)嵌套實(shí)體。實(shí)體包含其他實(shí)體或被其他實(shí)體包含,要同時(shí)識(shí)別出內(nèi)部實(shí)體和外部實(shí)體,是當(dāng)前的研究熱點(diǎn)之一。

        (3)實(shí)體歧義。在實(shí)體識(shí)別的結(jié)果中,存有同一個(gè)實(shí)體可能會(huì)有不同的指代,或者存在一詞多義的情況,這會(huì)導(dǎo)致實(shí)體識(shí)別的結(jié)果不夠準(zhǔn)確且存在歧義。因此,在獲取準(zhǔn)確、無(wú)歧義的信息之前,需要對(duì)實(shí)體識(shí)別結(jié)果進(jìn)行消歧處理。

        (4)低資源的NER。目前對(duì)有限的領(lǐng)域和有限的實(shí)體類型而言,命名實(shí)體識(shí)別可以在這些地方取得良好的識(shí)別效果,無(wú)法遷移到其他特定領(lǐng)域中。

        2 基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別

        自引入深度學(xué)習(xí)后,雖然一些深度學(xué)習(xí)模型在英文命名實(shí)體識(shí)別任務(wù)上取得了較好的性能提升,但是中文NER的處理有一些獨(dú)特的困難,例如,漢語(yǔ)句子中的每個(gè)漢字之間沒有明顯的分割邊界、實(shí)體存在嵌套問(wèn)題和中文低資源領(lǐng)域的問(wèn)題。從處理中文命名實(shí)體識(shí)別的角度出發(fā),將這些深度學(xué)習(xí)的方法分為扁平實(shí)體邊界問(wèn)題、中文嵌套命名實(shí)體識(shí)別和中文小樣本問(wèn)題。圖2為基于深度學(xué)習(xí)的中文NER 方法分類圖,也體現(xiàn)了本文的寫作思路和文章結(jié)構(gòu)。

        圖2 基于深度學(xué)習(xí)的中文NER方法分類Fig.2 Chinese NER classification based on deep learning

        2.1 扁平實(shí)體邊界問(wèn)題

        命名實(shí)體識(shí)別過(guò)程通常包括兩個(gè)部分:(1)實(shí)體邊界識(shí)別;(2)確定實(shí)體類別(人名、地名、機(jī)構(gòu)名或其他)。因此確定實(shí)體邊界對(duì)于命名實(shí)體識(shí)別來(lái)說(shuō)有著舉足輕重的作用。ENER 實(shí)體通??梢酝ㄟ^(guò)一些明顯的形式標(biāo)志來(lái)識(shí)別,比如地點(diǎn)或人名實(shí)體的單詞首字母大寫。因此,在英文中,實(shí)體的邊界識(shí)別相對(duì)來(lái)說(shuō)比較容易。但是,與英文相比,中文命名實(shí)體識(shí)別任務(wù)更為復(fù)雜。這是因?yàn)橹形闹械膶?shí)體往往沒有明顯的形式標(biāo)志,而且實(shí)體的構(gòu)成也更加復(fù)雜。與實(shí)體類別標(biāo)注子任務(wù)相比,實(shí)體邊界的識(shí)別在中文NER 任務(wù)中更加困難。因此,在中文NER任務(wù)中,需要采用更加復(fù)雜和精細(xì)的算法來(lái)進(jìn)行實(shí)體識(shí)別和邊界識(shí)別,以達(dá)到更高的準(zhǔn)確率和召回率。先前有研究者用基于字符的方式解決CNER,雖然取得了較好的性能,但不能利用詞邊界和詞序信息確定實(shí)體邊界。近年來(lái),隨著深度學(xué)習(xí)的引入,CNER的研究主要是針對(duì)中文詞之間沒有明確的邊界這一特點(diǎn)進(jìn)行展開,在研究的過(guò)程中發(fā)現(xiàn),對(duì)于沒有完全基于詞的中文命名實(shí)體識(shí)別模型而言,外部資源的引入,可以為詞匯提供邊界信息,從而提升模型性能,這被視為提升模型性能的其中一種輔助工具。因此在確定實(shí)體邊界方法上大致可以總結(jié)為分詞和中文字詞特征融合兩個(gè)角度。

        2.1.1 分詞

        在中文NER中,分詞是一個(gè)必要的前置任務(wù),因?yàn)橹形氖且宰址麨榛締挝坏?,而不像英文等語(yǔ)言有空格作為單詞的分隔符。因此,分詞的質(zhì)量會(huì)對(duì)NER 任務(wù)的性能產(chǎn)生很大的影響。在分詞方面,有兩種主要的方法:管道分詞和聯(lián)合訓(xùn)練。下面將詳細(xì)介紹管道分詞方法和聯(lián)合訓(xùn)練方法。

        (1)管道分詞

        管道分詞是指將分詞和NER分為兩個(gè)獨(dú)立的階段進(jìn)行處理,即先對(duì)輸入文本進(jìn)行分詞,然后再進(jìn)行NER標(biāo)注,如圖3所示。

        圖3 分詞流水線模型示例Fig.3 Example of participle pipeline model

        給定句子“上海市長(zhǎng)江醫(yī)院醫(yī)生王剛”經(jīng)過(guò)中文分詞(CWS)系統(tǒng)后劃分了相應(yīng)的單詞分為“上海市,長(zhǎng)江,醫(yī)院,醫(yī)生,王剛”然后在輸入到基于單詞的NER模型[16]中進(jìn)行實(shí)體識(shí)別。但是不同的分詞系統(tǒng)或工具[17-18]會(huì)有不同的分詞結(jié)果,比如會(huì)分成“上海,市長(zhǎng)……”等情況。管道分詞的方法簡(jiǎn)單有效,易于擴(kuò)展,但無(wú)法處理錯(cuò)誤分割造成的誤差傳播問(wèn)題,同時(shí)忽略NER 對(duì)分詞的輔助標(biāo)注問(wèn)題[19]。目前常見的分詞工具如表1 所示。列出了常用的比較成熟的中文NER分詞工具。此外,圖4列出了不同分詞工具在不同語(yǔ)料庫(kù)上的分詞結(jié)果準(zhǔn)確性。

        表1 常用的中文NER分詞工具Table 1 Commonly used Chinese NER segmentation tools

        圖4 不同的分詞工具在WEIBO和MSRA數(shù)據(jù)集上的準(zhǔn)確度結(jié)果Fig.4 Accuracy of different word segmentation tools on WEIBO and MSRA datasets

        (2)聯(lián)合訓(xùn)練

        聯(lián)合訓(xùn)練是將分詞和實(shí)體識(shí)別任務(wù)視為一個(gè)整體任務(wù),通過(guò)共享底層的神經(jīng)網(wǎng)絡(luò)來(lái)完成。圖5給出了聯(lián)合訓(xùn)練的架構(gòu)圖,這種方法可以利用分詞和實(shí)體識(shí)別任務(wù)之間的相關(guān)性,提高整體模型的準(zhǔn)確性和泛化能力。

        圖5 聯(lián)合訓(xùn)練的架構(gòu)圖Fig.5 Architecture of multitasking training

        Peng 等人[20]率先提出聯(lián)合訓(xùn)練中文NER 和中文分詞(CWS)模型,一方面采用單向的LSTM網(wǎng)絡(luò)用于分詞模塊,另一方面使用基于特征的對(duì)數(shù)雙線性鏈CRF作為NER 的特征提取器;具有線性鏈特性的CRF 既可以用于NER 的特征提取又可以訪問(wèn)LSTM 模塊產(chǎn)生的分詞特征,它將嵌入和LSTM 的隱藏向量作為變量,因此可以將梯度傳播回LSTM 中以調(diào)整參數(shù)。最終分詞和神經(jīng)網(wǎng)絡(luò)訓(xùn)練共享LSTM的所有參數(shù),實(shí)現(xiàn)參數(shù)共享獲得5%的性能提升。

        為了獲取局部字特征,Wu等人[21]利用CNN捕捉本地上下文,同時(shí)聯(lián)合訓(xùn)練了中文NER和CWS模型以提升CNER模型預(yù)測(cè)實(shí)體邊界的能力。但是,文獻(xiàn)[20-21]提出的模型只關(guān)注中文NER和CWS之間共享的信息,卻忽略每個(gè)任務(wù)的特定信息帶來(lái)的噪音。為此,Cao等人[22]提出整合共享任務(wù)詞邊界信息的對(duì)抗性遷移學(xué)習(xí)框架,利用對(duì)抗訓(xùn)練確保中文NER 任務(wù)僅使用共享的詞邊界信息,由此可以過(guò)濾特定信息產(chǎn)生的噪音。此外,Tang等人[23]構(gòu)建了一個(gè)多任務(wù)BERT-BiLSTM-AM-CRF智能處理模型,利用BERT提取結(jié)合上下文信息的動(dòng)態(tài)詞向量,通過(guò)BiLSTM 模塊進(jìn)一步訓(xùn)練后將結(jié)果輸入CRF層進(jìn)行解碼。經(jīng)過(guò)注意機(jī)制網(wǎng)絡(luò)后,該模型可以在兩個(gè)中文數(shù)據(jù)集上共同學(xué)習(xí),最后通過(guò)CRF對(duì)觀測(cè)注釋序列進(jìn)行分類提取,得到最終的結(jié)果。在MSRA數(shù)據(jù)集中的F1得分顯著提高0.55%。

        Zhu等人[24]利用多種任務(wù)中學(xué)習(xí)實(shí)體共享的邊界信息的方式,將詞邊界信息和語(yǔ)義信息結(jié)合起來(lái)。通過(guò)對(duì)抗學(xué)習(xí)方法,從中文分詞(CWS)、詞性標(biāo)注(POS)和實(shí)體識(shí)別學(xué)習(xí)特定任務(wù)的單詞語(yǔ)義信息,并將所學(xué)到的邊界信息與語(yǔ)義信息結(jié)合起來(lái)。在Resume數(shù)據(jù)集上達(dá)到了95.70%的效果。由于現(xiàn)有的基于Transformer的CNER模型常常忽略Transformer底層捕獲的信息以及Transformer每個(gè)頭投影的子空間的重要性,于是Wang 等人[25]提出了多任務(wù)標(biāo)簽智能Transformer(MTLWT),從全局的角度,將實(shí)體邊界預(yù)測(cè)(EBP)和實(shí)體類型預(yù)測(cè)(ETP)任務(wù)分配給前兩層,并為每個(gè)注意力機(jī)制頭提供一個(gè)特定的焦點(diǎn),使得頭部投射成為一個(gè)重要的子空間。實(shí)驗(yàn)表明MTLWT在MSRA數(shù)據(jù)集上的性能優(yōu)于其他框架。

        綜上所述,聯(lián)合分詞和中文NER 共同訓(xùn)練的模型雖然可以共享分詞和NER 任務(wù)中相同的語(yǔ)義信息,但是聯(lián)合模型必須依賴于CWS 和NER 任務(wù)標(biāo)注的數(shù)據(jù)集,同時(shí)還需要在不同的切分標(biāo)準(zhǔn)下進(jìn)行注釋。這顯然增加了模型的復(fù)雜度和訓(xùn)練時(shí)間。在本文,對(duì)管道訓(xùn)練和聯(lián)合訓(xùn)練兩種方法進(jìn)行了比較分析,如表2所示。

        表2 管道訓(xùn)練和聯(lián)合訓(xùn)練方法比較Table 2 Comparison of pipeline training and combined training methods

        2.1.2 中文字詞特征融合

        中文NER 通常采用基于字符級(jí)別的模型,因?yàn)橹形男枰衷~,分詞不準(zhǔn)確會(huì)影響基于詞的模型的性能。但是,是否充分利用詞匯信息有助于基于字符的NER模型更好地確定實(shí)體邊界。因此,如何在字符級(jí)別的模型中引入詞匯信息成為中文NER領(lǐng)域的研究重點(diǎn)。

        融合字詞特征方法是一種利用自動(dòng)構(gòu)建的詞典的技術(shù),該詞典是對(duì)大規(guī)模自動(dòng)分段文本進(jìn)行預(yù)訓(xùn)練得到的。這種方法通過(guò)使用詞典中單詞的邊界信息和預(yù)訓(xùn)練的單詞嵌入的語(yǔ)義信息來(lái)提高中文NER 模型的性能。相較于聯(lián)合方法,融合方法更易于獲取且不需要其他標(biāo)注好的分詞數(shù)據(jù)集。根據(jù)融合模型架構(gòu)是否具有可移植性進(jìn)行分類,可以大致分為自適應(yīng)基礎(chǔ)架構(gòu)、基于圖結(jié)構(gòu)模型和自適應(yīng)嵌入三大類。其中,自適應(yīng)基礎(chǔ)架構(gòu)和基于圖結(jié)構(gòu)模型屬于動(dòng)態(tài)結(jié)構(gòu)的范疇,即需要設(shè)計(jì)合適的模型結(jié)構(gòu)來(lái)整合詞匯信息。

        (1)自適應(yīng)的基礎(chǔ)架構(gòu)

        自適應(yīng)的基礎(chǔ)架構(gòu)也可以稱為序列建模層。它利用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入序列進(jìn)行建模。主要的神經(jīng)網(wǎng)絡(luò)模型有基于RNN及其變體的網(wǎng)絡(luò)模型LSTM[26],基于CNN 的模型[27-28]和基于Transformer 的模型。在序列建模層中自適應(yīng)的融合詞匯信息。

        Zhang等人[29]率先將詞典信息融合到中文命名實(shí)體識(shí)別中,設(shè)計(jì)了Lattice LSTM 模型,其結(jié)構(gòu)如圖6 所示。該模型將輸入的字符序列與自動(dòng)構(gòu)建的詞典中的所有潛在詞組成一個(gè)Lattice(有向無(wú)環(huán)圖),相鄰字符之間的邊連接起來(lái),同時(shí)潛在詞的首尾字符也進(jìn)行連接,以充分利用單詞邊界信息和語(yǔ)義信息,從而避免了分詞帶來(lái)的誤差傳播。然而,Lattice LSTM 也存在一些缺點(diǎn),因?yàn)樗荒芸紤]以每個(gè)字符為結(jié)尾的潛在詞,會(huì)出現(xiàn)潛在詞沖突和引入噪聲的問(wèn)題;例如圖3中的“市長(zhǎng)”和“長(zhǎng)江”就是典型的潛在詞沖突,需要全局語(yǔ)義才能解決。此外,Lattice LSTM 本質(zhì)上仍然是一個(gè)LSTM 結(jié)構(gòu),因此存在難以并行化,缺乏可遷移性,并且運(yùn)行速度較慢的缺點(diǎn)。

        圖6 Lattice LSTM模型結(jié)構(gòu)Fig.6 Lattice LSTM model structure

        為了解決Lattice 結(jié)構(gòu)中的潛在詞沖突問(wèn)題,Gui 等人[27]提出了LR-CNN 模型。該模型采用CNN 進(jìn)行特征提取,每層引入Attention機(jī)制來(lái)融合對(duì)應(yīng)字?jǐn)?shù)的詞匯信息;同時(shí),采用Rethinking機(jī)制解決詞匯沖突問(wèn)題,將高層特征作為輸入,并通過(guò)注意力調(diào)整每一層的詞匯特征。LR-CNN 使用并行化方法進(jìn)行特征提取,相較于Lattice LSTM模型加速了3倍左右。同樣,WC-LSTM[28]也對(duì)Lattice LSTM進(jìn)行了改進(jìn),采用四種不同的策略將單詞信息編碼為固定大小的向量,以便可以分批訓(xùn)練。

        為了更好地利用Lattice結(jié)構(gòu)中有效的詞信息,Xue等人[30]提出了基于自注意力機(jī)制的PLTE模型。該模型將相對(duì)位置關(guān)系編碼和每?jī)蓚€(gè)非相鄰令牌共享的樞紐融入到Lattice 結(jié)構(gòu)中,以增強(qiáng)自我注意力機(jī)制,從而大大提高了運(yùn)算效率,并在MSRA等數(shù)據(jù)集上取得了良好的實(shí)驗(yàn)結(jié)果。

        Li 等人[31]提出了一種基于Transformer 的FLAT 模型,如圖7 所示,用于處理序列中長(zhǎng)距離依賴關(guān)系。該模型使用完全連接的自注意力機(jī)制,并改進(jìn)了原始Transformer的絕對(duì)位置編碼,設(shè)計(jì)新的相對(duì)位置編碼表達(dá)Lattice 結(jié)構(gòu)。模型為每個(gè)字符和詞匯分配了兩個(gè)位置索引:頭部位置和尾部位置,通過(guò)這兩個(gè)位置索引,可以從一組標(biāo)記中重構(gòu)原有的Lattice結(jié)構(gòu),并實(shí)現(xiàn)字符與所有匹配詞匯信息間的交互。FLAT 模型運(yùn)行效率很高,在性能上優(yōu)于其他結(jié)合字典的模型,其中,使用BERT在大型數(shù)據(jù)集的性能改進(jìn)尤其明顯。

        圖7 FLAT模型結(jié)構(gòu)Fig.7 FLAT model structure

        相比于FLAT 模型使用詞嵌入和設(shè)計(jì)新的Transformer 層,Zhu 等人[32]提出了Lex-BERT,它直接將詞典信息整合到中文BERT中,用于命名實(shí)體識(shí)別任務(wù)。在Ontonotes4.0和ZhCrossNER上的實(shí)驗(yàn)表明,Lex-BERT的模型遠(yuǎn)遠(yuǎn)優(yōu)于FLAT模型。Yan等人[33]提出了基于自適應(yīng)Transformer的TENER模型。在TENER中,Transformer編碼器不僅用于提取單詞級(jí)別的上下文信息,還用于對(duì)單詞中字符級(jí)別的信息進(jìn)行編碼。并且TENER模型的實(shí)驗(yàn)表明,TENER的性能優(yōu)于當(dāng)前基于BiLSTM的模型。

        但FLAT 和TENER 模型需要在確定實(shí)體邊界時(shí)學(xué)習(xí)詞匯中單詞的其他嵌入。這就帶來(lái)一個(gè)缺點(diǎn),即如果詞典得到更新,那么模型必須重新訓(xùn)練,同時(shí)詞典還會(huì)引入過(guò)多的匹配噪聲。為了克服這些缺點(diǎn),Wang等人[34]提出了DyLex,這是一種用于基于BERT 的序列標(biāo)記任務(wù)的插件詞典合并方法。與傳統(tǒng)方法不同,DyLex采用了一種有效的監(jiān)督詞匯的方法來(lái)消除匹配噪聲。在WEIBO 數(shù)據(jù)集上的實(shí)驗(yàn)表明,即使使用非常大規(guī)模的詞典,DyLex框架也實(shí)現(xiàn)了SOTA水平。Liu等人[35]則是在詞典信息中引入了詞的字符位置,以更好地理解字符的含義。為了融合字符、字和字位置信息,他們對(duì)鍵值存儲(chǔ)網(wǎng)絡(luò)進(jìn)行了改進(jìn),提出了一種TFM 模塊。這個(gè)模塊不僅可以簡(jiǎn)單地串聯(lián)使用,還可以與一般的序列標(biāo)記模型兼容。

        (2)基于圖結(jié)構(gòu)模型

        近年來(lái),圖神經(jīng)網(wǎng)絡(luò)在處理圖數(shù)據(jù)時(shí)具有許多優(yōu)勢(shì),比如可以忽略節(jié)點(diǎn)的輸入順序、不受鄰居節(jié)點(diǎn)的影響等。這些特性使得圖神經(jīng)網(wǎng)絡(luò)成為了當(dāng)前研究的熱點(diǎn)。常見的圖神經(jīng)網(wǎng)絡(luò)包括圖卷積神經(jīng)網(wǎng)絡(luò)[36]、圖注意力網(wǎng)絡(luò)[37]以及門控圖神經(jīng)網(wǎng)絡(luò)[38]等。這些網(wǎng)絡(luò)模型可以用于實(shí)體邊界的識(shí)別等任務(wù)。同時(shí),一些學(xué)者也將圖結(jié)構(gòu)和詞典信息結(jié)合起來(lái),以解決實(shí)體邊界識(shí)別等問(wèn)題,取得了不錯(cuò)的效果。

        Sui 等人[39]在中文NER 任務(wù)中首次引入了GAT 網(wǎng)絡(luò)和自動(dòng)構(gòu)造的語(yǔ)義圖,如圖8 所示,并提出了CGN 網(wǎng)絡(luò)(collaborate graph network)。該網(wǎng)絡(luò)通過(guò)構(gòu)造三種不同的圖結(jié)構(gòu)來(lái)獲取詞語(yǔ)的多角度、全方位信息,并在融合層進(jìn)行合并。相較于傳統(tǒng)的方法,該模型不僅提高了中文NER 任務(wù)的準(zhǔn)確率,而且極大地降低了計(jì)算時(shí)間成本。該研究成果為中文NER任務(wù)的深度學(xué)習(xí)方法提供了一種新思路,并對(duì)后續(xù)研究產(chǎn)生了積極的推動(dòng)作用。然而,該模型沒有區(qū)分不同的詞邊緣,容易混淆字符和單詞之間的信息流。于是,Zhao等人[40]提出了一個(gè)多通道圖注意網(wǎng)絡(luò)MCGAT,它由三個(gè)詞修改的圖注意網(wǎng)絡(luò)組成。該網(wǎng)絡(luò)利用字符與單詞之間的相對(duì)位置關(guān)系,并結(jié)合詞頻統(tǒng)計(jì)信息和逐點(diǎn)互信息,以進(jìn)一步提高模型的性能。此外,Gui 等人[41]引入一個(gè)具有全局語(yǔ)義的基于詞典的圖神經(jīng)網(wǎng)絡(luò)LGN。該網(wǎng)絡(luò)使用GNN構(gòu)造構(gòu)成字與詞之間的關(guān)系,打破了基于RNN 的鏈?zhǔn)浇Y(jié)構(gòu)。LGN通過(guò)不斷地遞歸聚合實(shí)現(xiàn)節(jié)點(diǎn)與連接邊的信息更新,從而提升了模型性能。為了更好地捕獲對(duì)長(zhǎng)距離依賴性能,Tang 等人[42]提出了一種新穎的詞字符級(jí)圖卷積網(wǎng)絡(luò)WC-GCN(word-character graph convolution network)。該網(wǎng)絡(luò)通過(guò)引入全局注意GCN 塊來(lái)學(xué)習(xí)以全局上下文為條件的節(jié)點(diǎn)表示。

        圖8 CGN網(wǎng)絡(luò)架構(gòu)圖Fig.8 CGN network architecture diagram

        由于分詞之間的依賴關(guān)系可以幫助確定實(shí)體邊界,因此利用與句法依賴關(guān)系相關(guān)的信息來(lái)提高NER性能也是一個(gè)新思路。一些研究者采用了圖神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)句法依賴圖的信息,并將學(xué)習(xí)到的信息合并到經(jīng)典的雙向長(zhǎng)短期記憶(BiLSTM)條件隨機(jī)場(chǎng)(CRF)NER方案中,這種方法取得了不錯(cuò)的效果。例如,Zhu 等人[43]和Zhang等人[44]都利用了圖注意網(wǎng)絡(luò)來(lái)建立具有句法依存信息的單詞之間的依賴關(guān)系。Zhang等人[44]提出了一種名為MCSN(multi-graph collaborative semantic network)的方法,該方法利用漢語(yǔ)單詞的依賴關(guān)系,不僅克服了詞典的不足,而且更好地捕獲了漢語(yǔ)單詞的語(yǔ)義信息。

        Wang等人[45]提出了一種多態(tài)圖注意力網(wǎng)絡(luò)(PGAT),旨在捕捉字符與匹配詞之間的動(dòng)態(tài)相關(guān)性。該模型將每個(gè)字符映射到四個(gè)位置,即B(開始)、M(中間)、E(結(jié)束)和S(單個(gè)詞)。通過(guò)使用基于圖注意力網(wǎng)絡(luò)(GAT)的語(yǔ)義融合單元,可以動(dòng)態(tài)地調(diào)節(jié)每個(gè)位置上匹配詞和字符之間的注意力,從而可以顯式地捕捉每個(gè)位置上字符和匹配詞之間的細(xì)粒度相關(guān)性。在醫(yī)學(xué)領(lǐng)域,中文NER 也是一個(gè)重要的課題。Xiong 等人[46]利用多源知識(shí),將詞典與中國(guó)臨床NER(CNER)的邊界結(jié)合在一起,提出了一種基于關(guān)系圖卷積網(wǎng)絡(luò)(RGCN)的新方法。對(duì)于任何句子,都會(huì)構(gòu)建基于每個(gè)知識(shí)源中的單詞或概念的關(guān)系圖。其中將出現(xiàn)在句子中的詞典單詞或知識(shí)圖概念進(jìn)行標(biāo)記,該標(biāo)記具有詞典單詞或知識(shí)圖概念的邊界信息,這種方法有效地確定醫(yī)學(xué)文本中的實(shí)體邊界。

        (3)自適應(yīng)嵌入

        自適應(yīng)嵌入是一種將詞典匹配信息直接添加到字符表示中的方法。與傳統(tǒng)的嵌入方法不同的是,自適應(yīng)嵌入不涉及編碼層,而僅僅對(duì)嵌入層的表示進(jìn)行修改。這種方法可以提高嵌入層的效率,并且可以更好地適應(yīng)特定任務(wù)的需求。

        為了引入字典信息,Lattice LSTM在輸入序列中非相鄰字符之間增加了多條附加邊,這大大降低了訓(xùn)練和推理的速度。為了解決這些問(wèn)題,Ma 等人[47]提出了SoftLexicon模型,一種更簡(jiǎn)單的方法來(lái)實(shí)現(xiàn)Lattice LSTM的思想。該模型在不修改上下文編碼器的情況下,為具有固定長(zhǎng)度向量的字符表示添加了詞典信息。SoftLexicon將句子與字典相匹配,并對(duì)于每個(gè)字符找到包含它的所有單詞。然后,將這些單詞分為四個(gè)類別(BMES),并將它們映射到四個(gè)類別的向量中。最后將這四個(gè)向量與字符表示相連接,使邊界信息和詞義信息同時(shí)添加到輸入表示層中。該方法避免了設(shè)計(jì)復(fù)雜的序列建模體系結(jié)構(gòu),可以快速適應(yīng)任意合適的神經(jīng)網(wǎng)絡(luò)NER模型,并具有可遷移性。

        為了捕獲融合字詞信息空間中的細(xì)粒度相關(guān)性,Zhao 等人[48]提出了DCSAN。DCSAN 是一個(gè)動(dòng)態(tài)的交叉和Self-Lattice 注意網(wǎng)絡(luò),將Cross-Lattice 注意模塊和Self-Lattice注意模塊與門限詞-字符語(yǔ)義融合單元相結(jié)合。Cross-Lattice注意模塊和Self-Lattice注意模塊分別用于捕獲輸入特征空間之間的相關(guān)性和動(dòng)態(tài)融合單詞特征。這些模塊能夠有效地解決中文NER中存在的多義性和嵌套實(shí)體的問(wèn)題。此外,DCSAN 能夠建立任意兩個(gè)字符之間的直接聯(lián)系,因此即使字符之間的距離很遠(yuǎn),也能夠識(shí)別出它們是否屬于同一個(gè)實(shí)體。該研究為中文NER 任務(wù)的深度學(xué)習(xí)方法提供了一種新思路,并在實(shí)驗(yàn)中取得了良好的效果。這兩者結(jié)合可以有效地顯式捕獲不同空間之間的細(xì)粒度關(guān)系。Huang等人[49]也利用Lattice結(jié)構(gòu)來(lái)引入詞典信息,但是在此基礎(chǔ)上使用外部無(wú)標(biāo)簽數(shù)據(jù)對(duì)詞頻進(jìn)行計(jì)數(shù),并利用改進(jìn)的交互信息來(lái)表示單詞的權(quán)重。此外,該方法為詞典信息的每個(gè)部分動(dòng)態(tài)分配權(quán)重,注意力機(jī)制也針對(duì)詞典信息進(jìn)行了處理。在這種方法中,字符和詞典信息的融合在輸入層之前進(jìn)行處理,使其具有更快的訓(xùn)練速度和更好的通用性。

        BERT模型[50]通過(guò)掩詞模型和相鄰句預(yù)測(cè)兩個(gè)方法完成文本字詞特征的預(yù)訓(xùn)練。掩碼語(yǔ)言模型和相鄰句預(yù)測(cè)是常用的自監(jiān)督學(xué)習(xí)方法,可以通過(guò)大量無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后在有標(biāo)簽數(shù)據(jù)上進(jìn)行微調(diào),從而提高中文命名實(shí)體識(shí)別的性能。這些方法不需要對(duì)模型進(jìn)行太多修改,因此受到了該領(lǐng)域的廣泛關(guān)注。掩碼語(yǔ)言模型通過(guò)將單詞掩蓋并學(xué)習(xí)其上下文內(nèi)容特征來(lái)預(yù)測(cè)被掩蓋的單詞,相鄰句預(yù)測(cè)則通過(guò)學(xué)習(xí)句子間關(guān)系特征來(lái)預(yù)測(cè)兩個(gè)句子的位置是否相鄰。為了更好地發(fā)揮詞典信息和預(yù)訓(xùn)練模型BERT各自的優(yōu)勢(shì),更深層次的將詞典信息集成到BERT底層中,有很多研究者聚焦在詞典適配器上,利用自匹配的詞典特征完成字詞融合。Liu 等人[51]提出了用于中文序列標(biāo)記的詞典增強(qiáng)BERT(LEBERT),如圖9所示,該模型通過(guò)詞典適配器層將外部詞典知識(shí)直接集成到BERT層中,并且在中文數(shù)據(jù)集取得了較好的結(jié)果。Sun等人[52]在BERT結(jié)構(gòu)中加入詞典適配器將詞典信息引入,有效地獲取了實(shí)體邊界和單詞信息。值得一提的是Guo 等人[53]同時(shí)引入了指針網(wǎng)絡(luò)的序列對(duì),將序列標(biāo)記任務(wù)轉(zhuǎn)化為序列生成任務(wù)從而獲取全局語(yǔ)義特征。

        圖9 LEBERT架構(gòu)圖Fig.9 LEBERT schematic diagram

        此外,由于漢字的復(fù)雜和特殊性,在引入詞信息過(guò)程中同時(shí)會(huì)融合漢字字形、拼音、部首和筆畫等特征。比如,如圖10 所示,Wu 等人[54]在中文命名實(shí)體識(shí)別中引入了漢字的結(jié)構(gòu)信息,并提出了一種新型的交叉Transformer模型,名為MECT。該模型通過(guò)將漢字特征和部首級(jí)嵌入集成在一起,能夠更好地捕獲漢字的語(yǔ)義信息。與其他模型相比,MECT 能夠有效地提高中文NER的準(zhǔn)確性。在Wu等人[54]的基礎(chǔ)上,Zhang等人[55]額外引入漢字拼音特征,提出Visphone模型。該模型使用兩個(gè)相同的交叉轉(zhuǎn)換器編碼器,將輸入字符的部首和語(yǔ)音特征與文本嵌入相融合。并使用一個(gè)選擇性融合模塊被用來(lái)得到最終的特征。在OntoNotes4.0、MSRA、Resume和WEIBO上進(jìn)行了實(shí)驗(yàn),F(xiàn)1值比MECT模型分別提高了0.79%、0.32%、0.39%和3.47%。Mai 等人[56]通過(guò)加入漢字語(yǔ)音特征,解決了實(shí)體邊界潛在詞歧義問(wèn)題。筆畫信息是漢字書寫的最基本單位。

        圖10 MECT架構(gòu)圖Fig.10 MECT architecture diagram

        盡管單個(gè)筆畫本身沒有特定含義,但是在字符書寫的過(guò)程中,筆畫的順序和組合會(huì)包含一定的語(yǔ)義信息。Luo等人[57]在研究中提出了一種基于筆畫和ELMO[58]的中文電子病歷實(shí)體識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,筆畫ELMO能夠?qū)W習(xí)到大量漢字的內(nèi)部結(jié)構(gòu)信息,并取得了比隨機(jī)字符ELMO更好的效果。

        漢字的字形信息源于甲骨文模仿實(shí)物形狀的方式而來(lái),且通常使用卷積網(wǎng)絡(luò)來(lái)對(duì)漢字的圖像進(jìn)行信息和語(yǔ)義提取。Xuan 等人[59]提出了一種結(jié)合了滑動(dòng)窗口和注意機(jī)制的方法,來(lái)將每個(gè)字符的BERT表征和字形表征融合起來(lái)。實(shí)驗(yàn)證明,這種方法可以獲得漢字上下文和字形之間潛在的交互知識(shí)。還有一些中文命名實(shí)體識(shí)別模型引入了多粒度嵌入的方法。比如,Zhang 等人[60]結(jié)合了中文筆畫、漢字部首和漢字特征,使用卷積網(wǎng)絡(luò)提取漢字筆畫信息,并將其與字詞信息相結(jié)合,有效地豐富了語(yǔ)義信息和實(shí)體邊界信息。Huang等人[61]提出了三種關(guān)系,包括字符之間的相鄰關(guān)系、潛在單詞之間的字符共現(xiàn)關(guān)系和令牌之間的依賴關(guān)系,并設(shè)計(jì)了一種掩蓋的自我注意機(jī)制來(lái)合并潛在單詞本地上下文信息。為了避免詞典和依賴關(guān)系等外部知識(shí)引入噪聲,他們提出了一種門控信息控制器來(lái)解決這個(gè)問(wèn)題。實(shí)驗(yàn)證明,這種方法是有效的。

        2.1.3 模型總結(jié)

        表3列舉了近年來(lái),基于深度學(xué)習(xí)方法解決扁平實(shí)體邊界問(wèn)題的模型在四個(gè)常見的中文數(shù)據(jù)集上的F1-score結(jié)果對(duì)比。并且直觀地列出模型采用的字符嵌入的方式和引入何種外部資源。從表格中不難發(fā)現(xiàn)加入預(yù)訓(xùn)練模型BERT 之后的性能都顯著提高,尤其是LRCNN 在WEIBO 上的F1-score 值顯著提升了7 個(gè)百分點(diǎn),雖然使用BERT可以提高識(shí)別的準(zhǔn)確率,但是BERT需要大型數(shù)據(jù)集,并且BERT 內(nèi)部參數(shù)過(guò)多,在訓(xùn)練時(shí)會(huì)導(dǎo)致內(nèi)存不足和訓(xùn)練時(shí)間過(guò)長(zhǎng)等缺點(diǎn);并且還會(huì)發(fā)現(xiàn)確定實(shí)體邊界的主體的方法依然是BiLSTM+CRF,使用Transformer 方法的性能,往往要受到是否引入預(yù)訓(xùn)練模型BERT的影響;此外還可以看出加入詞典和額外的外部資源后對(duì)于性能提升是有效的,但是在實(shí)際應(yīng)用中,構(gòu)建詞典是費(fèi)時(shí)費(fèi)力的,而且還會(huì)伴隨著由錯(cuò)誤數(shù)據(jù)的影響。

        表3 扁平實(shí)體邊界模型的F1-score結(jié)果分析Table 3 F1-score analysis of flat entity boundary model

        聯(lián)合訓(xùn)練的方法模型,比如ZH-NER 和MTLWT等,挖掘共享底層網(wǎng)絡(luò)信息,從共享分詞和NER任務(wù)中語(yǔ)義信息,提取更多的字符和詞特征,有效地提高分詞和實(shí)體識(shí)別任務(wù)之間的相關(guān)性。但是聯(lián)合模型必須依賴于CWS和NER任務(wù)標(biāo)注的數(shù)據(jù)集,這顯然增加了模型的復(fù)雜度和訓(xùn)練時(shí)間。

        自適應(yīng)的基礎(chǔ)框架模型,如CNN 堆疊編碼結(jié)構(gòu)的LR-CNN、WC-LSTM和具有晶格結(jié)構(gòu)的Lattice,以及具有Transformer結(jié)構(gòu)的PLTE、FLAT等。這些自適應(yīng)的基礎(chǔ)架構(gòu)都是從模型輸入層的角度優(yōu)化中文命名實(shí)體識(shí)別性能;這類模型通過(guò)設(shè)計(jì)相應(yīng)的結(jié)構(gòu)以融合詞匯信息。但是模型不具有移植性的特點(diǎn)。晶格結(jié)構(gòu)有效地解決了因?yàn)榉衷~帶來(lái)的誤差傳播了的影響,并且有效地融入詞典信息。CNN堆疊編碼模型則解決了詞匯沖突的問(wèn)題,在數(shù)據(jù)集上達(dá)到了不錯(cuò)的效果。但是這兩者無(wú)法有效地捕獲長(zhǎng)距離依賴的問(wèn)題,存在一定程度上的信息損失。基于Transformer 的深度學(xué)習(xí)網(wǎng)絡(luò)模型,如DyLex等,克服了文本長(zhǎng)距離依賴問(wèn)題以及減少了捕獲句子中單詞之間關(guān)系的計(jì)算成本,從而提升了模型的性能,但是在實(shí)際的應(yīng)用場(chǎng)景中,Transformer 模型所需的模型參數(shù)往往較多,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,所以還是一定程度上影響了模型性能。

        基于圖結(jié)構(gòu)模型,如MCGAT、LGN、SDI、PGAT等,將NER 任務(wù)轉(zhuǎn)化為node 分類任務(wù);一方面挖掘文本內(nèi)部的圖結(jié)構(gòu)信息,另一方面在圖結(jié)構(gòu)中融入詞典信息,從而提取更多的局部特征。比如PGAT[46]同時(shí)在MSRA、WEIBO、OntoNotes4.0 三個(gè)數(shù)據(jù)集上的表現(xiàn)效果極佳,在OntoNotes4.0 上實(shí)現(xiàn)了81.87%的結(jié)果,超出了基于Transformer 模型的SOTA 結(jié)果。此外,SDI 則引入句法依存圖結(jié)構(gòu)有效提升文本上下文語(yǔ)義信息,但是仍然面臨圖數(shù)據(jù)帶來(lái)的模型結(jié)構(gòu)復(fù)雜的問(wèn)題。

        自適應(yīng)嵌入模型中,如LEBERT、MECT、Visphone、PDMD等通過(guò)只修改表示層的操作,引入預(yù)訓(xùn)練模型和外部資源特征比如具有部首、讀音、筆畫、詞頻等增強(qiáng)漢字語(yǔ)義特征,實(shí)現(xiàn)了可移植的效果。比如,Mai 等人將讀音與詞邊界信息融合,得到了更好的嵌入表示,有效地解決了邊界歧義問(wèn)題,在OntoNotes4.0中文數(shù)據(jù)集上達(dá)到了83.14%的極佳效果;同樣Huang 將詞頻加入到表示層嵌入中,利用常用的BILSTM+CRF 編碼器,在Resume上達(dá)到了96.73%的最好效果。

        總的來(lái)說(shuō),在確定實(shí)體邊界的問(wèn)題上,可以從引入外部資源、模型結(jié)構(gòu)、輸入層的表征三個(gè)方面進(jìn)行優(yōu)化。即引入詞典獲取更豐富的語(yǔ)義信息和漢字的相關(guān)特征,在輸入層引入預(yù)訓(xùn)練好的語(yǔ)言模型,同時(shí)結(jié)合多個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),取長(zhǎng)補(bǔ)短地獲取適合相應(yīng)任務(wù)的模型。而這種思路逐漸成為確定實(shí)體邊界提升CNER 任務(wù)的主要思路。

        2.2 中文嵌套命名實(shí)體識(shí)別

        在許多實(shí)際應(yīng)用中,命名實(shí)體是具有嵌套結(jié)構(gòu)。具體來(lái)說(shuō),一個(gè)實(shí)體可以包含其他實(shí)體或成為其他實(shí)體的一部分,如圖11“南京市紅十字會(huì)”是一個(gè)ORG 類型的實(shí)體,它包含兩個(gè)內(nèi)部實(shí)體,即“[南京市]LOC”,“[紅十字會(huì)]ORG”。由于一般模型的序列標(biāo)注特性和單標(biāo)簽分類特性,往往只能識(shí)別一個(gè)大實(shí)體“南京市紅十字會(huì)”或者兩個(gè)小實(shí)體“紅十字會(huì)”和“南京”。難以將這三個(gè)實(shí)體同時(shí)全部識(shí)別出來(lái)。嵌套命名實(shí)體需要豐富的實(shí)體及其之間的關(guān)系,因此,對(duì)嵌套命名實(shí)體的識(shí)別已成為重要的研究方向。

        圖11 中文嵌套命名實(shí)體識(shí)別示例Fig.11 Example of nested named entity recognition in Chinese

        對(duì)于嵌套NER 的研究,研究者大多集中在英文嵌套命名實(shí)體識(shí)別(English nested named entity recognition,ENNER)任務(wù)上,從模型體系結(jié)構(gòu)的角度來(lái)看,目前基于深度學(xué)習(xí)解決ENNER的方法可以分為以下幾種主流:基于分層的、基于過(guò)渡、基于區(qū)域的、基于超圖的方法和其他模型方法[62]。然而,由于中文文本的復(fù)雜性,針對(duì)中文嵌套命名實(shí)體識(shí)別需要在上述幾種主流的方法的基礎(chǔ)上進(jìn)行改進(jìn)。下文將詳細(xì)介紹這幾種主流方法在中文嵌套實(shí)體識(shí)別上的應(yīng)用。

        2.2.1 基于分層的方法

        基于分層的方法通常將嵌套的NER任務(wù)視為多個(gè)扁平命名實(shí)體識(shí)別(flat name entity recognition)任務(wù)。該方法先提取內(nèi)部實(shí)體,然后將其送到下一層提取外部實(shí)體,同時(shí)遵循級(jí)聯(lián)結(jié)構(gòu),對(duì)層模塊進(jìn)行串聯(lián)連接。然而,該模型存在明顯的層與層之間的誤差傳播問(wèn)題。

        圖12展示了基于分層的兩種具有代表性的一般體系結(jié)構(gòu);圖12(a)的分層結(jié)構(gòu)包括編碼器-解碼器模塊,其中每一層包含一個(gè)編碼器層和一個(gè)解碼器層,較高層的編碼器可以從較低層的編碼器獲取實(shí)體信息。例如Ju 等人[63]首次提出了一種以內(nèi)向外的方式動(dòng)態(tài)地堆疊平面NER層的模型,即Layered-BiLSTM-CRF模型。該模型將編碼器的輸出合并到當(dāng)前的平面NER 層中,以構(gòu)建檢測(cè)到的實(shí)體的新表示,并隨后將新表示饋送到下一個(gè)平面NER層。這種策略允許模型通過(guò)利用其對(duì)應(yīng)的內(nèi)部實(shí)體的知識(shí)來(lái)識(shí)別外部實(shí)體,其中堆疊層的數(shù)量取決于輸入序列中的實(shí)體嵌套級(jí)別。此外,張汝佳等人[64]在文獻(xiàn)[63]的基礎(chǔ)上添加了分割注意力模塊和邊界生成模塊,進(jìn)行邊界增強(qiáng),有效地捕獲潛在的分詞信息和相鄰字符之間的語(yǔ)義關(guān)系。

        圖12 基于分層的兩種具有代表性的一般體系結(jié)構(gòu)Fig.12 Two representative general architectures based on layering

        圖12(b)僅包含解碼器模塊,在這個(gè)體系結(jié)構(gòu)中只有一個(gè)共享的編碼器層和多個(gè)解碼器層來(lái)捕獲來(lái)自不同層的實(shí)體。比如,Wang 等人[65]提出了一種新型的嵌套命名實(shí)體識(shí)別分層模型,即金字塔模型。該模型采用由內(nèi)而外的方式處理嵌套的NER 任務(wù)。具體而言,金字塔模型由一系列相互連接的層組成,每一層都預(yù)測(cè)一定長(zhǎng)度的文本區(qū)域是否為實(shí)體。此外,還設(shè)計(jì)了一個(gè)反金字塔,以允許相鄰層之間的雙向相互作用。這樣,該模型將根據(jù)命名實(shí)體的長(zhǎng)度來(lái)識(shí)別,避免了層迷失和錯(cuò)誤傳播的問(wèn)題,實(shí)現(xiàn)了更加精準(zhǔn)的命名實(shí)體識(shí)別。相比之下,Shibuya等人[66]提出了一種基于CRF的解碼方法,可以從外到內(nèi)的方式迭代識(shí)別實(shí)體,避免結(jié)構(gòu)歧義。首先,使用BiLSTM 模型對(duì)輸入語(yǔ)句進(jìn)行編碼,并利用最后一個(gè)隱藏層的輸出來(lái)表示語(yǔ)句中的令牌。然后,對(duì)于每個(gè)命名實(shí)體類別,構(gòu)造一個(gè)CRF進(jìn)行解碼,提取最外層實(shí)體和內(nèi)部實(shí)體,而無(wú)需重新編碼。對(duì)于每個(gè)實(shí)體類別,對(duì)應(yīng)的CRF解碼整個(gè)句子的標(biāo)簽序列,以提取最外層的實(shí)體。然后,該模型在先前提取的實(shí)體的基礎(chǔ)上進(jìn)一步遞歸地提取內(nèi)部實(shí)體,直到每個(gè)區(qū)域都沒有檢測(cè)到多令牌實(shí)體。同樣,金彥亮等人[67]也采用分層機(jī)制,但是在每一層之間加入一個(gè)自注意力機(jī)制模塊聯(lián)合多層序列標(biāo)記模型,更有效將較低層實(shí)體中的隱藏語(yǔ)義送到更高層的實(shí)體中。在人民日?qǐng)?bào)的數(shù)據(jù)集上良好的結(jié)果證明了加入自注意力機(jī)制的有效性。

        2.2.2 基于區(qū)域方法

        基于區(qū)域的方法一般將嵌套命名實(shí)體識(shí)別任務(wù)視為多類分類問(wèn)題,并采用各種策略在分類之前獲取潛在區(qū)域(即子序列)的表示。根據(jù)進(jìn)展策略的不同,現(xiàn)有的基于區(qū)域的方法可以分為兩類,分別為基于枚舉的策略和基于邊界的策略。具體來(lái)說(shuō),基于枚舉的策略是指從輸入句子中學(xué)習(xí)所有枚舉區(qū)域的表示,并將它們歸入相應(yīng)的實(shí)體類別。而基于邊界的策略則是通過(guò)利用邊界信息建立候選區(qū)域(可能是實(shí)體)的表示,然后完成實(shí)體分類。兩種策略的體系結(jié)構(gòu)如圖13和圖14所示。

        圖13 基于枚舉策略Fig.13 Enumeration based policy

        圖14 基于邊界策略Fig.14 boundary based policy

        在基于枚舉的策略中,Sun 等人[68]提出了一種端到端的基于區(qū)域的TCSF模型,該模型能夠同時(shí)學(xué)習(xí)句子中的令牌上下文信息和區(qū)域特征。為了實(shí)現(xiàn)任務(wù),模型通過(guò)從上下文標(biāo)記級(jí)序列中枚舉所有可能的區(qū)域表示來(lái)進(jìn)行訓(xùn)練。在Transformer 的啟發(fā)下,模型進(jìn)一步設(shè)計(jì)了一個(gè)區(qū)域關(guān)系網(wǎng)絡(luò),對(duì)句子中的所有可能的區(qū)域表示進(jìn)行建模,以產(chǎn)生每個(gè)區(qū)域的關(guān)系表示。這種方法使得模型能夠更好地捕捉上下文信息,從而在中文嵌套命名實(shí)體識(shí)別任務(wù)中取得了很好的效果。Long 等人[69]提出了一種分層區(qū)域?qū)W習(xí)框架,能夠自動(dòng)生成候選區(qū)域的樹狀層次結(jié)構(gòu),并將結(jié)構(gòu)信息納入?yún)^(qū)域表示,以幫助更好地分類。此外,還引入了基于詞的相干測(cè)度來(lái)進(jìn)行層次區(qū)域生成,測(cè)度值越高表示相鄰詞之間的相干程度越高。

        相較于枚舉策略,基于邊界策略的最大優(yōu)勢(shì)是不需要再對(duì)一個(gè)句子中的所有區(qū)域進(jìn)行枚舉。雖然文獻(xiàn)[68-69]具有處理嵌套命名實(shí)體識(shí)別的能力,但也同時(shí)面臨著計(jì)算代價(jià)過(guò)大、忽略了邊界細(xì)節(jié)、不充分利用與實(shí)體部分匹配的大跨度和多體識(shí)別難度過(guò)高等問(wèn)題。為處理這種情況,Shen等人[70]給出了一種二層次的實(shí)體標(biāo)識(shí)符模型。這種模型首先利用了對(duì)種子跨度的濾波和邊界回歸得到了長(zhǎng)度建議,并確定了實(shí)體,進(jìn)而把經(jīng)過(guò)邊界調(diào)整后的長(zhǎng)度建議標(biāo)識(shí)成了具體的類別。該方法在訓(xùn)練過(guò)程中,合理地使用了實(shí)體的邊界信息以及部分匹配的跨度。同時(shí)利用了邊界回歸,在理論上能夠覆蓋任何長(zhǎng)的實(shí)體,從而增強(qiáng)了對(duì)長(zhǎng)實(shí)體的辨識(shí)能力。而且,在第一階段過(guò)濾掉了許多低質(zhì)量種子跨度,從而減少了推理的時(shí)間復(fù)雜性。在嵌套的命名實(shí)體識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)表明,提出的方法在ACE2005 的數(shù)據(jù)集上達(dá)到了86.67%的F1 值。但是,這兩個(gè)階段的方法仍然存在忽略跨度邊界、長(zhǎng)實(shí)體識(shí)別困難和誤差傳播的問(wèn)題。于是,Huang 等人[71]提出了一種新的NER 框架,稱為Extract-Select。該框架采用了一種跨度選擇策略,讓提取器能夠準(zhǔn)確地提取嵌套實(shí)體,有效避免以往的兩階段方法中的錯(cuò)誤傳播。在推理階段,訓(xùn)練好的提取器會(huì)選擇特定實(shí)體類別的最終結(jié)果。此外,該模型還使用了一種混合選擇策略,結(jié)合了跨度邊界和內(nèi)容,提高了對(duì)長(zhǎng)實(shí)體的識(shí)別能力。為了評(píng)估抽取結(jié)果,該模型還設(shè)計(jì)了一個(gè)判別器,并使用生成對(duì)抗訓(xùn)練方法對(duì)提取器和判別器進(jìn)行訓(xùn)練。該方法顯著減輕了數(shù)據(jù)集大小的壓力,并在ACE2005數(shù)據(jù)集上實(shí)現(xiàn)了87.76%的F1值,表明該方法的有效性。為了學(xué)習(xí)更好的跨度表示和提高分類性能,Yuan 等人[72]提出了一種三仿射機(jī)制(triaffine mechanism)。該機(jī)制在跨度結(jié)構(gòu)中集成了內(nèi)部標(biāo)記、邊界和標(biāo)簽等一些異構(gòu)因素。三仿射注意力使用邊界和標(biāo)簽作為查詢,并使用內(nèi)部標(biāo)記和相關(guān)的跨度作為跨度表示的鍵和值;而三仿射評(píng)分則與分類的邊界和跨度表征相互作用。實(shí)驗(yàn)表明,該機(jī)制在KBP2017 數(shù)據(jù)集上取得了最先進(jìn)的F1成績(jī)。為了解決嵌套數(shù)據(jù)中存在大量重疊的問(wèn)題,Wan等人[73]提出了一種在跨度層中基于圖相似度的全局構(gòu)建實(shí)體-實(shí)體圖和跨度-實(shí)體圖的方法。他們將相似鄰居實(shí)體的信息集成到Span 表示中,從而連接跨層和訓(xùn)練數(shù)據(jù)中的實(shí)體關(guān)系。這樣,可以更好地處理實(shí)體之間的關(guān)聯(lián)信息,提高嵌套實(shí)體識(shí)別的準(zhǔn)確性和效率。Chen等人[74]在BA(boundary assembling)模型的基礎(chǔ)上進(jìn)行改造,使模型能夠通過(guò)在外部資源中預(yù)先訓(xùn)練的詞嵌入來(lái)捕捉句子的語(yǔ)義信息,有效解決由于特征稀疏而導(dǎo)致識(shí)別性能差的問(wèn)題。

        總的來(lái)說(shuō),跨度模型通常是解決嵌套問(wèn)題的常用模型,但是該模型在劃分實(shí)體區(qū)域時(shí),常常由于沒有充分考慮整體上下文信息而存在負(fù)樣本過(guò)多、在邊界檢測(cè)中未能充分利用實(shí)體部分匹配的跨度以及時(shí)空復(fù)雜度較高等問(wèn)題。

        2.2.3 基于過(guò)渡方法

        基于過(guò)渡的嵌套NER方法主要受基于過(guò)渡的解析器的啟發(fā),這種方法從左到右解析一個(gè)句子,基于一次貪婪地解碼一個(gè)動(dòng)作來(lái)構(gòu)建一棵樹。但當(dāng)實(shí)體嵌套層數(shù)很高時(shí),狀態(tài)轉(zhuǎn)移的規(guī)則變得非常復(fù)雜,導(dǎo)致模型的性能下降。Wang等人[75]提出了一個(gè)可擴(kuò)展的基于過(guò)渡的模型。如圖15 所示,該模型將句子映射到一個(gè)森林結(jié)構(gòu)中,其中每個(gè)實(shí)體對(duì)應(yīng)于森林的一個(gè)組成部分。然后模型學(xué)習(xí)了通過(guò)一個(gè)動(dòng)作序列,以自下而上的方式構(gòu)建森林結(jié)構(gòu)的方法。這種方法可以有效地處理嵌套實(shí)體,提高嵌套實(shí)體識(shí)別的準(zhǔn)確性和可擴(kuò)展性。在生物醫(yī)學(xué)領(lǐng)域,Dai 等人[76]提出了一種基于端到端過(guò)渡的模型。該模型使用了通用的神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,并采用特定的動(dòng)作和注意力機(jī)制,以確定跨度是否是不連續(xù)提及的一部分。在三個(gè)生物醫(yī)學(xué)數(shù)據(jù)集上測(cè)試,證明該模型可以有效地識(shí)別不連續(xù)提及,而不會(huì)失去連續(xù)提及的準(zhǔn)確性。

        圖15 基于過(guò)渡方法示例Fig.15 Example of transition based method

        2.2.4 基于超圖方法

        基于超圖的方法利用超圖來(lái)表示句子中實(shí)體的嵌套結(jié)構(gòu),同時(shí)利用基于圖的全局優(yōu)化策略來(lái)完成邊界檢測(cè)和類別預(yù)測(cè),并能利用超圖中的hyperarc在屬于不同命名實(shí)體的一個(gè)句子中精確標(biāo)記令牌。Wang等人[77]提出了一種無(wú)結(jié)構(gòu)歧義的超圖表示。該模型使用分段超圖來(lái)表示句子中潛在重疊提及的情況。通過(guò)重新設(shè)計(jì)節(jié)點(diǎn),使得模型更好地探索不連續(xù)命名實(shí)體的各種跨度組合,從而提取局部特征。同時(shí),使用一種廣義的內(nèi)外式消息傳遞算法,將子節(jié)點(diǎn)的特征有效地總結(jié)到父節(jié)點(diǎn)上,實(shí)現(xiàn)對(duì)超圖結(jié)構(gòu)上的推理。同樣,Luo等人[78]也針對(duì)圖結(jié)構(gòu)歧義的問(wèn)題,提出捕捉超圖層之間的雙向信息交互結(jié)構(gòu),有效地從Graph模塊中學(xué)習(xí)更豐富的含有內(nèi)部實(shí)體依賴關(guān)系的表示形式,從而提升最外部實(shí)體的預(yù)測(cè)性能。Yu 等人[79]則提出了一種利用圖的依賴思想的方法。他們使用biaffine模型對(duì)句子中的開始和結(jié)束標(biāo)記對(duì)進(jìn)行評(píng)分,并通過(guò)探索所有跨度來(lái)精確預(yù)測(cè)命名實(shí)體。這種方法為模型提供了對(duì)輸入的全局視圖,從而提高了命名嵌套實(shí)體識(shí)別的準(zhǔn)確性??偟膩?lái)說(shuō)基于超圖的模型需要消耗大量的人力資源來(lái)設(shè)計(jì)超圖;并且在訓(xùn)練和推理期間時(shí)間復(fù)雜度高,并且容易出現(xiàn)圖結(jié)構(gòu)歧義問(wèn)題。

        2.2.5 其他模型

        由于嵌套實(shí)體也是屬于命名實(shí)體識(shí)別中的一部分,因此,人們對(duì)依托基于機(jī)器閱讀理解的解決方法,用統(tǒng)一模型同時(shí)解決扁平NER 和嵌套NER 越來(lái)越感興趣。Li 等人[80]提出了一種將嵌套命名實(shí)體識(shí)別轉(zhuǎn)換為機(jī)器閱讀理解(MRC)任務(wù)的方法。該方法以BERT為基礎(chǔ),并針對(duì)需要識(shí)別的實(shí)體構(gòu)造了一系列問(wèn)題,從而轉(zhuǎn)換帶注釋的命名實(shí)體識(shí)別數(shù)據(jù)集為一組{問(wèn)題,答案,上下文}元組。最后,利用兩個(gè)二進(jìn)制分類器,一個(gè)用于預(yù)測(cè)每個(gè)令牌是否是實(shí)體的開始,另一個(gè)用于預(yù)測(cè)每個(gè)令牌是否是實(shí)體的結(jié)束,來(lái)完成嵌套命名實(shí)體識(shí)別任務(wù)。然而,這項(xiàng)工作在很大程度上依賴于訓(xùn)練數(shù)據(jù)的大小且容易忽略了內(nèi)容信息。Li等人[81]提出了一種名為W2NER的模型,將NER 問(wèn)題統(tǒng)一建模為詞-詞關(guān)系分類問(wèn)題。該架構(gòu)通過(guò)有效地建模具有Next-Neighboring-Word 和Tail-Head-Word關(guān)系的實(shí)體詞之間的相鄰關(guān)系來(lái)解決統(tǒng)一NER的核心瓶頸。此外,Zhang等人[82]用生成模型的方式統(tǒng)一解決Flat NER、Nested NER 和Discontinuous NER 問(wèn)題,并且實(shí)驗(yàn)證明了生成模型有助于提升NER性能。

        目前常見的中文嵌套NER的數(shù)據(jù)集有《人民日?qǐng)?bào)》、ACE2004[83]、ACE2005中文[84]、IEER-99新聞[85]、MET2測(cè)試[86]等。這些都是公開數(shù)據(jù)集,同時(shí)還有一些在特定領(lǐng)域的隱私數(shù)據(jù)集。比如Xu 等人[87]的中醫(yī)藥數(shù)據(jù)集,他們?cè)谧约航⒌闹袊?guó)傳統(tǒng)的醫(yī)學(xué)記錄數(shù)據(jù)集上利用兩層序列標(biāo)注,對(duì)多個(gè)扁平命名實(shí)體模型進(jìn)行堆疊,每一層分別識(shí)別不同粒度大小的實(shí)體,最終達(dá)到85.91%的召回率。以及電子病歷數(shù)據(jù)集[88]。

        綜上所述,以上幾種嵌套NER方法各有所長(zhǎng),也各有所短。研究者充分利用各種算法的優(yōu)勢(shì),進(jìn)一步提升實(shí)體識(shí)別的性能。上述幾種方法的相關(guān)比較如表4所示。

        表4 基于分層、區(qū)域、過(guò)渡和超圖方法的嵌套NER比較Table 4 Nested NER comparisons based on hierarchical,region,transition,and hypergraph methods

        2.2.6 模型總結(jié)

        表5 給出了中文嵌套命名實(shí)體識(shí)別利用深度學(xué)習(xí)的網(wǎng)絡(luò)在常用數(shù)據(jù)集ACE2005 中文、ACE2004 和人民日?qǐng)?bào)上F1-score值的對(duì)比分析結(jié)果。從表5中不難發(fā)現(xiàn)中文嵌套命名實(shí)體識(shí)別的分?jǐn)?shù)普遍不高,在基于分層模型中金字塔模型在Layered-BiLSTM-CRF 模型的基礎(chǔ)上引入邊界和注意力模塊機(jī)制后,在ACE2005上的性能提高了7.17個(gè)百分點(diǎn);Highway-Multihead和Multi-layer+Self-Attention+CRF 在每一層都采用序列標(biāo)注的方式,雖然在人民日?qǐng)?bào)的數(shù)據(jù)集上分別達(dá)到了91.41%和92.9%的好結(jié)果,但是序列標(biāo)注會(huì)帶來(lái)無(wú)法并行訓(xùn)練的和存在層與層之間的錯(cuò)誤傳播。而基于區(qū)域的模型可以避免層層誤差傳播問(wèn)題,從表5 中可以看出,區(qū)域模型的整體效果比分層模型要好。其中Locate-Label、Extract-Select 和Triaffine+AlBERT 的表現(xiàn)尤為明顯,這三個(gè)方法大都采用兩階段的方式,在區(qū)域方法中設(shè)置,相應(yīng)的邊界檢索模塊,有效地識(shí)別到嵌套實(shí)體。此外統(tǒng)一扁平和嵌套NER 模型效果也相對(duì)較好,比如BERT-MRC 達(dá)到了86.88%的F1值。

        表5 嵌套模型的F1-score值對(duì)比Table 5 Comparison of F1-score values for nested models

        基于分層的方法,如Pyramid、BERT+FLAIR 和Highway 等,因?yàn)槠洳豢紤]層與層之間的相關(guān)性,并且當(dāng)前層的輸出結(jié)果可能與前層的一部分結(jié)果無(wú)關(guān),從而在使用先前層結(jié)果的輸入來(lái)引入噪聲,從而導(dǎo)致分類器的結(jié)果較差。

        基于區(qū)域的方法,如基于枚舉策略的TCSF、Hierarchical等和基于邊界策略的Extract-Select、Triaffine 等?;诿杜e策略的區(qū)域方法通過(guò)確定命名實(shí)體的起始和結(jié)束位置來(lái)識(shí)別實(shí)體,枚舉所有可能的嵌套實(shí)體來(lái)確定嵌套層次,因此能夠在一定程度上提高識(shí)別的準(zhǔn)確性。但是枚舉策略需要事先定義好所有的實(shí)體類型,因此對(duì)于未知的實(shí)體類型,則存在負(fù)樣本多的缺點(diǎn)。對(duì)于邊界策略的區(qū)域方法,充分挖掘區(qū)域最優(yōu)子結(jié)構(gòu)性質(zhì),考慮上下文信息,逐步確定實(shí)體邊界從而確定嵌套層次。因此識(shí)別效率相對(duì)較高。但是對(duì)于邊界標(biāo)注要求較高,如果標(biāo)注不準(zhǔn)確則會(huì)影響識(shí)別結(jié)果的準(zhǔn)確性。

        基于超圖的方法,如BiFlaG、Biaffine 等,因?yàn)槠渫ㄟ^(guò)學(xué)習(xí)超圖結(jié)構(gòu)的性質(zhì)捕捉是實(shí)體類型的共性和差異性,因此在一定程度上可以處理未知實(shí)體的問(wèn)題。但是超圖方法需要將所有實(shí)體與實(shí)體之間的嵌套關(guān)系表示為超圖,并通過(guò)圖解算法求最優(yōu)嵌套關(guān)系,因此計(jì)算復(fù)雜度較高。

        其他方法,如BERT-MRC、W2NER 等,基于機(jī)器閱讀理解的方法通過(guò)預(yù)訓(xùn)練模型自動(dòng)學(xué)習(xí)特征,不需要手動(dòng)設(shè)計(jì)特征工程,提高了模型的泛化能力。但是也因此需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,并且該模型通常采用黑盒模式,因此其可解釋性較差。

        總的來(lái)說(shuō),現(xiàn)如今利用區(qū)域模型的方法和基于機(jī)器閱讀理解的方式統(tǒng)一地解決扁平和嵌套的中文命名實(shí)體識(shí)別任務(wù)的主要思路。

        2.3 中文NER小樣本問(wèn)題處理

        由于基于深度學(xué)習(xí)的NER模型通常需要大規(guī)模的標(biāo)記數(shù)據(jù)來(lái)更好地訓(xùn)練模型。當(dāng)標(biāo)簽數(shù)據(jù)不足時(shí),基于深度學(xué)習(xí)的中文NER模型不能充分發(fā)現(xiàn)數(shù)據(jù)的隱藏特征,從而大大降低了基于深度學(xué)習(xí)的中文NER 模型的性能。同時(shí),中文NER 的任務(wù)主要用于信息專業(yè)化的領(lǐng)域,各領(lǐng)域之間的相關(guān)性不大,可移植性不高。因此,很難將現(xiàn)有的標(biāo)簽數(shù)據(jù)和深度學(xué)習(xí)模型移植到資源貧乏的領(lǐng)域。

        針對(duì)中文命名實(shí)體識(shí)別中的小樣本問(wèn)題,可以采取一些方法來(lái)緩解針對(duì)上述問(wèn)題,目前主要有以下幾種方法:基于遷移學(xué)習(xí)的方法、基于半監(jiān)督學(xué)習(xí)的方法、基于知識(shí)蒸餾的方法和基于提示學(xué)習(xí)的方法。

        2.3.1 基于遷移學(xué)習(xí)的方法

        基于遷移學(xué)習(xí)的方法是通過(guò)將已有的大規(guī)模數(shù)據(jù)集中的知識(shí)遷移到低資源數(shù)據(jù)集中,一方面遷移學(xué)習(xí)根據(jù)其對(duì)數(shù)據(jù)和標(biāo)簽依賴性小的優(yōu)點(diǎn),放松獨(dú)立和相同的分布約束使其成為解決資源貧乏的NER 的主要選擇。另一方面基于轉(zhuǎn)移學(xué)習(xí)的NER方法在源域中使用大量的標(biāo)簽數(shù)據(jù)和預(yù)訓(xùn)練模型,能夠提高目標(biāo)域的學(xué)習(xí)性能,更重要的是它能夠?qū)⒃从蚰P偷牟糠謪?shù)或特征表示遷移到目標(biāo)域模型,而不需要額外的對(duì)齊信息,實(shí)現(xiàn)跨域中文NER遷移任務(wù)。目前基于深度遷移學(xué)習(xí)解決低資源的中文命名實(shí)體識(shí)別的方法可以分為三類:數(shù)據(jù)遷移的方法、基于模型遷移的方法和基于對(duì)抗網(wǎng)絡(luò)遷移方式。如圖16所示展示了遷移學(xué)習(xí)的原理圖。

        圖16 遷移學(xué)習(xí)的原理圖Fig.16 Schematic diagram of transfer learning

        數(shù)據(jù)遷移的基本思路是將高資源的標(biāo)注數(shù)據(jù)通過(guò)一些對(duì)齊信息(文本翻譯和標(biāo)簽映射等)手段轉(zhuǎn)換成低資源的標(biāo)注數(shù)據(jù),然后基于這些數(shù)據(jù)進(jìn)行訓(xùn)練CNER模型[89-90]。Akbik 等人[91]提出了一種結(jié)合字向量和詞向量的遷移學(xué)習(xí)模型。該模型對(duì)稱地將低資源數(shù)據(jù)轉(zhuǎn)換為高資源數(shù)據(jù),以提高低注釋深度學(xué)習(xí)模型的性能。Peng等人[92]提出了一種結(jié)合有限標(biāo)記數(shù)據(jù)遷移學(xué)習(xí)技術(shù)的深度學(xué)習(xí)模型(TL-NER),可以應(yīng)用于少量的標(biāo)簽數(shù)據(jù)和大量的未標(biāo)記文本數(shù)據(jù),完成中文NER的任務(wù)。Sheng等人[93]為了提高深度學(xué)習(xí)方法在實(shí)體識(shí)別任務(wù)中缺乏實(shí)體標(biāo)注標(biāo)記數(shù)據(jù)時(shí)的性能,減少跨域分詞和標(biāo)簽映射中的錯(cuò)誤率,提出了結(jié)合字符為單詞的遷移學(xué)習(xí)方案。在BiLSTM網(wǎng)絡(luò)的域中執(zhí)行特征傳遞和參數(shù)共享任務(wù),實(shí)現(xiàn)零資源標(biāo)注。

        模型遷移不需要學(xué)習(xí)高資源信息的特征,直接在源語(yǔ)言的標(biāo)注數(shù)據(jù)上訓(xùn)練CNER,將源模型的部分參數(shù)或者特征表示遷移到目標(biāo)模型上。Yao等人[94]提出了一種基于對(duì)稱輕量級(jí)深度多網(wǎng)絡(luò)協(xié)作(ALBERT-AttBiLSTMCRF)和主動(dòng)學(xué)習(xí)的模型遷移(MTAL)的方法,使用主動(dòng)學(xué)習(xí)優(yōu)化遷移模型效果,解決了標(biāo)記域數(shù)據(jù)稀缺的問(wèn)題,比遷移前的效果高出3.55%的改進(jìn)。多語(yǔ)言BERT(multilingual BERT,mBERT)是一種在大型多語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型,在zero-shot和跨語(yǔ)言模型傳輸方面表現(xiàn)上最為出色,Chen等人[95]提出了一種基于注意機(jī)制的特征聚合模塊,并融于mBERT 中以獲取不同層次的信息。在四個(gè)zero-shot 跨語(yǔ)言傳遞數(shù)據(jù)集上證明了有效性。但是模型遷移可能會(huì)出現(xiàn)領(lǐng)域差異過(guò)大的問(wèn)題,微調(diào)過(guò)程需要重新訓(xùn)練一部分模型,需要大量的計(jì)算資源。

        對(duì)抗網(wǎng)絡(luò)遷移是受到生成對(duì)抗網(wǎng)絡(luò)(GAN)的啟發(fā),學(xué)習(xí)目標(biāo)域與源域無(wú)關(guān)的特征,實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,有效緩解非對(duì)抗網(wǎng)絡(luò)遷移方法帶來(lái)的負(fù)遷移的問(wèn)題。近年來(lái),隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的興起,將GAN 引入遷移學(xué)習(xí)已成為大多數(shù)NER 研究者的追求。對(duì)于具有少量注釋數(shù)據(jù)的中文NER 任務(wù),可以利用中文分詞任務(wù)完成注釋任務(wù)。然而,中文分詞既沒有保留詞的特定信息,也沒有利用詞的邊界信息。針對(duì)這一問(wèn)題,Wen等人[96]提出了一種基于跨域?qū)箤W(xué)習(xí)(CDAL)的中文命名實(shí)體識(shí)別方法,構(gòu)建一個(gè)基本預(yù)訓(xùn)練的框架單元并對(duì)大量未標(biāo)記數(shù)據(jù)的遷移學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,有效地預(yù)測(cè)了目標(biāo)域中的結(jié)果提出了一種基于跨域?qū)箤W(xué)習(xí)(CDAL)的中文命名實(shí)體識(shí)別方法,構(gòu)建一個(gè)基本預(yù)訓(xùn)練的框架單元并對(duì)大量未標(biāo)記數(shù)據(jù)的遷移學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,有效地預(yù)測(cè)了目標(biāo)域中的結(jié)果。同時(shí)該框架可以利用漢語(yǔ)NER和漢語(yǔ)分詞中兩個(gè)任務(wù)共享的詞邊界特征,防止特定信息的丟失。在電子病歷領(lǐng)域,Dong等人[97]將多任務(wù)BiLSTM模型與遷移學(xué)習(xí)相結(jié)合,提出了一種新的遷移學(xué)習(xí)模型。該模型從一般領(lǐng)域的漢語(yǔ)語(yǔ)料庫(kù)中獲取潛在知識(shí),并將其應(yīng)用于NER 中醫(yī)學(xué)術(shù)語(yǔ)挖掘任務(wù)中。對(duì)實(shí)際數(shù)據(jù)集的實(shí)驗(yàn)評(píng)估結(jié)果表明,該方法可以作為一種在有限數(shù)據(jù)下提高NER性能的解決方案。

        Hu等人[98]同時(shí)利用來(lái)自多個(gè)領(lǐng)域(微博和新聞)和多個(gè)任務(wù)(NER和CWS)的信息構(gòu)建了一個(gè)雙重對(duì)抗網(wǎng)絡(luò)。通過(guò)不同任務(wù)、不同領(lǐng)域的聯(lián)合訓(xùn)練,學(xué)習(xí)領(lǐng)域共享信息和任務(wù)共享信息。最后,利用共享的信息來(lái)提高網(wǎng)絡(luò)環(huán)境在特定領(lǐng)域特定任務(wù)中的效果。

        2.3.2 基于半監(jiān)督深度學(xué)習(xí)的方法

        基于半監(jiān)督深度學(xué)習(xí)的中文命名實(shí)體小樣本方法主要通過(guò)利用未標(biāo)記數(shù)據(jù)和標(biāo)記數(shù)據(jù)之間的關(guān)系,來(lái)提高在小樣本情況下的CNER 性能。該方法通過(guò)在已有的標(biāo)記數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)一個(gè)初始模型,然后使用未標(biāo)記數(shù)據(jù)進(jìn)行半監(jiān)督訓(xùn)練,進(jìn)一步優(yōu)化模型。

        He 等人[99]提出一個(gè)包含跨域?qū)W習(xí)和半監(jiān)督學(xué)習(xí)的統(tǒng)一模型,既可以用跨域?qū)W習(xí)函數(shù)學(xué)習(xí)域外語(yǔ)料庫(kù),又可以通過(guò)半監(jiān)督自我訓(xùn)練學(xué)習(xí)域內(nèi)未注釋文本,有效地提高了中文社交媒體NER的性能。Chen等人[100]提出了一個(gè)魯棒的半監(jiān)督NER方法ROSE-NER來(lái)解決醫(yī)學(xué)領(lǐng)域噪聲數(shù)據(jù)對(duì)CNER 模型的穩(wěn)健性產(chǎn)生負(fù)面影響。作者引入兩步半監(jiān)督模型,用大量預(yù)測(cè)的偽標(biāo)記數(shù)據(jù)擴(kuò)展少量的標(biāo)記數(shù)據(jù)。在醫(yī)學(xué)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法減少了對(duì)大量標(biāo)記數(shù)據(jù)的依賴,實(shí)驗(yàn)證明該方法優(yōu)于其他方法。

        為了在半監(jiān)督環(huán)境下有效地融合多模態(tài)命名實(shí)體識(shí)別(MNER)的文本和圖像特征,Zhou 等人[101]在半監(jiān)督設(shè)置下利用未標(biāo)記數(shù)據(jù)的有用信息,提出了一種新的基于跨度的多模態(tài)變分自動(dòng)編碼器(SMVAE)模型。該方法利用特定模態(tài)的VAE對(duì)文本和圖像的潛在特征進(jìn)行建模,并利用專家產(chǎn)品獲取多模態(tài)特征。有效地解決了在社交媒體上對(duì)命名實(shí)體進(jìn)行注釋需要付出大量的人力的問(wèn)題。Hao 等人[102]將半監(jiān)督的深度學(xué)習(xí)于跨領(lǐng)域的遷移學(xué)習(xí)相結(jié)合,提出了一個(gè)半監(jiān)督的框架可轉(zhuǎn)移的NER,其中解除領(lǐng)域不變的潛在變量和領(lǐng)域特定的潛在變量。在所提出的框架中,通過(guò)使用領(lǐng)域預(yù)測(cè)器將領(lǐng)域特定的信息與領(lǐng)域特定的潛變量集成。使用三個(gè)互信息正則化項(xiàng)將領(lǐng)域特定和領(lǐng)域不變潛變量進(jìn)行分離,即最大化領(lǐng)域特定潛變量與原始嵌入之間的互信息,最大化領(lǐng)域不變潛變量與原始嵌入之間的互信息,以及最小化領(lǐng)域特定和領(lǐng)域不變潛變量之間的互信息。

        2.3.3 基于知識(shí)蒸餾的方法

        基于知識(shí)蒸餾的小樣本學(xué)習(xí)方法旨在通過(guò)使用大型預(yù)訓(xùn)練模型(教師模型)的知識(shí)來(lái)指導(dǎo)小型模型(學(xué)生模型)的學(xué)習(xí),以提高其在小樣本情況下的性能。具體來(lái)說(shuō),該方法首先使用大量的未標(biāo)注數(shù)據(jù)對(duì)教師模型進(jìn)行預(yù)訓(xùn)練,然后將教師模型的輸出用作學(xué)生模型的輔助目標(biāo)。其常采用的方式包括軟標(biāo)簽蒸餾和特征蒸餾。Zhou等人[103]借鑒了知識(shí)蒸餾(knowledge distillation,KD)的軟標(biāo)簽蒸餾,利用k-best 維特比算法建立替代標(biāo)簽,從教師模式中提取知識(shí)。此外為了最大程度地讓學(xué)生模式吸收知識(shí),提出了一個(gè)多粒度精餾方案,該方案綜合了條件隨機(jī)域和模糊學(xué)習(xí)中的交叉熵。在MSRA、WEIBO、OntoNotes4.0 上分別達(dá)到了92.99%、71.62%、76.05%的好成績(jī)。

        Wang等人[104]提出了一種提取方法(Distil-AER),將大規(guī)模標(biāo)記的全標(biāo)準(zhǔn)地址數(shù)據(jù)集中的知識(shí)轉(zhuǎn)移到口語(yǔ)對(duì)話情景下的細(xì)粒度地址實(shí)體識(shí)別任務(wù)中。利用特征蒸餾,將教師模型的隱藏層表示用作學(xué)生模型的輔助目標(biāo),進(jìn)而能夠更好地捕捉輸入的關(guān)鍵特征。

        在中文零資源語(yǔ)言中由于源語(yǔ)言和目標(biāo)語(yǔ)言在特征分布上的差異,教師網(wǎng)絡(luò)無(wú)法有效地學(xué)習(xí)跨語(yǔ)言共享的獨(dú)立于語(yǔ)言的知識(shí)。學(xué)生網(wǎng)絡(luò)在教師網(wǎng)絡(luò)獲取所有知識(shí)的過(guò)程中忽略了目標(biāo)語(yǔ)言特定知識(shí)的學(xué)習(xí)。為了解決以上問(wèn)題,Ge 等人[105]出了一種無(wú)監(jiān)督原型知識(shí)蒸餾網(wǎng)絡(luò)(ProKD)模型。ProKD 采用基于對(duì)比學(xué)習(xí)的原型對(duì)齊方法,通過(guò)調(diào)整源語(yǔ)言和目標(biāo)語(yǔ)言中原型之間的距離,提高教師網(wǎng)絡(luò)獲取與語(yǔ)言無(wú)關(guān)知識(shí)的能力,實(shí)現(xiàn)類特征對(duì)齊。此外,ProKD還引入了一種原型自訓(xùn)練方法,通過(guò)利用樣本與原型的距離信息重新訓(xùn)練學(xué)生網(wǎng)絡(luò)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行學(xué)習(xí),從而提高學(xué)生網(wǎng)絡(luò)獲取特定語(yǔ)言知識(shí)的能力。在生物醫(yī)學(xué)領(lǐng)域內(nèi),由于BioBERT[106]規(guī)模太大,速度太慢,為此Hu等人[107]提出一種基于知識(shí)蒸餾的快速生物醫(yī)學(xué)實(shí)體識(shí)別模型FastBioNER,F(xiàn)astBioNER使用動(dòng)態(tài)知識(shí)精餾對(duì)BioBERT模型進(jìn)行壓縮。采用動(dòng)態(tài)權(quán)重函數(shù)模擬真實(shí)的學(xué)習(xí)行為,調(diào)整訓(xùn)練過(guò)程中各部分損失函數(shù)的重要性。從而將動(dòng)態(tài)知識(shí)提取將訓(xùn)練好的BioBERT壓縮成一個(gè)小的學(xué)生模型。

        基于知識(shí)蒸餾的小樣本學(xué)習(xí)方法相較于半監(jiān)督學(xué)習(xí),不需要額外的未標(biāo)注數(shù)據(jù),可以使用現(xiàn)有的標(biāo)注數(shù)據(jù)和預(yù)訓(xùn)練模型來(lái)進(jìn)行訓(xùn)練;相較于遷移學(xué)習(xí),知識(shí)蒸餾可以在不同的任務(wù)和數(shù)據(jù)集上重復(fù)使用預(yù)訓(xùn)練模型的知識(shí),實(shí)現(xiàn)知識(shí)的遷移。但是知識(shí)蒸餾的性能受到教師模型的影響,如果教師模型質(zhì)量不好,學(xué)生模型的性能也會(huì)受到影響,并且如果教師模型的任務(wù)和數(shù)據(jù)集與當(dāng)前任務(wù)和數(shù)據(jù)集不匹配,可能無(wú)法實(shí)現(xiàn)良好的遷移。更重要的是知識(shí)蒸餾的訓(xùn)練過(guò)程比傳統(tǒng)的訓(xùn)練過(guò)程要復(fù)雜,需要調(diào)整很多參數(shù),需要花費(fèi)更多的時(shí)間和精力。

        2.3.4 基于提示學(xué)習(xí)的方法

        提示學(xué)習(xí)是一種不需要改變預(yù)訓(xùn)練語(yǔ)言模型結(jié)構(gòu)和參數(shù),通過(guò)改造下游任務(wù)、增加提示信息和專家知識(shí),使任務(wù)輸入和輸出適合原始語(yǔ)言模型的一種方式,從而在零樣本或少樣本的場(chǎng)景中獲得良好的任務(wù)效果。近年來(lái)有很多學(xué)者利用提示學(xué)習(xí)的新思路去解決英文小樣本NER 的問(wèn)題,比如在2021 年Cui 等人[108]提出了一種基于模板的NER模型,使用BART模板枚舉文本跨度并考慮每個(gè)文本的生成概率,在手動(dòng)制作的模板中輸入。該方法證明了提示學(xué)習(xí)可以有效解決英文小樣本NER 的問(wèn)題?;谀0逄崾镜姆椒ㄐ枰杜e所有可能的候選實(shí)體,存在較高的計(jì)算復(fù)雜度問(wèn)題,因此,Ma 等人[109]提出一種在小樣本場(chǎng)景下無(wú)模板構(gòu)建的提示方法,該方法采用預(yù)訓(xùn)練任務(wù)中的單詞預(yù)測(cè)范式,將NER 任務(wù)轉(zhuǎn)化成將實(shí)體位置的詞預(yù)測(cè)為標(biāo)簽詞的任務(wù)。該方法能減少預(yù)訓(xùn)練和微調(diào)之間的差距并且解碼速度比基線方法快1 930.12倍。

        在中文少鏡頭(Few-shot)或零鏡頭(Zero-shot)數(shù)據(jù)集上實(shí)現(xiàn)良好的性能一直是CNER面臨的挑戰(zhàn)。為此,Lai 等人[110]提出基于提示學(xué)習(xí)的父母和孩子的BERT(PCBERT),在中文的小樣本NER 中取得的優(yōu)異的效果。該方法在源數(shù)據(jù)集上訓(xùn)練注釋模型,在低資源數(shù)據(jù)集上搜索隱式標(biāo)簽。同時(shí)設(shè)計(jì)標(biāo)簽擴(kuò)展策略來(lái)實(shí)現(xiàn)高資源數(shù)據(jù)集的標(biāo)簽傳輸。在微博等中文數(shù)據(jù)集上證明了提示學(xué)習(xí)在中文少鏡頭學(xué)習(xí)中的有效性。Huang 等人[111]結(jié)合距離度量學(xué)習(xí)測(cè)量對(duì)象語(yǔ)義相似度方法和提示學(xué)習(xí)的模板,提出了對(duì)比學(xué)習(xí)與提示指導(dǎo)的少鏡頭NER(COPNER)。該方法引入提示組成的類別特定的詞COPNER 作為監(jiān)督信號(hào)進(jìn)行對(duì)比學(xué)習(xí),以優(yōu)化實(shí)體令牌表示。Kan 等人[112]為了提高數(shù)據(jù)稀缺場(chǎng)景中事件抽取的泛化能力,提出了新的可組合的基于提示的生成框架。該框架將信息抽取任務(wù)轉(zhuǎn)化為確定提示語(yǔ)語(yǔ)義一致性的任務(wù),并重新制定在預(yù)先設(shè)計(jì)的特定類型提示中填充空格的形式。實(shí)驗(yàn)證明了,在數(shù)據(jù)豐富和數(shù)據(jù)稀缺的情況下,該方法優(yōu)于中午數(shù)據(jù)集上的比較基線。此外,Huang等人[113]提出了基于提示性的自我訓(xùn)練兩階段的框架。該框架在第一階段,引入了一種自我訓(xùn)練的方法,通過(guò)提示信息調(diào)整來(lái)提高模型的性能,以減輕噪聲偽標(biāo)簽的錯(cuò)誤傳播。在第二階段,針對(duì)高置信度偽標(biāo)簽和原始標(biāo)簽對(duì)BERT 模型進(jìn)行了微調(diào)。在五個(gè)標(biāo)簽的OntoNotes5.0數(shù)據(jù)集上達(dá)到了73.46%成績(jī)??偟膩?lái)說(shuō),提示學(xué)習(xí)在低資源場(chǎng)景的CNER 任務(wù)上得到了初步嘗試,未來(lái)會(huì)有更多復(fù)雜的方法來(lái)增強(qiáng)提示,并應(yīng)用于低資源場(chǎng)景下的許多任務(wù)中。

        在小樣本問(wèn)題上,基于遷移學(xué)習(xí)方法、基于半監(jiān)督深度學(xué)習(xí)、基于知識(shí)蒸餾的方法和基于提示學(xué)習(xí)的方法這四種方法進(jìn)行了比較分析,具體如表6所示。

        表6 CNER小樣本問(wèn)題處理方法比較Table 6 Comparison of CNER small sample problem processing methods

        3 數(shù)據(jù)集與評(píng)估標(biāo)準(zhǔn)

        本章將介紹在中文命名實(shí)體識(shí)別中常用的數(shù)據(jù)集,以及評(píng)估標(biāo)準(zhǔn)。

        3.1 數(shù)據(jù)集

        數(shù)據(jù)集在模型性能評(píng)估環(huán)節(jié)中舉足輕重的地位,尤其是經(jīng)過(guò)高質(zhì)量標(biāo)注的數(shù)據(jù)集。

        表7 列舉了8 個(gè)CNER 中常用的數(shù)據(jù)集,并從其類型、實(shí)體類型、文本來(lái)源等進(jìn)行說(shuō)明。這些數(shù)據(jù)集的來(lái)源廣泛,有常用的學(xué)術(shù)基準(zhǔn)公開數(shù)據(jù)集,例如MSRA、WEIBO、RESUME、OntoNotes;有私有數(shù)據(jù)集適用于特定領(lǐng)域,比如公司提供的BosonNLP中文語(yǔ)料庫(kù)和電子商務(wù)領(lǐng)域的E-commerce NER。此外還有用于競(jìng)賽的數(shù)據(jù),但是競(jìng)賽數(shù)據(jù)是不對(duì)外公開的,需要報(bào)名參賽才能獲取,比如常用于醫(yī)療競(jìng)賽的數(shù)據(jù)CCKS2020和CHIP2020。

        表7 常見中文命名實(shí)體識(shí)別數(shù)據(jù)集列表Table 7 LIST of common Chinese named entity recognition datasets

        MSRA[114]:微軟注的新聞?lì)I(lǐng)域的實(shí)體識(shí)別數(shù)據(jù)集。包含5萬(wàn)多條中文實(shí)體識(shí)別標(biāo)注數(shù)據(jù),實(shí)體類別分為人名(Person)、位置(Location)和組織(Organization)三類實(shí)體。

        WEIBO[115]:根據(jù)新浪微博2013 年11 月至2014 年12 月間歷史數(shù)據(jù)篩選過(guò)濾生成。包含1 890 條微博消息,實(shí)體類別分為人名(Person)、位置(Location)、組織(Organization)和地區(qū)名(GPE)四類實(shí)體。

        RESUME:根據(jù)新浪財(cái)經(jīng)網(wǎng)上市公司的高級(jí)經(jīng)理人的簡(jiǎn)歷摘要數(shù)據(jù)篩選過(guò)濾和人工標(biāo)注生成的。該數(shù)據(jù)集包含1 027份簡(jiǎn)歷摘要,實(shí)體類別分為人名(Person)、國(guó)籍(Country)、位置(Location)、種族(Race)、專業(yè)(Profession)、學(xué)位(Education)、機(jī)構(gòu)(Organization)、職稱(Title)8個(gè)類別。

        OntoNotes Release 5.0[116]:根據(jù)大型手工注釋語(yǔ)料庫(kù)得來(lái)。有五個(gè)版本從1.0~5.0,包含實(shí)體類別分別為人名(Person)、位置(Location)和組織(Organization)等18個(gè)實(shí)體類型。

        CLUENER2020[117]:根據(jù)清華大學(xué)開源的文本分類數(shù)據(jù)集THUCNEWS篩選過(guò)濾、實(shí)體標(biāo)注生成。該數(shù)據(jù)集包含實(shí)體類別分別為組織(Organization)、人名(Person)、地址(Address)、公司(Company)、政府(Government)、書籍(Book)、游戲(Game)、電影(Movie)、職位(Position)、景點(diǎn)(Scene)10個(gè)實(shí)體類別,且實(shí)體類別分布較為均衡,并且有望在未來(lái)成為通用的CNER數(shù)據(jù)集。

        E-commerce NER[118]:人工標(biāo)注的電商領(lǐng)域數(shù)據(jù)集。包括品牌(Brand)和產(chǎn)品(Product)兩種類型實(shí)體。數(shù)據(jù)集規(guī)模較小,數(shù)據(jù)質(zhì)量較低。

        BosonNLP:根據(jù)公司提供得數(shù)據(jù)標(biāo)注而來(lái)。包含組織(Organization)、人名(Person)、位置(Location)、公司(Company)、產(chǎn)品(Product)、時(shí)間(Time)六類實(shí)體。

        People’s Daily:根據(jù)人民日?qǐng)?bào)、新聞稿篩選標(biāo)注而來(lái)。包含組織(Organization)、人名(Person)、政治(Geo-political)、日期(Date)四類實(shí)體。

        有許多不同的注釋模式可以用于不同的數(shù)據(jù)集。一般來(lái)說(shuō),常用的注釋方法有BIO、BIOES、BMEWO等。目前,BIOES是最常用的命名實(shí)體注釋模式。在一些實(shí)體密集的地區(qū),選擇BIOES模式可以更好地識(shí)別這些實(shí)體。注釋系統(tǒng)越復(fù)雜,精度越高,但相應(yīng)的訓(xùn)練時(shí)間增加。因此,應(yīng)該根據(jù)實(shí)際情況選擇適當(dāng)?shù)淖⑨屜到y(tǒng)。

        3.2 評(píng)估標(biāo)準(zhǔn)

        在CNER 任務(wù)中 常用精確匹配的模式進(jìn)行評(píng)估,只有同時(shí)識(shí)別到正確的實(shí)體邊界和類型,實(shí)體才能被判定是被正確識(shí)別。同時(shí)該任務(wù)通常采用F1 值來(lái)評(píng)估模型性能計(jì)算公式如(1)~(3),TP(true positives)、FP(false positives)以及FN(false negatives),用這三個(gè)參數(shù)來(lái)計(jì)算Precision、Recall和F1-score。Precision精確率指模型識(shí)別實(shí)體中被正確識(shí)別的實(shí)體的百分比;Recall召回率,指所有標(biāo)注實(shí)體中被模型正確識(shí)別的實(shí)體的概率。

        4 未來(lái)展望

        基于深度學(xué)習(xí)的方法被廣泛地應(yīng)用在命名實(shí)體識(shí)別中,但是由于中文語(yǔ)言的特殊性,比如語(yǔ)義歧義、詞邊界不明確、語(yǔ)義結(jié)構(gòu)復(fù)雜等,使得建模技術(shù)仍需進(jìn)一步提高。除此之外,中文語(yǔ)言的復(fù)雜性使得其語(yǔ)料庫(kù)較大,同時(shí)存在各式語(yǔ)言表達(dá)方式,比如詞語(yǔ)的縮寫、同音詞等,因此如何將這些多樣化信息進(jìn)行數(shù)據(jù)表示是CNER的重要挑戰(zhàn)。為此,該領(lǐng)域的未來(lái)發(fā)展方向在以下幾個(gè)方向。

        (1)數(shù)據(jù)表示

        根據(jù)具體任務(wù)使用不同的字符表征,在字符表征中引入更多的外部特征。對(duì)于有規(guī)則實(shí)體的任務(wù),可以引入基于規(guī)則的詞匯信息和詞性信息;對(duì)于有許多新實(shí)體的任務(wù),可以引入基于字符特征的信息,如字形信息、筆畫信息、拼音信息和部首信息等。

        引入跨語(yǔ)言信息從而加強(qiáng)數(shù)據(jù)表示。如將漢語(yǔ)翻譯成英語(yǔ),然后識(shí)別英語(yǔ)中的實(shí)體,最后將這些實(shí)體重新翻譯成漢語(yǔ)。例如,Wu 等人[119]提出了一種師生學(xué)習(xí)方法,其中源語(yǔ)言中的NER模型被用作教師,在目標(biāo)語(yǔ)言中的未標(biāo)記數(shù)據(jù)上訓(xùn)練學(xué)生模型。該方法解決了現(xiàn)有跨語(yǔ)言NER方法在源語(yǔ)言中的標(biāo)記數(shù)據(jù)不可用或與目標(biāo)語(yǔ)言中的未標(biāo)記數(shù)據(jù)不對(duì)應(yīng)時(shí)不適用的局限性。這樣,公共知識(shí)就可以從一種語(yǔ)言轉(zhuǎn)移到另一種語(yǔ)言,而不需要成對(duì)語(yǔ)料庫(kù)。

        引入高質(zhì)量的數(shù)據(jù)集,高質(zhì)量的數(shù)據(jù)集對(duì)于模型學(xué)習(xí)和評(píng)估是必不可少的。與ENER數(shù)據(jù)集的相比,CNER數(shù)據(jù)集在質(zhì)量和數(shù)量上仍顯不足。開展嵌套CNER、細(xì)粒度CNER或命名實(shí)體消歧的研究,首先要解決這些任務(wù)缺乏高質(zhì)量數(shù)據(jù)集的問(wèn)題。Ding提出的Night-Nerd,這是一個(gè)大規(guī)模的人工注釋的少鏡頭NER 數(shù)據(jù)集,具有8 個(gè)粗粒度和66 個(gè)細(xì)粒度實(shí)體類型的層次結(jié)構(gòu)。弱監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)由于語(yǔ)料庫(kù)標(biāo)注的人力成本較高,因此開發(fā)弱監(jiān)督和無(wú)監(jiān)督算法來(lái)實(shí)現(xiàn)基于少標(biāo)注或無(wú)標(biāo)注語(yǔ)料庫(kù)的CNER具有重要意義。

        (2)建模技術(shù)

        建立更有效的模型,雖然最近的工作引入了大量的外部信息,取得了很好的效果,但在現(xiàn)有的模型框架下,CNER的性能遇到了瓶頸。通過(guò)設(shè)計(jì)更有效的模型,可以更好地利用外部信息。比如,引入多模態(tài)網(wǎng)絡(luò)架構(gòu),通過(guò)多模態(tài)CNER 網(wǎng)絡(luò)融合文本信息和視覺信息和語(yǔ)音信息,利用關(guān)聯(lián)圖像更好地識(shí)別文本中包含的具有多義詞的命名實(shí)體。利用語(yǔ)音發(fā)音信息可以將具有歧義的信息規(guī)避掉,比如“長(zhǎng)江(chang)”和“市長(zhǎng)(zhang)”。此外,Li等人為NER提出了統(tǒng)一的MRC框架。該模型把NER看作一個(gè)序列標(biāo)記問(wèn)題,而是把它描述成一個(gè)機(jī)器閱讀理解(MRC)任務(wù),并用SOTA 模型獲得了競(jìng)爭(zhēng)結(jié)果。該方法是對(duì)更好模型的有效嘗試。

        (3)分類器

        標(biāo)記解碼器使用編碼的上下文信息來(lái)預(yù)測(cè)令牌的標(biāo)記,是NER 模型的最后階段。目前有兩種主要的實(shí)現(xiàn)形式分別是將序列標(biāo)注任務(wù)將轉(zhuǎn)換為多類分類任務(wù)的MLP+Softmax和對(duì)標(biāo)記序列內(nèi)部依賴關(guān)系進(jìn)行建模的CRF。此外,可針對(duì)標(biāo)注方案中存在的數(shù)據(jù)稀疏和錯(cuò)誤傳播問(wèn)題,采用多任務(wù)學(xué)習(xí)范式的多標(biāo)注學(xué)習(xí)方法[120]。該方法分別標(biāo)注實(shí)體及其對(duì)應(yīng)的實(shí)體類型的分割信息,對(duì)原有的PLE模型進(jìn)行了改進(jìn),將不同的標(biāo)注序列作為不同的任務(wù)來(lái)緩解這些問(wèn)題。該方法是對(duì)更好的分類效果的有效嘗試。

        5 結(jié)束語(yǔ)

        本文從中文命名實(shí)體識(shí)別的難點(diǎn)和分類角度出發(fā),回顧了中文命名實(shí)體識(shí)別的研究背景、傳統(tǒng)方式和近幾年來(lái)的研究成果。本文整合了常見的中文命名實(shí)體識(shí)別數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)。其次進(jìn)行分類別的介紹在解決中文命名實(shí)體識(shí)別難點(diǎn)的詳細(xì)方法,并做出了性能比較分析。目前的中文命名實(shí)體識(shí)別在解決嵌套實(shí)體和低資源的實(shí)體識(shí)別效果不佳。未來(lái)研究可以針對(duì)數(shù)據(jù)集的自動(dòng)標(biāo)注、細(xì)粒度的識(shí)別、提升模型魯棒性和輕量級(jí)等方向進(jìn)行探究。

        猜你喜歡
        信息方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        展會(huì)信息
        国产乱妇乱子在线视频| 午夜免费观看一区二区三区| 人人爽人人爽人人爽| 亚洲国产美女在线观看| 在线一区二区三区视频观看| 免费精品人妻一区二区三区| 日韩一区二区三区无码影院| 亚洲人成77777在线播放网站 | 亚洲日本人妻少妇中文字幕| 九九久久自然熟的香蕉图片| a一区二区三区乱码在线 | 欧洲| 国产桃色精品网站| av一区二区在线网站| 中文无码一区二区三区在线观看| 怡春院欧美一区二区三区免费| 亚洲国产精品日韩专区av| 亚洲av毛片在线网站| 狼人香蕉香蕉在线28 - 百度| 99热这里只有精品4| 粗一硬一长一进一爽一a视频| 亚洲天堂精品成人影院| 51国偷自产一区二区三区| 亚洲色成人WWW永久在线观看| 午夜国产在线精彩自拍视频| 丰满女人猛烈进入视频免费网站 | 国产成人一区二区三区影院动漫| 国产V日韩V亚洲欧美久久| 日韩国产一区二区三区在线观看 | 少妇高潮无码自拍| 三区中文字幕在线观看| 成人性生交大片免费| 久久久久久久中文字幕| 日韩黄色大片免费网站| 日韩欧美aⅴ综合网站发布| 99亚洲精品久久久99| 99久久无色码中文字幕鲁信| 久久一本日韩精品中文字幕屁孩| 极品美女aⅴ在线观看| 中日韩欧美成人免费播放| 激情五月开心五月啪啪| 色天使综合婷婷国产日韩av|