亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的命名實(shí)體識別研究

        2022-07-07 08:19:48冀振燕孔德焱桑艷娟
        關(guān)鍵詞:字符實(shí)體標(biāo)簽

        冀振燕,孔德焱,劉 偉,董 為,桑艷娟

        (1.北京交通大學(xué) 軟件學(xué)院,北京 100044; 2.中國科學(xué)院 軟件研究所,北京 100190; 3.中科藍(lán)智(武漢)科技有限公司,湖北 武漢 430079)

        0 引言

        隨著先進(jìn)制造業(yè)領(lǐng)域的高速發(fā)展,制造業(yè)復(fù)雜產(chǎn)品的全流程數(shù)據(jù)呈指數(shù)級增長,如何在海量的制造全流程數(shù)據(jù)中挖掘出有價值的信息成為制造業(yè)領(lǐng)域的一個熱點(diǎn)研究問題,而命名實(shí)體識別(Named Entity Recognition, NER)[1]技術(shù)是先進(jìn)制造業(yè)領(lǐng)域文本挖掘的關(guān)鍵環(huán)節(jié)。先進(jìn)制造業(yè)領(lǐng)域中可以很容易獲取語料,然而由于從業(yè)人員在技術(shù)背景、專業(yè)知識、工作經(jīng)驗(yàn)等方面各不相同,對同一實(shí)體對象的描述以及同一業(yè)務(wù)活動的理解、描述不盡相同。目前在工程建設(shè)方面已經(jīng)積累了大量的寶貴經(jīng)驗(yàn)、知識素材和知識原料,而且這些知識原料還在不斷更新和迭代,特別是隨著一些領(lǐng)域的迅速發(fā)展,會出現(xiàn)海量非標(biāo)準(zhǔn)化表達(dá)的新詞和熱詞,使得知識的應(yīng)用效果大打折扣,無法有效支撐專業(yè)人員進(jìn)行有效的知識搜索與應(yīng)用。因此,如何有效地發(fā)現(xiàn)新實(shí)體,如何在有限的帶標(biāo)簽數(shù)據(jù)的情況下實(shí)現(xiàn)高準(zhǔn)確率、高覆蓋率的NER,如何有效解決知識原料產(chǎn)生者與使用者之間對同一實(shí)體理解與描述的偏差,在先進(jìn)制造業(yè)領(lǐng)域仍然是亟待解決的問題。

        NER是信息抽取、知識圖譜構(gòu)建等領(lǐng)域的核心環(huán)節(jié),旨在從復(fù)雜的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中抽取特定類型的實(shí)體,如人名、地名、組織機(jī)構(gòu)名等,并對這些具有特定意義的實(shí)體進(jìn)行歸類。命名實(shí)體[1]這一術(shù)語首次在第六屆信息理解會議(Message Understanding Conference 6, MUC-6)上被提出,用于識別文本中的組織名稱、人員名稱和地理位置,以及貨幣、時間和百分比表達(dá)式。自MUC-6以來,人們對NER的興趣日益濃厚,各種國際評測會議(如CoNLL03,ACET,REC Entity Track)都對該主題進(jìn)行了大量研究。

        在NER中應(yīng)用的技術(shù)主要有基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法3類?;谝?guī)則的NER方法需要領(lǐng)域?qū)<腋鶕?jù)語義和語法規(guī)則等構(gòu)造出實(shí)體識別規(guī)則模板,規(guī)則可以基于特定領(lǐng)域的詞典[2-10]和語法—詞匯模式設(shè)計(jì)[11],但是由領(lǐng)域?qū)<叶x,因此面對復(fù)雜且不規(guī)則的文本,不同構(gòu)造規(guī)則之間會產(chǎn)生沖突,領(lǐng)域之間很難進(jìn)行復(fù)用。基于統(tǒng)計(jì)學(xué)習(xí)的方法是在大數(shù)據(jù)的基礎(chǔ)上將統(tǒng)計(jì)學(xué)習(xí)方法應(yīng)用到機(jī)器學(xué)習(xí)中,并通過人工精心挑選和設(shè)計(jì)的特征來表示每個訓(xùn)練示例,從而識別出隱藏在數(shù)據(jù)中的相似模式。特征提取在有監(jiān)督的NER系統(tǒng)中至關(guān)重要,良好的人工特征可以有效提高NER效果?;谔卣鞯臋C(jī)器學(xué)習(xí)算法已廣泛用于NER,包括隱馬爾科夫模型(Hidden Markov Model, HMM)[12]、最大熵(Maximum Entropy, ME)模型[13]、支持向量機(jī)(Support Vector Machine, SVM)[14-15]、決策樹(Decision Tree, DT)[16]和條件隨機(jī)場(Conditional Random Fields, CRF)[17-24]。

        基于深度學(xué)習(xí)的NER方法[25]是以端到端的方式從原始輸入中自動發(fā)現(xiàn)隱藏特征,不依賴人工構(gòu)造的特征。現(xiàn)有基于深度學(xué)習(xí)的NER方法的相關(guān)綜述主要分析總結(jié)了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)及其變體的NER方法,未體現(xiàn)基于其他深度神經(jīng)網(wǎng)絡(luò)的NER方法,本文通過分析最新的高引用文獻(xiàn),對基于CNN、RNN、預(yù)訓(xùn)練語言模型、Transformer、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks, GNN)以及其他聯(lián)合抽取框架的NER方法進(jìn)行了全面總結(jié)分析,并從分布式輸入表示、上下文編碼和標(biāo)簽解碼器3個步驟進(jìn)行闡述。

        1 基于深度神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法

        深度神經(jīng)網(wǎng)絡(luò)[25]可以通過非線性變換從數(shù)據(jù)中自動發(fā)現(xiàn)隱藏特征,其因不依賴人工構(gòu)造的特征而節(jié)省了成本。目前,基于深度學(xué)習(xí)的方法已成為NER領(lǐng)域的主流,主要分為分布式輸入表示、上下文編碼和標(biāo)簽解碼器3個步驟[26]。分布式輸入表示旨在自動學(xué)習(xí)文本,獲得單詞的語義和句法特征,為上下文編碼器提供低維實(shí)值密集向量輸入;文本上下文編碼采用CNN,RNN,Transformer,GNN等提取上下文依賴關(guān)系;標(biāo)簽解碼器是對上下文編碼輸出的向量進(jìn)一步解碼,從而獲取最佳標(biāo)簽序列,常見的標(biāo)簽解碼器有CRF、RNN、指針網(wǎng)絡(luò)等?;谏疃壬窠?jīng)網(wǎng)絡(luò)的NER基本框架如圖1所示。

        1.1 分布式輸入表示

        分布式輸入表示代表低維實(shí)值密集向量中的單詞,其中每個維度表示一個潛在特征。分布式輸入表示從文本中自動學(xué)習(xí),捕獲單詞的語義和句法屬性。主流的分布式輸入表示分為詞級別向量表示、字符級別向量表示以及融合兩種方式和詞典信息的混合向量表示。

        1.1.1 詞級別表示

        有監(jiān)督的NER模型訓(xùn)練需要大量人工標(biāo)記數(shù)據(jù),數(shù)據(jù)標(biāo)注成本較高,可通過無監(jiān)督算法預(yù)訓(xùn)練大量未標(biāo)記數(shù)據(jù),學(xué)習(xí)到單詞表示來提高小型領(lǐng)域數(shù)據(jù)集上的有監(jiān)督NER模型的訓(xùn)練效率。常見的詞向量表示模型有Skip-gram模型[27]、連續(xù)詞袋模型(Continuous Bag of Words, CBOW)[27]、Word2Vec[28]、Glove[29]、fastText[30]。

        這些預(yù)訓(xùn)練詞向量嵌入方法十分有效。LAMPLE等[31]提出的NER的神經(jīng)體系結(jié)構(gòu)采用skip-n-gram[32]預(yù)訓(xùn)練的詞向量初始化查找表,與隨機(jī)初始化詞嵌入相比效果提升顯著;MALIK[33]采用CBOW模型訓(xùn)練烏爾都語單詞向量用于烏爾都語NER和分類,顯著提升了識別和分類效果;KANWAL等[34]分別采用Word2Vec,Glove,fastText 3種方式生成烏爾都語詞向量,實(shí)驗(yàn)表明Word2Vec的表現(xiàn)優(yōu)于fastText和Glove;CETOLI等[35]提出的基于圖卷積網(wǎng)絡(luò)的NER方法,將Glove詞向量、詞性標(biāo)簽POS(part-of-speech tagging)、文本形態(tài)信息嵌入特征向量,避免出現(xiàn)僅用詞嵌入無法有效處理詞匯表外單詞的情況;RONRAN等[36]研究了Glove,fastText詞向量嵌入對提高NER性能的影響,實(shí)驗(yàn)表明,在CoNLL2003數(shù)據(jù)集上采用Glove詞向量嵌入方式對實(shí)體識別性能的提升效果更佳。另外,fastText[37],Word2Vec[38]也廣泛用于領(lǐng)域NER任務(wù)。

        1.1.2 字符級別表示

        對比詞級別的向量表示,字符級別的向量表示可推斷詞表外的單詞表示,有效解決詞匯量限制問題,并可提供單詞形態(tài)信息,如前綴、后綴、時態(tài)等,還可提高模型訓(xùn)練速度。缺點(diǎn)在于缺少詞級別語義信息和邊界信息,如字符“吉”和詞“吉他”,顯然詞“吉他”可為模型提供更好的先驗(yàn)知識,另外變長的輸入序列會降低計(jì)算速度。

        目前,字符級別表示提取的模型主要有基于CNN的模型(如圖2)和基于RNN的模型(如圖3)兩類。KIM等[39]提出字符級CNN模型,利用子詞信息消除對形態(tài)標(biāo)記或人工特征的需要,并可生成新單詞;MA等[40]提出的雙向LSTM-CNNs-CRF模型和RONRAN等[36]提出的基于單詞和字符特征的兩層雙向LSTM-CRF模型,采用CNN卷積層對分類后的字符特征編碼,然后采用最大池化層獲得單詞特征表示。研究表明,CNN可從單詞字符中有效提取形態(tài)信息(如單詞前綴或后綴),并將其編碼成向量表示。

        為了更好地捕獲上下文信息,LAMPLE等[31]和SUI等[41]通過雙向長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)連接從左到右和從右到左的LSTM隱式狀態(tài),獲得上下文表示;REI等[42]采用門控機(jī)制將字符級表示與詞嵌入結(jié)合,動態(tài)確定使用嵌入向量中的信息量;TRAN等[43]提出具有堆疊殘差LSTM和可訓(xùn)練偏置解碼的NER模型,通過詞級和字符級RNN提取詞特征。

        1.1.3 混合表示

        字符級NER方法的準(zhǔn)確率不但高于單詞級NER方法,而且還有很大提升空間。因此,很多學(xué)者對字符特征向量表示進(jìn)行改進(jìn),添加單詞信息特征、字典信息特征、部首特征、詞匯相似性等附加特征,以增強(qiáng)文本中命名實(shí)體間的相關(guān)性,提高模型效率(如圖4)。

        ZHANG等[44]提出Lattice LSTM方法,首次將詞典和詞向量信息引入字符級LSTM模型,有效提升了識別性能,但是存在信息損失、可遷移性差和不能并行化的問題;GUI等[45]提出LR-CNN模型,采用CNN替代RNN解決不能并行計(jì)算的問題,同時采用rethinking機(jī)制增加feedback layer調(diào)整詞匯信息權(quán)值,并引入注意力機(jī)制以更好融入詞匯信息,提高了模型效率;MA等[46]提出一種將詞匯信息融入字符向量表示的簡潔有效方法,與其他引入詞匯信息方法相比性能更好、推理速度更快,且便于遷移到其他序列標(biāo)注框架。

        LIU等[47]提出一種單詞字符LSTM模型,將單詞信息附加到其相關(guān)字符上,獲取單詞邊界信息并減輕分詞錯誤的影響。由于一個字符可能對應(yīng)多個詞,設(shè)計(jì)4種編碼策略將不同的詞嵌入映射到一個固定長度向量中用于批量訓(xùn)練。為了獲取更多詞匯語義和邊界特征,HU等[48]提出一個基于二階詞典知識(Second-order Lexicon Knowledge,SLK)的模型,基于全局語境挖掘更多的可識別詞匯信息,通過注意力機(jī)制融合詞匯知識緩解詞邊界沖突問題。TANG等[49]提出一種單詞—字符圖卷積網(wǎng)絡(luò)來充分利用隱藏在中文NER外部詞典中的單詞信息,將雙向單詞—字符有向無環(huán)圖作為模型輸入,提高了訓(xùn)練速度。SETI等[50]提出一種基于圖卷積網(wǎng)絡(luò)的體育領(lǐng)域NER方法,其中兩層圖卷積網(wǎng)絡(luò)用于提取文本中命名實(shí)體的字符特征和內(nèi)部結(jié)構(gòu)信息,輸入特征表示層將字符信息與單詞向量信息結(jié)合,有效挖掘了體育文本的深層抽象特征和全局語義信息。

        漢字是象形文字,不同字符中的相同語言成分通常具有相同的含義。MENG等[51]提出基于漢字表示的字形向量Glyce,將漢字視為圖像,采用CNN提取字符語義,并將字形嵌入向量表示與BERT(bidirectional encoder representation from transformers)嵌入向量表示融合在一起,作為中文NER的輸入表示。融合后的輸入表示賦予了模型字形信息和大規(guī)模預(yù)訓(xùn)練信息。類似地,LEE等[52]集成了從部首、字符到單詞級別不同粒度的多個嵌入,以擴(kuò)展字符表示;AKBIK等[53]提出一種上下文字符串嵌入方法,利用預(yù)訓(xùn)練的字符級語言模型提取每個單詞的開頭和結(jié)尾字符位置的隱藏狀態(tài),以在句子上下文中嵌入任何字符串。然而,由于沒有上下文的少見字符串難以有意義地嵌入,AKBIK等[54]進(jìn)一步提出可以動態(tài)聚合每個唯一字符串的上下文嵌入方法,即Pooled Contextualized Embeddings,有效解決了該問題。

        1.2 上下文編碼

        目前,NER上下文編碼器有CNN、RNN、預(yù)訓(xùn)練語言模型、Transformer和圖神經(jīng)網(wǎng)絡(luò)。

        1.2.1 卷積神經(jīng)網(wǎng)絡(luò)

        基于CNN的NER模型可自動提取單詞上下文的局部特征,并行計(jì)算效率高,然而存在難以處理長距離依賴問題,以及優(yōu)先考慮文本局部特征導(dǎo)致大量信息丟失的問題。因此,很多學(xué)者對CNN結(jié)構(gòu)進(jìn)行改進(jìn),以捕獲更多的上下文信息。ZHAO等[55]將NER轉(zhuǎn)換為簡單的詞級別多分類任務(wù),提出一種基于多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(Multiple label Convolutional Neural Network, MCNN)的疾病NER方法;STRUBELL等[56]提出基于迭代空洞卷積的、快速準(zhǔn)確的實(shí)體識別方法,以損失部分信息為代價擴(kuò)大卷積核的感受野,使模型捕獲更多上下文信息,同時提高了計(jì)算效率。

        針對CNN難以捕獲序列中長距離上下文信息的問題,CHEN等[57]提出一個基于CNN的門控關(guān)系網(wǎng)絡(luò)(Gated Relation Network, GRN),與CNN相比具有更強(qiáng)大的捕獲全局上下文信息的能力,而且可在整個句子中執(zhí)行并行計(jì)算;YAN等[58]應(yīng)用門控機(jī)制構(gòu)建了一個基于Resnet和擴(kuò)張殘差網(wǎng)絡(luò)(Dilated Residual Networks, DRN)的混合堆疊深度神經(jīng)塊,以更寬的視野捕捉更多局部特征。

        1.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

        基于RNN的模型在序列數(shù)據(jù)建模方面表現(xiàn)出色,特別是雙向RNN可有效利用特定時間范圍內(nèi)的信息。因?yàn)椴捎镁€性序列結(jié)構(gòu)編碼導(dǎo)致無法進(jìn)行并行計(jì)算,大量非實(shí)體詞信息參與實(shí)體識別過程也阻礙了重要實(shí)體特征信息的獲取,所以很多學(xué)者通過改進(jìn)RNN變體[59](LSTM/GRU(gated recurrent unit))的結(jié)構(gòu)或添加注意力機(jī)制[60]來緩解上述問題。PEI等[61]在雙向LSTM-CRF框架中添加注意力機(jī)制,以增強(qiáng)文本中關(guān)鍵特征的權(quán)重;RONRAN等[36]提出兩層雙向LSTM-CRF模型,在不使用任何詞典的情況下,在綜合評價指標(biāo)F值(F-measure)上取得了91.10%的成績。類似地,SETI等[50]采用雙向LSTM作為上下文編碼層,采用自注意力機(jī)制模型捕獲文本的全局語義信息,減少層與層之間語義信息傳遞的累積誤差,增強(qiáng)文本中命名實(shí)體之間的相關(guān)性;DENG等[62]提出一種基于自注意的雙向門控遞歸單元(BiGRU)和膠囊網(wǎng)絡(luò)(CapsNet),在不依賴外部字典信息的情況下具有更好的性能;ALSAARAN等[63]提出一種基于BERT-BGRU的阿拉伯NER方法,該方法在ANERCorp數(shù)據(jù)集和合并的ANERCorp和AQMAR數(shù)據(jù)集上表現(xiàn)最優(yōu)。

        1.2.3 神經(jīng)語言模型

        前述深度學(xué)習(xí)方法依賴大量的標(biāo)注數(shù)據(jù)訓(xùn)練,成本高且易出現(xiàn)人為錯誤,而神經(jīng)語言模型采用無監(jiān)督學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,有效解決了標(biāo)注數(shù)據(jù)缺乏的問題。

        PARVEZ等[64]構(gòu)建了一個基于LSTM-base的語言模型,通過將其分解為兩個實(shí)體類型模型和實(shí)體復(fù)合模型來學(xué)習(xí)候選詞的概率分布;PETERS等[65]提出一種語言模型增強(qiáng)序列標(biāo)記器,采用預(yù)訓(xùn)練的神經(jīng)語言模型擴(kuò)充序列標(biāo)簽?zāi)P椭械臉?biāo)記表示,并嵌入CRF-biLSTM模型;LIU等[66]提出基于知識增強(qiáng)的語言模型(Knowledge-Augmented Language Model, KALM),利用知識庫中可用信息和門控機(jī)制增強(qiáng)傳統(tǒng)語言模型,通過模型中隱藏的實(shí)體類型信息,以完全無監(jiān)督的方式識別命名實(shí)體。

        1.2.4 Transformer

        預(yù)訓(xùn)練語言模型適用于NER,如BERT[67]及其變體RoBERTa[68],ALBERT[69],T5[70],是基于雙向Transformer架構(gòu)的大規(guī)模神經(jīng)網(wǎng)絡(luò),其以無監(jiān)督方式采用開放數(shù)據(jù)集進(jìn)行訓(xùn)練。SUN等[71]提出一個大規(guī)模預(yù)處理的中文自然語言處理模型ChineseBERT,該模型利用漢字的字形和拼音信息來增強(qiáng)文本的語義信息,從表面字符形式中捕捉上下文語義并消除漢語復(fù)音字符歧義;ZHU等[72]將詞典信息融合到中文BERT中,提出一種Lex-BERT模型,采用特殊標(biāo)記識別句子中單詞的邊界,修改后的句子將由BERT直接編碼。

        LI等[73]提出以BERT為主干的統(tǒng)一的機(jī)器閱讀理解(Machine Reading Comprehension, MRC)NER框架,通過微調(diào)模型即可處理重疊或嵌套的實(shí)體;LIANG等[74]提出BERT輔助的遠(yuǎn)程監(jiān)督開放域NER方法,首次利用預(yù)訓(xùn)練的語言模型(ELMo[75],BERT[67],XLnet[76])實(shí)現(xiàn)遠(yuǎn)程監(jiān)督的開放域NER;XUE等[77]提出一個NER特有的從粗到細(xì)實(shí)體知識增強(qiáng)(Coarse-to-Fine Entity knowledge Enhanced, CoFEE)的預(yù)訓(xùn)練框架,將從粗到細(xì)自動挖掘的實(shí)體知識注入BERT預(yù)訓(xùn)練模型。該框架分為3個階段,即通過實(shí)體跨度識別任務(wù)預(yù)熱模型、利用基于地名錄的遠(yuǎn)程監(jiān)督策略訓(xùn)練模型提取粗粒度實(shí)體類型、通過聚類挖掘細(xì)粒度的命名實(shí)體知識。LI等[78]引入一個平面點(diǎn)陣Transformer(Flat-Lattice-Transformer, FLAT)來融合中文NER的詞匯信息,將點(diǎn)陣結(jié)構(gòu)轉(zhuǎn)換成一組跨度,引入特定位置的編碼,避免了詞匯信息損失并提高了性能。

        1.2.5 圖神經(jīng)網(wǎng)絡(luò)

        基于圖神經(jīng)網(wǎng)絡(luò)的NER模型適合處理圖結(jié)構(gòu)數(shù)據(jù),如文檔間的結(jié)構(gòu)信息、層次分類和依賴樹。

        GUI等[79]提出具有全局語義的基于詞典的圖神經(jīng)網(wǎng)絡(luò)(Lexicon-based Graph Neural network, LGN),其將詞典知識與相關(guān)字符連接來捕獲局部特征,用全局中繼節(jié)點(diǎn)捕獲全局句子語義和長距離依賴,可有效解決中文詞歧義問題;CETOLI等[35]提出基于圖卷積網(wǎng)絡(luò)的NER方法,采用雙向圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)提升雙向LSTM的性能;TANG等[49]提出單詞—字符GCN,采用交叉GCN塊同時處理兩個方向的單詞—字符有向無環(huán)圖,并結(jié)合自注意力網(wǎng)絡(luò)排除圖中的瑣碎信息,其操作可在所有節(jié)點(diǎn)上并行。針對中文NER缺乏實(shí)體邊界分隔空間的問題,LEE等[52]提出基于多嵌入增強(qiáng)多圖神經(jīng)網(wǎng)絡(luò)的NER方法,通過集成不同粒度的多個嵌入來擴(kuò)展字符表示,并將其輸入到多個門控圖序列神經(jīng)網(wǎng)絡(luò)(Gated Graph Sequence Neural Networks, GGSNN)來識別命名實(shí)體。如圖5所示為多嵌入增強(qiáng)多圖神經(jīng)網(wǎng)絡(luò)架構(gòu),模型核心為自適應(yīng)GGSNN,GGSNN通過使用帶有GRU的神經(jīng)網(wǎng)絡(luò)生成有意義的輸出或?qū)W習(xí)節(jié)點(diǎn)表示,其更擅長捕獲中文NER任務(wù)的局部文本特征。

        SUI等[41]提出一種基于字符的協(xié)作圖網(wǎng)絡(luò),如圖6所示,圖層中有3個單詞字符交互圖:①包含圖(C-graph),對字符和自匹配詞匯之間的聯(lián)系進(jìn)行建模;②轉(zhuǎn)換圖(T-graph),在字符和最近上下文匹配詞之間建立直接連接;③格子圖(L-graph),通過多跳隱式捕獲自匹配詞匯和最近上下文詞匯的部分信息。該網(wǎng)絡(luò)在大部分中文NER數(shù)據(jù)集上具有最佳性能。LUO等[80]提出一種二分平圖網(wǎng)絡(luò)(Bipartite FlatGraph network,BiFlaG)模型用于嵌套NER。

        1.3 標(biāo)簽解碼器

        標(biāo)簽解碼器處于NER模型的最后階段。目前,標(biāo)簽解碼器架構(gòu)可分為二元分類器Softmax、CRF、遞歸神經(jīng)網(wǎng)絡(luò)、指針網(wǎng)絡(luò)(pointer network)和膠囊網(wǎng)絡(luò)(capsule network)。

        1.3.1 二元分類器Softmax

        早期的NER模型[39,81]多采用多層感知機(jī)(Multi-Layer Perceptron, MLP)+Softmax作為標(biāo)簽解碼器。XIA等[82]提出一個多粒度命名實(shí)體模型,用兩層全連接神經(jīng)網(wǎng)絡(luò)將候選實(shí)體分為預(yù)定義的類別;LI等[73]采用兩個Softmax,一個預(yù)測每個標(biāo)記是否為起始索引,另一個標(biāo)記每個令牌是否為結(jié)束索引,為給定上下文和特定查詢輸出多個開始索引和多個結(jié)束索引,緩解實(shí)體重疊問題。

        1.3.2 條件隨機(jī)場

        CRF是一個以觀察序列為條件的全局隨機(jī)場,已廣泛用于基于特征的監(jiān)督學(xué)習(xí)。目前,大部分基于深度學(xué)習(xí)的NER模型均選擇CRF層作為標(biāo)簽解碼器,從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)約束,以確保最終預(yù)測的實(shí)體標(biāo)簽序列有效。目前,已有很多工作選擇CRF層作為標(biāo)簽解碼器應(yīng)用在雙向LSTM層之后47]、CNN層之后[58]以及GCN層之后[35,49-50]。

        1.3.3 指針網(wǎng)絡(luò)

        指針網(wǎng)絡(luò)是VINYALS等[83]提出的用于學(xué)習(xí)輸出序列條件概率的神經(jīng)網(wǎng)絡(luò)模型,其中元素是與輸入序列中的位置相對應(yīng)的離散標(biāo)記。指針網(wǎng)絡(luò)將注意力作為指針,選擇輸入序列元素作為輸出,解決可變大小的輸出詞典問題。ZHAI等[84]采用指針網(wǎng)絡(luò)作為標(biāo)簽解碼器,在分割和標(biāo)記方面均取得較好的效果。

        1.3.4 膠囊網(wǎng)絡(luò)

        膠囊網(wǎng)絡(luò)是SABOUR等[85]首次提出的一種具有更強(qiáng)解釋性的新網(wǎng)絡(luò),不同于CNN模型中的標(biāo)量值,其輸入輸出均為向量形式的神經(jīng)元,神經(jīng)元中的每個值表示一個屬性,如姿態(tài)、形變、顏色等;ZHAO等[86]提出用于文本分類的CapsNet,提高了分類性能。在NER領(lǐng)域中,DENG等[62]用CapsNet作為標(biāo)簽解碼器,膠囊表示實(shí)體標(biāo)簽,膠囊向量的模長度表示實(shí)體標(biāo)簽預(yù)測概率,膠囊向量的方向表示實(shí)體屬性。因?yàn)槟z囊網(wǎng)絡(luò)用膠囊向量表示代替標(biāo)量表示,所以具有更強(qiáng)的實(shí)體信息表達(dá)能力。

        2 其他應(yīng)用深度學(xué)習(xí)的命名實(shí)體識別方法

        前面概述了基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的NER方法,本章將簡述基于其他深度學(xué)習(xí)技術(shù)的NER方法。

        深度神經(jīng)網(wǎng)絡(luò)模型無需人工特征,但需要大規(guī)模標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練,人工標(biāo)注成本較高。領(lǐng)域自適應(yīng)是解決該問題最有效的途徑,其用來自相關(guān)源領(lǐng)域的豐富標(biāo)記數(shù)據(jù)增強(qiáng)基于目標(biāo)領(lǐng)域模型的泛化能力。LEE等[87]在實(shí)體抽取中引入遷移學(xué)習(xí),將預(yù)訓(xùn)練好的實(shí)體抽取模型遷移到其他場景,效果良好;ALSAARAN等[63]通過微調(diào)預(yù)訓(xùn)練的BERT模型識別和分類阿拉伯命名實(shí)體,有效提高了模型訓(xùn)練效率;YANG等[88]提出多任務(wù)跨語言的聯(lián)合訓(xùn)練模型,在任務(wù)和語言間共享網(wǎng)絡(luò)架構(gòu)和模型參數(shù),提高了模型性能;JIA等[89]研究了用于多任務(wù)學(xué)習(xí)的多細(xì)胞合成LSTM結(jié)構(gòu),用單獨(dú)的細(xì)胞狀態(tài)對每個實(shí)體類型進(jìn)行建模,借助實(shí)體類型單元,可以在實(shí)體類型級別進(jìn)行跨領(lǐng)域知識轉(zhuǎn)移。然而,基于遷移學(xué)習(xí)的方法仍存在局限性:①當(dāng)源域和目標(biāo)域文本特征分布差別過大時,通過遷移學(xué)習(xí)進(jìn)行微調(diào)可能導(dǎo)致過擬合;②特定領(lǐng)域的信息通常被忽略。因此,HAO等[90]提出一個半監(jiān)督的可遷移NER框架,將領(lǐng)域不變的潛在變量和領(lǐng)域特定的潛在變量分開,其在跨域和跨語言的NER表現(xiàn)最佳。

        LAI等[91]提出基于圖注意力網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合抽取模型(joint Entity-Relations Extraction via Improved Graph Attention networks,ERIGAT),可有效提取多跳節(jié)點(diǎn)信息;CARBONELL等[92]提出利用圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)半結(jié)構(gòu)化文檔中的NER和關(guān)系預(yù)測的方法,可從半結(jié)構(gòu)化文檔中提取結(jié)構(gòu)化信息;LUO等[93]提出無監(jiān)督的神經(jīng)網(wǎng)絡(luò)識別模型,其僅從預(yù)訓(xùn)練的單詞嵌入中獲取信息,并結(jié)合基于強(qiáng)化學(xué)習(xí)的實(shí)例選擇器區(qū)分陽性句子和有噪聲句子,然后對粗粒度標(biāo)注進(jìn)行細(xì)化,實(shí)驗(yàn)表明在不使用標(biāo)注詞典或語料庫的情況下性能顯著。針對NER的過擬合問題,WANG等[94]提出一種用于NER的對抗訓(xùn)練LSTM-CNN方法。

        MUIS等[95]提出可處理重疊和不連續(xù)實(shí)體的超圖模型,WANG等[96]用LSTM擴(kuò)展了超圖模型,XIANG等[97]提出一種基于遷移的非連續(xù)神經(jīng)模型,這些NER模型可有效排除重疊或不連續(xù)實(shí)體;LI等[98]提出基于跨度的聯(lián)合模型,以端到端的方式識別重疊和不連續(xù)的實(shí)體,人工干預(yù)少且可并行計(jì)算;ZHANG等[99]提出統(tǒng)一的多模態(tài)圖融合方法(Unified Multi-modal Graph Fusion, UMGF),可以為NER捕獲多模態(tài)語義單元之間的各種語義關(guān)系。

        3 基于深度學(xué)習(xí)的命名實(shí)體識別方法對比

        目前,NER模型的研究主要側(cè)重于輸入表示和文本上下文編碼模型的設(shè)計(jì)與改進(jìn),標(biāo)簽解碼器主要采用CRF,其在捕獲標(biāo)簽轉(zhuǎn)換依賴關(guān)系方面非常強(qiáng)大。

        分布式輸入表示是影響NER性能的首要環(huán)節(jié),其可混合多種特征,包括字特征、詞特征、詞性特征、句法特征、位置特征、部首信息特征、拼音特征、領(lǐng)域字典等信息,也可將外部知識庫作為字符特征信息的補(bǔ)充。領(lǐng)域詞匯增強(qiáng)可顯著提高NER性能,然而構(gòu)建領(lǐng)域詞典的經(jīng)濟(jì)成本高,而且整合外部詞典會對端到端學(xué)習(xí)產(chǎn)生不利影響,降低了模型的泛化性。

        表1總結(jié)了各種輸入表示的特點(diǎn),并對比了其優(yōu)缺點(diǎn)?;旌隙嗵卣鞯妮斎氡硎拘阅苊黠@優(yōu)于基于單詞或基于字符級別的輸入表示,其中詞向量嵌入、基于CNN字符嵌入和上下文嵌入均為比較常用的方法,用GCN、圖注意力網(wǎng)絡(luò)(Graph Attention network, GAT)、BERT等挖掘文本深層次的抽象特征是目前研究的熱點(diǎn)。

        表1 分布式輸入表示對比

        表2總結(jié)了文本上下文編碼模型,從捕獲長距離依賴、局部上下文信息、并行性、信息損失程度、可遷移性等方面對模型進(jìn)行了對比。根據(jù)每個上下文編碼模型的結(jié)構(gòu)及其相關(guān)文獻(xiàn)表明,基于CNN,GNN等相關(guān)的NER模型在捕獲局部上下文信息、并行性等能力方面顯著優(yōu)于基于RNN和Transformer的相關(guān)模型,在捕獲局部上下文信息和并行性方面評級為高。然而,因?yàn)镽NN采用線性序列結(jié)構(gòu)編碼,使其在捕獲長距離依賴方面表現(xiàn)出色,很難并行化,所以在捕獲長距離依賴方面評級為高,在并行性方面評級為低。Transformer架構(gòu)的堆疊自注意力模塊可有效捕獲全局上下文信息,評級為高。上下文編碼模型均有一定信息損失,ID-CNN[56]是以損失部分信息為代價擴(kuò)大卷積核的感受野,Lattice LSTM[44]為了引進(jìn)詞典構(gòu)建的模型也會損失大量信息,在信息損失程度方面評級為高。相比之下,基于圖神經(jīng)網(wǎng)絡(luò)的NER模型、FLAT[78]、Simplify the Usage of Lexicon[47]最大程度避免了詞匯信息損失,評級為低。在準(zhǔn)確度方面,上下文編碼模型在CoNLL03數(shù)據(jù)集中的F值超過92%,在MSRA數(shù)據(jù)集中的F值超過94%,評級為高,其他評級為一般。

        表2 上下文編碼

        文本上下文編碼采用深度學(xué)習(xí)網(wǎng)絡(luò)捕獲上下文依賴關(guān)系,用于上下文編碼的深度學(xué)習(xí)模型各有優(yōu)缺點(diǎn),適用于不同場景。對于實(shí)時性要求高的場景,CNN改進(jìn)模型和BERT模型均可實(shí)現(xiàn)并行計(jì)算,但BERT模型復(fù)雜度較高,在計(jì)算速度和推理速度方面低于CNN模型,最新的FLAT模型在推斷速度和詞匯信息損失方面表現(xiàn)優(yōu)異。微調(diào)預(yù)訓(xùn)練模型雖然適用于領(lǐng)域樣本匱乏的小樣本學(xué)習(xí)場景,但是在一些領(lǐng)域的性能并不好,因?yàn)轭A(yù)訓(xùn)練的語料庫具有強(qiáng)命名規(guī)律、高提及覆蓋率和充足的上下文多樣性,會破壞模型的泛化能力。近期研究雖然通過遷移學(xué)習(xí)、多任務(wù)聯(lián)合學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、對抗訓(xùn)練、多模態(tài)等方法來緩解領(lǐng)域樣本匱乏問題,但是仍然面臨巨大挑戰(zhàn)。領(lǐng)域中實(shí)體嵌套多的場景適用BiFlaG、超圖模型和基于跨度的聯(lián)合模型。

        4 結(jié)束語

        NER對于在海量工業(yè)制造全流程數(shù)據(jù)中挖掘出有價值的信息意義重大,本文綜述了傳統(tǒng)NER方法和基于深度學(xué)習(xí)的NER方法,對近年主流的基于深度學(xué)習(xí)的NER技術(shù)從分布式輸入表示、上下文編碼、標(biāo)簽解碼器3個方面進(jìn)行了闡述和分析,并對比了分布式輸入方法和上下文編碼模型的性能和優(yōu)缺點(diǎn)。未來NER領(lǐng)域仍需應(yīng)對大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)缺乏、跨域NER、嵌套實(shí)體抽取、新實(shí)體的有效識別、NER的高準(zhǔn)確率和高覆蓋率等挑戰(zhàn),如何面向多模態(tài)數(shù)據(jù)進(jìn)行多模態(tài)實(shí)體識別將成為領(lǐng)域研究的熱點(diǎn)。

        猜你喜歡
        字符實(shí)體標(biāo)簽
        尋找更強(qiáng)的字符映射管理器
        字符代表幾
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        中国一级毛片在线观看| 亚洲蜜臀av一区二区三区| 国产极品视觉盛宴| 99热久久精里都是精品6| 日韩欧美在线播放视频| 亚洲熟女一区二区三区不卡| 91露脸半推半就老熟妇| 国产精品熟女视频一区二区| 亚洲综合色秘密影院秘密影院| 国产亚洲激情av一区二区| 男女男精品视频网站免费看| 中文字幕人妻被公上司喝醉| 国产在线成人精品| 丰满少妇又爽又紧又丰满动态视频| 日出白浆视频在线播放| 色多多a级毛片免费看| 激情久久无码天堂| 国产精品又污又爽又色的网站| 欧美日韩午夜群交多人轮换| 人妻丰满熟妇av无码区免| 亚洲精品日本| 久久精品国产熟女亚洲av麻豆| 国产精品无码久久综合网| 久久婷婷综合色丁香五月| 国产真实二区一区在线亚洲| 东北女人一级内射黄片| 午夜无码国产理论在线| 久久精品国产亚洲一区二区| 成人国产av精品麻豆网址| 日本大乳高潮视频在线观看| 国产亚洲日韩一区二区三区| 亚洲日本视频一区二区三区| 国产亚洲精品国产精品| 亚洲国产日韩欧美一区二区三区 | japanese无码中文字幕| 国产高清天干天天视频| 国产在线观看午夜视频| 狠狠噜天天噜日日噜无码| 免费人成在线观看播放国产| 自拍偷拍亚洲视频一区二区三区| 97人伦影院a级毛片|