亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的命名實體識別研究綜述

        2021-06-11 10:15:44何玉潔史英杰宋麗娟
        計算機工程與應(yīng)用 2021年11期
        關(guān)鍵詞:生物醫(yī)學(xué)集上命名

        何玉潔,杜 方,史英杰,宋麗娟

        1.寧夏大學(xué) 信息工程學(xué)院,銀川750000 2.北京服裝學(xué)院 信息工程學(xué)院,北京100029

        命名實體識別(Named Entity Recognition,NER)是自然語言處理的一項基本任務(wù)[1]。主要是將非結(jié)構(gòu)化文本中的人名、地名、機構(gòu)名和具有特定意義的實體抽取出來并加以歸類,進而組織成半結(jié)構(gòu)化或結(jié)構(gòu)化的信息,再利用其他技術(shù)對文本實現(xiàn)分析和理解目的。這對于文本的結(jié)構(gòu)化起著至關(guān)重要的作用。命名實體識別技術(shù)在信息抽取、信息檢索、問答系統(tǒng)等多種自然語言處理技術(shù)領(lǐng)域有著廣泛的應(yīng)用。命名實體識別研究歷史最早可以追溯到1991年,Rau[2]在第七屆IEEE人工智能應(yīng)用會議上發(fā)表了“抽取和識別公司名稱”的有關(guān)研究文章,陸續(xù)出現(xiàn)一些有關(guān)名詞識別的研究。1996年,“命名實體(Named Entity,NE)”一詞首次用于第六屆信息理解會議(MUC-6)[3],會議將命名實體評測作為信息抽取的一個子任務(wù)。隨后出現(xiàn)了一系列信息抽取的國際評測會議,諸如CONLL、IEER-99、ACE等,這些評測會議對命名實體識別的發(fā)展有極大的推動作用。

        命名實體識別的主要技術(shù)主要有三類:基于規(guī)則和字典的方法、基于統(tǒng)計機器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法。(1)基于規(guī)則和字典的方法是命名實體識別中最早使用的方法。基于規(guī)則的方法要構(gòu)造大量的規(guī)則集,規(guī)則集的構(gòu)建大多采用語言學(xué)專家手工構(gòu)造的規(guī)則模板。基于詞典的方法需要建立命名實體詞典,命名實體識別的過程就是在字典或?qū)I(yè)領(lǐng)域知識庫中查找的過程。早期的命名實體識別任務(wù)大多采用基于規(guī)則和詞典的方法實現(xiàn)。Grishma等人[4]利用一些專門的名稱字典,包括所有國家的名稱、主要城市的名稱和公司名稱等開發(fā)了一種基于規(guī)則的命名實體識別系統(tǒng)。由謝菲爾德大學(xué)自然語言處理研究小組開發(fā)的GATE項目中的ANNIE[5]系統(tǒng)就是基于規(guī)則方法的英文信息抽取系統(tǒng)。Collins等人[6]提出的DL-CoTrain(DL代表決策列表,術(shù)語Co-train取自于Blum和Mitchell[7])方法,先將決策列表設(shè)置成種子規(guī)則集,再對該集合進行無監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,最終將規(guī)則集用于命名實體的分類?;谑止ひ?guī)則的方法雖然在小數(shù)據(jù)集上可達到較高的準(zhǔn)確率,但面對大量的數(shù)據(jù)集以及全新領(lǐng)域,這種方式變得不再可取,舊的規(guī)則不適用于新命名實體識別詞匯,新的規(guī)則庫和詞典的建立需要花費大量的時間及人力,并且這些規(guī)則往往依賴于具體語言。如應(yīng)用于英語的規(guī)則難以應(yīng)用于阿拉伯語,難以涵蓋所有的語言,規(guī)則之間常有沖突,有較大的局限性。因此這種方法逐漸被后來的基于統(tǒng)計的機器學(xué)習(xí)方法所替代。(2)基于統(tǒng)計的機器學(xué)習(xí)方法是利用人工標(biāo)注的語料進行有監(jiān)督訓(xùn)練,然后利用訓(xùn)練好的機器學(xué)習(xí)模型實現(xiàn)預(yù)測?;诮y(tǒng)計機器學(xué)習(xí)的模型有隱馬爾可夫模型(Hidden Markov Models,HMM)、最大熵模型(Maximum Entropy Models,MEM)、決策樹(Decision Trees)、支持向量機(Support Vector Machines,SVM)和條件隨機場(Conditional Random Fields,CRF)等。Bikel[8]在1999年提出了基于隱馬爾可夫模型的IdentiFinderTM系統(tǒng),識別和分類名稱、日期、時間和數(shù)值等實體,在英語和西班牙語等多語言上都獲得了較好的成績。Isozaki[9]將SVM應(yīng)用在命名實體識別問題上,在CRL數(shù)據(jù)(該數(shù)據(jù)集基于Mainichi Newspape1994年的CD-ROMs[10])上F值(F值是統(tǒng)計學(xué)中用來衡量模型精確度的一種指標(biāo)?,F(xiàn)被廣泛應(yīng)用在自然語言處理領(lǐng)域,比如命名實體識別、分類等,用來衡量算法的性能)達到了90.3%。Yamada等人[11]針對日文提出了第一個基于SVM的命名實體識別系統(tǒng),他的系統(tǒng)是Kudo的分塊系統(tǒng)(Kudo and Matsumoto,2001)[12]的擴展,該分塊系統(tǒng)在CONLL-2000任務(wù)中取得了最好的結(jié)果。Lin和Tsai等人[13]將最大熵方法與基于詞典匹配和規(guī)則相結(jié)合,用來識別文本中的生物實體。先手動制定規(guī)則,再將制定好的規(guī)則輸入到最大熵模型框架中,提高了系統(tǒng)的準(zhǔn)確率與召回率?;诮y(tǒng)計機器學(xué)習(xí)的方法與之前的方法相比,效果上有了明顯的提高,但是也需要具有專業(yè)領(lǐng)域知識的人進行大量人工標(biāo)注,人工和時間的成本很高。(3)隨著深度學(xué)習(xí)的興起,使用深度學(xué)習(xí)方法解決命名實體識別問題成為了研究熱點。該類方法的優(yōu)勢在于神經(jīng)網(wǎng)絡(luò)模型可以自動學(xué)習(xí)句子特征,無需復(fù)雜的特征工程。本文著重在第2章介紹基于深度學(xué)習(xí)的命名實體識別研究進展。

        1 基于深度學(xué)習(xí)的命名實體識別方法

        深度學(xué)習(xí)是深層神經(jīng)網(wǎng)絡(luò)的簡稱[14]。近些年來,深度學(xué)習(xí)不僅在計算機視覺、圖像處理等方面取得了巨大的成功,而且在自然語言處理領(lǐng)域也取得了很大的進展?;谏疃葘W(xué)習(xí)的NER模型已經(jīng)成為主流。深度學(xué)習(xí)模型對外部輸入數(shù)據(jù)進行逐層特征提取,通過非線性激活函數(shù)從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的特征,完成多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測任務(wù)。目前,在命名實體識別領(lǐng)域中最流行的深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。

        1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的命名實體識別方法

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度前饋神經(jīng)網(wǎng)絡(luò)。Collobert等人[15]提出了基于窗口的(window approach)和基于句子的(sentence approach)兩種方法來進行NER,這兩種結(jié)構(gòu)的主要區(qū)別在于window approach僅使用當(dāng)前預(yù)測詞的上下文窗口進行輸入,然后使用傳統(tǒng)的NN結(jié)構(gòu);而sentence approach是以整個句子作為當(dāng)前預(yù)測詞的輸入,加入了句子中相對位置特征來區(qū)分句子中的每個詞,然后使用了一層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用卷積獲取上下文并將提取的局部特征向量來構(gòu)造全局特征向量,該方法雖然可從大量未標(biāo)記數(shù)據(jù)中進行特征學(xué)習(xí),但其無法解決遠程依賴的問題。Santos等人[16]通過整合字符級CNN來擴展了這個模型,實驗結(jié)果證明,對于葡萄牙語和西班牙語NER都有明顯效果。Yao等人[17]提出一種基于CNN的生物醫(yī)學(xué)命名實體識別模型,使用skip-gram神經(jīng)網(wǎng)絡(luò)模型,該模型雖然不是最快的,但更適合于像醫(yī)學(xué)文獻中稀有詞的訓(xùn)練。Strubell等人[18]提出了迭代卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Network,ID-CNN),IDCNN擴張的卷積、有效輸入寬度可以隨深度呈指數(shù)增長,比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)具有更好的上下文和結(jié)構(gòu)化預(yù)測能力。Wu等人[19]構(gòu)建了一種針對中文電子病歷命名體識別的深度神經(jīng)網(wǎng)絡(luò),實驗結(jié)果表明其模型優(yōu)于其他CRF模型。Gui等人[20]提出目標(biāo)保持對抗神經(jīng)網(wǎng)絡(luò)(Target Preserved Adversarial Neural Network,TPANN),使用大量其他領(lǐng)域注釋數(shù)據(jù)、領(lǐng)域內(nèi)未標(biāo)記數(shù)據(jù)和少量標(biāo)記領(lǐng)域內(nèi)數(shù)據(jù)解決社交媒體領(lǐng)域缺乏大規(guī)模標(biāo)記數(shù)據(jù)集問題。Yang等人[21]采用與文獻[22]相同的結(jié)構(gòu),使用具有最大池的一層CNN來捕獲字符級表示,獲取每個詞的上下文表示后,在最后的預(yù)測層使用基于Softmax和CRF的結(jié)構(gòu)。以上命名實體方法都是在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行改進從而達到不同效果,其識別方法的基本原理和核心公式見表1。

        1.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的命名實體識別方法

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類以序列數(shù)據(jù)為輸入,所有節(jié)點(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。RNN的變體長短期記憶模型(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)都在數(shù)據(jù)建模方面取得了顯著的成就。Huang等人[23]首次將雙向LSTM-CRF(簡稱BILSTM-CRF)模型應(yīng)用于自然語言處理(Natural Language Processing,NLP)基準(zhǔn)序列標(biāo)記數(shù)據(jù)集,如圖1所示。由于采用了雙向LSTM組件,該模型可以捕捉到當(dāng)前時刻t的過去和未來的特征,但該方法需要大量的特征工程。實驗結(jié)果表明BILSTM-CRF是穩(wěn)健的,且對于詞嵌入的依賴較少,即它不需要依靠嵌入詞就可以產(chǎn)生精確的標(biāo)注性能。

        表1 基于卷積神經(jīng)網(wǎng)絡(luò)命名實體識別方法原理及公式

        圖1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的命名實體識別模型圖

        Chiu等人[24]受到Collobert等人[15]的工作啟發(fā)提出了一種新穎的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該架構(gòu)使用混合雙向LSTM和CNN架構(gòu)自動檢測字和字符級特征,從而消除了對大多數(shù)特征工程的需求。該模型在CONLL2003數(shù)據(jù)集上獲得了90.91%的F值。Yang等人[25]提出一種用于序列標(biāo)記的深層次遞歸神經(jīng)網(wǎng)絡(luò),在字符和單詞級別上使用GRU來編碼形態(tài)和上下文信息,并應(yīng)用CRF字段層來預(yù)測標(biāo)簽。該模型在CONLL2003英語NER取得91.20%的F值。Ma等人[22]通過使用雙向LSTM、CNN和CRF的組合,使模型能夠從詞和字符級表示中學(xué)習(xí),實現(xiàn)真正意義上的端到端,無需特征工程或數(shù)據(jù)預(yù)處理,可適用于各種序列標(biāo)記任務(wù)。Zhang等人[26]提出了一種用于中文NER的網(wǎng)格LSTM模型,該模型能夠?qū)卧~本身的含義加入基于詞向量的模型中,以此避免了中文分詞錯誤所帶來的影響,在MSRA語料上達到了93.18%的F值,但對于中文漢字的多義性,該方法還有一定的局限性。Rei[27]提出了一種神經(jīng)序列標(biāo)記體系結(jié)構(gòu),使用海量無標(biāo)注語料庫訓(xùn)練了一個雙向LSTM語言模型,每個LSTM將來自前一時間的隱藏狀態(tài)與來自當(dāng)前步驟的單詞嵌入一起作為輸入,并輸出新的隱藏狀態(tài)。實驗結(jié)果表明,在少量標(biāo)注數(shù)據(jù)上,該語言模型能夠大幅提高NER的效果。Cui等人[28]提出了一個hierarchically-refined representation的模型,該模型的第二層LSTM輸入包含兩方面的信息,一個是上一層的輸出,另外一個來自于label信息,這樣除了文本特征外,上層網(wǎng)絡(luò)還可以學(xué)到label之間的關(guān)系。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以保存前后時刻的狀態(tài)信息,因此該網(wǎng)絡(luò)衍生出了多種不同的命名實體識別方法,其方法原理和公式見表2。

        表2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)命名實體識別方法原理及公式

        1.3 基于Transformer的命名實體識別方法

        2017年,Transformer模型的提出成為近幾年NLP領(lǐng)域最有影響力的工作。Transformer模型由Vaswani等人[29]提出,其模型架構(gòu)和大多數(shù)神經(jīng)網(wǎng)絡(luò)序列模型架構(gòu)一樣采用了encode-decode結(jié)構(gòu)。Transformer模型摒棄了遞歸和卷積操作,完全依賴于注意力(attention)機制,通過多頭自注意力(Multi-headed self-attention)機制來構(gòu)建編碼層和解碼層。其編碼器(encoder)由6個編碼塊(block)組成,每個塊由自注意力機制和前饋神經(jīng)網(wǎng)絡(luò)組成,解碼器(decoder)由6個解碼塊組成,每個塊由自注意力機制,encoder-decoder attention以及前饋神經(jīng)網(wǎng)絡(luò)組成。與已有的模型相比,RNN通過逐步遞歸獲得全局特征,CNN只能獲取局部特征,通過堆疊多層卷積來增大感受野,而Transformer模型通過參數(shù)矩陣映射,進行Attention操作,并將該過程重復(fù)多次,最后將結(jié)果拼接起來,就能一步到位獲取全局特征。其模型結(jié)構(gòu)圖如圖2所示[29]。

        圖2 Transformer模型圖

        Yan等人[30]針對Transformer無法捕獲方向信息及相對位置等問題對模型做出改進,提出了TENER(Transformer Encoder for NER)模型,設(shè)計了帶有方向與相對位置信息的atteniton機制。該模型在MSRA中文語料上F值達到92.74%,在英文數(shù)據(jù)集OntoNotes5.0上F值達到88.43%。Google在2018年提出了采用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)來進行預(yù)訓(xùn)練的語言模型BERT[31](Bidirectional Encoder Representations from Transformers),成功地在當(dāng)年11項NLP任務(wù)中取得了令人矚目的成績,成為目前最好的突破性技術(shù)之一。因此越來越多的研究者也開始將BERT引入命名實體識別任務(wù)。

        楊飄等人[32]在中文命名實體識別任務(wù)上引入BERT預(yù)訓(xùn)練模型,提出了BERT-BIGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu),該模型在MSRA中文語料上可以獲得較好的效果,并且超過了Zhang等人[26]提出的網(wǎng)格LSTM,F(xiàn)值達到95.43%,比網(wǎng)格LSTM高出2.25%。但該方法的參數(shù)量更大,所需的訓(xùn)練時間也更長。Souza等人[33]結(jié)合BERT的遷移能力和CRF的結(jié)構(gòu)化預(yù)測,將BERT-CRF架構(gòu)用于葡萄牙語的NER任務(wù),采用基于微調(diào)的遷移學(xué)習(xí)方法,將所有權(quán)值在訓(xùn)練過程中聯(lián)合更新,通過使交叉熵損失最小化來對模型進行優(yōu)化。該模型的效果比之前最先進的(BiLSTM-CRF+FlairBBP)[34]模型表現(xiàn)更好。實驗在只包含人、組織、位置、值和日期五類實體的情況下,F(xiàn)值提高了1%,在包含十類實體(位置、人員、組織、值、日期、標(biāo)題、事物、事件、抽象和其他)的情況下F值提高了4%。Symeonidou等人[35]提出基于Transformer的BioBERT(Biomedical Named Entity Recognition BERT)模型,并利用遷移學(xué)習(xí)方法幫助完成生物醫(yī)學(xué)信息提取任務(wù)。BioBERT模型善于捕捉上下文信息,有助于模型性能的提高。Khan等人[36]提出了一種多任務(wù)Transformer模型對生物醫(yī)學(xué)進行命名實體識別。將使用包含不同槽類型的多個數(shù)據(jù)集訓(xùn)練一個槽標(biāo)記器視為一個多任務(wù)學(xué)習(xí)問題,通過Transformer模型的編碼器捕獲輸入表示的上下文信息,并生成共享的上下文嵌入向量。最后,對于每個任務(wù)/數(shù)據(jù)集生成一個特定的任務(wù)表示。該方法在時間和內(nèi)存方面的效率和效果都有提升。Yu等人[37]將視覺信息融入到NER中,提出了一個基于Transformer的多模態(tài)架構(gòu),將標(biāo)準(zhǔn)Transformer層與跨通道注意機制結(jié)合起來,分別為每個輸入單詞生成圖像感知的單詞表示和單詞感知的視覺表示。檢測命名實體并識別給定的<句子,圖像>對的命名實體類型。以上方法的原理及公式見表3。

        1.4 其他的命名實體識別方法

        近年來在基于深度學(xué)習(xí)的命名實體識別研究上,除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外,還涌現(xiàn)了一些新的方法。Zhou等人[38]針對表示差異和資源不平衡問題提出了雙對抗遷移網(wǎng)絡(luò)(Dual Adversarial Transfer Network,DATNET),主要面向資源匱乏的NER,大量的實驗證明了DATNET相對于其他模型的優(yōu)越性,并在CONLL NER數(shù)據(jù)集上實現(xiàn)了最新的性能。Lee等人[39]通過將訓(xùn)練過的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)參數(shù)轉(zhuǎn)移到另一個有限人工標(biāo)記的數(shù)據(jù)集,改善了在兩個不同數(shù)據(jù)集上實體識別的最新結(jié)果。證明了遷移學(xué)習(xí)對于少量標(biāo)簽的目標(biāo)數(shù)據(jù)集的有效性。Rei等人[40]在BILSTM-CRF模型結(jié)構(gòu)基礎(chǔ)上,重點改進了詞向量與字符向量的拼接。使用attention機制將原始的字符向量和詞向量拼接改進為權(quán)重求和,使用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱層來學(xué)習(xí)attention的權(quán)值,這樣就使得模型可以動態(tài)地利用詞向量和字符向量信息。實驗結(jié)果表明比原始的拼接方法效果更好。Yang等人[41]提出了一種基于深層次遞歸神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,該方法在源任務(wù)和目標(biāo)任務(wù)之間共享隱藏的特征表示和部分模型參數(shù)。實驗結(jié)果表明,當(dāng)目標(biāo)任務(wù)標(biāo)簽較少且與源任務(wù)更相關(guān)時,該方法可以顯著提高目標(biāo)任務(wù)的性能。Yoon等人[42]提出一個新型的NER模型CollaboNet,由多個BILSTM-CRF模型組成,將每個BILSTM-CRF模型作為一個單任務(wù)模型。每個單任務(wù)模型都在特定的數(shù)據(jù)集上進行訓(xùn)練,并且每個單任務(wù)模型都只識別特定的實體類型,這些單個單任務(wù)模型互相發(fā)送信息,將自身所學(xué)到的知識轉(zhuǎn)移到其他單任務(wù)模型上,從而獲得更準(zhǔn)確的預(yù)測。Akbik等人[43]動態(tài)地構(gòu)建了上下文embedding的“內(nèi)存”,存儲每個詞生成的word embedding,并應(yīng)用一個池操作來提取每個單詞的全局表示。這樣使得詞的embedding不僅與當(dāng)前的句子有關(guān),還有文檔中的前文有關(guān)。該方法可以有效解決在未指定的上下文中嵌入罕見字符的問題。在CONLL2003英語數(shù)據(jù)集上達到了最高F值93.18%,德語達到88.27%。Ju等人[44]為解決文本內(nèi)部嵌套實體識別問題,提出一種新的神經(jīng)網(wǎng)絡(luò)模型來識別嵌套實體,通過動態(tài)疊加平面NER層來識別嵌套實體。模型將當(dāng)前平面NER層中的LSTM層輸出合并起來,并隨后將它們提供給下一個平面NER層,這就允許模型以由內(nèi)到外的方式,通過充分利用在相應(yīng)的內(nèi)部實體中的編碼信息來提取外部實體。該動態(tài)模型在嵌套NER上的性能優(yōu)于之前的基于特征系統(tǒng)。其方法、原理及公式見表4。

        表3 基于Transformer命名實體識別方法原理及公式

        1.5 基于深度學(xué)習(xí)的命名實體識別方法對比

        本節(jié)對基于深度學(xué)習(xí)的三大主流方法:基于卷積神經(jīng)網(wǎng)絡(luò)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)和基于Transformer模型進行了對比??偟膩碚f,三種方法的主要差別在于:(1)卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型可以并行運行,訓(xùn)練時間相對于循環(huán)神經(jīng)網(wǎng)絡(luò)要短;(2)卷積神經(jīng)網(wǎng)絡(luò)主要注重局部特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)更注重全局特征;(3)卷積神經(jīng)網(wǎng)絡(luò)輸入元素之間相互獨立,難以考慮上下文信息,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠預(yù)測長距離特征,善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長期依賴性,可有效利用過去特征和未來特征,Transformer模型通過attention機制可更好地捕獲長距離依賴關(guān)系。表5從方法特點、優(yōu)點、缺點這幾個方面對相關(guān)方法進行了歸納總結(jié)。

        表4 其他命名實體識別方法原理及公式

        表5 基于深度學(xué)習(xí)的命名實體識別方法對比

        2 基于深度學(xué)習(xí)的命名實體識別應(yīng)用領(lǐng)域

        隨著NER技術(shù)的不斷成熟,目前基于深度學(xué)習(xí)的命名實體識別已逐漸應(yīng)用到多個應(yīng)用領(lǐng)域并取得了不錯的效果。命名實體識別主要應(yīng)用于生物醫(yī)學(xué)領(lǐng)域[17,42,45-59]、社交媒體[20,60-75]、地理實體識別[76-79]、軍事領(lǐng)域[80-84]、商品名稱實體識別[85-87]、化學(xué)實體識別[88-90]等。表6總結(jié)了一些應(yīng)用領(lǐng)域的代表方法及其貢獻。

        2.1 生物醫(yī)學(xué)領(lǐng)域

        生物醫(yī)學(xué)領(lǐng)域為目前的研究熱點,生物醫(yī)學(xué)文本的快速增長使得信息提取成為生物醫(yī)學(xué)研究的重要基礎(chǔ)。大量的生物醫(yī)學(xué)知識主要以非結(jié)構(gòu)化的形式存在于各種形式的文本中,將命名實體識別應(yīng)用于生物醫(yī)學(xué)領(lǐng)域?qū)ι镝t(yī)學(xué)研究具有重要的應(yīng)用價值。由于生物醫(yī)學(xué)數(shù)據(jù)的龐大以及其存在的詞表外問題,傳統(tǒng)的方法不能達到高效的識別性能,因此,專家們開始將基于深度學(xué)習(xí)的命名實體識別方法應(yīng)用到生物醫(yī)學(xué)領(lǐng)域?;谏疃葘W(xué)習(xí)的方法可以減少特征工程的依賴[45,47]。Gridach等人[45]第一個使用深度神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機場提取生物醫(yī)學(xué)文本中基因、蛋白質(zhì)等生物醫(yī)學(xué)命名實體。通過使用LSTM和CRF的組合,消除了大多數(shù)特征工程任務(wù)的需要,超越了以前傳統(tǒng)方法,同時減少了詞表外問題,這對復(fù)雜的醫(yī)學(xué)文本來說是至關(guān)重要的。

        基于深度學(xué)習(xí)的方法往往需要高質(zhì)量的標(biāo)記數(shù)據(jù),這對醫(yī)學(xué)NER來說是一個難題,為了解決該問題,學(xué)者們研究了如何使用未標(biāo)記的文本數(shù)據(jù)來提高NER模型的性能[17,51,53,56]。Yao等人[17]基于未標(biāo)記的生物醫(yī)學(xué)文本數(shù)據(jù),利用CNN對文本信息中所含的蛋白質(zhì)、基因、疾病和病毒等4類名稱進行了實體識別,并在生物醫(yī)學(xué)文本中用特定標(biāo)簽標(biāo)記。該方法在GENIA數(shù)據(jù)集上F值達到71%。Fries等人[51]建立了SWELLSHARK生物醫(yī)學(xué)命名實體識別(NER)系統(tǒng)的框架,不需要手工標(biāo)記數(shù)據(jù)。該方法將像詞典這樣的生物醫(yī)學(xué)資源通過一個生成模型自動生成大規(guī)模的標(biāo)記數(shù)據(jù)集。該架構(gòu)可以在更短的時間內(nèi)自動構(gòu)建大規(guī)模的訓(xùn)練集。Sachan等人[56]在未標(biāo)記的數(shù)據(jù)上訓(xùn)練了一個雙向語言模型(Bidirectional Language Model,BiLM),并將其權(quán)重轉(zhuǎn)移到與BiLM架構(gòu)相同的NER模型的“預(yù)訓(xùn)練”中,通過語言模型的權(quán)重來初始化NER模型,使NER模型具有更好的初始化參數(shù),然后用Adam優(yōu)化器來微調(diào)預(yù)訓(xùn)練模型。實驗表明,NER模型權(quán)重的這種預(yù)處理對于優(yōu)化器來說是一種很好的初始化方法,與隨機初始化的模型相比,預(yù)訓(xùn)練的模型需要更少的訓(xùn)練數(shù)據(jù)。在模型微調(diào)期間,預(yù)處理模型也收斂得更快。為解決數(shù)據(jù)缺乏和實體類型錯誤分類的問題,Yoon等人[42]提出了利用多個NER模型的組合的CollaboNet。在CollaboNet中,在不同數(shù)據(jù)集上訓(xùn)練的模型相互連接,這樣目標(biāo)模型就可以從其他合作者模型中獲得信息,以減少誤報。

        近年來,基于深度學(xué)習(xí)的方法被廣泛應(yīng)用到生物醫(yī)學(xué)命名實體識別中,并取得了不錯的結(jié)果。但深度學(xué)習(xí)方法往往需要大量的訓(xùn)練數(shù)據(jù),數(shù)據(jù)的缺乏會影響性能。生物醫(yī)學(xué)命名實體識別數(shù)據(jù)集是稀缺資源,每個數(shù)據(jù)集只覆蓋實體類型的一小部分。此外,許多生物實體具有多義性,這也是生物醫(yī)學(xué)命名實體識別的主要障礙之一。

        表6 各應(yīng)用領(lǐng)域的代表方法及其貢獻

        2.2 社交媒體領(lǐng)域

        產(chǎn)生大量數(shù)據(jù)信息的社交媒體也是命名實體識別的一個重要應(yīng)用領(lǐng)域。隨著新媒體的發(fā)展,來自網(wǎng)絡(luò)新聞傳播的信息要遠多于傳統(tǒng)新聞媒體,因此,在社交媒體上進行命名實體識別任務(wù)可挖掘更有價值的信息,可在此基礎(chǔ)上實現(xiàn)對社交平臺上不同的數(shù)據(jù)流進行分析,如檢測事件、熱點話題等。但由于其多樣性,社交媒體數(shù)據(jù)往往含有不恰當(dāng)?shù)恼Z法結(jié)構(gòu)和大量非正式縮略語。這也促使研究者們提出了多個有效的識別方法。

        Twitter作為互聯(lián)網(wǎng)上訪問量最大的十個網(wǎng)站之一,其產(chǎn)生的大量數(shù)據(jù)信息成為NER領(lǐng)域的研究熱點[60-62,66,68,73-74]。Li等人[62]提出了一個無監(jiān)督NER系統(tǒng),稱為TwiNER。利用從維基百科和網(wǎng)絡(luò)語料庫中獲得的全局上下文,使用動態(tài)編程算法將推文劃分為有效的片段(短語)。每個這樣的推文片段都是一個候選命名實體。然后通過一個隨機游走模型(Random Walk Model)計算每個片段成為命名實體的概率。實驗結(jié)果表明在目標(biāo)數(shù)據(jù)集上,其效果優(yōu)于LBJ-NER[91]模型。Tran等人[74,92]針對Twitter數(shù)據(jù)多樣性問題,利用主動學(xué)習(xí)和機器學(xué)習(xí)結(jié)合的方法,降低了標(biāo)注數(shù)據(jù)成本,擴大訓(xùn)練數(shù)據(jù)的覆蓋領(lǐng)域,提高了識別效果。Aguilar等人[93]提出一個多任務(wù)神經(jīng)網(wǎng)絡(luò),采用了通用的命名實體分割的次要任務(wù)和細粒度命名實體分類的主要任務(wù),從單詞和字符序列中學(xué)習(xí)特征表示。方法對社交媒體中的公司、創(chuàng)意、團隊、位置、人名、產(chǎn)品等信息進行了識別,實驗結(jié)果反映出最難識別的是創(chuàng)意這類實體,識別準(zhǔn)確率最高的是人名。

        隨著NER在英文社交媒體上取得了不錯成果,很多學(xué)者對中文社交媒體也展開了研究[63-64,69-71]。Peng等人[64]提出了一種允許聯(lián)合訓(xùn)練學(xué)習(xí)表示的集成模型,在中文社交媒體新浪微博文本中識別人名、組織和位置等實體。He等人[70]提出了一個統(tǒng)一的模型,可以從域外語料庫和域內(nèi)未標(biāo)注文本中學(xué)習(xí)。統(tǒng)一模型包含兩個主要功能,一個用于跨領(lǐng)域?qū)W習(xí),另一個用于半監(jiān)督學(xué)習(xí)。跨領(lǐng)域?qū)W習(xí)功能可以基于領(lǐng)域相似性學(xué)習(xí)領(lǐng)域外的信息,半監(jiān)督學(xué)習(xí)功能可以通過自我訓(xùn)練來學(xué)習(xí)領(lǐng)域內(nèi)未標(biāo)注的信息。在中國社交媒體上,這兩種學(xué)習(xí)功能都優(yōu)于NER的現(xiàn)有方法。目前,由于社交媒體往往是更新速度最快,新詞匯出現(xiàn)最多的領(lǐng)域,且其中含有很多不完整文本信息以及用戶生成的大量噪聲文本,使得該領(lǐng)域命名實體識別任務(wù)變得更加困難和富有挑戰(zhàn)性。

        2.3 化學(xué)領(lǐng)域

        化學(xué)物質(zhì)對各個生命系統(tǒng)的影響使其成為生物醫(yī)學(xué)和臨床醫(yī)學(xué)應(yīng)用中一類重要實體,因此化學(xué)實體的識別對生物醫(yī)學(xué)、化工產(chǎn)業(yè)等領(lǐng)域都有重要的意義。在文獻中,化學(xué)品的命名方式多種多樣,有縮略語、新化學(xué)品命名名稱、化學(xué)符號、化學(xué)元素、化學(xué)公式等,這樣復(fù)雜的數(shù)據(jù)集給化學(xué)實體識別帶來了挑戰(zhàn)。Tchoua等人[94]針對這些問題,使用主動學(xué)習(xí)來有效地從專家那里獲取更多的專業(yè)標(biāo)記的訓(xùn)練數(shù)據(jù),從而提高模型性能。Luo等人[90]利用Attention+BILSTM+CRF方法對文檔中所包含的化學(xué)實體進行識別。為進一步挖掘化學(xué)與疾病之間相互作用信息打下了基礎(chǔ)。通過引入文檔級注意機制,使模型能夠關(guān)注同一標(biāo)記在文檔中多個實例之間的標(biāo)記一致性。Leaman等人[88]開發(fā)了一個tmChem系統(tǒng),主要用于識別出生物醫(yī)學(xué)或者化學(xué)文獻中所包含的化學(xué)實體。通過使用模型組合的方法,將不同標(biāo)記、特征集、參數(shù)的CRF模型進行組合來提高識別效果?;瘜W(xué)命名實體識別的相關(guān)工作較少,但其對挖掘生物醫(yī)學(xué)文本有著基礎(chǔ)性的作用,例如生物治療、藥物與藥物之間的相互作用研究等。

        2.4 其他領(lǐng)域

        命名實體識別技術(shù)在其他應(yīng)用領(lǐng)域也都取得了不錯的結(jié)果。陳鈺楓等人[95]基于漢英雙語命名實體的識別與對齊特性,提出了一種雙語命名實體交互式對齊模型。通過雙語實體的對齊信息使兩種語言特性互補、對實體識別結(jié)果進行修正,為實體識別提供邊界和類別的判斷信息,從而提供識別的準(zhǔn)確率。馮鸞鸞等人[80]在BILSTM+CRF的基礎(chǔ)上采用深度學(xué)習(xí)與傳統(tǒng)語言學(xué)特征相結(jié)合的方法對國防科技領(lǐng)域軍事文本中的技術(shù)和術(shù)語進行了識別。為構(gòu)建國防科技領(lǐng)域知識圖譜打下了基礎(chǔ)。李玉森等人[76]將命名實體識別的相關(guān)技術(shù)應(yīng)用于基于文本的地理空間知識挖掘技術(shù),不僅能夠豐富地理信息系統(tǒng)(Geographic Information System,GIS)的信息來源,而且能夠提升GIS的表達能力和可理解性。Gaio等人[77]提出一種基于知識的方法對文本地理信息中的空間實體進行標(biāo)注,從而更好地分析空間信息、消除地方歧義。對于網(wǎng)絡(luò)情報分析工作來說,命名實體識別是構(gòu)建網(wǎng)絡(luò)安全圖譜的基礎(chǔ),由于網(wǎng)絡(luò)安全領(lǐng)域標(biāo)簽數(shù)據(jù)稀缺,Li[96]等人在BILSTM基礎(chǔ)上提出對抗主動學(xué)習(xí)框架來有效地選擇信息樣本進行進一步的標(biāo)注,對模型進行再訓(xùn)練,從文本網(wǎng)絡(luò)威脅情報中識別關(guān)鍵威脅相關(guān)要素。NER在各領(lǐng)域得到了大量的應(yīng)用,對多個領(lǐng)域都有著積極的作用。圖3為命名實體識別應(yīng)用領(lǐng)域比例圖。

        圖3 命名實體識別應(yīng)用領(lǐng)域比例圖

        3 基于深度學(xué)習(xí)的命名實體識別評測方法及數(shù)據(jù)集

        3.1 評測方法

        命名實體識別評測基本指標(biāo)有三項,分別為正確率(Precision)、召回率(Recall)和F值(F-score)。

        準(zhǔn)確率反映了NER系統(tǒng)識別正確實體的能力,其計算公式為:

        召回率反映了NER系統(tǒng)識別語料庫中所有實體的能力,其計算公式為:

        F值是一個綜合評價指標(biāo),是準(zhǔn)確率和召回率的平均值,其公式為:

        F值是綜合準(zhǔn)確率和召回率指標(biāo)的評估指標(biāo),用于綜合反映整體的指標(biāo),是目前使用最為廣泛的評測標(biāo)準(zhǔn)。

        3.2 數(shù)據(jù)集介紹

        CONLL2003是經(jīng)典的命名實體識別任務(wù)數(shù)據(jù)集之一。主要提供了兩種歐洲語言:英語和德語,共有1 393篇英語新聞文章和909篇德語新聞文章。所有的英語語料都來自于路透社語料庫(Result corpus),該語料庫由路透社的新聞報道組成。德語數(shù)據(jù)的文本信息都來自于ECI多語言文本語料庫(ECI Multilingual Text Corpus),這個語料庫由多種語言的文本組成,CONLL2003中所含的德語數(shù)據(jù)是從德國報紙Frankfurter Rundshau上提取的。CONLL2003中,實體被標(biāo)注為四種類型地名(Location,LOC)、組織機構(gòu)名(Organisation,ORG)、人名(Person,PER)、其他(Miscellaneous,MISC)。

        MSRA-NER[97]數(shù)據(jù)集由微軟研究院發(fā)布,其目標(biāo)是命名實體識別,是指識別文本中具有特定意義的實體,共有五萬多條中文命名實體識別標(biāo)注數(shù)據(jù),主要包括人名、地名、機構(gòu)名等。MUC-6[3]數(shù)據(jù)庫語料主要取自于新聞?wù)Z料,包含318條帶注釋的《華爾街日報》文章。MUC-7語料庫的數(shù)據(jù)主要有紐約時報新聞服務(wù)社提供,約158 000篇文章。

        CoNLL2002西班牙語NER共享任務(wù)數(shù)據(jù)集,包含273 000的訓(xùn)練數(shù)據(jù)集和53 000的測試數(shù)據(jù)集。OntoNotes 5.0[98]由1 745 000英語、900 000中文和300 000阿拉伯語文本數(shù)據(jù)組成,OntoNotes 5.0[99]的數(shù)據(jù)來源也多種多樣,有電話對話、新聞通訊社、廣播新聞、廣播對話和博客。實體被標(biāo)注為地名(Location,LOC)、組織機構(gòu)名(Organisation,ORG)、人名(Person,PER)等18個類別。不同方法在數(shù)據(jù)集上的評測效果見表7。

        表7 不同方法在數(shù)據(jù)集上的評測效果

        表7中,主要總結(jié)了不同方法在CONLL2003、MSRA、OntoNotes 5.0等三個數(shù)據(jù)集上不同的評測效果。圖4為基于卷積神經(jīng)網(wǎng)絡(luò)和基于循環(huán)神經(jīng)網(wǎng)絡(luò)在三個數(shù)據(jù)集上的評測效果展示。從圖5(a)和(b)可看出Akbik等人[100]所提出的Character-level LM-BILSTM-CRF模型在CONLL2003(German)和OntoNotes 5.0數(shù)據(jù)集上都取得了最先進的F值。該模型將句子作為字符序列輸入到預(yù)先訓(xùn)練好的雙向字符語言模型中,利用從語言模型中選擇隱藏狀態(tài)生成在下游序列標(biāo)記任務(wù)有效的word-level embeddings,word-level embeddings由前向LSTM中該詞最后一個字母的隱藏狀態(tài)和反向LSTM中該詞第一個字母的隱藏狀態(tài)拼接組成,以此來兼顧上下文信息,達到更好的效果。雖然基于RNN的模型在NER任務(wù)上已成為主流,但從圖5(a)可以看出只用ID-CNN在CONLL-2003(ENGLISH)數(shù)據(jù)集上也取得了不錯的效果,Strubell等人[18]通過擴張卷積彌補了CNN表示受網(wǎng)絡(luò)有效輸入寬度限制的不足。而且從圖5(b)也可以看出,RNN與CNN結(jié)合的BILSTM-CNN、BRNN-CNN、CNN-LSTM模型在OntoNotes 5.0數(shù)據(jù)集上也都取得較好的結(jié)果。在中文命名實體識別上,圖5(c)中楊飄等人[32]的BERT-BIGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu)在MSRA中文語料上F值達到了最先進的效果。該模型主要加入了BERT預(yù)訓(xùn)練語言模型,BERT采用雙向Transformer作為編碼器,而且還提出了“Masked”語言模型和“下一個句子預(yù)測”兩個任務(wù),分別捕捉詞級別和句子級別的表示,并進行聯(lián)合訓(xùn)練,從而提升了識別效果。圖5(d)為三種方法在CONLL2003和OntoNotes 5.0數(shù)據(jù)集上的效果對比圖,從圖5(d)看出相同的方法在CONLL2003數(shù)據(jù)集上的效果要好于在OntoNotes 5.0數(shù)據(jù)集上。ID-CNN模型雖然在OntoNotes 5.0數(shù)據(jù)集效果要好于BILSTM-CNN模型,但在CONLL2003數(shù)據(jù)集上卻相反,因此對于不同的數(shù)據(jù)集應(yīng)選用合適的方法才能取得更好的效果。通過對以上方法的比較發(fā)現(xiàn)CNN與RNN的結(jié)合以及對于輸入表示方法的改進會改善命名實體識別的效果,所以未來研究可以考慮將RNN與CNN結(jié)合或改進輸入表示的方法從而提高命名實體識別的效果。

        圖4 評測效果圖

        圖5 數(shù)據(jù)分析效果圖

        4 總結(jié)和未來發(fā)展

        4.1 現(xiàn)有工作總結(jié)

        基于深度學(xué)習(xí)的命名實體識別目前已經(jīng)取得了較大的成功,已成為自然語言處理領(lǐng)域中一項重要的基礎(chǔ)性技術(shù),在很多公開數(shù)據(jù)集上都達到了很好的性能。但仍存在以下一些問題:

        (1)邊界詞的識別問題

        詞語邊界的識別錯誤是影響識別效果的主要因素之一,正確的識別實體邊界可以進一步提高實體的識別效果。

        (2)專業(yè)領(lǐng)域詞匯的識別問題

        專業(yè)領(lǐng)域命名實體的產(chǎn)生往往以該領(lǐng)域知識為依據(jù),兼顧其語言規(guī)律特性,有些領(lǐng)域的實體不僅存在詞表外問題,而且有些實體是一詞多義,這使得識別難度大大增加,導(dǎo)致在許多專業(yè)領(lǐng)域無法實現(xiàn)較高的識別性能?;谠搯栴},雖然很多研究人員發(fā)現(xiàn)字符級輸入表示的模型識別效果要好于詞表示,但還是會有一些罕見詞匯無法識別。

        (3)針對訓(xùn)練(標(biāo)注)數(shù)據(jù)缺乏的深入設(shè)計

        采用深度學(xué)習(xí)方法進行命名實體識別時,一般需要大規(guī)模的標(biāo)注數(shù)據(jù)。雖然基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在多個NER任務(wù)上都取得了不錯的結(jié)果,但因為在模型訓(xùn)練中,可用于模型訓(xùn)練的數(shù)據(jù)往往是有限的,有一些標(biāo)準(zhǔn)數(shù)據(jù)集只包括一種或兩種類型標(biāo)注,不包括其他類型,還有一種情況是在有限的訓(xùn)練數(shù)據(jù)中每種類型實體的數(shù)據(jù)只占標(biāo)注數(shù)據(jù)總量的一小部分。這就造成訓(xùn)練數(shù)據(jù)的缺乏從而影響模型的學(xué)習(xí)效果。針對這些問題,逐漸涌現(xiàn)出了一些新的方法,如聯(lián)合訓(xùn)練模型、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等,這些方法雖然解決了標(biāo)注數(shù)據(jù)缺乏的問題,但往往都需要大量的內(nèi)存和時間。因此如何在減少數(shù)據(jù)注釋工作的同時減低成本、提高模型性能還值得學(xué)者們繼續(xù)研究和探索。

        (4)性能的進一步提升

        隨著模型的改進,命名實體識別方法的性能得到了提升,在公開數(shù)據(jù)集上的F值已由80%左右提升至90%以上,并且有極個別的方法突破了95%。雖然不同的數(shù)據(jù)集對于方法存在一定影響,但總體來講,命名實體識別方法的性能仍有較大的提升空間,特別是在特定的應(yīng)用領(lǐng)域。例如在生物醫(yī)學(xué)領(lǐng)域,已有方法的F值大都低于90%;文獻[100,105,108]等方法在德文上的表現(xiàn)均遠低于其在英文上的表現(xiàn)。多模型的結(jié)合、針對數(shù)據(jù)的設(shè)計以及專業(yè)知識的嵌入對方法的性能提高將起到積極的作用。

        4.2 未來研究工作

        就現(xiàn)階段的命名實體識別研究工作取得的成績和存在的問題來說,未來還可以通過以下幾個方面對NER展開研究:

        (1)左邊界詞的檢測。左邊界詞的識別很大程度上影響整個實體的識別,其中可能包括多個詞,因此,一旦第一個單詞被錯誤地標(biāo)記,隨后的單詞標(biāo)記正確率也將受到很大影響。尤其是對于中文實體的識別任務(wù),詞語之間沒有間隔符,會因為分詞或詞匯列表外單詞的影響,難以識別實體邊界,導(dǎo)致實體識別錯誤。目前,主流的中文命名實體識別模型大多都是采用序列標(biāo)注的方法,將實體邊界與實體類別在同一模型中一起標(biāo)注,而忽略了邊界詞識別的重要性,有研究表明,實體邊界識別錯誤是影響識別效果的主要因素之一[113],邊界詞的識別可顯著地提高實體識別效果。因此,接下來可以在加強實體邊界檢測方向上進行研究,提高實體識別的準(zhǔn)確率,如可使用B-I-E的標(biāo)記方案來加強邊界詞的檢測。

        (2)專業(yè)知識的深度結(jié)合。結(jié)合特定專業(yè)知識來提高NER性能,在生物醫(yī)學(xué)、化學(xué)、社交媒體等領(lǐng)域,因為其數(shù)據(jù)的復(fù)雜性及不規(guī)范性,在進行命名實體識別任務(wù)時經(jīng)常會遇到難以準(zhǔn)確識別詞匯列表外單詞的問題。對于一些在詞匯列表外的單詞和低頻詞需要結(jié)合專業(yè)領(lǐng)域的知識來進行數(shù)據(jù)標(biāo)記,可通過領(lǐng)域?qū)<医槿?、人機協(xié)同等方式進一步強化專業(yè)詞匯和規(guī)則,使命名實體識別應(yīng)用到更多的場景中。

        (3)主動學(xué)習(xí)?;谏疃葘W(xué)習(xí)的命名實體識別在訓(xùn)練過程中往往都需要大量的注釋數(shù)據(jù),但注釋數(shù)據(jù)量大耗時,而且還需要專業(yè)領(lǐng)域的專家進行注釋。因此數(shù)據(jù)標(biāo)注問題在NER模型訓(xùn)練中成為了一個難題。主動學(xué)習(xí)可以通過一定的算法查詢最有用的未標(biāo)記數(shù)據(jù),并交由專家進行標(biāo)記,然后用查詢到的數(shù)據(jù)訓(xùn)練模型從而提高模型的精確度。在文獻[74,92,94,96]等研究中都解決了一些特殊領(lǐng)域因?qū)I(yè)標(biāo)記數(shù)據(jù)缺失而導(dǎo)致模型性能較差的問題,證實了將主動學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的有效性。因此,在深度學(xué)習(xí)的基礎(chǔ)上引入主動學(xué)習(xí),未來可作為解決數(shù)據(jù)標(biāo)注問題的一種解決方案。

        (4)多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)涉及多個相關(guān)的任務(wù)同時并行學(xué)習(xí),梯度同時反向傳播,多個任務(wù)通過底層的共享表示來互相幫助學(xué)習(xí),提升主任務(wù)泛化效果。多任務(wù)學(xué)習(xí)的一個基本前提是,不同的數(shù)據(jù)集要有語義和語法上的相似性,這些相似性可以幫助訓(xùn)練一個更優(yōu)化的模型。相比單一數(shù)據(jù)集訓(xùn)練,它有助于減少模型過擬合,還可以解決訓(xùn)練數(shù)據(jù)缺乏問題。因此NER的深度多任務(wù)學(xué)習(xí)也是未來的一個發(fā)展方向,通過考慮不同任務(wù)之間的關(guān)系,多任務(wù)學(xué)習(xí)算法有望比單獨學(xué)習(xí)每任務(wù)的算法取得更好的結(jié)果,Ruder等人[112]已經(jīng)在實驗中得到了證實。

        (5)多模態(tài)網(wǎng)絡(luò)融合。通過多模態(tài)NER網(wǎng)絡(luò)融合文本信息和視覺信息,利用關(guān)聯(lián)圖像更好地識別文本中包含的命名實體。在某些領(lǐng)域中往往存在很多多義詞,這時候就需要依賴于其語境和實體關(guān)聯(lián)圖像。額外的視覺語境可能會引導(dǎo)每個單詞學(xué)習(xí)更好的單詞表征。另一方面,由于每個視覺塊通常與幾個輸入詞密切相關(guān),結(jié)合視覺塊表示可以潛在地使其相關(guān)詞的預(yù)測更加準(zhǔn)確。

        (6)應(yīng)用領(lǐng)域的擴展與深入研究。目前的方法雖然取得了一定的成績,但在具體應(yīng)用領(lǐng)域的性能表現(xiàn)還有待于進一步提升。借鑒強化學(xué)習(xí)的思路,將專業(yè)知識和規(guī)則引入獎勵機制、采用人機協(xié)同的方法以及將多種網(wǎng)絡(luò)進行有機結(jié)合等思路有可能取得新的突破。同時將NER應(yīng)用在更多的學(xué)科領(lǐng)域,為多領(lǐng)域的研究提供幫助,使命名實體識別更有價值,這也是研究NER的目的和意義所在。

        猜你喜歡
        生物醫(yī)學(xué)集上命名
        芻議“生物醫(yī)學(xué)作為文化”的研究進路——兼論《作為文化的生物醫(yī)學(xué)》
        靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
        命名——助力有機化學(xué)的學(xué)習(xí)
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        國外生物醫(yī)學(xué)文獻獲取的技術(shù)工具:述評與啟示
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        復(fù)扇形指標(biāo)集上的分布混沌
        LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
        精品国产麻豆免费人成网站| 富婆叫鸭一区二区三区| 三级网站亚洲三级一区| 亚洲午夜无码毛片av久久| 国产一区二区在线视频| 日韩精品久久久一区| 少妇极品熟妇人妻高清| 久久一二区女厕偷拍图| 蜜桃传媒免费在线观看| 亚洲欧洲成人a∨在线观看| 成在人线av无码免观看麻豆| 乱人伦中文字幕在线不卡网站| 中文字幕亚洲视频三区| 国产午夜激无码av毛片不卡| 最近中文字幕视频完整版在线看 | 亚洲av午夜成人片精品电影| 无码人妻精一区二区三区| 久久精品国产亚洲5555| 久久人妻精品免费二区| 国产精品白丝久久av网站| 男女肉粗暴进来120秒动态图| 99免费视频精品| 少妇又紧又爽丰满在线视频| 国产免费a∨片在线软件| 亚洲AV永久无码制服河南实里| 久久久婷婷综合亚洲av| 日韩少妇人妻中文视频| 天美传媒一区二区| 伊人亚洲综合网色AV另类| 蜜桃噜噜一区二区三区| 波多野结衣爽到高潮大喷 | av狼人婷婷久久亚洲综合| 日本亚洲视频免费在线看| 国产精品9999久久久久仙踪林| 精品高潮呻吟99av无码视频| 在线视频一区二区观看| 韩国av一区二区三区不卡| 性久久久久久久| 谁有在线观看av中文| 青青草小视频在线播放| 西西人体444www大胆无码视频|