趙 輝,龐海婷,馮珊珊,韓東辰
(長(zhǎng)春工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,吉林 長(zhǎng)春 130012)
在計(jì)算機(jī)科學(xué)人工智能大發(fā)展下,信息抽取IR 作為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,主要用來(lái)對(duì)文本信息進(jìn)行結(jié)構(gòu)化處理。信息抽取包含命名實(shí)體識(shí)別、關(guān)系提取、事件抽取和共指消解等多個(gè)子任務(wù)。命名實(shí)體識(shí)別NER是信息抽取研究中的子任務(wù),是關(guān)系抽取、語(yǔ)義角色標(biāo)注、自動(dòng)問(wèn)答等基礎(chǔ)工具。命名實(shí)體識(shí)別主要用來(lái)識(shí)別非結(jié)構(gòu)化文本中指代性強(qiáng)的真實(shí)具體相互區(qū)別的實(shí)體,比如特定實(shí)體人名、地名、機(jī)構(gòu)名、專有名詞等,并對(duì)所識(shí)別的實(shí)體屬類進(jìn)行標(biāo)注類型。例如臺(tái)風(fēng)“煙花”不在寧波登陸為何寧波雨量浙江第一。臺(tái)風(fēng)“煙花”為專有名詞,寧波和浙江是地名。因此,命名實(shí)體識(shí)別能將大量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中的實(shí)體識(shí)別出來(lái),對(duì)未來(lái)收集、整理、查詢對(duì)應(yīng)數(shù)據(jù)具有很強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。
近幾年,命名實(shí)體識(shí)別在持續(xù)發(fā)展和進(jìn)步中,在各個(gè)模型中產(chǎn)生很好的效果,并在多個(gè)領(lǐng)域得以運(yùn)用。命名實(shí)體識(shí)別這個(gè)詞是在1995年第6屆消息理解會(huì)議MUC-6[1]上首次提出并命名,將命名實(shí)體識(shí)別設(shè)置為測(cè)評(píng)任務(wù)。此次會(huì)議主要關(guān)注3類專業(yè)名詞的識(shí)別,分別是人名、地名、組織機(jī)構(gòu)名,之后在MUC-7會(huì)議又將類別劃分為3大類和7小類。進(jìn)入21世紀(jì)后,CoNLL國(guó)際會(huì)議將命名實(shí)體定義為包含名稱的短語(yǔ)。
MUC-1~MUC-4會(huì)議都只針對(duì)英語(yǔ)語(yǔ)料,開(kāi)始針對(duì)日語(yǔ)語(yǔ)料是在MUC-5會(huì)議上,開(kāi)始針對(duì)中文語(yǔ)料的測(cè)評(píng)則是在MUC6會(huì)議上,當(dāng)時(shí)這些語(yǔ)料主要是從電子新聞、廣播新聞、紙質(zhì)報(bào)紙等獲得的。一些國(guó)內(nèi)學(xué)者對(duì)中文命名實(shí)體識(shí)別的研究最早是1995年孫茂松等[2]提出基于統(tǒng)計(jì)的方法,使用算法在中文文本中自動(dòng)識(shí)別出人名。2000年ACL會(huì)議上,Zhang Yimin等[3]提出信息抽取系統(tǒng),即識(shí)別實(shí)體及相互關(guān)系,運(yùn)用記憶學(xué)習(xí)算法識(shí)別實(shí)體結(jié)果顯示準(zhǔn)確率為81.10%、召回率為83.69%、F1值為82.38%,識(shí)別效果一般,說(shuō)明該方法對(duì)于中文實(shí)體識(shí)別效果略差。這是因?yàn)橹形拇嬖趯?shí)體邊界劃分不明顯、實(shí)體結(jié)構(gòu)復(fù)雜、一詞多義歧義性、語(yǔ)料較少等問(wèn)題。
中文命名實(shí)體識(shí)別難度高于英文。中文文字本身是沒(méi)有明顯劃分的,不能像英文文本首字母大寫(xiě)、單詞之間有空格劃分,實(shí)體邊界劃分明顯,只需要確定實(shí)體的類別即可。而中文文本只有逗號(hào)、句號(hào)劃分句子,一邊需要確定實(shí)體的邊界,另一邊需要識(shí)別實(shí)體類別標(biāo)注,這些問(wèn)題導(dǎo)致中文文本在命名實(shí)體識(shí)別時(shí)比英文要復(fù)雜。中文命名實(shí)體識(shí)別難點(diǎn)在于:
1)實(shí)體邊界。英文文本單詞與單詞之間通過(guò)空格劃分,但是中文文字之間沒(méi)有類似的標(biāo)識(shí)詞,所以中文文本的命名實(shí)體在識(shí)別前需要先確定詞的邊界,才能對(duì)詞進(jìn)行標(biāo)注,詞的邊界確定利用的是中文分詞方式,中文分詞最早出現(xiàn)的是jieba分詞技術(shù)。因此,中文命名實(shí)體識(shí)別效果首先取決于中文分詞[4]效果的好壞。
2)語(yǔ)料庫(kù)?,F(xiàn)在有越來(lái)越多的網(wǎng)絡(luò)用語(yǔ)出現(xiàn),例如以中文為主、英文為輔,交替出現(xiàn)的文本,使得進(jìn)行中文命名實(shí)體識(shí)別時(shí)需要將英文命名實(shí)體識(shí)別考慮進(jìn)來(lái),另一類網(wǎng)絡(luò)新名稱的出現(xiàn),導(dǎo)致語(yǔ)料庫(kù)的老舊。而且當(dāng)探索一個(gè)新的領(lǐng)域就會(huì)遇到新的名詞,已有的語(yǔ)料庫(kù)不能完全適用于新領(lǐng)域,就需要花大量的人力、時(shí)間構(gòu)造新領(lǐng)域的語(yǔ)料庫(kù)。
命名實(shí)體識(shí)別的研究方法有很多種,可分為基于規(guī)則詞典、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù),還有當(dāng)下熱門(mén)研究,包括基于BERT、ERNIE預(yù)訓(xùn)練模型和基于遷移學(xué)習(xí)的方法等,因此命名實(shí)體識(shí)別還有很多方法值得研究。
規(guī)則和詞典技術(shù)是命名實(shí)體研究識(shí)別方法之一,識(shí)別方法來(lái)源于語(yǔ)言學(xué)家依據(jù)數(shù)據(jù)集特征手工構(gòu)建的特殊詞典和特定規(guī)則模板,配合語(yǔ)法、句法等信息而設(shè)計(jì)規(guī)定的一批規(guī)則模板與詞典,將輸入文本與這些規(guī)則進(jìn)行模式或字符串匹配,從而得到文本中的命名實(shí)體。基于規(guī)則和詞典技術(shù)依賴特定規(guī)則識(shí)別實(shí)體,且多為針對(duì)某一領(lǐng)域內(nèi)的實(shí)體知識(shí)制定的規(guī)則,無(wú)法對(duì)所有領(lǐng)域通用。Kim J H等[5]使用人工規(guī)則進(jìn)行口語(yǔ)輸入文本的命名實(shí)體識(shí)別。Quimbaya A P等[6]使用人工規(guī)則詞典提取電子醫(yī)療記錄文本中的命名實(shí)體。周昆[7]提出一種基于規(guī)則的方法,結(jié)果得到89.29%的準(zhǔn)確率。1997年,張小衡等[8]通過(guò)總結(jié)制定高效名詞的基本規(guī)則,用最大匹配法進(jìn)行分析識(shí)別,效果良好,正確率和召回率均達(dá)到96%以上。但是基于規(guī)則的識(shí)別方法是存在局限性的,首先不能保證詞典完全豐富,其次詞語(yǔ)之間存在一定的歧義,如上下文信息缺乏,以及名稱的“切前”、“縮寫(xiě)”等問(wèn)題,而且隨著實(shí)體的增加,實(shí)體越來(lái)越豐富,面對(duì)大量的數(shù)據(jù)集想要好的識(shí)別效果,需要更加復(fù)雜的規(guī)則模板和詞典集,這樣就消耗大量的時(shí)間和人力。在新領(lǐng)域中舊領(lǐng)域制定的規(guī)則和詞集無(wú)法通用于新領(lǐng)域,語(yǔ)言學(xué)家需要根據(jù)新領(lǐng)域的特點(diǎn)重新書(shū)寫(xiě)規(guī)則、建立知識(shí)庫(kù),重新考慮系統(tǒng)識(shí)別能力,為這些繁瑣的工作量付出很大的代價(jià)。因此舊的規(guī)則難以涵蓋所有語(yǔ)言、規(guī)則之間發(fā)生的沖突、規(guī)則的局限性等,導(dǎo)致這種方法逐漸被后來(lái)的機(jī)器學(xué)習(xí)方法所替代。
以統(tǒng)計(jì)概率為主的機(jī)器學(xué)習(xí)方法于20世紀(jì)末出現(xiàn)在命名實(shí)體識(shí)別任務(wù)中?;跈C(jī)器學(xué)習(xí)的方法本質(zhì)上屬于序列化標(biāo)注問(wèn)題,序列標(biāo)注方法即從標(biāo)記序列中提取實(shí)體塊,例如人名、地名和機(jī)構(gòu)名等實(shí)體塊,再將提取出來(lái)的實(shí)體塊歸納整理,最終獲得由若干詞構(gòu)成的命名實(shí)體及其類別。以統(tǒng)計(jì)概率為主的機(jī)器學(xué)習(xí)方法模型有ME最大熵、CRF條件隨機(jī)場(chǎng)、HMM隱馬爾可夫、DT決策樹(shù)等。
俞鴻魁等[9]提出用角色標(biāo)注方法識(shí)別機(jī)構(gòu)名稱;鄭逢強(qiáng)等[10]使用ME模型識(shí)別實(shí)體,并提出基于知網(wǎng)的改進(jìn)策略;王江偉[11]基于標(biāo)注語(yǔ)料庫(kù),運(yùn)用最大熵(ME)基本框架識(shí)別人名、地名、組織機(jī)構(gòu)名,在訓(xùn)練語(yǔ)料集相對(duì)較小時(shí),訓(xùn)練效果比較好。ME獲得的是所有滿足約束條件中信息熵最大的模型,在命名實(shí)體做分類時(shí)準(zhǔn)確率非常高,但是樣本數(shù)量逐漸增多、約束條件逐漸增加,計(jì)算量也就越來(lái)越復(fù)雜,迭代速度越來(lái)越慢,訓(xùn)練時(shí)間復(fù)雜度非常高,準(zhǔn)確率下降,訓(xùn)練代價(jià)加大[12]。
1999年,Bikel D M等[13]提出隱馬爾可夫模型的Identi Finder TM系統(tǒng),識(shí)別和分類名詞、日期、時(shí)間和數(shù)值等實(shí)體,在英語(yǔ)和西班牙語(yǔ)語(yǔ)料的準(zhǔn)確率是非常高的。將隱馬爾可夫模型(HMM)應(yīng)用在命名實(shí)體識(shí)別算法中[14],利用標(biāo)注好的語(yǔ)料生成一系列概率值,再運(yùn)用維特比算法解碼觀察序列及HMM下的隱藏狀態(tài)序列。但是HMM只考慮了一個(gè)狀態(tài)的影響,忽略了上下文的語(yǔ)義信息。條件隨機(jī)場(chǎng)(CRF)將忽略上下文語(yǔ)義信息的問(wèn)題化解了。2006年,向曉雯[15]將CRF應(yīng)用于中文命名實(shí)體識(shí)別任務(wù)中;Mccallum A等[16]提出基于條件隨機(jī)場(chǎng)(CRF)的命名實(shí)體識(shí)別方法,F(xiàn)1值達(dá)到了88.96%的識(shí)別效果;Han L F等[17]利用CRF進(jìn)行中文NER,在bakeoff-4語(yǔ)料集上得到79.55%的F1值;胡佳慧等[18]提出一種使用pipeline標(biāo)注思路的CRF方法,在中文電子病歷數(shù)據(jù)上F1值達(dá)到了87.72%。
在研究基于人工規(guī)則和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的NER方法中,有部分研究人員提出兩者相結(jié)合的思路和模型,以尋求結(jié)合兩者各自的優(yōu)點(diǎn),得到更好的識(shí)別效果。邱泉清等[19]使用中文知識(shí)庫(kù)構(gòu)建規(guī)則模板,結(jié)合CRF做實(shí)體識(shí)別,并以正確識(shí)別的實(shí)體繼續(xù)反饋到知識(shí)庫(kù),有效實(shí)現(xiàn)中文微博的命名實(shí)體識(shí)別。條件隨機(jī)場(chǎng)模型的優(yōu)勢(shì)在于能夠通過(guò)計(jì)算聯(lián)合概率捕捉全局信息。
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的核心為機(jī)器學(xué)習(xí)模型和算法,基于機(jī)器學(xué)習(xí)的方法比之前基于規(guī)則和詞典的方法效果明顯有所提高,無(wú)需人工制定規(guī)則,減少了一部分人工成本投入,也使得構(gòu)建的模型具有一定的可移植性以及健壯性。更重要的是,因?yàn)槭褂脵C(jī)器代替人來(lái)進(jìn)行特征提取和分類,依靠其強(qiáng)大的計(jì)算能力和效率,可以更有效地處理大規(guī)模的復(fù)雜語(yǔ)料,從而得到更為精準(zhǔn)的識(shí)別結(jié)果。但也有其問(wèn)題存在,主要在于數(shù)據(jù)集的處理、選擇和構(gòu)建合適有效的特征,因?yàn)樘卣鞯倪x取質(zhì)量會(huì)影響算法和模型的結(jié)果。這個(gè)過(guò)程同樣也需要具有專業(yè)領(lǐng)域知識(shí)的人進(jìn)行大量人工標(biāo)注,花費(fèi)的人力和時(shí)間成本還是很高,需要一定的人力和時(shí)間資源投入。
隨著各種算法和模型不斷更迭,深度學(xué)習(xí)技術(shù)逐漸興起,使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法處理命名實(shí)體識(shí)別任務(wù)已經(jīng)成為自然語(yǔ)言處理研究的大趨勢(shì)。目前深度學(xué)習(xí)技術(shù)在命名實(shí)體識(shí)別中的研究方法包括CNN、RNN等[20],以及改進(jìn)RNN模型的LSTM、GRU、BiLSTM、BiGRU等。因此神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)文本特征的方法被大家廣泛應(yīng)用。2003年,Bengio Y等[21]把神經(jīng)網(wǎng)絡(luò)作為概率函數(shù),訓(xùn)練了一個(gè)具有數(shù)百萬(wàn)參數(shù)的模型,被認(rèn)為是首次在語(yǔ)言模型中引入深度學(xué)習(xí)的概念;Kipyatkova I等[22]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的語(yǔ)言模型,通過(guò)RNN調(diào)整訓(xùn)練n-gram語(yǔ)言模型,降低了模型的絕對(duì)錯(cuò)誤率;張聰品等[23]在命名實(shí)體識(shí)別任務(wù)中使用LSTM-CRF模型;Collobert R等[24]提出基于CNN的CNN-CRF模型處理命名實(shí)體識(shí)別任務(wù);2015年,Huang Z等[25]提出BILSTM模型,將BILSTM模型應(yīng)用于序列標(biāo)記數(shù)據(jù)集中,經(jīng)過(guò)實(shí)驗(yàn)證明,BiLSTM模型提取上下文特征能力的效果很好,但是模型存在訓(xùn)練時(shí)間長(zhǎng)、無(wú)法區(qū)分多義詞、缺乏對(duì)局部空間特征提取的問(wèn)題;李麗雙等[26]運(yùn)用BiLSTM模型結(jié)構(gòu),在生物醫(yī)學(xué)數(shù)據(jù)集上F1值達(dá)到了89.09%。
中文場(chǎng)景的命名實(shí)體識(shí)別有著中文的特性,字和詞各含有一定的信息和特征,因此有基于字級(jí)、詞級(jí)以及結(jié)合字詞特征的3個(gè)方向。Jingzhou H等[27]對(duì)比研究了字級(jí)和詞級(jí)基于統(tǒng)計(jì)方法的表現(xiàn),發(fā)現(xiàn)針對(duì)字級(jí)命名實(shí)體識(shí)別效果表現(xiàn)得更好。同時(shí),也有研究人員嘗試在字級(jí)命名實(shí)體識(shí)別結(jié)構(gòu)中加入詞級(jí)特征進(jìn)行綜合訓(xùn)練。王博冉等[28]提出基于字符級(jí)的Lattice LSTM,利用點(diǎn)陣長(zhǎng)短期記憶(Lattice Long Short Term Mermory Network, Lattice LSTM)網(wǎng)絡(luò)處理句子中的詞匯,利用字符作為基礎(chǔ)輸入,通過(guò)從信息流中自動(dòng)找到有用的詞來(lái)降低NER的分詞誤差。
近期學(xué)者們發(fā)現(xiàn)將BERT、ERNIE預(yù)訓(xùn)練模型運(yùn)用到命名實(shí)體識(shí)別研究方法的輸入中,有助于增強(qiáng)語(yǔ)義表示,對(duì)輸入的字向量、詞向量運(yùn)用BERT預(yù)訓(xùn)練模型和ERNIE語(yǔ)義模型,以及挖掘詞間信息的注意力模型(Attention Model,AM)等,再結(jié)合神經(jīng)網(wǎng)絡(luò)模型、機(jī)器學(xué)習(xí)模型產(chǎn)生了準(zhǔn)確率、召回率很高的結(jié)果。
傳統(tǒng)的預(yù)訓(xùn)練模型對(duì)中文文本特征提取能力較弱。2018年,Google AI研究院提出并發(fā)布基于Transformer的雙向編碼器表示BERT方法,可以對(duì)文本語(yǔ)義特征提取深層次特征信息,是深度雙向表示預(yù)訓(xùn)練模型;2019年,王子牛等[29]提出BERT訓(xùn)練詞向量,在1998年人民日?qǐng)?bào)數(shù)據(jù)集實(shí)體識(shí)別的F1值達(dá)到了94.86%,實(shí)體識(shí)別效果得到明顯提升;2020年,王雪梅等[30]采用BERT模型訓(xùn)練中文詞向量,利用BERT增強(qiáng)字的語(yǔ)義表示,完整保存語(yǔ)義信息,解決了多義詞問(wèn)題,并利用BiGRU對(duì)文本深層次語(yǔ)義信息進(jìn)行特征提取,完善了LSTM參數(shù)較多、內(nèi)部計(jì)算復(fù)雜等問(wèn)題。
百度2019年基于自己的深度學(xué)習(xí)框架構(gòu)造了ERNIE模型,它是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上產(chǎn)生的另一個(gè)通過(guò)多任務(wù)學(xué)習(xí)方式充分捕捉語(yǔ)料信息的優(yōu)化模型。2020年,張曉等[31]引入ERNIE模型,結(jié)合深度學(xué)習(xí),利用多任務(wù)學(xué)習(xí)語(yǔ)義知識(shí)對(duì)大規(guī)模語(yǔ)料進(jìn)行建模,實(shí)驗(yàn)表明,F(xiàn)1值達(dá)到了94.46%。
學(xué)者們通過(guò)總結(jié)發(fā)現(xiàn),無(wú)論基于規(guī)則詞典、機(jī)器學(xué)習(xí),還是基于深度學(xué)習(xí),命名實(shí)體識(shí)別都依賴于已經(jīng)標(biāo)注好的訓(xùn)練數(shù)據(jù),并且每個(gè)領(lǐng)域都標(biāo)定大量訓(xùn)練數(shù)據(jù),還需要服從同分布假設(shè),在實(shí)際使用過(guò)程中可能會(huì)遇到標(biāo)注數(shù)據(jù)、訓(xùn)練數(shù)據(jù)過(guò)期的問(wèn)題,完全放棄這些數(shù)據(jù)再標(biāo)注新數(shù)據(jù)是非常繁瑣的過(guò)程。近期學(xué)者們發(fā)現(xiàn)遷移學(xué)習(xí)(Transfer Learning)[32]可以合理有效利用這些數(shù)據(jù),利用源域數(shù)據(jù)和模型完成目標(biāo)域任務(wù)模型構(gòu)建,通過(guò)在目標(biāo)領(lǐng)域建立具有明確分類和清晰可靠的學(xué)習(xí)模型提升模型效果,有效利用殘缺的訓(xùn)練數(shù)據(jù),減少數(shù)據(jù)資源浪費(fèi)情況。
2021年,李猛等[33]通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn)命名實(shí)體識(shí)別,主要思想是通過(guò)遷移學(xué)習(xí)一個(gè)相似任務(wù),構(gòu)建到要完成的任務(wù)上,并完成這個(gè)任務(wù)。例如,孔翔鵬等[34]提出對(duì)維吾爾語(yǔ)進(jìn)行命名實(shí)體識(shí)別操作,由于維吾爾語(yǔ)數(shù)據(jù)資源不夠充分,所以利用遷移學(xué)習(xí)方法把中文命名實(shí)體識(shí)別學(xué)習(xí)到的任務(wù)構(gòu)建到維吾爾語(yǔ)實(shí)體識(shí)別系統(tǒng)中,準(zhǔn)確率達(dá)到了91.39%。利用舊知識(shí)解決新問(wèn)題,表明遷移學(xué)習(xí)方法運(yùn)用到命名實(shí)體識(shí)別中是行之有效的。
命名實(shí)體識(shí)別方法的實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表1。
由表1可以看出,基于規(guī)則詞典、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法在實(shí)驗(yàn)中得出的結(jié)果F1值平均都在80%左右,而近幾年的熱門(mén)研究方法F1值都在90%以上。隨著研究方法的不斷更新,識(shí)別效果逐漸趨于高準(zhǔn)確率,實(shí)驗(yàn)表明,深度學(xué)習(xí)與BERT等方法的融合是最普遍的方法,也是最佳的識(shí)別方法。對(duì)于命名實(shí)體識(shí)別方法還有很多有待探究的方法值得嘗試。
在命名實(shí)體輸入模型之前,需要對(duì)輸入的實(shí)體數(shù)據(jù)集指定一定的規(guī)范性,只有指定了數(shù)據(jù)集的標(biāo)注規(guī)范,輸入到模型中得出的結(jié)果才有可比性。關(guān)于中文命名實(shí)體識(shí)別的標(biāo)注方式[35]有BIO、BIOES、Markup等。
BIO標(biāo)注法,B代表實(shí)體首部,B-school表示一個(gè)school實(shí)體首部;I代表實(shí)體內(nèi)部或結(jié)束,I-person表示一個(gè)person實(shí)體的內(nèi)部或尾部;O代表非命名實(shí)體,標(biāo)注規(guī)范約束了B-school后應(yīng)為I-school,而非I-person。
BIOES標(biāo)注法是BIO標(biāo)注法的擴(kuò)展,B、I、O含義不變;E代表實(shí)體尾部;S表示由一個(gè)詞或字構(gòu)成的單獨(dú)命名實(shí)體。
Markup標(biāo)注法是一種類XML規(guī)范,使用字段設(shè)置類型,
表1 命名實(shí)體識(shí)別方法的實(shí)驗(yàn)結(jié)果對(duì)比
命名實(shí)體識(shí)別評(píng)價(jià)方式[36]有精確率(Precise)、召回率(Recall)、F1值。精確率和召回率用于判斷訓(xùn)練結(jié)果的好壞;F1值通過(guò)結(jié)合前面兩個(gè)指標(biāo)用于判斷整體效果。精確率、召回率和F1值的計(jì)算矩陣見(jiàn)表2。
表2 計(jì)算矩陣
精確率、召回率和F1值的計(jì)算公式分別為:
(1)
(2)
(3)
命名實(shí)體識(shí)別的識(shí)別效果在關(guān)系抽取、語(yǔ)義角色標(biāo)注、自動(dòng)問(wèn)答等NLP任務(wù)中起著不可或缺的作用。文中對(duì)NER的背景做了簡(jiǎn)要介紹,其次對(duì)命名實(shí)體識(shí)別的識(shí)別方法詳細(xì)介紹,近年來(lái)學(xué)者們的研究路線都是以深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取隱含特征,利用CRF求解最優(yōu)序列,如經(jīng)典模型BiLSTM+CRF、BERT+BiLSTM+CRF、BERT+BiGRU+CRF等,都取得了較好的效果。之后學(xué)者們開(kāi)始運(yùn)用當(dāng)下熱門(mén)的方法,如對(duì)語(yǔ)料的操作運(yùn)用Attention注意力機(jī)制[37]、Transformer、BERT、ERNIT等預(yù)訓(xùn)練模型可以提升特征提取能力,又將遷移學(xué)習(xí)加入到命名實(shí)體識(shí)別研究中,避免了舊數(shù)據(jù)集的浪費(fèi)。大部分標(biāo)注方法和評(píng)價(jià)指標(biāo)都大同小異,目的都是為了與其他方法做對(duì)比來(lái)判斷識(shí)別效果。所以無(wú)論用舊的思想,還是新的思想,或者新舊融合的思想,目地都是為了讓命名實(shí)體識(shí)別用一個(gè)簡(jiǎn)單的方法呈現(xiàn)好的識(shí)別效果。因此,命名實(shí)體識(shí)別的研究方法可以向其他領(lǐng)域借鑒學(xué)習(xí),運(yùn)用解決其他問(wèn)題的思想聯(lián)想解決命名實(shí)體識(shí)別方法。命名實(shí)體識(shí)別的識(shí)別能力雖然早已實(shí)現(xiàn),但是更好的識(shí)別效果還有很多方法,面向更多的領(lǐng)域和更廣的知識(shí)空間,有待于做進(jìn)一步的探索。