亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)增強(qiáng)的中文命名實(shí)體識(shí)別

        2021-11-18 02:18:40胡新棒于溆喬李邵梅張建朋
        計(jì)算機(jī)工程 2021年11期
        關(guān)鍵詞:集上詞典實(shí)體

        胡新棒,于溆喬,李邵梅,張建朋

        (1.中國人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息技術(shù)研究所,鄭州 450003;2.墨爾本大學(xué),澳大利亞 墨爾本3010)

        0 概述

        命名實(shí)體識(shí)別(Named Entity Recognition,NER)旨在從非結(jié)構(gòu)化的文本中抽取人名、地名、結(jié)構(gòu)名等實(shí)體,是自然語言處理中的重要任務(wù)之一,也通常被認(rèn)為是關(guān)系抽?。?]、語義解析[2]、問答系統(tǒng)[3]等下游任務(wù)的基礎(chǔ)。現(xiàn)有的命名實(shí)體識(shí)別方法主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種。最大熵模型[4]、隱馬爾科夫模型[5-6]、條件隨機(jī)場(chǎng)(Conditional Ramdom Field,CRF)[7]等基于傳統(tǒng)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法需要投入大量的人力進(jìn)行語料標(biāo)注與特征模板設(shè)計(jì),實(shí)現(xiàn)成本較高?;谏疃葘W(xué)習(xí)的命名實(shí)體識(shí)別方法由于具有強(qiáng)大的泛化能力,因此成為當(dāng)前的主流方法。對(duì)于基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別模型而言,當(dāng)模型使用字符嵌入時(shí)受未登錄(Out-of-Vocabulary,OOV)詞影響較?。?-9],當(dāng)模型使用詞嵌入時(shí)能充分利用詞邊界信息并減少一字多義的干擾。為兼顧兩者的優(yōu)勢(shì),文獻(xiàn)[10]聯(lián)合字符嵌入與詞嵌入,提出Lattice LSTM 模型,通過融合字詞信息,提高了模型的泛化能力。然而,由于無法獲取詞內(nèi)部信息,該模型在融合過程中存在信息損失的問題,同時(shí),由于長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的單向鏈?zhǔn)浇Y(jié)構(gòu),模型無法并行計(jì)算,因此時(shí)間復(fù)雜度較高。在此基礎(chǔ)上,各種改進(jìn)模型不斷被提出。為減少字詞信息融合過程中的信息損失,文獻(xiàn)[11-13]將字詞信息融合過程由鏈?zhǔn)浇Y(jié)構(gòu)轉(zhuǎn)換為圖結(jié)構(gòu),分別提出基于協(xié)作圖網(wǎng)絡(luò)的CGN 模型、增強(qiáng)全局信息捕捉能力的LGN 模型、通過多維圖解決詞典匹配沖突的Multi-digraph 模型。為提高運(yùn)行速度:文獻(xiàn)[14]通過構(gòu)建SoftLexicon 策略,將字詞信息融合改為靜態(tài)加權(quán)方式,降低融合成本;文獻(xiàn)[15]提出LR-CNN 模型,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的并行化優(yōu)勢(shì),代替長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行特征抽??;文獻(xiàn)[16-17]分別提出FLAT 模型和PLTE 模型,引入transformer 進(jìn)行序列編碼,提高模型并行能力。

        隨著基于字詞聯(lián)合的命名實(shí)體識(shí)別模型不斷被提出,中文命名實(shí)體的識(shí)別效果得到了較大提升,但仍有一些共性問題難以解決。人名、地名等專有名詞在通用語料中出現(xiàn)頻率較低且構(gòu)詞方式無固定規(guī)律,模型中所用word2vec[18]構(gòu)建的詞向量對(duì)這些低頻詞的覆蓋率不高,相應(yīng)的未登錄詞會(huì)干擾實(shí)體邊界的界定。以“代表團(tuán)視察了約旦河”為例,由于“約旦河”在詞向量中屬于未登錄詞,基于字詞聯(lián)合的命名實(shí)體識(shí)別模型更傾向于將“約旦”識(shí)別為一個(gè)實(shí)體。基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型依賴于大規(guī)模訓(xùn)練語料,而大多數(shù)人工標(biāo)記的實(shí)體識(shí)別數(shù)據(jù)集規(guī)模相對(duì)較小,如何利用小樣本學(xué)習(xí)方法提升中文命名實(shí)體識(shí)別的效果有待進(jìn)一步研究。

        為解決上述問題,本文在現(xiàn)有的LR-CNN 模型上進(jìn)行改進(jìn),提出一種基于知識(shí)增強(qiáng)的命名實(shí)體識(shí)別模型AKE。使用改進(jìn)位置編碼的多頭注意力機(jī)制捕捉長(zhǎng)距離依賴,彌補(bǔ)傳統(tǒng)注意力機(jī)制丟失位置信息的缺陷,以提高模型上下文信息捕捉能力。加入知識(shí)增強(qiáng)模塊,在序列編碼過程中融入實(shí)體類別、邊界等附加知識(shí),弱化未登錄詞的影響并緩解模型在小數(shù)據(jù)集上性能表現(xiàn)不佳等問題。

        1 基于知識(shí)增強(qiáng)的中文命名實(shí)體識(shí)別模型

        本文提出的AKE 模型的整體結(jié)構(gòu)如圖1 所示,根據(jù)功能可大致分為字詞聯(lián)合、知識(shí)增強(qiáng)、解碼3 個(gè)模塊。字詞聯(lián)合模塊根據(jù)匹配詞長(zhǎng)度,對(duì)字詞信息進(jìn)行分層融合。在各層中,首先依據(jù)CNN 所用卷積核尺度不同,獲取所在層相應(yīng)長(zhǎng)度的詞組序列;然后經(jīng)由改進(jìn)位置編碼的自注意力機(jī)制,捕獲序列的長(zhǎng)距離依賴;最后與匹配詞進(jìn)行信息融合,得到本層的字詞聯(lián)合結(jié)果。知識(shí)增強(qiáng)模塊通過查詢基于領(lǐng)域知識(shí)等構(gòu)建的實(shí)體詞典,指導(dǎo)字詞聯(lián)合模塊中不同層所得信息的整合,在最終的序列編碼中加入實(shí)體邊界、類別等附加知識(shí)。解碼模塊使用條件隨機(jī)場(chǎng)對(duì)知識(shí)增強(qiáng)后的編碼進(jìn)行標(biāo)注,得到標(biāo)注結(jié)果序列。依據(jù)處理流程,下文將分別對(duì)模型的3 個(gè)模塊進(jìn)行介紹。

        圖1 AKE 模型的整體結(jié)構(gòu)Fig.1 Overall structure of AKE model

        1.1 字詞聯(lián)合模塊

        GUI 等[15]利用CNN 局部特征提取的天然優(yōu)勢(shì)和優(yōu)秀的并行能力,提出LR-CNN 模型,為字詞信息的融合提供了新的思路。然而,盡管該模型的字詞聯(lián)合模塊中,各層CNN 的層內(nèi)可以充分利用并行計(jì)算的優(yōu)勢(shì),但CNN 層間為串行執(zhí)行,當(dāng)CNN 層數(shù)較多時(shí),模型依然存在復(fù)雜度較高的問題。本文在LR-CNN 模型的基礎(chǔ)上,對(duì)其中的字詞聯(lián)合模塊進(jìn)行改進(jìn),首先將各層CNN 改為層間并行,各層同時(shí)進(jìn)行特征抽取,提高模型運(yùn)行速度,然后用基于相對(duì)位置編碼的多頭注意力機(jī)制捕獲長(zhǎng)距離依賴,進(jìn)一步提高字詞聯(lián)合模塊的表征能力。

        字詞聯(lián)合模塊中各層字詞信息的融合結(jié)果,由CNN 所提取的n-gram 的特征信息、對(duì)應(yīng)詞嵌入序列、上一層融合結(jié)果經(jīng)門控網(wǎng)絡(luò)得到,其計(jì)算過程可分為基于CNN 的n-gram 特征信息提取、字詞信息初步融合、字詞信息融合權(quán)重調(diào)整3 個(gè)步驟。

        1.1.1 基于CNN 的n-gram 特征信息提取

        在字詞融合模塊中具有3 層CNN,CNN1、CNN2、CNN3的卷積核分別為HC、HD、HT,以輸入序列X={x1,x2,…,xn}長(zhǎng)度為n為例。在各層中,CNN分別對(duì)1-gram、2-gram、3-gram 的片段進(jìn)行特征提取,經(jīng)非線 性變換,得 到C={c1,c2,…,cn}、D={d1,d2,…,dn}、T={t1,t2,…,tn}特征序列,對(duì)于時(shí)刻τ(1≤τ≤n):

        其中:bC、bD、bT為偏置。

        受CNN 感受野限制,得到的特征序列C、D、T缺少長(zhǎng)距離信息,在LR-CNN 模型中,傳統(tǒng)注意力機(jī)制雖然對(duì)此問題進(jìn)行了彌補(bǔ),但由于位置編碼存在的缺陷,模型會(huì)損失距離信息與方向信息。對(duì)于命名實(shí)體識(shí)別等序列標(biāo)注任務(wù),上文標(biāo)注內(nèi)容會(huì)影響下文標(biāo)注結(jié)果,距離與方向信息的損失會(huì)對(duì)模型產(chǎn)生負(fù)面影響。為解決上述問題,采用基于相對(duì)位置編碼的多頭注意力機(jī)制[19-20]構(gòu)建上下文關(guān)系。在新的注意力機(jī)制中,對(duì)于輸入序列中的時(shí)刻t,將時(shí)刻j的相對(duì)位置嵌入定義如下:

        因此,針對(duì)不同方向的相對(duì)位置τ與-τ,可得到如式(3)所示的相對(duì)位置嵌入。顯然,相比傳統(tǒng)注意力機(jī)制中的位置嵌入,該位置嵌入方式能夠在表征距離信息的同時(shí)保留方向信息。

        在改進(jìn)位置嵌入的基礎(chǔ)上,注意力機(jī)制的具體計(jì)算如下:對(duì)于長(zhǎng)度為l、嵌入維度為d的輸入序列I,由式(4)得到注意力機(jī)制中嵌入維度為dk的Q、K、V,進(jìn)而由式(5)計(jì)算時(shí)刻j對(duì)序列中的時(shí)刻t的注意力概率分布,由式(6)和式(7)得到整個(gè)序列的注意力。

        經(jīng)多頭注意力機(jī)制后,將得到的C′、D′、T′送入下一步進(jìn)行字詞信息的融合。

        1.1.2 字詞信息初步融合

        各層字詞信息的融合可由式(7)中所提取n-gram 的特征信息C′、D′、T′,對(duì)應(yīng)詞嵌入序列Z、下層融合結(jié)果經(jīng)門控網(wǎng)絡(luò)得到。由于word2vec 構(gòu)建的詞向量會(huì)對(duì)低頻詞進(jìn)行過濾,而常用詞一般較短,使得詞長(zhǎng)度越長(zhǎng)時(shí)未登錄詞越普遍,通過在門控網(wǎng)絡(luò)中引入下層融合結(jié)果,可以緩解上層未登錄詞較多導(dǎo)致詞義偏差過大的問題。

        本節(jié)以雙字層序列D″={d″1,d″2,…,d″n}的獲取為例,說明各層字詞信息的融合過程,具體計(jì)算為:將2-gram 提取到的特征序列D′與雙字詞的詞嵌入序列ZD進(jìn)行初步融合得到u1,同時(shí)引入殘差連接促進(jìn)前后向信息傳播。融合結(jié)果D1的獲取過程如式(8)~式(12)所示:

        在得到2-gram 的特征信息與雙字詞詞嵌入序列的融合結(jié)果D1后,將字符層序列C″與D1融合,得到字詞信息的初步融合結(jié)果

        其中:Wg、bg為線性函數(shù)中的權(quán)重系數(shù)與偏置。經(jīng)過這一步融合,上層序列融入了下層的信息,并不斷向上進(jìn)行傳遞,緩解了未登錄詞過多導(dǎo)致詞義偏差過大的問題。經(jīng)過同樣的操作,得到單字層、三字層的初步融合結(jié)果中融入了各層的信息。

        1.1.3 字詞信息融合權(quán)重調(diào)整

        雖然字詞信息初步融合中操作對(duì)字級(jí)信息、詞級(jí)信息、下層信息進(jìn)行了融合,但得到時(shí)三者融合的權(quán)重可能不夠合理。同時(shí),字詞信息初步融合中得到的最高層序列中融入了各層的信息,為緩解上述權(quán)重不合理的問題,按照式(15)~式(19),將初步融合結(jié)果中最上層序列作為附加輸入,與2-gram提取到的特征序列D′、雙字詞的詞嵌入序列ZD進(jìn)行融合,調(diào)整融合過程中的權(quán)重。

        1.2 知識(shí)增強(qiáng)模塊

        現(xiàn)有中文命名實(shí)體識(shí)別模型難以取得重大突破的重要原因在于:大多數(shù)中文人名、常用地名等專有名詞構(gòu)詞方式無固定規(guī)律,實(shí)體邊界確定困難;低頻實(shí)體在詞向量中存在大量未登錄詞,識(shí)別效果較差。因此,解決這些問題是命名實(shí)體識(shí)別研究的重要內(nèi)容。但是,中文人名、常用地名、特定領(lǐng)域名詞等實(shí)體的數(shù)量相對(duì)有限,基于這些知識(shí)構(gòu)建實(shí)體詞典較為容易。因此,充分利用此類實(shí)體詞典,在模型中加入先驗(yàn)知識(shí),對(duì)增強(qiáng)命名實(shí)體識(shí)別模型的泛化能力、遷移能力,提高在小數(shù)據(jù)集和特定領(lǐng)域的實(shí)體識(shí)別效果具有重要意義。然而,如何利用實(shí)體詞典存在一定的挑戰(zhàn)。首先,由于新詞引入、統(tǒng)計(jì)缺漏、實(shí)體劃分粒度差異等問題,基于現(xiàn)有知識(shí)構(gòu)建的實(shí)體詞典很難覆蓋領(lǐng)域內(nèi)所有實(shí)體;其次,通過實(shí)體詞典得到的匹配結(jié)果存在部分錯(cuò)誤,如“戰(zhàn)爭(zhēng)全方位爆發(fā)了”這句話中,“全方”可能被誤識(shí)別為人名實(shí)體。由于上述缺漏與匹配錯(cuò)誤的情況,當(dāng)使用神經(jīng)網(wǎng)絡(luò)中常用的向量拼接、向量相加等特征組合方式,將實(shí)體詞典中的知識(shí)融入模型時(shí),反而可能因噪聲問題對(duì)模型產(chǎn)生負(fù)面影響。

        受注意力機(jī)制的啟發(fā),本文在字詞聯(lián)合模塊的基礎(chǔ)上,通過影響不同層序列的權(quán)重整合進(jìn)行知識(shí)增強(qiáng)。如圖2 所示,對(duì)于經(jīng)字詞聯(lián)合分別得到單字、雙字、三字層序列C″、D″、T″,時(shí)刻τ的對(duì)應(yīng)編碼分別為c″τ、d″τ、t″τ,通過加 權(quán)求和 各層中 相應(yīng)位 置的權(quán) 重可以得到該時(shí)刻的最終編碼xτ′:

        對(duì)于圖2 中類似“代表團(tuán)”中的“代”字,因?yàn)閷?shí)體詞典中無匹配項(xiàng),所以模型將按照式(23)計(jì)算各層權(quán)重:

        圖2 知識(shí)增強(qiáng)流程Fig.2 Procedure of knowledge enhancement

        由于“約旦河”為輸入序列在實(shí)體詞典中的一個(gè)匹配實(shí)體,且長(zhǎng)于匹配詞“約旦”,模型可依據(jù)式(24),將Δ與匹配實(shí)體所在層對(duì)應(yīng)位置的編碼相乘,計(jì)算“約旦河”三字的最終編碼。

        其 中,Δ=ΔLOC且Δ取值為1.05~1.35。由于公 式0、x>0 時(shí),函數(shù)單調(diào)遞增。因此,在本例中,相比式(23)中權(quán)重計(jì)算方式,在“約旦河”的權(quán)重計(jì)算過程中,模型能夠給予三字層中相應(yīng)字更高的權(quán)重,使得到的最終編碼更貼近“約旦河”的向量表示,而雙字層“約旦”的詞向量和單字層的字向量對(duì)模型的影響權(quán)重降低。在這個(gè)過程中,潛在實(shí)體得到了模型的更多關(guān)注,利于發(fā)現(xiàn)未識(shí)別實(shí)體,提高模型召回率。同時(shí),增強(qiáng)過程引入的詞邊界信息能在一定程度上緩解邊界識(shí)別錯(cuò)誤的影響?!皩?duì)最長(zhǎng)匹配實(shí)體進(jìn)行增強(qiáng)”的規(guī)則減少了類似圖2 中“約旦”這樣的嵌套實(shí)體對(duì)詞邊界判定的干擾。對(duì)于上文中所提到類似“全方”這樣的匹配錯(cuò)誤問題,由于不同類別的實(shí)體詞典在不同語料中導(dǎo)致的匹配錯(cuò)誤比例存在差異,因此處理過程中模型在1.05~1.35 范圍內(nèi)隨機(jī)產(chǎn)生增強(qiáng)權(quán)重,防止匹配錯(cuò)誤對(duì)結(jié)果影響過大,并通過模型訓(xùn)練得到所用語料中各實(shí)體類型的最佳增強(qiáng)權(quán)重。對(duì)于缺漏實(shí)體問題,模型將按照式(23)中方式計(jì)算各層權(quán)重,即不進(jìn)行知識(shí)增強(qiáng),消除了實(shí)體匹配缺漏對(duì)模型產(chǎn)生的影響。

        1.3 解碼模塊

        條件隨機(jī)場(chǎng)是序列標(biāo)注任務(wù)中常用的解碼器。對(duì)于知識(shí)融合后的輸出序列,若其對(duì)應(yīng)的標(biāo)注序列為Y={y1,y2,…,yn},所有可能的標(biāo)注序列集合為L(zhǎng)(X′),則標(biāo)注序列y的概率如下:

        其中:ψi(yi-1,yi,X′)=exp(WiX′+bi);Wi與bi為標(biāo)簽對(duì)(yi-1,yi)對(duì)應(yīng)的權(quán)重和偏置。在模型訓(xùn)練過程中,本文采用預(yù)測(cè)值和真實(shí)值的最大化對(duì)數(shù)似然作為優(yōu)化目標(biāo):

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

        為充分評(píng)估本文模型的識(shí)別效果,除常用的Resume[10]、MSRA[21]、Weibo[22-23]等評(píng)估數(shù)據(jù)集外,本文引入OntoNotes5.0[24]、People Daily[25]、Boson 等 公開數(shù)據(jù)集,使得數(shù)據(jù)集的規(guī)模大小、語料來源、劃分粒度覆蓋更全面,評(píng)估結(jié)果更客觀。Resume、MSRA、Weibo 數(shù)據(jù)集與Lattice LSTM[10]中使用相同且有分詞信息;OntoNotes5.0 在OntoNotes4.0 的基礎(chǔ)上加入了更多的數(shù)據(jù),實(shí)體類別劃分更細(xì),也含有分詞等附加信息;People Daily 來源于1998 年的人民日?qǐng)?bào);Boson 來自bosonnlp 提供的公開數(shù)據(jù)集。

        在實(shí)驗(yàn)過程中,OntoNotes5.0 依據(jù)官方提供的代碼進(jìn)行數(shù)據(jù)集切分;People Daily 與fastnlp 提供的切分相同;Boson 數(shù)據(jù)集按照8∶1∶1 的比例進(jìn)行數(shù)據(jù)集切分。表1 給出了實(shí)驗(yàn)中各數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息。

        表1 數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息Table 1 Detailed statistics of datasets

        與Lattice LSTM[10]相同,本文采用由word2vec訓(xùn)練得到的字符向量與詞向量[26],并在訓(xùn)練中進(jìn)行微調(diào)。實(shí)驗(yàn)所用PER、ORG、LOC 等實(shí)體詞典來源于公開數(shù)據(jù)。在實(shí)驗(yàn)過程中,模型使用Adamax[27]作為優(yōu)化函 數(shù),并設(shè)置0.5 的dropout[28]防止過擬合。按照語料規(guī)模,將MSRA、OntoNotes5.0、People Daily歸類為大數(shù)據(jù)集,將Boson、Resume、Weibo 歸類為小數(shù)據(jù)集。對(duì)于3 個(gè)大數(shù)據(jù)集,設(shè)定隱藏層節(jié)點(diǎn)數(shù)為300,CNN 層數(shù)為5;對(duì)于3 個(gè)小數(shù)據(jù)集,設(shè)定隱藏層節(jié)點(diǎn)數(shù)為200,CNN 層數(shù)為4。Weibo 語料來源于社交媒體,口語化比較嚴(yán)重,模型收斂較慢,學(xué)習(xí)率設(shè)為0.005;MSRA 語料較為規(guī)范,學(xué)習(xí)率過大容易導(dǎo)致模型無法收斂,實(shí)驗(yàn)中學(xué)習(xí)率設(shè)置為0.000 5;其他數(shù)據(jù)集學(xué)習(xí)率設(shè)為0.001 5。對(duì)于實(shí)驗(yàn)中的各對(duì)比模型,超參數(shù)設(shè)置都參考其原始的論文描述,以MSRA、Resume 為基準(zhǔn),分別設(shè)置在大數(shù)據(jù)集和小數(shù)據(jù)集上的超參數(shù)。

        2.2 標(biāo)注規(guī)范與評(píng)價(jià)指標(biāo)

        命名實(shí)體識(shí)別通常被作為序列標(biāo)注任務(wù),其標(biāo)注規(guī)范包括BIO、BMESO、BIOES 等多種形式。實(shí)驗(yàn)采用BMESO 標(biāo)注方法,對(duì)于數(shù)據(jù)集中的實(shí)體,根據(jù)長(zhǎng)度與類別,將單字實(shí)體標(biāo)注為S-TYPE,將多字實(shí)體的開始、中間、結(jié)尾字符分別標(biāo)注為B-TYPE、M-TYPE、ETYPE,其中,TYPE 為實(shí)體類別,其他字符標(biāo)注為O。

        將準(zhǔn)確率(P)、召回率(R)和F1 值(F)作為評(píng)價(jià)指標(biāo),具體定義如下:

        其中:Tp為模型識(shí)別出的實(shí)體數(shù)量;Fp為模型誤識(shí)別的實(shí)體數(shù)量;Fn為模型未識(shí)別出的實(shí)體數(shù)量。

        2.3 結(jié)果分析

        相對(duì)于LR-CNN 模型,本文主要做了提高模型并行能力、使用改進(jìn)位置編碼的多頭注意力機(jī)制替代傳統(tǒng)注意力機(jī)制、添加知識(shí)增強(qiáng)模塊融入先驗(yàn)知識(shí)3 個(gè)方面的改進(jìn)。提高模型并行能力的改進(jìn)主要影響模型效率,為評(píng)估其他兩種改進(jìn)策略對(duì)模型性能的影響,分別做了僅改進(jìn)注意力機(jī)制(AKE w/o K)、改進(jìn)注意力機(jī)制且進(jìn)行知識(shí)增強(qiáng)時(shí)的模型性能評(píng)估(AKE)。同時(shí),對(duì)于有分詞信息的OntoNotes5.0、Weibo 兩個(gè)數(shù)據(jù)集,分析分詞信息對(duì)模型的影響(AKE with seg)。此外,與近兩年的主流模型,包括基于字詞聯(lián)合的Lattice LSTM 模型[10]、LGN 模型[12]、SoftLexicon 模型[14]、LR-CNN 模型[15]、FLAT 模型[16]、基于字的TENER 模型[19]在 多個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比。取3 次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果,相關(guān)評(píng)估結(jié)果如表2、表3 所示,其中,“—”表示相關(guān)論文未列出實(shí)驗(yàn)結(jié)果或數(shù)據(jù)集不支持進(jìn)行相應(yīng)實(shí)驗(yàn),最優(yōu)指標(biāo)值用加粗字體標(biāo)示。下文從改進(jìn)策略對(duì)模型識(shí)別性能影響、模型整體識(shí)別性能與魯棒性、模型復(fù)雜度3 個(gè)角度,分別對(duì)多頭注意力及知識(shí)增強(qiáng)對(duì)模型識(shí)別性能的提升、不同模型處理來源各異且規(guī)模不等數(shù)據(jù)集的能力、各模型的時(shí)間與空間成本等方面進(jìn)行分析。

        表2 大數(shù)據(jù)集上命名實(shí)體識(shí)別性能對(duì)比Table 2 Comparison of NER performance on big datasets %

        表3 小數(shù)據(jù)集上命名實(shí)體識(shí)別性能對(duì)比Table 3 Comparison of NER performance on small datasets %

        2.3.1 改進(jìn)策略對(duì)模型識(shí)別性能的影響分析

        通過對(duì)表2、表3 進(jìn)行分析,可得出以下結(jié)論:1)在改進(jìn)注意力機(jī)制對(duì)模型性能的影響方面,在使用改進(jìn)位置編碼的多頭注意力機(jī)制之后,模型的召回率、F1 值均有明顯提高,準(zhǔn)確率在多個(gè)數(shù)據(jù)集上也有更好表現(xiàn),證明了在實(shí)體識(shí)別等序列標(biāo)注任務(wù)中文字距離與方向信息的重要性,也驗(yàn)證了改進(jìn)位置編碼的多頭注意力機(jī)制的有效性;2)關(guān)于知識(shí)增強(qiáng)的改進(jìn),在進(jìn)行知識(shí)增強(qiáng)后,模型的召回率有了進(jìn)一步的提高,通過融入先驗(yàn)知識(shí),模型識(shí)別出了更多的實(shí)體,雖然受實(shí)體詞典錯(cuò)誤匹配所產(chǎn)生噪聲的干擾,準(zhǔn)確率在部分?jǐn)?shù)據(jù)集上有所下降,但總體F1 值依然有所增加;3)在分詞信息對(duì)模型性能的影響方面,在加入分詞信息后,OntoNotes5.0、Weibo 數(shù)據(jù)和其子集的識(shí)別效果都得到了提高,證明了詞邊界在命名實(shí)體識(shí)別任務(wù)中依然是非常重要的,分詞信息的加入在一定程度上減緩了字詞聯(lián)合模塊中詞邊界確定困難的問題。

        為進(jìn)一步探究知識(shí)增強(qiáng)過程中實(shí)體詞典對(duì)數(shù)據(jù)集中標(biāo)記實(shí)體的覆蓋率(entity coverage)、實(shí)體詞典錯(cuò)誤匹配所產(chǎn)生的噪聲比率(noise rate)、數(shù)據(jù)規(guī)模、實(shí)體劃分粒度等對(duì)模型召回率與F1 值的影響,將知識(shí)增強(qiáng)對(duì)模型性能提升情況與上述覆蓋率與噪聲比率依據(jù)數(shù)據(jù)規(guī)模作折線圖如圖3 所示。

        圖3 實(shí)體詞典匹配對(duì)模型識(shí)別性能提升的影響Fig.3 The effect of entity dictionary matching on the improvement of model recognition performance

        結(jié)合表1 中各數(shù)據(jù)集詳細(xì)信息,對(duì)圖3 進(jìn)行分析可以得出以下結(jié)論:

        1)在總體上,在進(jìn)行知識(shí)增強(qiáng)后,隨著數(shù)據(jù)集規(guī)模變化,模型的F1、召回率提升值與實(shí)體詞典對(duì)數(shù)據(jù)集中標(biāo)記實(shí)體的覆蓋率呈現(xiàn)一定的正相關(guān)性,進(jìn)一步驗(yàn)證了知識(shí)增強(qiáng)提高了模型發(fā)現(xiàn)實(shí)體的能力。

        2)在數(shù)據(jù)規(guī)模影響方面,相對(duì)于大數(shù)據(jù)集,知識(shí)增強(qiáng)在小數(shù)據(jù)集上對(duì)模型性能的提升效果更為明顯。在工程應(yīng)用中,由于人工標(biāo)注成本高、特定領(lǐng)域數(shù)據(jù)量小、數(shù)據(jù)受隱私保護(hù)等原因,大規(guī)模標(biāo)注數(shù)據(jù)的獲取往往較為困難,因此本文提出的知識(shí)增強(qiáng)方式通過在模型中融入領(lǐng)域先驗(yàn)知識(shí)提高模型性能,在實(shí)際工程應(yīng)用中具有重要意義。

        3)在實(shí)體類別劃分粒度上,由于People Daily 實(shí)體種類較少、數(shù)據(jù)規(guī)模較大,模型訓(xùn)練較為充分,雖然知識(shí)增強(qiáng)提高了模型的召回率,但對(duì)模型整體F1 值的提升效果不夠明顯。相比之下,盡管OntoNotes5.0 數(shù)據(jù)集規(guī)模更大,但實(shí)體類別劃分粒度較細(xì)、語料中有大量口語化的內(nèi)容,模型識(shí)別能力有進(jìn)一步提升空間,知識(shí)增強(qiáng)對(duì)模型的性能提升更為明顯。

        4)在抗噪聲干擾方面,由于Weibo 數(shù)據(jù)集的子集WeiboNAM 與WeiboNOM 的實(shí)體個(gè)數(shù)較少,模型訓(xùn)練不充分,同時(shí)實(shí)體詞典匹配到的噪聲比率較高,模型的性能受影響波動(dòng)較大。

        5)從實(shí)體詞典對(duì)數(shù)據(jù)集中標(biāo)記實(shí)體的覆蓋率、實(shí)體詞典錯(cuò)誤匹配所產(chǎn)生的噪聲比率來看,雖然本文知識(shí)增強(qiáng)模塊在一定程度上提高了模型性能,但標(biāo)記實(shí)體的覆蓋率總體不高,同時(shí)處理過程中所用降噪方法仍較為簡(jiǎn)單。

        在后續(xù)任務(wù)中,如何擴(kuò)充實(shí)體詞典提高對(duì)標(biāo)記實(shí)體的覆蓋率、改進(jìn)知識(shí)增強(qiáng)模塊降低對(duì)匹配噪聲的影響,將是需重點(diǎn)研究的內(nèi)容。

        2.3.2 模型整體識(shí)別性能與魯棒性分析

        為分析模型的性能及魯棒性,以Lattice LSTM 模型為基準(zhǔn),計(jì)算各模型的F1 值的相對(duì)提升幅度,如圖4所示。為保證圖像的差值范圍,將TENER模型在People Daily 數(shù)據(jù)集上的F1 提升值設(shè)為0。

        圖4 6 種模型在不同數(shù)據(jù)集上相對(duì)Lattice LSTM 模型的F1 值提升情況Fig.4 The improvement of the F1 value of the six models relative to the Lattice LSTM model on different datasets

        通過對(duì)圖4 進(jìn)行分析可得出以下結(jié)論:1)基于字的TENER 模型總體表現(xiàn)不如其他基于字詞聯(lián)合的模型,證明基于字詞聯(lián)合的模型相對(duì)于基于字的模型能夠捕捉更多的上下文信息,具有較大優(yōu)勢(shì);2)TENER 模型在不同數(shù)據(jù)集上F1 值波動(dòng)較大,在People Daily 數(shù)據(jù)集上表現(xiàn)較差,魯棒性不強(qiáng);3)在字詞聯(lián)合模型中,LGN 模型與LR-CNN 模型表現(xiàn)一般,相對(duì)基線模型提升不夠明顯,且識(shí)別性能提升幅度受數(shù)據(jù)集影響較大;4)SoftLexicon 模型在各數(shù)據(jù)集上表現(xiàn)穩(wěn)定,具有較強(qiáng)的魯棒性,但由于該模型中字詞信息融合采用靜態(tài)方式,在具體語境中可能會(huì)出現(xiàn)偏差,影響識(shí)別效果;5)FLAT 模型在多個(gè)數(shù)據(jù)集上均有優(yōu)異表現(xiàn),但由于參數(shù)量較多,在Resume、Weibo 等小數(shù)據(jù)集上學(xué)習(xí)不充分,模型魯棒性有待提高;6)本文模型相對(duì)其他模型在多個(gè)數(shù)據(jù)集上取得了最好的識(shí)別效果,且在不同數(shù)據(jù)集上表現(xiàn)較為穩(wěn)定,具有一定的魯棒性。

        2.3.3 模型復(fù)雜度分析

        除上述性能評(píng)估外,為對(duì)模型有更全面的分析,實(shí)驗(yàn)中以Lattice LSTM 模型為基準(zhǔn),對(duì)比各字詞聯(lián)合模型在OntoNotes5.0 數(shù)據(jù)集上的推理速度與計(jì)算資源占用情況,對(duì)比結(jié)果如圖5 所示,其中,F(xiàn)LAT 模型批大小為10,其他模型均為1。

        圖5 字詞聯(lián)合模型推理速度與計(jì)算資源占用情況對(duì)比Fig.5 Comparison of reasoning speed and computing resource occupancy of character-word joint models

        由圖5 可以看出:相比Lattice LSTM 模型,F(xiàn)LAT模型雖然使用并行化提高了推理速度,但計(jì)算資源占用激增;其他模型大多在推理速度方面提升不大,資源占用稍有增加;本文AKE 模型由于字詞融合模塊中多頭注意力機(jī)制的使用和知識(shí)增強(qiáng)模塊的加入,推理速度稍有下降,資源占用量相對(duì)較多,后續(xù)有較大的改進(jìn)空間。

        3 結(jié)束語

        本文在LR-CNN 模型的基礎(chǔ)上,提出一種基于知識(shí)增強(qiáng)的命名實(shí)體識(shí)別模型。通過改進(jìn)字詞聯(lián)合模塊,提高模型并行性與上下文信息捕捉能力。加入知識(shí)增強(qiáng)模塊融入實(shí)體邊界、實(shí)體類別等先驗(yàn)知識(shí),緩解未登錄詞影響和模型在小數(shù)據(jù)集上學(xué)習(xí)不充分的問題。實(shí)驗(yàn)結(jié)果表明,相比基于字詞聯(lián)合的命名實(shí)體識(shí)別主流模型,本文模型能夠提高實(shí)體識(shí)別的召回率與F1 值,同時(shí)具有較強(qiáng)的魯棒性和泛化能力。此外,通過使用不同領(lǐng)域的實(shí)體詞典,融入相應(yīng)先驗(yàn)知識(shí),賦予模型較強(qiáng)的遷移能力,并且所提出的知識(shí)增強(qiáng)思想在其他自然語言處理任務(wù)中也具有一定的借鑒意義。下一步將重點(diǎn)改進(jìn)模型的知識(shí)增強(qiáng)策略,減少實(shí)體詞典匹配錯(cuò)誤所產(chǎn)生的噪聲干擾,優(yōu)化字詞融合模塊,降低模型復(fù)雜度。

        猜你喜歡
        集上詞典實(shí)體
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        復(fù)扇形指標(biāo)集上的分布混沌
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        詞典例證翻譯標(biāo)準(zhǔn)探索
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        国产午夜福利不卡在线观看| 日本a在线看| 国产av无码专区亚洲av手机麻豆| 国产自产av一区二区三区性色 | 激情人妻网址| 最新国产主播一区二区| 少妇太爽了在线观看免费| 尤物在线精品视频| 精品久久久久久久久久久aⅴ| 精品国产18禁久久久久久久| 精品久久久久久午夜| av网页在线免费观看| 好看的中文字幕中文在线| 免费看黄视频亚洲网站| 国产a√无码专区亚洲av| 国产精品一区二区在线观看| 久久午夜无码鲁丝片直播午夜精品| 全部免费国产潢色一级| 亲少妇摸少妇和少妇啪啪| 国产不卡av一区二区三区 | 天天爽夜夜爽人人爽一区二区 | 无码专区无码专区视频网址| 加勒比久久综合久久伊人爱| 少妇人妻综合久久中文字幕| 亚洲va无码手机在线电影| 91av视频在线| 久久青青草原亚洲av| 色又黄又爽18禁免费网站现观看| 国产亚洲一本大道中文在线| 香蕉视频在线观看国产| 91精品综合久久久久m3u8 | 99久久精品人妻一区| 精品激情成人影院在线播放| 色橹橹欧美在线观看视频高清| 久久半精品国产99精品国产| 情色视频在线观看一区二区三区| 少妇熟女天堂网av天堂| 熟女人妻中文字幕av| 男男性恋免费视频网站| 在线观看一区二区女同| 91精品人妻一区二区三区水蜜桃|