亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多顆粒度文本表征的中文命名實體識別方法

        2022-06-17 09:09:48張桂平蔡東風(fēng)陳華威
        中文信息學(xué)報 2022年4期
        關(guān)鍵詞:分詞字符編碼器

        田 雨,張桂平,蔡東風(fēng),陳華威,宋 彥

        (1. 沈陽航空航天大學(xué) 人機智能研究中心,遼寧 沈陽 110136;2. 香港中文大學(xué)(深圳) 數(shù)據(jù)科學(xué)學(xué)院,廣東 深圳 518172)

        0 引言

        中文命名實體識別CNER(Chinese Named Entity Recognition)是自然語言處理NLP(Natural Language Processing)的一項基本任務(wù),與關(guān)系抽取[1-2]、指代消解[3]、問答系統(tǒng)[4]等任務(wù)關(guān)系密切。得益于機器學(xué)習(xí)技術(shù)和共享語料庫的發(fā)展,命名實體識別近年來取得了長足的進展,在自然語言處理領(lǐng)域發(fā)揮著重要作用。

        與中文分詞[5]、詞性標注[6]等任務(wù)類似,實體識別通常被視為序列標注任務(wù)。對中文而言,即為每個字符分配一個相應(yīng)的標簽,以判斷字符在實體中的位置以及實體的類型。然而,中文句子由連續(xù)的漢字組成,與英文等語言不同,中文句子沒有天然存在的分隔符。因此,識別實體邊界時會受到分詞錯誤的影響。例如,在“南京市長江大橋”中,正確的分詞結(jié)果為“南京市/長江大橋”,此時二者傾向于地理位置類型的實體;若分詞結(jié)果為“南京市長/江大橋”,二者則更傾向于人物名稱類型的實體。

        命名實體通常包括人名、地名、組織名等名詞,因此直觀地看,中文命名實體識別可以先對句子分詞,然后再給每個詞語分配對應(yīng)的標簽[7],所以分詞作為中文自然語言處理的基本任務(wù),可以為識別實體邊界提供幫助。在中文NER任務(wù)中,為了更準確地識別實體邊界,緩解字符嵌入帶來的語義表示不充分問題,外部知識中的預(yù)訓(xùn)練詞典被許多研究者引入到模型中。

        Zhang等[7]在探究詞序列的顯式利用過程中,提出了Lattice LSTM模型,該模型利用預(yù)訓(xùn)練的詞典,提取出序列中潛在的成詞單元,并將字符與對應(yīng)單元通過Lattice結(jié)構(gòu)融合,較好地緩解了實體識別中的邊界識別錯誤。由于上述Lattice的方法較復(fù)雜,不利于GPU的并行計算,Li 等[8]提出了Flat-Lattice的方法,將Lattice結(jié)構(gòu)轉(zhuǎn)換為一系列的跨度組合,同時引入特定的位置編碼,并使用了Transformer的編碼器作為文本編碼層,在多個數(shù)據(jù)集上都有較好的識別性能。Sui等[9]提出了一種協(xié)作圖網(wǎng)絡(luò),利用三種不同的方式將字符和詞序列相結(jié)合,以此獲取不同的詞匯知識。

        以上方法雖然探討了字表征和詞表征對命名實體識別的影響,但是仍然存在兩個難點。第一,上述方法沒有顯式地將模型內(nèi)部字符特征與對應(yīng)的所有N-gram特征相結(jié)合。第二,預(yù)訓(xùn)練詞典中的N-gram雖然包含潛在的成詞信息,但是存在較多的噪聲,對模型的性能會產(chǎn)生不利的影響。針對第一個問題,本文設(shè)計了一種N-gram編碼器,其能夠有效地利用N-gram表征,提取其中潛在的成詞特征,然后將模型隱藏層輸出與對應(yīng)的N-gram表征進行結(jié)合,從而顯式地利用詞典中的N-gram。針對第二個問題,本文利用開源的分詞工具和預(yù)訓(xùn)練詞向量,在模型輸入端引入了一種新的詞粒度表征,通過字、詞、N-gram的結(jié)合,降低了詞典噪聲對模型的影響。

        綜上,現(xiàn)有的命名實體識別模型在輸入端大多使用字向量,本文分析了預(yù)訓(xùn)練詞典被應(yīng)用在NER任務(wù)時的優(yōu)缺點,提出了一種基于多顆粒度文本表征的NE-Transformer模型。本文的貢獻如下:

        (1) 本文首次在中文命名實體識別任務(wù)中聯(lián)合了三層不同顆粒度的文本表征。

        (2) 本文提出了NE-Transformer模型(N-gram Enhanced Transformer),在模型輸入端融合了字向量和詞向量,并使用N-gram編碼器引入潛在的成詞信息,緩解了實體邊界識別錯誤的問題。

        (3) 在多個數(shù)據(jù)集上的實驗表明,NE-Transformer模型較Baseline模型有更突出的性能表現(xiàn)。

        在接下來的內(nèi)容中,第1節(jié)介紹相關(guān)研究,第2節(jié)詳細介紹基于多顆粒度文本表征的命名實體識別模型,第3節(jié)對實驗結(jié)果進行對比分析,最后一節(jié)是全文總結(jié)。

        1 相關(guān)研究

        早在1991年,就有學(xué)者研究了從金融新聞報道中自動抽取公司名稱的算法[10],該研究通常被認為是命名實體識別研究的前身[11]。在1995年第六屆MUC會議中,NER作為一個明確的任務(wù)被提出[12]。隨后在NER各階段的發(fā)展歷程中,出現(xiàn)了不同的主流方法,包括傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。

        在傳統(tǒng)方法中,使用規(guī)則進行NER的方法會消耗大量的時間和精力,且領(lǐng)域遷移性差?;跈C器學(xué)習(xí)的方法雖然摒棄了制定規(guī)則所需的繁瑣步驟,將NER統(tǒng)一作為序列標注任務(wù)來完成,但需要大量已標注好的訓(xùn)練數(shù)據(jù)并人為定義特征模板,然后通過實驗進行反復(fù)調(diào)整,同樣耗時耗力。因此,可以自動學(xué)習(xí)出文本特征信息的深度神經(jīng)網(wǎng)絡(luò)方法在近年來取得不錯的進展。

        將神經(jīng)網(wǎng)絡(luò)應(yīng)用到NER任務(wù)時,需要在輸入端對詞語進行編碼,因為字符嵌入在性能上要優(yōu)于詞嵌入[13],因此將字符向量作為模型的輸入是進行NER任務(wù)的常規(guī)操作。Huang等[14]首次將雙向長短時記憶網(wǎng)絡(luò)Bi-LSTM(Bidirectional Long Short-Term Memory)應(yīng)用到序列標注任務(wù)中,有效提高了詞性標注、實體識別的預(yù)測精度。隨后,Lample等[15]、Dong等[16]、Zhang等[17]在此基礎(chǔ)上展開了一系列的研究。

        然而,僅使用字符嵌入無法準確地表示詞語邊界,在識別結(jié)果中存在由于邊界識別錯誤而引發(fā)的問題。為緩解這一現(xiàn)象,預(yù)訓(xùn)練的詞典被引入到了NER任務(wù)中。Zhang等[7]利用Lattice LSTM的結(jié)構(gòu),將與字相關(guān)的詞粒度信息融入模型中,實現(xiàn)了字詞信息的結(jié)合。Liu等[18]提出了Word-Character LSTM模型,將字詞信息結(jié)合的同時,減少了字符間信息的傳遞,并設(shè)計了四種編碼策略來加速模型訓(xùn)練。Cao等[19]在進行實體識別任務(wù)的同時,引入了分詞任務(wù),采用對抗學(xué)習(xí)的方法將任務(wù)共享的信息融入到了中文NER內(nèi)。

        雖然BiLSTM-CRF主流框架在命名實體識別領(lǐng)域被廣泛的研究,但是LSTM無法對一個位置同時關(guān)注其上下文的信息,加上長距離的依賴關(guān)系也會隨著句子長度的增加而逐漸被忽略,因此近年來,Transformer架構(gòu)[20]開始在NLP領(lǐng)域的多項任務(wù)中嶄露頭角,如文本生成[21-23]、機器翻譯[20]、預(yù)訓(xùn)練模型[24-26]等。由于傳統(tǒng)的Transformer并不十分適用于NER,因此Yan等[27]提出了一種改進的Transformer結(jié)構(gòu),引入了定向的相對位置編碼,同時可以捕獲不同字符間的距離信息,使Transformer能夠更準確地識別命名實體。Li等[8]克服了Lattice LSTM模型無法充分利用GPU并行計算的問題,將Lattice轉(zhuǎn)化為體現(xiàn)詞語長度的平面結(jié)構(gòu),并提出了四種位置編碼,在NER任務(wù)中取得了不錯的成績。此外,Nie等[28]提出了SANER模型,針對非正式文本,在TENER模型的基礎(chǔ)上,結(jié)合預(yù)訓(xùn)練的詞典,引入字符的相似詞,設(shè)計了一種語義增強模塊,在非正式文本領(lǐng)域發(fā)揮了高性能的表現(xiàn)。

        由于中文命名實體識別仍然存在實體邊界識別錯誤的問題,因此本文在SANER模型的基礎(chǔ)上,將輸入文本的字、詞表征進行組合,并在Transformer中引入N-gram編碼器,將N-gram中的潛在詞信息融入模型主干,從而更準確地識別實體邊界。

        2 基于多顆粒度文本表征的Transformer命名實體識別框架

        本節(jié)描述了提出的基于多顆粒度文本表征的命名實體識別模型,其結(jié)構(gòu)如圖1所示,其包含三個模塊: ①向量表示模塊,使用低維稠密的字向量和詞向量表示每個字符蘊含的特征,使用隨機初始化的方法創(chuàng)建N-gram向量; ②文本編碼層,捕獲字符的上下文信息,并使用N-gram編碼器引入潛在詞語信息,為模型主干補充潛在詞語特征; ③CRF解碼層,使用CRF作為模型的解碼器。

        圖1 NE-Transformer模型圖

        2.1 向量表示模塊

        分布式詞向量表征是當(dāng)前神經(jīng)網(wǎng)絡(luò)方法中常用的一種對字符進行編碼的選擇。與高維稀疏的獨熱向量相比,低維稠密分布式詞向量的每個維度表示一個潛在的特征,由于分布式表示可自動在文本中進行學(xué)習(xí),因此其能夠捕獲詞語的語義和語法特征[29]。此外,由于實體識別跟分詞任務(wù)關(guān)系密切,本文通過引入詞向量和N-gram向量來豐富字符編碼的表示。

        2.1.1 字向量

        當(dāng)命名實體識別被視為序列標注任務(wù)時,常使用字向量對文本編碼。針對一句話X={x1,x2,…,xn},n表示輸入序列的長度,第i個字符的字向量表示如式(1)所示。

        (1)

        2.1.2 詞向量

        雖然使用字符編碼的方式不再要求對文本分詞,但是單一字符在一定程度上缺乏詞的語義信息,無法體現(xiàn)詞語的特點,因此本文引入了詞向量作為對字向量的補充。在現(xiàn)有方法中,一般先利用Word2Vec[31]等工具生成預(yù)訓(xùn)練的詞典,然后在詞典中抽取存在的Bi-gram與字符向量拼接,作為模型的輸入。與該方法不同,本文利用Tian等[32]發(fā)布的分詞系統(tǒng)WMSeg,先對數(shù)據(jù)集中的句子進行分詞,然后在騰訊詞向量[33]中提取對應(yīng)的向量作為與字符對應(yīng)的詞向量,使用該分詞系統(tǒng)的原因是其在中文分詞任務(wù)中表現(xiàn)出了十分優(yōu)越的性能。在X中,第i個字符對應(yīng)的詞向量如式(3)所示。

        2.1.3N-gram向量

        N-gram作為一種外部知識類型,對中文分詞、詞性標注等序列標注任務(wù)有正面影響[25-26,34]。

        由于N-gram可以為模型提供潛在的構(gòu)詞特征,因此本文除了使用預(yù)訓(xùn)練的字向量和詞向量,還使用隨機初始化的方式為每個N-gram分配了一個向量,如式(4)、式(5)所示。

        2.1.4 模型輸入

        在NLP任務(wù)中,獲得高質(zhì)量的文本特征表示是模型取得高性能表現(xiàn)的關(guān)鍵[35],因此模型的輸入采用了字向量和詞向量的拼接,第i個字符的最終向量表示如式(6)所示,當(dāng)預(yù)訓(xùn)練的詞典中不包含當(dāng)前使用的字向量或詞向量時,模型會使用均勻分布的方法來隨機初始化一個字向量或詞向量。輸入句子的矩陣表示如式(7)所示。

        2.2 文本編碼層

        由于傳統(tǒng)的Transformer不能很好地適用于命名實體識別任務(wù),因此本文在文本編碼層使用了改進的Transformer編碼器——TENER[27],并添加了語義增強模塊[28]。為了進一步緩解實體邊界模糊的問題,本文在模型主干外引入了N-gram編碼器,以此提取N-gram中潛在的成詞信息。本節(jié)介紹了模型主干和N-gram編碼器的相關(guān)內(nèi)容。

        2.2.1 語義增強的Transformer

        由于在非正式文本中,存在數(shù)據(jù)稀疏問題,所以其中的命名實體個數(shù)很少,常常在幾句話中才會出現(xiàn)一個符合要求的命名實體。Nie等[28]提出了一種語義增強的模型SANER,利用改進的Transformer編碼器TENER和字符的相似字,豐富了非正式文本中字符的語義信息。由于該模型能夠充分挖掘字符語義信息,因此本文使用SANER模型作為模型主干和基線。

        改進的Transformer編碼器通過在多頭注意力(Multi-Head Attention)中引入定向的相對位置編碼,明確了不同方向字符給當(dāng)前字符帶來的方向信息和距離信息,由式(8)來表示。

        H=Adapted-Transformer(E)

        (8)

        其中,N={h1,h2,…,hi,…,hn}是對應(yīng)的隱藏層輸出。此外,在得到字符i的相似字Ci={ci,1,,ci,2,…,ci,j,…,ci,s}后,通過式(9)、式(10)計算每個相似字對第i個字符的注意力得分,并加權(quán)求和。

        其中,ei,j表示第i個字符對應(yīng)的第j個相似字的編碼。

        最后通過門控機制來平衡特征提取模塊和語義增強模塊的信息,如式(11)、式(12)所示,W1,W2都是可學(xué)習(xí)的參數(shù)矩陣,oi表示門控單元的最終輸出向量。

        2.2.2N-gram編碼器

        受Diao等[25]的啟發(fā),本文增添了N-gram的編碼信息來引入潛在詞語語義,從而提升模型效果。為了更充分地挖掘句子中N-gram的潛在成詞信息,并與模型主干相匹配,本文使用了具有L層的N-gram編碼器來提取N-gram的特征表示,并使之與模型中字符的隱藏層向量相結(jié)合。

        為了建模N-gram之間的依賴關(guān)系,提取N-gram潛在特征,同時能夠與模型主干的子層相對應(yīng),我們選擇了Transformer的編碼端作為N-gram編碼器,由于模型不關(guān)注各N-gram的位置,所以在N-gram編碼器中沒有添加位置編碼,只使用了傳統(tǒng)的多頭注意力計算得分,計算過程如式(13)、式(14)所示。

        其中,G(l)表示N-gram編碼器在第l層的輸入,當(dāng)l等于1時,G(l)等于Engram,此外,Wq,Wk,Wv是可訓(xùn)練的參數(shù)矩陣。之后,我們將注意力得分送入層歸一化和前饋神經(jīng)網(wǎng)絡(luò)中進行運算,得到第l層的輸出,計算過程用式(17)代替。

        2.3 CRF解碼層

        (19)

        其中,Wc和bc是計算標簽yi-1到y(tǒng)i轉(zhuǎn)移得分的可學(xué)習(xí)參數(shù),L是所有標簽的集合。

        3 實驗與分析

        3.1 實驗數(shù)據(jù)

        本文采用了Peng等[37]發(fā)布的Weibo NER數(shù)據(jù)集,Zhang等[7]發(fā)布的Resume數(shù)據(jù)集以及Weischedel等[38]公布的OntoNotes4數(shù)據(jù)集,三種數(shù)據(jù)集都采用BIOES標注方案[15],各數(shù)據(jù)集的詳細情況如表1所示。

        表1 數(shù)據(jù)集詳細介紹

        Weibo數(shù)據(jù)集屬于社交媒體領(lǐng)域,包含4種實體類別: 人名(PER)、機構(gòu)(ORG)、地點(LOC)和地理政治(GPE),共28個標簽。

        Resume數(shù)據(jù)集屬于中文簡歷領(lǐng)域,包含8種實體標簽: 人名(NAME)、機構(gòu)(ORG)、地點(LOC)、職業(yè)名稱(TITLE)、教育組織(EDU)、國家(CONT)、專業(yè)(PRO)、種族(RACE),共28個標簽。

        OntoNotes4數(shù)據(jù)集屬于新聞領(lǐng)域,包含四種實體類別: 人名(PER)、機構(gòu)(ORG)、地點(LOC)和地理政治(GPE),共17個標簽。

        3.2 實驗參數(shù)設(shè)置

        本文實驗采用PyTorch1.4框架,使用的預(yù)訓(xùn)練詞向量包括Giga[7]、騰訊詞向量[33]和BERT[24]。此外,本文還使用了表2的參數(shù)對模型進行了微調(diào),最后利用在驗證集上性能表現(xiàn)最好的模型對測試集進行評估。在超參數(shù)中,Transformer編碼器的多頭注意力頭數(shù)變化集合為{4,8,12},編碼器子層的數(shù)量集合為{1,2,4},編碼器輸出的隱藏層向量長度為[64,128,256],MaxN-gram length表示模型采用的N-gram最大長度,設(shè)為5。

        表2 模型超參數(shù)設(shè)置

        3.3 實驗與分析

        本文使用標準的精確率P(Precision)、召回率R(Recall)、F1值作為模型的評價指標。

        3.3.1 整體模型對比

        表3~5分別列出了下述各模型在3個數(shù)據(jù)集上有關(guān)精確率P、召回率R、F1值的對比結(jié)果。

        對比模型除了上文提到的Lattice LSTM[7]、TENER[27]、Flat[8]、協(xié)作圖網(wǎng)絡(luò)[9]、BERT[24]、SANER[28],還包括Zhu等[39]提出的CAN-NER模型,該模型首次將CNN與局部注意力機制結(jié)合起來,以增強模型捕獲字符序列之間局部上下文關(guān)系的能力;Meng等[40]提出的Glyce,該方法引入了中文字形信息,在多項NLP任務(wù)中表現(xiàn)出了良好的性能;Nie等[30]提出的AESINER模型,用鍵值對記憶網(wǎng)絡(luò)將句法知識融入模型主干;以及Diao等[25]提出的中文預(yù)訓(xùn)練模型ZEN,Song等[26]提出的ZEN2等。

        綜合表3~5可知,本文提出的NE-Transformer模型在Weibo、Resume、OntoNotes4上的F1值分別達到了72.41%,96.52%,82.83%,其中在Weibo數(shù)據(jù)集上的性能提升最大,這是由于Weibo語料屬于社交媒體領(lǐng)域,文本格式不規(guī)范,并且文本中的詞匯邊界相較于其他領(lǐng)域更加模糊,因此詞粒度信息的融入使得字符的編碼特征蘊含更豐富的語義信息,從而更容易獲得較高的性能。此外,由于現(xiàn)有模型[30,40]在Resume數(shù)據(jù)集上已經(jīng)達到了較高的得分,故而本文模型在該數(shù)據(jù)集上與上述模型性能相當(dāng)。

        表3 Weibo數(shù)據(jù)集實體識別實驗結(jié)果

        表4 Resume數(shù)據(jù)集實體識別實驗結(jié)果

        表5 OntoNotes4數(shù)據(jù)集實體識別實驗結(jié)果

        3.3.2 實驗結(jié)果與分析

        為了研究改進方案的有效性,本文對三種數(shù)據(jù)集進行了對比實驗,結(jié)果如表6所示,表格中的Y和N分別代表使用或者不使用對應(yīng)的外部知識。

        表6 融入詞表征和N-gram表征的F1值結(jié)果對比

        表6的第一行為baseline,模型輸入部分只使用字向量,文本編碼層不使用N-gram編碼器,第二行在baseline的基礎(chǔ)上加入了N-gram編碼器,第三行在baseline的基礎(chǔ)上加入了詞向量,第四行同時引入了詞向量和N-gram編碼器。

        由表6可以看出,添加詞向量和N-gram編碼器的三種方案相較于baseline都有一定的性能提升,其中baseline即未添加詞向量和N-gram編碼器的模型。而僅添加N-gram編碼器時,Weibo語料的F1值下降了0.1%,導(dǎo)致這種現(xiàn)象出現(xiàn)的原因可能是Weibo語料中存在的實體較少,而模型學(xué)習(xí)到了較多的N-gram噪聲,使得模型性能下降。值得注意的是,雖然僅添加N-gram編碼器對模型性能的影響不明顯,但是將詞與N-gram特征結(jié)合后,模型性能得到了較大的提升,在Weibo、Resume、OntoNotes4數(shù)據(jù)集上F1值分別提高了1.25%、0.32%、0.44%,這可能是因為加入詞向量之后,減少了N-gram噪聲對模型的影響,使得模型能夠更準確地識別實體邊界。

        同時,添加詞向量與添加N-gram編碼器對不同領(lǐng)域的數(shù)據(jù)集產(chǎn)生了不同的影響,在社交媒體領(lǐng)域,詞向量比N-gram編碼器的作用更大,提高了0.58%;而在新聞領(lǐng)域,即OntoNotes4數(shù)據(jù)集,N-gram 編碼器為模型帶來了更好的性能,提升了0.13%。

        為了進一步分析詞向量和N-gram編碼器的效果,表7統(tǒng)計了詞向量和不同N-gram數(shù)量對模型的影響,包括精確率P、召回率R和F1值。

        通過表7可以看出,在NE-Transformer中,隨著N-gram長度的增加,模型的F1也得到了不同程度的提升,并且當(dāng)N-gram長度為4時,三個數(shù)據(jù)集上的F1達到最優(yōu),與僅添加詞向量的模型(baseline加詞向量)相比,F(xiàn)1值分別提高了0.67%,0.20%,0.41%,這表明不同長度的N-gram對模型都有正面的效果,但是超過一定的界限(即N-gram長度為4)時,反而會使得模型學(xué)習(xí)到不必要的噪聲,使得模型F1值出現(xiàn)了下降。

        同樣值得注意的是,表7的結(jié)果表明詞、N-gram特征在不同的方面影響了模型性能。與baseline相比,添加詞特征后,在Weibo、Resume、OntoNotes4三個語料上的精確率P分別提升了3.21%、0.35%、1.85%,在此基礎(chǔ)上添加N-gram編碼器后,召回率得到了明顯的提升,產(chǎn)生這種結(jié)果的原因可能是詞、N-gram的加入彌補了單個字符缺失的詞語義信息,同時降低了N-gram噪聲對識別效果的影響,因此二者的結(jié)合進一步提升了命名實體識別的效果。

        表7 最大N-gram數(shù)量對三種數(shù)據(jù)集的影響

        3.4 案例分析

        為了驗證NE-Transformer模型能夠識別出更多的實體,我們在Weibo數(shù)據(jù)集中選擇了兩個實例進行分析。表8、表9列舉了在實驗結(jié)果中出現(xiàn)的經(jīng)典案例。在兩個實例中,Baseline存在的問題都是實體邊界錯誤,案例1的句子為“好男人就是我”,其中的人物實體“男人”被識別為“好男人”。例2的句子為“爸爸媽媽想你們了”,其中的人物實體“爸爸”和“媽媽”被識別為一個實體,即“爸爸媽媽”。而通過NE-Transformer結(jié)合字、詞、N-gram的信息之后,兩個實例的實體邊界均得到了正確的識別。

        表8 案例分析1

        表9 案例分析2

        由此可以看出,本文提出的NE-Transformer模型通過使用N-gram編碼器在模型內(nèi)部引入與字符相關(guān)的N-gram,同時在模型輸入端加入詞表征,能夠更準確地識別實體邊界,并更加有效地建模上下文關(guān)系,從而達到更好的效果。

        4 總結(jié)與展望

        本文針對公開的三種中文命名實體識別數(shù)據(jù)集,提出了一種基于多顆粒度文本表征的中文命名實體識別方法,首先使用分詞系統(tǒng)對語料分詞,在模型的輸入端將字、詞向量進行融合,并隨機初始化了N-gram向量,豐富了字向量的語義表示。隨后,我們探索了預(yù)訓(xùn)練詞典在NER任務(wù)中所發(fā)揮的作用,并首次直接聯(lián)合了三層不同顆粒度的文本表征,包括字、詞、N-gram表征,同時設(shè)計了一種有效的聯(lián)合方法,緩解了模型在訓(xùn)練過程中遇到的實體邊界模糊問題。在三種數(shù)據(jù)集上的實驗結(jié)果表明,本文模型較baseline可以更好地識別句子中的命名實體,并在社交媒體語料中取得了目前最好的效果。未來可以考慮將NE-Transformer模型應(yīng)用到其他序列標注任務(wù)中,并探索N-gram的其他使用方式對命名實體識別的影響。

        猜你喜歡
        分詞字符編碼器
        尋找更強的字符映射管理器
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:50
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        消失的殖民村莊和神秘字符
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        值得重視的分詞的特殊用法
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        多總線式光電編碼器的設(shè)計與應(yīng)用
        国产精品激情| 国产成人无码精品午夜福利a| 最新亚洲人成无码网站| 国内精品人妻无码久久久影院94 | 国产精品黄色av网站| 亚洲视频专区一区二区三区| 很黄很色的女同视频一区二区 | 最新欧美精品一区二区三区| 人妻有码中文字幕| 国产亚洲精品看片在线观看| 日本成人免费一区二区三区| 一区二区三区日韩蜜桃| 欧美成人猛片aaaaaaa| 日本阿v网站在线观看中文| 国产老妇伦国产熟女老妇高清| 亚洲素人av在线观看| av中文字幕性女高清在线| 人妻中文字幕在线网站| 最近在线更新8中文字幕免费| 韩日美无码精品无码| 欧美h久免费女| 自拍偷区亚洲综合激情| 少妇被又大又粗又爽毛片| 欧美成人看片黄a免费看| 91美女片黄在线观看| 亚洲成aⅴ人片在线观看天堂无码| 亚洲av精品一区二区| 国产网站一区二区三区| 精品无码国产一区二区三区av| 欧美成人一区二区三区在线观看| 久久精品国产亚洲AV无码不| 偷窥偷拍一区二区三区| 久久久亚洲av午夜精品| 97se狠狠狠狠狼鲁亚洲综合色| 中文字幕人妻丝袜乱一区三区| 国产丝袜精品不卡| 少妇人妻av一区二区三区| 尹人香蕉久久99天天拍| 亚洲中文字幕在线观看| 伊香蕉大综综综合久久| 91国产熟女自拍视频|