亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別

        2023-12-16 10:29:22郭江濤彭甫镕
        計(jì)算機(jī)工程 2023年12期
        關(guān)鍵詞:分詞跨度命名

        郭江濤,彭甫镕

        (山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006)

        0 概述

        命名實(shí)體識別(Named Entity Recognition,NER)的目標(biāo)是標(biāo)記非結(jié)構(gòu)化文本中的實(shí)體詞,并分為對應(yīng)的類別,是自然語言處理(Natural Language Processing,NLP)領(lǐng)域的一項(xiàng)重要研究內(nèi)容。由于語言的特殊性,中文命名實(shí)體識別相比英文更加復(fù)雜,在命名實(shí)體識別研究工作中備受關(guān)注。

        命名實(shí)體識別任務(wù)的發(fā)展初期主要關(guān)注人名(PER)、地名(LOC)、機(jī)構(gòu)名(ORG)等3 種專有名詞的識別,隨著任務(wù)的不斷完善,專有名詞的范圍被進(jìn)一步擴(kuò)大,逐步發(fā)展至對特定領(lǐng)域的特定類別實(shí)體進(jìn)行識別。在生物醫(yī)學(xué)領(lǐng)域,命名實(shí)體識別任務(wù)更關(guān)注領(lǐng)域?qū)S忻~的識別,如蛋白質(zhì)、DNA 等,這也就意味著每個特定領(lǐng)域都需要標(biāo)注新的數(shù)據(jù)集,但數(shù)據(jù)標(biāo)注的代價是相當(dāng)大的。研究[1]表明:對無標(biāo)簽數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)注需要該領(lǐng)域中大量的專家參與,并且標(biāo)注數(shù)據(jù)花費(fèi)的時間是無標(biāo)簽數(shù)據(jù)的10 倍以上。

        近年來,深度學(xué)習(xí)在命名實(shí)體識別中取得了相當(dāng)不錯的成績,在標(biāo)注豐富領(lǐng)域(如新聞)的數(shù)據(jù)集上表現(xiàn)較好,例 如FLAT[2]和SoftLexicon[3]模型在MSRA 和PeopleDaily 上的F1 值已經(jīng)超過0.95。然而現(xiàn)有深度模型相對復(fù)雜,需要大量標(biāo)記數(shù)據(jù)對模型參數(shù)進(jìn)行迭代訓(xùn)練。在這種情況下,設(shè)計(jì)一套面向標(biāo)注稀缺領(lǐng)域的命名實(shí)體識別模型具有重要的現(xiàn)實(shí)意義和應(yīng)用價值。

        主動學(xué)習(xí)模仿了生物學(xué)習(xí)行為的內(nèi)部過程,將過去學(xué)習(xí)到的經(jīng)驗(yàn)推廣到新的數(shù)據(jù)機(jī)制。通過對樣本進(jìn)行不確定性排序,可以讓專家(人工)集中精力標(biāo)注模型最不確定的樣本。這有助于模型更快地學(xué)習(xí),使專家無需標(biāo)注對模型幫助較小的數(shù)據(jù),從而極大地減少所需標(biāo)注的數(shù)據(jù)量。

        現(xiàn)有基于主動學(xué)習(xí)的命名實(shí)體識別大多基于統(tǒng)計(jì)機(jī)器學(xué)習(xí),并側(cè)重于設(shè)計(jì)不同的主動學(xué)習(xí)策略,例如:HUANG 等[4]基于條件隨機(jī)場(CRF)[5]模型設(shè)計(jì)一種融合K 均值聚類和信息熵的主動學(xué)習(xí)策略。基于主動學(xué)習(xí)的命名實(shí)體識別在深度學(xué)習(xí)方面的研究相對較少,如何將深度學(xué)習(xí)技術(shù)與已有主動學(xué)習(xí)策略相結(jié)合仍是一個挑戰(zhàn)。

        理論而言,當(dāng)數(shù)據(jù)量很小時,深度學(xué)習(xí)算法會表現(xiàn)不佳,但隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展,該問題會得到很大改善。SHEN 等[6]將深度學(xué)習(xí)技術(shù)用于基于主動學(xué)習(xí)的命名實(shí)體識別過程,設(shè)計(jì)一種CNNCNN-LSTM 模型,采用CNN 作為字編碼器和詞編碼器,使用LSTM 作為解碼器,但CNN 詞編碼器需要提前將文本分詞,使用自動分詞工具容易引入分詞錯誤,而人工分詞標(biāo)注成本更高。Lattice LSTM[7]提出一種格柵思想,將字符所有可能的詞都輸入模型,由模型判斷最佳序列。FLAT[2]模型設(shè)計(jì)了Flat-Lattice 結(jié)構(gòu),使得模型可并行計(jì)算,有效提高了模型訓(xùn)練速度。

        本文提出一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別模型。將FLAT 模型中基于全連接注意力機(jī)制的Transformer[8]改為融合全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的注意力機(jī)制,減少結(jié)構(gòu)復(fù)雜度,從而降低對標(biāo)注數(shù)據(jù)的需求量。基于全局節(jié)點(diǎn)的結(jié)構(gòu)有助于獲取全局語義信息,確定詞匯邊界,片段節(jié)點(diǎn)用于捕獲局部的語義。同時,對Flat-Lattice 結(jié)構(gòu)進(jìn)行改進(jìn),可以較好地添加詞匯信息而不需要分詞。

        1 相關(guān)工作

        1.1 嵌入表示

        在自然語言處理中,通過嵌入層將文本處理為可由計(jì)算機(jī)計(jì)算的數(shù)值數(shù)據(jù)。早期的嵌入層使用獨(dú)熱碼[9](One-hot)把語料轉(zhuǎn)化為向量表示,但這種方式得到的特征是高維離散稀疏的向量。之后,出現(xiàn)了Word2Vec[10]、GloVe[11]等靜態(tài)詞向量,靜態(tài)詞向量能夠考慮單詞的上下文相關(guān)詞,形成詞向量的固定表征,可以更好地解決詞性孤立且不連貫的問題,但存在一詞多義現(xiàn)象[12]。隨著預(yù)訓(xùn)練模型的發(fā)展,Elmo[13]、GPT[14]、BERT[15]等動態(tài)詞向量技術(shù)相繼出現(xiàn),動態(tài)詞向量技術(shù)能夠考慮詞之間的相關(guān)性,還能解決詞的多義性問題,從而有效提升最終效果。

        1.2 命名實(shí)體識別

        目前,命名實(shí)體識別主要分為基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的模型依賴于領(lǐng)域?qū)<抑R量和人工總結(jié)特征,但泛化能力高,可解釋性強(qiáng)?;谏疃葘W(xué)習(xí)的模型使用深度學(xué)習(xí)自動發(fā)現(xiàn)隱藏特征,常結(jié)合統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型以提升可解釋性。近年來,基于深度學(xué)習(xí)的NER 模型成為主流,并取得了較好的結(jié)果。

        Bi-LSTM[16]是基于 深度學(xué)習(xí)的NER 模型中 比較經(jīng)典的模型,但Bi-LSTM 在處理中文NER 時面臨分詞問題,基于詞編碼器的模型[17]容易引入分詞錯誤,基于字編碼器的模型[18-19]無需分詞,但在處理詞匯邊界問題時精度不高。

        Lattice LSTM[7]對一系列輸入字符以及與詞典匹配的所有潛在詞進(jìn)行編碼,顯式地利用了單詞和單詞序列信息,不存在切分錯誤,因此本文借鑒這種保留所有潛在詞的Lattice 結(jié)構(gòu)。

        SoftLexicon[3]把字典信息編碼到向量表示中來規(guī)避復(fù)雜的模型結(jié)構(gòu),提升運(yùn)算速度,但仍基于LSTM 串行結(jié)構(gòu)。TENER[20]通過帶位置感知的注意力機(jī)制來改進(jìn)Transformer Encoder 結(jié)構(gòu),同時捕捉單詞的位置和方向信息,建模詞級別和字符級別的上下文信息。FLAT 將Lattice 結(jié)構(gòu)轉(zhuǎn)換為由跨度組成的平面結(jié)構(gòu),憑借Transformer 和融入詞匯信息的位置編碼,克服了LSTM 串行結(jié)構(gòu)的缺點(diǎn),具有出色的并行化能力,但FLAT 基于全連接的Transformer,每個跨度之間都要進(jìn)行注意力計(jì)算,這使得有較多的訓(xùn)練參數(shù),導(dǎo)致需要更多的標(biāo)注數(shù)據(jù)來訓(xùn)練這些參數(shù)。

        LGN[21]設(shè)計(jì)一種具有全局語義的基于詞典的圖神經(jīng)網(wǎng)絡(luò),其中詞典知識用于連接字符以捕獲局部組成,而全局中繼節(jié)點(diǎn)可以捕獲全局語義和長距離依賴。Star Transformer[22]是一種Transformer 的輕量級替代方案,將全連接結(jié)構(gòu)替換為星形拓?fù)?,其中每兩個非相鄰節(jié)點(diǎn)通過共享中繼節(jié)點(diǎn)連接。因此,復(fù)雜性從二次型降低到線性型,同時保留捕獲局部組成和長期依賴的能力。本文借鑒該思路,對FLAT 模型進(jìn)行改進(jìn),減少不必要的注意力連接和參數(shù)訓(xùn)練,從而降低所需標(biāo)注數(shù)據(jù)量。

        1.3 命名實(shí)體識別中的主動學(xué)習(xí)策略

        大規(guī)模獲取命名實(shí)體識別標(biāo)注數(shù)據(jù)的成本很高,主動學(xué)習(xí)可通過特定策略選擇要注釋的示例來改善這一問題,以更少的注釋獲得更高的性能。目前,有關(guān)命名實(shí)體識別中主動學(xué)習(xí)研究較少,基于主動學(xué)習(xí)的CNN-CNN-LSTM[6]模型使用CNN 作為字和詞編碼器,LSTM 作為解碼器,但CNN 詞編碼器需要提前將文本分詞,使用自動分詞工具容易引入分詞錯誤,人工分詞標(biāo)注成本更高,并且長距離依賴對于文本處理具有重要意義,而CNN 在獲取長距離依賴方面相對欠缺。

        綜上,當(dāng)前命名實(shí)體識別模型對標(biāo)注數(shù)據(jù)的要求較高,基于主動學(xué)習(xí)的命名實(shí)體識別模型還需分詞,相對落后。因此,本文綜合考慮已有命名實(shí)體識別模型和主動學(xué)習(xí)策略之間的互補(bǔ)性,提出一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別模型,通過全局節(jié)點(diǎn)和多片段結(jié)構(gòu)減少模型對標(biāo)注數(shù)據(jù)的需求,利用Flat-Lattice 結(jié)構(gòu)解決現(xiàn)有主動學(xué)習(xí)策略需要分詞的問題,從而在保證模型性能的前提下降低數(shù)據(jù)標(biāo)注代價。

        2 基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別模型

        為了降低標(biāo)注成本,建立一種基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別模型,模型結(jié)構(gòu)如圖1所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。該模型主要包括嵌入層、全局節(jié)點(diǎn)和多片段模塊、改進(jìn)的平面格柵模塊、多頭注意力層和殘差網(wǎng)絡(luò)模塊、CRF 輸出層等5 個部分。

        圖1 基于全局節(jié)點(diǎn)和多片段的格柵命名實(shí)體識別模型結(jié)構(gòu)Fig.1 Structure of lattice named entity recognition model based on global nodes and multi-fragments

        2.1 嵌入層

        由預(yù)處理得到整個句子的字和詞后,生成一個跨度序列,一個跨度包括一個標(biāo)記、一個頭部和一個尾部??缍仁且粋€字或一個詞。頭和尾表示原始序列中標(biāo)記的第一個和最后一個字的位置索引,表示標(biāo)記在格中的位置。對于字而言,頭部和尾部是相同的。所有字按照原本的句子順序位于整個序列前,詞按照頭部的順序排在字序列后。將整個序列輸入由預(yù)訓(xùn)練語言模型BERT 組成的嵌入層得到部分跨度的向量表示。

        2.2 全局節(jié)點(diǎn)和多片段模塊

        在FLAT 模型中,每個字都與整個句子直接進(jìn)行注意力計(jì)算,這使得注意力連接的復(fù)雜度為O(n2),其中n為單個句子長度,需要訓(xùn)練的參數(shù)越多,需要標(biāo)注的數(shù)據(jù)也越多。為了降低注意力連接的復(fù)雜度,借鑒Star-Transformer 中的連接方式,但刪除了其中用于多層疊加的ei節(jié)點(diǎn),其中i代表編碼器的層數(shù),因?yàn)樵诿麑?shí)體識別任務(wù)中僅需一層Transformer 編碼器??紤]僅靠一個全局節(jié)點(diǎn)可能不能捕獲所有非鄰居節(jié)點(diǎn)間的依賴,設(shè)計(jì)一種融合全局和局部節(jié)點(diǎn)的方案,為每個跨度向量hx構(gòu)造上下文矩陣Cx,上下文矩陣Cx的計(jì)算方法如式(1)所示:

        其中:x表示跨度在整個序列中的位置,將整個序列視為循環(huán)序列,當(dāng)x=0 時x-1 代表跨度序列的最后一個跨度;每個句子平均分為A個片段,每個片段擁有一個片段節(jié)點(diǎn)Fa,F(xiàn)a的初始值為片段內(nèi)節(jié)點(diǎn)的均值;在全局節(jié)點(diǎn)G的作用下,每兩個不相鄰的節(jié)點(diǎn)都是兩跳鄰居,并通過與全局節(jié)點(diǎn)G的注意力計(jì)算獲取長距離依賴。在這種結(jié)構(gòu)下,每個字僅與對應(yīng)上下文矩陣Cx進(jìn)行注意力計(jì)算,復(fù)雜度降為O(n)。

        2.3 改進(jìn)的平面格柵模塊

        在中文命名實(shí)體識別中,詞匯信息能夠幫助確定實(shí)體邊界,平面格柵結(jié)構(gòu)可以很好地支持并行計(jì)算并添加詞匯信息,根據(jù)當(dāng)前模型結(jié)構(gòu)對其進(jìn)行改進(jìn)。

        相對距離計(jì)算方式如式(2)~式(5)所示:

        相對距離編碼計(jì)算方式與Transformer 相同,具體如下:

        其 中:d為表示位 置編碼 的維度索引。

        跨度的最終相對距離編碼是4 個距離的簡單非線性變換,具體如下:

        2.4 多頭注意力層和殘差網(wǎng)絡(luò)模塊

        通過多頭注意力層和殘差網(wǎng)絡(luò)將相對距離編碼和跨度特征嵌入進(jìn)行融合計(jì)算。Transformer 通過M個注意力頭分別對序列進(jìn)行自注意力計(jì)算,然后將M注意力頭的結(jié)果拼接起來。

        將自注意力計(jì)算改為將序列中每個跨度向量hx與對應(yīng)上下文矩陣Cx進(jìn)行注意力計(jì)算。為了簡單起見,忽略多頭注意力層的頭部索引,每個頭的計(jì)算公式如下:

        多頭注意力層輸出作為殘差網(wǎng)絡(luò)的輸入,殘差網(wǎng)絡(luò)與Transformer 編碼器相同,殘差網(wǎng)絡(luò)輸出后舍去詞的嵌入表示,僅將字符表示嵌入CRF[5]輸出層。

        2.5 CRF 輸出層

        注意力機(jī)制能夠?qū)μ卣鬟M(jìn)行融合,得到每個跨度的最大概率分布和標(biāo)簽,但標(biāo)簽之間相互獨(dú)立,無法解決相鄰標(biāo)簽之間的合理性問題。CRF 層通過在標(biāo)簽之間添加轉(zhuǎn)移矩陣分?jǐn)?shù)排除部分不合理標(biāo)簽序列,從而更容易獲得最佳預(yù)測序列。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        在MSRA[23]、OntoNotes 5.0[24]、PeopleDaily、Weibo[25]等4 個中文NER 數(shù)據(jù)集上評估所提模型:

        1)MSRA 數(shù)據(jù)集是由微軟亞洲研究院發(fā)布的一個新聞領(lǐng)域NER 數(shù)據(jù)集,實(shí)體類型主要包括LOC、ORG、PER。中文分詞在訓(xùn)練集中可用,但在測試集中不可用。

        2)OntoNotes 5.0 是OntoNotes 數(shù)據(jù)集 的最后 一個版本,由BBN 科技公司、科羅拉多大學(xué)、賓夕法尼亞大學(xué)和南加州大學(xué)信息科學(xué)研究所合作構(gòu)建。該語料庫由英語、漢語和阿拉伯語3 種語言的文本組成,本文僅使用其中的中文數(shù)據(jù)集。通過腳本將其處理為命名實(shí)體識別專用的BMES 格式后,包括數(shù)量、日期、事件、語言、法律、位置、金錢、組織、百分比、人名、產(chǎn)品、時間、藝術(shù)品等18 種粗粒度的實(shí)體類型。

        3)PeopleDaily:由《人民日報(bào)》語料標(biāo)注而成,并標(biāo)注了LOC、ORG、PER 3 種命名實(shí)體,不包含人工標(biāo)注分詞。

        4)Weibo 數(shù)據(jù)集:由來自新浪微博的注釋NER信息組成。數(shù)據(jù)集包含PER、LOC、ORG、行政區(qū)名(GPE)等粗粒度實(shí)體類型,且每種實(shí)體都包括特指和泛指兩種細(xì)粒度實(shí)體類型。

        采用BMES 標(biāo)記格式,B 代表實(shí)體的首部,M 代表實(shí)體中部,E 代表實(shí)體尾部,O 代表非實(shí)體。由于BERT 輸入的最大長度限制為512,為了充分利用標(biāo)注數(shù)據(jù),對數(shù)據(jù)集進(jìn)行分段處理,當(dāng)句子長度大于200 時將句子以標(biāo)點(diǎn)符號為分隔符將句子分為多個片段,標(biāo)點(diǎn)劃分到之后片段的句首。根據(jù)數(shù)據(jù)集規(guī)模,按照不同比例劃分為訓(xùn)練集、驗(yàn)證集和測試集。處理后的數(shù)據(jù)集規(guī)模信息如表1 所示。

        表1 數(shù)據(jù)集規(guī)模信息Table 1 Dataset scale information

        3.2 評價指標(biāo)

        采用F1 值作為模型精度評價指標(biāo),F(xiàn)1 值的計(jì)算方法如式(12)~式(14)所示:

        其中:P代表精確率,即預(yù)測正確的實(shí)體數(shù)占所有預(yù)測為實(shí)體的數(shù)量的比例;R代表召回率,即預(yù)測正確的實(shí)體數(shù)占所有實(shí)際為實(shí)體的數(shù)量的比例;TP、FP、FN分別代表預(yù)測正確的實(shí)體數(shù)、預(yù)測為實(shí)體但實(shí)際不為實(shí)體的實(shí)體數(shù)、實(shí)際為實(shí)體但預(yù)測錯誤的實(shí)體數(shù)。

        本文的目標(biāo)是在保持精度的情況下降低數(shù)據(jù)標(biāo)注代價,因此還需定義一種標(biāo)注代價方面的評價指標(biāo)。在命名實(shí)體識別中,數(shù)據(jù)標(biāo)注代價與標(biāo)注字?jǐn)?shù)被認(rèn)為正相關(guān),且在主動學(xué)習(xí)過程中存在波動,因此設(shè)定在主動學(xué)習(xí)的多輪循環(huán)中添加標(biāo)注數(shù)據(jù),當(dāng)3 輪訓(xùn)練結(jié)果達(dá)到設(shè)定對應(yīng)F1 閾值時,標(biāo)注數(shù)據(jù)集的總字?jǐn)?shù)更少則表現(xiàn)更好。

        3.3 對比實(shí)驗(yàn)

        3.3.1 實(shí)驗(yàn)設(shè)置

        所有實(shí)驗(yàn)都在主動學(xué)習(xí)框架下完成。將已有訓(xùn)練集的2%初始化為標(biāo)注數(shù)據(jù)集,其他放入待標(biāo)注數(shù)據(jù)集(即不使用標(biāo)注,僅使用文本評估可信度),實(shí)驗(yàn)中的主動學(xué)習(xí)策略統(tǒng)一設(shè)定為最低可信度策略。每個主動學(xué)習(xí)循環(huán)添加2%訓(xùn)練集的標(biāo)注數(shù)據(jù),每個主動學(xué)習(xí)循環(huán)通過主動學(xué)習(xí)策略從無標(biāo)注數(shù)據(jù)集中選擇訓(xùn)練集句子總數(shù)2%的句子轉(zhuǎn)到標(biāo)注數(shù)據(jù)集(模擬現(xiàn)實(shí)中的人工標(biāo)注)。模型僅使用標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練,默認(rèn)訓(xùn)練100 個迭代(epoch),且25 次迭代沒有提升精度就結(jié)束訓(xùn)練。主動學(xué)習(xí)算法的偽代碼如下:

        3.3.2 對比模型

        對比模型具體如下:

        1)基于主動學(xué)習(xí)的CNN-CNN-LSTM[6]模型。

        2)在主動學(xué)習(xí)框架中復(fù)現(xiàn)的FLAT[2]模型。

        3)Star_Trans 模型:由Star Transformer[22]和平面格柵結(jié)構(gòu)組合而來,在上下文向量Cx=cat(hx-1,hx,hx+1,ei,G)中保留Star Transformer 中用于多層疊加的ei節(jié)點(diǎn)。

        3.3.3 對比實(shí)驗(yàn)結(jié)果分析

        按照實(shí)驗(yàn)設(shè)置分別對4 個中文NER 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如圖2 所示。由圖2 可以看出,所提模型(簡稱為Star_Frag)在MSRA 數(shù)據(jù)集上明顯優(yōu)于其他模型,且兩種基于全局節(jié)點(diǎn)的模型也都優(yōu)于FLAT 模型;在OntoNotes 5.0 數(shù)據(jù)集上,兩種基于全局節(jié)點(diǎn)的模型相差不多,略優(yōu)于FLAT 模型,明顯優(yōu)于CNN-CNN-LSTM 模型;在Weibo 數(shù)據(jù)集上,Star_Frag 明顯優(yōu)于其他模型,且兩種基于全局節(jié)點(diǎn)的模型也都優(yōu)于FLAT 模型;在PeopleDaily 數(shù)據(jù)集上,3 種模型相差不多,在標(biāo)注字?jǐn)?shù)小于200 000時,F(xiàn)LAT 模型相對較差。

        圖2 對比實(shí)驗(yàn)結(jié)果Fig.2 Comparative experimental results

        通過圖2 分析比較直觀,但不夠精確。由于數(shù)據(jù)標(biāo)注代價與標(biāo)注字?jǐn)?shù)正相關(guān),并且不同數(shù)據(jù)集在主動學(xué)習(xí)過程中存在波動,取模型3 次達(dá)到F1 閾值所需的標(biāo)注字?jǐn)?shù)為評價指標(biāo)。F1 閾值的取值以使用20%標(biāo)注數(shù)據(jù)時模型的平均結(jié)果為基準(zhǔn),結(jié)果如表2所示。根據(jù)表2 中的實(shí)驗(yàn)結(jié)果可得,Star_Frag 模型在4 個數(shù)據(jù)集上所需標(biāo)注代價更低,相較于FLAT 模型,達(dá)到對應(yīng)F1 閾值所需的標(biāo)注數(shù)據(jù)量分別降低了39.90%、2.17%、34.60% 和35.67%,取得了 最好的結(jié)果。

        表2 3 次達(dá)到F1 閾值所需的標(biāo)注字?jǐn)?shù)Table 2 Required number of annotated words to reach F1 threshold three times 單位:字

        3.4 消融實(shí)驗(yàn)

        消融實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)置與對比實(shí)驗(yàn)相同。

        1)刪除片段節(jié)點(diǎn)(Star_withoutFa)。刪除片段節(jié)點(diǎn)Fa后的上下文矩陣Cx計(jì)算公式如下:

        在相對距離編碼計(jì)算時,設(shè)定當(dāng)P代表G時,都設(shè)定為1,表示所有跨度到全局節(jié)點(diǎn)的距離為1。

        2)刪除全局節(jié)點(diǎn)(Star_withoutG)。刪除全局節(jié)點(diǎn)G后的上下文矩陣Cx計(jì)算公式如下:

        在相對距離編碼計(jì)算時,設(shè)定當(dāng)P代表Fa時,都設(shè)定為1,表示所有跨度到片段節(jié)點(diǎn)的距離為1。

        消融實(shí)驗(yàn)結(jié)果如圖3 所示,由圖3 可以看出:在MSRA 數(shù)據(jù)集上,刪除全局節(jié)點(diǎn)的模型表現(xiàn)最差,其次是刪除片段節(jié)點(diǎn)的模型,Star_Frag 模型表現(xiàn)最好;在OntoNotes 5.0 數(shù)據(jù)集上,3 種模型相差不大,無法明顯區(qū)分;在Weibo 數(shù)據(jù)集上,刪除片段節(jié)點(diǎn)的模型表現(xiàn)最差,其次是刪除全局節(jié)點(diǎn)的模型,Star_Frag 模型表現(xiàn)最好;在PeopleDaily 數(shù)據(jù)集上,3 種模型在200 000 字之前相差不大,在200 000 字之后Star_Frag 模型相對更好。

        圖3 消融實(shí)驗(yàn)結(jié)果Fig.3 Ablation experimental results

        3.5 參數(shù)分析實(shí)驗(yàn)

        Transformer 和Star-Transformer 的編碼 器都設(shè)置了多層疊加結(jié)構(gòu),但在FLAT 模型中僅使用1 層。對此進(jìn)行參數(shù)分析實(shí)驗(yàn),為了節(jié)約訓(xùn)練時間,參數(shù)分析實(shí)驗(yàn)僅進(jìn)行10 個主動學(xué)習(xí)循環(huán),每次添加100 句句子。實(shí)驗(yàn)結(jié)果如圖4 所示,由圖4 可以看出,實(shí)驗(yàn)結(jié)果沒有隨著編碼器疊加層數(shù)的增加而變好,在疊加3 層時F1 值甚至?xí)霈F(xiàn)明顯的下降趨勢,因此多層疊加編碼器在當(dāng)前結(jié)構(gòu)中不會帶來性能提升。

        圖4 參數(shù)分析實(shí)驗(yàn)結(jié)果Fig.4 Parameter analysis experimental results

        4 結(jié)束語

        本文提出一種融合全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的格柵命名實(shí)體識別模型,通過全局節(jié)點(diǎn)和片段節(jié)點(diǎn)的結(jié)構(gòu)有效減少了標(biāo)注數(shù)據(jù)的需求量,對Flat-Lattice 結(jié)構(gòu)的改進(jìn)可有效添加詞匯信息,避免了人工分詞。對比實(shí)驗(yàn)結(jié)果表明,所提模型達(dá)到對應(yīng)F1 閾值所需的標(biāo)注數(shù)據(jù)量相比于已有命名實(shí)體識別模型更少,有效降低了標(biāo)注代價。后續(xù)將對主動學(xué)習(xí)策略進(jìn)行改進(jìn),利用CRF 層的轉(zhuǎn)移矩陣和輸出分?jǐn)?shù)評價樣本質(zhì)量,進(jìn)一步降低標(biāo)注代價。

        猜你喜歡
        分詞跨度命名
        緩粘結(jié)預(yù)應(yīng)力技術(shù)在大跨度梁中的應(yīng)用
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        大跨度連續(xù)剛構(gòu)橋線形控制分析
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        組合鋁合金立柱在超大跨度玻璃幕墻中的應(yīng)用
        上海建材(2018年4期)2018-11-13 01:08:54
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        值得重視的分詞的特殊用法
        探討大跨度門式起重機(jī)運(yùn)行偏斜的問題
        河南科技(2014年24期)2014-02-27 14:19:37
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        国产人与zoxxxx另类| 成人艳情一二三区| 亚洲国产精品久久艾草| 99国产精品自在自在久久| 男人添女人下部高潮全视频| 久久久精品久久日韩一区综合| 狠狠久久精品中文字幕无码| 天天鲁一鲁摸一摸爽一爽| 无码人妻丰满熟妇啪啪7774| 激情五月天伊人久久| 黑人一区二区三区啪啪网站| 久久精品国产在热亚洲不卡| 虎白女粉嫩粉嫩的18在线观看| 少妇伦子伦情品无吗| 少妇无码av无码专区| 波多野结衣aⅴ在线| 欧洲亚洲视频免费| 亚洲精品中文字幕二区| 国产av一区二区制服丝袜美腿| 国产一级二级三级在线观看av| 日本熟妇美熟bbw| 亚洲精品一区久久久久久| 亚洲精品成人网久久久久久| 麻豆密入视频在线观看| 亚洲色图视频在线观看,| 伊人久久大香线蕉av不变影院| 精品卡一卡二乱码新区| 色www视频永久免费| 少妇人妻偷人精品一区二区| 制服丝袜人妻中出第一页| 少妇高潮呻吟求饶视频网站| 国产流白浆视频在线观看| 亚洲精品无码专区| 99精品国产综合久久久久五月天| 精品四虎免费观看国产高清 | 亚洲成AV人国产毛片| 亚洲一区二区岛国高清| 亚洲久悠悠色悠在线播放| 国产午夜福利100集发布| 久久艹影院| 国产360激情盗摄一区在线观看|