亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于細(xì)粒度實(shí)體分類的對(duì)比研究

        2022-07-19 04:40:12祺,
        關(guān)鍵詞:細(xì)粒度實(shí)體標(biāo)簽

        周 祺, 陶 皖

        (安徽工程大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖 241000)

        0 引 言

        在自然語言處理(Natural Language Processing,NLP)中,實(shí)體分類是指為每一個(gè)實(shí)體分配一個(gè)指定的標(biāo)簽,這是一項(xiàng)非常重要而又基礎(chǔ)的工作,在知識(shí)圖譜的構(gòu)建中扮演著重要的角色,作為構(gòu)建知識(shí)圖譜的基礎(chǔ)性工作,實(shí)體分類的質(zhì)量好壞直接影響整個(gè)知識(shí)圖譜的可信度和可用性。傳統(tǒng)的命名實(shí)體識(shí)別[1](Name Entity Recognition,NER)作為實(shí)體抽取的子任務(wù)為后續(xù)的工作奠定了堅(jiān)實(shí)的基礎(chǔ),即將文本中的指稱(即實(shí)體在具體上下文中的一段指代)抽取出來,并判斷其在上下文中的類型為人、位置、組織、其他等粗粒度類型的過程。近年來,傳統(tǒng)的命名實(shí)體識(shí)別被擴(kuò)展到更深層次的細(xì)粒度實(shí)體類型。由于上游分配粗粒度的實(shí)體類型,后續(xù)選取實(shí)體間的候選關(guān)系就會(huì)復(fù)雜,相應(yīng)的關(guān)系抽取任務(wù)會(huì)變得愈加困難,于是就促進(jìn)了細(xì)粒度實(shí)體分類任務(wù)的研究。通過細(xì)粒度實(shí)體分類概念的引入,有效地將粗粒度的實(shí)體類型標(biāo)簽細(xì)化、層次化,從而使得下游任務(wù)(關(guān)系抽取、事件抽取、問答系統(tǒng)、實(shí)體推薦等)的工作效率降低,提高工作效率。

        細(xì)粒度實(shí)體分類[2](Fine-grained Entity Typing,F(xiàn)ET)在給定實(shí)體指稱的情況下,依據(jù)其上下文給實(shí)體指稱賦予一個(gè)或多個(gè)實(shí)體類型。在FET中,能夠?qū)δ繕?biāo)實(shí)體類型進(jìn)行更細(xì)致地劃分,同時(shí)保證類型之間存在一定的層次關(guān)系。細(xì)粒度的實(shí)體類型表示可以為其他 NLP 任務(wù)提供更多的語義信息,有助于增強(qiáng)后續(xù)關(guān)系抽取和事件抽取等任務(wù)的指示性,提高問答系統(tǒng)、實(shí)體推薦等下游任務(wù)的工作效率。

        傳統(tǒng)的FET任務(wù)通常采用人工標(biāo)注語料的方式,費(fèi)時(shí)費(fèi)力。隨著實(shí)體類型數(shù)據(jù)集的不斷增大,人工標(biāo)注類型標(biāo)簽的難度增加、代價(jià)高昂,而且容易出錯(cuò)。為此將深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)方法[3-5]運(yùn)用到細(xì)粒度實(shí)體分類領(lǐng)域,可充分利用深度學(xué)習(xí)方法從大量訓(xùn)練語料中學(xué)習(xí)不同語料的語義特征,代替人工標(biāo)注,從而提高細(xì)粒度實(shí)體分類的準(zhǔn)確率。然而現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類模型大多需要遠(yuǎn)程監(jiān)督[6](Distant Supervision)的參與,由于遠(yuǎn)程監(jiān)督鏈接到知識(shí)庫中實(shí)體指稱的所有標(biāo)簽,召回過程不可避免地會(huì)引入噪聲問題,但過多的噪聲使得訓(xùn)練模型性能變差,影響分類精度。為了緩解噪聲標(biāo)簽產(chǎn)生的負(fù)面影響,有學(xué)者提出細(xì)粒度實(shí)體分類的標(biāo)簽噪聲處理方法,如剪枝噪聲標(biāo)簽[7]、劃分?jǐn)?shù)據(jù)集[8]等,能夠有效地改善FET任務(wù)處理噪聲標(biāo)簽的魯棒性,促進(jìn)了細(xì)粒度實(shí)體分類的進(jìn)一步研究。

        1 細(xì)粒度實(shí)體分類

        Lee等[9]首次在問答系統(tǒng)中對(duì)細(xì)粒度命名實(shí)體識(shí)別任務(wù)進(jìn)行處理,提出利用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)檢測(cè)命名實(shí)體的邊界,并使用最大熵(Maximum Entropy,ME)對(duì)實(shí)體進(jìn)行分類,同時(shí)他們定義了147種細(xì)粒度的命名實(shí)體類型。但對(duì)于細(xì)粒度的語義命名實(shí)體識(shí)別與分類還沒有系統(tǒng)的研究,因此Ekbal等[10]依賴大型文本語料庫,獲取細(xì)粒度的語義類型和實(shí)例,構(gòu)建了細(xì)粒度命名實(shí)體識(shí)別與分類的數(shù)據(jù)集。為了擴(kuò)展命名實(shí)體類型表示,Sekine[11]使用日本百科全書的知識(shí)創(chuàng)建了200種擴(kuò)展命名實(shí)體類型,其中包含了擴(kuò)展命名實(shí)體的豐富描述以及一系列的屬性設(shè)計(jì)。與上述工作不同的是,Ling等[2]針對(duì)細(xì)粒度實(shí)體分類任務(wù),創(chuàng)建了經(jīng)典數(shù)據(jù)集FIGER,將本來只劃分為5~6種類型的實(shí)體擴(kuò)展到112種類型標(biāo)簽,通過遠(yuǎn)程監(jiān)督的方式,獲取維基百科詞條中的實(shí)體類型信息,并根據(jù)CRF劃分實(shí)體邊界,最終由感知機(jī)算法完成多類別多標(biāo)簽任務(wù),開辟了針對(duì)細(xì)粒度實(shí)體分類領(lǐng)域的新方法,為后續(xù)的研究工作提供了便捷。針對(duì)FIGER數(shù)據(jù)集中類型數(shù)量相對(duì)較少,一個(gè)實(shí)體通常只映射到一個(gè)類型的問題,Yosef等[12]提出了在不同層次、數(shù)百種類型的基礎(chǔ)上,利用層次分類法對(duì)來自WordNet中的大量實(shí)體類型自動(dòng)計(jì)算擴(kuò)展實(shí)體指稱的類型,得到了非常精細(xì)的505種實(shí)體類型,形成了一個(gè)多標(biāo)簽的分級(jí)分類系統(tǒng)HYENA。略顯不足的是,HYENA中的類型均來自WordNet中的子集,缺少重要的實(shí)體類型。為了彌補(bǔ)這一缺陷,F(xiàn)INET[13]不再限制實(shí)體類型,提取整個(gè)WordNet中超過16 000種類型,其中包括個(gè)人、組織和位置等。以往的研究大多依賴于人工標(biāo)注的特征,而Dong等[14]首次采用深度學(xué)習(xí)的方式,使用詞嵌入作為特征,通過監(jiān)督方法將網(wǎng)頁中的內(nèi)容提取與現(xiàn)有知識(shí)庫中的先驗(yàn)知識(shí)相融合,能夠有效地提高識(shí)別實(shí)體類型的準(zhǔn)確率。上述工作均為細(xì)粒度實(shí)體分類領(lǐng)域的研究奠定了基礎(chǔ),證實(shí)了其存在價(jià)值及重要意義,并為后續(xù)實(shí)驗(yàn)創(chuàng)建了基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)集。

        2 基于神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類

        由于實(shí)體指稱在知識(shí)庫中所對(duì)應(yīng)的類型較多,一般采用人工標(biāo)注的方式保證樣本的準(zhǔn)確率,但這樣人工成本耗費(fèi)過多。隨著知識(shí)庫規(guī)模的急速增長,人工標(biāo)注的方式已經(jīng)無法跟上數(shù)據(jù)更新的速度,因此使用神經(jīng)網(wǎng)絡(luò)方法代替部分人工過程,以便提高細(xì)粒度實(shí)體分類的準(zhǔn)確率和召回率。

        2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[3]通常由輸入層、隱藏層和輸出層組成。首先在輸入層處理多維數(shù)據(jù),其次在隱藏層中可以利用卷積層、池化層和全連接層對(duì)輸入數(shù)據(jù)進(jìn)行特征提取、特征選擇以及信息過濾,最后在輸出層使用邏輯函數(shù)或softmax函數(shù)輸出分類標(biāo)簽。

        為提取實(shí)體信息用于知識(shí)庫補(bǔ)全領(lǐng)域,Jia等[15]提出一種學(xué)習(xí)實(shí)體指稱及其上下文聯(lián)合表示的卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合模型(Convolutional Neural Network Joint Model, CNNJM),在詞嵌入平均化的基礎(chǔ)上進(jìn)行一層卷積,通過最大池化操作獲得最重要的特征,類似思想也用于句子分類[16]、事件抽取[17]領(lǐng)域中,CNNJM更關(guān)注于實(shí)體本身的特征信息。然而實(shí)體指稱的上下文蘊(yùn)含著更豐富的信息,于是Murty等[18]通過對(duì)實(shí)體指稱的上下文及位置信息進(jìn)行卷積操作,之后進(jìn)行最大池化處理,提取更多的上下文特征信息,有利于提高細(xì)粒度實(shí)體分類的準(zhǔn)確率。

        2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類

        考慮CNN網(wǎng)絡(luò)層次之間的關(guān)聯(lián)性不強(qiáng),且無法很好地學(xué)習(xí)自然語言數(shù)據(jù)的長距離依賴和結(jié)構(gòu)化語法特征,因此卷積神經(jīng)網(wǎng)絡(luò)在后期自然語言處理中的應(yīng)用要少于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]。RNN以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸操作,將所有循環(huán)單元按鏈?zhǔn)竭B接,主要包括輸入層、隱藏層和輸出層,隱藏層中添加了記憶細(xì)胞模塊。與CNN有所不同的是,CNN隱藏層之間的節(jié)點(diǎn)是無連接的,而RNN會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,即隱藏層之間的節(jié)點(diǎn)是有連接的。

        研究證明,RNN對(duì)符合時(shí)間順序、邏輯順序等序列特性的數(shù)據(jù)十分有效,能挖掘數(shù)據(jù)中的時(shí)序信息以及語義信息,但是由于權(quán)重累加過大,無法進(jìn)行長期記憶的學(xué)習(xí),可能導(dǎo)致結(jié)果失真、運(yùn)算效率降低,因此長短期記憶(Long Short-Term Memory,LSTM)[5]網(wǎng)絡(luò)應(yīng)運(yùn)而生。LSTM網(wǎng)絡(luò)通過精妙的輸入門、遺忘門和輸出門控制將短期記憶與長期記憶結(jié)合起來,選擇性地記錄或遺忘輸入的信息,有利于提取重要的特征信息,得到更好的實(shí)驗(yàn)結(jié)果。

        為了達(dá)到更高精度識(shí)別實(shí)體、細(xì)化實(shí)體類型的效果, Shimaoka等[19]創(chuàng)新地使用LSTM學(xué)習(xí)實(shí)體指稱的上下文表示,同時(shí)引入注意力機(jī)制,為雙向長短期記憶網(wǎng)絡(luò)(Bi-directional LSTM,BiLSTM)編碼的上下文序列計(jì)算注意力權(quán)重,識(shí)別更具表達(dá)類型標(biāo)簽的信息,并使分類行為更具可解釋性。隨后,Shimaoka等[20]將先前未考慮到的人工標(biāo)注特征與模型學(xué)習(xí)到的特征結(jié)合在一起形成互補(bǔ)的信息,再次提高細(xì)粒度實(shí)體分類任務(wù)的準(zhǔn)確率和召回率。根據(jù)知識(shí)庫(Knowledge Base,KB)中有關(guān)實(shí)體的豐富信息,Xin等[21]提出了基于知識(shí)庫的注意力神經(jīng)網(wǎng)絡(luò)模型。該模型將實(shí)體指稱的上下文向量投入BiLSTM,通過計(jì)算注意力權(quán)重,輸出上下文表示。與此同時(shí),還將注意力機(jī)制運(yùn)用到實(shí)體指稱表示和來自知識(shí)庫的實(shí)體表示,既考慮了實(shí)體指稱與上下文的關(guān)系,也能夠把實(shí)體指稱與知識(shí)庫中相關(guān)實(shí)體的關(guān)系代入其中。鑒于FIGER、OntoNotes中的實(shí)體類型仍不夠精細(xì),Choi等[22]提出了超細(xì)粒度實(shí)體分類(Ultra-Fine Entity Typing,UFET),采用兩層獨(dú)立的BiLSTM處理上下文,并通過注意力機(jī)制和多層感知機(jī)(Multi-layer Perceptron,MLP)算法生成實(shí)體指稱的上下文表示,有效地改進(jìn)了細(xì)粒度實(shí)體分類的效果。同時(shí)創(chuàng)建了三層的超細(xì)粒度實(shí)體類型數(shù)據(jù)集UFET,包括9種通用類型、121種細(xì)粒度類型和10 201種超細(xì)粒度類型。

        由于LSTM的強(qiáng)大功能,將其應(yīng)用到自然語言處理領(lǐng)域的效果良好,此后的細(xì)粒度實(shí)體分類任務(wù)大多采用LSTM處理實(shí)體指稱的上下文向量,以獲取重要的上下文語義特征,為實(shí)體指稱分配細(xì)粒度實(shí)體類型提供指示性信息。

        3 基于噪聲處理的細(xì)粒度實(shí)體分類

        現(xiàn)有的大多數(shù)細(xì)粒度實(shí)體分類模型采用基于神經(jīng)網(wǎng)絡(luò)的實(shí)體分類模型,利用遠(yuǎn)程監(jiān)督方法首先將語句中的實(shí)體指稱鏈接到知識(shí)庫中的實(shí)體,再把KB中實(shí)體的所有類型標(biāo)簽分配給實(shí)體指稱的候選類型集。由于采用遠(yuǎn)程監(jiān)督方法,分配類型標(biāo)簽時(shí)未考慮實(shí)體指稱的上下文,會(huì)將無關(guān)的實(shí)體類型標(biāo)簽引入訓(xùn)練數(shù)據(jù)中,把這些無關(guān)的類型標(biāo)簽視為標(biāo)簽噪聲。遠(yuǎn)程監(jiān)督在對(duì)實(shí)體指稱進(jìn)行細(xì)粒度實(shí)體分類時(shí)會(huì)受到標(biāo)簽噪聲和相關(guān)類型的限制,從而加大了后續(xù)分類模型對(duì)實(shí)體指稱進(jìn)行正確分類的難度,嚴(yán)重影響了細(xì)粒度實(shí)體分類模型的準(zhǔn)確性和可信性。因此,對(duì)標(biāo)簽噪聲進(jìn)行有效處理,能凈化訓(xùn)練數(shù)據(jù)集,使分類模型訓(xùn)練時(shí)能夠高效學(xué)習(xí)實(shí)體類型標(biāo)簽,優(yōu)化分類模型的準(zhǔn)確性。本節(jié)介紹基于噪聲處理的細(xì)粒度實(shí)體分類,主要分為基于規(guī)則劃處理數(shù)據(jù)集、優(yōu)化損失函數(shù)兩部分。

        3.1 基于規(guī)則處理數(shù)據(jù)集

        由于FIGER[2]和HYENA[12]的訓(xùn)練集和測(cè)試集都是從Wikipedia中利用遠(yuǎn)程監(jiān)督自動(dòng)獲取的,未經(jīng)過任何的過濾和挑選。因此Gillick等[7]通過在訓(xùn)練集上采用啟發(fā)式剪枝的方法來解決訓(xùn)練數(shù)據(jù)中出現(xiàn)的多余標(biāo)簽,用于完善訓(xùn)練數(shù)據(jù)的啟發(fā)式方法刪除了與單個(gè)實(shí)體關(guān)聯(lián)的同級(jí)類型,僅保留了父類型;刪除與在該類型集上訓(xùn)練的標(biāo)準(zhǔn)粗粒度類型分類器的輸出不一致的類型;刪除出現(xiàn)次數(shù)少于文檔中的最小次數(shù)的類型。經(jīng)過啟發(fā)式規(guī)則能有效地改善人工標(biāo)注數(shù)據(jù)的性能。但通過啟發(fā)式規(guī)則剪枝噪聲,會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)樣本量減少,影響模型的整體性能,因此Ren等[8]提出自動(dòng)細(xì)粒度實(shí)體分類模型(Automatic Fine-grained Entity Typing,AFET),對(duì)帶有正確類型標(biāo)簽的實(shí)體指稱和帶有噪聲標(biāo)簽的實(shí)體指稱分別進(jìn)行建模訓(xùn)練,另外還設(shè)計(jì)了一種新的部分標(biāo)簽損失算法,能利用噪聲候選類型集中與實(shí)體指稱相關(guān)的候選類型建模真實(shí)類型,并利用為指稱所提取的各種文本特征逐步估計(jì)出最佳類型。然而,去噪過程和訓(xùn)練過程沒有統(tǒng)一,這可能會(huì)導(dǎo)致誤差傳播,帶來更多的復(fù)雜性。于是Zhang等[23]提出一種基于路徑的注意力神經(jīng)網(wǎng)絡(luò)模型( Path-based Attention Neural Model,PAN )可以選擇與每種實(shí)體類型相關(guān)的語句,動(dòng)態(tài)減少訓(xùn)練期間每種實(shí)體類型的錯(cuò)誤標(biāo)記語句的權(quán)重,通過端到端的過程有效地減少類型標(biāo)簽噪聲,并能在有噪聲的數(shù)據(jù)集上實(shí)現(xiàn)更好的細(xì)粒度實(shí)體分類性能。為進(jìn)一步改進(jìn)噪聲數(shù)據(jù)處理的效果,Abhishek等[24]參考AFET,構(gòu)建了AAA模型,將訓(xùn)練數(shù)據(jù)分為干凈集和噪聲集,若訓(xùn)練數(shù)據(jù)實(shí)體的多個(gè)標(biāo)簽屬于同一類別將其分為到干凈集,反之則劃分到噪聲集。同時(shí)能聯(lián)合學(xué)習(xí)實(shí)體指稱及其上下文表示,并且在訓(xùn)練數(shù)據(jù)時(shí)使用變形的非參變量鉸鏈損失函數(shù),還運(yùn)用遷移學(xué)習(xí)提高模型的有效性。

        3.2 優(yōu)化損失函數(shù)

        3.2.1 鉸鏈損失函數(shù)

        鉸鏈損失(Hinge Loss)函數(shù)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種損失函數(shù),可用于“最大間隔(Max-margin)”分類,經(jīng)典公式如下:

        L(y,y′)=max(0,marg in+y′-y)

        (1)

        其中,y是正例標(biāo)簽的得分,y′是負(fù)例標(biāo)簽的得分,兩者間的差值用來預(yù)測(cè)兩種預(yù)測(cè)結(jié)果的相似關(guān)系。

        以往對(duì)細(xì)粒度實(shí)體分類中訓(xùn)練數(shù)據(jù)的噪聲進(jìn)行處理時(shí)將其剪枝或劃分為不同的數(shù)據(jù)集,但是未充分考慮到細(xì)粒度實(shí)體分類系統(tǒng)處理噪聲數(shù)據(jù)時(shí)的魯棒性。于是Yogatama等[25]在WSABIE[26]的基礎(chǔ)上,提出了學(xué)習(xí)特征和標(biāo)簽聯(lián)合表示的模型K-WSABIE,將特征向量和標(biāo)簽映射到同一低維空間,學(xué)習(xí)特征和標(biāo)簽的聯(lián)合表示。與此同時(shí),在K-WSABIE中引入鉸鏈損失函數(shù),如下:

        L(y,y′)=R(rank(y))max(0,1-y+y′)

        (2)

        其中,y和y′含義如上,R(rank(y))使得正例標(biāo)簽的得分高于負(fù)例標(biāo)簽,彼此之間不產(chǎn)生競(jìng)爭,有效提高模型應(yīng)對(duì)噪聲數(shù)據(jù)的魯棒性。

        為減少與上下文無關(guān)的噪聲標(biāo)簽影響,Dai等[27]利用實(shí)體鏈接[28-29]改進(jìn)細(xì)粒度實(shí)體分類模型,根據(jù)上下文、指稱的字符以及用實(shí)體鏈接從知識(shí)庫中獲得的類型信息結(jié)合在一起靈活地預(yù)測(cè)類型標(biāo)簽,同時(shí)設(shè)計(jì)了一個(gè)變形的鉸鏈損失函數(shù)防止訓(xùn)練后的模型過擬合弱標(biāo)記數(shù)據(jù),如下:

        L(y,y′)=max(0,1-y)+λ·max(0,1+y′)

        (3)

        其中,y和y′含義如上,λ為超參數(shù),靈活地調(diào)整對(duì)負(fù)例標(biāo)簽的懲罰。

        由于以往方法對(duì)實(shí)體指稱獨(dú)立建模,僅依據(jù)上下文分配實(shí)體類型標(biāo)簽,可能會(huì)妨礙信息跨越句子邊界傳遞信息,為此Ali等[30]提出了一個(gè)基于邊緣加權(quán)的注意力圖卷積網(wǎng)絡(luò)(Fine-Grained Named Entity Typing with Refined Representations,F(xiàn)GET-RR)。FGET-RR不僅分析具體的上下文信息,還側(cè)重于對(duì)語料庫中特定標(biāo)簽的上下文進(jìn)行分析。另外,對(duì)于干凈數(shù)據(jù)和含噪聲數(shù)據(jù)分別設(shè)計(jì)鉸鏈損失函數(shù),如下:

        Lclean=ReLU(1-y)+ReLU(1+y′)

        (4)

        Lnoisy=ReLU(1-y*)+ReLU(1+y′)

        y*=arg maxy

        (5)

        3.2.2 交叉熵?fù)p失函數(shù)

        交叉熵?fù)p失函數(shù)(Cross Entropy Loss)在機(jī)器學(xué)習(xí)中主要用于衡量真實(shí)概率分布與預(yù)測(cè)概率分布之間的差異性,交叉熵的損失值越小,代表模型的預(yù)測(cè)效果就越好,如下:

        (6)

        其中,p為真實(shí)概率分布,q為預(yù)測(cè)概率分布。

        與前人不同的是,Xu等[31]對(duì)原本細(xì)粒度實(shí)體分類的多標(biāo)簽分類問題,轉(zhuǎn)換為單標(biāo)簽分類問題,并且使用變形的交叉熵?fù)p失函數(shù)和分層損失函數(shù)來分別處理無關(guān)噪聲標(biāo)簽以及過于具體的標(biāo)簽。變形的交叉熵?fù)p失函數(shù)根據(jù)實(shí)體指稱的上下文自動(dòng)過濾不相關(guān)的類型,如下:

        (7)

        其中,N為實(shí)體指稱的數(shù)量,p(yi)為預(yù)測(cè)的概率分布,當(dāng)實(shí)體指稱對(duì)應(yīng)多個(gè)類型標(biāo)簽時(shí),只選取具有最高概率的標(biāo)簽。分層損失函數(shù)能調(diào)整預(yù)測(cè)相關(guān)類型的步驟,使模型了解實(shí)體類型的層次結(jié)構(gòu),預(yù)測(cè)真實(shí)類型的父類型會(huì)比其他不相關(guān)的類型效果好,從而減輕過于具體標(biāo)簽的消極影響。

        在NFETC[31]的基礎(chǔ)上,為避免文獻(xiàn)[8、24、31]中使用部分標(biāo)簽損失的確認(rèn)誤差累積影響,Chen等[32]提出使用壓縮隱空間簇(NFETC-Compact Latent Space Clustering,NFETC-CLSC)來規(guī)范遠(yuǎn)程監(jiān)督模型。對(duì)于干凈的數(shù)據(jù),壓縮相同類型的表示空間;對(duì)于有噪聲的數(shù)據(jù),通過標(biāo)簽傳播和候選類型約束來推斷它們的類型分布,激發(fā)出更好的分類性能。以KL散度計(jì)算遠(yuǎn)程監(jiān)督損失值,如下:

        (8)

        其中,B為干凈數(shù)據(jù)訓(xùn)練時(shí)的批大小,J為目標(biāo)類型數(shù),yij為預(yù)測(cè)類型分布。

        針對(duì)文獻(xiàn)[31]將細(xì)粒度實(shí)體分類轉(zhuǎn)化為單標(biāo)簽分類問題,此方法未必完全正確,于是Zhang等[33]提出了一種統(tǒng)一處理所有訓(xùn)練樣本的基于概率自動(dòng)重標(biāo)記的方法(NFETC-Automatic Relabeling,NFETC-AR)。在訓(xùn)練過程中為每個(gè)樣本分配所有候選標(biāo)簽上的連續(xù)標(biāo)簽分布,并且將連續(xù)標(biāo)簽分布作為訓(xùn)練參數(shù)的一部分通過反向傳播算法進(jìn)行更新,達(dá)到預(yù)測(cè)分布與偽真標(biāo)簽分布之間的最小化KL散度(Kullback-Leibler Divergence)的目的,最后取偽真標(biāo)簽分布中值最大的標(biāo)簽作為唯一的偽真標(biāo)簽,具體KL散度如下:

        (9)

        其中,N為實(shí)體指稱的數(shù)量,T為類型數(shù),pij為連續(xù)標(biāo)簽分布。

        不僅要考慮標(biāo)簽的層次結(jié)構(gòu),Xin等[34]從語言角度提出了以無監(jiān)督的方式,運(yùn)用標(biāo)簽含義衡量上下文句子與每個(gè)遠(yuǎn)程監(jiān)督獲得的標(biāo)簽之間的兼容性,將模型分為兩部分:實(shí)體分類模型(Entity Typing Module,ET)和語言增強(qiáng)模型(Language Model Enhancement, LME)。ET 通過交叉熵函數(shù),最小化真實(shí)類型概率與預(yù)測(cè)類型概率的差異,如下:

        (10)

        LME利用一個(gè)語言模型和一組標(biāo)簽嵌入來判斷標(biāo)簽與上下文句子之間的兼容性,減少由遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲。

        (11)

        4 常用數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        在本節(jié)將詳細(xì)描述細(xì)粒度實(shí)體分類任務(wù)中所用到的實(shí)驗(yàn)數(shù)據(jù)集、評(píng)價(jià)指標(biāo)以及部分文獻(xiàn)的實(shí)驗(yàn)結(jié)果對(duì)比。

        4.1 常用數(shù)據(jù)集

        在細(xì)粒度實(shí)體分類任務(wù)中,主要用到以下3個(gè)數(shù)據(jù)集:FIGER[2]、OntoNotes[7]、BBN[37]。其中FIGER和BBN為2層數(shù)據(jù)集,OntoNotes為3層數(shù)據(jù)集,其他數(shù)據(jù)如表1所示。

        表1 細(xì)粒度實(shí)體分類中常用的數(shù)據(jù)集

        4.2 評(píng)價(jià)指標(biāo)

        評(píng)價(jià)細(xì)粒度實(shí)體分類任務(wù)沿用Ling等[2]提出的3個(gè)指標(biāo):準(zhǔn)確率(Accuracy,Acc)、宏觀平均F1值(Macro-averaging F1-Measure,Macro F1)以及微觀平均F1值(Micro-averaging F1-Measure,Micro F1):

        (12)

        宏觀平均F1值是宏觀精確率(Macro Precision,Pma)和宏觀召回率(Macro Recall,Rma)的平均值。

        (13)

        (14)

        微觀平均F1值是微觀精確率(Micro Precision,Pmi)和微觀召回率(Micro Recall,Rmi)的平均值。

        (15)

        (16)

        4.3 細(xì)粒度實(shí)體分類方法的對(duì)比研究

        為比較以上細(xì)粒度實(shí)體分類方法的性能表現(xiàn),本文在相同數(shù)據(jù)集上將各種方法的實(shí)驗(yàn)結(jié)果列出進(jìn)行對(duì)比研究,如表2所示。選取的細(xì)粒度實(shí)體分類方法有以下幾類:經(jīng)典方法FIGER[2]、HYENA[12];基于RNN的細(xì)粒度實(shí)體分類方法Attentive[19];對(duì)于噪聲處理方面,選取啟發(fā)式剪枝噪聲方法CFGET[7],根據(jù)規(guī)則劃分?jǐn)?shù)據(jù)集方法AFET[8]和AAA[24],優(yōu)化鉸鏈損失函數(shù)方法FGET-RR[30],優(yōu)化交叉熵?fù)p失函數(shù)方法NFETC[31]、CLSC[32]、AR[33]和LME[34]進(jìn)行對(duì)比分析。

        由表2可以看出,早期提出的經(jīng)典細(xì)粒度實(shí)體方法(如FIGER、HYENA)主要集中在將原始的粗粒度的命名實(shí)體類型擴(kuò)展到細(xì)粒度的實(shí)體類型識(shí)別上,因此在3個(gè)數(shù)據(jù)集上的性能表現(xiàn)較差,特別是HYENA將所有實(shí)體類型劃分為9層、共計(jì)505種的細(xì)粒度類別,難度大,因此最終的準(zhǔn)確率、Macro F1值和Micro F1值相對(duì)較低。引入神經(jīng)網(wǎng)絡(luò)模型后,Attentive創(chuàng)新性地使用LSTM和注意力機(jī)制,使得模型的性能表現(xiàn)有大幅提高,在FIGER數(shù)據(jù)集上,準(zhǔn)確率提高約12%,Macro F1值提高約10%,Micro F1值提高約10%;在OntoNotes數(shù)據(jù)集上,準(zhǔn)確率能夠提升近15%,Macro F1值提高近14%,Micro F1值提高近7%。在處理標(biāo)簽噪聲方面,CFGET采用剪枝訓(xùn)練集噪聲的方法,但由于訓(xùn)練集規(guī)模的減小,在數(shù)據(jù)集上的表現(xiàn)較差,與FIGER實(shí)驗(yàn)結(jié)果相近。而AFET和AAA根據(jù)類型路徑劃分干凈數(shù)據(jù)集和含噪聲數(shù)據(jù)集,能夠有效地提高實(shí)體分類的準(zhǔn)確率、Macro F1值和Micro F1值,尤其是AAA加入注意力機(jī)制,提取更為重要的特征信息,在3個(gè)數(shù)據(jù)集上表現(xiàn)良好,與Attentive相比,在FIGER數(shù)據(jù)集上,準(zhǔn)確率提高約6%,Macro F1值提高約2%,Micro F1值提高約2%;在BBN數(shù)據(jù)集上,準(zhǔn)確率能夠提升近12%,Macro F1值提高近1%,Micro F1值提高近3%。FGET-RR采用圖卷積網(wǎng)絡(luò)分析上下文信息,并對(duì)干凈數(shù)據(jù)和含噪聲數(shù)據(jù)分別設(shè)計(jì)損失函數(shù),在FIGER、BBN、OntoNotes數(shù)據(jù)集上的性能能夠得到顯著的提升。CLSC、AR都是在NFETC的基礎(chǔ)上做出相應(yīng)改進(jìn),實(shí)驗(yàn)結(jié)果表明AR對(duì)所有標(biāo)簽通過最小化預(yù)測(cè)標(biāo)簽與偽真標(biāo)簽之間的KL散度進(jìn)行概率更新,最終在FIGER數(shù)據(jù)集上,較NFETC準(zhǔn)確率提高約2%,Macro F1值提高約2%,Micro F1值提高約1%;在BBN數(shù)據(jù)集上,較NFETC準(zhǔn)確率提高約4%,Macro F1值提高約2%,Micro F1值提高約3%。LME從語義角度,主要考慮了語言增強(qiáng)模型,未對(duì)預(yù)測(cè)分類模型做出改進(jìn),因此LME在3個(gè)數(shù)據(jù)集上的性能表現(xiàn)不如NFETC。

        表2 細(xì)粒度實(shí)體分類性能比較

        因此,由上述分析可以看出,在細(xì)粒度實(shí)體分類領(lǐng)域中采用BiLSTM處理實(shí)體指稱上下文,并通過注意力機(jī)制提取更為重要的特征,同時(shí)利用ELMo、BERT等大規(guī)模的預(yù)訓(xùn)練模型代替原有的詞嵌入,有助于提高分類的準(zhǔn)確率。另外,為規(guī)避遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲問題,以無監(jiān)督的方式,選取偽真標(biāo)簽中最大值的標(biāo)簽,也能顯著改善分類效果。

        5 研究展望

        對(duì)現(xiàn)有的細(xì)粒度實(shí)體分類方法以及基于噪聲標(biāo)簽處理的方法進(jìn)行了詳細(xì)介紹,下面對(duì)未來細(xì)粒度實(shí)體分類的發(fā)展趨勢(shì)和研究熱點(diǎn)進(jìn)行探討,主要包括以下兩個(gè)方面。

        (1) 目前,基于神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類大多數(shù)都是監(jiān)督學(xué)習(xí),少部分以無監(jiān)督的方式也取得良好的實(shí)驗(yàn)結(jié)果。未來以半監(jiān)督方式,通過訓(xùn)練有標(biāo)注數(shù)據(jù),在驗(yàn)證集上驗(yàn)證無標(biāo)注數(shù)據(jù)以獲得偽標(biāo)簽數(shù)據(jù),將標(biāo)簽數(shù)據(jù)與偽標(biāo)簽數(shù)據(jù)結(jié)合再次進(jìn)行訓(xùn)練或以無監(jiān)督方式,不斷優(yōu)化相似類型標(biāo)簽之間的距離都是可研究的方向。

        (2) 對(duì)于細(xì)粒度實(shí)體分類的噪聲處理,大多利用遠(yuǎn)程監(jiān)督的方法,使得模型關(guān)注于實(shí)體指稱及其上下文,并采用詞嵌入、BiLSTM處理指稱和上下文向量。LSTM的變體GRU利用更新門和重置門控制輸入值、記憶值和輸出值,結(jié)構(gòu)較LSTM更為簡單,能夠簡化神經(jīng)網(wǎng)絡(luò),因此利用GRU處理實(shí)體指稱或上下文的實(shí)驗(yàn)有待嘗試。另外,利用大規(guī)模的預(yù)訓(xùn)練模型ELMo、BERT等增強(qiáng)原有處理上下文的BiLSTM方法。現(xiàn)在可挖掘其他大型語料庫的信息作為原來只基于實(shí)體指稱上下文方法的一種補(bǔ)充,提取更優(yōu)價(jià)值的信息,有利于提高實(shí)體分類模型的準(zhǔn)確率。

        本文對(duì)細(xì)粒度實(shí)體分類方法進(jìn)行了詳細(xì)敘述,介紹了現(xiàn)有的基于不同神經(jīng)網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類方法以及基于噪聲處理的細(xì)粒度實(shí)體分類方法,并對(duì)常用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和細(xì)粒度實(shí)體分類方法的性能表現(xiàn)進(jìn)行了整理歸納,同時(shí)分析了未來發(fā)展趨勢(shì)和研究熱點(diǎn)。

        猜你喜歡
        細(xì)粒度實(shí)體標(biāo)簽
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        波多野结衣不打码视频| 成人女同av免费观看| 中文字幕在线乱码日本| 麻豆国产精品va在线观看不卡| 国产男女猛烈视频在线观看| 欧美日韩国产成人综合在线影院| 国产性感主播一区二区| 日韩中文字幕版区一区二区三区 | 久久综合九色综合欧美狠狠 | 国产肉体xxxx裸体784大胆| 亚洲av无码资源在线观看| 国产又爽又黄又不遮挡视频| 亚洲精品在线一区二区| 男人和女人做爽爽视频| 大学生被内谢粉嫩无套| 又色又爽又黄的视频网站| 久久精品亚洲94久久精品| 在线观看成人无码中文av天堂| japanesehd中国产在线看| 97久久人人超碰超碰窝窝| 国产成人啪精品午夜网站| 成人一区二区三区蜜桃| 日本妇人成熟免费2020| 野狼第一精品社区| 国产亚洲午夜精品| 亚洲女同性恋第二区av| 国产a√无码专区亚洲av| 国产微拍精品一区二区| 日本最新一区二区三区免费看| 成人大片免费视频播放一级| 国产无遮挡又黄又爽免费网站| 亚洲欧美中文在线观看4| 中文字幕一区二区在线看| 小妖精又紧又湿高潮h视频69| 免费国精产品自偷自偷免费看| 欧美在线Aⅴ性色| 亚洲一区二区三区色偷偷| 99久久久无码国产精品秋霞网| 亚洲av之男人的天堂| 极品少妇被后入内射视| 欧美牲交a欧美牲交|