亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題關(guān)系的中文短文本圖模型實(shí)體消歧*

        2023-02-08 02:31:20馬瑛超張曉濱
        關(guān)鍵詞:語義文本實(shí)驗(yàn)

        馬瑛超,張曉濱

        (西安工程大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048)

        1 引言

        隨著互聯(lián)網(wǎng)的不斷發(fā)展,海量信息蜂擁而至,如何通過信息檢索來獲取有用信息逐漸成為人們關(guān)注的重點(diǎn)。但是,在信息檢索的過程中,由于同一實(shí)體經(jīng)常會(huì)有多層含義(即在不同語境中同一實(shí)體表達(dá)的含義可能會(huì)不同),因此常常會(huì)得到很多同名但并非相關(guān)的實(shí)體內(nèi)容。實(shí)體消歧(Named Entity Disambiguation)技術(shù)的出現(xiàn)為解決這一問題提供了有效途徑。近年來中文知識圖譜的構(gòu)建為人工智能的發(fā)展帶來了新的機(jī)遇,作為命名實(shí)體識別的后續(xù)任務(wù),實(shí)體鏈接和消歧任務(wù)也是知識圖譜構(gòu)建和補(bǔ)全的重要一環(huán)。知識圖譜技術(shù)的發(fā)展對實(shí)體消歧工作也提出了更高的要求。

        實(shí)體消歧是指將文檔中識別出的實(shí)體指稱鏈向特定知識庫中某個(gè)目標(biāo)實(shí)體的過程,其對應(yīng)著自然語言中的一詞多義[1],即實(shí)體消歧要解決的是同名實(shí)體存在的一詞多義問題。例如“巨人希曼:希曼要去水晶山,一路速度飛快,這速度太驚人了”一句中的“巨人希曼”,消歧系統(tǒng)希望該實(shí)體指稱映射到的目標(biāo)實(shí)體應(yīng)該是動(dòng)畫片《宇宙的巨人希曼》的主角,而不是一個(gè)作品或者其他的實(shí)體對象。但有些時(shí)候,即使是人類也可能因?yàn)槿狈χR或存在誤解而無法消除某些實(shí)體對象的歧義[2]。實(shí)體消歧作為自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),能有效根據(jù)上下文信息消除一詞多義,在該領(lǐng)域起著重要的作用,已經(jīng)成為知識庫構(gòu)建、信息檢索、機(jī)器翻譯以及話題發(fā)現(xiàn)與追蹤等方向的重要支撐技術(shù)[3]。

        針對短文本的實(shí)體消歧工作,本文提出了一種基于實(shí)體主題關(guān)系的中文短文本圖模型消歧方法。該方法使用以BERT(Bidirectional Encoder Representation from Transformers)[4]為基礎(chǔ)的語義匹配模型進(jìn)行匹配度判斷,并將知識庫主題關(guān)聯(lián)信息作為節(jié)點(diǎn)關(guān)系構(gòu)建圖模型;然后對圖進(jìn)行搜索并按照搜索的結(jié)果確定鏈接結(jié)果;此外,還采用TextRank算法對知識庫實(shí)體描述信息進(jìn)行信息增強(qiáng),提高了主題模型相似度的準(zhǔn)確率,增加了方法的可靠性。

        2 背景

        實(shí)體消歧工作旨在確定知識庫與待消歧實(shí)體之間的鏈接關(guān)系,需要借助知識庫中的實(shí)體描述信息。按照建模所依賴的特征信息,實(shí)體消歧工作可分為基于實(shí)體描述文本的消歧方法、基于實(shí)體類別的消歧方法和基于實(shí)體關(guān)系的消歧方法。

        隨著深度學(xué)習(xí)和預(yù)訓(xùn)練模型[5,6]的發(fā)展,基于實(shí)體描述文本的消歧方法取得了優(yōu)秀的成績。He等人[7]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)的方法來進(jìn)行實(shí)體消歧,通過深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)實(shí)體和上下文的特征表示,端到端地進(jìn)行實(shí)體消歧,避免了人工設(shè)計(jì)特征,在公開實(shí)體鏈接數(shù)據(jù)集上取得了優(yōu)異的消歧結(jié)果。Francis-Landau等人[8]提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)進(jìn)行消歧,通過捕獲實(shí)體指稱上下文和目標(biāo)實(shí)體上下文的語義信息,并利用多個(gè)粒度的卷積來比較兩者之間的語義相似度。Phong等人[9]提出將實(shí)體消歧問題轉(zhuǎn)化為文本語義匹配問題,將待消歧文本和所有候選實(shí)體一一配對,通過計(jì)算匹配程度確定消歧結(jié)果。該方法在諸多預(yù)訓(xùn)練模型的幫助下在實(shí)體消歧工作中取得了優(yōu)異的成績,但利用描述文本的語義特征進(jìn)行消歧的模型僅考慮了待消歧實(shí)體與候選實(shí)體之間的匹配程度,而忽略了同一文本中多個(gè)待消歧實(shí)體間的一致性關(guān)系。上述方法都是基于實(shí)體描述文本進(jìn)行的消歧工作。

        Raiman等人[10]提出了針對實(shí)體類別進(jìn)行建模的方法DeepType,該方法將實(shí)體消歧任務(wù)看做對同名實(shí)體類型的判定,其最大的難點(diǎn)在于如何構(gòu)建類別系統(tǒng),在待消歧實(shí)體的候選實(shí)體之間類別差距不大的情況下,如何能夠給出有區(qū)分度的類別判定。

        基于實(shí)體關(guān)系的消歧方法實(shí)質(zhì)上是考慮多實(shí)體之間的全局最優(yōu),通常有基于搜索算法的消歧模型[11](如基于隨機(jī)游走算法的消歧模型)和基于圖理論的消歧模型(如基于密度子圖的方法)[12,13]。由于多實(shí)體消歧基于知識庫中實(shí)體與實(shí)體之間的關(guān)系,因此需要知識庫的信息包含完整的三元組信息,即實(shí)體-關(guān)系-實(shí)體的信息表述。但是,在實(shí)際的消歧環(huán)境中知識庫往往并不包含實(shí)體關(guān)系的描述或?qū)嶓w關(guān)系的描述不完整。針對這一問題,王瑞等人[14]提出了基于主題詞向量和主題模型的多實(shí)體消歧模型,該模型通過構(gòu)建主題詞關(guān)系對待消歧文本和實(shí)體描述、實(shí)體與實(shí)體之間進(jìn)行主題建模,并利用主題相似度得到最終的消歧結(jié)果,這在一定程度上解決了在知識庫缺乏關(guān)系信息的情況下進(jìn)行多實(shí)體消歧的問題。但在短文本的環(huán)境中,將待消歧文本和實(shí)體描述的主題關(guān)系作為消歧的判定依據(jù)很難得到理想的效果。

        隨著微博、評論等短文本信息的不斷增多,知識提取工作的重心在一定程度上轉(zhuǎn)移到了短文本上。而短文本由于包含信息較少、語言不規(guī)范等原因?yàn)樽匀徽Z言處理帶來了新的挑戰(zhàn)。在實(shí)體消歧過程中,單實(shí)體消歧模型在短文本中的效果并不是很理想。同時(shí),由于網(wǎng)絡(luò)實(shí)體的更新速度快,網(wǎng)絡(luò)用語多等原因,短文本環(huán)境中很難構(gòu)建出包含完整鏈接關(guān)系的知識庫,使用實(shí)體關(guān)系的消歧方法也很難取得很好的效果。

        3 中文短文本圖模型實(shí)體消歧方法

        針對中文短文本上下文特征不足以及知識庫中很難直接建立實(shí)體間關(guān)系的問題,本文提出了一種基于主題關(guān)系的中文短文本圖模型實(shí)體消歧方法。該方法首先使用由TextRank算法[15]提取出的關(guān)鍵詞作為語料庫進(jìn)行主題推斷,然后使用主題推斷的結(jié)果與語義匹配模型給出的評分相結(jié)合構(gòu)建消歧網(wǎng)絡(luò)圖,最終通過搜索排序確定最終的消歧結(jié)果。短文本實(shí)體消歧方法的模型結(jié)構(gòu)如圖1所示,語義匹配模塊用于計(jì)算待消歧文本與候選實(shí)體的匹配分?jǐn)?shù),主題推斷模塊用于得到同一文本下的多個(gè)實(shí)體間的主題相關(guān)度。以匹配分?jǐn)?shù)與主題相關(guān)度作為圖節(jié)點(diǎn)與邊的權(quán)值構(gòu)建圖模型,通過融合消歧得到最優(yōu)的消歧組合。

        Figure 1 Structure of entity disambiguation usingChinese short text graph model based on topic relations圖1 基于主題關(guān)系的中文短文本圖模型實(shí)體消歧模型結(jié)構(gòu)圖

        3.1 主題推斷

        本文將潛在狄利克雷分布LDA(Latent Dirichlet Allocation)主題模型[16]與TextRank關(guān)鍵詞提取算法相結(jié)合對候選實(shí)體的描述文本進(jìn)行主題推斷,并根據(jù)主題推斷的結(jié)果進(jìn)行主題相關(guān)度計(jì)算。LDA屬于機(jī)器學(xué)習(xí)中的生成模型,其根據(jù)詞的特征分布生成文章的主題分布,本質(zhì)上是多層級的貝葉斯概率圖模型[17]。但在實(shí)體消歧中,由于多數(shù)同名實(shí)體都具有相似的實(shí)體描述,因此直接使用實(shí)體描述文本作為語料進(jìn)行主題推斷的效果并不理想。為突出同名實(shí)體描述信息之間的差異性,在構(gòu)建語料庫時(shí),本文選擇了TextRank關(guān)鍵詞提取算法對實(shí)體的描述信息進(jìn)行信息增強(qiáng),使用增強(qiáng)后的關(guān)鍵詞作為語料庫進(jìn)行主題推斷。

        TextRank算法是以PageRank算法為藍(lán)本,針對自然語言處理任務(wù)的特點(diǎn)進(jìn)行修改而形成的一種基于圖模型的排序算法[18]。為考慮相鄰詞之間的語義關(guān)系,TextRank算法將關(guān)鍵詞提取轉(zhuǎn)化到圖模型中進(jìn)行處理。該算法將文本視作句子的集合T={S1,S2,…,Sn},每個(gè)句子又視為單詞的集合Si={N1,N2,…,Nm},構(gòu)建圖G=(V,E),其中V為單詞集合,E為詞之間重要性關(guān)系集合,邊權(quán)值具體表現(xiàn)為重要性評分。重要性評分計(jì)算如式(1)所示:

        score(Ni)=(1-d)+

        (1)

        其中,In(Ni)是指向節(jié)點(diǎn)Ni的節(jié)點(diǎn)集合;Out(Nj)是節(jié)點(diǎn)Nj指向的節(jié)點(diǎn)組成的集合;d為阻尼系數(shù),根據(jù)實(shí)際情況對阻尼系數(shù)進(jìn)行賦值,通常取0.85。

        根據(jù)重要性評分設(shè)定閾值H。選擇重要性評分排序后前H項(xiàng)為最終結(jié)果。在實(shí)體消歧中進(jìn)行關(guān)鍵詞提取時(shí)重點(diǎn)保留了定語性質(zhì)的名詞和其他實(shí)體的指稱。

        3.2 基于BERT的語義匹配模型

        為準(zhǔn)確計(jì)算候選實(shí)體與待消歧實(shí)體之間的語義相似度評分,本文將待消歧文本中的所有候選實(shí)體與待消歧文本一一拼接,構(gòu)建了一個(gè)二分類模型。采用的模型設(shè)計(jì)結(jié)構(gòu)是參考經(jīng)典的match架構(gòu)改進(jìn)而來的。以BERT作為模型的輸入,取CLS位置的向量以表示待消歧文本與知識庫描述信息的全局差異。為保留針對待消歧實(shí)體的局部信息,本文通過記錄實(shí)體出現(xiàn)的開始位置begin和結(jié)束位置end,將編碼后對應(yīng)位置向量的拼接結(jié)果作為實(shí)體的局部特征Entity。將得到的CLS位置的向量與實(shí)體位置的向量進(jìn)行拼接,通過Sigmoid為激活函數(shù)的全連接層進(jìn)行分類。其中增加Dropout層的目的是為了防止模型過擬合,Dropout層的參數(shù)設(shè)置為0.15。基于BERT的語義匹配模型結(jié)構(gòu)如圖2所示,其中N表示句子中的字符長度。

        Figure 2 Structure of semantic matching model based on BERT圖2 基于BERT的語義匹配模型結(jié)構(gòu)圖

        如圖2所示,對于“甄嬛傳:安陵容懷孕時(shí),雍正經(jīng)常摸她的肚子”這一輸入文本,首先將實(shí)體“甄嬛傳”與知識庫中所匹配的描述信息一一配對,模型訓(xùn)練中正樣本為待消歧文本與其正確鏈接對象的描述文本的拼接,負(fù)樣本為與非正確鏈接對象的拼接。正樣本與負(fù)樣本的比例為1∶3。最終通過訓(xùn)練好的模型預(yù)測待消歧文本與其所有候選實(shí)體的描述文本的匹配程度,得到待消歧實(shí)體與其候選實(shí)體的匹配分?jǐn)?shù)。

        3.3 融合實(shí)體消歧

        本文針對短文本的待消歧實(shí)體集合構(gòu)建圖,以待消歧實(shí)體為節(jié)點(diǎn),以語義匹配模型給出的評分作為節(jié)點(diǎn)的值,以實(shí)體與實(shí)體的主題相關(guān)度作為邊的權(quán)值。主題相關(guān)度topicRela的計(jì)算方法如式(2)所示:

        (2)

        其中,Ta和Tb分別為候選實(shí)體a和b的主題推斷結(jié)果。

        消歧結(jié)果由語義匹配評分matchi與最大權(quán)值和maxWeight(i)構(gòu)成,計(jì)算方法如式(3)所示:

        (3)

        其中,α為語義匹配評分在消歧結(jié)果中的線性權(quán)重,i表示第i個(gè)候選實(shí)體,e為待處理文本中待消歧實(shí)體的個(gè)數(shù),最大權(quán)和maxWeight(i)是以節(jié)點(diǎn)i為起點(diǎn)的所有全連接子圖的節(jié)點(diǎn)和邊權(quán)值和的最大值。

        為降低時(shí)間復(fù)雜度,本文僅選取語義匹配評分排序前3的節(jié)點(diǎn)加入圖中。構(gòu)造的結(jié)果如圖3所示,其中加粗的子圖為最優(yōu)的消歧組合。

        Figure 3 Relationship diagram of candidate entity 圖3 候選實(shí)體關(guān)系圖

        計(jì)算節(jié)點(diǎn)與邊權(quán)值最大的節(jié)點(diǎn)組合需要對圖進(jìn)行遍歷計(jì)算。本文將所有候選實(shí)體按待消歧實(shí)體構(gòu)成節(jié)點(diǎn)集合作為融合消歧的輸入,并計(jì)算所有全連接子圖的節(jié)點(diǎn)和邊的權(quán)重和。算法偽代碼如算法1所示:

        算法1實(shí)體關(guān)系圖權(quán)值和計(jì)算

        Input:NodeByGroup,n。/*NodeByGroup:An entity to be detected is a set of nodes in a group;e:number of entities to be detected in a text*/

        Output:Weights。/*A path-weight table that contains all of the subgraphs:*/

        1.Weights←null;/*To hold the sum of nodes andweights*/

        2.First←NodeByGroup[0];/*Visit the first set of nodes*/

        3.Weights←First;

        4.fori=1 toedo

        TempWeiths←null;/*Save the weight of the node after adding the new node*/

        5.foreachnode∈NodeByGroup[i]do

        6.forweight∈Weightsdo

        TempWeights←ComputeWeight(node,weight);

        7.endfor

        8.endfor

        9.Weights=TempVisited;

        10.endfor

        returnWeights;

        對所有節(jié)點(diǎn)進(jìn)行遍歷計(jì)算可以得到包含候選實(shí)體的全部全連接子圖與權(quán)值和。對包含某候選實(shí)體的全連接子圖按權(quán)值和進(jìn)行排序,即可得到包含該實(shí)體的最大權(quán)值和與其對應(yīng)的全連接子圖。

        根據(jù)得到的最大權(quán)值和單消歧實(shí)體的評分計(jì)算所有候選實(shí)體的link值,并將待消歧實(shí)體的所有候選實(shí)體的link值進(jìn)行排序,選取結(jié)果最大的作為消歧結(jié)果。當(dāng)link值小于0.5時(shí),則判定為NIL實(shí)體,即知識庫中沒有與待消歧實(shí)體相匹配的結(jié)果。

        4 實(shí)驗(yàn)與結(jié)果分析

        本節(jié)將通過實(shí)驗(yàn)驗(yàn)證基于主題關(guān)系的中文短文本圖模型實(shí)體消歧方法的可行性。

        4.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)采用 CCKS2020(2020全國知識圖譜與語義計(jì)算大會(huì))短文本實(shí)體鏈接任務(wù)所提供的語料集和知識庫。語料集中每條數(shù)據(jù)包含一條文本和該文本中包含的實(shí)體指稱,以及各個(gè)實(shí)體指稱在給定知識庫中對應(yīng)的目標(biāo)實(shí)體。知識庫中包含每個(gè)實(shí)體的別名、實(shí)體類別和實(shí)體描述信息。

        語料集由訓(xùn)練集和驗(yàn)證集組成,其中訓(xùn)練集包括7萬條短文本標(biāo)注數(shù)據(jù),驗(yàn)證集包括 1萬條短文本標(biāo)注數(shù)據(jù)。數(shù)據(jù)集主要來自于真實(shí)的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù),短文本平均長度為21.73個(gè)中文字符,覆蓋了不同領(lǐng)域的實(shí)體,包括人物、電影、電視、小說、軟件、組織機(jī)構(gòu)和事件等。本次研究只針對語料集中的非NIL實(shí)體進(jìn)行處理。

        4.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本文實(shí)驗(yàn)所用的系統(tǒng)環(huán)境配置為:CPU使用英特爾Core i7-10750H @ 2.60 GHz六核,GPU使用NVIDIA GeForce RTX 2060,操作系統(tǒng)為Windows10。

        本文實(shí)驗(yàn)使用的語義匹配模型為BERTBASE,學(xué)習(xí)率前3輪為1e-6,第4輪為1e-7,最大序列長度為512,訓(xùn)練batch_size設(shè)置為4。

        4.3 評價(jià)標(biāo)準(zhǔn)

        本文實(shí)體消歧模型的評價(jià)指標(biāo)選用精確率P、召回率R及F1值(F1-score)。給定輸入文本集Q,對于Q中的每條輸入文本q,假設(shè)q中有E個(gè)實(shí)體指稱,即Mq={m1,m2,m3,…,mE}。則實(shí)體消歧模型的評價(jià)指標(biāo)定義如式(4)所示:

        (4)

        其中,每個(gè)實(shí)體指稱鏈接到知識庫的實(shí)體編號為Eq={e1,e2,e3,…},實(shí)體消歧模型輸出的鏈接結(jié)果為E′q={e′1,e′2,e′3,…}。

        4.4 實(shí)驗(yàn)過程

        4.4.1 主題數(shù)實(shí)驗(yàn)

        由于主題數(shù)的設(shè)置直接影響主題推斷的結(jié)果,進(jìn)而影響消歧的結(jié)果,因此本文根據(jù)知識庫所構(gòu)造的主題模型,分別選擇K=1,10,20,30,40,50,60,70,80作為主題數(shù)進(jìn)行困惑度實(shí)驗(yàn)。根據(jù)困惑度指標(biāo)所選取的主題數(shù)能夠很好地對主題模型進(jìn)行檢測。在以F1值為實(shí)驗(yàn)結(jié)果評價(jià)指標(biāo)的實(shí)驗(yàn)中,主題數(shù)設(shè)置為70時(shí)效果最優(yōu),但考慮到主題推測的實(shí)際意義,最終選取困惑度作為衡量主題數(shù)的標(biāo)準(zhǔn)。困惑度可以理解為對于一篇文章,所訓(xùn)練出來的模型對文章屬于哪個(gè)主題有多不確定,這個(gè)不確定程度就是困惑度。困惑度越低,說明聚類的效果越好。一個(gè)主題模型的困惑度的計(jì)算方法如式(5)所示:

        (5)

        Figure 4 Experiment of number of topics-perplexity圖4 主題數(shù)-困惑度實(shí)驗(yàn)

        由圖4可知,在K值為60時(shí)主題模型的困惑度最低,說明此時(shí)主題模型的推斷效果最優(yōu)。

        4.4.2 關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)

        TextRank算法構(gòu)建了用于計(jì)算實(shí)體間主題相關(guān)度的語料庫,為驗(yàn)證其中主題詞個(gè)數(shù)H的選取對于消歧結(jié)果的影響,本文分別選取主題詞個(gè)數(shù)為[1,15]進(jìn)行實(shí)驗(yàn),評測標(biāo)準(zhǔn)為F1值。實(shí)驗(yàn)結(jié)果如圖5所示。

        Figure 5 Experiment of number of keywords-F1 圖5 關(guān)鍵詞個(gè)數(shù)-F1實(shí)驗(yàn)

        根據(jù)實(shí)驗(yàn)結(jié)果,本文以關(guān)鍵詞個(gè)數(shù)為12作為最終的TextRank算法關(guān)鍵詞抽取算法的閾值H的值。

        4.4.3α取值實(shí)驗(yàn)

        本節(jié)對式(3)語義匹配評分中線性權(quán)重α的取值進(jìn)行實(shí)驗(yàn)。使用F1值作為判別標(biāo)準(zhǔn),α取值分別為0,0.1,0.2,0.3,0.4和0.5時(shí)的實(shí)驗(yàn)結(jié)果如圖6所示。

        Figure 6 Experiment of different values of α圖6 α取值實(shí)驗(yàn)

        根據(jù)實(shí)驗(yàn)結(jié)果,本文選擇0.2作為α的取值。即通過搜索算法得出的權(quán)值和maxMatch與語義匹配評分以2∶8的方式得出最終的鏈接評分。

        4.5 實(shí)驗(yàn)結(jié)果

        4.5.1 模型對比實(shí)驗(yàn)

        為了驗(yàn)證本文所提模型的有效性,本文同時(shí)使用TextRNN[19]、TextRCNN[20]及基于BERT的DeepMatch模型在同一數(shù)據(jù)集上進(jìn)行實(shí)體消歧,實(shí)驗(yàn)結(jié)果如表1所示。

        Table 1 Comparison of experimental results

        由表1可以看出,使用經(jīng)典的句子語義建模方法TextRNN和TextRCNN進(jìn)行實(shí)體消歧的效果相對于引入預(yù)訓(xùn)練模型的方法,無論是準(zhǔn)確率、召回率還是F1值都有所不足。由于引入了BERT預(yù)訓(xùn)練模型,模型能夠充分地提取實(shí)體上下文特征,其結(jié)果優(yōu)于傳統(tǒng)方法的。本文在以BERT為基礎(chǔ)的語義匹配方法上,結(jié)合主題模型對待消歧實(shí)體的主題一致性進(jìn)行判斷,彌補(bǔ)了短文本中上下文特征不足的缺陷。實(shí)驗(yàn)結(jié)果表明,本文方法在準(zhǔn)確率、召回率和F1值上相較于傳統(tǒng)方法與DeepMatch方法的都有所提升,由此可見以主題相關(guān)度為關(guān)系構(gòu)建消歧網(wǎng)絡(luò)的多實(shí)體消歧方法是有效的。

        4.5.2 消融實(shí)驗(yàn)

        為驗(yàn)證模型中匹配分?jǐn)?shù)和主題關(guān)系對消岐任務(wù)的貢獻(xiàn),本節(jié)對模型的匹配部分和主題關(guān)系分別進(jìn)行實(shí)驗(yàn),模型分別命名為Match和Topic,在Match模型中本文將實(shí)體間的主題相關(guān)度全部設(shè)定為1。在Topic模型中將候選實(shí)體與待消岐文本的匹配分?jǐn)?shù)全設(shè)為1。實(shí)驗(yàn)結(jié)果如表2所示。

        Table 2 Results of ablation experiments

        由表2可以看出,在短文本環(huán)境中僅使用匹配模型進(jìn)行消岐的效果并沒有達(dá)到最優(yōu),但匹配分?jǐn)?shù)相對于主題相關(guān)度依舊能為消岐任務(wù)帶來更多的幫助。主題相關(guān)度能夠幫助模型在全局范圍內(nèi)進(jìn)行主題一致性計(jì)算,能夠幫助模型在多實(shí)體間進(jìn)行全局最優(yōu)的選擇,但在整體的消岐結(jié)構(gòu)中依據(jù)上下文計(jì)算出的匹配分?jǐn)?shù)顯然具有更重要的地位。

        本文也嘗試了使用主題相似度在待消歧文本與候選實(shí)體之間建立關(guān)系,但在如“一分鐘了解唐多令·蘆葉滿汀洲”的文本中,待消歧實(shí)體僅有“唐多令·蘆葉滿汀洲”,在進(jìn)行主題推斷后,待消歧文本與知識庫中的實(shí)體對象描述信息僅具有相同的實(shí)體名,而無其他對主題推斷有幫助的詞匯出現(xiàn),因此在對多個(gè)實(shí)體進(jìn)行判斷時(shí),主題一致性很難作為鏈接的判別依據(jù)。而在短文本環(huán)境中這樣的情況很多,因此僅使用主題關(guān)系作為構(gòu)建消歧模型的依據(jù)在短文本環(huán)境中是不夠的。

        4.5.3 NIL實(shí)體消岐分析

        本節(jié)針對NIL類別實(shí)體的消岐效果進(jìn)行了實(shí)驗(yàn)。為了驗(yàn)證加入NIL實(shí)體對本文所提方法的影響,設(shè)置了2組實(shí)驗(yàn),其中一組全部使用非NIL數(shù)據(jù),另一組使用包括NIL實(shí)體的全部數(shù)據(jù)。最終每個(gè)類別的F1評分如表3所示。

        Table 3 Results of disambiguation experiments of adding NIL entities and no NIL entities

        由表3可以看出,在加入NIL實(shí)體數(shù)據(jù)后模型效果有細(xì)微的提升,原因在于在候選實(shí)體生成階段,一部分的NIL實(shí)體按照非NIL實(shí)體的消岐流程進(jìn)行計(jì)算,最終評分小于0.5的情況被判定為NIL實(shí)體;另一部分NIL實(shí)體在知識庫中無法匹配到候選實(shí)體,被直接判定為NIL實(shí)體,這一部分實(shí)體在全部NIL實(shí)體中占有近58%的比例。在不繼續(xù)對該類實(shí)體進(jìn)行類別判定的情況下,這類實(shí)體在一定程度上會(huì)使得最終的評分更高。

        4.5.4 錯(cuò)誤分析與總結(jié)

        為分析本文方法的不足,對數(shù)據(jù)中16個(gè)類別的實(shí)體進(jìn)行單獨(dú)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

        Table 4 Disambiguation results of different types of entities

        由表4可以看出,本文所提出的基于主題關(guān)系的中文短文本圖模型實(shí)體消歧方法對大多數(shù)類別的實(shí)體消岐都是有效的,但部分類別的實(shí)體(如Work類實(shí)體)消岐效果稍差。為找到其中原因,對Work類別中的樣本進(jìn)行具體分析。如圖7所示,文本中出現(xiàn)的實(shí)體《我心飛翔》所對應(yīng)的候選實(shí)體中出現(xiàn)了多個(gè)同類型的實(shí)體。本文所提出的方法無論從主題關(guān)系還是上下文特征都無法對這類樣本進(jìn)行很好的區(qū)分。但實(shí)際情況下,《我心飛翔》在沒有明確指代的情況下,廣為周知的是孫悅演唱的版本。但是,若要對這類實(shí)體進(jìn)行有效的消岐,除語義特征外還需要考慮實(shí)體流行度等特征,因此本文方法難以對這類實(shí)體進(jìn)行有效消岐。

        Figure 7 Entity instance of Work class 圖7 Work類實(shí)體實(shí)例

        根據(jù)實(shí)驗(yàn)結(jié)果可以看出,本文方法雖然對部分類別的實(shí)體消岐效果不理想,但該方法相對于傳統(tǒng)方法在短文本環(huán)境中仍具有優(yōu)秀的表現(xiàn)。本文方法適用于知識庫信息不完善的短文本實(shí)體消岐,通過主題關(guān)系與匹配評分相結(jié)合構(gòu)建圖模型進(jìn)行消岐的方法,在知識庫無法給出實(shí)體關(guān)系的情況下,能夠?qū)Χ涛谋局械膶?shí)體進(jìn)行主題一致性計(jì)算,從而減少短文本上下文信息不足所帶來的誤判。

        5 結(jié)束語

        本文提出了基于實(shí)體主題關(guān)系的中文短文本圖模型消歧方法,其優(yōu)點(diǎn)在于使用主題模型對知識庫的實(shí)體信息進(jìn)行主題推斷時(shí),通過考慮同文本中其他實(shí)體與待消歧實(shí)體的主題一致性,避免了短文本消歧中上下文特征不足所帶來的誤判;同時(shí)使用TextRank關(guān)鍵詞提取算法對知識庫信息進(jìn)行增強(qiáng),降低了同名實(shí)體中非主題詞所帶來的影響;結(jié)合基于BERT的語義匹配模型所得出的結(jié)果構(gòu)建候選實(shí)體的關(guān)系圖;通過搜索排序?qū)ふ页鲎顑?yōu)的實(shí)體組合。實(shí)驗(yàn)結(jié)果表明,本文方法是有效的,通過考慮候選實(shí)體間的主題一致性可以有效地解決短文本環(huán)境中上下文特征不足的問題。在下一步工作中,嘗試將更多同一語料的消歧實(shí)體的共同特征引入方法,以提升短文本實(shí)體消歧的效果。

        猜你喜歡
        語義文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語言與語義
        在808DA上文本顯示的改善
        做個(gè)怪怪長實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        国产偷拍盗摄一区二区| 一本色道久久亚洲av红楼| 国产在线一区二区三精品乱码| 人妻少妇中文字幕乱码| 亚洲成在人线av| 国产91精品成人不卡在线观看| 国产网友自拍亚洲av| 曰日本一级二级三级人人| 艳z门照片无码av| 无遮无挡三级动态图| 18禁黄无遮挡免费网站| 国产三级精品和三级男人| 午夜精品射精入后重之免费观看 | 77777亚洲午夜久久多人| 国产精品成人午夜久久| 亚洲性爱区免费视频一区| 少妇下面好紧好多水真爽| 欧美日韩精品久久久久| 乌克兰粉嫩xxx极品hd| Y111111国产精品久久久| 日本熟女视频一区二区三区| 国产老熟女精品一区二区| 最新国产福利在线观看精品| 精品欧洲av无码一区二区三区 | 亚洲欧美成人a∨| 中文字幕无线精品亚洲乱码一区| 91精品国产在热久久| 国产精品久久久久久福利| 国产精品麻花传媒二三区别| 亚洲女同系列高清在线观看| 极品粉嫩小仙女高潮喷水操av| 亚洲精品无amm毛片| 国内精品伊人久久久久av| 少妇性l交大片免费1一少| 国产做无码视频在线观看 | 丰满少妇被猛烈进入| 国产精品福利久久香蕉中文| 亚洲福利二区三区四区| 色综合色狠狠天天综合色| 免费无遮挡无码视频在线观看| 黄色三级视频中文字幕|