亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*

        2022-01-15 06:24:02王章輝呂亞茹張涵婷
        關(guān)鍵詞:消歧全局文檔

        王章輝 呂亞茹 張涵婷

        (遼寧大學(xué)信息學(xué)院 沈陽(yáng) 110036)

        1 引言

        網(wǎng)絡(luò)中的數(shù)據(jù)通常都是以自然語(yǔ)言的形式存在的,而自然語(yǔ)言存在較多的一詞多義或多詞一義的現(xiàn)象。因此,計(jì)算機(jī)是不能直接理解和處理這些非結(jié)構(gòu)化文本信息的。我們利用實(shí)體鏈接技術(shù)將自然語(yǔ)言中的提及和知識(shí)圖譜中存儲(chǔ)的實(shí)體相關(guān)聯(lián),在進(jìn)行自然語(yǔ)言處理的時(shí)候就可以利用知識(shí)圖譜中的結(jié)構(gòu)化信息,使計(jì)算機(jī)更好地理解文本中的信息。

        實(shí)體消歧任務(wù)是實(shí)體鏈接中最為重要的一個(gè)階段。因?yàn)閷?shí)體識(shí)別后的結(jié)果很難直接加入到知識(shí)圖譜當(dāng)中。必須要對(duì)實(shí)體識(shí)別的結(jié)果進(jìn)行消歧,才能找到文檔中實(shí)體指稱在知識(shí)圖譜中所對(duì)應(yīng)的實(shí)體。本文對(duì)實(shí)體消歧技術(shù)進(jìn)行研究,提出一種文檔級(jí)的實(shí)體消歧技術(shù)。

        本文的主要貢獻(xiàn)如下:

        1)提出一種文檔級(jí)實(shí)體消歧技術(shù),在局部消歧的基礎(chǔ)上,增加了文檔中實(shí)體之間的關(guān)聯(lián)信息。

        2)局部消歧采用BiLSTM+Attention模型提取文本中實(shí)體指稱的上下文特征向量,利用TransE[1]模型來(lái)表示知識(shí)圖譜中候選實(shí)體的特征向量,然后利用相似性函數(shù)計(jì)算實(shí)體指稱和候選實(shí)體的之間的相似性得分作為候選實(shí)體的局部消歧得分。

        3)提出一種關(guān)聯(lián)圖的構(gòu)造方法,將候選實(shí)體作為節(jié)點(diǎn),利用知識(shí)圖譜中實(shí)體之間的路徑信息計(jì)算節(jié)點(diǎn)之間的關(guān)聯(lián)度。

        4)利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分,采用基于關(guān)聯(lián)圖和PageRank算法[2]的全局消歧模型進(jìn)行對(duì)文檔中的所有實(shí)體指稱協(xié)同消歧。

        5)使用不同的數(shù)據(jù)集,通過(guò)局部消歧和全局消歧兩種方法進(jìn)行對(duì)比試驗(yàn)和消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。

        2 相關(guān)工作

        實(shí)體消歧技術(shù)一般分為局部消歧和全局消歧兩種,局部消歧算法是對(duì)文檔中的每個(gè)實(shí)體單獨(dú)進(jìn)行消歧,而全局消歧算法是對(duì)文檔中所有的實(shí)體指稱進(jìn)行協(xié)同消歧。

        局部消歧技術(shù)通過(guò)對(duì)文本中實(shí)體指稱的特征進(jìn)行提取來(lái)進(jìn)行實(shí)體消歧,關(guān)鍵是選取合適的模型對(duì)實(shí)體指稱的信息進(jìn)行表示。從不同粒度來(lái)表示實(shí)體比較復(fù)雜,可以采用基于深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)實(shí)體以及實(shí)體指稱項(xiàng)的分布式表示。Francis-Landau等[3]分別利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)文本的表示,根據(jù)余弦相似度對(duì)實(shí)體指稱的每一個(gè)候選實(shí)體進(jìn)行局部評(píng)分。Sun等[4]利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)表示上下文,使用神經(jīng)張量網(wǎng)絡(luò)對(duì)實(shí)體指稱上下文的語(yǔ)義進(jìn)行建模。通常實(shí)體指稱的上下文信息比較多,有些詞和實(shí)體指稱的關(guān)聯(lián)性不大,這樣在訓(xùn)練上下文的表示時(shí)會(huì)產(chǎn)生噪音,影響消歧效果。有學(xué)者提出將注意力機(jī)制與深度神經(jīng)網(wǎng)絡(luò)結(jié)合來(lái)訓(xùn)練上下文的語(yǔ)義特征表示。Wei等[5]提出一種基于注意力的深度神經(jīng)網(wǎng)絡(luò)(DNN)的中文實(shí)體鏈接系統(tǒng)。局部消歧技術(shù)每次只處理文檔中單個(gè)實(shí)體指稱,忽略了文檔中所有的實(shí)體指稱所對(duì)應(yīng)的目標(biāo)實(shí)體之間所存在的聯(lián)系。而這些信息對(duì)于實(shí)體消歧任務(wù)非常重要。

        全局實(shí)體消歧認(rèn)為一篇文檔中的實(shí)體指稱所對(duì)應(yīng)的實(shí)體是有關(guān)聯(lián)的,利用實(shí)體之間的關(guān)聯(lián)信息來(lái)對(duì)所有實(shí)體進(jìn)行全局協(xié)同實(shí)體消歧。Yamada等[6]提出了一種基于單詞和實(shí)體的上下文嵌入的全局實(shí)體消歧模型。該模型基于BERT,為輸入文本中的單詞和實(shí)體生成上下文嵌入。通常全局消歧方法使用基于圖的方法,利用候選實(shí)體之間的關(guān)系構(gòu)建圖,對(duì)構(gòu)建的圖進(jìn)行一些運(yùn)算,從中選出最佳匹配實(shí)體。深度學(xué)習(xí)方法發(fā)展迅速,有學(xué)者利用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)圖中的信息,來(lái)實(shí)現(xiàn)實(shí)體消歧。Hu等[7]提出一種充分利用全局語(yǔ)義信息的端到端圖神經(jīng)實(shí)體消歧模型GNED。

        基于圖的全局實(shí)體消歧方法進(jìn)行具有較高的準(zhǔn)確率,與局部消歧技術(shù)相結(jié)合進(jìn)行實(shí)體消歧將會(huì)取得更好的消歧效果。本文提出一種文檔級(jí)的實(shí)體消歧技術(shù),首先對(duì)單個(gè)實(shí)體指稱進(jìn)行局部消歧,然后利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分進(jìn)行全局消歧。

        3 基于BiLSTM+Attenion模型的局部消歧

        深度神經(jīng)網(wǎng)絡(luò)可以自動(dòng)地學(xué)習(xí)潛在的句子語(yǔ)義特征,因此本文選擇基于深度學(xué)習(xí)的方法進(jìn)行特征提取信息。BiLSTM由正向LSTM和反向LSTM兩個(gè)模塊組成,可以學(xué)習(xí)到句子的雙向信息,能夠更好地捕捉句子的雙向語(yǔ)義依賴。Attention模型在處理序列問(wèn)題時(shí),可以規(guī)定注意力范圍,防止處理長(zhǎng)序列文本時(shí)丟失掉一些重要的信息。

        BiLSTM+Attention模型如圖1所示。

        圖1 BiLSTM+Attention模型圖

        模型由五部分組成:

        輸入層:輸入實(shí)體指稱上下文信息{w1,w2,…,wn};實(shí)體指稱的局部上下文為一個(gè)以實(shí)體指稱為中心的上下文窗口[8]。根據(jù)經(jīng)驗(yàn)[9],本文將待消歧指稱上下文窗口的設(shè)置為對(duì)稱窗口,left=right=8。

        嵌入層:將實(shí)體指稱上下文中的每一個(gè)單詞w用一個(gè)低維向量x表示;單詞嵌入向量包括詞嵌入向量和位置嵌入[10]向量。

        BiLSTM層:利用BiLSTM[11]網(wǎng)絡(luò)獲取實(shí)體指稱上下文特征H=[h1,h2,…,hn];

        Attention層:本文在BiLSTM層之后使用Attention[12]機(jī)制,為實(shí)體指稱上下文中每個(gè)單詞的特征賦予不同的權(quán)重,產(chǎn)生一個(gè)權(quán)值向量α,將實(shí)體指稱上下文中每個(gè)單詞的特征與對(duì)應(yīng)的權(quán)值相乘,合并為實(shí)體指稱的句子級(jí)特征向量;

        輸出層:輸出實(shí)體指稱的句子級(jí)特征向量Om。

        本文提出的基于BiLSTM+Attention的局部消歧模型如圖2所示。首先在實(shí)體指稱上下文特征表示部分,首先將實(shí)體上下文信息輸入到BiLSTM+Attention模型,采用BiLSTM+Attention模型得到待消歧實(shí)體指稱上下文的特征向量;其次在候選實(shí)體特征表示部分,利用知識(shí)圖譜中實(shí)體之間的結(jié)構(gòu)約束來(lái)得到實(shí)體的特征向量。采用TransE模型訓(xùn)練得到實(shí)體嵌入和關(guān)系嵌入,將實(shí)體嵌入作為候選實(shí)體的特征向量;最后使用Cosine函數(shù)對(duì)實(shí)體指稱上下文的特征向量和候選實(shí)體的特征向量進(jìn)行相似性計(jì)算得到候選實(shí)體的局部消歧分?jǐn)?shù)。

        圖2 基于BiLSTM+Attention的局部消歧模型

        4 基于關(guān)聯(lián)圖和PageRank算法的全局消歧

        只考慮局部上下文,會(huì)存在信息較少或者出現(xiàn)噪音等問(wèn)題,可能導(dǎo)致實(shí)體消歧的效果較差。因此在局部消歧的基礎(chǔ)上,利用同一篇文檔中所有實(shí)體指稱所對(duì)應(yīng)的實(shí)體之間的關(guān)聯(lián)信息,對(duì)文檔中所有實(shí)體指稱進(jìn)行全局協(xié)同消歧。

        文檔中的實(shí)體指稱具有以下兩種特性:如果一個(gè)候選實(shí)體和其他多個(gè)實(shí)體指稱的候選實(shí)體關(guān)聯(lián)程度越緊密,則說(shuō)明這個(gè)實(shí)體和文檔中的實(shí)體指稱匹配的概率越大;局部消歧得分越高的實(shí)體,和實(shí)體指稱匹配的概率就越大,因此,在知識(shí)圖譜中,與這個(gè)實(shí)體相關(guān)聯(lián)的其他實(shí)體指稱的候選實(shí)體為正確匹配實(shí)體的概率也越大。這與PageRank算法的思想一致[13]。本文使用PageRank算法對(duì)構(gòu)建的關(guān)聯(lián)圖進(jìn)行迭代運(yùn)算,對(duì)文檔中所有實(shí)體指稱進(jìn)行協(xié)同消歧。

        在構(gòu)造關(guān)聯(lián)圖之前,首先構(gòu)造包含實(shí)體之間所有路徑的實(shí)體連通圖,其次根據(jù)實(shí)體連通圖去構(gòu)建實(shí)體關(guān)聯(lián)圖。

        4.1 實(shí)體連通圖的構(gòu)建

        實(shí)體連通圖是指知識(shí)圖譜中包含不同實(shí)體指稱的候選實(shí)體之間所有路徑的子圖。構(gòu)建實(shí)體連通圖的目的就是找到不同待消歧實(shí)體指稱的所有候選實(shí)體之間的路徑。

        當(dāng)查詢兩個(gè)實(shí)體之間路徑的時(shí)候,可能會(huì)出現(xiàn)連接兩個(gè)不相連的實(shí)體的中間實(shí)體,它被稱為橋接實(shí)體。當(dāng)一條路徑中存在較多橋接實(shí)體時(shí),在知識(shí)圖譜中搜索時(shí),工作量將會(huì)非常大,降低計(jì)算的效率。由于找到兩個(gè)實(shí)體之間路徑的目的是為了計(jì)算兩個(gè)實(shí)體之間的關(guān)聯(lián)度,當(dāng)兩個(gè)實(shí)體之間的路徑過(guò)長(zhǎng)時(shí)對(duì)實(shí)體之間關(guān)聯(lián)度影響不大,所以忽略掉實(shí)體之間長(zhǎng)距離的路徑對(duì)于計(jì)算結(jié)果沒(méi)有太大影響。因此本文設(shè)置一個(gè)路徑長(zhǎng)度閾值Q,本文通過(guò)實(shí)驗(yàn)分析將Q大小的設(shè)置為6。

        由于在進(jìn)行消歧時(shí)只考慮不同待消歧實(shí)體指稱所匹配在知識(shí)圖譜中的實(shí)體之間的關(guān)聯(lián),故同一待消歧實(shí)體指稱的候選實(shí)體之間的路徑不需要被搜索。

        對(duì)于一個(gè)實(shí)體連通圖G(N,E,paths),有以下定義:

        N表示圖中所有節(jié)點(diǎn)的集合,E表示圖中所有邊的集合,EM∪B。其中EM是所有候選實(shí)體的集合,即EM={EM1∪EM2∪…∪EMn}。

        EMi為文檔中一個(gè)實(shí)體指稱的候選實(shí)體集合,n為一篇文檔中實(shí)體指稱的個(gè)數(shù)。B表示屬于不同實(shí)體指稱集合的任意候選實(shí)體對(duì)(eij,epq)路徑之間的 橋 接 實(shí) 體 集 合,B={bk,…,bz|{,…,}∈KG}。

        paths為任意實(shí)體指稱的候選實(shí)體之間的路徑。具 體 形 式 為paths={paths(eij,epq)|?eij,epq∈EM}。其中,paths(eij,epq)表示在實(shí)體連通圖中頂點(diǎn)eij和頂點(diǎn)epq之間所有路徑的集合,具體形式為paths(eij,epq)={{,…,}|{,…,}∈KG}。

        實(shí)體連通圖構(gòu)建的方法就是遍歷知識(shí)圖譜得到一個(gè)子圖,從一個(gè)候選實(shí)體eij開始,沿著路徑在知識(shí)圖譜中找到另一個(gè)候選實(shí)體epq為止。其思想和圖的深度優(yōu)先遍歷算法類似,因此本文在實(shí)體連通圖的構(gòu)造過(guò)程中,利用基于圖的深度優(yōu)先搜索算法。實(shí)體連通圖的構(gòu)造過(guò)程為見算法1和算法2。

        算法1實(shí)體連通圖的構(gòu)造算法

        輸入:EM={EM1∪EM2∪…∪EMn}

        輸出:G(N,E,paths)

        1)初始化N=E=paths=NULL

        2)for EMiin EM do

        3)C=EMi+1∪EMi+2∪…∪EMn

        4)for eijin EMido

        5)path=NULL

        6)CNode=ConnectNode(eij)/*將和eij相鄰的節(jié)點(diǎn)放到集合CNode中*/

        7)While CNode is not NULL do

        8) Get path via CNode.top w.r.t Algorithm2

        9) if len(path)≤Q then

        10) for step=1,len(path)do

        11) Store path[step].Node in N

        12) Store{path[step].Node,path[step+1].Node}in E

        13) end for

        14) Store path in paths(eij,CNode.top)

        15) end if

        16) Delete CNode.top from CNode

        17)end while

        18)end for

        19)end for

        20)return G(N,E,paths)

        算法2圖的深度優(yōu)先搜索算法

        輸入:TNode,path,C,Q

        輸出:path

        1)if TNode in C then

        2)return path

        3)else if len(path)>Q then

        4)return path=NULL

        5)else

        6)Storein path

        7)CNode=ConnectNode(TNode)

        8)while CNode is not NULL do

        9)TNode=CNode.top

        10)Delete TNode from CNode

        11)Depth-First Search of Connected Graph(TNode)

        12)end while

        13)end if

        4.2 實(shí)體關(guān)聯(lián)圖的構(gòu)建

        本節(jié)在實(shí)體連通圖的基礎(chǔ)上,利用各個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系來(lái)構(gòu)造實(shí)體關(guān)聯(lián)圖。實(shí)體關(guān)聯(lián)圖中的節(jié)點(diǎn)為一篇文檔中所有實(shí)體指稱的候選實(shí)體,邊代表兩個(gè)實(shí)體之間有關(guān)聯(lián)。

        對(duì)于一個(gè)實(shí)體關(guān)聯(lián)圖R(Nr,Er,Tr),有以下定義:

        Nr表示所有實(shí)體指稱的候選實(shí)體的集合,即Nr=EM={EM1∪EM2∪…∪EMn},n為文檔中實(shí)體指稱的個(gè)數(shù),m為實(shí)體指稱的候選實(shí)體的個(gè)數(shù)。

        Er表示兩個(gè)候選實(shí)體之間的邊,Er={}|i≠p}。

        Tr表示一個(gè)圖的鄰接矩陣,Tr(eij,epq)是實(shí)體eij和實(shí)體epq之間邊的權(quán)值,表示兩個(gè)實(shí)體的關(guān)聯(lián)度。

        實(shí)體關(guān)聯(lián)圖中兩個(gè)候選實(shí)體的關(guān)聯(lián)度利用卡茨相關(guān)性[14]計(jì)算。計(jì)算如式(1)所示:

        實(shí)體關(guān)聯(lián)圖的構(gòu)造過(guò)程見算法3。

        算法3實(shí)體關(guān)聯(lián)圖構(gòu)造算法

        輸入:G(N,E,paths),EM,β

        輸出:R(Nr,Er,Tr)

        1)初始化N=EM,Er=NULL,Tr=0

        2)for EMiin M do

        3)C=EMi+1∪EMi+2∪…∪EMn

        4)for eijin EMido

        5)for epqin C do

        6) Get paths(eij,epq)from paths

        7) Storein E

        8) SCS(eij,epq)=0

        9) for p in paths(eij,epq)do

        10) SCS(eij,epq)=SCS(eij,epq)+βlen(p)

        11) end for

        12) Tr(eij,epq)=SCS(eij,epq)

        13)end for

        14)end for

        15)end for

        16)return R(Nr,Er,Tr)

        4.3 PageRank算法消歧

        每個(gè)實(shí)體頂點(diǎn)PageRank初始值利用每個(gè)候選實(shí)體的局部消歧得分,為了平衡局部消歧得分對(duì)所有實(shí)體指稱的候選實(shí)體節(jié)點(diǎn)的影響,對(duì)同一個(gè)實(shí)體指稱的候選實(shí)體的局部得分進(jìn)行歸一化處理,歸一化之后的得分為實(shí)體頂點(diǎn)的初始得分。

        首先將實(shí)體關(guān)聯(lián)圖中每個(gè)實(shí)體頂點(diǎn)的值作為初始的PageRank得分P0。然后基于所構(gòu)造的鄰接矩陣來(lái)構(gòu)造轉(zhuǎn)移矩陣M,將鄰接矩陣Tr每一行的值進(jìn)行歸一化,表示每個(gè)頂點(diǎn)跳轉(zhuǎn)到其他頂點(diǎn)的概率,也表示這個(gè)實(shí)體與和它有關(guān)聯(lián)的實(shí)體之間同為最佳匹配實(shí)體的概率。得到轉(zhuǎn)移矩陣和頂點(diǎn)的初始PageRank得分,就可以對(duì)圖采用PageRank算法進(jìn)行運(yùn)算。PageRank迭代公式如公式(3)所示。

        當(dāng)一次迭代完畢,從得到的結(jié)果中選出得分最高的實(shí)體作為所屬待消歧實(shí)體指稱的消歧結(jié)果。然后更新實(shí)體關(guān)聯(lián)圖和實(shí)體關(guān)聯(lián)圖的轉(zhuǎn)移矩陣M。將上次迭代計(jì)算出的每個(gè)實(shí)體的PageRank得分作為下一次PageRank迭代計(jì)算的初始得分;把關(guān)聯(lián)圖中和上一次迭代所得到的得分最高的實(shí)體屬于同一實(shí)體指稱候選列表的實(shí)體頂點(diǎn)刪除,并刪除和它們有關(guān)聯(lián)的邊。繼續(xù)進(jìn)行迭代,直到消歧結(jié)束。

        5 實(shí)驗(yàn)與結(jié)果

        5.1 數(shù)據(jù)集

        本文使用FreeBase(FB5M)的子集作為實(shí)體鏈接的參考知識(shí)圖譜。FB5M在SimpleQuestions數(shù)據(jù)集中發(fā)布,它包含4,904,397個(gè)實(shí)體,752,3個(gè)關(guān)系和22,441,880個(gè)事實(shí)。本文實(shí)驗(yàn)所采用的數(shù)據(jù)集為ACE2004和MSNBC,兩個(gè)數(shù)據(jù)集均為英文新聞數(shù)據(jù)集。

        5.2 參數(shù)設(shè)置

        本文從準(zhǔn)確率P,召回率R,F(xiàn)1值和耗時(shí)TC四個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

        在構(gòu)建實(shí)體連通圖時(shí),為了減小搜索和計(jì)算的復(fù)雜度而對(duì)路徑長(zhǎng)度設(shè)置了閾值Q,設(shè)置Q的值為從1~10,在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過(guò)F1值和耗時(shí)TC兩個(gè)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果如圖3所示。由圖可以看出,閾值Q=6是最佳選擇。

        圖3 參數(shù)Q的實(shí)驗(yàn)結(jié)果圖

        對(duì)于PageRank公式(3)中的參數(shù)c,本文對(duì)其在[0,1]進(jìn)行實(shí)驗(yàn),間隔為0.1,實(shí)驗(yàn)結(jié)果如圖4所示。通過(guò)F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以看出,當(dāng)c=0.5時(shí),F(xiàn)1值達(dá)到最大,消歧效果最好。即對(duì)于本文中的PageRank算法,在當(dāng)前節(jié)點(diǎn)停留的概率和轉(zhuǎn)移到其他節(jié)點(diǎn)的概率相同時(shí),得到的實(shí)驗(yàn)效果最好。

        圖4 參數(shù)c的F1值實(shí)驗(yàn)結(jié)果圖

        5.3 消融實(shí)驗(yàn)

        為了更好地對(duì)比出加入全局特征對(duì)實(shí)體消歧的影響,本小節(jié)首先使用局部消歧模型進(jìn)行實(shí)驗(yàn),選取局部消歧分?jǐn)?shù)最高的實(shí)體作為最佳匹配實(shí)體,然后再與使用了全局特征的整體消歧框架的消歧效果進(jìn)行對(duì)比。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別如表1和表2所示。

        表1 數(shù)據(jù)集ACE2004上的消融實(shí)驗(yàn)結(jié)果

        表2 數(shù)據(jù)集MSNBC上的消融實(shí)驗(yàn)結(jié)果

        通過(guò)結(jié)果可以看出,只有局部消歧時(shí)的實(shí)驗(yàn)效果比較差,局部消歧利用實(shí)體指稱的上下文信息進(jìn)行消歧,但當(dāng)利用的信息較少,或者利用的信息有太多噪音時(shí),提取文本特征時(shí)會(huì)出現(xiàn)偏差,影響消歧效果。加入全局特征以后,實(shí)驗(yàn)效果明顯上升,因?yàn)槿窒缰屑尤肓藢?shí)體的全局性特征,對(duì)局部消歧中存在的偏差進(jìn)行糾正,提升整體實(shí)驗(yàn)效果。

        5.4 對(duì)比實(shí)驗(yàn)

        為了對(duì)本文的消歧效果進(jìn)行更好的分析,選取DSMM[15]消歧方法和Graph Ranking[16]方法與本文方法進(jìn)行對(duì)比。兩種方法中,DSMM方法屬于基于上下文的局部消歧算法,與本文局部消歧所使用的方法類似,通過(guò)和其對(duì)比,可以看出本文在局部消歧的基礎(chǔ)上加入全局消歧之后的效果。Graph Ranking方法是基于圖的全局消歧算法,和本文的全局消歧部分處理類似,但節(jié)點(diǎn)初始得分的處理是不一樣的,通過(guò)和其對(duì)比,可以看出初始得分的處理對(duì)實(shí)驗(yàn)結(jié)果的影響。通過(guò)和這兩種方法的對(duì)比,可以充分對(duì)比出本實(shí)驗(yàn)所使用的局部消歧和全局消歧相結(jié)合的方法的效果。DSMM方法、Graph Ranking方法和本文方法在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC的實(shí)驗(yàn)結(jié)果如表3和表4所示。

        表3 數(shù)據(jù)集ACE2004上的對(duì)比實(shí)驗(yàn)結(jié)果

        表4 數(shù)據(jù)集MSNBC上的對(duì)比實(shí)驗(yàn)結(jié)果

        通過(guò)實(shí)驗(yàn)結(jié)果可以看出,在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC上本文的方法在準(zhǔn)確率、召回率、F1值等方面取得了較好的效果。DSMM方法只考慮了實(shí)體的上下文信息而忽略了同一篇文檔中實(shí)體之間的關(guān)系,F(xiàn)1值最小,消歧效果不如后面兩種全局消歧的算法。而Graph Ranking方法在構(gòu)建關(guān)聯(lián)圖中使用的實(shí)體流行度作為節(jié)點(diǎn)初始得分,沒(méi)有考慮到實(shí)體的下文信息,算法耗時(shí)時(shí)間最短,但F1值低于本文的消歧算法。并且可以看出,Graph Ranking方法和本文方法兩種全局消歧算法在數(shù)據(jù)集MSNBC的實(shí)驗(yàn)效果比在數(shù)據(jù)集ACE2004上的實(shí)驗(yàn)效果要好,這是因?yàn)閿?shù)據(jù)集MSNBC中平均每篇文檔的實(shí)體數(shù)較多,可以提取到實(shí)體之間較多的關(guān)聯(lián)信息,能更好地反映局部消歧和全局消歧性能的對(duì)比效果。根據(jù)實(shí)驗(yàn)結(jié)果可以看出,本文方法是一種對(duì)文檔中實(shí)體進(jìn)行協(xié)同消歧的有效的方法。

        6 結(jié)語(yǔ)

        本文提出一種文檔級(jí)的實(shí)體消歧技術(shù),將局部消歧技術(shù)與基于圖的全局消歧方法結(jié)合起來(lái)進(jìn)行實(shí)體消歧。局部消歧采用基于BiLSTM+Attention模型的消歧算法,全局消歧采用基于關(guān)聯(lián)圖和PageRank算法的全局消歧算法,利用每個(gè)候選實(shí)體局部消歧中得到的局部消歧得分,對(duì)文檔中所有實(shí)體指稱進(jìn)行全局消歧。實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。

        猜你喜歡
        消歧全局文檔
        命名實(shí)體消歧研究綜述
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        有人一聲不吭向你扔了個(gè)文檔
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        新思路:牽一發(fā)動(dòng)全局
        一区二区三区日本大片| 久久久久国产综合av天堂| 久久久亚洲精品一区二区| 蜜桃av无码免费看永久| 国产日产久久福利精品一区| 农村国产毛片一区二区三区女| 久久久国产视频久久久| 日产国产精品亚洲高清| av在线免费观看麻豆| 免费国产一区二区视频| 亚洲写真成人午夜亚洲美女| av免费在线播放视频| 国产精品女同一区二区免费站| 久久免费看黄a级毛片| 国产精品视频永久免费播放| 国产裸体美女永久免费无遮挡| 久久久久人妻精品一区三寸| 亚洲熟妇少妇任你躁在线观看无码 | 亚洲av无码国产精品色| 人与禽性视频77777| 亚洲丁香五月激情综合| 久久人妻公开中文字幕| 91白浆在线视频| 女同中的p是什么意思| 少妇人妻字幕一区二区| 亚洲一区二区三区在线高清中文| 国产一区二区视频免费| 国产毛片av一区二区| 欧美高清视频手机在在线| 婷婷色香五月综合缴缴情| 亚洲精品无码久久久影院相关影片 | 国产二级一片内射视频播放| 久久国产精品99精品国产| 亚洲一区二区三区中文字幂| 国产suv精品一区二人妻| 伊在人天堂亚洲香蕉精品区 | 国产午夜精品一区二区三区不卡 | 人人妻人人妻人人片av| 精品国产亚欧无码久久久| 国产韩国精品一区二区三区| 亚洲福利av一区二区|