亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*

2022-01-15 06:24:02王章輝呂亞茹張涵婷

計(jì)算機(jī)與數(shù)字工程 2021年12期

王章輝呂亞茹張涵婷

（遼寧大學(xué)信息學(xué)院沈陽(yáng) 110036）

1 引言

網(wǎng)絡(luò)中的數(shù)據(jù)通常都是以自然語(yǔ)言的形式存在的，而自然語(yǔ)言存在較多的一詞多義或多詞一義的現(xiàn)象。因此，計(jì)算機(jī)是不能直接理解和處理這些非結(jié)構(gòu)化文本信息的。我們利用實(shí)體鏈接技術(shù)將自然語(yǔ)言中的提及和知識(shí)圖譜中存儲(chǔ)的實(shí)體相關(guān)聯(lián)，在進(jìn)行自然語(yǔ)言處理的時(shí)候就可以利用知識(shí)圖譜中的結(jié)構(gòu)化信息，使計(jì)算機(jī)更好地理解文本中的信息。

實(shí)體消歧任務(wù)是實(shí)體鏈接中最為重要的一個(gè)階段。因?yàn)閷?shí)體識(shí)別后的結(jié)果很難直接加入到知識(shí)圖譜當(dāng)中。必須要對(duì)實(shí)體識(shí)別的結(jié)果進(jìn)行消歧，才能找到文檔中實(shí)體指稱在知識(shí)圖譜中所對(duì)應(yīng)的實(shí)體。本文對(duì)實(shí)體消歧技術(shù)進(jìn)行研究，提出一種文檔級(jí)的實(shí)體消歧技術(shù)。

本文的主要貢獻(xiàn)如下：

1）提出一種文檔級(jí)實(shí)體消歧技術(shù)，在局部消歧的基礎(chǔ)上，增加了文檔中實(shí)體之間的關(guān)聯(lián)信息。

2）局部消歧采用BiLSTM+Attention模型提取文本中實(shí)體指稱的上下文特征向量，利用TransE［1］模型來(lái)表示知識(shí)圖譜中候選實(shí)體的特征向量，然后利用相似性函數(shù)計(jì)算實(shí)體指稱和候選實(shí)體的之間的相似性得分作為候選實(shí)體的局部消歧得分。

3）提出一種關(guān)聯(lián)圖的構(gòu)造方法，將候選實(shí)體作為節(jié)點(diǎn)，利用知識(shí)圖譜中實(shí)體之間的路徑信息計(jì)算節(jié)點(diǎn)之間的關(guān)聯(lián)度。

4）利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分，采用基于關(guān)聯(lián)圖和PageRank算法［2］的全局消歧模型進(jìn)行對(duì)文檔中的所有實(shí)體指稱協(xié)同消歧。

5）使用不同的數(shù)據(jù)集，通過(guò)局部消歧和全局消歧兩種方法進(jìn)行對(duì)比試驗(yàn)和消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。

2 相關(guān)工作

實(shí)體消歧技術(shù)一般分為局部消歧和全局消歧兩種，局部消歧算法是對(duì)文檔中的每個(gè)實(shí)體單獨(dú)進(jìn)行消歧，而全局消歧算法是對(duì)文檔中所有的實(shí)體指稱進(jìn)行協(xié)同消歧。

局部消歧技術(shù)通過(guò)對(duì)文本中實(shí)體指稱的特征進(jìn)行提取來(lái)進(jìn)行實(shí)體消歧，關(guān)鍵是選取合適的模型對(duì)實(shí)體指稱的信息進(jìn)行表示。從不同粒度來(lái)表示實(shí)體比較復(fù)雜，可以采用基于深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)實(shí)體以及實(shí)體指稱項(xiàng)的分布式表示。Francis-Landau等［3］分別利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）學(xué)習(xí)文本的表示，根據(jù)余弦相似度對(duì)實(shí)體指稱的每一個(gè)候選實(shí)體進(jìn)行局部評(píng)分。Sun等［4］利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)表示上下文，使用神經(jīng)張量網(wǎng)絡(luò)對(duì)實(shí)體指稱上下文的語(yǔ)義進(jìn)行建模。通常實(shí)體指稱的上下文信息比較多，有些詞和實(shí)體指稱的關(guān)聯(lián)性不大，這樣在訓(xùn)練上下文的表示時(shí)會(huì)產(chǎn)生噪音，影響消歧效果。有學(xué)者提出將注意力機(jī)制與深度神經(jīng)網(wǎng)絡(luò)結(jié)合來(lái)訓(xùn)練上下文的語(yǔ)義特征表示。Wei等［5］提出一種基于注意力的深度神經(jīng)網(wǎng)絡(luò)（DNN）的中文實(shí)體鏈接系統(tǒng)。局部消歧技術(shù)每次只處理文檔中單個(gè)實(shí)體指稱，忽略了文檔中所有的實(shí)體指稱所對(duì)應(yīng)的目標(biāo)實(shí)體之間所存在的聯(lián)系。而這些信息對(duì)于實(shí)體消歧任務(wù)非常重要。

全局實(shí)體消歧認(rèn)為一篇文檔中的實(shí)體指稱所對(duì)應(yīng)的實(shí)體是有關(guān)聯(lián)的，利用實(shí)體之間的關(guān)聯(lián)信息來(lái)對(duì)所有實(shí)體進(jìn)行全局協(xié)同實(shí)體消歧。Yamada等［6］提出了一種基于單詞和實(shí)體的上下文嵌入的全局實(shí)體消歧模型。該模型基于BERT，為輸入文本中的單詞和實(shí)體生成上下文嵌入。通常全局消歧方法使用基于圖的方法，利用候選實(shí)體之間的關(guān)系構(gòu)建圖，對(duì)構(gòu)建的圖進(jìn)行一些運(yùn)算，從中選出最佳匹配實(shí)體。深度學(xué)習(xí)方法發(fā)展迅速，有學(xué)者利用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)圖中的信息，來(lái)實(shí)現(xiàn)實(shí)體消歧。Hu等［7］提出一種充分利用全局語(yǔ)義信息的端到端圖神經(jīng)實(shí)體消歧模型GNED。

基于圖的全局實(shí)體消歧方法進(jìn)行具有較高的準(zhǔn)確率，與局部消歧技術(shù)相結(jié)合進(jìn)行實(shí)體消歧將會(huì)取得更好的消歧效果。本文提出一種文檔級(jí)的實(shí)體消歧技術(shù)，首先對(duì)單個(gè)實(shí)體指稱進(jìn)行局部消歧，然后利用文檔中的所有實(shí)體指稱之間的關(guān)聯(lián)信息和候選實(shí)體的局部消歧得分進(jìn)行全局消歧。

3 基于BiLSTM+Attenion模型的局部消歧

深度神經(jīng)網(wǎng)絡(luò)可以自動(dòng)地學(xué)習(xí)潛在的句子語(yǔ)義特征，因此本文選擇基于深度學(xué)習(xí)的方法進(jìn)行特征提取信息。BiLSTM由正向LSTM和反向LSTM兩個(gè)模塊組成，可以學(xué)習(xí)到句子的雙向信息，能夠更好地捕捉句子的雙向語(yǔ)義依賴。Attention模型在處理序列問(wèn)題時(shí)，可以規(guī)定注意力范圍，防止處理長(zhǎng)序列文本時(shí)丟失掉一些重要的信息。

BiLSTM+Attention模型如圖1所示。

圖1 BiLSTM+Attention模型圖

模型由五部分組成：

輸入層：輸入實(shí)體指稱上下文信息｛w1，w2，…，wn｝；實(shí)體指稱的局部上下文為一個(gè)以實(shí)體指稱為中心的上下文窗口［8］。根據(jù)經(jīng)驗(yàn)［9］，本文將待消歧指稱上下文窗口的設(shè)置為對(duì)稱窗口，left=right=8。

嵌入層：將實(shí)體指稱上下文中的每一個(gè)單詞w用一個(gè)低維向量x表示；單詞嵌入向量包括詞嵌入向量和位置嵌入［10］向量。

BiLSTM層：利用BiLSTM［11］網(wǎng)絡(luò)獲取實(shí)體指稱上下文特征H=［h1，h2，…，hn］；

Attention層：本文在BiLSTM層之后使用Attention［12］機(jī)制，為實(shí)體指稱上下文中每個(gè)單詞的特征賦予不同的權(quán)重，產(chǎn)生一個(gè)權(quán)值向量α，將實(shí)體指稱上下文中每個(gè)單詞的特征與對(duì)應(yīng)的權(quán)值相乘，合并為實(shí)體指稱的句子級(jí)特征向量；

輸出層：輸出實(shí)體指稱的句子級(jí)特征向量Om。

本文提出的基于BiLSTM+Attention的局部消歧模型如圖2所示。首先在實(shí)體指稱上下文特征表示部分，首先將實(shí)體上下文信息輸入到BiLSTM+Attention模型，采用BiLSTM+Attention模型得到待消歧實(shí)體指稱上下文的特征向量；其次在候選實(shí)體特征表示部分，利用知識(shí)圖譜中實(shí)體之間的結(jié)構(gòu)約束來(lái)得到實(shí)體的特征向量。采用TransE模型訓(xùn)練得到實(shí)體嵌入和關(guān)系嵌入，將實(shí)體嵌入作為候選實(shí)體的特征向量；最后使用Cosine函數(shù)對(duì)實(shí)體指稱上下文的特征向量和候選實(shí)體的特征向量進(jìn)行相似性計(jì)算得到候選實(shí)體的局部消歧分?jǐn)?shù)。

圖2 基于BiLSTM+Attention的局部消歧模型

4 基于關(guān)聯(lián)圖和PageRank算法的全局消歧

只考慮局部上下文，會(huì)存在信息較少或者出現(xiàn)噪音等問(wèn)題，可能導(dǎo)致實(shí)體消歧的效果較差。因此在局部消歧的基礎(chǔ)上，利用同一篇文檔中所有實(shí)體指稱所對(duì)應(yīng)的實(shí)體之間的關(guān)聯(lián)信息，對(duì)文檔中所有實(shí)體指稱進(jìn)行全局協(xié)同消歧。

文檔中的實(shí)體指稱具有以下兩種特性：如果一個(gè)候選實(shí)體和其他多個(gè)實(shí)體指稱的候選實(shí)體關(guān)聯(lián)程度越緊密，則說(shuō)明這個(gè)實(shí)體和文檔中的實(shí)體指稱匹配的概率越大；局部消歧得分越高的實(shí)體，和實(shí)體指稱匹配的概率就越大，因此，在知識(shí)圖譜中，與這個(gè)實(shí)體相關(guān)聯(lián)的其他實(shí)體指稱的候選實(shí)體為正確匹配實(shí)體的概率也越大。這與PageRank算法的思想一致［13］。本文使用PageRank算法對(duì)構(gòu)建的關(guān)聯(lián)圖進(jìn)行迭代運(yùn)算，對(duì)文檔中所有實(shí)體指稱進(jìn)行協(xié)同消歧。

在構(gòu)造關(guān)聯(lián)圖之前，首先構(gòu)造包含實(shí)體之間所有路徑的實(shí)體連通圖，其次根據(jù)實(shí)體連通圖去構(gòu)建實(shí)體關(guān)聯(lián)圖。

4.1 實(shí)體連通圖的構(gòu)建

實(shí)體連通圖是指知識(shí)圖譜中包含不同實(shí)體指稱的候選實(shí)體之間所有路徑的子圖。構(gòu)建實(shí)體連通圖的目的就是找到不同待消歧實(shí)體指稱的所有候選實(shí)體之間的路徑。

當(dāng)查詢兩個(gè)實(shí)體之間路徑的時(shí)候，可能會(huì)出現(xiàn)連接兩個(gè)不相連的實(shí)體的中間實(shí)體，它被稱為橋接實(shí)體。當(dāng)一條路徑中存在較多橋接實(shí)體時(shí)，在知識(shí)圖譜中搜索時(shí)，工作量將會(huì)非常大，降低計(jì)算的效率。由于找到兩個(gè)實(shí)體之間路徑的目的是為了計(jì)算兩個(gè)實(shí)體之間的關(guān)聯(lián)度，當(dāng)兩個(gè)實(shí)體之間的路徑過(guò)長(zhǎng)時(shí)對(duì)實(shí)體之間關(guān)聯(lián)度影響不大，所以忽略掉實(shí)體之間長(zhǎng)距離的路徑對(duì)于計(jì)算結(jié)果沒(méi)有太大影響。因此本文設(shè)置一個(gè)路徑長(zhǎng)度閾值Q，本文通過(guò)實(shí)驗(yàn)分析將Q大小的設(shè)置為6。

由于在進(jìn)行消歧時(shí)只考慮不同待消歧實(shí)體指稱所匹配在知識(shí)圖譜中的實(shí)體之間的關(guān)聯(lián)，故同一待消歧實(shí)體指稱的候選實(shí)體之間的路徑不需要被搜索。

對(duì)于一個(gè)實(shí)體連通圖G（N，E，paths），有以下定義：

N表示圖中所有節(jié)點(diǎn)的集合，E表示圖中所有邊的集合，EM∪B。其中EM是所有候選實(shí)體的集合，即EM=｛EM1∪EM2∪…∪EMn｝。

EMi為文檔中一個(gè)實(shí)體指稱的候選實(shí)體集合，n為一篇文檔中實(shí)體指稱的個(gè)數(shù)。B表示屬于不同實(shí)體指稱集合的任意候選實(shí)體對(duì)（eij，epq）路徑之間的橋接實(shí) 體集合，B=｛bk，…，bz|｛，…，｝∈KG｝。

paths為任意實(shí)體指稱的候選實(shí)體之間的路徑。具體形式為paths=｛paths（eij，epq）|?eij，epq∈EM｝。其中，paths（eij，epq）表示在實(shí)體連通圖中頂點(diǎn)eij和頂點(diǎn)epq之間所有路徑的集合，具體形式為paths（eij，epq）=｛｛，…，｝|｛，…，｝∈KG｝。

實(shí)體連通圖構(gòu)建的方法就是遍歷知識(shí)圖譜得到一個(gè)子圖，從一個(gè)候選實(shí)體eij開始，沿著路徑在知識(shí)圖譜中找到另一個(gè)候選實(shí)體epq為止。其思想和圖的深度優(yōu)先遍歷算法類似，因此本文在實(shí)體連通圖的構(gòu)造過(guò)程中，利用基于圖的深度優(yōu)先搜索算法。實(shí)體連通圖的構(gòu)造過(guò)程為見算法1和算法2。

算法1實(shí)體連通圖的構(gòu)造算法

輸入：EM=｛EM1∪EM2∪…∪EMn｝

輸出：G（N，E，paths）

1）初始化N=E=paths=NULL

2）for EMiin EM do

3）C=EMi+1∪EMi+2∪…∪EMn

4）for eijin EMido

5）path=NULL

6）CNode=ConnectNode（eij）/*將和eij相鄰的節(jié)點(diǎn)放到集合CNode中*/

7）While CNode is not NULL do

8） Get path via CNode.top w.r.t Algorithm2

9） if len（path）≤Q then

10） for step=1，len（path）do

11） Store path［step］.Node in N

12） Store｛path［step］.Node，path［step+1］.Node｝in E

13） end for

14） Store path in paths（eij，CNode.top）

15） end if

16） Delete CNode.top from CNode

17）end while

18）end for

19）end for

20）return G（N，E，paths）

算法2圖的深度優(yōu)先搜索算法

輸入：TNode，path，C，Q

輸出：path

1）if TNode in C then

2）return path

3）else if len（path）>Q then

4）return path=NULL

5）else

6）Storein path

7）CNode=ConnectNode（TNode）

8）while CNode is not NULL do

9）TNode=CNode.top

10）Delete TNode from CNode

11）Depth-First Search of Connected Graph（TNode）

12）end while

13）end if

4.2 實(shí)體關(guān)聯(lián)圖的構(gòu)建

本節(jié)在實(shí)體連通圖的基礎(chǔ)上，利用各個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系來(lái)構(gòu)造實(shí)體關(guān)聯(lián)圖。實(shí)體關(guān)聯(lián)圖中的節(jié)點(diǎn)為一篇文檔中所有實(shí)體指稱的候選實(shí)體，邊代表兩個(gè)實(shí)體之間有關(guān)聯(lián)。

對(duì)于一個(gè)實(shí)體關(guān)聯(lián)圖R（Nr，Er，Tr），有以下定義：

Nr表示所有實(shí)體指稱的候選實(shí)體的集合，即Nr=EM=｛EM1∪EM2∪…∪EMn｝，n為文檔中實(shí)體指稱的個(gè)數(shù)，m為實(shí)體指稱的候選實(shí)體的個(gè)數(shù)。

Er表示兩個(gè)候選實(shí)體之間的邊，Er=｛｝|i≠p｝。

Tr表示一個(gè)圖的鄰接矩陣，Tr（eij，epq）是實(shí)體eij和實(shí)體epq之間邊的權(quán)值，表示兩個(gè)實(shí)體的關(guān)聯(lián)度。

實(shí)體關(guān)聯(lián)圖中兩個(gè)候選實(shí)體的關(guān)聯(lián)度利用卡茨相關(guān)性［14］計(jì)算。計(jì)算如式（1）所示：

實(shí)體關(guān)聯(lián)圖的構(gòu)造過(guò)程見算法3。

算法3實(shí)體關(guān)聯(lián)圖構(gòu)造算法

輸入：G（N，E，paths），EM，β

輸出：R（Nr，Er，Tr）

1）初始化N=EM，Er=NULL，Tr=0

2）for EMiin M do

3）C=EMi+1∪EMi+2∪…∪EMn

4）for eijin EMido

5）for epqin C do

6） Get paths（eij，epq）from paths

7） Storein E

8） SCS（eij，epq）=0

9） for p in paths（eij，epq）do

10） SCS（eij，epq）=SCS（eij，epq）+βlen(p)

11） end for

12） Tr（eij，epq）=SCS（eij，epq）

13）end for

14）end for

15）end for

16）return R（Nr，Er，Tr）

4.3 PageRank算法消歧

每個(gè)實(shí)體頂點(diǎn)PageRank初始值利用每個(gè)候選實(shí)體的局部消歧得分，為了平衡局部消歧得分對(duì)所有實(shí)體指稱的候選實(shí)體節(jié)點(diǎn)的影響，對(duì)同一個(gè)實(shí)體指稱的候選實(shí)體的局部得分進(jìn)行歸一化處理，歸一化之后的得分為實(shí)體頂點(diǎn)的初始得分。

首先將實(shí)體關(guān)聯(lián)圖中每個(gè)實(shí)體頂點(diǎn)的值作為初始的PageRank得分P0。然后基于所構(gòu)造的鄰接矩陣來(lái)構(gòu)造轉(zhuǎn)移矩陣M，將鄰接矩陣Tr每一行的值進(jìn)行歸一化，表示每個(gè)頂點(diǎn)跳轉(zhuǎn)到其他頂點(diǎn)的概率，也表示這個(gè)實(shí)體與和它有關(guān)聯(lián)的實(shí)體之間同為最佳匹配實(shí)體的概率。得到轉(zhuǎn)移矩陣和頂點(diǎn)的初始PageRank得分，就可以對(duì)圖采用PageRank算法進(jìn)行運(yùn)算。PageRank迭代公式如公式（3）所示。

當(dāng)一次迭代完畢，從得到的結(jié)果中選出得分最高的實(shí)體作為所屬待消歧實(shí)體指稱的消歧結(jié)果。然后更新實(shí)體關(guān)聯(lián)圖和實(shí)體關(guān)聯(lián)圖的轉(zhuǎn)移矩陣M。將上次迭代計(jì)算出的每個(gè)實(shí)體的PageRank得分作為下一次PageRank迭代計(jì)算的初始得分；把關(guān)聯(lián)圖中和上一次迭代所得到的得分最高的實(shí)體屬于同一實(shí)體指稱候選列表的實(shí)體頂點(diǎn)刪除，并刪除和它們有關(guān)聯(lián)的邊。繼續(xù)進(jìn)行迭代，直到消歧結(jié)束。

5 實(shí)驗(yàn)與結(jié)果

5.1 數(shù)據(jù)集

本文使用FreeBase（FB5M）的子集作為實(shí)體鏈接的參考知識(shí)圖譜。FB5M在SimpleQuestions數(shù)據(jù)集中發(fā)布，它包含4，904，397個(gè)實(shí)體，752，3個(gè)關(guān)系和22，441，880個(gè)事實(shí)。本文實(shí)驗(yàn)所采用的數(shù)據(jù)集為ACE2004和MSNBC，兩個(gè)數(shù)據(jù)集均為英文新聞數(shù)據(jù)集。

5.2 參數(shù)設(shè)置

本文從準(zhǔn)確率P，召回率R，F(xiàn)1值和耗時(shí)TC四個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

在構(gòu)建實(shí)體連通圖時(shí)，為了減小搜索和計(jì)算的復(fù)雜度而對(duì)路徑長(zhǎng)度設(shè)置了閾值Q，設(shè)置Q的值為從1~10，在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，通過(guò)F1值和耗時(shí)TC兩個(gè)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果如圖3所示。由圖可以看出，閾值Q=6是最佳選擇。

圖3 參數(shù)Q的實(shí)驗(yàn)結(jié)果圖

對(duì)于PageRank公式（3）中的參數(shù)c，本文對(duì)其在[0，1]進(jìn)行實(shí)驗(yàn)，間隔為0.1，實(shí)驗(yàn)結(jié)果如圖4所示。通過(guò)F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析，可以看出，當(dāng)c=0.5時(shí)，F(xiàn)1值達(dá)到最大，消歧效果最好。即對(duì)于本文中的PageRank算法，在當(dāng)前節(jié)點(diǎn)停留的概率和轉(zhuǎn)移到其他節(jié)點(diǎn)的概率相同時(shí)，得到的實(shí)驗(yàn)效果最好。

圖4 參數(shù)c的F1值實(shí)驗(yàn)結(jié)果圖

5.3 消融實(shí)驗(yàn)

為了更好地對(duì)比出加入全局特征對(duì)實(shí)體消歧的影響，本小節(jié)首先使用局部消歧模型進(jìn)行實(shí)驗(yàn)，選取局部消歧分?jǐn)?shù)最高的實(shí)體作為最佳匹配實(shí)體，然后再與使用了全局特征的整體消歧框架的消歧效果進(jìn)行對(duì)比。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別如表1和表2所示。

表1 數(shù)據(jù)集ACE2004上的消融實(shí)驗(yàn)結(jié)果

表2 數(shù)據(jù)集MSNBC上的消融實(shí)驗(yàn)結(jié)果

通過(guò)結(jié)果可以看出，只有局部消歧時(shí)的實(shí)驗(yàn)效果比較差，局部消歧利用實(shí)體指稱的上下文信息進(jìn)行消歧，但當(dāng)利用的信息較少，或者利用的信息有太多噪音時(shí)，提取文本特征時(shí)會(huì)出現(xiàn)偏差，影響消歧效果。加入全局特征以后，實(shí)驗(yàn)效果明顯上升，因?yàn)槿窒缰屑尤肓藢?shí)體的全局性特征，對(duì)局部消歧中存在的偏差進(jìn)行糾正，提升整體實(shí)驗(yàn)效果。

5.4 對(duì)比實(shí)驗(yàn)

為了對(duì)本文的消歧效果進(jìn)行更好的分析，選取DSMM［15］消歧方法和Graph Ranking［16］方法與本文方法進(jìn)行對(duì)比。兩種方法中，DSMM方法屬于基于上下文的局部消歧算法，與本文局部消歧所使用的方法類似，通過(guò)和其對(duì)比，可以看出本文在局部消歧的基礎(chǔ)上加入全局消歧之后的效果。Graph Ranking方法是基于圖的全局消歧算法，和本文的全局消歧部分處理類似，但節(jié)點(diǎn)初始得分的處理是不一樣的，通過(guò)和其對(duì)比，可以看出初始得分的處理對(duì)實(shí)驗(yàn)結(jié)果的影響。通過(guò)和這兩種方法的對(duì)比，可以充分對(duì)比出本實(shí)驗(yàn)所使用的局部消歧和全局消歧相結(jié)合的方法的效果。DSMM方法、Graph Ranking方法和本文方法在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC的實(shí)驗(yàn)結(jié)果如表3和表4所示。

表3 數(shù)據(jù)集ACE2004上的對(duì)比實(shí)驗(yàn)結(jié)果

表4 數(shù)據(jù)集MSNBC上的對(duì)比實(shí)驗(yàn)結(jié)果

通過(guò)實(shí)驗(yàn)結(jié)果可以看出，在數(shù)據(jù)集ACE2004和數(shù)據(jù)集MSNBC上本文的方法在準(zhǔn)確率、召回率、F1值等方面取得了較好的效果。DSMM方法只考慮了實(shí)體的上下文信息而忽略了同一篇文檔中實(shí)體之間的關(guān)系，F(xiàn)1值最小，消歧效果不如后面兩種全局消歧的算法。而Graph Ranking方法在構(gòu)建關(guān)聯(lián)圖中使用的實(shí)體流行度作為節(jié)點(diǎn)初始得分，沒(méi)有考慮到實(shí)體的下文信息，算法耗時(shí)時(shí)間最短，但F1值低于本文的消歧算法。并且可以看出，Graph Ranking方法和本文方法兩種全局消歧算法在數(shù)據(jù)集MSNBC的實(shí)驗(yàn)效果比在數(shù)據(jù)集ACE2004上的實(shí)驗(yàn)效果要好，這是因?yàn)閿?shù)據(jù)集MSNBC中平均每篇文檔的實(shí)體數(shù)較多，可以提取到實(shí)體之間較多的關(guān)聯(lián)信息，能更好地反映局部消歧和全局消歧性能的對(duì)比效果。根據(jù)實(shí)驗(yàn)結(jié)果可以看出，本文方法是一種對(duì)文檔中實(shí)體進(jìn)行協(xié)同消歧的有效的方法。

6 結(jié)語(yǔ)

本文提出一種文檔級(jí)的實(shí)體消歧技術(shù)，將局部消歧技術(shù)與基于圖的全局消歧方法結(jié)合起來(lái)進(jìn)行實(shí)體消歧。局部消歧采用基于BiLSTM+Attention模型的消歧算法，全局消歧采用基于關(guān)聯(lián)圖和PageRank算法的全局消歧算法，利用每個(gè)候選實(shí)體局部消歧中得到的局部消歧得分，對(duì)文檔中所有實(shí)體指稱進(jìn)行全局消歧。實(shí)驗(yàn)結(jié)果表明本文的方法具有較好的消歧效果。