楊紫怡,盛 晨,孔 芳,周國棟
(蘇州大學計算機科學與技術學院,江蘇蘇州215006)
實體廣泛存在于各類文本中,而文本中自然語言的表述往往具有多樣性和歧義性,存在大量的簡寫、縮寫、不規(guī)范和模糊的表達[1]。面對歧義或未知實體時,需要通過實體鏈接技術對有歧義的實體進行判別,并利用知識庫中相關信息為原文本添加豐富的語義信息,幫助讀者了解實體,同時也協(xié)助計算機對文本進行理解和分析。實體鏈接任務的基本目標是將從文本中抽取的實體指稱項正確地鏈接到知識庫中對應的實體上。實體鏈接是自然語言處理各個應用領域的基礎環(huán)節(jié),對于信息檢索、自動問答、信息抽取和知識庫擴容都具有重要的研究意義,作為知識圖譜的關鍵環(huán)節(jié)實體鏈接任務也已經(jīng)逐步被研究者們深入研究[2]。
盡管目前實體鏈接研究已經(jīng)取得了一定的成果,但是更多的研究者將工作重點集中在如何提高選擇與指稱指代相同現(xiàn)實事物的實體的準確率上,很大程度上忽略了候選集構建的重要性。一個高質(zhì)量的候選集必須具有高召回率、高準確率的特點。很多研究者只是單純地利用維基百科來進行指稱匹配,獲得候選集。這種方法的知識來源過于單一,僅僅依賴一個本地知識庫,面對現(xiàn)實環(huán)境中類型眾多、變化多樣的指稱并不能很好地構建高質(zhì)量候選集;此外,構建候選集時應該更多地利用上下文信息來明確不完全指稱,這對于人名實體的鏈接效果提升尤為明顯。
本文主要針對實體鏈接系統(tǒng)中的候選集構建子任務展開研究,提出了一系列借助上下文信息擴展被查詢指稱的策略,并對這些策略進行實驗分析,比較不同策略對于候選集召回率和準確率的影響,在分析錯誤原因的基礎上找出最優(yōu)的指稱擴展方法。使用該方法獲得候選集并進一步驗證候選集質(zhì)量的提高對實體鏈接整體性能的影響。
實體鏈接任務最早是由Bunescu等[3]在2006年提出的。Miller等[4]發(fā)現(xiàn)含義相似的詞經(jīng)常出現(xiàn)在相似的上下文中;Bunescu等[3]提出了基于實體上下文相似度進行鏈接消歧的方法;Mihalcea等[5]先利用他們構建的基于維基百科的受控詞表抽取關鍵詞,得到文檔中的實體指稱,然后利用基于背景知識的方法進行相似度計算;Cucerzan[6]提出除文本內(nèi)容之外實體的類別相關性和百科頁面的錨文本重定向頁面等結構信息對于提高實體鏈接算法的準確性有較大幫助;還有研究者提出了基于圖模型的實體消歧方法,將上下文構造成一個圖,圖中的節(jié)點為候選實體與上下文中的實體及其指稱。文獻[7-12]用類似方法都取得了不錯的效果。
隨著機器學習在自然語言處理領域的逐步運用,一些學者嘗試將統(tǒng)計機器學習方法引入實體鏈接,利用機器學習方法將各種特征融合,主要分為無監(jiān)督和有監(jiān)督兩種方法。
無監(jiān)督的方法往往利用一些統(tǒng)計特征,而缺乏語義層面的考慮。Gottipati等[13]分別利用Dirichlet平滑后的極大似然估計和詞的經(jīng)驗分布來估計候選實體和實體指稱的語言模型,通過計算實體指稱與候選實體之間的KL(Kullback-Leibler)距離對候選實體進行排序。
有監(jiān)督的方法中,Zhang等[14]利用多種特征,采用支持向量機SVM(Support Vector Machine)分類器進行實體消歧;Pilz等[15]構造了基于主題的實體表示,以計算實體指稱所在上下文與候選實體上下文之間的主題距離作為特征之一,利用 SVM分類器進行二元分類;Zheng等[16]提出了基于Learning to Rank算法進行實體消歧的方法,分別實現(xiàn)了利用Pairwise和Listwise兩種機器學習排序方法的實體消歧過程。Ratinov等[17]構建了局部特征和全局特征,利用Ranking SVM進行訓練得到排序模型。文獻[18-20]也都使用了類似的方法,并取得了一定的效果。Barrena等[21]在上下文信息有限的情況下利用背景知識增加消歧信息,認為相似實體和選擇約束對實體鏈接有著很重要的作用,利用貝葉斯分類器對實體消歧,取得了很好的效果。
隨著深度學習方法在自然語言領域的應用,很多學者將深度學習方法運用到實體鏈接中。Landau 等[22]在 Durrett等[23]工作的基礎上加入 CNN方法(Convolutional Neural Network),使實體鏈接的性能有很大的提升。
目前對于實體鏈接的研究日益成熟,盡管實體鏈接中使用的方法越來越多,但是大量的研究都將候選集構建這一個部分轉換成一個比較簡單的步驟,而將重點放在后面的消歧部分上,在候選集的構建上使用的方法通常比較簡單。
應用最為廣泛的方法是利用詞典來進行候選集的構建,例如文獻[3,5,21,24 -26]都是利用維基百科等外部知識庫的結構來構建詞典。以維基百科為例,其中會有很多的頁面結構、錨文本、重定向頁面、消歧頁面等,利用這些頁面中的信息可以很方便地構建一個詞典,通過字面的匹配在字典中進行檢索,從而完成候選集的構建。
除了上述方法以外,一些研究者還利用查詢擴展來改進候選集構建的方法,Zhang等[14]在傳統(tǒng)方法的基礎上考慮到了拼寫錯誤的問題,獲取了一系列的潛在實體;隨后他們又在后續(xù)研究中使用了縮略詞擴展的處理方法,返回潛在的候選實體[27];Sil等[28]同時利用維基百科和Freebase來進行詞典的構建。為了補充背景知識庫中的知識,一些研究者在構建詞典的時候也利用搜索引擎進行了候選集的補充獲取。Dredze等[20]利用Google搜索引擎檢索到了相關的實體補充進候選集中,也取得了不錯的效果。
實體鏈接系統(tǒng)基于背景知識庫展開,本文選取維基百科知識庫作為背景庫。維基百科是目前研究者們廣泛利用的背景知識庫,其結構中有大量的特定頁面信息,這些頁面結構信息對實體鏈接的進行有很大的幫助,主要包括的信息有:
(1)實體標題:是實體的唯一表示,是實體的指稱之一。
(2)消歧頁面:包含實體列表,該列表中的所有實體共有一個別名,即為該頁面的標題。
(3)重定向頁面:并不包含實際的實體信息,只有一個鏈向另一個頁面的鏈接,表示該頁面的標題實際上是指向另一個實體。這表達了一種別名關系,重定向頁面的標題即為其所指向的實體的別名。重定向頁面也有可能指向另一個重定向頁面。
(4)錨文本:維基百科中每篇文檔都包含鏈接,指向知識庫中的其他文章,這些鏈接的錨文本及其鏈向的維基百科實體構成了指稱和實體之間的一對一關系。
常規(guī)的實體鏈接方法將實體鏈接系統(tǒng)分為兩個主要模塊,實體候選集構建和實體消歧。實體候選集構建即通過外部知識庫,尋找需要鏈接的實體指稱可能鏈接到的知識庫中實體的集合。實體消歧即根據(jù)已經(jīng)構建好的候選實體集,通過多種衡量手段,選取一個與需鏈接指稱指代一致的實體,并將它們鏈接起來。本文的實體鏈接基準算法也是由這兩個模塊構成,具體的流程如圖1所示。
目前大部分研究者都是利用維基百科中一些特定的結構化頁面信息來構建指稱的候選實體集,在基準算法的實體候選集構建過程中,也利用了維基百科的這些信息。本文構建的基準算法中,候選集構建主要分成兩個步驟:指稱標準化和候選實體獲取。
首先,利用維基百科中的重定向頁面信息,構建標準實體名稱和實體別名的對應字典。從語料中獲得了需要被鏈接的實體指稱后,與別名列表中的名稱進行精準匹配,當匹配完成后,將名稱替換成為標準的實體名稱。通過名稱標準化的步驟,可以使得下一步的候選實體匹配更加精準。
在獲得標準實體名稱后,我們通過標準名稱獲得相對應的實體集合。根據(jù)與標準實體名稱有關聯(lián)的維基百科中的消歧頁面、錨文本、實體頁面等信息,可以獲得這些頁面里和該名稱有一定關系的實體,根據(jù)一定的字面相似度過濾,得到一個與名稱有密切關系的實體集合,我們認為這個集合中存在著一個與指稱指代一致的實體,并在下一個過程中將這個指稱-實體對找到,這個集合就是指稱的實體候選集。
實體消歧的過程同樣需要利用維基百科知識庫中的信息,判斷候選實體和指稱是否指代一致。在這個過程中,本文建立的基準算法主要利用了機器學習中的Learning to Rank方法,將實體消歧問題轉化為一個排序問題。通過特征輸入,利用機器學習方法排序,得到候選集中與指稱指代最相似的實體,將這個實體作為鏈接結果。由于一部分實體在鏈接知識庫中不存在鏈指實體,因此本文的基準算法設定了一個閾值,當排序的輸出結果小于該閾值時,我們就認為該實體與所有的候選實體的相關度都不夠大,很有可能在鏈接庫中不存在鏈接實體,將這樣的指稱判定為NIL。
基準算法中的Learning to Rank方法使用Ranking SVM模型來實現(xiàn),該模型被廣泛地應用于信息檢索領域,是一種基于Pairwise的數(shù)據(jù)標注方法的排序工具。該模型的基本思想是將實例的排序任務轉化為分類任務,然后按照支持向量機的學習策略,學習出最優(yōu)超平面。本文構建的基準算法使用了由 Joachims[29,30]提出的 SVM Rank 工具。
在排序特征的選擇上,本文的基準算法選擇了三類特征,分別是字面特征、上下文相似度特征和實體相關性特征。此外,還選擇了候選實體的流行度作為先驗概率特征,將候選實體在維基百科中被鏈接指向數(shù)與該候選集中所有候選實體被鏈接指向數(shù)總和的比例作為實體的流行度。表1給出了基準算法使用的特征集。
目前大量實體鏈接的工作均側重于如何提高實體消歧模塊的性能,如何在實體候選集中選出最可能與指稱指代一致的實體,從而達到實體鏈接的目的,卻忽略了實體鏈接的另一個重要組成模塊——實體候選集構建對實體鏈接性能起到的作用。一個同時具有高召回率和高準確率的實體候選集可以使后續(xù)的實體候選集排序過程的性能有很大的提升。因此,目前實體鏈接主要存在如下問題:
(1)在獲取指稱候選實體時,沒有充分考慮到上下文中包含的具有非常強的輔助作用的信息,例如一個更加完整明確的名稱。
(2)實體候選集的獲取源較為單一。在實體候選集的構建過程中普遍使用的方法是通過指稱與背景知識庫中的實體名稱進行匹配,從知識庫中的重定向頁面、消歧頁面等特定結構中抽取相關信息,構建出實體候選集。這個過程中使用的知識庫通常是維基百科知識庫,并沒有過多地考慮其他信息。
基于以上理由,本文提出了一種多策略組合的候選集構建算法,以獲取一個更高質(zhì)量的候選集。其基本思想是:首先在進行維基百科候選集獲取之前對查詢關鍵詞采用多種策略進行多步擴展,隨后利用維基搜索引擎的拼寫檢查,修正拼寫錯誤,再進行指稱標準化和候選實體獲取;其次,在維基百科獲取的候選集基礎上增加額外的背景知識,利用百度搜索引擎進行再一次的候選集擴充,并刪除候選集中類型不一致的實體。
本文提出的多策略候選集構建算法主要為指稱擴展和候選集獲取兩部分。改進方案流程如圖2所示。
實體指稱擴展,即在原本需要查詢的實體指稱的上下文中尋找可能與該指稱指代一致的、更加完整的、包含信息量更大的指稱。通過對維基百科結構的分析發(fā)現(xiàn),英文維基百科中的消歧頁面,尤其是針對人名的消歧頁面,會列出大量的實體,這些實體都是擁有同一個姓或者名。由于取名習慣,英文中人名重復多指的情況非常多,即同一個名稱指代不同人的情況極其常見,并且數(shù)量巨大。因此,在人名只有一部分簡稱的時候,通過知識庫匹配,獲取到的候選實體數(shù)量非常巨大,這引入了相當多的噪音,給后續(xù)的排序工作帶來很大的干擾。而且,人名簡稱的真正指代實體很可能并未在這個消歧頁面結構中出現(xiàn),若通過消歧頁面中的列表結構再進行擴展搜索,擴展出來的實體數(shù)量會成倍增加,代價過大。然而,通過對上下文文本的分析發(fā)現(xiàn),在上下文中會存在指代同一個人的不同指稱,這些指稱中有一部分是簡稱,而上下文中往往是存在這個人的完整名字的,如果用這個人的全名來代替簡稱進行檢索,可以使得搜索結果更加精確,既可以提高候選集的召回率也可以提高候選集的準確率。指稱的擴展可以更加明確指稱所指代的實體,增加指稱攜帶的信息量,從而大大降低候選實體的數(shù)量,排除一些完全無關實體的干擾。借鑒實體識別和聚類任務中對上下文實體采用的處理策略[31-33],本文將其他任務中采用的策略運用到實體鏈接中,利用指代消解與實體匹配規(guī)則,提出了多種上下文匹配策略結合的實體指稱擴展方法,目的就是獲取一個高召回率、高準確率的高質(zhì)量候選集。下面是本文提出的四種處理方法:
(1)對指稱上下文進行共指消解,檢測該指稱是否存在于某一條指代鏈中;
(2)對指稱進行縮略詞判定,判斷全文中是否存在該縮略詞的全稱;
(3)對指稱上下文進行命名實體識別,檢測是否存在同類別實體將該指稱邊界位置包含其中;
(4)判斷全文中是否有包含該指稱的同類別實體。
四條策略的綜合實現(xiàn)步驟如下所示(具體流程如圖3所示):
步驟1首先對文本共指消解,抽取文中的實體指代鏈,選擇鏈上的最長實體名稱對其他名稱進行擴展,若指稱在指代鏈上存在,則將指稱替換為指代鏈上的最長實體名稱;
步驟2若所需查詢指稱未在指代鏈中出現(xiàn),則制定規(guī)則判定實體是否為縮略詞,若是,則檢索上下文中是否存在連續(xù)字符串首字母與指稱相同,若存在,則替換;
步驟3若指稱為非縮略詞,則檢測是否存在命名實體,其所在位置包含了所需查詢指稱的邊界位置,若存在,則對指稱進行擴展;
步驟4若未取得擴展,則對全文的實體進行檢索,若存在包含該指稱的實體,則選擇長度最大的兩個實體進行擴展。
對實驗語料的統(tǒng)計分析發(fā)現(xiàn),在人名類型中,指代一致的情況出現(xiàn)較多,因此對人名的擴展有較好的效果,但是對地理政治實體和組織名這兩個類型,文中包含該指稱的實體則往往與原本的指稱指代不一致,因此在處理時僅對類型為人名的實體進行處理。
實體候選集獲取,即以實體名稱作為查詢關鍵詞,利用外部知識庫,獲取一系列可能與該查詢詞指代一致的實體的過程,由于目前使用的外部知識庫比較單一,通常研究者都會選擇Wikipedia、Freebase或Yago作為外部補充知識庫,獲取候選實體。由于知識源過于單一,獲取候選集時可能無法將實體完全召回。因此本文提出了基于多知識源的候選集獲取方案,并盡可能地減少候選實體的數(shù)量。本文希望能夠通過一些其他的方式,例如維基搜索引擎、百度搜索引擎等另一種類型的外部知識庫來擴充背景知識,使一些實體能夠更好地被召回,同時能充分利用外部搜索引擎的一些匹配方法。實體名稱擴展之后,較長的實體雖然包含更多更精確的信息,但在維基百科知識庫中可能無法找到合適的匹配,引入在線搜索引擎的知識庫可以將這種情況下未召回的實體召回,彌補了擴展名稱導致的匹配不成功。
候選集獲取步驟如下所示(流程圖如圖4所示):
步驟1在經(jīng)過實體指稱擴展之后,利用維基搜索引擎進行拼寫檢查,修正錯誤;
步驟2在經(jīng)過拼寫檢查之后,獲得標準名,并進行候選集匹配檢索;
步驟3若未檢測到候選實體,則利用百度搜索引擎進行檢索,將百度搜索頁面第一頁中出現(xiàn)的維基百科標題的前三個作為候選實體;
步驟4若指稱本身在獲取候選集時,只有唯一候選實體,則將這個候選實體也加入候選集;
步驟5若指稱沒有得到相應的擴展,則按照原本的候選集獲取方法,進行候選集獲取;
步驟6 獲得候選集之后,檢測候選集中實體是否存在于鏈接知識庫中,若不存在,則刪除;
步驟7對指稱和知識庫中的實體類別進行比對,若類型一致,則保留該實體,否則刪除。
按照第3節(jié)和第4節(jié)提出的方法,本文在基準算法和改進的方法中使用的均是由TAC測評會議發(fā)布的2014年英文實體鏈接語料[34],外部知識庫采用2016年10月的英文維基百科數(shù)據(jù)包,并進行了本地解析,同時也使用了 Stanford CoreNLP[35]工具進行文本處理。
本文提出了四條指稱擴展策略,并對這些擴展指稱利用多源知識進行了候選集的獲取,加上基準系統(tǒng)的策略,后續(xù)實驗將按下列六種設置進行:
實驗1基準算法,不經(jīng)過任何擴展,且僅根據(jù)維基百科知識庫進行候選集獲取;
實驗2指稱擴展采用共指消解方法,利用本文提出的基于多源知識的方法獲取候選集;
實驗3指稱擴展增加縮略詞擴展方法,利用基于多源知識的方法獲取候選集;
實驗4指稱擴展增加命名實體邊界擴展方法,利用基于多源知識的方法獲取候選集;
實驗5指稱擴展增加上下文實體包含檢索方法,利用基于多源知識的方法獲取候選集;
實驗6指稱擴展僅采用共指消解和上下文實體包含檢索兩種方法,利用基于多源知識的方法獲取候選集。
對于候選集構建質(zhì)量的評價,本文提出了如下八種評價指標:
對于實體鏈接的整體性能,為方便比較,本文采用TAC測評的官方測評方法。由于本文主要關注鏈接的性能變化,因此著重針對鏈接部分進行實驗,并且采用了官方數(shù)據(jù)集中給定的指稱作為系統(tǒng)的輸入,并沒有進行自動的指稱抽取。因此,在評價指標的選擇上,本文選用TAC評價工具中給出的針對鏈接性能進行評價的NERL、NEL、NEN三個指標,對鏈接性能進行比較[34]。在使用測評語料中給定的指稱進行實體鏈接的時候,這三個指標相當于是對全部指稱、非空指稱和空指稱鏈接的準確率進行測評。
根據(jù)實驗設置總共進行了六組實驗,由于本文的目的是盡可能提高召回率并降低候選集數(shù)量,因此首先衡量候選集平均數(shù)量和候選集總召回率。表2給出了候選平均值和候選召回率兩個指標的分布情況,其中PER、ORG和GPE分別代表人名實體、組織名實體和地理政治實體,Total代表三個類別整體的情況??梢钥闯?,候選集的平均值在不經(jīng)過擴展處理時最大,整體平均數(shù)量已超過13,GPE的平均數(shù)量更是超過了17。而本文提出的四條策略處理方案達到了降低候選實體數(shù)量的目的,其中步驟1和步驟4的效果相對較好,候選實體平均數(shù)量的下降較為明顯;從召回率的角度分析,在不經(jīng)過擴展的情況下,總候選實體召回率達到了94.8%,步驟2和步驟3均使得候選集的召回率有不同程度的下降,這是由于在經(jīng)過擴展之后,有一部分實體,尤其是組織和地理政治實體的指稱攜帶的信息量過大,在進行匹配的時候可能沒有辦法找到相應的匹配實體,因此造成了召回率的下降。而步驟1和步驟4均使得人名的召回率有很好的提升,而對于組織和地理政治實體,該擴展方式在召回率提升方面,沒有起到相應的作用。整體而言,實驗6的方法將候選實體平均數(shù)量的下降和候選實體召回率的變化平衡得相對較好,在大幅度降低候選實體平均數(shù)量和大幅度提高人名召回率的基礎上,組織和地理政治實體的候選實體召回率的略微下降在可以接受的范圍內(nèi)。
Table 2 Candidate set average and overall Recall表2 候選集平均值和整體召回率
為了進一步分析候選集召回率變化的原因,本文分析了各個擴展步驟進行擴展的實體數(shù)量,以及經(jīng)過擴展后的實體是否有標準鏈接實體召回的情況。從表3可以看出,四條策略處理方案的步驟1和步驟4處理的實體數(shù)量相對較多,步驟2處理的實體數(shù)量最少,并且從擴展后召回的比例來看,步驟1和步驟4的效果相對是最好的,這也是設置實驗6的原因。
另外,本文也統(tǒng)計了空實體和非空實體的準確率、召回率以及F值的變化情況。從表4可以看出,經(jīng)過步驟1和步驟4處理的實驗6候選集的整體質(zhì)量是最好的。
Table 4 Precision、Recall and F-measure of different candidate sets表4 不同候選集的準確率、召回率和F值
使用實驗6得到的候選集和實驗1的候選集進行下一步對比實驗,測試候選集的變化對實體鏈接的整體性能是否有提升。表5給出了完整實體鏈接系統(tǒng)的NERL、NEL以及NEN測評指標值。從表5可以看出,相較于完全不經(jīng)過擴展的候選集,實驗6的 NERL提升了約3.7%,NEL提升了4.1%,NEN提升了3.1%。由此可見,候選集的質(zhì)量提升之后,完整實體鏈接系統(tǒng)上的性能有了較為明顯的提升。
為了更進一步分析實體鏈接系統(tǒng)性能的變化情況,對三種不同類型實體NERL指標的變化進行了統(tǒng)計。表6的統(tǒng)計結果顯示,在人名類別上,NERL的提升是最為明顯的,提升了4.8%,在組織名和地理政治類別上,NERL也有超過2%的提升,這也證明了候選集平均數(shù)量的降低以及候選集召回率的提升,對整體的實體鏈接的各個類別都有明顯的提升。
Table 3 Entity quantity in different steps表3 不同步驟處理實體數(shù)量
Table 5 Final linking result evaluation of the two candidate sets表5 兩個候選集的鏈接結果評價
Table 6 NERL of different entity types表6 不同類型指稱的NERL
由于全部的指稱中,有一部分是不存在鏈接實體的,因此為了進一步測試本文提出的方法,單獨針對存在鏈接實體的指稱,使用本文方法進行實驗,從而避免空實體指稱的錯誤判斷對鏈接準確性造成的影響。對兩組實驗結果進行分析的同時,也列出另外兩組同樣在該語料上對存在鏈接指稱進行實體鏈接實驗的公開研究結果[21,34]。為方便比較,本文與其他研究的測評方法保持一致,直接計算在所有存在鏈接實體的指稱中與實體匹配正確的指稱所占的比例,以此作為準確率。由于本文主要關注的是系統(tǒng)在存在鏈接實體的指稱中的鏈接準確率,因此我們認為指稱抽取對于該準確率并沒有過大的影響,仍然沿用測評語料中給出的指稱。從表7可以看出,基準算法的結果與TAC2014測評的最好結果基本一致,但是與2016年Barrena等的方法相比,有0.6%的差距;而本文提出的改進方法,比其結果高出了2.1%。這也驗證了本文方法在存在鏈接實體的指稱處理效果上,有著很好的提升。
Table 7 Linking accuracy of linkable mention表7 存在鏈接實體指稱的鏈接準確率
另外,本文也給出TAC官方提供的TAC2014的完整鏈接測評結果圖[34],如圖5所示。圖5顯示了在輸入值為標準指稱時,實體鏈接的整體情況,根據(jù)圖中NERL的變化情況可以看出,本文構建的基準算法基本與NYU2的系統(tǒng)性能持平,改進后的系統(tǒng)能夠與排名第二的ICTCAS_OKN1系統(tǒng)持平。這是由于目前本文只關注候選集生成對整體性能的影響,并沒有對后續(xù)的排序以及空實體判斷部分進行改進,仍然沿用基準算法的方法,因此本文方法目前和最高的完整實體鏈接實驗結果還有距離,在后續(xù)的改進中,我們會對后面的候選實體消歧部分進行調(diào)整,從而可以進一步提升鏈接部分的整體性能。
本文構建了實體鏈接基準算法,在基準算法的基礎上加入了多策略指稱擴展和多知識源候選集獲取方法,并通過實驗進行分析。根據(jù)實驗結果選擇出了較好的方案,相較于基準算法,該方案的實驗結果在候選集整體的召回率和準確率上都有著較好的提升。利用獲取的候選集,進一步驗證了候選集對完整實體鏈接系統(tǒng)的影響,實驗結果表明候選集質(zhì)量的提升確實有助于提升實體鏈接的整體性能。
盡管本文提出的策略能夠很好地提升候選集的質(zhì)量,并且提升了實體鏈接系統(tǒng)的整體性能,但是在實體鏈接的整體系統(tǒng)上還有很大的上升空間。未來我們將嘗試引入更多的知識源對實體鏈接的各個模塊進行補充,更進一步地提高實體鏈接的性能。