基于關(guān)系指數(shù)和表示學(xué)習(xí)的領(lǐng)域集成實(shí)體鏈接

2021-12-01 08:25:22蔣勝臣王紅斌余正濤線巖團(tuán)王紅濤

自動化學(xué)報(bào) 2021年10期

蔣勝臣王紅斌余正濤線巖團(tuán) 王紅濤

實(shí)體鏈接是指將文本中存在歧義的實(shí)體正確鏈接到知識庫中無歧義的候選實(shí)體的過程[1?2],實(shí)體鏈接的相關(guān)研究有助于知識庫的自動填充[3],也有助于信息檢索的研究[4],同時(shí)實(shí)體鏈接與跨文本指代消解、詞義消岐,實(shí)體消岐等諸多自然語言研究領(lǐng)域有著緊密聯(lián)系.目前關(guān)于實(shí)體鏈接的研究方法,主要思想是通過計(jì)算實(shí)體指稱項(xiàng)與其候選實(shí)體的多種特征相似度,選擇知識庫中無歧義實(shí)體進(jìn)行鏈接.早期研究以單實(shí)體為對象,Bunescu[5]和 Ganea等[6]使用詞袋模型計(jì)算指稱項(xiàng)與候選實(shí)體的相似度,選取相似度最高的候選實(shí)體作為目標(biāo)實(shí)體;Cucerzan[7]和Nguyen 等[8]通過維基百科頁面錨文本、重定向頁面等信息計(jì)算指稱項(xiàng)與候選實(shí)體的相似度;Zeng[9]利用第三方知識庫對候選實(shí)體特征進(jìn)行擴(kuò)充使得實(shí)體鏈接準(zhǔn)確率提高.以單實(shí)體為對象的實(shí)體鏈接方法忽略了文本中共現(xiàn)實(shí)體間的語義關(guān)系,并且計(jì)算效率不高.針對以上問題,研究者們結(jié)合已有知識庫中存在的信息,提出以集成實(shí)體作為對象進(jìn)行實(shí)體鏈接的集成實(shí)體鏈接方法.Han 等[10]通過構(gòu)建候選實(shí)體語義相關(guān)圖進(jìn)行集成實(shí)體鏈接;Liu 等[11]提出基于圖的集成實(shí)體鏈接方法,以實(shí)體指稱項(xiàng)和候選實(shí)體作為頂點(diǎn)構(gòu)建有向圖,通過計(jì)算出入度和語義相似度進(jìn)行集成實(shí)體鏈接;Ferragina 等[12]引入了概率化鏈接的思想,提出了一個(gè)面向短文本的集成實(shí)體鏈接算法.這些研究在一定程度彌補(bǔ)了單實(shí)體鏈接忽視共現(xiàn)實(shí)體間語義相關(guān)性的不足,但是卻在一定程度上忽略了指稱項(xiàng)本身具有的文本特征,對文本信息利用率不高.

近些年隨著深度學(xué)習(xí)在自然語言中的應(yīng)用,利用表示學(xué)習(xí)計(jì)算語義相似度成為一種新的思路[13?14].隨著Bengio 等[15]提出表示學(xué)習(xí)模型,通過表示學(xué)習(xí)表征實(shí)體深層語義信息計(jì)算相似度成為實(shí)體鏈接任務(wù)的新趨勢[16?17].Mikolov 等[18]和Goldberg[19]對向量空間中詞表示的有效嵌入進(jìn)行了評估;Kar 等[20]將表示學(xué)習(xí)用于特定任務(wù)領(lǐng)域的實(shí)體消歧;Moreno等[21]等通過擴(kuò)充錨文本對文本中的單詞和知識庫中的實(shí)體進(jìn)行聯(lián)合學(xué)習(xí)得到相應(yīng)的向量表示形式,從而進(jìn)行實(shí)體鏈接.

以上研究都是在通用領(lǐng)域,其有豐富的通用語料和消歧特征[22];而對于特定領(lǐng)域,往往存在語料不足,另外流行度等消歧特征不明顯的問題,針對這些問題,本文提出了一種新的基于關(guān)系指數(shù)和表示學(xué)習(xí)的領(lǐng)域集成實(shí)體鏈接方法.首先,構(gòu)建特定領(lǐng)域知識庫,以作為實(shí)體鏈接的基礎(chǔ);其次,通過LDA主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語料和特定領(lǐng)域知識庫中的三元組,得到蘊(yùn)含知識和主題信息的實(shí)體指稱項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;然后,結(jié)合詞擴(kuò)展,得到實(shí)體指稱項(xiàng)的擴(kuò)展詞;再利用得到的特征,計(jì)算指稱項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識庫中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最后的相似度.本文的主要貢獻(xiàn)主要有:1)利用表示學(xué)習(xí),同時(shí)將文本詞向量表示和知識庫的知識表示嵌入到同一個(gè)語義空間,融合了文本信息和知識庫信息;2)收集了語料,獲取了特定領(lǐng)域相關(guān)知識,構(gòu)建了特定領(lǐng)域知識庫;3)將關(guān)系屬性融入到實(shí)體鏈接中,實(shí)現(xiàn)了實(shí)體的語義屬性和關(guān)系屬性的融合.

1 研究方法

本文提出的方法具體步驟是:首先,構(gòu)建特定領(lǐng)域知識庫,以作為實(shí)體鏈接的基礎(chǔ);其次,通過LDA 主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語料和特定領(lǐng)域知識庫中的三元組,得到蘊(yùn)含知識信息和主題信息的實(shí)體指稱項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;其次,結(jié)合詞擴(kuò)展,得到實(shí)體指稱項(xiàng)的擴(kuò)展詞;然后,利用得到的特征,計(jì)算指稱項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識庫中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最終相似度.將相似度最高的候選實(shí)體作為最終鏈接對象.

本文方法包括5 部分:特定領(lǐng)域知識庫構(gòu)建、融合知識和主題信息的詞向量訓(xùn)練、候選實(shí)體的生成、多特征生成、實(shí)體鏈接.如圖1 所示.

圖1 模型框架圖Fig.1 Frame diagram of the model

1.1 領(lǐng)域知識庫構(gòu)建

本文針對特定領(lǐng)域,在分析領(lǐng)域?qū)傩缘幕A(chǔ)上,通過人工定義知識體系,從百度百科等網(wǎng)站上收集了相關(guān)語料,包括旅游景點(diǎn)語料、野生菌語料、茶葉語料、中國少數(shù)民族語料,小吃語料和藥材語料,交通方式和住宿信息語料共計(jì)96 674 個(gè)詞條,構(gòu)建了具有一定規(guī)模的特定領(lǐng)域知識庫.然后將識別好的領(lǐng)域?qū)嶓w和實(shí)體間關(guān)系采用批量導(dǎo)入的方式導(dǎo)入到圖數(shù)據(jù)庫Neo4j 進(jìn)行管理.本文使用自構(gòu)建的特定領(lǐng)域知識庫作為實(shí)體鏈接任務(wù)的支撐,并結(jié)合百度百科作為第三方知識庫對自構(gòu)建的特定領(lǐng)域知識庫中的實(shí)體屬性進(jìn)行有效補(bǔ)充.具體方法是針對知識庫中的每個(gè)實(shí)體,通過它在百度百科相應(yīng)的概念頁面,抓取頁面中Infobox 的半結(jié)構(gòu)化三元組數(shù)據(jù).然后利用Neo4j 圖數(shù)據(jù)庫進(jìn)行管理.對本地知識庫中同名實(shí)體采用加后綴標(biāo)簽的方式進(jìn)行區(qū)分,且后綴標(biāo)簽用小括號與實(shí)體隔離.例如:實(shí)體“香格里拉”.在本地知識庫中有三個(gè)相應(yīng)實(shí)體,分別加上后綴標(biāo)簽“地名”、“酒店”、“電影”,并用小括號進(jìn)行隔離.如:香格里拉(酒店)、香格里拉(地名)、香格里拉(電影).

1.2 融合知識信息和主題信息的詞向量模型訓(xùn)練

1.2.1 主題關(guān)鍵詞特征提取

特定領(lǐng)域的實(shí)體鏈接可以利用領(lǐng)域特征進(jìn)行實(shí)體鏈接[23?24],領(lǐng)域關(guān)鍵詞表征了領(lǐng)域的主要語義信息和領(lǐng)域特征,但是基于領(lǐng)域關(guān)鍵詞的相似度計(jì)算主要是從全局上下文信息出發(fā),并沒有考慮到文本局部的上下文信息,針對這個(gè)問題,本文提出利用LDA主題模型對訓(xùn)練語料上下文進(jìn)行主題分類,通過在不同主題下對多義詞與主題詞結(jié)合進(jìn)行語義擴(kuò)充,計(jì)算詞與詞之間的余弦相似度進(jìn)行K-Means 聚類,選擇離聚類中心最近的m個(gè)詞作為主題關(guān)鍵詞.

1.2.2 融合主題信息的詞向量模型訓(xùn)練

Mikolov 等[18]提出Word2vec,通過神經(jīng)網(wǎng)絡(luò)將詞表示在一個(gè)低維稠密的向量空間中,利用距離和角度反映出詞語之間的語義信息;本文選擇Google的開源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,其主要思想為根據(jù)中心詞最大概率得到出其上下文:

其中,wk是中心詞,wk+j表示中心詞的上下文,N是訓(xùn)練時(shí)窗口的大小,在本文中沒有對窗口設(shè)置對比實(shí)驗(yàn),按照實(shí)驗(yàn)經(jīng)驗(yàn),設(shè)窗口大小為5.p(wk+j|wk)表示在中心詞wk的條件下,wk+j生成的概率,利用softmax 函數(shù)求得:

其中,d(wk,wj)表示詞wk和wj向量表示的歐幾里得距離,m表示詞wk的主題詞個(gè)數(shù).將主題信息融入詞向量表示中:

其中,α為權(quán)重值,我們的目標(biāo)是最小化Jg,通過將主題關(guān)鍵詞的距離融入詞向量表達(dá)中,使得同主題詞之間的向量表示更接近.對沒有同主題關(guān)鍵詞的詞語,直接按照Skip-gram 模型訓(xùn)練出其向量表示形式.通過對訓(xùn)練出的詞向量與同主題詞計(jì)算相似度并參考Xu 等[25]的實(shí)驗(yàn)參數(shù),設(shè)置α=0.8;m=6.

1.2.3 TransE 模型的聯(lián)合學(xué)習(xí)

Bordes 等在Mikolov 的word2vec 詞表示學(xué)習(xí)模型的基礎(chǔ)上提出了TransE 模型[26],將知識庫中的關(guān)系看作實(shí)體間的某種平移向量.通過TransE模型對構(gòu)建的特定領(lǐng)域知識庫中的三元組進(jìn)行訓(xùn)練,得到知識庫中實(shí)體和關(guān)系的向量表示.針對現(xiàn)有的實(shí)體鏈接方法,無法將知識庫信息和文本信息更好的融合,造成在實(shí)體鏈接中無法利用更多的文本信息和知識庫信息,在本文中,為了將知識庫信息與文本信息融合,以達(dá)到更佳的實(shí)體鏈接效果,我們將第2.2.2 節(jié)中融合主題信息的詞向量表示與知識表示模型TransE 聯(lián)合學(xué)習(xí).首先利用收集到的三元組語料預(yù)訓(xùn)練TransE 模型,得到實(shí)體與關(guān)系的向量表示,再將第2.2.2 節(jié)得到的融合主題信息的詞向量表示形式,替換原有的實(shí)體向量表示,計(jì)算兩者的尾實(shí)體的距離:

其中,wk,r表示TransE 模型得到的原實(shí)體wk和關(guān)系r的向量之和,wk?,r表示wk在融合主題信息的詞向量模型中的向量表示和關(guān)系r的向量之和,n表示實(shí)體個(gè)數(shù).通過最小化Dz,使得詞向量表示和知識表示相互約束訓(xùn)練模型,最終得到融合結(jié)構(gòu)知識的詞向量表示.對于在自構(gòu)建的本地知識庫中沒有實(shí)體相對應(yīng)的詞語,將它們輸入到訓(xùn)練好的模型中得到新的向量.我們稱之為融合偽知識的詞向量表示,這樣做是將文本中的詞與自構(gòu)建本地領(lǐng)域知識庫中實(shí)體向量表示嵌入到同一個(gè)語義空間中,達(dá)到融合文本信息和知識庫信息的目的,也為后面的相似度計(jì)算提供方便.本文沒有對TransE 模型的參數(shù)對實(shí)驗(yàn)結(jié)果的影響做特定實(shí)驗(yàn),向量維數(shù)設(shè)為200,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式.在整個(gè)融合知識和主題信息的詞向量表示過程中,向量維度統(tǒng)一設(shè)為200,整體模型框架圖如圖2 所示.

圖2 融合知識和主題信息的詞向量表示模型Fig.2 Word vector representation model that fuses knowledge and subject information

1.3 候選實(shí)體生成

1.3.1 候選實(shí)體的選取

對于候選實(shí)體的生成,首先要識別出文本中所有的實(shí)體指稱項(xiàng),將實(shí)體指稱項(xiàng)組成集合M={m1,m2,···,mn},其中n表示文本中實(shí)體指稱項(xiàng)的個(gè)數(shù).然后針對每個(gè)實(shí)體指稱項(xiàng)mi,在自構(gòu)建的特定領(lǐng)域知識庫中尋找與之同名實(shí)體(不包括括號內(nèi)的實(shí)體后綴標(biāo)簽)并組合成集合,作為它的候選實(shí)體集合Ni={ni1,ni2,···}.如果知識庫中沒有同名實(shí)體,則把相應(yīng)的實(shí)體指稱項(xiàng)歸為空實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)小于等于4 時(shí),選取指稱項(xiàng)所有的候選實(shí)體作為它最終的候選實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)大于4 時(shí),計(jì)算指稱項(xiàng)與候選實(shí)體的上下文相似度,選取相似度最大的4 個(gè)候選實(shí)體作為最終的候選實(shí)體.上下文相似度計(jì)算公式為:

其中,E(Gi) 和分別表示實(shí)體指稱項(xiàng)的上下文詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;d和u分別表示實(shí)體指稱項(xiàng)的上下文詞的個(gè)數(shù)和其候選實(shí)體直接三元組尾實(shí)體的個(gè)數(shù).

1.3.2 候選實(shí)體關(guān)系屬性的計(jì)算

針對集成實(shí)體鏈接,關(guān)系屬性是候選實(shí)體的重要屬性之一,基于實(shí)體指稱項(xiàng)語義相近,則它們在知識庫中的無歧義實(shí)體也應(yīng)該具有關(guān)系的思想.例如:實(shí)體指稱項(xiàng)“香格里拉”和“麗江”,它們語義相近,則它們在知識庫中的無歧義實(shí)體“香格里拉(旅游勝地)”和“麗江(旅游勝地)”也具有相應(yīng)的關(guān)系.本文將候選實(shí)體的關(guān)系屬性分為直接關(guān)系屬性和間接關(guān)系屬性.1)直接關(guān)系屬性計(jì)算自構(gòu)建的特定領(lǐng)域知識庫中含有豐富的關(guān)系屬性,根據(jù)第2.3.1 生成文本中實(shí)體指稱項(xiàng)的候選實(shí)體集合H={N1,N2,···,Nn},其Ni表示第i個(gè)實(shí)體指稱項(xiàng)的候選實(shí)體集合,n為背景文檔中實(shí)體指稱項(xiàng)個(gè)數(shù).結(jié)合自構(gòu)建的領(lǐng)域知識庫,得到候選實(shí)體的直接關(guān)系屬性,具體方法為:對候選實(shí)體集合Ni中的每個(gè)元素分別與其他n? 1 個(gè)候選實(shí)體集合中的每個(gè)元素進(jìn)行關(guān)系查找,如果兩者之間存在直接三元組,則兩個(gè)元素之間的關(guān)系指數(shù)為1,不存在則關(guān)系指數(shù)為0.對于第i個(gè)實(shí)體指稱項(xiàng)的第j個(gè)候選實(shí)體nij的直接關(guān)系指數(shù),計(jì)算公式為:

其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j個(gè)候選實(shí)體集合.

2)間接關(guān)系屬性計(jì)算候選實(shí)體以三元組的形式存儲在自構(gòu)建的特定領(lǐng)域知識庫中,通過實(shí)體、關(guān)系相連接成網(wǎng)路狀,這種存儲形式?jīng)Q定了候選實(shí)體間的間接關(guān)系同時(shí)存在垂直間接關(guān)系和水平間接關(guān)系.例如在自構(gòu)建的本地知識庫中存在三元組:(云南,地級市,玉溪),(玉溪,景點(diǎn),撫仙湖),通過一條關(guān)系路徑,將兩個(gè)三元組連接在一起,則“撫仙湖“和”云南“存在間接關(guān)系,我們稱之為垂直間接關(guān)系;同樣的,例如本地知識庫中也存在三元組:(云南,地級市,玉溪),(云南,地級市,曲靖),如果只考慮關(guān)系路徑相連接的情況,則“玉溪”和“曲靖”之間并不存在關(guān)系,這樣卻與事實(shí)不符.兩者之間對應(yīng)同一個(gè)頭實(shí)體,也存在間接關(guān)系,我們將這種間接關(guān)系稱為水平間接關(guān)系;同時(shí)也可以同時(shí)存在兩種間接關(guān)系,例如(中國,省份,云南),(中國,省份,江蘇),(云南,地級市,麗江),(麗江,景點(diǎn),玉龍雪山),“玉龍雪山”和“云南”存在垂直間接關(guān)系,“云南”和“江蘇”之間存在水平間接關(guān)系,則“玉龍雪山”和“江蘇”之間同時(shí)存在垂直和水平間接關(guān)系.間接關(guān)系指數(shù)的計(jì)算公式為:

其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j 候選實(shí)體集合,k為路徑長度,p為水平間接次數(shù),例如“玉龍雪山”和“江蘇”存在一次水平間接次數(shù),當(dāng)兩者之間存在多條路徑時(shí),取最短路徑.

1.4 特征生成模塊

1.4.1 上下文特征生成

實(shí)體指稱項(xiàng)的上下文特征可以代表指稱項(xiàng)的文本環(huán)境,對指稱項(xiàng)的語義表達(dá)具有重要作用.通過實(shí)體指稱項(xiàng)的背景文本,經(jīng)過文本預(yù)處理(分詞、去停用詞),利用第2.2 節(jié)訓(xùn)練好的融合知識和主題信息的詞向量模型得到指稱項(xiàng)的上下文向量表示.具體方法為:選擇實(shí)體指稱項(xiàng)所在句子經(jīng)過分詞、去停用詞后的詞作為實(shí)體指稱項(xiàng)的上下文,利用訓(xùn)練好的詞表示模型得到它們的向量表示形式.利用式(6)計(jì)算上下文特征相似度.

1.4.2 主題關(guān)鍵詞特征生成

特定領(lǐng)域的局部特征對實(shí)體消歧具有重要作用,例如:在旅游領(lǐng)域的背景文本中,實(shí)體指稱項(xiàng)“金花”的上下文信息主題圍繞“花卉名”來進(jìn)行介紹,而在文檔局部上下文中主要圍繞“茶品”的金花來介紹,可以看出局部特征對消歧有重要意義.為了利用局部特征進(jìn)行實(shí)體鏈接,本文提出通過LDA 主題模型對旅游領(lǐng)域背景文本的上下文進(jìn)行主題分類,利用第2.2 節(jié)得到的融合知識和主題信息的詞向量表示,計(jì)算相同主題下的詞與詞之間的余弦相似度,然后進(jìn)行K-means 聚類,選擇離聚類中心最近的w個(gè)詞作為主題關(guān)鍵詞,w的取值在實(shí)驗(yàn)部分具體說明.主題特征表示為:

其中,E(wi) 和分別表示實(shí)體指稱項(xiàng)主題關(guān)鍵詞wi其對應(yīng)候選實(shí)體在自構(gòu)建的特定領(lǐng)域知識庫中的類別標(biāo)簽的向量表示;w為實(shí)體指稱項(xiàng)主題關(guān)鍵詞的個(gè)數(shù);z表示對應(yīng)候選實(shí)體在知識庫中的類別標(biāo)簽個(gè)數(shù).

1.4.3 擴(kuò)展詞特征生成

集成實(shí)體鏈接相比于單實(shí)體鏈接充分考慮了實(shí)體之間的共現(xiàn)關(guān)系,同時(shí)提高了計(jì)算效率.利用詞擴(kuò)展的方法,同時(shí)考慮v個(gè)實(shí)體,充分發(fā)揮集成實(shí)體鏈接的優(yōu)勢,具體方法為:對于第i個(gè)指稱項(xiàng)mi,分別計(jì)算其他n?1個(gè)指稱項(xiàng)與第i個(gè)指稱項(xiàng)的上下文特征和主題關(guān)鍵詞特征的余弦相似度,將相似度最大的v個(gè)實(shí)體指稱項(xiàng)選擇作為第i個(gè)實(shí)體指稱項(xiàng)的擴(kuò)展詞,依次迭代n次,得到背景文本中每個(gè)實(shí)體指稱項(xiàng)的擴(kuò)展詞.實(shí)體指稱項(xiàng)擴(kuò)展詞的計(jì)算公式為:

其中,Sw和Sg分別表示實(shí)體指稱項(xiàng)的上下文相似度和主題關(guān)鍵詞相似度;選取Qk最大的v個(gè)實(shí)體指稱項(xiàng)作為本實(shí)體指稱項(xiàng)的擴(kuò)展詞.v的取值在實(shí)驗(yàn)部分詳細(xì)說明.擴(kuò)展詞特征表示為:

其中,E(zk) 和分別表示實(shí)體指稱項(xiàng)擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;v和u分別表示擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的個(gè)數(shù).

1.5 實(shí)體鏈接模塊

1.5.1 關(guān)系指數(shù)計(jì)算

對于第i個(gè)實(shí)體指稱項(xiàng)mi和它的v個(gè)擴(kuò)展詞,同時(shí)鏈接到本地特定領(lǐng)域知識庫中的每個(gè)候選實(shí)體,根據(jù)第2.3.2 節(jié)的方法,得到實(shí)體指稱項(xiàng)候選實(shí)體與其擴(kuò)展詞候選實(shí)體之間的關(guān)系指數(shù),具體方法為:對于候選實(shí)體nij,分別對它與mi的v個(gè)擴(kuò)展詞的每個(gè)候選實(shí)體進(jìn)行關(guān)系查找,得到它與v個(gè)擴(kuò)展詞候選實(shí)體的關(guān)系指數(shù)之和,最終通過歸一化得到mi的每個(gè)候選實(shí)體的關(guān)系指數(shù).計(jì)算公式表示為:

依次計(jì)算出實(shí)體指稱項(xiàng)mi所有候選實(shí)體的關(guān)系指數(shù)ri1,ri1,···,riL,其中L為實(shí)體指稱項(xiàng)mi的候選實(shí)體個(gè)數(shù).通過歸一化,得到最終的關(guān)系指數(shù):

1.5.2 相似度計(jì)算

相似度計(jì)算是指利用實(shí)體指稱項(xiàng)的文本特征與知識庫中候選實(shí)體的相應(yīng)特征,通過計(jì)算兩者之間的余弦相似度,以此表征實(shí)體指稱項(xiàng)與候選實(shí)體在文本信息方面的相似度.在本文中,充分利用上下文相似度、主題關(guān)鍵詞相似度和擴(kuò)展詞相似度,最后得到特定領(lǐng)域?qū)嶓w指稱項(xiàng)的相似度:

其中,Rij,Sij分別表示實(shí)體指稱項(xiàng)mi與其候選實(shí)體nij的關(guān)系指數(shù)和特征相似度;1/2 表示兩者的權(quán)重值.在文本中我們采用對等加權(quán),也可以考慮不對等加權(quán)的情況,但通過初步實(shí)驗(yàn)結(jié)果并參考文獻(xiàn)[11]表明,少量的權(quán)值修正對實(shí)體鏈接結(jié)果的影響不大,因此本文采用1/2 作為兩者的權(quán)重值.

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

本文選擇Google 的開源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,通過提取維基百科旅游、文化分類下的文本信息,并結(jié)合從旅游網(wǎng)站和百度百科、民族文化網(wǎng)站、中國中藥雜志、中國中藥材網(wǎng)爬取旅游信息文本136 749 篇,中國少數(shù)民族信息文本95 483 篇,藥材信息文本114 673 篇作為詞表示模型的訓(xùn)練語料.TransE 模型的預(yù)訓(xùn)練使用本地特定領(lǐng)域知識庫中的163 759 組三元組為語料.實(shí)驗(yàn)所用的測試集是本文從爬取的旅游、少數(shù)民族文化、中藥材三種領(lǐng)域中隨機(jī)分別選取861 篇作為測試文本,然后分別從三種領(lǐng)域的測試文本中人工選取含有實(shí)體歧義的文本300 篇構(gòu)建成旅游領(lǐng)域測試集、少數(shù)民族文化測試集和中藥材測試集,并且在每一篇文本中人工標(biāo)記出領(lǐng)域?qū)嶓w指稱和其在自構(gòu)建的領(lǐng)域知識庫中的對應(yīng)實(shí)體,在三個(gè)領(lǐng)域測試集中分別標(biāo)注實(shí)體指稱1 135 個(gè)、947 個(gè)和1 092 個(gè),其中旅游領(lǐng)域測試集、少數(shù)民族文化測和中藥材測試集在自構(gòu)建的領(lǐng)域知識庫中存在對應(yīng)實(shí)體對象的分別有967 個(gè)、703 個(gè)、939 個(gè)實(shí)體指稱.

2.2 實(shí)驗(yàn)設(shè)置與評價(jià)指標(biāo)

實(shí)驗(yàn)的過程包括融合知識和主題信息的詞向量模型訓(xùn)練、候選實(shí)體的生成、擴(kuò)展詞的生成、關(guān)系指數(shù)計(jì)算、相似度計(jì)算、實(shí)體鏈接等過程.使用jieba分詞工具實(shí)現(xiàn)語料預(yù)處理;針對融合知識和主題信息的詞向量模型訓(xùn)練,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,窗口大小設(shè)置為5,設(shè)置主題詞距離權(quán)重α=0.8,主題詞m=6,對于TransE模型的預(yù)訓(xùn)練,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式,向量維數(shù)統(tǒng)一設(shè)為200;本文采用準(zhǔn)確率P(%)、召回率R(%)和F1 值來評估本文提出的方法,其中文本中的實(shí)體指稱項(xiàng)在本地知識庫中存在對應(yīng)實(shí)體的集合為A;算法輸出的鏈接到本地知識庫中實(shí)體對象上的實(shí)體指稱項(xiàng)集合為B.則準(zhǔn)確率P(%)、召回率R(%) 和F1 值的計(jì)算公式如下所示:

2.3 實(shí)驗(yàn)及其結(jié)果分析

2.3.1 實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證本文提出方法的可行性,本文設(shè)置以下6 組實(shí)驗(yàn):實(shí)驗(yàn)1:不同相似度特征組合的實(shí)驗(yàn)對比.實(shí)驗(yàn)2:驗(yàn)證擴(kuò)展詞的數(shù)量v對實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)3:驗(yàn)證主題關(guān)鍵詞個(gè)數(shù)w對于實(shí)體鏈接準(zhǔn)確率的影響.實(shí)驗(yàn)4:驗(yàn)證不同關(guān)系屬性對實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)5:本文提出的方法與目前主流的實(shí)體鏈接方法進(jìn)行對比.實(shí)驗(yàn)6:驗(yàn)證本文提出的方法在不同領(lǐng)域中的普適性.

2.3.2 實(shí)驗(yàn)結(jié)果與分析

1)實(shí)驗(yàn)1:為了驗(yàn)證不同特征對實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測試集,通過選取不同的特征組合進(jìn)行對比實(shí)驗(yàn),表1 所示為不同特征組合對實(shí)驗(yàn)結(jié)果的影響.

表1 不同特征組合實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 1 Statistics of experimental results of different feature combinations

在進(jìn)行特征組合對比實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測試集,主題關(guān)鍵詞個(gè)數(shù)w=4,擴(kuò)展詞個(gè)數(shù)v=3.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),只利用上下文相似度特征和主題關(guān)鍵詞相似度特征,其準(zhǔn)確率明顯低于結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),F1 值相較于只利用上下文特征和主題特征也有明顯提升,能夠達(dá)到91.5.分析原因主要是上下文相似度特征和主題關(guān)鍵詞特征僅僅是基于一個(gè)實(shí)體指稱項(xiàng)信息出發(fā),沒有考慮一篇文章中實(shí)體指稱項(xiàng)之間的共現(xiàn)信息,并且忽略了候選實(shí)體之間的關(guān)系屬性.結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),在考慮單個(gè)實(shí)體指稱項(xiàng)的同時(shí)也充分考慮了實(shí)體指稱項(xiàng)的共現(xiàn)信息和候選實(shí)體之間的關(guān)系屬性,因此準(zhǔn)確率有了很大的提高.

2)實(shí)驗(yàn)2:本實(shí)驗(yàn)在旅游領(lǐng)域測試集上,分別測試擴(kuò)展詞個(gè)數(shù)v在取1,2,3,4 時(shí)對實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表2 所示.

表2 不同v 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 2 Statistical results of different v values

在進(jìn)行擴(kuò)展詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),主題關(guān)鍵詞個(gè)數(shù)w=4.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),擴(kuò)展詞的個(gè)數(shù)對實(shí)體鏈接結(jié)果有較大影響,F1 值可以從最低的83.1 提升到91.5,并且相比于只利用上下文特征和主題關(guān)鍵詞特征的F1 值,有了較大提升,說明加入擴(kuò)展詞特征可以對實(shí)體鏈接有較大幫助.從實(shí)驗(yàn)結(jié)果表明,當(dāng)擴(kuò)展詞個(gè)數(shù)v=3時(shí),F1 值達(dá)到最大值91.5.當(dāng)個(gè)數(shù)大于3 時(shí)準(zhǔn)確率和F1 值都有所降低.分析原因主要是因?yàn)楫?dāng)擴(kuò)展詞個(gè)數(shù)太小時(shí),不僅沒有充分利用實(shí)體指稱項(xiàng)之間的共現(xiàn)信息,并且會影響候選實(shí)體的關(guān)系指數(shù),所以準(zhǔn)確率會降低,當(dāng)擴(kuò)展詞個(gè)數(shù)太大,會出現(xiàn)冗余信息,對實(shí)體指稱項(xiàng)的信息表達(dá)和候選實(shí)體關(guān)系指數(shù)計(jì)算都會產(chǎn)生不好的影響.所以本文擴(kuò)展詞個(gè)數(shù)取v=3.

3)實(shí)驗(yàn)3:本實(shí)驗(yàn)在旅游領(lǐng)域測試集上,分別測試主題關(guān)鍵詞個(gè)數(shù)w在取1,2,3,4,5 時(shí)對實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表3 所示.

表3 不同w 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 3 Statistical results of different w values

在進(jìn)行主題關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),擴(kuò)展詞個(gè)數(shù)v=3.通過對比不同主題詞個(gè)數(shù)w和不同擴(kuò)展詞個(gè)數(shù)v的對比實(shí)驗(yàn)表明,擴(kuò)展詞特征與主題詞特征的作用基本相當(dāng),最小F1 指分別為83.1 和84.9,但是主題詞不同個(gè)數(shù)之間F1 值的差距沒有不同擴(kuò)展詞個(gè)數(shù)之間明顯.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)主題關(guān)鍵詞個(gè)數(shù)w=4 時(shí),F1值達(dá)到最大值91.5,當(dāng)個(gè)數(shù)大于4 時(shí)準(zhǔn)確率降低.分析原因在于提取主題關(guān)鍵詞時(shí)采用聚類的方法,當(dāng)主題關(guān)鍵詞個(gè)數(shù)太小時(shí),無法代表領(lǐng)域特定信息,當(dāng)個(gè)數(shù)大于4 時(shí),又造成信息冗余,將多余信息引入到相似度計(jì)算中,從而導(dǎo)致實(shí)體鏈接的F1 值下降.所以本文主題關(guān)鍵詞個(gè)數(shù)取w=4.

4)實(shí)驗(yàn)4:為了驗(yàn)證關(guān)系屬性中每個(gè)子屬性的效果對實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測試集,通過依次增加關(guān)系屬性中各個(gè)子屬性來設(shè)置對比實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果如表4 所示.

表4 各個(gè)關(guān)系子屬性的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 4 Statistical results of experimental results for each relationship sub-attribute

在進(jìn)行各關(guān)系子屬性的實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征,擴(kuò)展詞個(gè)數(shù)v=3,主題詞個(gè)數(shù)w=4.實(shí)驗(yàn)結(jié)果表明,利用候選實(shí)體之間的直接關(guān)系使得實(shí)體鏈接的F1 值有了較小提升,分析原因是自構(gòu)建的特定領(lǐng)域知識庫中并不完整,只利用直接關(guān)系信息對實(shí)驗(yàn)結(jié)果幫助有限,同時(shí)通過水平間接關(guān)系和垂直間接關(guān)系的實(shí)驗(yàn)結(jié)果對比,垂直間接關(guān)系對實(shí)體鏈接結(jié)果影響更大,說明通過關(guān)系路徑相連的候選實(shí)體之間的關(guān)系信息對實(shí)體鏈接更有幫助,但是通過最終的實(shí)驗(yàn)結(jié)果表明,將兩種間接關(guān)系同時(shí)考慮,更能增加候選實(shí)體的關(guān)系信息,對實(shí)體鏈接幫助更大.

5) 實(shí)驗(yàn)5:為了驗(yàn)證本文提出方法的可行性,在旅游領(lǐng)域測試集上,將本文的方法與其他幾種實(shí)體鏈接方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5 所示.

表5 本文方法與其他方法的比較Table 5 Comparison of methods in this paper with other methods

在旅游領(lǐng)域測試集中將以上基線方法復(fù)現(xiàn),其中參數(shù)設(shè)置與其論文中相同.根據(jù)實(shí)驗(yàn)結(jié)果表明,本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較F1 值有明顯的提升,并且不需要標(biāo)注語料,更簡潔高效;與EAT[21]方法相比較,Moreno 等[21]通過擴(kuò)充知識庫中實(shí)體的錨文本對文本中的單詞和知識庫中的實(shí)體在同一個(gè)向量空間中學(xué)習(xí)指稱項(xiàng)與候選實(shí)體的向量表示,并通過訓(xùn)練分類器進(jìn)行實(shí)體鏈接,兩種方法都是基于詞嵌入,本文的方法準(zhǔn)確率有較大提升,我們分析原因在于我們的語料主要是針對特定領(lǐng)域,語料數(shù)據(jù)集規(guī)模相較于公共數(shù)據(jù)集偏小,所以詞嵌入效果沒有達(dá)到最佳,但是我們的方法在詞嵌入的基礎(chǔ)上,將知識和主題信息融入詞向量表示中,將文本信息和知識庫信息融合,同時(shí)綜合考慮了上下文特征、主題特征、詞擴(kuò)展特征、關(guān)系指數(shù)特征,所以比EAT[21]方法在F1 值上有了較大的提高,也驗(yàn)證了本文的方法更適應(yīng)于語料偏少的特定領(lǐng)域;與Zero-shot[29]相比較,前者利用的是最新的神經(jīng)網(wǎng)絡(luò)模型,與它相比較F1 值有較小提高,證明了本方法達(dá)到了較高水平,也證明了本方法在對特定領(lǐng)域?qū)嶓w鏈接任務(wù)的可行性.

6)實(shí)驗(yàn)6:為了驗(yàn)證本文提出的方法在不同領(lǐng)域中的普適性,將本文的方法在旅游領(lǐng)域測試集、少數(shù)民族文化測試集和中藥材測試集中進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表6 所示.

表6 不同領(lǐng)域的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 6 Statistics of experimental results in different fields

由實(shí)驗(yàn)結(jié)果表明,在不同的領(lǐng)域語料中的F1值變化不大,其中在旅游領(lǐng)域中的F1 值最大,在少數(shù)民族和藥材領(lǐng)域F1 值基本一致,分析原因:在旅游領(lǐng)域中,由于其關(guān)系類別少、實(shí)體個(gè)數(shù)多的特點(diǎn),其擴(kuò)展詞可以很好地表征其語義信息,利用擴(kuò)展與實(shí)體指稱項(xiàng)的候選實(shí)體之間的關(guān)系信息也比較明顯.但是在少數(shù)民族和藥材領(lǐng)域,關(guān)系種類更加復(fù)雜,實(shí)體與實(shí)體之間的關(guān)系信息也不明顯,所以在這兩種領(lǐng)域中,擴(kuò)展詞特征和關(guān)系指數(shù)不如在領(lǐng)域領(lǐng)域中明顯,造成了F1 值略有下降.但是從不同領(lǐng)域的對比實(shí)驗(yàn)中表明,本文方法針對標(biāo)注語料少,流行度等消歧特征不明顯的問題,在不同特定領(lǐng)域中的效果基本穩(wěn)定并且有較好的F1 值.

3 總結(jié)和展望

本文針對現(xiàn)有的實(shí)體鏈接方法無法將文本信息和本地知識庫信息充分相結(jié)合,提出了一種簡單高效的基于關(guān)系指數(shù)和表示學(xué)習(xí)的特定領(lǐng)域集成實(shí)體鏈接方法.利用表示學(xué)習(xí)將文本信息和知識庫信息相融合,簡單高效且適應(yīng)于特定領(lǐng)域語料偏少的特點(diǎn).實(shí)驗(yàn)結(jié)果表明,該方法與現(xiàn)有的實(shí)體鏈接方法相比,不需要標(biāo)注語料,其實(shí)體鏈接準(zhǔn)確率和F1 值比較理想,同時(shí)更適應(yīng)于語料偏少的特定領(lǐng)域.下一步的工作是對已經(jīng)構(gòu)建的小規(guī)模特定領(lǐng)域知識庫進(jìn)行擴(kuò)充和完善,同時(shí)不斷挖掘領(lǐng)域文本中特有的屬性特征,改進(jìn)實(shí)驗(yàn)效果.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放