曾維新 趙 翔,2 唐九陽,2 譚 真 王 煒
1(國(guó)防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室 長(zhǎng)沙 410073)2(地球空間信息技術(shù)協(xié)同創(chuàng)新中心(武漢大學(xué)) 武漢 430079)3(新南威爾士大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 澳大利亞悉尼 2052)
近年來,涌現(xiàn)出一大批知識(shí)圖譜(knowledge graph, KG),諸如YAGO[1],DBpedia[2],Knowledge Vault[3],NELL[4]以及中文的CN-DBpedia[5],Zhishi.me[6]等,這些大規(guī)模知識(shí)圖譜在問答系統(tǒng)、個(gè)性化推薦等智能服務(wù)中起到重要作用.此外,為滿足特定領(lǐng)域相關(guān)需求,衍生出越來越多的領(lǐng)域知識(shí)圖譜,如醫(yī)療知識(shí)圖譜(1)https:flowhealth.com和科學(xué)知識(shí)圖譜(2)https:www.aminer.cnscikg.在知識(shí)圖譜構(gòu)建過程中,無法避免地需要在覆蓋率和正確率間作權(quán)衡.而任何一個(gè)知識(shí)圖譜都無法達(dá)到完備或者完全正確.
為提升知識(shí)圖譜的覆蓋率及正確率,一種可行方法是從其他知識(shí)圖譜中引入相關(guān)知識(shí),因?yàn)橐圆煌绞綐?gòu)建得到的知識(shí)圖譜間存在知識(shí)的冗余以及互補(bǔ).例如從網(wǎng)頁上抽取構(gòu)建的通用知識(shí)圖譜中可能僅包含藥品的名字,而更多的信息可在基于醫(yī)療數(shù)據(jù)構(gòu)建的醫(yī)療知識(shí)圖譜中找到.為將外部知識(shí)圖譜中的知識(shí)整合到目標(biāo)知識(shí)圖譜中,最重要的一步是對(duì)齊不同的知識(shí)圖譜.為此,實(shí)體對(duì)齊(entity alignment, EA)任務(wù)[7]被提出并受到廣泛關(guān)注.該任務(wù)旨在找到不同知識(shí)圖譜中表達(dá)同一含義的實(shí)體對(duì).而這些實(shí)體對(duì)則作為鏈接不同知識(shí)圖譜的樞紐,服務(wù)于后續(xù)任務(wù).
目前,主流實(shí)體對(duì)齊方法[7-21]主要借助知識(shí)圖譜結(jié)構(gòu)特征判斷2實(shí)體是否指向同一事物.這類方法假設(shè)不同知識(shí)圖譜中表達(dá)同一含義的實(shí)體具有類似的鄰接信息.在人工構(gòu)建的數(shù)據(jù)集上,這類方法取得了最好的實(shí)驗(yàn)結(jié)果.但最近一項(xiàng)工作[20]指出,這些人工構(gòu)建的數(shù)據(jù)集中的知識(shí)圖譜比真實(shí)世界的知識(shí)圖譜更加稠密,而基于結(jié)構(gòu)特征的實(shí)體對(duì)齊方法在具有正常分布的知識(shí)圖譜上效果大打折扣.
事實(shí)上,通過分析真實(shí)世界知識(shí)圖譜中的實(shí)體分布可知,超過半數(shù)的實(shí)體只與一兩個(gè)其他實(shí)體相連.這些實(shí)體被稱為長(zhǎng)尾實(shí)體(long-tail entities),占據(jù)了知識(shí)圖譜實(shí)體的大部分,使得圖譜整體呈現(xiàn)較高的稀疏性.這也符合人們對(duì)真實(shí)世界知識(shí)圖譜的認(rèn)知:只有很少一部分實(shí)體被經(jīng)常使用并具有豐富的鄰接信息;絕大部分實(shí)體很少被提及,包含微少的結(jié)構(gòu)信息.因此,當(dāng)前基于結(jié)構(gòu)信息的實(shí)體對(duì)齊方法在真實(shí)世界數(shù)據(jù)集[20]上的表現(xiàn)不盡人意.
此外,標(biāo)注數(shù)據(jù)的缺乏也大大限制了實(shí)體對(duì)齊的效果.為將不同知識(shí)圖譜的表示向量映射到同一空間,需要足夠的標(biāo)注數(shù)據(jù)作為鏈接.然而,已知的實(shí)體對(duì)數(shù)量是有限的.為解決此問題,部分方法[8,10]提出采用迭代訓(xùn)練(iterative training, IT)從測(cè)試集結(jié)果中選出高置信度實(shí)體對(duì)(confident pairs)用作下一輪訓(xùn)練,但存在易引入錯(cuò)誤樣本[8]以及效率過低[10]等問題.此外,在具有真實(shí)世界度數(shù)分布的數(shù)據(jù)集上,這些迭代訓(xùn)練框架只能引入少量高置信度實(shí)體對(duì),無法帶來明顯的效果提升.
鑒于此,為克服當(dāng)前方法的不足之處,本文提出結(jié)合實(shí)體結(jié)構(gòu)特征以及實(shí)體名特征,實(shí)現(xiàn)初步的實(shí)體對(duì)齊.其中實(shí)體結(jié)構(gòu)特征向量由圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network, GCN)生成,而實(shí)體名特征向量則由平均詞向量(averaged word embedding)表示.由于實(shí)體名與結(jié)構(gòu)信息相互補(bǔ)充,且實(shí)體名不受實(shí)體節(jié)點(diǎn)度數(shù)的影響,此基本框架能大幅提升長(zhǎng)尾實(shí)體的對(duì)齊結(jié)果,進(jìn)而優(yōu)化整體對(duì)齊效果.
此外,針對(duì)標(biāo)注數(shù)據(jù)的缺乏,在本文基本實(shí)體對(duì)齊框架上,設(shè)計(jì)了一種基于課程學(xué)習(xí)(curriculum learning, CL)的迭代訓(xùn)練策略,在保證訓(xùn)練效率的同時(shí),能顯著提升實(shí)體對(duì)齊的效果.該方法受課程學(xué)習(xí)思想的啟發(fā),以實(shí)體節(jié)點(diǎn)度數(shù)為衡量指標(biāo),將度數(shù)較高的實(shí)體視為簡(jiǎn)單課程,長(zhǎng)尾實(shí)體視為困難課程,以從簡(jiǎn)至難的方式將高置信度實(shí)體對(duì)加入到訓(xùn)練集中,優(yōu)化迭代訓(xùn)練方式,提升結(jié)構(gòu)特征表示準(zhǔn)確性,并使得模型訓(xùn)練更容易達(dá)到最優(yōu).
最后,不難發(fā)現(xiàn),將實(shí)體名用平均詞向量表示,雖然提升了其易操作性,但平均化過程難免會(huì)造成一定程度上的語義損失,進(jìn)而無法完全表示實(shí)體名的語義信息.為此,提出基于詞移距離(word mover’s distance, WMD)的重排序模型,即在前2步生成的實(shí)體排序結(jié)果上,利用詞移距離模型進(jìn)一步挖掘?qū)嶓w名信息,并與結(jié)構(gòu)信息結(jié)合,優(yōu)化實(shí)體對(duì)齊效果.
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 設(shè)計(jì)了一個(gè)融合結(jié)構(gòu)特征和實(shí)體名特征的實(shí)體對(duì)齊基本框架.在此之上,提出基于課程學(xué)習(xí)的迭代訓(xùn)練策略,通過改變高置信度實(shí)體對(duì)添加方式,使得訓(xùn)練過程更容易達(dá)到最優(yōu).
2) 采用詞移距離模型將前序?qū)R結(jié)果進(jìn)行重排序,以充分挖掘?qū)嶓w名信息,提升對(duì)齊準(zhǔn)確性.
3) 利用跨語言和單語言實(shí)體對(duì)齊數(shù)據(jù)集驗(yàn)證本文提出方法的有效性.而實(shí)驗(yàn)結(jié)果也證實(shí)了本文提出的模型取得了比當(dāng)前最好方法更好的效果.
由于不同知識(shí)圖譜間具有知識(shí)的互補(bǔ)性,通過引入外部知識(shí)圖譜中的相關(guān)知識(shí),能夠大大提升目標(biāo)知識(shí)圖譜的覆蓋率以及正確率.在此過程中,最重要的1步便是對(duì)齊知識(shí)圖譜.其中,實(shí)體對(duì)齊任務(wù)旨在找到不同知識(shí)圖譜中表示同一事物的實(shí)體,在近年來得到廣泛研究.
傳統(tǒng)的實(shí)體對(duì)齊方法[22-23]多依賴本體模式對(duì)齊,利用字符串相似度或者規(guī)則挖掘等復(fù)雜的特征工程方法[24]實(shí)現(xiàn)對(duì)齊,但在大規(guī)模數(shù)據(jù)下準(zhǔn)確率及效率顯著下降.而當(dāng)前實(shí)體對(duì)齊方法[7,13,25]大多依賴知識(shí)圖譜向量,因?yàn)橄蛄勘硎揪哂泻?jiǎn)潔性、通用性以及處理大規(guī)模數(shù)據(jù)的能力.這些工作具有相似框架:首先利用TransE[7-8,12],GCN[11]等知識(shí)圖譜表示方法編碼知識(shí)圖譜結(jié)構(gòu)信息,并將不同知識(shí)圖譜中的元素投射到各自低維向量空間中.接著設(shè)計(jì)映射函數(shù),利用已知實(shí)體對(duì)對(duì)齊這些向量空間.有些方法[9-10,20]通過在數(shù)據(jù)準(zhǔn)備階段融合不同知識(shí)圖譜中的元素,進(jìn)而直接將不同知識(shí)圖譜映射到同一向量空間.最后根據(jù)向量空間中實(shí)體之間的距離或者相似度,生成實(shí)體對(duì)齊結(jié)果.
上述方法僅考慮到實(shí)體在全局中的結(jié)構(gòu)表示,為充分利用實(shí)體的局部結(jié)構(gòu)信息,文獻(xiàn)[15]提出為每一個(gè)實(shí)體構(gòu)建1個(gè)主題圖(topic graph),進(jìn)而直接將局部結(jié)構(gòu)信息融入實(shí)體表示中,并將實(shí)體對(duì)齊問題轉(zhuǎn)化為主題圖之間的圖匹配問題;類似地,文獻(xiàn)[17]同樣也指出之前的方法忽略了鄰接子圖信息,并稱其能為實(shí)體對(duì)齊提供更多的線索,因此提出基于鄰接信息的注意力表示模型,利用注意力機(jī)制對(duì)實(shí)體鄰接信息加權(quán)求和得到實(shí)體的結(jié)構(gòu)表示;此外,文獻(xiàn)[14]提出多通道圖神經(jīng)網(wǎng)絡(luò),從多個(gè)角度生成面向?qū)嶓w對(duì)齊的知識(shí)圖譜嵌入向量.每一個(gè)通道能學(xué)到不同的加權(quán)方法,并從基于自注意力的知識(shí)圖譜補(bǔ)全和基于跨圖譜注意力的互斥實(shí)體剪枝這2個(gè)角度生成知識(shí)圖譜表示,最后通過池化操作進(jìn)行結(jié)合.
除了生成并優(yōu)化結(jié)構(gòu)表示之外,部分方法[9,11,13]提出引入屬性信息以補(bǔ)充結(jié)構(gòu)信息.文獻(xiàn)[9]提出利用屬性類型生成屬性向量;而文獻(xiàn)[11]則將屬性表示成最常見屬性名的one-hot向量;最近,文獻(xiàn)[13]設(shè)計(jì)了字符嵌入模型以充分挖掘?qū)傩灾敌畔?,并借此將不同知識(shí)圖譜中的實(shí)體向量映射到同一空間.這類工作均假設(shè)圖譜中存在大量屬性三元組;但文獻(xiàn)[26]指出,在大多數(shù)知識(shí)圖譜中,69%~99%的實(shí)體至少缺乏1個(gè)同類別實(shí)體具有的屬性.類似地,雖然實(shí)體描述也能提供文本特征[12],但這類信息在大多數(shù)知識(shí)圖譜中也是缺乏的.這也限制了這些方法的通用性以及在處理長(zhǎng)尾實(shí)體時(shí)的有效性.
還有一些工作[8,10]注意到標(biāo)注數(shù)據(jù)的不足限制了模型效果,進(jìn)而提出迭代訓(xùn)練方法,從對(duì)齊結(jié)果中選出高置信度實(shí)體對(duì)以擴(kuò)增訓(xùn)練集.文獻(xiàn)[8]根據(jù)結(jié)構(gòu)向量空間中實(shí)體間距離選擇高置信度實(shí)體對(duì),并采用直接對(duì)齊以及軟對(duì)齊2種方式將這些實(shí)體對(duì)加入到訓(xùn)練集中.但直接對(duì)齊易引入錯(cuò)誤樣本,而軟對(duì)齊則會(huì)增加模型訓(xùn)練復(fù)雜度;文獻(xiàn)[10]提出自舉訓(xùn)練(bootstrapping)框架,在選擇高置信度實(shí)體對(duì)時(shí),設(shè)計(jì)了全局優(yōu)化目標(biāo)以提升高置信度實(shí)體對(duì)的準(zhǔn)確率.但全局優(yōu)化過程過于復(fù)雜,大幅降低了實(shí)體對(duì)齊的效率.而本文設(shè)計(jì)的基于課程學(xué)習(xí)的迭代訓(xùn)練策略,以從簡(jiǎn)至難的方式將高置信度實(shí)體對(duì)加入到訓(xùn)練集中,優(yōu)化迭代訓(xùn)練方式,在保證訓(xùn)練效率的同時(shí),顯著提升實(shí)體對(duì)齊的效果.
文獻(xiàn)[20]指出當(dāng)前實(shí)體對(duì)齊數(shù)據(jù)集中的知識(shí)圖譜比真實(shí)世界中的知識(shí)圖譜更加稠密.在具有正常分布的數(shù)據(jù)集上,存在大量長(zhǎng)尾實(shí)體,此時(shí)結(jié)構(gòu)信息只能發(fā)揮有限作用,而外部信息(屬性、實(shí)體描述等)也往往缺失.因此,需要設(shè)計(jì)針對(duì)長(zhǎng)尾實(shí)體的對(duì)齊方法.目前,暫未發(fā)現(xiàn)直接解決此問題的措施.而本文提出的基本實(shí)體對(duì)齊框架,由于利用了廣泛存在但又不受實(shí)體節(jié)點(diǎn)度數(shù)影響的實(shí)體名特征,能在一定程度上提升長(zhǎng)尾實(shí)體對(duì)齊效果.此外,基于實(shí)體度數(shù)的迭代訓(xùn)練框架以及基于詞移距離模型的重排序,均能在很大程度上緩解長(zhǎng)尾實(shí)體問題.
本節(jié)主要介紹實(shí)體對(duì)齊任務(wù)的定義以及本文所提出的框架.
給定某一實(shí)體,尋找其在另一知識(shí)圖譜中對(duì)應(yīng)實(shí)體的過程可視為排序問題.即在某一特征空間下,計(jì)算給定實(shí)體與另一知識(shí)圖譜中所有實(shí)體的相似程度(距離)并給出排序,而相似程度最高(距離最小)的實(shí)體可被視為對(duì)齊結(jié)果.
當(dāng)前,實(shí)體對(duì)齊任務(wù)面臨2個(gè)方面的挑戰(zhàn):
1) 已知實(shí)體對(duì)能夠鏈接不同知識(shí)圖譜,在實(shí)體對(duì)齊過程中起到不可或缺的作用.但其數(shù)量往往有限,進(jìn)而限制了當(dāng)前實(shí)體對(duì)齊模型效果;
2) 文獻(xiàn)[20]指出,在正常分布的數(shù)據(jù)集中,長(zhǎng)尾實(shí)體占據(jù)較大比例,使得在之前工作中廣泛使用的結(jié)構(gòu)信息無法充分發(fā)揮作用.
針對(duì)上述缺陷,本文做出3項(xiàng)改進(jìn):
1) 提出基于課程學(xué)習(xí)的迭代訓(xùn)練方法,挑選高置信度實(shí)體對(duì)用于下一輪訓(xùn)練,解決訓(xùn)練數(shù)據(jù)過少問題;
2) 充分利用實(shí)體度數(shù)信息,通過課程學(xué)習(xí)從簡(jiǎn)至難展開訓(xùn)練;
3) 采用不受實(shí)體度數(shù)影響的實(shí)體名特征并進(jìn)行2階段排序,提升長(zhǎng)尾實(shí)體對(duì)齊效果.具體模型框架圖1所示.相關(guān)符號(hào)表1所示.
Fig. 1 Our proposed EA framework圖1 本文實(shí)體對(duì)齊框架
如圖1所示,本工作首先設(shè)計(jì)了1個(gè)基本的實(shí)體對(duì)齊框架:利用圖卷積網(wǎng)絡(luò)學(xué)習(xí)實(shí)體結(jié)構(gòu)向量,生成結(jié)構(gòu)特征矩陣(structural matrix),并將實(shí)體名字表示為平均詞向量,生成實(shí)體名特征矩陣(entity name matrix).進(jìn)一步結(jié)合2種向量生成實(shí)體表示向量,并根據(jù)表示向量的相似程度,實(shí)現(xiàn)實(shí)體對(duì)齊(combine & align);接著提出基于課程學(xué)習(xí)的迭代訓(xùn)練框架(iterative training),從易至難地選擇高置信度實(shí)體對(duì)加入到訓(xùn)練數(shù)據(jù)中(augmentation using curriculum learning),優(yōu)化實(shí)體結(jié)構(gòu)表示并不斷提升實(shí)體對(duì)齊效果;最后,利用詞移距離模型(re-rank with WMD)對(duì)前一步輸出結(jié)果(results of final round)重排序,融合更精準(zhǔn)的實(shí)體名信息,進(jìn)一步提高實(shí)體對(duì)齊的效果.
Table 1 Notation表1 符號(hào)表
本節(jié)主要介紹實(shí)體對(duì)齊的基本框架,包括實(shí)體結(jié)構(gòu)特征和實(shí)體名特征以及如何有效結(jié)合不同特征進(jìn)行實(shí)體對(duì)齊.
本文采用GCN[27]捕捉實(shí)體鄰接結(jié)構(gòu)信息并生成實(shí)體結(jié)構(gòu)表示向量.
GCN基本結(jié)構(gòu):GCN是一種直接作用在圖結(jié)構(gòu)數(shù)據(jù)上的卷積網(wǎng)絡(luò),通過捕捉節(jié)點(diǎn)周圍的結(jié)構(gòu)信息生成相應(yīng)的節(jié)點(diǎn)結(jié)構(gòu)向量.GCN的輸入是實(shí)體的特征矩陣X∈Rn×P,以及圖的鄰接矩陣A.輸出是融入了結(jié)構(gòu)信息的特征矩陣Z∈Rn×F.n代表圖譜中節(jié)點(diǎn)的數(shù)目,而P和F分別代表輸入和輸出矩陣特征的維度.
實(shí)體對(duì)齊中GCN設(shè)置:在實(shí)體對(duì)齊任務(wù)中,利用GCN生成實(shí)體結(jié)構(gòu)向量.本文構(gòu)建了2個(gè)2層的GCN,各用來處理1個(gè)知識(shí)圖譜并生成相應(yīng)的實(shí)體向量.其中初始特征矩陣X從L2正則化的截尾正態(tài)分布中抽樣得到,并通過GCN各層訓(xùn)練更新,進(jìn)而充分捕捉知識(shí)圖譜中的結(jié)構(gòu)信息并生成輸出特征矩陣Z.值得注意的是,特征矩陣的維度一直設(shè)置為ds(P=F=dl=ds),而2個(gè)GCN在2層中共享特征矩陣W1和W2.關(guān)于GCN初始特征陣X的設(shè)置,在6.4節(jié)中有詳細(xì)討論與分析.
此外,構(gòu)建矩陣A:首先考慮到知識(shí)圖譜中存在多種關(guān)系,為每一個(gè)關(guān)系r定義正向重要度和反向重要度.其中正向重要度fun(r)是包含關(guān)系r的所有三元組中不重復(fù)頭實(shí)體的數(shù)目與包含關(guān)系r的所有三元組的數(shù)目的比值;反向重要度ifun(r)則是包含關(guān)系r的所有三元組中不重復(fù)尾實(shí)體的數(shù)目與包含關(guān)系r的所有三元組的數(shù)目的比值.接著定義矩陣A中元素
不同知識(shí)圖譜的實(shí)體結(jié)構(gòu)向量并不在同一空間中,因此需要利用已知實(shí)體對(duì)S將它們對(duì)齊到同一空間中.具體的訓(xùn)練目標(biāo)為最小化下述損失值
(1)
區(qū)別于當(dāng)前主流的僅基于結(jié)構(gòu)特征的方法,本文提出同時(shí)利用文本特征進(jìn)行對(duì)齊.具體地,采用實(shí)體名這一文本形式,考慮到:1)實(shí)體名常被用來標(biāo)識(shí)實(shí)體并廣泛存在;2)通過比較實(shí)體名,能直觀的判斷2實(shí)體是否相同;3)其不受訓(xùn)練集規(guī)模的影響,具有較強(qiáng)的穩(wěn)定性.
考慮到結(jié)構(gòu)特征和名字特征分別從結(jié)構(gòu)和語義2個(gè)不同的方面對(duì)實(shí)體進(jìn)行刻畫,可進(jìn)一步結(jié)合以提供更全面的對(duì)齊線索.具體地,2實(shí)體e1∈G1和e2∈G2之間的距離為
D(e1,e2)=αDs(e1,e2)+(1-α)Dn(e1,e2),
(2)
其中,α是用來調(diào)整2種特征權(quán)重的超參數(shù).在特征融合后的空間下,和目標(biāo)實(shí)體e距離D最近的實(shí)體將被視為e的對(duì)應(yīng)實(shí)體.對(duì)超參數(shù)α的討論詳見6.4節(jié).
已標(biāo)注數(shù)據(jù)的數(shù)量是有限的,無法有效地將不同知識(shí)圖譜的向量映射到同一空間中,進(jìn)而限制了實(shí)體對(duì)齊的效果.因此,本文提出將具有高置信度的實(shí)體對(duì)齊結(jié)果從簡(jiǎn)至難地添加到下一輪訓(xùn)練數(shù)據(jù)中,迭代式地?cái)U(kuò)增訓(xùn)練集規(guī)模并提升實(shí)體對(duì)齊結(jié)果.本節(jié)首先介紹基本迭代訓(xùn)練框架,接著闡述如何將課程學(xué)習(xí)的思想運(yùn)用到迭代框架中以優(yōu)化訓(xùn)練效果.
每一輪迭代訓(xùn)練的輸入為待對(duì)齊知識(shí)圖譜和已對(duì)齊實(shí)體對(duì)(訓(xùn)練集),輸出為對(duì)齊結(jié)果和擴(kuò)增后訓(xùn)練集.一種最簡(jiǎn)單的擴(kuò)增方式是,對(duì)于G1中的每一個(gè)待對(duì)齊實(shí)體e1,假設(shè)G2中距離其最近的實(shí)體為e2;而對(duì)于e2來說,G1中距離其最近的實(shí)體正好也為e1,那么可認(rèn)為(e1,e2)為高置信度實(shí)體對(duì),并將其添至訓(xùn)練數(shù)據(jù)中.但在此過程中,無法避免地會(huì)引入一部分錯(cuò)誤的實(shí)體對(duì),進(jìn)而對(duì)后續(xù)訓(xùn)練造成負(fù)面的影響.而一旦加入了錯(cuò)誤實(shí)體對(duì),很難再次評(píng)估這些實(shí)體對(duì)的正確性或是將其從訓(xùn)練數(shù)據(jù)中移除[28].
值得注意的是,在本文設(shè)計(jì)的迭代訓(xùn)練框架中,當(dāng)測(cè)試集中高置信度實(shí)體對(duì)加入到訓(xùn)練集后,將不會(huì)出現(xiàn)在下一輪的測(cè)試集中,即測(cè)試集中實(shí)體數(shù)量是不斷減少的.這在一定程度上能夠提升測(cè)試集中剩余實(shí)體的對(duì)齊效果,因?yàn)槠浜蜻x實(shí)體數(shù)目與原始相比大幅減少.而在文獻(xiàn)[8,10]中,高置信度實(shí)體對(duì)加入到訓(xùn)練集后,仍會(huì)出現(xiàn)在下一輪的測(cè)試集中.實(shí)驗(yàn)結(jié)果表明,本文提出的迭代訓(xùn)練框架能帶來更好的效果.
課程學(xué)習(xí)主要思想是模仿人類學(xué)習(xí)的特點(diǎn),由簡(jiǎn)單到困難學(xué)習(xí),這樣能使得模型更容易找到局部最優(yōu),同時(shí)加快訓(xùn)練速度[29].在實(shí)體對(duì)齊任務(wù)中,課程的難易程度可由實(shí)體節(jié)點(diǎn)度數(shù)高低來刻畫:度數(shù)較高的實(shí)體具有更為豐富的結(jié)構(gòu)信息,更容易對(duì)齊;而對(duì)齊度數(shù)低的長(zhǎng)尾實(shí)體則相對(duì)而言頗具難度.為此,在迭代訓(xùn)練過程中,首先添加容易的實(shí)體對(duì),再加入較難的實(shí)體對(duì),從而實(shí)現(xiàn)由易至難地對(duì)模型進(jìn)行訓(xùn)練,使得訓(xùn)練更容易達(dá)到最優(yōu).
具體地,假設(shè)有從簡(jiǎn)至難的δ個(gè)課程,c1,c2,…,cδ,分別代表從大到小的一系列實(shí)體節(jié)點(diǎn)度數(shù)值,那么在每一次迭代訓(xùn)練得到的高置信度實(shí)體對(duì)中,只選擇節(jié)點(diǎn)度數(shù)大于c1的加入到訓(xùn)練集中,并保持該條件一直循環(huán)迭代訓(xùn)練,直到符合要求的實(shí)體對(duì)數(shù)目低于給定閾值θ2時(shí),停止該課程難度的訓(xùn)練.
在接下來的訓(xùn)練中,調(diào)整課程難度,將條件改為從高置信度實(shí)體對(duì)中選擇度數(shù)大于c2的加入到訓(xùn)練集中,并保持該課程難度一直循環(huán)迭代訓(xùn)練,直到符合要求的新增實(shí)體對(duì)數(shù)目低于給定值θ2時(shí),停止該課程難度的訓(xùn)練.最后重復(fù)上述步驟,遍歷剩下的課程難度c3,c4,…,cδ.需要注意的是,對(duì)于不同課程難度下的迭代訓(xùn)練,均采用4.1節(jié)中介紹的方法.
基于課程學(xué)習(xí)的迭代訓(xùn)練通過優(yōu)化高置信度實(shí)體對(duì)的添加方式,生成更準(zhǔn)確的實(shí)體表示向量,進(jìn)而提升對(duì)齊效果.這也通過第6節(jié)的實(shí)驗(yàn)結(jié)果得到驗(yàn)證.
基于課程學(xué)習(xí)的迭代訓(xùn)練框架已大幅提升實(shí)體對(duì)齊的準(zhǔn)確率,在此基礎(chǔ)上,提出進(jìn)一步挖掘?qū)嶓w名信息,采用詞移距離模型對(duì)前序結(jié)果進(jìn)行重排序,優(yōu)化實(shí)體對(duì)齊效果.
如圖2所示,詞移距離模型旨在衡量不同句子間的差異性,其表示為1個(gè)句子中所有詞的嵌入向量需要移動(dòng)到達(dá)另一個(gè)句子中所有詞的嵌入向量的最小距離值[30].與平均詞向量間的距離相比,詞移距離能更好地刻畫句中每個(gè)詞對(duì)整個(gè)句子的影響,避免了平均操作造成的語義損失.然而,由于需要計(jì)算詞級(jí)別的距離,該模型耗時(shí)較長(zhǎng),不適用于大規(guī)模數(shù)據(jù).為此,并未在一開始就使用該方法計(jì)算實(shí)體名之間的距離,而是利用其對(duì)前序結(jié)果進(jìn)行重排序.具體算法細(xì)節(jié)可參見文獻(xiàn)[30].
具體地,在基于課程學(xué)習(xí)的迭代訓(xùn)練結(jié)束后,對(duì)于測(cè)試集中的每一個(gè)待對(duì)齊實(shí)體,保留另一個(gè)知識(shí)圖譜中距離其最近的h個(gè)實(shí)體,并將其作為輸入送入到詞移距離模型中,重新計(jì)算實(shí)體名空間下實(shí)體間的距離.最后利用更新后的實(shí)體名距離,結(jié)合式(2),計(jì)算得到新的實(shí)體間距離以及重排序后的對(duì)齊結(jié)果.
Fig. 2 Word mover’s distance model圖2 詞移距離模型
本節(jié)首先介紹實(shí)驗(yàn)的基本設(shè)置,包括參數(shù)設(shè)置,數(shù)據(jù)集、對(duì)比方法以及度量指標(biāo).接著展示在跨語言實(shí)體對(duì)齊以及單語言實(shí)體對(duì)齊2個(gè)任務(wù)上的實(shí)驗(yàn)結(jié)果.隨后進(jìn)行特征分析以驗(yàn)證各個(gè)模塊的有效性.最后通過案例分析,對(duì)本文框架有更清晰的認(rèn)識(shí).
對(duì)于實(shí)體結(jié)構(gòu)特征,ds=300,τ=3,訓(xùn)練300輪,為每個(gè)正例生成5個(gè)負(fù)例.對(duì)于實(shí)體名特征,利用fastText[31]預(yù)訓(xùn)練詞向量生成實(shí)體名向量,而跨語言詞向量則通過MUSE獲得.其中fastText向量采用CBOW模型訓(xùn)練得到,維度為300(即dn=300),字符長(zhǎng)度為5,窗口大小為5,負(fù)正例比為10.通過驗(yàn)證集上實(shí)驗(yàn),將設(shè)置超參數(shù)α=0.3.對(duì)于基于課程學(xué)習(xí)的迭代訓(xùn)練框架,θ1=0.03,θ2=20.c1,c2,…,cδ={10,6,4,2,0}且δ=5.詞移距離模型中,h=100.
采用Hits@k(k=1,10),以及平均排序倒數(shù)(mean reciprocal rank, MRR)作為衡量指標(biāo).對(duì)于測(cè)試集中的每一個(gè)實(shí)體,根據(jù)與該實(shí)體之間的距離D,從低至高地將另一個(gè)知識(shí)圖譜中的實(shí)體進(jìn)行排序.Hits@k反映了前k個(gè)實(shí)體中包含正確實(shí)體的比例.特別地,Hits@1代表對(duì)齊的準(zhǔn)確率.MRR表示正確實(shí)體平均排名的倒數(shù).雖然Hits@1是最重要的衡量指標(biāo),Hits@10可被視為對(duì)Hits@1的補(bǔ)充.假設(shè)某種方法未能成功將正確實(shí)體排為距離最近實(shí)體,但若其將正確實(shí)體排為距離前10近實(shí)體,那么這種方法至少好于未將正確實(shí)體排為距離前10近實(shí)體的方法.MRR亦能提供類似的信息補(bǔ)充.注意到,高的Hits@k和MRR值代表更好的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中的Hits@k由百分?jǐn)?shù)表示.
本文將在EN-FR,EN-DE2個(gè)跨語言實(shí)體對(duì)齊數(shù)據(jù)集以及DBP-WD,DBP-YG2個(gè)單語言實(shí)體對(duì)齊數(shù)據(jù)集上測(cè)試提出的方法[20].詳細(xì)數(shù)據(jù)集信息如表2所示.值得注意的是,文獻(xiàn)[20]指出,之前構(gòu)建的實(shí)體對(duì)齊數(shù)據(jù)集中的實(shí)體節(jié)點(diǎn)度數(shù)分布整體偏高,并不符合真實(shí)世界知識(shí)圖譜情況,而其構(gòu)建的數(shù)據(jù)集則具有正常分布以及更高的對(duì)齊難度.
Table 2 Statistics of Triples and Entities表2 三元組及實(shí)體統(tǒng)計(jì)信息
此外,與7種方法進(jìn)行對(duì)比:
1) MTransE[7].最先提出采用知識(shí)圖譜嵌入(TransE)進(jìn)行實(shí)體對(duì)齊的方法.
2) IPTransE[8].采用迭代訓(xùn)練框架提升對(duì)齊效果.
3) BootEA[10].設(shè)計(jì)了一種基于對(duì)齊的知識(shí)圖譜嵌入方法以及自舉策略.
4) JAPE[9].利用屬性信息對(duì)結(jié)構(gòu)信息進(jìn)行優(yōu)化.
5) GCN-Align[11].利用GCN生成實(shí)體向量,并與屬性向量相結(jié)合以對(duì)齊實(shí)體.
6) RSNs[20].采用基于殘差學(xué)習(xí)的循環(huán)神經(jīng)網(wǎng)絡(luò)來有效捕捉知識(shí)圖譜內(nèi)部以及知識(shí)圖譜間的長(zhǎng)距離關(guān)系依賴.
7) GM-Align[15].為每個(gè)實(shí)體構(gòu)建1個(gè)局部的實(shí)體圖以捕捉更多的局部信息.實(shí)體名信息用來初始化整個(gè)框架.
表3展示了實(shí)驗(yàn)結(jié)果.在第1組只采用結(jié)構(gòu)信息的方法中(MTransE,IPTransE,BootEA,RSNs),BootEA及RSNs取得了更好的實(shí)驗(yàn)結(jié)果.這是因?yàn)锽ootEA利用了針對(duì)實(shí)體對(duì)齊任務(wù)設(shè)計(jì)的知識(shí)圖譜表示向量,并且其提出的自舉策略也能提升對(duì)齊結(jié)果.而RSNs通過挖掘長(zhǎng)距離依賴關(guān)系以解決鄰接結(jié)構(gòu)信息的局限性,進(jìn)而提升整體對(duì)齊效果.然而在所有數(shù)據(jù)集上,這些方法的Hits@1值均未超過50%,揭示了只利用結(jié)構(gòu)特征的不足之處.
第2組方法采用了實(shí)體屬性特征來補(bǔ)充結(jié)構(gòu)特征,但JAPE 與GCN-Align均未取得比第1組更好的效果,這可歸因于屬性信息效果的局限性.此外,這2種方法中使用的結(jié)構(gòu)特征模型均不如BootEA以及RSNs.
Table 3 Entity Alignment Results表3 實(shí)體對(duì)齊結(jié)果
第3組方法利用了實(shí)體名信息,與第1組相比,大大提升了對(duì)齊效果,證明了實(shí)體名信息的重要性,特別是對(duì)于長(zhǎng)尾實(shí)體.此外,本文提出的方法與GM-Align相比,在Hits@1指標(biāo)上取得了近20%的提升,并且所有指標(biāo)均逾九成,展示了整體框架的有效性(對(duì)實(shí)驗(yàn)結(jié)果大幅提升的原因分析可參見6.5節(jié)).其中單語言數(shù)據(jù)集上的結(jié)果要優(yōu)于跨語言對(duì)齊結(jié)果,因?yàn)閱握Z言下的實(shí)體名信息更有助于判斷實(shí)體的等價(jià)性.
需要注意的是:GM-Align無法給出沒有有效實(shí)體名字向量的實(shí)體的對(duì)齊結(jié)果,因此認(rèn)為GM-Align不能對(duì)齊這些實(shí)體.由于無法知曉這些實(shí)體的具體排序結(jié)果,因而表3中未提供其Hits@10和MRR值.
此節(jié)對(duì)超參數(shù)α以及GCN初始特征矩陣X進(jìn)行實(shí)驗(yàn)分析.
如3.3節(jié)指出,超參數(shù)α旨在調(diào)整結(jié)構(gòu)和文本特征權(quán)重.為分析其對(duì)實(shí)驗(yàn)效果的影響,在驗(yàn)證集上進(jìn)行了相關(guān)實(shí)驗(yàn).如圖3所示,只使用文本特征(α=0)已取得較高實(shí)驗(yàn)結(jié)果(在所有數(shù)據(jù)集上均超過60%).當(dāng)α增加時(shí),Hits@1結(jié)果有一定幅度的提升,并在α≈0.3時(shí)達(dá)到最優(yōu)效果.當(dāng)結(jié)構(gòu)特征占據(jù)更大比重時(shí)(α>0.3),整體對(duì)齊結(jié)果開始逐步下降,并在α=1時(shí)達(dá)到最低值.
Fig. 3 Analysis of parameter α圖3 超參數(shù)α分析
由此可知,結(jié)合結(jié)構(gòu)和文本特征確實(shí)能提升整體對(duì)齊結(jié)果.相對(duì)于結(jié)構(gòu)特征,文本特征能提供更多的對(duì)齊線索.此外,對(duì)GCN訓(xùn)練過程中初始特征矩陣X進(jìn)行分析,具體結(jié)果如表4所示:
Table 4 Analysis of GCN Initialization Matrix表4 GCN 初始化特征矩陣分析
在本文設(shè)置中,X通過隨機(jī)初始化得到,具體從L2正則化的截尾正態(tài)分布中抽樣生成,并通過GCN各層訓(xùn)練更新,進(jìn)而使得輸出矩陣能充分體征結(jié)構(gòu)信息.另一種思路是將初始特征矩陣X設(shè)置為有意義的特征信息,并通過GCN各層訓(xùn)練更新,根據(jù)結(jié)構(gòu)信息在各個(gè)節(jié)點(diǎn)之間交換特征,進(jìn)而學(xué)到更有用的表示.為驗(yàn)證這2種不同思路的有效性進(jìn)行對(duì)比實(shí)驗(yàn),具體結(jié)果如表4所示.
考慮到實(shí)體對(duì)齊任務(wù)中特征的局限性(絕大多數(shù)情況下僅存在結(jié)構(gòu)和文本特征),將初始特征矩陣X設(shè)置為實(shí)體名向量矩陣(有意義的特征信息),并送入GCN中進(jìn)行更新.而利用最終輸出矩陣生成的對(duì)齊結(jié)果(GCN-Feature)的確好于隨機(jī)初始化特征矩陣X后的對(duì)齊結(jié)果(GCN-Random).
然而,融合GCN生成的結(jié)構(gòu)特征矩陣與實(shí)體名特征矩陣后的實(shí)驗(yàn)結(jié)果表明,將初始特征矩陣X設(shè)置為實(shí)體名向量矩陣(有意義的特征信息)的對(duì)齊結(jié)果(Combine-Feature)并不如隨機(jī)初始化的結(jié)果(Combine-Random),即便相關(guān)參數(shù)已在驗(yàn)證集上調(diào)到最優(yōu).這表明通過隨機(jī)初始化特征矩陣X,能夠使得GCN學(xué)到更“純粹”的結(jié)構(gòu)信息,這也在文獻(xiàn)[27]中得到印證.在實(shí)體對(duì)齊任務(wù)上,將這樣學(xué)到的結(jié)構(gòu)信息與其他特征信息融合,比將其他特征信息作為GCN的初始特征進(jìn)行學(xué)習(xí)訓(xùn)練以及融合更加有效.
當(dāng)然,可以認(rèn)為將X設(shè)置為實(shí)體名向量矩陣學(xué)習(xí)得到的結(jié)構(gòu)特征矩陣,在后續(xù)與實(shí)體名向量矩陣結(jié)合過程中存在信息冗余,進(jìn)而導(dǎo)致Combine-Feature結(jié)果較差.但在整個(gè)對(duì)齊過程中用到的特征只有結(jié)構(gòu)特征與實(shí)體名特征,因而在此條件下,Combine-Random是比Combine-Feature更好的一種解決方案.
通過表3可以明顯看出,本文提出的方法要遠(yuǎn)好于現(xiàn)有方法.為對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行深入分析,首先驗(yàn)證各個(gè)特征的有效性以及其對(duì)實(shí)驗(yàn)結(jié)果帶來的提升.
具體地,表5中給出了結(jié)合了結(jié)構(gòu)信息和實(shí)體名信息的基本實(shí)體對(duì)齊模型(Basic)、基本迭代訓(xùn)練框架(Basic+IT)、基于課程學(xué)習(xí)的迭代訓(xùn)練框架(Basic+IT-CL)以及基于詞移距離的重排序模型(Basic+IT-CL+WMD)的相關(guān)實(shí)驗(yàn)結(jié)果.
1) 基本實(shí)體對(duì)齊模型(Basic).不難看出,結(jié)合了結(jié)構(gòu)和實(shí)體名信息的基本實(shí)體對(duì)齊模型已取得了比RSNs, GM-Align等方法更好的效果,如Basic在EN-FR上取得了70.5%的Hits@1值(如表5所示),而GM-Align僅取得62.7%(如表3所示).這不僅體現(xiàn)了實(shí)體名這一特征的重要性,也揭示了本文提出的特征融合方法要優(yōu)于之前的模型.具體案例如表6所示.
Table 5 Feature Analysis of Our Method表5 本文模型的特征分析
Table 6 Case Study of Entity Pair (Guerre De Laponie,Lapland War)表6 關(guān)于實(shí)體對(duì)(Guerre De Laponie,Lapland War)的案例分析
2) 基本迭代訓(xùn)練框架(Basic+IT).與基本實(shí)體對(duì)齊模型(Basic)相比,本文提出的迭代訓(xùn)練框架進(jìn)一步提升了各項(xiàng)指標(biāo),證實(shí)了擴(kuò)增訓(xùn)練數(shù)據(jù)對(duì)整體對(duì)齊效果產(chǎn)生的正面影響,以及高置信度實(shí)體對(duì)選擇方法的有效性.
3) 基于課程學(xué)習(xí)的迭代訓(xùn)練框架(Basic+IT-CL).與基本迭代框架(Basic+IT)相比,課程學(xué)習(xí)策略在EN-FR和EN-DE數(shù)據(jù)集上帶來了超過2%的Hits@1值提升,證明其能使得迭代訓(xùn)練模型達(dá)到更優(yōu)的效果.而其在單語言實(shí)體對(duì)齊數(shù)據(jù)集上的效果則不太明顯,因?yàn)閱握Z言數(shù)據(jù)集中絕大部分實(shí)體在前幾輪便被添至訓(xùn)練數(shù)據(jù)中,而改變加入順序?qū)φw結(jié)果影響不大.
4) 基于詞移距離的重排序模型(Basic+IT-CL+WMD).最后,與基于課程學(xué)習(xí)的迭代訓(xùn)練框架(Basic+IT-CL)相比,基于詞移距離的重排序模型使得Hits@1指標(biāo)有了顯著提升,特別是在跨語言實(shí)體對(duì)齊數(shù)據(jù)集上.這驗(yàn)證了進(jìn)一步挖掘?qū)嶓w名信息確實(shí)能帶來對(duì)齊準(zhǔn)確率的提升.至此,所有數(shù)據(jù)集上的各項(xiàng)指標(biāo)均達(dá)到了90%以上,展現(xiàn)了本文提出方法性能的優(yōu)越性.
由上述分析可見,與當(dāng)前其他方法相比,本文提出的基本實(shí)體對(duì)齊模型、基于課程學(xué)習(xí)的迭代訓(xùn)練框架以及基于詞移距離的重排序模型均能帶來實(shí)驗(yàn)結(jié)果的提升.其中結(jié)合了實(shí)體名信息的基本實(shí)體對(duì)齊模型帶來的效果提升最為明顯(奠定了基礎(chǔ)),而其他幾個(gè)模塊(特別是基于詞移模型的重排序)則進(jìn)一步大幅優(yōu)化對(duì)齊結(jié)果.此外,使用詞移距離模型,迭代訓(xùn)練策略等算法帶來效果提升的具體量化分析可參見表5的實(shí)驗(yàn)結(jié)果.而本文代碼(4)https:github.comDexterZengCL也已公開供讀者復(fù)現(xiàn)與驗(yàn)證.
通過案例分析進(jìn)一步揭示各個(gè)模塊對(duì)最終結(jié)果的影響.如表6所示,以En-Fr數(shù)據(jù)集中的(Guerre De Laponie, Lapland War)實(shí)體對(duì)為例,分別給出只使用結(jié)構(gòu)特征(Our-SE)、只使用實(shí)體名特征(Our-NE)、基本對(duì)齊框架(Our-Basic)以及整體框架(Our Method)生成的與Guerre De Laponie最接近實(shí)體.通過結(jié)果分析可知,Our-SE旨在找到與Guerre De Laponie(Lapland War)相關(guān)的實(shí)體,但并不知道尋找方向,因此返回的最相關(guān)結(jié)果中既包含戰(zhàn)役,也包含軍事行動(dòng)以及有名軍官.Our-NE則抓住了關(guān)鍵詞Guerre(War),因此其生成的最相關(guān)實(shí)體的名字中均包含War,但這些戰(zhàn)役大部分甚至不是在第二次世界大戰(zhàn)發(fā)生.
充分結(jié)合結(jié)構(gòu)特征與實(shí)體名特征,Our-Basic將Lapland War排到了第2,因?yàn)槠浼扰c第二次世界大戰(zhàn)相關(guān),本身也是1次戰(zhàn)役.但Our-Basic仍將錯(cuò)誤實(shí)體Siege of Malta(World War II)排到第1.這個(gè)錯(cuò)誤進(jìn)一步被后續(xù)基于課程學(xué)習(xí)的迭代訓(xùn)練以及詞移距離模型消除,而本文提出的方法最終為Guerre De Laponie找到正確的對(duì)應(yīng)實(shí)體Lapland War.
此例充分展現(xiàn)了本文提出的實(shí)體對(duì)齊框架能夠有效結(jié)合不同特征及策略,以提升實(shí)體對(duì)齊的準(zhǔn)確率.
針對(duì)知識(shí)圖譜結(jié)構(gòu)信息在真實(shí)世界數(shù)據(jù)集上匱乏的問題,本文將不受實(shí)體節(jié)點(diǎn)度數(shù)影響的實(shí)體名信息與結(jié)構(gòu)信息結(jié)合,構(gòu)建實(shí)體對(duì)齊基本框架.此外,注意到標(biāo)注數(shù)據(jù)的不足限制了模型效果,設(shè)計(jì)基于課程學(xué)習(xí)的迭代訓(xùn)練方法,由易至難地?cái)U(kuò)增訓(xùn)練數(shù)據(jù),提升對(duì)齊準(zhǔn)確度.最后,在前2步基礎(chǔ)上,利用詞移距離模型進(jìn)一步挖掘?qū)嶓w名信息,對(duì)前序結(jié)果重排序,進(jìn)而生成最終的對(duì)齊結(jié)果.該模型在廣泛使用的實(shí)體對(duì)齊數(shù)據(jù)集上取得了最好的效果.
后續(xù)工作將主要研究關(guān)系對(duì)齊、融合降噪等知識(shí)圖譜對(duì)齊的余留問題,并構(gòu)建高效可行的知識(shí)圖譜融合系統(tǒng).