陳文杰,文 奕,張 鑫,楊 寧,趙 爽
(中國(guó)科學(xué)院 成都文獻(xiàn)情報(bào)中心,成都 610041)
知識(shí)圖譜的起源可以追溯到語(yǔ)義網(wǎng),語(yǔ)義網(wǎng)是一種通過(guò)計(jì)算機(jī)可以理解的方式對(duì)事物進(jìn)行描述的網(wǎng)絡(luò),其目的是實(shí)現(xiàn)人與計(jì)算機(jī)的無(wú)障礙溝通。知識(shí)圖譜本質(zhì)上是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò),主要目標(biāo)是構(gòu)建一張巨大的網(wǎng)絡(luò)圖來(lái)描述真實(shí)世界中存在的各種實(shí)體之間的關(guān)系。知識(shí)圖譜作為一種結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),通常采用三元組(h,r,t)的形式來(lái)表示知識(shí),h和t代表頭和尾2個(gè)實(shí)體,r代表關(guān)系。知識(shí)圖譜的構(gòu)建主要包括知識(shí)獲取、知識(shí)融合、知識(shí)驗(yàn)證、知識(shí)推理和應(yīng)用等部分。知識(shí)表示是知識(shí)圖譜構(gòu)建和應(yīng)用的基礎(chǔ),但是基于三元組的知識(shí)表示形式無(wú)法充分且完全地刻畫實(shí)體間的語(yǔ)義關(guān)系,同時(shí)存在計(jì)算復(fù)雜度高、推理效率低和數(shù)據(jù)稀疏等問(wèn)題。
近年來(lái),隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的發(fā)展,表示學(xué)習(xí)在自然語(yǔ)言處理和圖像識(shí)別等領(lǐng)域得到廣泛應(yīng)用。表示學(xué)習(xí)的目的是用低維稠密的向量來(lái)表示研究對(duì)象,在低維空間中對(duì)象距離越近,對(duì)象在語(yǔ)義上越相似[1]。文獻(xiàn)[2]提出一種DeepWalk算法,其較早將word2vec的思想引入到網(wǎng)絡(luò)表示學(xué)習(xí)中。DeepWalk充分利用圖中的隨機(jī)游走信息,并通過(guò)實(shí)驗(yàn)驗(yàn)證了文檔中的單詞和隨機(jī)游走序列中的節(jié)點(diǎn)均服從冪律定律,在此基礎(chǔ)上,將word2vec應(yīng)用在隨機(jī)游走的序列上,從而得到節(jié)點(diǎn)的向量表示。但是,DeepWalk在游走過(guò)程中完全隨機(jī),難以針對(duì)特定目標(biāo)進(jìn)行有選擇性地游走。
現(xiàn)有網(wǎng)絡(luò)表示學(xué)習(xí)模型更側(cè)重于節(jié)點(diǎn)本身信息,忽略了邊上豐富的語(yǔ)義信息,而且邊通常不具有方向。知識(shí)圖譜表示學(xué)習(xí)是網(wǎng)絡(luò)表示學(xué)習(xí)的子領(lǐng)域,由于圖譜中的邊含有特定的語(yǔ)義且具有方向,因此其模型的設(shè)計(jì)更為復(fù)雜。在現(xiàn)有的知識(shí)表示模型中,TransE模型較具代表性,該模型將尾節(jié)點(diǎn)看作頭節(jié)點(diǎn)加關(guān)系的翻譯結(jié)果,使用基于距離的評(píng)分函數(shù)來(lái)估計(jì)三元組的概率。TransE模型取得了較好的預(yù)測(cè)結(jié)果,但是存在3個(gè)方面的缺陷,一是使用距離作為評(píng)分度量,每一維的特征權(quán)重相同,不夠靈活,知識(shí)表示的準(zhǔn)確性會(huì)受到無(wú)關(guān)維度的影響,二是無(wú)法處理好一對(duì)多(1-N)、多對(duì)1(N-1)和多對(duì)多(N-N)等復(fù)雜關(guān)系,三是模型獨(dú)立地學(xué)習(xí)每一個(gè)三元組,忽略了圖譜中的網(wǎng)絡(luò)結(jié)構(gòu)和語(yǔ)義信息[3]。
當(dāng)前多數(shù)知識(shí)圖譜表示學(xué)習(xí)方法獨(dú)立地學(xué)習(xí)三元組而忽略了知識(shí)圖譜的結(jié)構(gòu)特征。為了解決該問(wèn)題,本文利用近鄰結(jié)構(gòu)特征作為補(bǔ)充,進(jìn)一步增強(qiáng)知識(shí)圖譜的表示效果,在此基礎(chǔ)上,提出一種向量共享的交叉訓(xùn)練機(jī)制,以實(shí)現(xiàn)圖譜結(jié)構(gòu)信息和三元組信息的深度融合。
近年來(lái),隨著Linking Open Data、Freebase和OpenKG等開放數(shù)據(jù)集的廣泛應(yīng)用,互聯(lián)網(wǎng)從文檔萬(wàn)維網(wǎng)向數(shù)據(jù)萬(wàn)維網(wǎng)方向快速發(fā)展。谷歌在2012年提出了知識(shí)圖譜的概念,用于改善搜索結(jié)果[4]。隨后,多家互聯(lián)網(wǎng)公司開始構(gòu)建知識(shí)圖譜,如蘋果的“Wolfram Alpha”、百度的“知心”和搜狗的“知立方”。知識(shí)圖譜被廣泛應(yīng)用于語(yǔ)義搜索、智能問(wèn)答和輔助決策等任務(wù),在人工智能領(lǐng)域也具有良好的應(yīng)用前景。
知識(shí)表示學(xué)習(xí)是將知識(shí)圖譜中的實(shí)體和關(guān)系映射到連續(xù)稠密的低維向量空間,同時(shí)保留圖中的結(jié)構(gòu)和語(yǔ)義關(guān)系[5]。知識(shí)表示學(xué)習(xí)可以降低知識(shí)圖譜的高維和異構(gòu)性,高效實(shí)現(xiàn)語(yǔ)義相似度計(jì)算等任務(wù),并顯著提升計(jì)算效率,此外,其將每個(gè)實(shí)體映射為一個(gè)稠密的向量,有效地解決了數(shù)據(jù)稀疏問(wèn)題。知識(shí)表示學(xué)習(xí)能夠?qū)崿F(xiàn)異構(gòu)知識(shí)的融合,將不同來(lái)源的實(shí)體和關(guān)系映射到同一語(yǔ)義空間中,還可以廣泛地應(yīng)用于知識(shí)圖譜補(bǔ)全、關(guān)系抽取和智能問(wèn)答等各類下游學(xué)習(xí)任務(wù)中[6]。知識(shí)表示學(xué)習(xí)的模型主要分為基于距離的翻譯模型、基于語(yǔ)義的匹配模型、矩陣分解模型和神經(jīng)網(wǎng)絡(luò)模型等[2]。
目前,知識(shí)表示學(xué)習(xí)的研究熱點(diǎn)主要集中在基于距離的翻譯模型上,以Trans系列模型為代表。這類模型將尾節(jié)點(diǎn)看作頭節(jié)點(diǎn)加關(guān)系的翻譯結(jié)果,使用基于距離的評(píng)分函數(shù)來(lái)估計(jì)三元組的概率。文獻(xiàn)[7]于2013年提出TransE模型,該模型基于歐氏距離上的偏移量來(lái)衡量計(jì)算實(shí)體之間的語(yǔ)義相似度。TransE模型相對(duì)簡(jiǎn)單,且具有良好的性能。TransE被提出之后,出現(xiàn)了一系列對(duì)其進(jìn)行改進(jìn)和補(bǔ)充的模型,如TransH、TransG、TransR和CTransR等。其中,為了有效處理1-N、N-1和N-N間的復(fù)雜關(guān)系,TransH模型令每一個(gè)實(shí)體在不同的關(guān)系下?lián)碛胁煌谋硎?將關(guān)系映射到另一個(gè)空間[8]。TransAH在TransH的基礎(chǔ)上引入一種自適應(yīng)的度量方法,通過(guò)對(duì)角權(quán)重矩陣將目標(biāo)函數(shù)中的歐式距離轉(zhuǎn)換為加權(quán)歐式距離[3]。TransA同樣提出一種自適應(yīng)的度量方法,為每個(gè)關(guān)系定義一個(gè)非負(fù)的對(duì)稱矩陣,從而為表示向量中的每一個(gè)維度添加權(quán)重,有效地提升了模型的表示能力[9]。TransG模型使用高斯混合來(lái)刻畫實(shí)體間的多種語(yǔ)義關(guān)系,利用最大相似度原理訓(xùn)練數(shù)據(jù),該模型能夠有效解決多語(yǔ)義問(wèn)題[10]。TransE和TransH假設(shè)實(shí)體和關(guān)系全都在一個(gè)空間內(nèi),在一定程度上限制了模型的表示能力。TransR則假設(shè)不同的關(guān)系具有不同的語(yǔ)義空間,將每個(gè)實(shí)體投影到對(duì)應(yīng)的關(guān)系空間中[11]。為了解決TransR參數(shù)過(guò)多的問(wèn)題,TransD將映射矩陣轉(zhuǎn)換為2個(gè)向量的乘積,TranSparse則引入自適應(yīng)稀疏矩陣[12-13]。文獻(xiàn)[11]提出的CTransR模型是對(duì)TransR的擴(kuò)展,該模型首先對(duì)關(guān)系對(duì)應(yīng)的頭尾實(shí)體作差值,然后根據(jù)差值聚類將關(guān)系細(xì)分為多個(gè)子類[11]。但是,在CTransR模型的學(xué)習(xí)過(guò)程中,參數(shù)過(guò)多,計(jì)算量很大,不適用于大規(guī)模知識(shí)圖譜。除了將實(shí)體在不同關(guān)系下表示為不同向量,TransE方法進(jìn)行另一類改進(jìn),其放寬翻譯模型的約束條件[6]。TransM為每一個(gè)三元組(h,r,t)分配一個(gè)與關(guān)系r相關(guān)的權(quán)重,其中,當(dāng)r屬于1-N、N-1和N-N等復(fù)雜關(guān)系時(shí)權(quán)重值較低[14]。TransF模型不嚴(yán)格限定V(h)+V(r)≈V(t),要求向量V(h)+V(r)與向量V(t)在方向上保持一致即可[15]。
實(shí)體間的關(guān)鍵路徑通常也能反映實(shí)體間的語(yǔ)義關(guān)系。Path Ranking算法將2個(gè)實(shí)體的關(guān)鍵路徑作為特征,以預(yù)測(cè)實(shí)體之間的關(guān)系[16]。TransE等模型存在一定的局限性,往往獨(dú)立地學(xué)習(xí)每一個(gè)三元組。PTransE以TransE為基礎(chǔ),提出一種考慮關(guān)鍵路徑的表示學(xué)習(xí)方法,并取得了顯著的效果[17]?;谡Z(yǔ)義的匹配模型[18-19]為了尋找實(shí)體間的語(yǔ)義關(guān)系,定義了多個(gè)投影矩陣來(lái)描述實(shí)體間的內(nèi)在聯(lián)系,將實(shí)體和關(guān)系投影到隱語(yǔ)義空間以進(jìn)行相似度計(jì)算。以RESACL[20-21]為代表的模型,采用矩陣分解來(lái)進(jìn)行知識(shí)圖譜表示學(xué)習(xí),利用三元組構(gòu)建一個(gè)大矩陣,然后將矩陣分解為實(shí)體和關(guān)系的向量表示。為了精確刻畫實(shí)體和關(guān)系間的語(yǔ)義聯(lián)系,文獻(xiàn)[22]提出了單層神經(jīng)網(wǎng)絡(luò)模型,該模型能夠使用非線性變換為實(shí)體和關(guān)系提供微弱的關(guān)聯(lián),但其計(jì)算復(fù)雜度大幅提高。張量神經(jīng)網(wǎng)絡(luò)模型使用雙線性張量取代傳統(tǒng)的線性變換層,能夠更精確地刻畫實(shí)體和關(guān)系的語(yǔ)義聯(lián)系,但其訓(xùn)練需要大量數(shù)據(jù),不適用于稀疏知識(shí)圖譜。文獻(xiàn)[23]基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建一種融合實(shí)體文本屬性的學(xué)習(xí)模型,該模型使用低秩矩陣對(duì)頭實(shí)體和尾實(shí)體進(jìn)行映射,從而更好地表征復(fù)雜關(guān)系。
TransE模型簡(jiǎn)單,參數(shù)較少,計(jì)算效率較高,但其獨(dú)立地學(xué)習(xí)單個(gè)三元組,忽略了三元組形成的復(fù)雜網(wǎng)絡(luò)關(guān)系,因此,TransE難以處理三元組中1-N、N-1和N-N等問(wèn)題。為此,本文基于TransE提出一種TransGraph模型,以在學(xué)習(xí)三元組的同時(shí)有效融合知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu)特征。
為了更好地描述知識(shí)圖譜和相應(yīng)的算法模型,本文給出相關(guān)的定義和符號(hào)表示。將知識(shí)圖譜記作G=(E,R,S),其中,E是實(shí)體集,R是關(guān)系集,S?E×R×E表示三元組的集合,集合中的每一個(gè)元素用(h,r,t)表示,h、r和t分別表示頭實(shí)體、關(guān)系和尾實(shí)體。知識(shí)表示學(xué)習(xí)的目的是將實(shí)體和關(guān)系映射為低維稠密的向量V(h)、V(r)和V(t)。TransE采用最大間隔法來(lái)增強(qiáng)知識(shí)表示的區(qū)分能力,其目標(biāo)函數(shù)定義如下:
d(h,r,t)=|V(h)+V(r)-V(t)|L1/L2
其中,[x]+表示x的正值函數(shù),l是間隔距離參數(shù),S′是三元組集S的負(fù)采樣集,d(h,r,t)是向量V(h)+V(r)和V(t)之間的L1或L2距離。
在知識(shí)圖譜網(wǎng)絡(luò)中,有2種拓?fù)浣Y(jié)構(gòu)能夠描述目標(biāo)實(shí)體,一種是目標(biāo)實(shí)體和相鄰實(shí)體組成的鄰接結(jié)構(gòu),如圖1所示,另一種是從一個(gè)實(shí)體到目標(biāo)實(shí)體的關(guān)系路徑[11],如圖2所示。如果采用TransE從圖1的三元組中學(xué)習(xí)知識(shí)表示,將會(huì)使得“奧巴馬”“布什”和“特朗普”的向量相同,造成實(shí)體表示的區(qū)分度低,原因是TransE模型獨(dú)立學(xué)習(xí)三元組,在處理復(fù)雜關(guān)系時(shí)存在不足。鄰接結(jié)構(gòu)反映了實(shí)體間的1-N和N-1等多重關(guān)系,因此,在表示學(xué)習(xí)過(guò)程中結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)特征能夠捕獲到網(wǎng)絡(luò)中隱含的復(fù)雜關(guān)系,從而有效改善TransE的不足。
圖1 鄰接結(jié)構(gòu)
圖2 關(guān)系路徑
Fig.2 Relationship path
從直覺(jué)上來(lái)看,在知識(shí)圖譜中,拓?fù)浣Y(jié)構(gòu)相似的實(shí)體應(yīng)該具有相近的向量表示。局部線性表示假設(shè)節(jié)點(diǎn)在較小的局部區(qū)域內(nèi)是線性的,即一個(gè)節(jié)點(diǎn)的表示可以由多個(gè)鄰居節(jié)點(diǎn)的表示線性組合近似得到。文獻(xiàn)[24]研究表明,網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居節(jié)點(diǎn)集合對(duì)于表征節(jié)點(diǎn)間的結(jié)構(gòu)相似性具有重要意義,鄰接結(jié)構(gòu)相似的實(shí)體往往具有相近的語(yǔ)義。
根據(jù)目標(biāo)節(jié)點(diǎn)到鄰居節(jié)點(diǎn)的距離,將目標(biāo)節(jié)點(diǎn)的鄰接結(jié)構(gòu)分為一階近鄰結(jié)構(gòu)和多階近鄰結(jié)構(gòu),一階近鄰結(jié)構(gòu)特征的學(xué)習(xí)過(guò)程如下:類似于CBOW模型利用上下文預(yù)測(cè)目標(biāo)單詞,本文將鄰居實(shí)體和關(guān)系集視作一種特殊的“上下文”,在已知實(shí)體鄰接結(jié)構(gòu)的情況下預(yù)測(cè)實(shí)體的概率,即通過(guò)最大化目標(biāo)實(shí)體的預(yù)測(cè)概率來(lái)學(xué)習(xí)知識(shí)圖譜中的一階近鄰結(jié)構(gòu)。例如,在圖1中用(奧巴馬,President of)、(布什,President of)和(特朗普,President of)來(lái)預(yù)測(cè)“美國(guó)”的概率值。將鄰居實(shí)體和關(guān)系作為輸入,目標(biāo)實(shí)體作為輸出,構(gòu)建3層神經(jīng)網(wǎng)絡(luò)如圖3所示。
圖3 一階近鄰神經(jīng)網(wǎng)絡(luò)模型
以預(yù)測(cè)概率為學(xué)習(xí)目標(biāo),定義一階近鄰結(jié)構(gòu)學(xué)習(xí)目標(biāo)函數(shù)如下:
其中,Nr_1(t)表示尾實(shí)體t的一階近鄰,Nr_1(t)={(h1,r1),(h2,r2),…,(hn,rn)}。投影層的中間向量作為一階近鄰結(jié)構(gòu)的表示向量,采用累加求和的方式計(jì)算:
p(t|Nr_1(t))概率值的計(jì)算是典型的分類問(wèn)題,本文使用softmax函數(shù)進(jìn)行計(jì)算:
其中,E表示實(shí)體集,yt是實(shí)體t未歸一化的概率,計(jì)算如下:
yt=b+UXt
其中,b、U是softmax函數(shù)的參數(shù)。
在知識(shí)圖譜中,一階近鄰是十分稀疏的,因此,本文考慮使用多階近鄰實(shí)體和關(guān)系的向量來(lái)表示目標(biāo)實(shí)體向量。假設(shè)目標(biāo)實(shí)體t存在一個(gè)n階近鄰的實(shí)體h,則從h到t構(gòu)成了一條n步的關(guān)系路徑。在知識(shí)圖譜中,多步的關(guān)系路徑往往能夠表征實(shí)體間的語(yǔ)義關(guān)系,文獻(xiàn)[16]基于關(guān)系路徑預(yù)測(cè)實(shí)體間的關(guān)系。為了構(gòu)建關(guān)系路徑向量,PTransE對(duì)路徑上的所有關(guān)系進(jìn)行語(yǔ)義組合,如圖4所示。
圖4 關(guān)系路徑向量
對(duì)于多階近鄰結(jié)構(gòu),本文考慮使用近鄰實(shí)體到目標(biāo)實(shí)體的多條關(guān)系路徑來(lái)表示目標(biāo)實(shí)體。類似于一階近鄰結(jié)構(gòu)學(xué)習(xí),本文將多個(gè)關(guān)系路徑向量作為輸入,目標(biāo)實(shí)體作為輸出,構(gòu)建3層神經(jīng)網(wǎng)絡(luò)模型,如圖5所示。
圖5 多階近鄰神經(jīng)網(wǎng)絡(luò)模型
定義n階近鄰結(jié)構(gòu)學(xué)習(xí)目標(biāo)函數(shù)如下:
其中,Nr_n(t)表示所有小于等于n階的近鄰實(shí)體到尾實(shí)體t的關(guān)系路徑,Nr_n(t)={path1,path2,…,paths},pathi=(hi,r1,r2,…,ru),hi表示近鄰的實(shí)體,r是路徑上的關(guān)系,1≤u≤n。投影層的中間向量采用累加求和的方式計(jì)算:
同樣采用softmax函數(shù)計(jì)算p(t|Nr_n(t))概率值,此處不再贅述。
當(dāng)前多數(shù)方法獨(dú)立地學(xué)習(xí)三元組而忽略了知識(shí)圖譜的結(jié)構(gòu)特征,為了解決這一問(wèn)題,本文利用近鄰結(jié)構(gòu)特征作為補(bǔ)充,進(jìn)一步增強(qiáng)知識(shí)圖譜的表示效果。模型的目標(biāo)優(yōu)化函數(shù)如下:
L=ηLn+LTransE
其中,η是平衡結(jié)構(gòu)特征和三元組特征的學(xué)習(xí)參數(shù),通過(guò)不斷調(diào)整權(quán)重能更好地將模型應(yīng)用于不同數(shù)據(jù)場(chǎng)景。一方面,目標(biāo)函數(shù)L利用n階近鄰向量預(yù)測(cè)目標(biāo)實(shí)體,使得表示向量包含圖譜的結(jié)構(gòu)特征;另一方面,表示向量又參與了TransE模型中的三元組表示學(xué)習(xí)訓(xùn)練。為了實(shí)現(xiàn)圖譜結(jié)構(gòu)信息和三元組信息的深度融合,本文提出一種向量共享的交叉訓(xùn)練機(jī)制,如圖6所示,其中,左右兩部分模型交替訓(xùn)練,實(shí)體和關(guān)系向量在2個(gè)模型中共享,通過(guò)不斷地迭代訓(xùn)練來(lái)更新向量,最終得到融合后的向量表示。
圖6 交叉訓(xùn)練機(jī)制
為了提高模型的訓(xùn)練速度,研究人員通常使用hierarchical softmax替代softmax。當(dāng)計(jì)算p(t|Nr_n(t))時(shí),hierarchical softmax以實(shí)體和關(guān)系作為葉子節(jié)點(diǎn),將實(shí)體和關(guān)系在三元組集S中出現(xiàn)的頻率作為節(jié)點(diǎn)的權(quán),構(gòu)造一顆哈夫曼樹。對(duì)于每一個(gè)實(shí)體或關(guān)系v,哈夫曼樹中必然存在一條從根節(jié)點(diǎn)到v對(duì)應(yīng)節(jié)點(diǎn)的路徑pv,v出現(xiàn)的頻率越高,則路徑的長(zhǎng)度越短。在路徑pv上存在lv個(gè)分支,每個(gè)分支都視作一次二分類并產(chǎn)生一個(gè)概率,將分支產(chǎn)生的概率相乘便得到p(t|Nr_n(t))的值。因此,得到:
其中,有:
算法1TransGraph訓(xùn)練算法
輸入triple setS,vector sized,marginl,learn rateα,balance rateη
1.Build Huffman Tree from S
2.Initialization V
3.for each epoch∈epochs do
4.for each(h,r,t)∈S do
5.for each(h′,r,t′)∈T′(h,r,t)
6.V(h):=V(h)+α*η*?JTransE/?V(h)
7.V(r):=V(r)+α*η*?JTransE/?V(r)
8.V(t):=V(t)+α*η*?JTransE/?V(t)
9.end for
11.u=0
12.for j=1:ltdo
14.u:=u+α*?Jt/?Xt
15.end for
16.for path∈Nr_n(t) do
17.for each e∈path
18.V(e):=V(e)+u
19.end for
20.end for
21.end for
22.end for
算法1的流程及復(fù)雜度分析如下:
2)分析算法的時(shí)間復(fù)雜度和參數(shù)復(fù)雜度。假設(shè)每次負(fù)采樣K個(gè)三元組,則TransE部分的時(shí)間復(fù)雜度為O(|S|·k)。在鄰接結(jié)構(gòu)特征學(xué)習(xí)的梯度計(jì)算過(guò)程中,傳統(tǒng)的softmax需要對(duì)m+n個(gè)實(shí)體和關(guān)系計(jì)算概率,采用hierarchical softmax只需計(jì)算lt次,lt數(shù)量級(jí)為lb(m+n),故此部分的時(shí)間復(fù)雜度為O(|S|·lb(m+n))。綜上,算法1的整體時(shí)間復(fù)雜度為O(|S|·(k+lb(m+n))),算法的參數(shù)是共享向量和輔助向量,參數(shù)復(fù)雜度為O((m+n)d)。
本文采用WN11、WN18、FB13和FB15K等多個(gè)數(shù)據(jù)集驗(yàn)證和評(píng)估TransGraph模型的有效性。其中,WN11和WN18是WordNet的子集,FB13是Freebase的子集,FB15K是基于Freebase抽取得到的一個(gè)稠密子集。實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)主要包括鏈路預(yù)測(cè)和三元組分類2個(gè)任務(wù),以從不同角度評(píng)估模型的預(yù)測(cè)能力和精確度。TransGraph模型的效果受數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、參數(shù)設(shè)定等因素影響,實(shí)驗(yàn)將針對(duì)不同因素分別進(jìn)行測(cè)試。選擇三類不同的模型進(jìn)行比較:1)基于TransE的距離模型,以TransH、TransR、TransA和TransG為代表,這類模型采用矩陣映射和高斯混合等方式對(duì)TransE進(jìn)行優(yōu)化,且取得了較好效果;2)以SME為代表的語(yǔ)義匹配模型;3)基于矩陣分解的RESCAL模型。
鏈路預(yù)測(cè)的主要過(guò)程是對(duì)于一個(gè)完整的三元組(h,r,t),實(shí)驗(yàn)給定(h,r)后預(yù)測(cè)t或給定(h,t)后預(yù)測(cè)r,從而驗(yàn)證模型預(yù)測(cè)實(shí)體的能力。本組實(shí)驗(yàn)采用WN18和FB15K兩個(gè)數(shù)據(jù)集。
3.1.1 評(píng)價(jià)標(biāo)準(zhǔn)
本次實(shí)驗(yàn)采用和TransE相同的標(biāo)準(zhǔn),以便與TransE等現(xiàn)有模型進(jìn)行對(duì)比。首先,對(duì)于測(cè)試集中的每一個(gè)原始三元組(h,r,t),隨機(jī)丟棄頭實(shí)體h或尾實(shí)體r,得到(r,t)或(h,r);然后,從實(shí)體集中隨機(jī)選擇一個(gè)實(shí)體補(bǔ)全(r,t)或(h,r),得到變異三元組(e,r,t)或(h,r,e);最后,利用得分函數(shù)fr(h,e)計(jì)算原始三元組和變異三元組的得分,并對(duì)得分結(jié)果進(jìn)行排序,從而得到原始三元組的排序分?jǐn)?shù)。
通常通過(guò)平均排序得分(MeanRank)和排序不超過(guò)10的百分比(HITS@10)2個(gè)指標(biāo)來(lái)度量原始三元組的排序結(jié)果。MeanRank越低、HITS@10越高,意味著實(shí)驗(yàn)結(jié)果越好。需要注意的是,如果變異三元組仍然在知識(shí)圖譜中存在,說(shuō)明該三元組剛好由一個(gè)原始三元組變異為另一個(gè)原始三元組,在實(shí)驗(yàn)中這種三元組會(huì)干擾原始三元組的排序得分。為了消除上述干擾,在生成變異三元組集時(shí)需要過(guò)濾掉干擾三元組,以保證變異三元組不屬于訓(xùn)練集、驗(yàn)證集和測(cè)試集等,這一過(guò)程稱作Filter。未經(jīng)Filter過(guò)程的實(shí)驗(yàn)設(shè)置稱作Raw,Filter后的實(shí)驗(yàn)結(jié)果往往更好,擁有更低的MeanRank和更高的HITS@10。
3.1.2 實(shí)驗(yàn)過(guò)程
在訓(xùn)練TransGraph時(shí),學(xué)習(xí)率α設(shè)為{0.01,0.1,1},間距l(xiāng)設(shè)為{0.25,0.5,1},向量維度d設(shè)為{20,50,100},模型間的平衡率η設(shè)為{0.01,0.1,1,10},近鄰結(jié)構(gòu)階數(shù)n設(shè)為{1,2,3}。經(jīng)過(guò)多次實(shí)驗(yàn)得到最優(yōu)的參數(shù)配置如下:在FB15K數(shù)據(jù)集中,α=0.01,l=1,d=50,η=0.1,n=2;在WN18數(shù)據(jù)集中,α=0.01,l=1,d=20,η=0.1,n=2。TransGraph與TransE等現(xiàn)有模型的實(shí)驗(yàn)對(duì)比結(jié)果如表2、表3所示。
表2 FB15K數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果
表3 WN18數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果
從表2、表3可以看出,與TransE模型相比,TransGraph的MeanRank指標(biāo)更低,HITS@10指標(biāo)更高,在FB15K數(shù)據(jù)集上提升39.3%,在WN18數(shù)據(jù)集上提升30.4%,該結(jié)果進(jìn)一步說(shuō)明了將TransE和Skip-gram相結(jié)合后在表達(dá)復(fù)雜關(guān)系的場(chǎng)景中擁有較大優(yōu)勢(shì)。需要注意的是,相較于WN18數(shù)據(jù)集,TransGraph在FB15K數(shù)據(jù)集上的MeanRank指標(biāo)值更低,主要原因是FB15K是一個(gè)更加稠密的數(shù)據(jù)集,三元組組成的知識(shí)圖譜擁有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),TransGraph更能發(fā)揮網(wǎng)絡(luò)結(jié)構(gòu)特征學(xué)習(xí)的優(yōu)勢(shì)。因此,TransGraph能夠更好地處理三元組中1-N、N-1和N-N等問(wèn)題,進(jìn)而完成知識(shí)獲取、知識(shí)融合和知識(shí)推理等。
三元組分類任務(wù)用于驗(yàn)證模型識(shí)別原始三元組和變異三元組的能力,對(duì)于給定的三元組(h,r,t),模型需要對(duì)三元組進(jìn)行二元分類。在本次實(shí)驗(yàn)中,使用WN11和FB13數(shù)據(jù)集,采用和鏈路預(yù)測(cè)同樣的方式生成變異三元組。分類的標(biāo)準(zhǔn)是對(duì)于一個(gè)給定的三元組(h,r,t),計(jì)算得分函數(shù)fr(h,e),如果得分低于一個(gè)閾值σ,則將三元組分類為原始三元組;如果高于閾值,則將三元組分類為變異三元組。若三元組分類正確,則給三元組生成正標(biāo)簽,反之則生成負(fù)標(biāo)簽。
在實(shí)驗(yàn)過(guò)程中,設(shè)置TransGraph的學(xué)習(xí)率α={0.01,0.1,1},間距l(xiāng)={0.25,0.5,1},向量維度d={20,50,100},模型間的平衡率η={0.01,0.1,1,10},近鄰階數(shù)n={1,2,3}。經(jīng)過(guò)多次實(shí)驗(yàn)得到最優(yōu)的參數(shù)配置如下:在FB13數(shù)據(jù)集中,α=0.01,l=1,d=50,η=0.1,n=2;在WN11數(shù)據(jù)集中,α=0.01,l=1,d=20,η=0.1,n=2。TransGraph與TransE等現(xiàn)有模型的實(shí)驗(yàn)對(duì)比結(jié)果如表4所示。
表4 三元組分類準(zhǔn)確率對(duì)比
Table 4 Comparison of accuracy rate of triple classification %
模型WN11數(shù)據(jù)集FB13數(shù)據(jù)集RESCAL78.484.7SME73.884.3TransE75.981.5TransH78.883.3TransR83.982.5TransA82.183.3TransG85.485.3TransGraph83.786.5
從表4可以看出,相較于TransE模型,TransGraph的準(zhǔn)確率在WN11數(shù)據(jù)集上提升10.3%,在FB13數(shù)據(jù)集上提升6.1%。因?yàn)镕B13的關(guān)系數(shù)量和實(shí)體數(shù)量都大于WN11,即FB13是一個(gè)密度更大、關(guān)系更復(fù)雜的數(shù)據(jù)集,所以TransGraph模型在FB13數(shù)據(jù)集上的分類效果更好。在實(shí)驗(yàn)過(guò)程中,η的取值范圍是{0.01,0.1,1,10},通過(guò)不同的取值能夠探究網(wǎng)絡(luò)結(jié)構(gòu)特征對(duì)實(shí)驗(yàn)結(jié)果的影響。當(dāng)η=0.1時(shí),模型在數(shù)據(jù)集中取得最優(yōu)性能;當(dāng)η較小時(shí),網(wǎng)絡(luò)結(jié)構(gòu)特征對(duì)表示向量的影響較弱,因此,模型在處理復(fù)雜關(guān)系時(shí)效果不佳;當(dāng)η較大時(shí),三元組(h,r,t)對(duì)應(yīng)的表示向量不滿足V(h)+V(r)≈V(t)這一約束條件,導(dǎo)致模型的翻譯能力下降。
傳統(tǒng)基于距離的翻譯模型存在無(wú)法處理復(fù)雜關(guān)系和忽略知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)的問(wèn)題,導(dǎo)致知識(shí)表示的效率不高。為此,本文提出一種同時(shí)學(xué)習(xí)三元組和知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)特征的TransGraph模型。在WN11、WN18等公開數(shù)據(jù)集上對(duì)鏈路預(yù)測(cè)和三元組分類2項(xiàng)任務(wù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,與TransE等模型相比,TransGraph的準(zhǔn)確率較高。但是,本文僅研究三元組及圖譜結(jié)構(gòu),忽略了實(shí)體的描述文本和互聯(lián)網(wǎng)文本等信息,因此,下一步考慮將多源信息進(jìn)行融合以優(yōu)化TransGraph模型。