朱艷麗,楊小平,王 良,張志宇
(1. 中國(guó)人民大學(xué) 信息學(xué)院 北京 100872;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003)
實(shí)際應(yīng)用中,研究人員發(fā)現(xiàn)雖然現(xiàn)有知識(shí)圖譜是由大量的事實(shí)三元組組成,但仍存在不完備性問(wèn)題,進(jìn)而引發(fā)對(duì)大規(guī)模知識(shí)圖譜自動(dòng)補(bǔ)全方面的大量研究[1-4]。本文旨在提供一種新的知識(shí)圖譜表示方法,對(duì)具有不對(duì)等特征的知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行建模,獲得其更精確的表示,提高知識(shí)圖譜補(bǔ)全性能。在研究中,我們發(fā)現(xiàn)現(xiàn)有知識(shí)圖譜,尤其是領(lǐng)域知識(shí)圖譜在語(yǔ)義、鏈接結(jié)構(gòu)和關(guān)系兩端頭尾實(shí)體數(shù)量上存在很大差異[5-6],即知識(shí)圖譜中的頭尾實(shí)體具有不對(duì)等特征?,F(xiàn)有的知識(shí)圖譜表示方法,包括TransR[7],雖然有良好的知識(shí)表達(dá)能力,但對(duì)具有不對(duì)等特征的知識(shí)圖譜中實(shí)體和關(guān)系建模仍存在以下兩大缺陷。
缺陷一知識(shí)圖譜中實(shí)體和關(guān)系建模時(shí),沒(méi)有考慮其在語(yǔ)義、局部鏈接結(jié)構(gòu)和關(guān)系兩端的實(shí)體數(shù)量三個(gè)方面存在的不對(duì)等特征,平等對(duì)待頭尾實(shí)體并以同樣的方式將它們嵌入到關(guān)系空間中。具體來(lái)說(shuō): ①頭尾實(shí)體的語(yǔ)義不對(duì)等,大多數(shù)頭尾實(shí)體來(lái)自不同的語(yǔ)義空間; ②頭尾實(shí)體的局部鏈接結(jié)構(gòu)不對(duì)等,同一關(guān)系兩端的頭尾實(shí)體的入度或出度可能不同,影響其所涵蓋的語(yǔ)義及其在知識(shí)圖譜中出現(xiàn)的次數(shù); ③關(guān)系兩端的頭尾實(shí)體數(shù)量不對(duì)等,一些關(guān)系鏈接許多頭(尾)實(shí)體和很少的尾(頭)實(shí)體,如關(guān)系-syntax-ns#type,其每個(gè)頭節(jié)點(diǎn)對(duì)應(yīng)平均尾節(jié)點(diǎn)個(gè)數(shù)是1.4,而每個(gè)尾節(jié)點(diǎn)對(duì)應(yīng)平均頭節(jié)點(diǎn)的個(gè)數(shù)是1 642。
缺陷二每個(gè)關(guān)系單獨(dú)配置一個(gè)投影矩陣,不同關(guān)系的嵌入是獨(dú)自學(xué)習(xí)的,沒(méi)有對(duì)關(guān)系之間的相關(guān)性進(jìn)行建模,導(dǎo)致知識(shí)共享困難,泛化能力差。具體來(lái)說(shuō),知識(shí)圖譜中不同的關(guān)系可連接到一個(gè)共同的實(shí)體,關(guān)系之間顯然存在一定程度的相關(guān)性。邏輯相關(guān)或相似的關(guān)系由于彼此之間相關(guān)性強(qiáng),關(guān)系之間存在共同信息[8]。但采用TransR建模方式,這些關(guān)系可能被投影在不同的空間,難以共享關(guān)系之間的共同信息。在訓(xùn)練過(guò)程中只有包含足夠三元組關(guān)系才能學(xué)到較好的嵌入,而包含極少三元組的關(guān)系的投影矩陣只能得到極少次數(shù)的更新,難以學(xué)到較好的嵌入,導(dǎo)致泛化能力差[9]。
近年來(lái),研究人員已經(jīng)提出許多知識(shí)圖譜補(bǔ)全方法,概括起來(lái)可分為兩大類(lèi)[12]: 第一類(lèi)是基于符號(hào)和邏輯的表示方法。采用這種表示方式,知識(shí)圖譜是符號(hào)化的,并具有邏輯性,因此數(shù)值化的機(jī)器學(xué)習(xí)方法和技術(shù)均不能應(yīng)用到知識(shí)圖譜上;第二類(lèi)是知識(shí)圖譜嵌入表示方法。該方法在保留原始知識(shí)圖譜特定屬性的同時(shí),將實(shí)體和關(guān)系映射到低維向量空間中,使得一大批高效的數(shù)值化計(jì)算和推理方法得以適用,在鏈接預(yù)測(cè)和關(guān)系抽取等多個(gè)任務(wù)中都顯示出其有效性。與第一類(lèi)方法相比,第二類(lèi)方法更容易計(jì)算語(yǔ)義相關(guān)性,是目前進(jìn)行知識(shí)圖譜補(bǔ)全的主流方法,具有很好的泛化能力。鑒于上述優(yōu)點(diǎn),研究人員提出了若干知識(shí)圖譜表示模型,包括平移距離模型和語(yǔ)義匹配模型兩大類(lèi)[13]。其中,平移距離模型采用基于距離的評(píng)分函數(shù),典型代表有TransE[1]及其擴(kuò)展模型、高斯嵌入模型KG2E[14]和結(jié)構(gòu)嵌入模型SE[15]等。而語(yǔ)義匹配模型則使用基于相似度的評(píng)分函數(shù),代表性工作有雙線性模型RESCAL[2]及其擴(kuò)展模型、語(yǔ)義匹配能量模型SME[16]和神經(jīng)張量網(wǎng)絡(luò)模型NTN[3]等。
本文主要考慮平移距離模型的知識(shí)圖譜表示方法,利用正負(fù)例元組之間基于邊際的損失函數(shù)將實(shí)體向量和關(guān)系向量關(guān)聯(lián)起來(lái),并優(yōu)化該損失函數(shù),當(dāng)達(dá)到優(yōu)化目標(biāo)時(shí),就可以學(xué)得知識(shí)圖譜中每個(gè)實(shí)體的向量和關(guān)系的向量,從而更好地應(yīng)用于大規(guī)模知識(shí)圖譜補(bǔ)全中[17]。TransE是其中最具有代表性的方法,在取得較好的預(yù)測(cè)表現(xiàn)的同時(shí),保持足夠的簡(jiǎn)潔性和高效性。但由于忽略實(shí)體的語(yǔ)義在不同的關(guān)系下可能不一樣,TransE在處理自反、一對(duì)多、多對(duì)一和多對(duì)多等復(fù)雜關(guān)系時(shí)存在局限性,不能良好地區(qū)分具有復(fù)雜關(guān)系的實(shí)體。為解決上述缺陷,TransR最先將實(shí)體嵌入到關(guān)系相關(guān)的空間中,將實(shí)體和關(guān)系放置在不同的空間中,然后在投影空間中對(duì)平移屬性進(jìn)行建模。典型的模型還有TransD[18]、STransE[10]和ITransF[9]等。
以實(shí)驗(yàn)所用的知識(shí)圖譜WN18、FB15K和 MPBC_20為例,分析其在語(yǔ)義、局部鏈接結(jié)構(gòu)和關(guān)系兩端的實(shí)體數(shù)量三個(gè)方面存在的不對(duì)等特征。
知識(shí)圖譜中的知識(shí)通常用三元組
知識(shí)圖譜是有向圖,頭尾實(shí)體的局部知識(shí)結(jié)構(gòu)不對(duì)等指的是關(guān)系兩端節(jié)點(diǎn)的入度或出度不同。圖1所示MPBC_20訓(xùn)練集中前10 000個(gè)三元組頭尾節(jié)點(diǎn)的入度和出度的統(tǒng)計(jì)信息,其中圖(a)和(b)分別顯示的是頭尾節(jié)點(diǎn)的入度和出度信息,橢圓形以內(nèi)的點(diǎn)具有相同的入度(出度)值。只有當(dāng)三元組在圖(a)和(b)都落到橢圓區(qū)域內(nèi),才能稱其頭尾實(shí)體的局部知識(shí)結(jié)構(gòu)對(duì)等。從圖中可清楚地看到,具有不對(duì)等的特征的三元組在訓(xùn)練集中占有很大比例。因此,該知識(shí)圖譜頭尾實(shí)體的局部鏈接結(jié)構(gòu)具有不對(duì)等特征,而這種特征影響實(shí)體所涵蓋的語(yǔ)義及其在知識(shí)圖譜中學(xué)習(xí)時(shí)出現(xiàn)的次數(shù)。
圖1 MPBC_20訓(xùn)練集中前10000個(gè)三元組頭尾節(jié)點(diǎn)的入度和出度的統(tǒng)計(jì)信息
以基準(zhǔn)知識(shí)圖譜FB15K和WN18為例,從統(tǒng)計(jì)角度分析知識(shí)圖譜的關(guān)系兩端的實(shí)體數(shù)量不對(duì)等。對(duì)于知識(shí)圖譜的每一種關(guān)系,首先統(tǒng)計(jì)①每個(gè)頭實(shí)體對(duì)應(yīng)尾實(shí)體的平均數(shù)量(記為tph)和②每個(gè)尾實(shí)體對(duì)應(yīng)頭實(shí)體的平均數(shù)量(記為hpt)兩方面信息。然后計(jì)算出這兩方面數(shù)值的均值(mean)和標(biāo)準(zhǔn)偏差(standard deviation,STDEV),用于衡量知識(shí)圖譜的不對(duì)等程度及其變化情況。其中,均值表示整個(gè)知識(shí)圖譜中每個(gè)頭(尾)節(jié)點(diǎn)平均有多少尾(頭)節(jié)點(diǎn)相應(yīng),而標(biāo)準(zhǔn)偏差反映出關(guān)系兩端節(jié)點(diǎn)的不對(duì)等映射程度的變化情況。直觀上看,均值越大,知識(shí)圖譜不對(duì)等程度越高,而標(biāo)準(zhǔn)偏差值越大,則知識(shí)圖譜不對(duì)等程度變化范圍越大。表1列出實(shí)驗(yàn)所用數(shù)據(jù)集上頭(尾)節(jié)點(diǎn)平均對(duì)應(yīng)尾(頭)節(jié)點(diǎn)的相關(guān)統(tǒng)計(jì)信息。
表1中WN18數(shù)據(jù)集的tph 的均值為4.0,而hpt的均值為4.1,這說(shuō)明WN18數(shù)據(jù)集從整體上關(guān)系兩端的實(shí)體數(shù)量是不對(duì)等的。標(biāo)準(zhǔn)偏差值6.0和6.2則表明不對(duì)等程度在不同的關(guān)系中存在較大的差異。與WN18信息對(duì)比后,我們發(fā)現(xiàn)FB15K數(shù)據(jù)集中tph和hpt的值分別為7.8和16.5,高于WN18中的相應(yīng)值,說(shuō)明該數(shù)據(jù)集的關(guān)系兩端的實(shí)體數(shù)量不對(duì)等程度較WN18高。另外,其hpt和tph的標(biāo)準(zhǔn)偏差值相當(dāng)大,表明不對(duì)等程度在該數(shù)據(jù)集的不同關(guān)系中存在相當(dāng)大的差異。而MPBC_20中尾實(shí)體對(duì)應(yīng)的平均頭實(shí)體數(shù)量是頭實(shí)體對(duì)應(yīng)的平均尾實(shí)體數(shù)量的39.5倍,表明MPBC_20數(shù)據(jù)集中關(guān)系兩端的實(shí)體數(shù)量不對(duì)等程度非常高。其hpt標(biāo)準(zhǔn)偏差的值高達(dá)375.2,表明從尾部實(shí)體到頭部實(shí)體的不對(duì)等程度在不同的關(guān)系中差異非常大。
表1 數(shù)據(jù)集中關(guān)系兩端節(jié)點(diǎn)數(shù)量的統(tǒng)計(jì)信息
上述統(tǒng)計(jì)分析結(jié)果表明,實(shí)驗(yàn)中用到的三個(gè)知識(shí)圖譜均存在不同程度的不對(duì)等問(wèn)題,尤其在領(lǐng)域知識(shí)圖譜中該問(wèn)題更為嚴(yán)重。具體地,以MPBC_20為例,頭實(shí)體對(duì)應(yīng)的尾實(shí)體的數(shù)量遠(yuǎn)遠(yuǎn)小于尾實(shí)體對(duì)應(yīng)的頭實(shí)體數(shù)量,這意味著在學(xué)習(xí)的過(guò)程中,尾實(shí)體這邊的實(shí)體出現(xiàn)頻繁,頭實(shí)體這邊的實(shí)體出現(xiàn)次數(shù)少,所以兩者不能同等對(duì)待。我們應(yīng)該在建模中分別對(duì)待它們,以便學(xué)習(xí)到合理的實(shí)體和關(guān)系嵌入。
針對(duì)TransR模型的兩大缺陷,TransRD模型分別采用頭尾實(shí)體不對(duì)等投影和建模關(guān)系相關(guān)性方法來(lái)加以解決。
TransRD模型將頭尾實(shí)體與其相應(yīng)的投影矩陣關(guān)聯(lián)起來(lái),根據(jù)不對(duì)等程度和變化情況自適應(yīng)地動(dòng)態(tài)調(diào)整參數(shù)和設(shè)置投影矩陣的秩。具體地,首先,對(duì)頭尾實(shí)體采用不同的投影矩陣,使其可以來(lái)自不同的語(yǔ)義空間,從而避免現(xiàn)有模型中語(yǔ)義空間上的同質(zhì)性假設(shè),實(shí)現(xiàn)從語(yǔ)義上對(duì)頭尾節(jié)點(diǎn)進(jìn)行區(qū)分;其次,根據(jù)不對(duì)等特征采用ADADELTA算法自適應(yīng)地實(shí)現(xiàn)學(xué)習(xí),使得頻繁實(shí)體具有較大的學(xué)習(xí)率,這樣一來(lái)不會(huì)出現(xiàn)因?yàn)橛?xùn)練時(shí)間過(guò)長(zhǎng)而過(guò)擬合現(xiàn)象。而不頻繁實(shí)體則設(shè)置較小的學(xué)習(xí)率,使其有充分的學(xué)習(xí)時(shí)間,也不會(huì)出現(xiàn)欠擬合現(xiàn)象;最后,根據(jù)知識(shí)圖譜中頭尾實(shí)體的數(shù)量不對(duì)等程度確定相應(yīng)投影矩陣的秩。例如,對(duì)于知識(shí)圖譜MPBC_20,由于每個(gè)尾實(shí)體對(duì)應(yīng)的頭實(shí)體數(shù)量非常大,我們應(yīng)該對(duì)頭實(shí)體這端采用低秩投影矩陣。對(duì)于尾部實(shí)體這端可直接使用滿秩的投影矩陣,因?yàn)橄鄬?duì)頭實(shí)體而言,尾實(shí)體的數(shù)量相當(dāng)小。
TransR模型采用不對(duì)等投影方法后,由于每個(gè)關(guān)系單獨(dú)配置一個(gè)投影矩陣,忽略其內(nèi)在相關(guān)性,仍存在參數(shù)過(guò)多和知識(shí)共享困難問(wèn)題,其他典型的關(guān)系投影方法TransD[18]和 STransE[10]也存在同樣的問(wèn)題。上述問(wèn)題主要是由于忽略關(guān)系的內(nèi)在相關(guān)性造成的,導(dǎo)致邏輯相關(guān)或相似的關(guān)系可能被投影在不同的空間,難以共享這些關(guān)系之間存在的共同信息,使得稀有關(guān)系在訓(xùn)練中只能得到極少次數(shù)的更新,泛化能力差。因此,我們的方法通過(guò)建模關(guān)系的內(nèi)在相關(guān)性來(lái)改善上述問(wèn)題,鼓勵(lì)在同一組關(guān)系的投影矩陣中共享公共信息,減輕了數(shù)據(jù)稀疏問(wèn)題。根據(jù)關(guān)系對(duì)之間的相關(guān)程度,對(duì)關(guān)系按語(yǔ)義進(jìn)行分組,采用語(yǔ)義相似關(guān)系使用同一對(duì)投影矩陣的方式來(lái)提高知識(shí)表示的性能。
3.2.1 關(guān)系之間存在相關(guān)性
將TransE模型學(xué)習(xí)出的關(guān)系向量組成嵌入關(guān)系矩陣R∈Rd×Nr,其中,Nr是關(guān)系的數(shù)量,d是嵌入空間的維度。采用皮爾遜相關(guān)系數(shù)(PCC)來(lái)證明知識(shí)圖譜中關(guān)系之間存在相關(guān)性。具體地,首先根據(jù)嵌入關(guān)系矩陣R來(lái)計(jì)算每個(gè)關(guān)系對(duì)的PCC值,得到一個(gè)對(duì)稱矩陣,記為P,其任意元素Pij的值表示第i個(gè)關(guān)系和第j個(gè)關(guān)系構(gòu)成的關(guān)系對(duì)的相關(guān)度,該矩陣的對(duì)角線的值通常為1;其次,統(tǒng)計(jì)出PCC值超過(guò)給定閾值的相關(guān)關(guān)系所占的百分比。掃描矩陣P所有列,對(duì)于每一列,如果該列除對(duì)角線元素以外的任一元素的值大于等于給定閾值,相關(guān)關(guān)系的數(shù)量加1;最后,我們得到如圖2所示的結(jié)果。其中,PCC值如果在區(qū)間[0.2,0.4)表示弱相關(guān),在[0.4,0.6)表示中度相關(guān),而在[0.6,1.0]則表示強(qiáng)相關(guān)。從圖中可看出,本文實(shí)驗(yàn)所用的三個(gè)數(shù)據(jù)集WN18、FB15K和MPBC_20中,至少有70%的關(guān)系強(qiáng)于弱相關(guān),約50%的關(guān)系強(qiáng)于中度相關(guān),還有約20%的關(guān)系彼此之間具有很強(qiáng)的相關(guān)性。以上結(jié)果充分證明這三個(gè)數(shù)據(jù)集中關(guān)系之間存在相關(guān)性。
圖2 數(shù)據(jù)集中強(qiáng)于弱相關(guān)、中度相關(guān)和強(qiáng)相關(guān)的相關(guān)關(guān)系所占比例
3.2.2 按相關(guān)性分組建模
3.3.1 模型
評(píng)分函數(shù)如式(3)所示。
fr(h,t)=-||hp+r-tp||L1/L2
(3)
其中r∈Rm,正確三元組的分?jǐn)?shù)可能會(huì)更高,而損壞三元組的分?jǐn)?shù)可能會(huì)更低。實(shí)驗(yàn)中,我們約束‖h‖2≤1,‖r‖2≤1,‖t‖2≤1,‖hp‖2≤1,‖tp‖2≤1。
3.3.2 訓(xùn)練目標(biāo)
我們將下面的基于邊際的評(píng)分函數(shù)定義為訓(xùn)練目標(biāo),如式(4)所示。
(4)
其中[x]+?max(0,x),γ是邊界參數(shù),Δ是由正確三元組構(gòu)成的訓(xùn)練集,而Δ′={(h′,r,t)|h′∈ε,(h′,r,t)?Δ}∪{(h,r,t′)|t′∈ε,(h,r,t′)?Δ} 是由損壞三元組構(gòu)成的集合。采用TransH[20]中的采樣策略替換頭實(shí)體或尾實(shí)體。具體模型訓(xùn)練時(shí),采用經(jīng)典的隨機(jī)梯度下降SGD(stochastic gradient descent)法來(lái)優(yōu)化上述目標(biāo)函數(shù)。
3.3.3 算法實(shí)現(xiàn)
為了加快收斂速度,避免過(guò)擬合,我們使用TransE模型訓(xùn)練出的實(shí)體向量和關(guān)系向量進(jìn)行初始化。使用的轉(zhuǎn)換矩陣是對(duì)稱矩陣,并用單位矩陣進(jìn)行初始化。SGD使用全局學(xué)習(xí)率更新所有參數(shù),不考慮數(shù)據(jù)特征。但是,從前面的分析可以看出,不頻繁的實(shí)體需要更長(zhǎng)的學(xué)習(xí)時(shí)間,而頻繁的實(shí)體需要更短的學(xué)習(xí)時(shí)間。因此,我們采用了一種稱為ADADELTA自適應(yīng)的梯度下降方法進(jìn)行梯度更新。ADADELTA 使用 RMS ofE[g2]t和E[Δx2]t-1來(lái)更新參數(shù),如式(5)所示。
(5)
在公式(5)中,分子RMS[Δx]t-1量值滯后于分母1個(gè)時(shí)間單位. 其中之前的平方梯度和參數(shù)更新如式(6)、式(7)所示。
其中,ε是常量,ρ為衰減常數(shù)。TransRD實(shí)施細(xì)節(jié)詳見(jiàn)算法1。
算法1 Learning TransRD
13: if‖ep‖2>1,ep=hp,tp,hp′ort′pthen14: ep←ep/‖ep‖215: endif16: endfor17: for t=1:Tdo18: computegt19: E[g2]t←ρE[g2]t-1+(1-ρ)gt20: Δxt=-RMS[Δx]t-1RMS[g]tgt21: E[Δx2]t=ρE[Δx2]t-1+(1-ρ)Δx2t22: xt=xt-1+Δxt23: endfor24:endloop
為了評(píng)估鏈接預(yù)測(cè)的效果,我們首先使用TransR[7]使用的WN18(Wordnet)和FB15K(Freebase)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并使用與TransR相同的方法分割訓(xùn)練集、驗(yàn)證集和測(cè)試集。還使用不對(duì)等特征顯著的領(lǐng)域知識(shí)圖譜 MPBC_20來(lái)驗(yàn)證所提方法的有效性。該數(shù)據(jù)集有175 624個(gè)實(shí)體,20個(gè)關(guān)系,以及811 785個(gè)三元組。我們按8∶1∶1的比例生成訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集有649 439個(gè)三元組,驗(yàn)證集有81 603個(gè)三元組,測(cè)試集有80 743個(gè)三元組。在MPBC_20中,我們發(fā)現(xiàn)有實(shí)體出現(xiàn)在驗(yàn)證集和測(cè)試集中,但沒(méi)有出現(xiàn)在訓(xùn)練集中,這類(lèi)實(shí)體稱為空實(shí)體。在驗(yàn)證集和測(cè)試集中,分別有7 910(9.7%)和7 915(9.8%)個(gè)三元組包含上述實(shí)體。由于本文模型不能像NTN模型[3]那樣從訓(xùn)練出的詞向量中獲得實(shí)體的向量表示,需去除驗(yàn)證集和測(cè)試集中包含空實(shí)體的三元組。三個(gè)數(shù)據(jù)集的信息如表2所示。
表2 實(shí)驗(yàn)所用數(shù)據(jù)集的統(tǒng)計(jì)信息
為了減少產(chǎn)生錯(cuò)誤三元組的機(jī)會(huì),我們采用TransH[20]首先提出的方法替換頭或尾實(shí)體生成損壞三元組。具體來(lái)說(shuō),在關(guān)系r的所有三元組中,我們首先得到兩個(gè)統(tǒng)計(jì)量: ①每個(gè)頭實(shí)體對(duì)應(yīng)尾實(shí)體的平均數(shù)量tph; ②每個(gè)尾實(shí)體對(duì)應(yīng)頭實(shí)體的平均數(shù)量hpt。然后定義一個(gè)參數(shù)為p的伯努利分布,如式(8)所示。
(8)
給定關(guān)系r的一個(gè)黃金三元組(h,r,t),我們用概率1-p替換頭實(shí)體來(lái)生成損壞三元組,用概率p替換尾實(shí)體來(lái)生成損壞三元組。
4.3.1 評(píng)價(jià)準(zhǔn)則
與TransR[7]類(lèi)似,采用黃金三元組的平均排序得分(記為Mean Rank)和黃金三元組排序不大于10的比例(記為Hits@10)作為評(píng)估準(zhǔn)則。在本文中,我們報(bào)告“過(guò)濾”結(jié)果,即將“干擾”的損壞三元組從訓(xùn)練集、驗(yàn)證集和測(cè)試集中去除,然后得到正確實(shí)體的排名。我們報(bào)告每個(gè)模型的Mean Rank和Hits@10值。Mean Rank值越低或Hits@10值越高,準(zhǔn)確性越高。
4.3.2 實(shí)施細(xì)節(jié)
在WN18和FB15K上,本文參考TransR[7]的實(shí)驗(yàn)結(jié)果。訓(xùn)練TransRD時(shí),使用ADADELTA算法進(jìn)行優(yōu)化,選擇邊界值γ為{1,2,3,4,4.5,5,5.5,6,6.5,7,8},實(shí)體和關(guān)系向量的維度n和m為 {20,50,100},塊大小B為{100,120,200,480,1 400,4 800},延遲率ρ為{0.8,0.85,0.90,0.95,0.99}和常量ε為{1E-2,1E-4,1E-6,1E-8}。用“unif.”表示傳統(tǒng)的等概率替代頭實(shí)體或者尾實(shí)體的方法,用 “bern.” 表示使用伯努利抽樣策略的方法,即用不同的概率來(lái)代替頭實(shí)體或者尾實(shí)體。
最優(yōu)參數(shù)由驗(yàn)證集確定。采用等概率采樣時(shí),最優(yōu)參數(shù)配置如下: 在WN18上,ρ=0.95,ε=1E-6,γ=6,m=n=100,B=100; 在FB15K上,ρ=0.90,ε=1E-4,γ=1,m=n=50,B=4 800; 在MPBC_20上,ρ=0.99,ε=1E-8,γ=6,m=n=100,B=200。采用伯努利采樣時(shí),最優(yōu)參數(shù)配置如下: 在WN18上,ρ=0.85,ε=1E-8,γ=6.5,m=n=100,B=200; 在FB15K上,ρ=0.99,ε=1E-8,γ=1,m=n=100,B=480; 在MPBC_20上ρ=0.90,ε=1E-6,γ=5.5,m=n=100,B=100。對(duì)于這三個(gè)數(shù)據(jù)集,本實(shí)驗(yàn)將所有的訓(xùn)練三元組迭代2 000次。
鏈接預(yù)測(cè)是對(duì)一個(gè)黃金三元組(h,r,t)缺失的h或t進(jìn)行預(yù)測(cè),我們將去掉頭或尾實(shí)體,然后依次用集合中的所有實(shí)體替換本文測(cè)試集中的每個(gè)三元組。我們首先計(jì)算這些損壞三元組的得分,然后按降序排列它們,最終記錄正確實(shí)體的排名。該任務(wù)強(qiáng)調(diào)的是正確實(shí)體的排名,而不是只找到最好的一個(gè)實(shí)體。
4.4.1 基于WN18和FB15K數(shù)據(jù)集的鏈接預(yù)測(cè)實(shí)驗(yàn)
在WN18和FB15K上的實(shí)驗(yàn)結(jié)果如表3所示,實(shí)驗(yàn)的最優(yōu)值進(jìn)行加粗以突出顯示。從表3我們可以得出以下結(jié)論: ①在WN18上,TransRD模型相比于其他模型達(dá)到最好的性能,Mean Rank指標(biāo)和Hits@10指標(biāo)的效果遠(yuǎn)優(yōu)于其他模型(包括TransR、STransE和ITransF),說(shuō)明我們將頭尾實(shí)體分開(kāi)投影和建模關(guān)系的內(nèi)在相關(guān)性相結(jié)合是成功的; ②在FB15K上,TransRD模型性能與STransE的結(jié)果接近,但在Hits@10指標(biāo)上低于ITransF。這可能是由于TransRD在對(duì)關(guān)系按語(yǔ)義進(jìn)行分組時(shí)所使用的初始化向量是從TransE模型得到的向量,而數(shù)據(jù)集FB15K上關(guān)系類(lèi)型有1 365種,某些關(guān)系類(lèi)型的三元組數(shù)量過(guò)少,不能有效識(shí)別相似關(guān)系,難以確定合適關(guān)系分組數(shù)量; ③在WN18和FB15K上,與TransR相比,TransRD模型將Mean Rank值最多降低了31,而hit @10的準(zhǔn)確率至少提高了3.3%,該結(jié)果證明TransRD建模時(shí)考慮知識(shí)圖譜的不對(duì)等特征能減少其在鏈接預(yù)測(cè)中的負(fù)面影響。同時(shí),與STransE比較,TransRD同樣取得一定的進(jìn)步,這表明建模關(guān)系的內(nèi)在相關(guān)性方法的有效性; ④與等概率采樣相比,伯努利采樣可以減少錯(cuò)誤三元組的產(chǎn)生。
表3 WN18和 FB15K 數(shù)據(jù)集上鏈接預(yù)測(cè)計(jì)算結(jié)果
為了進(jìn)一步驗(yàn)證上面的結(jié)論,深入挖掘分析FB15K上不同關(guān)系不同映射類(lèi)型的相應(yīng)結(jié)果,具體數(shù)值如表4所示。從表4可以看出,對(duì)于1-to-N和N-to-1關(guān)系類(lèi)別,TransRD的表現(xiàn)優(yōu)于TransR/ CTransR等模型。這表明分別映射頭尾實(shí)體有助于建模復(fù)雜的關(guān)系。
表4 FB15K 數(shù)據(jù)集基于關(guān)系類(lèi)型的計(jì)算結(jié)果
續(xù)表
4.4.2 基于MPBC_20數(shù)據(jù)集的鏈接預(yù)測(cè)實(shí)驗(yàn)
TransRD模型與基準(zhǔn)模型TransE、TransH和TransR在MPBC_20上的鏈接預(yù)測(cè)實(shí)驗(yàn)結(jié)果如圖3所示。從圖3中我們可以看出: ①在Hits@10指標(biāo)上,TransRD模型顯著優(yōu)于其他基準(zhǔn)模型,這個(gè)結(jié)果表明TransRD模型能獲得具有不對(duì)等特征的知識(shí)圖譜的實(shí)體和關(guān)系更精確表示,而TransE、TransH和TransR在該任務(wù)中取得較為接近的結(jié)果; ②TransRD的Mean Rank值低于TransR,這說(shuō)明采用分別映射頭尾實(shí)體并語(yǔ)義相似關(guān)系使用相同的轉(zhuǎn)換矩陣對(duì)方法的有效性。
表5給出在MPBC_20上不同關(guān)系不同映射類(lèi)型的相應(yīng)結(jié)果。從表5中可以看出,在N-to-1和N-to-N兩種關(guān)系類(lèi)型上,TransRD的性能優(yōu)于TransR等模型。這也說(shuō)明TransRD對(duì)實(shí)體和關(guān)系的嵌入更加合理。而TransR和TransRD都不能很好地處理1-to-N關(guān)系。這可能由于在該數(shù)據(jù)集中此類(lèi)關(guān)系的三元組僅占5%,使得模型在訓(xùn)練過(guò)程中只能接觸非常少的三元組,導(dǎo)致性能不佳。
圖3 MPBC_20數(shù)據(jù)集上鏈接預(yù)測(cè)對(duì)比結(jié)果
TasksRelation CategoryPredicting Head(Hits@10)Predicting Tail(Hits@10)1-to-11-to-NN-to-1N-to-N1-to-11-to-NN-to-1N-to-NTransE(unif.) [1]62.621.761.747.463.133.575.155.8TransE(bern.) [1]63.224.737.948.863.432.581.154.5TransH(unif.) [20]58.724.362.447.959.139.376.456.1TransH(bern.)[20]60.622.342.648.761.336.880.953.8TransR(unif.) [7]59.223.248.648.360.337.271.561.3TransR(bern.) [7]61.224.955.350.562.341.081.360.3Our TransRD(unif.)62.822.358.449.363.237.778.562.4Our TransRD(bern.)61.121.430.451.162.038.582.159.9
通過(guò)前面的分析,我們發(fā)現(xiàn)知識(shí)圖譜中的三元組中的頭尾實(shí)體在語(yǔ)義、局部鏈接結(jié)構(gòu)和數(shù)量上具有不對(duì)等特征。為了讓這種不對(duì)等特征不影響模型的準(zhǔn)確性,使得模型更容易訓(xùn)練,我們對(duì)TransR模型進(jìn)行改進(jìn)。頭尾實(shí)體采用不同的投影矩陣,并自適應(yīng)地調(diào)整參數(shù),所得到的模型稱為STransR。為了驗(yàn)證該方法更適應(yīng)具有不對(duì)等特征的知識(shí)圖譜嵌入表示,將基準(zhǔn)模型TransR和改進(jìn)的模型STransR在三個(gè)數(shù)據(jù)集上訓(xùn)練,采用實(shí)體預(yù)測(cè)作為實(shí)驗(yàn)載體,度量指標(biāo)使用Hits@10和Mean Rank,其結(jié)果如圖4和圖5所示。
圖4 頭尾實(shí)體采用不同的投影矩陣和自適應(yīng)算法的實(shí)體預(yù)測(cè)Hits@10值(%)
圖5 頭尾實(shí)體采用不同的投影矩陣和自適應(yīng)算法的實(shí)體預(yù)測(cè)Mean Rank值
從圖4我們可以看出,在Hits@10指標(biāo)上,模型中頭尾實(shí)體采用不同的投影矩陣和自適應(yīng)算法訓(xùn)練最少比使用相同的投影矩陣和SGD提升1.7%。在最好的數(shù)據(jù)集FB15K上可以提高11.6%,不對(duì)等程度顯著的數(shù)據(jù)集的表示效果提升得更為明顯。這也驗(yàn)證了該方法的有效性。
同樣,圖5的Mean Rank值也充分說(shuō)明了這一點(diǎn)。每個(gè)數(shù)據(jù)集在使用頭尾實(shí)體采用不同的投影矩陣和自適應(yīng)算法都會(huì)比采用相同投影矩陣和SGD有一定改善。不對(duì)等程度越高的知識(shí)圖譜降低效果越明顯,其中在數(shù)據(jù)集FB15K上降低了38.5。這主要是由于TransR采用矩陣映射,參數(shù)較多,再加上數(shù)據(jù)的不對(duì)等程度較高,且變化范圍較大,而ADADELTA算法可以隨著時(shí)間的推移動(dòng)態(tài)調(diào)整參數(shù),使得小梯度具有較大的學(xué)習(xí)率,不頻繁實(shí)體就有了充分的學(xué)習(xí)時(shí)間。
針對(duì)TransR模型在對(duì)具有不對(duì)等特征的知識(shí)圖譜中實(shí)體和關(guān)系建模時(shí)存在兩大缺陷: 一是假定頭尾實(shí)體來(lái)自同一語(yǔ)義空間,忽略其在鏈接結(jié)構(gòu)和數(shù)量上的不對(duì)等;二是每個(gè)關(guān)系單獨(dú)配置一個(gè)投影矩陣,忽略其內(nèi)在聯(lián)系,導(dǎo)致知識(shí)共享困難,存在泛化能力差的問(wèn)題。本文主要提出一種改進(jìn)的不對(duì)等知識(shí)圖表示方法TransRD來(lái)解決上述兩個(gè)缺陷。TransRD通過(guò)對(duì)頭尾實(shí)體采用不對(duì)等投影矩陣的方法,避免語(yǔ)義空間的同質(zhì)性假設(shè),表征出頭尾實(shí)體不對(duì)等特征,并通過(guò)建模關(guān)系的內(nèi)在相關(guān)性來(lái)改善上述問(wèn)題;將TransE學(xué)習(xí)到的嵌入關(guān)系矩陣進(jìn)行PCC相關(guān)性分析,根據(jù)相關(guān)性分析的結(jié)果,將關(guān)系按語(yǔ)義相似性進(jìn)行分組。采用每組關(guān)系使用同一對(duì)投影矩陣的方式來(lái)共享公共信息,學(xué)習(xí)出實(shí)體和關(guān)系更好的嵌入,解決泛化能力差的問(wèn)題。我們?cè)赪N8、FB15K和MPBC_20數(shù)據(jù)集上對(duì)TransRD進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,采取頭尾不對(duì)稱投影是解決問(wèn)題的關(guān)鍵。
在未來(lái)工作中,我們計(jì)劃擴(kuò)展TransRD,以類(lèi)似于PTransW[21]的方式利用知識(shí)圖譜中的關(guān)系路徑信息來(lái)進(jìn)一步提高模型表示能力,并加入關(guān)系類(lèi)型的語(yǔ)義信息進(jìn)行改進(jìn)。此外,我們還將探討如何對(duì)實(shí)體-屬性關(guān)系單獨(dú)建模,以提高模型處理一對(duì)多關(guān)系的能力,此類(lèi)關(guān)系大多由真實(shí)知識(shí)圖譜中的屬性組成。