邵天陽(yáng),肖衛(wèi)東,趙 翔
國(guó)防科技大學(xué) 信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410073
近年來(lái),人工智能在各個(gè)領(lǐng)域蓬勃發(fā)展,如問(wèn)題回答[1]和推薦系統(tǒng)[2]等,它對(duì)人們的日常生活產(chǎn)生了廣泛的影響。在這些領(lǐng)域中,人們希望人工智能智能體能夠具有理解、推理和解決問(wèn)題的能力。而知識(shí)圖譜(knowledge graph,KG)可以為這種能力的實(shí)現(xiàn)提供堅(jiān)實(shí)的基礎(chǔ)。知識(shí)圖譜旨在描述現(xiàn)實(shí)世界中存在的各種事物(實(shí)體)以及它們之間的關(guān)系,它通常以三元組(頭實(shí)體,關(guān)系,尾實(shí)體)的形式存儲(chǔ)知識(shí),記作(h,r,t)。
盡管知識(shí)圖譜在現(xiàn)實(shí)世界中被廣泛使用,但如Yago[3]、WordNet[4]和Freebase[5]等包含了數(shù)十億三元組的大規(guī)模知識(shí)圖譜仍然受到不完整問(wèn)題的困擾。具體來(lái)說(shuō),在Freebase中,300萬(wàn)人中有75%缺失國(guó)籍[6]。不完整問(wèn)題會(huì)對(duì)某些知識(shí)圖譜應(yīng)用場(chǎng)景產(chǎn)生負(fù)面影響。例如,對(duì)于問(wèn)題回答系統(tǒng)而言,不完整的知識(shí)圖譜會(huì)導(dǎo)致錯(cuò)誤答案。因此,知識(shí)構(gòu)建和知識(shí)補(bǔ)全對(duì)于下游的應(yīng)用場(chǎng)景是必要的。
對(duì)于知識(shí)構(gòu)建,目前自動(dòng)機(jī)制和眾包發(fā)揮著越來(lái)越大的作用,但缺點(diǎn)是會(huì)引入噪聲,一些研究工作已經(jīng)發(fā)現(xiàn)了知識(shí)圖譜中存在的噪聲[7-8]。例如,在Benchmark 上開(kāi)放的信息抽取模型在67%的召回率下只達(dá)到了24%的準(zhǔn)確率[8]。對(duì)于知識(shí)補(bǔ)全,目前主流方法之一是知識(shí)表示學(xué)習(xí)[9-17],即將實(shí)體和關(guān)系投射到一個(gè)連續(xù)的低維空間,以獲得其表示(特征)。然而這些方法大都假設(shè)知識(shí)圖譜中沒(méi)有噪聲,這顯然不符合事實(shí)。忽略知識(shí)圖譜中的噪聲得到的知識(shí)表示將包含不正確的信息,這會(huì)對(duì)下游的應(yīng)用產(chǎn)生不利影響,因此考慮噪聲的存在是必要的。
最近,Xie等人[12]提出了一個(gè)名為CKRL(confidenceaware knowledge representation learning)的模型,該模型利用三元組置信度來(lái)進(jìn)行噪聲檢測(cè),同時(shí)構(gòu)建知識(shí)表示。為了判斷一個(gè)三元組是否可信,其借鑒PTransE[13]模型并根據(jù)結(jié)構(gòu)信息和關(guān)系路徑信息獲得一個(gè)置信度分?jǐn)?shù)。然而,CKRL中的三元組置信度估計(jì)模塊忽略了輔助信息,這些輔助信息會(huì)使得獲得的知識(shí)表示更為全面。Xie 等人提到,在噪聲檢測(cè)的實(shí)驗(yàn)中PTransE[13]的效果遠(yuǎn)不如TransE[14],實(shí)驗(yàn)結(jié)果也證明了這一點(diǎn)。經(jīng)過(guò)文獻(xiàn)[15]和研究分析發(fā)現(xiàn),因?yàn)槁窂奖硎就耆腔谇度肟臻g的數(shù)值計(jì)算來(lái)實(shí)現(xiàn)的,這導(dǎo)致了誤差傳播進(jìn)而使得路徑嵌入的準(zhǔn)確性受限,最后影響了整個(gè)表示的學(xué)習(xí),而這個(gè)問(wèn)題在噪聲知識(shí)圖譜上會(huì)變得更加嚴(yán)重。因此,盡管利用路徑信息來(lái)擴(kuò)展三元組的結(jié)構(gòu)信息是可行的,但噪聲三元組的存在使得通過(guò)關(guān)系路徑進(jìn)行推理的誤差增大且缺乏可解釋性。
為了解決上述問(wèn)題,本研究提出了一個(gè)邏輯規(guī)則和關(guān)系路徑信息相結(jié)合的知識(shí)表示學(xué)習(xí)框架RPKRL(logic rules and relation path information knowledge representation learning framework),以檢測(cè)知識(shí)圖譜中的噪聲并構(gòu)造無(wú)噪的知識(shí)表示。該模型考慮引入邏輯規(guī)則來(lái)提高關(guān)系路徑推理的精度和可解釋性,同時(shí)利用三元組可信度對(duì)三元組質(zhì)量進(jìn)行判斷。圖1 顯示了RPKRL 模型框架的簡(jiǎn)要說(shuō)明,在進(jìn)行知識(shí)抽取和自動(dòng)知識(shí)構(gòu)建之后,知識(shí)圖譜中包含噪聲且存在不完整的問(wèn)題。該模型可以在檢測(cè)圖譜中存在的噪聲的同時(shí)生成無(wú)噪知識(shí)表示以進(jìn)行知識(shí)補(bǔ)全。
具體來(lái)說(shuō),RPKRL可分為兩部分:三元組嵌入模塊和三元組可信度估計(jì)模塊。在三元組嵌入模塊中,引入邏輯規(guī)則來(lái)指導(dǎo)路徑的構(gòu)成,從而提高其精確性和可解釋性,該模塊相比PTransE[13]而言構(gòu)造了更為完善的知識(shí)表示。在三元組可信度估計(jì)模塊中,進(jìn)一步利用關(guān)系路徑信息和邏輯規(guī)則信息得到三元組可信度從而對(duì)三元組可信度進(jìn)行判斷。通過(guò)結(jié)合這兩部分,該模型能夠檢測(cè)到知識(shí)圖譜中可能存在的噪聲,并構(gòu)建無(wú)噪的知識(shí)表示。在三個(gè)數(shù)據(jù)集上評(píng)估了模型,結(jié)果顯示與基線(xiàn)相比,該模型具有較好的有效性和穩(wěn)健性。
這項(xiàng)工作的主要貢獻(xiàn)可總結(jié)如下:
(1)針對(duì)路徑推理在噪聲知識(shí)圖譜中存在的問(wèn)題,提出了一個(gè)新穎的RPKRL框架,用于同時(shí)進(jìn)行知識(shí)圖譜噪聲檢測(cè)和知識(shí)表示學(xué)習(xí),該框架大幅度提高了使用路徑信息進(jìn)行噪聲檢測(cè)和知識(shí)圖譜補(bǔ)全的效果。
(2)引入了邏輯規(guī)則,以便能夠在噪聲檢測(cè)中區(qū)分噪聲。由于路徑推理會(huì)導(dǎo)致誤差的傳播,而這個(gè)問(wèn)題在有噪聲的知識(shí)圖譜上會(huì)更加嚴(yán)重。因此,試圖通過(guò)邏輯規(guī)則的準(zhǔn)確性來(lái)解決這個(gè)問(wèn)題。
(3)邏輯規(guī)則可以增強(qiáng)關(guān)系路徑的可解釋性。關(guān)系路徑推理得到的關(guān)系通常通過(guò)關(guān)系的表示之間的運(yùn)算,例如相加和相乘等,缺乏可解釋性,邏輯規(guī)則具有的可解釋性很好地補(bǔ)足了這一缺陷。
盡管近年來(lái)知識(shí)圖譜在許多領(lǐng)域得到了廣泛的應(yīng)用,但噪音問(wèn)題的存在對(duì)知識(shí)的獲取產(chǎn)生了負(fù)面的影響[16]。最近,一項(xiàng)名為“針對(duì)知識(shí)庫(kù)中的破壞性檢測(cè)”的任務(wù)引起了廣泛的關(guān)注,它的目的在于解決故意破壞知識(shí)圖譜的問(wèn)題[17]。人們逐漸意識(shí)到噪聲檢測(cè)對(duì)于知識(shí)獲取和知識(shí)應(yīng)用的重要性越來(lái)越高。大多數(shù)知識(shí)圖譜的噪聲檢測(cè)工作是在知識(shí)圖譜構(gòu)建時(shí)完成的[7,18]。例如,YAGO2[19]是人們?cè)谌斯けO(jiān)督下從維基百科中提取知識(shí)所形成的數(shù)據(jù)集,因此可以評(píng)估這些知識(shí)的正確性。Wikidata 也是通過(guò)眾包的人力管理軟件提取的數(shù)據(jù)集,軟件使用者可以審核數(shù)據(jù)以刪除錯(cuò)誤的信息[20]。小型知識(shí)圖譜上或許可以進(jìn)行人工噪音檢測(cè),但在大規(guī)模的知識(shí)圖譜上,這將是耗時(shí)耗力的。
近年來(lái),研究人員開(kāi)始關(guān)注知識(shí)圖譜噪聲的自動(dòng)檢測(cè)[21-22]。Dong 等人[23]利用知識(shí)圖譜的先驗(yàn)知識(shí)構(gòu)建了一個(gè)概率知識(shí)庫(kù),并將其與網(wǎng)絡(luò)內(nèi)容相結(jié)合,以共同判斷三元組的質(zhì)量。然而,這種方法是為某個(gè)知識(shí)圖譜構(gòu)建量身定做的,并不具備泛化能力。Li等人[24]使用神經(jīng)網(wǎng)絡(luò)方法為不可見(jiàn)的三元組提供置信度分?jǐn)?shù)以進(jìn)行知識(shí)庫(kù)補(bǔ)全,但這種方法忽略了知識(shí)庫(kù)中的其他信息。Xie等人[12]介紹了進(jìn)行噪聲檢測(cè)和構(gòu)建知識(shí)表示的三元組置信度框架,它結(jié)合了三元組結(jié)構(gòu)信息和關(guān)系路徑信息來(lái)判斷三元組質(zhì)量。然而,這種方法忽略了其他有用的信息,而且利用路徑進(jìn)行推理也存在可解釋性的問(wèn)題。
相比之下,RPKRL 模型在三元組結(jié)構(gòu)信息的基礎(chǔ)上引入邏輯規(guī)則信息來(lái)增強(qiáng)關(guān)系路徑的推理表達(dá)能力和模型的可解釋性,進(jìn)而提高模型的噪聲檢測(cè)能力。
近年來(lái),知識(shí)表示學(xué)習(xí)受到越來(lái)越多的關(guān)注,許多研究人員在知識(shí)表示學(xué)習(xí)方面做了大量的工作[25-26],主要可以分為三種類(lèi)型:(1)基于平移的模型,這類(lèi)模型源自詞嵌入的平移不變?cè)韀27],TransE[14]是最具代表性的基于平移的模型,它將實(shí)體和關(guān)系投影到同一空間,并將關(guān)系視為頭實(shí)體和尾實(shí)體之間的平移,后續(xù)基于TransE 模型,又衍生出了許多擴(kuò)展模型。(2)張量分解模型,RESCAL[28]利用張量分解,將關(guān)系表示為矩陣,將實(shí)體表示為向量。在此基礎(chǔ)上,DisMult[29]將關(guān)系矩陣簡(jiǎn)化為對(duì)角矩陣,ComplEx[30]引入了復(fù)數(shù)以擴(kuò)展DisMult,以便更好地對(duì)非對(duì)稱(chēng)關(guān)系進(jìn)行建模。此時(shí),實(shí)體和關(guān)系都在復(fù)數(shù)空間。(3)神經(jīng)網(wǎng)絡(luò)模型,NTN(neural tensor network)[31]首先將實(shí)體的向量作為神經(jīng)網(wǎng)絡(luò)的輸入,然后將這兩個(gè)實(shí)體由關(guān)系特有的關(guān)系張量(以及其他參數(shù))組合,并映射到一個(gè)非線(xiàn)性隱藏層,最后一個(gè)特定于關(guān)系的線(xiàn)性輸出層給出了三元組的評(píng)分。此外,還有ConvE[32]和ConvKB[33]等神經(jīng)網(wǎng)絡(luò)模型。在這三類(lèi)模型中,基于平移的模型既簡(jiǎn)單又有效,同時(shí)還能夠達(dá)到最好的性能。這類(lèi)模型將實(shí)體和關(guān)系都投影到一個(gè)連續(xù)的低維向量空間中,并根據(jù)基于距離的評(píng)分函數(shù)進(jìn)行建模,從而獲得知識(shí)表示。與其他方法相比,TransE能夠?qū)崿F(xiàn)簡(jiǎn)單性和有效性的平衡。然而,由于其結(jié)構(gòu)簡(jiǎn)單,在處理1-N、N-1 和N-N這樣的復(fù)雜關(guān)系時(shí),它的效果并不理想。對(duì)于此,人們提出了許多改進(jìn)的知識(shí)表示方法[34-35]。例如,DualE[36]在對(duì)偶四元數(shù)空間建模,Nayyeri 等人[15]引入了復(fù)平面上的莫比烏斯變換。
平移假設(shè)只集中在三元組上,這可能會(huì)忽略其他有效信息。PTransE[13]提出實(shí)體對(duì)之間的路徑嵌入可以通過(guò)多步驟的關(guān)系推理得到。AutoETER[37]提出將關(guān)系看作實(shí)體類(lèi)型之間的轉(zhuǎn)換操作,進(jìn)而學(xué)習(xí)實(shí)體的表示。此外,還有許多其他類(lèi)型的信息可以利用,如視覺(jué)信息、屬性信息、邏輯規(guī)則等。
大多數(shù)傳統(tǒng)方法都假設(shè)知識(shí)圖譜中的所有三元組都是完全正確的,因此,它們無(wú)法檢測(cè)到知識(shí)圖譜中可能存在的噪聲。與它們不同,RPKRL 引入了三元組可信度的概念來(lái)區(qū)分含有噪聲的三元組和正例三元組。
本章將詳細(xì)介紹模型RPKRL,由三元組嵌入模塊和三元組可信度估計(jì)模塊組成。首先給出文中使用的符號(hào):給定一個(gè)正例三元組(h,r,t),考慮頭部和尾部實(shí)體h,t∈E和r∈R,其中E和R是實(shí)體和關(guān)系的集合。T表示包含噪聲三元組的所有訓(xùn)練三元組。下面詳細(xì)介紹整體模型結(jié)構(gòu)及其組成部分結(jié)構(gòu)。
基于平移的模型有很多,其中,TransE[14]是最基礎(chǔ)的也是最具代表性的基于平移的模型之一。它將知識(shí)圖譜中的實(shí)體和關(guān)系投影到同一個(gè)低維連續(xù)向量空間中。具體而言,對(duì)于一個(gè)正例三元組(h,r,t),TransE[14]認(rèn)為其實(shí)體向量和關(guān)系向量應(yīng)滿(mǎn)足h+r≈t,因此,TransE[14]的模型框架如下:
其中,h、r和t分別代表頭實(shí)體、關(guān)系和尾實(shí)體的向量。若三元組(h,r,t)為正例三元組時(shí),則分?jǐn)?shù)E(h,r,t)較低,若三元組(h,r,t) 為負(fù)例三元組時(shí),則分?jǐn)?shù)E(h,r,t)較高。
RPKRL模型可以在檢測(cè)知識(shí)圖譜中噪聲的同時(shí)構(gòu)建無(wú)噪的知識(shí)表示。首先給出模型公式如下:
其中,RP(h,r,t)是三元組嵌入函數(shù),而LTT(h,r,t)是三元組可信度函數(shù)。它們利用結(jié)構(gòu)信息作為主體。此外,添加了關(guān)系路徑信息和邏輯規(guī)則信息。較低的RP(h,r,t)分?jǐn)?shù)表示實(shí)體和關(guān)系在三元組更適合嵌入框架。與傳統(tǒng)的嵌入式模型不同,該模型考慮了知識(shí)圖譜中的噪聲,針對(duì)于此引入了三元組可信度衡量。一個(gè)更高的三元組可信度得分意味著三元組更可靠,即越有可能是正例。將在下面的兩部分介紹三元組嵌入模塊和三元組可信度估計(jì)模塊。
傳統(tǒng)的路徑推理方法利用的路徑表示是由基于嵌入空間的數(shù)值計(jì)算得到,這會(huì)導(dǎo)致誤差的傳播,從而影響整個(gè)表示學(xué)習(xí)。此外,這些方法在路徑表示的獲取過(guò)程中缺乏可解釋性。受RPJE(rule and pathbased joint embedding)[38]模型的啟發(fā),引入邏輯規(guī)則及其置信度μ∈[0,1](Horn 規(guī)則),并將其與路徑相結(jié)合,以提高路徑推理的精度和可解釋性(任何知識(shí)圖譜規(guī)則提取算法或工具都可以自動(dòng)挖掘Horn 規(guī)則)。
這些規(guī)則可以分為長(zhǎng)度為1 和長(zhǎng)度為2 的兩種類(lèi)型,分別命名為R1 和R2。圖2 顯示了規(guī)則指導(dǎo)路徑中關(guān)系的合成進(jìn)行推理的過(guò)程。規(guī)則R1通過(guò)規(guī)則主體和規(guī)則頭部將兩個(gè)關(guān)系聯(lián)系起來(lái),規(guī)則R2 則可以用來(lái)指導(dǎo)路徑中關(guān)系的合成。對(duì)于規(guī)則R1 來(lái)說(shuō),當(dāng)?x,y:r2(x,y) ?r1(x,y)成立時(shí),關(guān)系R1 和關(guān)系R2在訓(xùn)練過(guò)程中具有較高相似性。對(duì)于規(guī)則R2,必須使規(guī)則主體的組成部分形成順序路徑,從而可以組成關(guān)系路徑。因此,如表1 所示,共總結(jié)了8 種不同類(lèi)型的規(guī)則轉(zhuǎn)換模式,然后對(duì)它們進(jìn)行編碼以與路徑組合。在進(jìn)行路徑中關(guān)系的合成時(shí),嘗試用規(guī)則指導(dǎo)合成,直到不能合成為任何關(guān)系為止。特別的,將由規(guī)則指導(dǎo)關(guān)系的合成稱(chēng)為R(p),這也是路徑p的嵌入表示。利用規(guī)則R2 對(duì)路徑進(jìn)行建模,其計(jì)算公式如下:
表1 規(guī)則R2的轉(zhuǎn)換模式列表Table 1 List of rules R2 conversion mode
圖2 規(guī)則指導(dǎo)路徑中的關(guān)系的合成示例Fig.2 Example of relations composition in rule-guided path
其中,R(p|h,t)是給定實(shí)體對(duì)(h,t)間關(guān)系路徑p的可靠度,該可靠度可以由路徑約束資源分配機(jī)制(pathconstraint resource allocation,PCRA)[13]計(jì)算得到,μ(p)={μ1,μ2,…,μn}是規(guī)則R2的置信度的集合。
對(duì)于邏輯規(guī)則的可解釋性,表2 展示了一些例子。表中前面部分為規(guī)則,后面部分為規(guī)則置信度。原本的關(guān)系路徑推理中,關(guān)系的合成通過(guò)關(guān)系向量間的計(jì)算,如加、減、乘和除得到,關(guān)系的推理則通過(guò)關(guān)系向量間的相似度計(jì)算等方法得到,由于是數(shù)值間的計(jì)算,可解釋性較差,而規(guī)則的引入則補(bǔ)足了這一點(diǎn)。由規(guī)則來(lái)指導(dǎo)路徑中關(guān)系的合成及關(guān)系推理,不僅增加了其正確性,也提高了其可解釋性。
表2 規(guī)則R1和R2的例子Table 2 Examples of rules R1 and R2
最后,設(shè)計(jì)了一種新的結(jié)合關(guān)系路徑信息和邏輯規(guī)則信息的三元組嵌入模型。模型公式如下:
其中,E1(h,r,t)=||h+r-t||是TransE 模型的評(píng)分函數(shù)。這里使用TransE 模型的評(píng)分函數(shù)作為主嵌入函數(shù),使得可以將其替換為其他優(yōu)化后的翻譯模型或者引入輔助信息的翻譯模型。
受CKRL[12]和DSKRL(dissimilarity-support-aware knowledge representation learning)[39]模型的啟發(fā),在三元組可信度模塊中,對(duì)三元組的質(zhì)量進(jìn)行判斷,計(jì)算三元組質(zhì)量的公式如下:
在訓(xùn)練開(kāi)始時(shí),將所有三元組的局部三元組可信度LTT(h,r,t)初始化為1。在訓(xùn)練過(guò)程中,數(shù)值會(huì)發(fā)生變化。形式上,局部三元組可信度LTT(h,r,t)隨其三重質(zhì)量Q(h,r,t)變化如下:
其中,η是確保LTT(h,r,t) >0和LTT(h,r,t) <1的超參數(shù)。LTT(h,r,t) 的值將以線(xiàn)性速率減小,因?yàn)楫?dāng)Q(h,r,t) ≤0 時(shí),這個(gè)三元組更可能包含噪聲,所以應(yīng)該具有較低的三元組可信度。
此外,引入邏輯規(guī)則以加強(qiáng)對(duì)三元組質(zhì)量的判斷效果。具體的,利用規(guī)則R1 找到關(guān)系r的相似關(guān)系rR,然后將三元組(h,r,t)替換為(h,rR,t),進(jìn)行質(zhì)量計(jì)算:
其中,μ是規(guī)則R1的置信度。
通過(guò)進(jìn)一步計(jì)算三元組(h,r,t)的質(zhì)量后,三元組可信度LTT(h,r,t)也將隨之變化:
其中,α是確保LTT(h,r,t) >0 和LTT(h,r,t) <1 的超參數(shù)。
根據(jù)TransE[14]可以將RPKRL 的損失函數(shù)形式化為一組成對(duì)得分函數(shù)的和,該損失函數(shù)會(huì)使得正例三元組的得分低于負(fù)例三元組,損失函數(shù)公式如下:
其中,λ是超參數(shù),T′表示負(fù)例三元組的集合,L1(h,r,t)、L2(p,r)是關(guān)于三元組(h,r,t)和路徑對(duì)(p,r)的損失函數(shù):
其中,γ1和γ2是超參數(shù)。
在訓(xùn)練過(guò)程中,由于知識(shí)圖譜中沒(méi)有顯式的負(fù)例三元組,將訓(xùn)練三元組中的實(shí)體或關(guān)系進(jìn)行隨機(jī)替換,且替換后得到的負(fù)例三元組不在訓(xùn)練三元組集合中,負(fù)三元組采樣規(guī)則如下:
對(duì)于優(yōu)化,使用小批量隨機(jī)梯度下降(stochastic gradient descent,SGD)來(lái)最小化損失函數(shù)。
首先給出所使用的符號(hào)。NT是訓(xùn)練三元組的數(shù)量,NP是關(guān)系路徑的數(shù)量,NL是關(guān)系路徑的長(zhǎng)度,Nr是規(guī)則的數(shù)量,K是實(shí)體和關(guān)系向量的維度。參考PTransE[13]給出的復(fù)雜度分析,在每個(gè)迭代循環(huán)中,TransE 的復(fù)雜度為O(NTK),PTransE 的復(fù)雜度為O(NTKNPNL)。RPKRL 模型使用了規(guī)則信息和關(guān)系路徑信息,復(fù)雜度為O(KNrNL)。
為驗(yàn)證模型及其各部分的有效性,在公開(kāi)數(shù)據(jù)集上進(jìn)行了充分評(píng)測(cè)。
實(shí)驗(yàn)驗(yàn)證在FB15K 數(shù)據(jù)集上進(jìn)行,F(xiàn)B15K 數(shù)據(jù)集是一個(gè)典型的基準(zhǔn)知識(shí)圖譜,它是從現(xiàn)實(shí)世界中廣泛使用的大規(guī)模知識(shí)圖譜Freebase中提取出來(lái)的。在FB15K 數(shù)據(jù)集中,有14 951 個(gè)實(shí)體和1 345 個(gè)關(guān)系,以及對(duì)應(yīng)的592 213 個(gè)三元組。其中訓(xùn)練集含有483 142個(gè)三元組,驗(yàn)證集含有50 000個(gè)三元組,測(cè)試集含有59 071 個(gè)三元組。大多數(shù)現(xiàn)實(shí)世界的知識(shí)圖都包含噪聲,但FB15K 中沒(méi)有明顯標(biāo)記的噪聲,為此,使用了CKRL[14]的3個(gè)公開(kāi)可用的數(shù)據(jù)集。3個(gè)數(shù)據(jù)集分別命名為FB15K-N1、FB15K-N2 和FB15KN3。它們之間的不同之處在于含有不同的噪聲率,分別為10%、20%和30%。
事實(shí)上,現(xiàn)實(shí)世界知識(shí)圖譜中的許多噪音都源于同類(lèi)實(shí)體之間的誤解[14]。它表明,在現(xiàn)實(shí)世界的知識(shí)圖譜中,噪聲(姚明,出生地,加拿大)比(姚明,出生地,足球)更有可能發(fā)生。具體來(lái)說(shuō),給定知識(shí)圖譜中的一個(gè)正例三元組(h,r,t),隨機(jī)地將相同類(lèi)型的頭或尾實(shí)體與后者替換以形成負(fù)例三元組(h′,r,t)或(h,r,t′)。例如,正例三元組(姚明,出生地,中國(guó))將被負(fù)例三元組(姚明,出生地,澳大利亞)或(姚明,出生地,英國(guó))所替換。3 個(gè)含有噪聲的數(shù)據(jù)集與FB15K共享相同的實(shí)體、關(guān)系、驗(yàn)證集和測(cè)試集。具體的數(shù)據(jù)如表3所示。
表3 噪聲數(shù)據(jù)集統(tǒng)計(jì)Table 3 Statistics of noise datasets
選 擇TransE[14]、PTransE[13]、TransH[33]、TransR[34]、CKRL[12]和RPJE[38]作為不同實(shí)驗(yàn)比較的基線(xiàn)。使用小批量SGD 訓(xùn)練RPKRL 模型。邊際γ1和γ2均被設(shè)置為1。將學(xué)習(xí)率δ設(shè)置為動(dòng)態(tài),并在開(kāi)始時(shí)從{0.001,0.002,0.003,0.004} 中選擇,最后在{0.000 1,0.000 2}中選擇。對(duì)于三元組可信度,下降控制速率η和α分別設(shè)置在{0.80,0.85,0.90} 和{0.10,0.01}之間。該模型的最優(yōu)配置是:δ以0.001 開(kāi)始,以0.000 1 結(jié)尾,η=0.9,α=0.01,在驗(yàn)證集上進(jìn)行了優(yōu)化。為了進(jìn)行公平比較,所有模型中實(shí)體和關(guān)系嵌入的維度均設(shè)置為50。
為了驗(yàn)證RPKRL模型在檢測(cè)知識(shí)圖譜中存在的噪聲的性能,進(jìn)行了知識(shí)圖譜噪聲檢測(cè)任務(wù)。該任務(wù)旨在基于三元組得分來(lái)檢測(cè)知識(shí)圖譜中可能存在的噪聲。
3.3.1 評(píng)測(cè)準(zhǔn)則
使用TransE 的能量函數(shù)作為RPKRL 模型和基線(xiàn)模型的評(píng)分函數(shù),然后根據(jù)評(píng)分對(duì)訓(xùn)練集中所有的三元組進(jìn)行排序。如果一個(gè)三元組得分較高,那么它更有可能是一個(gè)噪聲三元組。根據(jù)排名計(jì)算并繪制準(zhǔn)確率和召回率曲線(xiàn),以顯示RPKRL 模型和基線(xiàn)模型的噪聲檢測(cè)能力。
3.3.2 實(shí)驗(yàn)結(jié)果
圖3~圖5 分別展示了模型在3 個(gè)數(shù)據(jù)集上的噪聲檢測(cè)性能結(jié)果,從中可以觀(guān)察到:(1)本研究模型RPKRL 在不同噪聲率(10%、20%、40%)的所有3 個(gè)數(shù)據(jù)集上都獲得了最好的性能。這有力地證明了其檢測(cè)知識(shí)圖譜中的噪聲的能力。(2)單純的路徑推理PTransE在噪聲檢測(cè)任務(wù)上表現(xiàn)非常差,RPKRL模型針對(duì)于此做出了改進(jìn),通過(guò)引入邏輯規(guī)則信息來(lái)指導(dǎo)關(guān)系路徑中關(guān)系的合成,實(shí)驗(yàn)證明改進(jìn)是有效的且實(shí)驗(yàn)效果提升較大。
圖3 FB15K-N1數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.3 Noise detection results on FB15K-N1 dataset
圖4 FB15K-N2數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.4 Noise detection results on FB15K-N2 dataset
圖5 FB15K-N3數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.5 Noise detection results on FB15K-N3 dataset
知識(shí)圖譜補(bǔ)全注重于知識(shí)表示學(xué)習(xí)的質(zhì)量,其目標(biāo)是在h、r和t中缺失任意一個(gè)的情況下補(bǔ)全三元組。
3.4.1 評(píng)測(cè)準(zhǔn)則
本文主要關(guān)注實(shí)體預(yù)測(cè)。遵循TransE[14]中相同的設(shè)置,進(jìn)行了兩個(gè)典型的度量:(1)正確答案的平均排名;(2)Hits@10 表示正確答案排在前10 位的實(shí)體。此外,遵循TransE[14]中使用的不同的評(píng)估設(shè)置“Raw”和“Filter”。
3.4.2 實(shí)驗(yàn)結(jié)果
表4和表5展示了模型在3個(gè)數(shù)據(jù)集上的實(shí)體預(yù)測(cè)結(jié)果,可以發(fā)現(xiàn):在所有3個(gè)噪聲數(shù)據(jù)集上,RPKRL模型在所有評(píng)估指標(biāo)上都優(yōu)于所有的基線(xiàn)模型,尤其是平均排名(Mean Rank)的提升幅度很大。與CKRL(LT+PP+AP)相比,RPKRL 平均提高55。這證實(shí)了RPKRL 模型所獲得的知識(shí)表示的質(zhì)量,因?yàn)樗粌H可以檢測(cè)知識(shí)圖中的噪聲,在知識(shí)圖譜補(bǔ)全方面也具有更好的性能。
表4 實(shí)體Mean Rank預(yù)測(cè)結(jié)果Table 4 Results of entity prediction on Mean Rank
表5 實(shí)體Hits@10預(yù)測(cè)結(jié)果Table 5 Results of entity prediction on Hits@10 單位:%
為了衡量模型各個(gè)組件的影響,比較了當(dāng)模型處于不同子模塊設(shè)置時(shí)兩個(gè)任務(wù)的性能。RPKRL(RP)表示只考慮三元組嵌入而不考慮三元組可信度的策略。RPKRL(E1)表示在三元組嵌入模塊中只利用三元組本身結(jié)構(gòu)信息的策略。評(píng)測(cè)準(zhǔn)則的執(zhí)行方式與以前相同。
3.5.1 知識(shí)圖譜噪聲檢測(cè)結(jié)果
圖6~圖8 分別展示了模型在3 個(gè)數(shù)據(jù)集上的噪聲檢測(cè)性能結(jié)果,從中可以觀(guān)察到:(1)RPKRL 在3個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的結(jié)果,這證實(shí)了模型中各個(gè)子模塊的有效性。(2)RPKRL 與RPKRL(E1)的效果差異隨著數(shù)據(jù)集噪聲率的增加,先增加后減少,這意味著模型需要隨著噪聲率的變化而進(jìn)行調(diào)整。(3)RPKRL和RPKRL(E1)比RPKRL(RP)具有更好的性能,這在實(shí)際的噪聲檢測(cè)系統(tǒng)中更為重要,這意味著雖然僅僅靠三元組嵌入模塊已經(jīng)可以進(jìn)行噪聲檢測(cè),但三元組可信度模型的引入將大大提升這一效果。
圖6 消融實(shí)驗(yàn):FB15K-N1數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.6 Ablation study:noise detection results on FB15K-N1 dataset
圖7 消融實(shí)驗(yàn):FB15K-N2數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.7 Ablation study:noise detection results on FB15K-N2 dataset
圖8 消融實(shí)驗(yàn):FB15K-N3數(shù)據(jù)集上噪聲檢測(cè)結(jié)果Fig.8 Ablation study:noise detection results on FB15K-N3 dataset
3.5.2 知識(shí)圖譜補(bǔ)全結(jié)果
表6和表7展示了模型在3個(gè)數(shù)據(jù)集上的實(shí)體預(yù)測(cè)結(jié)果,從中可以觀(guān)察到:(1)在所有3 個(gè)數(shù)據(jù)集上,RPKRL 都獲得了最佳的Hits@10,這意味著模型的每個(gè)子模塊都是有效的。(2)從表中看出,三元組可信度模塊的加入對(duì)于模型效果的提升是巨大的,這說(shuō)明在進(jìn)行補(bǔ)全預(yù)測(cè)時(shí),多重判斷的設(shè)置極大地提升了路徑推理的準(zhǔn)確性。
表6 消融實(shí)驗(yàn)-Mean RankTable 6 Ablation study-Mean Rank
表7 消融實(shí)驗(yàn)-Hits@10Table 7 Ablation study-Hits@10 單位:%
本節(jié)給出一個(gè)具體的案例以顯示RPKRL模型在噪聲檢測(cè)方面的優(yōu)越性。遵循3.3.1 小節(jié)評(píng)測(cè)準(zhǔn)則,在10%噪聲率的數(shù)據(jù)集(噪聲三元組共46 408 個(gè),正例三元組共483 142 個(gè),共529 550 個(gè)三元組)中選取一個(gè)噪聲三元組(The Motorcycle Diaries(film),/film/film/release_date_s./film/film_regional_release_date/film_release_region,Italy)。其中,The Motorcycle Diaries(film)是一部電影的名字,Italy 為一個(gè)國(guó)家的名字,該電影是在美國(guó)上映的,而不是意大利,因此這是一個(gè)噪聲三元組。
采用TransE 的能量函數(shù)E(h,r,t)=|h+r-t|對(duì)該三元組進(jìn)行判斷,RPKRL 模型得分為5.738 02,在噪聲檢測(cè)排名中為38 607 名;PTransE 模型得分為4.993 4,在噪聲檢測(cè)中排名為249 547;CKRL 模型得分為4.514 21,在噪聲檢測(cè)中排名為327 618。可以看出3 個(gè)模型中只有RPKRL 將其判斷為噪聲三元組,而后兩個(gè)模型將其判斷為正例三元組,且排名較為靠后,即后兩個(gè)模型認(rèn)為該三元組是正例三元組的可能性很大。
本文提出了一種新的RPKRL 模型,旨在檢測(cè)知識(shí)圖譜中的噪聲,同時(shí)學(xué)習(xí)無(wú)噪聲的知識(shí)表示。該模型利用三元組的結(jié)構(gòu)信息和輔助信息(關(guān)系路徑信息和邏輯規(guī)則信息)來(lái)估計(jì)三元組的可信度得分。針對(duì)知識(shí)圖譜中的知識(shí)補(bǔ)全任務(wù)和噪聲檢測(cè)任務(wù),對(duì)模型進(jìn)行了評(píng)估實(shí)驗(yàn)。在三個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,RPKRL 能夠很好地利用結(jié)構(gòu)信息和輔助信息來(lái)度量三元組可信度,這對(duì)噪聲檢測(cè)和表示學(xué)習(xí)具有重要意義。三元組可信度的利用對(duì)于真實(shí)世界中知識(shí)的構(gòu)建和噪聲檢測(cè)也是有用的。
未來(lái)將探索以下研究方向:(1)增加更多的外部支持信息,以獲得更好的實(shí)體和關(guān)系的嵌入,這對(duì)知識(shí)驅(qū)動(dòng)的任務(wù)有積極的影響;(2)將可信度應(yīng)用于知識(shí)構(gòu)建中的噪聲檢測(cè),以從根源降低噪聲。