亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合關(guān)系路徑與有向子圖推理的鏈接預(yù)測(cè)方法

        2023-02-18 07:17:04姚偉凡
        計(jì)算機(jī)與生活 2023年2期
        關(guān)鍵詞:三元組子圖圖譜

        馬 力,姚偉凡

        西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,西安710061

        知識(shí)圖譜(knowledge graph,KG)是用來(lái)存儲(chǔ)由實(shí)體及其關(guān)系組成的事實(shí)三元組的知識(shí)庫(kù),如FreeBase、DBpedia、Wikidata 等都屬于大規(guī)模的知識(shí)圖譜。知識(shí)圖譜在智能問(wèn)答[1]、推薦系統(tǒng)[2]、搜索引擎[3]等各行各業(yè)都有廣泛的應(yīng)用。如小米知識(shí)圖譜[4],已支持其每天億級(jí)的訪問(wèn),用于其智能問(wèn)答、用戶(hù)畫(huà)像、虛擬助手、智能客服等互聯(lián)網(wǎng)產(chǎn)品。大型的KG含有數(shù)十億個(gè)三元組,但由于人類(lèi)知識(shí)、網(wǎng)絡(luò)語(yǔ)料庫(kù)不斷更新和提取算法的限制,即使是最大的知識(shí)庫(kù)也仍然不完整。如在FreeBase 中300 萬(wàn)個(gè)人實(shí)體中有75%沒(méi)有國(guó)籍。為了解決這一問(wèn)題,Bordes 等人提出了經(jīng)典的Trans E 模型[5],一種基于KG 嵌入的表征學(xué)習(xí),而后研究者們相繼提出Trans D[6]和Trans R[7]等模型。該方法旨在將KG 的實(shí)體和關(guān)系嵌入到連續(xù)的向量空間中,同時(shí)保留KG 的固有結(jié)構(gòu)和潛在語(yǔ)義信息。如圖1 所示,哈利·波特的嵌入包含他是格蘭芬多學(xué)院的學(xué)生以及格蘭芬多學(xué)院的一部分信息,基于詞嵌入的方法可以檢索這些信息來(lái)預(yù)測(cè)羅恩和哈利·波特是同學(xué),任何一個(gè)和格蘭芬多學(xué)院關(guān)系密切的人都會(huì)大概率屬于霍格沃茲學(xué)校,這些都可以在嵌入空間中進(jìn)行編碼。這種方法的優(yōu)勢(shì)在于,它們考慮了KG 中給定實(shí)體的結(jié)構(gòu)上下文,但它們無(wú)法捕捉頭實(shí)體和尾實(shí)體之間的多種關(guān)系(路徑),而這對(duì)于KG 的完成非常重要,并且該方法不能有效地捕捉知識(shí)圖的關(guān)系語(yǔ)義,即知識(shí)圖底層關(guān)系中的邏輯規(guī)則。

        圖1 基于嵌入式的關(guān)系預(yù)測(cè)推理方法Fig.1 Relationship prediction reasoning method based on embedded system

        第二類(lèi)方法是基于規(guī)則的[8]方法,考慮到邏輯規(guī)則的準(zhǔn)確性和可解釋性,在KG 嵌入中應(yīng)用額外語(yǔ)義信息的一個(gè)有效方法是使用邏輯規(guī)則。其目的是通過(guò)對(duì)頭部和尾部實(shí)體之間的路徑進(jìn)行建模,從KG 中學(xué)習(xí)一般的邏輯規(guī)則。還有一種方法利用知識(shí)圖譜中頻繁共現(xiàn)模式確定邏輯規(guī)則[9],基于邏輯規(guī)則學(xué)習(xí)的鏈接預(yù)測(cè)方法的一個(gè)主要優(yōu)點(diǎn)是它們可以應(yīng)用于直推和歸納問(wèn)題。然而,這些方法也存在一定的缺陷,有意義的規(guī)則通常非常少,影響了該方法預(yù)測(cè)已知規(guī)則未涵蓋的缺失關(guān)系的能力。而關(guān)系預(yù)測(cè)任務(wù)也可以被視為一個(gè)邏輯歸納問(wèn)題,在這個(gè)問(wèn)題中,研究者們?cè)噲D推導(dǎo)出一個(gè)給定KG 的概率邏輯規(guī)則(horn 子句)。如從圖1 所示的知識(shí)圖譜中,可以推導(dǎo)出簡(jiǎn)單的規(guī)則,如式(1)所示。

        其規(guī)則可以預(yù)測(cè)這種關(guān)系,如圖2 所示的例子。雖然基于嵌入的方法將實(shí)體特定的鄰域信息編碼到嵌入中,但這些邏輯規(guī)則捕捉獨(dú)立于實(shí)體的關(guān)系語(yǔ)義,學(xué)習(xí)獨(dú)立于實(shí)體的關(guān)系語(yǔ)義具有歸納出看不見(jiàn)的實(shí)體的能力。式(1)中的規(guī)則可以推廣到圖2 中看不見(jiàn)的KG,并預(yù)測(cè)這種關(guān)系。本文學(xué)習(xí)根據(jù)候選關(guān)系周?chē)挠邢蜃訄D結(jié)構(gòu)來(lái)預(yù)測(cè)關(guān)系,而不是學(xué)習(xí)特定于實(shí)體的嵌入。并且在這種方法基礎(chǔ)上捕獲兩個(gè)實(shí)體之間所有路徑的關(guān)系路徑以提高模型預(yù)測(cè)已知規(guī)則未涵蓋的缺失關(guān)系的能力。

        圖2 基于規(guī)則歸納式推理方法Fig.2 Inductive inference method based on rules

        1 相關(guān)工作

        1.1 基于圖神經(jīng)網(wǎng)絡(luò)的方法

        大多數(shù)現(xiàn)有的知識(shí)圖譜補(bǔ)全方法都是基于嵌入的方法,RotatE[10]、ComplEx[11]、ConvE[12]和TransE[5]等都是經(jīng)典的基于嵌入的方法,但這些方法獨(dú)立地處理每個(gè)三元組,而不考慮嵌入在豐富鄰域中的語(yǔ)義和結(jié)構(gòu)信息。近年來(lái),圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)模型在知識(shí)圖譜推理任務(wù)中都獲得了經(jīng)驗(yàn)性的成功。文獻(xiàn)[13]通過(guò)引入算法對(duì)齊策略,將圖神經(jīng)網(wǎng)絡(luò)與其他推理任務(wù)的解決算法進(jìn)行對(duì)齊分析,證明了圖神經(jīng)網(wǎng)絡(luò)模型的推理能力?,F(xiàn)在圖神經(jīng)網(wǎng)絡(luò)已被用于捕獲固有地存儲(chǔ)在KG 中的全局結(jié)構(gòu)信息,并在各種數(shù)據(jù)集上得到了最佳結(jié)果[14-16]。文獻(xiàn)[17]用圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)引入一個(gè)局部敏感的嵌入,然后傳入其解碼器中預(yù)測(cè)圖譜中丟失的連接。目前提出的這種方法本質(zhì)上是直推式的,但如果給定一些節(jié)點(diǎn)特征,利用特征信息訓(xùn)練可以對(duì)未出現(xiàn)的頂點(diǎn)生成嵌入[18],這種基于GCN 的知識(shí)圖譜補(bǔ)全方法需要學(xué)習(xí)節(jié)點(diǎn)特定的嵌入。本文方法將關(guān)系預(yù)測(cè)視為一個(gè)子圖推理問(wèn)題,經(jīng)過(guò)訓(xùn)練后可以推廣到看不見(jiàn)的實(shí)體。

        1.2 規(guī)則歸納方法

        由于存在實(shí)體不可見(jiàn)的問(wèn)題,基于規(guī)則歸納的知識(shí)圖譜補(bǔ)全方法一直被限制,目前針對(duì)這個(gè)問(wèn)題,文獻(xiàn)[19-20]提出的方法可利用許多知識(shí)圖譜中不存在的節(jié)點(diǎn)特征進(jìn)行鏈接預(yù)測(cè),文獻(xiàn)[21]通過(guò)使用GNN聚合鄰居節(jié)點(diǎn)嵌入,學(xué)習(xí)為看不見(jiàn)的節(jié)點(diǎn)生成嵌入,然而這兩種方法都需要新節(jié)點(diǎn)被已知節(jié)點(diǎn)包圍,并且不能處理全新的圖。這些方法本質(zhì)上是歸納性的,因?yàn)橐?guī)則獨(dú)立于節(jié)點(diǎn)身份,但是這些方法由于其基于規(guī)則的性質(zhì)而受到靈活性問(wèn)題的困擾,并且缺乏表達(dá)能力。與基于嵌入的方法不同,統(tǒng)計(jì)規(guī)則挖掘方法通過(guò)列舉知識(shí)圖譜中存在的規(guī)律和模式來(lái)歸納概率邏輯規(guī)則。在這些統(tǒng)計(jì)規(guī)則歸納方法的基礎(chǔ)上,NeuralLP[22]、RuleN[23]和DRUM[24]提出以端到端的方式學(xué)習(xí)KG 中的邏輯規(guī)則和置信度得分,但它們沒(méi)有考慮到預(yù)測(cè)關(guān)系周?chē)泥従咏Y(jié)構(gòu),因此當(dāng)頭實(shí)體和尾實(shí)體之間的路徑稀疏時(shí)不夠表達(dá)。文獻(xiàn)[25]提出一種基于圖神經(jīng)網(wǎng)絡(luò)的關(guān)系預(yù)測(cè)框架GraIL(graph inductive learning),它對(duì)局部子圖結(jié)構(gòu)進(jìn)行推理,并對(duì)學(xué)習(xí)獨(dú)立于實(shí)體的關(guān)系語(yǔ)義有很強(qiáng)的歸納性。與基于嵌入的模型不同,GraIL 是自然歸納的,經(jīng)過(guò)訓(xùn)練后可以推廣到看不見(jiàn)的實(shí)體和圖形,解決在知識(shí)圖譜上進(jìn)行歸納式關(guān)系預(yù)測(cè)的問(wèn)題。

        1.3 基于關(guān)系路徑的方法

        近年來(lái)研究者們通過(guò)探索知識(shí)圖譜中實(shí)體間的連接,將實(shí)體間的連接發(fā)現(xiàn)為路徑,關(guān)系路徑揭示了實(shí)體和關(guān)系的語(yǔ)義。KPRN(knowledge-aware path recurrent network)[26]模型通過(guò)組合實(shí)體和關(guān)系的語(yǔ)義來(lái)生成路徑表示,并在路徑上進(jìn)行有效推理。文獻(xiàn)[27]通過(guò)可學(xué)習(xí)的注意力機(jī)制自適應(yīng)地整合關(guān)系上下文和關(guān)系路徑,與傳統(tǒng)的基于節(jié)點(diǎn)的表示不同,該模型僅使用關(guān)系類(lèi)型來(lái)表示上下文和路徑,這使得它適用于歸納設(shè)置。本文方法利用一個(gè)歸納關(guān)系推理的消息傳遞神經(jīng)網(wǎng)絡(luò),結(jié)合實(shí)體間的語(yǔ)義關(guān)系對(duì)局部有向子圖結(jié)構(gòu)進(jìn)行推理,完成知識(shí)圖譜補(bǔ)全任務(wù)。

        2 算法設(shè)計(jì)

        2.1 問(wèn)題描述

        一個(gè)新的實(shí)體加入到知識(shí)圖譜中,規(guī)則在不再訓(xùn)練的情況下依然保持準(zhǔn)確性。但基于規(guī)則歸納的鏈接預(yù)測(cè)方法由于其基于規(guī)則的性質(zhì)導(dǎo)致其方法可擴(kuò)展性差,缺乏表達(dá)能力,不能預(yù)測(cè)看不見(jiàn)的節(jié)點(diǎn)。GraIL 基于圖形神經(jīng)網(wǎng)絡(luò)利用提取封閉子圖的方法對(duì)在訓(xùn)練集中沒(méi)有見(jiàn)過(guò)的實(shí)體進(jìn)行關(guān)系預(yù)測(cè),主要分為三個(gè)步驟,分別是:(1)子圖采樣;(2)節(jié)點(diǎn)初始化;(3)利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行消息傳遞和關(guān)系預(yù)測(cè)。但其也存在一定的缺點(diǎn),如在提取目標(biāo)三元組的封閉子圖時(shí),忽略了知識(shí)圖譜的方向性,使得它不能有效地處理知識(shí)圖譜中的二元關(guān)系,尤其是對(duì)于非對(duì)稱(chēng)的關(guān)系。對(duì)于這一問(wèn)題,本文提出提取有向子圖的方法使模型能夠關(guān)注到知識(shí)圖譜中關(guān)系的方向性,如圖3 所示。其采用的消息傳遞機(jī)制削弱了關(guān)系嵌入的作用,沒(méi)有注意到頭部和尾部實(shí)體間的關(guān)系路徑,而實(shí)體之間不同的連接路徑揭示了它們關(guān)系的本質(zhì)。這違反了歸納關(guān)系推理的本質(zhì),因?yàn)闅w納設(shè)置是獨(dú)立于實(shí)體的,并且依賴(lài)于關(guān)系信息進(jìn)行推理。

        圖3 提取無(wú)向子圖和提取有向子圖區(qū)別Fig.3 Difference between extracting undirected subgraph and extracting directed subgraph

        2.2 處理思想

        基于以上觀察,本文提出了一種新的用于歸納關(guān)系推理的方法。在本文方法中,首先為每個(gè)三元組提取有向封閉子圖,使其能有效地處理KG 中的非對(duì)稱(chēng)關(guān)系。利用邊緣感知的注意力機(jī)制聚集局部鄰域特征,并收集全局實(shí)體信息以豐富實(shí)體/關(guān)系表示,擴(kuò)展其信息傳遞機(jī)制,以加強(qiáng)實(shí)體和關(guān)系之間的信息傳遞。同時(shí)更新邊緣和實(shí)體嵌入,識(shí)別從頭部實(shí)體到尾部實(shí)體的所有路徑,每個(gè)路徑都由其關(guān)系類(lèi)型表示。如圖4 所示。

        圖4 節(jié)點(diǎn)-邊雙向信息傳遞模型框架圖Fig.4 Framework diagram of node-edge bidirectional information transmission model

        知識(shí)圖譜中的目標(biāo)三元組表示為(s,r,t),其中s、r、t分別指頭實(shí)體、關(guān)系和尾實(shí)體。歸納關(guān)系推理旨在對(duì)目標(biāo)三元組(hT,rT,tT)的合理性進(jìn)行評(píng)分,其中hT和tT的表示在預(yù)測(cè)期間不可用。在這項(xiàng)工作中,本文使用一個(gè)封閉的有向子圖來(lái)表示目標(biāo)三元組(hT,rT,tT)。目標(biāo)頭部和尾部之間的封閉子圖表示為G=(V,E),其中V和E∈V×V分別表示子圖G中的節(jié)點(diǎn)集和觀察邊集。Ne表示子圖中的邊數(shù),表示節(jié)點(diǎn)的嵌入,其中Nn是子圖中的節(jié)點(diǎn)數(shù)。表示關(guān)系嵌入,其中Nr是通過(guò)梯度下降更新的一個(gè)可學(xué)習(xí)矩陣,在訓(xùn)練集和測(cè)試集中共享。將頭節(jié)點(diǎn)到邊、關(guān)系到邊和尾節(jié)點(diǎn)到邊的鄰接矩陣定義為,目的是將頭節(jié)點(diǎn)、關(guān)系和尾節(jié)點(diǎn)分別映射到相應(yīng)的邊,鄰接矩陣中的值是0 或1,其中0 表示沒(méi)有連接。

        2.3 關(guān)鍵步驟

        2.3.1 子圖提取

        在知識(shí)圖譜中,假設(shè)預(yù)測(cè)目標(biāo)節(jié)點(diǎn)之間的關(guān)系信息所需的邏輯規(guī)則存在于特定三元組的局部圖鄰域中,并假設(shè)兩個(gè)目標(biāo)節(jié)點(diǎn)之間的路徑還包含其相關(guān)的關(guān)系信息。首先提取目標(biāo)節(jié)點(diǎn)周?chē)姆忾]子圖,同時(shí)考慮到三元組中存在的邏輯規(guī)則,提取帶有方向性的圖神經(jīng)網(wǎng)絡(luò)子圖。在一個(gè)知識(shí)圖譜中,存在三元組(hT,rT,tT)和(tT,rT,hT),如果提取無(wú)向子圖,對(duì)這兩個(gè)三元組提取出的子圖可能是相同的,但如果關(guān)系rt是非對(duì)稱(chēng)的,則這兩個(gè)三元組中只有一個(gè)是真的。因此使用有向封閉子圖處理這類(lèi)關(guān)系。

        假設(shè)存在一個(gè)三元組(s,r,t),為使模型可以識(shí)別三元組中的方向性,將s定義為t的上一跳鄰居,t定義為s的下一跳鄰居,k定義為目標(biāo)節(jié)點(diǎn)的前/后k跳鄰居節(jié)點(diǎn)。假設(shè)用+表示方向向后,-表示方向向前。則第一步:提取滿(mǎn)足s+k的節(jié)點(diǎn)和t-k的節(jié)點(diǎn),提取滿(mǎn)足t-1 的節(jié)點(diǎn)。如果s+k和t-1 之間存在共同的實(shí)體,則目標(biāo)節(jié)點(diǎn)s和目標(biāo)節(jié)點(diǎn)t之間存在有向子圖。如果s或t不在公共實(shí)體中,則需要將它們添加到公共實(shí)體中。子圖構(gòu)造方式如圖所示,通過(guò)這種方式,從目標(biāo)頭部到尾部的最大距離將變成k+1。

        2.3.2 關(guān)系路徑消息傳遞機(jī)制

        在GraIL 模型中,消息傳遞模型是一個(gè)簡(jiǎn)單的帶邊注意力的R-GCN(relation-graph convolution networks),忽略了邊與節(jié)點(diǎn)之間的雙向信息傳遞。該模型使用節(jié)點(diǎn)到節(jié)點(diǎn)的消息傳遞機(jī)制,其中關(guān)系信息僅用于計(jì)算相鄰節(jié)點(diǎn)的權(quán)重。但在歸納關(guān)系推理中關(guān)系起主導(dǎo)作用,而實(shí)體在推理期間不能提供確定性信息,節(jié)點(diǎn)到節(jié)點(diǎn)的消息傳遞機(jī)制削弱了關(guān)系的作用,違背了歸納知識(shí)圖的本質(zhì)。

        在文獻(xiàn)[28]的消息傳遞框架中,通過(guò)迭代和增強(qiáng)邊與節(jié)點(diǎn)嵌入來(lái)建模歸納封閉子圖。其關(guān)鍵思想是加強(qiáng)節(jié)點(diǎn)之間相互作用的信息,使圖結(jié)構(gòu)得到了更好的表示方式。其采用通信消息傳遞算法,該算法交互式地更新有向圖結(jié)構(gòu)中的節(jié)點(diǎn)和邊消息,每個(gè)邊的表示通過(guò)頭節(jié)點(diǎn)嵌入和它的逆邊來(lái)更新,其采用的CMPNN(communicative message passing neural network)信息傳遞機(jī)制如圖5 所示。但這種節(jié)點(diǎn)更新方式不適用于子圖提取的方法,并且它忽略了尾節(jié)點(diǎn)嵌入和關(guān)系嵌入的信息。本文采用一種新的節(jié)點(diǎn)-邊緣通信機(jī)制,同時(shí)考慮了頭部、關(guān)系和尾部來(lái)更新邊緣嵌入。在本文的信息傳遞機(jī)制中,假設(shè)節(jié)點(diǎn)嵌入總共更新了l 次迭代。在每次迭代中更新節(jié)點(diǎn)嵌入信息時(shí)都會(huì)關(guān)注到邊嵌入信息,如圖6 所示。

        圖5 CMPNN 信息傳遞機(jī)制圖Fig.5 Mechanism diagram of CMPNN information transmission

        圖6 節(jié)點(diǎn)邊雙向信息傳遞機(jī)制圖Fig.6 Node side bidirectional information transmission mechanism diagram

        在現(xiàn)在的消息傳遞機(jī)制中,沒(méi)有考慮到節(jié)點(diǎn)標(biāo)識(shí),這導(dǎo)致了一個(gè)潛在的問(wèn)題,即模型無(wú)法識(shí)別頭s和尾t在KG 中的相對(duì)位置。如圖7 所示,哈利·波特和海格之間的關(guān)系路徑是(和,買(mǎi),住在一起)。在圖8 中,哈利·波特和赫敏·格蘭杰之間的關(guān)系路徑是(房子,房子)和(職業(yè),職業(yè))。其路徑基于它們所包含的關(guān)系類(lèi)型的順序/結(jié)構(gòu)來(lái)捕獲(而不是基于實(shí)體的身份),訓(xùn)練期間不存在的新實(shí)體可以進(jìn)入KG,對(duì)它們進(jìn)行建模。基于s和t之間的連接模式,假設(shè)在KG 中從s到t的原始路徑是實(shí)體和邊的序列,其中兩個(gè)實(shí)體vi和vi+1通過(guò)邊ei連接,路徑中的每個(gè)實(shí)體都是唯一的。對(duì)應(yīng)的關(guān)系路徑P是給定原始路徑中所有邊的關(guān)系類(lèi)型的序列,即,其中,ri是邊ei的關(guān)系類(lèi)型。

        圖7 相同關(guān)系路徑實(shí)體關(guān)系背景不同F(xiàn)ig.7 Same relationship path and different entity relationship background

        圖8 相同關(guān)系語(yǔ)境的頭部實(shí)體尾部實(shí)體路徑不同F(xiàn)ig.8 Different head entity and tail entity paths with same relational context

        首先將節(jié)點(diǎn)和邊信息表示映射到相同的維度d,如式(2)所示。

        2.3.3 節(jié)點(diǎn)嵌入更新

        假設(shè)模型迭代k次,在每次迭代中,更新節(jié)點(diǎn)嵌入需要邊緣嵌入。為了突出與目標(biāo)三元組相關(guān)性高的邊信息,本文使用一個(gè)邊緣注意力機(jī)制。在GraIL的邊緣注意力機(jī)制中,僅利用目標(biāo)關(guān)系來(lái)預(yù)測(cè)邊的重要性。本文利用所有的目標(biāo)頭、目標(biāo)關(guān)系和目標(biāo)尾來(lái)突出與目標(biāo)三元組有密切聯(lián)系的邊緣。更全面地用整個(gè)三元組來(lái)引導(dǎo)注意力機(jī)制,因?yàn)楣?jié)點(diǎn)可以在節(jié)點(diǎn)-邊緣交互期間聚集關(guān)系信息,從而更新的節(jié)點(diǎn)嵌入也是有信息的。將Ps→t表示為KG 中從s到t的所有關(guān)系路徑的集合。為每個(gè)關(guān)系路徑P∈Ps→t分配一個(gè)獨(dú)立的嵌入向量sP。不同路徑的數(shù)量隨著路徑長(zhǎng)度呈指數(shù)增長(zhǎng)(存在|r|k-hop 路徑),而在現(xiàn)實(shí)世界的KG 中,大多數(shù)路徑實(shí)際上并不存在,例如長(zhǎng)度為2 的所有可能路徑中只有3.2%出現(xiàn)在FB15K 數(shù)據(jù)集中,因此在實(shí)驗(yàn)中對(duì)于相對(duì)較小的k值(k≤4),不同路徑的數(shù)量實(shí)際上是沒(méi)有影響的。對(duì)于邊i(1≤i≤Ne),增強(qiáng)的邊緣注意如式(3)~(5):

        在節(jié)點(diǎn)嵌入更新的最后一次迭代中,受文獻(xiàn)[13]啟發(fā),使用多層感知網(wǎng)絡(luò),然后使用LSTM[29]代替式(7)以增加網(wǎng)絡(luò)的表現(xiàn)力,如式(8)、式(9)所示:

        其中,CommunicationMLP 是傳達(dá)節(jié)點(diǎn)聚合信息、節(jié)點(diǎn)嵌入和原始變換節(jié)點(diǎn)嵌入的多層感知網(wǎng)絡(luò),添加以執(zhí)行殘差學(xué)習(xí)[30]。邊緣嵌入被更新為總共l-1 次迭代。為了更新邊嵌入,在節(jié)點(diǎn)-邊交互機(jī)制中需要節(jié)點(diǎn)嵌入,從節(jié)點(diǎn)到邊的逆映射以及與邊的關(guān)系如式(10)所示:

        其中,T 表示矩陣轉(zhuǎn)置,(Ahe)TNk將頭部信息聚合到邊緣,(Are)T將關(guān)系信息聚合到邊緣,(Ate)TNk將尾部信息聚合到邊緣,聚集邊緣信息,并且在整個(gè)模型中保持一致。然后使用聚集信息來(lái)更新邊緣如式(11)、式(12)所示:

        其中,f1和f2表示非線(xiàn)性激活函數(shù)。加入E0以更新等式中的邊的嵌入。

        2.4 評(píng)分函數(shù)定義

        受GraIL 模型啟發(fā),本文使用非對(duì)稱(chēng)評(píng)分函數(shù),該評(píng)價(jià)函數(shù)通過(guò)連接四個(gè)相關(guān)向量得到:

        其中,表示子圖表示,和表示頭部和尾部實(shí)體的隱藏向量,erT是目標(biāo)關(guān)系的學(xué)習(xí)嵌入。這個(gè)評(píng)分函數(shù)是對(duì)稱(chēng)的,因?yàn)殛P(guān)系嵌入和子圖嵌入都是無(wú)方向的。為了緩解這個(gè)問(wèn)題,采用了Trans E 的思想設(shè)計(jì)評(píng)分函數(shù)以保持模型的定向性,并與邊信息的定義一致。評(píng)分函數(shù)定義如式(14)所示:

        2.5 算法流程

        假設(shè)對(duì)于兩個(gè)需要被預(yù)測(cè)關(guān)系的目標(biāo)節(jié)點(diǎn)(目標(biāo)實(shí)體),它們之間的路徑包含了被預(yù)測(cè)關(guān)系的信息。由于實(shí)體是不可見(jiàn)的,為子圖中的每個(gè)實(shí)體(節(jié)點(diǎn))定義一個(gè)獨(dú)立于實(shí)體的嵌入。節(jié)點(diǎn)s和t周?chē)淖訄D中的每個(gè)節(jié)點(diǎn)i用(d(i,s),d(i,t)) 標(biāo)記,其中d(i,s)表示節(jié)點(diǎn)i和s之間的最短距離(同樣對(duì)于d(i,t)),節(jié)點(diǎn)s到t的路徑表示為Ps→t。整個(gè)方法流程如下:

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        本文使用在鏈接預(yù)測(cè)任務(wù)中常用的三個(gè)大型數(shù)據(jù)集WN18RR、FB15K-237 和NELL-995 進(jìn)行實(shí)驗(yàn),為了便于歸納測(cè)試,通過(guò)從KG 中采樣不相交的子圖創(chuàng)建新的歸納基準(zhǔn)數(shù)據(jù)集。每個(gè)數(shù)據(jù)集都由訓(xùn)練圖和測(cè)試圖組成,這兩個(gè)圖具有不相交的實(shí)體集合,訓(xùn)練圖包含圖中存在的所有關(guān)系。為生成訓(xùn)練圖,用統(tǒng)一采樣的幾個(gè)實(shí)體作為目標(biāo)節(jié)點(diǎn),然后將目標(biāo)節(jié)點(diǎn)周?chē)膋跳鄰域合并。并在每一跳上設(shè)置新鄰居的數(shù)量,以防止指數(shù)增長(zhǎng)。從整個(gè)圖中刪除樣本訓(xùn)練圖,并使用相同的過(guò)程對(duì)測(cè)試圖進(jìn)行采樣。調(diào)整上述過(guò)程的參數(shù)得到一系列尺寸增加的圖形,如表1所示。歸納設(shè)置中的模型在訓(xùn)練圖上訓(xùn)練,在測(cè)試圖上測(cè)試,隨機(jī)選擇測(cè)試圖中10%的邊/元組作為測(cè)試邊。

        表1 數(shù)據(jù)集統(tǒng)計(jì)表Table 1 Statistical table of datasets

        3.2 實(shí)驗(yàn)設(shè)計(jì)

        本文使用AUC-PR 和Hits@10 評(píng)價(jià)指標(biāo),對(duì)測(cè)試集中的每個(gè)三元組都用無(wú)效實(shí)體替換三元組中的頭實(shí)體或尾實(shí)體,產(chǎn)生一個(gè)無(wú)效三元組,并給每個(gè)三元組分配一個(gè)分?jǐn)?shù),用TransE 模型的實(shí)體和關(guān)系嵌入來(lái)初始化模型的嵌入。按照升序?qū)@些分?jǐn)?shù)進(jìn)行排序,并得到正確的三元組的等級(jí)。在排序期間,移除已經(jīng)存在于訓(xùn)練、驗(yàn)證或測(cè)試集中的無(wú)效三元組,通過(guò)替換尾部實(shí)體來(lái)重復(fù)整個(gè)過(guò)程,并評(píng)估哪個(gè)三元組得分更高以計(jì)算AUC-PR。將正三元組與采樣的負(fù)三元組的得分進(jìn)行比較,查看真實(shí)的三元組是否可以排在前10 位以計(jì)算Hits@10。對(duì)于原始?xì)w納數(shù)據(jù)集,負(fù)三元組是隨機(jī)抽樣的,并且不考慮其是否具有封閉的子圖。對(duì)提取的歸納數(shù)據(jù)集,使其確保負(fù)三元組也可以包含一個(gè)封閉的子圖。

        本文主要對(duì)比的三種基準(zhǔn)模型分別是GraIL 與另外兩種端到端可微方法Neural-LP 和DRUM 以及一種統(tǒng)計(jì)規(guī)則挖掘方法RuleN。就目前來(lái)說(shuō),Neural-LP 和DRUM 是能夠進(jìn)行歸納關(guān)系預(yù)測(cè)的可微方法,本文使用其提供的相同配置進(jìn)行實(shí)驗(yàn)比較。RuleN代表了目前在知識(shí)圖譜歸納關(guān)系預(yù)測(cè)方面的最新水平,RuleN 在歸納式場(chǎng)景下的推理方法在知識(shí)圖譜補(bǔ)全任務(wù)中得到了很好的結(jié)果。RuleN 模型可以基于路徑提取出知識(shí)圖譜中的規(guī)則,本文使用RuleN 的原始術(shù)語(yǔ),訓(xùn)練的學(xué)習(xí)長(zhǎng)度設(shè)置為4,跳數(shù)設(shè)置為3。為保持公平的比較,在本文提供的模型中的目標(biāo)鏈接的周?chē)?,抽取? 跳封閉子圖,使用一個(gè)3 層GNN,所有潛在嵌入的維數(shù)等于32?;鶞?zhǔn)尺寸設(shè)置為4,邊緣的dropout 設(shè)置為0.5。在本文實(shí)驗(yàn)中,Adam[31]優(yōu)化器的學(xué)習(xí)速率設(shè)置為0.001,其他參數(shù)為默認(rèn)值。margin 設(shè)置為10,Gradient 限制標(biāo)準(zhǔn)為1 000。模型在驗(yàn)證時(shí)進(jìn)行評(píng)估,每3 個(gè)epoch 保存一次,使用性能最佳的點(diǎn)進(jìn)行測(cè)試。模型的目標(biāo)函數(shù)為S=。且模型根據(jù)需要自動(dòng)調(diào)整每個(gè)節(jié)點(diǎn)的有效鄰域大小??偣矊?duì)模型進(jìn)行4 次訓(xùn)練,并對(duì)測(cè)試結(jié)果求平均,以獲得最終性能。

        3.3 結(jié)果與分析

        所有數(shù)據(jù)集測(cè)試集的預(yù)測(cè)結(jié)果如表2、表3 所示。本文使用公開(kāi)可用的源代碼,在數(shù)據(jù)集上復(fù)現(xiàn)了Neural-LP、DRUM、RuleN 和GraIL 模型的實(shí)驗(yàn)結(jié)果。最優(yōu)的結(jié)果用粗體標(biāo)出。

        表2 AUC-PR 評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of AUC-PR 單位:%

        表3 Hits@10 評(píng)價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of Hits@10 單位:%

        如表2 和表3 所示,在AUC-PR 評(píng)價(jià)指標(biāo)上,相比基線(xiàn)模型,本文方法在WN18RR 數(shù)據(jù)集上的AUCPR 評(píng)價(jià)指標(biāo)上有3 個(gè)數(shù)據(jù)集的結(jié)果都是最優(yōu)結(jié)果,在FB15K-237 和NELL-995 數(shù)據(jù)集有兩個(gè)結(jié)果都是最優(yōu)。在Hits@10 評(píng)價(jià)指標(biāo)上,相比基線(xiàn)模型,本文方法在WN18RR 數(shù)據(jù)集上的結(jié)果有3 個(gè)數(shù)據(jù)集的結(jié)果都是最優(yōu)結(jié)果,在FB15K-237 有兩個(gè)結(jié)果是最優(yōu)結(jié)果,在NELL-995 中有3 個(gè)數(shù)據(jù)集的結(jié)果是最優(yōu)結(jié)果。這表明了節(jié)點(diǎn)與邊緣嵌入之間雙向信息傳遞的必要性以及增強(qiáng)關(guān)系信息在網(wǎng)絡(luò)中的作用的有效性。WN18RR 和NELL-995 是兩個(gè)最稀疏的KG,在其數(shù)據(jù)集上的結(jié)果表明結(jié)合實(shí)體間的路徑對(duì)于稀疏的KG 有著積極的作用。

        3.4 有向路徑子圖與無(wú)向子圖實(shí)驗(yàn)結(jié)果與分析

        本文基于圖神經(jīng)網(wǎng)絡(luò)提取有向路徑子圖進(jìn)行鏈接預(yù)測(cè),如果提取無(wú)向子圖,對(duì)反對(duì)稱(chēng)關(guān)系的兩個(gè)三元組提取出的子圖可能是相同的,但這兩個(gè)三元組中只有一個(gè)是真的。假設(shè)對(duì)于給定的實(shí)體對(duì)(h,t),h被名字、出生地、性別等包圍,t周?chē)菣C(jī)構(gòu)、地點(diǎn)、大學(xué)、創(chuàng)始人、大學(xué)校長(zhǎng)等。則得出h很可能是個(gè)人,t很可能是大學(xué),兩者之間應(yīng)該有一種畢業(yè)的關(guān)系,因?yàn)檫@樣的模式在訓(xùn)練數(shù)據(jù)中經(jīng)常出現(xiàn)。然而事實(shí)是,這個(gè)人與大學(xué)無(wú)關(guān),出現(xiàn)這種錯(cuò)誤的原因是忽略節(jié)點(diǎn)間的路徑。因此本文使用有向路徑子圖處理這類(lèi)關(guān)系。在實(shí)驗(yàn)中,對(duì)使用有向路徑子圖和無(wú)向子圖的方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表4、表5 所示。

        表4 FB15K-237 數(shù)據(jù)集無(wú)向和有向路徑子圖對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Comparative experimental results of undirected and directed path subgraphs on FB15K-237 單位:%

        如表4、表5 所示,當(dāng)無(wú)向子圖被有向路徑子圖代替時(shí),就AUC-PR 和Hits@10 指標(biāo)而言,有向子路徑子圖的方法結(jié)果明顯優(yōu)于無(wú)向子圖的結(jié)果。這表明必須有效處理知識(shí)圖中的方向問(wèn)題,因?yàn)镕B15K-237和NELL-995 都包含大量不對(duì)稱(chēng)和反對(duì)稱(chēng)關(guān)系。WN18RR 的改進(jìn)相當(dāng)顯著,而WN18RR 是一個(gè)比較稀疏的數(shù)據(jù)集。這表明有向路徑子圖可以更好地推斷兩個(gè)看不見(jiàn)的實(shí)體之間的關(guān)系。

        表5 NELL-995 數(shù)據(jù)集無(wú)向和有向路徑子圖對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of undirected and directed path subgraphs on NELL-995 單位:%

        3.5 消融實(shí)驗(yàn)

        為證明本文方法每一步改進(jìn)是否有效,對(duì)本文方法進(jìn)行消融實(shí)驗(yàn)。針對(duì)本文中增強(qiáng)邊緣注意機(jī)制的方法,將其從模型中移除并分析其結(jié)果。將增強(qiáng)的邊注意機(jī)制與GraIL 中的邊緣注意進(jìn)行比較,GraIL 只使用目標(biāo)關(guān)系引導(dǎo)邊注意機(jī)制。本文還對(duì)邊信息嵌入的更新是否會(huì)提高模型整體性能進(jìn)行了實(shí)驗(yàn),在嵌入更新時(shí)刪除關(guān)系信息以及關(guān)系路徑的實(shí)驗(yàn)結(jié)果如表6 所示。

        表6 消融實(shí)驗(yàn)結(jié)果Table 6 Results of ablation experiment 單位:%

        如表6 所示,聚合邊緣信息及路徑的模型結(jié)果優(yōu)于其他版本的模型。刪除增強(qiáng)的邊注意力的結(jié)果表明了增強(qiáng)的邊緣注意力的有效性。增強(qiáng)的邊注意力在FB15K-237-v1 數(shù)據(jù)集的AUC-PR 和Hits@10 度量上均提高了0.02 以上,并且在FB15K-237-v2 數(shù)據(jù)集上,即使沒(méi)有邊注意的模型也優(yōu)于具有邊緣注意的基準(zhǔn)模型。這些結(jié)果表明,考慮目標(biāo)三元組中的所有信息以確定哪些邊是重要的具有重要意義。刪除邊信息更新模塊后,所有評(píng)估指標(biāo)上的性能都有所下降。與完全刪除邊緣嵌入更新模塊相比,在邊嵌入更新中刪除關(guān)系信息及路徑得到的結(jié)果改進(jìn)較小,比呈現(xiàn)相關(guān)信息的情況弱。這些結(jié)果表明,邊嵌入更新模塊有助于本文方法對(duì)鏈接預(yù)測(cè)的重要性,并且關(guān)系信息在邊嵌入更新中起著非常重要的作用。進(jìn)一步證明了關(guān)系在歸納設(shè)置中的重要性,并強(qiáng)調(diào)了在子圖建模中加強(qiáng)關(guān)系信息流的必要性。

        3.6 非對(duì)稱(chēng)關(guān)系實(shí)驗(yàn)結(jié)果與分析

        為證明模型可以在一定程度上處理非對(duì)稱(chēng)/反對(duì)稱(chēng)關(guān)系(通過(guò)使用特定的評(píng)分函數(shù)和邊定義等),選擇5 個(gè)不對(duì)稱(chēng)的關(guān)系來(lái)評(píng)估模型和基準(zhǔn)模型GraIL。使用兩種負(fù)三元組抽樣策略:第一種是將其他三元組替換為正三元組的頭或尾的標(biāo)準(zhǔn)操作;第二種是交換測(cè)試三元組的頭和尾。結(jié)果如表7 所示。

        表7 非對(duì)稱(chēng)關(guān)系實(shí)驗(yàn)結(jié)果Table 7 Experimental results of asymmetric relationship單位:%

        如表7 所示,模型使用標(biāo)準(zhǔn)方法和交換頭尾方法的AUC 分?jǐn)?shù)沒(méi)有明顯差異,這表明模型可以有效地將假三元組(t,r,h)與真正的三元組(h,r,t)區(qū)分開(kāi)。相比之下,當(dāng)樣本策略更改為第二種策略時(shí),基準(zhǔn)模型GraIL 的比率有所下降,這表明本文方法有效地處理了KG 中的方向問(wèn)題。

        4 結(jié)束語(yǔ)

        本文提出了一種用于歸納關(guān)系預(yù)測(cè)的有向路徑子圖推理方法,使用有向子圖結(jié)合目標(biāo)節(jié)點(diǎn)的關(guān)系路徑推斷兩個(gè)不可見(jiàn)實(shí)體之間的關(guān)系。本文引入了一個(gè)新的消息傳遞模型,以學(xué)習(xí)更好的節(jié)點(diǎn)和邊緣嵌入,并加強(qiáng)關(guān)系信息的作用。捕捉頭實(shí)體和尾實(shí)體之間的關(guān)系路徑,提高了三元組的預(yù)測(cè)精度。實(shí)驗(yàn)表明,本文方法在大多數(shù)評(píng)估指標(biāo)上優(yōu)于最先進(jìn)的方法。在未來(lái)的工作中,也將嘗試開(kāi)發(fā)一個(gè)完全丟棄封閉子圖中節(jié)點(diǎn)的純關(guān)系消息傳遞網(wǎng)絡(luò),并研究關(guān)系封閉子圖的性能。

        猜你喜歡
        三元組子圖圖譜
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長(zhǎng)圖譜
        關(guān)于余撓三元組的periodic-模
        臨界完全圖Ramsey數(shù)
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        不含2K1+K2和C4作為導(dǎo)出子圖的圖的色數(shù)
        三元組輻射場(chǎng)的建模與仿真
        久久九九av久精品日产一区免费| 国产乱码一区二区三区精品| 亚洲欧洲日产国码av系列天堂| 国产婷婷色综合av蜜臀av| 国产成人午夜福利在线观看者| 美女福利一区二区三区在线观看| 精品人妻久久一日二个| 久久久亚洲精品一区二区三区| 亚洲欧美国产双大乳头| 日中文字幕在线| 99久久免费中文字幕精品| 国产亚洲人成在线观看| 国产人妻久久精品二区三区老狼| 精品欧美乱子伦一区二区三区| 禁止免费无码网站| 亚洲av综合av国一区二区三区 | 日韩乱码精品中文字幕不卡| 一区二区三区国产精品乱码| 久久久久亚洲av片无码下载蜜桃 | 亚洲VA欧美VA国产VA综合 | 亚洲五月天中文字幕第一页| 日本顶级metart裸体全部| 最新亚洲精品国偷自产在线 | 欧美日韩综合在线视频免费看| va精品人妻一区二区三区| 国产精品办公室沙发| 亚洲精品无码高潮喷水在线| 精品人妻一区二区三区蜜桃| 亚洲国产精品国自拍av| 一本久久伊人热热精品中文字幕| 手机看片福利日韩| 一区二区三区夜夜久久| 精品国产三级a∨在线欧美| 蜜桃成人无码区免费视频网站| 无码AⅤ最新av无码专区| 精品国产一区二区三区性色 | 中文字幕色偷偷人妻久久一区| 国产无遮挡又黄又爽免费网站 | 帮老师解开蕾丝奶罩吸乳视频 | 日本午夜精品一区二区三区电影| 国产精品多人P群无码|