中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j.0490-6756.240325
Cross-modal contrastive learning for hyper-relational knowledge graph completion with pre-trained language models
XIAO Ying-Jie,HEPei-Heng,DUANLei,YE Zheng-Mao,,HECheng-Xin,WANGXin-Ye(College of Computer Science,Sichuan University,Chengdu 6lOo65,China)
Abstract: Hyper-relational knowledge graphs (HKGs),as an extension of traditional knowledge graphs,offer a more comprehensive representation of real-world knowledge. Due to their inherent incompleteness, HKG completion has emerged as a significant research focus.Existing HKG completion methods often focus on internal structural learning without fully considering multi-role interactions within facts orsemantic interactions outside the graph. To address this,we propose CoLor, a cros-fact-text-modality contrastive learning method.CoLor uses role-aware structural modeling and introduces real-world context through pre-trained language models,with triple cross-modal contrastive supervision to jointly learn fact representation.Experiments on three real-world datasets show CoLor outperforms baselines by up to 4. 2% and 7.5% on MRR and H@1 metrics,respectively. Ablation study and case study further demonstrate the efectiveness of CoLor.
Keywords: Hyper-relational knowledge graph;Pre-trained language models;Contrastive learning
1引言
知識(shí)圖譜(KnowledgeGraphs,KGs)廣泛應(yīng)用于語義搜索、推薦系統(tǒng)及欺詐檢測(cè)等領(lǐng)域[1-3],但現(xiàn)實(shí)世界知識(shí)常涉及多個(gè)實(shí)體[4-6],難以僅用單個(gè)二元關(guān)系或簡(jiǎn)單拆分為多個(gè)二元關(guān)系來完整描述.超關(guān)系知識(shí)圖譜(Hyper-relationalKnowledgeGraphs,HKGs)擴(kuò)展了傳統(tǒng)知識(shí)圖譜的表達(dá)形式,以包含多個(gè)實(shí)體和關(guān)系的超關(guān)系事實(shí)為基本單位,增強(qiáng)了對(duì)復(fù)雜關(guān)系的準(zhǔn)確表達(dá)能力.
超關(guān)系事實(shí)由一個(gè)描述事實(shí)核心結(jié)構(gòu)的主三元組(頭實(shí)體、關(guān)系、尾實(shí)體)以及若干限定符對(duì)(屬性關(guān)系:輔助實(shí)體)組成,如圖1中的事實(shí)A描述了瑪麗居里與他人共獲諾貝爾獎(jiǎng)這一真實(shí)世界知識(shí),涉及5個(gè)實(shí)體與3種關(guān)系.相較于基于簡(jiǎn)單二元關(guān)系的事實(shí)三元組(MarieCurie、Receiveaward、NobelPrizeinPhysics),事實(shí)A能更準(zhǔn)確地反映真實(shí)世界知識(shí),因?yàn)楝旣惥永镌虿煌暙I(xiàn)與不同合作者兩次獲得諾貝爾獎(jiǎng)(https://en.wikipedia.org/wiki/Marie_Curie).
由于真實(shí)世界知識(shí)的快速增長(zhǎng)與不斷迭代,現(xiàn)有超關(guān)系知識(shí)圖譜不可避免地面臨顯著的不完整性問題[7.8],如Freebase中 71% 的“人物”缺少“出生地”信息.因此,對(duì)超關(guān)系知識(shí)圖譜進(jìn)行高質(zhì)量補(bǔ)全已成為該領(lǐng)域的研究熱點(diǎn)[2.5.9],旨在自動(dòng)學(xué)習(xí)和推理超關(guān)系知識(shí)圖譜,以支持基于超關(guān)系知識(shí)圖譜的多種下游應(yīng)用.
現(xiàn)有工作常通過學(xué)習(xí)超關(guān)系知識(shí)圖譜的結(jié)構(gòu)表征,并評(píng)估測(cè)試超關(guān)系事實(shí)的事實(shí)合理性來完成補(bǔ)全任務(wù).然而,這些方法往往僅強(qiáng)調(diào)實(shí)體與關(guān)系在當(dāng)前事實(shí)內(nèi)作為固定角色的顯式交互,從而忽略了相同實(shí)體與關(guān)系作為其他角色在當(dāng)前事實(shí)外部發(fā)生的隱式交互.例如,Wang等[5提出的GRAN方法允許事實(shí)內(nèi)實(shí)體通過主三元組關(guān)系顯式交互,但難以建模超出當(dāng)前事實(shí)的隱式交互,以圖1中事實(shí)A、B、C為例,事實(shí)B和事實(shí)C顯然可以直觀地聯(lián)合幫助待補(bǔ)全事實(shí)A中缺失的輔助實(shí)體,即Pierre Curie.
通過該示例可以觀察到,相同的實(shí)體和關(guān)系之間能夠在當(dāng)前事實(shí)內(nèi)部或外部以不同的角色進(jìn)行交互,而捕獲這些顯式或隱式的交互則能夠增益超關(guān)系事實(shí)的補(bǔ)全效果.因此,區(qū)分并深化實(shí)體與關(guān)系的角色信息至關(guān)重要.
除結(jié)構(gòu)信息外,超關(guān)系知識(shí)圖譜的外部語義信息對(duì)補(bǔ)全任務(wù)也很重要,因?yàn)榉墙Y(jié)構(gòu)化文本是構(gòu)建知識(shí)庫的關(guān)鍵資源[10].然而,文本化數(shù)據(jù)中包含的上下文語義信息在從非結(jié)構(gòu)化文本到結(jié)構(gòu)化事實(shí)的轉(zhuǎn)換過程中不可避免地面臨信息損失.現(xiàn)有研究表明,合理利用豐富的外部語義信息能夠在一定程度上促進(jìn)知識(shí)圖譜的補(bǔ)全[1.11.12].但對(duì)于結(jié)構(gòu)更加復(fù)雜的超關(guān)系知識(shí)圖譜,收集和有效利用這些語義補(bǔ)充信息仍面臨諸多挑戰(zhàn),如外部文本數(shù)據(jù)不完整、模態(tài)信息不平衡等.
為應(yīng)對(duì)上述挑戰(zhàn),本文提出了一種面向超關(guān)系知識(shí)圖譜補(bǔ)全的跨模態(tài)對(duì)比學(xué)習(xí)方法CoLor(Cross-modalcontrastiveLearningfor hyper-relationalknowledgegraphcompletion),其同時(shí)利用超關(guān)系知識(shí)圖譜的內(nèi)部結(jié)構(gòu)信息和外部語義信息進(jìn)行補(bǔ)全.方法上,通過構(gòu)建異構(gòu)完全圖(Het-erogeneousCompleteGraph,HCG)推廣自注意力機(jī)制[13],強(qiáng)調(diào)事實(shí)內(nèi)外的角色差異所帶來的當(dāng)前事實(shí)外的隱式潛在交互,從而避免局限于事實(shí)內(nèi)的固定角色;通過預(yù)訓(xùn)練語言模型(Pre-trainedLanguageModels,PLMs)引人了外部真實(shí)世界的非結(jié)構(gòu)化文本知識(shí)作為超關(guān)系知識(shí)圖譜的語義補(bǔ)充.在大量非結(jié)構(gòu)文本上訓(xùn)練的預(yù)訓(xùn)練語言模型,如BERT[14]、RoBERTa[15]、Llama-2[16]等,集成了大量的真實(shí)世界知識(shí),一定程度上可以緩解補(bǔ)全方法在單一來源訓(xùn)練數(shù)據(jù)上學(xué)習(xí)并推理的限制.進(jìn)一步地,設(shè)計(jì)了3種用于對(duì)齊跨模態(tài)表征的對(duì)比監(jiān)督,充分挖掘了真實(shí)世界知識(shí)表示的潛力.本文的主要貢獻(xiàn)體現(xiàn)在以下3個(gè)方面:
(1)提出了CoLor方法用于補(bǔ)全超關(guān)系知識(shí)圖譜.通過對(duì)超關(guān)系事實(shí)內(nèi)部的顯式交互和外部的隱式交互進(jìn)行建模,有效從超關(guān)系知識(shí)圖譜的結(jié)構(gòu)信息中學(xué)習(xí)事實(shí)表征.
(2)收集不同超關(guān)系知識(shí)圖譜數(shù)據(jù)集對(duì)應(yīng)的外部文本數(shù)據(jù),并將其合理融合至超關(guān)系知識(shí)圖譜中,實(shí)驗(yàn)驗(yàn)證了引入外部語義信息的有效性.
(3)在3個(gè)公開超關(guān)系圖譜數(shù)據(jù)集上與先進(jìn)基線對(duì)比,實(shí)驗(yàn)結(jié)果表明了CoLor的優(yōu)越性,并通過案例分析進(jìn)一步驗(yàn)證了其有效性.
2 相關(guān)工作
2.1 知識(shí)圖譜補(bǔ)全
知識(shí)圖譜補(bǔ)全大體分為基于結(jié)構(gòu)和基于文本的兩類方法.基于結(jié)構(gòu)的方法認(rèn)為事實(shí)的建立是頭實(shí)體在某映射空間經(jīng)過關(guān)系變換得到尾實(shí)體的過程,代表性方法如TransE[17]和RotatE[18],分別將關(guān)系視為頭尾實(shí)體在目標(biāo)空間中的平移、旋轉(zhuǎn),并由此評(píng)估事實(shí)的合理性.基于文本的方法如KG-BERT采用BERT替換原始實(shí)體表示為相應(yīng)的文本描述,計(jì)算修改后的三元組合理性得分并評(píng)估;SimKGC同樣采用類似的模式,并設(shè)計(jì)了一個(gè)簡(jiǎn)單有效的對(duì)比學(xué)習(xí)框架用于知識(shí)圖譜補(bǔ)全.然而,對(duì)于結(jié)構(gòu)更為復(fù)雜的超關(guān)系知識(shí)圖譜,目前尚無確切證據(jù)充分表明外部語義信息能夠幫助其進(jìn)行補(bǔ)全.
2.2超關(guān)系知識(shí)圖譜補(bǔ)全
現(xiàn)有工作多將超關(guān)系事實(shí)結(jié)構(gòu)表示為一個(gè)主三元組及對(duì)其修飾的若干限定符對(duì)9.為了對(duì)不同限定符對(duì)中的實(shí)體對(duì)整個(gè)事實(shí)的貢獻(xiàn)程度進(jìn)行編碼,Rosso等[9]首次采用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNNs)將每個(gè)每個(gè)限定詞對(duì)迭代地卷積到主三元組中,自然地提升了超關(guān)系事實(shí)的區(qū)分度.Galkin等4和Di等[19]分別在圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCNs)上使用了消息傳遞機(jī)制[20來聚合超關(guān)系知識(shí)圖譜內(nèi)的實(shí)體和關(guān)系的表征.Shomer等21基于StarE方法4提出了一個(gè)利用多個(gè)聚合器來學(xué)習(xí)超關(guān)系事實(shí)表示的框架,然而與StarE方法同樣存在受到全局圖卷積過程中引人多跳鄰居噪聲信息的限制.隨著Transformer[13]在自然語言處理等領(lǐng)域的快速興起,基于Transformer的方法在超關(guān)系知識(shí)圖譜補(bǔ)全領(lǐng)域中也取得了良好效果.Wang等5將超關(guān)系事實(shí)表示為一個(gè)無向異構(gòu)圖(HeterogeneousGraph),超關(guān)系事實(shí)中的所有實(shí)體通過主三元組中的關(guān)系進(jìn)行交互.Luo等2在其基礎(chǔ)上進(jìn)一步引入了全局和局部分層注意力來進(jìn)行建模.此外,還有部分方法采用傳統(tǒng)機(jī)器學(xué)習(xí)或幾何方法來建模超關(guān)系事實(shí),如收縮嵌人[22]等.
現(xiàn)有方法常受限于單一來源的訓(xùn)練數(shù)據(jù),導(dǎo)致模型蘊(yùn)含知識(shí)局限于當(dāng)前數(shù)據(jù)集.為減輕這一限制,CoLor整合了外部真實(shí)世界語義知識(shí),用于超關(guān)系知識(shí)圖譜補(bǔ)全,表現(xiàn)良好.
3 預(yù)備知識(shí)
3.1超關(guān)系知識(shí)圖譜
給定一個(gè)有限的實(shí)體集 ε 、關(guān)系集 R 以及一個(gè)由 條超關(guān)系事實(shí)所構(gòu)成的真實(shí)事實(shí)集 F ,一個(gè)超關(guān)系知識(shí)圖譜表示為 H=(E,R,F(xiàn)) .超關(guān)系事實(shí) f∈F 表示為一個(gè)主三元組(subject,relation,object)及對(duì)其修飾的 m 個(gè)限定符對(duì)(attribute:value)的組合,記為 f={(s,r,o)
vi)}i=1m} ,其中 m?0 .主三元組中的頭尾實(shí)體
和限定符對(duì)中的實(shí)體 {vi}i=1m 都來自實(shí)體集 ε 記為 s,o,v1,…,vm∈E ;關(guān)系 r 和限定符對(duì)中的關(guān)系{ai}i=1m 都來自關(guān)系集 R ,記為 r,a1,…,am∈R 當(dāng)事實(shí)集中所有事實(shí)都滿足 m=0 時(shí),超關(guān)系知識(shí)圖譜退化為知識(shí)圖譜.
3.2超關(guān)系知識(shí)圖譜補(bǔ)全
給定一個(gè)存在若干實(shí)體或關(guān)系缺失的不完整超關(guān)系事實(shí)的超關(guān)系知識(shí)圖譜 H ,對(duì)所有不完整超關(guān)系事實(shí)中缺失的部分進(jìn)行補(bǔ)全或預(yù)測(cè).例如,補(bǔ)全一個(gè)缺失主三元組中尾實(shí)體的不完整超關(guān)系事實(shí)
4 CoLor方法
CoLor整體框架如圖2所示,由角色感知的結(jié)構(gòu)建模(4.1節(jié))上下文感知的語義建模(4.2節(jié))以及基于三重對(duì)比監(jiān)督的跨模態(tài)對(duì)齊(4.3節(jié))組成.CoLor首先分別由角色感知的事實(shí)編碼器和上下文感知的語義編碼器分別學(xué)習(xí)超關(guān)系事實(shí)的結(jié)構(gòu)和語義表征后,再通過跨模態(tài)對(duì)齊模塊和表征并優(yōu)化模型參數(shù).
4.1角色感知的結(jié)構(gòu)建模
相同實(shí)體和關(guān)系在不同事實(shí)中角色各異,因此區(qū)分其在具體事實(shí)內(nèi)外的角色至關(guān)重要.為此,本文設(shè)計(jì)了角色感知的結(jié)構(gòu)建模編碼器處理這一挑戰(zhàn).如圖2所示,該編碼器將超關(guān)系事實(shí)建模為異構(gòu)完全圖,即由多種類型節(jié)點(diǎn)和邊組成的完全圖.其中,事實(shí)中的實(shí)體和關(guān)系對(duì)應(yīng)圖中的節(jié)點(diǎn),邊的屬性表示節(jié)點(diǎn)間的異構(gòu)性,此模型不僅融合了實(shí)體與關(guān)系的不同角色信息,還支持靈活表示它們之間的顯性和隱性互動(dòng),超越單一事實(shí)角色的限制.
記 2 和 L 分別為異構(gòu)完全圖的節(jié)點(diǎn)集與邊集,則每條事實(shí) 都等效于一個(gè)異構(gòu)完全圖 G=(ν,L) ,其中, u= {c,s,r,o,a1,…,am,v1,…,vm} c 為句首標(biāo)識(shí)符[CLS],代表了當(dāng)前超關(guān)系事實(shí)的全局信息融合.受Wang等[5]和Luo等[2]工作的啟發(fā),本文從異構(gòu)圖中的節(jié)點(diǎn)和邊,到超關(guān)系事實(shí)中的實(shí)體、關(guān)系和它們之間的交互,建立兩個(gè)映射關(guān)系,即 ?
和 ψ:L{c-s,c-r,c-o,c-a,c- v,s-r,s-o,s-a,s-v,r-o,r-a,r-v,o- (204號(hào) a,o-v,ai-aj,ai-vi,ai-vj,vi-vj}, 其中i和 j 為等效異構(gòu)完全圖中同種類型的不同節(jié)點(diǎn)序號(hào):這種超關(guān)系事實(shí)結(jié)構(gòu)建模方式考慮了實(shí)體與關(guān)系之間可能在當(dāng)前事實(shí)之外發(fā)生的隱式交互,因?yàn)樗试S實(shí)體與關(guān)系建立隱式的全連接關(guān)系,而非某一固定的交互模式.同時(shí),引入結(jié)構(gòu)信息全局標(biāo)識(shí)符[CLS]也能聚合當(dāng)前事實(shí)內(nèi)部的全局信息,與事實(shí)所對(duì)應(yīng)的真實(shí)語義信息結(jié)構(gòu)對(duì)齊.此外,本文還為實(shí)體和關(guān)系另設(shè)計(jì)了角色嵌入層(RoleEmbeddingLayer以進(jìn)一步增強(qiáng)當(dāng)前事實(shí)內(nèi)部的實(shí)體和關(guān)系所持有的角色信息,即 c,s,r,o,a 和 v 這6種角色信息.
異構(gòu)完全圖中,節(jié)點(diǎn)對(duì)應(yīng)的異構(gòu)性表現(xiàn)為Transformer中全連接自注意力機(jī)制前向傳遞過程中的邊偏置(Edge-biases).邊偏置全連接注意力(Edge-biasedFully-connectedAttention)在自注意力(Self-attention)機(jī)制[13基礎(chǔ)上添加了邊偏置來區(qū)分節(jié)點(diǎn)的異構(gòu)信息,此外與自注意力機(jī)制類似.本文采用多頭注意力(Multi-headAttention)來學(xué)習(xí)超關(guān)系事實(shí)的結(jié)構(gòu)信息,對(duì)于單頭而言,節(jié)點(diǎn)的初始表征 xi∈Rd 首先與其對(duì)應(yīng)的角色嵌入ri∈Rd 聚合,然后使用3個(gè)頭間共享(Head-shared)的矩陣 WhQ WhK , 對(duì)其進(jìn)行投影并在注意力計(jì)算過程中添加邊偏置發(fā),如式(1)和(2)所示.
其中, ηij 為節(jié)點(diǎn) j 對(duì)節(jié)點(diǎn) i 的邊偏置權(quán)重系數(shù);zih∈Rd′ 為節(jié)點(diǎn) i 在第 h 頭中更新后的結(jié)構(gòu)表征;dz=d′=d/H ,其中 H 是多頭注意力計(jì)算中參與的頭數(shù).在上述計(jì)算過程中,節(jié)點(diǎn)的角色真值共6種,分別對(duì)應(yīng)于不同的角色信息,即 rc 對(duì)應(yīng)[CLS],rs 對(duì)應(yīng)頭實(shí)體, rr 對(duì)應(yīng)主關(guān)系, ro 對(duì)應(yīng)尾實(shí)體, ra 對(duì)應(yīng)屬性關(guān)系,以及 rv 對(duì)應(yīng)輔助實(shí)體;邊偏置eijQ,eijK,eijV 分別被添加至傳統(tǒng)自注意力機(jī)制并進(jìn)行計(jì)算.通過上述計(jì)算可獲得每一頭中節(jié)點(diǎn)(204號(hào) {zist}i=1|ν|∈Rd 的結(jié)構(gòu)表征.
在經(jīng)過編碼器中一層的單頭計(jì)算后,將每一頭得到的結(jié)構(gòu)表征順序拼接以得到多頭結(jié)構(gòu)信息.與Transformer原始結(jié)構(gòu)一致,編碼器由 L 層相同結(jié)構(gòu)堆疊,每一層都帶有層歸一化(LayerNormalization)機(jī)制[23]和殘差連接(ResidualCon-nection)機(jī)制[24].重復(fù)上述計(jì)算步驟 L 次后,得到所有 121 個(gè)節(jié)點(diǎn) {zist}i=1|ν| 的全部結(jié)構(gòu)表征.
4.2上下文感知的語義建模
使用預(yù)訓(xùn)練語言模型的知識(shí)圖譜補(bǔ)全方法主要受平移模型影響,使用兩個(gè)孿生預(yù)訓(xùn)練語言模型編碼器(Siamese-stylePLMEncoders)來分別學(xué)習(xí)(subject,relation)和(object)的語義表征[1.12],并度量二者的匹配程度.這種方法割裂事實(shí)為兩部分,忽視了事實(shí)整體性,尤其在處理復(fù)雜超關(guān)系事實(shí)時(shí)效果不佳,且增加計(jì)算開銷.鑒于超關(guān)系事實(shí)需整體考慮,分解會(huì)損害其完整性,為此,本文收集并整理了超關(guān)系知識(shí)圖譜基準(zhǔn)數(shù)據(jù)集的相關(guān)文本信息,利用上下文語義輔助超關(guān)系圖譜補(bǔ)全.
4.2.1數(shù)據(jù)收集本文使用的超關(guān)系知識(shí)圖譜數(shù)據(jù)集包括基于Wikidata的WikiPeople[25和WD50K[4],以及基于Freebase的JF17K[26].實(shí)體和關(guān)系使用MID號(hào)作為標(biāo)識(shí).對(duì)于WikiPeople和WD50K,通過查詢維基數(shù)據(jù)(https://www.wikidata.org/wiki/Special:EntityData)獲取英文文本描述;對(duì)于JF17K,關(guān)系使用其規(guī)范化后的單詞表示作為其文本描述,實(shí)體則通過Freebase(https://developers.google.com/freebase)提供的數(shù)據(jù)獲得文本描述.
4.2.2語義建模在收集并整理不同超關(guān)系知識(shí)圖譜數(shù)據(jù)集中實(shí)體和關(guān)系所對(duì)應(yīng)的文本描述后,如圖2b中所示,本文為每一個(gè)超關(guān)系事實(shí)都構(gòu)建對(duì)應(yīng)的文本序列.以一個(gè)訓(xùn)練批次中的第 b 個(gè)樣本為例,其對(duì)應(yīng)的文本序列構(gòu)建形式為:
其中, t[CLS] 是文本序列的首位標(biāo)識(shí)符; t[SEP] 是相鄰實(shí)體和關(guān)系間的分割標(biāo)識(shí)符; t(s) 是主三元組中頭實(shí)體的文本描述,為其實(shí)體名稱與實(shí)體描述的順序拼接,形如{MarieCurie:PolishphysicistandchemistnationalizedFrench},依此類推.隨后,將該序列輸人預(yù)訓(xùn)練語言模型中:
式(4)中, zise 表示異構(gòu)圖中節(jié)點(diǎn) i 的節(jié)點(diǎn)級(jí)語義表征; PLM(?) 為預(yù)訓(xùn)練語言模型中的前向傳播過程; Poolglobal(?) 為單詞表征的平均池化; MLP(?) 為將預(yù)訓(xùn)練語言模型輸出表征的維度映射到 d 的多層感知機(jī)(Multi-layerPerceptron,MLP),其同樣可以被視為對(duì)于預(yù)訓(xùn)練嵌入的一個(gè)簡(jiǎn)單微調(diào)(Fine-tuning).平均池化在句子嵌入中較其他池化類型通常具有更優(yōu)的性能[2],因此在式(5)中,對(duì)異構(gòu)完全圖使用全局圖級(jí)平均池化 Poolglobal(?) ,并通過使用激活函數(shù)tanh進(jìn)行非線性激活,由此獲得圖級(jí)全局語義表征 業(yè)
通常認(rèn)為預(yù)訓(xùn)練語言模型在龐大的真實(shí)語料庫中已經(jīng)學(xué)到了自然語言的有效表征[14-16].因此,本文簡(jiǎn)單使用資源消耗較少、訓(xùn)練速度較快的微調(diào)任務(wù)來代替針對(duì)超關(guān)系事實(shí)文本描述的全量預(yù)訓(xùn)練任務(wù).具體而言,CoLor僅保留多層感知機(jī)中的梯度反向傳播(圖2b中標(biāo)注“TrainableMod-ule”),并停止傳播預(yù)訓(xùn)練語言模型中的梯度(圖2b中標(biāo)注\"FrozenModule\"),這也一定程度上緩解了微調(diào)任務(wù)中的\"崩潰解\"(Collapsing Solution)問題[28].
4.3結(jié)合三重對(duì)比監(jiān)督的跨模態(tài)對(duì)齊
本文使用余弦相似度來衡量結(jié)構(gòu)化的事實(shí)模態(tài)和非結(jié)構(gòu)化的文本模態(tài)之間的表征距離,如式(6)所示.
隨后,使用對(duì)比學(xué)習(xí)(ContrastiveLearning)方式來最大化正樣本(PositiveSamples)與負(fù)樣本(NegativeSamples)之間的距離,進(jìn)而得到更優(yōu)的超關(guān)系事實(shí)表示.如圖2b所示,CoLor設(shè)計(jì)了用于跨模態(tài)對(duì)齊的三重對(duì)比監(jiān)督,其同時(shí)包含了無監(jiān)督信號(hào)和有監(jiān)督信號(hào),本文以大小為 B 的訓(xùn)練批次中的第 b 條樣本進(jìn)行說明.為了簡(jiǎn)化符號(hào)表示,本文后續(xù)使用Z來等價(jià)表示{}1 =
4.3.1頂點(diǎn)級(jí)結(jié)構(gòu)感知的對(duì)比監(jiān)督根據(jù)監(jiān)督信號(hào)類型,CoLor設(shè)計(jì)了兩種頂點(diǎn)級(jí)結(jié)構(gòu)感知(Vertex-levelStructural-aware,VST)的對(duì)比監(jiān)督形式.
(1)無監(jiān)督VST.兩次獨(dú)立的dropout-masks已被證明能有效形成正例訓(xùn)練對(duì),增強(qiáng)模型的穩(wěn)健性[27].CoLor將此拓展到超關(guān)系事實(shí)上,為等效異構(gòu)完全圖中所有頂點(diǎn)的結(jié)構(gòu)嵌入生成正例樣本,如圖2b中的 Zbst 和 所示區(qū)分.
(2)有監(jiān)督VST.對(duì)于一個(gè)含有 ?m 個(gè)限定符對(duì)超關(guān)系事實(shí),CoLor生成 (2m+3) 個(gè)僅在補(bǔ)全位置上不同的訓(xùn)練樣本,無需復(fù)雜負(fù)采樣.在同一批次中,來自同一事實(shí)的樣本互為正例,其余為負(fù)例.對(duì)單個(gè)訓(xùn)練樣本而言,除其結(jié)構(gòu)嵌入和語義嵌入形成正樣本對(duì)外,即圖2b中帶陰影的矩陣上對(duì)角線方格 (Zbst,Zbse) ,同一批次中還有其他源自相同事實(shí)的樣本與其形成多正例對(duì).
4.3.2頂點(diǎn)級(jí)語義感知的對(duì)比監(jiān)督考慮到結(jié)構(gòu)表征和語義表征是同一超關(guān)系事實(shí)的不同特征空間嵌人,因此,頂點(diǎn)級(jí)語義感知(Vertex-levelSemantic-aware,VSE)的對(duì)比監(jiān)督通過匹配的結(jié)構(gòu)-語義表征對(duì)進(jìn)行對(duì)齊,不匹配的則分離.該監(jiān)督機(jī)制關(guān)注異構(gòu)完全圖中的獨(dú)立頂點(diǎn).在同一訓(xùn)練批次中,來自同一超關(guān)系事實(shí)的所有頂點(diǎn)的結(jié)構(gòu)嵌入與匹配的語義嵌入形成正樣本對(duì),其余為負(fù)樣本對(duì).
4.3.3圖級(jí)語義感知的對(duì)比監(jiān)督圖級(jí)語義感知(Graph-levelSemantic-aware,GSE)的對(duì)比監(jiān)督聚焦于等效超關(guān)系事實(shí)的全局層面,通過對(duì)比融合結(jié)構(gòu)嵌入 zcst 與對(duì)應(yīng)融合語義嵌入 實(shí)現(xiàn).因融合嵌入包含所有頂點(diǎn)信息,故GSE監(jiān)督也被所有頂點(diǎn)共享.
4.4模型訓(xùn)練與推理
4.4.1結(jié)構(gòu)表征訓(xùn)練與推理本文通過多分類任務(wù)實(shí)施并評(píng)估超關(guān)系知識(shí)圖譜補(bǔ)全.對(duì)于異構(gòu)完全圖中的頂點(diǎn) i ,其等效對(duì)應(yīng)的實(shí)體候選可能性分布 ? 可通過兩層線性神經(jīng)網(wǎng)絡(luò)獲得,如式(7)所示.
其中, W1∈Rd×d b1∈Rd 及 b2∈R|ε| 為可學(xué)習(xí)的參數(shù); W2∈R|ε|×d 是與初始嵌人層共享的權(quán)重矩陣,多分類任務(wù)的訓(xùn)練目標(biāo)是最小化交叉熵?fù)p失(Cross-Entropy Loss) :
其中, yi 和 ?Pt 分別為頂點(diǎn) i 的真實(shí)標(biāo)簽和第 t 個(gè)候選預(yù)測(cè)標(biāo)簽的可能性.最后,CoLor使用 zist 在測(cè)試集上進(jìn)行推理以衡量模型的性能.
4.4.2跨模態(tài)對(duì)比訓(xùn)練在訓(xùn)練過程中,CoLor首先將跨模態(tài)嵌人送人兩個(gè)共享參數(shù)的多層感知機(jī)來將它們投影到計(jì)算對(duì)比損失的空間.以對(duì)節(jié)點(diǎn) i 的頂點(diǎn)級(jí)語義感知對(duì)比監(jiān)督的投影為例,如式
σ(?) 為L(zhǎng)eaky-ReLU非線性激活函數(shù).其中,CoLor優(yōu)化作為訓(xùn)練目標(biāo)的 InfoNCE[28] 損失,如式(10)所示.
其中,超參數(shù) τ 用于調(diào)整正負(fù)樣本的區(qū)分度.對(duì)于單個(gè)訓(xùn)練樣本而言,總體訓(xùn)練目標(biāo) T 為式(11)所示.
其中, α,β,γ 是用于平衡對(duì)比損失的超參數(shù);λ是對(duì)模型參數(shù)集的 L2 正則化系數(shù).
5實(shí)驗(yàn)
本文進(jìn)行了以下實(shí)驗(yàn):(1)與現(xiàn)有先進(jìn)超關(guān)系知識(shí)圖譜補(bǔ)全方法對(duì)比,驗(yàn)證CoLor有效性;(2)觀察不同基座預(yù)訓(xùn)練模型對(duì)CoLor性能的影響;(3)通過消融實(shí)驗(yàn)驗(yàn)證各組件有效性;(4)測(cè)試不同超參數(shù)組合,檢查CoLor的參數(shù)敏感性;(5)案例分析說明利用外部語義信息的合理性.
5.1 實(shí)驗(yàn)準(zhǔn)備
5.1.1數(shù)據(jù)集本文在JF17K、WikiPeople和WD50K等3個(gè)常用超關(guān)系知識(shí)圖譜基準(zhǔn)數(shù)據(jù)集上全面測(cè)試了CoLor的性能.JF17K由Wen等2自Freebase[6數(shù)據(jù)庫收集得到,其實(shí)體表示為MID標(biāo)識(shí)號(hào),例如01027r;關(guān)系為結(jié)構(gòu)化文本,如award.ranking.WikiPeople由Guan等25]自Wikidata數(shù)據(jù)庫收集得到,專注于人物相關(guān)超關(guān)系事實(shí),并由Rosso等9]過濾去除無關(guān)文字.WD50K由Galkin等4自Wikidata收集得到,覆蓋更多超關(guān)系事實(shí),被視為一個(gè)高質(zhì)量基準(zhǔn).表1展示了數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)數(shù)據(jù).表1中“元數(shù)”表示超關(guān)系事實(shí)所涉及的實(shí)體數(shù)量.
5.1.2基線方法本文將CoLor與多種最先進(jìn)的超關(guān)系知識(shí)圖譜補(bǔ)全基線方法進(jìn)行了比較(見表3).需注意以下兩點(diǎn):(1)部分基線方法只針對(duì)補(bǔ)全主三元組中的頭尾實(shí)體,或針對(duì)補(bǔ)全所有實(shí)體而設(shè)計(jì),因此并未在原始論文中報(bào)告其在所有情況下的實(shí)驗(yàn)結(jié)果;(2)為公平比較,排除了基于文本的二元知識(shí)圖譜補(bǔ)全方法,例如KG-BERT[11]和SimKGC[1]:因?yàn)镃oLor僅在訓(xùn)練階段使用靜態(tài)文本嵌入,推理時(shí)依賴結(jié)構(gòu)表征,且基于文本的知識(shí)圖譜方法難以直接拓展到超關(guān)系知識(shí)圖譜(詳見第4.2節(jié)).
5.1.3評(píng)價(jià)指標(biāo)如第4.4節(jié)所述,對(duì)測(cè)試集所有實(shí)體和關(guān)系,按候選答案概率降序排列,根據(jù)真實(shí)標(biāo)簽確定正確答案位次.評(píng)價(jià)指標(biāo)為知識(shí)圖譜領(lǐng)域通用的平均倒數(shù)排名(MeanReciprocalRank,MRR)和k位擊中率(Hits@k,即在top k ( k=1 ,10)命中答案的概率,簡(jiǎn)寫為 .該兩種指標(biāo)值越高代表模型的性能越好.
5.1.4 超參數(shù) 本文使用網(wǎng)格搜索(Grid Search)來為CoLor選擇較優(yōu)超參數(shù),以實(shí)體補(bǔ)全上的Hits@1指標(biāo)為參考.最優(yōu)組合由對(duì)不同超參數(shù)的循環(huán)遍歷得到.參考Galkin等[4]、Wang等[5]、Luo等2的原文設(shè)置,在確定最優(yōu)配置后,結(jié)合訓(xùn)練集和驗(yàn)證集進(jìn)行訓(xùn)練,并報(bào)告測(cè)試集上的評(píng)估結(jié)果.相關(guān)超參數(shù)設(shè)置如表2所示.
5.1.5運(yùn)行環(huán)境與時(shí)間CoLor使用單張顯存為24G的RTX3090顯卡訓(xùn)練,以 AdamW[29] 優(yōu)化器來優(yōu)化訓(xùn)練目標(biāo) T. 通過凍結(jié)預(yù)訓(xùn)練語言模型的權(quán)重,CoLor僅保留用于其投影的多層感知機(jī)的權(quán)重,極大程度地減少了計(jì)算消耗.本文在CoLor的訓(xùn)練過程中同樣采用了卸載[30(offload)技術(shù),即通過預(yù)訓(xùn)練語言模型得到的語義表征只在需要檢索時(shí)才會(huì)加載到GPU顯存中,這樣也顯著降低了傳統(tǒng)預(yù)訓(xùn)練模型對(duì)于GPU顯存占用的依賴.與最具代表性的基于Transformer的方法之一STARE[4]相比,CoLor花費(fèi)更少的訓(xùn)練時(shí)間并取得了更佳的性能表現(xiàn):對(duì)于WikiPeople數(shù)據(jù)集上的主三元組實(shí)體補(bǔ)全,CoLor將Hits @1 指標(biāo)提升 14.8% ,且訓(xùn)練速度較STARE快 25%
5.1.6CoLor變體本文為CoLor設(shè)計(jì)了4個(gè)變體:CoLor-(僅由角色感知的結(jié)構(gòu)建模編碼器訓(xùn)練,不涉及上下文感知的語義建模編碼器及跨模態(tài)表征對(duì)齊)、 CoLorBERT (BERT-base[14]作為基座預(yù)訓(xùn)練語言模型)、CoLorRoBERTa(RoBERTa-base[15]作為基座預(yù)訓(xùn)練語言模型)以及CoLorLlama-2(Llama-2-7B1作為基座預(yù)訓(xùn)練語言模型).
5.2 有效性評(píng)估
5.2.1補(bǔ)全對(duì)比實(shí)驗(yàn)結(jié)果表3展示了不同方法在3個(gè)超關(guān)系知識(shí)圖譜基準(zhǔn)數(shù)據(jù)集上的實(shí)體補(bǔ)全對(duì)比結(jié)果,CoLor及其變體在不同數(shù)據(jù)集的絕大多數(shù)指標(biāo)上都取得了不同程度的領(lǐng)先.表3中,最優(yōu)結(jié)果加粗顯示,次優(yōu)結(jié)果加下劃線顯示.結(jié)果主要來自各方法對(duì)應(yīng)原始論文.“N/A\"表示對(duì)應(yīng)結(jié)果未在相關(guān)原始論文中報(bào)告或?qū)?yīng)基線方法不支持該種補(bǔ)全.在WikiPeople數(shù)據(jù)集上,對(duì)于所有實(shí)體補(bǔ)全,CoLor及其變種在MRR/H@1/H@10指標(biāo)上分別至多提高了 2.1(4.2%)/3.2(7.5%)/ 1.2(1.9%) .在WD50K數(shù)據(jù)集上,對(duì)于頭/尾實(shí)體補(bǔ)全,CoLor及其變體在MRR/ H@1/H@10 指標(biāo)上分別至多提高 1.3(3.7%)/1.6(5.8%)/ 0.8(1.6% .由于這兩個(gè)數(shù)據(jù)集的文本描述相對(duì)完整,CoLor及其變體能夠有效整合預(yù)訓(xùn)練語言模型中保留的通用知識(shí),從而顯著提高了補(bǔ)全質(zhì)量.在JF17K數(shù)據(jù)集中,結(jié)合預(yù)訓(xùn)練語言模型的相關(guān)CoLor變體相對(duì)表現(xiàn)次優(yōu).JF17K數(shù)據(jù)集為原生超圖結(jié)構(gòu)而非超關(guān)系事實(shí)結(jié)構(gòu),其事實(shí)中的屬性關(guān)系被構(gòu)建為主關(guān)系的簡(jiǎn)單備份[4.9]而并非含有真實(shí)屬性關(guān)系語義.由此,JF17K數(shù)據(jù)集所含的語義信息較原生超關(guān)系數(shù)據(jù)集相對(duì)更少,結(jié)合預(yù)訓(xùn)練語言模型的CoLor變體可能會(huì)因此受到干擾進(jìn)而表現(xiàn)出其補(bǔ)全性能低于CoLor-.
5.2.2基座預(yù)訓(xùn)練語言模型對(duì)比如表3所示,在相同超關(guān)系圖譜基準(zhǔn)數(shù)據(jù)集上,不同基座預(yù)訓(xùn)練模型的CoLor及變體表現(xiàn)各異.基于自編碼器的掩碼語言模型(MaskedLanguage Model,MLM如BERT和RoBERTa,表現(xiàn)優(yōu)于生成式模型Llama-2.盡管RoBERTa改進(jìn)了BERT的訓(xùn)練策略,BERT在超關(guān)系圖譜上仍表現(xiàn)出更佳的文本表征.Llama-2因其自回歸(Autoregressive)訓(xùn)練方式,更擅長(zhǎng)生成連續(xù)文本而非精準(zhǔn)預(yù)測(cè)具體實(shí)體或關(guān)系,其補(bǔ)全性能低于BERT類模型,符合預(yù)期.
5.3 進(jìn)一步分析
5.3.1消融實(shí)驗(yàn)本文使用文本描述信息保存較為完整的數(shù)據(jù)集,即WikiPeople上實(shí)體補(bǔ)全表現(xiàn)較好的 CoLorBERT 進(jìn)行對(duì)應(yīng)的消融實(shí)驗(yàn)以全面評(píng)估CoLor的關(guān)鍵構(gòu)成部分.消融實(shí)驗(yàn)結(jié)果如表4所示.表中,“HCG”表示邊偏置所對(duì)應(yīng)構(gòu)建的異構(gòu)完全圖;“RE\"表示角色嵌入;“VST”、“VSE\"和“GSE”分別表示3種跨模態(tài)對(duì)比監(jiān)督(見第4.3節(jié)).所有組件均在不同層面上提升了補(bǔ)全性能,表明融合外部語義信息于超關(guān)系圖譜建模中有價(jià)值.總體上,5個(gè)關(guān)鍵組件均正向促進(jìn)了CoLor的補(bǔ)全性能.5.3.2參數(shù)敏感性分析本文在WikiPeople上對(duì)CoLOrBERT調(diào)整跨模態(tài)對(duì)比學(xué)習(xí)的損失參數(shù) α 、β,γ 以及批量大小并觀察模型性能變化.實(shí)驗(yàn)固定了除研究變量外的其他超參數(shù)為最優(yōu)值.實(shí)驗(yàn)結(jié)果如圖3a和3b所示,表明隨著對(duì)比樣本數(shù)量的增加,CoLor的實(shí)體補(bǔ)全性能也隨之提升.此外,三重對(duì)比監(jiān)督均能有效地促進(jìn)超關(guān)系知識(shí)圖譜的補(bǔ)全任務(wù).然而,當(dāng)跨模態(tài)對(duì)比損失系數(shù) α,β 和y增大時(shí),性能指標(biāo)出現(xiàn)了輕微的下降趨勢(shì).這可能是因?yàn)榻Y(jié)構(gòu)化事實(shí)模態(tài)與非結(jié)構(gòu)化文本模態(tài)間存在的噪聲導(dǎo)致了這種現(xiàn)象,因此跨模態(tài)對(duì)比損失的權(quán)重需要進(jìn)行適當(dāng)?shù)钠胶猓?/p>
5.3.3案例分析本文在WikiPeople數(shù)據(jù)集上隨機(jī)選取測(cè)試集中的“困難\"案例(Hardcases)進(jìn)行分析.“困難”案例指存在相似候選者的場(chǎng)景,選擇此類案例以展示方法在高混淆風(fēng)險(xiǎn)下的魯棒性.
表5給出了3個(gè)“困難\"案例, ET ”和 EA ”分別表示支持候選與真實(shí)實(shí)體/關(guān)系的文本證據(jù).表5中待補(bǔ)全真實(shí)實(shí)體/關(guān)系加粗表示.表5列出前三候選實(shí)體/關(guān)系及其對(duì)應(yīng)概率,CoLor分別在不同候選位置上完成正確預(yù)測(cè).盡管候選者寓意相似,CoLor仍能縮小候選范圍而有效補(bǔ)全(甚至可以用正確的上下文意義替換給定的答案).此外,還進(jìn)行了可視化實(shí)驗(yàn).圖4a為WikiPeople實(shí)體嵌入對(duì)應(yīng)t-SNE二維投影;圖4b顯示了案例②在結(jié)構(gòu)編碼器最后一層中不同實(shí)體與關(guān)系間的可視化注意力權(quán)重.CoLor將實(shí)體表征在投影空間中劃分為多個(gè)明顯且分離的簇,顯示了其有效性.
6結(jié)論
本文所提出的CoLor方法針對(duì)超關(guān)系知識(shí)圖譜補(bǔ)全,首先通過構(gòu)建等價(jià)于每個(gè)超關(guān)系事實(shí)的異構(gòu)完全圖以及實(shí)體和關(guān)系對(duì)應(yīng)的角色嵌入,充分挖掘了超關(guān)系知識(shí)圖譜的內(nèi)部結(jié)構(gòu)信息;同時(shí),通過收集實(shí)體與關(guān)系對(duì)應(yīng)的外部文本描述,并結(jié)合預(yù)訓(xùn)練語言模型引入圖譜的外部語義信息;最后,利用豐富的對(duì)比監(jiān)督信號(hào)來對(duì)齊跨模態(tài)表征,從而有效學(xué)習(xí)了超關(guān)系知識(shí)圖譜的跨模態(tài)表示,進(jìn)一步優(yōu)化了對(duì)超關(guān)系知識(shí)圖譜的補(bǔ)全性能.
盡管CoLor表現(xiàn)出良好的性能,其仍然存在部分限制,如引入其他模態(tài)所帶來相對(duì)較高的計(jì)算消耗,以及當(dāng)數(shù)據(jù)集語義信息質(zhì)量較低時(shí)難以充分利用預(yù)訓(xùn)練語言模型.未來計(jì)劃持續(xù)挖掘更高質(zhì)量的結(jié)構(gòu)-語義樣本對(duì)并引入多卡并行計(jì)算以提升跨模態(tài)對(duì)比學(xué)習(xí)質(zhì)量和提高模型訓(xùn)練效率.
參考文獻(xiàn):
[1] WangL,Zhao W,WeiZ,et al.SimKGC:Simple contrastive knowledge graph completion with pretrained language models [C]//Proceedings of the 60th Annual Meeting of the Association for Computa tional Linguistics.Dublin:ACL,2022:4281.
[2] Luo H,EH,YangY,et al.HAHE:Hierarchical attention for hyper-relational knowledge graphsin global and local level[C]//Proceedings of the 6lst Annual MeetingoftheAssociation forComputational Linguistics. Toronto:ACL,2023:8095.
[3] LiZ,Huang C,ZengY,et al.Link completion and keynode identification of fraudulent network based on knowledge graph embedding[J]. Journal of SichuanUniversity(Natural ScienceEdition),2O24,61: 030004.[李澤卿,黃誠(chéng),曾雨潼,等.基于知識(shí)圖譜 嵌入的涉詐網(wǎng)絡(luò)鏈接補(bǔ)全和關(guān)鍵節(jié)點(diǎn)識(shí)別[J].四川 大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,61:030004.]
[4] GalkinM,TrivediP,MaheshwariG,etal.Mes sage passingforhyper-relationalknowledge graphs[C]//Proceedings of the 2O2O Conference on Empirical Methods in Natural Language Processing, EMNLP202O,Online:ACL,2020:7346.
[5] WangQ,WangH,LyuY,et al.Link prediction on n-aryrelational facts:A graph-based approach[C]// Findings of the Association for Computational Linguistics.[S.1.]:ACL,2021:396.
[6] BollackerKD,EvansC,ParitoshPK,etal.Freebase:A collaboratively created graph database for structuring human knowledge [C]//Proceedings of the ACM SIGMOD International Conference on Management of Data.Vancouver:ACM,2008: 1247.
[7] WangC,Wang X,LiZ,et al.HyConvE:A novel embedding model for knowledge hypergraph link prediction with convolutional neural networks[C]//Proceedings of the ACM Web Conference 2023.Austin, TX:ACM, 2023:188.
[8] Guo Z,Zuo J,Duan L,et al.A generative adver sarial negative sampling method for knowledge hypergraph link prediction[J]. Journal of Computer Research and Development,2022,59:1742.[郭正山, 左劫,段磊,等.面向知識(shí)超圖鏈接預(yù)測(cè)的生成對(duì) 抗負(fù)采樣方法[J].計(jì)算機(jī)研究與發(fā)展,2022,59: 1742.]
[9] Rosso P,Yang D,Cudre-Mauroux P. Beyond triplets:Hyper-relational knowledge graph embedding for link prediction[C]//Proceedings of The Web Conference 2020.Taipei:ACM,2020:1885.
[10]Dong X,Gabrilovich E,Heitz G,et al. Knowledge vault:A web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 2Oth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM, 2014: 601.
[11]Yao L,Mao C,Luo Y.KG-BERT:BERT for knowledge graph completion [EB/OL]. [2024-09- 11].https://arxiv.org/abs/1909.03193.
[12]Wang B, Shen T,Long G,et al. Structureaugmented text representation learning for efficient knowledge graph completion [C]//Proceedings of The Web Conference 2O21.Ljubljana:ACM,2021: 1737.
[13]VaswaniA,ShazeerN,Parmar N,et al.Attention is all you need[C]//Proceedings of the Annual Conference on Neural Information Processing Systems. Long Beach:MIT Press,2017:5998.
[14]Devlin J,Chang M W,Lee K,et al. BERT:Pretraining of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the AsSociation for Computational Linguistics. Minneapolis:ACL,2019: 4171.
[15]Liu Y,Ott M,Goyal N,et al. RoBERTa:A robustly optimized BERT pretraining approach[EB/ OL].[2019-07-26]. htps://arxiv.org/abs/1907. 11692.
[16]Touvron H,Martin L,Stone K,et al. Llama 2: Open foundation and fine-tuned chat models[EB/ OL].[2024-07-19]. https://arxiv. org/abs/2307. 09288.
[17]Antoine B,Nicolas U,Alberto G,et al. Translating embeddings for modeling multi-relational data[C]// Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Lake Tahoe, Nevada: MIT Press, 2013: 2787.
[18]Sun Z,Deng Z,Nie J,et al. RotatE: Knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the 7th International Conference on Learning Representations.New Orleans: ICLR,2019:1.
[19]Di S,Chen L.Message function search for knowledge graph embedding [C]//Proceedings of the ACMWebConference2023.Austin:ACM,2023: 2633.
[20]Kipf T N,Welling M. Semi-supervised classification with graph convolutional networks[C]//Proceedings of 5th International Conference on Learning Representations. Toulon: ICLR,2017:1.
[21]Shomer H, Jin W,Li J,et al. Learning representations for hyper-relational knowledge graphs[C]// Proceedings of the International Conference on Advances in Social Networks Analysis and Mining. Kusadasi: ASONAM, 2023:253.
[22]Xiong B,NayyeriM,Pan S,et al.Shrinking embeddings for hyper-relational knowledge graphs [C]// Proceedings of the 6lst Annual Meetingof the Association for Computational Linguistics. Toronto: ACL,2023:13306.
[23]Ba JL,Kiros JR,Hinton G. Layer normalization[EB/OL].[2024-07-21].htps://arxiv.org/ abs/1607.06450.
[24]He K, Zhang X,Ren S,et al. Deep residual learning forimage recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE, 2016: 770.
[25]Guan S, Jin X,Wang Y,et al. Link prediction on Naryrelational data[C]//Proceedings of the World Wide Web Conference.San Francisco: ACM, 2019:583.
[26]Wen J,Li J,Mao Y,et al.On the representation and embedding of knowledge bases beyond binary relations[C]//Proceedingsof the 25th International Joint Conference on Artificial Intelligence.New York:Morgan Kaufmann,2016:1300.
[27]Gao T,Yao X,Chen D. SimCSE:Simple contrastive learning of sentence embeddings[C]//Proceedings of the 2O21 Conference on Empirical Methods in Natural Language Processing. Punta Cana: ACL, 2021:6894.
[28]Chen T,Kornblith S,Norouzi M,et al.A simple framework for contrastive learning of visual representations[C]//Proceedings of the 37th International Conference on Machine Learning.Virtual Event: ACM,2020:1597.
[29]Loshchilov I,Hutter F.Decoupled weight decay regularization[C]//Proceedings of the 7th International Conference on Learning Representations.New Orleans:ICLR,2019:1.
[30]Ren J,Rajbhandari S,Aminabadi RY,et al. Zerooffload:Democratizing billion-scale model training[C]//Proceedings of the 2021 USENIX Annual Technical Conference.[S.1.]:USENIX Association,2021:551.
[31]Zhang R,Li J,Mei J,et al. Scalable instance reconstruction in knowledge bases via relatedness affiliated embedding[C]//Proceedings of the 2018 World WideWeb Conference.Lyon:ACM,2018:1185.
[32]Guan S,Jin X,Guo J, et al. NeuInfer: Knowledge inference on N-ary facts[C]//Proceedings of the 58th Annual Meeting of the Association for ComputationalLinguistics.[S.1.]:ACL,2O2O:6141.
[33]Lu Y, Yang D,Wang P,et al. Schema-aware hyperrelational knowledge graph embeddings for link prediction[J]. IEEE Transactions on Knowledge and Data Engineering,2024,36:2614.
(責(zé)任編輯:伍少梅)
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年4期