彭 鐄,曾維新,周 杰,唐九陽(yáng),趙 翔
國(guó)防科技大學(xué) 大數(shù)據(jù)與決策實(shí)驗(yàn)室,長(zhǎng)沙 410073
知識(shí)圖譜(knowledge graphs,KG)是以三元組的形式(頭實(shí)體、關(guān)系、尾實(shí)體)存儲(chǔ)和表示知識(shí)的一種圖數(shù)據(jù)庫(kù),其中每個(gè)節(jié)點(diǎn)都代表真實(shí)世界中的某個(gè)唯一的對(duì)象,而邊則表示這些對(duì)象之間的關(guān)系。知識(shí)圖譜已被廣泛用于改進(jìn)各種下游任務(wù),例如語(yǔ)義搜索[1]、推薦系統(tǒng)[2-3]和自然語(yǔ)言問(wèn)答[4-5]。在實(shí)際應(yīng)用中,不同的知識(shí)圖譜通常是從不同數(shù)據(jù)來(lái)源獨(dú)立構(gòu)建而得,因此難以覆蓋某一領(lǐng)域的全部知識(shí)[6]。為提高知識(shí)圖譜的完備性,一種常用的做法是將其他知識(shí)圖譜融合進(jìn)來(lái),因?yàn)檫@些知識(shí)圖譜可能包含額外的或者互補(bǔ)的信息[7]。在這一過(guò)程中,一個(gè)關(guān)鍵的步驟是識(shí)別出兩個(gè)不同知識(shí)圖譜(分別被稱(chēng)為源知識(shí)圖譜和目標(biāo)知識(shí)圖譜)中的等價(jià)實(shí)體,即指向真實(shí)世界中相同對(duì)象的實(shí)體[8]。這一任務(wù)被稱(chēng)為實(shí)體對(duì)齊(entity alignment,EA)。
當(dāng)前的實(shí)體對(duì)齊方法大都假設(shè)不同知識(shí)圖譜中的相同實(shí)體具有相似的鄰接結(jié)構(gòu)信息,然后通過(guò)表示學(xué)習(xí)和對(duì)齊推理兩個(gè)步驟完成實(shí)體對(duì)齊任務(wù)[9]。其中,表示學(xué)習(xí)旨在將知識(shí)圖譜表示為低維向量,根據(jù)向量之間的關(guān)聯(lián)建立不同知識(shí)圖譜中實(shí)體的關(guān)聯(lián)。表示學(xué)習(xí)的效果對(duì)最終對(duì)齊的結(jié)果有著較大影響,因此當(dāng)前的大多數(shù)研究都致力于提升表示學(xué)習(xí)的準(zhǔn)確性。實(shí)體對(duì)齊中表示學(xué)習(xí)的早期代表方法為T(mén)ransE[10],該方法假設(shè)每個(gè)三元組(h,r,t)滿(mǎn)足近似等式h+r≈t,并根據(jù)該假設(shè)學(xué)習(xí)三元組的表示。后續(xù)提出的改進(jìn)方法TransH[11]、BootEA[12]、MTransE[13]等也都是對(duì)該假設(shè)的變換。而近期的實(shí)體對(duì)齊工作,大多都采用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[14]來(lái)學(xué)習(xí)知識(shí)圖譜的表示,主要通過(guò)建模實(shí)體的鄰居特征來(lái)生成實(shí)體的向量表示。具體地,基于圖神經(jīng)網(wǎng)絡(luò)的方法通過(guò)消息的傳遞與聚合,使得每個(gè)實(shí)體的表示都融合了其鄰居實(shí)體、關(guān)系或其他類(lèi)型的特征信息,從而生成準(zhǔn)確的實(shí)體表示[15]。目前基于圖神經(jīng)網(wǎng)絡(luò)的方法已從初始的一跳鄰居實(shí)體特征的學(xué)習(xí),發(fā)展到了對(duì)更大范圍的多種特征的學(xué)習(xí),并且附加了輔助增強(qiáng)學(xué)習(xí)效果的模塊[16-19]。
圖神經(jīng)網(wǎng)絡(luò)由于模型結(jié)構(gòu)與知識(shí)圖譜的相容性和強(qiáng)大的圖結(jié)構(gòu)信息的學(xué)習(xí)能力,在實(shí)體對(duì)齊的表示學(xué)習(xí)中得到了廣泛的應(yīng)用,發(fā)展出了結(jié)構(gòu)紛雜多樣的各種方法。為了以一個(gè)統(tǒng)一的便于理解的框架描述這些方法,剖析其內(nèi)部結(jié)構(gòu)和工作原理,并為未來(lái)方法的優(yōu)化改進(jìn)提供參考,本文對(duì)這些模型進(jìn)行了歸納與比較研究。本文的主要工作可以總結(jié)為以下三點(diǎn):
(1)提出了一種描述這類(lèi)表示學(xué)習(xí)方法的通用框架,并選取了近期具有代表性的工作進(jìn)行總結(jié)和對(duì)比,根據(jù)該通用框架對(duì)這些工作中的表示學(xué)習(xí)模型的各個(gè)部分進(jìn)行了解構(gòu)和歸納。
(2)進(jìn)行了這些模型之間的對(duì)比實(shí)驗(yàn)和表示學(xué)習(xí)模型內(nèi)部結(jié)構(gòu)的消融和替換實(shí)驗(yàn),揭示了當(dāng)前方法的優(yōu)缺點(diǎn),為后續(xù)的研究提供參考。
(3)針對(duì)當(dāng)下興起的語(yǔ)言大模型與知識(shí)圖譜結(jié)合的研究方向,通過(guò)初步的實(shí)驗(yàn)指出了該場(chǎng)景下現(xiàn)有表示學(xué)習(xí)方法的問(wèn)題以及下一步需要研究的方向。
為更好地理解當(dāng)前基于圖神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法,本文提出一個(gè)通用框架來(lái)描述這些方法,如圖1所示。該框架包括六部分:預(yù)處理模塊、消息傳遞模塊、注意力模塊、聚合模塊、后處理模塊和損失函數(shù)。
圖1 表示學(xué)習(xí)通用框架Fig.1 Universal framework of representation learning
首先是預(yù)處理階段,旨在對(duì)原始知識(shí)圖譜的三元組信息進(jìn)行處理,以生成初始的實(shí)體或關(guān)系向量表示;然后通過(guò)一個(gè)或若干基于圖神經(jīng)網(wǎng)絡(luò)的模型獲得更好的表示。一個(gè)圖神經(jīng)網(wǎng)絡(luò)通常包含三個(gè)步驟,即消息傳遞、注意力和聚合。消息傳遞過(guò)程基于圖譜的結(jié)構(gòu)、屬性和語(yǔ)義等信息,提取鄰居實(shí)體或關(guān)系的特征,用于后續(xù)的特征整合與更新;注意力模塊旨在計(jì)算不同特征的權(quán)重來(lái)進(jìn)而優(yōu)化鄰接信息的整合過(guò)程[20-21];聚合模塊則基于前述所提取的鄰接特征以及注意力機(jī)制計(jì)算出的權(quán)重來(lái)聚合特征,并得到更新后的向量表示[22-23]。一些方法還通過(guò)后處理操作,增強(qiáng)得到的最終表示。在訓(xùn)練階段,損失函數(shù)決定了表示學(xué)習(xí)模型訓(xùn)練的方向。
按照上述通用框架,本文選取了十種近期實(shí)體對(duì)齊工作中的表示學(xué)習(xí)模型,并總結(jié)如表1所示。下面分別闡述這六部分的現(xiàn)狀:
(1)預(yù)處理模塊。部分方法未進(jìn)行預(yù)處理操作,直接采用隨機(jī)的初始化方法。其他方法主要分為兩類(lèi):一類(lèi)是使用預(yù)訓(xùn)練模型,輸入名稱(chēng)或文本描述來(lái)生成初始表示;另一類(lèi)則是使用較為簡(jiǎn)單的GNN 學(xué)習(xí)結(jié)構(gòu)信息來(lái)生成初始表示。
(2)消息傳遞模塊。從表1中可以看出大部分模型采用了線(xiàn)性變換的方法,即用一個(gè)可學(xué)習(xí)的參數(shù)矩陣乘以鄰居特征。其他消息傳遞的方法則包括多頭鄰居消息的拼接,直接使用鄰居特征等。
(3)注意力模塊。根據(jù)計(jì)算公式中相似度的計(jì)算方式,可對(duì)這些模型進(jìn)行分類(lèi)。其中大部分模型采用了拼接乘積的形式計(jì)算中心實(shí)體和鄰居的相似度。具體而言,便是將中心實(shí)體與鄰居的特征進(jìn)行拼接,然后乘以一個(gè)可學(xué)習(xí)的參數(shù)向量。還有部分模型采用了內(nèi)積的形式,通過(guò)計(jì)算中心實(shí)體與鄰居特征的內(nèi)積來(lái)得到兩者的相似度。
(4)聚合模塊。按照計(jì)算公式中聚合的對(duì)象對(duì)這些模型進(jìn)行了分類(lèi)。從表1 中可以看到幾乎所有模型都聚合了1跳鄰居實(shí)體或者關(guān)系的信息,同時(shí)也有個(gè)別模型結(jié)合了多跳鄰居的信息。
(5)后處理模塊。大多數(shù)模型采用了拼接GNN中各隱藏層的中間結(jié)果來(lái)強(qiáng)化最終的表示,還有一些模型使用了如門(mén)控機(jī)制[34]的自適應(yīng)策略來(lái)結(jié)合不同特征,獲得最終的表示。
(6)損失函數(shù)。當(dāng)前絕大多數(shù)模型均在訓(xùn)練時(shí)使用基于邊緣的損失函數(shù),使表示學(xué)習(xí)模型生成的正例樣本對(duì)距離盡可能近,且負(fù)例樣本對(duì)距離盡可能遠(yuǎn)。有的模型在此基礎(chǔ)上加上了TransE損失函數(shù),有的則利用歸一化和LogSumExp操作[35]進(jìn)行改進(jìn)。
為了更詳細(xì)地解析當(dāng)前表示學(xué)習(xí)模型的結(jié)構(gòu),本文將對(duì)表1 中十種模型的各個(gè)部分進(jìn)行闡述。其中圖神經(jīng)網(wǎng)絡(luò)中的各個(gè)步驟可概括為如下公式:
AliNet利用了多跳鄰居實(shí)體來(lái)進(jìn)行實(shí)體表示[24],其方法如下。
在聚合模塊,使用了多跳的聚合策略。對(duì)于兩跳的聚合,公式為:
其中N2表示兩跳鄰居。之后將多跳的聚合結(jié)果合成實(shí)體表示,一跳和兩跳信息聚合如下:
對(duì)于注意力部分,該模型使用中心實(shí)體與鄰居實(shí)體表示的內(nèi)積來(lái)計(jì)算不同鄰居的注意力權(quán)重:
在消息傳遞模塊,該模型中鄰居實(shí)體特征的提取是通過(guò)一個(gè)簡(jiǎn)單的線(xiàn)性變換實(shí)現(xiàn)的,即Messaging(i,j)=,其中Wq表示第q跳鄰居的變換矩陣。
后處理部分,最終的實(shí)體表示由GNN 中所有層的輸出拼接而成:
其中⊕表示拼接操作,norm(?)為L(zhǎng)2歸一化函數(shù)。其損失函數(shù)定義為:
其中A-是隨機(jī)采樣的負(fù)樣本的集合,||?||表示L2范數(shù),[?]+=max(0,?)。
該工作提出利用關(guān)系信息促進(jìn)實(shí)體表示學(xué)習(xí)過(guò)程的模型MRAEA(meta relation aware entity alignment)[25]。對(duì)于預(yù)處理模塊,首先為每個(gè)關(guān)系生成一個(gè)反向關(guān)系,得到擴(kuò)充的關(guān)系集合R,然后通過(guò)平均和拼接鄰居實(shí)體和鄰居關(guān)系的嵌入得到初始的實(shí)體特征:
其中實(shí)體和關(guān)系的嵌入均為隨機(jī)初始化得到。
其中Mi,j表示由ei指向ej的關(guān)系,σ為L(zhǎng)eakyReLU激活函數(shù)。值得注意的是,該方法同樣也可以用于多頭注意力機(jī)制。
對(duì)于消息傳遞,這一過(guò)程中的鄰居實(shí)體特征即為預(yù)處理階段對(duì)應(yīng)的特征。后處理部分,最終實(shí)體表示由不同層的輸出拼接而成:
損失函數(shù)定義為:
該工作提出了使用關(guān)系鏡像變換聚合特征來(lái)學(xué)習(xí)實(shí)體表示的模型RREA(relational reflection entity alignment)[26]。
在聚合模塊,實(shí)體表示計(jì)算公式如下:
對(duì)于消息傳遞,這一過(guò)程中的鄰居實(shí)體特征即為預(yù)處理階段對(duì)應(yīng)的特征,即Msg(i,j,k)=。
后處理階段,與前述方法類(lèi)似,網(wǎng)絡(luò)中不同層的輸出被拼接在一起形成表示,然后將實(shí)體表示與其鄰居關(guān)系的嵌入拼接在一起得到最終的實(shí)體表示:
損失函數(shù)定義為:
RPR-RHGT(reliable path reasoning-relation aware heterogeneous graph transformer)引入了基于元路徑的相似度計(jì)算框架,將預(yù)對(duì)齊的種子實(shí)體的鄰居當(dāng)作可靠的路徑。關(guān)于可靠路徑的生成參考文獻(xiàn)[27]第3.3節(jié)。
對(duì)于預(yù)處理模塊,該模型首先通過(guò)聚合鄰居實(shí)體的表示來(lái)生成關(guān)系嵌入:
其中Hr和Tr分別為關(guān)系r連接的所有頭實(shí)體和尾實(shí)體集合,bh和bt分別是頭尾實(shí)體的權(quán)重系數(shù),||表示拼接操作,初始的實(shí)體表示e0由實(shí)體名稱(chēng)經(jīng)過(guò)一個(gè)預(yù)訓(xùn)練的文本嵌入得到。
在聚合模塊,實(shí)體h的表示由鄰居實(shí)體傳遞的消息經(jīng)過(guò)注意力系數(shù)加權(quán)后得到:
其中⊕表示覆蓋操作。
注意力部分,多頭注意力計(jì)算方式如下:
消息傳遞部分,多頭消息傳遞計(jì)算方式如下:
其中V_Lineari是尾實(shí)體的線(xiàn)性投影,與實(shí)體對(duì)應(yīng)關(guān)系的表示拼接后得到第i頭的消息。
后處理階段,該模型通過(guò)殘差連接[37]將結(jié)構(gòu)特征與名稱(chēng)特征結(jié)合在一起?;陉P(guān)系結(jié)構(gòu)Trel和路徑結(jié)構(gòu)Tpath,可以分別生成基于關(guān)系的實(shí)體表示Erel和基于路徑的實(shí)體表示Epath。
最終的總損失函數(shù)為基于邊緣的排序損失函數(shù):
其中L 為種子實(shí)體對(duì),L′為負(fù)樣本實(shí)體對(duì),λ1是邊緣超參數(shù),||?||1為L(zhǎng)1 范數(shù),Lpath的定義與Lrel類(lèi)似。θ是控制兩種損失權(quán)重的超參數(shù)。
NMN(neighborhood matching network)同時(shí)利用實(shí)體的拓?fù)浣Y(jié)構(gòu)和鄰居的差異信息來(lái)獲得更好的實(shí)體表示[28]。
在預(yù)處理階段,該工作使用了谷歌翻譯將實(shí)體名稱(chēng)統(tǒng)一翻譯為英語(yǔ)[38],然后使用預(yù)訓(xùn)練好的向量[39]作為輸入。接著用一個(gè)簡(jiǎn)單的帶有highway 網(wǎng)絡(luò)[34]的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)對(duì)實(shí)體表示進(jìn)行預(yù)訓(xùn)練,詳細(xì)設(shè)置可參見(jiàn)文獻(xiàn)[28]第3.2 節(jié),得到的實(shí)體i的表示記為hi。利用預(yù)訓(xùn)練得到的實(shí)體表示,NMN 提出一種對(duì)實(shí)體的鄰居進(jìn)行采樣的方法,形式化地,該方法給出了實(shí)體i的第j個(gè)鄰居被采樣的概率分布,之后還為每個(gè)實(shí)體挑選了若干候選對(duì)齊實(shí)體,E2為目標(biāo)知識(shí)圖譜的實(shí)體集合,細(xì)節(jié)描述參見(jiàn)文獻(xiàn)[28]第3.3節(jié)和第3.4節(jié)。
聚合模塊,NMN 對(duì)跨圖譜的鄰居信息進(jìn)行了傳遞和聚合。給定實(shí)體對(duì)(ei,cik),p和q分別是ei和cik的鄰居,計(jì)算公式為:
消息傳遞部分,NMN 通過(guò)鄰居之間的差異傳遞特征,即Msg(p,q)=hp-hq。因此mp實(shí)際衡量了中心實(shí)體的鄰居p與對(duì)應(yīng)候選實(shí)體的鄰居的差異程度。
注意力部分,NMN采用內(nèi)積來(lái)計(jì)算注意力權(quán)重,公式為:
后處理階段,首先將聚合得到的向量與實(shí)體表示拼接得到鄰居的增強(qiáng)表示,β為超參數(shù)。然后將鄰居的增強(qiáng)表示累加[40]:
其中αip即為實(shí)體i的鄰居p被采樣的概率,σ()為sigmoid函數(shù),Wg和WN均為可學(xué)習(xí)參數(shù)。最終實(shí)體表示為
損失函數(shù)為基于邊緣的損失,與式(12)類(lèi)似,不再贅述。
RAGA(relation-aware graph attention network)利用自注意力機(jī)制將實(shí)體信息傳遞給關(guān)系,之后再把關(guān)系信息傳遞回實(shí)體,以此增強(qiáng)實(shí)體表示的質(zhì)量[29]。
在預(yù)處理階段,使用預(yù)訓(xùn)練好的向量[39]作為輸入,并通過(guò)一個(gè)兩層的帶有highway 網(wǎng)絡(luò)的GCN 編碼結(jié)構(gòu)信息。詳細(xì)實(shí)現(xiàn)可參見(jiàn)文獻(xiàn)[29]第4.2節(jié)。
對(duì)于聚合模塊,在RAGA 模型中有三個(gè)主要的GNN網(wǎng)絡(luò)。記由預(yù)處理部分得到的實(shí)體ei的初始表示為hi。第一個(gè)GNN 通過(guò)聚合所有與其相連的頭實(shí)體和尾實(shí)體來(lái)得到關(guān)系的表示。對(duì)于關(guān)系rk,其所有頭實(shí)體的聚合計(jì)算過(guò)程與式(10)類(lèi)似,其聚合對(duì)象為關(guān)系rk的所有頭實(shí)體,以及與這些頭實(shí)體對(duì)應(yīng)的所有尾實(shí)體。對(duì)于尾實(shí)體的聚合通過(guò)一個(gè)類(lèi)似的過(guò)程得到。關(guān)系的表示則為
之后,第二個(gè)GNN 通過(guò)把關(guān)系信息聚合回實(shí)體獲得關(guān)系感知的實(shí)體表示。對(duì)于實(shí)體ei,所有其向外的關(guān)系嵌入的聚合過(guò)程如下:
最后,第三個(gè)GNN 將關(guān)系感知的實(shí)體表示作為輸入,再對(duì)一跳鄰居實(shí)體進(jìn)行聚合得到輸出
注意力部分,對(duì)應(yīng)三個(gè)GNN網(wǎng)絡(luò),RAGA模型中有三個(gè)注意力權(quán)重的計(jì)算。在第一個(gè)GNN 中,頭尾實(shí)體分別進(jìn)行線(xiàn)性變換后拼接得到注意力中的相似度,其中a1是可學(xué)習(xí)的注意力向量,σ為L(zhǎng)eakyReLU 函數(shù)。在第二個(gè)GNN 中,實(shí)體的表示與其鄰居關(guān)系被直接拼接在一起,沒(méi)有進(jìn)行線(xiàn)性變換。第三個(gè)GNN 中注意力的計(jì)算方式,即Att3(i,j),與上述類(lèi)似,只是將鄰居關(guān)系替換為鄰居實(shí)體,不再贅述。
消息傳遞部分,該模型中只有第一個(gè)GNN 使用了線(xiàn)性變換作為消息傳遞的方式,即Msg1(i)=Whi,其中W在聚合頭實(shí)體時(shí)為Wh,聚合尾實(shí)體時(shí)為Wt。
后處理階段,最終增強(qiáng)的實(shí)體表示是第二個(gè)和第三個(gè)GNN輸出的拼接
損失函數(shù)定義類(lèi)似公式(12)。
該工作提出一種屬性值編碼器和將知識(shí)圖譜劃分成子圖來(lái)對(duì)不同類(lèi)型的屬性三元組進(jìn)行有效的建模[30]。
在預(yù)處理階段,根據(jù)屬性類(lèi)型的不同,知識(shí)圖譜被劃分為四個(gè)子圖:第一個(gè)子圖包含所有“名稱(chēng)”屬性的三元組,第二個(gè)和第三個(gè)子圖分別包含屬性值為文本和數(shù)值類(lèi)型的三元組,第四個(gè)子圖則包含關(guān)系三元組。在跨語(yǔ)言數(shù)據(jù)集上,知識(shí)圖譜中所有文本都通過(guò)谷歌翻譯轉(zhuǎn)換為英語(yǔ)。文中使用了預(yù)訓(xùn)練的BERT(bidirectional encoder representations from transformers)模型[41]生成每個(gè)屬性三元組中屬性值的向量表示。第一個(gè)子圖中實(shí)體的初始表示為其名稱(chēng)的嵌入向量,而其他三個(gè)子圖中的實(shí)體和屬性均被隨機(jī)初始化為相同固定長(zhǎng)度的向量。
每個(gè)子圖的實(shí)體表示均由兩層有殘差連接[37]的圖神經(jīng)網(wǎng)絡(luò)生成。對(duì)于聚合模塊,AttrGNN在圖神經(jīng)網(wǎng)絡(luò)的第二層使用簡(jiǎn)單的平均值操作聚合實(shí)體與其鄰居的特征[42]:
其中W2為可學(xué)習(xí)參數(shù),mean(?)為取均值操作,σ為ReLU激活函數(shù)。
而在第一層中,實(shí)體的表示由實(shí)體的屬性與屬性值聚合生成:
在消息傳遞部分,AttrGNN將實(shí)體的所有屬性和屬性值進(jìn)行拼接,并通過(guò)線(xiàn)性變換提取特征:
其中W1為可學(xué)習(xí)權(quán)重參數(shù),aj和vj分別是該實(shí)體的第j個(gè)屬性和對(duì)應(yīng)的屬性值的向量。
注意力部分,計(jì)算公式與式(4)類(lèi)似,其中相似度部分由實(shí)體的初始表示與屬性向量拼接計(jì)算得到,即,其中u為可學(xué)習(xí)的注意力向量,為預(yù)處理階段得到的實(shí)體的初始表示。
對(duì)于損失函數(shù),AttrGNN為每個(gè)子圖分別計(jì)算損失,公式與式(9)類(lèi)似,其中使用的距離函數(shù)為余弦距離dis(?,?)=1-cos(?,?)。
PSR(high performance,scalability and robustness)利用鏡像變換對(duì)知識(shí)圖譜進(jìn)行表示學(xué)習(xí),并提出一種無(wú)需負(fù)采樣的損失函數(shù)和半監(jiān)督的訓(xùn)練方法[31]。
在聚合模塊,受RREA 啟發(fā),PSR 將關(guān)系鏡像變換運(yùn)用于消息傳遞和注意力計(jì)算中。具體地,定義變換函數(shù)如下:
受BYOL(bootstrap your own latent)[44]和SimSiam[45]的啟發(fā),PSR 沒(méi)有進(jìn)行負(fù)采樣,而是采用凍結(jié)部分反向傳播計(jì)算的方式進(jìn)行訓(xùn)練,其損失函數(shù)定義如下:
Dual-AMN(dual attention matching network)提出利用圖譜內(nèi)和跨圖譜的信息來(lái)學(xué)習(xí)實(shí)體表示[32]。該工作通過(guò)構(gòu)造一組虛擬節(jié)點(diǎn),即代理向量,在圖譜之間進(jìn)行消息傳遞和聚合。
注意力部分,對(duì)于圖譜內(nèi)信息的學(xué)習(xí),注意力權(quán)重通過(guò)關(guān)系rk的表示hrk乘以可學(xué)習(xí)參數(shù)計(jì)算而來(lái),該表示由He_initializer[46]隨機(jī)初始化。對(duì)于跨圖譜信息的學(xué)習(xí),通過(guò)計(jì)算實(shí)體與代理向量之間的相似性來(lái)計(jì)算注意力權(quán)重:
消息傳遞部分,對(duì)于第一個(gè)GNN,消息傳遞的過(guò)程與RREA相同,即用一個(gè)關(guān)系鏡像變換矩陣來(lái)傳遞鄰居特征。對(duì)于第二個(gè)GNN,鄰居實(shí)體的特征被表示為實(shí)體與代理向量之間的差:
受批歸一化能夠減小數(shù)據(jù)協(xié)方差偏移的啟發(fā)[47],該模型提出使用歸一化操作,將樣本損失的均值和方差進(jìn)行修正并減小對(duì)超參數(shù)數(shù)值大小的依賴(lài),得到新的損失最后,總損失定義如下:
其中P為正樣本的集合,E1和E2分別是兩個(gè)圖譜的實(shí)體集。
SDEA(semantic driven entity embedding method for entity alignment)使用雙向門(mén)控循環(huán)單元(bidirectional gated recurrent unit,BiGRU)來(lái)捕獲鄰居間的相關(guān)性和生成實(shí)體表示[33]。
在預(yù)處理階段,該方法用屬性嵌入模塊來(lái)捕獲實(shí)體的關(guān)聯(lián)。具體地,給定實(shí)體ei,首先將其屬性的名稱(chēng)和描述拼接起來(lái),記為S(ei)。然后將S(ei)送入BERT[41]模型生成屬性嵌入Ha(ei)。
在聚合模塊,該模型在聚合鄰居信息中使用了注意力機(jī)制:
由于SDEA將鄰居當(dāng)成一個(gè)序列處理,t實(shí)際表示ei的第t個(gè)鄰居實(shí)體,而Messaging()是一個(gè)BiGRU[48]。
該模型通過(guò)簡(jiǎn)單的內(nèi)積來(lái)計(jì)算注意力:
而在消息傳遞部分,與其他模型不同,SDEA 捕獲了鄰居之間的相關(guān)性,而實(shí)體ei的所有鄰居被當(dāng)成一個(gè)序列作為BiGRU 的輸入。給定實(shí)體ei,記xt為第t個(gè)輸入嵌入(即ei的第t個(gè)鄰居的屬性嵌入,由預(yù)處理部分得到),而ht表示第t個(gè)隱藏單元的輸出。將這些嵌入輸入BiGRU,得到兩個(gè)方向的輸出,而消息傳遞部分的輸出,是兩個(gè)方向之和:
后處理階段,在獲得了屬性嵌入Ha(ei)和關(guān)系嵌入Hr(ei)后,兩者被拼接起來(lái)并送入一個(gè)MLP層中,得到Hm(ei)=MLP([Ha(ei)||Hr(ei)])。最終,Ha(ei)、Hr(ei)和Hm(ei)被拼接在一起得到Hent(ei)=[Hr(ei)||Ha(ei)‖Hm(ei)],而該表示被用于對(duì)齊階段。
該模型使用如下基于邊緣的排序函數(shù)作為損失函數(shù)來(lái)訓(xùn)練屬性嵌入模塊:
其中D是訓(xùn)練集,Ha和分別是源圖譜和目標(biāo)圖譜的屬性嵌入,β>0 是用于分離正負(fù)樣本對(duì)的邊緣超參數(shù)。關(guān)系嵌入模塊的訓(xùn)練使用了類(lèi)似式(38)的損失函數(shù),Ha(ei)被替換為[Hr(ei)||Hm(ei)]。
本文詳細(xì)介紹了十種近期實(shí)體對(duì)齊的表示學(xué)習(xí)方法的結(jié)構(gòu),可以看出不同方法的差異主要表現(xiàn)在利用信息的種類(lèi)和方式上。
利用信息的種類(lèi)方面,大多數(shù)方法都是利用兩種信息進(jìn)行實(shí)體表示的學(xué)習(xí)。AliNet、MRAEA、AttrGNN分別是較早期利用多跳鄰居信息、關(guān)系信息和屬性信息的代表;NMN 則發(fā)掘了跨圖譜的實(shí)體差異信息;而Dual-AMN 和RPR-RHGT 則是利用了三種信息進(jìn)行學(xué)習(xí),其中RPR-RHGT 提出了利用路徑信息,其本質(zhì)上是增強(qiáng)的關(guān)系和結(jié)構(gòu)信息。
利用信息的方式方面,較早期的方法AliNet、AttrGNN 均只使用一個(gè)GNN 進(jìn)行實(shí)體表示的學(xué)習(xí)。MRAEA 和NMN 則在預(yù)處理階段使用了額外的GNN 輔助學(xué)習(xí)。RREA 雖然其他部分沒(méi)有太大亮點(diǎn),但在消息傳遞過(guò)程中對(duì)鄰居信息提取方式進(jìn)行了簡(jiǎn)潔而有效的改進(jìn),也影響了后續(xù)的一些工作。PSR則是對(duì)損失函數(shù)進(jìn)行了創(chuàng)新性的改進(jìn),簡(jiǎn)化了模型訓(xùn)練。RAGA 使用了三個(gè)GNN,對(duì)結(jié)構(gòu)和關(guān)系信息進(jìn)行了更充分的利用。SDEA 則另辟蹊徑,使用BiGRU取代GNN進(jìn)行消息傳遞,提升對(duì)鄰居信息的利用率。
本章首先進(jìn)行模型之間的總體比較實(shí)驗(yàn)來(lái)展示當(dāng)前表示學(xué)習(xí)方法的效果,之后對(duì)表示學(xué)習(xí)中的六部分分別進(jìn)行實(shí)驗(yàn),比較采用不同方法和結(jié)構(gòu)的效果。
實(shí)驗(yàn)中使用最為常用的DBP15K 數(shù)據(jù)集[38]來(lái)評(píng)估模型。該模型分為中英數(shù)據(jù)集(ZH-EN)、日英數(shù)據(jù)集(JA-EN)和法英數(shù)據(jù)集(FR-EN),并按照較為常見(jiàn)的設(shè)置,將30%的種子實(shí)體對(duì)用作訓(xùn)練集[8]。
實(shí)驗(yàn)在Intel Core i7-12700F CPU 和NVIDIA GeForce RTX 3090 GPU 上進(jìn)行,內(nèi)存大小為32 GB,顯存為24 GB。在模型的總體比較實(shí)驗(yàn)中,在相同的設(shè)置下使用十種模型的公開(kāi)源代碼復(fù)現(xiàn)了結(jié)果。特別地,為了比較的公平性,實(shí)驗(yàn)中修改和統(tǒng)一了這些模型的對(duì)齊部分,強(qiáng)制這些模型使用L1距離和貪婪算法進(jìn)行對(duì)齊推理。由于不同的模型有各種不同的超參數(shù),實(shí)驗(yàn)中只對(duì)一些共同的參數(shù)進(jìn)行了統(tǒng)一,例如邊緣損失函數(shù)中的邊緣λ=3,負(fù)采樣數(shù)量k=5。對(duì)于其他參數(shù),實(shí)驗(yàn)中保持原論文的默認(rèn)設(shè)置。在進(jìn)一步的消融和替換實(shí)驗(yàn)中,選擇了RAGA 模型作為基底模型。
根據(jù)現(xiàn)有研究,使用Hits@k(k=1,10)和平均倒數(shù)排序(mean reciprocal rank,MRR)作為評(píng)估指標(biāo)。Hits@k和MRR 越高,效果越好。在實(shí)驗(yàn)中,將三次獨(dú)立運(yùn)行結(jié)果的平均值作為記錄的結(jié)果。
首先比較了十種現(xiàn)有模型的效果,如表2 所示,其中最好的結(jié)果用粗體標(biāo)出,次優(yōu)的結(jié)果用下劃線(xiàn)標(biāo)出。從結(jié)果可以得出以下結(jié)論:
(1)沒(méi)有模型在三個(gè)數(shù)據(jù)集上都達(dá)到最好的效果。這表明當(dāng)前方法在不同情況下均有各自的優(yōu)勢(shì)和缺陷。
(2)SDEA在中英數(shù)據(jù)集和法英數(shù)據(jù)集上取得了最好的效果,而RPR-RHGT 在日英數(shù)據(jù)集上效果最好??紤]到這兩種模型均使用了預(yù)訓(xùn)練模型來(lái)生成輸出嵌入,并提出了獨(dú)特的方法來(lái)提取鄰居特征,能夠得出使用預(yù)訓(xùn)練模型有益于表示學(xué)習(xí),并且有效的消息傳遞對(duì)總體的結(jié)果很重要的初步結(jié)論。
(3)在法英數(shù)據(jù)集上NMN取得了第二的Hits@1指標(biāo),RAGA則在Hits@10和MRR指標(biāo)上達(dá)到了第二的效果。RAGA 在日英數(shù)據(jù)集上是第二優(yōu),而Dual-AMN 在中英數(shù)據(jù)集上是第二優(yōu)。注意到RAGA 和NMN 也都用了預(yù)訓(xùn)練模型,這進(jìn)一步驗(yàn)證了使用預(yù)訓(xùn)練模型進(jìn)行初始化的有效性。Dual-AMN 使用代理向量幫助捕獲跨圖譜信息,以此提高了表示學(xué)習(xí)的能力。
(4)AliNet在三個(gè)數(shù)據(jù)集上的效果都最差。因?yàn)锳liNet是唯一聚合了兩跳鄰居實(shí)體的模型,結(jié)合一些已有研究的結(jié)論[49-50],這可能表示聚合兩跳鄰居信息難以帶來(lái)性能的提升,而這一點(diǎn)在后續(xù)對(duì)聚合部分的實(shí)驗(yàn)中也有印證。
為了比較表示學(xué)習(xí)各部分的不同方法,接下來(lái)以RAGA模型為基礎(chǔ)進(jìn)行了進(jìn)一步的實(shí)驗(yàn)。
3.3.1 預(yù)處理部分
RAGA以預(yù)訓(xùn)練向量為輸入,并通過(guò)一個(gè)兩層帶highway結(jié)構(gòu)的GCN網(wǎng)絡(luò)生成初始表示。為了檢驗(yàn)預(yù)訓(xùn)練向量與結(jié)構(gòu)嵌入的效果,將這兩部分分別移除,并進(jìn)行比較。表3展示了結(jié)果,其中“w/o Pretrained”表示移除了預(yù)訓(xùn)練向量,“w/o GNN”表示移除了GNN,“w/o Both”表示移除了整個(gè)預(yù)處理部分。從結(jié)果可以看到,移除結(jié)構(gòu)特征和預(yù)訓(xùn)練向量后模型的表現(xiàn)明顯下降,而移除了整個(gè)預(yù)處理部分的模型達(dá)到了最差的效果。由此可以得出結(jié)論,在初始化嵌入時(shí)提取有用的特征是十分重要的。更進(jìn)一步地,可以看到預(yù)訓(xùn)練模型中提供的語(yǔ)義特征要比結(jié)構(gòu)向量更有用,這驗(yàn)證了預(yù)訓(xùn)練向量中蘊(yùn)含的先驗(yàn)知識(shí)的有效性。使用結(jié)構(gòu)向量來(lái)初始化的效果相對(duì)不太明顯,主要是因?yàn)楸硎緦W(xué)習(xí)中接下來(lái)的步驟同樣也可以提取結(jié)構(gòu)特征來(lái)生成有用的表示。
表3 使用RAGA對(duì)預(yù)處理部分的分析Table 3 Analysis of pre-processing module using RAGA
3.3.2 消息傳遞部分
在消息傳遞部分,線(xiàn)性變換是使用最為廣泛的方法。RAGA 僅在第一個(gè)GNN 中使用了線(xiàn)性變換,因此該部分設(shè)計(jì)了兩種變體,一種是將線(xiàn)性變換完全去除,另一種則是給剩下的GNN 加上額外參數(shù)。表4 展示了實(shí)驗(yàn)結(jié)果,后綴“+Linear Transform”表示在消息傳遞部分使用了更多線(xiàn)性變換的RAGA,而“-Linear Transform”表示完全不使用線(xiàn)性變換。此外,還比較了這些變體的收斂速度并繪制了圖2。從表中可以明顯看到線(xiàn)性變換能夠提升RAGA 的性能,特別是在日英和法英數(shù)據(jù)集上,Hits@1分別提升了1.1個(gè)百分點(diǎn)和1.2個(gè)百分點(diǎn)。
表4 使用RAGA對(duì)消息傳遞部分的分析Table 4 Analysis of messaging module using RAGA
圖2 不同變體收斂速度比較Fig.2 Comparison of convergences of different variants
此外,沒(méi)有使用變換的RAGA 性能下降很明顯。這證明了消息傳遞的改進(jìn)能夠提升表示學(xué)習(xí)的能力。圖2 進(jìn)一步表明線(xiàn)性變換還能加快模型收斂速度,可能是因?yàn)橐肓祟~外的參數(shù)。
3.3.3 注意力部分
對(duì)于注意力模塊,當(dāng)前有兩種主要的實(shí)現(xiàn)方式,即內(nèi)積和拼接。為了比較這兩種方式,實(shí)驗(yàn)中將RAGA 中的拼接計(jì)算改成了內(nèi)積計(jì)算,變體后綴為“-Inner product”,將vT[ei||ej]改成(M1ei)T(M2ej),其中M1、M2是可學(xué)習(xí)矩陣。實(shí)驗(yàn)還設(shè)計(jì)了移除注意力機(jī)制的變體,后綴名為“w/o Attention”,用取均值操作代替注意力系數(shù)的計(jì)算。如表5前三行所示,兩種變體模型與原始模型表現(xiàn)幾乎相同。考慮到預(yù)處理部分生成的初始表示的影響,實(shí)驗(yàn)移除了預(yù)處理部分的預(yù)訓(xùn)練向量并進(jìn)行了相同的比較。
表5 使用RAGA對(duì)注意力部分的分析Table 5 Analysis of attention module using RAGA
如表5后三行所示,移除了注意力機(jī)制后模型表現(xiàn)有所下降,因此得出初步結(jié)論,注意力機(jī)制可能在缺乏先驗(yàn)知識(shí)的情況下能夠發(fā)揮更好的作用。至于注意力計(jì)算的兩種方式,內(nèi)積計(jì)算比拼接計(jì)算在中英數(shù)據(jù)集上表現(xiàn)更好,但在日英和法英數(shù)據(jù)集上表現(xiàn)更差,表明這兩種方式在不同數(shù)據(jù)集上作用不同。
3.3.4 聚合部分
對(duì)于聚合部分,因?yàn)镽AGA 同時(shí)結(jié)合了一跳鄰居實(shí)體和關(guān)系信息來(lái)更新實(shí)體表示,實(shí)驗(yàn)測(cè)試了兩種變體,其中一種增加了兩跳鄰居實(shí)體信息(“-2hop”),一種移除了關(guān)系表示(“w/o rel.”)。結(jié)果如表6 所示。可以看到移除關(guān)系表示學(xué)習(xí)后的模型表現(xiàn)明顯下降,這表明集成關(guān)系表示能夠確實(shí)增強(qiáng)模型的學(xué)習(xí)能力。此外,在加入兩跳鄰居實(shí)體后,模型的表現(xiàn)稍有下降,說(shuō)明并不是所有實(shí)體都是有用的,兩跳鄰居信息會(huì)引入噪聲影響模型學(xué)習(xí)效果。
3.3.5 后處理部分
RAGA 通過(guò)將關(guān)系感知的實(shí)體表示和一跳鄰居聚合來(lái)得到最終實(shí)體表示。實(shí)驗(yàn)測(cè)試了兩種變體,“-highway”是將拼接操作替換成highway 網(wǎng)絡(luò),“w/o post-processing”是將關(guān)系感知的實(shí)體表示去除,即不進(jìn)行后處理。
從表7 的實(shí)驗(yàn)結(jié)果中可以看到移除了后處理部分的模型表現(xiàn)下降,表明后處理操作能夠增強(qiáng)最終表示并提升對(duì)齊效果。在把拼接操作替換成highway網(wǎng)絡(luò)后,模型在日英數(shù)據(jù)集上表現(xiàn)下降,而在法英數(shù)據(jù)集上表現(xiàn)上升,說(shuō)明兩種后處理方式并無(wú)明顯的絕對(duì)優(yōu)劣之分。
表7 使用RAGA對(duì)后處理部分的分析Table 7 Analysis of post-processing module using RAGA
3.3.6 損失函數(shù)部分
RAGA 在訓(xùn)練中使用了基于邊緣的損失函數(shù)。實(shí)驗(yàn)考慮了另外兩種較典型的方法,即基于TransE的損失和邊緣損失+TransE 損失。具體地,基于TransE 的損失公式為,其中(hk,rk,tk)是隨機(jī)采樣的三元組。
從表8所示的結(jié)果可以看出,模型在使用或添加了TransE 損失后表現(xiàn)下降,這主要是因?yàn)門(mén)ransE 假設(shè)并不通用。例如,在本次實(shí)驗(yàn)使用的RAGA中,關(guān)系的表示實(shí)際上是由頭實(shí)體和尾實(shí)體相加得到的,這與TransE的假設(shè)存在沖突。
表8 使用RAGA對(duì)損失函數(shù)部分的分析Table 8 Analysis of loss function module using RAGA
本章進(jìn)行了十個(gè)表示學(xué)習(xí)模型的總體比較實(shí)驗(yàn),之后為了比較每個(gè)模塊的不同方法,選取RAGA作為基底模型,分別對(duì)六個(gè)模塊進(jìn)行了消融和替換實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:
(1)預(yù)訓(xùn)練模型生成的初始向量在提升模型性能上能夠發(fā)揮重要作用。在模型的整體比較實(shí)驗(yàn)中,表現(xiàn)最好的兩個(gè)模型均使用了預(yù)訓(xùn)練模型來(lái)生成實(shí)體的初始表示。在預(yù)處理部分的消融實(shí)驗(yàn)中,移除了初始預(yù)訓(xùn)練向量的模型性能顯著下降。這些都表明預(yù)訓(xùn)練模型中包含的先驗(yàn)知識(shí)對(duì)模型的學(xué)習(xí)有非常大的幫助。
(2)消息傳遞方法的改進(jìn)能夠增強(qiáng)模型表示學(xué)習(xí)的能力。在總體比較實(shí)驗(yàn)中,兩個(gè)表現(xiàn)最好的模型都使用了獨(dú)特的消息傳遞方式;在消息傳遞部分的實(shí)驗(yàn)中,使用更多線(xiàn)性變換的模型比更少的模型性能有所提升。這表示未來(lái)的研究可以聚焦于改進(jìn)消息傳遞的方式。
(3)當(dāng)前注意力部分和后處理部分的方法較少,但它們是必要的。后處理部分能夠增強(qiáng)實(shí)體的最終表示,而注意力機(jī)制能夠在缺乏先驗(yàn)知識(shí)的情況下幫助優(yōu)化聚合過(guò)程。另外,這兩部分都有兩種不同的方法,但是它們都有自己的優(yōu)勢(shì),其效果依賴(lài)于具體情況和數(shù)據(jù)。
(4)在聚合部分和損失函數(shù)部分,有些方法并不通用。在聚合部分的實(shí)驗(yàn)中增加了兩跳鄰居信息的變體和在后處理部分實(shí)驗(yàn)中增加了TransE損失的變體都出現(xiàn)了性能下降。這證明了這兩部分并不是越復(fù)雜的結(jié)構(gòu)越好,甚至可能會(huì)造成更差的結(jié)果。
近年來(lái)預(yù)訓(xùn)練語(yǔ)言大模型(pretrained language models,PLM)因其強(qiáng)大的通用能力,被廣泛用于各種下游任務(wù)中。而在一些文本生成類(lèi)任務(wù)中,預(yù)訓(xùn)練語(yǔ)言模型表現(xiàn)出了具有真實(shí)世界的知識(shí)的特征。于是將預(yù)訓(xùn)練語(yǔ)言模型當(dāng)作一種參數(shù)化的知識(shí)庫(kù),并通過(guò)各種方式將其中的知識(shí)提取出來(lái)成為近期新興的研究方向[51]。
如何將預(yù)訓(xùn)練語(yǔ)言模型中提取的知識(shí)與現(xiàn)有知識(shí)圖譜進(jìn)行融合,現(xiàn)有表示學(xué)習(xí)在這些知識(shí)上的效果如何,本文對(duì)這些問(wèn)題進(jìn)行了初步實(shí)驗(yàn)探究。本章設(shè)計(jì)了一個(gè)簡(jiǎn)單的實(shí)驗(yàn),首先用LAMA 數(shù)據(jù)集[52]中的三元組構(gòu)建了一個(gè)簡(jiǎn)單的知識(shí)圖譜作為現(xiàn)有知識(shí)圖譜,然后選擇其中的一些頭實(shí)體和關(guān)系,利用OptiPrompt[53]構(gòu)造提示詞,其中包含了頭實(shí)體和關(guān)系的內(nèi)容,以及一個(gè)需要由大模型填補(bǔ)的空白,將提示詞輸入預(yù)訓(xùn)練的BERT 模型,使BERT 輸出后續(xù)內(nèi)容,即為尾實(shí)體的名稱(chēng)。例如,三元組
表9 預(yù)測(cè)練語(yǔ)言大模型輸出知識(shí)對(duì)齊結(jié)果Table 9 Alignment of knowledge from pretrained language models
根據(jù)實(shí)驗(yàn)中大模型輸出的內(nèi)容以及對(duì)齊的結(jié)果,有以下發(fā)現(xiàn):
(1)詞匯表決定了大模型的知識(shí)上限和粒度。語(yǔ)言模型不能輸出詞匯表中不存在的內(nèi)容,因此詞匯表中包含的概念、實(shí)體等數(shù)量決定了大模型知識(shí)的上限,當(dāng)其遇到的問(wèn)題的答案在詞匯表中不存在時(shí),大模型不能輸出正確答案。此外,詞匯表還決定了大模型知識(shí)的粒度。本實(shí)驗(yàn)使用的大模型為預(yù)訓(xùn)練的BERT,從其輸出可以發(fā)現(xiàn)BERT 掌握了相當(dāng)?shù)恼鎸?shí)世界中的常識(shí)知識(shí),例如國(guó)家與國(guó)民的關(guān)系,但對(duì)于一些具體領(lǐng)域的知識(shí),則顯得較為無(wú)力。
(2)現(xiàn)有表示學(xué)習(xí)模型不能很好地學(xué)到語(yǔ)言模型輸出知識(shí)的表示。最主要的原因在于語(yǔ)言模型輸出的知識(shí)較為碎片化,且其中存在錯(cuò)誤的事實(shí)。在人工構(gòu)建的知識(shí)圖譜中,大多數(shù)實(shí)體都有許多不同的鄰居,也具有許多不同的關(guān)系,現(xiàn)有表示學(xué)習(xí)模型正是建立在對(duì)這種鄰居和關(guān)系的學(xué)習(xí)上。而本實(shí)驗(yàn)中大模型一次僅能輸出一個(gè)頭實(shí)體與關(guān)系對(duì)應(yīng)的尾實(shí)體,且并不能保證該尾實(shí)體的正確性。
(3)語(yǔ)言大模型輸出結(jié)果的正確性較難評(píng)估。本實(shí)驗(yàn)使用的LAMA 數(shù)據(jù)集中有許多測(cè)試數(shù)據(jù),可以對(duì)語(yǔ)言大模型輸出的結(jié)果進(jìn)行評(píng)估,但在真實(shí)應(yīng)用情景下,例如使用語(yǔ)言大模型對(duì)現(xiàn)有知識(shí)圖譜進(jìn)行補(bǔ)充,則難以判斷輸出的正確性。此外,對(duì)于一些答案不唯一的問(wèn)題,即一個(gè)頭實(shí)體和關(guān)系可能存在多個(gè)尾實(shí)體,如何辨別語(yǔ)言大模型輸出的結(jié)果哪些是正確的哪些是錯(cuò)誤的,也是有待進(jìn)一步研究解決的問(wèn)題。
基于以上發(fā)現(xiàn)和問(wèn)題,本文認(rèn)為對(duì)于語(yǔ)言大模型和知識(shí)圖譜方向的未來(lái)工作,可以從以下方面開(kāi)展:
(1)從更大的語(yǔ)言模型中提取知識(shí)。BERT系列的語(yǔ)言模型存儲(chǔ)的知識(shí)有限,且大多為粗粒度的常識(shí)知識(shí),將這種知識(shí)與現(xiàn)有知識(shí)圖譜融合的意義不大。若要用語(yǔ)言大模型對(duì)現(xiàn)有知識(shí)圖譜進(jìn)行補(bǔ)充,應(yīng)當(dāng)選擇較大參數(shù)量的大模型。
(2)利用文本信息輔助知識(shí)融合。利用結(jié)構(gòu)和鄰居關(guān)系來(lái)學(xué)習(xí)的實(shí)體對(duì)齊方法難以學(xué)習(xí)語(yǔ)言大模型輸出的內(nèi)容,因此對(duì)齊效果較差。但語(yǔ)言模型輸出的形式均為文本,因此可以考慮利用文本信息,使用基于規(guī)則或者文本嵌入的方法輔助實(shí)體對(duì)齊。
(3)使用知識(shí)圖譜糾正語(yǔ)言大模型的錯(cuò)誤。相較于語(yǔ)言大模型,知識(shí)圖譜具有可靠、可控、可解釋的特點(diǎn),可以用高質(zhì)量的知識(shí)圖譜輔助語(yǔ)言大模型推理,或者利用知識(shí)圖譜對(duì)語(yǔ)言大模型進(jìn)行微調(diào),從而產(chǎn)生更準(zhǔn)確可靠的結(jié)果。
實(shí)體對(duì)齊是知識(shí)融合的重要步驟,主要分為表示學(xué)習(xí)和對(duì)齊推理兩個(gè)階段。本文提出了一種表示學(xué)習(xí)的框架,將表示學(xué)習(xí)分為六部分,并按該框架總結(jié)和剖析了十種現(xiàn)有對(duì)齊工作中表示學(xué)習(xí)的組成。之后,進(jìn)行了不同表示學(xué)習(xí)方法的對(duì)比實(shí)驗(yàn)和表示學(xué)習(xí)方法中每部分不同策略的對(duì)比實(shí)驗(yàn),總結(jié)并指出了表示學(xué)習(xí)的各個(gè)模塊不同策略的優(yōu)劣差異。最后,探討了語(yǔ)言大模型與知識(shí)融合相結(jié)合的新興任務(wù),通過(guò)初步的實(shí)驗(yàn)提出了目前存在的問(wèn)題和下一步研究的方向。