亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于鄰域聚合的實(shí)體對(duì)齊方法

        2022-06-16 05:24:14譚元珍李曉楠李冠宇
        計(jì)算機(jī)工程 2022年6期
        關(guān)鍵詞:結(jié)構(gòu)信息模型

        譚元珍,李曉楠,李冠宇

        (大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,遼寧大連 116026)

        0 概述

        隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識(shí)圖譜(Knowledge Graph,KG)已被廣泛應(yīng)用于智能問(wèn)答[1]、智能信息處理[2-3]、個(gè)性化推薦[4]等領(lǐng)域。近年來(lái),越來(lái)越多的知識(shí)圖譜被構(gòu)造以提供針對(duì)不同領(lǐng)域的知識(shí),如DBpedia[5]、YAGO[6]、ConceptNet[7]、NELL[8]。研究人員發(fā)現(xiàn),這些知識(shí)圖譜通常不完整,相互之間包含著互補(bǔ)的事實(shí),需要將不同的知識(shí)圖譜整合到統(tǒng)一的知識(shí)圖譜中,為不同的應(yīng)用提供結(jié)構(gòu)知識(shí)。然而,將來(lái)自不同知識(shí)圖譜的實(shí)體鏈接到相同的真實(shí)世界知識(shí)并非易事,因?yàn)椴煌闹R(shí)圖譜基于不同的數(shù)據(jù)源所構(gòu)造,所以同一實(shí)體在不同的知識(shí)庫(kù)中也有著不同的表述。

        在多語(yǔ)言知識(shí)圖譜中查找等效實(shí)體,對(duì)于集成多源知識(shí)圖譜起到重要的作用。實(shí)體對(duì)齊(Entity Alignment,EA)旨在從來(lái)自多個(gè)來(lái)源構(gòu)成的知識(shí)圖譜中找到表示真實(shí)世界知識(shí)的同一實(shí)體。目前,比較流行的實(shí)體對(duì)齊方法是基于知識(shí)圖譜嵌入的方法,此方法主要是利用知識(shí)圖譜的表示學(xué)習(xí),克服了依靠人工創(chuàng)建規(guī)則或特征[9]的問(wèn)題。該類方法假定基于不同數(shù)據(jù)源構(gòu)造的知識(shí)圖譜具有相似的結(jié)構(gòu),在向量空間中具有相對(duì)相似位置的實(shí)體為對(duì)齊實(shí)體,使用TransE 等一系列模型[10-15]表示每個(gè)知識(shí)圖譜中的實(shí)體和關(guān)系,然后將預(yù)對(duì)齊的實(shí)體投影至統(tǒng)一的向量空間。然而,基于知識(shí)圖譜嵌入的實(shí)體對(duì)齊需要足夠數(shù)量的種子序列,并且受不同知識(shí)圖譜間不完整性和異質(zhì)性的影響,對(duì)齊精確度往往不高。

        圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)是學(xué)習(xí)圖結(jié)構(gòu)化數(shù)據(jù)的矢量表示和解決圖上各種監(jiān)督預(yù)測(cè)問(wèn)題的強(qiáng)大模型[16-18]。GNN 遵循遞歸鄰域聚合方法,每個(gè)節(jié)點(diǎn)聚合其鄰居的特征向量以計(jì)算新的特征向量[16,18]。在聚合k次迭代之后,節(jié)點(diǎn)由其變換后的特征向量表示,該特征向量可以捕獲節(jié)點(diǎn)多跳鄰居附近的結(jié)構(gòu)信息,然后通過(guò)合并來(lái)獲得整個(gè)圖的表示[19]。文獻(xiàn)[20]證明,GNN 在識(shí)別同構(gòu)子圖方面具有與Weisfeiler-Leman(WL)檢測(cè)[21]相同的表達(dá)能力。相似實(shí)體通常具有相似的鄰域,這是GNN 實(shí)現(xiàn)不同知識(shí)圖譜之間實(shí)體對(duì)齊的理論基礎(chǔ)。

        然而,現(xiàn)有基于GNN 的實(shí)體對(duì)齊模型依然面臨著一個(gè)關(guān)鍵問(wèn)題:由于不同的知識(shí)圖譜具有結(jié)構(gòu)異質(zhì)性[22],因此對(duì)應(yīng)實(shí)體通常具有不同的鄰域結(jié)構(gòu)。解決此問(wèn)題的關(guān)鍵在于要減小不同知識(shí)圖譜實(shí)體鄰域結(jié)構(gòu)的異質(zhì)性。本文提出一種鄰域聚合匹配網(wǎng)絡(luò)(Neighborhood Aggregation Matching Network,NAMN)模型,旨在從實(shí)體鄰域角度對(duì)圖結(jié)構(gòu)信息進(jìn)行編碼以實(shí)現(xiàn)實(shí)體對(duì)齊,緩解結(jié)構(gòu)異質(zhì)性帶來(lái)的影響。

        1 相關(guān)工作

        1.1 基于知識(shí)圖譜嵌入的實(shí)體對(duì)齊

        近年來(lái),知識(shí)圖譜嵌入學(xué)習(xí)已成功應(yīng)用于實(shí)體對(duì)齊領(lǐng)域。當(dāng)前的處理方法是將不同的知識(shí)圖譜表示為嵌入,投影至同一向量空間,然后通過(guò)測(cè)量嵌入之間的相似性來(lái)進(jìn)行實(shí)體對(duì)齊。MTransE[10]是基于嵌入的多語(yǔ)言實(shí)體對(duì)齊模型,其使用TransE 模型學(xué)習(xí)兩個(gè)知識(shí)圖譜中實(shí)體的嵌入,然后學(xué)習(xí)連接兩個(gè)嵌入空間之間的映射函數(shù),以實(shí)現(xiàn)實(shí)體對(duì)齊。IPTransE[11]和BootEA[12]是通過(guò)聯(lián)合嵌入進(jìn)行迭代的自我訓(xùn)練方法,其使用預(yù)對(duì)齊的實(shí)體種子對(duì)來(lái)進(jìn)行計(jì)算,并將迭代過(guò)程中新發(fā)現(xiàn)的實(shí)體對(duì)添加到訓(xùn)練數(shù)據(jù)集中,優(yōu)化對(duì)齊效果。JAPE[13]使用Skip-Gram方法,利用種子對(duì)齊方式將兩個(gè)知識(shí)圖譜的實(shí)體嵌入到統(tǒng)一的向量空間中,將結(jié)構(gòu)嵌入和屬性嵌入結(jié)合在一起找到相似實(shí)體。文獻(xiàn)[14]提出了一種RSN 方法,結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和殘差學(xué)習(xí),以有效地捕獲知識(shí)圖譜內(nèi)部和知識(shí)圖譜之間的長(zhǎng)期關(guān)系依賴性,優(yōu)化實(shí)體對(duì)齊效果。MultiKE[15]分別從名稱、屬性和結(jié)構(gòu)視圖中學(xué)習(xí)實(shí)體的表示形式,集成3 個(gè)特定的視圖嵌入組合策略以提高實(shí)體對(duì)齊性能,并使用預(yù)先訓(xùn)練好的詞嵌入來(lái)完善屬性值的學(xué)習(xí)。但是,以上方法需要足夠數(shù)量的種子對(duì),成本較高,并且不同知識(shí)圖譜的結(jié)構(gòu)異質(zhì)性對(duì)知識(shí)圖譜的嵌入質(zhì)量也產(chǎn)生了很大的負(fù)面影響,導(dǎo)致對(duì)齊效果變差。

        1.2 基于GNN 的實(shí)體對(duì)齊

        與上述基于知識(shí)圖譜嵌入的方法不同,圖神經(jīng)網(wǎng)絡(luò)(GNN)使用圖結(jié)構(gòu)和節(jié)點(diǎn)特征來(lái)學(xué)習(xí)節(jié)點(diǎn)或整個(gè)圖的表示向量,遵循鄰域聚合策略,在圖學(xué)習(xí)方面取得了顯著進(jìn)步。因此,一些工作試圖將GNN 應(yīng)用在實(shí)體對(duì)齊方面以取得更好的對(duì)齊性能。GCN-Align[16]是一種基于GCN 的實(shí)體對(duì)齊模型,其利用GCN 將每個(gè)知識(shí)圖譜的實(shí)體嵌入統(tǒng)一的向量空間,傳播來(lái)自鄰居的信息,通過(guò)結(jié)構(gòu)知識(shí)進(jìn)行實(shí)體對(duì)齊。然而,GCN-Align 在訓(xùn)練過(guò)程中僅考慮實(shí)體之間的等效關(guān)系,沒(méi)有在知識(shí)圖譜中使用豐富的關(guān)系來(lái)區(qū)分共享鄰居的實(shí)體。R-GCN[17]模型考慮到節(jié)點(diǎn)之間的關(guān)系,解決了GCN 處理圖結(jié)構(gòu)中關(guān)系對(duì)節(jié)點(diǎn)的影響,其通過(guò)為每個(gè)關(guān)系設(shè)置轉(zhuǎn)換矩陣來(lái)進(jìn)一步合并關(guān)系類型信息,提高對(duì)齊效果。RDGCN[18]是一種新的關(guān)系感知雙圖卷積網(wǎng)絡(luò),其通過(guò)構(gòu)建用于嵌入學(xué)習(xí)的對(duì)偶關(guān)系圖,使用門(mén)控機(jī)制捕獲鄰域結(jié)構(gòu),緩解知識(shí)圖之間的異構(gòu)性,以學(xué)習(xí)更好的實(shí)體表示。R-GCN 模型和RDGCN 模型將預(yù)先對(duì)齊的實(shí)體和關(guān)系作為訓(xùn)練數(shù)據(jù),這可能會(huì)導(dǎo)致昂貴的開(kāi)銷。AliNet[23]模型將門(mén)控機(jī)制和注意力機(jī)制結(jié)合在一起,以聚合多跳鄰域來(lái)整合GCN,從而減少圖異構(gòu)性對(duì)實(shí)體對(duì)齊的影響,達(dá)到更好的對(duì)齊效果。然而,AliNet 在匯總信息時(shí)將實(shí)體的所有一跳鄰居同等對(duì)待,在沒(méi)有仔細(xì)選擇的情況下引入了噪聲,影響了實(shí)體對(duì)齊性能。

        2 NAMN 模型設(shè)計(jì)

        2.1 基礎(chǔ)知識(shí)

        2.1.1 知識(shí)圖譜的實(shí)體對(duì)齊

        本文將知識(shí)圖譜形式表示為Gi=(Ei,Ri,Ti),其中,Ei、Ri、Ti分別表示為Gi中實(shí)體、關(guān)系和三元組的集合。Ne={e'|(e,r,e')∈T}∪{e'|(e',r,e)∈T}是Gi中實(shí)體e的鄰居集。對(duì)齊的實(shí)體對(duì)形式化表示為A={(e1,e2)∈E1×E2|e1?e2},其中,?表示等價(jià)關(guān)系,即e1和e2所表示的為真實(shí)世界中相同的實(shí)體。實(shí)體對(duì)齊的任務(wù)就是找到G1和G2之間的等效實(shí)體對(duì)。為方便起見(jiàn),本文將G1和G2放到一個(gè)大圖中,即G=G1+G2,R=R1∪R2,T=T1∪T2,實(shí)體的總個(gè)數(shù)n=|E1|+|E2|。

        2.1.2 圖神經(jīng)網(wǎng)絡(luò)

        GNN 通過(guò)遞歸聚合其鄰居的特征向量來(lái)學(xué)習(xí)節(jié)點(diǎn)表示,不同的聚合策略產(chǎn)生了GNN 的不同變體,其中的一種變體vanilla GCN[24]在第l(l≥1)層處的節(jié)點(diǎn)i的隱藏表示為,如式(1)所示:

        2.1.3 遠(yuǎn)距離鄰居選擇

        為了減少鄰域信息所帶來(lái)的非同構(gòu)影響,本文方法引入遠(yuǎn)距離鄰居。如圖1 所示,兩個(gè)中心實(shí)體對(duì)(a,A)的一跳鄰居不同,只包含對(duì)等實(shí)體對(duì)(b,B)和(c,C),而a的一跳鄰居d和A的遠(yuǎn)距離鄰居D對(duì)應(yīng),A的一跳鄰居E和F與a的遠(yuǎn)距離鄰居e和f對(duì)應(yīng)。如果可以將遠(yuǎn)距離鄰居e和f包含在a的鄰域聚合中,并且也將A的遠(yuǎn)距離鄰居D考慮在內(nèi),那么GNN 將會(huì)學(xué)習(xí)到更多關(guān)于a和A的相似表示。但是,并非所有的遠(yuǎn)距離鄰居都有積極貢獻(xiàn),因此,本文引入注意力機(jī)制,旨在找到對(duì)中心實(shí)體有積極貢獻(xiàn)的遠(yuǎn)距離鄰域。

        圖1 遠(yuǎn)距離鄰居選擇示例Fig.1 Example of selecting long-distance neighbors

        2.1.4 圖匹配

        通過(guò)圖的結(jié)構(gòu)信息來(lái)度量?jī)蓚€(gè)圖的相似性,進(jìn)而估計(jì)G1和G2描述的為同一實(shí)體的可能性。在近期研究中,圖匹配網(wǎng)絡(luò)(GMN)[25]引入跨圖關(guān)注機(jī)制對(duì)圖進(jìn)行聯(lián)合推理,以區(qū)分跨圖的節(jié)點(diǎn)并識(shí)別差異,計(jì)算兩個(gè)圖之間的相似度得分。受GMN 模型的啟發(fā),本文也采用一跨圖鄰域匹配模塊來(lái)識(shí)別兩個(gè)實(shí)體鄰域節(jié)點(diǎn)之間的差異。

        2.1.5 距離函數(shù)

        對(duì)于不同實(shí)體之間的相似性,通常采用計(jì)算實(shí)體之間的距離來(lái)度量,而計(jì)算距離的方法會(huì)直接關(guān)系到對(duì)齊的效果。表1 中列舉了一些常見(jiàn)的距離函數(shù)。

        表1 常見(jiàn)的距離函數(shù)Table 1 Common distance functions

        2.2 NAMN 模型框架

        為了緩解鄰域異質(zhì)性對(duì)實(shí)體對(duì)齊產(chǎn)生的影響,NAMN 模型利用GNN 對(duì)圖結(jié)構(gòu)信息進(jìn)行建模,采用分層的思想對(duì)鄰域信息進(jìn)行區(qū)別處理。首先,對(duì)于一跳鄰居進(jìn)行全部采樣,對(duì)于二跳及以上鄰居,采用注意力機(jī)制進(jìn)行局部采樣;然后,引入門(mén)控機(jī)制對(duì)實(shí)體的k-hop 鄰居信息進(jìn)行聚合,以挖掘圖結(jié)構(gòu)的隱藏信息;在此基礎(chǔ)上,考慮到實(shí)體一跳鄰居結(jié)構(gòu)異質(zhì)性的影響,為每個(gè)實(shí)體提取一個(gè)可區(qū)分的鄰域,構(gòu)建鄰域局部子圖進(jìn)行跨圖鄰域匹配,將匹配階段的輸出與通過(guò)門(mén)控機(jī)制所學(xué)習(xí)的圖結(jié)構(gòu)表示進(jìn)行聯(lián)合編碼,以生成面向匹配的實(shí)體表示;最后,對(duì)于面向匹配的實(shí)體表示,使用距離函數(shù)進(jìn)行實(shí)體的對(duì)齊預(yù)測(cè)。NAMN 模型框架如圖2 所示,在不失一般性的情況下,該圖展示了一跳和二跳鄰居信息的情況。NAMN 遵循3 個(gè)階段的處理流程,即門(mén)控鄰域聚合、鄰域匹配和對(duì)齊預(yù)測(cè)。

        2.3 門(mén)控鄰域聚合

        按照每跳鄰居對(duì)中心實(shí)體的重要性可知,實(shí)體的一跳鄰居是最重要的鄰域。本文使用vanilla GCN聚合實(shí)體的鄰居信息,學(xué)習(xí)知識(shí)圖譜結(jié)構(gòu)嵌入。首先,使用預(yù)訓(xùn)練的詞嵌入[26]來(lái)初始化GCN 的方法。將兩個(gè)知識(shí)圖譜G1=(E1,R1,T1)和G2=(E2,R2,T2)作為NAMN 模型的輸入,使用式(1)來(lái)更新節(jié)點(diǎn)表示。為控制噪聲的影響,還引入highway networks[27]方法,以避免噪聲在GNN 層之間傳播。

        對(duì)于二跳鄰居,若再直接采用GNN 層來(lái)聚合,會(huì)導(dǎo)致更多的噪聲信息。為找到對(duì)中心實(shí)體有積極貢獻(xiàn)的遠(yuǎn)距離鄰域,本文引入注意力機(jī)制[23]來(lái)計(jì)算實(shí)體ei的二跳鄰居信息(表示為),如式(2)所示:

        其中:N2(·)代表的是實(shí)體的二跳鄰居集合;W2是可訓(xùn)練的權(quán)重矩陣;βia是中心實(shí)體i與鄰居a的一個(gè)可學(xué)習(xí)的注意力權(quán)重。

        為進(jìn)一步聚合鄰域信息,使用門(mén)控機(jī)制將鄰域信息結(jié)合在一起,以挖掘?qū)嶓wei的隱藏表示:

        對(duì)于two-hop鄰域聚合,本文引入注意力權(quán)重βia以突出重要鄰居。圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[28]是在實(shí)體中采用共享的線性變換,但是卻忽略了中心實(shí)體和鄰居之間可能完全不同,這種共享的轉(zhuǎn)換會(huì)導(dǎo)致無(wú)法正確區(qū)分。為此,本文分別使用兩個(gè)矩陣M1和M2對(duì)中心實(shí)體和鄰居進(jìn)行線性變換[23]。形式上,中心實(shí)體i和鄰居a之間的注意力權(quán)重計(jì)算方法如式(5)所示:

        其中:p、M1和M2為可訓(xùn)練的參數(shù);||表示級(jí)聯(lián);cia是衡量ei和ea重要性的注意力權(quán)重;attn(·)是注意力函數(shù)。在此基礎(chǔ)上,使用softmax(·)函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,以使其在不同實(shí)體之間具有可比性,從而有效地編碼實(shí)體名稱的語(yǔ)義信息:

        將兩個(gè)知識(shí)圖譜G1=(E1R1T1)和G2=(E2R2T2)作為NAMN 模型的輸入,使用式(1)來(lái)更新節(jié)點(diǎn)表示。為控制噪聲的影響,還引入highway networks[27]方法,以避免噪聲GNN 層之間傳播。

        2.4 鄰域匹配

        2.4.1 鄰域局部子圖構(gòu)建

        實(shí)體的一跳鄰居是決定該實(shí)體與其他實(shí)體是否對(duì)齊的關(guān)鍵,但是并非所有的一跳鄰居都對(duì)實(shí)體對(duì)齊有著積極的影響。為此,本文引入局部子圖,應(yīng)用向下采樣過(guò)程(down-sampling process),旨在選擇對(duì)中心實(shí)體信息量最大的一跳鄰居。對(duì)于每個(gè)實(shí)體對(duì)(ei,ej),如果ei和ej有關(guān)系(例如r)直接連接,在局部子圖中為其對(duì)應(yīng)節(jié)點(diǎn)添加一有向邊,但只保留r的方向。

        為了選擇合適的鄰居,采用鄰里采樣策略[29]。給定實(shí)體ei,對(duì)其一跳鄰居ei_1進(jìn)行采樣的概率如式(7)所示:

        其中:W3是共享的權(quán)重矩陣;Ni是中心實(shí)體ei的一跳鄰居集;hi和hi_1分別是中心實(shí)體ei和一跳鄰居ei_1通過(guò)式(1)計(jì)算的學(xué)習(xí)嵌入表示。

        2.4.2 跨圖鄰域匹配

        確定對(duì)中心實(shí)體應(yīng)考慮的鄰居之后,也即產(chǎn)生了鄰域局部子圖。在跨圖鄰域匹配過(guò)程中,為減少匹配開(kāi)銷,首先進(jìn)行的為候選人的選擇。計(jì)算G1中的實(shí)體ei與G2中的所有實(shí)體{e2}在其表示空間中的相似性,找到G2在嵌入空間中最接近ei的實(shí)體,作為候選者,計(jì)算公式如式(8)~式(9)所示:

        其中:sh是向量空間相似性度量,如Euclidean 或cosine;αij是注意力權(quán)重;p(hj|hi)為G2中的實(shí)體ej被采樣為ei候選者的概率。

        在鄰域匹配模塊中,G1和G2疊加在一起作為一個(gè)大的輸入圖,引入一匹配向量來(lái)計(jì)算G1中的實(shí)體鄰域和G2中所有實(shí)體的匹配程度[25]。形式上,令(ei,)為要測(cè)量的實(shí)體對(duì),其中ei∈E1,而∈E2為候選者之一,設(shè)定x和y分別是ei和的兩個(gè)鄰居,得到鄰居x的匹配向量mx:

        然后,將鄰居x的輸出嵌入與匹配向量相結(jié)合:

        其中:τ是超參。此處,匹配向量mx可以區(qū)分兩個(gè)鄰居之間的差異。當(dāng)兩個(gè)鄰居表示相似時(shí),mx趨向于零向量;當(dāng)鄰居表示不同時(shí),匹配向量mx將會(huì)變大。

        其中:Wgate和WN分別是可學(xué)習(xí)的門(mén)控制矩陣和共享矩陣;是采樣的鄰居集。

        2.5 對(duì)齊預(yù)測(cè)

        對(duì)于最終生成的面向匹配的實(shí)體表示hmatch,可以簡(jiǎn)單地通過(guò)測(cè)量?jī)蓚€(gè)實(shí)體之間的距離來(lái)判定兩個(gè)實(shí)體是否應(yīng)該對(duì)齊:

        其中:||·||1表示L1范數(shù)。將基于邊際的排名損失函數(shù)作為NAMN 模型的目標(biāo):

        其中:c和v、Dc和Dv組成負(fù)樣本的候選 集R={(c',v')|(c'=c∩v'∈Dc)∪(v'=v∩c'∈Dv)};Z是候選的種子集;α是平衡的超參數(shù)。本文目標(biāo)是使對(duì)齊的實(shí)體具有很小的距離,未對(duì)齊實(shí)體表示具有較大的距離,即負(fù)樣本的距離應(yīng)該大于λ,也即d(c',v')>λ。

        此外,使用Adam 優(yōu)化器[31]對(duì)目標(biāo)進(jìn)行優(yōu)化,通過(guò)Xavier 初始化[11]對(duì)所有可學(xué)習(xí)的參數(shù)(包括實(shí)體的輸入特征向量)進(jìn)行初始化。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        為了評(píng)估NAMN 模型性能,參考最近的研究[12,32],本文使用大型數(shù)據(jù)集DBpedia[33]下的子集DBP15K 作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證。這些數(shù)據(jù)集包括3 個(gè)跨語(yǔ)言數(shù)據(jù)集,分別是英語(yǔ)、中文、日語(yǔ)和法語(yǔ)的不同語(yǔ)言版本,即DBP15KZH-EN(中文-英語(yǔ))、DBP15KJA-EN(日語(yǔ)-英語(yǔ))、DBP15KFR-EN(法語(yǔ)-英語(yǔ)),每個(gè)數(shù)據(jù)集由15 000 個(gè)對(duì)齊的實(shí)體對(duì)和約40 萬(wàn)個(gè)三元組組成。3 個(gè)數(shù)據(jù)集的詳細(xì)信息如表2 所示。

        表2 數(shù)據(jù)集統(tǒng)計(jì)Table 2 Data set statistics

        3.2 評(píng)估指標(biāo)與參數(shù)設(shè)置

        按照慣例,將數(shù)據(jù)集的30%作為訓(xùn)練數(shù)據(jù),剩下的70%用作測(cè)試數(shù)據(jù)。在以下超參數(shù)中進(jìn)行搜索:學(xué)習(xí)率Rlearning_rate={0.001,0.005,0.01},τ={0.1,0.2,…,0.5},α={0.01,0.05,…,0.1,0.2},λ={1.5,1.4,…,1.0},每層的隱藏層層數(shù)L={1,2,3,4},維度為{100,200,300,400,500},最終實(shí)驗(yàn)設(shè)置如表3 所示。此外,本文設(shè)置候選人的大小為20個(gè),并為每個(gè)預(yù)先對(duì)齊的實(shí)體對(duì)抽取10個(gè)負(fù)樣本,以簡(jiǎn)化訓(xùn)練。

        表3 參數(shù)設(shè)置Table 3 Parameters setting

        對(duì)于評(píng)估指標(biāo),使用Hits@K和平均倒數(shù)排名(Mean Reciprocal Rank,MMR)評(píng)估對(duì)齊性能。Hits@K通過(guò)排名在前K個(gè)的正確對(duì)齊實(shí)體的比例來(lái)進(jìn)行計(jì)算,MRR 是指所有正確實(shí)體的平均倒數(shù)排名。這兩個(gè)指標(biāo)值越高,表明實(shí)體對(duì)齊模型效果越好。

        3.3 對(duì)比方法與實(shí)驗(yàn)結(jié)果

        本文將NAMN 模型與最近提出的基于嵌入的實(shí)體對(duì)齊模型進(jìn)行比較,并將其分為2 類:1)基于嵌入的模型,如MTransE、IPTransE、JAPE、BootEA 和RSN;2)基于圖的模型,如GCN-Align 和RDGCN。同時(shí),引入近期考慮到知識(shí)圖譜鄰域異質(zhì)性的兩個(gè)最新成果進(jìn)行比較,即MuGNN 和AliNet 模型。

        表4 列出了在DBP15K 數(shù)據(jù)集上所有方法的實(shí)體對(duì)齊性能。實(shí)驗(yàn)結(jié)果表明,NAMN 明顯優(yōu)于3 個(gè)數(shù)據(jù)集上的所有基線模型。NAMN 模型可以實(shí)現(xiàn)Hits@1的所有值均高于75%,Hits@10 的所有值均高于85%,MRR 的所有值均不低于80%,這進(jìn)一步證實(shí)了本文方法的有效性。具體來(lái)說(shuō),在基于嵌入模型中,BootEA模型表現(xiàn)最佳,通過(guò)引導(dǎo)過(guò)程可以從更多訓(xùn)練實(shí)例中受益。對(duì)于僅考慮結(jié)構(gòu)信息的基于GNN 的模型,RDGCN 明顯優(yōu)于其他模型,這是因?yàn)镽DGCN 模型考慮從鄰域結(jié)構(gòu)入手,緩解了結(jié)構(gòu)異質(zhì)性所帶來(lái)的影響,體現(xiàn)出解決結(jié)構(gòu)異質(zhì)性的重要性。

        表4 不同實(shí)體對(duì)齊方法性能比較Table 4 Performance comparison of different entity alignment methods %

        為進(jìn)一步證明NAMN 模型的有效性,在DBP15K 的另外3 個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。這3 個(gè)數(shù)據(jù)集分別是DBP15KEN-ZH(英語(yǔ)-中文),DBP15KEN-JA(英語(yǔ)-日語(yǔ)),DBP15KEN-FR(英語(yǔ)-法語(yǔ)),實(shí)體對(duì)齊的結(jié)果比對(duì)如表5 所示。可以看出,所有模型的性能都有所下降,但NAMN 模型明顯優(yōu)于另外3 個(gè)模型,NAMN 模型的Hits@1 的值要高于另外3 個(gè)模型約30%以上,其中,在DBP15KEN-FR數(shù)據(jù)集中Hits@1 達(dá)到了最高,充分證明了NAMN 模型的有效性和魯棒性。

        表5 實(shí)體對(duì)齊結(jié)果比較Table 5 Comparison of entity alignment results %

        為更直觀地表現(xiàn)NAMN 模型的性能,在DBP15K 數(shù)據(jù)集上,采用Hits@1 到Hits@50 以10 為步長(zhǎng)的多個(gè)基準(zhǔn)進(jìn)行比較,選擇JAPE、GCN-Align和AliNet 作為對(duì)比模型,具體如圖3 所示,其中橫坐標(biāo)為Hits@K。可以看出:NAMN 模型的Hits@K值均高于其他模型,在DBP15KJA-EN和DBP15KFR-EN上都取得了最高的得分;AliNet 模型的Hits@K值在K取20 之后,得分接近NAMN 模型,說(shuō)明緩解實(shí)體鄰域結(jié)構(gòu)的異質(zhì)性有利于實(shí)體對(duì)齊,但AliNet 模型的Hits@1 明顯低于NAMN 模型,說(shuō)明NAMN 模型具有更好的對(duì)齊性能。

        圖3 DBP15K 數(shù)據(jù)集上Hits@K 得分結(jié)果比較Fig.3 Comparison of Hits@K score results on DBP15K dataset

        3.4 結(jié)果分析

        NAMN 模型使用門(mén)控機(jī)制和鄰域采樣策略來(lái)實(shí)現(xiàn)實(shí)體對(duì)齊,因此,分別對(duì)這兩個(gè)策略進(jìn)行分析。

        將NAMN模型在DBP15K數(shù)據(jù)集上采用隨機(jī)采樣策略來(lái)進(jìn)行比較,具體結(jié)果如圖4所示。可以看出,NAMN模型可以提供更好的結(jié)果,本文的采樣策略可以有效地選擇信息量更大的鄰居。對(duì)DBP15K數(shù)據(jù)集,兩個(gè)模型均可達(dá)到性能平穩(wěn)狀態(tài),當(dāng)采樣大小為3時(shí),兩個(gè)模型的性能更高。但隨著采樣大小的增大,性能會(huì)有所下降,說(shuō)明較大的采樣會(huì)引入更多的噪聲。

        圖4 DBP15K 數(shù)據(jù)集上鄰域抽樣策略與隨機(jī)采樣策略的結(jié)果比較Fig.4 Result comparison of neighborhood sampling strategy and random sampling strategy on DBP15K dataset

        在聚合多跳鄰居方面,本文使用不同的策略來(lái)設(shè)計(jì)NAMA 的不同變體。變體1(NAMN-1)將實(shí)體的一跳和二跳鄰居平等對(duì)待,使用GNN 層直接聚合鄰居信息;變體2(NAMN-2)用加法運(yùn)算符替換門(mén)控機(jī)制;變體3(NAMN-3)用GAT 來(lái)替換本文所用的注意力機(jī)制。由表6 可以看出:NAMN-1 的實(shí)驗(yàn)結(jié)果很差,這表明使用GNN 層來(lái)直接聚合二跳鄰居會(huì)引入很多的噪聲信息,嚴(yán)重影響對(duì)齊性能;NAMN-2 的實(shí)驗(yàn)結(jié)果較差,這表明加法機(jī)制只是簡(jiǎn)單的將鄰居信息結(jié)合,并不會(huì)像門(mén)控機(jī)制那樣選擇性地組合各個(gè)維度上的鄰居信息表示;NAMN-3 的實(shí)驗(yàn)結(jié)果比NAMN 略差,這表明本文所用注意力機(jī)制能夠優(yōu)化對(duì)齊效果。因此,對(duì)于遠(yuǎn)距離鄰居選擇,門(mén)控機(jī)制和注意力機(jī)制至關(guān)重要。

        表6 NAMN 不同變體對(duì)齊結(jié)果比較Table 6 Comparison of alignment results of different variants of NAMN %

        在DBP15K 數(shù)據(jù)集上1~4 層的AliNet 實(shí)驗(yàn)結(jié)果如圖5 所示,其中橫坐標(biāo)為AliNet 的層數(shù)??梢钥闯觯寒?dāng)AliNet 的層數(shù)為2 時(shí),所有指標(biāo)達(dá)到了最佳性能;當(dāng)AliNet 具有更多層時(shí),其性能也會(huì)下降。

        圖5 DBP15K 數(shù)據(jù)集上不同AliNet 層數(shù)的實(shí)驗(yàn)結(jié)果比較Fig.5 Experimental result comparison of different AliNet layers on DBP15K dataset

        4 結(jié)束語(yǔ)

        為提高實(shí)體對(duì)齊的準(zhǔn)確性,本文提出鄰域聚合匹配網(wǎng)絡(luò)(NAMN)模型。從實(shí)體鄰域角度出發(fā),通過(guò)門(mén)控鄰域聚合、鄰域匹配和對(duì)齊預(yù)測(cè)3 個(gè)階段判定實(shí)體是否對(duì)齊,解決知識(shí)圖譜間普遍存在的結(jié)構(gòu)異質(zhì)性問(wèn)題。實(shí)驗(yàn)結(jié)果表明,在DBP15K 數(shù)據(jù)集上,該模型的Hits@K指標(biāo)達(dá)到75%以上。后續(xù)將利用實(shí)體的語(yǔ)義信息和關(guān)系的映射屬性提高實(shí)體對(duì)齊的準(zhǔn)確度,并進(jìn)一步改進(jìn)鄰域的匹配策略,降低模型的復(fù)雜度,從而擴(kuò)大模型的應(yīng)用范圍。

        猜你喜歡
        結(jié)構(gòu)信息模型
        一半模型
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        論結(jié)構(gòu)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        論《日出》的結(jié)構(gòu)
        3D打印中的模型分割與打包
        創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長(zhǎng)
        展會(huì)信息
        国产精品成年片在线观看| 欧洲熟妇色 欧美| 国产激情综合五月久久| 久久久久一| 国产裸拍裸体视频在线观看| 日本一区二区免费高清| 一本久到久久亚洲综合| 亚洲国产成人片在线观看| 中文字幕久久精品一区二区| 五月天婷婷综合网| 青青草国产精品一区二区| 国产一区二区三区不卡视频| 久久99国产亚洲高清| 性激烈的欧美三级视频| 色视频线观看在线网站| 公和我做好爽添厨房| 蜜桃精品人妻一区二区三区| 亚洲天堂av福利在线| 亚洲天码一区二区三区| 国产亚洲激情av一区二区| 国产成人自拍小视频在线| 亚洲色婷婷综合开心网| 国产精品国产三级国产av创| 国产极品美女高潮抽搐免费网站| 久久AⅤ无码精品为人妻系列| 波多野结衣av手机在线观看| 最新日本一道免费一区二区| 宅男亚洲伊人久久大香线蕉| 女同视频网站一区二区| 永久免费看免费无码视频| 八区精品色欲人妻综合网| av永久天堂一区二区三区| 邻居人妻的肉欲满足中文字幕| 97久久成人国产精品免费| 国产精品白浆视频免费观看| 无码人妻精品丰满熟妇区| 一本色综合网久久| 麻豆成人久久精品二区三区91 | 色婷婷一区二区三区久久亚洲| 国产爆乳无码一区二区在线| 激情综合一区二区三区|