亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自適應(yīng)特征融合的迭代實(shí)體對齊方法

        2024-06-16 00:00:00李婷婷邵斐溫天曉董颯

        摘要: 針對知識圖譜實(shí)體對齊任務(wù)中缺乏訓(xùn)練數(shù)據(jù)以及長尾實(shí)體對齊準(zhǔn)確率較低的問題, 提出一種基于自適應(yīng)特征融

        合策略的迭代實(shí)體對齊方法, 并設(shè)計(jì)一種迭代策略自動擴(kuò)充訓(xùn)練數(shù)據(jù)的規(guī)模. 該方法使用知識圖譜的結(jié)構(gòu)信息, 并利用關(guān)系、 屬性和實(shí)體名稱信息作為語義信息輔助對齊, 從而提升對

        齊效果. 在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 該模型在知識圖譜實(shí)體對齊任務(wù)中效果良好.

        關(guān)鍵詞: 知識圖譜; 實(shí)體對齊; 迭代策略; 自適應(yīng)特征融合

        中圖分類號: TP391" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2024)03-0629-07

        Iterative Entity Alignment Method for Adaptive Feature Fusion

        LI Tingting, SHAO Fei, WEN Tianxiao, DONG Sa

        (Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, College of Computer Science and Technology, Jilin Unive

        rsity, Changchun 130012, China)

        Abstract: Aiming at the problems of insufficient training data and low accuracy of long-tail entity alignment" in the task of knowledge graph entity alignment,

        we" proposed an iterative entity alignment method based on an adaptive feature fusion strategy and designed an iterative strategy to automatically expand the scale of the training data.

        This method utilized the structural information of the knowledge graph and utilized" relationships, attributes, and entity name information as" semantic information to assist" alignment

        and" improve alignment effectiveness. The experimental results on the dataset show that the proposed model" performs well in the task of knowledge graph entity alignment.

        Keywords: knowledge graph; entity alignment; iterative strategy; adaptive feature fusion

        收稿日期: 2023-07-12.

        第一作者簡介: 李婷婷(1986—), 女, 漢族, 碩士, 副研究員, 從事人工智能的研究, E-mail: ttlee@jlu.edu.cn.

        通信作者簡介: 董" 颯(1985—), 女, 滿族, 博士, 高級工程師, 從事數(shù)據(jù)挖掘和高性能計(jì)算的研究, E-mail: dongsa@jlu.edu.com.

        基金項(xiàng)目: 吉林省科技發(fā)展計(jì)劃項(xiàng)目(批準(zhǔn)號: 20230201083GX).

        1" 引言與預(yù)備知識

        知識圖譜(knowledge graph, KG)的目的是保證搜索引擎的搜索結(jié)果足夠準(zhǔn)確全面, 進(jìn)而提高搜索引擎的檢索能力[1]. 知識圖譜與其前身語義網(wǎng)絡(luò)[2]相比, 知識

        圖譜更側(cè)重于描述實(shí)體之間的關(guān)聯(lián). 知識圖譜可視為一個有向圖, 圖中的節(jié)點(diǎn)表示實(shí)體, 邊表示實(shí)體間的關(guān)系, 知識圖譜中的每條知識可表示為一個“主-謂-賓”形式的三元組, 根

        據(jù)謂語的不同形式又可分為關(guān)系三元組和屬性三元組兩種. 知識圖譜目前不僅作為搜索引擎的數(shù)據(jù)庫使用, 而且已被廣泛應(yīng)用于知識問答、 推理決策、 推薦系統(tǒng)、 社交網(wǎng)絡(luò)等其他

        領(lǐng)域. 不同領(lǐng)域一般都會根據(jù)自身的需求有針對性地構(gòu)建知識圖譜, 由于缺乏統(tǒng)一的構(gòu)建標(biāo)準(zhǔn), 因此不同知識圖譜之間存在異構(gòu)和冗余問題. 通常兩個知識圖譜間的信息存在互補(bǔ)的情

        況, 所以為充分利用知識圖譜蘊(yùn)含的信息, 對不同的知識圖譜進(jìn)行融合生成一個規(guī)模更大的知識圖譜非常必要, 而知識圖譜融合技術(shù)中的關(guān)鍵是實(shí)體對齊.

        知識圖譜實(shí)體對齊任務(wù)的目標(biāo)是匹配兩個不同知識圖譜中指代同一客觀概念的實(shí)體.目前, 知識圖譜實(shí)體對齊任務(wù)的

        主流方法是基于圖表示學(xué)習(xí)的實(shí)體對齊方法, 其在性能和效率上均遠(yuǎn)優(yōu)于傳統(tǒng)實(shí)體對齊方法. 基于圖表示學(xué)習(xí)的實(shí)體對齊方法核心思想是將知識圖譜嵌入到低維向量空間中, 通過計(jì)算

        實(shí)體向量之間的距離判斷實(shí)體是否對齊. 這種方法的關(guān)鍵是如何有效地嵌入知識圖譜, 目前主要有兩類模型用于知識圖譜嵌入. 一類是基于TransE系列

        模型的嵌入方法, 代表性的工作有CTEA[3],JETEA[4],ESEA[5]等, 該類方法的核心思想是將三元組中的關(guān)系視為頭實(shí)體到尾實(shí)體的平移向量, 即對于一個

        三元組(h,r,t), 應(yīng)保證h+r≈t, 其中h表示頭實(shí)體向量, t表示尾實(shí)體向量, r表示頭實(shí)體與尾實(shí)體之間的關(guān)系向量. 另一類是基于圖神經(jīng)網(wǎng)絡(luò)系

        列模型的嵌入方法, 代表性的工作有RNM[6],RAC[7],IPEA[8]等, 這類方法通過聚合鄰居實(shí)體信息到中心實(shí)體, 從而獲得更具表達(dá)性的中心實(shí)體的嵌入表示.

        目前主流的知識圖譜實(shí)體對齊方法在對長尾實(shí)體對齊上的準(zhǔn)確率較低, 這是因?yàn)槟壳暗膶?shí)體對齊方法主要依賴知識圖譜的結(jié)構(gòu)信息進(jìn)行對齊, 即使用到其他信息時(shí), 通常也都以固定的

        權(quán)重去融合多種信息, 并且結(jié)構(gòu)信息仍占較大權(quán)重, 但長尾實(shí)體的結(jié)構(gòu)信息十分匱乏. 此外, 實(shí)體對齊任務(wù)需要大量預(yù)先對齊的實(shí)體對充當(dāng)標(biāo)記數(shù)據(jù), 但這些標(biāo)記數(shù)據(jù)的獲取并非易事

        , 人工標(biāo)注的成本極高. 因此, 本文提出一種基于自適應(yīng)特征融合策略的迭代實(shí)體對齊模型——AFFIEA. 該模型在融合不同方面信息時(shí), 采用一種自適應(yīng)特征融合策略, 根據(jù)實(shí)體

        結(jié)構(gòu)信息的豐富程度動態(tài)為不同方面信息分配融合權(quán)重, 由于長尾實(shí)體的結(jié)構(gòu)信息比較匱乏, 此時(shí)將增大其他信息的權(quán)重, 該策略可有效提高長尾實(shí)體對齊的準(zhǔn)確率; 并設(shè)計(jì)一種迭代策

        略自動獲取標(biāo)記數(shù)據(jù), 很好地解決了標(biāo)記數(shù)據(jù)不足的問題.

        知識圖譜是一種有向圖, 其可以被形式化定義為KG=(E,R,A,T), 其中E表示實(shí)體集合, R表示關(guān)系集合, A表示屬性集合, T表示三元組集合.知識圖譜實(shí)體對齊任務(wù)可以描述為: 給定

        兩個待對齊的知識圖譜KG1=(E1,R1,A1,T1)和KG2=(E2,R2,A2,T2), KG1稱為源知識圖譜, KG2稱為目標(biāo)知識圖譜, S={(e1,e2)e1∈KG

        1, e2∈KG2, e1≡e2}是事先給定的預(yù)對齊實(shí)體對的集合, 也稱為種子集. 知識圖譜實(shí)體對齊的目標(biāo)就是根據(jù)種子集S, 得到分別出現(xiàn)在源知識圖譜KG1和目標(biāo)知識圖譜KG2中

        但表示現(xiàn)實(shí)世界中同一概念的實(shí)體對的集合, 即最終對齊結(jié)果集合Align={(e1,e2)e1∈E1, e2∈E2, e1≡e2}. 其中≡表示兩個實(shí)體間的等價(jià)關(guān)系, SAlign.

        2" 自適應(yīng)特征融合的迭代實(shí)體對齊模型

        2.1" 整體框架

        本文提出的AFFIEA模型整體架構(gòu)如圖1所示. AFFIEA模型使用圖注意力網(wǎng)絡(luò)(graph attention network, GAT)對結(jié)構(gòu)信息進(jìn)行建模, 通過計(jì)算結(jié)構(gòu)嵌入的余弦相似度得到結(jié)構(gòu)相似性

        矩陣. 對于關(guān)系和屬性, 本文將它們簡單地視為詞袋特征, 并通過只包含一個輸入層和一個輸出層的前饋神經(jīng)網(wǎng)絡(luò)獲得關(guān)系嵌入和屬性嵌入. 對于實(shí)體名稱信息, 本文通過平均化實(shí)體

        名字符串的預(yù)訓(xùn)練Glove向量得到實(shí)體名稱特征, 同樣也通過上述的前饋神經(jīng)網(wǎng)絡(luò)獲得實(shí)體名稱嵌入. 為更好表現(xiàn)實(shí)體的語義信息, 本文先將關(guān)系嵌入、 屬性嵌入和實(shí)體名稱嵌入融

        合生成一個統(tǒng)一的語義嵌入, 根據(jù)語義嵌入生成實(shí)體的語義相似性矩陣. 然后使用自適應(yīng)特征融合策略對結(jié)構(gòu)相似性矩陣和語義相似性矩陣進(jìn)行融合, 生成實(shí)體相似性矩陣, 根據(jù)實(shí)體

        相似性矩陣得到實(shí)體對齊結(jié)果. 最后, 利用設(shè)計(jì)好的迭代策略從對齊結(jié)果中篩選出盡可能正確的對齊實(shí)體對加入種子集, 使用更新后的種子集開啟下一輪迭代, 重復(fù)該過程, 直到新產(chǎn)

        生的對齊實(shí)體對數(shù)量低于給定值S時(shí)結(jié)束迭代.

        2.2" 結(jié)構(gòu)嵌入

        圖注意力網(wǎng)絡(luò)GAT是一種處理結(jié)構(gòu)化數(shù)據(jù)的典型神經(jīng)網(wǎng)絡(luò)[9]. 因此, 本文使用GAT建模KG1和KG2的結(jié)構(gòu)信息. 對于實(shí)體ei的隱藏狀態(tài)hi, 通過聚合其帶有自環(huán)的一

        跳鄰居Ni獲得, 計(jì)算公式為

        hi=ReLU∑j∈Niαijhj,(1)

        其中: hj∈

        瘙 綆 d(d是隱藏層大?。閷?shí)體ej的隱藏狀態(tài); αij為注意力系數(shù), 表示實(shí)體ej對實(shí)體ei的重要性, 其通過自注意力機(jī)制計(jì)算得到:

        αij=exp{LeakyReLU(pT(WhiW

        hj))}∑m∈Niexp{LeakyReLU(pT(WhiWhm))},(2)

        式中W∈

        瘙 綆 d×d為權(quán)重矩陣, p∈

        瘙 綆 2d為可學(xué)習(xí)的參數(shù), 表示拼接操作. 為減少計(jì)算量增加模型的可擴(kuò)展性, 本文將W限制為對角矩陣. 為穩(wěn)定自注意力的學(xué)習(xí)過程, 本文并行執(zhí)行K(K=2)個獨(dú)立的式(1)過程, 并將這些特征拼接以獲得實(shí)體ei的結(jié)構(gòu)嵌入表示hgi, 計(jì)算公式為

        hgi=Kk=1ReLU∑j∈Niαkijhj,(3)

        其中αkij為由第k個注意力機(jī)制計(jì)算得到的歸一化注意力系數(shù). 在具體實(shí)驗(yàn)中, 本文使用一個兩層的GAT模型聚合多跳內(nèi)的鄰居信息, 并使用最后一個GAT層的輸出作為鄰居結(jié)構(gòu)的嵌入表示.

        2.3" 關(guān)系、 屬性和實(shí)體名稱嵌入

        本文使用詞袋模型顯示地對關(guān)系和屬性進(jìn)行建模. 設(shè)計(jì)兩個N-hot向量vr和va表示關(guān)系和屬性, N-hot向量可反映一個

        實(shí)體連接了哪些關(guān)系和屬性以及它們的數(shù)量. 為防止N-hot向量的維度過高, 本文在構(gòu)建詞典時(shí)

        只保留出現(xiàn)頻率排在前K的關(guān)系和屬性, 故va和vr均為K維向量.

        因?yàn)镚AT模型在建模關(guān)系和屬性時(shí), 會自然地引入鄰居的相關(guān)信息, 產(chǎn)生噪聲. 所以本文使用僅包含一個輸入層和一個輸出層的簡單前饋神經(jīng)網(wǎng)絡(luò)獲取關(guān)系和屬性的嵌入, 計(jì)算公式為

        hri=wrvri+br,(4)

        hai=wavai+ba,(5)

        其中hri和hai分別表示實(shí)體ei的關(guān)系嵌入和屬性嵌入, vri和v

        ai分別表示實(shí)體ei的關(guān)系和屬性的詞袋特征向量, wr,wa,br,ba為可學(xué)習(xí)的參數(shù).

        對于實(shí)體名稱, 本文使用預(yù)訓(xùn)練的詞向量模型Glove[10]獲得實(shí)體名稱的初始特征向量vn. 同樣通過前饋神經(jīng)網(wǎng)絡(luò)獲得實(shí)體名稱嵌入, 計(jì)算公式為

        hni=wnvni+bn.(6)

        2.4" 自適應(yīng)特征融合

        目前主流的實(shí)體對齊方法大多數(shù)選擇在嵌入表示層面去融合多種信息, 即為實(shí)體生成一個統(tǒng)一的嵌入表示. 該方法的不足之處是可能無法保持實(shí)體的某些原始信息, 兩個實(shí)體可能在某

        一特定嵌入下十分接近, 但在統(tǒng)一嵌入下相距很遠(yuǎn). 所以, 受文獻(xiàn)[11]的啟發(fā), 本文選擇在相似性矩陣層面對各種信息進(jìn)行融合. 根據(jù)前面得到的結(jié)構(gòu)嵌入, 通過計(jì)算余弦相似度

        的方式得到對齊實(shí)體間的結(jié)構(gòu)相似性矩陣Mg, 將關(guān)系嵌入、 屬性嵌入和實(shí)體名稱嵌入以一種簡單的加權(quán)

        拼接方式聚合在一起生成語義嵌入, 語義嵌入的計(jì)算公式為

        hsi=m∈Mewm∑j∈Mewjhmi,(7)

        其中: M=(R,A,N); wm表示m信息的可訓(xùn)練權(quán)重, 在加權(quán)拼接前對輸入的嵌入進(jìn)行歸一化. 同樣通過計(jì)算語義嵌入間的余弦相似度得到實(shí)體間的語義相似性矩陣M

        s. 然后將Mg和Ms融合生成最終的實(shí)體相似性矩陣M.

        知識圖譜中存在大量的長尾實(shí)體, 長尾實(shí)體通常是指在數(shù)據(jù)集中出現(xiàn)頻率較低的實(shí)體, 由于這些實(shí)體的數(shù)據(jù)量較小, 很可能在訓(xùn)練實(shí)體對齊模型時(shí)未能充分捕捉到它們的特征信息, 導(dǎo)

        致對其進(jìn)行準(zhǔn)確對齊較困難. 此外, 長尾實(shí)體常缺乏充分的標(biāo)注信息, 或者標(biāo)注信息質(zhì)量較低, 從而導(dǎo)致在實(shí)體對齊過程中對這些實(shí)體的特征和語義信息理解不準(zhǔn)確, 進(jìn)而影響對齊準(zhǔn)

        確率. 對于長尾實(shí)體, 由于其信息稀疏, 很可能無法獲得足夠的上下文信息以學(xué)習(xí)其特征表示, 從而導(dǎo)致在實(shí)體對齊任務(wù)中難以準(zhǔn)確地捕捉到其語義信息. 長尾實(shí)體的結(jié)構(gòu)信息十分匱

        乏, 而結(jié)構(gòu)信息對于對齊實(shí)體最重要, 在融合不同信息時(shí)結(jié)構(gòu)信息所占權(quán)重較大, 且權(quán)重固定不變, 從而導(dǎo)致長尾實(shí)體的對齊準(zhǔn)確率很低. 針對上述問題, 可考慮采用數(shù)據(jù)增強(qiáng)、 更

        智能的特征表示學(xué)習(xí)方法、 結(jié)合上下文信息的實(shí)體對齊模型等方法提高長尾實(shí)體對齊的準(zhǔn)確率. 所以在生成實(shí)體相似性矩陣M時(shí), 本文使用一種可根據(jù)實(shí)體結(jié)構(gòu)信

        息的豐富程度動態(tài)為結(jié)構(gòu)信息和語義信息分配權(quán)重的策略. Zeng等[12]研究表明, 實(shí)體的度數(shù)越

        高, 實(shí)體與種子實(shí)體的關(guān)聯(lián)程度越大, 此時(shí)結(jié)構(gòu)信息越有效. 基于此結(jié)論, 本文設(shè)計(jì)一種權(quán)重計(jì)算方法, 計(jì)算公式為

        weightg=L/(1+M×e-N(Degree+Neighbour)),(8)

        weights=1-weightg,(9)

        其中: L,M,N為超參數(shù); Degree為實(shí)體的度數(shù); Neighbour為實(shí)體與種子實(shí)體的關(guān)聯(lián)度, 可表示為

        Neighbour=A1×W1+lg(A2×W2),(10)

        A1和A2分別為距離種子實(shí)體一跳和兩跳的實(shí)體數(shù), W1和W2為超參數(shù).

        2.5" 迭代策略

        為克服訓(xùn)練數(shù)據(jù)不足的問題, 本文設(shè)計(jì)一種迭代學(xué)習(xí)策略自動地從對齊結(jié)果中挑選可靠實(shí)體對加入種子集. 由于迭代過程不可避免地會引入錯誤的對齊實(shí)體對, 這些錯誤的實(shí)體對在之

        后的迭代中又會導(dǎo)致產(chǎn)生更多的錯誤實(shí)體對, 出現(xiàn)錯誤累積情況. 所以迭代策略的關(guān)鍵是如何盡可能地篩選出正確的對齊實(shí)體對. 因此, 本文設(shè)計(jì)了兩點(diǎn)策略. 1) 設(shè)置距離閾值θ:

        即使一對實(shí)體滿足互為最近鄰的條件, 他們之間的相似度仍可能很低, 所以在此基礎(chǔ)上設(shè)置一個距離閾值θ, 只有該對實(shí)體之間的距離在低于閾值θ時(shí), 才將其視為可靠實(shí)體對. 2)

        試用期策略: 每經(jīng)過m個epoch進(jìn)行一輪建議, 將滿足前兩個條件的實(shí)體對放入候選集合, 如果該實(shí)體對在后續(xù)的n輪建議中仍滿足前兩個條件(即試用期), 才將其加入種子集.

        每經(jīng)過m×n個epoch更新一次候選集合. 在數(shù)據(jù)集上驗(yàn)證這兩點(diǎn)策略的有效性, 迭代方法的終止條件, 即模型的收斂條件是: 當(dāng)?shù)^程中新生成的對齊實(shí)體數(shù)低于S值時(shí), 終止迭代過程.

        3" 實(shí)驗(yàn)結(jié)果與分析

        3.1" 數(shù)據(jù)集

        本文在數(shù)據(jù)集DBP15K上進(jìn)行實(shí)驗(yàn). 數(shù)據(jù)集DBP15K是一個被廣泛使用的跨語言知識圖譜實(shí)體對齊的基準(zhǔn)數(shù)據(jù)集, 它包含來自DBpeida[13]的4個特定語言的知識圖譜, 相應(yīng)的存在

        3個版本的跨語言知識圖譜實(shí)體對齊數(shù)據(jù)集, 分別是中-英、 法-英和日-英版本. 每個版本包含1.5萬個流行實(shí)體間的連接, 通常每種語言涉及到的實(shí)體數(shù)量遠(yuǎn)超1.5萬, 每個數(shù)據(jù)集

        中包含大量的三元組, 并且屬性三元組在數(shù)據(jù)集中的占比很高. 本文使用30%的實(shí)體對作為訓(xùn)練集(種子集), 其余實(shí)體對作為測試集. 數(shù)據(jù)集DBP15K的信息列于表1.

        3.2" 評價(jià)指標(biāo)

        采用Hits@k和MRR作為模型的評價(jià)指標(biāo), 其中: Hits@k表示正確的對齊實(shí)體在候選實(shí)體中排在前k位的比例, Hits@k值越大表示模型效果越好, 本文實(shí)驗(yàn)中k=1,10; M

        RR表示對齊結(jié)果中所有正確對齊實(shí)體排名的倒數(shù)的平均值, MRR值越大表示模型的效果越好.

        3.3" 參數(shù)設(shè)置

        設(shè)用于建模結(jié)構(gòu)信息的GAT模型的層數(shù)為2層, GAT每個隱藏層的維度為300; 關(guān)系、 屬性和實(shí)體名稱的嵌入向量的維度均為100; 自適應(yīng)特征融合的超參數(shù)M=1.5, N=1, L的取值由

        訓(xùn)練集的規(guī)模確定, 超參數(shù)W1=0.8, W2=0.1; 模型的迭代輪數(shù)為1 000, 批大小為512, 后500輪訓(xùn)練中將迭代過程試用期策略中的m和n值設(shè)為5和10, 迭代過程中的實(shí)體間距

        離閾值θ=0.4, 結(jié)束迭代過程的條件值S=30. 本文使用AdamW[14]優(yōu)化模型, 學(xué)習(xí)率設(shè)為0.000 5.

        3.4" 實(shí)驗(yàn)結(jié)果

        選擇BootEA[15],MRAEA[16],CEAFF[17],RNM[6]作為本文模型AFFIEA的對比模型.

        BootEA模型在實(shí)體對齊任務(wù)中引入了BootStrapping的思想, 通過迭代的方式擴(kuò)充種子集, 并且BootEA模型允許對新生成的對齊實(shí)體對進(jìn)行編輯或刪除, 從而緩解迭代過程中可能出現(xiàn)的錯誤累積問題.

        MRAEA模型通過為知識圖中的關(guān)系創(chuàng)建一個逆關(guān)系, 從而使知識圖中的關(guān)系數(shù)量加倍, 將節(jié)點(diǎn)的關(guān)系信息和其鄰居信息聚合在一起作為節(jié)點(diǎn)特征.

        CEAFF模型的核心是利用了強(qiáng)化學(xué)習(xí)的思想, 在強(qiáng)化學(xué)習(xí)的框架下, 設(shè)計(jì)了一致性和排他性約束表征相互依賴并限制集體對齊.

        RNM模型利用鄰域匹配增強(qiáng)實(shí)體對齊, 除在匹配鄰域時(shí)比較鄰居節(jié)點(diǎn)外, 模型還從連接關(guān)系中挖掘有用的信息, 此外, RNM模型的迭代過程以半監(jiān)督的方式利用實(shí)體對齊與關(guān)系對齊

        之間的積極交互.

        表2列出了AFFIEA模型與對比模型在MRR,Hits@1和Hits@10三個指標(biāo)上的性能. 為模型對比的公平性, BotEA,MRAEA,和RNM三個模型均使用迭代策略, CEAFF模型中使用一種自適應(yīng)特征融

        合策略. 由表2可見, 本文模型AFFIEA與其他模型相比實(shí)驗(yàn)結(jié)果最好, 表明了AFFIEA模型的有效性. 在與CEAFF模型的對比中, AFFIEA模型在法-英數(shù)據(jù)集上的性能略高于CEAFF, 在

        其余兩個數(shù)據(jù)集上的性能AFFIEA模型顯著優(yōu)于CEAFF模型, 這得益于AFFIEA模型采用的迭代策略, 說明了迭代策略對實(shí)體對齊任務(wù)的有效性. 在與同為迭代模型的比較中, AFFIEA模型性能

        也最好, 說明本文設(shè)計(jì)的迭代策略相比于其他迭代策略具有優(yōu)越性, 同時(shí)也表明本文的自適應(yīng)特征融合策略具有重要作用. AFFIEA模型的性能相比于BootEA模型提升29個百分點(diǎn), 相比于MRAEA

        模型提升16個百分點(diǎn), 性能提升明顯, 這是因?yàn)锽ootEA模型中僅利用了結(jié)構(gòu)信息, 而MRAEA模型也只是利用了關(guān)系的類型信息, 但AFFIEA模型除結(jié)構(gòu)信息外還利用了關(guān)系、 屬性和實(shí)體名稱信

        息, 說明額外的輔助信息的確可以增強(qiáng)實(shí)體的嵌入表示.

        3.5" 消融實(shí)驗(yàn)

        本文在數(shù)據(jù)集DBP15K的法-英版本數(shù)據(jù)集上進(jìn)行AFFIEA模型的消融實(shí)驗(yàn), 結(jié)果列于表3. 由表3可見, 當(dāng)去掉迭代模塊時(shí), AFFIEA模型的Hits@1指標(biāo)下降了9.1個百分點(diǎn), 表明了本文迭

        代策略的有效性. 自適應(yīng)特征融合策略也給AFFIEA模型帶來了4.4個百分點(diǎn)的性能提升. 對于不同輔助信息, 當(dāng)去掉結(jié)構(gòu)信息時(shí), 模型性能下降最多, 下降了42.3個百分點(diǎn), 說明結(jié)構(gòu)信息對實(shí)體

        對齊任務(wù)最重要. 關(guān)系信息和屬性信息分別給AFFIEA模型帶來了3.1個百分點(diǎn)和4.4個百分點(diǎn)的性能提升, 實(shí)體名稱信息為AFFIEA模型提供了13.8個百分點(diǎn)的性能提升, 說明除結(jié)構(gòu)信息外, 不同信息對實(shí)

        體對齊任務(wù)的貢獻(xiàn)程度有差距, 實(shí)體名稱信息要更重要.

        3.6" 自適應(yīng)特征融合對長尾實(shí)體對齊的影響

        在消融實(shí)驗(yàn)中已驗(yàn)證了自適應(yīng)特征融合的有效性, 下面進(jìn)一步研究自適應(yīng)特征融合對長尾實(shí)體對齊的影響. 在數(shù)據(jù)集DBP15K法-英上進(jìn)行實(shí)驗(yàn), 對比固定特征

        融合和自適應(yīng)特征融合兩種策略的性能. 根據(jù)實(shí)體度數(shù)由低到高的順序劃分出第1組實(shí)體、 第2組實(shí)體、 第3組實(shí)體. 圖2為不同特征融合策略的Hits@1對比結(jié)果. 由圖2可見,

        在各組實(shí)驗(yàn)中, 自適應(yīng)特征融合的性能均優(yōu)于固定權(quán)重融合, 在第1~3組實(shí)體中, 二者之間的性能差距分別為0.047,0.035,0.03

        1, 在第1組實(shí)體中二者之間的性能差距最大, 說明實(shí)體結(jié)構(gòu)信息越匱乏, 自適應(yīng)特征融合策略的性能越好, 從而驗(yàn)證了自適應(yīng)特征融合策略可提高長尾實(shí)體對齊的準(zhǔn)確率.

        綜上所述, 針對知識圖譜實(shí)體對齊任務(wù)中缺乏訓(xùn)練數(shù)據(jù)以及長尾實(shí)體對齊準(zhǔn)確率較低的問題, 本文提出了一個基于自適應(yīng)特征融合策略的迭代實(shí)體對齊模型AFFIEA. 該模型除

        利用實(shí)體的結(jié)構(gòu)信息外, 還利用實(shí)體的關(guān)系、 屬性和實(shí)體名稱作為輔助信息增強(qiáng)實(shí)體的嵌入表示. AFFIEA模型利用迭代的方式自動擴(kuò)充種子集的規(guī)模, 通過設(shè)計(jì)互為最近鄰、 距離閾

        值θ和試用期3個策略保證迭代過程中盡可能地篩選出正確的對齊實(shí)體對, 迭代策略克服了實(shí)體對齊任務(wù)缺少訓(xùn)練數(shù)據(jù)的問題. 為提高長尾實(shí)體對齊的準(zhǔn)確率, 使用了一

        種可根據(jù)實(shí)體結(jié)構(gòu)信息的豐富程度動態(tài)為結(jié)構(gòu)信息和語義信息分配聚合權(quán)重的自適應(yīng)特征融合方法. 將AFFIEA模型在數(shù)據(jù)集DBP15K上進(jìn)行實(shí)驗(yàn),

        與其他基線模型相比實(shí)驗(yàn)結(jié)果最好, AFFIEA模型的消融實(shí)驗(yàn)結(jié)果驗(yàn)證了模型各模塊的有效性. 此外, 本文還研究了自適應(yīng)特征融合對長尾實(shí)體對齊的影響, 實(shí)驗(yàn)結(jié)果證實(shí)

        了本文策略的有效性.

        參考文獻(xiàn)

        [1]" LIU Q, LI Y, DUAN H, et al. Knowledge Graph Construction Techniques [J]. Jou

        rnal of Computer Research and Development, 2016, 53(3): 582-600.

        [2]" BERNERS-LEE T, HANDLER J, LASSILA O. The Semantic Web [J]. Scientific American, 2003, 284(5): 34-43.

        [3]" YAN Z H, PENG R, WANG Y Q, et al. CTEA: Context and Topic Enhanced Entity Alig

        nment for Knowledge Graphs [J]. Neurocomputing, 2020, 410(3): 419-431.

        [4]" SONG X, ZHANG H, BAI L. Entity Alignment between Knowledge Graphs Using Entit

        y Type Matching [C]//Knowledge Science, Engineering and Management. Berlin: Springer, 2021: 578-589.

        [5]" JIANG T T, BU C Y, ZHU Y, et al. Combining Embedding-Based and Symbol-Based

        Methods for Entity Alignment [J]. Pattern Recognition, 2022, 124: 108433-1-108433-14.

        [6]" ZHU Y, LIU H Z, WU Z H, et al. Relation-Aware Neigh

        borhood Matching Model for Entity Alignment [C]//National Conference on Artificial Intelligence. Palo Alto: AAAI, 2021: 4749-4756.

        [7]" ZENG W X, ZHAO X, TANG J Y, et al. Reinforced Active Entity Alignment [C]//Proce

        edings of the 30th ACM International Conference on Information amp; Knowledge Management. New York: ACM, 2021: 2477-2486.

        [8]" YANG L Y, L C, WANG X, et al. Collective Entity Alignment for Knowled

        ge Fusion of Power Grid Dispatching Knowledge Graphs [J]. IEEE/CAA Journal of Automatica Sinica, 2022, 9(11): 1990-2004.

        [9]" VELIKOVI P, CUCURULL G, CASANOVA A, et al. Graph Attention Networks [EB/OL].

        (2017-10-30)[2023-04-11]. https://arxiv.org/abs/1710.10903.

        [10]" PENNINGTON J, SOCHER R, MANNING C D. Glove: Global Vectors for Word Represent

        ation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.]: ACL, 2014: 1532-1543.

        [11]" ZENG W X, ZHAO X, TANG J Y, et al. Reinforcement Learning-Based Collective Entity

        Alignment with Adaptive Features [J]. ACM Transactions on Information Systems (TOIS), 2021, 39(3): 1-31.

        [12]" ZENG W X, ZHAO X, WANG W, et al. Degree-Aware Alignment for Entities in Tail

        [C]//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 811-820.

        [13]" LEHMANN J, ISELE R, JAKOB M, et al. DBpedia: A Large-Scale, Multilingual Kno

        wledge Base Extracted from Wikipedia [J]. Semantic Web, 2015(6): 1-29.

        [14]" LOSHCHILOV I, HUTTER F. Decoupled Weight Decay Regularization [EB/OL].

        (2017-11-14)[2023-02-10]. https://arxiv.org/abs/1711.05101.

        [15]" SUN Z Q, HU W, ZHANG Q H, et al. Bootstrapping Entity Alignment with Knowledge Graph Embedding [C]//

        Proceedings of the 27th International Joint Conference on Artificial Intelligence. New York: ACM, 2018: 4396-4402.

        [16]" MAO X, WANG W T, XU H M, et al. MRAEA: An Efficient and Robust Entity Alignmen

        t Approach for Cross-Lingual Knowledge Graph [C]//Proceedings of the 13th International Conference on Web Search and Data Mining. New York: ACM, 2020: 420-428.

        [17]" ZENG W X, ZHAO X, TANG J Y, et al. Reinforcement Learning Based Collective Ent

        ity Alignment with Adaptive Features [J]. ACM Transactions on Information Systems, 2021, 39(3): 26-1-26-31.

        (責(zé)任編輯: 韓" 嘯)

        在线丝袜欧美日韩制服| 国产欧美日韩精品专区| 国产真实夫妇交换视频| 亚洲精品综合第一国产综合| 国产人妖一区二区av| 日韩精品在线视频一二三| 国产精品久久久久9999小说| 精品人妻伦九区久久AAA片69| 76少妇精品导航| 色窝窝手在线视频| 全亚洲最大的私人影剧院在线看| 成年女人a级毛片免费观看| 天天做天天躁天天躁| 亚洲第一免费播放区| 女优av一区二区在线观看| 精品久久久久久久无码人妻热| 精品熟女少妇av免费观看| 亚洲色无码中文字幕| 三级日韩视频在线观看| 无码va在线观看| 91在线在线啪永久地址| 国产猛男猛女超爽免费av| 精品无人区无码乱码毛片国产| 东京无码熟妇人妻av在线网址| 国产精品青草久久久久婷婷| 综合中文字幕亚洲一区二区三区| 中文字幕亚洲无线码在线一区| 日本精品人妻无码77777| 色婷婷色99国产综合精品| 国产在线精品成人一区二区三区| 欧美精品亚洲精品日韩专区| 国产伦精品一区二区三区视| 亚洲一区二区三区国产精品| 风韵丰满熟妇啪啪区老老熟妇| 日韩精品无码免费专区网站| www.五月激情| 婷婷丁香开心五月综合| 亚洲精品天堂成人片av在线播放| 麻豆久久五月国产综合| 亚洲av极品尤物不卡在线观看| 久久久久夜夜夜精品国产|