亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動態(tài)圖注意力與標簽傳播的實體對齊

        2024-04-23 10:03:18莫少聰陳慶鋒謝澤劉春雨邱俊錸
        計算機工程 2024年4期
        關鍵詞:模型

        莫少聰,陳慶鋒,謝澤,劉春雨,邱俊錸

        (廣西大學計算機與電子信息學院,廣西 南寧 530004)

        0 引言

        知識圖譜是一系列顯示知識組成結構關系的實體集合,可高效利用可視化技術描述知識資源,是人工智能、自然語言處理、語義網(wǎng)等領域的重要知識載體。知識圖譜構建一個機器與人都能理解的關系網(wǎng)絡,隨著深度學習、表示學習模型的迅速發(fā)展,知識圖譜在知識推理[1]、推薦系統(tǒng)[2]、知識問答[3]等領域得到廣泛應用。但是,隨著各種知識圖譜數(shù)據(jù)集數(shù)量的持續(xù)擴大,知識圖譜數(shù)據(jù)愈發(fā)呈現(xiàn)跨領域、知識逐漸細分的特性,進一步提高了融合多源知識圖譜的難度。知識圖譜數(shù)據(jù)的不同語言與不同規(guī)則之間的構造方式不同,使得人們難以整合數(shù)據(jù)庫中的豐富信息。

        最早的實體對齊模型專注于符號表示的對齊規(guī)則[4],但需要大量的人工對齊成本并制定大量面向專業(yè)領域的對齊規(guī)則。近年來,基于表示學習的模型逐漸成為實體對齊任務中的主流范式并取得了優(yōu)異的效果?,F(xiàn)有表示學習模型主要關注對知識圖譜中的(實體,關系,實體)三元組進行特征學習。此外,也有一些模型嘗試結合知識圖譜中的結構表示與實體自身的屬性特征表示進行實體對齊,其中屬性特征包括屬性值的字符信息以及屬性三元組(實體,屬性名,屬性值)。以往的實體對齊模型在利用屬性特征信息時,多采用神經(jīng)網(wǎng)絡學習屬性值內部的字符序列信息,但大都只針對單個屬性內部信息的字符序列進行學習,忽略了不同屬性對實體對齊任務的重要性差異。

        本文認為不同的屬性應當對實體表示有不同的作用,應當降低不重要屬性的影響,因此,本文提出基于動態(tài)圖注意力與標簽傳播的實體對齊模型。本文的主要工作為:

        1)提出一種由3個模塊組成的實體對齊模型:首先通過動態(tài)圖注意力屬性結構表示模塊學習節(jié)點的屬性三元組特征;然后利用多維標簽模塊進一步把屬性特征作為初始化標簽,在實體間進行迭代傳播從而完成屬性結構與關系結構的最終實體表示學習;最后引入線性規(guī)劃算法對實體相似度矩陣進行迭代,得到更精準的實體對齊結果。

        2)在不同訓練集上進行實驗,將本文模型與基準模型的實體對齊結果進行對比,驗證本文模型的魯棒性。

        3)在跨語言英法數(shù)據(jù)集EN-FR-15K、中英數(shù)據(jù)集EN-ZH-15K和中文醫(yī)學領域的實體對齊數(shù)據(jù)基準MED-BBK-9K上進行消融實驗,驗證本文模型的效果。

        1 研究現(xiàn)狀

        1.1 知識圖譜表示學習

        知識表示是人工智能領域至關重要的一個環(huán)節(jié),指將現(xiàn)實世界中的知識轉化為計算機可處理形式的過程。知識表示的發(fā)展經(jīng)歷了從早期的規(guī)則、框架等模型到現(xiàn)在的知識圖譜的演化。知識圖譜為了描述自然界中實體的多個文本語義,建立基于實體與關系的知識數(shù)據(jù)庫。每個語義可以用三元組(頭實體,關系,尾實體)表示,這種表達方式具有強大的靈活性,已被廣泛應用于相關領域。

        計算機領域中的知識表示模型最早可以追溯到1956年。RICHENS在劍橋語言研究中心創(chuàng)造了計算機領域中第一個語義網(wǎng)絡系統(tǒng)[5]。隨后,BORSBOOM等[6]進一步提出了知識圖譜網(wǎng)絡分析的新思想。PARIS[7]實體對齊模型是目前使用最廣泛的模型之一,該模型首先基于概率模型對關系、實體和類之間的概率進行建模,以無須手動定義任何參數(shù)的優(yōu)點完成實體對齊任務。然而,該對齊模型在面對知識圖譜等數(shù)據(jù)庫特征有較大差異的情況時,很難實現(xiàn)高精度的對齊結果,同時該模型還依賴于相似性計算規(guī)則的手動定義。

        TransE[8]是一種最早采用知識圖譜表示學習的嵌入式學習模型,然而,TransE不能捕捉實體對的一對多語義關系。為了改進這一點,出現(xiàn)了TransH[9]、TransR[10]等平移距離模型,但這類模型對實體和關系之間的一對多知識圖譜的表示能力不足,因為它們只能對關系進行建模,這意味著它們不能有效地捕捉涉及多個實體的復雜關系,而這些關系往往存在于現(xiàn)實世界的知識圖譜中,因此不適用于對復雜關系進行建模。

        近幾年,深度學習被更多地用來作為知識圖譜表示的學習模型,包括ProjE[11]、ConvE[12]、R-GCN[13]等。ProjE利用多層感知機進行建模;ConvE利用卷積和全連接層對實體和關系的聯(lián)系進行建模;R-GCN利用圖卷積網(wǎng)絡(GCN)[14]進行建模;ConvKB[15]將實體和關系建模為相同大小的嵌入向量,將每個三元組的嵌入連接到一個輸入矩陣;ConvR[16]用不同位數(shù)的一維向量表示實體嵌入和關系特征,通過點積結合神經(jīng)網(wǎng)絡輸出得到三元組;CaPsEM[17]采用膠囊網(wǎng)絡進行實體和關系建模;RSN[18]使用隨機游走方式選擇實體并學習三元組的關系路徑。

        1.2 標簽傳播算法

        標簽傳播算法[19]是一種經(jīng)典的半監(jiān)督學習方法,其基本思路是根據(jù)節(jié)點之間的相似度在圖中進行標簽分布,利用樣本之間的關系建立完全圖模型,并將節(jié)點分為已標注和未標注兩類。通過學習圖中的鄰接關系,已標注的節(jié)點將標簽數(shù)據(jù)傳播到未標注節(jié)點。節(jié)點之間的相似度越高,標簽在2個節(jié)點之間越容易傳播。該算法的最大優(yōu)點是具有較低的復雜度且分類效果良好,被廣泛應用于社區(qū)挖掘和節(jié)點分類領域。設R為社區(qū)圖上的鄰接矩陣,E為圖的度矩陣,B(m)為每個節(jié)點隨機初始化的特征矩陣,m為標簽傳播的迭代輪數(shù),標簽傳播過程可以表示如下:

        B(m+1)=R(-1)EB(m)

        (1)

        標簽傳播算法只需要少量的已知節(jié)點進行訓練,就可以按照制定的傳播規(guī)則對未知節(jié)點賦予標簽。根據(jù)該假設,在標簽傳播時,應該盡可能選擇稀疏數(shù)據(jù)而不是密集的樣本數(shù)據(jù)點,以預測和傳播未標記數(shù)據(jù)的標簽。只要同一類數(shù)據(jù)在空間分布上是相近的,那么不管數(shù)據(jù)分布是什么形狀,都可以通過標簽傳播將它們分到同一個類中。因此,標簽傳播算法可以高效處理圖像、知識圖譜以及視頻節(jié)點分類等問題。

        1.3 實體對齊

        1.3.1 基于翻譯模型的實體對齊模型

        MTransE[20]模型最先將實體和關系編碼成向量,并通過翻譯模型捕捉它們之間的映射關系,以便在異構知識圖譜中對齊目標實體。JAPE[21]算法假設相似實體具有相似的相關屬性,該算法包含了上文提到的結構嵌入和屬性嵌入,然后利用2種向量的嵌入結合學習得到知識圖譜中實體的嵌入再進行實體對齊推測學習。

        BootEA[22]采用基于翻譯的模型進行嵌入,并通過預對齊結果反復訓練分類器。在每次迭代中新的可能的映射被分類器標記,將那些預對齊的實體對齊結果添加到下一次迭代中進行訓練。

        為了利用多視圖進行學習,可以在知識圖譜表示學習步驟中融入實體名稱、實體屬性和關系結構進行實體對齊,MultiKE[23]使用多個視圖來實現(xiàn)實體的多個信息融合,通過對真實關系事實進行評分、實體標識推理來提高對齊效果。

        1.3.2 基于圖神經(jīng)網(wǎng)絡的實體對齊模型

        GCN-Align[24]假設對齊的實體往往具有更類似的屬性字符嵌入以及更相似的鄰居實體,其首次利用對偶圖卷積網(wǎng)絡模型學習節(jié)點向量和圖結構特征。文獻[25]提出一種將圖元用于實體對齊的模型,把一對一的分類問題當成實體對齊問題,生成候選實體對的標簽。上述模型都是基于GNN[26]模型的進一步拓展。

        RDGCN[27]利用關系感知對偶圖卷積網(wǎng)絡學習源知識圖譜的關系結構表示。為了進一步編碼異構關系知識圖譜中普遍存在的鄰居實體差異,RDGCN通過注意力機制建立原始圖和對偶關系圖之間的聯(lián)系,并將關系信息與相鄰的結構信息進行合并從而利用圖的三角結構實現(xiàn)特征學習。該模型僅使用了較少的訓練數(shù)據(jù)就在基準數(shù)據(jù)集上實現(xiàn)了優(yōu)越的對齊性能。

        RSN4EA[28]使用隨機游走來采樣訓練集中預對齊實體之間的路徑,并提出循環(huán)跳過網(wǎng)絡的序列模型學習嵌入,然后使用該模型學習不同知識圖譜之間的關聯(lián)信息。RNM[29]通過圖卷積網(wǎng)絡學習實體和關系的嵌入,在得到對齊關系對的相似度矩陣后,利用已對齊的關系語義信息和屬性結構信息,再用半監(jiān)督的方式進行實體對齊和關系對齊的迭代。

        NMN[30]為了解決實體對齊中普遍存在的實體鄰居不一致問題,通過基于抽樣的模型篩選知識圖譜中語義最豐富的鄰居,在實體對齊時同時考慮節(jié)點的拓撲結構與鄰居實體的相似度。DGMC[31]進一步深化節(jié)點的鄰域特征學習,采用局部特征匹配建模,通過進一步檢測在預對齊結果中明顯錯誤的部分并以迭代的方式消除匹配錯誤的實體。目前,研究人員普遍使用圖卷積學習知識圖譜的特征,使得錯誤傳播的問題得到了一定程度的緩解,但是以上模型對于單跳和多跳實體的傳播信息學習仍存在許多不足[32]。

        2 本文模型設計與實現(xiàn)

        知識圖譜實體對齊任務可以描述為給定2個需要對齊的知識圖譜,即源知識圖譜G1=(E1,R1,A1,V1,Tr1,Ta1)和待對齊的目標知識圖譜G2=(E2,R2,A2,V2,Tr2,Ta2),其中,E、R、A、V、Tr、Ta分表代表知識圖譜中的實體、關系、屬性、屬性值、實體三元組、屬性三元組的集合。給定預先在2個圖中的對齊種子集M={(e1,e2)∈E1×E2|e1≡e2},其中,≡連接現(xiàn)實中實質等同的對齊實體。實體對齊任務的目標就是基于G1、G2、M找到2個知識圖譜中所有的相同實體。

        如圖1所示,實體“椎動脈型頸椎病”在另一個知識圖譜中會由其醫(yī)保號“a67095”所指代,都有名為“消炎藥物”的屬性,但其他較多的實體也有“消炎藥物”這一常見屬性,這2個實體的鄰居節(jié)點都與“頸痛”和“視力減退”有關,不難發(fā)現(xiàn)在特征表示時,更常見的屬性在區(qū)分實體時重要性更低,而不常見的屬性明顯對區(qū)分實體的特征更有利,如何利用屬性的重要性區(qū)分實體成為實體對齊任務的一大難題。

        圖1 實體對齊示例Fig.1 Example of entity alignment

        本文所提出的實體對齊模型如圖2所示。給定G1、G2、實體對齊種子M,動態(tài)圖注意力對屬性三元組初步編碼得到實體表示,再通過多維標簽傳播融合關系三元組鄰域信息后對實體表示進行傳播以學習實體間的結構特征,在得到相似度矩陣后,通過Sinkhorn線性規(guī)劃迭代得到最終的實體對齊相似度矩陣結果。

        圖2 本文模型框架Fig.2 Framework of the model in this paper

        2.1 動態(tài)圖注意力屬性結構表示模塊

        圖注意力網(wǎng)絡[33]常用于計算節(jié)點的表示學習加權平均值,并利用打分函數(shù)為每個鄰居的邊計算權重,以確定鄰居節(jié)點對中心節(jié)點嵌入表示的影響程度。但是,這種圖注意力所學習到的注意力權重對普遍性的注意類型學習能力較差。例如“克羅恩病”與“克隆病”是對齊實體,且都有“消瘦”和“腸梗阻”2種屬性,在傳統(tǒng)圖注意力上,“消瘦”這一屬性在多個疾病中多次出現(xiàn),而“腸梗阻”則出現(xiàn)得較少,因此,學習到的鄰接關系特征應該突出 “腸梗阻”這一注意力權重。

        為了更好地學習不同屬性對實體表示的重要性,本文利用預訓練模型來生成實體的屬性信息嵌入,進而得到它的屬性特征序列和屬性值的字符特征序列。本文將屬性三元組視作邊,將屬性值視作節(jié)點,構建一個包含實體、屬性和屬性值的實體屬性子圖。為了有效地匯聚屬性與屬性值信息以更新實體表示,本文從圖節(jié)點預測領域得到啟發(fā),引入動態(tài)圖注意力機制[34],在圖注意力網(wǎng)絡中,注意力系數(shù)分別將節(jié)點特征使用權重矩陣映射到新的空間,將新的向量進行拼接,再利用單層前饋神經(jīng)網(wǎng)絡進行內積操作并通過LeakyReLU激活函數(shù)進行激活,隨后使用Softmax將目標節(jié)點與所有鄰居節(jié)點計算出來的相關度進行歸一化。本文模型先將實體屬性子圖的節(jié)點特征向量進行拼接,然后應用線性變換進行注意力系數(shù)非歸一化計算,如式(2)所示:

        (2)

        (3)

        (4)

        最終訓練目標是對2個空間的實體表示進行統(tǒng)一,使得訓練集中對齊種子的嵌入盡可能保持相似,確保其他潛在實體的表示盡可能相似。本文模型采用以下基于邊緣排名的損失函數(shù)訓練L:

        (5)

        β-G(e′i,e′j)}

        (6)

        其中:β是超參數(shù);是正樣本集,是負樣本集,在對齊實體對中使用k近鄰算法,選取某個實體的鄰近實體作為負樣本集,以獲得一組正負樣本集合。采用AdaGrad優(yōu)化算法來優(yōu)化該損失函數(shù),對各鄰居實體根據(jù)式(3)、式(4)計算權重并加權組合,從而引入屬性名稱和結構消息聚合同時減少無關屬性所帶來的噪聲影響,得到融合了屬性結構特征的實體表示。

        2.2 多維標簽傳播模塊

        在獲得知識圖譜的屬性結構表示后,本文利用多維標簽傳播模塊進一步探索知識圖譜的關系三元組結構信息。此前,大多數(shù)關系結構信息學習模型主要基于圖神經(jīng)網(wǎng)絡,該類模型在處理關系結構特征時,采用對每種關系類型訓練單獨的參數(shù)矩陣的方式進行特征學習,忽略了圖關系三元組結構的特征判別,且無法解決由于不同知識圖譜的模式定義而導致的異構性問題。

        LightEA[35]最先把實體對齊問題視為人臉識別中的身份標簽對匹配問題,基于文獻[36]提出的理論:任意一對隨機采樣的高維向量都近似于正交向量,例如,當實體向量維度為1 024時,2個向量的內積相似度大于0.1的概率小于4.96×10-3。LightEA利用隨機初始化賦予預對齊實體相同的向量特征,并將未對齊的實體和關系初始化為全零向量,再利用特定的傳播規(guī)則將標簽進行傳播以學習實體間的關系結構特征。這種模型可以有效解決異構關系結構的實體對齊問題,為實體對齊提供一個多方面的信息視角。

        (7)

        (8)

        (9)

        2.3 基于線性規(guī)劃的對齊實體推測模塊

        (10)

        其中:E∈|ε|×|ε|指實體的相似度矩陣,ε是實體數(shù)量,矩陣中的每一個代表實體對的相似度;P是一個方形二進制矩陣,在每行和每列中只有一個1而其他元素為0,P代表了實體對齊的推測結果矩陣,其每一行及每一列只有一個1以表示G1和G2之間的實體對齊結果;〈〉F代表弗羅貝尼烏斯內積運算;指置換矩陣所有可能出現(xiàn)的集合。

        文獻[38]進一步證明了利用最優(yōu)傳輸算法Sinkhorn可將式(10)轉化為式(11),在只利用相似度矩陣E作為輸入的情況下,獲得最后的實體對齊結果P:

        (11)

        本模塊利用最優(yōu)傳輸算法Sinkhorn對2個知識圖譜G1及G2的對齊實體結果進行進一步處理,能夠充分利用雙方實體的相似度信息,在提高對齊準確度的前提下也能提高推測效率。Sinkhorn是一種迭代算法,時間復雜度為O(kn2),k為迭代的次數(shù),該算法利用非常小的迭代次數(shù)就可以生成精準的實體對齊結果,算法1描述了本文算法流程。

        算法1基于動態(tài)圖注意力與標簽傳播的實體對齊算法

        輸入知識圖譜G1=(E1,R1,A1,V1,Tr1,Ta1),G2=(E2,R2,A2,V2,Tr2,Ta2),預對齊種子集M

        輸出所有的對齊實體對

        1.初始化實體特征維度ns←1 024,β←0.8,隨機初始化學習矩陣參數(shù)W和uT

        2.通過式(1)~式(3)獲得屬性結構關于實體的注意力權重系數(shù)qk

        3.通過式(5)得到實體的屬性結構嵌入he

        4.按三元組實體嵌入生成三維鄰接張量L

        5.對三維鄰接張量L的3個軸進行壓縮,得到Lside、Lfront和Ltop

        6.設置標簽傳播輪數(shù)k = 0

        7.While(k <2)

        8.for each 實體e∈G do:

        9.根據(jù)式(7)以及初始關系標簽更新實體標簽He

        10.根據(jù)式(8)更新關系標簽Hr

        11.k←k+1

        12.end

        13.根據(jù)式(9)把每一層的標簽拼接生成最終的節(jié)點嵌入hout

        14.根據(jù)得到的節(jié)點嵌入生成G1和G2的相似度矩陣E

        15.利用式(11)對相似度矩陣E進行Sinkhorn迭代,得到最后的實體對齊結果P

        3 實驗與分析

        3.1 實體對齊數(shù)據(jù)集

        為了證明本文所提模型的有效性,在以下數(shù)據(jù)集上進行實驗(數(shù)據(jù)集的統(tǒng)計信息如表1所示):

        表1 數(shù)據(jù)集信息Table 1 Datasets information

        1)最常見的實體對齊基準數(shù)據(jù)集DBP15K[39],取其中的EN-FR-15K及EN-ZH-15K語言數(shù)據(jù)集,其中EN-FR代表英語-法語跨語言實體對齊數(shù)據(jù),EN-ZH代表英語-中文數(shù)據(jù)。該數(shù)據(jù)庫提取出的數(shù)據(jù)集確保2種語言的構造規(guī)范以及實體的指稱都不相同,隨機刪除源圖譜中低連接度實體,使平均屬性度數(shù)增加1倍,然后執(zhí)行IDS算法來生成新的知識圖譜,每個子集包含15 000個預先對齊的實體對。

        2)MED-BBK-9K[40]數(shù)據(jù)集是由實際使用的2個異構知識圖譜醫(yī)療業(yè)務數(shù)據(jù)集經(jīng)過專業(yè)醫(yī)生手動標注的實體對齊數(shù)據(jù)集。MED-BBK-9K預設種子映射,與常規(guī)的基準數(shù)據(jù)集相比,其有著更大的節(jié)點度差距、名稱差異和屬性結構差異,為每個知識圖譜提取實體并附加一個本體節(jié)點作為實體的屬性,包括類結構(子類關系)和成員關系,確保數(shù)據(jù)集更貼近真實醫(yī)療場景中的實體對齊應用,每個子集包含9 162個預先對齊的實體對。

        3.2 參數(shù)設置及評價指標

        在模型的動態(tài)圖注意力層中設置屬性嵌入維度為1 024,通過BERT模型對數(shù)據(jù)進行詞嵌入。為確保屬性特征都有等長的表示,在經(jīng)過池化操作后得到固定長度的特征表示。選擇0.005作為學習率,損失函數(shù)閾值β為0.8,批次大小為4 000。利用正例實體隨機生成10個負實例形成訓練負例,并利用早停機制避免在過擬合后仍然持續(xù)訓練。標簽傳播的輪數(shù)k設為2,保留實體相似度最高的前400個實體作為訓練集中和預測樣本特征最近的樣本,迭代Sinkhorn輪數(shù)設為10,參數(shù)U為0.05。

        實驗采用平均倒數(shù)排名(MMR)、Hits@1、Hits@10作為實體對齊結果的評價指標,三者數(shù)值越高代表實體對齊結果越好。

        3.3 實驗結果

        3.3.1 基于基準的實驗結果分析

        本文將現(xiàn)有主流實體對齊模型作為對比,包括基于翻譯模型的實體對齊模型(BootEA、MultiKE)和基于圖神經(jīng)網(wǎng)絡的實體對齊模型(RDGCN、RSN4EA、RNM、NMN、DGMC)。這些評估和基準研究都在理想的監(jiān)督學習環(huán)境下利用不同的知識圖譜信息并取得了最優(yōu)性能,被廣泛使用并作為不同技術的代表性模型。不同模型的實體對齊結果如表2所示,最優(yōu)結果加粗標注。

        表2 不同模型的實體對齊結果Table 2 Entity alignment results of different models

        從表2可以看出,本文模型在3個數(shù)據(jù)集上都取得了最優(yōu)的效果。MultiKE模型根據(jù)實體名稱、關系和屬性的視圖嵌入獲得實體特征,忽略了鄰域關系結構信息的挖掘,并且MultiKE過度依賴實體名稱的屬性表示,而實體名稱在跨語言知識圖譜中有較大差異,如EN數(shù)據(jù)庫中的實體“Nintendo_DS”在FR知識圖譜中的實體名則是完全不同的 “Bomberman_(jeu_vidéo,_2005)”,可以看到這種情況下利用實體名稱反而會阻礙實體的對齊效果。與MultiKE模型相比,本文模型在EN-FR-15K數(shù)據(jù)集中的Hits@1、Hits@10、MRR分別提升了0.19、0.12、0.17,在EN-ZH-15K數(shù)據(jù)集中的Hits@1、Hits@10、MRR分別提升了0.09、0.06、0.07。

        在EN-FR、EN-ZH、MED-BBK數(shù)據(jù)集中,與最優(yōu)的基準模型DGMC相比,本文模型的Hits@1分別提升了0.019、0.018和0.026。NMN與DGMC模型使用由圖神經(jīng)網(wǎng)絡計算的局部節(jié)點嵌入,證明了圖卷積網(wǎng)絡能夠有效融合圖之間局部鄰域的匹配特征,在3種數(shù)據(jù)集上都明顯優(yōu)于其他基準模型,可以看出關系鄰域特征對于實體對齊任務有著明顯的積極作用,然而這2種模型都忽略了屬性關系的特征歸納。本文模型相較于最優(yōu)基準模型的性能提升,驗證了基于動態(tài)圖注意力與多維標簽傳播的實體對齊框架的有效性。

        3.3.2 超參數(shù)設置對實驗結果的影響

        本節(jié)通過實驗驗證模型中各種超參數(shù)對模型性能的影響。

        對實體維度與對齊結果的關系進行分析,結果如圖3所示。從圖3可以看出,當維度在128~1 024之間時對齊的Hits@1結果都在穩(wěn)定上升,而到了1 024維之后Hits@1的提高顯著降低,原因正如前文所提的2個隨機生成的高維向量相似的概率會隨著維數(shù)的增加而呈指數(shù)下降,因此,當維度大于1 024時增加維度對Hits@1的影響顯著減少,此時再提高維度對實體對齊結果作用很小,有著明顯的邊際效應。

        圖3 不同向量維度下的實驗結果Fig.3 Experimental results under different vector dimensions

        標簽傳播任務與常規(guī)的監(jiān)督及半監(jiān)督模型相同,圖4展示了不同標簽傳播輪數(shù)對傳播效果的影響。從圖4可以看到,不同傳播輪數(shù)時模型性能具有差異,當輪數(shù)k= 2時,模型在所有數(shù)據(jù)集中都達到了最佳的實體對齊結果,但隨著輪數(shù)繼續(xù)提高,實驗結果開始明顯下降,在第4輪傳播時,在EN-FR-15K、EN-ZH-15K、MED-BBK-9K數(shù)據(jù)集中模型性能分別下降41%、39%與52%。

        圖4 不同傳播迭代輪數(shù)下的實驗結果Fig.4 Experimental results under different propagation iteration rounds

        與圖神經(jīng)網(wǎng)絡的信息融合層數(shù)類似,雖然通過傳播壓縮后的鄰居矩陣特征,實體能夠學習多跳鄰居的關系結構特征,但更多的傳播輪數(shù)也會導致過平滑問題,聚合遠距離鄰居節(jié)點使得對齊結果受更多噪聲影響,引入過遠的鄰居標簽會加強實體表征的近似度,造成實體對齊結果出現(xiàn)更多誤差。

        與傳統(tǒng)的實體對齊算法在2個知識圖譜間進行貪婪搜索以計算所有實體的相似度不同,本文模型將實體對齊結果的發(fā)現(xiàn)看成是基于線性規(guī)劃的最優(yōu)化過程,先從相似度矩陣中保留n個潛在的對齊節(jié)點(top-n),將n作為最近鄰范圍數(shù),再利用Sinkhorn迭代算法得到最后的實體對齊結果,對齊實體發(fā)現(xiàn)幾乎不會影響對齊性能。從圖5可以看出,當n為500時,取得了較高的對齊結果精度。

        圖5 不同最近鄰數(shù)下的實驗結果Fig.5 Experimental results under different nearest neighbor numbers

        在表3的消融實驗中:移除動態(tài)圖注意力屬性結構代表模塊(-屬性注意力),即不利用屬性名信息,僅通過隨機初始化獲得節(jié)點的特征進行標簽傳播,結合線性規(guī)劃完成實體對齊任務,為公平起見,對其他使用到文本信息的模型也只進行隨機初始化實體表示;移除多維標簽傳播算法(-標簽傳播)只使用基準標簽傳播模型進行結構特征傳播;刪除Sinkhorn線性規(guī)劃實體推測模塊(-Sinkhorn)只使用貪心算法選擇最近的實體作為對齊結果。

        表3 消融實驗結果Table 3 Results of ablation experiment

        從表3可以看出,刪除其中任何一個模塊都會導致顯著的性能下降。與去掉所有模塊之后的模型相比,本文模型在各個數(shù)據(jù)集上都取得了更優(yōu)的效果,證明通過屬性圖注意力權重和多維標簽傳播,可以有效豐富知識圖譜嵌入的語義。

        3.3.3 不同種子集比例設置對實驗結果的影響

        在目前的實體數(shù)據(jù)集構造中,對大規(guī)模知識圖譜手動標注對齊的實體對非常耗費精力?,F(xiàn)有的模型都嚴重依賴預對齊的標注種子實體才能在實體對齊任務中發(fā)揮出優(yōu)越性能。為了驗證本文提出的實體對齊模型能夠在較少的預對齊實體種子集中也能保持良好的性能,在相同的參數(shù)配置環(huán)境下進行實驗,圖6展示了本文模型在不同預對齊種子比例下的實驗結果。在MED-BBK-9K數(shù)據(jù)集中,本文模型的Hits@1可以達到0.389,且在3種數(shù)據(jù)集上均明顯優(yōu)于基準模型,可知結合動態(tài)圖注意力對實體屬性信息進行建??梢愿鶆虻貙W習豐富的實體關系結構信息和屬性語義信息。當測試集的知識不完整時,基準模型在知識圖譜嵌入階段對所獲取的實體或關系表達能力不足,生成的嵌入表示區(qū)分度不夠,增加了該模型在語義匹配時出現(xiàn)誤判的幾率,進而導致模型在不完整訓練集與完整訓練集上的對齊預測準確率有較大差距。實驗結果證明,多維標簽壓縮方法可以更好地獲得實體與關系間的整體信息,并且多輪次的標簽傳播可以更高效地利用預訓練實體的語料信息。

        圖6 不同種子集比例下的實驗結果Fig.6 Experimental results under different seed set ratios

        4 結束語

        本文提出一種基于動態(tài)圖注意力與標簽傳播的實體對齊模型。將屬性作為節(jié)點加入圖結構中構建一個新的屬性-實體-關系圖,利用動態(tài)圖注意力機制為屬性分配不同的注意力權重,以降低無關屬性的影響,為噪聲屬性提供更好的魯棒性。為了緩解知識圖譜中的實體異構問題,利用多維標簽傳播算法對實體和關系的鄰接表示進行壓縮,在壓縮后的鄰接矩陣上傳播實體特征以學習關系三元組結構特征。最后,將實體向量對齊過程轉化為帶約束的線性規(guī)劃問題,通過實體的雙向匹配信息來解決傳統(tǒng)實體對齊推斷模型中存在的問題,并找出知識圖譜中的等價實體,從而有效提高模型的實體對齊效果。實驗結果驗證了本文模型的有效性。

        本文模型在對屬性文本字符進行表示學習階段過于依賴預訓練模型的語義質量,這在實際的專業(yè)領域實體對齊中可能會由于語料不足而降低對齊的準確性。因此,下一步將利用屬性以及其他知識圖譜信息(如本體類別),進一步提高實體對齊模型的準確性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        和黑人邻居中文字幕在线 | 美女又色又爽视频免费| 亚洲精品综合一区二区| 欧美亚洲日韩国产人成在线播放| 国产裸体歌舞一区二区| 日韩高清毛片| 国产精品毛片久久久久久l| 精品人妻一区二区三区蜜臀在线 | 亚洲日本中文字幕乱码在线| 久久久亚洲熟妇熟女av| 国产办公室秘书无码精品99| 无码va在线观看| 国产乱人伦av在线a| 正在播放国产多p交换视频| 一本久道久久综合狠狠操| 中文字幕有码人妻在线| 真人做爰片免费观看播放| 精品福利视频一区二区三区| 成人毛片18女人毛片免费| 中文字幕乱码人妻无码久久久1| 亚洲av成熟国产精品一区二区 | 久久99国产精品久久| 久久久久久成人毛片免费看| 国产爆乳无码一区二区在线| 男的和女的打扑克的视频| 二区视频在线免费观看| 成人片黄网站a毛片免费| 狠狠色狠狠色综合| 8888四色奇米在线观看| 日本精品久久久久中文字幕1| 国产精品自拍网站在线| av网站在线观看大全| 久久无码人妻一区二区三区午夜| 精品亚洲成在人线av无码| yeyecao亚洲性夜夜综合久久| 扒下语文老师的丝袜美腿| 国产丝袜美腿中文字幕| 日韩乱码人妻无码系列中文字幕 | 美女视频在线观看亚洲色图| 亚洲视频在线观看| 麻豆高清免费国产一区|