亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合實體類別信息的知識圖譜表示學(xué)習(xí)

        2021-04-29 03:21:04萬懷宇林友芳
        計算機工程 2021年4期
        關(guān)鍵詞:三元組類別圖譜

        金 婧,萬懷宇,林友芳

        (北京交通大學(xué)計算機與信息技術(shù)學(xué)院交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)

        0 概述

        知識圖譜是推動人工智能學(xué)科發(fā)展和支撐智能信息服務(wù)應(yīng)用的重要技術(shù),可將人類知識構(gòu)建成結(jié)構(gòu)化的知識系統(tǒng)。在知識圖譜中知識通常以三元組的形式進(jìn)行表示,知識圖譜以網(wǎng)絡(luò)圖的形式來構(gòu)建整個知識系統(tǒng),知識表示作為知識圖譜中知識獲取和應(yīng)用的基礎(chǔ),可提升知識圖譜的認(rèn)知和推理能力[1-2]。隨著Freebase、DBpedia 等大型知識圖譜被提出,基于網(wǎng)絡(luò)形式的知識表示在大規(guī)模知識圖譜下存在計算效率低下和數(shù)據(jù)稀疏等問題[3-4]。近年來,以深度學(xué)習(xí)為代表的知識圖譜表示學(xué)習(xí)技術(shù)得到了廣泛關(guān)注,其旨在將研究對象映射到一個連續(xù)低維的向量空間中,以便于高效計算實體和關(guān)系的語義相似度,同時能有效解決數(shù)據(jù)稀疏問題。

        翻譯模型是一種主流的知識表示學(xué)習(xí)模型,因簡單和高效的特點而備受關(guān)注,并且許多在翻譯模型基礎(chǔ)上進(jìn)行改進(jìn)的變體模型被陸續(xù)提出。這些模型不僅利用了知識圖譜所固有的結(jié)構(gòu)信息,而且考慮了實體描述信息、類別信息和圖像信息等與實體相關(guān)的多源信息,大幅提高了知識表示學(xué)習(xí)性能。TKRL 模型[5]是一種利用實體類別信息作為外部信息的知識表示學(xué)習(xí)模型,在該模型中不同類別的實體具有不同的表示,對于實體類別的層次結(jié)構(gòu),利用兩種編碼類型對層級結(jié)構(gòu)進(jìn)行建模,最終證實了實體類別可以在知識表示學(xué)習(xí)中發(fā)揮重要作用。然而,TKRL模型依賴于具有層次結(jié)構(gòu)的類別信息及事先制定好的規(guī)則約束,該規(guī)則約束具體為當(dāng)給定一種關(guān)系時,約定了該關(guān)系的頭實體和尾實體的具體類別,但該規(guī)則約束對于現(xiàn)實世界的數(shù)據(jù)而言不具備靈活性,并且不僅TKRL 模型需要利用事先制定好的規(guī)則約束,而且很多其他融合實體類別信息的翻譯模型也都基于類似的規(guī)則。本文建立一種融合實體類別信息的類別增強知識圖譜表示學(xué)習(xí)(Category-Enhanced Knowledge Graph Representation Learning,CEKGRL)模型,引入基于類別的實體表示,通過注意力機制學(xué)習(xí)實體類別和關(guān)系之間的相關(guān)性,并結(jié)合實體類別信息進(jìn)行知識表示學(xué)習(xí)。

        1 相關(guān)工作

        知識表示是對知識進(jìn)行描述的有效途徑,旨在研究如何更準(zhǔn)確地表示知識的語義信息以更好地利用知識圖譜,從而使得計算機能夠接受并運用知識,最終達(dá)到智能的目標(biāo)。知識表示學(xué)習(xí)是通過機器學(xué)習(xí)的方式將知識(知識圖譜中的實體和關(guān)系)表示為稠密低維的實值向量,有效解決了數(shù)據(jù)稀疏問題,并且學(xué)習(xí)到的知識表示能夠保留知識圖譜中的結(jié)構(gòu)和語義關(guān)系,從而高效計算實體和關(guān)系之間的語義相似度,使其廣泛適用于知識圖譜補全、自動問答和實體鏈接等下游任務(wù)中。

        近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,知識表示學(xué)習(xí)方法取得較大進(jìn)展。以TransE[2]為代表的翻譯模型是知識表示學(xué)習(xí)中的熱門模型,這類模型將關(guān)系向量作為頭實體向量到尾實體向量之間的平移,即假設(shè)尾實體向量t近似于頭實體向量和關(guān)系向量的和(h+r),并定義能量函數(shù)為E(h,r,t)=‖h+r-t‖。TransE 模型因參數(shù)少及計算復(fù)雜度低,在1-1 簡單關(guān)系中具有較好的性能表現(xiàn),但對于1-N、N-1 和N-N等復(fù)雜關(guān)系,由于TransE 模型的建模方式過于簡單,因此存在一定的局限性。為解決該問題,后續(xù)出現(xiàn)了許多以TransE 為基礎(chǔ)的改進(jìn)模型,如TransH、TransAH、TransA、TransG、TransR 和TransD 等。TransH 通過將頭實體、尾實體向量投影到對應(yīng)關(guān)系的超平面上,從而令一個實體在不同的關(guān)系下具有不同的表示[6]。TransAH 模型在TransH 模型的基礎(chǔ)上引入了一種自適應(yīng)的度量方法,通過加入對角權(quán)重矩陣將得分函數(shù)中的度量由歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離[7]。TransA 模型中的自適應(yīng)度量方法為每一種關(guān)系定義一個非負(fù)的對稱矩陣,從而對表示向量中的每一個維度添加權(quán)重,增加了模型的表示能力[8]。TransG 模型使用高斯混合來刻畫實體間的多種語義關(guān)系,利用最大相似度原理訓(xùn)練數(shù)據(jù),解決了多語義問題[9]。TransR 模型假設(shè)不同的關(guān)系具有不同的語義空間,因此將每個實體投影到對應(yīng)的關(guān)系空間中[10]。TransD 模型通過設(shè)置兩個關(guān)系-實體投影矩陣,并結(jié)合頭、尾實體位置的屬性,解決了TransR 模型參數(shù)過多的問題[11]。

        除了翻譯模型及其改進(jìn)模型以外,研究人員還提出了一些其他類型的知識表示學(xué)習(xí)模型,主要包括:1)距離模型,將頭、尾實體向量通過投影矩陣投影至對應(yīng)空間,并通過計算投影向量的距離來反映實體間的語義相似度,如SE 模型[12];2)能量模型,通過定義若干投影矩陣,并利用雙線性函數(shù)刻畫實體與關(guān)系的內(nèi)在聯(lián)系,如SME 模型[13-14];3)矩陣分解模型,通過矩陣分解的方式得到低維向量表示,如RESCAL 模型[15-16];4)雙線性模型,利用基于關(guān)系的雙線性變換刻畫實體和關(guān)系之間的二階聯(lián)系,如LFM 模型[17]。

        以上模型僅利用了知識圖譜自身所包含的三元組結(jié)構(gòu)信息,但除了結(jié)構(gòu)信息以外,還有大量與知識相關(guān)的其他信息沒有得到有效利用,如知識庫中所包含的實體和關(guān)系的描述信息、類別信息以及知識庫以外的海量互聯(lián)網(wǎng)文本信息等。這些多源信息提供了知識圖譜中三元組結(jié)構(gòu)信息以外的額外信息,有助于更準(zhǔn)確地學(xué)習(xí)知識表示。NTN 模型[18]使用實體中單詞嵌入的平均值表示實體,從而捕捉實體之間的潛在文本關(guān)系。DKRL 模型[19]通過考慮實體的描述信息文本來編碼實體描述的語義信息。IKRL模型[20]引入實體圖像信息,并利用神經(jīng)網(wǎng)絡(luò)構(gòu)造實體圖像的表示。TKRL 模型[5]通過引入具有層次結(jié)構(gòu)的類別信息以及實體類別與關(guān)系之間的約束信息來提高知識表示能力。但并非所有實體類別都具有層次結(jié)構(gòu),且實體類別與關(guān)系的約束方式不具備普適性和靈活性。為解決上述問題,本文提出一種融合實體類別的CEKGRL 模型。該模型利用數(shù)據(jù)集中最底層的實體類別,通過注意力機制捕獲實體類別和關(guān)系之間的相關(guān)性,并利用注意力分?jǐn)?shù)對類別表示進(jìn)行加權(quán)以學(xué)習(xí)知識表示。

        2 CEKGRL 模型

        知識圖譜通常包含實體的類別信息,而類別信息作為實體屬性的一部分,能夠起到補充實體語義信息的作用。為有效融合知識圖譜中的實體類別信息,同時兼顧翻譯模型的高效性,本文提出CEKGRL模型,其在TransE 模型的基礎(chǔ)上引入實體的類別表示,旨在學(xué)習(xí)三元組知識的同時,能夠通過類別信息得到更加準(zhǔn)確的知識表示。該模型無需依賴實體類別與關(guān)系之間的固定映射,便于將模型靈活地遷移到其他更加復(fù)雜且難以得到該映射關(guān)系的場景中。同時,CEKGRL 模型對實體類別的組織形式?jīng)]有要求,通過將類別的組織結(jié)構(gòu)進(jìn)行扁平化處理,可適應(yīng)各種應(yīng)用場景對類別信息格式的要求,無論是FB15K 中具有層次結(jié)構(gòu)的類別信息,還是其他形式的類別數(shù)據(jù)均可以使用。

        為更清晰地表述CEKGRL 模型的基本思想,圖1通過具體實例說明了實體類別與三元組關(guān)系之間的語義相關(guān)性。圖1(a)左側(cè)的George Washington 代表喬治·華盛頓這一實體,其右側(cè)的矩形代表列舉出的實體所包含的部分類別屬性,包括政治家、美國國會議員、死者、人、名稱來源和電影主題。圖1(b)列舉了與喬治·華盛頓這一實體有關(guān)的兩個三元組,括號中的內(nèi)容從左到右分別是頭實體、關(guān)系和尾實體,其中,矩形代表喬治·華盛頓的實體類別屬性,直線代表類別與關(guān)系之間的相關(guān)性,直線以及矩形顏色越深代表實體類別與關(guān)系之間的相關(guān)性越強。以知識圖譜中與喬治·華盛頓實體相關(guān)的兩個三元組為例,喬治·華盛頓的“政治家”和“美國國會議員”這兩個類別在(美國大陸會議,官員,喬治·華盛頓)三元組中比其他類別更具相關(guān)性,而在(肺炎,死因,喬治·華盛頓)三元組中,“死者”則能表達(dá)出更多相關(guān)的信息。這說明了同一個實體的不同類別在不同的三元組關(guān)系中可以起到提供語義信息的作用,并且不同類別的重要程度與三元組的關(guān)系存在一定的關(guān)聯(lián)關(guān)系。在此情況下,實體的類別信息可以豐富實體的表示,使知識表示具有更多的語義信息。

        圖1 實體類別與三元組關(guān)系之間的語義相關(guān)性Fig.1 Semantic correlation between entity category and triple relationship

        為更清晰地描述CEKGRL 模型,本文給出相關(guān)的定義和符號表示,將知識圖譜定義為G=(E,R,S),其中:E為實體集;R為關(guān)系集;S?E×R×E表示三元組集合,三元組集合用(h,r,t)進(jìn)行表示,h、r和t分別代表頭實體、關(guān)系和尾實體。此外,本文引入類別概念,用C表示類別集合,并定義基于結(jié)構(gòu)和基于類別的實體表示,分別代表從知識圖譜的三元組中學(xué)習(xí)到的實體表示以及引入類別表示所得到的實體表示。

        CEKGRL 模型的整體架構(gòu)如圖2 所示,其中,斜線狀的圓圈組成的橢圓代表基于結(jié)構(gòu)的向量表示,網(wǎng)格狀的圓圈組成的橢圓代表基于類別的向量表示,實心圓圈組成的橢圓代表關(guān)系的向量表示,空心的圓圈組成的橢圓代表實體類別的向量表示,a表示注意力分?jǐn)?shù)。為將兩種表示類型進(jìn)行融合,定義能量函數(shù)為:

        其中:ESS=‖hs+r-ts‖,為頭實體、尾實體使用基于結(jié)構(gòu)的實體表示得到的能量函數(shù);hs、ts分別為基于結(jié)構(gòu)的頭實體、尾實體表示;hc、tc分別為基于類別的頭實體、尾實體表示;超參數(shù)β用于調(diào)整基于類別的表示在CEKGRL 模型中的重要程度;ECC=‖hc+r-tc‖,為頭實體、尾實體使用基于類別的實體表示得到的能量函數(shù)。需要說明的是,實體基于結(jié)構(gòu)和基于類別的表示在訓(xùn)練過程中都使用統(tǒng)一的關(guān)系表示r,保證了兩種類型的向量表示空間可通過相同的關(guān)系表示達(dá)到統(tǒng)一。

        圖2 CEKGRL 模型的整體架構(gòu)Fig.2 Overall architecture of CEKGRL model

        在訓(xùn)練過程中,首先通過注意力機制得到實體類別表示與三元組關(guān)系的相關(guān)性,即注意力分?jǐn)?shù),然后利用該注意力分?jǐn)?shù)對類別表示進(jìn)行加權(quán)求和并將其作為基于類別的實體表示,最后將相同的關(guān)系表示作為兩種表示空間的聯(lián)系,將基于結(jié)構(gòu)和基于類別的表示進(jìn)行聯(lián)合訓(xùn)練。

        2.1 注意力機制

        實體的不同類別信息可以從多個角度刻畫實體,而同一個實體在不同的關(guān)系下會側(cè)重關(guān)注其不同的類別信息,具體表現(xiàn)為同一實體的不同類別與不同關(guān)系之間的語義相關(guān)性不同。為有效利用三元組中關(guān)系和實體類別之間存在的潛在相關(guān)性,本文通過以下注意力機制計算并得到兩者之間的相似度:

        1)基于相似度的注意力(Similarity-based Attention,SA)機制。受STKRL 模型[21]中注意力機制的啟發(fā),將實體類別與三元組關(guān)系之間的相關(guān)性定義為兩者向量表示的相似度,并采用余弦相似度進(jìn)行計算,公式如下:

        其中,att()為求解注意力分?jǐn)?shù)a的函數(shù),c為類別的向量表示。

        2)縮放點積注意力(Scaled Dot-Product Attention,SDPA)機制。基于文獻(xiàn)[22]中的注意力計算方法,結(jié)合CEKGRL 模型將關(guān)系r作為query 向量,類別c同時作為key 向量和value 向量。在實現(xiàn)過程中,為加快處理效率,通過矩陣的形式計算注意力,因此將多個關(guān)系的表示向量及其對應(yīng)的類別表示向量分別拼接為關(guān)系矩陣R和類別矩陣C。然后,引入待訓(xùn)練的權(quán)重矩陣WQ、WK和WV,將權(quán)重矩陣、關(guān)系矩陣和類別矩陣分別做矩陣相乘操作,得到query、key 和value 對應(yīng)的矩陣Q、K、V及注意力分?jǐn)?shù),如式(3)~式(6)所示:

        通過以上兩種注意力機制計算得到的注意力分?jǐn)?shù)越高,說明類別c與關(guān)系r的相關(guān)性越強。因此,本文利用注意力分?jǐn)?shù)對各個類別表示賦予不同權(quán)重,再對加權(quán)后的所有表示求和得到對應(yīng)的實體表示,即基于類別的實體表示,其在矩陣形式下的計算公式如下:

        其中,Ec為基于類別的實體表示向量集合。

        2.2 模型訓(xùn)練

        CEKGRL 模型與TransE 模型的訓(xùn)練目標(biāo)相同,本文采用最大間隔方法增強知識表示的區(qū)分能力,定義目標(biāo)函數(shù)為:

        其中,E(h,r,t)為正例三元組的能量函數(shù),E(h′,r′,t′)為負(fù)例三元組的能量函數(shù),γ為間隔的超參數(shù)且γ>0,T為訓(xùn)練集,T′為利用T進(jìn)行負(fù)采樣得到的集合,定義為:

        其中,頭實體、尾實體或者關(guān)系被隨機替換為其他實體或者關(guān)系,另外,如果替換后的新三元組仍在T中,則不會被當(dāng)作負(fù)樣本。

        在模型訓(xùn)練過程中,實體、關(guān)系和類別的表示均可以隨機初始化,實體和關(guān)系的表示也可以采用簡單的翻譯模型預(yù)訓(xùn)練得到。在具體的模型實現(xiàn)過程中,為使初始的類別表示具有一定的語義信息,本文借助預(yù)訓(xùn)練得到的實體表示對其進(jìn)行初始化,相較于隨機初始化能夠縮短模型收斂時間。初始化類別的具體方法為利用所有包含類別ci的實體表示的平均值作為該類別的表示,形式化為:

        其中,|eci|表示具有ci類別的實體數(shù)量且i滿足i∈[1,|C|]。

        CEKGRL 模型在最小化目標(biāo)函數(shù)的同時,可學(xué)習(xí)基于結(jié)構(gòu)和基于類別的兩種表示,并在模型訓(xùn)練過程中,采用Adam[23]優(yōu)化算法提升學(xué)習(xí)效果。

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)集

        實驗使用FB15K 數(shù)據(jù)集,通過知識圖譜補全和三元組分類任務(wù)對模型進(jìn)行性能評估。FB15K 是從Freebase 中抽取出的數(shù)據(jù)集,在實驗中將其劃分為訓(xùn)練集、驗證集和測試集,具體的統(tǒng)計信息如表1 所示,其中,#Rel 表示關(guān)系,#Ent 表示實體,#Train 表示訓(xùn)練集,#Valid 表示驗證集,#Test 表示測試集。所有的事實三元組即實驗中的訓(xùn)練集、驗證集和測試集的并集,在下文中稱為黃金三元組。

        表1 FB15K 數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of FB15K dataset

        對于類別數(shù)據(jù),本文采用文獻(xiàn)[5]公開的數(shù)據(jù)集,該數(shù)據(jù)集包含F(xiàn)reebase知識庫所涉及的type/instance字段,即類別信息,通過匹配Freebase 中FB15K 所包含的實體,并為這些實體添加知識庫中實體對應(yīng)的類別信息得到。在數(shù)據(jù)處理過程中,發(fā)現(xiàn)有10 個實體出現(xiàn)在原始FB15K 數(shù)據(jù)集中,但沒有與之對應(yīng)的實體類別信息。在處理數(shù)據(jù)缺失問題時,為保證原始FB15K 數(shù)據(jù)的完整性,需要保留這10 個實體及其所涉及的所有三元組,使這10 個實體也具有類別信息。經(jīng)過數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),99%的實體都包含common/topic 類別,因此在實驗中采用眾數(shù)規(guī)則對這10 個缺失類別的實體人為添加common/topic類別。經(jīng)過處理的數(shù)據(jù)集具有3 852個類別,每個實體平均約有12 個類別。

        3.2 實驗設(shè)置

        為驗證CEKGRL 模型的學(xué)習(xí)效果,將其與TransE、TransR 和TKRL 等模型進(jìn)行對比,在訓(xùn)練階段對TransE 模型增加關(guān)系負(fù)采樣操作,提升關(guān)系預(yù)測性能。對于TransR 模型,本文采用文獻(xiàn)[10]的開源代碼進(jìn)行實驗,并與TransE 模型在負(fù)采樣過程中的操作相同,在生成負(fù)樣本時也對關(guān)系進(jìn)行替換操作。對于RESCAL、SE、SME、LFM 及TKRL 模型,本文直接引用文獻(xiàn)[5,10]中的實驗結(jié)果。

        關(guān)于模型的參數(shù)選擇問題,實驗設(shè)置初始學(xué)習(xí)率α為0.000 5、0.0010、0.002 0,批量大小B為20、240、1 200、4 800,實體和關(guān)系的向量維度k為50、100、200,閾值γ為0.5、1.0、1.5、2.0。對于縮放點積注意力機制,設(shè)置權(quán)重矩陣中的dk為49、64、100??紤]到基于結(jié)構(gòu)和基于類別的表示所起作用不同,因此本文為基于類別的表示設(shè)置權(quán)重,用超參數(shù)β進(jìn)行表示,超參數(shù)β用于調(diào)整其在CEKGRL 模型中的重要程度。實驗得到的模型最優(yōu)參數(shù)設(shè)置為α=0.0010、B=4 800、k=200、γ=1.0、dk=100 和β=0.5。

        3.3 知識圖譜補全實驗與結(jié)果分析

        知識圖譜補全任務(wù)是在給定事實三元組(h,r,t)中兩項的前提下預(yù)測缺失的一項,即給定(h,r)預(yù)測t,給定(r,t)預(yù)測h或給定(h,t)預(yù)測r,因此知識圖譜補全包括實體預(yù)測和關(guān)系預(yù)測這兩個子任務(wù)。

        本文采用MeanRank 和Hit@n兩種評估指標(biāo),其分別表示正確的實體和關(guān)系在預(yù)測結(jié)果中的平均排名以及正確的實體和關(guān)系排在預(yù)測結(jié)果前n名的比例。針對每個指標(biāo)給定Raw 和Filter 兩種不同設(shè)置,Raw 設(shè)置只要預(yù)測結(jié)果不是當(dāng)前三元組所期待的結(jié)果,就將其視作錯誤的預(yù)測結(jié)果,即使該預(yù)測結(jié)果屬于黃金三元組,F(xiàn)ilter 設(shè)置則是剔除屬于黃金三元組的預(yù)測結(jié)果后所得的預(yù)測結(jié)果。

        對于這兩種設(shè)置,Raw設(shè)置會忽略黃金三元組的存在,如果預(yù)測出的結(jié)果屬于黃金三元組,但并非當(dāng)前所關(guān)注的特定三元組,則認(rèn)為預(yù)測結(jié)果錯誤,從而導(dǎo)致預(yù)測性能變差,但這部分由于黃金三元組而造成預(yù)測錯誤的結(jié)果,實際上的預(yù)測結(jié)果為正確,不應(yīng)影響模型預(yù)測性能,因此本文認(rèn)為Filter設(shè)置的預(yù)測結(jié)果更具說服力。

        3.3.1 實體預(yù)測

        CEKGRL 模型在實體預(yù)測任務(wù)中的評估結(jié)果如表2 所示,結(jié)果表明CEKGRL 模型除了MeanRank 的Raw 指標(biāo)較TKRL 和TransR 模型略低以外,其他指標(biāo)均得到提升。在Filter 設(shè)置下,與TKRL 模型相比,CEKGRL(SA)模型的Hit@10 指標(biāo)約提升了7.2 個百分點,MeanRank 指標(biāo)提升了約23.5%。

        表2 實體預(yù)測的評估結(jié)果Table 2 Evaluation results on entity prediction

        3.3.2 關(guān)系預(yù)測

        關(guān)系預(yù)測任務(wù)的評估結(jié)果如表3 所示,結(jié)果表明CEKGRL(SA)模型的MeanRank 指標(biāo)優(yōu)于其他模型,這說明CEKGRL 模型具有較好的關(guān)系預(yù)測性能。同時可以看出,TKRL 模型的Hit@1指標(biāo)略優(yōu)于CEKGRL模型,主要原因為TKRL 模型利用關(guān)系與類別之間的約束關(guān)系來對層次結(jié)構(gòu)信息進(jìn)行編碼,相較CEKGRL模型額外引入了約束關(guān)系信息來提升模型性能。若要獲得該約束關(guān)系,則需要對數(shù)據(jù)集有一定的要求或者對一些不容易提取的約束關(guān)系數(shù)據(jù)集進(jìn)行人工構(gòu)造,這樣會導(dǎo)致TKRL 模型的通用性和靈活性變差。本文提出的CEKGRL 模型獲取約束信息的方式更具普適性和靈活性,適用于基于多源信息融合的知識表示學(xué)習(xí)。

        表3 關(guān)系預(yù)測的評估結(jié)果Table 3 Evaluation results on relation prediction

        3.4 三元組分類實驗與結(jié)果分析

        三元組分類是一個二分類任務(wù),用于判斷給定的三元組是否準(zhǔn)確。在生成負(fù)樣本三元組時,本文采取與文獻(xiàn)[18]相同的策略,對生成負(fù)樣本時所需替換的實體或者關(guān)系進(jìn)行一定的限制,使得負(fù)樣本難以區(qū)分,從而提升模型在三元組分類任務(wù)中的性能。在分類過程中,對于給定的三元組(h,r,t),如果其注意力得分低于給定的閾值γ,則預(yù)測其為正確的三元組,反之為錯誤的三元組。每種關(guān)系的閾值設(shè)置不同,具體通過最大化驗證集中對應(yīng)關(guān)系下的分類準(zhǔn)確率進(jìn)行設(shè)置。三元組分類的評估結(jié)果如表4 所示,結(jié)果表明CEKGRL模型具有較優(yōu)的分類性能。

        表4 三元組分類的評估結(jié)果Table 4 Evaluation results on triple classification %

        3.5 案例分析

        為進(jìn)一步驗證CEKGRL 模型可以學(xué)習(xí)到特定關(guān)系下不同類別的相關(guān)性,并更清晰地表示模型的作用效果,本文通過具體案例進(jìn)行分析與說明。圖3 給出了在(Gangs of New York,film_festivals,2010 Berlin Film Festival)三元組中,2010 Berlin Film Festival 作為尾實體所具有的類別在實驗中的注意力分?jǐn)?shù)排名,其中,“Head:Gangs of New York”表示頭實體為Gangs of New York(電影名稱),“Relation:film_festivals”表示關(guān)系為film festivals,“Tail(interest):2010 Berlin Film Festival”表示尾實體為2010 Berlin Film Festival,并且是本文所關(guān)注的類別排名的實體。根據(jù)類別注意力分?jǐn)?shù)得到的排名結(jié)果可以看出,排在最靠前的類別與三元組中的關(guān)系相關(guān)性最強,排在靠后位置的類別一般覆蓋范圍更廣。

        圖3 2010 Berlin Film Festival 實體類別根據(jù)注意力分?jǐn)?shù)的排名情況Fig.3 Rank of 2010 Berlin Film Festival entity category according to attention score

        由于CEKGRL 模型可以區(qū)分出不同關(guān)系中實體類別的重要程度,因此當(dāng)具有一詞多義的實體處于不同語境時,可以通過最相關(guān)的類別來判斷其具體含義,用于輔助實體消歧任務(wù)。實體消歧是由于同一實體指稱在不同上下文可以指代不同實體,為能夠明確實體指稱所指代的實體而提出的任務(wù),在語義分析、搜索和問答等自然語言處理相關(guān)應(yīng)用中都是需要解決的關(guān)鍵性問題。本文將實體類別中最高的注意力分?jǐn)?shù)作為不同語義環(huán)境下區(qū)分實體的參考依據(jù),并基于此設(shè)計實體消歧實驗。在實驗中,從測試集中隨機選取100 個三元組,通過模型得到頭、尾實體類別的注意力分?jǐn)?shù),并檢驗最高分?jǐn)?shù)的類別是否能夠直接體現(xiàn)出對應(yīng)實體在該三元組中的語義。實驗結(jié)果顯示,其中有61 個三元組符合上述實驗假設(shè),因此證明了CEKGRL 模型在實體消歧任務(wù)中也具有一定的指導(dǎo)意義。由于篇幅限制,在此對該實驗過程不再贅述。

        4 結(jié)束語

        現(xiàn)有融合實體類別信息的知識表示學(xué)習(xí)模型中的類別與關(guān)系間通常需要設(shè)置約束條件。為高效利用實體類別與三元組關(guān)系之間的潛在相關(guān)性,本文提出一種采用注意力機制學(xué)習(xí)類別與關(guān)系間相關(guān)性的CEKGRL模型。在具有實體類別信息的FB15K 數(shù)據(jù)集上,利用知識圖譜補全和三元組分類任務(wù)對CEKGRL 模型進(jìn)行性能評估,結(jié)果表明其相比現(xiàn)有知識表示學(xué)習(xí)模型在MeanRank 和Hit@n 評估指標(biāo)上均取得一定的性能提升,并通過案例分析驗證了注意力機制的有效性。由于CEKGRL 模型僅利用了知識圖譜中的類別信息,因此后續(xù)可在該模型中融入更多具有豐富語義的多源信息進(jìn)行聯(lián)合訓(xùn)練,拓寬其在自然語言處理領(lǐng)域的應(yīng)用范圍,進(jìn)一步提升適用性與實用性。

        猜你喜歡
        三元組類別圖譜
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長圖譜
        關(guān)于余撓三元組的periodic-模
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動對接你思維的知識圖譜
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        三元組輻射場的建模與仿真
        麻婆视频在线免费观看| 精品人妻VA出轨中文字幕| 一区二区三区国产美女在线播放 | 精品国产3p一区二区三区| 亚洲精品国产av成人精品| 色吊丝中文字幕| 最新国产三级| 少妇被搞高潮在线免费观看| 白白色发布的在线视频| 巨大巨粗巨长 黑人长吊| 国产思思99re99在线观看| 国产精品天干天干在线观蜜臀| 国产av丝袜熟女丰满一区二区| 婷婷射精av这里只有精品| 成在人线av无码免费| 国产日产亚洲系列av| 亚洲国产系列一区二区| 秘书边打电话边被躁bd视频| 免费一区二区三区久久| 日韩精品视频免费福利在线观看| 媚药丝袜美女高清一二区| 久久久精品人妻无码专区不卡 | 少妇人妻无一区二区三区| 国产98色在线 | 国产| 99久久免费看少妇高潮a片特黄| 级毛片无码av| 亚洲精品偷拍自综合网| 粗大的内捧猛烈进出视频| 亚洲av不卡无码国产| 97女厕偷拍一区二区三区 | 夜夜揉揉日日人人| 国产精品国产三级国产av主| 亚洲免费女女在线视频网站| 国产激情综合在线观看| 成人午夜毛片| 伊人激情av一区二区三区| 欧美成人免费观看国产| 日本av第一区第二区| 东北少妇不戴套对白第一次| 国产精品区一区第一页| 激情内射亚洲一区二区|