亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合實(shí)體類別信息的知識(shí)圖譜表示學(xué)習(xí)

        2021-04-29 03:21:04萬懷宇林友芳
        計(jì)算機(jī)工程 2021年4期
        關(guān)鍵詞:語義信息模型

        金 婧,萬懷宇,林友芳

        (北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044)

        0 概述

        知識(shí)圖譜是推動(dòng)人工智能學(xué)科發(fā)展和支撐智能信息服務(wù)應(yīng)用的重要技術(shù),可將人類知識(shí)構(gòu)建成結(jié)構(gòu)化的知識(shí)系統(tǒng)。在知識(shí)圖譜中知識(shí)通常以三元組的形式進(jìn)行表示,知識(shí)圖譜以網(wǎng)絡(luò)圖的形式來構(gòu)建整個(gè)知識(shí)系統(tǒng),知識(shí)表示作為知識(shí)圖譜中知識(shí)獲取和應(yīng)用的基礎(chǔ),可提升知識(shí)圖譜的認(rèn)知和推理能力[1-2]。隨著Freebase、DBpedia 等大型知識(shí)圖譜被提出,基于網(wǎng)絡(luò)形式的知識(shí)表示在大規(guī)模知識(shí)圖譜下存在計(jì)算效率低下和數(shù)據(jù)稀疏等問題[3-4]。近年來,以深度學(xué)習(xí)為代表的知識(shí)圖譜表示學(xué)習(xí)技術(shù)得到了廣泛關(guān)注,其旨在將研究對(duì)象映射到一個(gè)連續(xù)低維的向量空間中,以便于高效計(jì)算實(shí)體和關(guān)系的語義相似度,同時(shí)能有效解決數(shù)據(jù)稀疏問題。

        翻譯模型是一種主流的知識(shí)表示學(xué)習(xí)模型,因簡(jiǎn)單和高效的特點(diǎn)而備受關(guān)注,并且許多在翻譯模型基礎(chǔ)上進(jìn)行改進(jìn)的變體模型被陸續(xù)提出。這些模型不僅利用了知識(shí)圖譜所固有的結(jié)構(gòu)信息,而且考慮了實(shí)體描述信息、類別信息和圖像信息等與實(shí)體相關(guān)的多源信息,大幅提高了知識(shí)表示學(xué)習(xí)性能。TKRL 模型[5]是一種利用實(shí)體類別信息作為外部信息的知識(shí)表示學(xué)習(xí)模型,在該模型中不同類別的實(shí)體具有不同的表示,對(duì)于實(shí)體類別的層次結(jié)構(gòu),利用兩種編碼類型對(duì)層級(jí)結(jié)構(gòu)進(jìn)行建模,最終證實(shí)了實(shí)體類別可以在知識(shí)表示學(xué)習(xí)中發(fā)揮重要作用。然而,TKRL模型依賴于具有層次結(jié)構(gòu)的類別信息及事先制定好的規(guī)則約束,該規(guī)則約束具體為當(dāng)給定一種關(guān)系時(shí),約定了該關(guān)系的頭實(shí)體和尾實(shí)體的具體類別,但該規(guī)則約束對(duì)于現(xiàn)實(shí)世界的數(shù)據(jù)而言不具備靈活性,并且不僅TKRL 模型需要利用事先制定好的規(guī)則約束,而且很多其他融合實(shí)體類別信息的翻譯模型也都基于類似的規(guī)則。本文建立一種融合實(shí)體類別信息的類別增強(qiáng)知識(shí)圖譜表示學(xué)習(xí)(Category-Enhanced Knowledge Graph Representation Learning,CEKGRL)模型,引入基于類別的實(shí)體表示,通過注意力機(jī)制學(xué)習(xí)實(shí)體類別和關(guān)系之間的相關(guān)性,并結(jié)合實(shí)體類別信息進(jìn)行知識(shí)表示學(xué)習(xí)。

        1 相關(guān)工作

        知識(shí)表示是對(duì)知識(shí)進(jìn)行描述的有效途徑,旨在研究如何更準(zhǔn)確地表示知識(shí)的語義信息以更好地利用知識(shí)圖譜,從而使得計(jì)算機(jī)能夠接受并運(yùn)用知識(shí),最終達(dá)到智能的目標(biāo)。知識(shí)表示學(xué)習(xí)是通過機(jī)器學(xué)習(xí)的方式將知識(shí)(知識(shí)圖譜中的實(shí)體和關(guān)系)表示為稠密低維的實(shí)值向量,有效解決了數(shù)據(jù)稀疏問題,并且學(xué)習(xí)到的知識(shí)表示能夠保留知識(shí)圖譜中的結(jié)構(gòu)和語義關(guān)系,從而高效計(jì)算實(shí)體和關(guān)系之間的語義相似度,使其廣泛適用于知識(shí)圖譜補(bǔ)全、自動(dòng)問答和實(shí)體鏈接等下游任務(wù)中。

        近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,知識(shí)表示學(xué)習(xí)方法取得較大進(jìn)展。以TransE[2]為代表的翻譯模型是知識(shí)表示學(xué)習(xí)中的熱門模型,這類模型將關(guān)系向量作為頭實(shí)體向量到尾實(shí)體向量之間的平移,即假設(shè)尾實(shí)體向量t近似于頭實(shí)體向量和關(guān)系向量的和(h+r),并定義能量函數(shù)為E(h,r,t)=‖h+r-t‖。TransE 模型因參數(shù)少及計(jì)算復(fù)雜度低,在1-1 簡(jiǎn)單關(guān)系中具有較好的性能表現(xiàn),但對(duì)于1-N、N-1 和N-N等復(fù)雜關(guān)系,由于TransE 模型的建模方式過于簡(jiǎn)單,因此存在一定的局限性。為解決該問題,后續(xù)出現(xiàn)了許多以TransE 為基礎(chǔ)的改進(jìn)模型,如TransH、TransAH、TransA、TransG、TransR 和TransD 等。TransH 通過將頭實(shí)體、尾實(shí)體向量投影到對(duì)應(yīng)關(guān)系的超平面上,從而令一個(gè)實(shí)體在不同的關(guān)系下具有不同的表示[6]。TransAH 模型在TransH 模型的基礎(chǔ)上引入了一種自適應(yīng)的度量方法,通過加入對(duì)角權(quán)重矩陣將得分函數(shù)中的度量由歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離[7]。TransA 模型中的自適應(yīng)度量方法為每一種關(guān)系定義一個(gè)非負(fù)的對(duì)稱矩陣,從而對(duì)表示向量中的每一個(gè)維度添加權(quán)重,增加了模型的表示能力[8]。TransG 模型使用高斯混合來刻畫實(shí)體間的多種語義關(guān)系,利用最大相似度原理訓(xùn)練數(shù)據(jù),解決了多語義問題[9]。TransR 模型假設(shè)不同的關(guān)系具有不同的語義空間,因此將每個(gè)實(shí)體投影到對(duì)應(yīng)的關(guān)系空間中[10]。TransD 模型通過設(shè)置兩個(gè)關(guān)系-實(shí)體投影矩陣,并結(jié)合頭、尾實(shí)體位置的屬性,解決了TransR 模型參數(shù)過多的問題[11]。

        除了翻譯模型及其改進(jìn)模型以外,研究人員還提出了一些其他類型的知識(shí)表示學(xué)習(xí)模型,主要包括:1)距離模型,將頭、尾實(shí)體向量通過投影矩陣投影至對(duì)應(yīng)空間,并通過計(jì)算投影向量的距離來反映實(shí)體間的語義相似度,如SE 模型[12];2)能量模型,通過定義若干投影矩陣,并利用雙線性函數(shù)刻畫實(shí)體與關(guān)系的內(nèi)在聯(lián)系,如SME 模型[13-14];3)矩陣分解模型,通過矩陣分解的方式得到低維向量表示,如RESCAL 模型[15-16];4)雙線性模型,利用基于關(guān)系的雙線性變換刻畫實(shí)體和關(guān)系之間的二階聯(lián)系,如LFM 模型[17]。

        以上模型僅利用了知識(shí)圖譜自身所包含的三元組結(jié)構(gòu)信息,但除了結(jié)構(gòu)信息以外,還有大量與知識(shí)相關(guān)的其他信息沒有得到有效利用,如知識(shí)庫中所包含的實(shí)體和關(guān)系的描述信息、類別信息以及知識(shí)庫以外的海量互聯(lián)網(wǎng)文本信息等。這些多源信息提供了知識(shí)圖譜中三元組結(jié)構(gòu)信息以外的額外信息,有助于更準(zhǔn)確地學(xué)習(xí)知識(shí)表示。NTN 模型[18]使用實(shí)體中單詞嵌入的平均值表示實(shí)體,從而捕捉實(shí)體之間的潛在文本關(guān)系。DKRL 模型[19]通過考慮實(shí)體的描述信息文本來編碼實(shí)體描述的語義信息。IKRL模型[20]引入實(shí)體圖像信息,并利用神經(jīng)網(wǎng)絡(luò)構(gòu)造實(shí)體圖像的表示。TKRL 模型[5]通過引入具有層次結(jié)構(gòu)的類別信息以及實(shí)體類別與關(guān)系之間的約束信息來提高知識(shí)表示能力。但并非所有實(shí)體類別都具有層次結(jié)構(gòu),且實(shí)體類別與關(guān)系的約束方式不具備普適性和靈活性。為解決上述問題,本文提出一種融合實(shí)體類別的CEKGRL 模型。該模型利用數(shù)據(jù)集中最底層的實(shí)體類別,通過注意力機(jī)制捕獲實(shí)體類別和關(guān)系之間的相關(guān)性,并利用注意力分?jǐn)?shù)對(duì)類別表示進(jìn)行加權(quán)以學(xué)習(xí)知識(shí)表示。

        2 CEKGRL 模型

        知識(shí)圖譜通常包含實(shí)體的類別信息,而類別信息作為實(shí)體屬性的一部分,能夠起到補(bǔ)充實(shí)體語義信息的作用。為有效融合知識(shí)圖譜中的實(shí)體類別信息,同時(shí)兼顧翻譯模型的高效性,本文提出CEKGRL模型,其在TransE 模型的基礎(chǔ)上引入實(shí)體的類別表示,旨在學(xué)習(xí)三元組知識(shí)的同時(shí),能夠通過類別信息得到更加準(zhǔn)確的知識(shí)表示。該模型無需依賴實(shí)體類別與關(guān)系之間的固定映射,便于將模型靈活地遷移到其他更加復(fù)雜且難以得到該映射關(guān)系的場(chǎng)景中。同時(shí),CEKGRL 模型對(duì)實(shí)體類別的組織形式?jīng)]有要求,通過將類別的組織結(jié)構(gòu)進(jìn)行扁平化處理,可適應(yīng)各種應(yīng)用場(chǎng)景對(duì)類別信息格式的要求,無論是FB15K 中具有層次結(jié)構(gòu)的類別信息,還是其他形式的類別數(shù)據(jù)均可以使用。

        為更清晰地表述CEKGRL 模型的基本思想,圖1通過具體實(shí)例說明了實(shí)體類別與三元組關(guān)系之間的語義相關(guān)性。圖1(a)左側(cè)的George Washington 代表喬治·華盛頓這一實(shí)體,其右側(cè)的矩形代表列舉出的實(shí)體所包含的部分類別屬性,包括政治家、美國(guó)國(guó)會(huì)議員、死者、人、名稱來源和電影主題。圖1(b)列舉了與喬治·華盛頓這一實(shí)體有關(guān)的兩個(gè)三元組,括號(hào)中的內(nèi)容從左到右分別是頭實(shí)體、關(guān)系和尾實(shí)體,其中,矩形代表喬治·華盛頓的實(shí)體類別屬性,直線代表類別與關(guān)系之間的相關(guān)性,直線以及矩形顏色越深代表實(shí)體類別與關(guān)系之間的相關(guān)性越強(qiáng)。以知識(shí)圖譜中與喬治·華盛頓實(shí)體相關(guān)的兩個(gè)三元組為例,喬治·華盛頓的“政治家”和“美國(guó)國(guó)會(huì)議員”這兩個(gè)類別在(美國(guó)大陸會(huì)議,官員,喬治·華盛頓)三元組中比其他類別更具相關(guān)性,而在(肺炎,死因,喬治·華盛頓)三元組中,“死者”則能表達(dá)出更多相關(guān)的信息。這說明了同一個(gè)實(shí)體的不同類別在不同的三元組關(guān)系中可以起到提供語義信息的作用,并且不同類別的重要程度與三元組的關(guān)系存在一定的關(guān)聯(lián)關(guān)系。在此情況下,實(shí)體的類別信息可以豐富實(shí)體的表示,使知識(shí)表示具有更多的語義信息。

        圖1 實(shí)體類別與三元組關(guān)系之間的語義相關(guān)性Fig.1 Semantic correlation between entity category and triple relationship

        為更清晰地描述CEKGRL 模型,本文給出相關(guān)的定義和符號(hào)表示,將知識(shí)圖譜定義為G=(E,R,S),其中:E為實(shí)體集;R為關(guān)系集;S?E×R×E表示三元組集合,三元組集合用(h,r,t)進(jìn)行表示,h、r和t分別代表頭實(shí)體、關(guān)系和尾實(shí)體。此外,本文引入類別概念,用C表示類別集合,并定義基于結(jié)構(gòu)和基于類別的實(shí)體表示,分別代表從知識(shí)圖譜的三元組中學(xué)習(xí)到的實(shí)體表示以及引入類別表示所得到的實(shí)體表示。

        CEKGRL 模型的整體架構(gòu)如圖2 所示,其中,斜線狀的圓圈組成的橢圓代表基于結(jié)構(gòu)的向量表示,網(wǎng)格狀的圓圈組成的橢圓代表基于類別的向量表示,實(shí)心圓圈組成的橢圓代表關(guān)系的向量表示,空心的圓圈組成的橢圓代表實(shí)體類別的向量表示,a表示注意力分?jǐn)?shù)。為將兩種表示類型進(jìn)行融合,定義能量函數(shù)為:

        其中:ESS=‖hs+r-ts‖,為頭實(shí)體、尾實(shí)體使用基于結(jié)構(gòu)的實(shí)體表示得到的能量函數(shù);hs、ts分別為基于結(jié)構(gòu)的頭實(shí)體、尾實(shí)體表示;hc、tc分別為基于類別的頭實(shí)體、尾實(shí)體表示;超參數(shù)β用于調(diào)整基于類別的表示在CEKGRL 模型中的重要程度;ECC=‖hc+r-tc‖,為頭實(shí)體、尾實(shí)體使用基于類別的實(shí)體表示得到的能量函數(shù)。需要說明的是,實(shí)體基于結(jié)構(gòu)和基于類別的表示在訓(xùn)練過程中都使用統(tǒng)一的關(guān)系表示r,保證了兩種類型的向量表示空間可通過相同的關(guān)系表示達(dá)到統(tǒng)一。

        圖2 CEKGRL 模型的整體架構(gòu)Fig.2 Overall architecture of CEKGRL model

        在訓(xùn)練過程中,首先通過注意力機(jī)制得到實(shí)體類別表示與三元組關(guān)系的相關(guān)性,即注意力分?jǐn)?shù),然后利用該注意力分?jǐn)?shù)對(duì)類別表示進(jìn)行加權(quán)求和并將其作為基于類別的實(shí)體表示,最后將相同的關(guān)系表示作為兩種表示空間的聯(lián)系,將基于結(jié)構(gòu)和基于類別的表示進(jìn)行聯(lián)合訓(xùn)練。

        2.1 注意力機(jī)制

        實(shí)體的不同類別信息可以從多個(gè)角度刻畫實(shí)體,而同一個(gè)實(shí)體在不同的關(guān)系下會(huì)側(cè)重關(guān)注其不同的類別信息,具體表現(xiàn)為同一實(shí)體的不同類別與不同關(guān)系之間的語義相關(guān)性不同。為有效利用三元組中關(guān)系和實(shí)體類別之間存在的潛在相關(guān)性,本文通過以下注意力機(jī)制計(jì)算并得到兩者之間的相似度:

        1)基于相似度的注意力(Similarity-based Attention,SA)機(jī)制。受STKRL 模型[21]中注意力機(jī)制的啟發(fā),將實(shí)體類別與三元組關(guān)系之間的相關(guān)性定義為兩者向量表示的相似度,并采用余弦相似度進(jìn)行計(jì)算,公式如下:

        其中,att()為求解注意力分?jǐn)?shù)a的函數(shù),c為類別的向量表示。

        2)縮放點(diǎn)積注意力(Scaled Dot-Product Attention,SDPA)機(jī)制?;谖墨I(xiàn)[22]中的注意力計(jì)算方法,結(jié)合CEKGRL 模型將關(guān)系r作為query 向量,類別c同時(shí)作為key 向量和value 向量。在實(shí)現(xiàn)過程中,為加快處理效率,通過矩陣的形式計(jì)算注意力,因此將多個(gè)關(guān)系的表示向量及其對(duì)應(yīng)的類別表示向量分別拼接為關(guān)系矩陣R和類別矩陣C。然后,引入待訓(xùn)練的權(quán)重矩陣WQ、WK和WV,將權(quán)重矩陣、關(guān)系矩陣和類別矩陣分別做矩陣相乘操作,得到query、key 和value 對(duì)應(yīng)的矩陣Q、K、V及注意力分?jǐn)?shù),如式(3)~式(6)所示:

        通過以上兩種注意力機(jī)制計(jì)算得到的注意力分?jǐn)?shù)越高,說明類別c與關(guān)系r的相關(guān)性越強(qiáng)。因此,本文利用注意力分?jǐn)?shù)對(duì)各個(gè)類別表示賦予不同權(quán)重,再對(duì)加權(quán)后的所有表示求和得到對(duì)應(yīng)的實(shí)體表示,即基于類別的實(shí)體表示,其在矩陣形式下的計(jì)算公式如下:

        其中,Ec為基于類別的實(shí)體表示向量集合。

        2.2 模型訓(xùn)練

        CEKGRL 模型與TransE 模型的訓(xùn)練目標(biāo)相同,本文采用最大間隔方法增強(qiáng)知識(shí)表示的區(qū)分能力,定義目標(biāo)函數(shù)為:

        其中,E(h,r,t)為正例三元組的能量函數(shù),E(h′,r′,t′)為負(fù)例三元組的能量函數(shù),γ為間隔的超參數(shù)且γ>0,T為訓(xùn)練集,T′為利用T進(jìn)行負(fù)采樣得到的集合,定義為:

        其中,頭實(shí)體、尾實(shí)體或者關(guān)系被隨機(jī)替換為其他實(shí)體或者關(guān)系,另外,如果替換后的新三元組仍在T中,則不會(huì)被當(dāng)作負(fù)樣本。

        在模型訓(xùn)練過程中,實(shí)體、關(guān)系和類別的表示均可以隨機(jī)初始化,實(shí)體和關(guān)系的表示也可以采用簡(jiǎn)單的翻譯模型預(yù)訓(xùn)練得到。在具體的模型實(shí)現(xiàn)過程中,為使初始的類別表示具有一定的語義信息,本文借助預(yù)訓(xùn)練得到的實(shí)體表示對(duì)其進(jìn)行初始化,相較于隨機(jī)初始化能夠縮短模型收斂時(shí)間。初始化類別的具體方法為利用所有包含類別ci的實(shí)體表示的平均值作為該類別的表示,形式化為:

        其中,|eci|表示具有ci類別的實(shí)體數(shù)量且i滿足i∈[1,|C|]。

        CEKGRL 模型在最小化目標(biāo)函數(shù)的同時(shí),可學(xué)習(xí)基于結(jié)構(gòu)和基于類別的兩種表示,并在模型訓(xùn)練過程中,采用Adam[23]優(yōu)化算法提升學(xué)習(xí)效果。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)使用FB15K 數(shù)據(jù)集,通過知識(shí)圖譜補(bǔ)全和三元組分類任務(wù)對(duì)模型進(jìn)行性能評(píng)估。FB15K 是從Freebase 中抽取出的數(shù)據(jù)集,在實(shí)驗(yàn)中將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,具體的統(tǒng)計(jì)信息如表1 所示,其中,#Rel 表示關(guān)系,#Ent 表示實(shí)體,#Train 表示訓(xùn)練集,#Valid 表示驗(yàn)證集,#Test 表示測(cè)試集。所有的事實(shí)三元組即實(shí)驗(yàn)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集的并集,在下文中稱為黃金三元組。

        表1 FB15K 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of FB15K dataset

        對(duì)于類別數(shù)據(jù),本文采用文獻(xiàn)[5]公開的數(shù)據(jù)集,該數(shù)據(jù)集包含F(xiàn)reebase知識(shí)庫所涉及的type/instance字段,即類別信息,通過匹配Freebase 中FB15K 所包含的實(shí)體,并為這些實(shí)體添加知識(shí)庫中實(shí)體對(duì)應(yīng)的類別信息得到。在數(shù)據(jù)處理過程中,發(fā)現(xiàn)有10 個(gè)實(shí)體出現(xiàn)在原始FB15K 數(shù)據(jù)集中,但沒有與之對(duì)應(yīng)的實(shí)體類別信息。在處理數(shù)據(jù)缺失問題時(shí),為保證原始FB15K 數(shù)據(jù)的完整性,需要保留這10 個(gè)實(shí)體及其所涉及的所有三元組,使這10 個(gè)實(shí)體也具有類別信息。經(jīng)過數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),99%的實(shí)體都包含common/topic 類別,因此在實(shí)驗(yàn)中采用眾數(shù)規(guī)則對(duì)這10 個(gè)缺失類別的實(shí)體人為添加common/topic類別。經(jīng)過處理的數(shù)據(jù)集具有3 852個(gè)類別,每個(gè)實(shí)體平均約有12 個(gè)類別。

        3.2 實(shí)驗(yàn)設(shè)置

        為驗(yàn)證CEKGRL 模型的學(xué)習(xí)效果,將其與TransE、TransR 和TKRL 等模型進(jìn)行對(duì)比,在訓(xùn)練階段對(duì)TransE 模型增加關(guān)系負(fù)采樣操作,提升關(guān)系預(yù)測(cè)性能。對(duì)于TransR 模型,本文采用文獻(xiàn)[10]的開源代碼進(jìn)行實(shí)驗(yàn),并與TransE 模型在負(fù)采樣過程中的操作相同,在生成負(fù)樣本時(shí)也對(duì)關(guān)系進(jìn)行替換操作。對(duì)于RESCAL、SE、SME、LFM 及TKRL 模型,本文直接引用文獻(xiàn)[5,10]中的實(shí)驗(yàn)結(jié)果。

        關(guān)于模型的參數(shù)選擇問題,實(shí)驗(yàn)設(shè)置初始學(xué)習(xí)率α為0.000 5、0.0010、0.002 0,批量大小B為20、240、1 200、4 800,實(shí)體和關(guān)系的向量維度k為50、100、200,閾值γ為0.5、1.0、1.5、2.0。對(duì)于縮放點(diǎn)積注意力機(jī)制,設(shè)置權(quán)重矩陣中的dk為49、64、100。考慮到基于結(jié)構(gòu)和基于類別的表示所起作用不同,因此本文為基于類別的表示設(shè)置權(quán)重,用超參數(shù)β進(jìn)行表示,超參數(shù)β用于調(diào)整其在CEKGRL 模型中的重要程度。實(shí)驗(yàn)得到的模型最優(yōu)參數(shù)設(shè)置為α=0.0010、B=4 800、k=200、γ=1.0、dk=100 和β=0.5。

        3.3 知識(shí)圖譜補(bǔ)全實(shí)驗(yàn)與結(jié)果分析

        知識(shí)圖譜補(bǔ)全任務(wù)是在給定事實(shí)三元組(h,r,t)中兩項(xiàng)的前提下預(yù)測(cè)缺失的一項(xiàng),即給定(h,r)預(yù)測(cè)t,給定(r,t)預(yù)測(cè)h或給定(h,t)預(yù)測(cè)r,因此知識(shí)圖譜補(bǔ)全包括實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)這兩個(gè)子任務(wù)。

        本文采用MeanRank 和Hit@n兩種評(píng)估指標(biāo),其分別表示正確的實(shí)體和關(guān)系在預(yù)測(cè)結(jié)果中的平均排名以及正確的實(shí)體和關(guān)系排在預(yù)測(cè)結(jié)果前n名的比例。針對(duì)每個(gè)指標(biāo)給定Raw 和Filter 兩種不同設(shè)置,Raw 設(shè)置只要預(yù)測(cè)結(jié)果不是當(dāng)前三元組所期待的結(jié)果,就將其視作錯(cuò)誤的預(yù)測(cè)結(jié)果,即使該預(yù)測(cè)結(jié)果屬于黃金三元組,F(xiàn)ilter 設(shè)置則是剔除屬于黃金三元組的預(yù)測(cè)結(jié)果后所得的預(yù)測(cè)結(jié)果。

        對(duì)于這兩種設(shè)置,Raw設(shè)置會(huì)忽略黃金三元組的存在,如果預(yù)測(cè)出的結(jié)果屬于黃金三元組,但并非當(dāng)前所關(guān)注的特定三元組,則認(rèn)為預(yù)測(cè)結(jié)果錯(cuò)誤,從而導(dǎo)致預(yù)測(cè)性能變差,但這部分由于黃金三元組而造成預(yù)測(cè)錯(cuò)誤的結(jié)果,實(shí)際上的預(yù)測(cè)結(jié)果為正確,不應(yīng)影響模型預(yù)測(cè)性能,因此本文認(rèn)為Filter設(shè)置的預(yù)測(cè)結(jié)果更具說服力。

        3.3.1 實(shí)體預(yù)測(cè)

        CEKGRL 模型在實(shí)體預(yù)測(cè)任務(wù)中的評(píng)估結(jié)果如表2 所示,結(jié)果表明CEKGRL 模型除了MeanRank 的Raw 指標(biāo)較TKRL 和TransR 模型略低以外,其他指標(biāo)均得到提升。在Filter 設(shè)置下,與TKRL 模型相比,CEKGRL(SA)模型的Hit@10 指標(biāo)約提升了7.2 個(gè)百分點(diǎn),MeanRank 指標(biāo)提升了約23.5%。

        表2 實(shí)體預(yù)測(cè)的評(píng)估結(jié)果Table 2 Evaluation results on entity prediction

        3.3.2 關(guān)系預(yù)測(cè)

        關(guān)系預(yù)測(cè)任務(wù)的評(píng)估結(jié)果如表3 所示,結(jié)果表明CEKGRL(SA)模型的MeanRank 指標(biāo)優(yōu)于其他模型,這說明CEKGRL 模型具有較好的關(guān)系預(yù)測(cè)性能。同時(shí)可以看出,TKRL 模型的Hit@1指標(biāo)略優(yōu)于CEKGRL模型,主要原因?yàn)門KRL 模型利用關(guān)系與類別之間的約束關(guān)系來對(duì)層次結(jié)構(gòu)信息進(jìn)行編碼,相較CEKGRL模型額外引入了約束關(guān)系信息來提升模型性能。若要獲得該約束關(guān)系,則需要對(duì)數(shù)據(jù)集有一定的要求或者對(duì)一些不容易提取的約束關(guān)系數(shù)據(jù)集進(jìn)行人工構(gòu)造,這樣會(huì)導(dǎo)致TKRL 模型的通用性和靈活性變差。本文提出的CEKGRL 模型獲取約束信息的方式更具普適性和靈活性,適用于基于多源信息融合的知識(shí)表示學(xué)習(xí)。

        表3 關(guān)系預(yù)測(cè)的評(píng)估結(jié)果Table 3 Evaluation results on relation prediction

        3.4 三元組分類實(shí)驗(yàn)與結(jié)果分析

        三元組分類是一個(gè)二分類任務(wù),用于判斷給定的三元組是否準(zhǔn)確。在生成負(fù)樣本三元組時(shí),本文采取與文獻(xiàn)[18]相同的策略,對(duì)生成負(fù)樣本時(shí)所需替換的實(shí)體或者關(guān)系進(jìn)行一定的限制,使得負(fù)樣本難以區(qū)分,從而提升模型在三元組分類任務(wù)中的性能。在分類過程中,對(duì)于給定的三元組(h,r,t),如果其注意力得分低于給定的閾值γ,則預(yù)測(cè)其為正確的三元組,反之為錯(cuò)誤的三元組。每種關(guān)系的閾值設(shè)置不同,具體通過最大化驗(yàn)證集中對(duì)應(yīng)關(guān)系下的分類準(zhǔn)確率進(jìn)行設(shè)置。三元組分類的評(píng)估結(jié)果如表4 所示,結(jié)果表明CEKGRL模型具有較優(yōu)的分類性能。

        表4 三元組分類的評(píng)估結(jié)果Table 4 Evaluation results on triple classification %

        3.5 案例分析

        為進(jìn)一步驗(yàn)證CEKGRL 模型可以學(xué)習(xí)到特定關(guān)系下不同類別的相關(guān)性,并更清晰地表示模型的作用效果,本文通過具體案例進(jìn)行分析與說明。圖3 給出了在(Gangs of New York,film_festivals,2010 Berlin Film Festival)三元組中,2010 Berlin Film Festival 作為尾實(shí)體所具有的類別在實(shí)驗(yàn)中的注意力分?jǐn)?shù)排名,其中,“Head:Gangs of New York”表示頭實(shí)體為Gangs of New York(電影名稱),“Relation:film_festivals”表示關(guān)系為film festivals,“Tail(interest):2010 Berlin Film Festival”表示尾實(shí)體為2010 Berlin Film Festival,并且是本文所關(guān)注的類別排名的實(shí)體。根據(jù)類別注意力分?jǐn)?shù)得到的排名結(jié)果可以看出,排在最靠前的類別與三元組中的關(guān)系相關(guān)性最強(qiáng),排在靠后位置的類別一般覆蓋范圍更廣。

        圖3 2010 Berlin Film Festival 實(shí)體類別根據(jù)注意力分?jǐn)?shù)的排名情況Fig.3 Rank of 2010 Berlin Film Festival entity category according to attention score

        由于CEKGRL 模型可以區(qū)分出不同關(guān)系中實(shí)體類別的重要程度,因此當(dāng)具有一詞多義的實(shí)體處于不同語境時(shí),可以通過最相關(guān)的類別來判斷其具體含義,用于輔助實(shí)體消歧任務(wù)。實(shí)體消歧是由于同一實(shí)體指稱在不同上下文可以指代不同實(shí)體,為能夠明確實(shí)體指稱所指代的實(shí)體而提出的任務(wù),在語義分析、搜索和問答等自然語言處理相關(guān)應(yīng)用中都是需要解決的關(guān)鍵性問題。本文將實(shí)體類別中最高的注意力分?jǐn)?shù)作為不同語義環(huán)境下區(qū)分實(shí)體的參考依據(jù),并基于此設(shè)計(jì)實(shí)體消歧實(shí)驗(yàn)。在實(shí)驗(yàn)中,從測(cè)試集中隨機(jī)選取100 個(gè)三元組,通過模型得到頭、尾實(shí)體類別的注意力分?jǐn)?shù),并檢驗(yàn)最高分?jǐn)?shù)的類別是否能夠直接體現(xiàn)出對(duì)應(yīng)實(shí)體在該三元組中的語義。實(shí)驗(yàn)結(jié)果顯示,其中有61 個(gè)三元組符合上述實(shí)驗(yàn)假設(shè),因此證明了CEKGRL 模型在實(shí)體消歧任務(wù)中也具有一定的指導(dǎo)意義。由于篇幅限制,在此對(duì)該實(shí)驗(yàn)過程不再贅述。

        4 結(jié)束語

        現(xiàn)有融合實(shí)體類別信息的知識(shí)表示學(xué)習(xí)模型中的類別與關(guān)系間通常需要設(shè)置約束條件。為高效利用實(shí)體類別與三元組關(guān)系之間的潛在相關(guān)性,本文提出一種采用注意力機(jī)制學(xué)習(xí)類別與關(guān)系間相關(guān)性的CEKGRL模型。在具有實(shí)體類別信息的FB15K 數(shù)據(jù)集上,利用知識(shí)圖譜補(bǔ)全和三元組分類任務(wù)對(duì)CEKGRL 模型進(jìn)行性能評(píng)估,結(jié)果表明其相比現(xiàn)有知識(shí)表示學(xué)習(xí)模型在MeanRank 和Hit@n 評(píng)估指標(biāo)上均取得一定的性能提升,并通過案例分析驗(yàn)證了注意力機(jī)制的有效性。由于CEKGRL 模型僅利用了知識(shí)圖譜中的類別信息,因此后續(xù)可在該模型中融入更多具有豐富語義的多源信息進(jìn)行聯(lián)合訓(xùn)練,拓寬其在自然語言處理領(lǐng)域的應(yīng)用范圍,進(jìn)一步提升適用性與實(shí)用性。

        猜你喜歡
        語義信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言與語義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        展會(huì)信息
        語義分析與漢俄副名組合
        午夜性色一区二区三区不卡视频| 亚洲国产免费公开在线视频| 激情视频国产在线观看| 一本一道久久综合久久| 精品视频在线观看一区二区有| 中文字幕亚洲中文第一| 精品无人区无码乱码毛片国产| 女人被男人躁得好爽免费视频| 国产精品入口牛牛影视| 亚洲麻豆av一区二区| 中国久久久一级特黄久久久| 亚洲午夜无码av毛片久久| 国产免费AV片在线看| 男女啪啪免费视频网址| 精品一区二区三区芒果| 精品无码久久久久成人漫画| 久久亚洲AV成人一二三区| 精品在线亚洲一区二区三区| 精品精品久久宅男的天堂| 亚洲精品无码久久久久久| 亚洲欧美日韩中文字幕网址| 邻居少妇太爽在线观看| 亚洲精品无码专区在线在线播放 | 国产精品毛片久久久久久久| 亚洲VA不卡一区| 国内精品少妇久久精品| 老妇高潮潮喷到猛进猛出| 久久久久亚洲av成人人电影| 亚洲国产精品成人无码区| 在线视频青青草猎艳自拍69| 色婷婷亚洲一区二区三区在线| 中国精品18videosex性中国| 国产精品久久久久久久久鸭| 国产人成视频免费在线观看| 美女主播网红视频福利一区二区| 国产精品视频露脸| 国产亚洲精品自在久久77| 亚洲免费观看一区二区三区| 蜜桃视频在线观看网址| 精品少妇人妻av无码久久| 99热成人精品国产免|