亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入研究綜述

        2022-09-29 07:51:30李智杰李昌華
        關(guān)鍵詞:語(yǔ)義信息模型

        王 瑞,李智杰,李昌華,張 頡

        (西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)

        0 引言

        伴隨著Web技術(shù)的崛起與更新迭代,人類先后經(jīng)歷了以文檔互聯(lián)的“Web 1.0”時(shí)代與數(shù)據(jù)互聯(lián)“Web 2.0”時(shí)代,正在邁向基于知識(shí)互聯(lián)的“Web 3.0”時(shí)代[1]。同時(shí),隨之而來(lái)的海量網(wǎng)絡(luò)數(shù)據(jù)資源推動(dòng)著人類社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。如何從內(nèi)容多源異質(zhì)、組織結(jié)構(gòu)松散的網(wǎng)絡(luò)數(shù)據(jù)資源中有效提取組織非結(jié)構(gòu)化信息和存儲(chǔ)結(jié)構(gòu)化知識(shí)變得非常重要,同時(shí)也給“Web 3.0”提出的“知識(shí)之網(wǎng)”帶來(lái)了極大的挑戰(zhàn)。強(qiáng)大的語(yǔ)義處理能力和開放互聯(lián)能力使得知識(shí)圖譜具有良好的知識(shí)表達(dá)能力和解釋性,同時(shí)也提供了一種更好組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[2]。知識(shí)圖譜的研究起源于語(yǔ)義Web,知識(shí)圖譜的概念最早由Google公司提出以表達(dá)其升級(jí)的搜索引擎技術(shù),如今知識(shí)圖譜概念已經(jīng)被用來(lái)泛指各類包含實(shí)體與豐富關(guān)系的知識(shí)庫(kù),被廣泛用于存儲(chǔ)人工智能任務(wù)的結(jié)構(gòu)化語(yǔ)義信息。過(guò)去幾年中,知識(shí)圖譜在人工智能應(yīng)用中具有巨大潛力,受到了廣泛的關(guān)注。知識(shí)圖譜的實(shí)例通常以三元組的形式進(jìn)行存儲(chǔ),將實(shí)體表示為有向圖中代表屬性或概念信息的節(jié)點(diǎn),關(guān)系表示為兩實(shí)體之間具有實(shí)際語(yǔ)義的邊,諸如(中國(guó),首都,北京)的三元組形式。

        盡管知識(shí)圖譜已從現(xiàn)實(shí)世界中提取了包含數(shù)百萬(wàn)個(gè)實(shí)體和數(shù)十億個(gè)關(guān)系事實(shí),但大型知識(shí)圖譜中的數(shù)據(jù)仍然稀疏不完整[3]。例如,在開放知識(shí)圖譜Freebase[4]中,約有71%的人缺少出生地信息,99%的沒(méi)有民族信息[5];DBpedia[6]中有58%的科學(xué)家實(shí)體沒(méi)有指出其相關(guān)的主要貢獻(xiàn)。隨著知識(shí)圖譜中知識(shí)實(shí)例的高速增長(zhǎng),知識(shí)的表示形式以及之間的關(guān)聯(lián)也變得更加復(fù)雜化、異質(zhì)化。因此,研究人員需將缺失的實(shí)例添加到知識(shí)庫(kù)中以擴(kuò)大其覆蓋范圍,操作耗時(shí)耗力且人工成本較高。此外,傳統(tǒng)三元組的符號(hào)表示還面臨著計(jì)算效率低和數(shù)據(jù)稀疏等問(wèn)題[7],導(dǎo)致其在大規(guī)模知識(shí)圖譜的使用具有局限性,限制了知識(shí)圖譜的發(fā)展,為知識(shí)圖譜的表示帶來(lái)了挑戰(zhàn)。

        在本文中,通過(guò)對(duì)知識(shí)圖譜鏈接預(yù)測(cè)相關(guān)知識(shí)介紹,同時(shí)對(duì)鏈接預(yù)測(cè)模型框架進(jìn)行了分析,并且列出了當(dāng)前典型的應(yīng)用場(chǎng)景,從而系統(tǒng)全面的對(duì)面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型做了綜述。

        1 知識(shí)圖譜鏈接預(yù)測(cè)概述

        1.1 知識(shí)圖譜嵌入

        受當(dāng)前技術(shù)的制約以及網(wǎng)絡(luò)數(shù)據(jù)的繁雜冗余,在大型知識(shí)圖譜中,需不斷向知識(shí)庫(kù)中補(bǔ)充新的實(shí)體和關(guān)系,導(dǎo)致研究人員的工作量劇增。此外,知識(shí)圖譜中信息的缺失限制了知識(shí)圖譜的使用,影響了知識(shí)圖譜在推理和檢索應(yīng)用時(shí)的準(zhǔn)確率。由于不能直接對(duì)三元組進(jìn)行操作,需要為知識(shí)圖譜中的實(shí)體和關(guān)系找到更好的表示形式。早期時(shí)候,使用符號(hào)三元組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)關(guān)系學(xué)習(xí)。但是這些方法既不具有良好的泛化性能,也不適用于大規(guī)模的知識(shí)圖譜。因此,引入了知識(shí)圖譜嵌入技術(shù)。嵌入是根據(jù)代表真實(shí)世界的數(shù)據(jù)集中相應(yīng)元素的發(fā)生方式和彼此之間的相互作用自動(dòng)學(xué)習(xí)的。同時(shí),嵌入可用于表示任何種類元素的數(shù)值向量,將實(shí)體與關(guān)系向量化可在向量空間中通過(guò)數(shù)值計(jì)算挖掘出潛在的三元組信息及語(yǔ)義知識(shí)。此外,當(dāng)嵌入作為一種類型的先驗(yàn)知識(shí)輔助時(shí),可對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程加以約束和監(jiān)督[8]。知識(shí)圖譜是由實(shí)體和關(guān)系組成的復(fù)雜圖結(jié)構(gòu),知識(shí)圖譜嵌入是有向圖的矢量表示,利用知識(shí)圖譜嵌入操作來(lái)高效計(jì)算實(shí)體與關(guān)系的語(yǔ)義聯(lián)系,提高了模型推理的準(zhǔn)確率,同時(shí)也保留了知識(shí)圖譜的固有結(jié)構(gòu),體現(xiàn)了原始圖的語(yǔ)義,可用于識(shí)別其中的新鏈接,從而解決了鏈接預(yù)測(cè)任務(wù)。

        伴隨著知識(shí)圖譜日新月異的發(fā)展,一系列的知識(shí)圖譜嵌入模型被學(xué)者們相繼提出。通過(guò)從知識(shí)圖譜包含的關(guān)系信息中學(xué)習(xí)低維連續(xù)空間中的嵌入操作,將實(shí)體和關(guān)系表示為低維度的帶有結(jié)構(gòu)信息與語(yǔ)義信息的實(shí)值特征向量[9],捕獲了實(shí)體和關(guān)系的連接屬性,為知識(shí)圖譜提供數(shù)值計(jì)算框架,同時(shí)使其固有結(jié)構(gòu)得以保留。如圖1所示,知識(shí)圖譜嵌入實(shí)質(zhì)上就是通過(guò)優(yōu)化基于邊距的損失函數(shù),其中邊距是一個(gè)非負(fù)數(shù),用于將正負(fù)三元組分開。將實(shí)體表示為空間中的向量,并通過(guò)距離來(lái)量化實(shí)體對(duì)象之間的相似性,關(guān)系通常被視為向量空間中的運(yùn)算,獲得具有某些明確定義的目標(biāo)函數(shù)的三元組,即(h,r,t)的矢量表示。此外,關(guān)系也可以表示矩陣、張量、高斯分布以及多元高斯分布。訓(xùn)練知識(shí)圖譜嵌入模型是為了找到模型的最佳參數(shù)從而進(jìn)行最佳的嵌入,通過(guò)優(yōu)化算法來(lái)迭代更新實(shí)體和關(guān)系的表示。在迭代更新過(guò)程中,通過(guò)一定的負(fù)采樣策略替換正三元組的頭或尾實(shí)體,從而生成負(fù)例三元組。優(yōu)化過(guò)程旨在最大化肯定事實(shí)的合理性以及最小化否定事實(shí)的合理性。

        圖1 知識(shí)圖譜嵌入技術(shù)

        知識(shí)圖譜嵌入實(shí)現(xiàn)了對(duì)實(shí)體和關(guān)系的分布式表示,可高效地實(shí)現(xiàn)語(yǔ)義相似度計(jì)算等操作顯著提升計(jì)算效率。同時(shí),在低維實(shí)值向量空間中,可以度量任意對(duì)象之間的語(yǔ)義相似程度以及提高低頻對(duì)象的語(yǔ)義表示的精確性[10],實(shí)現(xiàn)異質(zhì)知識(shí)對(duì)象之間的語(yǔ)義關(guān)聯(lián)計(jì)算,有效緩解數(shù)據(jù)稀疏問(wèn)題,實(shí)現(xiàn)異質(zhì)信息融合。

        1.2 鏈接預(yù)測(cè)

        鏈接預(yù)測(cè)(Link Prediction)也稱為知識(shí)圖譜補(bǔ)全(Knowledge Graph Completion),利用評(píng)分函數(shù)計(jì)算并對(duì)候選實(shí)體或關(guān)系進(jìn)行排序,旨在根據(jù)知識(shí)圖譜中現(xiàn)有實(shí)體與關(guān)系推理出缺失的實(shí)體或關(guān)系。鏈接預(yù)測(cè)根據(jù)任務(wù)的不同,可分為頭實(shí)體預(yù)測(cè)、尾實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)三種類型。例如,給定三元組實(shí)例(h,r,t),首先利用嵌入模型學(xué)習(xí)實(shí)體與關(guān)系的向量特征;其次通過(guò)負(fù)采樣策略破壞三元組中的任一實(shí)體或者關(guān)系生成知識(shí)圖譜數(shù)據(jù)集中所沒(méi)有的三元組(h′,r,t)、(h,r,t′)以及(h,r′,t);最后利用評(píng)分函數(shù)對(duì)其進(jìn)行對(duì)應(yīng)的評(píng)分fr(h,t),并將所有實(shí)體進(jìn)行由低到高的排序,輸出最可能的實(shí)體或關(guān)系列表。這樣可得到所有實(shí)體的排名,利用評(píng)估指標(biāo)從而獲得模型性能的評(píng)估。

        鏈接預(yù)測(cè)是知識(shí)圖譜嵌入的應(yīng)用之一,是對(duì)存在于多對(duì)象總體中每個(gè)對(duì)象之間的相互作用及相互依賴關(guān)系推斷的過(guò)程。鏈接預(yù)測(cè)旨在預(yù)測(cè)圖譜中任意兩個(gè)實(shí)體之間的關(guān)系以及實(shí)體間已存在關(guān)系的正確性,是對(duì)現(xiàn)有知識(shí)進(jìn)行整合過(guò)濾以及篩選,進(jìn)行更精準(zhǔn)的知識(shí)發(fā)現(xiàn),從而提高知識(shí)庫(kù)中實(shí)例的質(zhì)量,解決知識(shí)圖譜中數(shù)據(jù)缺失不完整問(wèn)題。既增加了下游應(yīng)用的多樣性,又可以作為預(yù)訓(xùn)練,利用實(shí)體與關(guān)系的表征向量支撐下游向量,為下游模型提供語(yǔ)義支持[11]。即如圖2所示,左側(cè)圖中的實(shí)線代表的是現(xiàn)有關(guān)系,虛線代表可能的關(guān)系,通過(guò)鏈接預(yù)測(cè)任務(wù)可計(jì)算出右側(cè)圖中不同顏色所代表的各種可能的關(guān)系。此外,在不同的鏈接預(yù)測(cè)任務(wù)中往往被賦予不同的功能,例如:在社交網(wǎng)絡(luò)中鏈接預(yù)測(cè)被用于對(duì)用戶或商品進(jìn)行推薦;在生物學(xué)領(lǐng)域,被用于相互作用的發(fā)現(xiàn);在知識(shí)圖譜中被用于實(shí)體與關(guān)系的學(xué)習(xí);在基礎(chǔ)研究中,被用于圖譜結(jié)構(gòu)捕捉。鏈接預(yù)測(cè)任務(wù)是當(dāng)前知識(shí)圖譜嵌入模型研究的重點(diǎn),面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型研究能夠顯著提升模型計(jì)算效率及性能,使知識(shí)獲取、融合和推理的性能得到顯著提升。對(duì)于基于知識(shí)圖譜的人工智能應(yīng)用等方面具有十分重要的意義,值得深入研究。

        圖2 鏈接預(yù)測(cè)示例

        1.3 知識(shí)圖譜鏈接預(yù)測(cè)研究現(xiàn)狀

        為解決鏈接預(yù)測(cè)問(wèn)題,已經(jīng)提出了各種技術(shù),包括基于翻譯的方法、基于語(yǔ)義匹配的方法和基于神經(jīng)網(wǎng)絡(luò)的方法[12]。其中,學(xué)習(xí)實(shí)體與關(guān)系的語(yǔ)義表示的知識(shí)圖譜嵌入模型在當(dāng)前研究中占有重要位置?;诖?,本文從基于三元組結(jié)構(gòu)信息和融合外部信息兩個(gè)角度重點(diǎn)對(duì)面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型進(jìn)行了全面的綜述。

        1.3.1 基于三元組結(jié)構(gòu)信息的知識(shí)圖譜鏈接預(yù)測(cè)

        目前絕大多數(shù)鏈接預(yù)測(cè)模型僅基于知識(shí)圖譜中原始的實(shí)體與關(guān)系來(lái)推斷新的事實(shí)。翻譯模型是基于能量函數(shù)的平移模型,通過(guò)計(jì)算三元組的能量函數(shù)值來(lái)判斷其是否為正例,一般情況下,負(fù)例三元組的能量計(jì)算數(shù)值較高。TransE[13]在訓(xùn)練過(guò)程中引入負(fù)樣本,通過(guò)學(xué)習(xí)正負(fù)例樣本挖掘滿足模型假設(shè)的實(shí)體和關(guān)系向量,促使語(yǔ)義相近的實(shí)體或者關(guān)系在向量空間中互相靠近,語(yǔ)義不相近的主動(dòng)遠(yuǎn)離。TransE模型簡(jiǎn)單高效,但不能有效的對(duì)復(fù)雜關(guān)系建模。基于此,學(xué)者們提出了利用超平面讓同一實(shí)體在不同關(guān)系下表示不同的TransH[14]模型、利用實(shí)體向關(guān)系空間投影并引用了投影映射的關(guān)系矩陣使不同關(guān)系擁有不同語(yǔ)義空間的TransR[15]模型、利用實(shí)體與關(guān)系之間的相互作用構(gòu)建與實(shí)體與關(guān)系相關(guān)投影矩陣的TransD[16]模型。TransE、TransH、TransR和TransD模型均是通過(guò)映射轉(zhuǎn)換學(xué)習(xí)實(shí)體與關(guān)系的多樣性來(lái)計(jì)算同一實(shí)體的三元組分?jǐn)?shù),有效避免了模型的收斂問(wèn)題。自2013年首次提出TransE以來(lái),基于這一框架提出了諸如通過(guò)關(guān)系映射屬性轉(zhuǎn)換嵌入的TransM[17]模型、通過(guò)更換損失函數(shù)中的度量函數(shù)為每一維的學(xué)習(xí)設(shè)置不同權(quán)重以實(shí)現(xiàn)自適應(yīng)轉(zhuǎn)換嵌入的TransA[18]模型等幾十種基于不同架構(gòu)的新模型。在最近的鏈接預(yù)測(cè)技術(shù)中,面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型在一些基準(zhǔn)測(cè)試中取得了很好的性能。

        1.3.2 融合外部信息的知識(shí)圖譜鏈接預(yù)測(cè)

        基于三元組結(jié)構(gòu)信息的知識(shí)圖譜嵌入方法在一定程度上解決了當(dāng)前主要問(wèn)題,但是也僅僅考慮了知識(shí)圖譜中的單個(gè)三元組同時(shí)假設(shè)三元組相互獨(dú)立并對(duì)其單獨(dú)建模。除了三元組本身的結(jié)構(gòu)信息之外,知識(shí)圖譜中往往還包括關(guān)系路徑、實(shí)體描述、屬性信息及實(shí)體類型等豐富的額外信息,整合這些多源信息能夠挖掘圖譜底部更深層次語(yǔ)義信息,進(jìn)一步提高模型的語(yǔ)義表示能力,從而實(shí)現(xiàn)更好的知識(shí)推理。

        近年來(lái),不少學(xué)者們還利用互聯(lián)網(wǎng)語(yǔ)料庫(kù)信息與三元組結(jié)構(gòu)信息進(jìn)行融合的知識(shí)表示學(xué)習(xí),從而更好的實(shí)現(xiàn)開放式知識(shí)圖譜的補(bǔ)全任務(wù)[19]。Lin等人[20]提出了基于圖譜自身結(jié)構(gòu)信息的PTransE模型,在TransE模型的基礎(chǔ)上加入路徑信息,并使用路徑約束資源算法來(lái)度量關(guān)系路徑的置信度。其考慮了實(shí)體間多步間接路徑的語(yǔ)義關(guān)系,將關(guān)系路徑集成到學(xué)習(xí)過(guò)程中,在模型實(shí)驗(yàn)測(cè)試時(shí)取得很好的表現(xiàn)。在考慮實(shí)體描述信息方面,Xie等人[21]在模型訓(xùn)練時(shí)加入了實(shí)體描述信息,并將其與三元組結(jié)構(gòu)信息進(jìn)行聯(lián)合建模,提出了基于實(shí)體描述的語(yǔ)義向量提出了DKRL模型;Xu等人[22]引入注意力機(jī)制并提出了聯(lián)合學(xué)習(xí)模型,使實(shí)體在不同關(guān)系下表現(xiàn)出不同的語(yǔ)義向量;Gupta等人[23]提出了基于開放世界知識(shí)圖譜的CaRe模型,通過(guò)學(xué)習(xí)實(shí)體鄰域豐富的表示形式來(lái)捕獲關(guān)系鄰域的語(yǔ)義相似性;Shi等人[24]提出了使用依賴關(guān)系的內(nèi)容屏蔽策略的Con Mask,旨在從實(shí)體的文本信息中提取出與關(guān)系相關(guān)的語(yǔ)義信息;Wu等人[25]通過(guò)將數(shù)字屬性預(yù)測(cè)損失添加到關(guān)系損失來(lái)擴(kuò)展TransE;An等人[26]提出了基于文本增強(qiáng)的知識(shí)表示學(xué)習(xí)模型,旨在處理三元組信息之間存在的歧義問(wèn)題。此外,諸如ConvE[27]、ConvKB[28]、HYPER[29]、CompGCN[30]、SACN[31]和CNN-BiLSTM[32]等神經(jīng)網(wǎng)絡(luò)模型綜合考慮了實(shí)體或關(guān)系的類型、時(shí)間信息、路徑信息和子結(jié)構(gòu)信息,同時(shí)卷積神經(jīng)網(wǎng)絡(luò)或注意力機(jī)制的使用也有助于產(chǎn)生更好的嵌入。

        2 知識(shí)圖譜鏈接預(yù)測(cè)框架分析

        作為當(dāng)前知識(shí)圖譜方面研究熱點(diǎn)的知識(shí)推理研究領(lǐng)域,受益于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的爆炸式增長(zhǎng),用于評(píng)價(jià)模型效果的鏈接預(yù)測(cè)更是成為衡量知識(shí)圖譜表示模型效果最廣泛使用的任務(wù)。鏈接預(yù)測(cè)是根據(jù)知識(shí)圖譜中已存在的實(shí)體,通過(guò)對(duì)實(shí)體與關(guān)系的學(xué)習(xí),并與知識(shí)庫(kù)中對(duì)應(yīng)實(shí)體或者關(guān)系進(jìn)行鏈接從而實(shí)現(xiàn)知識(shí)庫(kù)的補(bǔ)全[33]。其本質(zhì)思想是通過(guò)空間中已知的節(jié)點(diǎn)屬性和不完全的鏈接來(lái)分析拓?fù)浣Y(jié)構(gòu)中存在的相似性,估計(jì)測(cè)試對(duì)象之間是否存在相應(yīng)的鏈接[34]。在過(guò)去幾年中,作為學(xué)術(shù)界研究熱點(diǎn)的知識(shí)圖譜嵌入模型不斷有新的研究成果產(chǎn)出,學(xué)者們也相繼提出了基于不同方法的知識(shí)表示模型。本節(jié)先是按照時(shí)間線的前后簡(jiǎn)述了知識(shí)圖譜嵌入模型的分類,接著依據(jù)知識(shí)圖譜建模過(guò)程是否有補(bǔ)充信息的加入,將翻譯模型劃分為僅基于三元組結(jié)構(gòu)信息的知識(shí)圖譜嵌入模型和融合外部信息的知識(shí)圖譜嵌入模型,并對(duì)其進(jìn)行詳細(xì)介紹。

        2.1 常用數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

        知識(shí)圖譜是基于大數(shù)據(jù)的,當(dāng)前已經(jīng)構(gòu)建了許多開放的知識(shí)圖譜,例如,F(xiàn)reebase、DBpedia、Yago[35]和NELL[36-37]。它們通常包含大量使用數(shù)十億實(shí)體和關(guān)系構(gòu)建的事實(shí),這些實(shí)體和關(guān)系分別表示為節(jié)點(diǎn)和鏈接這些節(jié)點(diǎn)的邊。當(dāng)前在知識(shí)圖譜鏈接預(yù)測(cè)領(lǐng)域主要使用如表1所示的數(shù)據(jù)集。

        表1 實(shí)驗(yàn)的數(shù)據(jù)集信息

        1)Freebase是包含常見信息的世界知識(shí),F(xiàn)B13、FB15K和FB15K-237都是Freebase的子集。FB15K中大約70%的三元組存在反向關(guān)系,測(cè)試集中同樣有70%左右的三元組,在訓(xùn)練集中存在對(duì)應(yīng)反向關(guān)系的三元組,使得知識(shí)圖譜表示模型可能傾向于學(xué)習(xí)反向關(guān)系[38];其中,F(xiàn)B15K-237是通過(guò)刪除FB15K中訓(xùn)練集、測(cè)試以及驗(yàn)證集中的大量可逆關(guān)系數(shù)據(jù)創(chuàng)建得來(lái)的,而且還過(guò)濾掉了所有瑣碎的三元組,確保訓(xùn)練集中連接的所有實(shí)體都沒(méi)有直接連接到驗(yàn)證集或測(cè)試集中。其中,15k表示數(shù)據(jù)集中有15k個(gè)主題詞,237表示共有237種關(guān)系。

        2)WordNet是覆蓋范圍比較廣的英文語(yǔ)義知識(shí)庫(kù),同時(shí)WordNet中的實(shí)體是具有不同概念的同義詞,關(guān)系表示同義實(shí)體之間的語(yǔ)義聯(lián)系[39]。WN11、WN18和WN18RR都是WordNet的子集,分別包含有11和18種關(guān)系。其由WN18刪除可逆關(guān)系數(shù)據(jù)得到的子數(shù)據(jù)集,消除了反向關(guān)系實(shí)例,避免了表示任務(wù)中的信息泄露問(wèn)題。

        3)YAGO10:YAGO數(shù)據(jù)集的子集,主要包含關(guān)于人及其公民身份、性別和職業(yè)知識(shí)的信息。

        4)NELL239:NELL數(shù)據(jù)集的子集,它包含有關(guān)人員、地點(diǎn)、團(tuán)隊(duì)、大學(xué)等實(shí)體類型的一般知識(shí)。

        評(píng)價(jià)指標(biāo):

        為了驗(yàn)證所提出的方法的性能,通常在實(shí)驗(yàn)中設(shè)置“Raw”和“Filter”兩種評(píng)價(jià)指標(biāo),在“Raw”模式下生成的負(fù)樣本不一定都是實(shí)際意義上的錯(cuò)誤三元組,會(huì)擾亂排名,降低MR指標(biāo),故將其設(shè)置為“Filter”,在排名之前用來(lái)過(guò)濾假的負(fù)例三元組。此外,采用平均倒數(shù)排名(Mean Reciprocal Rank,MRR)、平均排序(Mean Rank, MR)以及Hits@k(k=1、3、10)這三種通用的評(píng)價(jià)指標(biāo)來(lái)衡量鏈接預(yù)測(cè)模型的性能。

        1)MRR:將測(cè)試集所有排名的倒數(shù)求均值,即

        (1)

        其中:rankr,t(h)表示頭實(shí)體的排序,同理,rankh,r(t)表示尾實(shí)體的排序。MRR主要用于衡量正三元組的最高排名,第一個(gè)樣本的貢獻(xiàn)最大而且MRR具有平滑性,受異常值的影響更小。MRR的取值范圍為MRR∈(0,1),計(jì)算值越大,表示模型的鏈接預(yù)測(cè)性能越好。

        2)MR:指在得到的排序中對(duì)正確答案的實(shí)體排名求平均,即

        (2)

        MR數(shù)值越小,說(shuō)明本模型在該任務(wù)上的模型性能越好。

        3)Hits@k:計(jì)算排名在前k位的正確實(shí)體所占的比例,然后再對(duì)其求均值,即

        k}|+|{(h,r,t)|rankh,r(t)≤k}|)

        (3)

        Hits@k側(cè)重于總體排名,數(shù)值越大,表示模型的鏈接預(yù)測(cè)性能越好。其中,K的取值一般為1、3和10。

        2.2 知識(shí)圖譜嵌入模型分類

        伴隨著知識(shí)圖譜日新月異的發(fā)展,一系列的知識(shí)圖譜嵌入模型被學(xué)者們相繼提出。一般情況下,基于翻譯模型的嵌入學(xué)習(xí)過(guò)程主要有三個(gè)步驟:首先定義知識(shí)圖譜中實(shí)體e∈E和關(guān)系r∈R在連續(xù)向量空間中的表示形式,將實(shí)體表示為向量空間中帶有結(jié)構(gòu)信息與語(yǔ)義信息的特征向量,關(guān)系表示為向量空間中實(shí)體間的翻譯運(yùn)算,通常由隨機(jī)初始化來(lái)獲得實(shí)體和關(guān)系的嵌入向量;其次定義三元組(h,r,t)的評(píng)分函數(shù)fr(h,t),根據(jù)嵌入向量h和t來(lái)評(píng)估任意事實(shí)三元組(h,r,t)在空間中成立的可能性,得分越高表明事實(shí)成立的可能性越大;最后通過(guò)優(yōu)化算法來(lái)迭代更新實(shí)體和關(guān)系的表示。在迭代更新過(guò)程中,通過(guò)一定的負(fù)采樣策略替換正三元組的頭或尾實(shí)體,從而生成負(fù)例三元組。優(yōu)化過(guò)程旨在最大限度提升真實(shí)事實(shí)的可能性,同時(shí)降低無(wú)效事實(shí)的可能性。

        由表2所示,按照時(shí)間軸展示了知識(shí)圖譜嵌入模型近幾年的發(fā)展。同時(shí),在表3中總結(jié)了面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型的優(yōu)缺點(diǎn)。

        表2 知識(shí)圖譜嵌入模型

        表3 鏈接預(yù)測(cè)模型優(yōu)缺點(diǎn)總結(jié)

        2.3 翻譯模型

        翻譯模型通常使用基于距離的評(píng)分函數(shù),將三元組的合理性視為向量空間中兩個(gè)實(shí)體節(jié)點(diǎn)間的距離。翻譯模型本質(zhì)上也屬于距離模型,同樣是利用距離的評(píng)分函數(shù)來(lái)衡量事實(shí)成立的可能性。但相較于距離模型,翻譯模型最大不同點(diǎn)是將關(guān)系建模為頭實(shí)體到尾實(shí)體的翻譯向量。

        基于三元組的模型只關(guān)注實(shí)體與實(shí)體之間的一跳關(guān)系,依據(jù)知識(shí)圖譜本身的結(jié)構(gòu)化信息從三元組的視角對(duì)實(shí)體和實(shí)體之間的關(guān)系進(jìn)行建模,認(rèn)為不同事實(shí)三元組(h,r,t)之間相互獨(dú)立。通常情況下很少考慮實(shí)體與關(guān)系的語(yǔ)義信息,即利用圖譜的自身結(jié)構(gòu)將每個(gè)關(guān)系解釋為潛在空間中的平移,并將實(shí)體和關(guān)系表示為相同長(zhǎng)度的一維向量。

        TransE模型是受Word2Vec[40]啟發(fā)所提出的第一個(gè)基于距離的模型,同時(shí)也是平移距離模型中最具代表性的模型。為有效捕獲知識(shí)圖譜的結(jié)構(gòu)信息,將實(shí)體和關(guān)系表示為相同語(yǔ)義空間中的向量形式,使得嵌入的實(shí)體h和t可以通過(guò)r以低誤差連接,即當(dāng)三元組(h,r,t)成立時(shí),有h+r≈t。TransE參數(shù)簡(jiǎn)單訓(xùn)練效率高,但在處理N-1、1-N、N-N等復(fù)雜關(guān)系上存在著一些缺陷,缺乏對(duì)各種關(guān)系的區(qū)分策略,可能會(huì)出現(xiàn)不同實(shí)體有著同樣的含義。例如,(中國(guó),首都,北京)和(英國(guó),首都,倫敦)根據(jù)翻譯原則在嵌入空間中會(huì)出現(xiàn)中國(guó)-首都=英國(guó)-首都這樣的情況,但很顯然北京不等于倫敦。為了解決TransE不能很好的處理多關(guān)系實(shí)體的這一缺陷,學(xué)者們提出了一些基于TransE的變體,例如TransH、TransR等模型。表4中給出了TransE、TransH、TransR的得分函數(shù)以及參數(shù)空間類型,同時(shí)在圖3中給出了具體的圖示。

        表4 純翻譯模型相關(guān)信息

        圖3 TransE、TransH、TransR模型的嵌入

        2.4 采樣方法

        負(fù)采樣是在訓(xùn)練時(shí)從未觀察到的三元組數(shù)據(jù)中抽取負(fù)例三元組,也是知識(shí)圖譜嵌入過(guò)程中的重要步驟。為了提高空間效率,一般情況下知識(shí)圖譜中只存儲(chǔ)正樣本而不存儲(chǔ)負(fù)樣本,所以在模型訓(xùn)練期間,向模型提供負(fù)樣本是至關(guān)重要的。如果該模型只在真實(shí)樣本上進(jìn)行訓(xùn)練,那么它可以通過(guò)簡(jiǎn)單地返回任何事實(shí)的大分?jǐn)?shù)來(lái)將所有損失降至最低,但這失去了模型訓(xùn)練的初衷。在知識(shí)圖譜嵌入過(guò)程中,否定事實(shí)的生成通常是通過(guò)負(fù)采樣來(lái)完成的,利用負(fù)采樣來(lái)最小化邊緣的排序損失,同時(shí)也體現(xiàn)了知識(shí)圖譜嵌入模型的性能在很大程度上取決于負(fù)采樣的質(zhì)量。直觀地說(shuō),利用負(fù)樣本在嵌入空間中引入排斥力,使事實(shí)三元組中不可互換的實(shí)體在嵌入時(shí)彼此遠(yuǎn)離。因此,必須選擇盡可能的訓(xùn)練生成高質(zhì)量的負(fù)樣本。隨著訓(xùn)練的進(jìn)行,為模型提供越來(lái)越接近真實(shí)事實(shí)的負(fù)樣本,學(xué)習(xí)有效的表示方法,以便更好地調(diào)整實(shí)體向量與關(guān)系向量的嵌入。

        2.4.1 隨機(jī)采樣

        隨機(jī)采樣是一種傳統(tǒng)的負(fù)采樣方法,旨在從均勻分布中隨機(jī)的選擇實(shí)體替換事實(shí)三元組的頭部或尾部實(shí)體生成負(fù)面事實(shí)。由于被采樣的實(shí)體可能與被替換實(shí)體和目標(biāo)關(guān)系完全無(wú)關(guān),所以生成的大多數(shù)負(fù)面事實(shí)很容易與正面事實(shí)區(qū)分開來(lái),未被充分訓(xùn)練的反例又很難被選擇,導(dǎo)致隨機(jī)生成的負(fù)例三元組質(zhì)量會(huì)很差,有時(shí)也隨之會(huì)出現(xiàn)“零損失”問(wèn)題[41]:當(dāng)生成的負(fù)例三元組質(zhì)量較低時(shí),模型的評(píng)分函數(shù)會(huì)給其較低的分值,這將出現(xiàn)正、負(fù)三元組分值的差大于設(shè)置的邊界值的情況,隨之的損失值也將為零。此時(shí)模型不會(huì)對(duì)實(shí)體向量與關(guān)系向量進(jìn)行更新操作,即模型在無(wú)效學(xué)習(xí),也就不能學(xué)習(xí)到更多的樣本特征,導(dǎo)致模型的訓(xùn)練程度評(píng)估出現(xiàn)偏差。如圖4所示,在訓(xùn)練初期時(shí),隨機(jī)采樣是非常有效的,此時(shí)正、負(fù)例三元組在同一裕度內(nèi)。隨著隨機(jī)采樣訓(xùn)練的進(jìn)行,即對(duì)圖中藍(lán)色圓中的三元組進(jìn)行采樣,此時(shí)這些三元組對(duì)于模型訓(xùn)練毫無(wú)意義。這是因?yàn)檫@些三元組超出了邊界不在同一裕度內(nèi),也就不會(huì)給模型帶來(lái)任何的損失甚至減慢了模型收斂的速度。因此,在邊距內(nèi)忽略一定數(shù)量的負(fù)三元組(如黑色虛線圓圈所示)可提高模型訓(xùn)練效率。

        圖4 模型訓(xùn)練零損失狀態(tài)

        2.4.2 過(guò)濾采樣

        過(guò)濾采樣是基于隨機(jī)采樣的一種采樣方法,只是在隨機(jī)采樣的過(guò)程中加入了過(guò)濾機(jī)制。通常情況下隨機(jī)采樣會(huì)出現(xiàn)假陰性負(fù)例三元組樣本,即有可能為正例三元組或者在數(shù)據(jù)集中曾出現(xiàn)過(guò)的三元組。當(dāng)一些損壞的三元組最終成為有效的三元組時(shí),很明顯這會(huì)影響模型的表征能力與性能。在這種情況下,當(dāng)對(duì)所有三元組打分排名時(shí),會(huì)出現(xiàn)假陰性樣本排在測(cè)試三元組之上的情況,這并不是因?yàn)槟P蛯W(xué)習(xí)效果不好,因?yàn)榇藭r(shí)兩個(gè)三元組都為真實(shí)實(shí)例。為了避免這種誤導(dǎo)行為,在排名之前,過(guò)濾采樣會(huì)從損壞的三元組列表中刪除曾出現(xiàn)在實(shí)驗(yàn)數(shù)據(jù)集中的所有三元組,保證所有損壞的三元組全部為真正的負(fù)樣本。

        2.4.3 伯努利采樣

        2.4.4 對(duì)抗生成采樣

        受生成對(duì)抗性深度模型[43]的啟發(fā),提出了對(duì)抗生成采樣[44]這一對(duì)抗學(xué)習(xí)框架,其提供了對(duì)動(dòng)態(tài)負(fù)樣本分布進(jìn)行建模的采樣策略,旨在提高模型訓(xùn)練時(shí)負(fù)例三元組的質(zhì)量。將基于不同損失函數(shù)的嵌入模型作為生成器和鑒別器,分別用來(lái)生成高質(zhì)量的負(fù)例三元組和訓(xùn)練具有高表征能力的模型。如圖5所示,發(fā)生器用于訓(xùn)練原始模型,隨后通過(guò)基于概率的對(duì)數(shù)似然損失函數(shù)的生成器最大化鑒別器對(duì)其動(dòng)作的響應(yīng),動(dòng)態(tài)地估計(jì)負(fù)樣本分布,通過(guò)高質(zhì)量的負(fù)例三元組來(lái)改進(jìn)知識(shí)圖譜嵌入模型。對(duì)候選三元組上的概率分布進(jìn)行計(jì)算采樣,并通過(guò)源于強(qiáng)化學(xué)習(xí)的策略梯度最小化生成的負(fù)例三元組的得分?;诰嚯x的邊緣損失函數(shù)的鑒別器將接收到正負(fù)樣本三元組加以區(qū)分,并采用優(yōu)化函數(shù)來(lái)最小化邊緣損失。通過(guò)對(duì)分?jǐn)?shù)較大的負(fù)例三元組進(jìn)行采樣,避免了梯度消失的問(wèn)題。整個(gè)模型框架通過(guò)不斷地訓(xùn)練模型,最終產(chǎn)生一個(gè)更好的鑒別器,從而獲得更好的性能。

        圖5 對(duì)抗生成采樣框架

        3 典型智能應(yīng)用場(chǎng)景

        知識(shí)圖譜技術(shù)最早被Goole公司提出并應(yīng)用到其搜索引擎技術(shù)中,從而使搜索引擎具備了查詢理解的能力。從字面匹配到概念理解,可更好的理解用戶的真實(shí)想法為用戶服務(wù),讓用戶獲得與搜索關(guān)鍵字最相關(guān)的詞條鏈接以及獲得與關(guān)鍵字更加智能化的信息,返回用戶最希望的結(jié)果。如圖6所示,當(dāng)在搜索引擎中搜索《西游記》作者時(shí),搜索引擎會(huì)將查詢關(guān)鍵字理解現(xiàn)實(shí)世界中的概念和事物,然后搜索引擎根據(jù)“《西游記》”,“作者”兩個(gè)實(shí)體來(lái)理解用戶的意圖,同時(shí)返回問(wèn)題的答案和與搜索實(shí)體相關(guān)的其他實(shí)體。

        圖6 百度搜索界面

        人工智能的卓越發(fā)展使得知識(shí)圖譜向量化表示得到了快速的發(fā)展。相較于傳統(tǒng)one-hot編碼的大維度、編碼稀疏,無(wú)法體現(xiàn)實(shí)體間關(guān)系的遠(yuǎn)近程度,而嵌入技術(shù)可將實(shí)體和關(guān)系表示為向量的形式,更利于各種推理計(jì)算,同時(shí)節(jié)省了空間與模型訓(xùn)練時(shí)間。知識(shí)圖譜在知識(shí)推理以及多源異質(zhì)知識(shí)的整合提取方面顯得尤為重要,通過(guò)學(xué)習(xí)知識(shí)圖譜中已有事實(shí)三元組實(shí)體之間的語(yǔ)義關(guān)聯(lián)進(jìn)而推理出新的事實(shí)并將其添加到圖譜中,促進(jìn)了人工智能及其應(yīng)用的發(fā)展[45]。

        如圖7所示,通過(guò)相似實(shí)體在同一空間中相互靠近的原則,只需要分析Adam Ant周圍的實(shí)體便可推知他的職業(yè)以及其他的一些信息。即,在Adam Ant的周圍相近的實(shí)體都是與音樂(lè)有關(guān)聯(lián)的實(shí)體,則可推理出此人的職業(yè)必定與音樂(lè)有關(guān)。此外,為下游關(guān)系抽取、智能問(wèn)答、信息檢索、個(gè)性化智能推薦等任務(wù)發(fā)揮了必不可少的樞紐作用。例如,Apple的Siri、百度的小度、微軟的Cortana等智能聊天機(jī)器人可以處理客戶的請(qǐng)求或?yàn)橛脩籼峁椭亩鴰椭脩敉扑]附近的餐廳,回答簡(jiǎn)單的事實(shí)問(wèn)題,或者管理日歷活動(dòng)等一系列日常任務(wù)。

        圖7 FB15K中實(shí)體及其鄰居節(jié)點(diǎn)

        由表5所示,從智能問(wèn)答、系統(tǒng)推薦、信息檢索以及醫(yī)藥應(yīng)用四個(gè)方面總結(jié)了當(dāng)前知識(shí)圖譜嵌入技術(shù)的典型應(yīng)用案例[46-60]。

        表5 知識(shí)圖譜嵌入模型應(yīng)用案例總結(jié)

        4 結(jié)束語(yǔ)

        在近十年間,知識(shí)表示學(xué)習(xí)有了很大的發(fā)展,同時(shí)也提出了許多基于知識(shí)表示學(xué)習(xí)的方法。本文介紹了知識(shí)圖譜的概念性知識(shí),包括系統(tǒng)地討論了知識(shí)圖譜鏈接預(yù)測(cè)的研究現(xiàn)狀、框架分析以及當(dāng)前典型的應(yīng)用場(chǎng)景。面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型旨在提高知識(shí)圖譜鏈接預(yù)測(cè)準(zhǔn)確率,增強(qiáng)嵌入模型的表達(dá)性。同時(shí),大規(guī)模知識(shí)圖譜具有重要的人工智能應(yīng)用前景。例如,在軍事應(yīng)用方面構(gòu)建軍用無(wú)人系統(tǒng)領(lǐng)域故障知識(shí)圖譜用以智能搜索以及輔助決策;在目標(biāo)檢測(cè)控制系統(tǒng)中引入知識(shí)圖譜用以多目標(biāo)的關(guān)聯(lián)判別;在航空航天方面,利用知識(shí)圖譜設(shè)計(jì)雷達(dá)場(chǎng)景識(shí)別系統(tǒng)用以空間目標(biāo)的場(chǎng)景識(shí)別。在未來(lái)研究中,應(yīng)注重對(duì)面向鏈接預(yù)測(cè)的知識(shí)圖譜嵌入模型的研究,更好的進(jìn)行大規(guī)模知識(shí)圖譜補(bǔ)全,從而促進(jìn)人工智能應(yīng)用的發(fā)展。

        猜你喜歡
        語(yǔ)義信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        語(yǔ)義分析與漢俄副名組合
        色伦专区97中文字幕| 精品人妻久久一日二个| 欧美国产激情18| 中文字幕被公侵犯的漂亮人妻| 欧美乱妇日本无乱码特黄大片| 日韩美女av二区三区四区| 久久伊人亚洲精品视频| 一边做一边喷17p亚洲乱妇50p| 1717国产精品久久| АⅤ天堂中文在线网| 亚洲综合一区二区三区在线观看 | 国产av精品久久一区二区| 日韩精品中文一区二区三区在线| 亚洲av日韩av天堂一区二区三区 | 国产69精品久久久久777| 国产精品高潮呻吟av久久无吗 | 亚洲欧美日韩专区一| 亚洲色图在线视频观看| av素人中文字幕在线观看| 久久露脸国产精品| 亚洲无码夜夜操| 日本免费三级一区二区| 熟女无套高潮内谢吼叫免费| 人妻少妇av无码一区二区| 欧美高h视频| 国产的自拍av免费的在线观看| 在线天堂www中文| 99热成人精品免费久久| 男女啪啪免费视频网址| 国产av无码专区亚洲a∨毛片| 性高朝久久久久久久| 午夜无码亚| 手机在线看片国产人妻| 久激情内射婷内射蜜桃| 久久AV中文综合一区二区| 福利视频在线一区二区三区| 国产a在亚洲线播放| 久久人妻公开中文字幕| 一区二区三区熟妇人妻18| 国产美女高潮流白浆免费视频| 免费a级毛片无码无遮挡|