亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向鏈接預(yù)測的知識(shí)圖譜嵌入研究綜述

        2022-09-29 07:51:30李智杰李昌華
        計(jì)算機(jī)測量與控制 2022年9期
        關(guān)鍵詞:三元組圖譜實(shí)體

        王 瑞,李智杰,李昌華,張 頡

        (西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)

        0 引言

        伴隨著Web技術(shù)的崛起與更新迭代,人類先后經(jīng)歷了以文檔互聯(lián)的“Web 1.0”時(shí)代與數(shù)據(jù)互聯(lián)“Web 2.0”時(shí)代,正在邁向基于知識(shí)互聯(lián)的“Web 3.0”時(shí)代[1]。同時(shí),隨之而來的海量網(wǎng)絡(luò)數(shù)據(jù)資源推動(dòng)著人類社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。如何從內(nèi)容多源異質(zhì)、組織結(jié)構(gòu)松散的網(wǎng)絡(luò)數(shù)據(jù)資源中有效提取組織非結(jié)構(gòu)化信息和存儲(chǔ)結(jié)構(gòu)化知識(shí)變得非常重要,同時(shí)也給“Web 3.0”提出的“知識(shí)之網(wǎng)”帶來了極大的挑戰(zhàn)。強(qiáng)大的語義處理能力和開放互聯(lián)能力使得知識(shí)圖譜具有良好的知識(shí)表達(dá)能力和解釋性,同時(shí)也提供了一種更好組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[2]。知識(shí)圖譜的研究起源于語義Web,知識(shí)圖譜的概念最早由Google公司提出以表達(dá)其升級的搜索引擎技術(shù),如今知識(shí)圖譜概念已經(jīng)被用來泛指各類包含實(shí)體與豐富關(guān)系的知識(shí)庫,被廣泛用于存儲(chǔ)人工智能任務(wù)的結(jié)構(gòu)化語義信息。過去幾年中,知識(shí)圖譜在人工智能應(yīng)用中具有巨大潛力,受到了廣泛的關(guān)注。知識(shí)圖譜的實(shí)例通常以三元組的形式進(jìn)行存儲(chǔ),將實(shí)體表示為有向圖中代表屬性或概念信息的節(jié)點(diǎn),關(guān)系表示為兩實(shí)體之間具有實(shí)際語義的邊,諸如(中國,首都,北京)的三元組形式。

        盡管知識(shí)圖譜已從現(xiàn)實(shí)世界中提取了包含數(shù)百萬個(gè)實(shí)體和數(shù)十億個(gè)關(guān)系事實(shí),但大型知識(shí)圖譜中的數(shù)據(jù)仍然稀疏不完整[3]。例如,在開放知識(shí)圖譜Freebase[4]中,約有71%的人缺少出生地信息,99%的沒有民族信息[5];DBpedia[6]中有58%的科學(xué)家實(shí)體沒有指出其相關(guān)的主要貢獻(xiàn)。隨著知識(shí)圖譜中知識(shí)實(shí)例的高速增長,知識(shí)的表示形式以及之間的關(guān)聯(lián)也變得更加復(fù)雜化、異質(zhì)化。因此,研究人員需將缺失的實(shí)例添加到知識(shí)庫中以擴(kuò)大其覆蓋范圍,操作耗時(shí)耗力且人工成本較高。此外,傳統(tǒng)三元組的符號(hào)表示還面臨著計(jì)算效率低和數(shù)據(jù)稀疏等問題[7],導(dǎo)致其在大規(guī)模知識(shí)圖譜的使用具有局限性,限制了知識(shí)圖譜的發(fā)展,為知識(shí)圖譜的表示帶來了挑戰(zhàn)。

        在本文中,通過對知識(shí)圖譜鏈接預(yù)測相關(guān)知識(shí)介紹,同時(shí)對鏈接預(yù)測模型框架進(jìn)行了分析,并且列出了當(dāng)前典型的應(yīng)用場景,從而系統(tǒng)全面的對面向鏈接預(yù)測的知識(shí)圖譜嵌入模型做了綜述。

        1 知識(shí)圖譜鏈接預(yù)測概述

        1.1 知識(shí)圖譜嵌入

        受當(dāng)前技術(shù)的制約以及網(wǎng)絡(luò)數(shù)據(jù)的繁雜冗余,在大型知識(shí)圖譜中,需不斷向知識(shí)庫中補(bǔ)充新的實(shí)體和關(guān)系,導(dǎo)致研究人員的工作量劇增。此外,知識(shí)圖譜中信息的缺失限制了知識(shí)圖譜的使用,影響了知識(shí)圖譜在推理和檢索應(yīng)用時(shí)的準(zhǔn)確率。由于不能直接對三元組進(jìn)行操作,需要為知識(shí)圖譜中的實(shí)體和關(guān)系找到更好的表示形式。早期時(shí)候,使用符號(hào)三元組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)關(guān)系學(xué)習(xí)。但是這些方法既不具有良好的泛化性能,也不適用于大規(guī)模的知識(shí)圖譜。因此,引入了知識(shí)圖譜嵌入技術(shù)。嵌入是根據(jù)代表真實(shí)世界的數(shù)據(jù)集中相應(yīng)元素的發(fā)生方式和彼此之間的相互作用自動(dòng)學(xué)習(xí)的。同時(shí),嵌入可用于表示任何種類元素的數(shù)值向量,將實(shí)體與關(guān)系向量化可在向量空間中通過數(shù)值計(jì)算挖掘出潛在的三元組信息及語義知識(shí)。此外,當(dāng)嵌入作為一種類型的先驗(yàn)知識(shí)輔助時(shí),可對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程加以約束和監(jiān)督[8]。知識(shí)圖譜是由實(shí)體和關(guān)系組成的復(fù)雜圖結(jié)構(gòu),知識(shí)圖譜嵌入是有向圖的矢量表示,利用知識(shí)圖譜嵌入操作來高效計(jì)算實(shí)體與關(guān)系的語義聯(lián)系,提高了模型推理的準(zhǔn)確率,同時(shí)也保留了知識(shí)圖譜的固有結(jié)構(gòu),體現(xiàn)了原始圖的語義,可用于識(shí)別其中的新鏈接,從而解決了鏈接預(yù)測任務(wù)。

        伴隨著知識(shí)圖譜日新月異的發(fā)展,一系列的知識(shí)圖譜嵌入模型被學(xué)者們相繼提出。通過從知識(shí)圖譜包含的關(guān)系信息中學(xué)習(xí)低維連續(xù)空間中的嵌入操作,將實(shí)體和關(guān)系表示為低維度的帶有結(jié)構(gòu)信息與語義信息的實(shí)值特征向量[9],捕獲了實(shí)體和關(guān)系的連接屬性,為知識(shí)圖譜提供數(shù)值計(jì)算框架,同時(shí)使其固有結(jié)構(gòu)得以保留。如圖1所示,知識(shí)圖譜嵌入實(shí)質(zhì)上就是通過優(yōu)化基于邊距的損失函數(shù),其中邊距是一個(gè)非負(fù)數(shù),用于將正負(fù)三元組分開。將實(shí)體表示為空間中的向量,并通過距離來量化實(shí)體對象之間的相似性,關(guān)系通常被視為向量空間中的運(yùn)算,獲得具有某些明確定義的目標(biāo)函數(shù)的三元組,即(h,r,t)的矢量表示。此外,關(guān)系也可以表示矩陣、張量、高斯分布以及多元高斯分布。訓(xùn)練知識(shí)圖譜嵌入模型是為了找到模型的最佳參數(shù)從而進(jìn)行最佳的嵌入,通過優(yōu)化算法來迭代更新實(shí)體和關(guān)系的表示。在迭代更新過程中,通過一定的負(fù)采樣策略替換正三元組的頭或尾實(shí)體,從而生成負(fù)例三元組。優(yōu)化過程旨在最大化肯定事實(shí)的合理性以及最小化否定事實(shí)的合理性。

        圖1 知識(shí)圖譜嵌入技術(shù)

        知識(shí)圖譜嵌入實(shí)現(xiàn)了對實(shí)體和關(guān)系的分布式表示,可高效地實(shí)現(xiàn)語義相似度計(jì)算等操作顯著提升計(jì)算效率。同時(shí),在低維實(shí)值向量空間中,可以度量任意對象之間的語義相似程度以及提高低頻對象的語義表示的精確性[10],實(shí)現(xiàn)異質(zhì)知識(shí)對象之間的語義關(guān)聯(lián)計(jì)算,有效緩解數(shù)據(jù)稀疏問題,實(shí)現(xiàn)異質(zhì)信息融合。

        1.2 鏈接預(yù)測

        鏈接預(yù)測(Link Prediction)也稱為知識(shí)圖譜補(bǔ)全(Knowledge Graph Completion),利用評分函數(shù)計(jì)算并對候選實(shí)體或關(guān)系進(jìn)行排序,旨在根據(jù)知識(shí)圖譜中現(xiàn)有實(shí)體與關(guān)系推理出缺失的實(shí)體或關(guān)系。鏈接預(yù)測根據(jù)任務(wù)的不同,可分為頭實(shí)體預(yù)測、尾實(shí)體預(yù)測和關(guān)系預(yù)測三種類型。例如,給定三元組實(shí)例(h,r,t),首先利用嵌入模型學(xué)習(xí)實(shí)體與關(guān)系的向量特征;其次通過負(fù)采樣策略破壞三元組中的任一實(shí)體或者關(guān)系生成知識(shí)圖譜數(shù)據(jù)集中所沒有的三元組(h′,r,t)、(h,r,t′)以及(h,r′,t);最后利用評分函數(shù)對其進(jìn)行對應(yīng)的評分fr(h,t),并將所有實(shí)體進(jìn)行由低到高的排序,輸出最可能的實(shí)體或關(guān)系列表。這樣可得到所有實(shí)體的排名,利用評估指標(biāo)從而獲得模型性能的評估。

        鏈接預(yù)測是知識(shí)圖譜嵌入的應(yīng)用之一,是對存在于多對象總體中每個(gè)對象之間的相互作用及相互依賴關(guān)系推斷的過程。鏈接預(yù)測旨在預(yù)測圖譜中任意兩個(gè)實(shí)體之間的關(guān)系以及實(shí)體間已存在關(guān)系的正確性,是對現(xiàn)有知識(shí)進(jìn)行整合過濾以及篩選,進(jìn)行更精準(zhǔn)的知識(shí)發(fā)現(xiàn),從而提高知識(shí)庫中實(shí)例的質(zhì)量,解決知識(shí)圖譜中數(shù)據(jù)缺失不完整問題。既增加了下游應(yīng)用的多樣性,又可以作為預(yù)訓(xùn)練,利用實(shí)體與關(guān)系的表征向量支撐下游向量,為下游模型提供語義支持[11]。即如圖2所示,左側(cè)圖中的實(shí)線代表的是現(xiàn)有關(guān)系,虛線代表可能的關(guān)系,通過鏈接預(yù)測任務(wù)可計(jì)算出右側(cè)圖中不同顏色所代表的各種可能的關(guān)系。此外,在不同的鏈接預(yù)測任務(wù)中往往被賦予不同的功能,例如:在社交網(wǎng)絡(luò)中鏈接預(yù)測被用于對用戶或商品進(jìn)行推薦;在生物學(xué)領(lǐng)域,被用于相互作用的發(fā)現(xiàn);在知識(shí)圖譜中被用于實(shí)體與關(guān)系的學(xué)習(xí);在基礎(chǔ)研究中,被用于圖譜結(jié)構(gòu)捕捉。鏈接預(yù)測任務(wù)是當(dāng)前知識(shí)圖譜嵌入模型研究的重點(diǎn),面向鏈接預(yù)測的知識(shí)圖譜嵌入模型研究能夠顯著提升模型計(jì)算效率及性能,使知識(shí)獲取、融合和推理的性能得到顯著提升。對于基于知識(shí)圖譜的人工智能應(yīng)用等方面具有十分重要的意義,值得深入研究。

        圖2 鏈接預(yù)測示例

        1.3 知識(shí)圖譜鏈接預(yù)測研究現(xiàn)狀

        為解決鏈接預(yù)測問題,已經(jīng)提出了各種技術(shù),包括基于翻譯的方法、基于語義匹配的方法和基于神經(jīng)網(wǎng)絡(luò)的方法[12]。其中,學(xué)習(xí)實(shí)體與關(guān)系的語義表示的知識(shí)圖譜嵌入模型在當(dāng)前研究中占有重要位置?;诖?,本文從基于三元組結(jié)構(gòu)信息和融合外部信息兩個(gè)角度重點(diǎn)對面向鏈接預(yù)測的知識(shí)圖譜嵌入模型進(jìn)行了全面的綜述。

        1.3.1 基于三元組結(jié)構(gòu)信息的知識(shí)圖譜鏈接預(yù)測

        目前絕大多數(shù)鏈接預(yù)測模型僅基于知識(shí)圖譜中原始的實(shí)體與關(guān)系來推斷新的事實(shí)。翻譯模型是基于能量函數(shù)的平移模型,通過計(jì)算三元組的能量函數(shù)值來判斷其是否為正例,一般情況下,負(fù)例三元組的能量計(jì)算數(shù)值較高。TransE[13]在訓(xùn)練過程中引入負(fù)樣本,通過學(xué)習(xí)正負(fù)例樣本挖掘滿足模型假設(shè)的實(shí)體和關(guān)系向量,促使語義相近的實(shí)體或者關(guān)系在向量空間中互相靠近,語義不相近的主動(dòng)遠(yuǎn)離。TransE模型簡單高效,但不能有效的對復(fù)雜關(guān)系建模。基于此,學(xué)者們提出了利用超平面讓同一實(shí)體在不同關(guān)系下表示不同的TransH[14]模型、利用實(shí)體向關(guān)系空間投影并引用了投影映射的關(guān)系矩陣使不同關(guān)系擁有不同語義空間的TransR[15]模型、利用實(shí)體與關(guān)系之間的相互作用構(gòu)建與實(shí)體與關(guān)系相關(guān)投影矩陣的TransD[16]模型。TransE、TransH、TransR和TransD模型均是通過映射轉(zhuǎn)換學(xué)習(xí)實(shí)體與關(guān)系的多樣性來計(jì)算同一實(shí)體的三元組分?jǐn)?shù),有效避免了模型的收斂問題。自2013年首次提出TransE以來,基于這一框架提出了諸如通過關(guān)系映射屬性轉(zhuǎn)換嵌入的TransM[17]模型、通過更換損失函數(shù)中的度量函數(shù)為每一維的學(xué)習(xí)設(shè)置不同權(quán)重以實(shí)現(xiàn)自適應(yīng)轉(zhuǎn)換嵌入的TransA[18]模型等幾十種基于不同架構(gòu)的新模型。在最近的鏈接預(yù)測技術(shù)中,面向鏈接預(yù)測的知識(shí)圖譜嵌入模型在一些基準(zhǔn)測試中取得了很好的性能。

        1.3.2 融合外部信息的知識(shí)圖譜鏈接預(yù)測

        基于三元組結(jié)構(gòu)信息的知識(shí)圖譜嵌入方法在一定程度上解決了當(dāng)前主要問題,但是也僅僅考慮了知識(shí)圖譜中的單個(gè)三元組同時(shí)假設(shè)三元組相互獨(dú)立并對其單獨(dú)建模。除了三元組本身的結(jié)構(gòu)信息之外,知識(shí)圖譜中往往還包括關(guān)系路徑、實(shí)體描述、屬性信息及實(shí)體類型等豐富的額外信息,整合這些多源信息能夠挖掘圖譜底部更深層次語義信息,進(jìn)一步提高模型的語義表示能力,從而實(shí)現(xiàn)更好的知識(shí)推理。

        近年來,不少學(xué)者們還利用互聯(lián)網(wǎng)語料庫信息與三元組結(jié)構(gòu)信息進(jìn)行融合的知識(shí)表示學(xué)習(xí),從而更好的實(shí)現(xiàn)開放式知識(shí)圖譜的補(bǔ)全任務(wù)[19]。Lin等人[20]提出了基于圖譜自身結(jié)構(gòu)信息的PTransE模型,在TransE模型的基礎(chǔ)上加入路徑信息,并使用路徑約束資源算法來度量關(guān)系路徑的置信度。其考慮了實(shí)體間多步間接路徑的語義關(guān)系,將關(guān)系路徑集成到學(xué)習(xí)過程中,在模型實(shí)驗(yàn)測試時(shí)取得很好的表現(xiàn)。在考慮實(shí)體描述信息方面,Xie等人[21]在模型訓(xùn)練時(shí)加入了實(shí)體描述信息,并將其與三元組結(jié)構(gòu)信息進(jìn)行聯(lián)合建模,提出了基于實(shí)體描述的語義向量提出了DKRL模型;Xu等人[22]引入注意力機(jī)制并提出了聯(lián)合學(xué)習(xí)模型,使實(shí)體在不同關(guān)系下表現(xiàn)出不同的語義向量;Gupta等人[23]提出了基于開放世界知識(shí)圖譜的CaRe模型,通過學(xué)習(xí)實(shí)體鄰域豐富的表示形式來捕獲關(guān)系鄰域的語義相似性;Shi等人[24]提出了使用依賴關(guān)系的內(nèi)容屏蔽策略的Con Mask,旨在從實(shí)體的文本信息中提取出與關(guān)系相關(guān)的語義信息;Wu等人[25]通過將數(shù)字屬性預(yù)測損失添加到關(guān)系損失來擴(kuò)展TransE;An等人[26]提出了基于文本增強(qiáng)的知識(shí)表示學(xué)習(xí)模型,旨在處理三元組信息之間存在的歧義問題。此外,諸如ConvE[27]、ConvKB[28]、HYPER[29]、CompGCN[30]、SACN[31]和CNN-BiLSTM[32]等神經(jīng)網(wǎng)絡(luò)模型綜合考慮了實(shí)體或關(guān)系的類型、時(shí)間信息、路徑信息和子結(jié)構(gòu)信息,同時(shí)卷積神經(jīng)網(wǎng)絡(luò)或注意力機(jī)制的使用也有助于產(chǎn)生更好的嵌入。

        2 知識(shí)圖譜鏈接預(yù)測框架分析

        作為當(dāng)前知識(shí)圖譜方面研究熱點(diǎn)的知識(shí)推理研究領(lǐng)域,受益于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的爆炸式增長,用于評價(jià)模型效果的鏈接預(yù)測更是成為衡量知識(shí)圖譜表示模型效果最廣泛使用的任務(wù)。鏈接預(yù)測是根據(jù)知識(shí)圖譜中已存在的實(shí)體,通過對實(shí)體與關(guān)系的學(xué)習(xí),并與知識(shí)庫中對應(yīng)實(shí)體或者關(guān)系進(jìn)行鏈接從而實(shí)現(xiàn)知識(shí)庫的補(bǔ)全[33]。其本質(zhì)思想是通過空間中已知的節(jié)點(diǎn)屬性和不完全的鏈接來分析拓?fù)浣Y(jié)構(gòu)中存在的相似性,估計(jì)測試對象之間是否存在相應(yīng)的鏈接[34]。在過去幾年中,作為學(xué)術(shù)界研究熱點(diǎn)的知識(shí)圖譜嵌入模型不斷有新的研究成果產(chǎn)出,學(xué)者們也相繼提出了基于不同方法的知識(shí)表示模型。本節(jié)先是按照時(shí)間線的前后簡述了知識(shí)圖譜嵌入模型的分類,接著依據(jù)知識(shí)圖譜建模過程是否有補(bǔ)充信息的加入,將翻譯模型劃分為僅基于三元組結(jié)構(gòu)信息的知識(shí)圖譜嵌入模型和融合外部信息的知識(shí)圖譜嵌入模型,并對其進(jìn)行詳細(xì)介紹。

        2.1 常用數(shù)據(jù)集與評價(jià)指標(biāo)

        知識(shí)圖譜是基于大數(shù)據(jù)的,當(dāng)前已經(jīng)構(gòu)建了許多開放的知識(shí)圖譜,例如,F(xiàn)reebase、DBpedia、Yago[35]和NELL[36-37]。它們通常包含大量使用數(shù)十億實(shí)體和關(guān)系構(gòu)建的事實(shí),這些實(shí)體和關(guān)系分別表示為節(jié)點(diǎn)和鏈接這些節(jié)點(diǎn)的邊。當(dāng)前在知識(shí)圖譜鏈接預(yù)測領(lǐng)域主要使用如表1所示的數(shù)據(jù)集。

        表1 實(shí)驗(yàn)的數(shù)據(jù)集信息

        1)Freebase是包含常見信息的世界知識(shí),F(xiàn)B13、FB15K和FB15K-237都是Freebase的子集。FB15K中大約70%的三元組存在反向關(guān)系,測試集中同樣有70%左右的三元組,在訓(xùn)練集中存在對應(yīng)反向關(guān)系的三元組,使得知識(shí)圖譜表示模型可能傾向于學(xué)習(xí)反向關(guān)系[38];其中,F(xiàn)B15K-237是通過刪除FB15K中訓(xùn)練集、測試以及驗(yàn)證集中的大量可逆關(guān)系數(shù)據(jù)創(chuàng)建得來的,而且還過濾掉了所有瑣碎的三元組,確保訓(xùn)練集中連接的所有實(shí)體都沒有直接連接到驗(yàn)證集或測試集中。其中,15k表示數(shù)據(jù)集中有15k個(gè)主題詞,237表示共有237種關(guān)系。

        2)WordNet是覆蓋范圍比較廣的英文語義知識(shí)庫,同時(shí)WordNet中的實(shí)體是具有不同概念的同義詞,關(guān)系表示同義實(shí)體之間的語義聯(lián)系[39]。WN11、WN18和WN18RR都是WordNet的子集,分別包含有11和18種關(guān)系。其由WN18刪除可逆關(guān)系數(shù)據(jù)得到的子數(shù)據(jù)集,消除了反向關(guān)系實(shí)例,避免了表示任務(wù)中的信息泄露問題。

        3)YAGO10:YAGO數(shù)據(jù)集的子集,主要包含關(guān)于人及其公民身份、性別和職業(yè)知識(shí)的信息。

        4)NELL239:NELL數(shù)據(jù)集的子集,它包含有關(guān)人員、地點(diǎn)、團(tuán)隊(duì)、大學(xué)等實(shí)體類型的一般知識(shí)。

        評價(jià)指標(biāo):

        為了驗(yàn)證所提出的方法的性能,通常在實(shí)驗(yàn)中設(shè)置“Raw”和“Filter”兩種評價(jià)指標(biāo),在“Raw”模式下生成的負(fù)樣本不一定都是實(shí)際意義上的錯(cuò)誤三元組,會(huì)擾亂排名,降低MR指標(biāo),故將其設(shè)置為“Filter”,在排名之前用來過濾假的負(fù)例三元組。此外,采用平均倒數(shù)排名(Mean Reciprocal Rank,MRR)、平均排序(Mean Rank, MR)以及Hits@k(k=1、3、10)這三種通用的評價(jià)指標(biāo)來衡量鏈接預(yù)測模型的性能。

        1)MRR:將測試集所有排名的倒數(shù)求均值,即

        (1)

        其中:rankr,t(h)表示頭實(shí)體的排序,同理,rankh,r(t)表示尾實(shí)體的排序。MRR主要用于衡量正三元組的最高排名,第一個(gè)樣本的貢獻(xiàn)最大而且MRR具有平滑性,受異常值的影響更小。MRR的取值范圍為MRR∈(0,1),計(jì)算值越大,表示模型的鏈接預(yù)測性能越好。

        2)MR:指在得到的排序中對正確答案的實(shí)體排名求平均,即

        (2)

        MR數(shù)值越小,說明本模型在該任務(wù)上的模型性能越好。

        3)Hits@k:計(jì)算排名在前k位的正確實(shí)體所占的比例,然后再對其求均值,即

        k}|+|{(h,r,t)|rankh,r(t)≤k}|)

        (3)

        Hits@k側(cè)重于總體排名,數(shù)值越大,表示模型的鏈接預(yù)測性能越好。其中,K的取值一般為1、3和10。

        2.2 知識(shí)圖譜嵌入模型分類

        伴隨著知識(shí)圖譜日新月異的發(fā)展,一系列的知識(shí)圖譜嵌入模型被學(xué)者們相繼提出。一般情況下,基于翻譯模型的嵌入學(xué)習(xí)過程主要有三個(gè)步驟:首先定義知識(shí)圖譜中實(shí)體e∈E和關(guān)系r∈R在連續(xù)向量空間中的表示形式,將實(shí)體表示為向量空間中帶有結(jié)構(gòu)信息與語義信息的特征向量,關(guān)系表示為向量空間中實(shí)體間的翻譯運(yùn)算,通常由隨機(jī)初始化來獲得實(shí)體和關(guān)系的嵌入向量;其次定義三元組(h,r,t)的評分函數(shù)fr(h,t),根據(jù)嵌入向量h和t來評估任意事實(shí)三元組(h,r,t)在空間中成立的可能性,得分越高表明事實(shí)成立的可能性越大;最后通過優(yōu)化算法來迭代更新實(shí)體和關(guān)系的表示。在迭代更新過程中,通過一定的負(fù)采樣策略替換正三元組的頭或尾實(shí)體,從而生成負(fù)例三元組。優(yōu)化過程旨在最大限度提升真實(shí)事實(shí)的可能性,同時(shí)降低無效事實(shí)的可能性。

        由表2所示,按照時(shí)間軸展示了知識(shí)圖譜嵌入模型近幾年的發(fā)展。同時(shí),在表3中總結(jié)了面向鏈接預(yù)測的知識(shí)圖譜嵌入模型的優(yōu)缺點(diǎn)。

        表2 知識(shí)圖譜嵌入模型

        表3 鏈接預(yù)測模型優(yōu)缺點(diǎn)總結(jié)

        2.3 翻譯模型

        翻譯模型通常使用基于距離的評分函數(shù),將三元組的合理性視為向量空間中兩個(gè)實(shí)體節(jié)點(diǎn)間的距離。翻譯模型本質(zhì)上也屬于距離模型,同樣是利用距離的評分函數(shù)來衡量事實(shí)成立的可能性。但相較于距離模型,翻譯模型最大不同點(diǎn)是將關(guān)系建模為頭實(shí)體到尾實(shí)體的翻譯向量。

        基于三元組的模型只關(guān)注實(shí)體與實(shí)體之間的一跳關(guān)系,依據(jù)知識(shí)圖譜本身的結(jié)構(gòu)化信息從三元組的視角對實(shí)體和實(shí)體之間的關(guān)系進(jìn)行建模,認(rèn)為不同事實(shí)三元組(h,r,t)之間相互獨(dú)立。通常情況下很少考慮實(shí)體與關(guān)系的語義信息,即利用圖譜的自身結(jié)構(gòu)將每個(gè)關(guān)系解釋為潛在空間中的平移,并將實(shí)體和關(guān)系表示為相同長度的一維向量。

        TransE模型是受Word2Vec[40]啟發(fā)所提出的第一個(gè)基于距離的模型,同時(shí)也是平移距離模型中最具代表性的模型。為有效捕獲知識(shí)圖譜的結(jié)構(gòu)信息,將實(shí)體和關(guān)系表示為相同語義空間中的向量形式,使得嵌入的實(shí)體h和t可以通過r以低誤差連接,即當(dāng)三元組(h,r,t)成立時(shí),有h+r≈t。TransE參數(shù)簡單訓(xùn)練效率高,但在處理N-1、1-N、N-N等復(fù)雜關(guān)系上存在著一些缺陷,缺乏對各種關(guān)系的區(qū)分策略,可能會(huì)出現(xiàn)不同實(shí)體有著同樣的含義。例如,(中國,首都,北京)和(英國,首都,倫敦)根據(jù)翻譯原則在嵌入空間中會(huì)出現(xiàn)中國-首都=英國-首都這樣的情況,但很顯然北京不等于倫敦。為了解決TransE不能很好的處理多關(guān)系實(shí)體的這一缺陷,學(xué)者們提出了一些基于TransE的變體,例如TransH、TransR等模型。表4中給出了TransE、TransH、TransR的得分函數(shù)以及參數(shù)空間類型,同時(shí)在圖3中給出了具體的圖示。

        表4 純翻譯模型相關(guān)信息

        圖3 TransE、TransH、TransR模型的嵌入

        2.4 采樣方法

        負(fù)采樣是在訓(xùn)練時(shí)從未觀察到的三元組數(shù)據(jù)中抽取負(fù)例三元組,也是知識(shí)圖譜嵌入過程中的重要步驟。為了提高空間效率,一般情況下知識(shí)圖譜中只存儲(chǔ)正樣本而不存儲(chǔ)負(fù)樣本,所以在模型訓(xùn)練期間,向模型提供負(fù)樣本是至關(guān)重要的。如果該模型只在真實(shí)樣本上進(jìn)行訓(xùn)練,那么它可以通過簡單地返回任何事實(shí)的大分?jǐn)?shù)來將所有損失降至最低,但這失去了模型訓(xùn)練的初衷。在知識(shí)圖譜嵌入過程中,否定事實(shí)的生成通常是通過負(fù)采樣來完成的,利用負(fù)采樣來最小化邊緣的排序損失,同時(shí)也體現(xiàn)了知識(shí)圖譜嵌入模型的性能在很大程度上取決于負(fù)采樣的質(zhì)量。直觀地說,利用負(fù)樣本在嵌入空間中引入排斥力,使事實(shí)三元組中不可互換的實(shí)體在嵌入時(shí)彼此遠(yuǎn)離。因此,必須選擇盡可能的訓(xùn)練生成高質(zhì)量的負(fù)樣本。隨著訓(xùn)練的進(jìn)行,為模型提供越來越接近真實(shí)事實(shí)的負(fù)樣本,學(xué)習(xí)有效的表示方法,以便更好地調(diào)整實(shí)體向量與關(guān)系向量的嵌入。

        2.4.1 隨機(jī)采樣

        隨機(jī)采樣是一種傳統(tǒng)的負(fù)采樣方法,旨在從均勻分布中隨機(jī)的選擇實(shí)體替換事實(shí)三元組的頭部或尾部實(shí)體生成負(fù)面事實(shí)。由于被采樣的實(shí)體可能與被替換實(shí)體和目標(biāo)關(guān)系完全無關(guān),所以生成的大多數(shù)負(fù)面事實(shí)很容易與正面事實(shí)區(qū)分開來,未被充分訓(xùn)練的反例又很難被選擇,導(dǎo)致隨機(jī)生成的負(fù)例三元組質(zhì)量會(huì)很差,有時(shí)也隨之會(huì)出現(xiàn)“零損失”問題[41]:當(dāng)生成的負(fù)例三元組質(zhì)量較低時(shí),模型的評分函數(shù)會(huì)給其較低的分值,這將出現(xiàn)正、負(fù)三元組分值的差大于設(shè)置的邊界值的情況,隨之的損失值也將為零。此時(shí)模型不會(huì)對實(shí)體向量與關(guān)系向量進(jìn)行更新操作,即模型在無效學(xué)習(xí),也就不能學(xué)習(xí)到更多的樣本特征,導(dǎo)致模型的訓(xùn)練程度評估出現(xiàn)偏差。如圖4所示,在訓(xùn)練初期時(shí),隨機(jī)采樣是非常有效的,此時(shí)正、負(fù)例三元組在同一裕度內(nèi)。隨著隨機(jī)采樣訓(xùn)練的進(jìn)行,即對圖中藍(lán)色圓中的三元組進(jìn)行采樣,此時(shí)這些三元組對于模型訓(xùn)練毫無意義。這是因?yàn)檫@些三元組超出了邊界不在同一裕度內(nèi),也就不會(huì)給模型帶來任何的損失甚至減慢了模型收斂的速度。因此,在邊距內(nèi)忽略一定數(shù)量的負(fù)三元組(如黑色虛線圓圈所示)可提高模型訓(xùn)練效率。

        圖4 模型訓(xùn)練零損失狀態(tài)

        2.4.2 過濾采樣

        過濾采樣是基于隨機(jī)采樣的一種采樣方法,只是在隨機(jī)采樣的過程中加入了過濾機(jī)制。通常情況下隨機(jī)采樣會(huì)出現(xiàn)假陰性負(fù)例三元組樣本,即有可能為正例三元組或者在數(shù)據(jù)集中曾出現(xiàn)過的三元組。當(dāng)一些損壞的三元組最終成為有效的三元組時(shí),很明顯這會(huì)影響模型的表征能力與性能。在這種情況下,當(dāng)對所有三元組打分排名時(shí),會(huì)出現(xiàn)假陰性樣本排在測試三元組之上的情況,這并不是因?yàn)槟P蛯W(xué)習(xí)效果不好,因?yàn)榇藭r(shí)兩個(gè)三元組都為真實(shí)實(shí)例。為了避免這種誤導(dǎo)行為,在排名之前,過濾采樣會(huì)從損壞的三元組列表中刪除曾出現(xiàn)在實(shí)驗(yàn)數(shù)據(jù)集中的所有三元組,保證所有損壞的三元組全部為真正的負(fù)樣本。

        2.4.3 伯努利采樣

        2.4.4 對抗生成采樣

        受生成對抗性深度模型[43]的啟發(fā),提出了對抗生成采樣[44]這一對抗學(xué)習(xí)框架,其提供了對動(dòng)態(tài)負(fù)樣本分布進(jìn)行建模的采樣策略,旨在提高模型訓(xùn)練時(shí)負(fù)例三元組的質(zhì)量。將基于不同損失函數(shù)的嵌入模型作為生成器和鑒別器,分別用來生成高質(zhì)量的負(fù)例三元組和訓(xùn)練具有高表征能力的模型。如圖5所示,發(fā)生器用于訓(xùn)練原始模型,隨后通過基于概率的對數(shù)似然損失函數(shù)的生成器最大化鑒別器對其動(dòng)作的響應(yīng),動(dòng)態(tài)地估計(jì)負(fù)樣本分布,通過高質(zhì)量的負(fù)例三元組來改進(jìn)知識(shí)圖譜嵌入模型。對候選三元組上的概率分布進(jìn)行計(jì)算采樣,并通過源于強(qiáng)化學(xué)習(xí)的策略梯度最小化生成的負(fù)例三元組的得分?;诰嚯x的邊緣損失函數(shù)的鑒別器將接收到正負(fù)樣本三元組加以區(qū)分,并采用優(yōu)化函數(shù)來最小化邊緣損失。通過對分?jǐn)?shù)較大的負(fù)例三元組進(jìn)行采樣,避免了梯度消失的問題。整個(gè)模型框架通過不斷地訓(xùn)練模型,最終產(chǎn)生一個(gè)更好的鑒別器,從而獲得更好的性能。

        圖5 對抗生成采樣框架

        3 典型智能應(yīng)用場景

        知識(shí)圖譜技術(shù)最早被Goole公司提出并應(yīng)用到其搜索引擎技術(shù)中,從而使搜索引擎具備了查詢理解的能力。從字面匹配到概念理解,可更好的理解用戶的真實(shí)想法為用戶服務(wù),讓用戶獲得與搜索關(guān)鍵字最相關(guān)的詞條鏈接以及獲得與關(guān)鍵字更加智能化的信息,返回用戶最希望的結(jié)果。如圖6所示,當(dāng)在搜索引擎中搜索《西游記》作者時(shí),搜索引擎會(huì)將查詢關(guān)鍵字理解現(xiàn)實(shí)世界中的概念和事物,然后搜索引擎根據(jù)“《西游記》”,“作者”兩個(gè)實(shí)體來理解用戶的意圖,同時(shí)返回問題的答案和與搜索實(shí)體相關(guān)的其他實(shí)體。

        圖6 百度搜索界面

        人工智能的卓越發(fā)展使得知識(shí)圖譜向量化表示得到了快速的發(fā)展。相較于傳統(tǒng)one-hot編碼的大維度、編碼稀疏,無法體現(xiàn)實(shí)體間關(guān)系的遠(yuǎn)近程度,而嵌入技術(shù)可將實(shí)體和關(guān)系表示為向量的形式,更利于各種推理計(jì)算,同時(shí)節(jié)省了空間與模型訓(xùn)練時(shí)間。知識(shí)圖譜在知識(shí)推理以及多源異質(zhì)知識(shí)的整合提取方面顯得尤為重要,通過學(xué)習(xí)知識(shí)圖譜中已有事實(shí)三元組實(shí)體之間的語義關(guān)聯(lián)進(jìn)而推理出新的事實(shí)并將其添加到圖譜中,促進(jìn)了人工智能及其應(yīng)用的發(fā)展[45]。

        如圖7所示,通過相似實(shí)體在同一空間中相互靠近的原則,只需要分析Adam Ant周圍的實(shí)體便可推知他的職業(yè)以及其他的一些信息。即,在Adam Ant的周圍相近的實(shí)體都是與音樂有關(guān)聯(lián)的實(shí)體,則可推理出此人的職業(yè)必定與音樂有關(guān)。此外,為下游關(guān)系抽取、智能問答、信息檢索、個(gè)性化智能推薦等任務(wù)發(fā)揮了必不可少的樞紐作用。例如,Apple的Siri、百度的小度、微軟的Cortana等智能聊天機(jī)器人可以處理客戶的請求或?yàn)橛脩籼峁椭亩鴰椭脩敉扑]附近的餐廳,回答簡單的事實(shí)問題,或者管理日歷活動(dòng)等一系列日常任務(wù)。

        圖7 FB15K中實(shí)體及其鄰居節(jié)點(diǎn)

        由表5所示,從智能問答、系統(tǒng)推薦、信息檢索以及醫(yī)藥應(yīng)用四個(gè)方面總結(jié)了當(dāng)前知識(shí)圖譜嵌入技術(shù)的典型應(yīng)用案例[46-60]。

        表5 知識(shí)圖譜嵌入模型應(yīng)用案例總結(jié)

        4 結(jié)束語

        在近十年間,知識(shí)表示學(xué)習(xí)有了很大的發(fā)展,同時(shí)也提出了許多基于知識(shí)表示學(xué)習(xí)的方法。本文介紹了知識(shí)圖譜的概念性知識(shí),包括系統(tǒng)地討論了知識(shí)圖譜鏈接預(yù)測的研究現(xiàn)狀、框架分析以及當(dāng)前典型的應(yīng)用場景。面向鏈接預(yù)測的知識(shí)圖譜嵌入模型旨在提高知識(shí)圖譜鏈接預(yù)測準(zhǔn)確率,增強(qiáng)嵌入模型的表達(dá)性。同時(shí),大規(guī)模知識(shí)圖譜具有重要的人工智能應(yīng)用前景。例如,在軍事應(yīng)用方面構(gòu)建軍用無人系統(tǒng)領(lǐng)域故障知識(shí)圖譜用以智能搜索以及輔助決策;在目標(biāo)檢測控制系統(tǒng)中引入知識(shí)圖譜用以多目標(biāo)的關(guān)聯(lián)判別;在航空航天方面,利用知識(shí)圖譜設(shè)計(jì)雷達(dá)場景識(shí)別系統(tǒng)用以空間目標(biāo)的場景識(shí)別。在未來研究中,應(yīng)注重對面向鏈接預(yù)測的知識(shí)圖譜嵌入模型的研究,更好的進(jìn)行大規(guī)模知識(shí)圖譜補(bǔ)全,從而促進(jìn)人工智能應(yīng)用的發(fā)展。

        猜你喜歡
        三元組圖譜實(shí)體
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對接你思維的知識(shí)圖譜
        丰满人妻被持续侵犯中出在线| a毛片全部免费播放| 日本不卡一区二区高清中文| 国产成人亚洲综合二区| 久久人妻av无码中文专区| 97精品一区二区视频在线观看| 啪啪免费网站| 久久精品这里就是精品| 亚洲中文字幕久久精品一区| 青春草在线视频免费观看| 911精品国产91久久久久| 亚洲国产av一区二区三| 成人久久黑人中出内射青草| 国产乱人激情h在线观看| 国产精美视频| 少妇被搞高潮在线免费观看| 亚洲一区二区三区综合免费在线| 丁字裤少妇露黑毛| 亚洲伊人久久大香线蕉影院| 日韩精品少妇专区人妻系列| 草逼短视频免费看m3u8| 精品无码日韩一区二区三区不卡 | 久久午夜伦鲁鲁片免费| 国产乱人精品视频av麻豆网站| 粗大猛烈进出白浆视频| 久久青草伊人精品| 一区二区三区人妻在线| 新婚人妻不戴套国产精品| 人妻影音先锋啪啪av资源| 黄 色 成 年 人 网 站免费| 在线观看一区二区中文字幕| 国产高跟黑色丝袜在线| 精品十八禁免费观看| 日本在线观看一区二区三区视频| 强开小婷嫩苞又嫩又紧视频| 亚洲aⅴ无码成人网站国产app| 欧美成人网视频| 国产剧情一区二区三区在线 | 亚洲一区二区三区免费av在线| 男女啪啪视频高清视频| 欧美一区二区三区激情|