知識圖譜推理：現(xiàn)代的方法與應(yīng)用

2021-06-09 13:20:24王文廣

大數(shù)據(jù) 2021年3期

王文廣

達(dá)而觀信息科技（上海）有限公司，上海 201203

1 引言

近年來，知識圖譜技術(shù)得到極大的發(fā)展，大量的知識圖譜被構(gòu)建出來，并被廣泛應(yīng)用在各種場景下。從語義解析、實(shí)體消歧、信息抽取、智能問答、推薦系統(tǒng)、個(gè)性化搜索等技術(shù)方向到金融、軍工、制造業(yè)、生物醫(yī)藥等行業(yè)，都可以看到知識圖譜的應(yīng)用，同時(shí)知識圖譜的應(yīng)用也在促進(jìn)知識圖譜技術(shù)的發(fā)展。

知識圖譜是事實(shí)或知識的結(jié)構(gòu)化表示，是由實(shí)體和實(shí)體間的關(guān)系組成的網(wǎng)狀結(jié)構(gòu)。實(shí)體是指獨(dú)立的、擁有清晰特征的、能夠區(qū)別于其他事物的事物。在知識圖譜中，用來描述這些事物的信息即實(shí)體。實(shí)體在屬性圖中用頂點(diǎn)來表示，實(shí)體關(guān)聯(lián)的類型即實(shí)體類型，在屬性圖中用頂點(diǎn)標(biāo)簽來表示。關(guān)系表達(dá)了兩個(gè)實(shí)體之間的某種語義關(guān)系，通常以語義標(biāo)簽來表示，在屬性圖中表示為有向的邊。也就是說，知識圖譜G由一系列的三元組組成，其中h和t分別表示頭實(shí)體和尾實(shí)體，r表示由h到t的有向關(guān)系。

推理是一種人類邏輯思維，讓機(jī)器能夠像人類一樣擁有推理能力一直是人工智能發(fā)展的目標(biāo)。符號推理和專家系統(tǒng)是早期的嘗試，在知識圖譜被提出和發(fā)展起來之后，基于知識圖譜的推理技術(shù)[1-2]也隨之發(fā)展，并成為人工智能中非常熱門的領(lǐng)域之一，也被認(rèn)為是人工智能邁向具備和人類一樣的推理和決策能力的關(guān)鍵技術(shù)。

在知識圖譜推理中，知識圖譜本身提供了人類知識和經(jīng)驗(yàn)的總結(jié)，推理技術(shù)則實(shí)現(xiàn)了基于知識圖譜中已有的知識來發(fā)現(xiàn)潛在的、未知的知識，極大地?cái)U(kuò)展了諸如知識問答、個(gè)性化搜索和智能推薦等能力。同時(shí)，在行業(yè)應(yīng)用中，將領(lǐng)域知識圖譜和推理技術(shù)結(jié)合，從而實(shí)現(xiàn)輔助分析和決策支持。

本文給出了知識推理的定義，并介紹了知識圖譜推理技術(shù)；然后分別介紹了現(xiàn)代的基于幾何運(yùn)算和基于深度學(xué)習(xí)的知識圖譜推理技術(shù)，并分別從技術(shù)領(lǐng)域和行業(yè)領(lǐng)域兩個(gè)角度介紹了知識圖譜推理技術(shù)的應(yīng)用；最后給出了知識圖譜推理存在的挑戰(zhàn)以及值得關(guān)注的研究方向。

2 知識圖譜推理

知識圖譜推理旨在從已有的知識中發(fā)現(xiàn)新的知識。對于知識圖譜來說，新的知識可以分為兩種：新的實(shí)體和新的關(guān)系。新的實(shí)體涉及的技術(shù)領(lǐng)域通常是實(shí)體抽取、實(shí)體消歧、實(shí)體融合等相關(guān)的自然語言處理或知識圖譜技術(shù)。新的關(guān)系涉及的技術(shù)領(lǐng)域則有關(guān)系抽取和知識推理等。知識圖譜推理，或稱知識推理，指在既定的知識圖譜中通過推理技術(shù)推導(dǎo)出實(shí)體間潛在的或者新的關(guān)系，發(fā)現(xiàn)新的知識。在圖數(shù)據(jù)庫、圖論等相關(guān)領(lǐng)域往往又被稱為鏈接預(yù)測。

知識圖譜推理技術(shù)是伴隨著人工智能、自然語言處理、語義網(wǎng)等技術(shù)發(fā)展起來的。早期有基于規(guī)則的方法，著名知識圖譜NE LL[3]利用手寫規(guī)則的推理方法來不斷擴(kuò)充規(guī)模。一階邏輯（first order logic，F(xiàn)OL）是早期的一種符號推理系統(tǒng)，也被用于知識圖譜推理[4]。針對手寫規(guī)則煩瑣的問題，可采用將規(guī)則與統(tǒng)計(jì)學(xué)習(xí)結(jié)合的馬爾可夫邏輯網(wǎng)（Markov logic network，M LN）[5-7]，MLN是經(jīng)典的推理方法。知識圖譜的層次結(jié)構(gòu)和邏輯結(jié)構(gòu)往往被表示為本體（ontology）或模式（schema），基于本體的推理方法是知識圖譜推理的經(jīng)典方法之一，也是現(xiàn)實(shí)應(yīng)用中很有意義的方法[8]。隨機(jī)游走（random walk）是概率統(tǒng)計(jì)中經(jīng)典的隨機(jī)過程，將其應(yīng)用于知識圖譜推理中產(chǎn)生了著名的路徑排序算法（path ranking algorith m，PRA）[9]及其與深度強(qiáng)化學(xué)習(xí)結(jié)合的深度路徑（deep path）方法[10]。近年來，隨著以深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)的蓬勃發(fā)展，將知識圖譜嵌入低維空間的方法逐漸成為主流，TransE[11]是其中的先鋒。

本文關(guān)注的知識圖譜推理方法是從TransE開始的，它源自自然語言處理領(lǐng)域的word2vec[12]，是當(dāng)前效果最好的、主流的、契合深度學(xué)習(xí)潮流的方法，也被稱為現(xiàn)代的方法。這類方法可學(xué)習(xí)出知識圖譜的稠密向量表示，是知識圖譜領(lǐng)域的表示學(xué)習(xí)。對于學(xué)習(xí)出的稠密向量，既可以直接進(jìn)行推理應(yīng)用，也便于使用各種深度學(xué)習(xí)模型和算法來實(shí)現(xiàn)下游任務(wù)，如知識問答或輔助決策等。

知識圖譜G={}?E×R×E，其中E為實(shí)體集合，h、t∈E；R為關(guān)系集合，r∈R?，F(xiàn)代知識圖譜推理方法的目標(biāo)是通過定義一個(gè)打分函數(shù)fr(h,t)來學(xué)習(xí)出表示實(shí)體和關(guān)系的向量，，如式（1）所示，其中→表示映射：

對于符合知識圖譜的正樣本來說，期望打分函數(shù)計(jì)算出的分?jǐn)?shù)無限接近于0。其中，de和dr表示實(shí)體和關(guān)系向量的維度，在大多數(shù)模型中，d=de=dr。在進(jìn)行知識圖譜推理時(shí)，對于任意給定的實(shí)體對，遍歷知識圖譜中的關(guān)系r∈R，并計(jì)算的分?jǐn)?shù)，若低于某個(gè)閾值，則表示h和t之間存在關(guān)系r。在某些時(shí)候需要從中推斷t，此時(shí)可以遍歷所有的實(shí)體t∈E，使用式（1）來計(jì)算分?jǐn)?shù)，若分?jǐn)?shù)低于某個(gè)閾值，則表明實(shí)體h在關(guān)系r的作用下，得到了實(shí)體t。本文使用式（1）所表示的模型框架來介紹各種現(xiàn)代的知識推理方法。

3 基于幾何運(yùn)算的方法

基于幾何運(yùn)算的模型是從word2vec延伸出來的，將知識圖譜通過平移或旋轉(zhuǎn)等幾何運(yùn)算嵌入低維的幾何空間中（通常是歐幾里得空間，也可以是雙曲空間等）。其中平移表現(xiàn)為向量加法，旋轉(zhuǎn)表現(xiàn)為哈達(dá)瑪積（Hadamard product），嵌入則是一個(gè)數(shù)學(xué)中與流形相關(guān)的概念，表達(dá)一個(gè)數(shù)學(xué)結(jié)構(gòu)的實(shí)例通過映射包含到另一個(gè)實(shí)例中。

將知識圖譜嵌入幾何空間時(shí)，解決知識圖譜中不同特點(diǎn)的關(guān)系的推理問題，從而推進(jìn)基于幾何運(yùn)算的方法的發(fā)展，這些特點(diǎn)包括一對一、一對多、多對一、多對多[13]、對稱性（symmetry）、反對稱性（anti-symmetry）、反向性（inversion）和組合性（c omposition）[14]等。

3.1 歐幾里得空間嵌入

知識圖譜推理的現(xiàn)代方法的雛形是word2vec，并從TransE模型開始逐漸發(fā)展起來。圖1表示了word2vec模型學(xué)習(xí)出來的詞向量滿足w廣東省-w廣州市=w浙江省-w杭州市，其隱含的關(guān)系“省會”（圖1中虛線）沒有被明確表示出來。TransE將word2vec中隱含的關(guān)系用向量明確地表示出來，并應(yīng)用到知識圖譜中。

基于幾何運(yùn)算的知識圖譜推理在TransE[11]的基礎(chǔ)上持續(xù)發(fā)展。TransE把實(shí)體間的關(guān)系用向量明確地表示出來，并用幾何平移來解釋實(shí)體間的關(guān)系，如圖2（a）所示。繼TransE后大量平移或旋轉(zhuǎn)的方法被提出來，這些方法和TransE一樣使用歐氏距離來計(jì)算打分函數(shù)，使用基于能量的方法來定義損失函數(shù)，并用隨機(jī)梯度下降來優(yōu)化模型。

TransE將實(shí)體和關(guān)系嵌入同一個(gè)空間中，并定義打分函數(shù)為：

其中，||·||2表示L2范數(shù)（L2 norm）。TransE模型對僅有一對一關(guān)系的知識圖譜非常友好，能夠?qū)W習(xí)出各種具有反對稱性、反向性和組合性的關(guān)系。其結(jié)構(gòu)簡單、運(yùn)算量小，是某些現(xiàn)實(shí)場景的首選方法。

TransH[13]拓展了TransE模型，為每個(gè)關(guān)系學(xué)習(xí)嵌入空間的一個(gè)超平面Wr(||Wr||=1），并將三元組解釋為實(shí)體在關(guān)系超平面上的平移變換。如圖2（b）所示，TransH先將實(shí)體向量h和t映射到關(guān)系超平面Wr上，得到和，并將關(guān)系表示為超平面上的平移變換，即向量加法。由此TransH的打分函數(shù)為：

TransH模型通過關(guān)系特定的超平面，實(shí)現(xiàn)了自反、一對多、多對一和多對多的嵌入表示。TransR模型[15]將實(shí)體和關(guān)系分別嵌入不同的幾何空間，使得相同的實(shí)體在不同的關(guān)系下能夠表示不同的語義，進(jìn)一步增強(qiáng)了知識圖譜的推理能力。如圖2（c）所示，TransR通過映射矩陣將實(shí)體向量h、t映射到關(guān)系空間得到和，并在關(guān)系空間進(jìn)行平移變換，即。由此，將TransR的打分函數(shù)定義為：

圖1 word2vec的示例

圖2 基于歐幾里得空間的平移運(yùn)算的知識圖譜推理模型

TransD模型[16]用實(shí)體映射向量和關(guān)系映射向量來構(gòu)造映射矩陣和（I表示單位矩陣），并代替TransR中的映射矩陣Mr，使得模型能夠表達(dá)實(shí)體在不同關(guān)系中潛在的多個(gè)語義關(guān)系。由于向量乘法效率高于矩陣乘法，將TransD模型應(yīng)用于大規(guī)模知識圖譜中具有計(jì)算效率上的優(yōu)勢。類似地，TransD的打分函數(shù)為：

圖2（d）直觀地表示了TransD的模型。從圖2和式（2）～式（5）可以看出，TransE、TransH、TransR和TransD 4個(gè)模型一脈相承，都是用歐幾里得空間中的平移來解釋實(shí)體間的關(guān)系，并用歐氏距離來表示分?jǐn)?shù)。進(jìn)一步地，TransG模型[17]對這一模式進(jìn)行了泛化建模，并用貝葉斯參數(shù)無限混合模型（Bayesian non-parametric infini te mixture model）[18]和中國餐館過程（Chinese restaurant process，CRP）來解決關(guān)系的多語義表達(dá)問題。

TransG的打分函數(shù)是：

總體來說，TransG模型能夠表示關(guān)系的多種語義。對其進(jìn)行主成分（primary component）分析可知，TransE模型是TransG模型針對主成分的特例，而TransG則是TransE的泛化，圖3展示了兩個(gè)模型。

旋轉(zhuǎn)和平移一樣是幾何空間的基本操作，RotatE[14]使用旋轉(zhuǎn)代替平移對關(guān)系進(jìn)行建模，圖4展示了RotatE與TransE的區(qū)別。同時(shí)，為了表達(dá)旋轉(zhuǎn)，實(shí)體和關(guān)系的嵌入向量從實(shí)數(shù)擴(kuò)展到復(fù)數(shù)向量空間。旋轉(zhuǎn)在復(fù)向量空間的運(yùn)算表示為向量的哈達(dá)瑪積，即每個(gè)元素分別相乘的運(yùn)算，這個(gè)與平移操作的加法是類似的。對于，RotatE將實(shí)體和關(guān)系嵌入復(fù)向量空間，并定義打分函數(shù)為：

其中，〇表示哈達(dá)瑪積，模型將向量限制在單位圓中，并解釋為逆時(shí)針的旋轉(zhuǎn)，作用于復(fù)向量的相位部分。與平移的方法相比，RotatE能更加高效地實(shí)現(xiàn)對稱和反對稱、反向和組合這些關(guān)系類型的建模。例如，可以表示關(guān)系r是對稱的，r1和r2是共軛的，可以表示兩個(gè)關(guān)系r1和r2是反向的，r3=r1〇r2可以表示r3是r1和r2的組合。RotatE對具有如上特點(diǎn)的知識圖譜推理能夠事半功倍。

3.2 雙曲空間嵌入

雙曲空間（hyperbolic space）是具有常數(shù)負(fù)曲率的齊次空間，而歐幾里得空間則是零曲率的。雙曲幾何提供了高效的方法來學(xué)習(xí)層次數(shù)據(jù)的低維嵌入，特別地，僅僅用二維的雙曲空間就能夠以任意低的失真度嵌入樹形數(shù)據(jù)[19]。也就是說，將類似知識圖譜這樣具有豐富層次結(jié)構(gòu)的數(shù)據(jù)嵌入雙曲空間中，比嵌入歐幾里得空間更加高效。

雙曲空間嵌入通常使用d維龐加萊球來表示，其中d表示龐加萊球的維度，-c表示曲率。龐加萊球的原點(diǎn)所對應(yīng)的切線空間是從原點(diǎn)離開的有可能路徑的方向的d維向量空間。切線空間到的映射通過指數(shù)映射（exponential map)實(shí)現(xiàn)，而從到則通過對數(shù)映射（logarithmic map）實(shí)現(xiàn)[20]，這里的0表示原點(diǎn)：

在雙曲空間中，向量x、y的加法通過莫比烏斯加法⊕c實(shí)現(xiàn)，向量y和矩陣M的乘法通過莫比烏斯矩陣-向量乘法?c實(shí)現(xiàn)，分別定義如下：

在雙曲空間中，三元組對應(yīng)的d維向量，其中c表示雙曲空間的曲率。和歐幾里得空間一樣，模型通過打分函數(shù)來實(shí)現(xiàn)知識圖譜推理。

MuRP[23]模型采用曲率為-1的龐加萊球模型（c=1）對圖譜的實(shí)體關(guān)系進(jìn)行建模，使用式（11），類似TransE，MuRP的打分函數(shù)定義為：

雙曲嵌入與歐幾里得空間嵌入不同的是，模型會為每個(gè)實(shí)體額外學(xué)習(xí)一個(gè)偏置b，b表示實(shí)體在雙曲空間中的影響范圍，圖5是MuRP模型的幾何直觀解釋。即頭實(shí)體h和尾實(shí)體t經(jīng)過同一關(guān)系r調(diào)整為雙曲空間的兩個(gè)球體，如果存在重疊，則表示成立，反之則表示h和t不存在關(guān)系r。

圖3 TransG和TransE對關(guān)系r進(jìn)行不同表達(dá)，在TransE中只能學(xué)習(xí)出一種向量表示r，而TransG能夠?qū)W習(xí)出有細(xì)微語義差別的4個(gè)關(guān)系向量r1、r2、r3和r4

圖4 RotatE和TransE模型的比較

圖5 MuRP模型的幾何直觀解釋

和MuRP使用平移來建模實(shí)體間的關(guān)系不同，ATTH[24]模型使用吉文斯變換表示旋轉(zhuǎn)和反射，從而捕捉不同語義的關(guān)系，并使用雙曲注意力機(jī)制來融合幾何運(yùn)算，同時(shí)歸納出更為復(fù)雜的邏輯模式。此外，考慮到不同關(guān)系蘊(yùn)含的語義信息不一樣，ATTH采用可學(xué)習(xí)的變量為不同的關(guān)系自動學(xué)習(xí)出最佳的曲率cr。

類似TransR、TransD定義出雙曲空間中的旋轉(zhuǎn)運(yùn)算和反射運(yùn)算，這里的和是由關(guān)系特定的參數(shù)和構(gòu)造的塊對角矩陣，其中，是2×2的吉文斯變換矩陣。

ATTH模型中注意力機(jī)制是在龐加萊球的切線空間（一種歐幾里得空間）中進(jìn)行的。通過式（8）的對數(shù)映射將雙曲空間嵌入向量和映射到切線空間和，并計(jì)算注意力得分和（a是注意力機(jī)制的環(huán)境參數(shù)），然后通過式（8）映射回雙曲空間，得到頭實(shí)體經(jīng)過關(guān)系調(diào)整后的向量。最后類似MuRP，ATTH的打分函數(shù)定義為：

4 基于深度學(xué)習(xí)的方法

近年來，深度學(xué)習(xí)被廣泛地應(yīng)用在計(jì)算機(jī)視覺、圖像處理、語音識別和自然語言處理等人工智能領(lǐng)域。同樣地，深度學(xué)習(xí)也被應(yīng)用于知識圖譜推理，本文介紹了主流的和應(yīng)用非常廣泛的若干方法。

首先介紹基于深度學(xué)習(xí)的知識圖譜推理方法，然后將相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成打分函數(shù)。深度神經(jīng)網(wǎng)絡(luò)更加復(fù)雜，且包含了大量的非線性運(yùn)算，從而能夠?qū)W到更多的特征，但也因此存在“黑盒”的不直觀問題，影響了推理的解釋性。

4.1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)將卷積應(yīng)用于神經(jīng)網(wǎng)絡(luò)，通過局部感知、參數(shù)共享等特點(diǎn)，實(shí)現(xiàn)了深層的特征學(xué)習(xí)，成為深度學(xué)習(xí)中非常重要的網(wǎng)絡(luò)之一。ConvE[25]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理，其網(wǎng)絡(luò)結(jié)構(gòu)如圖6（a）所示，打分函數(shù)定義為：

ConvE模型通常使用小的濾波器進(jìn)行卷積，這樣實(shí)體和關(guān)系間的交互僅在二維矩陣和的拼接處，能夠很好地被學(xué)習(xí)，而遠(yuǎn)離拼接處的特征則較少被學(xué)習(xí)。ConvR[26]將關(guān)系轉(zhuǎn)化為濾波器來對實(shí)體向量進(jìn)行卷積運(yùn)算，從而獲得更好的實(shí)體-關(guān)系間交互的特征表達(dá)。通過比較圖6（a）和圖6（b），可以直觀地理解ConvE和ConvR的異同，并理解各自的特點(diǎn)和優(yōu)劣。類似地，ConvR的打分函數(shù)為：

圖6 深度卷積網(wǎng)絡(luò)用于知識圖譜推理的Co nvE和ConvR模型

4.2 膠囊網(wǎng)絡(luò)模型

CapsE[27]是將膠囊網(wǎng)絡(luò)（capsule network，CapsNet）[28]用于知識圖譜推理的一種模型。其基本原理是將三元組的3個(gè)嵌入向量組裝成3列的矩陣，用卷積網(wǎng)絡(luò)來學(xué)習(xí)出相應(yīng)的特征，并通過兩層的膠囊網(wǎng)絡(luò)為三元組打分。CapsE模型如圖7所示，由于濾波器同時(shí)作用于h、r、t，因此可以捕捉到更多的特征。其打分函數(shù)為：

圖7 膠囊網(wǎng)絡(luò)用于知識圖譜推理的CapsE模型

其中，capsnet表示膠囊網(wǎng)絡(luò)，Ω表示n個(gè)濾波器，濾波器ω作用于輸入矩陣，形成n個(gè)d×1維的特征圖。特征圖被封裝成第一個(gè)膠囊層的d個(gè)膠囊，通過路由過程路由到第二個(gè)膠囊層后生成連續(xù)的輸出向量e，輸出向量的L1范數(shù)||e||就是得分。

路由過程[28]在第一個(gè)膠囊層的（是權(quán)重矩陣，ci是耦合系數(shù)）和第二膠囊層的非線性壓扁中迭代m次（參考文獻(xiàn)[27]研究了m的數(shù)值，并斷定m=1時(shí)效果最佳）。

4.3 圖神經(jīng)網(wǎng)絡(luò)模型

圖神經(jīng)網(wǎng)絡(luò)是將深度學(xué)習(xí)技術(shù)應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的方法，是最近人工智能中非常熱門的研究領(lǐng)域之一。圖神經(jīng)網(wǎng)絡(luò)天然地適用于知識圖譜推理。關(guān)系圖卷積網(wǎng)絡(luò)（relational gr aph convolutional network，R-GCN）[29]是較早對關(guān)系進(jìn)行建模實(shí)現(xiàn)知識圖譜推理的圖自編碼器模型。R-GCN模型的每一層都使用了圖8和式（17）所示的傳播模型來編碼知識圖譜：

圖8 R-GCN的傳播模型，也是R-GCN的“層”

其中，e(l)和e(l+1)分別表示知識圖譜的實(shí)體e在R-GCN中的l層和l+1層的向量。Er表示與實(shí)體e具有關(guān)系r的所有鄰接實(shí)體的集合，區(qū)分入邊和出邊。R表示知識圖譜中所有關(guān)系的集合。表示l層中實(shí)體自身的相關(guān)參數(shù)（自連接），其目的是給l+1層傳播實(shí)體自身的信息。則是與關(guān)系r相關(guān)的參數(shù)。rc是歸一化參數(shù)，可以隨模型學(xué)習(xí)，或者提前設(shè)定。R-GCN傳播模型可被直觀地理解為依據(jù)每一個(gè)關(guān)系對鄰接節(jié)點(diǎn)的信息進(jìn)行學(xué)習(xí)，進(jìn)而表示實(shí)體。

而塊對角分解的定義為：

R-GCN模型堆疊了L層式（17）作為編碼器，并使用DistMult[30]作為解碼器，從而其打分函數(shù)為：

RGHAT[31]是一種通過加入兩層注意力來進(jìn)一步改善關(guān)系圖神經(jīng)網(wǎng)絡(luò)的效果的知識圖譜推理方法。ATTH[24]使用注意力機(jī)制自動歸納出知識圖譜的邏輯結(jié)構(gòu)，而RGHAT使用兩層注意力分別歸納實(shí)體和同一關(guān)系下鄰接實(shí)體的特征，其模型如圖9所示，其中關(guān)系層注意力表達(dá)了不同關(guān)系對實(shí)體的影響權(quán)重：

實(shí)體層注意力則表達(dá)了同一關(guān)系的鄰接實(shí)體的影響權(quán)重：

5 知識推理應(yīng)用

5.1 知識圖譜補(bǔ)全

知識圖譜普遍存在知識缺失的事實(shí)，也就是知識圖譜的不完備性。如圖10所示，實(shí)線部分是知識圖譜存在的關(guān)系，比如<張三,出生于,廈門市>和<張三,任職于,甲公司>等，而虛線部分是知識圖譜中缺失的，比如<張三,工作于,上海市>和<張三,出生于,中國>等。知識圖譜補(bǔ)全（knowledge graph completion）的目標(biāo)是發(fā)現(xiàn)這些缺失的知識，并將其補(bǔ)充到知識圖譜中，使得知識圖譜趨向完備。

知識圖譜補(bǔ)全是知識推理應(yīng)用最多的領(lǐng)域，大量的知識圖譜推理算法被提出來的初衷就是應(yīng)用于知識圖譜補(bǔ)全，如MLN[7]、TransR[15]、CapsE[27]、RGHAT[31]等。前面提到的所有方法都可以通過在向量空間的推理來斷定任意實(shí)體間是否存在某種關(guān)系，進(jìn)而實(shí)現(xiàn)知識圖譜的補(bǔ)全。

圖9 RGHAT模型的網(wǎng)絡(luò)結(jié)構(gòu)

圖10 知識圖譜的不完備性

5.2 知識問答

問答（question answering，QA）系統(tǒng)是自然語言處理領(lǐng)域一個(gè)重要的發(fā)展方向，其目標(biāo)是通過自然語言的方式來獲取知識。在很多真實(shí)應(yīng)用場景下，基于知識圖譜的問答系統(tǒng)能夠帶來極大的知識獲取的便利性。但除了簡單地從知識圖譜中檢索實(shí)體，更多的問題要求問答系統(tǒng)具有知識推理的能力[32-33]。本文介紹的知識推理方法都可以用于基于知識圖譜的知識問答系統(tǒng)中，用來回答復(fù)雜的問題，提升結(jié)果的準(zhǔn)確性、完備性等[34-35]。

除了將知識圖譜嵌入通用的知識問答系統(tǒng)，也可將知識推理等技術(shù)直接應(yīng)用于問答系統(tǒng)來解決特定的問題。比如用R-GCN來建模多輪對話問答系統(tǒng)的對話結(jié)構(gòu)和背景知識[36]?；谥R圖譜嵌入的問答系統(tǒng)正在興起，比如將TransE向量空間與搜索技術(shù)結(jié)合，實(shí)現(xiàn)了基于知識圖譜嵌入的問答系統(tǒng)[37]。

隨著現(xiàn)代知識圖譜推理方法的研究逐漸深入，知識問答的效果也持續(xù)改善，同時(shí)將上述這些知識推理技術(shù)和問答技術(shù)結(jié)合用于解決特定問題的方法也在興起。

5.3 推薦系統(tǒng)

推薦系統(tǒng)是隨著互聯(lián)網(wǎng)的發(fā)展、信息的極大豐富而興起的技術(shù)，旨在理解用戶并主動給用戶推薦信息。隨著知識圖譜技術(shù)的發(fā)展，將知識圖譜和推薦系統(tǒng)全方位地結(jié)合，從而更深入地理解用戶，更好地匹配用戶需求，同時(shí)提供更強(qiáng)的解釋性。

在理解用戶方面，知識圖譜能夠?qū)τ脩糁g的網(wǎng)狀關(guān)系進(jìn)行建模，通過購買同一件商品、看過同一個(gè)視頻、對同一條信息點(diǎn)贊等用戶行為構(gòu)建行為圖譜，并利用知識圖譜推理技術(shù)推斷用戶間的關(guān)系，挖掘潛在的深度需求，配合協(xié)同過濾等推薦技術(shù)來改善推薦的效果。參考文獻(xiàn)[38]利用知識圖譜來豐富用戶信息，并使用R-GCN對關(guān)系和結(jié)構(gòu)建模推理，從而更好地理解用戶。推薦的內(nèi)容（如商品、信息、知識、人物等）同樣可以通過各種關(guān)系來構(gòu) 建知識圖譜，使用推理技術(shù)來挖掘潛在特征，推斷潛在關(guān)系，增強(qiáng)對推薦內(nèi)容的理解，改善推薦效果。參考文獻(xiàn)[39]嘗試使用TransR[15]來建模結(jié)構(gòu)化的推薦內(nèi)容，以提升推薦效果。在此之上，推薦本身可以看成用戶- 推薦內(nèi)容之間的復(fù)雜的網(wǎng)狀關(guān)系，由此可應(yīng)用知識圖譜推理技術(shù)來直接實(shí)現(xiàn)推薦。KGAT[40]結(jié)合TransR[15]和深度學(xué)習(xí)實(shí)現(xiàn)了知識圖譜注意力網(wǎng)絡(luò)的推薦方法。

隨著知識圖譜和知識推理技術(shù)的進(jìn)一步發(fā)展和成熟，各種現(xiàn)代的知識推理方法在推薦領(lǐng)域的應(yīng)用也會越來越多，并逐漸成為主流。

5.4 個(gè)性化搜索

個(gè)性化搜索是充分利用搜索和點(diǎn)擊等歷史行為記錄和用戶本身的信息來實(shí)現(xiàn)個(gè)性化的搜索，返回更加匹配用戶的結(jié)果。比如同樣搜索“蘋果”，果農(nóng)和電子產(chǎn)品愛好者對搜索結(jié)果的期望是不同的；而搜索“天氣預(yù)報(bào)”，在上海的人和在北京的人對搜索結(jié)果的期望也是不一樣的。個(gè)性化搜索是致力于解決這類問題的技術(shù)。推薦系統(tǒng)中的使用知識圖譜及推理技術(shù)對用戶建模的方法可以用于個(gè)性化搜索。

直接使用知識推理技術(shù)來實(shí)現(xiàn)個(gè)性化搜索的方法也在被嘗試，參考文獻(xiàn)[41]將用戶、文檔以及用戶與文檔產(chǎn)生的搜索、點(diǎn)擊等交互關(guān)系構(gòu)建成知識圖譜，并使用TransE[11]推理方法實(shí)現(xiàn)個(gè)性化搜索。參考文獻(xiàn)[42]則將ConvE[25]的改進(jìn)版本ConvKB應(yīng)用于個(gè)性化搜索。

6 行業(yè)應(yīng)用

隨著知識圖譜的流行，知識推理在各行各業(yè)被廣泛應(yīng)用。在金融、投資、保險(xiǎn)、地產(chǎn)、電力電網(wǎng)、能源、制造、生物醫(yī)藥、醫(yī)療、智慧城市[43]等行業(yè)都能見到知識圖譜推理技術(shù)的應(yīng)用，本文主要介紹金融、生物醫(yī)藥和智能制造行業(yè)的應(yīng)用情況。

6.1 金融行業(yè)

知識圖譜被廣泛應(yīng)用在金融行業(yè)，在風(fēng)險(xiǎn)監(jiān)測與控制、事件、輿情、對話機(jī)器人、金融市場事件監(jiān)測等方面都有知識圖譜的身影，大量的知識推理方法也被應(yīng)用在具體的場景下。在風(fēng)險(xiǎn)監(jiān)測與控制方面，在基于企業(yè)工商信息、訴訟信息、招聘信息以及風(fēng)險(xiǎn)事件等數(shù)據(jù)構(gòu)建的大規(guī)模知識圖譜中，可以利用知識推理技術(shù)挖掘隱藏的關(guān)聯(lián)關(guān)系、風(fēng)險(xiǎn)傳導(dǎo)鏈、擔(dān)保圈鏈等。在金融輿情方面，可構(gòu)建事件及其影響關(guān)系的圖譜，使用知識推理技術(shù)來完善圖譜中的關(guān)聯(lián)關(guān)系，識別事件的真?zhèn)魏陀绊懞蠊?。在對話機(jī)器人方面，針對規(guī)章制度、財(cái)務(wù)制度、財(cái)務(wù)知識、業(yè)務(wù)知識等建立知識圖譜，并使用基于知識圖譜的問答技術(shù)實(shí)現(xiàn)對話機(jī)器人，隨時(shí)隨地滿足客戶獲取知識的需要。在投資研究方面，基于事件構(gòu)建圖譜，并使用知識圖譜推理技術(shù)來研究對金融市場的影響[44]。針對小微企業(yè)信貸業(yè)務(wù)的特點(diǎn)，構(gòu)建全方位企業(yè)畫像與企業(yè)關(guān)聯(lián)圖譜的貸前反欺詐模型，定量評估小微企業(yè)客戶的欺詐風(fēng)險(xiǎn)，能夠有效地幫助銀行機(jī)構(gòu)更準(zhǔn)確地對企業(yè)申貸欺詐行為進(jìn)行評估[45]。

6.2 生物醫(yī)藥行業(yè)

生物醫(yī)藥行業(yè)的多個(gè)子領(lǐng)域深入應(yīng)用了知識圖譜和推理技術(shù)，包括藥物圖譜、疾病圖譜、蛋白質(zhì)圖譜、基因圖譜、藥物份子信息圖譜等，涉及生物醫(yī)藥行業(yè)的方方面面[46-47]。這些圖譜同樣存在不完備的情況，可使用知識圖譜推理技術(shù)來完善這些圖譜。

生物醫(yī)藥的研究對象通常是復(fù)雜的微觀結(jié)構(gòu)以及這些微觀結(jié)構(gòu)間的關(guān)系，深度學(xué)習(xí)中很多與圖結(jié)構(gòu)相關(guān)的算法是生物醫(yī)藥領(lǐng)域的研究人員提出的[48]。同樣地，知識圖譜推理技術(shù)也被廣泛地直接應(yīng)用于生物醫(yī)藥的研究，參考文獻(xiàn)[49]利用R-GCN[29]模型作為編碼器，并使用張量分解作為解碼器，使用知識圖譜推理的方法來推斷藥物-蛋白質(zhì)、蛋白質(zhì)-蛋白質(zhì)、藥物-藥物、藥物-副作用等方面的相互作用。GrEDeL[50]使用兩個(gè)TransE[11]結(jié)合LSTM的模型，從公開文獻(xiàn)中挖掘潛在的治療疾病藥物，該模型把文獻(xiàn)中構(gòu)建的生物醫(yī)藥知識圖譜拆分成語義圖譜（semantic graph）和類型圖譜（type graph），并用兩個(gè)TransE分別對這兩個(gè)圖譜進(jìn)行建模，然后使用LSTM模型來挖掘適用于疾病的藥物。

6.3 智能制造行業(yè)

智能制造行業(yè)極大地依賴于工程師和工人的知識與經(jīng)驗(yàn)，為了適應(yīng)越來越復(fù)雜的產(chǎn)品設(shè)計(jì)、生產(chǎn)制造等過程，知識圖譜也被用來積淀、傳承、管理和應(yīng)用智能制造中理化、電子電氣、工藝、失效、故障等的知識和經(jīng)驗(yàn)，避免知識的流失，輔助設(shè)計(jì)工程師、質(zhì)量工程師和制造工程師分析問題，幫助現(xiàn)場工人快速解決問題，以及激發(fā)創(chuàng)新創(chuàng)造等。知識圖譜推理技術(shù)可以用來完善圖譜數(shù)據(jù)，改善圖譜質(zhì)量，提升知識和經(jīng)驗(yàn)的完備性[51]。

智能制造通常涉及多個(gè)跨領(lǐng)域的知識、規(guī)范、標(biāo)準(zhǔn)等，可以使用知識圖譜技術(shù)來跟蹤、跟進(jìn)這些規(guī)范標(biāo)準(zhǔn)，并保持更新。參考文獻(xiàn)[52]是致力于將工業(yè)4.0的標(biāo)準(zhǔn)進(jìn)行圖譜化的一個(gè)嘗試。中國電子技術(shù)標(biāo)準(zhǔn)化研究院也在嘗試將國內(nèi)各種標(biāo)準(zhǔn)圖譜化。輔以知識問答技術(shù)和推薦技術(shù)，能夠更加方便地推進(jìn)制造業(yè)應(yīng)用最新的知識、經(jīng)驗(yàn)、規(guī)范、標(biāo)準(zhǔn)等。

進(jìn)一步地，設(shè)備傳感器采集的大量信息能夠有效地監(jiān)測制造過程。知識圖譜推理技術(shù)同樣能夠用在這些數(shù)據(jù)所構(gòu)建的設(shè)備和制造過程的圖譜中，優(yōu)化生產(chǎn)制造過程，優(yōu)化保養(yǎng)周期、預(yù)測可能發(fā)生的故障，保證生產(chǎn)過程處于良好的狀態(tài)[53]。參考文獻(xiàn)[54]利用TransE[11]融合來自傳感器的操作數(shù)據(jù)源和制造圖譜的實(shí)體，為潛在的未知實(shí)體提供自動化融合的建議，從而保持?jǐn)?shù)字孿生的同步，對于依賴于數(shù)據(jù)的實(shí)時(shí)對齊的監(jiān)視和管理應(yīng)用具有巨大價(jià)值。在更多專業(yè)的領(lǐng)域，知識圖譜推理技術(shù)也在發(fā)揮其價(jià)值，參考文獻(xiàn)[55]探索了電子自動化設(shè)計(jì)（electronic design automation，EDA）中應(yīng)用R-GCN的場景。在更廣泛的智能制造場景中（如供應(yīng)鏈管理、客戶和供應(yīng)商管理、BOM的自動創(chuàng)建、轉(zhuǎn)換與管理、工廠員工管理等方面），知識圖譜推理技術(shù)也被用來提升智能化管理水平。

7 挑戰(zhàn)與未來展望

近些年來，現(xiàn)代的知識圖譜推理技術(shù)正在快速發(fā)展，許多模型在各自的領(lǐng)域有非常好的效果，并且被廣泛應(yīng)用，但遠(yuǎn)未達(dá)到完美的狀態(tài)，挑戰(zhàn)和機(jī)遇并存。

● 知識圖譜嵌入通常是嵌入歐幾里得空間，近些年，MuRP、ATTH等模型探索了嵌入雙曲空間的情形，獲得了非常好的效果。但總體上，把知識圖譜嵌入雙曲空間的研究還是少數(shù)。而已有的模型表明雙曲空間等非歐幾里得空間能夠更好地表達(dá)知識圖譜。在非歐幾里得空間進(jìn)行知識圖譜表示和推理是非常值得繼續(xù)探索的。

● 圖神經(jīng)網(wǎng)絡(luò)天然匹配知識圖譜，本文介紹的R-GCN和R GHAT等模型還是早期的嘗試，遠(yuǎn)未完美。設(shè)計(jì)出更加精巧的圖網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)知識圖譜推理會是熱門且機(jī)會巨大的方向。

● 變換器（transformer）[1,56]網(wǎng)絡(luò)因其在自然語言處理領(lǐng)域強(qiáng)大的表達(dá)能力和高效的并行訓(xùn)練能力而大放異彩，并迅速地遷移到計(jì)算機(jī)視覺、圖像處理和語音識別等領(lǐng)域，效果同樣出眾。相信變換器網(wǎng)絡(luò)在知識圖譜和知識圖譜推理方面同樣能表現(xiàn)出眾。

● 基于預(yù)訓(xùn)練模型的遷移學(xué)習(xí)在自然語言處理、圖像處理和計(jì)算機(jī)視覺等領(lǐng)域應(yīng)用廣泛，但在知識圖譜推理方面還比較少見。探索知識圖譜和知識圖譜推理方面的預(yù)訓(xùn)練模型是值得嘗試的。

● 現(xiàn)代的知識圖譜推理技術(shù)在數(shù)據(jù)集以及相應(yīng)的競賽、評測等方面同樣存在巨大的機(jī)會，特別是中文知識圖譜的數(shù)據(jù)集。

8 結(jié)束語

本文首先系統(tǒng)地研究了知識圖譜推理的現(xiàn)代的方法和應(yīng)用，提出了一種統(tǒng)一的框架來詳細(xì)介紹現(xiàn)代主流的知識圖譜推理模型，方便讀者基于自身研究領(lǐng)域來比較其中的異同和優(yōu)劣?，F(xiàn)代的知識圖譜推理方法通過幾何的或深度學(xué)習(xí)的方法將知識圖譜嵌入低維空間，包括歐幾里得空間和雙曲空間等。緊接著詳細(xì)介紹了嵌入歐幾里得空間的Trans*和RotatE等方法，同時(shí)介紹了能夠更好地表達(dá)知識圖譜結(jié)構(gòu)和邏輯的雙曲空間嵌入，并介紹了MuRP和ATTH等方法。在深度學(xué)習(xí)發(fā)展如火如荼的今天，基于深度學(xué)習(xí)的知識圖譜推理方法不斷被提出，本文使用相同的框架介紹了主流的深度卷積網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等方法。隨著知識圖譜推理技術(shù)的日趨成熟，其應(yīng)用也日趨廣泛。隨后詳細(xì)介紹了知識圖譜推理技術(shù)在知識圖譜補(bǔ)全、知識問答、推薦系統(tǒng)和個(gè)性化搜索等方面的應(yīng)用，同時(shí)還針對金融、生物醫(yī)藥和智能制造3個(gè)行業(yè)介紹了知識圖譜及其推理技術(shù)的應(yīng)用。最后梳理了知識圖譜推理方面的一些挑戰(zhàn)和值得關(guān)注的研究方向，供讀者參考。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放