亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜推理:現(xiàn)代的方法與應(yīng)用

        2021-06-09 13:20:24王文廣
        大數(shù)據(jù) 2021年3期
        關(guān)鍵詞:推理方法雙曲圖譜

        王文廣

        達(dá)而觀信息科技(上海)有限公司,上海 201203

        1 引言

        近年來,知識圖譜技術(shù)得到極大的發(fā)展,大量的知識圖譜被構(gòu)建出來,并被廣泛應(yīng)用在各種場景下。從語義解析、實(shí)體消歧、信息抽取、智能問答、推薦系統(tǒng)、個(gè)性化搜索等技術(shù)方向到金融、軍工、制造業(yè)、生物醫(yī)藥等行業(yè),都可以看到知識圖譜的應(yīng)用,同時(shí)知識圖譜的應(yīng)用也在促進(jìn)知識圖譜技術(shù)的發(fā)展。

        知識圖譜是事實(shí)或知識的結(jié)構(gòu)化表示,是由實(shí)體和實(shí)體間的關(guān)系組成的網(wǎng)狀結(jié)構(gòu)。實(shí)體是指獨(dú)立的、擁有清晰特征的、能夠區(qū)別于其他事物的事物。在知識圖譜中,用來描述這些事物的信息即實(shí)體。實(shí)體在屬性圖中用頂點(diǎn)來表示,實(shí)體關(guān)聯(lián)的類型即實(shí)體類型,在屬性圖中用頂點(diǎn)標(biāo)簽來表示。關(guān)系表達(dá)了兩個(gè)實(shí)體之間的某種語義關(guān)系,通常以語義標(biāo)簽來表示,在屬性圖中表示為有向的邊。也就是說,知識圖譜G由一系列的三元組組成,其中h和t分別表示頭實(shí)體和尾實(shí)體,r表示由h到t的有向關(guān)系。

        推理是一種人類邏輯思維,讓機(jī)器能夠像人類一樣擁有推理能力一直是人工智能發(fā)展的目標(biāo)。符號推理和專家系統(tǒng)是早期的嘗試,在知識圖譜被提出和發(fā)展起來之后,基于知識圖譜的推理技術(shù)[1-2]也隨之發(fā)展,并成為人工智能中非常熱門的領(lǐng)域之一,也被認(rèn)為是人工智能邁向具備和人類一樣的推理和決策能力的關(guān)鍵技術(shù)。

        在知識圖譜推理中,知識圖譜本身提供了人類知識和經(jīng)驗(yàn)的總結(jié),推理技術(shù)則實(shí)現(xiàn)了基于知識圖譜中已有的知識來發(fā)現(xiàn)潛在的、未知的知識,極大地?cái)U(kuò)展了諸如知識問答、個(gè)性化搜索和智能推薦等能力。同時(shí),在行業(yè)應(yīng)用中,將領(lǐng)域知識圖譜和推理技術(shù)結(jié)合,從而實(shí)現(xiàn)輔助分析和決策支持。

        本文給出了知識推理的定義,并介紹了知識圖譜推理技術(shù);然后分別介紹了現(xiàn)代的基于幾何運(yùn)算和基于深度學(xué)習(xí)的知識圖譜推理技術(shù),并分別從技術(shù)領(lǐng)域和行業(yè)領(lǐng)域兩個(gè)角度介紹了知識圖譜推理技術(shù)的應(yīng)用;最后給出了知識圖譜推理存在的挑戰(zhàn)以及值得關(guān)注的研究方向。

        2 知識圖譜推理

        知識圖譜推理旨在從已有的知識中發(fā)現(xiàn)新的知識。對于知識圖譜來說,新的知識可以分為兩種:新的實(shí)體和新的關(guān)系。新的實(shí)體涉及的技術(shù)領(lǐng)域通常是實(shí)體抽取、實(shí)體消歧、實(shí)體融合等相關(guān)的自然語言處理或知識圖譜技術(shù)。新的關(guān)系涉及的技術(shù)領(lǐng)域則有關(guān)系抽取和知識推理等。知識圖譜推理,或稱知識推理,指在既定的知識圖譜中通過推理技術(shù)推導(dǎo)出實(shí)體間潛在的或者新的關(guān)系,發(fā)現(xiàn)新的知識。在圖數(shù)據(jù)庫、圖論等相關(guān)領(lǐng)域往往又被稱為鏈接預(yù)測。

        知識圖譜推理技術(shù)是伴隨著人工智能、自然語言處理、語義網(wǎng)等技術(shù)發(fā)展起來的。早期有基于規(guī)則的方法,著名知識圖譜NE LL[3]利用手寫規(guī)則的推理方法來不斷擴(kuò)充規(guī)模。一階邏輯(first order logic,F(xiàn)OL)是早期的一種符號推理系統(tǒng),也被用于知識圖譜推理[4]。針對手寫規(guī)則煩瑣的問題,可采用將規(guī)則與統(tǒng)計(jì)學(xué)習(xí)結(jié)合的馬爾可夫邏輯網(wǎng)(Markov logic network,M LN)[5-7],MLN是經(jīng)典的推理方法。知識圖譜的層次結(jié)構(gòu)和邏輯結(jié)構(gòu)往往被表示為本體(ontology)或模式(schema),基于本體的推理方法是知識圖譜推理的經(jīng)典方法之一,也是現(xiàn)實(shí)應(yīng)用中很有 意義的方法[8]。隨機(jī)游走(random walk)是概率統(tǒng)計(jì)中經(jīng)典的隨機(jī)過程,將其應(yīng)用于知識圖譜推理中產(chǎn)生了著名的路徑排序算法(path ranking algorith m,PRA)[9]及其與深度強(qiáng)化學(xué)習(xí)結(jié)合的深度路徑(deep path)方法[10]。近年來,隨著以深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)的蓬勃發(fā)展,將知識圖譜嵌入低維空間的方法逐漸成為主 流,TransE[11]是其中的先鋒。

        本文關(guān)注的知識圖譜推理方法是從TransE開始的,它源自自然語言處理領(lǐng)域的word2vec[12],是當(dāng)前效果最好的、主流的、契合深度學(xué)習(xí)潮流的方法,也被稱為現(xiàn)代的方法。這類方法可學(xué)習(xí)出知識圖譜的稠密向量表示,是知識圖譜領(lǐng)域的表示學(xué)習(xí)。對于學(xué)習(xí)出的稠密向量,既可以直接進(jìn)行推理應(yīng)用,也便于使用各種深度學(xué)習(xí)模型和算法來實(shí)現(xiàn)下游任務(wù),如知識問答或輔助決策等。

        知識圖譜G={}?E×R×E,其中E為實(shí)體集合,h、t∈E;R為關(guān)系集合,r∈R?,F(xiàn)代知識圖譜推理方法的目標(biāo)是通過定義一個(gè)打分函數(shù)fr(h,t)來學(xué)習(xí)出表示實(shí)體和關(guān)系的向量 , ,如式(1)所示,其中→表示映射:

        對于符合知識圖譜的正樣本來說,期望打分函數(shù)計(jì)算出的分?jǐn)?shù)無限接近于0。其中,de和dr表示實(shí)體和關(guān)系向量的維度,在大多數(shù)模型中,d=de=dr。在進(jìn)行知識圖譜推理時(shí),對于任意給定的實(shí)體對,遍歷知識圖譜中的關(guān)系r∈R,并計(jì)算的分?jǐn)?shù),若低于某個(gè)閾值,則表示h和t之間存在關(guān)系r。在某些時(shí)候需要從中推斷t,此時(shí)可以遍歷所有的實(shí)體t∈E,使用式(1)來計(jì)算分?jǐn)?shù),若分?jǐn)?shù)低于某個(gè)閾值,則表明實(shí)體h在關(guān)系r的作用下,得到了實(shí)體t。本文使用式(1)所表示的模型框架來介紹各種現(xiàn)代的知識推理方法。

        3 基于幾何運(yùn)算的方法

        基于幾何運(yùn)算的模型是從word2vec延伸出來的,將知識圖譜通過平移或旋轉(zhuǎn)等幾何運(yùn)算嵌入低維的幾何空間中(通常是歐幾里得空間,也可以是雙曲空間等)。其中平移表現(xiàn)為向量加法,旋轉(zhuǎn)表現(xiàn)為哈達(dá)瑪積(Hadamard product),嵌入則是一個(gè)數(shù)學(xué)中與流形相關(guān)的概念,表達(dá)一個(gè)數(shù)學(xué)結(jié)構(gòu)的實(shí)例通過映射包含到另一個(gè)實(shí)例中。

        將知識圖譜嵌入幾何空間時(shí),解決知識圖譜中不同特點(diǎn)的關(guān)系的推理問題,從而推進(jìn)基于幾何運(yùn)算的方法的發(fā)展,這些特點(diǎn)包括一對一、一 對多、多對一、多對多[13]、對稱性(symmetry)、反對稱性(anti-symmetry)、反向性(inversion)和組合性(c omposition)[14]等。

        3.1 歐幾里得空間嵌入

        知識圖譜推理的現(xiàn)代方法的雛形是word2vec,并從TransE模型開始逐漸發(fā)展起來。圖1表示了word2vec模型學(xué)習(xí)出來的詞向量滿足w廣東省-w廣州市=w浙江省-w杭州市,其隱含的關(guān)系“省會”(圖1中虛線)沒有被明確表示出來。TransE將word2vec中隱含的關(guān)系用向量明確地表示出來,并應(yīng)用到知識圖譜中。

        基于幾何運(yùn)算的知 識圖譜推理在TransE[11]的基礎(chǔ)上持續(xù)發(fā)展。TransE把實(shí)體間的關(guān)系用向量明確地表示出來,并用幾何平移來解釋實(shí)體間的關(guān)系,如圖2(a)所示。繼TransE后大量平移或旋轉(zhuǎn)的方法被提出來,這些方法和TransE一樣使用歐氏距離來計(jì)算打分函數(shù),使用基于能量的方法來定義損失函數(shù),并用隨機(jī)梯度下降來優(yōu)化模型。

        TransE將實(shí)體和關(guān)系嵌入同一個(gè)空間中,并定義打分函數(shù)為:

        其中,||·||2表示L2范數(shù)(L2 norm)。TransE模型對僅有一對一關(guān)系的知識圖譜非常友好,能夠?qū)W習(xí)出各種具有反對稱性、反向性和組合性的關(guān)系。其結(jié)構(gòu)簡單、運(yùn)算量小,是某些現(xiàn)實(shí)場景 的首選方法。

        TransH[13]拓展了TransE模型,為每個(gè)關(guān)系學(xué)習(xí)嵌入空間的一個(gè)超平面Wr(||Wr||=1),并將三元組解釋為實(shí)體在關(guān)系超平面上的平移變換。如圖2(b)所示,TransH先將實(shí)體向量h和t映射到關(guān)系超平面Wr上,得到和,并將關(guān)系表示為超平面上的平移變換,即向量加法。由此TransH的打分函數(shù)為:

        TransH模型通過關(guān)系特定的超平面,實(shí)現(xiàn)了自反、一對多、多對一和多對多的嵌入表示。TransR模型[15]將實(shí)體和關(guān)系分別嵌入不同的幾何空間,使得相同的實(shí)體在不同的關(guān)系下能夠表示不同的語義,進(jìn)一步增強(qiáng)了知識圖譜的推理能力。如圖2(c)所示,TransR通過映射矩陣將實(shí)體向量h、t映射到關(guān)系空間得到和,并在關(guān)系空間進(jìn)行平移變換,即。由此,將TransR的打分函數(shù)定義為:

        圖1 word2vec的示例

        圖2 基于歐幾里得空間的平移運(yùn)算的知識圖譜推理模型

        TransD模型[16]用實(shí)體映射向量和關(guān)系映射向量來構(gòu)造映射矩陣和(I表示單位矩陣),并代替TransR中的映射矩陣Mr,使得模型能夠表達(dá)實(shí)體在不同關(guān)系中潛在的多個(gè)語義關(guān)系。由于向量乘法效率高于矩陣乘法,將TransD模型應(yīng)用于大規(guī)模知識圖譜中具有計(jì)算效率上的優(yōu)勢。類似地,TransD的打分函數(shù)為:

        圖2(d)直觀地表示了TransD的模型。從圖2和式(2)~式(5)可以看出,TransE、TransH、TransR和TransD 4個(gè)模型一脈相承,都是用歐幾里得空間中的平移來解釋實(shí)體間的關(guān)系,并用歐氏距離來表示 分?jǐn)?shù)。進(jìn)一步地,TransG模型[17]對這一模式進(jìn)行了泛化建模,并用貝葉斯參數(shù)無限混合模型(Bayesian non-parametric infini te mixture model)[18]和中國餐館過程(Chinese restaurant process,CRP)來解決關(guān)系的多語義表達(dá)問題。

        TransG的打分函數(shù)是:

        總體來說,TransG模型能夠表示關(guān)系的多種語義。對其進(jìn)行主成分(primary component)分析可知,TransE模型是TransG模型針對主成分的特例,而TransG則是TransE的泛化,圖3展示了兩個(gè)模型。

        旋轉(zhuǎn)和平移 一樣是幾何空間的基本操作,RotatE[14]使用旋轉(zhuǎn)代替平移對關(guān)系進(jìn)行建模,圖4展示了RotatE與TransE的區(qū)別。同時(shí),為了表達(dá)旋轉(zhuǎn),實(shí)體和關(guān)系的嵌入向量從實(shí)數(shù)擴(kuò)展到復(fù)數(shù)向量空間。旋轉(zhuǎn)在復(fù)向量空間的運(yùn)算表示為向量的哈達(dá)瑪積,即每個(gè)元素分別相乘的運(yùn)算,這個(gè)與平移操作的加法是類似的。對于,RotatE將實(shí)體和關(guān)系嵌入復(fù)向量空間,并定義打分函數(shù)為:

        其中,〇表示哈達(dá)瑪積,模型將向量限制在單位圓中,并解釋為逆時(shí)針的旋轉(zhuǎn),作用于復(fù)向量的相位部分。與平移的方法相比,RotatE能更加高效地實(shí)現(xiàn)對稱和反對稱、反向和組合這些關(guān)系類型的建模。例如,可以表示關(guān)系r是對稱的,r1和r2是共軛的,可以表示兩個(gè)關(guān)系r1和r2是反向的,r3=r1〇r2可以表示r3是r1和r2的組合。RotatE對具有如上特點(diǎn)的知識圖譜推理能夠事半功倍。

        3.2 雙曲空間嵌入

        雙曲空間(hyperbolic space)是具有常數(shù)負(fù)曲率的齊次空間,而歐幾里得空間則是零曲率的。雙曲幾何提供了高效的方法來學(xué)習(xí)層次數(shù)據(jù)的低維嵌入,特別地,僅僅用二維的 雙曲空間就能夠以任意低的失真度嵌入樹形數(shù)據(jù)[19]。也就是說,將類似知識圖譜這樣具有豐富層次結(jié)構(gòu)的數(shù)據(jù)嵌入雙曲空間中,比嵌入歐幾里得空間更加高效。

        雙曲空間嵌入通常使用d維龐加萊球來表示,其中d表示龐加萊球的維度,-c表示曲率。龐加萊球的原點(diǎn)所對應(yīng)的切線空間是從原點(diǎn)離開的有可能路徑的方向的d維向量空間。切線空間到的映射通過指數(shù)映射(exponential map)實(shí)現(xiàn),而從到則通過對數(shù)映 射(logarithmic map)實(shí)現(xiàn)[20],這里的0表示原點(diǎn):

        在雙曲空間中,向量x、y的加法通過莫比烏斯加法⊕c實(shí)現(xiàn),向量y和矩陣M的乘法通過莫比烏斯矩陣-向量乘法?c實(shí)現(xiàn),分別定義如下:

        在雙曲空間 中,三元組對應(yīng)的d維向量,其中c表示雙曲空間的曲率。和歐幾里得空間一樣,模型通過打分函數(shù)來實(shí)現(xiàn)知識圖譜推理。

        MuRP[23]模型采用曲率為-1的龐加萊球模型(c=1)對圖譜的實(shí)體關(guān)系進(jìn)行建模,使用式(11),類似TransE,MuRP的打分函數(shù)定義為:

        雙曲嵌入與歐幾里得空間嵌入不同的是,模型會為每個(gè)實(shí)體額外學(xué)習(xí)一個(gè)偏置b,b表示實(shí)體在雙曲空間中的影響范圍,圖5是MuRP模型的幾何直觀解釋。即頭實(shí)體h和尾實(shí)體t經(jīng)過同一關(guān)系r調(diào)整為雙曲空間的兩個(gè)球體,如果存在重疊,則表示成立,反之則表示h和t不存在關(guān)系r。

        圖3 TransG和TransE對關(guān)系r進(jìn)行不同表達(dá),在TransE中只能學(xué)習(xí)出一種向量表示r,而TransG能夠?qū)W習(xí)出有細(xì)微語義差別的4個(gè)關(guān)系向量r1、r2、r3和r4

        圖4 RotatE和TransE模型的比較

        圖5 MuRP模型的幾何直觀解釋

        和MuRP使用平移來建模實(shí)體間的關(guān)系不同,ATTH[24]模型使用吉文斯變換表示旋轉(zhuǎn)和反射,從而捕捉不同語義的關(guān)系,并使用雙曲注意力機(jī)制來融合幾何運(yùn)算,同時(shí)歸納出更為復(fù)雜的邏輯模式。此外,考慮到不同關(guān)系蘊(yùn)含的語義信息不一樣,ATTH采用可學(xué)習(xí)的變量為不同的關(guān)系自動學(xué)習(xí)出最佳的曲率cr。

        類似TransR、TransD定義出雙曲空間中的旋轉(zhuǎn)運(yùn)算和反射運(yùn)算,這里的和是由關(guān)系特定的參數(shù)和構(gòu)造的塊對角矩陣,其 中,是2×2的吉文斯變換矩陣。

        ATTH模型中注意力機(jī)制是在龐加萊球的切線空間(一種歐幾里得空間)中進(jìn)行的。通過式(8)的對數(shù)映射將雙曲空間嵌入向量和映射到切線空間和,并計(jì)算注意力得分和(a是注意力機(jī)制的環(huán)境參數(shù)),然后通過式(8)映射回雙曲空間,得到頭實(shí)體經(jīng)過關(guān)系調(diào)整后的向量。最后類似MuRP,ATTH的打分函數(shù)定義為:

        4 基于深度學(xué)習(xí)的方法

        近年來,深度學(xué)習(xí)被廣泛地應(yīng)用在計(jì)算機(jī)視覺、圖像處理、語音識別和自然語言處理等人工智能領(lǐng)域。同樣地,深度學(xué)習(xí)也被應(yīng)用于知識圖譜推理,本文介紹了主流的和應(yīng)用非常廣泛的若干方法。

        首先介紹基于深度學(xué)習(xí)的知識圖譜推理方法,然后將相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化成打分函數(shù)。深度神經(jīng)網(wǎng)絡(luò)更加復(fù)雜,且包含了大量的非線性運(yùn)算,從而能夠?qū)W到更多的特征,但也因此存在“黑盒”的不直觀問題,影響了推理的解釋性。

        4.1 卷積神經(jīng)網(wǎng)絡(luò)模型

        卷積神經(jīng)網(wǎng)絡(luò)將卷積應(yīng)用于神經(jīng)網(wǎng)絡(luò),通過局部感知、參數(shù)共享等特點(diǎn),實(shí)現(xiàn)了深層的 特征學(xué)習(xí),成為深度學(xué)習(xí)中非常重要的網(wǎng)絡(luò)之一。ConvE[25]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于知識圖譜推理,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6(a)所示,打分函數(shù)定義為:

        ConvE模型通常使用小的濾波器進(jìn)行卷積,這樣實(shí)體和關(guān)系間的交互僅在二維矩陣和的拼接處,能夠很好 地被學(xué)習(xí),而遠(yuǎn)離拼接處的特征則較少被學(xué)習(xí)。ConvR[26]將關(guān)系轉(zhuǎn)化為濾波器來對實(shí)體向量進(jìn)行卷積運(yùn)算,從而獲得更好的實(shí)體-關(guān)系間交互的特征表達(dá)。通過比較圖6(a)和圖6(b),可以直觀地理解ConvE和ConvR的異同,并理解各自的特點(diǎn)和優(yōu)劣。類似地,ConvR的打分函數(shù)為:

        圖6 深度卷積網(wǎng)絡(luò)用于知識圖譜推理的Co nvE和ConvR模型

        4.2 膠囊網(wǎng)絡(luò)模型

        CapsE[27]是將膠囊網(wǎng)絡(luò)(capsule network,CapsNet)[28]用于知識圖譜推理的一種模型。其基本原理是將三元組的3個(gè)嵌入向量組裝成3列的矩陣,用卷積網(wǎng)絡(luò)來學(xué)習(xí)出相應(yīng)的特征,并通過兩層的膠囊網(wǎng)絡(luò)為三元組打分。CapsE模型如圖7所示,由于濾波器同時(shí)作用于h、r、t,因此可以捕捉到更多的特征。其打分函數(shù)為:

        圖7 膠囊網(wǎng)絡(luò)用于知識圖譜推理的CapsE模型

        其中,capsnet表示膠囊網(wǎng)絡(luò),Ω表示n個(gè)濾波器,濾波器ω作用于輸入矩陣,形成n個(gè)d×1維的特征圖。特征圖被封裝成第一個(gè)膠囊層的d個(gè)膠囊,通過路由過程路由到第二個(gè)膠囊層后生成連續(xù)的輸出向量e,輸出向量的L1范數(shù)||e||就是得分。

        路由過程[28]在第一個(gè)膠囊層的(是權(quán)重矩陣,ci是耦合系數(shù))和第二膠囊層的非線性壓扁中迭代m次(參考文獻(xiàn)[27]研究了m的數(shù)值,并斷定m=1時(shí)效果最佳)。

        4.3 圖神經(jīng)網(wǎng)絡(luò)模型

        圖神經(jīng)網(wǎng)絡(luò)是將深度學(xué)習(xí)技術(shù)應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的方法,是最近人工智能中非常熱門的研究領(lǐng)域之一。圖神經(jīng)網(wǎng)絡(luò)天然地適用于知識圖譜推理。關(guān)系圖卷積網(wǎng)絡(luò)(relational gr aph convolutional network,R-GCN)[29]是較早對關(guān)系進(jìn)行建模實(shí)現(xiàn)知識圖譜推理的圖自編碼器模型。R-GCN模型的每一層都使用了圖8和式(17)所示的傳播模型來編碼知識圖譜:

        圖8 R-GCN的傳播模型,也是R-GCN的“層”

        其中,e(l)和e(l+1)分別表示知識圖譜的實(shí)體e在R-GCN中的l層和l+1層的向量。Er表示與實(shí)體e具有關(guān)系r的所有鄰接實(shí)體的集合,區(qū)分入邊和出邊。R表示知識圖譜中所有關(guān)系的集合。表示l層中實(shí)體自身的相關(guān)參數(shù)(自連接),其目的是給l+1層傳播實(shí)體自身的信息。則是與關(guān)系r相關(guān)的參數(shù)。rc是歸一化參數(shù),可以隨模型學(xué)習(xí),或者提前設(shè)定。R-GCN傳播模型可被直觀地理解為依據(jù)每一個(gè)關(guān)系對鄰接節(jié)點(diǎn)的信息進(jìn)行學(xué)習(xí),進(jìn)而表示實(shí)體。

        而塊對角分解的定義為:

        R-GCN模型堆疊了L層式(17)作為編碼器,并使用DistMult[30]作為解碼器,從而其打分函數(shù)為:

        RGHAT[31]是一種通過加入兩層注意力來進(jìn)一步改善關(guān)系圖神經(jīng)網(wǎng)絡(luò)的效果的知識圖譜推理方法。ATTH[24]使用注意力機(jī)制自動歸納出知識圖譜的邏輯結(jié)構(gòu),而RGHAT使用兩層注意力分別歸納實(shí)體和同一關(guān)系下鄰接實(shí)體的特征,其模型如圖9所示,其中關(guān)系層注意力表達(dá)了不同關(guān)系對實(shí)體的影響權(quán)重:

        實(shí)體層注意力則表達(dá)了同一關(guān)系的鄰接實(shí)體的影響權(quán)重:

        5 知識推理應(yīng)用

        5.1 知識圖譜補(bǔ)全

        知識圖譜普遍存在知識缺失的事實(shí),也就是知識圖譜的不完備性。如圖10所示,實(shí)線部分是知識圖譜存在的關(guān)系,比如<張三,出生于,廈門市>和<張三,任職于,甲公司>等,而虛線部分是知識圖譜中缺失的,比如<張三,工作于,上海市>和<張三,出生于,中國>等。知識圖譜補(bǔ)全(knowledge graph completion)的目標(biāo)是發(fā)現(xiàn)這些缺失的知識,并將其補(bǔ)充到知識圖譜中,使得知識圖譜趨向完備。

        知識圖譜補(bǔ)全是知識推理應(yīng)用最多的領(lǐng)域,大量的知識 圖譜推理算法被提出 來的初衷就是應(yīng)用于 知識圖譜補(bǔ)全,如MLN[7]、TransR[15]、CapsE[27]、RGHAT[31]等。前面提到的所有方法都可以通過在向量空間的推理來斷定任意實(shí)體間是否存在某種關(guān)系,進(jìn)而實(shí)現(xiàn)知識圖譜的補(bǔ)全。

        圖9 RGHAT模型的網(wǎng)絡(luò)結(jié)構(gòu)

        圖10 知識圖譜的不完備性

        5.2 知識問答

        問答(question answering,QA)系統(tǒng)是自然語言處理領(lǐng)域一個(gè)重要的發(fā)展方向,其目標(biāo)是通過自然語言的方式來獲取知識。在很多真實(shí)應(yīng)用場景下,基于知識圖譜的問答系統(tǒng)能夠帶來極大的知識獲取的便利性。但除了簡單地從知識圖譜中檢索實(shí)體,更多的問題要求問答系統(tǒng)具有知識推理的能力[32-33]。本文介紹的知識推理方法都可 以用于基于知識圖譜的知識問答系統(tǒng)中,用來回答復(fù)雜的問題,提升結(jié)果的準(zhǔn)確性、完備性等[34-35]。

        除了將知識圖譜嵌入通用的知識問答系統(tǒng),也可將知識推理等技術(shù)直 接應(yīng)用于問答系統(tǒng)來解決特定的問題。比如用R-GCN來建模多輪對話問答系統(tǒng)的對話結(jié)構(gòu)和背景知識[36]?;谥R圖譜 嵌入的問答系統(tǒng)正在興起,比如將TransE向量空間與搜索技術(shù)結(jié)合,實(shí)現(xiàn)了基于知識圖譜嵌入的問答系統(tǒng)[37]。

        隨著現(xiàn)代知識圖譜推理方法的研究逐漸深入,知識問答的效果也持續(xù)改善,同時(shí)將上述這些知識推理技術(shù)和問答技術(shù)結(jié)合用于解決特定問題的方法也在興起。

        5.3 推薦系統(tǒng)

        推薦系統(tǒng)是隨著互聯(lián)網(wǎng)的發(fā)展、信息的極大豐富而興起的技術(shù),旨在理解用戶并主動給用戶推薦信息。隨著知識圖譜技術(shù)的發(fā)展,將知識圖譜和推薦系統(tǒng)全方位地結(jié)合,從而更深入地理解用戶,更好地匹配用戶需求,同時(shí)提供更強(qiáng)的解釋性。

        在理解用戶方面,知識圖譜能夠?qū)τ脩糁g的網(wǎng)狀關(guān)系進(jìn)行建模,通過購買同一件商品、看過同一個(gè)視頻、對同一條信息點(diǎn)贊等用戶行為構(gòu)建行為圖譜,并利用知識圖 譜推理技術(shù)推斷用戶間的關(guān)系,挖掘潛在的深度需求,配合協(xié)同過濾等推薦技術(shù)來改善推薦的效果。參考文獻(xiàn)[38]利用知識圖譜來豐富用戶信息,并使用R-GCN對關(guān)系和結(jié)構(gòu)建模推理,從而更好地理解用戶。推薦的內(nèi)容(如商品、信息、知識、人物等)同樣可以通過各種關(guān)系來構(gòu) 建知識圖譜,使用推理技術(shù)來 挖掘潛在特征,推斷潛在關(guān)系,增強(qiáng)對推薦內(nèi)容的理解,改善推薦效果。參考文獻(xiàn)[39]嘗試使用TransR[15]來建模結(jié)構(gòu)化的推薦內(nèi)容,以提升推薦效果。在此之上, 推薦本身可以看成用戶- 推薦內(nèi)容之間的復(fù)雜的網(wǎng)狀關(guān)系,由此可應(yīng)用知識圖譜推理技術(shù)來直接實(shí)現(xiàn)推薦。KGAT[40]結(jié)合TransR[15]和深度學(xué)習(xí)實(shí)現(xiàn)了知識圖譜注意力網(wǎng)絡(luò)的推薦方法。

        隨著知識圖譜和知識推理技術(shù)的進(jìn)一步發(fā)展和成熟,各種現(xiàn)代的知識推理方法在推薦領(lǐng)域的應(yīng)用也會越來越多,并逐漸成為主流。

        5.4 個(gè)性化搜索

        個(gè)性化搜索是充分利用搜索和點(diǎn)擊等歷史行為記錄和用戶本身的信息來實(shí)現(xiàn)個(gè)性化的搜索,返回更加匹配用戶的結(jié)果。比如同樣搜索“蘋果”,果農(nóng)和電子產(chǎn)品愛好者對搜索結(jié)果的期望是不同的;而搜索“天氣預(yù)報(bào)”,在上海的人和在北京的人對搜索結(jié)果的期望也是不一樣的。個(gè)性化搜索是致力于解決這類問題的技術(shù)。推薦系統(tǒng)中的使用知識圖譜及推 理技術(shù)對用戶建模的方法可以用于個(gè)性化搜索。

        直接使用知識推理技術(shù)來實(shí)現(xiàn)個(gè)性化搜索的方法也在被 嘗試,參考文獻(xiàn)[41]將用戶、文檔以及 用戶與文檔產(chǎn)生的搜索、點(diǎn)擊等交互關(guān)系構(gòu)建成知識圖譜,并使用TransE[11]推理方法實(shí)現(xiàn)個(gè)性化搜索。參考文獻(xiàn)[42]則將ConvE[25]的改進(jìn)版本ConvKB應(yīng)用于個(gè)性化搜索。

        6 行業(yè)應(yīng)用

        隨著知識 圖譜的流行,知識推理在各行各業(yè)被廣泛應(yīng)用。在金融、投資、保險(xiǎn)、地產(chǎn)、電力電網(wǎng)、能源、制造、生物醫(yī)藥、醫(yī)療、智慧城市[43]等行業(yè)都能見到知識圖譜推理技術(shù)的應(yīng)用,本文主要介紹金融、生物醫(yī)藥和智能制造行業(yè)的應(yīng)用情況。

        6.1 金融行業(yè)

        知識圖譜被廣泛應(yīng)用在金融行業(yè),在風(fēng)險(xiǎn)監(jiān)測與控制、事件、輿情、對話機(jī)器人、金融市場事件監(jiān)測等方面都有知識圖譜的身影,大量的知識推理方法也被應(yīng)用在具體的場景下。在風(fēng)險(xiǎn)監(jiān)測與控制方面,在基于企業(yè)工商信息、訴訟信息、招聘信息以及風(fēng)險(xiǎn)事件等數(shù)據(jù)構(gòu)建的大規(guī)模知識圖譜中,可以利用知識推理技術(shù)挖掘隱藏的關(guān)聯(lián)關(guān)系、風(fēng)險(xiǎn)傳導(dǎo)鏈、擔(dān)保圈鏈等。在金融輿情方面,可構(gòu)建事件及其影響關(guān)系的圖譜,使用知識推理技術(shù)來完善圖譜中的關(guān)聯(lián)關(guān)系,識別事件的真?zhèn)魏陀绊懞蠊?。在對話機(jī)器人方面,針對規(guī)章制度、財(cái)務(wù)制度、財(cái)務(wù)知識、業(yè)務(wù)知識等建立知識圖譜,并使用基于知識圖譜的問答技術(shù)實(shí)現(xiàn)對話 機(jī)器人,隨時(shí)隨地滿足客戶獲取知識的需要。在投資研究方面,基于事件構(gòu)建圖譜,并使用知識圖譜推理技術(shù)來研究對金融市場的影響[44]。針對小微企業(yè)信貸業(yè)務(wù)的特點(diǎn),構(gòu)建全方位企業(yè)畫像與 企業(yè)關(guān)聯(lián)圖譜的貸前反欺詐模型,定量評估小微企業(yè)客戶的欺詐風(fēng)險(xiǎn),能夠有效地幫助銀行機(jī)構(gòu)更準(zhǔn)確地對企業(yè)申貸欺詐行為進(jìn)行評估[45]。

        6.2 生物醫(yī)藥行業(yè)

        生物醫(yī)藥行業(yè)的多個(gè)子領(lǐng)域深入應(yīng)用了知識圖譜和推理技術(shù),包括藥物圖譜、疾病圖譜、蛋白質(zhì)圖譜、基因圖譜、藥物份子信息圖譜等,涉及生物醫(yī)藥行業(yè)的方方面面[46-47]。這些圖譜同樣存在不完備的情況,可使用知識圖譜推理技術(shù)來完善這些圖譜。

        生物醫(yī)藥的研究對象通常是復(fù)雜的微觀結(jié)構(gòu)以及這些微觀結(jié)構(gòu)間的關(guān)系,深度學(xué)習(xí)中很 多與圖結(jié)構(gòu)相關(guān)的算法 是生物醫(yī)藥領(lǐng)域的研究人員提出的[48]。同樣地,知識圖譜推理技術(shù)也被廣泛地直接應(yīng)用于生物醫(yī)藥的研究,參考文獻(xiàn)[49]利用R-GCN[29]模型作為編碼器,并使用 張量分解作為解碼器,使用知 識圖譜推理的方法來推斷藥物-蛋白質(zhì)、蛋白質(zhì)-蛋白質(zhì)、藥物-藥物、藥物-副作用等方面的相互作用。GrEDeL[50]使用兩個(gè)TransE[11]結(jié)合LSTM的模型,從公開文獻(xiàn)中挖掘潛在的治療疾病藥物,該模型把文獻(xiàn)中構(gòu)建的生物醫(yī)藥知識圖譜拆分成語義圖譜(semantic graph)和類型圖譜(type graph),并用兩個(gè)TransE分別對這兩個(gè)圖譜進(jìn)行建模,然后使用LSTM模型來挖掘適用于疾病的藥物。

        6.3 智能制造行業(yè)

        智能制造行業(yè)極大地依賴于工程師和工人的知識與經(jīng)驗(yàn),為了適應(yīng)越來越復(fù)雜的產(chǎn)品設(shè)計(jì)、生產(chǎn)制造等過程,知識圖譜也被用來積淀、傳承、管理和應(yīng)用智能制造中理化、電子電氣、工藝、失效、故障等的知識和經(jīng)驗(yàn),避免知識的流失,輔助設(shè)計(jì)工程師、質(zhì)量工程師和制造 工程師分析問題,幫助現(xiàn)場工人快速解決問題,以及激發(fā)創(chuàng)新創(chuàng)造等。知識圖譜推理技術(shù)可以用來完善圖譜數(shù)據(jù),改善圖譜質(zhì)量,提升知識和 經(jīng)驗(yàn)的完備性[51]。

        智能制造通常涉及多個(gè)跨領(lǐng)域的知識、規(guī)范、標(biāo)準(zhǔn)等,可以使用知識圖譜技術(shù)來跟蹤、跟進(jìn)這些規(guī)范標(biāo)準(zhǔn),并保持更新。參考文獻(xiàn)[52]是致力于將工業(yè)4.0的標(biāo)準(zhǔn)進(jìn)行圖譜化的一個(gè)嘗試。中國電子技術(shù)標(biāo)準(zhǔn)化研究院也在嘗試將國內(nèi)各種標(biāo)準(zhǔn)圖譜化。輔以知識問答技術(shù)和推薦技術(shù),能夠更加方便地推進(jìn)制造業(yè)應(yīng)用最新的知識、經(jīng)驗(yàn)、規(guī)范、標(biāo)準(zhǔn)等。

        進(jìn)一步地,設(shè)備傳感器采集的大量信息能夠有效地監(jiān)測制造過程。知識圖 譜推理技術(shù)同樣能 夠用在這些數(shù)據(jù)所構(gòu)建的 設(shè)備和制造過程的圖譜中,優(yōu)化生產(chǎn)制造過程,優(yōu)化保養(yǎng)周期、預(yù)測可能發(fā)生的故障,保證生產(chǎn)過程處于良好的狀態(tài)[53]。參考文獻(xiàn)[54]利用TransE[11]融合來自傳感器的操作數(shù)據(jù)源和制造圖譜的實(shí)體,為潛在的未知實(shí)體提供自動化融 合的建議,從而保持?jǐn)?shù)字孿生的同步,對于依賴于數(shù)據(jù)的實(shí)時(shí)對齊的監(jiān)視和管理應(yīng)用具有巨大價(jià)值。在更多專業(yè)的領(lǐng)域,知識圖譜推理技術(shù)也在發(fā)揮其價(jià)值,參考文獻(xiàn)[55]探索了電子自動化設(shè)計(jì)(electronic design automation,EDA)中應(yīng)用R-GCN的場景。在更廣泛的智能制造場景中(如供應(yīng)鏈管理、客戶和供應(yīng)商管理、BOM的自動創(chuàng)建、轉(zhuǎn)換與管理、工廠員工管理等方面),知識圖譜推理技術(shù)也被用來提升智能化管理水平。

        7 挑戰(zhàn)與未來展望

        近些年來,現(xiàn)代的知識圖譜推理技術(shù)正在快速發(fā)展,許多模型在各自的領(lǐng)域有非常好的效果,并且被廣泛應(yīng)用,但遠(yuǎn)未達(dá)到完美的狀態(tài),挑戰(zhàn)和機(jī)遇并存。

        ● 知識圖譜嵌入通常是嵌入歐幾里得空間,近些年,MuRP、ATTH等模型探索了嵌入雙曲空間的情形,獲得了非常好的效果。但總體上,把知識圖譜嵌入雙曲空間的研究還是少數(shù)。而已有的模型表明雙曲空間等非歐幾里得空間能夠更好地表達(dá)知識圖譜。在非歐幾里得空間進(jìn)行知識圖譜表示和推理是非常值得繼續(xù)探索的。

        ● 圖神經(jīng)網(wǎng)絡(luò)天然匹配知識圖譜,本文介紹的R-GCN和R GHAT等模型還是早期的嘗試,遠(yuǎn)未完美。設(shè)計(jì)出更加精巧的圖網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)知識圖譜推理會是熱門且機(jī)會巨大的方向。

        ● 變換器(transformer)[1,56]網(wǎng)絡(luò)因其在自然語言處理領(lǐng)域強(qiáng)大的表達(dá)能力和高效的并行訓(xùn)練能力而大放異彩,并迅速地遷移到計(jì)算機(jī)視覺、圖像處理和語音識別等領(lǐng)域,效果同樣出眾。相信變換器網(wǎng)絡(luò)在知識圖譜和知識圖譜推理方面同樣能表現(xiàn)出眾。

        ● 基于預(yù)訓(xùn)練模型的遷移學(xué)習(xí)在自然語言處理、圖像處理和計(jì)算機(jī)視覺等領(lǐng)域應(yīng)用廣泛,但在知識圖譜推理方面還比較少見。探索知識圖譜和知識圖譜推理方面的預(yù)訓(xùn)練模型是值得嘗試的。

        ● 現(xiàn)代的知識圖譜推理技術(shù)在數(shù)據(jù)集以及相應(yīng)的競賽、評測等方面同樣存在巨大的機(jī)會,特別是中文知識圖譜的數(shù)據(jù)集。

        8 結(jié)束語

        本文首先系統(tǒng)地研究了知識圖譜推理的現(xiàn)代的方法和應(yīng)用,提出了一種統(tǒng)一的框架來詳細(xì)介紹現(xiàn)代主流的知識圖譜推理模型,方便讀者基于自身研究領(lǐng)域來比較其中的異同和優(yōu)劣?,F(xiàn)代的知識圖譜推理方法通過幾何的或深度學(xué)習(xí)的方法將知識圖譜嵌入低維空間,包括歐幾里得空間和雙曲空間等。緊接著詳細(xì)介紹了嵌入歐幾里得空間的Trans*和RotatE等方法,同時(shí)介紹了能夠更好地表達(dá)知識圖譜結(jié)構(gòu)和邏輯的雙曲空間嵌入,并介紹了MuRP和ATTH等方法。在深度學(xué)習(xí)發(fā)展如火如荼的今天,基于深度學(xué)習(xí)的知識圖譜推理方法不斷被提出,本文使用相同的框架介紹了主流的深度卷積網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等方法。隨著知識圖譜推理技術(shù)的日趨成熟,其應(yīng)用也日趨廣泛。隨后詳細(xì)介紹了知識圖譜推理技術(shù)在知識圖譜補(bǔ)全、知識問答、推薦系統(tǒng)和個(gè)性化搜索等方面的應(yīng)用,同時(shí)還針對金融、生物醫(yī)藥和智能制造3個(gè)行業(yè)介紹了知識圖譜及其推理技術(shù)的應(yīng)用。最后梳理了知識圖譜推理方面的一些挑戰(zhàn)和值得關(guān)注的研究方向,供讀者參考。

        猜你喜歡
        推理方法雙曲圖譜
        中國科學(xué)技術(shù)館之“雙曲隧道”
        軍事文摘(2021年22期)2022-01-18 06:22:48
        繪一張成長圖譜
        雙曲型交換四元數(shù)的極表示
        芻議小學(xué)數(shù)學(xué)應(yīng)用題的教學(xué)方式
        魅力中國(2017年40期)2017-10-21 21:28:51
        漫談新時(shí)期下小學(xué)數(shù)學(xué)應(yīng)用題教學(xué)策略
        一階雙曲型偏微分方程的模糊邊界控制
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        在數(shù)學(xué)教學(xué)中培養(yǎng)學(xué)生推理能力之優(yōu)化策略
        魅力中國(2016年43期)2017-05-05 22:57:41
        主動對接你思維的知識圖譜
        基于雙曲和代數(shù)多項(xiàng)式的HC-Bézier曲線
        国产性一交一乱一伦一色一情| 国产成人亚洲精品91专区高清| 亚洲国产精品亚洲一区二区三区| 欧洲美女黑人粗性暴交| 丝袜足控一区二区三区| 人妻系列无码专区久久五月天| 99亚洲女人私处高清视频| 国产精品黄色av网站| 中文字幕日韩有码在线| 日韩乱码人妻无码系列中文字幕| 精品www日韩熟女人妻| 福利网址在线观看| 日韩美女高潮流白浆视频在线观看| 国产主播一区二区三区在线观看| 蜜桃18禁成人午夜免费网站| 亚洲老妈激情一区二区三区 | 国产av一区二区三区天堂综合网| 亚洲中久无码永久在线观看同 | 国产台湾无码av片在线观看| 亚洲AV无码一区二区三区天堂网 | 国产精品视频永久免费播放| 丰满熟妇乱又伦| 免费一级a毛片在线播出 | 无码专区亚洲avl| 视频在线播放观看免费| 亚洲中文字幕av天堂自拍| 男女性高爱潮免费网站| 在线精品国产一区二区| 女同国产日韩精品在线| 亚洲亚色中文字幕剧情| 影音先锋男人站| 久久婷婷色香五月综合激情 | 性久久久久久| 白嫩少妇激情无码| 国产高清在线精品一区αpp| 精品国产免费一区二区久久| av色综合久久天堂av色综合在| 精品国产成人亚洲午夜福利| 日韩精品极品免费观看| 日本精品视频免费观看| 先锋影音最新色资源站|