亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜補全技術(shù)研究綜述

        2023-03-06 12:14:00吳國棟劉涵偉何章偉李景霞王雪妮
        小型微型計算機系統(tǒng) 2023年3期
        關(guān)鍵詞:模型

        吳國棟,劉涵偉,何章偉,李景霞,王雪妮

        (安徽農(nóng)業(yè)大學 信息與計算機學院,合肥 230036)

        1 引 言

        自Google于2012年5月首先提出了知識圖譜(knowledge graph)[1]概念以來,知識圖譜在搜索引擎[2]、問答系統(tǒng)[3,4]、對話系統(tǒng)[5]、推薦系統(tǒng)[6,7]、知識推理[8,9]、實體對齊[10]、事件預測[11,12]等方面都有著良好的表現(xiàn).知識圖譜是一種有向異構(gòu)信息網(wǎng)絡,含有豐富的實體、概念及其之間的各種語義關(guān)系[13].知識圖譜(KG)正成為實現(xiàn)人工智能(AI)的首要驅(qū)動力.與人腦一樣,KG將成為機器的大腦,這些機器可以相互連接,執(zhí)行認知推理,最重要的是,可以從大量異構(gòu)數(shù)據(jù)中獲取見解.許多KG構(gòu)建于AI相關(guān)應用中,例如,推薦系統(tǒng)、問答、語義搜索和排名和閱讀理解[14].從廣義上來說,知識圖譜是將現(xiàn)實世界中的概念,實體和相互關(guān)系用結(jié)構(gòu)化形式表述出來,通過學習人類認識世界的方式,增強互聯(lián)網(wǎng)對海量信息的管理、組織和理解能力.知識圖是事實的結(jié)構(gòu)化表示,由實體、關(guān)系和語義描述組成.實體可以是現(xiàn)實世界中的對象和抽象概念,關(guān)系表示實體之間的關(guān)系和實體的語義描述,它們的關(guān)系包含定義明確的類型和屬性[15].知識圖譜主要由實體節(jié)點和實體間關(guān)系組成,由實體-關(guān)系-實體來構(gòu)成最基本的三元組結(jié)構(gòu),通過目標函數(shù)將實體和關(guān)系分別以低維的向量來表示.Trans系列的知識圖譜表示方法均采用同樣的函數(shù)思想,Trans方法主要有TransE、TransH、TransR、CtransR、TransD、TransA以及TransG等.

        隨著網(wǎng)絡容量的爆炸式增長,傳統(tǒng)知識圖譜的缺點也逐漸暴露出來,首先是計算效率的問題.在使用知識圖譜計算實體之間的語義關(guān)系時,通常需要設計一種特殊的圖算法來實現(xiàn).然而,該圖算法計算復雜度高,可擴展性差.當知識圖達到較大規(guī)模時,很難滿足實時計算的需要.其次是數(shù)據(jù)稀疏性問題.與其他大規(guī)模數(shù)據(jù)一樣,大規(guī)模知識圖也面臨著嚴重的數(shù)據(jù)稀疏問題,這使得實體的語義或推理關(guān)系的計算極不準確.為了應對這些挑戰(zhàn),知識圖嵌入技術(shù)被提出并引起了人們的廣泛關(guān)注,因為它能夠?qū)⒅R圖嵌入到稠密的低維特征空間,并且能夠有效地計算低維空間中實體之間的語義關(guān)系,有效地解決計算復雜性和數(shù)據(jù)稀疏性問題[15].

        知識圖嵌入的關(guān)鍵思想是在連續(xù)向量空間中嵌入包含實體和關(guān)系的知識圖譜組件,以簡化操作,同時保留知識圖譜的固有結(jié)構(gòu).這些實體和關(guān)系嵌入可以進一步用于各種任務[16].

        知識圖譜雖在現(xiàn)代科學中起著越來越重要的作用,但一個數(shù)據(jù)豐富且準確的知識圖譜其建立過程需要大量的技術(shù)甚至人力,多數(shù)知識圖譜在建立后仍然存在著內(nèi)容不夠完善的問題,知識圖譜補全技術(shù)就是為了通過算法來對圖譜補充新的知識,從而減少構(gòu)建知識圖譜所需的人工成本.

        知圖圖譜(KG)包含大量的事實三元組(頭實體、關(guān)系、尾實體),廣泛應用于許多領(lǐng)域,如電子商務、金融和社交網(wǎng)絡.由于知識圖通常是不完整的,手動查找所有事實三元組的成本很高,因此如何自動執(zhí)行知識圖補全(KGC)備受關(guān)注[17].

        知識圖譜補全技術(shù)(knowledge graph completion)是知識獲取中的一個重要的應用,現(xiàn)階段知識圖譜的補全方式主要依靠通過實體和關(guān)系的低維嵌入,對知識圖譜中的實體與關(guān)系進行預測.知識圖譜往往被定義成(頭實體h,關(guān)系r,尾實體t)所構(gòu)成的三元組,知識圖譜補全技術(shù)就是對這三元組的缺失部分進行補全[18],它能夠讓知識圖譜變得更加完整,雖然人工干預構(gòu)建出的特征會具有較好的可解釋性,但耗費資源太多.與之相比,通過表示學習技術(shù)可以自動地根據(jù)任務構(gòu)建特征,但其往往又缺乏可解釋性.如何找到更有效的知識圖譜補全技術(shù),是一個非常值得研究的課題.

        2 知識圖譜補全技術(shù)相關(guān)研究

        知識圖譜補全(KGC)可以解決知識圖中數(shù)據(jù)稀疏的問題.近年來,針對KGC任務提出了大量模型[19],本文從模型構(gòu)造方法的視角,將已有知識圖譜補全技術(shù)的相關(guān)研究分為Trans結(jié)構(gòu)、神經(jīng)網(wǎng)絡和張量分解3種構(gòu)造方法.其中TransE模型在鏈接預測方面表現(xiàn)很好,并且參數(shù)少、操作簡單;但TransE 方法在處理復雜關(guān)系方面,準確度較低,如在處理一對多、多對一、多對多和自反等復雜關(guān)系時,TransE模型難以精準推算出具有相同關(guān)系的實體.神經(jīng)網(wǎng)絡模型其結(jié)構(gòu)復雜多樣,不同的模型具有不同的特性,但主體上都是通過聚合的方式,來捕捉鄰域節(jié)點信息.這類模型常會用到多層信息傳遞,大量的參數(shù)加重了模型的訓練負擔,但模型因加入了非線性計算,能取得較好的預測效果.張量分解模型是通過多維矩陣的組合和計算,來表示三元組內(nèi)部關(guān)系,模型結(jié)構(gòu)簡單,計算效率高,在大規(guī)模數(shù)據(jù)計算上也有不錯的效果,與Trans模型一樣使用線性計算的方式,可以作為解碼器來使用,但對復雜的數(shù)據(jù)關(guān)系難以處理,使用時有一定的局限性.

        已有知識圖譜補全技術(shù)的主要研究如表1所示.

        表1 知識圖譜補全相關(guān)模型Table 1 Model about knowledge graph completion

        2.1 Trans結(jié)構(gòu)模型的知識圖譜補全

        2.1.1 多語義環(huán)境中Trans結(jié)構(gòu)模型的改進

        Trans結(jié)構(gòu)也被人稱為翻譯結(jié)構(gòu),最早的Trans結(jié)構(gòu)的模型是TransE[20],模型將知識圖譜中的三元組定義為(頭實體head,關(guān)系標簽label,尾實體tail),并簡寫為(h,r,t).通過三元組向量化,頭實體h加上關(guān)系r便可得到尾實體t,即h+r=t,這樣可以通過一個實體和關(guān)系來預測另一個實體,即h+r≈t.

        因為TransE模型較為簡單,只是三元組內(nèi)的向量疊加,所以難以處理一對多或多對多的復雜關(guān)系.TransH[21]相對于TransE在這一方面做出了改進,TransH同樣假設了三元組(頭節(jié)點h,關(guān)系r,尾節(jié)點t)其中關(guān)系r會對應一個矩陣Wr(可以理解為一種超平面),以矩陣相乘的方式進行投影.但TransH依舊只關(guān)注了同一個語義環(huán)境下的三元組(投影在同一平面),而TransR[22]則在此基礎上將三元組分在不同的實體空間(entity space)和關(guān)系空間(relation space)中,并對關(guān)系空間中的頭尾實體映射一一建立不同的關(guān)系向量,從而達到相同的頭尾實體在不同的語義環(huán)境下會有不同的關(guān)系表示.

        由于實體在不同語義環(huán)境中會有不同的關(guān)系,因此在通過頭實體和關(guān)系預測尾實體時,會產(chǎn)生多種可能結(jié)果.CrossE[26]提出了使用交互矩陣,來提取頭實體和關(guān)系向量對應的語義向量,進而得到相應的尾實體.

        2.1.2 復數(shù)域上Trans結(jié)構(gòu)模型的擴展

        eiθ=cosθ+isinθ

        (1)

        2.1.3 多步路徑中Trans結(jié)構(gòu)模型的擴展

        ci=f(W[ci-1;ri]),ri∈p

        (2)

        其中c1=r1,P=cn為最終的關(guān)系嵌入.模型使用向量距離差作為評分函數(shù)(能量函數(shù)),評分函數(shù)如公式(3)所示:

        E(h,p,t)=‖P-(t-h)‖=‖P-r‖=E(p,r)

        (3)

        (4)

        同樣的,利用公式(4)也可以計算出從頭實體h到尾實體t的路徑可靠度,如公式(5)所示:

        (5)

        圖1 路徑可靠性的傳播圖Fig.1 Propagation diagram of path reliability

        2.2 神經(jīng)網(wǎng)絡模型的知識圖譜補全

        2.2.1 基于卷積神經(jīng)網(wǎng)絡的知識圖譜補全

        (6)

        p=σ(ψr(es,eo))

        (7)

        ConvKB[33]則在ConvE的基礎上進行了改進,不再是對單個實體和關(guān)系的拼接計算,而是將一個三元組看作為整體,拼接為一個三列矩陣作為卷積輸入,最后計算評分.將不同的嵌入向量進行拼接(Conact)并重塑(Reshape),雖然讓實體關(guān)系間產(chǎn)生了交互性,但拼接和重塑都無法保證向量的整體都參與到了交互中,ConvR[32]則是將關(guān)系r的嵌入作為卷積核,保證關(guān)系和實體之間的交互最大化.

        InteractE[34]結(jié)合了之前模型的卷積處理方式,通過排列、重塑特征和循環(huán)卷積進一步改善卷積神經(jīng)網(wǎng)絡在知識圖譜補全上的應用.InteractE提出了3種重塑函數(shù)(Reshaping Function):Stack、Alternate以及Chequer.設實體嵌入h和關(guān)系嵌入r分別為es=(a1,…,ad)和er=(b1,…,bd),通過重塑函數(shù)φ改變張量維度,如公式(8)所示:

        φ(es,er):Rd×Rd→Rm×n

        (8)

        Stack將實體嵌入和關(guān)系嵌入重塑并拼接為(m/2)×n的矩陣,單個嵌入重塑為2d=m×n的矩陣,最后拼接重塑后的矩陣.

        Alternate采用交替堆疊的方式拼接重塑的矩陣,先將實體嵌入和關(guān)系嵌入任重塑為m×n的矩陣,在每行依次交替拼接,可以看作是兩種嵌入頻率為1的條件下交替出現(xiàn).

        Chequer對實體嵌入和關(guān)系嵌入直接拆分為單個單元,再交替堆疊,從而保證重塑的矩陣中不會有相鄰的兩個相同的嵌入單元.

        圖2(a)~圖2(d)分別為ConvE、ConvKB、ConvR和InteractE 4種模型的卷積操作以及交互方式,三元組(h,r,t)在不同模型下采取了不同的拼接和重塑(Conact & Reshape)策略,其中ConvR模型直接將關(guān)系向量作為卷積核,InteractE則采用3種重塑方式進行特征獲取.

        圖2 4種模型的卷積操作以及交互方式Fig.2 Convolution operation and interaction mode of four models

        傳統(tǒng)的卷積神經(jīng)網(wǎng)絡更多的是應用在圖像處理上,原因是卷積核為不可拆分的固定維度張量,但應用于知識圖譜上時,輸入張量的邊角和輸入中心區(qū)域與卷積核的交互程度產(chǎn)生的差異,會導致卷積神經(jīng)網(wǎng)絡沒有均勻地捕捉實體和關(guān)系的嵌入特征.InteractE采用了循環(huán)卷積運算,卷積核不受邊界限制,從而捕捉三元組中更多的特征信息.圖3展示了標準卷積和循環(huán)卷積的區(qū)別.

        2.2.2 基于循環(huán)神經(jīng)網(wǎng)絡的知識圖譜補全

        多數(shù)知識圖譜補全往往針對的是單個三元組的補全,即預測實體間的直接關(guān)系,而對實體間的長期關(guān)系沒有過多的關(guān)注.在知識圖譜中,實體間存在類似序列的關(guān)系,也就是語義信息會沿路徑傳播,而單個三元組難以包含在路徑中傳播的語義信息.對于路徑關(guān)系處理,常用的是循環(huán)神經(jīng)網(wǎng)絡(RNN),而RSN[37]將循環(huán)神經(jīng)網(wǎng)絡與殘差學習相結(jié)合,通過隨機游走的方式來捕獲實體間的長期依賴關(guān)系.

        常見的RNN循環(huán)神經(jīng)網(wǎng)絡[49]分為輸入層、隱藏層和輸出層3大部分,通常上一次的輸出只作為下一次輸入的一部分,來確保節(jié)點間的語義信息可以有效保存.RNN原理如公式(9)所示:

        ht=tanh(Whht-1+Wxxt+b)

        (9)

        其中ht為當前層的輸出,ht-1為上一層的輸出,Wh為ht-1的權(quán)重矩陣,用來調(diào)整上一層信息的占比.xt為當前層的輸入,Wx為輸入的權(quán)重矩陣.

        顯然,傳統(tǒng)的RNN每次都會迭代上一層的信息,但隨著層數(shù)的堆疊,最早的信息會多次與權(quán)重矩陣進行運算,導致信息占比不斷減少,對路徑語義信息的捕捉效率也不斷降低.而且RNN忽略了知識圖譜中的三元組結(jié)構(gòu),只是對路徑節(jié)點的信息進行捕捉記錄.

        對于關(guān)系路徑,往往是一條實體與關(guān)系相互間隔排列的路徑,也就是說關(guān)系路徑中的排列元素可能是實體,也可能是關(guān)系.RSN結(jié)合殘差學習的方式提出了跳躍機制,對節(jié)點和關(guān)系進行區(qū)分.對于實體節(jié)點的嵌入,RSN不僅將其作為當前層的輸出,而且在下一層的關(guān)系嵌入中加入實體信息,讓實體信息有效參與到神經(jīng)網(wǎng)絡運算中,而這種實體跳躍關(guān)系鏈接的方式就是RSN的跳躍機制.RSN的遞歸公式如公式(10)所示:

        (10)

        RSN通過隨機游走來對知識圖譜進行補全,常見的無偏置的隨機游走通過均勻的概率分布選擇下一個實體,RSN采用偏置隨機游走,利用二階隨機游走的想法,并引入深度偏置來控制采樣的路徑深度.二階隨機游走與一階不同的是,一階隨機游走只依賴當前節(jié)點,而二階隨機游走會捕捉到當前節(jié)點與上一個節(jié)點,相對一階隨機游走提高了精度.常規(guī)的隨機游走[50](Conventional random walks)如公式(11)所示:

        (11)

        其中ei為隨機游走的第i層實體,r為關(guān)系,Γ為知識圖譜中的三元組集合,πei→ei+1表示對ei到ei+1之間的非歸一化轉(zhuǎn)移概率.對所有的三元組隨機進行概率抽樣.

        RSN中提到的偏置隨機游走(Biased random walks)通過二階隨機游走來提高精度,并采用偏置來控制采樣的路徑大小,二階隨機游走如公式(12)所示:

        (12)

        其中d(a,b)表示實體a和b之間的最短路徑距離,值的范圍為{0,1,2},且控制隨機游走路徑方向的超參數(shù)α∈(0,1),μd(ei-1,ei+1)中較大的值代表隨機游走的方向.

        2.2.3 基于圖神經(jīng)網(wǎng)絡的知識圖譜補全

        深度學習的研究領(lǐng)域不斷擴大,圖神經(jīng)網(wǎng)絡[51](GNN,Graph Neural Network)突破了卷積神經(jīng)網(wǎng)絡[52](CNN,Convolutional Neural Network)的局限性,不再像卷積神經(jīng)網(wǎng)絡那樣只能應用于歐幾里得數(shù)據(jù)上,而是通過聚合圖結(jié)構(gòu)的數(shù)據(jù)來捕捉信息,其中圖卷積網(wǎng)絡[53](GCN,Graph Convolution Network)是將圖中的數(shù)據(jù)通過映射函數(shù)來聚合自身和鄰域的特征信息.GCN的消息傳遞如公式(13)所示:

        (13)

        gm(hi,hj)=Whj

        (14)

        從上述公式可以看出,GCN對鄰域聚合的方式是通過統(tǒng)一的函數(shù)來處理,對于鄰域中不同的節(jié)點以及關(guān)系并沒有進行有效的區(qū)分.R-GCN[39](Relational Graph Convolutional Network)改進了傳統(tǒng)GCN的信息聚合方式,對節(jié)點間的不同關(guān)系進行分類,每種關(guān)系中的節(jié)點都有對應的信息聚合方法.R-GCN將不同類型的邊設定一個獨立的權(quán)重矩陣,使得聚合鄰域節(jié)點時權(quán)重矩陣會記錄相種關(guān)系相關(guān)的節(jié)點信息,R-GCN的信息傳遞如公式(15)所示:

        (15)

        圖4中網(wǎng)格節(jié)點表示聚合的當前節(jié)點,深色節(jié)點和斜線填充的節(jié)點為當前節(jié)點的鄰域,對不同關(guān)系構(gòu)成的鄰域(從rel_1到rel_N組關(guān)系鄰域,且根據(jù)方向再劃分為in和out兩種)進行特征提取,并按照分配的權(quán)重矩陣加權(quán)求和,最后通過激活函數(shù)獲得最終特征.

        圖4 R-GCN的節(jié)點特征信息聚合過程Fig.4 Aggregation process of node characteristic information in R-GCN

        R-GCN的作用更多的是作為一種編碼器,通過多個矩陣來聚合不同關(guān)系的信息.但由于每種關(guān)系需要一個權(quán)重矩陣,導致R-GCNs訓練時所需要的參數(shù)過多,而且R-GCN聚合的目標是實體節(jié)點,對關(guān)系本身的信息沒有進行捕捉.在知識圖譜中,因為不同實體之間的關(guān)系會因為實體語義環(huán)境而變化,所以關(guān)系本身是具有方向的.TransGCN[40]在R-GCN的基礎上提出實體更新和關(guān)系更新,而且定義了相對于實體的關(guān)系方向,對于實體節(jié)點vi,從其他節(jié)點指向vi的關(guān)系為incoming關(guān)系,而從vi指向其他節(jié)點的稱為outgoing關(guān)系.而且TransGCN更加重視知識圖譜中的三元組結(jié)構(gòu),TransGCN將GCN與Trans模型相結(jié)合,并定義Trans模型的三元組轉(zhuǎn)換方式,如公式(16)所示:

        (16)

        其中° 和*代表頭實體h向尾實體t和尾實體t向頭實體h轉(zhuǎn)換的操作符號,會與不同Trans模型結(jié)合時賦予不同的操作方法.

        TransGCN在更新實體和關(guān)系節(jié)點時采用了消息傳遞神經(jīng)網(wǎng)絡框架[54](MPNN,Message Passing Neural Networks).MPNN是一個用于深度學習的算法框架,主要作用類似神經(jīng)網(wǎng)絡中的前饋網(wǎng)絡,將三元組的嵌入作為消息傳遞內(nèi)容,再與相應的實體或邊結(jié)合,從而達到實體與邊的更新.消息更新公式如公式(17)所示:

        (17)

        公式中m為消息嵌入,M為消息更新矩陣,l為隱藏層層數(shù),vj為頭實體特征,vi為尾實體特征,rk為關(guān)系特征,Γ(vi)為與節(jié)點vi相關(guān)聯(lián)的三元組集合.

        有了傳遞的消息嵌入,就可以將消息與實體特征結(jié)合,獲得新的實體特征.實體更新公式如(18)所示,其中U為實體更新的權(quán)重矩陣.

        (18)

        對于關(guān)系更新,TransGCN直接采用一個變換矩陣W1來做為更新權(quán)重矩陣,關(guān)系更新公式如(19)所示:

        (19)

        TransGCN的更新方式如圖5所示,圖5(c)節(jié)點和邊對應圖5(a)和圖5(b)的嵌入對象,虛線表示Incoming關(guān)系,實線表示Outgoing關(guān)系.圖5(a)中的深色實體為要更新的節(jié)點特征,° 和*為Trans模型的轉(zhuǎn)換公式換算符.

        圖5 TransGCN的更新方式Fig.5 Update mode of TransGCN

        TransGCN不僅僅改進了R-GCN在知識圖譜的嵌入方式,而且還作為編碼器與Trans模型相結(jié)合,將公式(16)中的操作符° 和*進行替換,就可以將Trans模型公式代入消息傳遞公式中.作者選取了TransE和RotatE兩種模型,其頭實體和尾實體的轉(zhuǎn)換公式分別如如公式(20)和公式(21)所示:

        (20)

        (21)

        2.3 張量分解模型的知識圖譜補全

        2.3.1 張量分解模型對潛在因子的獲取

        張量分解模型則是將整個知識圖譜張量化,通過張量的形式來表示三元組以及內(nèi)部的關(guān)系,整個知識圖譜可以被看做是一個三階二元張量,每個元素代表一個三元組.經(jīng)典的張量模型RESCAL[41]將兩個實體(頭實體和尾實體)向量化,從而構(gòu)成一個含有關(guān)系的域.假設有E1…En這 n個實體,R1…Rm為實體E所構(gòu)成的m個域中的關(guān)系,通過張量模型分解潛在因子來獲取新的關(guān)系嵌入.張量分解如公式(22)所示:

        χk≈ARkAT,fork=1,…,m

        (22)

        其中χk為待分解矩陣,A為分解的中的潛在實體特征,Rk則是一個非對稱矩陣.通過分解矩陣,RESCAL可以從兩個對照的三元組(其中一個為殘缺三元組,缺少關(guān)系)中預測新的關(guān)系.如圖6所示,小明、小紅都有上司在同一飯店聚餐,而小紅也參與了飯店聚餐,通過RESCAL將小紅和飯店構(gòu)成一個待分解的矩陣,再利用小明和飯店作為分解的部分矩陣,來推測小明和飯店之間的關(guān)系(虛線為推測的關(guān)系).

        圖6 RESCAL應用示例Fig.6 Application example of RESCAL

        2.3.2 張量分解模型在復數(shù)域上的擴展

        為了解決DisMult中的這一問題,ComplEx[46]引入了復數(shù)域,將實體用復數(shù)向量表示,這樣非對稱關(guān)系也可以通過共軛向量來解決.在關(guān)系為r,實體為s和o的三元組(s,r,o)中,ComplEx將張量分解中的適用關(guān)系擴展到了多類型,對于關(guān)系則有嵌入向量ωr∈CK,其中CK表示K維度的復向量空間,實體嵌入則用es和eo表示,模型的評分函數(shù)如公式(23)所示:

        (23)

        2.3.3 張量分解模型的一般性擴展

        TuckER模型在張量分解中表現(xiàn)更具有一般性,RESCAL、DisMult和ComplEx都是在三階二元張量中進行三元組補全,TuckER也不例外,模型利用塔克分解(Tucker Decomposition)來處理張量分解問題.塔克分解在三階的情況下會將張量拆分為一個核心張量和3個分部矩陣,如公式(24)所示:

        (24)

        其中,待分解的原始張量χ∈RI×J×K,核心張量Z∈RP×Q×R,分部矩陣分別為A∈RI×P,B∈RJ×Q,C∈RK×R.符號×n為第n個情況下的乘法,?為向量內(nèi)積運算符.

        模型將塔克分解中的3個分部矩陣作為三元組對應的3個嵌入矩陣,即實體嵌入矩陣E=A=C,關(guān)系嵌入矩陣R=B,核心張量Z=W.而對于三元組(s,r,o)就有對應的向量表示es,wr.eo.es,wr和eo分別為3個嵌入矩陣的向量表示,由此也可定義TuckER的評分函數(shù)如公式(25)所示:

        φ(es,r,eo)=W×1es×2wr×3eo

        (25)

        最后通過激活函數(shù)獲得概率p=σ(φ(es,r,eo))作為三元組預測的真實性概率.

        3 已有知識圖譜補全技術(shù)比較

        3.1 知識圖譜補全性能的常用指標

        1)Mean Rank:通過評分函數(shù)f()來計算三元組的得分(比如真實性),從實體集合中取出部分實體代替原有的三元組中的尾實體(或頭實體),并對替換后的三元組計算得分,分越底排名越靠前,再對所有與測試集相符的排名次數(shù)求和取均值就為Mean Rank,值越低表示模型性能越好.

        2)Hits:與Mean Rank類似,通過相同的評分函數(shù)來計算排名,排在測試集中前k名的三元組個數(shù)之和在所有三元組中的比例則為Hits@k.Hits的值越高說明符合排名內(nèi)的三元組可能越多,模型效果越好.

        3.2 知識圖譜補全常用數(shù)據(jù)集

        1)WordNet:WordNet是以英文為主的一種數(shù)據(jù)集,早在1995年就被提出并建立,該數(shù)據(jù)集將英文中的各種詞匯作為實體對象,通過不同詞匯之間的關(guān)系來構(gòu)建知識圖譜.作為一個由詞匯構(gòu)成的語義網(wǎng)絡,WordNet在構(gòu)建處就明確了6種語義關(guān)系信息,分別為同義關(guān)系(synonymy)、反義關(guān)系(antonymy)、上下關(guān)系(hyponymy & hypernymy)、部分與整體關(guān)系(meronymy & holonymy)、方式關(guān)系(troponymy)和蘊含關(guān)系(entailment).論文中使用的往往是WordNet的子集,例如WN11、WN18、WN18RR等.

        2)Freebase:Freebase是一個超大規(guī)模的知識圖譜數(shù)據(jù)集,含有超過1.25億個三元組,關(guān)系種類超過4000,而實體屬性超過7000.Freebase屬于百科類型的知識圖譜,建立的初衷就是為了記錄地球上所有的知識,里面涉及了多種學科知識,比如人文、地理.由于Freebase本身數(shù)據(jù)量較為龐大,實驗往往會采用Freebase的子集,例如FB15K、FB15K-237、FB1M等.常用公共數(shù)據(jù)集信息如表2所示.

        表2 常用公共數(shù)據(jù)集Table 2 Common public datasets

        對于數(shù)據(jù)集的選擇,各個模型往往選取特定的關(guān)系種類來體現(xiàn)模型的優(yōu)勢,所以使用的數(shù)據(jù)集以子集為主.本文從各個模型實驗中選取了4個常用的數(shù)據(jù)集作為實驗對比,分別為WordNet的子集WN18、WN18RR和Freebase的子集FB15K、FB15K-237.WN18包含了18種詞語關(guān)系,WN18RR對WN18的關(guān)系進行了刪選,因為WN18包含了許多互為逆的三元組,比如(合肥,屬于,中國)和(中國,包含,合肥)就是一對互逆的三元組,這種三元組在數(shù)據(jù)處理的過程中對關(guān)系取逆就可以得到,因此WN18RR刪除了可以通過關(guān)系取逆的三元組.類似的FB15K也刪除了類似可以關(guān)系取逆的三元組,但Freebase本身內(nèi)容較多,F(xiàn)B15K依舊保留了1345中關(guān)系.FB15K-237則是在原有基礎上進一步刪減數(shù)據(jù),保留了237種關(guān)系.

        3.3 不同知識圖譜補全技術(shù)實驗分析

        文章中的實驗結(jié)果是作者在公開數(shù)據(jù)集上進行實驗得出的,將知識圖譜補全常用的3種指標Mean Rank、Hits和MRR作為評測標準,總結(jié)各個模型的在WN18、WN18RR、FB15K和FB15K-237 4個數(shù)據(jù)集上的實驗數(shù)據(jù),對比模型的訓練效果.其中Raw表示包含負樣本的初始的三元組數(shù)據(jù),因為人為構(gòu)造的三元組不一定不存在,也有可能是真實數(shù)據(jù),所以也可以作為訓練數(shù)據(jù).Filter則表示的是刪除過負樣本的真實數(shù)據(jù).具體的實驗結(jié)果如表3~表6所示.

        表3 數(shù)據(jù)集下不同模型實驗結(jié)果Table 3 Experimental results of each model in WN18 dataset

        表4 WN18RR數(shù)據(jù)集下不同模型實驗結(jié)果Table 4 Experimental results of each model in WN18RR dataset

        表5 FB15K數(shù)據(jù)集下不同模型實驗結(jié)果Table 5 Experimental results of each model in FB15K dataset

        表6 FB15K-237數(shù)據(jù)集下不同模型實驗結(jié)果Table 6 Experimental results of each model in FB15K-237 dataset

        表3所用的數(shù)據(jù)集為WN18,其中DisMult數(shù)據(jù)來源于ComplEx,WN18作為WordNet的一個子集,所構(gòu)成的關(guān)系種類并不多,因此復雜的模型并不一定可以在WordNet上取得很好的效果,從Hits@10的數(shù)據(jù)中可以看出,神經(jīng)網(wǎng)絡模型和張量分解模型的表現(xiàn)較好,如ConvR模型、R-GCN模型、TuckER模型及ComplEx模型等,但在MRR上神經(jīng)網(wǎng)絡模型的得分較低,如R-GCN模型及DisMult模型.

        Trans結(jié)構(gòu)模型中的RotatE在Hits@10上排到了第1名,它在Hits@1和Hits@3以及MRR 3種評價指標中也均表現(xiàn)很好,張量分解模型在Hits@10和MRR兩種評價指標上均表現(xiàn)良好,其中TuckER的MRR評分最高,在Hits@1和Hits@3上也排到了第1名.這也在一定程度上說明了張量分解模型比較適用關(guān)系較少的知識圖譜.

        表4中TransE的數(shù)據(jù)來源于ConvKB的實驗數(shù)據(jù),表中數(shù)據(jù)集WN18RR是在WN18的基礎上去除了可逆關(guān)系的三元組,進一步簡化了關(guān)系的復雜度,Trans模型在Mean Rank指標上表現(xiàn)較好,而在另兩個指標中TransE的分值較低,RotatE則在Hit@3及Hit@1中表現(xiàn)較好,神經(jīng)網(wǎng)絡模型中的TransGCN在Hits@10以及Hits@3評價指標中均排到了第1名,而ConvKB在MRR評價指標中分值較低,神經(jīng)網(wǎng)絡模型中的ConvKB在MRR中表現(xiàn)較差,而Trans結(jié)構(gòu)中的TransE在Hits@1中表現(xiàn)則最差,其他的神經(jīng)網(wǎng)絡模型和張量分解模型沒有太大的區(qū)別.同時,可以看出,張量分解模型的改進有一定的成效,DisMult、ComplEx和TuckER的評價分數(shù)穩(wěn)步上升.

        如表5所示,F(xiàn)B15K中所含的實體個數(shù)為14951個,數(shù)量上要少于WN18和WN18RR,但關(guān)系種類遠大于WordNet的這兩個子集,共有1345種,而且訓練所需的三元組也較多.可以看出,神經(jīng)網(wǎng)絡模型中實驗數(shù)據(jù)整體較為穩(wěn)定,張量分解模型中的DisMult在MRR中,及Trans模型中的TransE在Hit@10中都表現(xiàn)較差;而張量分解模型中的TuckER則在Hit@10中表現(xiàn)良好.從整體上看,神經(jīng)網(wǎng)絡模型更適合于關(guān)系復雜的知識圖譜,主要因為神經(jīng)網(wǎng)絡模型對關(guān)系語義的捕捉更加精確.

        表6中的FB15K-237對FB15K的關(guān)系種類進行了較大的縮減,訓練規(guī)模也有所減小,大多數(shù)模型都有較好的訓練效果,尤其近幾年出現(xiàn)的模型評分較高,這也在一定程度上反應了知識圖譜補全技術(shù)的最新發(fā)展.其中TransE實驗數(shù)據(jù)來源于ConvKB,DisMult、ComplEx實驗數(shù)據(jù)來源于TuckER.

        4 已有知識圖譜補全技術(shù)存在的主要問題

        4.1 模型關(guān)系復雜性高

        知識圖譜是通過關(guān)系來連接數(shù)據(jù),而知識圖譜中的關(guān)系種類較為復雜,單一結(jié)構(gòu)的模型在處理多種關(guān)系時,往往會出現(xiàn)很多問題,如TransE模型難以處理一對多的關(guān)系,DisMult雖然使用了對角矩陣,也難以處理非對稱關(guān)系.模型的結(jié)構(gòu)在一定程度上會對關(guān)系的處理產(chǎn)生影響,單一結(jié)構(gòu)的模型在數(shù)據(jù)處理上更有效率,而往往會受限于對關(guān)系種類的處理.如何改進現(xiàn)有知識圖譜補全模型,使得模型可以學習更大規(guī)模的關(guān)系種類,成為知識圖譜補全技術(shù)的一個主要研究方向.

        4.2 語義信息難以獲取

        知識圖譜本質(zhì)上也是圖,作為一種非歐數(shù)據(jù)結(jié)構(gòu),采用傳統(tǒng)的歐式幾何處理方法會產(chǎn)生維度過高,計算復雜等問題.在知識圖譜補全技術(shù)中,一些模型采用分割處理的方式,只對圖譜中的一部分幾何結(jié)構(gòu)進行處理,例如Trans模型多是是通過一組或多組類似的假三元組,來擬合真實三元組.但這種方式往往割裂了不同三元組之間的關(guān)系,難以擬合圖譜中語義信息的獲取.

        4.3 訓練代價高

        大規(guī)模知識圖譜結(jié)構(gòu)復雜,數(shù)據(jù)龐大,從數(shù)據(jù)收集、數(shù)據(jù)清洗、對比分析到圖譜的構(gòu)建,整個流程自動化程度不高,知識圖譜補全技術(shù)往往將知識圖譜拆分為多組三元組,因其結(jié)構(gòu)及數(shù)據(jù)本身的復雜性,導致補全模型的訓練效率低.這在神經(jīng)網(wǎng)絡結(jié)構(gòu)模型上表現(xiàn)較為明顯,神經(jīng)網(wǎng)絡對一個三元組往往會有多層的信息傳遞和計算,這雖然增強了對關(guān)鍵信息捕捉的能力,但一定程度上加重了模型訓練負擔,使得模型訓練代價高.

        4.4 模型可擴展性、通用性差

        大多數(shù)知識圖譜補全模型(例如Trans模型和張量分解模型)都是對同一時間點的圖譜內(nèi)容進行補全,模型在訓練時也只是針對訓練集中已有的三元組,無法推測出數(shù)據(jù)中未知的三元組數(shù)據(jù),這種靜態(tài)的補全方式難以適應外界環(huán)境的變化,模型的可擴展性差.現(xiàn)實世界中,環(huán)境復雜多變,要求知識圖譜的補全技術(shù),能夠適應外部環(huán)境的變化而動態(tài)變化.同時,當前知識圖譜的構(gòu)建仍然高度依賴領(lǐng)域?qū)<抑R,模型通常具有較強的行業(yè)屬性,其通用性較差.

        4.5 路徑數(shù)量增長過快

        在知識圖譜中進行路徑查找,可以進行更加復雜的知識推理,但在大規(guī)模的圖譜中存在路徑數(shù)量增長過快及冗余信息過多等問題.傳統(tǒng)的路徑查找方法主要是PRA方法(Path Ranking Algorithm),但對于規(guī)模較大的知識圖譜,這種路徑查找方法會帶來路徑數(shù)量的過快增長與冗余信息過多,進而會導致特征空間急劇膨脹.

        5 知識圖譜補全技術(shù)未來主要研究方向

        5.1 復雜關(guān)系處理研究

        TransE和RESCAL中對實體和關(guān)系的處理都是進行單一的向量化,通過向量的簡單計算來表示三元組中各元素之間的關(guān)系,這種處理雖然極大的減輕了數(shù)據(jù)訓練時的復雜度,但缺乏對復雜關(guān)系的有效處理,TransH、TransR、DisMult等模型都做出了一定的改進,而在一些較為特殊的關(guān)系中(例如對稱關(guān)系),RotatE、ComplEx等一些模型引入了復數(shù)域的概念,通過共軛向量的特殊性質(zhì)來表示更多實體間關(guān)系.

        5.2 上下文語義信息獲取研究

        傳統(tǒng)的張量分解模型主要以線性變換為主,這種方式往往會導致模型處理后的結(jié)果缺乏表現(xiàn)力,而且張量之間的相乘難以保證每個張量的元素之間都會產(chǎn)生交互,因而需要非線性的處理方式,神經(jīng)網(wǎng)絡模型就可以有效的彌補這一缺憾.ConvE最早提出了將卷積神經(jīng)網(wǎng)絡用于知識圖譜補全技術(shù)中,而ConvE使用的是較為傳統(tǒng)的卷積模型,對三元組的處理僅僅是向量化拼接成新的張量,這種做法對知識圖譜中的豐富語義信息捕捉不夠連貫,元素之間的信息聚合更多的是割裂的.ConvKB、ConvR以及InteractE進一步改進了三元組的處理方式和卷積神經(jīng)網(wǎng)絡,彌補了之前的不足.

        同樣的,圖神經(jīng)網(wǎng)絡也開始應用于這一領(lǐng)域中,較為經(jīng)典的模型R-GCN,通過對關(guān)系分類來聚合實體節(jié)點.由于知識圖譜中的關(guān)系種類繁多,這導致R-GCN需要大量的參數(shù)(R-GCN中每個關(guān)系都有對應的權(quán)重矩陣)來參與數(shù)據(jù)訓練,增加了模型的訓練的時間復雜度.TransGCN雖然減少了R-GCN的參數(shù)使用,但本身對圖神經(jīng)網(wǎng)絡的更新方式?jīng)]有做出更多的改變,而是與其他模型更好的結(jié)合起來,將圖神經(jīng)網(wǎng)絡實現(xiàn)知識圖譜補全中的編碼功能.

        5.3 節(jié)點間長期的依賴關(guān)系捕獲方式研究

        上述的模型中多數(shù)都是將目光集中在單個三元組上,而多個關(guān)系密切的三元組所形成的鏈路路徑也應當被視為一個研究的重點.PTransE和RSN將多步路徑引入到了知識圖譜補全技術(shù)中,知識圖譜的構(gòu)成本身就具備較強的邏輯性,實體間的邏輯關(guān)系也可以被看作是一種序列關(guān)系,PTransE和RSN這兩個模型都提到了循環(huán)神經(jīng)網(wǎng)絡的使用,不同的是RSN對循環(huán)神經(jīng)網(wǎng)絡做出了改進,而PTransE更多的是結(jié)合多個模型.在路徑的信息聚合中難免會遇到一個問題——如何選取有效的路徑作為信息聚合對象?兩種模型也給出了不同的方式,PTransE通過路徑資源算法來評估路徑的“價值”,以此來作為是否作為有效信息的衡量標準,而RSN則是通過隨機游走和噪聲估計的方式聚合路徑信息.

        5.4 多模型融合研究

        經(jīng)典的知識圖譜補全模型往往都存在著一定的局限性,如R-GCN是通過聚合周圍節(jié)點信息得到節(jié)點嵌入,適用于編碼器,而RESCAL、DisMult等模型則是通過映射的方式將三元組轉(zhuǎn)換為低維向量組合,可以作為解碼器使用,類似的TransGCN將GCN和Trans模型在信息傳遞的過程中結(jié)合,通過Trans模型解開GCN編碼.將多種較為基礎的模型進行有效的融合可以彌補原有模型的不足,進一步拓展模型的功能.

        5.5 模型的可擴展性、通用性研究

        現(xiàn)實世界往往是動態(tài)變化的,要求所構(gòu)建的知識圖譜能夠適應這種動態(tài)變化的特征.傳統(tǒng)用于靜態(tài)知識圖譜補全的方法,在捕獲動態(tài)信息方面有著較大的局限性,不能直接運用于這種動態(tài)的、甚至是多模態(tài)的知識圖譜補全方面.近年來,出現(xiàn)了一些新的知識圖譜補全技術(shù)[58,59],采用類似遷移學習的思想,借助神經(jīng)網(wǎng)絡模型,以獲取不同動態(tài)場景中特征信息,對數(shù)據(jù)集中未知的關(guān)系和實體進行補全預測,以提高模型的可擴展性,然而,實際效果都不是非常理想,模型的通用性也較差.如何將知識圖譜補全技術(shù)運用于動態(tài)、多模態(tài)環(huán)境,以提高知識圖譜補全模型的可擴展性,及如何將知識圖譜技術(shù)運用于現(xiàn)實世界中的不同領(lǐng)域,以提高知識圖譜補全模型的通用性,都是未來值得研究的重要方向.

        6 結(jié)束語

        本文對已有知識圖譜補全技術(shù)相關(guān)的主要研究進行了分析與討論,指出了已有知識圖譜補全技術(shù)不同模型各自的優(yōu)點與不足.從知識圖譜補全模型復雜關(guān)系處理、上下文語義信息獲取、節(jié)點間長期依賴關(guān)系的捕獲、模型的可擴展性與通用性等方面,展望了未來知識圖譜補全技術(shù)主要研究方向,以期對知識圖譜補全技術(shù)研究提供一點借鑒與幫助.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        最近免费中文字幕中文高清6 | 国产综合无码一区二区色蜜蜜| 熟女性饥渴一区二区三区| 亚洲国产成人资源在线桃色| 蜜桃av在线播放视频| 一本色道久久hezyo无码| 任你躁国产自任一区二区三区| 色老头一区二区三区| 日韩狼人精品在线观看| 久久中文字幕暴力一区| 精品久久人妻av中文字幕| 精品熟女少妇av免费观看| 99久久精品国产片| 国产精品自拍盗摄自拍| 国产乱子伦精品无码专区| 中文字幕精品久久久久人妻| 久久国产成人亚洲精品影院老金| 少妇性l交大片免费快色| 日韩精品综合一本久道在线视频| 精品深夜av无码一区二区老年| 揄拍成人国产精品视频| 国产精品成人黄色大片| 日韩av精品视频在线观看| 人妻少妇边接电话边娇喘| 无遮挡十八禁在线视频国产制服网站| 久久蜜臀av一区三区| 国产精品一区二区三区专区| v一区无码内射国产| 色综合久久久久综合999| 国产亚洲精品视频网站| 国产区精品一区二区不卡中文| 国产成人麻豆精品午夜福利在线| 无码伊人66久久大杳蕉网站谷歌| 无色码中文字幕一本久道久| 九色综合九色综合色鬼| 欧美亚洲日本在线| 一本久道视频无线视频试看| 国产亚洲精品综合一区| 亚洲av日韩av综合| 亚洲欧美另类日本久久影院| 亚洲精品女同一区二区三区|