亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于位置的知識圖譜鏈接預(yù)測

        2018-05-29 03:28:03張寧豫陳矯彥鄧淑敏吳春明陳華鈞
        中文信息學(xué)報(bào) 2018年4期
        關(guān)鍵詞:三元組圖譜實(shí)體

        張寧豫,陳 曦,陳矯彥,鄧淑敏,阮 偉,吳春明,陳華鈞

        (1. 之江實(shí)驗(yàn)室,人工智能與未來網(wǎng)絡(luò)技術(shù)研究院,浙江 杭州 311121; 2. 浙江大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310058 3. 牛津大學(xué),計(jì)算機(jī)科學(xué)系,英國,OX1 3QR; 4. 浙江大學(xué),控制科學(xué)與工程學(xué)院,浙江 杭州 310058)

        0 引言

        知識圖譜例如FreeBase、Yago等是很多人工智能應(yīng)用的重要數(shù)據(jù)來源。它包含了海量的實(shí)體和關(guān)系并以三元組的形式進(jìn)行存儲。然而,大多數(shù)知識庫的數(shù)據(jù)都是缺失的。所以知識庫補(bǔ)全,也就是對現(xiàn)有的知識庫進(jìn)行鏈接,預(yù)測新的關(guān)系和實(shí)體是一項(xiàng)重要的工作。

        現(xiàn)有的知識圖譜鏈接預(yù)測方法大多都是直接利用實(shí)體、關(guān)系本身或圖的特征來進(jìn)行鏈接預(yù)測。對于給定的知識圖譜,實(shí)體和關(guān)系通常會(huì)被映射成低維的向量。通過定義一個(gè)打分函數(shù)來對每一對實(shí)體和關(guān)系的三元組進(jìn)行預(yù)測。實(shí)體和關(guān)系的向量可以通過最大化已知正確三元組的打分函數(shù)來訓(xùn)練獲得。

        然而,在訓(xùn)練實(shí)體、關(guān)系向量與打分函數(shù)的過程中,這類方法并沒有利用實(shí)體和關(guān)系本身隱藏的位置特征。 此外,由于實(shí)體和關(guān)系向量化方法數(shù)據(jù)驅(qū)動(dòng)特點(diǎn),如果訓(xùn)練結(jié)果中某一類關(guān)系或者實(shí)體數(shù)據(jù)量很小,訓(xùn)練出的這一關(guān)系或?qū)嶓w的向量針對打分函數(shù)可能會(huì)導(dǎo)致過擬合等問題。

        事實(shí)上,現(xiàn)有的知識庫中儲存著海量的位置相關(guān)的實(shí)體和關(guān)系。例如,在三元組(魯迅,WasBornIn,紹興)中,實(shí)體“紹興”有明確的位置特征。 利用實(shí)體“紹興”的屬性可以獲得位置特征,進(jìn)而可以推測實(shí)體“魯迅”隱含的位置特征,利用位置的隱含特征構(gòu)造規(guī)則約束。例如,在判斷三元組(魯迅,WasBornIn, 浙江)是否成立時(shí),利用實(shí)體“魯迅”的位置特征和空間位置的規(guī)則判斷,可以約束判斷的最終結(jié)果。

        在本文中, 我們提出了一種針對位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測方法。 位置相關(guān)的關(guān)系指的是三元組中至少含有一個(gè)實(shí)體,其屬性或者本身含義帶有位置的特點(diǎn)。 例如,至少有一個(gè)實(shí)體是一個(gè)地名、一個(gè)區(qū)域名稱、一個(gè)興趣點(diǎn)名稱等。

        首先,針對基于位置的三元組,我們根據(jù)其特點(diǎn)把基于位置的關(guān)系分成了三類: 包含關(guān)系、相鄰關(guān)系和相交關(guān)系。包含關(guān)系是兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互包含的,例如LoactedIn。相鄰關(guān)系是指兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互分離的,但在一定距離內(nèi),例如NearBy。相交關(guān)系是指兩個(gè)實(shí)體本身的地理坐標(biāo)范圍是相互交叉的,例如HasSameHometown。 針對不同的實(shí)體,我們提取出不同的隱藏位置特征。 針對不同的關(guān)系類型,我們提取不同的規(guī)則。 實(shí)體的隱藏位置特征主要由實(shí)體本身的位置(如經(jīng)緯度或地名)和它的輻射范圍組成。 規(guī)則主要分成兩類: 一類是通用規(guī)則。例如,兩個(gè)實(shí)體間擁有NearBy 關(guān)系必然會(huì)存在HasNeighbour 關(guān)系,同時(shí)NearBy 關(guān)系的實(shí)體必須是屬于Location 類型的。另一類是位置規(guī)則。例如,實(shí)體h和實(shí)體t的隱藏位置特征是后者包含前者,則兩個(gè)實(shí)體間有可能存在包含這類的關(guān)系。最后,我們利用規(guī)則對向量化方法結(jié)果進(jìn)行約束,得到最終的結(jié)果,如圖1所示。

        圖1 基于位置的向量化和規(guī)則鏈接預(yù)測方法

        我們的方法有以下優(yōu)點(diǎn): (1)規(guī)則的使用降低了計(jì)算空間并提高了準(zhǔn)確度; (2)保留了向量化方法的優(yōu)點(diǎn),同時(shí)加入了隱藏的位置信息; (3)它是一個(gè)通用的框架,能夠適用各種通用的向量化方法和規(guī)則。

        綜上所述,本文的貢獻(xiàn)如下:

        (1) 針對基于位置的三元組,我們提出了挖掘?qū)嶓w和關(guān)系位置特征的方法。

        (2) 提出了一種針對位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測方法。

        (3) 利用WikiData、FB和WN的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),證明針對位置相關(guān)的鏈接預(yù)測,本方法比其他方法準(zhǔn)確度有所提高。

        1 相關(guān)工作

        知識圖譜的鏈接預(yù)測通常是指給定一組三元組,預(yù)測其成立的可能性。根據(jù)Nickel Maximilian[1]的研究,知識圖譜鏈接預(yù)測通常分為三大類: (1)通過實(shí)體和關(guān)系的隱含特征將其轉(zhuǎn)換成低維向量的方法[2-3];(2)基于圖特征的方法[4-5];(3) 基于馬爾科夫概率圖利用一階謂詞邏輯[6]或者軟邏輯(probabilistic soft logic)[7]來預(yù)測。

        基于向量化的知識圖譜鏈接預(yù)測方法的核心是用向量來表達(dá)實(shí)體和關(guān)系隱藏的特征。RESCAL[2]和TransE[8]是兩個(gè)典型的方法。它們通過最小化結(jié)構(gòu)風(fēng)險(xiǎn)或邊界誤差來學(xué)習(xí)隱藏的向量。然而,在學(xué)習(xí)和預(yù)測的過程中,這類方法都沒有利用潛在的位置特征和應(yīng)用規(guī)則。TRESCAL[9]將規(guī)則和RESCAL整合在了一起,但它僅能使用單一規(guī)則(例如某種關(guān)系的實(shí)體必須是特定的類型)。Rockt?schel等[10]提出了將一階謂詞邏輯映射成低維向量。但是他們的方法中規(guī)則并沒有直接起到鏈接預(yù)測的作用,也沒有降低預(yù)測的復(fù)雜度。 Wang Q等[11]提出了一種基于整數(shù)線性規(guī)劃(ILP)的方法,將向量化結(jié)果和規(guī)則整合起來進(jìn)行鏈接預(yù)測,但是他們并沒有利用潛在的位置特征和基于位置的規(guī)則。基于圖的方法核心是挖掘知識圖譜圖結(jié)構(gòu)所有的特征。Lü Lin[12]挖掘節(jié)點(diǎn)之間的相似度來進(jìn)行鏈接預(yù)測。Path ranking algorithm(PRA)[13]是利用節(jié)點(diǎn)之間不同通路包含的特征來進(jìn)行預(yù)測,也可以提煉出規(guī)則來約束結(jié)果。但是,基于圖特征的方法通常適合局部的鏈接預(yù)測,不一定能挖掘出全局的隱藏特征。我們方法的不同點(diǎn)在于提供了一個(gè)通用的利用位置特征和規(guī)則的預(yù)測框架,可以整合各種向量化方法和規(guī)則。

        在馬爾科夫網(wǎng)絡(luò)中,規(guī)則已經(jīng)被大量使用,代表性的研究有利用一階謂詞邏輯[6]和軟邏輯(probabilistic soft logic)[7]。本文利用規(guī)則來約束向量化方法的結(jié)果,將整合問題變成一個(gè)整數(shù)規(guī)劃問題。此外,我們挖掘出了隱藏的位置特征,構(gòu)造了位置特征的規(guī)則。

        2 方法

        2.1 定義

        定義1(實(shí)體位置特征) 如果實(shí)體e能夠在當(dāng)前知識庫或外部數(shù)據(jù)庫如Yago、GeoNames、 LinkedGeoData和WikiData中匹配到相應(yīng)的位置(經(jīng)緯度)和大致范圍或所屬上級的范圍,則e有位置特征fe=[lng,lat,D],lng是經(jīng)度,lat是緯度,D是一個(gè)描述實(shí)體包含范圍的數(shù)值,通常情況由實(shí)體本身的行政地域半徑或上級所屬區(qū)域半徑最小值確定。

        定義2(位置相關(guān)三元組) 三元組(h,r,t)的實(shí)體h、t中至少有一個(gè)實(shí)體含有位置特征。

        2.2 框架

        如圖2所示,我們的系統(tǒng)由兩部分組成: (1)位置特征和規(guī)則挖掘。首先對三元組中實(shí)體進(jìn)行位置特征提取,然后對基于位置的三元組的關(guān)系進(jìn)行自動(dòng)識別或者人工標(biāo)注分類,最后提取出其他可能存在的位置特征和規(guī)則。(2)基于向量化和規(guī)則的鏈接預(yù)測。首先對三元組利用向量化方法進(jìn)行訓(xùn)練,然后利用規(guī)則對結(jié)果進(jìn)行約束。

        圖2 框架系統(tǒng)的組成

        2.3 隱含的位置特征和規(guī)則挖掘

        給定一個(gè)基于位置的三元組(h,r,t), 首先我們需要提取出三元組中實(shí)體可以直接獲得的位置特征。例如,三元組(魯迅,WasBornIn, 紹興)中,通過對實(shí)體“魯迅”和“紹興”的類型和本地?cái)?shù)據(jù)庫以及外部數(shù)據(jù)庫Yago、GeoName、LinkedGeoData和WikiData的匹配得到,實(shí)體“紹興”是一個(gè)地名。我們可以獲得該實(shí)體的經(jīng)緯度、面積、相鄰城市等信息。通過近似計(jì)算(利用面積或相鄰區(qū)域經(jīng)緯度),我們可以獲得實(shí)體“紹興”的位置特征。然后我們需要獲得關(guān)系“WasBornIn”的類別,即它屬于包含、相鄰、相交哪一類。一般地說,有兩種做法: (1)自動(dòng)識別。遍歷所有三元組中兩個(gè)實(shí)體都含有位置特征的三元組,通過反向計(jì)算實(shí)體位置特征的差異,推導(dǎo)出此三元組擁有的關(guān)系,對常見的如LocatedIn、Nearby等關(guān)系,此方法可以方便地判別;(2)人工標(biāo)注。事實(shí)上,基于位置的關(guān)系總數(shù)并不多,再者,通常整個(gè)知識圖譜需要預(yù)測的關(guān)系數(shù)量級也不是很大,遠(yuǎn)小于實(shí)體個(gè)數(shù)數(shù)量級。所以可以采取人工標(biāo)注的方法來解決額外的關(guān)系分類問題。最后,我們通過已經(jīng)獲得的關(guān)系“WasBornIn”屬于包含關(guān)系,判斷實(shí)體“魯迅”隱藏位置特征,該特征和實(shí)體“紹興”的位置特征存在包含關(guān)系。這個(gè)知識可以作為規(guī)則,為后續(xù)的未知鏈接預(yù)測做約束。

        由此,我們可以獲得海量的實(shí)體隱藏位置特征和規(guī)則。事實(shí)上,可以獲得以下規(guī)則:

        規(guī)則1(實(shí)體類型匹配) 特定的關(guān)系擁有特定類型的實(shí)體。例如,關(guān)系LocatedIn擁有的兩個(gè)實(shí)體一定是Location 類型的;關(guān)系WasBornIn擁有的兩個(gè)實(shí)體一定是一個(gè)是Person類型,一個(gè)是Location類型。

        規(guī)則2(參數(shù)個(gè)數(shù)匹配) 一對多和多對一的關(guān)系中特定實(shí)體的數(shù)目有一定限制。例如CityLocatedInCountry是一個(gè)多對一的關(guān)系。給定一個(gè)城市實(shí)體,在知識圖譜中最多存在一個(gè)國家實(shí)體與之對應(yīng)。

        規(guī)則3(相似關(guān)系匹配) 如果關(guān)系r1和r2存在一定的牽連或同屬于同一個(gè)類型(同是包含類型),在不違背規(guī)則1、2的前提下,則擁有r1關(guān)系的實(shí)體可能存在r2關(guān)系。例如, CityCapitalOfCountry->CityLocatedInCountry。

        規(guī)則4(位置包含關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在包含關(guān)系,則兩個(gè)實(shí)體可能存在包含關(guān)系。例如,實(shí)體“魯迅”和實(shí)體“浙江”的位置關(guān)系存在包含關(guān)系,則兩個(gè)實(shí)體很大程度上存在包含關(guān)系。

        規(guī)則5(位置相鄰關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在相鄰關(guān)系,則兩個(gè)實(shí)體可能存在相鄰關(guān)系。例如,實(shí)體“西湖”和實(shí)體“浙江大學(xué)”的位置關(guān)系存在相鄰關(guān)系,則兩個(gè)實(shí)體很大程度上存在相鄰關(guān)系。

        規(guī)則6(位置相交關(guān)系) 如果兩個(gè)實(shí)體的位置特征存在相交關(guān)系,則兩個(gè)實(shí)體可能存在相交關(guān)系。例如,實(shí)體“金庸”和實(shí)體“徐志摩”的潛在的位置特征存在相交關(guān)系,則兩個(gè)實(shí)體可能存在相交關(guān)系。

        規(guī)則7(位置包含傳導(dǎo)) 如果實(shí)體e2的位置特征包含實(shí)體e1的位置特征,實(shí)體e3的位置特征包含實(shí)體e2的位置特征,則實(shí)體e3和e1存在包含關(guān)系。包含關(guān)系可以一直連續(xù)傳遞,相鄰和相交關(guān)系不能傳遞。例如,實(shí)體“魯迅”和實(shí)體“浙江”存在包含關(guān)系,實(shí)體“浙江”和實(shí)體“中國”存在包含關(guān)系,則實(shí)體“魯迅”和實(shí)體“中國”存在包含關(guān)系。

        此外,如果未知的一對一關(guān)系的三元組中,其中一個(gè)實(shí)體和關(guān)系存在于已知三元組正樣本中,那這個(gè)三元組很可能是不成立的。對于一些特殊的實(shí)體,可以通過幾重的關(guān)系鏈傳遞估計(jì)出位置特征的信息。例如,三元組(魯迅,說,中文),實(shí)體“中文”的位置特征可以通過關(guān)系如“中國人說中文”、“中國人出生在中國”、“紹興位于浙江”、“浙江位于中國”和“紹興位于中國”等估計(jì)得到,其位置特征大致和實(shí)體“中國”的位置特征接近,從而估計(jì)出實(shí)體“中文”的位置特征。

        2.4 基于向量化和規(guī)則的鏈接預(yù)測

        給定一個(gè)知識圖譜,其包含n個(gè)實(shí)體,m個(gè)關(guān)系。我們可以獲得三元組集合O={h,r,t}。向量化方法的目的在于: (1)通過隱含的特征把實(shí)體和關(guān)系映射到一個(gè)向量;(2)利用訓(xùn)練好的向量來預(yù)測新三元組成立的可能性。本文中我們利用了三種成熟的向量化方法: RESCAL、TRESCAL、 TransE。

        RESCAL將每個(gè)實(shí)體ei當(dāng)成一個(gè)向量ei∈Rd,每個(gè)關(guān)系rk都是一個(gè)矩陣Rk∈Rd×d。給定一個(gè)三元組(ei,rk,ej),它的打分函數(shù)如式(1)所示。

        (1)

        {e}和{rk}是通過最小化下面的結(jié)構(gòu)損失函數(shù)來獲得的,如式(2)所示。

        (2)

        TRESCAL是RESCAL算法的一個(gè)擴(kuò)展,需要對給定關(guān)系的實(shí)體類型進(jìn)行約束。例如,給定關(guān)系rk和分別包含特定類型的實(shí)體集合Hk,Tk,則問題變成優(yōu)化問題,如式(3)所示。

        (3)

        TransE將三元組(ei,rk,ej)映射成以下的三個(gè)向量ei,rk,ej∈Rd,它使用以下的打分函數(shù)來計(jì)算三元組成立的可能性,如式(4)所示。

        f(ei,rk,ej)=||ei+rk-ej||

        (4)

        其中{ei}、{rk} 是通過優(yōu)化式(5)的邊緣損失函數(shù)(正確樣本得到更高的得分,錯(cuò)誤樣本得分更低)來得到:

        (5)

        其中t+是正樣本,O是正樣本的集合,t-是負(fù)樣本,N是負(fù)樣本的集合。在替換過程中我們未采用隨機(jī)替換,而是替換之后確保新的三元組在原始的數(shù)據(jù)集中存在確定的關(guān)系,但關(guān)系不是rk, 這很大程度上確保了樣本是負(fù)樣本。我們利用隨機(jī)梯度下降的方法來求解優(yōu)化問題。

        (6)

        我們的方法優(yōu)勢如下: (1) 在向量化方法的前提下,利用位置和通用規(guī)則,使含有顯性和隱性位置特征的三元組鏈接預(yù)測準(zhǔn)確率有明顯的提高;(2)這是一個(gè)通用的框架,向量化方法和規(guī)則都可以靈活變化。

        3 實(shí)驗(yàn)

        實(shí)驗(yàn)的具體流程如下: (1)位置特征和規(guī)則挖掘;(2)基于向量化和規(guī)則的鏈接預(yù)測;(3)分析位置特征和規(guī)則對結(jié)果的影響。

        3.1 數(shù)據(jù)集

        在實(shí)驗(yàn)中我們使用了三個(gè)數(shù)據(jù)集: WikiData-500K、WN-100K、FB-500K,分別從WikiData[14]、WordNet[15]、FreeBase[16]獲取。WikiData是目前較大的一個(gè)開放的知識圖譜。WikiData包含有human、taxon、administrative territorial、architectural structure、event、chemical compound、film、thoroughfare、astronomical object等類型的實(shí)體組成的三元組信息。據(jù)我們統(tǒng)計(jì)有至少19.8%的三元組中至少有一個(gè)實(shí)體含有位置信息(事件、行政區(qū)劃、地點(diǎn)等)*www.wikidata.org,可以直接通過API獲取。我們由此構(gòu)建了WikiData-500K數(shù)據(jù)集。WN-100K和FB-500K都是由不同學(xué)者發(fā)布出的三元組數(shù)據(jù)集。我們從WN-100K、FB-500K篩選出位置相關(guān)的三元組來進(jìn)行訓(xùn)練。具體地說,在完整知識庫中至少30%的三元組都滿足條件要求。此外,我們還利用Yago*www.mpi-inf.mpg.de、GeoNames*www.geonames.org、LinkedGeoData*www.linkedgeodata.org和WikiData對所有數(shù)據(jù)中的實(shí)體進(jìn)行位置信息匹配,以獲得實(shí)體本身的位置特征。我們過濾了數(shù)據(jù)集中出現(xiàn)次數(shù)少于三次的實(shí)體,并采用了文獻(xiàn)[8]的方法來判斷實(shí)體的關(guān)系是一對多還是多對一來制定規(guī)則。此外,我們制定了一些同類匹配的規(guī)則。實(shí)驗(yàn)數(shù)據(jù)集如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        3.2 特征和規(guī)則挖掘

        我們的任務(wù)是提取出實(shí)體隱含的位置特征。首先,對數(shù)據(jù)集中所有的實(shí)體進(jìn)行位置信息匹配。利用外部數(shù)據(jù)集擁有的準(zhǔn)確地理位置信息匹配數(shù)據(jù)集中實(shí)體,大約40%的實(shí)體能匹配到準(zhǔn)確的位置特征。然后,我們對數(shù)據(jù)集中擁有的關(guān)系進(jìn)行分類。

        利用自動(dòng)分類方法標(biāo)記了約63%的關(guān)系,剩下的關(guān)系采用人工標(biāo)記。事實(shí)上,有約5%的關(guān)系是有歧義的,我們將它們默認(rèn)歸到包含關(guān)系類。最后利用位置特征和關(guān)系類型挖掘剩下的實(shí)體隱藏位置特征。

        3.3 鏈接預(yù)測

        我們的任務(wù)是補(bǔ)全位置相關(guān)的三元組(h,r,t),也就是說,給定h和t預(yù)測r或者給定h和r預(yù)測t,或者給定r和t預(yù)測h。本節(jié)中測試了RESCAL、TRESCAL、TransE,并把利用基于位置的規(guī)則來約束向量化結(jié)果的方法命名成l-RESCAL、l-TRESCAL、l-TransE。

        對每個(gè)數(shù)據(jù)集,我們把基于位置的三元組按照4∶1的比例劃分成訓(xùn)練集和測試集。 對每一個(gè)實(shí)體我們都獲得其所屬類型。對于測試三元組,通過計(jì)算命中@10(正確命中結(jié)果排前十所占的比例)來衡量。在具體實(shí)驗(yàn)中,RESCAL、TRESCAL的正則化參數(shù)λ=0.1,我們迭代訓(xùn)練了十次。在向量化訓(xùn)練過程中,我們將維度分別設(shè)置成10,20,50,100來選擇最優(yōu)的參數(shù)。然后利用集成學(xué)習(xí)的方法獲得三種向量化方法的最優(yōu)結(jié)果。在規(guī)則約束的過程中,δ1=0.7,δ2=0.6,δ3=0.4,我們使用lp solve*lpsolve.sourceforge.net/5.5/來解整數(shù)規(guī)劃問題。我們對規(guī)則約束重復(fù)進(jìn)行了20 次取平均值,以獲得最優(yōu)的結(jié)果。

        表2展示了不同數(shù)據(jù)集下不同關(guān)系進(jìn)行關(guān)系預(yù)測的結(jié)果??梢钥闯?,利用基于位置的規(guī)則方法對特定的關(guān)系有顯著的提高。RESCAL和TRESCAL的提升幅度比TransE要高。

        表2 位置相關(guān)關(guān)系命中@10結(jié)果/%

        3.4 位置特征和規(guī)則分析

        我們還對不同關(guān)系類型和不同實(shí)體進(jìn)行了結(jié)果的比較,如表3所示。從結(jié)果可以看出,對我們的方法,包含關(guān)系獲得的提升程度 較 高,其 次 是 相鄰關(guān)系和相交關(guān)系。事實(shí)上,包含關(guān)系的位置隱含特征區(qū)域較為狹小,因此對關(guān)系的確定限制較大,可以獲得較好的結(jié)果;而相鄰關(guān)系和相交關(guān)系(實(shí)體都可以直接獲得位置特征除外)獲取的隱藏位置區(qū)域較大,因此限制較為不準(zhǔn)確。對實(shí)體而言,兩個(gè)實(shí)體都可以直接獲得位置關(guān)系的預(yù)測結(jié)果提升幅度最大,其次是單一實(shí)體的結(jié)果。有趣的是,對于兩個(gè)都不能直接獲得位置信息的實(shí)體,本方法仍能獲得少量的提升。事實(shí)上,例如判斷三元組(徐志摩,HasSameHometown,金庸)時(shí),實(shí)體“徐志摩”和“金庸”的隱藏位置特征是可以獲得的, 利用人工標(biāo)記關(guān)系“HasSameHometown”為相交關(guān)系,使用我們的方法可以獲得準(zhǔn)確度的提升。

        表3 不同類型關(guān)系命中@10結(jié)果/%

        4 結(jié)論

        本文提出了一種針對位置關(guān)系的基于向量化和規(guī)則的鏈接預(yù)測方法。實(shí)體位置特征和規(guī)則的使用降低了計(jì)算空間,提高了基于位置鏈接預(yù)測的準(zhǔn)確度。我們還對位置特征和規(guī)則進(jìn)行了實(shí)驗(yàn)分析。

        實(shí)驗(yàn)結(jié)果證明,對于特定類型的關(guān)系,位置特征和規(guī)則的利用可以使鏈接預(yù)測的準(zhǔn)確度得到一定程度的提高。 將來,我們計(jì)劃: (1)分布式我們的方法,使得它能夠適用于更大的數(shù)據(jù)集; (2)加入更加復(fù)雜的空間規(guī)則; (3)嘗試在向量化訓(xùn)練的同時(shí)直接利用規(guī)則,以提高準(zhǔn)確度。

        [1] Nickel M, Murphy K, Tresp V,et al. A review of relational machine learning for knowledge graphs[J]. Proceedings of the IEEE,2016,104(1): 11-33.

        [2] 李陽,高大啟. 知識圖譜中實(shí)體相似度計(jì)算研究[J].中文信息學(xué)報(bào), 2017,31(1): 140-146.

        [3] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases [C]//Proceedings of Conference on Artificial Intelligence. 2011: 1923-1944.

        [4] Lao N, Mitchell T, Cohen WW. Random walk inference and learning in a large scale knowledge base. [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2011: 529-539.

        [5] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion [C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2014: 601-610.

        [6] Jiang S, Lowd D, Dou D. Learning to refine an automatically extracted knowledge base using Markov logic [C]//Proceedings of the 12th International Conference on Data Mining. 2012: 912-917.

        [7] Pujara J, Miao H, Getoor L, et al. Knowledge graph identification [C]//Proceedings of International Semantic Web Conference. 2014: 542-557.

        [8] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data [C]//Proceedings of Advances in Neural Information Processing Systems. 2013: 2787-2795.

        [9] Chang K W, Yih S W, Yang B. Typed tensor decomposition of knowledge bases for relation extraction [C]//Proceedings of Conference on Empirical Methods on Natural Language Processing. 2014: 1568-1579.

        [10] Rockt?schel T, Bosnjak M, Singh S,et al. Low-dimensional embeddings of logic[C]//Proceedings of the ACL 2014 Workshop on Semantic Parsing. 2014: 45-49.

        [11] Wang Q, Wang B, Guo L. Knowledge base completion using embeddings and rules[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence. 2015: 1859-1865.

        [12] Lü L, Zhou T. Link prediction in complex networks: A survey [J]. Physica A: Statistical Mechanics and its Applications, 2011, 390(6): 1150-1170.

        [13] Lao N, Cohen W W. Relational retrieval using a combination of path constrained random walks[J]. Machine Learning, 2010, 81(1): 53-67.

        [15] Miller G A. WordNet: A lexical database for English [J].Communications of the ACM, 1995, 38(11): 39-41.

        [16] Bollacker K, Cook P, Tufts, P. Freebase: A shared database of structured general human knowledge[C]//Proceedings of the 21st AAAI Conference on Artificial Intelligence, 2007(7): 1962-1963.

        E-mail: jiaoyanchen@zju.edu.cn

        猜你喜歡
        三元組圖譜實(shí)體
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        關(guān)于余撓三元組的periodic-模
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對接你思維的知識圖譜
        色一情一乱一伦一区二区三欧美| 99re6在线视频精品免费下载| 欧美人与禽2o2o性论交| 国产第一页屁屁影院| 日韩亚洲国产av自拍| a级三级三级三级在线视频| 久久精品国产免费观看三人同眠| 五级黄高潮片90分钟视频| 伊人久久一区二区三区无码| 日本一级二级三级在线| 日韩亚洲中文有码视频| 女人扒开屁股爽桶30分钟| 久久久久亚洲AV无码专| 日韩性感av一区二区三区| 麻豆文化传媒精品一区观看| 国产精品无码av一区二区三区 | 综合激情网站| 久久精品国产亚洲av热东京热| 中文字幕人成乱码中文乱码 | 超级少妇一区二区三区| 一区二区二区三区亚洲| 精品国内在视频线2019| 色婷婷六月天| 少妇激情一区二区三区久久大香香| 漂亮人妻被强了完整版| 人妻在卧室被老板疯狂进入| 亚洲av无码国产精品色软件下戴| 欧美一区波多野结衣第一页| 在线免费观看国产视频不卡| 无遮挡很爽很污很黄的女同| 国产suv精品一区二区6| 91精品国产免费青青碰在线观看| 国产黄色一级大片一区二区| 欧美精品videosse精子| 人妻在卧室被老板疯狂进入国产 | 在厨房被c到高潮a毛片奶水| 亚洲欧美日韩综合久久久| 中文人妻av大区中文不卡| 久久96日本精品久久久| 私人毛片免费高清影视院| 国产精品美女久久久久久大全|