亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于空間投影和關系路徑的地理知識圖譜表示學習

2018-05-04 06:46:19段鵬飛熊盛武毛晶晶

中文信息學報 2018年3期

段鵬飛,王遠,熊盛武,毛晶晶

(1. 武漢理工大學計算機科學與技術學院，湖北武漢 430070；2. 武漢理工大學交通物聯(lián)網(wǎng)湖北省重點實驗室，湖北武漢 430070；3. 南京大學計算機科學與技術系，江蘇南京 210023)

0 引言

隨著大數(shù)據(jù)技術的發(fā)展，得益于Linking Open Data等公共數(shù)據(jù)集項目的展開，互聯(lián)網(wǎng)也從文檔萬維網(wǎng)向數(shù)據(jù)萬維網(wǎng)發(fā)展。在此背景下，Google為了改善搜索結果，于2012年重新提出了知識圖譜(Knowledge Graph)[1]。隨后，其他搜索引擎公司也開始構建知識圖譜，例如，國內(nèi)搜狗提出的“知立方”和百度的“知心”。知識圖譜除了應用在搜索引擎中，還是自動問答等智能應用的基礎，例如IBM公司開發(fā)的Watson系統(tǒng)和日本的高考機器人Todai Robot。

傳統(tǒng)的知識圖譜一般采用<實體1，關系，實體2>三元組的方式來表示知識。該種方法可以較好地表示事實性知識，但對很多模糊知識和復雜形式知識，則表現(xiàn)出能力不足。以地理知識圖譜為代表的特定領域知識圖譜，實體間往往有很強的語義關聯(lián)，以網(wǎng)絡形式來組織知識圖譜中的知識，當進行知識推理和知識融合的時候需要設計特定的圖算法，計算效率低；而且三元組的知識表示形式無法有效地度量和利用實體間的語義關聯(lián)關系。

以深度學習[2]為代表的表示學習[3]，最近在自然語言處理、圖像分析和語音識別等領域取得極大進展。在自然語言處理方面，基于深度學習的詞向量表示模型—word2vec模型[4]的提出，掀起了學者對知識表示學習的研究熱潮。其中，最引人注目的要屬Bordes受到word2vec模型中的詞向量在語義空間的平移不變現(xiàn)象的啟發(fā)而提出的TransE模型[5]。TransE模型由于其在構建大規(guī)模知識圖譜時表現(xiàn)出了簡單、高效等特點，自提出以來，許多研究者都嘗試在TransE模型的基礎上做進一步地擴展和應用。由于TransE方法無法很好地處理1對多、多對1及多對多類型的關系，安波等提出了一種特征融合的方法TCSF[6]，通過綜合利用三元組的距離、關系的先驗概率及實體與關系上下文的擬合度進行三元組分類；Lin等人提出了TransR模型[7]，基于空間投影來對TransE進行擴展，提高復雜關系建模能力,但該模型只學習了三元組結構信息；針對這種情況，Lin等人提出了PTransE模型[8]，基于關系路徑對TransE進行擴展，用來對知識圖譜中的關系進行推理。本文考慮結合TransR模型在處理復雜關系時的能力和PTransE模型充分利用了關系路徑中語義信息的優(yōu)勢，建立了一個新的基于空間投影和關系路徑的知識表示學習算法，提升知識圖譜中知識表示的區(qū)分能力。

1 翻譯模型及其擴展

1.1 TransE模型

以TransE模型為代表的知識表示學習模型已經(jīng)在實體鏈接、關系抽取和知識推理等知識圖譜應用中，取得了矚目的效果[9]。TransE模型將知識圖譜中的關系看作是在語義空間中實體間的平移向量[4]。

圖1 TransE模型簡單原理圖

對于三元組(h,r,t)，TransE模型將關系r定義為一個平移向量r∈Rk(k為語義空間維度)，嵌入到語義空間的實體向量h,t可以通過關系向量r連接。TransE模型的損失函數(shù)定義為式(1)。

fr(h,t)=||h+r-t||L1/L2

(1)

TransE模型參數(shù)少、復雜度低并且在構建大規(guī)模知識圖譜中表現(xiàn)出了簡單、高效的特點。但也正是由于TransE模型的簡單，從而導致了它在復雜關系建模、多源信息融合、關系路徑建模等方面的局限性。

1.2 基于空間投影的翻譯模型

針對TransE模型在處理知識圖譜中復雜關系能力缺失的問題，Lin等人提出了TransR模型[7]，將實體看成多種屬性的綜合，不同關系將專注不同的屬性，將實體、關系分別嵌入實體空間Rm、關系空間Rn(m,n均表示空間的維度，并且在TransR模型中m和n可以相同)。

對于每一個三元組(h,r,t)，TransR模型設置實體向量h,t∈Rm，關系向量r∈Rn。先將位于實體空間Rm的頭、尾實體，通過投射矩陣Mr(Mr∈Rm×n)投射到關系空間Rn，得到位于關系空間的頭實體hr、尾實體tr。然后在關系空間中平移，使hr+r≈tr。

其中，被投射到關系空間中得到的實體向量被定義為式(2)。

hr=hMr,tr=tMr

(2)

相應的損失函數(shù)被定義為式(3)。

fr(h,t)=||hr+r-tr||L1/L2

(3)

TransR模型采用空間投影在TransE模型的基礎上進行擴展，使模型處理復雜關系的能力得到顯著提高。

1.3 基于關系路徑的翻譯模型

針對這種情況，Lin等對TransE模型進行擴展，提出了基于關系路徑的PTransE模型[8]。

(4)

PTransE模型通過尋找實體對間的關系路徑，并通過計算關系路徑的可信度和對關系路徑進行表示，來利用蘊含在關系路徑的語義信息，在關系路徑方面對TransE模型進行了擴展，為知識表示學習的研究打開了新的方向。

2 基于空間投影和關系路徑的翻譯模型

TransR模型將實體看作屬性的綜合體，不同關系專注實體的不同屬性。通過采用空間投影的方式，使模型處理復雜關系的能力得到顯著提高。PTransE模型試圖解決TransE和TransR等模型只局限于學習三元組結構信息的缺陷。通過尋找實體對間的關系路徑，并且將關系路徑也嵌入到語義空間中，利用關系路徑中存在的語義信息，在學習三元組中直接關系的同時，也對關系路徑進行學習。TransR模型和PTransE模型是在兩個不同的方面對TransE模型進行擴展。

因此，本文考慮結合TransR模型在處理復雜關系時的能力和PTransE模型充分利用了關系路徑中語義信息的優(yōu)勢，建立一個新的模型PTransW(Path-based TransE and Considering Relation Type by Weight)，提升知識圖譜中知識表示的區(qū)分能力。并且在TransR模型中，三元組的關系嵌入到同一語義空間中，對于關系路徑的尋找、可信度計算和關系路徑的表示提供了條件。

結合TransR模型和PTransE模型兩者優(yōu)勢的新模型損失函數(shù)定義為式(5)。

(5)

h，t在從實體空間Rm經(jīng)過投射矩陣Mr∈Rm×n投射到關系空間Rn時，投射矩陣Mr依賴于關系r，同一個實體在不同的關系上時，因為所表現(xiàn)的屬性不同，將會被投射到關系空間中的不同位置。關系r分為四種類型，為了讓h，t在投射時考慮到所屬關系的關系類型，在同一種關系類型上的實體更可能被投射到同一區(qū)域，將引入一個與關系類型相關的權重ωr。權重ωr與變量hrptr(對于關系r，數(shù)據(jù)集中每個尾實體對應的頭實體平均個數(shù))和trphr(對于關系r，每個頭實體對應的尾實體平均個數(shù))相關，參考Fan等在TransM模型[10]中的做法，將權重ωr定義為式(6)。

(6)

則h，t在從實體空間Rm經(jīng)過投射矩陣Mr投射到關系空間Rn時變?yōu)閔r=ωrhMr，tr=ωrtMr。

再結合式(5)，PTransW模型的損失函數(shù)則定義為式(7)。

G(h,r,t)=||ωrhMr+r-ωrtMr||L1/L2

(7)

其中，R(p|h,t)是實體對(h,t)間的關系路徑p的可信度；Mr是將實體從實體空間Rm投射到關系空間Rn的投射矩陣，Mr∈Rm×n；p是關系路徑的嵌入向量表示；

在訓練過程中，對h、t和r對應的嵌入向量h、r和t進行約束。?h,r,t，有||h||2≤1，||r||2≤1，||t||2≤1，||ωrhMr||2≤1以及||ωrtMr||2≤1。

PTransW模型同樣需要計算關系路徑的可信度及對關系路徑進行表示。關系路徑的可信度計算可以采用PTransE提出的PCRA算法[8]。PTransE的數(shù)據(jù)實驗結果也已經(jīng)表明采用相加的語義組合方式來表示關系路徑取得的效果比按位相乘和循環(huán)神經(jīng)網(wǎng)絡要好，所以PTransW模型將采用相加方式來表示關系路徑。并且在訓練時，因為運算時間，本文只考慮兩步關系路徑。

訓練時，將采用隨機梯度下降來最小化目標函數(shù)。根據(jù)式(7)，將PTransW模型的優(yōu)化目標形式化表示為式(8)。

(8)

與TransE一樣，在實際訓練過程中，采用最大間隔法來對知識表示的區(qū)分能力進行提升。L(h,r,t)，L(h,P,t)分別表示為式(9)和式(10)。

(9)

(10)

其中，[x]+=max(0,x)表示返回0和x之間較大的值；γ為正確三元組損失函數(shù)值與錯誤三元組損失函數(shù)值之間的間隔距離；S是正確三元組所屬集合，S-為錯誤三元組所屬集合(負樣本)。錯誤三元組是通過替換正確三元組的頭實體、尾實體或關系得到，S-={h′,r,t}∪{h,r′,t}∪{h,r,t′}。

3 實驗對比分析

3.1 數(shù)據(jù)集

本文采用FB15K和GEOGRAPHY數(shù)據(jù)集對模型進行驗證。

FB15K: Freebase是一個由元數(shù)據(jù)組成的大型知識圖譜，整合了網(wǎng)上大量的資源，目前包含了12億個三元組和超過8千萬的實體。文獻[5]從Freebase中抽取了一個稠密子圖FB15K用于TransE模型的實驗，該數(shù)據(jù)集包含有592 213個三元組、14 951個實體和1 345條關系。

GEOGRAPHY: 地理數(shù)據(jù)集是本課題組從基礎教育地理學科的網(wǎng)絡文本資源中，通過信息抽取等技術構建得到的三元組集合。地理數(shù)據(jù)集包含有99 063個三元組、69 123個實體和6 961條關系。

表1 數(shù)據(jù)集的統(tǒng)計

3.2 基于FB15K數(shù)據(jù)集的鏈接預測實驗

實驗前，對hrptr和trphr進行統(tǒng)計，然后根據(jù)hrptr、trphr計算關系r的權重ωr，F(xiàn)B15K數(shù)據(jù)集中共有1 345條關系，則對應著1 345個權重，但是由于關系類型只有四種，權重的分布也依據(jù)所屬關系類型，如圖2所示。

圖2 關系權重ωr分布圖

3.2.1 參數(shù)調(diào)節(jié)

我們根據(jù)前人的經(jīng)驗，將PTransW模型在數(shù)據(jù)集FB15K上的步長α范圍設定為{0.1,0.01,0.001}；間隔γ設定為{1,2,4}；為了便于計算，實體空間的維度m和關系空間的維度n相同，設定范圍為{20,50,100}，模型運用隨機梯度下降優(yōu)化時總共迭代500次。通過在驗證集上作實體預測實驗來確定參數(shù)。

表2 不同參數(shù)在驗證集上的實體預測結果表

即使將參數(shù)設定了范圍，對每一組訓練/驗證集也有3×3×3×2=54種情況需要考慮。由于數(shù)據(jù)集規(guī)模較大和受限于模型本身的復雜度，將54種情況都訓練、驗證一遍需要極大的計算工作。因此，我們采用控制變量的思想來確定參數(shù)，再在驗證集上進行驗證。但有可能出現(xiàn)兩個或多個參數(shù)相互作用影響結果的情況，為了避免該種情況，再對參數(shù)進行隨機替換并在驗證集上驗證。最終，確定了PTransW模型在數(shù)據(jù)集FB15K上的參數(shù)組合為:α=0.001，γ=1，m=n=20，采用L2范式。

3.2.2 實體預測

為了便于比較，我們采用文獻[5]和文獻[8]中所用的方法作為基準線。由于都是基于數(shù)據(jù)集FB15K進行實驗，并且采用相同的評估指標，所以直接參考論文數(shù)據(jù)，結果如表3所示。

表3 FB15K數(shù)據(jù)集實體預測計算結果

從表中可以看出PTransW模型相比于其他模型，Mean Rank指標和Hits@10指標的效果遠優(yōu)于其他模型(包括TransR 和PTransE)，說明我們將根據(jù)關系類型進行空間投影和利用關系路徑語義信息相結合是成功的。

在實驗過程中，我們發(fā)現(xiàn)測試集的59 071個三元組中，有2 230個三元組的頭、尾實體對間不存在關系路徑，那些不包含關系路徑的三元組的預測得到的排名都很靠后，從而將測試集中所有三元組的平均排名拉高。因此，我們剔除了那2 230個不存在關系路徑的三元組，對剩余的56 841個三元組的排名重新進行了統(tǒng)計，統(tǒng)計結果為表3中PTransW(only-path)所在行。從結果可以得知，剔除了2 230個不存在關系路徑的三元組后，Mean Rank的值降低很明顯。對于有關系路徑的三元組，PTransW模型預測的結果更準確。

為了進一步觀察PTransW模型在復雜關系建模時的能力，我們按關系類型做了統(tǒng)計，結果如表4所示。

表4 FB15K數(shù)據(jù)集上基于關系類型的計算結果

從表4中可以看出PTransW模型在1-N、N-1和N-N復雜關系建模方面，Hits@10指標明顯優(yōu)于其他模型；在1-1關系上，也與表現(xiàn)最好的模型PTransE(ADD,2-step)的結果接近。PTransW模型對比TransE、TransR和PTransE等模型，在復雜關系建模的能力上得到了顯著的提高。

3.2.3 關系預測

關系預測，是通過給定(h,t)來預測關系r。我們采用文獻[8]中所用的方法作為基準線，與PTransW模型作比較。由于都是基于FB15K數(shù)據(jù)集進行實驗，并且采用相同的評估指標，所以直接參考它們的數(shù)據(jù)結果，整理為表5所示。

表5 FB15K數(shù)據(jù)集關系預測計算結果

表中的Hits@1是指測試集中排名在第一的三元組占整個測試集的比例。從表中可以看出，PTransW模型和其他模型相比，Mean Rank這項指標要比PTransE(ADD,2-step)差，在測試集中有小部分三元組的排名極靠后，所以導致平均排名較差。而Hits@1這項指標則比其他模型稍高。我們同樣將2 230個不存在關系路徑的三元組剔除，得到PTransW(only-path)，發(fā)現(xiàn)與不剔除的結果相比，差別并不明顯。

在算法復雜度方面，PTransW相較于PTransE增加了投射矩陣M，運行時間略有增加，但增加的時間相較于PTransE原始運行時間小很多，所以該方法不會增加過高的時間開銷。

3.3 基于GEOGRAPHY數(shù)據(jù)集的鏈接預測實驗

3.3.1 參數(shù)調(diào)節(jié)

在GEOGRAPHY數(shù)據(jù)集上，不僅需要對PTransW模型進行訓練并做鏈接預測實驗，還需要用TransE模型、TransR模型和PTransE模型在GEOGRAPHY數(shù)據(jù)集上進行訓練，并將鏈接預測實驗的結果與PTransW模型做對比分析。

因此，設置TransE在GEOGRAPHY數(shù)據(jù)集中的參數(shù)范圍為隨機步長α設定的范圍{1,0.1,0.01}；間隔γ設定為{1,2,4}；語義空間維度k的范圍為{20,50,100}，正則化方式為L1/L2。經(jīng)過在驗證集上采用與前面3.2.1相同方法進行參數(shù)調(diào)節(jié)，確定參數(shù)組合為:α=0.01、γ=1、k=100以及采用L1正則化方法，并且隨機梯度下降時迭代1 000次。對于TransR模型，其確定參數(shù)組合為α=0.001、γ=1、m=n=100以及采用L1正則化方法，迭代1 000次。對于PTransE模型，最后確定參數(shù)組合為α=0.001、γ=1、k=100以及采用L1正則化方法，迭代1 000次。對于PTransW模型，最后確定參數(shù)組合為α=0.001、γ=1、m=n=100以及采用L1正則化方法，迭代500次。

3.3.2 實體預測

實體預測實驗中，與上文一致通過給定(h,r)來預測t以及給定(r,t)來預測h。將TransE、TransR、PTransE模型的結果進行比較，如表6所示。

表6 GEOGRAPHY數(shù)據(jù)集實體預測計算結果

從表6中可以看出，之前在FB15K數(shù)據(jù)集上表現(xiàn)較好的PTransE模型和PTransW模型在GEOGRAPHY數(shù)據(jù)集上，實體預測結果反而不如TransE模型和TransR模型。我們分析，可能是由于GEOGRAPHY數(shù)據(jù)集訓練規(guī)模較小。數(shù)據(jù)集FB15K包含14 951個實體和1 345條關系，有592 213個三元組；反觀數(shù)據(jù)集GEOGRAPHY，有69 123個實體和6 961條關系，卻只包含有99 063個三元組。所以，相對復雜的PTransE模型和PTransW模型在數(shù)據(jù)集GEOGRAPHY上訓練不夠充分，并不能發(fā)揮它們的優(yōu)勢。

3.3.3 關系預測

在關系預測子實驗中，也是通過給定(h,t)來預測關系r。將TransE、TransR、PTransE模型在數(shù)據(jù)集GEOGRAPHY上做關系預測實驗，并將所求結果進行對比分析，如表7所示。

表7 GEOGRAPHY數(shù)據(jù)集關系預測計算結果

從表7中可以看出，考慮了關系路徑和反向關系的PTransE模型和PTransW模型取得的效果明顯比TransE和TransR要好,其中，PTransW的效果尤為突出。

4 總結

針對TransE模型在處理知識圖譜中復雜關系能力缺失及只局限地使用三元組結構信息的問題。我們將TransR模型和PTransE模型進行結合，并對結合后的模型做了進一步地改進。在空間投影時考慮關系類型，通過加入關系類型的權重，使實體在投射時能在不同關系類型上有所區(qū)別。未來需要對知識圖譜中的知識類型進行更具體地劃分，并對不同類型的知識表示進行研究。除了鏈接預測，將知識表示學習應用到關系抽取、實體消歧、實體識別等更多任務中，來進一步地探究以及驗證知識表示學習的有效性。

[1] Singhal A. Introducing the knowledge graph: things, not strings[EB/OL]. http: //googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html, 2012.

[2] Bengio Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127.

[3] Bengio Y, Courville A, and Vincent P.Representation learning: A review and new perspectives [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013.35(8): 1798-1828.

[4] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

[5] Bordes A, Usunier N, Garcia-Duran A, Weston J, Yakhnenko O. Translating embeddings for modeling multi-relational data[C]//Proceedings of In Advances in Neural Information Processing Systems 26. Curran Associates, Inc. 2787-2795.

[6] 安波, 韓先培, 孫樂,等. 基于分布式表示和多特征融合的知識庫三元組分類[J]. 中文信息學報, 2016, 30(6): 84-89.

[7] LinY, Liu Z, Sun M, Liu Y, Zhu X. Learning Entity and Relation Embeddings for Knowledge Graph Completion[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence.

[8] LinY, Liu Z, Luan H, Sun M, Rao S, Liu S. Modeling Relation Paths for Representation Learning of Knowledge Bases[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2015), 2015.

[9] 劉知遠, 孫茂松, 林衍凱, 謝若冰. 知識表示學習研究進展[J]. 計算機研究與發(fā)展, 2016, 53(2): 1-2.

[10] Fan M, Zhou Q, Chang E, et al. Transition-based knowledge graph embedding with relational mapping properties[C]//Proceedings of the 28th Pacific Asia Conference on Language, Information, and Computation. 2014: 328-337.

[11] Nickel M,Tresp V, Kriegel H. A three-way model for collective learning on multi-relational data[C]//Proceedings of ICML. New York: ACM, 2011: 809-816.

[12] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C]//Proceedings of AAAI. Menlo Park, CA: AAAI, 2011: 301-306.

[13] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C]//Proceedings of AISTATS. Cadiz, Spain: JMLR, 2012: 127-135.

[14] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C]//Proceedings of NIPS. Cambridge, MA: MIT Press, 2012: 3167-3175.

[15] Wang Z, Zhang J, Feng J, Chen Z. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of AAAI, 2014: 1112-1119.

[16] Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]//Proceedings of KDD, New York: ACM, 2008: 1247-1250.