亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向開放式信息抽取系統(tǒng)的知識推理驗(yàn)證

2019-12-16 10:47:38陳澤東趙旭劍楊春明

西南科技大學(xué)學(xué)報(bào) 2019年4期

陳澤東趙旭劍張暉楊春明李波

（1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院四川綿陽 621010；2.西南科技大學(xué)理學(xué)院四川綿陽 621010）

互聯(lián)網(wǎng)包含著海量的文本信息，從中大規(guī)模地抽取知識是一項(xiàng)艱巨的挑戰(zhàn)。開放式信息抽取系統(tǒng)（OpenIE）以各種技術(shù)手段從互聯(lián)網(wǎng)中開放式地抽取實(shí)體E和實(shí)體間的關(guān)系R，并以實(shí)體和關(guān)系構(gòu)成的三元組（E1，R，E2）作為知識的表達(dá)，為構(gòu)建知識庫和形成知識圖譜提供研究基礎(chǔ)。目前OpenIE技術(shù)已經(jīng)廣泛應(yīng)用于問答系統(tǒng)、信息檢索、知識圖譜等研究領(lǐng)域，成熟的系統(tǒng)包括NELL［1］，TextRunner［2］，Yago2［3］等。圖1是開放式信息抽取系統(tǒng)的基本框架，利用知識抽取方法從Web等自由文本中抽取三元組關(guān)系作為候選知識，再經(jīng)過進(jìn)一步整合將候選知識放入知識庫中。

圖1 開放式信息抽取系統(tǒng)的知識抽取框架Fig.1 Framework of open information extraction system

與特定領(lǐng)域的信息抽取方法不同的是，OpenIE系統(tǒng)通常以粗略的種子迭代學(xué)習(xí)為主要抽取方法，抽取結(jié)果往往存在大量噪聲，主要表現(xiàn)為抽取結(jié)果中的實(shí)體關(guān)系違反實(shí)體間的語義約束，導(dǎo)致知識表達(dá)錯(cuò)誤。因此，針對OpenIE系統(tǒng)的抽取結(jié)果進(jìn)行推理驗(yàn)證，能有效解決知識集合中的噪聲，提高知識表達(dá)的語義規(guī)范性和正確性，對于知識庫構(gòu)建和知識圖譜生成具有重要的研究意義和應(yīng)用價(jià)值。

針對上述問題，本文首先使用一階邏輯語言對知識抽取結(jié)果進(jìn)行轉(zhuǎn)化和推理，并且在推理過程中引入本體規(guī)則進(jìn)行約束，并在此基礎(chǔ)上建立推理規(guī)則的自動(dòng)學(xué)習(xí)機(jī)制，解除傳統(tǒng)規(guī)則推理對于實(shí)體解析規(guī)則的依賴，進(jìn)而實(shí)現(xiàn)對知識的自動(dòng)推理和驗(yàn)證。本文的主要工作如下：（1）提出一種基于本體約束的PSL規(guī)則學(xué)習(xí)方法，通過將本體語義約束引入PSL規(guī)則學(xué)習(xí)，利用規(guī)則的邏輯運(yùn)算進(jìn)行關(guān)聯(lián)規(guī)則的自動(dòng)推理，提高規(guī)則生成效率，增強(qiáng)規(guī)則的可讀性；（2）建立面向知識庫的標(biāo)簽核類簇模型，基于該模型提出一種基于關(guān)聯(lián)度的知識推理驗(yàn)證方法，有效降低知識推理驗(yàn)證對實(shí)體解析規(guī)則的依賴，減少推理規(guī)則數(shù)量，提高推理驗(yàn)證效率；（3）在NELL官方數(shù)據(jù)集上與馬爾科夫邏輯網(wǎng)、傳統(tǒng)概率軟邏輯模型進(jìn)行對比實(shí)驗(yàn)，驗(yàn)證方法的有效性，同時(shí)探討不同類型規(guī)則對模型性能的影響，為推理規(guī)則的產(chǎn)生提供新的研究思路。

1 相關(guān)工作

開放式信息抽取系統(tǒng)的知識推理驗(yàn)證是當(dāng)今NLP領(lǐng)域的一個(gè)研究熱點(diǎn)。目前針對該問題的主要研究方法是以TransE［4］為主的表示學(xué)習(xí)方法。該方法受到word2vec［5］的啟發(fā)，其直觀描述為將每一個(gè)三元組（head，relation，tail）形式的知識向量化表示，然后通過不斷學(xué)習(xí)使head＋relation＝tail，從而解決鏈接預(yù)測等問題。TransE是作為知識庫向量化的一個(gè)基礎(chǔ)工作，之后的TransH［6］，TransR［7］，TransD［8］都是以不同的實(shí)體關(guān)系問題為背景在TransE基礎(chǔ)上做改進(jìn)。Trans系列模型在實(shí)體關(guān)系的鏈接預(yù)測問題上一直有不錯(cuò)的表現(xiàn)，但是因?yàn)榇祟惙椒ǜ旧鲜抢弥R庫中已有關(guān)系對向量進(jìn)行學(xué)習(xí)，并且無法使用規(guī)則，所以它無法解決實(shí)體之間存在錯(cuò)誤關(guān)系的問題。

Jiang等［9］提出了一種基于馬爾可夫邏輯網(wǎng)（Markov logic network，MLN）［10］的方法。MLN使用帶有權(quán)重的一階邏輯規(guī)則對實(shí)體關(guān)系進(jìn)行建模用于概率推理，這使得規(guī)則的約束力有了一定的靈活性，當(dāng)某條知識違反了規(guī)則，那么它是正確知識的可能性就會(huì)變小而非不可能，換而言之一條知識違反的規(guī)則越少那么它正確的可能性就越大。

Pujara［11］等最先提出了采用概率軟邏輯模型（Probabilistic Soft Logic，PSL）［12］對知識抽取結(jié)果進(jìn)行推理驗(yàn)證。PSL是馬爾可夫邏輯網(wǎng)的進(jìn)一步延伸，其最大優(yōu)點(diǎn)在于可以使實(shí)體關(guān)系三元組中實(shí)體和關(guān)系在［0，1］區(qū)間內(nèi)取任意值而不是布爾值，實(shí)驗(yàn)結(jié)果表明這種做法使模型的推理性能和推理效果都有明顯提升。然而，目前PSL模型的推理規(guī)則仍為人工構(gòu)建，成本大、效率低，并且規(guī)則數(shù)量和推理方法往往會(huì)影響模型的推理結(jié)果，因此，基于傳統(tǒng)PSL模型的知識推理驗(yàn)證方法對于面向Web的開放式信息抽取系統(tǒng)是不適用的。針對該問題，本文提出一種基于PSL規(guī)則自動(dòng)生成模型的知識推理驗(yàn)證方法。我們首先使用一階邏輯語言對知識抽取結(jié)果進(jìn)行轉(zhuǎn)化和推理，并且在推理過程中引入本體規(guī)則進(jìn)行約束，在此基礎(chǔ)上建立PSL規(guī)則的自動(dòng)學(xué)習(xí)機(jī)制，解除傳統(tǒng)PSL推理對于實(shí)體解析規(guī)則的依賴，進(jìn)而實(shí)現(xiàn)對知識的自動(dòng)推理和驗(yàn)證。

2 知識表達(dá)的PSL規(guī)則構(gòu)建

PSL模型采用加權(quán)一階邏輯規(guī)則對知識進(jìn)行推理，所以首先要對OpenIE系統(tǒng)抽取的知識表達(dá)進(jìn)行邏輯謂詞轉(zhuǎn)化，進(jìn)而構(gòu)建PSL推理規(guī)則。

2.1 概率軟邏輯模型

概率軟邏輯是由馬里蘭大學(xué)和加利福尼亞大學(xué)圣克魯斯分校的統(tǒng)計(jì)關(guān)系學(xué)習(xí)組LINQS開發(fā)的機(jī)器學(xué)習(xí)模型。該模型采用帶有權(quán)重的一階邏輯規(guī)則與圖模型相結(jié)合，提供有效的推理機(jī)制。與其他機(jī)器學(xué)習(xí)的方法不同，PSL以其可人工制定高可讀性的規(guī)則被用于集體分類、社會(huì)信任分析［13］、個(gè)性推薦［14］等各個(gè)領(lǐng)域并取得了不錯(cuò)的效果。概率軟邏輯推理規(guī)則由具有權(quán)重的一階邏輯規(guī)則構(gòu)成，例如：

該條PSL規(guī)則表示如果x，y是朋友關(guān)系并且y投票給了z，那么x也會(huì)有一定概率投票給z，投票概率用權(quán)重w表示。在該邏輯規(guī)則中，邏輯謂詞friends（x，y）和voteFor（y，z）組成了規(guī)則體，而vote-For（x，z）構(gòu)成規(guī)則頭。邏輯謂詞都有各自的解釋概率，代表某事發(fā)生的可能性。規(guī)則r被滿足的概率φ（r）根據(jù)公式（2）計(jì)算得到。

式（2）中Ibody和Ihead分別表示規(guī)則體和規(guī)則頭的概率值，且邏輯符號的數(shù)值運(yùn)算方式如下：

p和q代表邏輯謂詞，例如公式（1）中的friends（x，y）。PSL對于每個(gè)謂詞的概率計(jì)算方式如下：

其中：w為規(guī)則的權(quán)重；Z表示規(guī)一化因子；c取值為1或者2，代表兩種不同的損失函數(shù)。

2.2 邏輯謂詞轉(zhuǎn)換

為了使用PSL模型對OpenIE抽取得到的知識進(jìn)行推理，首先需要對知識進(jìn)行對應(yīng)的邏輯謂詞轉(zhuǎn)化。在知識庫中知識主要以實(shí)體－關(guān)系（E1，R，E2）和實(shí)體－標(biāo)簽（E，L）兩種形式存在。實(shí)體－關(guān)系謂詞和實(shí)體－標(biāo)簽謂詞分別表示為Relation（E1，E2，R）和Label（E，L），具體如表1所示。

表1 實(shí)體－關(guān)系謂詞和實(shí)體－標(biāo)簽謂詞轉(zhuǎn)換實(shí)例Table 1 Examples of entity-relational predicate and entity-label predicate transformation

2.3 基于本體約束的PSL規(guī)則學(xué)習(xí)

從2.1對于PSL模型的描述中可以看出，規(guī)則的質(zhì)量和規(guī)則對應(yīng)的權(quán)重會(huì)極大程度影響推理的結(jié)果。然而，PSL規(guī)則的獲取是完全獨(dú)立于PSL模型的。傳統(tǒng)的PSL模型規(guī)則生成一般依賴于專家方法，專家制定規(guī)則的優(yōu)勢在于規(guī)則的質(zhì)量高，但是數(shù)量有限且效率較低，對于復(fù)雜場景下的知識推理存在明顯不足。張嘉等［15］嘗試使用C 5.0算法，通過半自動(dòng)學(xué)習(xí)生成PSL規(guī)則。然而，通過C 5.0生成的規(guī)則可讀性不高，這與PSL旨在建立可理解的機(jī)器學(xué)習(xí)模型的初衷相違背。因此，本文根據(jù)不同的本體約束關(guān)系分別構(gòu)建PSL規(guī)則自動(dòng)學(xué)習(xí)方法，提高規(guī)則生產(chǎn)的效率和可讀性?？紤]到知識庫中主要以實(shí)體－關(guān)系和實(shí)體－標(biāo)簽為知識構(gòu)成的主要形式，我們主要通過外部語料庫等一系列方法自動(dòng)獲取了Inverse，Mutual Independence，Range，Domain和Subordination等本體約束關(guān)系，并結(jié)合實(shí)體－關(guān)系謂詞和實(shí)體－標(biāo)簽謂詞學(xué)習(xí)PSL規(guī)則自動(dòng)生成，如表2所示。經(jīng)過實(shí)驗(yàn)驗(yàn)證，自動(dòng)獲取的規(guī)則也同樣得到了很好的推理效果。

表2 基于本體約束與邏輯謂詞的PSL規(guī)則生成Table 2 PSL rules based on ontology constraints and logical predicates

表中Inverse類規(guī)則所表達(dá)的含義是當(dāng)兩種關(guān)系R1和R2屬于可逆類型的時(shí)候，并且E1對于E2存在關(guān)系R1，那么對于E2存在對應(yīng)于E1的關(guān)系R2。比如老師和學(xué)生就屬于一對Inverse關(guān)系，這條本體規(guī)則主要用于補(bǔ)全實(shí)體之間的相互關(guān)系。Mutual Independence（Mut），其主要表達(dá)的含義是在封閉世界假定［14］前提下，如果兩個(gè)關(guān)系R1和R2互相獨(dú)立，且E1和E2擁有關(guān)系R1，那么他們之間就不存在關(guān)系R2，該類規(guī)則主要用于驗(yàn)證關(guān)系的正確性。

另外，本體約束Range在規(guī)則中表示：如果實(shí)體E1和E2具有關(guān)系R，那么E2具有標(biāo)簽L。比如Range（首都，城市），對應(yīng)的實(shí)例可以是如果美國的首都是紐約E2，那么E2紐約的標(biāo)簽就是城市，Domain剛好與其相反。這兩種規(guī)則的主要作用是將關(guān)系的推理驗(yàn)證和標(biāo)簽的驗(yàn)證連接起來，使整個(gè)推理驗(yàn)證過程不再是實(shí)體和關(guān)系分別獨(dú)立的驗(yàn)證，并且使推理可以相互作用。

對象間的Subordination約束反映不同對象之間的上下位關(guān)系限制，這類本體約束規(guī)則在本文中用于關(guān)系補(bǔ)全和驗(yàn)證。目前，上下位獲取的方法主要有兩類：一類是基于模板匹配的方法［16－17］，主要利用語言學(xué)和自然語言處理技術(shù)，通過詞法分析和句法分析獲取上下位關(guān)系模式，然后利用模式匹配獲取上下位關(guān)系；另一類是基于外部語料庫的方法［18］，主要基于語料庫和統(tǒng)計(jì)語言模型，通過聚類計(jì)算概念間語義相似度來獲取上下位關(guān)系。但是知識庫中不存在上下位這種語義環(huán)境，因此本文采用WordNet［19］作為Subordination標(biāo)簽和關(guān)系的外部依賴獲取本體關(guān)系。

3 基于PSL模型的知識推理驗(yàn)證

實(shí)體解析［20］在傳統(tǒng)PSL推理中具有重要作用，因此，PSL推理驗(yàn)證方法對于實(shí)體解析依賴較強(qiáng)。然而，通過相似度度量對OpenIE系統(tǒng)富含噪聲的抽取結(jié)果進(jìn)行實(shí)體解析往往效果較差，甚至影響模型的推理性能。因此，本文建立面向知識庫的標(biāo)簽核類簇模型，基于該模型提出一種基于關(guān)聯(lián)度的知識推理驗(yàn)證方法，有效降低知識推理驗(yàn)證對實(shí)體解析規(guī)則的依賴，減少推理規(guī)則數(shù)量，提高推理驗(yàn)證效率。

3.1 知識沖突檢測

針對具有語義錯(cuò)誤的知識抽取結(jié)果，本文首先通過建立標(biāo)簽核類簇模型，從抽取結(jié)果中快速發(fā)現(xiàn)知識的標(biāo)簽核類簇，并根據(jù)標(biāo)簽核類簇中實(shí)體與實(shí)體的關(guān)聯(lián)關(guān)系，檢測具有語義沖突的知識對象。

定義1 標(biāo)簽核類簇C［L，E（e1，e2，…，em），R（r1，r2，…，rn）］：表示以標(biāo)簽L為核心的實(shí)體集合E（e1，e2，…，em）具有同一個(gè)標(biāo)簽L，同時(shí)，標(biāo)簽核類簇C中實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系用關(guān)系集合R（r1，r2，…，rn）表示。圖2包含兩個(gè)標(biāo)簽核類簇，其中城市與湖人隊(duì)分別為標(biāo)簽核，它們有各自的類簇結(jié)構(gòu)。

圖2 標(biāo)簽核類簇定義Fig.2 Definition of label cluster

定義2 知識沖突：存在實(shí)體e及標(biāo)簽核類簇C［L，E（e1，e2，…，em），R（r1，r2，…，rn）］，如果實(shí)體e與實(shí)體集合E（e1，e2，…，em）的關(guān)聯(lián)關(guān)系數(shù)小于閾值θ，則實(shí)體e與標(biāo)簽L存在知識沖突。

本文通過遍歷所有與目標(biāo)實(shí)體e連接的標(biāo)簽核類簇集合S（C1，C2，…，Cn），選取其中與實(shí)體e具有最大關(guān)聯(lián)關(guān)系的標(biāo)簽核類簇為候選核類簇，將其與實(shí)體e的關(guān)聯(lián)關(guān)系數(shù)量取值為閾值θ。

如圖3所示，實(shí)體“馬努”存在于兩個(gè)標(biāo)簽核類簇中，即標(biāo)簽核類簇－馬刺隊(duì)和標(biāo)簽核類簇－城市。然而，由于實(shí)體“馬努”與標(biāo)簽核類簇－城市中實(shí)體的關(guān)聯(lián)關(guān)系數(shù)為0，小于其與標(biāo)簽核類簇－馬刺隊(duì)的關(guān)聯(lián)關(guān)系數(shù)，即閾值θ，所以可判斷實(shí)體“馬努”與標(biāo)簽“城市”存在知識沖突。

圖3 標(biāo)簽核類簇中的知識沖突Fig.3 Mistakes in label cluster

為了證明定義2具有普適性，本文對抽取結(jié)果中存在知識沖突的實(shí)體進(jìn)行了關(guān)聯(lián)統(tǒng)計(jì)。為體現(xiàn)出圖中點(diǎn)的分布性，圖中的關(guān)聯(lián)系數(shù)取值為目標(biāo)實(shí)體與各標(biāo)簽核類簇的關(guān)聯(lián)關(guān)系數(shù)加上［0，1）中的一個(gè)隨機(jī)值。

從圖4可以看出，存在知識沖突的實(shí)體與正確的標(biāo)簽核類簇的關(guān)聯(lián)系數(shù)往往大于錯(cuò)誤的標(biāo)簽核類簇關(guān)聯(lián)系數(shù)。此外，根據(jù)統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn)：能夠與目標(biāo)實(shí)體構(gòu)成正確的實(shí)體－標(biāo)簽關(guān)系的標(biāo)簽核類簇，與目標(biāo)實(shí)體具有最豐富的關(guān)聯(lián)關(guān)系。

圖4 存在知識沖突的實(shí)體與各標(biāo)簽核類簇關(guān)聯(lián)系數(shù)的統(tǒng)計(jì)Fig.4 Statistics of association between mistaken entity labels and label cluster

3.2 知識推理驗(yàn)證

根據(jù)對抽取結(jié)果中標(biāo)簽核類簇的定義和知識沖突的定義，本文提出一種知識推理驗(yàn)證方案，基本思想如圖5所示。

不難看出，圖5實(shí)例中實(shí)體的別稱存在錯(cuò)誤的標(biāo)簽，將導(dǎo)致知識表示與推理不正確。針對該問題，我們首先通過本體約束規(guī)則推理實(shí)體與標(biāo)簽的語義關(guān)系；其次，利用知識沖突檢測模型發(fā)現(xiàn)錯(cuò)誤的實(shí)體－標(biāo)簽候選關(guān)系，最后通過基于關(guān)聯(lián)度的知識推理驗(yàn)證方法完成對知識表達(dá)的推理與驗(yàn)證。算法1具體描述了基于關(guān)聯(lián)度的知識推理驗(yàn)證方法，最終通過推理得出具有最豐富關(guān)聯(lián)關(guān)系的核類簇為目標(biāo)實(shí)體的正確標(biāo)簽核類簇。

圖5 知識推理驗(yàn)證基本思想Fig.5 Process of knowledge inference and verification

算法1基于關(guān)聯(lián)度的知識推理驗(yàn)證算法

算法描述：首先對于與目標(biāo)實(shí)體e有關(guān)聯(lián)的標(biāo)簽核類簇集S，依次對其中的實(shí)體進(jìn)行遍歷。當(dāng)標(biāo)簽核類簇中的實(shí)體e與目標(biāo)實(shí)體關(guān)系服從規(guī)則O，則計(jì)數(shù)器自加1，并且更新相對閾值θ代表與目標(biāo)實(shí)體最大的關(guān)聯(lián)度。最終目標(biāo)實(shí)體屬于最大關(guān)聯(lián)度θ對應(yīng)的標(biāo)簽核，之后利用其他本體規(guī)則補(bǔ)全目標(biāo)實(shí)體在標(biāo)簽核中的關(guān)系。

4 實(shí)驗(yàn)部分

本文基于開放式信息抽取系統(tǒng)NELL進(jìn)行算法性能評測，實(shí)驗(yàn)分為4個(gè)任務(wù)：第一個(gè)任務(wù)主要評測實(shí)體－標(biāo)簽型知識的推理驗(yàn)證結(jié)果；第二個(gè)任務(wù)主要評測實(shí)體－關(guān)系型知識的推理驗(yàn)證結(jié)果；第三個(gè)任務(wù)對實(shí)驗(yàn)結(jié)果進(jìn)行綜合評價(jià)與分析；第四個(gè)任務(wù)主要探究不同類型規(guī)則對推理模型性能的影響。實(shí)驗(yàn)流程如圖6所示。

圖6 實(shí)驗(yàn)流程圖Fig.6 Flow chart of experiment

4.1 數(shù)據(jù)集

本文采用與參考文獻(xiàn)［9，11］相同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集來自NELL系統(tǒng)第165次抽取結(jié)果，包含13類知識表達(dá)，共計(jì)10 000條數(shù)據(jù)。取其中5 000條作為訓(xùn)練數(shù)據(jù)，另外5 000作為測試數(shù)據(jù)。數(shù)據(jù)集所包含的知識關(guān)系類型以及本體約束關(guān)系如表3與表4所示。

表3 知識關(guān)系類型統(tǒng)計(jì)結(jié)果Table 3 Statistical results of knowledge relation types

表4 本體約束關(guān)系統(tǒng)計(jì)結(jié)果Table 4 Statistical results of ontology constraints

4.2 評測標(biāo)準(zhǔn)

本文采用召回率、準(zhǔn)確率、F1等評價(jià)指標(biāo)作為實(shí)驗(yàn)的評測標(biāo)準(zhǔn)。

表5 評價(jià)指標(biāo)Table 5 Evaluation methods

4.3 實(shí)體－標(biāo)簽型知識推理驗(yàn)證結(jié)果

首先對實(shí)體－標(biāo)簽型知識的推理驗(yàn)證效果進(jìn)行了比較分析。如圖7所示，本文主要選取了其中6類標(biāo)簽做結(jié)果展示。其中NELL系統(tǒng)對自己的抽取結(jié)果做了一次測評，將其作為基準(zhǔn)系統(tǒng)。此外，對比了MLN模型與傳統(tǒng)PSL模型。不難看出，本文方法較3種對比方法在整體實(shí)驗(yàn)性能上更具優(yōu)勢。相對于MLN模型，本文方法在所有的標(biāo)簽上的驗(yàn)證效果整體提升了31.64%，說明對邏輯謂詞采用連續(xù)值的軟約束對于推理效果有很大提升。與PSL方法相比，本文方法整體提高了11.95%，其主要原因是基于關(guān)聯(lián)度的推理方法在處理標(biāo)簽關(guān)系問題上有非常明顯的優(yōu)勢。

圖7 實(shí)體－標(biāo)簽型知識的推理驗(yàn)證結(jié)果Fig.7 Inference and verification results of entity-label relations

4.4 實(shí)體－關(guān)系型知識推理驗(yàn)證結(jié)果

對實(shí)體－關(guān)系型知識也做了比較實(shí)驗(yàn)，主要選取了5種不同類別的實(shí)體－關(guān)系進(jìn)行實(shí)驗(yàn)，結(jié)果如圖8所示。其中NELL的抽取結(jié)果最差，MLN實(shí)現(xiàn)了初步的知識推理驗(yàn)證，對于不同的標(biāo)簽類型它的驗(yàn)證效果差異比較大。本文方法與普通的基于實(shí)體解析的PSL方法的推理驗(yàn)證效果較優(yōu)。與此同時(shí)，本文模型對于不同類型的實(shí)體－關(guān)系型知識的推理性能最為穩(wěn)定。

圖8 實(shí)體－關(guān)系型知識的推理驗(yàn)證結(jié)果Fig.8 Inference and verification results of entity-relational knowledge

4.5 綜合實(shí)驗(yàn)結(jié)果

最后，給出了對于實(shí)體－標(biāo)簽、實(shí)體－關(guān)系的綜合評價(jià)結(jié)果，如表6所示。本文方法較傳統(tǒng)PSL方法略差一點(diǎn)，主要原因是PSL模型中制定了一部分高質(zhì)量的實(shí)體解析規(guī)則，這部分規(guī)則在推理驗(yàn)證中起了很重要的作用。但是，本文推理模型較傳統(tǒng)的PSL模型節(jié)省了32條與實(shí)體解析相關(guān)的規(guī)則，使本文模型的推理速度得到了顯著提升，并且驗(yàn)證結(jié)果也在比較理想的范圍內(nèi)。圖9展示了算法的時(shí)間復(fù)雜度分析結(jié)果，不難看出，本文算法具有更高的推理效率。

圖9 5 000條實(shí)例的推理耗時(shí)分析結(jié)果Fig.9 Inference time-consuming analysis results of 5 000 examples

表6 實(shí)體－標(biāo)簽型知識和實(shí)體－關(guān)系型知識綜合實(shí)驗(yàn)結(jié)果Table 6 Experimental results of entity-label knowledge and entity-relational knowledge

4.6 不同類型規(guī)則對推理模型性能的影響

針對不同類型的推理規(guī)則，我們對20次迭代計(jì)算結(jié)果的精確度進(jìn)行實(shí)驗(yàn)分析，結(jié)果如圖10所示。其中，No Entity Resolution表示去掉與實(shí)體解析相關(guān)的規(guī)則，No Ontology表示去掉本體約束規(guī)則。不難看出，本文提出的方法即使不包含實(shí)體解析的相關(guān)規(guī)則也能取得比較好的推理驗(yàn)證效果。而PSL則不一樣，去掉了實(shí)體解析的PSL模型由于實(shí)體的語義相似性約束不會(huì)在推理過程中發(fā)揮作用，導(dǎo)致其效果較差，進(jìn)而說明了本文算法較基于傳統(tǒng)PSL模型的推理方法具有更小的規(guī)則依賴成本。此外，實(shí)驗(yàn)結(jié)果表明無論是PSL還是本文模型都對本體約束規(guī)則較為敏感，說明本體約束規(guī)則在知識庫推理驗(yàn)證工作中具有重要的作用。

圖10 不同的推理規(guī)則約束下的實(shí)驗(yàn)分析結(jié)果Fig.10 Inference results for different PSL rules

5 總結(jié)

開放式知識的推理驗(yàn)證是將知識納入知識圖譜中的重要工作基礎(chǔ)，概率軟邏輯模型在知識驗(yàn)證中的效果雖然很好，但是其需要人工構(gòu)建規(guī)則，而且推理過程過于依賴實(shí)體解析，并且因此而增加的推理規(guī)則也會(huì)降低推理效率。本文提出了一種規(guī)則自動(dòng)學(xué)習(xí)的知識推理模型驗(yàn)證方法，實(shí)現(xiàn)了規(guī)則自動(dòng)學(xué)習(xí)，降低了推理驗(yàn)證的復(fù)雜度，提高了知識推理驗(yàn)證的效率。

在今后的工作中我們會(huì)進(jìn)一步探究新的更具普適性的推理規(guī)則自動(dòng)學(xué)習(xí)方法。另外我們還考慮將本體約束引入到Trans系列模型中，進(jìn)一步研究新的推理模型在知識推理驗(yàn)證方面的方法與應(yīng)用。