熊文武 張守震
摘 要:在多個垂直領(lǐng)域,以數(shù)據(jù)分析、智慧搜索、智能推薦、自然人機交互為主的實際應(yīng)用場景中,皆對知識圖譜提出了客觀的使用需求。與此同時,知識圖譜作為實現(xiàn)機器認(rèn)知智能的重要基石,同樣是現(xiàn)階段人工智能領(lǐng)域的熱門研究課題。從開放域環(huán)境中自動獲取關(guān)系實例是構(gòu)建大規(guī)模知識圖譜的基礎(chǔ),精準(zhǔn)地識別概念間的上下位關(guān)系是在縱向?qū)用嫔蠑U展知識層級體系結(jié)構(gòu)的關(guān)鍵,通過知識圖譜表示學(xué)習(xí)可實現(xiàn)知識圖譜數(shù)值化表示,得以讓機器更好地處理并應(yīng)用知識圖譜進行知識計算。
關(guān)鍵詞:知識圖譜;開放關(guān)系抽取;鏈接預(yù)測;集體推理
一、基于深度句法分析學(xué)習(xí)的抽取方法
分析學(xué)習(xí)的抽取方法主要包括生成句法依存樹、候選三元組抽取和實體關(guān)系強度度量三個核心步驟。生成依存句法樹的過程主要包括共指消解與依存句法分析2個主要步驟。共指消解在進行句法解析之前,我們首先需要對文本句子中識別出的實體指代做共指消解處理。
上一步中與依存句法樹對應(yīng)的有向圖G一旦生成,我們即可基于上述圖結(jié)構(gòu)進行深入地分析。目前,大多數(shù)開放關(guān)系抽取算法所抽取出的三元組的關(guān)系短語的質(zhì)量普遍不高,例如損失了細(xì)節(jié)信息、錯誤且不連貫、混雜其它三元組的信息等。而我們將沿著這樣一個思路去解決這個問題:枚舉名詞成分頂點集合V中的不同組合,在G上結(jié)合最短依存路徑、多種邏輯規(guī)則/圖規(guī)則分析方法獲得它們對應(yīng)的候選三元組。
二、人機協(xié)作解析框架的體系架構(gòu)
人機協(xié)作解析框架主要包含了4個組成模塊,即類別與關(guān)系候選生成模塊、模式候選生成模塊、眾包問題生成模塊與擴展內(nèi)容生成模塊。首先采用Jena數(shù)據(jù)庫將知識圖譜進行預(yù)處理,然后在給定一個萬維網(wǎng)表格時,通過SPARQL查詢語言來生成表格所對應(yīng)的所有類別與關(guān)系的候選,即列-類候選與列對-關(guān)系候選。同時,此模塊會預(yù)先統(tǒng)計知識圖譜中類別與關(guān)系間的關(guān)聯(lián)信息,即計算每個關(guān)系與各類別之間的關(guān)聯(lián)度。
模式候選生成模塊:此模塊主要負(fù)責(zé)表格的語義模式候選生成任務(wù),通過計算所查詢到的每一個列所對應(yīng)的所有類別候選、列對之間所對應(yīng)的所有關(guān)系候選與知識圖譜中預(yù)先統(tǒng)計的類別與關(guān)系之間的關(guān)聯(lián)度信息來給出表格的語義模式組合候選的置信度評分,并通過采用排序連接算法來快速生成高質(zhì)量語義模式候選。架構(gòu)模式示意圖如圖1所示。
語義模式評分模型:通常一個表格的整體語義模式候選包含了列的類別候選與列之間的關(guān)系候選,因此計算表格語義模式候選則需要考慮到所有類別候選集與關(guān)系候選集之間的卡爾積。顯然,當(dāng)一個表格具有m個列、每個列和關(guān)系有Top4個候選時,其復(fù)雜度為o。因此,計算表格模式的所有候選集是不可接受的,并且對于眾包的驗證代價也是非常高昂的。然而,不是所有的候選組合都有意義,因此,需要一個有效的方法來對表格模式的候選集進行評分排序,以便為后續(xù)的眾包驗證任務(wù)能夠快速生成Top4個模式候選。對于表格的一個直觀的模式候選評分方法是將此表格中所有列的對應(yīng)類別的TF-IDF值與所有列之間對應(yīng)關(guān)系的TF-IDF值相加獲得,如下公式(1)所示:?
(1)
三、關(guān)系敏感嵌入式技術(shù)的知識圖譜擴展
基于關(guān)系敏感的嵌入技術(shù),并將知識圖譜中離散的知識表示嵌入到了連續(xù)的向量空間中。本文的RESA方法在執(zhí)行嵌入過程中不僅考慮了實體與關(guān)系間的關(guān)聯(lián)度,而且還考慮了關(guān)系之間的關(guān)聯(lián)影響。此外,本文還提出了兩種關(guān)聯(lián)度函數(shù)來評估關(guān)系之間的關(guān)聯(lián)程度,并設(shè)計了一個動態(tài)聚類算法將高度關(guān)聯(lián)的關(guān)系聚合到同一組中。最后,在兩組基準(zhǔn)測試數(shù)據(jù)集上,通過與目前最先進的多個模型進行大量的對比實驗來證明了本文提出的RESA能夠有效地對知識圖譜進行缺失事實預(yù)測與錯誤事實檢測等任務(wù)。
關(guān)系敏感嵌入式模型的體系架構(gòu):關(guān)系表示模塊:在RESA模型中,首先需要對知識圖譜中的關(guān)系進行預(yù)處理,然后通過定義的關(guān)聯(lián)度函數(shù)來評估關(guān)聯(lián)度較高的關(guān)系?;诟怕实姆椒ㄊ峭ㄟ^將知識圖譜中關(guān)系間的頭尾實體共同出現(xiàn)的概率作為其評價標(biāo)準(zhǔn)來計箅兩個關(guān)系間的互信息強度、并以此作為關(guān)系的關(guān)聯(lián)度?;谙蛄康姆椒▌t是通過對知識圖譜中的實體預(yù)先訓(xùn)練好其詞向量模型,并通過關(guān)系的頭尾實體間的向量計算來表就其對應(yīng)的關(guān)系后,采用余弦相似度來評估兩個關(guān)系的關(guān)聯(lián)度。?
關(guān)聯(lián)關(guān)系聚合模塊:接下來則需要發(fā)掘知識圖譜中:高度關(guān)聯(lián)的關(guān)系并將它們聚到一起,以便在訓(xùn)練模型過程中能夠引入相互的影響力。因此,在此模塊中通過采用動態(tài)聚類算法與先前定義的關(guān)系關(guān)聯(lián)函數(shù)對知識圖譜中的關(guān)系進行聚類來發(fā)現(xiàn)高度關(guān)聯(lián)的關(guān)系,并為每一組中的每個關(guān)系預(yù)先計算并保存栢關(guān)關(guān)系對其獅程度。
四、總結(jié)
一種基于關(guān)系敏感嵌入式方法的RSEA模型來對知識圖譜中離散的事實三元組進行了連續(xù)向量空間上的映射過程,并通過事實三元組所對應(yīng)的向量計算實現(xiàn)了對知識圖譜更加準(zhǔn)確的推理目的,包括了對錯誤事實的檢測任務(wù)與缺失事實的預(yù)測任務(wù)。另外,通過兩種不同的視角刻畫了關(guān)系之間的關(guān)聯(lián)性,并給出了兩種關(guān)系關(guān)聯(lián)函數(shù),即基于概率的關(guān)聯(lián)度函數(shù)與基于向量的關(guān)聯(lián)度函數(shù),來有效地度量了兩個關(guān)系之間的距離。
參考文獻:
[1]錢玲飛,崔曉蕾.基于數(shù)據(jù)增強的領(lǐng)域知識圖譜構(gòu)建方法研究[J].現(xiàn)代情報,2022,42(03):31-39.
[2]郭欣彤. 大規(guī)模知識圖譜的查詢處理技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2021.
[3]趙宇. 知識圖譜自動演進算法研究[D].北京郵電大學(xué),2017.
[4]李葉葉,李賀,沈旺,曹陽,涂敏.基于多源異構(gòu)數(shù)據(jù)挖掘的在線評論知識圖譜構(gòu)建[J].情報科學(xué),2022,40(02):65-73.