薩日娜,李艷玲,2+,林 民
1.內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特010022
2.內(nèi)蒙古紀(jì)檢監(jiān)察大數(shù)據(jù)實(shí)驗(yàn)室,呼和浩特010015
隨著大數(shù)據(jù)時(shí)代的到來,人們從海量數(shù)據(jù)中準(zhǔn)確、快速地獲取信息已成為迫切需求,而智能問答可以解決此類問題。智能問答可以通過非結(jié)構(gòu)化數(shù)據(jù)或結(jié)構(gòu)化數(shù)據(jù)獲取信息進(jìn)行回答,這兩種數(shù)據(jù)各具優(yōu)點(diǎn),非結(jié)構(gòu)化數(shù)據(jù)中知識覆蓋范圍較廣,而結(jié)構(gòu)化數(shù)據(jù)更具組合性,可用于處理復(fù)雜的推理問題,如今也有許多方法將非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合完成問答任務(wù)。
知識圖譜(knowledge graph,KG)屬于結(jié)構(gòu)化數(shù)據(jù),通常以三元組的形式將事實(shí)存儲。因其具有直觀、豐富的知識,所以被廣泛應(yīng)用于自然語言處理(natural language processing,NLP)任務(wù)中,例如知識問答、對話系統(tǒng)、推薦系統(tǒng)、信息檢索等。其中知識圖譜問答(knowledge graph question answering,KGQA)應(yīng)用最為廣泛,旨在利用現(xiàn)有知識圖譜回答自然語言問題。然而現(xiàn)有的大型知識圖譜大多不完整,使得一部分問題找不到答案,而知識圖譜推理技術(shù)可以挖掘或推斷知識圖譜中缺失的實(shí)體以及實(shí)體之間的隱含關(guān)系。因此將知識圖譜推理技術(shù)應(yīng)用于KGQA,可以有效解決知識圖譜不完整問題,進(jìn)一步提升答案預(yù)測的準(zhǔn)確性。
本文首先介紹了知識圖譜推理問答概念以及相關(guān)數(shù)據(jù)集,其次介紹了知識圖譜推理技術(shù)在問答任務(wù)中的應(yīng)用研究,最后對研究現(xiàn)狀進(jìn)行總結(jié)與展望。
知識圖譜推理是知識圖譜構(gòu)建以及下游任務(wù)中非常重要的模塊,在實(shí)際工程中同樣有著廣泛的應(yīng)用。KG 通常由各種來源獲得的事實(shí)組成,其中每個(gè)事實(shí)通常以三元組(,,)形式表示,表明實(shí)體與實(shí)體之間存在關(guān)系。由于KG 大多存在信息缺失問題,會(huì)對下游任務(wù)產(chǎn)生影響,知識圖譜推理的一個(gè)基本任務(wù)是利用KG 中現(xiàn)有事實(shí),推理出缺失的事實(shí)或隱含的關(guān)系。
知識圖譜問答則是利用存儲在KG 中的三元組回答自然語言問題。KGQA 任務(wù)的一般定義為:給定KG 作為知識源,對于自然語言問題,目標(biāo)是通過KG 獲取其答案實(shí)體,答案可以為單一實(shí)體或?qū)嶓w集合。其中,問題按照難易程度分類,可分為簡單問題與復(fù)雜問題。簡單問題指包含單一實(shí)體和單一關(guān)系的問題。復(fù)雜問題指多跳問題與約束問題,其中多跳問題是考慮關(guān)系路徑得到答案的問題;約束問題指包含多個(gè)語義約束的問題,復(fù)雜問題實(shí)例如圖1 所示。在KGQA 中,答案通常是KG 中的節(jié)點(diǎn),而回答問題可能需要單一事實(shí)或需要對多個(gè)事實(shí)進(jìn)行多跳、比較、聚合等推理。
圖1 復(fù)雜問題實(shí)例Fig.1 Examples of complex questions
而知識圖譜推理與KGQA 的關(guān)鍵區(qū)別在于:知識圖譜推理技術(shù)是通過處理KG 中的實(shí)體和關(guān)系,從而找到目標(biāo)節(jié)點(diǎn);KGQA 則需處理自然語言問題,其問題通常會(huì)涉及復(fù)雜的語義信息,因此對知識源的推理過程必須以問題為條件,不同的問題會(huì)導(dǎo)致KG不同的表示和不同的推理過程。
近年來,隨著人們提出問題的復(fù)雜性逐漸提高,KGQA 從簡單問題逐漸轉(zhuǎn)向?qū)?fù)雜問題的研究。當(dāng)前,KGQA 大多將問題理解作為主要研究,并且假設(shè)KG 為完整圖譜,以執(zhí)行問答任務(wù),然而在真實(shí)世界中,大型知識圖譜通常存在知識不完整的情況,并含有大量噪聲,將知識圖譜推理技術(shù)應(yīng)用于KGQA 中,可以有效緩解此類問題,但通常面臨以下挑戰(zhàn):
(1)推理缺乏可解釋性。KGQA 系統(tǒng)通常輸入自然語言問題,輸出問句答案,但其結(jié)果缺乏可解釋性,其推理過程缺乏透明度,如何得到具有可解釋性的推理結(jié)果是KGQA 所面臨的難題。
(2)自然語言的靈活性和模糊性。在KGQA 中,一個(gè)重要的步驟是將自然語言問題的實(shí)體與關(guān)系短語映射到知識圖譜的頂點(diǎn)和邊,然而實(shí)體名稱的模糊性會(huì)造成大量的候選答案。即使假設(shè)實(shí)體名稱能夠準(zhǔn)確識別,名稱的歧義性仍然使找到正確實(shí)體變得困難。因此對KGQA 算法的魯棒性提出了要求。
(3)問題的復(fù)雜語義信息。與簡單問題相比,復(fù)雜問題具有更豐富的語義信息,使得問題的每個(gè)部分對三元組的選擇都會(huì)有所影響。因此,如何處理復(fù)雜的語義信息同樣是研究難點(diǎn)。
(4)時(shí)間復(fù)雜度高。KGQA 通常需要考慮每個(gè)問題以主題實(shí)體為中心的子圖,但隨著跳數(shù)的增加,會(huì)使得候選答案的數(shù)量呈指數(shù)增長,如何過濾無關(guān)事實(shí),減少搜索空間是該研究的重點(diǎn)。
目前已經(jīng)有研究人員撰寫了有關(guān)知識圖譜問答的綜述,如王智悅等人從手工構(gòu)建方法到深度學(xué)習(xí)方法對知識圖譜問答進(jìn)行介紹;Yani 等人側(cè)重對簡單問題的KGQA 方法進(jìn)行綜述,對其中存在的挑戰(zhàn)、各類技術(shù)和研究趨勢進(jìn)行全面介紹;Lan 等人對復(fù)雜KGQA 方法進(jìn)行綜述,重點(diǎn)歸納了基于語義解析與信息檢索的KGQA 方法;Steinmetz 等人為研究自然語言到SPARQL 查詢的轉(zhuǎn)換問題,詳細(xì)分析KGQA 數(shù)據(jù)集并說明了構(gòu)建KGQA 系統(tǒng)所要面臨的挑戰(zhàn);Chakraborty 等人發(fā)表了基于神經(jīng)網(wǎng)絡(luò)的KGQA 綜述,重點(diǎn)歸納了基于分類的方法、基于排序的方法以及基于翻譯的方法。陳子睿等人對開放域的知識圖譜問答進(jìn)行綜述,介紹了基于模板規(guī)則的方法與基于深度學(xué)習(xí)的方法。目前,還沒有文獻(xiàn)對基于知識圖譜推理的問答方法進(jìn)行綜述,并且上述文獻(xiàn)大多是對開放域問答進(jìn)行綜述,而本文是對知識圖譜推理技術(shù)應(yīng)用于開放領(lǐng)域問答、常識問答、時(shí)序知識問答中的方法進(jìn)行介紹,詳細(xì)分析了各類方法的優(yōu)劣以及存在的挑戰(zhàn)。
KGQA 中開放域問答大多使用Freebase、YAGO、DBpedia、Wikidata等大型知識圖譜作為知識源檢索答案進(jìn)行回答。常識問答通常使用ConceptNet作為知識源進(jìn)行回答。研究者針對不同的問答任務(wù)構(gòu)建了形式多樣的問答數(shù)據(jù)集,有效推動(dòng)了KGQA 的發(fā)展。本文將數(shù)據(jù)集分為開放域問答數(shù)據(jù)集、常識問答數(shù)據(jù)集以及時(shí)序知識問答數(shù)據(jù)集。表1 展示了KGQA 數(shù)據(jù)集間的對比。
表1 知識圖譜問答數(shù)據(jù)集Table 1 Knowledge graph based on question answering databases
早期問答系統(tǒng)是通過將問題解析為邏輯表達(dá)式在知識庫中查詢答案,Cai 和Yates針對語義解析任務(wù),構(gòu)建了開放域數(shù)據(jù)集Free917,其中包含917 個(gè)問題、635 個(gè)Freebase 關(guān)系,使用lambda 演算形式注釋,由問題及邏輯表達(dá)式構(gòu)成。然而對Free917 的注釋需具備專業(yè)知識,使得數(shù)據(jù)難以擴(kuò)展。因此,Berant等人構(gòu)建了WebQuestions 數(shù)據(jù)集,通過Google Suggest API 隨機(jī)獲取僅含一個(gè)實(shí)體的問題,并由人工進(jìn)行回答。但WebQuestions 數(shù)據(jù)集僅包含5 810個(gè)問答對,所能涵蓋的問題種類較少。Bordes 等人擴(kuò)大問題覆蓋范圍,從Freebase 抽取事實(shí),并由人工創(chuàng)建與事實(shí)相對應(yīng)的問句,構(gòu)建了SimpleQuestions數(shù)據(jù)集,用于大規(guī)模簡單問答任務(wù),數(shù)據(jù)集由問句和Freebase 事實(shí)組成。Yih等人針對WebQuestions 數(shù)據(jù)集只有答案而沒有查詢語句的問題,對WebQuestions 中的每個(gè)問句增加了相應(yīng)的SPARQL 查詢,并刪除了其中表達(dá)不清晰的問句,構(gòu)建了WebQSP 語義解析數(shù)據(jù)集,還提供了標(biāo)準(zhǔn)Freebase 實(shí)體標(biāo)識符,這些標(biāo)識符在Freebase 上可直接執(zhí)行。但以上數(shù)據(jù)多為簡單問題。
為了評估KGQA 系統(tǒng)處理復(fù)雜問題的能力,Bao等人與Trivedi 等人分別構(gòu)建了ComplexQuestions數(shù)據(jù)集與LC-QuAD 數(shù)據(jù)集,其中ComplexQuestions數(shù)據(jù)集包含多實(shí)體約束、類型約束、顯式時(shí)間約束、隱式時(shí)間約束、順序約束以及聚合約束六類約束問題,這類問題需要對多個(gè)三元組推理得到答案,該數(shù)據(jù)集僅由問答對組成。另一個(gè)復(fù)雜語義數(shù)據(jù)集LCQuAD則包含問題及其相應(yīng)的SPARQL 查詢。但上述數(shù)據(jù)集中問題數(shù)量較少。Talmor 等人針對復(fù)雜問題數(shù)據(jù)集中問題數(shù)量較少的情況,擴(kuò)大了問題數(shù)量,構(gòu)建了CWQ 數(shù)據(jù)集。他們通過對WebQSP 中的SPARQL 查詢采樣,將其自動(dòng)構(gòu)建為具有比較級、最高級等更復(fù)雜的查詢語句,并將查詢語句重組為復(fù)雜的自然語言問題。CWQ 數(shù)據(jù)集由問題、答案及SPARQL 查詢組成。Dubey 等人構(gòu)建了LC-QuAD 2.0 復(fù)雜問答數(shù)據(jù)集,其與CWQ 數(shù)據(jù)集中問題數(shù)量的范圍相同,但相比CWQ 數(shù)據(jù)集,SPARQLs 的變化更大,含有如多意圖問題、時(shí)間約束問題等更多種類的復(fù)雜問題類型。
現(xiàn)有許多研究人員關(guān)注于常識問答推理,例如在回答“當(dāng)艾倫聽到羊的叫聲時(shí),他在哪里?”,可以推斷出可能是在草原或者在街道上。這個(gè)問題對人類來說很簡單,但對機(jī)器來說會(huì)難以理解。最早Cyc以謂詞邏輯的形式建立了常識知識本體,相比于Cyc,ConceptNet常識知識圖譜更加接近自然語言描述,重點(diǎn)關(guān)注自然語言中單詞的常識意義。ATOMIC是以事件為中心的大型知識圖譜,由超過30 萬個(gè)事件組成,其中的每個(gè)三元組包含一個(gè)事件短語,并提出了九種if-then 關(guān)系類型。在大型常識知識圖譜的基礎(chǔ)上,有研究者構(gòu)建常識問答數(shù)據(jù)集,大大促進(jìn)了該領(lǐng)域的發(fā)展。
Mihaylov 等人構(gòu)建了OpenbookQA 數(shù)據(jù)集,以增強(qiáng)機(jī)器對問題的理解。該數(shù)據(jù)集由多項(xiàng)選擇題和基礎(chǔ)科學(xué)事實(shí)組成,需結(jié)合外部語料庫得到答案,因數(shù)據(jù)集以科學(xué)事實(shí)為主,需具備專業(yè)的科學(xué)知識回答問題。Talmor 等人針對人類常識知識問題,構(gòu)建了CommonsenseQA 數(shù)據(jù)集,該數(shù)據(jù)集是由問題和五個(gè)選項(xiàng)組成的多項(xiàng)選擇問題。Sap 等人針對人類在社交環(huán)境中的常識問題,構(gòu)建了SocialIQA 數(shù)據(jù)集。該數(shù)據(jù)集由上下文、問題與候選項(xiàng)構(gòu)成,其中使用ATOMIC 中的基本事件生成自然語言上下文。最近Lin 等人構(gòu)建了謎語數(shù)據(jù)集RIDDLESENSE1,例如對于問題:“我有五根手指但不是活物,猜我是什么?”答:“手套”?;卮疬@樣一個(gè)謎語式的問題非常具有挑戰(zhàn)性,因?yàn)樗枰獜?fù)雜的常識推理能力、對比喻語言理解的能力以及反事實(shí)推理的能力。RIDDLESENSE1 是第一個(gè)用于回答謎語式常識性問題的大型數(shù)據(jù)集,需從給定謎題的五個(gè)選項(xiàng)中選擇一個(gè)作為預(yù)測答案。
時(shí)序問題是帶有時(shí)間約束的問題,Jia 等人給出時(shí)序問題的定義是:任何包含時(shí)間表達(dá)式、時(shí)間信號或其答案具有時(shí)間性質(zhì)的問題均稱為時(shí)序問題。時(shí)間表達(dá)式具有四種類型,分別為日期表達(dá)式、時(shí)間表達(dá)式、集合表達(dá)式、Duration 表達(dá)式。其中日期與時(shí)間表達(dá)式都指時(shí)間點(diǎn),其根據(jù)時(shí)間點(diǎn)的細(xì)粒度而有所不同,如“2019 年6 月1 日”與“9 點(diǎn)”;集合表達(dá)式指具有周期性的時(shí)間,如“每周三”;Duration 表達(dá)式指時(shí)間間隔,如“一年”;時(shí)間信號指實(shí)體之間的時(shí)間關(guān)系,如“before”或“during”等。近幾年時(shí)序數(shù)據(jù)集的提出,有效推動(dòng)了時(shí)序知識推理的研究。
Jia 等人針對時(shí)序知識問答,構(gòu)建了TempQuestions數(shù)據(jù)集。該數(shù)據(jù)集是從WebQuestions、Free917和ComplexQuestions數(shù)據(jù)集中抽取與時(shí)間相關(guān)的問題子集組成,這些問題分別標(biāo)記為帶有顯式、隱式、順序約束問題以及答案為時(shí)間的問題。然而,Temp-Questions 數(shù)據(jù)集只包含1 271 個(gè)問題,且僅用于評估。Jia 等人擴(kuò)大了問題數(shù)量,通過搜索8 個(gè)KGQA數(shù)據(jù)集中與時(shí)間相關(guān)的問題,構(gòu)建了TimeQuestions。上述數(shù)據(jù)集都基于非時(shí)序KG(如Freebase)。Saxena等人構(gòu)建了目前已知最大的時(shí)序知識問答數(shù)據(jù)集CRONQUESTIONS,該數(shù)據(jù)集由兩部分組成,分別為需要時(shí)間推理的自然語言問題以及具有時(shí)間注釋的知識圖譜,其中時(shí)序知識圖譜由約12 萬個(gè)實(shí)體和32萬個(gè)事實(shí)組成。
大型知識圖譜通常存在缺少事實(shí)的情況,使得一部分問題找不到正確答案,而將知識圖譜推理應(yīng)用于KGQA 中可以解決信息缺失問題。在KGQA 中知識圖譜推理技術(shù)主要運(yùn)用于候選答案的選取、問題相關(guān)子圖的推理及關(guān)系路徑的推理中。
本章針對知識圖譜推理技術(shù)在不同問答任務(wù)中的應(yīng)用分別進(jìn)行介紹。
開放領(lǐng)域問答是使用Freebase等大型知識圖譜作為KGQA 知識源,用于解決開放領(lǐng)域問題的問答。本章將開放域問答推理方法分為三類,分別為基于圖嵌入的方法、基于深度學(xué)習(xí)的方法以及基于邏輯的方法。
基于嵌入表示知識圖譜推理方法中典型的模型是Bordes 等人提出的TransE 模型,其通過對低維空間中的向量進(jìn)行平移操作預(yù)測缺失的實(shí)體或關(guān)系。因TransE 泛化能力強(qiáng),所以在KGQA 中廣泛使用,但是該模型存在以下幾個(gè)問題:首先對復(fù)雜關(guān)系的處理效果較差,其次沒有充分考慮語義信息。后續(xù)許多學(xué)者提出TransE的衍生變體,解決上述問題,有部分學(xué)者將此類KG 推理模型應(yīng)用于下游任務(wù)中,解決實(shí)際問題。
通過將TransE、ComplEx等KG 推理模型應(yīng)用于KGQA 中,可以學(xué)習(xí)到KG 的低維向量表示,使得KG 中相似的實(shí)體與關(guān)系在向量空間中接近,并在此向量空間中進(jìn)行運(yùn)算得到問題答案?;趫D嵌入方法的流程如圖2 所示。
圖2 基于圖嵌入的方法流程圖Fig.2 Flow chart of graph embedding methods
Wang 等人針對用戶在使用SPARQL 查詢時(shí)因不當(dāng)?shù)牟樵?,?dǎo)致返回空答案的問題,提出基于RDF(resource description framework)圖嵌入的模型。首先,他們利用在TransE 基礎(chǔ)上加入實(shí)體上下文信息的嵌入方法,將RDF 圖嵌入至向量空間;然后,對于返回空答案的SPARQL 查詢,將其中的變量與查詢項(xiàng)在向量空間中表示;最后,計(jì)算并返回相似答案。實(shí)驗(yàn)表明,在TransE 基礎(chǔ)上加入實(shí)體上下文信息能夠增強(qiáng)實(shí)體間語義聯(lián)系,相較于直接使用TransE 的方法有著更好的表現(xiàn)。但模型只能利用SPARQL 查詢語句進(jìn)行問答,不能對自然語言問句進(jìn)行回答。針對上述問題,Wang 等人提出將自然語言問句轉(zhuǎn)化為圖結(jié)構(gòu)查詢的框架KemQA。首先,該框架在TransE 基礎(chǔ)上加入實(shí)體上下文信息,并將KG 與關(guān)系短語詞典編碼至相同向量空間;其次,對于給定的問句,利用學(xué)習(xí)到的嵌入向量解決歧義性問題,以得到精確的候選節(jié)點(diǎn)和邊;最后,將候選節(jié)點(diǎn)和邊構(gòu)造為圖結(jié)構(gòu)查詢以預(yù)測最終結(jié)果。KemQA 的短語映射和消歧在嵌入空間中進(jìn)行,因此能夠避免大規(guī)模搜索,使得其計(jì)算效率更高。但邏輯查詢通常只能查詢數(shù)據(jù)庫中存在的事實(shí),不能推斷缺少的信息。針對該問題,Sun 等人提出查詢嵌入方法(embedding query language,EmQL),將知識圖譜中事實(shí)與查詢一起嵌入至向量空間中,從而解決缺少信息的問題。
為直接利用知識圖譜中的事實(shí)回答問題,有學(xué)者提出利用問句信息,從知識庫中選取候選答案,將問句和候選答案映射到相同低維空間,計(jì)算問句與候選答案之間的相似度。此類方法主要通過對問句和候選答案進(jìn)行訓(xùn)練,預(yù)測最終的結(jié)果,因此無法解決自然語言問句的模糊性問題。Huang 等人針對上述問題,提出了基于知識嵌入的問答框架(knowledge embedding based question answering,KEQA)。首先,該框架使用TransE 模型將KG 嵌入至兩個(gè)低維向量空間中,得到謂詞嵌入空間和實(shí)體嵌入空間;其次,對于給定的問句,在嵌入空間中分別得到該問句實(shí)體以及謂詞的嵌入表示,并使用頭實(shí)體檢測模型在KG 中找到候選事實(shí);最后,通過聯(lián)合距離度量計(jì)算問句實(shí)體和謂詞與所有候選事實(shí)的距離,返回距離最小的事實(shí)作為答案。實(shí)驗(yàn)表明,首先將KG 嵌入得到低維表示,然后執(zhí)行KGQA 任務(wù)的方法,其預(yù)測準(zhǔn)確性可以得到有效提升,但KEQA 無法回答多跳問題。Saxena 等人針對多跳推理問題以及KG 信息缺失問題,提出EmbedKGQA 模型。首先,該模型利用ComplEx方法將KG 嵌入至復(fù)數(shù)空間,以捕獲全面的特征信息,從而得到實(shí)體、關(guān)系及候選答案的向量表示;其次,使用RoBERTa 模型對問句進(jìn)行編碼,并映射至與KG 相同的嵌入空間中;然后,將關(guān)系替換為問句向量,使用打分函數(shù)以及損失函數(shù)訓(xùn)練數(shù)據(jù)的嵌入表示,得到與之間關(guān)系為向量的表示;最后,對于給定問句及實(shí)體,利用知識圖譜對所有可能的候選答案進(jìn)行打分,將分?jǐn)?shù)最高的實(shí)體作為最終答案。實(shí)驗(yàn)表明,該方法在不完整知識圖譜上具有較好的表現(xiàn)。
基于圖嵌入的方法具有較強(qiáng)的魯棒性,能夠有效解決KG 不完整的問題以及自然語言問句的模糊性問題。但這類方法中,大多推理能力以及可解釋性較差,并且KGQA 的準(zhǔn)確率易受到KG 嵌入模型的影響。
基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理方法能夠利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)捕捉路徑信息,以預(yù)測實(shí)體對之間的隱含關(guān)系;能夠利用強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)方法通過策略的代理順序擴(kuò)展其推理路徑,得到目標(biāo)答案;能夠利用圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)捕捉鄰域信息以及圖譜結(jié)構(gòu)信息,對缺失信息進(jìn)行預(yù)測。
通過將基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理方法應(yīng)用于KGQA 中,可以深入學(xué)習(xí)知識圖譜中語義信息以及結(jié)構(gòu)信息,實(shí)現(xiàn)對答案的預(yù)測,并且能夠解決圖嵌入方法無法對關(guān)系路徑建模的問題。
Zhang 等人針對自然語言問句中語義模糊問題,提出端到端的概率建??蚣?。首先,該框架識別出主題實(shí)體,將相鄰跳數(shù)內(nèi)的實(shí)體作為候選答案,并獲得與每個(gè)候選答案之間所有路徑構(gòu)成的子圖;其次,采用前向傳播的方法,通過父節(jié)點(diǎn)遞歸地嵌入每個(gè)候選答案子圖;最后,計(jì)算問題表示和子圖嵌入表示之間的相似度以預(yù)測最終答案。但隨著跳數(shù)增加,候選實(shí)體會(huì)呈指數(shù)級增長,其性能也會(huì)受到限制。Sun 等人針對KG 中信息不完整的問題,提出GRAFT-Net 方法,首先根據(jù)主題實(shí)體從知識庫獲取子圖以及百科中搜索對應(yīng)文檔,將子圖與文檔中相同實(shí)體鏈接構(gòu)成異構(gòu)圖,然后通過GNN 以迭代的方式對異構(gòu)圖中的節(jié)點(diǎn)表示和更新,并在更新過程加入問句信息以選擇最終的答案實(shí)體。但GRAFT-Net抽取子圖的方法是啟發(fā)式的,這會(huì)引入許多無關(guān)實(shí)體。針對上述問題,Sun 等人提出PullNet 方法,該方法對GRAFT-Net 中子圖構(gòu)建方法進(jìn)行了改進(jìn),通過從文本和KG 兩個(gè)知識源中以迭代的方式構(gòu)建子圖,從而減少與問題無關(guān)的子圖數(shù)量。實(shí)驗(yàn)表明,其結(jié)果優(yōu)于GRAFT-Net 方法。Xiong 等人為進(jìn)一步提升問答效率,提出了一種端到端的模型。首先,該模型根據(jù)主題實(shí)體從KG 中獲得相應(yīng)子圖,并將子圖嵌入表示與問題語義信息相結(jié)合,得到問題與子圖的聯(lián)合語義信息;其次,模型通過條件門控機(jī)制獲取文本中的語義信息;最后,對兩個(gè)語義信息進(jìn)行相似度計(jì)算得到最終答案。
但基于子圖推理的方法通常考慮整個(gè)主題實(shí)體為中心的子圖,會(huì)引入噪聲信息,并導(dǎo)致KGQA 系統(tǒng)復(fù)雜程度提高。其次,由于數(shù)據(jù)標(biāo)注的成本較高,精確對每一步推理過程進(jìn)行標(biāo)注是不切實(shí)際的,只能對最終答案進(jìn)行標(biāo)注,導(dǎo)致可解釋性差與弱監(jiān)督的問題。因此有研究人員提出結(jié)合強(qiáng)化學(xué)習(xí)的方法,解決上述困難。
Das 等人提出MINERVA 方法,通過結(jié)合強(qiáng)化學(xué)習(xí)方法有效地搜索路徑,以對具有單一關(guān)系的簡單問題進(jìn)行推理。該方法受獎(jiǎng)勵(lì)函數(shù)驅(qū)動(dòng),在知識圖譜上尋找相關(guān)推理路徑進(jìn)行答案預(yù)測,但存在兩種問題:(1)隨著路徑數(shù)量的增長,導(dǎo)致大多數(shù)的路徑得不到獎(jiǎng)勵(lì),造成稀疏獎(jiǎng)勵(lì)問題;(2)模型可能會(huì)通過無意義路徑(或稱為虛假路徑)得到正確答案,從而對推理產(chǎn)生負(fù)面影響。Lin 等人針對上述兩種問題,提出獎(jiǎng)勵(lì)形成的RL 模型。該模型通過引入預(yù)訓(xùn)練的嵌入模型對未觀察到的事實(shí)形成獎(jiǎng)勵(lì),并且對每條路徑上的中間實(shí)體關(guān)系隨機(jī)進(jìn)行dropout,從而探索不同的路徑集,以緩解虛假路徑產(chǎn)生的負(fù)面影響。但該方法無法解決復(fù)雜問題,因此Qiu 等人提出逐步推理網(wǎng)絡(luò)(stepwise reasoning network,SRN),并將復(fù)雜問題歸結(jié)為順序決策問題。首先,該網(wǎng)絡(luò)使用雙向GRU(gated recurrent unit)對自然語言問句編碼,并通過單層感知器得到當(dāng)前時(shí)間步的問題表示,同時(shí)使用另一個(gè)GRU 對決策歷史進(jìn)行編碼;其次,通過注意力機(jī)制將每個(gè)候選動(dòng)作與問題交互,生成關(guān)系感知的問題表示,解決虛假路徑的問題;另外,提出基于勢函數(shù)的獎(jiǎng)勵(lì)形成策略,解決稀疏獎(jiǎng)勵(lì)問題;最后,將決策歷史和問題表示串聯(lián),并基于語義得分預(yù)測下一步動(dòng)作,其示意圖如圖3 所示。He等人為進(jìn)一步緩解虛假路徑問題,提出多跳KGQA的師生方法。其中學(xué)生網(wǎng)絡(luò)由神經(jīng)狀態(tài)機(jī)實(shí)現(xiàn),以尋找到問題的正確答案,教師網(wǎng)絡(luò)是利用雙向推理增強(qiáng)對中間實(shí)體分布的學(xué)習(xí)。實(shí)驗(yàn)表明,教師網(wǎng)絡(luò)能夠?qū)W習(xí)到可靠的中間監(jiān)督信號,并緩解虛假路徑問題,增強(qiáng)學(xué)生網(wǎng)絡(luò)的推理。
圖3 基于強(qiáng)化學(xué)習(xí)的方法框架Fig.3 Methods framework of reinforcement learning
通過關(guān)系路徑進(jìn)行推理,對解決多跳問題具有較好表現(xiàn),并且具有較好的可解釋性。但關(guān)系路徑的擴(kuò)展會(huì)使節(jié)點(diǎn)數(shù)以指數(shù)級別增長,如何減小計(jì)算空間,并且增強(qiáng)其預(yù)測能力仍然是當(dāng)前研究面臨的巨大挑戰(zhàn)。其次單一路徑可能會(huì)存在表達(dá)單一的問題。
基于邏輯規(guī)則的知識圖譜推理方法是利用專家定義的規(guī)則或者KG 中學(xué)習(xí)到邏輯規(guī)則進(jìn)行顯式推理,以得到新的事實(shí),其具有較強(qiáng)的可解釋性。而基于語義解析的KGQA 方法與基于邏輯規(guī)則的知識圖譜推理相似,此類方法首先將自然語言問題轉(zhuǎn)換為可執(zhí)行查詢或中間邏輯形式,然后對KG 執(zhí)行查詢,獲得答案實(shí)體。然而大多傳統(tǒng)基于語義解析的KGQA 方法需要特定領(lǐng)域的語法、規(guī)則或細(xì)粒度注釋,其語法結(jié)構(gòu)和KG 結(jié)構(gòu)之間的不匹配限制了性能。為了在問句解析時(shí)更加緊密地利用知識庫,有研究人員提出查詢圖方法。
Yih 等人給出查詢圖定義,并提出分階段生成查詢圖的方法(staged query graph generation,STAGG),可以總結(jié)為以下步驟:(1)利用實(shí)體鏈接工具識別問句主題實(shí)體,然后探索主題實(shí)體和lambda 變量之間的核心關(guān)系路徑。(2)在核心關(guān)系路徑上添加約束,約束由一個(gè)帶關(guān)系的固定實(shí)體或者聚合函數(shù)組成,能夠解決具有比較的約束問題。(3)計(jì)算上述各步驟生成的候選查詢圖與問題的相似度,從而對查詢圖進(jìn)行排序。(4)執(zhí)行最優(yōu)查詢獲取答案。但STAGG僅適用于單一關(guān)系問題,后續(xù)許多學(xué)者在此基礎(chǔ)上進(jìn)行改進(jìn)。為解決多約束的問題,Bao 等人提出MulCG 方法,通過在STAGG 的基礎(chǔ)上增加類型約束與時(shí)間約束等約束類型,解決具有比較、聚合、時(shí)間約束等類型的問題。Luo 等人同樣遵循STAGG 的查詢圖生成方法,但重點(diǎn)對問題和查詢圖的編碼方法進(jìn)行改進(jìn),通過集成各語義組件的向量,顯式編碼查詢圖的語義信息,并利用依賴解析豐富問題向量,進(jìn)一步提高預(yù)測性能。類似的Sorokin 等人與Maheshwari 等人同樣對編碼方法進(jìn)行了改進(jìn),Sorokin 等人使用門控圖神經(jīng)網(wǎng)絡(luò)(gated graph neural networks,GGNN)對查詢圖的語義結(jié)構(gòu)進(jìn)行顯式建模,學(xué)習(xí)其向量表示。Maheshwari 等人則提出槽位匹配模型,將核心鏈劃分為多個(gè)躍點(diǎn),并根據(jù)每個(gè)躍點(diǎn)創(chuàng)建問題的多個(gè)表示形式,進(jìn)行細(xì)粒度的比較。
有學(xué)者認(rèn)為上述查詢圖生成方法存在引入噪聲信息以及表達(dá)能力有限等問題,因此,對查詢圖生成步驟進(jìn)行改進(jìn)。如Hu 等人提出利用擴(kuò)展、折疊、連接、合并四個(gè)基本操作生成語義查詢圖,提升查詢圖的語義表達(dá)能力。Ding 等人提出基于頻繁查詢子結(jié)構(gòu)的查詢生成方法,該方法利用神經(jīng)網(wǎng)絡(luò)預(yù)測問題中包含的查詢子結(jié)構(gòu),然后使用組合函數(shù)對現(xiàn)有查詢結(jié)構(gòu)排序或構(gòu)建新的查詢結(jié)構(gòu),能夠有效解決具有復(fù)雜長尾問題的查詢。Lan 等人提出一種改進(jìn)的分階段查詢圖生成方法,該方法通過束搜索機(jī)制和語義匹配模型指導(dǎo)剪枝,有效減少搜索空間。Chen 等人提出抽象查詢圖生成方法,首先預(yù)測出查詢圖的正確結(jié)構(gòu),然后生成候選集,該方法可以規(guī)避噪聲查詢圖。
查詢圖方法將問題解析成與KG 結(jié)構(gòu)緊密匹配的圖結(jié)構(gòu)邏輯形式,對于解決具有約束的復(fù)雜問題有較好的表現(xiàn),同時(shí)具有較高的可解釋性。但這類方法的缺點(diǎn)之一是沒有端到端的訓(xùn)練,依賴于復(fù)雜的自然語言處理流水線(命名實(shí)體識別、實(shí)體鏈接、關(guān)系檢測等),可能會(huì)導(dǎo)致錯(cuò)誤級聯(lián)。其次,知識圖譜通常不完整,并具有大量噪聲,因此通過查詢可能無法返回正確答案。近幾年,有學(xué)者將邏輯推理方法中可解釋強(qiáng)、準(zhǔn)確率高的優(yōu)點(diǎn)與嵌入方法中泛化能力強(qiáng)的優(yōu)點(diǎn)相結(jié)合,通過在嵌入空間中執(zhí)行邏輯運(yùn)算,有效解決KG 不完整問題以及具有約束的復(fù)雜邏輯問題。這類方法的重點(diǎn)在于處理復(fù)雜邏輯查詢。
Hamilton 等人為解決不完整知識圖譜上的復(fù)雜邏輯推理,提出圖查詢嵌入框架(graph query embedding,GQE)。首先,GQE 將查詢語句表示為查詢圖,如圖4 中(1)所示,并將其嵌入到低維空間中,如圖4 中(2)所示;其次,從查詢的錨節(jié)點(diǎn)開始,迭代地應(yīng)用映射算子與合取算子,生成對應(yīng)于查詢的嵌入;最后,利用預(yù)測可能的答案。其中映射算子是將頭實(shí)體表示通過關(guān)系類型連接得到新的嵌入表示,而合取算子是用于計(jì)算兩個(gè)集合嵌入的交集,流程如圖4(a)所示。但該方法只能解決合?。ā模﹩栴}不能解決析取(∨)問題。Ren 等人認(rèn)為GQE方法將實(shí)體集合表示為單點(diǎn)是不合適的,因此提出Query2box 方法,將查詢編碼為box 的形式,通過執(zhí)行邏輯運(yùn)算得到包含答案實(shí)體的box,并能有效解決合取與析取問題,具體流程如圖4(b)所示。但該方法只支持具有存在量化(?)、合取和析取的一階邏輯查詢(first order logic,F(xiàn)OL),不支持否定(?)。然而,否定是一種基本操作,也是完整一階邏輯操作集中必需的部分。針對否定(?)問題的解決,Ren 等人提出概率嵌入框架BetaE。該框架可以回答知識圖譜上任意一階邏輯查詢,如合取、析取和否定。BetaE的核心是使用有界支持的Beta 概率分布,通過轉(zhuǎn)換Beta 分布的參數(shù),使高概率密度區(qū)域成為低概率密度區(qū)域,從而有效對否定進(jìn)行運(yùn)算。并且BetaE 使用德摩根定律,將析?。ā牛┙茷楹先。ā模┡c否定(?),從而支持任意一階邏輯查詢。但上述方法無法對查詢中未相連部分之間的復(fù)雜依賴關(guān)系建模,對此Kotnis等人提出雙向查詢嵌入方法(bidirectional query embedding,BIQE),通過連接查詢嵌入到雙向注意機(jī)制模型,捕獲查詢圖中所有元素的交互,能夠有效處理復(fù)雜圖查詢。
圖4 邏輯推理方法框架Fig.4 Logical reasoning methods framework
當(dāng)前嵌入表示與邏輯查詢相結(jié)合的方法越來越多,但更多是針對復(fù)雜邏輯查詢問題的解決。其次,基于邏輯的推理方法能有效解決帶有否定的問題,但目前對該方面的研究較少,因此如何結(jié)合邏輯規(guī)則解決KGQA 中帶有否定詞的問題是值得研究的內(nèi)容。
表2 對上述研究進(jìn)行了總結(jié)?;趫D嵌入的方法首先通過學(xué)習(xí)問題以及知識圖譜中實(shí)體和關(guān)系信息,然后在低維向量空間中運(yùn)算以獲取答案,但該方法對多跳問題的解決并不理想,并且可解釋性較差。而基于深度學(xué)習(xí)的方法,可以解決圖嵌入方法中可解釋性差的問題以及多跳推理問題,但是存在搜索空間大、計(jì)算量大等缺點(diǎn)。以上方法均不能解決帶有否定的問題,以及對帶有約束的復(fù)雜問題預(yù)測效果不佳。而基于邏輯的KGQA 方法能夠解決此類問題,通過人工定義規(guī)則或自動(dòng)生成規(guī)則模版,可以有效解決帶有復(fù)雜約束的問題,但是大多基于邏輯的方法將KG 視為完整知識圖譜進(jìn)行推理運(yùn)算,這使得其KGQA 系統(tǒng)的魯棒性有所欠缺。近幾年,有學(xué)者將邏輯運(yùn)算與嵌入方法相結(jié)合,從而在嵌入空間中執(zhí)行邏輯運(yùn)算以處理具有多個(gè)主題實(shí)體和邏輯操作的復(fù)雜問題,并有效解決KG 不完整以及KGQA可解釋性差的問題,這為問答方法提供了新的思路。
表2 KGQA 推理方法總結(jié)Table 2 Summary of KGQA reasoning methods
常識是人們在生活中所得到的經(jīng)驗(yàn)知識,對于一些常識問題,人類可以根據(jù)自身經(jīng)驗(yàn)和所學(xué)知識進(jìn)行回答。然而對于機(jī)器來說,則需具備先驗(yàn)知識及較強(qiáng)的推理能力作為支持。隨著常識問答數(shù)據(jù)集的出現(xiàn),例如CommonsenseQA、SocialIQA等,推動(dòng)了常識問答的研究。常識問答與開放域KGQA 的區(qū)別在于,常識問答需要背景知識,而這些背景知識不在給定上下文中,因此許多研究從外部知識源中獲取知識;其次常識問答數(shù)據(jù)集通常由選擇題構(gòu)成,因此更加關(guān)注問題與候選項(xiàng)間的隱含關(guān)系。
最后,計(jì)算問題與候選項(xiàng)的得分,如式(9)所示,從而對多跳關(guān)系進(jìn)行顯式建模。
實(shí)驗(yàn)表明,KagNet與僅使用預(yù)訓(xùn)練語言模型的方法相比,有較高的提升,證明加入KG 路徑信息的有效性。然而,路徑節(jié)點(diǎn)會(huì)隨跳數(shù)增加而呈指數(shù)級增長,因此KagNet 方法難以擴(kuò)展。Feng 等人為賦予GNN 直接建模路徑的能力,對圖編碼器進(jìn)行了改進(jìn),提出多跳圖關(guān)系網(wǎng)絡(luò)(multi-hop graph relation network,MHGRN),通過結(jié)合GNN 和路徑信息,并加入結(jié)構(gòu)化的關(guān)系注意機(jī)制,用于多跳推理路徑的高效、可解釋的建模。但MHGRN 方法復(fù)雜度較高,并且將QA 與KG 獨(dú)立表示對結(jié)構(gòu)化推理有影響。因此,Yasunaga 等人針對上述問題,提出了端到端的QA-GNN 模型。首先,該模型將子圖節(jié)點(diǎn)與問答對拼接,使用語言模型RoBERTa計(jì)算節(jié)點(diǎn)與問答對的相關(guān)性得分;其次,將問答對視為一個(gè)額外的節(jié)點(diǎn)加入到子圖中,并利用相關(guān)性得分增強(qiáng)節(jié)點(diǎn)表示,以提高推理能力與可解釋性。實(shí)驗(yàn)表明,該方法與上述方法相比,能夠充分利用KG 結(jié)構(gòu)信息,有助于結(jié)構(gòu)化的推理。
Wang 等人認(rèn)為上述方法在抽取子圖的過程會(huì)引入噪聲,因此提出了一種路徑生成器(path generator,PG)。他們通過在采樣路徑上微調(diào)GPT-2 預(yù)訓(xùn)練語言模型,引導(dǎo)PG 生成與問答對相關(guān)的推理路徑,從而去除噪聲干擾。實(shí)驗(yàn)表明,GPT-2 中存儲的非結(jié)構(gòu)化知識有助于補(bǔ)充KG 中缺失的知識,其生成的路徑接近靜態(tài)KG 已有的知識。但是PG 方法忽略了圖結(jié)構(gòu)信息。針對該問題,Yan 等人提出混合圖網(wǎng)絡(luò)(hybrid graph network,HGN),對于給定的子圖,通過邊加權(quán)及傳遞信息,有效過濾掉子圖中的無關(guān)事實(shí),并生成新的有用事實(shí)以提升推理能力。實(shí)驗(yàn)表明,該方法與PG 方法相比有顯著提升。
綜上,上述方法也可稱為KG 增強(qiáng)方法,KG 增強(qiáng)模型通常具有三個(gè)組件,分別是文本編碼器、圖形編碼器和評分函數(shù),其示意圖如圖5 所示。在KG 增強(qiáng)模型中,文本編碼器傾向使用預(yù)訓(xùn)練語言模型得到問答對的向量表示,評分函數(shù)通常使用多層感知機(jī)(multi-layer perceptron,MLP),大多研究方法在圖編碼器和子圖構(gòu)造方面進(jìn)行改進(jìn)。
圖5 KG 增強(qiáng)模型示意圖Fig.5 Schematic of KG-augmented model
表3 對上述常識問答方法進(jìn)行了總結(jié),可以看到充分利用關(guān)系路徑信息有助于模型性能的提升,并且對圖編碼器進(jìn)行改進(jìn),增強(qiáng)問答對與KG 實(shí)體之間的交互信息同樣能夠提升模型性能。但是子圖抽取會(huì)引入噪聲,增加模型的計(jì)算量。HGN 方法是通過補(bǔ)全子圖信息,過濾無關(guān)事實(shí)預(yù)測答案實(shí)體,其準(zhǔn)確率在此類方法中達(dá)到最優(yōu),因此增強(qiáng)圖譜信息對于KGQA 提升性能有很大的幫助。從表3 各結(jié)果中可以發(fā)現(xiàn),知識圖譜推理技術(shù)與常識問答結(jié)合的方法還有很大的研究空間。
表3 模型在CommonsenseQA 測試集上準(zhǔn)確率及創(chuàng)新點(diǎn)Table 3 Accuracy and innovation points of models on CommonsenseQA test set
自然語言問題中有些詞語具有時(shí)態(tài)信息(例如,before 和after),并在問題中發(fā)揮限制作用。然而,現(xiàn)有的大多KGQA 方法無法有效解決帶有時(shí)間約束的問題。為了能夠更準(zhǔn)確地回答用戶問題,有部分學(xué)者開始轉(zhuǎn)向時(shí)序問題的研究。
Jia 等人為解決KGQA 中包含時(shí)間信息的復(fù)雜問題,提出時(shí)序知識問答方法TEQUILA。TEQUILA首先要識別問句是否帶有時(shí)間信息,然后使用規(guī)則方法將復(fù)雜問題分解為簡單子問題,在知識圖譜中查詢子問題的答案集,最后使用具有時(shí)間信息子問題的時(shí)間約束與答案集進(jìn)行推理合并,得到最終答案。TEQUILA 可以與知識圖譜問答系統(tǒng)結(jié)合使用,但其主要缺點(diǎn)是使用專家預(yù)先指定的模板進(jìn)行分解,因此無法處理復(fù)雜的問題。Jia 等人為進(jìn)一步解決復(fù)雜時(shí)序問題,提出端到端系統(tǒng)Exaqt,該系統(tǒng)首先使用Steiner 樹和BERT 模型,獲取與問題緊密相關(guān)的子圖,并利用相關(guān)時(shí)序事實(shí)擴(kuò)充子圖,其次利用不同種類的時(shí)序信息擴(kuò)展R-GCN(relational graph convolutional networks),并使用該R-GCN 進(jìn)行答案預(yù)測,實(shí)驗(yàn)表明該方法可以有效解決具有時(shí)間意圖的問題。然而上述方法在非時(shí)序KG 中使用,因此不能直接應(yīng)用于時(shí)序知識圖譜,時(shí)序知識圖譜是一種多關(guān)系圖,這與沒有時(shí)間注釋的常規(guī)知識圖譜不同。一個(gè)常規(guī)知識圖譜可能包含一個(gè)事實(shí),例如(Barack Obama,held position,President of USA),而時(shí)序知識圖譜包含開始和結(jié)束時(shí)間,例如(Barack Obama,held position,President of USA,2008,2016)。目前關(guān)于時(shí)序KG的研究重點(diǎn)在于對圖譜的補(bǔ)全工作。Saxena等人則使用時(shí)序KG 解決時(shí)序問題,通過在Embed-KGQA方法上進(jìn)行改進(jìn),提出了CRONKGQA 方法。首先,該方法使用時(shí)序知識圖譜嵌入模型TComplEx分別對時(shí)序知識圖譜中的時(shí)間與實(shí)體生成嵌入表示;其次,使用BERT 對問題中的實(shí)體及時(shí)間信息生成嵌入表示;然后,將獲取的嵌入表示融合,得到實(shí)體與時(shí)間的得分向量;最后,將所有實(shí)體和時(shí)間的分?jǐn)?shù)串聯(lián)起來,使用softmax 計(jì)算組合分?jǐn)?shù)向量的答案概率。CRONKGQA 在簡單的時(shí)間推理問題上達(dá)到了很高的準(zhǔn)確性,但在復(fù)雜推理問題上效果并不理想。
表4 對上述時(shí)序知識問答方法進(jìn)行了總結(jié),可以發(fā)現(xiàn),現(xiàn)對于時(shí)序知識問答的研究較少。其中TEQUILA 與Exaqt 是以非時(shí)序KG 為知識源,解決KGQA 中的時(shí)序問題。上述方法的實(shí)驗(yàn)結(jié)果表明,增強(qiáng)時(shí)序信息對于提升答案預(yù)測性能有顯著作用。CRONKGQA 是在時(shí)序KG 上進(jìn)行推理,回答自然語言問題,這是一個(gè)相對未被研究的領(lǐng)域。目前時(shí)序KGQA 方法沒有使用統(tǒng)一的數(shù)據(jù)集,因此無法對各類時(shí)序方法的性能進(jìn)行比較,但從表4 可以發(fā)現(xiàn),時(shí)序知識問答方法的預(yù)測性能有待進(jìn)一步提升。
表4 時(shí)序知識問答方法總結(jié)Table 4 Summary of temporal KGQA methods
本文重點(diǎn)對知識圖譜推理方法在問答中的應(yīng)用研究進(jìn)行介紹,并詳細(xì)分析了各方法的優(yōu)劣,可以發(fā)現(xiàn),現(xiàn)存知識圖譜推理問答方法仍然存在尚未解決的問題,本文將其歸納為以下幾點(diǎn):
(1)現(xiàn)有多數(shù)知識圖譜推理方法主要針對大型知識圖譜補(bǔ)全的工作,通常存在參數(shù)多、復(fù)雜度高的問題,因此難以應(yīng)用于KGQA、推薦系統(tǒng)等下游任務(wù)中。
(2)目前中文KGQA 數(shù)據(jù)集較為匱乏,尤其是具有復(fù)雜問題的數(shù)據(jù)集,而構(gòu)建相關(guān)數(shù)據(jù)集可以推動(dòng)中文KGQA 的發(fā)展。因此,針對中文KGQA 任務(wù)構(gòu)建數(shù)據(jù)集是未來需要關(guān)注的內(nèi)容。
(3)KGQA 中針對復(fù)雜問題的推理是當(dāng)前的研究熱點(diǎn),但多數(shù)方法利用關(guān)系路徑以及問題相關(guān)子圖,因此存在搜索空間大、算法復(fù)雜度高等問題,對問答的推理效率有所影響。未來如何提高復(fù)雜推理問答的高效性是待解決的問題。
(4)目前,有研究人員提出將嵌入與邏輯運(yùn)算相結(jié)合的方法解決復(fù)雜邏輯問題以及知識圖譜不完整問題,但此類方法主要用于解決復(fù)雜邏輯查詢,如何將其擴(kuò)展至自然語言問題中,也是未來需要解決的問題。
(5)現(xiàn)有KGQA 方法大多只適合在靜態(tài)知識圖譜中使用,伴隨時(shí)間的推移,知識圖譜中的知識需要結(jié)合時(shí)序信息,以解決含有時(shí)序信息的復(fù)雜問題,這將是知識圖譜問答未來需要面臨的問題。