亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜問答研究進(jìn)展

        2022-03-25 04:45:36王月春郝曉慧王會勇
        軟件導(dǎo)刊 2022年3期
        關(guān)鍵詞:圖譜實(shí)體語義

        論 兵,王月春,郝曉慧,2,谷 斌,王會勇

        (1.石家莊郵電職業(yè)技術(shù)學(xué)院計算機(jī)系;2.中國郵政集團(tuán)公司人才測評中心;3.河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050000)

        0 引言

        問答系統(tǒng)(Question Answering System,QA)是利用自然語言處理技術(shù)對自然語言問句進(jìn)行自動分析,并準(zhǔn)確回復(fù)答案的智能系統(tǒng)。近年來,隨著信息技術(shù)的飛速發(fā)展,現(xiàn)實(shí)世界中的信息量呈指數(shù)式增長,傳統(tǒng)依賴大量規(guī)則或模板的問答系統(tǒng)已無法滿足人們的實(shí)際需求。為了解決傳統(tǒng)基于語義解析的方法中存在的問題,研究者們逐漸將研究興趣從語義解析轉(zhuǎn)移到信息檢索中?;谛畔z索的問答系統(tǒng)依靠關(guān)鍵詞匹配和信息提取分析淺層語義,并從相關(guān)網(wǎng)頁或文檔中提取相關(guān)知識,從而實(shí)現(xiàn)自然語言問句回答。這種方法需要問答系統(tǒng)預(yù)先設(shè)置問題答案,因此無法實(shí)現(xiàn)開放領(lǐng)域的問答。

        隨著語義網(wǎng)(Semantic Web)、知識圖譜(Knowledge Graph,KG)和信息檢索技術(shù)的快速發(fā)展,一大批高質(zhì)量的知識圖譜被推出,如YAGO[1]、DBpedia[2]和Freebase[3]。知識圖譜將現(xiàn)實(shí)世界中的知識以網(wǎng)狀的形式進(jìn)行存儲,被廣泛應(yīng)用于醫(yī)療[4]、金融[5]、軍事[6]等領(lǐng)域,并取得了較為顯著的效果。基于知識圖譜的問答系統(tǒng)(Knowledge Graph Question Answering,KGQA)根據(jù)知識圖譜內(nèi)部存在的大量實(shí)體間的直接關(guān)系,挖掘并推理隱藏關(guān)系[7]。與傳統(tǒng)基于信息檢索的問答系統(tǒng)相比,KGQA 可以在知識圖譜的基礎(chǔ)上爭取理解用戶問題的語義,并通過實(shí)體檢索、關(guān)系推理,最終反饋?zhàn)顪?zhǔn)確的答案。本文對近年來提出的知識圖譜問答技術(shù)進(jìn)行追蹤和整理,為更多知識圖譜問答研究者提供參考信息。

        1 背景知識

        1.1 問答系統(tǒng)

        問答系統(tǒng)作為人工智能中的一個關(guān)鍵領(lǐng)域[8],其能夠快速回答用戶利用自然語句提出的問題,是信息檢索和人工智能的交叉研究方向。早在人工智能出現(xiàn)早期,阿蘭·圖靈就提出了經(jīng)典的圖靈測試,以驗(yàn)證機(jī)器是否具有類人智能。在之后的數(shù)十年間,伴隨著人工智能技術(shù)的興衰,一大批具有代表性的問答系統(tǒng)不斷涌現(xiàn)。1966 年,Weizenbaum 設(shè)計并實(shí)現(xiàn)了ELIZA 聊天機(jī)器人[9],其能夠處理簡單的問題語句。公認(rèn)最早應(yīng)用于現(xiàn)實(shí)生活的問答系統(tǒng)是Baseball 系統(tǒng),僅能限定性地回答棒球領(lǐng)域的基礎(chǔ)問題。隨后Colby 設(shè)計的PARRY 聊天機(jī)器人[10]在利用ELIZA 規(guī)則的基礎(chǔ)上,添加了自己的情感,成為第一個通過圖靈測試的聊天系統(tǒng)。這些基于規(guī)則匹配的問答系統(tǒng)受限于當(dāng)時匱乏的數(shù)據(jù)資源,不能得到大規(guī)模應(yīng)用。

        隨著深度學(xué)習(xí)和自然語言處理技術(shù)的快速發(fā)展,問答系統(tǒng)逐漸從早期的規(guī)則匹配過渡到檢索匹配[11]。其核心思想是通過提取自然語言問句中的核心詞,之后根據(jù)問題核心詞在文檔或網(wǎng)頁中搜索相關(guān)答案內(nèi)容,并利用相關(guān)排序算法返回對應(yīng)答案。Ma 等[12]基于文檔自動檢索的方法提出偽相關(guān)反饋算法,該方法利用文檔中的上下文信息檢索最相似的答案?;跈z索的方法在提出之初取得了較好效果,但隨著數(shù)據(jù)量激增、用戶問題多樣性及自然語言復(fù)雜性等問題的出現(xiàn),基于檢索匹配的問答系統(tǒng)從文檔或網(wǎng)頁中抽取的答案質(zhì)量參差不齊,嚴(yán)重影響了系統(tǒng)的響應(yīng)時間和答案的準(zhǔn)確性。

        直至知識圖譜、知識庫等概念的提出,問答系統(tǒng)利用知識圖譜內(nèi)存在的大量結(jié)構(gòu)化知識和計算機(jī)強(qiáng)大的算力,從根本上解決了前兩種問答系統(tǒng)的不足,實(shí)現(xiàn)了問答系統(tǒng)從文檔形式的問答轉(zhuǎn)變?yōu)榛谥R圖譜的問答,且越來越受到研究者的重點(diǎn)關(guān)注,成為自然語言處理領(lǐng)域的熱點(diǎn)[13]。

        1.2 知識圖譜

        2012 年,Google 首次提出知識圖譜概念,并將其應(yīng)用于改善傳統(tǒng)搜索引擎的能力。知識圖譜將現(xiàn)實(shí)世界中的知識以三元組(實(shí)體—關(guān)系—實(shí)體或概念—屬性—值)的形式進(jìn)行組織,形成了一個多邊關(guān)系網(wǎng)絡(luò),其本質(zhì)是一種語義網(wǎng)絡(luò),可揭示實(shí)體間的相互關(guān)系。圖1 展示了一個簡單的知識圖譜示例,其中節(jié)點(diǎn)表示實(shí)體或概念,連接節(jié)點(diǎn)的邊表示實(shí)體間的關(guān)系或概念的屬性。根據(jù)知識覆蓋領(lǐng)域不同,知識圖譜可簡單分為通用領(lǐng)域知識圖譜(如:Wikidata[14]、DBpedia、CN-DBpedia[15]、Freebase 等)和特定領(lǐng)域知識圖譜(如:阿里商品圖譜[16]、美團(tuán)美食圖譜[17]、AMiner[18])。傳統(tǒng)知識圖譜構(gòu)建方法包括實(shí)體識別[19]、實(shí)體消歧[20]、關(guān)系抽取[21]和知識存儲等。

        Fig.1 Simple example of knowledge graph圖1 知識圖譜簡單示例

        隨著深度學(xué)習(xí)的出現(xiàn)和快速發(fā)展,知識圖譜也逐漸由“符號”連接轉(zhuǎn)變?yōu)椤跋蛄俊北硎?。Boards 等[22]提出的TransE模型將知識圖譜中的實(shí)體和關(guān)系嵌入到低維向量語義空間,把關(guān)系向量視為頭實(shí)體向量到尾實(shí)體向量的一種翻譯;Lin 等[23]提出的TransR/CTransR 為每個關(guān)系設(shè)置一個獨(dú)有的關(guān)系矩陣空間Mr,并將實(shí)體和關(guān)系通過Mr矩陣嵌入到向量語義空間中進(jìn)行翻譯計算?;谥R表示學(xué)習(xí)的知識圖譜構(gòu)建方法從根本上解決了傳統(tǒng)知識圖譜構(gòu)建方法帶來的長尾效應(yīng),極大提高了知識圖譜的可用性。

        2 知識圖譜問答主要方法

        KGQA的關(guān)鍵問題是如何將自然語言問題轉(zhuǎn)換為計算機(jī)可以理解的形式語言,并在構(gòu)建好的KG 內(nèi)通過查詢、推理獲得問題答案,其本質(zhì)是自然語言處理的問題?,F(xiàn)有KGQA的主要方法大致可以分為:基于語義解析的方法(Semantic Parsing-based Method)、基于信息檢索的方法(Information Retrieval-based Method)、基于知識嵌入的方法(Knowledge Embedding-based Method)。圖2 展示了上述3種方法的主要工作流程。其中,基于語義解析方法的核心思想是將自然問答語句解析為SPARQL 查詢語句,并以此獲取答案核心詞實(shí)現(xiàn)問題的回答;基于信息檢索方法的核心思想是將自然語言語句進(jìn)行識別和抽取,構(gòu)建知識圖譜查詢子圖,并以此從知識圖譜內(nèi)獲取最優(yōu)結(jié)果;基于知識嵌入方法的核心思想是將知識圖譜和自然問句嵌入到低維空間中進(jìn)行向量計算以獲取最優(yōu)結(jié)果,從而實(shí)現(xiàn)知識問答。

        Fig.2 Main methods of knowledge graph question answering圖2 知識圖譜問答主要方法

        2.1 基于語義解析的方法

        基于語義解析方法的KGQA 主要是將非結(jié)構(gòu)化的自然語言轉(zhuǎn)換為一系列的邏輯表達(dá)式,并將拼接后的邏輯表達(dá)式放入知識圖譜中,查詢問題的最終答案。這種基于語義解析的方法對問題答案的可解釋性較高,能夠解釋KGQA系統(tǒng)答案的來源?;谡Z義解析的方法主要包括直接映射和神經(jīng)網(wǎng)絡(luò)兩種。

        2.1.1 直接映射方法

        直接映射方法主要采用語義解析語法工具完成邏輯表達(dá)式構(gòu)建。Steedman[24]提出的組合范疇語法(Combinatory Categorial Grammar,CCG)使用詞匯表完成問句到邏輯表達(dá)式的轉(zhuǎn)化,并通過排序算法選擇最佳邏輯表達(dá)式;Artizi 等[25]將CCG語義類型部分中的λ-算子替換為AMR(Abstract Meaning Representation),從而提升了語義解析效果;Berant 等[26]將CCG 語義解析直接融入KGQA 中,解決了傳統(tǒng)語義解析器需要大量人工標(biāo)注的詞匯表問題?;贑CG 語法的語義解析方法具有很強(qiáng)的可解釋性,同時結(jié)構(gòu)也較為清晰,在特定領(lǐng)域取得了較為出色的效果,但面對大規(guī)模通用知識圖譜時該方法使語義歧義問題更加凸顯。

        Reddy 等[27]對自然語言問題語句進(jìn)行分析,將傳統(tǒng)直接映射方法分析問句的依存解析樹轉(zhuǎn)為構(gòu)建自然語言問句所對應(yīng)的知識圖譜子圖,并將子圖映射到知識圖譜中,利用圖匹配方法實(shí)現(xiàn)問題回答;Hao 等[28]將自然語句解析為復(fù)雜的知識圖譜子圖,從而實(shí)現(xiàn)復(fù)雜問題回答,且模型效果較為出色;孟明明等[29]設(shè)計一種語義查詢拓展方法解決從數(shù)據(jù)源中難以獲得理想答案的問題,該方法對問題三元組中的查詢術(shù)語從3 個語義角度進(jìn)行拓展,實(shí)現(xiàn)了對問題三元組的多語義拓展;Hu 等[30]認(rèn)為基于語義解析方法的知識圖譜問答大致分為問題理解和查詢評分兩個階段,難點(diǎn)在于解決問題理解階段中的歧義性問題,即解決短語鏈接問題和復(fù)合問題。為此,他們提出一種基于圖匹配的方法,該方法將解決歧義問題與查詢評分兩個階段進(jìn)行融合,并提出關(guān)系優(yōu)先(relation-first)和節(jié)點(diǎn)優(yōu)先(node-first)的方法,relation-first 方法盡可能地抽取對應(yīng)關(guān)系,并根據(jù)句法樹中識別出的實(shí)體構(gòu)建查詢圖,node-first 方法則從自然語言問句中抽取對應(yīng)的實(shí)體,再對實(shí)體間的關(guān)系進(jìn)行填充以構(gòu)建查詢圖。這種方法不需要人工定義邏輯表達(dá)式模板,且對復(fù)雜問題解析非常有效。Dhandapani 等[31]認(rèn)為直接將問題轉(zhuǎn)化為三元組的方法無法獲取問題中的語義信息,為此他們提出一種基于問題類型分類的模板匹配方法,該方法對問題類型進(jìn)行分類,并為每種類型找到最合適的SPARQL 查詢模板。該方法在QALD-8 數(shù)據(jù)集上表現(xiàn)出較好的優(yōu)越性。

        直接映射方法可以較為清晰地將自然語言問題語句轉(zhuǎn)換為邏輯表達(dá)式,但該方法需要人工定義大量的邏輯表達(dá)規(guī)則,在特定領(lǐng)域內(nèi)表現(xiàn)尚佳,而在面對大規(guī)模知識圖譜時無法實(shí)現(xiàn)未定義規(guī)則的轉(zhuǎn)化,造成通用性較差。

        2.1.2 神經(jīng)網(wǎng)絡(luò)方法

        為了解決直接映射方法無法處理未定義規(guī)則轉(zhuǎn)化問題,研究者受到機(jī)器翻譯中編碼器—解碼器結(jié)構(gòu)網(wǎng)絡(luò)(Sequence-to-Sequence,Seq2Seq)思想啟發(fā),提出神經(jīng)網(wǎng)絡(luò)方法?;谏窠?jīng)網(wǎng)絡(luò)方法的語義解析模型將自然語言問句翻譯成邏輯表達(dá)式,并將翻譯后的邏輯表達(dá)式放入知識圖譜中實(shí)現(xiàn)問題回答。

        Dong 等[32]提出一種基于注意力增強(qiáng)機(jī)制的編碼—解碼(Encoder-Decoder)方法,從而將語義解析問題轉(zhuǎn)換為翻譯問題。具體而言,他們設(shè)計了Seq2Seq 模型和Seq2Tree模型。其中,Seq2Seq 模型將語義解析視為序列轉(zhuǎn)換的一種任務(wù),Seq2Tree 模型配備了分層樹解碼器,可以清晰地捕獲用于翻譯后的邏輯表達(dá)式。Dong 等[32]的方法主要關(guān)注的是解碼器部分,而Xiao 等[33]認(rèn)為編碼器對語義解析非常重要。為此,他們將符號先驗(yàn)知識引入RNN 模型中,從而實(shí)現(xiàn)語義解析。在Xiao 等[33]的基礎(chǔ)上,Xu 等[34]使用圖編碼器(Graph2Seq)對語義圖進(jìn)行編碼,之后將注意力機(jī)制引入RNN 模型對編碼結(jié)果進(jìn)行解碼,以獲得邏輯表達(dá)式;Cao等[35]為了更好地對問題與知識圖譜Schema 以及Schema 內(nèi)部關(guān)系進(jìn)行建模,提出一種結(jié)合線性有向圖和普通有向圖的Text2SQL 模型。該模型通過引入線性有向圖,在簡化問題子圖的同時突出實(shí)體間的關(guān)系,同時該模型還設(shè)計了問題子圖修剪的輔助任務(wù),從而對局部圖特征和非局部圖特征進(jìn)行區(qū)分。Cao 等[35]在Spider 數(shù)據(jù)集上測試了所提出的方法,結(jié)果表明其在Spider 上已超過所有基準(zhǔn)模型,成為最優(yōu)方法。Zhu 等[36]認(rèn)為基于神經(jīng)網(wǎng)絡(luò)的方法主要關(guān)注了問題和關(guān)系之間的語義對應(yīng),忽視了問題的結(jié)構(gòu)信息,為此他們提出了一種Tree2Seq的模型。該模型將問題的結(jié)構(gòu)信息編碼到其向量空間中,從而提升它與自然語言問句匹配的準(zhǔn)確性。Zhang 等[37]提出一種Multi-point語義表示框架,其將每個屬性拆分為細(xì)粒度的4 種因子(topic、predicate、objectcondition、query type)以此區(qū)分易混淆的屬性,之后利用雙向注意力compositional intent 模型(Compositional Intent Bi-Attention,CIBA)將粗粒度的屬性信息和細(xì)粒度的因子與自然語言問句表示相結(jié)合,從而實(shí)現(xiàn)問句語義表示的增強(qiáng)。

        相比于直接映射方法,神經(jīng)網(wǎng)絡(luò)方法不需要預(yù)先定義大量的邏輯表達(dá)式模板,但因神經(jīng)網(wǎng)絡(luò)存在黑盒效應(yīng),造成其可解釋性較差,同時該方法還需大量的訓(xùn)練語料,導(dǎo)致訓(xùn)練時間過長。

        綜上所述,基于語義解析的方法旨在將自然語言問句通過直接映射或神經(jīng)網(wǎng)絡(luò)等方式轉(zhuǎn)化為邏輯表達(dá)式,進(jìn)而放入知識圖譜中進(jìn)行查詢,最終生成最優(yōu)答案。但無論是直接映射方法還是神經(jīng)網(wǎng)絡(luò)方法都有其優(yōu)缺點(diǎn),構(gòu)建低成本、高可解釋性的模型成為該類方法的主要研究方向之一。表1總結(jié)了基于語義解析的方法優(yōu)缺點(diǎn)和主要適用范圍。

        2.2 基于信息檢索的方法

        基于信息檢索的方法是將自然語言問句進(jìn)行分析,提取其中包含的問題實(shí)體構(gòu)建知識圖譜子圖,并在知識圖譜內(nèi)根據(jù)構(gòu)建的子圖選取多跳內(nèi)的相關(guān)實(shí)體作為候選答案集合,之后根據(jù)問題及答案中的人工特征對候選答案進(jìn)行排序,輸出最優(yōu)答案。基于信息檢索的方法與基于語義解析的方法之間并沒有直接關(guān)系,基于語義解析的方法是受到基于信息檢索方法原理啟發(fā),并進(jìn)行相應(yīng)演變而得到?;谛畔z索的方法主要分為特征匹配方法和神經(jīng)網(wǎng)絡(luò)方法。

        2.2.1 特征信息匹配方法

        Yao 等[38]最早提出特征信息匹配方法,其將開放知識圖譜Freebase 作為信息檢索數(shù)據(jù)集,并將特征信息分為問題特征信息和答案特征信息。

        (1)問題特征信息。Yao 等[38]首先使用依存句法分析方法對自然語言問句進(jìn)行分析,生成其對應(yīng)的語法依存樹(或稱為問題圖)。語法依存樹中主要包含問題詞(question word,qword)、問題焦點(diǎn)(question fucus,qfocus)、問題主題詞(word topic,qtopic)和問題中心動詞(question verb,qverb)4 個問題特征,其中問題詞如when、who 等作為問題的明顯特征;問題焦點(diǎn)主要表明答案的類型,如name、time、place 等;問題主題詞表示問題的實(shí)體可用來尋找相關(guān)頁面以幫助尋找答案,其中問題主題詞使用實(shí)體識別方法(Named Entity Recognition,NER)確定;問題中心動詞能夠提供與真實(shí)答案相關(guān)的特征信息,如play、wear 等。總體而言,從自然語言問句到語法依存樹之間的轉(zhuǎn)換,實(shí)質(zhì)就是對問題進(jìn)行信息提取,抽取出對尋找答案有利的問題特征,并剔除掉無用信息的過程。

        Table 1 Summary of the existing semantic parsing-based methods表1 基于語義解析的方法小結(jié)

        (2)答案特征信息。Yao 等[38]在Freebase 內(nèi)檢索語法依存樹中所有的Qtopic 多跳內(nèi)的實(shí)體節(jié)點(diǎn),將其組合成候選答案集,答案集中包含實(shí)體和實(shí)體間的關(guān)系。其中,候選答案集中最重要的特征是實(shí)體間的關(guān)系與問題直接的關(guān)聯(lián)度,這一特征值主要是通過檢索關(guān)系表ReverbMapping獲得。并且,將屬性或者實(shí)體之間的有向關(guān)系也作為節(jié)點(diǎn)的特征類別。

        將分析得到的語法依存圖中的所有特征與答案特征圖中所有節(jié)點(diǎn)的特征進(jìn)行組合,形成候選答案特征集,捕獲問題與答案的關(guān)聯(lián)關(guān)系和其對應(yīng)的權(quán)重。在候選答案特征集找到最優(yōu)答案,其本質(zhì)是一個二分類問題,Yao 等[38]將WebQuestion 作為數(shù)據(jù)集利用L1 正則化的邏輯回歸模型訓(xùn)練一個分類器以尋找最優(yōu)答案。

        圖3 展示了Yao 等[38]提出的基于特征匹配問答方法的基本思想,總體而言該方法將自然語言問句轉(zhuǎn)化為問題特征子圖,將知識圖譜內(nèi)的答案特征作為檢索元,且聚焦在權(quán)重較高的答案特征節(jié)點(diǎn)上,從而減少搜索空間,獲取最優(yōu)答案。該方法優(yōu)化了答案生成過程,且在大規(guī)模通用知識圖譜中表現(xiàn)出較好的適用性和優(yōu)越性,但面對復(fù)雜問題或復(fù)雜關(guān)系時仍然存在一定缺點(diǎn)。Vakulenko 等[39]為了解決傳統(tǒng)特征匹配方法存在的問題,提出一個新的基于特征匹配的復(fù)雜KGQA 方法。該方法使用無監(jiān)督方法通過解析文本并將知識圖譜中屬于匹配到一組可能的答案而獲得相應(yīng)置信度,并對置信度進(jìn)行排名以獲取最優(yōu)答案。

        2.2.2 神經(jīng)網(wǎng)絡(luò)模型

        隨著機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,研究人員將神經(jīng)網(wǎng)絡(luò)模型引入信息檢索過程中,以實(shí)現(xiàn)候選答案排序和關(guān)系匹配。Dong 等[40]提出一個基于Freebase的自動問答模型,該模型在不使用任何手工特征和詞匯表的基礎(chǔ)上,利用多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-column Convolutional Neural Networks,MCCNNs)從答案路徑、答案背景信息,以及答案類型方面理解問題,從而實(shí)現(xiàn)問題特征的提取和分類,并將答案的嵌入向量和前者同時作為評分函數(shù),獲取評分最高的候選答案。Dong 等[40]在WebQuestion 數(shù)據(jù)集上測試了MCCNNs 模型的效果,其結(jié)果在各項(xiàng)性能上均表現(xiàn)出了優(yōu)越性。隨著注意力機(jī)制逐漸成為解決KGQA 問題的關(guān)鍵技術(shù),Golub 等[41]將注意力機(jī)制引入信息檢索過程中,并將原來的詞級別嵌入替換為字符級嵌入,提出一個引入注意力機(jī)制的字符級編碼器和解碼器模型,有效地改進(jìn)了問答系統(tǒng)中詞表外問題的回答效果;Hao 等[42]將交叉注意力機(jī)制引入問題表示和候選答案生成環(huán)節(jié),其結(jié)果優(yōu)于MCCNNs 模型。

        Fig.3 Example of feature matching method圖3 特征匹配方法示例

        此外,Yu 等[43]提出關(guān)系檢測的HR-BiLSTM 模型,該模型使用殘差雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)在不同層面上對問句和關(guān)系進(jìn)行對比,從而根據(jù)給定的問句識別出其對應(yīng)關(guān)系,該方法在KGQA 數(shù)據(jù)集SimpleQuestions[44]和Web-QuestionsSP[45]上獲得了最佳結(jié)果;Qiu 等[46]提出一個基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型(Stepwise Reasoning Network,SRN),SRN 模型將問題形式化為一個順序策略問題,并使用注意力機(jī)制決定獲取問題中的獨(dú)特信息,極大程度上提升了基于信息檢索方法的問答效果;Xu 等[47]認(rèn)為雖然KG中包含豐富的結(jié)構(gòu)信息,但缺乏上下文以提供更精確的概念理解。為此,他們設(shè)計一個使用外部實(shí)體描述來提供知識理解的模型以輔助完成知識問答。該方法在CommonsenseQA 數(shù)據(jù)集上實(shí)現(xiàn)了最優(yōu)效果,且在OpenBookQA的非生成模型中獲得了最好結(jié)果。

        神經(jīng)網(wǎng)絡(luò)方法是基于信息檢索方法中較為理想的方法,其對簡單問題和復(fù)雜問題具有較優(yōu)的適用性,但在縮小搜索空間方面仍有不足。

        綜上所述,基于信息檢索的方法是將自然語言問句中的實(shí)體和關(guān)系進(jìn)行識別和抽取,從而構(gòu)建知識子圖。利用子圖在知識圖譜中搜索查詢候選答案實(shí)體集,并根據(jù)問題及答案中的人工特征對候選結(jié)果進(jìn)行排序,輸出最優(yōu)答案。基于信息檢索的方法不需要大量的人工標(biāo)準(zhǔn)邏輯表達(dá)式規(guī)則和龐大的詞匯表,但仍然面臨著時間復(fù)雜度過高、語義信息太復(fù)雜等問題的挑戰(zhàn)?;谛畔z索的方法優(yōu)缺點(diǎn)和主要適用范圍如表2 所示。

        Table 2 Summary of information retrieval-based methods表2 基于信息檢索的方法小結(jié)

        2.3 基于知識嵌入的方法

        知識嵌入方法是將知識圖譜中的實(shí)體和關(guān)系嵌入到低維稠密的向量語義空間中,并對其進(jìn)行特定的向量計算。這種針對知識三元組進(jìn)行嵌入的方法不同于傳統(tǒng)詞嵌入方法,知識嵌入能夠直接表示實(shí)體與關(guān)系間的語義相關(guān)性,能夠保存知識圖譜中原有的信息量。Boards 等[22]受word2vec 中詞向量遷移語義不變現(xiàn)象的啟發(fā)提出翻譯模型TransE。如圖4 所示,TransE 模型將知識三元組嵌入到低維稠密向量語義空間中,并在空間內(nèi)構(gòu)建h+r≈t的向量表示,其中h表示頭實(shí)體向量,r表示關(guān)系向量,t表示尾實(shí)體向量。TransE 模型的提出極大程度上解決了傳統(tǒng)知識圖譜中存在的計算量大、長尾效應(yīng)等問題。隨著研究的不斷深入,研究人員提出了多種知識嵌入模型及其應(yīng)用,如TransH[48]、TransR、ConvE[49]、ITMEA[50]等。

        Fig.4 Example of TransE model圖4 TransE 示例

        Wang 等[51]基于知識嵌入模型提出一種解決SPARQL未匹配到答案的方法。該方法專門為SPARQL 查詢語句設(shè)計了一個知識嵌入模型,使得答案實(shí)體在向量空間中與問題實(shí)體建立特定的關(guān)聯(lián)關(guān)系,從而更高效地生成高質(zhì)量的近似答案;Huang 等[52]提出一種基于知識嵌入的問答系統(tǒng),其設(shè)計了一個謂詞與頭實(shí)體學(xué)習(xí)模型,將問題視為輸入,返回與問題謂詞/實(shí)體更接近的嵌入向量,進(jìn)而確定頭實(shí)體和關(guān)系,并利用實(shí)體鏈接方法找到尾實(shí)體,從而實(shí)現(xiàn)問題回答;Saxena 等[53]提出一種利用知識嵌入改進(jìn)多跳KGQA的方法EmbedKGQA,該方法包含知識嵌入模塊、問題嵌入模塊和答案選擇模塊。其中,知識嵌入模塊將知識圖譜中的所有實(shí)體進(jìn)行嵌入,得到實(shí)體對應(yīng)的嵌入向量;問題嵌入模塊將問題視為輸入,獲得其對應(yīng)的問題向量;答案選擇模塊則將所有可能的答案實(shí)體向量與問題向量進(jìn)行關(guān)聯(lián)評分,選擇得分最高的實(shí)體。此外,為了解決大規(guī)模知識圖譜造成搜索空間過大的問題,設(shè)計了一個候選實(shí)體修剪方法,極大改善了EmbedKGQA的性能。EmbedKGQA 方法在MetaQA KG-50 和WebQSP KG-50 數(shù)據(jù)集上表現(xiàn)出了較好的效果,超過了所有的基準(zhǔn)模型,成為最優(yōu)模型(State-Of-The-Art,SOTA)。Niu 等[54]認(rèn)為前期引入知識嵌入的知識圖譜問答方法只考慮了三元組信息,忽視了路徑與多關(guān)系問題間的語義。為此,他們提出了一個路徑和知識嵌入增強(qiáng)的多關(guān)系問答模型PKEEQA,該模型利用KG中實(shí)體間的多條路徑評估路徑嵌入和多關(guān)系問題嵌入間的相關(guān)性,并制定了一套路徑表示機(jī)制。通過實(shí)驗(yàn)對比,PKEEQA 模型提升了多關(guān)系問答性能,同時一定程度上從路徑信息方面得到了答案的可解釋性。

        綜上所述,知識嵌入方法是將知識圖譜中的知識三元組根據(jù)一定關(guān)聯(lián)關(guān)系嵌入到低維向量語義空間,這種做法能夠最大程度上表示頭、尾實(shí)體與關(guān)系間的聯(lián)系,從而保留知識圖譜中的重要信息。基于知識嵌入的問答方法對未知問題具有較高的處理效果,同時其對大規(guī)模通用知識圖譜具有較優(yōu)的魯棒性和適應(yīng)性。然而,如何將新知識引入到已構(gòu)建好的知識嵌入模型中成為知識嵌入方法亟待解決的問題,也成為基于知識嵌入問答能否回答新知識的關(guān)鍵所在。表3 展示了基于知識嵌入的方法優(yōu)缺點(diǎn)和主要適用范圍。

        Table 3 Summary of knowledge embedding based methods表3 基于知識嵌入的方法小結(jié)

        3 知識圖譜問答數(shù)據(jù)集

        隨著知識圖譜問答技術(shù)的快速發(fā)展,知識圖譜問答數(shù)據(jù)集不斷被提出?,F(xiàn)有知識圖譜問答數(shù)據(jù)集可大致分為通用領(lǐng)域知識圖譜問答數(shù)據(jù)集和特定領(lǐng)域知識圖譜問答數(shù)據(jù)集,詳細(xì)的知識圖譜問答數(shù)據(jù)集比較如表4 所示。

        3.1 通用領(lǐng)域知識圖譜問答數(shù)據(jù)集

        WebQuestions 是2013 年 由Berant 等[26]利 用Google Suggest 生成,數(shù)據(jù)集為每個答案都提供了其對應(yīng)的主題節(jié)點(diǎn)。WebQuestions 數(shù)據(jù)集采用先提問后解答的構(gòu)建思路,同時數(shù)據(jù)集的問題獨(dú)立于Freebase 知識庫外,從而比Free917[55]數(shù)據(jù)集更加自然,更偏向于自然語言,但該數(shù)據(jù)集僅提供了答案而沒有給出對應(yīng)的查詢語句,從而造成邏輯表達(dá)式的生成變得極為困難,此外數(shù)據(jù)集中只包含少量的復(fù)雜問句。

        Table 4 Datasets of knowledge graph question answering表4 知識圖譜問答數(shù)據(jù)集

        SimpleQuestions 是Bordes 等[44]提出的一個大規(guī)模問答數(shù)據(jù)集。該數(shù)據(jù)集以問答系統(tǒng)處理覆蓋面為主要研究內(nèi)容,數(shù)據(jù)集內(nèi)包含了大量的簡單問答語句,這些問答語句可以用知識三元組進(jìn)行回答,同時數(shù)據(jù)集中包含了問題對應(yīng)的查詢語句。

        WebQuestionsSP 是Yih 等[45]對WebQuestion 數(shù)據(jù)集進(jìn)行改進(jìn),補(bǔ)全了問題所對應(yīng)的查詢語句,可以簡單地將其視為WebQuestions 數(shù)據(jù)集的子集。

        ComplexQuestions 是Bao 等[56]為了測試KGQA對復(fù)雜問題的處理能力所提出的一個多限制問答數(shù)據(jù)集。Bao等[56]從WebQuestions 訓(xùn)練集和測試集中分別抽取了596 個和326 個問題,從搜索引擎中爬取了878 個問題,并從其他數(shù)據(jù)集中抽取了300 個問題從而構(gòu)建ComplexQuestions 數(shù)據(jù)集。然而,ComplexQuestions 數(shù)據(jù)集內(nèi)未提供問題所對應(yīng)的查詢語句。

        QALD[57-61]是一種通用領(lǐng)域的大規(guī)模數(shù)據(jù)集,相比于其他知識問答數(shù)據(jù)集更加生活化、復(fù)雜化。QALD 數(shù)據(jù)集不僅包含問題和答案,還為每個問句設(shè)置了關(guān)鍵詞和對應(yīng)的查詢語句。

        3.2 特定領(lǐng)域知識圖譜問答數(shù)據(jù)集

        Free917 是2013 年由Yahya 等[55]提出,數(shù)據(jù)集以房地產(chǎn)領(lǐng)域數(shù)據(jù)為主,并將數(shù)據(jù)形式化表示為“問題-λ 微積分表達(dá)式”。數(shù)據(jù)集中問題的答案為Freebase 知識庫中的某個屬性,同時通過人工定義的方式提出與其相關(guān)的自然語言問句。然而,F(xiàn)ree917 并未對問題類型進(jìn)行限制。

        CCKS 問答數(shù)據(jù)集是CCKS 全國知識圖譜與語義計算大會提出的一項(xiàng)知識圖譜問題評測任務(wù)所使用的數(shù)據(jù)集。CCKS 每年提出一個全新的知識圖譜評測任務(wù)和數(shù)據(jù)集,包含保險領(lǐng)域問答、醫(yī)療領(lǐng)域問答等。數(shù)據(jù)集中包含了大量真實(shí)且復(fù)雜的問答語句,但未給出其對應(yīng)的查詢語句。

        METAQA 是由Zhang 等[62]構(gòu)建的電影領(lǐng)域知識圖譜問答數(shù)據(jù)集,數(shù)據(jù)集中包含了近29 000 個多跳測試查詢數(shù)據(jù)。

        4 知識圖譜問答測評指標(biāo)

        4.1 功能性測評指標(biāo)

        功能性測評指標(biāo)主要反映知識圖譜問答方法(系統(tǒng))返回答案的正確性和完備性,當(dāng)返回的答案與正確答案無關(guān)時評定其為錯誤答案,相關(guān)但不完備時也將其評定為錯誤答案。通常功能性測評指標(biāo)指精確率、召回率、準(zhǔn)確率、F1 值。

        (1)精確率。精確率(Precision)指問答方法對每個自然語言問句給出的黃金標(biāo)準(zhǔn)答案(問題對應(yīng)的一個標(biāo)準(zhǔn)答案)占所有返回答案總數(shù)的比例。精確率計算公式可以形式化表示:

        (2)召回率。一個自然語言問句可能存在多個標(biāo)準(zhǔn)答案,如:問題“杭州有那些景點(diǎn)?”就有多個標(biāo)準(zhǔn)答案,因此需要評測知識圖譜問答方法召回完整答案的能力。召回率(Recall)表示知識圖譜問答方法返回的正確答案數(shù)占返回的黃金標(biāo)準(zhǔn)答案的比例。召回率計算公式可以形式化表示為:

        (3)準(zhǔn)確率。準(zhǔn)確率(Accuracy)表示知識圖譜問答方法回答正確的問題數(shù)占所有問題的比例。準(zhǔn)確率計算公式可以形式化表示為:

        通常使用準(zhǔn)確率定義指標(biāo)Hits@K,即將答案列表按照特定值進(jìn)行排序,如果前K 個答案中有一個正確的則為1hit,否則為0hit,并最終計算整個問題集的平均值。

        (4)F1 值。通常知識圖譜問答方法(系統(tǒng))的總體性能使用F1 值對精確率和召回率進(jìn)行整體測評。測試集中的每個問題都有其對應(yīng)的F1 值,其計算公式可以形式化表示為:

        4.2 性能測評指標(biāo)

        除上述功能性測評指標(biāo)外,還可以從性能指標(biāo)角度對知識圖譜問答方法(系統(tǒng))進(jìn)行測評。具體而言,知識圖譜問答方法(系統(tǒng))的性能測評指標(biāo)分為方法響應(yīng)時間和方法故障率兩方面。

        (1)知識圖譜問答方法(系統(tǒng))響應(yīng)時間。通常,智能問答系統(tǒng)需要實(shí)時響應(yīng)用戶的文本或語音輸入,因此知識圖譜問答方法(系統(tǒng))的響應(yīng)時長(Response Time)成為測評方法性能的一個重要指標(biāo)。如果響應(yīng)時間過長,知識圖譜問答方法的可用性就會大大降低。一般而言,知識圖譜問答方法的響應(yīng)時長應(yīng)縮短到1s 以內(nèi)。

        (2)知識圖譜問答方法(系統(tǒng))故障率。知識圖譜問答方法(系統(tǒng))出現(xiàn)故障的概率,即統(tǒng)計方法在回答自然語言問句時發(fā)生系統(tǒng)錯誤或故障的比率,通常采用壓力測試檢驗(yàn)知識圖譜問答方法(系統(tǒng))的故障率。

        5 知識圖譜問答研究挑戰(zhàn)與機(jī)遇

        5.1 面臨的挑戰(zhàn)

        (1)語義歧義。無論是利用語義解析方法還是信息檢索方法,都需要將自然語言問句映射到知識圖譜中,因此實(shí)體鏈接和關(guān)系抽取成為關(guān)鍵過程。然而,現(xiàn)有實(shí)體鏈接方法的質(zhì)量并不高,使得錯誤實(shí)體信息被不斷傳遞到關(guān)系提取階段,造成自然語言問句無法與知識圖譜進(jìn)行匹配或無法避免增大搜索空間。雖然現(xiàn)有許多語義表示方法在不斷地改進(jìn)實(shí)體鏈接和關(guān)系抽取的效果,但如何從自然語言問句中精確完整地獲取語義信息成為KGQA 面臨的一大挑戰(zhàn)。

        (2)復(fù)雜問題。復(fù)雜問題中常常包含多個問題實(shí)體和關(guān)系,需要KGQA 系統(tǒng)具有推理和判斷的功能。例如:“2020 年東京奧運(yùn)會男子乒乓球比賽項(xiàng)目單打冠軍分別戰(zhàn)勝了那些對手?”然而,現(xiàn)有的KGQA 對于簡單問題(僅有一個問題實(shí)體和關(guān)系)的處理能力已較為優(yōu)秀,但對于真實(shí)應(yīng)用場景中復(fù)雜問題的處理能力尚且不足。雖然,研究人員嘗試解決平行的復(fù)雜問題,但仍然無法解決大多數(shù)復(fù)雜問題。因此,對于復(fù)雜問題的處理與研究成為學(xué)術(shù)界和工業(yè)界亟待解決的重大挑戰(zhàn)。

        (3)長尾問題。長尾問題包括知識圖譜長尾問題和問句長尾問題。知識圖譜長尾問題指現(xiàn)有大規(guī)模知識圖譜中存在著大量的實(shí)體和關(guān)系,這些實(shí)體和關(guān)系中只有部分實(shí)體間存在大量的關(guān)系連接,但其他實(shí)體僅有單一或少量關(guān)系,從而造成答案實(shí)體的搜索空間和計算量劇增。問句長尾問題指少量表示相似含義的問句頻繁出現(xiàn)在問答數(shù)據(jù)集中,造成KGQA 系統(tǒng)對于該類問題有較強(qiáng)的回答能力,而對于大量出現(xiàn)頻率較低的問句處理能力較弱。因此,知識圖譜長尾問題和問句長尾問題成為阻礙KGQA 性能進(jìn)一步提升的關(guān)鍵因素。

        5.2 未來研究方向

        (1)知識圖譜推理機(jī)制?,F(xiàn)有的知識圖譜推理機(jī)制常常根據(jù)知識嵌入后的知識三元組對實(shí)體或關(guān)系進(jìn)行推理,但使用該機(jī)制預(yù)測缺失實(shí)體或關(guān)系的能力尚不足以支撐復(fù)雜問題的知識推理,尤其是對長尾關(guān)系的知識三元組的推理。目前,除利用知識嵌入方法外,還可以使用統(tǒng)計關(guān)系學(xué)習(xí)和GNN 等方法進(jìn)行知識推理。如何將高效的推理機(jī)制引入知識圖譜內(nèi),充分利用圖譜中高質(zhì)量的三元組信息實(shí)現(xiàn)復(fù)雜問題的回答,成為未來研究的熱點(diǎn)問題。

        (2)預(yù)訓(xùn)練模型有效利用。隨著預(yù)訓(xùn)練模型的出現(xiàn),包括智能問答在內(nèi)的多項(xiàng)自然語言處理任務(wù)的性能不斷被突破,許多研究人員致力于將預(yù)訓(xùn)練模型與知識圖譜相結(jié)合,使得在KGQA 訓(xùn)練數(shù)據(jù)較少的情況下,仍然能夠取得相比于傳統(tǒng)KGQA 方法更優(yōu)的問答效果[63]。但如何將預(yù)訓(xùn)練模型更加充分地與KGQA 相結(jié)合,利用好預(yù)訓(xùn)練模型和知識圖譜中的先驗(yàn)知識,同樣成為提升KGQA 性能的熱點(diǎn)研究方向。

        (3)多模態(tài)知識問答。隨著多模態(tài)數(shù)據(jù)(如圖像、視頻、文本描述數(shù)據(jù)等)越來越多地被用來提升知識圖譜的表示能力[50,64-66]。多模態(tài)知識圖譜能夠有效提升知識的多樣性、豐富知識的隱藏信息,能更加完整地組織知識圖譜內(nèi)的知識。因此,為了滿足用戶日益增長的知識和認(rèn)知服務(wù)需求,利用多模態(tài)知識圖譜進(jìn)行知識問答成為未來主要研究方法。

        綜上所述,知識圖譜問答方法在處理簡單、開放領(lǐng)域問題方面已經(jīng)取得較為突出的進(jìn)展,但仍然面臨著語義歧義、復(fù)雜問題理解、知識圖譜長尾和自然語言問句長尾等多因素的挑戰(zhàn)。這些挑戰(zhàn)成為阻礙知識圖譜問答系統(tǒng)大規(guī)模應(yīng)用于實(shí)際生產(chǎn)環(huán)境的重要因素。同時,隨著自然語言和深度學(xué)習(xí)技術(shù)的快速發(fā)展,如何將多模態(tài)信息和預(yù)訓(xùn)練模型等新思想引入知識圖譜問答方法中也成為未來主要研究方向,如利用預(yù)訓(xùn)練模型獲取結(jié)構(gòu)化知識、文本、圖像等模態(tài)數(shù)據(jù)特征,并引入注意力機(jī)制將多模態(tài)信息進(jìn)行融合從而實(shí)現(xiàn)多模態(tài)知識圖譜問答。

        6 結(jié)語

        隨著智能時代的到來,能夠理解和回答自然語言問題的智能問答系統(tǒng)得到了廣泛應(yīng)用。作為智能問答系統(tǒng)主要方法的知識圖譜問答成為國內(nèi)外學(xué)者的主要研究方向,且取得了突出進(jìn)展。本文對現(xiàn)有知識圖譜問答研究進(jìn)展進(jìn)行追蹤,介紹了3 種主要的知識圖譜問答方法和兩類知識圖譜問答數(shù)據(jù)集,并針對知識圖譜問答面臨的主要挑戰(zhàn)和未來研究方向進(jìn)行了討論,期望可以為未來KGQA 研究者提供幫助,以開拓不同領(lǐng)域知識圖譜問答的應(yīng)用場景。

        猜你喜歡
        圖譜實(shí)體語義
        繪一張成長圖譜
        語言與語義
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動對接你思維的知識圖譜
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        中文无码日韩欧| 国产黄色一区二区三区av| 美腿丝袜一区二区三区| 亚洲综合久久精品少妇av| 国产日韩精品suv| 777米奇色8888狠狠俺去啦| 少妇内射视频播放舔大片| 玖玖资源站无码专区| 91熟女av一区二区在线| 国产超碰人人做人人爽av大片 | 精品无码av无码专区| 日出水了特别黄的视频| 日韩亚洲中文图片小说| 厕所极品偷拍一区二区三区视频| 亚洲国产人成综合网站| 国产亚洲精品美女久久久| 亚洲最新偷拍网站| 久久中文字幕av第二页| 毛片成人18毛片免费看| 亚洲av日韩av永久无码下载| 激情欧美日韩一区二区| 一本色道久久综合狠狠躁中文 | 中文字幕日韩一区二区不卡| 青草国产精品久久久久久| 亚洲va在线va天堂va四虎| 国产自产自现在线视频地址 | 亚洲中文字幕午夜精品| 内谢少妇xxxxx8老少交| 青草青草伊人精品视频| 久久午夜av一区二区| 久久久久久久97| 亚洲美女啪啪| 精品在线亚洲一区二区三区| 国产一区二区三区在线观看第八页| 亚洲熟妇久久国产精品| 小12萝8禁在线喷水观看| 久久这里只精品国产2| 国产日本精品一区二区免费| 色偷偷av一区二区三区| 国产精品密播放国产免费看| 国产桃色精品网站|