亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識(shí)圖譜問答領(lǐng)域綜述①

        2022-05-10 08:39:12鄭泳智朱定局吳惠粦彭小榮
        關(guān)鍵詞:圖譜實(shí)體語(yǔ)義

        鄭泳智,朱定局,吳惠粦,彭小榮

        1(華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510631)

        2(廣州國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)科技創(chuàng)新中心,廣州 510520)

        3(廣州市增城區(qū)文化館,佛山511300)

        1 知識(shí)圖譜

        1.1 知識(shí)圖譜的發(fā)展及定義

        知識(shí)圖譜(knowledge graph,KG)源自于1960年提出的語(yǔ)義網(wǎng)絡(luò),有著源自于NLP、Web、AI 等方面的基因,它通過(guò)結(jié)合數(shù)學(xué)與信息科學(xué)等學(xué)科理論與方法,以可視化形式描述其資源與載體,應(yīng)用于問答、推薦等領(lǐng)域,其概念演化如圖1所示.

        圖1 知識(shí)圖譜概念演化

        語(yǔ)義網(wǎng)絡(luò)是用圖表示知識(shí)的方式,圖2 是一個(gè)語(yǔ)義網(wǎng)絡(luò)示例,信息被表達(dá)為一組節(jié)點(diǎn),節(jié)點(diǎn)間以有向直線相連表示關(guān)系,其優(yōu)點(diǎn)在于表達(dá)直接且清晰明確,可用于檢索與推理,但不適用于定量動(dòng)態(tài)的知識(shí).

        圖2 語(yǔ)義網(wǎng)絡(luò)示例

        本體(ontology)一詞起源于希臘語(yǔ),是一個(gè)哲學(xué)術(shù)語(yǔ),在哲學(xué)的角度,它關(guān)注的是“存在”,而本體論則是對(duì)世界任意領(lǐng)域內(nèi)的存在作客觀描述.例如,世界是什么?太陽(yáng)是什么?星星是什么?1980年,McCarthy[1]提出以邏輯概念為基礎(chǔ)的智能系統(tǒng)需列出所有存在的事物并構(gòu)建一個(gè)本體描述我們的世界.至此,人工智能領(lǐng)域開始引入哲學(xué)本體論思想內(nèi)涵用于刻畫知識(shí).1989年,Berners-Lee 發(fā)明了萬(wàn)維網(wǎng)(World Wide Web,WWW),它作為視頻、圖片等媒體信息的最深遠(yuǎn)、最廣泛媒介,標(biāo)志著信息共享進(jìn)入了新時(shí)代.1998年,依托萬(wàn)維網(wǎng)的語(yǔ)義網(wǎng)(semantic web)誕生,這一概念旨在將萬(wàn)維網(wǎng)上的文檔添加為可被理解的語(yǔ)義元數(shù)據(jù),即文檔組織形式轉(zhuǎn)變?yōu)橐訳RI 標(biāo)識(shí)的更小的數(shù)據(jù)碎片,同時(shí)建立本體庫(kù)表征數(shù)據(jù),使互聯(lián)網(wǎng)成為通用信息交換媒介.2006年,Berners-Lee 提出鏈接數(shù)據(jù)(linked data),鼓勵(lì)各信息源從文檔組織形式向這種最小數(shù)據(jù)碎片形式遷移并發(fā)布這些數(shù)據(jù)作為開放數(shù)據(jù),且盡量參考已知本體進(jìn)行建模并賦予其唯一URI 用以標(biāo)識(shí),較有名的項(xiàng)目有DBpedia、Freebase 等.2012年,谷歌為了優(yōu)化其搜索引擎提出知識(shí)圖譜的概念,知識(shí)圖譜由一些相互連接的實(shí)體以及它們的屬性構(gòu)成[2],其基礎(chǔ)是語(yǔ)義網(wǎng)和本體論,其本質(zhì)是表示實(shí)體聯(lián)系的語(yǔ)義網(wǎng)絡(luò).其中,每個(gè)實(shí)體或概念用一個(gè)全局唯一ID 標(biāo)識(shí),每個(gè)屬性值用于刻畫實(shí)體內(nèi)在特性,而關(guān)系(relation)用來(lái)連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián).通俗而言,知識(shí)圖譜是一張巨大的圖,圖中的節(jié)點(diǎn)表示實(shí)體或概念,而圖中的邊則由屬性或關(guān)系構(gòu)成,這種圖模型可用W3C 提出的資源描述框架(resource description framework,RDF)[3]表示.

        知識(shí)圖譜按問題領(lǐng)域劃分,可分為通用領(lǐng)域和垂直領(lǐng)域,垂直領(lǐng)域知識(shí)圖譜是基于特定行業(yè)數(shù)據(jù)構(gòu)建的,規(guī)模雖小,但知識(shí)質(zhì)量高,精度高.而通用領(lǐng)域知識(shí)圖譜覆蓋面更廣,規(guī)模更大,自動(dòng)化程度更高.本文歸納整理了近些年通用領(lǐng)域知識(shí)圖譜的項(xiàng)目,如表1所示.

        表1 開放領(lǐng)域知識(shí)圖譜項(xiàng)目

        1.2 知識(shí)圖譜的構(gòu)建

        通用知識(shí)圖譜為了融合規(guī)模更龐大的實(shí)體,通常采用自底向上方式構(gòu)建,而垂直領(lǐng)域知識(shí)圖譜的構(gòu)建對(duì)領(lǐng)域知識(shí)的深度和精度有很高的要求,需要有完善的本體模式層.如圖3所示,知識(shí)圖譜的構(gòu)建,首先需要不斷的采集數(shù)據(jù)、包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),知識(shí)是日新月異的,通用領(lǐng)域的知識(shí)圖譜需要不斷的擴(kuò)充其實(shí)體庫(kù)就需要不斷的采集數(shù)據(jù).采集得到的數(shù)據(jù)通常需要進(jìn)行數(shù)據(jù)清洗、缺失值處理、異常值處理等,然后使用自然語(yǔ)言處理的手段提取數(shù)據(jù)中的實(shí)體、關(guān)系、屬性.目前主流的實(shí)體識(shí)別方法通常使用結(jié)合BERT 和BiLSTM+CRF 的變式模型提取實(shí)體,使用基于卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)來(lái)抽取關(guān)系.得到的實(shí)體詞通常需要進(jìn)行對(duì)齊操作,包括實(shí)體消歧和共指消歧.例如“我的手機(jī)是蘋果”和“我喜歡吃蘋果”中都有“蘋果”一詞,但所指意思不一致,這就需要進(jìn)行實(shí)體消歧處理,消歧方法包括基于規(guī)則的方法、機(jī)器學(xué)習(xí)的方法、全局最優(yōu)方法、基于知識(shí)庫(kù)的方法、深度學(xué)習(xí)算法.抽取得到的可靠三元組數(shù)據(jù)將導(dǎo)入存儲(chǔ)知識(shí)的數(shù)據(jù)庫(kù),目前主流的圖數(shù)據(jù)庫(kù)有Neo4j[12]、Jena[13]等.

        圖3 知識(shí)圖譜的構(gòu)建過(guò)程

        2 智能問答

        2.1 智能問答的發(fā)展

        智能問答是自然語(yǔ)言處理中的重要分支,通常以一問一答的人機(jī)交互形式定位用戶所需知識(shí)并提供個(gè)性化信息服務(wù).它能讓計(jì)算機(jī)自動(dòng)并以精準(zhǔn)自然語(yǔ)言形式回答用戶所提出的問題且不同于搜索引擎.

        如表2所示,智能問答的歷史可以追溯至1950年,計(jì)算機(jī)科學(xué)之父阿蘭·圖靈為了檢驗(yàn)計(jì)算機(jī)是否具備精準(zhǔn)應(yīng)答問題的能力,提出機(jī)器能否思考的判斷方案——圖靈測(cè)試,自此翻開了自然語(yǔ)言人機(jī)交互的篇章.20世紀(jì)60年代前后,首批問答系統(tǒng)問世,Green 等人[14]設(shè)計(jì)的Baseball 程序可用普通英語(yǔ)回答有關(guān)棒球比賽的問題,1971年月球科學(xué)大會(huì)上,LUNAR 系統(tǒng)[15]首次亮相,它可以回答月巖樣本分析的相關(guān)問題,但這一時(shí)期的QA 系統(tǒng)只停留在處理領(lǐng)域結(jié)構(gòu)化數(shù)據(jù)層面上.20世紀(jì)70年代前后,語(yǔ)言學(xué)的興起、馬爾科夫假設(shè)等理論的提出、數(shù)據(jù)庫(kù)構(gòu)建成本降低,使得問答系統(tǒng)構(gòu)建難度也因此而降低.該時(shí)期的問答系統(tǒng)集成自然語(yǔ)言處理、知識(shí)表示等方法分析用戶問題,耶魯大學(xué)開發(fā)的SAM 系統(tǒng)[16]便是這一時(shí)期的產(chǎn)物,它引入計(jì)劃的概念并使用腳本來(lái)理解問題,但是其缺點(diǎn)在于腳本未就緒則系統(tǒng)將無(wú)法工作.20世紀(jì)90年代,計(jì)算機(jī)運(yùn)算能力提升,基于機(jī)器學(xué)習(xí)的自然語(yǔ)言處理誕生,智能問答進(jìn)入了開放領(lǐng)域、自由文本時(shí)期.智能問答研究熱點(diǎn)轉(zhuǎn)向基于大規(guī)模文檔集的問答、研究領(lǐng)域從限定領(lǐng)域延展至開放領(lǐng)域,研究對(duì)象從固定語(yǔ)料庫(kù)延伸至互聯(lián)網(wǎng).2002年,密歇根大學(xué)開發(fā)了一個(gè)支持多語(yǔ)言的WQA 系統(tǒng)[17],用戶可以使用多語(yǔ)言提問.同時(shí)期有影響力的問答系統(tǒng)還有Webclopedia[18]、LAMP[19]等.2009年,Wolfram Research 公司推出的Wolfram Alpha在線自動(dòng)問答系統(tǒng)能給出答案與答案相關(guān)的所有信息,這一時(shí)期的系統(tǒng)越漸成熟,涵蓋多領(lǐng)域多語(yǔ)言的知識(shí)數(shù)據(jù),配有相應(yīng)的可視化界面.當(dāng)2011年IBM 公司研發(fā)的“沃森”在美國(guó)知識(shí)競(jìng)賽節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝兩位頂尖人類選手后,基于深度學(xué)習(xí)的智能問答再次成為研究熱點(diǎn).

        表2 智能問答項(xiàng)目

        2.2 基于知識(shí)圖譜的問答系統(tǒng)

        近年來(lái),隨著知識(shí)圖譜概念滲透到各領(lǐng)域,基于知識(shí)圖譜的智能問答逐漸成為焦點(diǎn)之一,在金融、醫(yī)療、旅游、農(nóng)業(yè)、電商等垂直領(lǐng)域,都不乏相關(guān)研究,例如李賀等人[20]構(gòu)建的基于疾病知識(shí)圖譜的問題系統(tǒng),杜澤宇等人[21]的電商知識(shí)圖譜的問答系統(tǒng),由于醫(yī)療和電商等領(lǐng)域?qū)υ擃愊到y(tǒng)的需求較大,因此完善程度也較好.這些基于知識(shí)圖譜的問答系統(tǒng),或利用當(dāng)中的知識(shí)數(shù)據(jù)結(jié)合深度學(xué)習(xí)構(gòu)建問答系統(tǒng);或利用圖譜的推理能力理解問題;或融合問題與三元組的信息編碼至向量空間,在向量空間內(nèi)完成問題相關(guān)的相似度計(jì)算任務(wù),得出用戶所需近似答案.歸結(jié)基于知識(shí)圖譜問答系統(tǒng)的構(gòu)建方法有3 種,即語(yǔ)義解析(semantic parsing,SP)、信息檢索(information retrieval,IR)、向量建模(vector modeling,VM).學(xué)術(shù)界有一種說(shuō)法稱主流方法只分為語(yǔ)義解析和信息檢索,只是近年來(lái)將深度學(xué)習(xí)應(yīng)用于兩種傳統(tǒng)的方法,更將VM 歸結(jié)一種類似IR 的方法.在該領(lǐng)域,一些研究者旨在深入研究KBQA 的子任務(wù),例如問題實(shí)體檢測(cè)、關(guān)系抽取、多跳推理等,一些研究者則研究整體的通用框架,如Pei 等人[22]設(shè)計(jì)基于TransE 的中文領(lǐng)域知識(shí)圖問答通用框架,涉及多模型融合.本文以這些任務(wù)中使用到的關(guān)鍵技術(shù)為側(cè)重點(diǎn)對(duì)該領(lǐng)域技術(shù)現(xiàn)狀以及展開闡述.

        2.3 問答數(shù)據(jù)集

        研究KBQA 離不開數(shù)據(jù)集,而不同數(shù)據(jù)集通常針對(duì)不同QA 任務(wù),包括簡(jiǎn)單問題和復(fù)雜問題.一些研究者為達(dá)成研究目的還需要擴(kuò)充公共數(shù)據(jù)集或獨(dú)自構(gòu)建數(shù)據(jù)集,如Miller 等人[23]為了驗(yàn)證其網(wǎng)絡(luò)功能而提出MovieQA 數(shù)據(jù)集.但大多數(shù)研究者會(huì)選擇使用公共基準(zhǔn)數(shù)據(jù)集,既省去構(gòu)建時(shí)間而專注于算法模型的設(shè)計(jì),又便于對(duì)比同類模型.而人工標(biāo)注數(shù)據(jù)集往往需要高成本人力物力,因此數(shù)據(jù)集的構(gòu)建者會(huì)使用模版構(gòu)建問答數(shù)據(jù)集,但僅使用模版生成問題的數(shù)據(jù)集缺乏多樣性,而缺乏多樣性的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)時(shí)通常會(huì)降低模型對(duì)復(fù)雜問題的泛化能力,因此近年來(lái)數(shù)據(jù)集的構(gòu)建者會(huì)以構(gòu)建高質(zhì)量數(shù)據(jù)集為目標(biāo).本文歸納整理了近些年來(lái)具有代表性數(shù)據(jù)集,如表3所示.從體量上看,數(shù)據(jù)集的規(guī)模已從千級(jí)別擴(kuò)展至百萬(wàn)級(jí)別,其中含有復(fù)雜問題的數(shù)據(jù)集體量往往較小.從基于的知識(shí)庫(kù)看,早期數(shù)據(jù)集一般基于Freebase 構(gòu)建,2016年Freebase 被收購(gòu)后,KGQA 數(shù)據(jù)集大多基于Wikidata和DBpedia.近3年,數(shù)據(jù)集的問題焦點(diǎn)放在了多樣性、SPARQL 以及推理過(guò)程上.考慮到以往的數(shù)據(jù)集很少有推理過(guò)程,2021年,Shi 等人[24]基于Wikidata數(shù)據(jù)加入推理過(guò)程構(gòu)建KQA Pro,它包含了多樣的簡(jiǎn)單問題與復(fù)雜問題,且保證了其規(guī)模與質(zhì)量,無(wú)疑是近年來(lái)高質(zhì)量的數(shù)據(jù)集之一.

        表3 基于知識(shí)圖譜的問答數(shù)據(jù)集

        3 構(gòu)建方法

        本節(jié)對(duì)目前主流的基于模板的語(yǔ)義解析方法、基于語(yǔ)義查詢圖的方法、基于編碼解碼的方法、基于檢索的方法進(jìn)行介紹,并對(duì)其進(jìn)行歸納總結(jié)如表4所示.基于模板的語(yǔ)義解析方法其核心在于模板于規(guī)則的制定、語(yǔ)義查詢圖的核心在于如何用語(yǔ)義圖來(lái)表示自然語(yǔ)言的句子結(jié)構(gòu)、編解碼的方法的核心在于構(gòu)建編碼模型捕獲句子特征、基于檢索的方法其核心在于句法的信息如何映射為特征圖或句子特征轉(zhuǎn)為空間向量.

        表4 構(gòu)建方法對(duì)比分析

        3.1 基于模板的語(yǔ)義解析方法

        語(yǔ)義解析方法是一種語(yǔ)言學(xué)方法,其思想是將非結(jié)構(gòu)化的自然語(yǔ)言問題映射為一系列結(jié)構(gòu)化邏輯形式,例如語(yǔ)義圖和高級(jí)查詢語(yǔ)言(如SPARQL,Cypher 等).而基于模版的語(yǔ)義解析方法其思想在于將問題先轉(zhuǎn)換為人為預(yù)定義的規(guī)則或模版,再轉(zhuǎn)換為可執(zhí)行的查詢.如圖4所示,輸入的問題首先被映射為邏輯形式,該過(guò)程通過(guò)預(yù)定義模版規(guī)則進(jìn)行映射,得到實(shí)體與關(guān)系<E1,Relation,E2>,再進(jìn)一步轉(zhuǎn)化為圖數(shù)據(jù)庫(kù)的可執(zhí)行查詢得到知識(shí)圖譜中的相應(yīng)的答案.本文歸納整理了近年來(lái)在這方面的研究如表5所示.

        表5 基于模板的語(yǔ)義解析方法的研究

        圖4 基于模板的語(yǔ)義解析流程

        依賴于人工標(biāo)注的邏輯形式對(duì)于大規(guī)模KBQA 任務(wù)而言成本很高,Berant 等人[27]實(shí)現(xiàn)了一個(gè)標(biāo)準(zhǔn)的自底向上解析器.首先利用知識(shí)庫(kù)和大型文本語(yǔ)料庫(kù)建立從問題短語(yǔ)到知識(shí)庫(kù)實(shí)體或關(guān)系的粗映射;然后使用橋接操作基于相鄰謂詞生成其他謂詞,將問題短語(yǔ)映射到知識(shí)庫(kù)實(shí)體和關(guān)系.該解析器依賴于一個(gè)對(duì)數(shù)線性模型來(lái)覆蓋手工構(gòu)建的特性,減少了搜索的空間,并在Cai等人[43]的數(shù)據(jù)集上得到了驗(yàn)證.Bast 等人[44]提出了一個(gè)基于模板的模型Aqqu,該模型將問題映射到3 個(gè)模板,先從知識(shí)庫(kù)中識(shí)別出與該問題的一部分匹配的所有實(shí)體,匹配可以是文字匹配,也可以是實(shí)體名稱的別名.然后,Aqqu 實(shí)例化3 個(gè)模板,其中知識(shí)圖譜子圖以匹配的實(shí)體為中心,根據(jù)基于手工特征的排序模型,輸出最佳實(shí)例以查詢知識(shí)庫(kù)并獲得答案.然而,Aqqu 中的3 個(gè)模板對(duì)復(fù)雜問題的覆蓋范圍有限.為處理更多問題,研究人員嘗試從數(shù)據(jù)集中自動(dòng)或半自動(dòng)地學(xué)習(xí)模板.Abujabal 等人[45]提出了一種名為QUINT 的自動(dòng)模板生成模型,自動(dòng)模版分為查詢模板和問題模板.其中查詢模版負(fù)責(zé)從知識(shí)庫(kù)中提取規(guī)則,問題模版則依靠解析給定問題中的依賴關(guān)系產(chǎn)生.在運(yùn)行過(guò)程中,首先將問題查詢映射到一些問題模版,然后將相應(yīng)的查詢模版實(shí)例化為候選結(jié)果,最后在排序后輸出得分最高的查詢即為最終答案.為保證自動(dòng)創(chuàng)建的問題模版的質(zhì)量并得以商用,Spiegel 等人[46]提出一個(gè)模塊化的MK-SQuIT 框架,通過(guò)生成和優(yōu)化問題模板和查詢模板自動(dòng)合成數(shù)據(jù)集.Abujabal 等人[47]提出的NEQA 類似于TeBaQA[48],同樣是基于模板的KBQA 系統(tǒng),均使用連續(xù)學(xué)習(xí)范式回答未知領(lǐng)域問題.但除了使用基于相似度的模板匹配方法之外,它還依賴于用戶反饋并隨著時(shí)間推移而改進(jìn).另外,TeBaQA 還可以僅使用基準(zhǔn)數(shù)據(jù)集就能輕松地應(yīng)用到新的領(lǐng)域,在可擴(kuò)展性上與之前的方案相比更有優(yōu)勢(shì).

        基于模板的語(yǔ)義解析方法其核心在于模板的構(gòu)建,其優(yōu)點(diǎn)在于過(guò)程清晰,可解釋性強(qiáng),但此類方法需要結(jié)合語(yǔ)言學(xué)的知識(shí),無(wú)論是自動(dòng)或半自動(dòng)的構(gòu)建方案都需要一定的工作量.

        3.2 基于語(yǔ)義查詢圖的方法

        依賴于預(yù)定義模版的方法可擴(kuò)展性有限,而且需要較專業(yè)的語(yǔ)言學(xué)知識(shí),無(wú)疑帶來(lái)大量的工作量,因此出現(xiàn)了基于神經(jīng)語(yǔ)義分析的方法(neural semantic parsing,NSP).它以增強(qiáng)解析能力和可擴(kuò)展性為目的,將非結(jié)構(gòu)化問題映射為語(yǔ)義圖這種中間邏輯形式,然后再將其轉(zhuǎn)換為SPARQL 查詢.

        圖5 展示了問題“小明去過(guò)廣州最高的建筑物是什么?”的一個(gè)簡(jiǎn)單的查詢圖結(jié)構(gòu),此類查詢圖通常由4 種類型的節(jié)點(diǎn)組成、用圓角矩形表示的主題實(shí)體、用圓表示的已存在變量、用陰影圓表示變量,用菱形表示聚合函數(shù).其中主題實(shí)體是知識(shí)圖譜中的現(xiàn)有實(shí)體,陰影圓節(jié)點(diǎn)x也稱為答案節(jié)點(diǎn),用于映射請(qǐng)求檢索得到的實(shí)體,菱形節(jié)點(diǎn)限制了答案必須是最高的建筑物.得到如下邏輯形式:

        圖5 語(yǔ)義查詢圖示例

        執(zhí)行該查詢(不包含聚合函數(shù))將會(huì)匹配到“國(guó)際金融中心”“廣州塔”等實(shí)體,再結(jié)合聚合函數(shù)可得到最終答案為“廣州塔”.

        本文歸納整理了近年來(lái)此類研究的內(nèi)容及特點(diǎn)[49-60],如表6所示.

        表6 基于語(yǔ)義查詢圖方法的研究

        Reddy 等人[49]提出了一種基于圖的語(yǔ)義解析器GraphParser,使用組合范疇語(yǔ)法(combinatory categorial grammar,CCG)將句子轉(zhuǎn)換為語(yǔ)義查詢圖,通過(guò)語(yǔ)義查詢圖表示自然語(yǔ)言時(shí)可將圖的邊映射為知識(shí)圖譜的關(guān)系,圖的節(jié)點(diǎn)映射到知識(shí)圖譜實(shí)體或類型等,并采用集束搜索方法得出最佳語(yǔ)義查詢圖.

        2013年Kwiatkowski 等人[50]曾經(jīng)指出當(dāng)邏輯形式使用與知識(shí)圖譜中定義的謂詞不相同時(shí),可能會(huì)存在本體匹配問題.因此他構(gòu)建的解析器是從問題-答案對(duì)中學(xué)習(xí)的,使用CCG 構(gòu)建語(yǔ)言動(dòng)機(jī)的邏輯形式,改進(jìn)本體匹配的準(zhǔn)確性.后來(lái),Zou 等人[51]提出以結(jié)構(gòu)化的方式對(duì)自然語(yǔ)言問題的查詢意圖進(jìn)行建模,在此基礎(chǔ)上,將QA 任務(wù)簡(jiǎn)化為子圖匹配問題,他們考慮到在線QA 系統(tǒng)的查詢對(duì)系統(tǒng)成本較高,考慮改進(jìn)消歧方法,便采用一種惰性方法,將歧義消除推到了查詢?cè)u(píng)估階段以提升整體性能.

        為使得知識(shí)圖譜的知識(shí)利用率更高,而且受到文獻(xiàn)[49]的啟發(fā),Yih 等人[52]在Kwiatkowski 研究的基礎(chǔ)上提出了一個(gè)名為分階段查詢圖生成框架(staged query graph generation,STAGG).框架將其分解為3 個(gè)階段的搜索問題,第1 階段,利用實(shí)體鏈接工具獲取候選實(shí)體及其得分;第2 階段,STAGG 找到主題實(shí)體和答案節(jié)點(diǎn)之間的所有關(guān)系路徑,但為了限制搜索空間,僅當(dāng)中間存在變量可被固定到復(fù)合值類型節(jié)點(diǎn)(compound value type,CVT)時(shí)才探索長(zhǎng)度2 的路徑,否則探索長(zhǎng)度1 的路徑;第3 階段,根據(jù)啟發(fā)式規(guī)則將約束節(jié)點(diǎn)附加到關(guān)系路徑上.每一個(gè)階段均利用對(duì)數(shù)線性模型對(duì)當(dāng)前部分查詢圖進(jìn)行評(píng)分,并輸出最佳的最終查詢圖來(lái)查詢知識(shí)庫(kù).STAGG 在WebQuestion 基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并驗(yàn)證了其語(yǔ)義空間裁剪的有效性,不僅簡(jiǎn)化了任務(wù)難度,更提高了查詢效率.但是為了限制搜索空間,STAGG 只探索有限長(zhǎng)度關(guān)系路徑,因此難以處理多跳等復(fù)雜問題.考慮到文獻(xiàn)[52]提出的STAGG 暫不能覆蓋某些復(fù)雜的約束,Bao 等人[31]在2016年提出在STAGG的基礎(chǔ)上擴(kuò)展了約束類型和算子,包括類型約束和顯式與隱式時(shí)間約束,并提出了多約束的語(yǔ)義查詢圖(multiple constraint query graph,MultiCG)來(lái)解決這些復(fù)雜問題.但MultiCG 仍然在整體上繼承了STAGG 框架,只是提供了更多的規(guī)則來(lái)涵蓋復(fù)雜問題.為了得到更高的精度,Yu 等人[53]在STAGG 框架基礎(chǔ)上,提出使用深度殘差雙向LSTM 模型(hierarchical residual-BiLSTM)來(lái)編碼問題和關(guān)系路徑,并計(jì)算所有問題的相似性得分,使得實(shí)體鏈接和關(guān)系路徑兩個(gè)分量相互增強(qiáng)以提高精度.其中關(guān)系路徑是指在單詞級(jí)別和短語(yǔ)級(jí)別與候選主題實(shí)體關(guān)聯(lián)的所有關(guān)系路徑,最后只保留候選主題實(shí)體中得分較高的.

        只將關(guān)注點(diǎn)放在實(shí)體鏈接或約束而忽視組合語(yǔ)義通常不利于解決復(fù)雜問題.Luo 等人[54]認(rèn)為語(yǔ)義圖中的各語(yǔ)義成分只傳遞部分信息,即現(xiàn)有方法無(wú)法捕獲組合語(yǔ)義,這是由于對(duì)不同的組件進(jìn)行單獨(dú)編碼造成的.因此,文獻(xiàn)[54]首次從局部和全局的角度對(duì)語(yǔ)義圖和問題進(jìn)行編碼,生成全局統(tǒng)一的表示向量.文獻(xiàn)[54]指出統(tǒng)一的矢量表示形式可以順利地捕獲了復(fù)雜問題中各語(yǔ)義成分信息,他們的實(shí)驗(yàn)在ComplexQuestion 等數(shù)據(jù)集上便驗(yàn)證了這一點(diǎn).后來(lái),有不少研究者在此基礎(chǔ)上做出了改進(jìn),其中Maheshwariet 等人[55]除了對(duì)該類模型的排序方法進(jìn)行了實(shí)證研究以外,還提出了一種基于自注意力機(jī)制的模型;Zhu 等人[56]提出了一種樹到序列算法,考慮了實(shí)體和關(guān)系的順序,并使用基于樹的LSTM 對(duì)語(yǔ)義圖進(jìn)行編碼;為了適應(yīng)更多類型的復(fù)雜問題,例如具有更多隱含關(guān)系的問題,Hu 等人[57]提出了一個(gè)結(jié)合了GraphParse 和STAGG的狀態(tài)轉(zhuǎn)換框架(STF),以更靈活的策略來(lái)回答復(fù)雜問題,雖優(yōu)于STAGG,但仍缺乏處理復(fù)雜聚合問題的能力.

        基于語(yǔ)義查詢圖的方法其核心在于如何將自然語(yǔ)言問句用語(yǔ)義圖來(lái)表示并映射至知識(shí)圖譜的查詢,優(yōu)點(diǎn)在于能充分利用知識(shí),但這些方法都依賴特定構(gòu)建手段,在通用性上還有待提高.

        3.3 基于編碼解碼的方法

        除了使用基于語(yǔ)義圖的方法,還有一種常用的語(yǔ)義解析方法,即基于編解碼的方法.如圖6所示,自然語(yǔ)言問題輸入編碼器和解碼器后,得到適用于數(shù)據(jù)庫(kù)處理的邏輯表示作為輸出.

        圖6 基于編解碼模型的方法

        近年來(lái),基于遞歸神經(jīng)網(wǎng)絡(luò)的編解碼模型已成功應(yīng)用于各種NLP 任務(wù),如語(yǔ)法解析[58],因此研究者開始嘗試將編解碼模型也運(yùn)用于KBQA 中的語(yǔ)義解析方法.本文整理近年來(lái)的相關(guān)研究對(duì)比如表7所示.

        表7 基于編解碼的方法研究

        Dong 等人[59]在2016年提出的一種基于注意力機(jī)制的增強(qiáng)型編解碼模型,學(xué)習(xí)自然語(yǔ)言和邏輯形式之間的對(duì)齊方式,將問題轉(zhuǎn)換為邏輯形式.但其中存在一些問題,例如解碼過(guò)程中可能會(huì)忽略較長(zhǎng)的疑問詞,而這是編解碼模型的常見問題,可以通過(guò)Tu 等人[60]提出的顯式建模解決.Xu 等人[61]指出了使用普通的序列編碼器提取詞序通常會(huì)忽略一些有價(jià)值的句法信息.因此,他們采用圖序模型來(lái)編碼句法圖,而句法圖表示了詞序、依存關(guān)系等特征,用于捕獲一些通常被忽略的句法信息.但是這種方法需要大量訓(xùn)練材料,不適用于多數(shù)KBQA 場(chǎng)景.

        為了增強(qiáng)問題的語(yǔ)義,一些研究人員會(huì)把關(guān)注點(diǎn)放在義素上.義素是詞義的最小意義單位,他們希望以更細(xì)的粒度來(lái)捕獲信息以增強(qiáng)語(yǔ)義.例如,Wu 等人[62]提出一種基于義素的語(yǔ)義解析方法,對(duì)問題中的義素級(jí)別的信息進(jìn)行編碼以減少噪聲,并引入了一種層次表示法對(duì)關(guān)系進(jìn)行編碼,盡可能的消除詞語(yǔ)歧義.為了更高效的消除歧義并豐富問題的信息,Wu 等人[63]利用外部知識(shí),將義素級(jí)別的信息和注釋都集成到詞語(yǔ)中,增強(qiáng)了模型對(duì)問題的理解.

        近年來(lái),神經(jīng)機(jī)器翻譯模型NMT 也被考慮應(yīng)用到KBQA 的任務(wù)中,Ji 等人[64]提出結(jié)合語(yǔ)義相似度模型和神經(jīng)機(jī)器翻譯模型,將復(fù)雜問題轉(zhuǎn)化為子查詢,將并行執(zhí)行子查詢的結(jié)果組裝成完整SPARQL 查詢.類似的,Wang 等人[65]構(gòu)建了4 種基于神經(jīng)機(jī)器翻譯的模型將問題轉(zhuǎn)換為SPARQL 查詢.

        KBQA 任務(wù)往往分為多個(gè)子任務(wù),但是為每個(gè)任務(wù)的樣本做標(biāo)注不僅是高成本的做法,而且存在上游任務(wù)到下游任務(wù)的傳播誤差問題,因此端到端的模型成為了研究的熱點(diǎn)之一.與Lukovnikov 等人[66]和Huang等人[67]提出僅解決單跳推理的模型不同的是,Srivastava等人[68]提出一種基于BERT 模型的多任務(wù)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型(CQA-NMT),可以應(yīng)對(duì)實(shí)體鏈接、 多跳推理等多個(gè)子任務(wù)的挑戰(zhàn).他們以擴(kuò)展的BERT 模型作為編碼器,以Transformer 作為解碼器,更好的解決了多跳問題.而且在MetaQA 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)均優(yōu)于PullNet[69]、EmbedKGQA[70].

        當(dāng)研究者將關(guān)注點(diǎn)放在為問題選擇正確語(yǔ)義關(guān)系的時(shí)候往往會(huì)忽略語(yǔ)義解析的結(jié)構(gòu),即實(shí)體之間的連接和關(guān)系的方向.這些信息通常是解決復(fù)雜問題的關(guān)鍵,Sorokin 等人[71]提出GGNN 架構(gòu),使用門控圖神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)義解析的結(jié)構(gòu)進(jìn)行編碼,利用Bi-GRUs 提取問題中的語(yǔ)義特征,匹配得出相關(guān)語(yǔ)義部分,再利用CNN 模型學(xué)習(xí)問題與關(guān)系之間的相似度,這種使用門控圖神經(jīng)網(wǎng)絡(luò)的新穎方法有效提升了回答復(fù)雜問題的效果.

        3.4 基于檢索的方法

        基于檢索的方法旨在將自然語(yǔ)言問題和知識(shí)庫(kù)中的實(shí)體和關(guān)系映射為同一低維空間中的特征向量,將任務(wù)轉(zhuǎn)化為問題向量與知識(shí)圖譜中對(duì)應(yīng)關(guān)系向量之間的相似度匹配任務(wù).根據(jù)其特征表示技術(shù)的不同,又分為基于特征工程的方法和基于表示學(xué)習(xí)的方法.本文整理近年來(lái)的相關(guān)研究對(duì)比如表8所示.

        表8 基于檢索的方法研究

        基于特征工程的方法特點(diǎn)是從依存句法分析結(jié)果提取問題詞等特征并轉(zhuǎn)化為問句特征圖后,組合主題實(shí)體子圖的候選特征圖,將權(quán)重偏向于關(guān)聯(lián)度較高的特征.例如Yao 等人[72]提出的模型則是基于此類方法.但該方法除了對(duì)復(fù)雜問題的支持度較差以外,還需要自行定義并抽取特征,而且容易造成維度太高,計(jì)算效率低等問題.而基于表示學(xué)習(xí)方法為了解決該類問題,將問句和候選答案轉(zhuǎn)換為同一語(yǔ)義空間的向量,將該問題轉(zhuǎn)換為問句與答案的向量匹配計(jì)算問題.

        Bordes 等人[73]首次提出將問句和圖譜中候選實(shí)體映射至同一向量空間,但該模型忽略了詞序?qū)渥拥挠绊?Dong 等人[74]提出的MCCNNs 模型則考慮到詞序、答案類型等特征,但也存在問句向量轉(zhuǎn)換為定長(zhǎng)向量的問題,容易忽略了隱含的問句信息.因此Hao等人[75]和Qu 等人[76]利用帶有注意力機(jī)制的模型來(lái)捕獲隱含信息,盡管效果有所提升,但在處理復(fù)雜問題上仍有進(jìn)步的空間.Bordes 等人[25]采用記憶網(wǎng)絡(luò)(memory network)模型將問題和圖譜的知識(shí)等信息存于記憶網(wǎng)絡(luò)中,在記憶槽中選取一些相關(guān)度高的信息通過(guò)響應(yīng)模塊來(lái)得到答案,實(shí)驗(yàn)證明該方案比大多數(shù)的檢索方法好.

        而基于檢索的方法離不開實(shí)體識(shí)別與檢索.近年來(lái),越來(lái)越多的實(shí)體檢索模型比傳統(tǒng)方法有顯著改進(jìn).Naseri 等人[77]提出利用相關(guān)實(shí)體信息豐富實(shí)體的表示.Kadilierakis 等人[78]在ElasticSearch 的基礎(chǔ)上支持了對(duì)RDF 數(shù)據(jù)集的關(guān)鍵字搜索.Gerritse 等人[79]利用Wikipedia2Vec[80]展開實(shí)體排名的研究.Nikolaev 等人[81]實(shí)現(xiàn)了名為Kewer 的系統(tǒng),可以通過(guò)使用聯(lián)合詞和實(shí)體嵌入來(lái)對(duì)實(shí)體進(jìn)行排序,并且不需要大量的文本語(yǔ)料庫(kù).后來(lái),Esmeir 等人[82]基于Kewer 系統(tǒng)提出了SERAG,其任務(wù)是從阿拉伯知識(shí)圖譜中檢索語(yǔ)義實(shí)體.由于具有多跳推理功能,SERAG 明顯優(yōu)于經(jīng)典的BM25 模型[83].

        4 發(fā)展趨勢(shì)與挑戰(zhàn)

        當(dāng)前KBQA 的發(fā)展向著結(jié)合深度學(xué)習(xí)模型的方法靠攏,以解決多跳推理問題、提高模型的解釋性為主要目標(biāo).

        4.1 多跳推理

        KBQA 中的多跳推理問題一直都是亟待解決的問題,解決方法往往是結(jié)合多元的信息來(lái)增強(qiáng)模型的理解力,例如Shi 等人[84]提出了TransferNet,在統(tǒng)一的框架中解決兩種不同形式的多跳問題,且在MetaQA 數(shù)據(jù)集中實(shí)現(xiàn)了2 跳3 跳問題的100%準(zhǔn)確性;Qin 等人[85]提出利用多個(gè)推理路徑信息來(lái)解決多跳問題;Wu 等人[86]結(jié)合知識(shí)圖譜中的數(shù)據(jù)作為上下文信息,結(jié)合注意力機(jī)制構(gòu)建REN 模型.但面對(duì)不同的問題數(shù)據(jù)集時(shí),解決多跳問題的模型在數(shù)據(jù)集上的擴(kuò)展性仍是需要考慮的問題.

        4.2 策略組合

        隨著近年來(lái)深度學(xué)習(xí)的發(fā)展,基于語(yǔ)義解析的方法和基于檢索的方法正逐漸走向組合化,以STAGG為例,近年來(lái)出現(xiàn)的許多KBQA 算法都試圖將這兩種范式進(jìn)行組合,從而使它們能夠兼具兩者的優(yōu)點(diǎn).信息抽取方式中提出的主題子圖的概念與人類思維方式相似,語(yǔ)義解析方式可以更好地把握問題中的約束信息.因此,如何設(shè)計(jì)一個(gè)可以更好地整合這兩種范式的優(yōu)秀神經(jīng)網(wǎng)絡(luò)是未來(lái)的趨勢(shì).

        4.3 數(shù)據(jù)質(zhì)量

        KBQA 的性能在很大程度上取決于知識(shí)圖譜的質(zhì)量和問題數(shù)據(jù)集的質(zhì)量,但是現(xiàn)有開放式知識(shí)圖譜的大小和完整性依然需要與時(shí)俱進(jìn).因此,知識(shí)圖譜高效自動(dòng)化建設(shè)將是KBQA 領(lǐng)域重要的研究方向之一.具備自動(dòng)挖掘隱藏關(guān)系的能力將有助于系統(tǒng)及時(shí)準(zhǔn)確地更新內(nèi)容.另外,近年來(lái)流行的記憶網(wǎng)絡(luò),也證明了充分利用知識(shí)圖譜先驗(yàn)知識(shí)也是重點(diǎn)研究方向之一.

        4.4 可靠性與可解釋性

        盡管端到端模型的引入降低了人工成本,但是在端到端模型中,許多方法通常會(huì)忽略模型預(yù)測(cè)的不確定性,因?yàn)榛诙说蕉说姆椒▽⑺袥Q策留給模型本身,其中的不可解釋性可能會(huì)使高性能KBQA 系統(tǒng)也變得不可靠,Zhang 等人[87]提出了一種基于貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)的端到端KBQA 模型,實(shí)體及其上下文和候選謂詞均由Bayesian-BiLSTM 編碼,其實(shí)驗(yàn)取得的成效說(shuō)明在未來(lái)提高模型的魯棒性,增強(qiáng)模型的可解釋性也是該領(lǐng)域的一個(gè)必不可少的研究方向.

        5 結(jié)束語(yǔ)

        知識(shí)圖譜囊括的知識(shí)數(shù)據(jù)與日俱增,自動(dòng)問答需求充斥著社會(huì)各個(gè)領(lǐng)域,然而基于知識(shí)圖譜的問答系統(tǒng)仍有許多技術(shù)難點(diǎn)亟待攻破.未來(lái),基于知識(shí)圖譜的問答系統(tǒng)應(yīng)以構(gòu)建回答準(zhǔn)確率高、可解釋性強(qiáng)、穩(wěn)定可靠的模型為目標(biāo),不斷迭代更新KBQA 領(lǐng)域的技術(shù).

        猜你喜歡
        圖譜實(shí)體語(yǔ)義
        繪一張成長(zhǎng)圖譜
        語(yǔ)言與語(yǔ)義
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        亚洲中文字幕无码爆乳app| 少妇被粗大猛进进出出| 91久久国产露脸国语对白| 青青草精品在线视频观看| 亚洲av永久精品爱情岛论坛| 国产乱人视频在线看| 亚洲乱码中文字幕综合| 国产一区二区三区不卡在线观看| 色妞色视频一区二区三区四区| 亚洲饱满人妻视频| 中文字幕五月久久婷热| 国产日产一区二区三区四区五区| 国产白袜脚足j棉袜在线观看| 国产精在线| 国产精品久久夜伦鲁鲁| 精品人伦一区二区三区蜜桃91| 国产精品成人观看视频| 国产高清吃奶成免费视频网站 | 色两性网欧美| 搡老女人老妇女老熟妇69| 国产精品国产三级国产av18| 亚洲一区二区三区播放| 国产无套露脸| 中文字幕一区二区三区6| 曰韩无码av一区二区免费| 日韩内射美女人妻一区二区三区| 日韩免费高清视频网站| 国产69精品麻豆久久| 免费va国产高清大片在线| 国产美女白浆| 久久久99精品国产片| 妺妺窝人体色777777| 精品无码中文视频在线观看| 小13箩利洗澡无码免费视频 | 日韩亚洲av无码一区二区三区| 精品无吗国产一区二区三区av| 人日本中文字幕免费精品| 国产欧美一区二区三区在线看| 国产亚洲日韩欧美久久一区二区| 大屁股流白浆一区二区| 风韵丰满熟妇啪啪区老老熟妇|