亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)圖譜的問(wèn)答系統(tǒng)研究與應(yīng)用

        2021-10-28 04:42:28施運(yùn)梅
        關(guān)鍵詞:知識(shí)庫(kù)圖譜語(yǔ)義

        袁 博,施運(yùn)梅,張 樂(lè)

        (1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101)

        0 引 言

        伴隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)從無(wú)到有,從相對(duì)匱乏的知識(shí)儲(chǔ)量到現(xiàn)如今的包羅萬(wàn)象?;ヂ?lián)網(wǎng)的強(qiáng)大之處歸根結(jié)底在其知識(shí)庫(kù)的龐大,數(shù)以萬(wàn)億計(jì)的知識(shí)呈指數(shù)爆炸式增長(zhǎng),同時(shí)利用網(wǎng)絡(luò)獲取知識(shí)的人數(shù)也呈飛速上升的態(tài)勢(shì)。據(jù)CNNIC《2020年第45次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示,截至2020年3月,國(guó)內(nèi)網(wǎng)民規(guī)模為9.04億,互聯(lián)網(wǎng)普及率達(dá)64.5%。但信息爆炸和網(wǎng)民人數(shù)的增多帶來(lái)的問(wèn)題也愈發(fā)凸顯,人們?cè)撊绾螐暮A康闹R(shí)中獲取自己想要的部分成為急需解決的問(wèn)題。

        人們?cè)诨ヂ?lián)網(wǎng)獲取答案的方式大多依賴搜索引擎,但傳統(tǒng)的搜索引擎存在針對(duì)性低、搜索結(jié)果過(guò)多等不足,它返回給用戶的結(jié)果只是若干個(gè)網(wǎng)頁(yè)以及列表,而不是用戶想了解的具體的答案。如何有針對(duì)性地獲取自己想要的答案變得越來(lái)越重要。在這樣的背景下,問(wèn)答系統(tǒng)依托現(xiàn)代科技以飛快的速度發(fā)展。

        隨著問(wèn)答系統(tǒng)的出現(xiàn),獲取用戶想要的知識(shí)變得便捷,且相較于傳統(tǒng)的搜索引擎而言,其具有速度快、針對(duì)性較高的特點(diǎn)。而在傳統(tǒng)的問(wèn)答系統(tǒng)發(fā)展的過(guò)程中,也出現(xiàn)了一些新的問(wèn)題。傳統(tǒng)的問(wèn)答系統(tǒng)因?yàn)橹R(shí)庫(kù)結(jié)構(gòu)化程度低,缺乏足夠的高質(zhì)量知識(shí),具有單一性與局限性的缺陷。KBQA的出現(xiàn)填補(bǔ)了這一缺陷,實(shí)現(xiàn)了問(wèn)答結(jié)果的多樣化,提升了問(wèn)答結(jié)果滿意度。

        通過(guò)一系列的調(diào)研顯示,KBQA在現(xiàn)階段得到了學(xué)者的廣泛關(guān)注,并在業(yè)界取得了良好的應(yīng)用效果。其在多個(gè)領(lǐng)域都發(fā)揮了巨大的作用。文中將梳理基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)的發(fā)展脈絡(luò),對(duì)其中涉及的概念、方法與技術(shù)應(yīng)用展開(kāi)深入的探討和分析。

        1 知識(shí)圖譜與問(wèn)答系統(tǒng)

        本節(jié)主要介紹知識(shí)圖譜與問(wèn)答系統(tǒng)的歷史發(fā)展與其相關(guān)的知識(shí)庫(kù)以及其技術(shù)應(yīng)用領(lǐng)域等。

        1.1 知識(shí)圖譜

        知識(shí)圖譜的前身是知識(shí)庫(kù),知識(shí)庫(kù)是一種結(jié)構(gòu)化的數(shù)據(jù)形式。Wordnet[1]是提出最早的知識(shí)庫(kù),其在眾多結(jié)構(gòu)化知識(shí)中添加了六種語(yǔ)義信息,為之后知識(shí)圖譜提出“實(shí)體-關(guān)系-實(shí)體”提供了理論基礎(chǔ)。之后相繼出現(xiàn)的freebase[2]、hownet(中文知網(wǎng)詞庫(kù))等跨語(yǔ)言知識(shí)庫(kù)更加完善了數(shù)據(jù)量與數(shù)據(jù)結(jié)構(gòu)。其中freebase知識(shí)庫(kù)是基于Wikipedia(現(xiàn)在公認(rèn)最大的在線百科全書(shū))創(chuàng)立的擁有超過(guò)5 800多萬(wàn)實(shí)體的超大型知識(shí)庫(kù),也是公開(kāi)可以得到的最大的知識(shí)庫(kù)之一。

        知識(shí)圖譜,是一種通過(guò)將數(shù)學(xué)、圖形學(xué)、信息技術(shù)和關(guān)系映射等結(jié)合在一起的現(xiàn)代化、高度結(jié)構(gòu)化的知識(shí)理論。對(duì)于知識(shí)圖譜來(lái)說(shuō),其本質(zhì)為語(yǔ)義網(wǎng)絡(luò)的知識(shí)庫(kù)。語(yǔ)義網(wǎng)[3]早在1968年被提出,起初是用來(lái)為自然語(yǔ)言處理數(shù)據(jù)建立一種新的組織方式。語(yǔ)義網(wǎng)標(biāo)明了各數(shù)據(jù)之間的聯(lián)系,它是融合語(yǔ)義信息表達(dá)來(lái)創(chuàng)建的網(wǎng)絡(luò)。而知識(shí)圖譜則是經(jīng)過(guò)漫長(zhǎng)時(shí)間的發(fā)展與技術(shù)的不斷優(yōu)化,衍生出來(lái)的語(yǔ)義網(wǎng)2.0。過(guò)去人們往往聚焦于對(duì)個(gè)體事物的分析與理解,而知識(shí)圖譜則破除了這一界限,將其引申向每件事物的聯(lián)系。在知識(shí)圖譜中,通常將事物定義為“實(shí)體”。知識(shí)圖譜將它們之間聯(lián)系起來(lái),形成一個(gè)縱橫交錯(cuò)的“網(wǎng)”。用一句話來(lái)講,知識(shí)圖譜是以若干“實(shí)體-關(guān)系-實(shí)體”構(gòu)成的三元組組成的集合。

        Google公司在2012年5月提出知識(shí)圖譜概念的同時(shí)發(fā)布了知識(shí)圖譜Google Knowledge Graph[4]。當(dāng)用戶對(duì)問(wèn)題進(jìn)行搜索時(shí),除得到搜索結(jié)果外,還可顯示與其相關(guān)的人、物或者事件。它一改往日對(duì)關(guān)鍵字匹配處理的方式進(jìn)行問(wèn)答反饋,而是將問(wèn)題中的“實(shí)體”識(shí)別出來(lái),聯(lián)合知識(shí)網(wǎng)絡(luò)尋找與其“實(shí)體”相關(guān)聯(lián)的“實(shí)體”,從而進(jìn)行推薦與顯示。

        除Google Knowledge Graph外,常用的大型知識(shí)圖譜還有DBpedia,YAGO3等。在中文領(lǐng)域,有開(kāi)放式知識(shí)圖譜平臺(tái)OpenKG[5],其中包含了15大類的開(kāi)放型知識(shí)圖譜。

        對(duì)于知識(shí)圖譜,從其出現(xiàn)至今已經(jīng)在各領(lǐng)域取得了較為成熟的應(yīng)用。例如將知識(shí)圖譜集成在推薦系統(tǒng)中,可以更有效地匹配用戶習(xí)慣進(jìn)行推薦;將知識(shí)圖譜集成在犯罪檢測(cè)領(lǐng)域,可以分析嫌疑人之間關(guān)系來(lái)獲取更多的線索;將知識(shí)圖譜運(yùn)用在問(wèn)答系統(tǒng)中,可以將數(shù)據(jù)結(jié)構(gòu)化以便更快地匹配各個(gè)實(shí)體及關(guān)系之間的映射關(guān)系。知識(shí)圖譜應(yīng)用于生產(chǎn)生活的各個(gè)方面,具有很大的研究?jī)r(jià)值。

        1.2 問(wèn)答系統(tǒng)

        公認(rèn)最早的問(wèn)答系統(tǒng)理論是二十世紀(jì)六十年代由艾倫·麥席森·圖靈提出的著名的圖靈測(cè)試[6]。在之后數(shù)十年的發(fā)展中,問(wèn)答系統(tǒng)也隨著人工智能的興衰而更迭,涌現(xiàn)出一批具有代表性的問(wèn)答系統(tǒng)。

        二十世紀(jì)六、七十年代代表其技術(shù)應(yīng)用的系統(tǒng)有Baseball[7]系統(tǒng)與Lunar[8]系統(tǒng)等。Baseball系統(tǒng)是最早應(yīng)用在實(shí)際生活中的問(wèn)答系統(tǒng)之一,旨在回答限定棒球領(lǐng)域的事實(shí)性問(wèn)題;Lunar系統(tǒng)則是為了分析月球中礦石成分而開(kāi)發(fā)出的問(wèn)答系統(tǒng)。兩者都可以回答出一些簡(jiǎn)單的問(wèn)題,缺點(diǎn)是必須使用固定形式去提問(wèn),靈活性極低,且當(dāng)時(shí)受限于匱乏的網(wǎng)絡(luò)知識(shí)資源,其處理數(shù)據(jù)量很小,并不能大規(guī)模應(yīng)用。

        二十世紀(jì)八十年代,因計(jì)算語(yǔ)言學(xué)的發(fā)展,計(jì)算機(jī)進(jìn)入語(yǔ)言學(xué)時(shí)期,研究者將研究點(diǎn)轉(zhuǎn)向如何利用語(yǔ)言學(xué)的優(yōu)勢(shì)去改進(jìn)問(wèn)答系統(tǒng),在提升準(zhǔn)確率的同時(shí)降低成本。其階段的代表系統(tǒng)為Unix Consultant系統(tǒng)[9]。

        二十世紀(jì)九十年代末,因?yàn)榛ヂ?lián)網(wǎng)絡(luò)的發(fā)展及數(shù)據(jù)量的爆炸式增長(zhǎng),出現(xiàn)了基于檢索匹配的問(wèn)答系統(tǒng)。其思路是從用戶的自然語(yǔ)言問(wèn)句中提取核心字,并在文本庫(kù)或網(wǎng)頁(yè)中搜索相關(guān)的文檔。這種方法在一段時(shí)間內(nèi)取得了很好的效果,但仍未解決用戶問(wèn)題多樣性以及自然語(yǔ)言復(fù)雜性的問(wèn)題,在數(shù)據(jù)的質(zhì)量方面,采用的都是從網(wǎng)頁(yè)或文檔中抽取的非結(jié)構(gòu)化數(shù)據(jù),質(zhì)量參差不齊,導(dǎo)致數(shù)據(jù)處理效果不盡人意。

        直到近年來(lái)知識(shí)庫(kù)與知識(shí)圖譜的出現(xiàn),將數(shù)據(jù)和其中的關(guān)系整合為一個(gè)結(jié)構(gòu)化的系統(tǒng),優(yōu)化了數(shù)據(jù)的質(zhì)量;同時(shí)深度學(xué)習(xí)飛速發(fā)展,使得自然語(yǔ)言處理變得相當(dāng)便捷,解決了先前兩種方法的不足。智能問(wèn)答系統(tǒng)也由基于文檔形式的智能問(wèn)答轉(zhuǎn)變?yōu)榛谥R(shí)圖譜的智能問(wèn)答,迎來(lái)了質(zhì)的飛躍。

        在實(shí)際生活應(yīng)用中還有很多領(lǐng)域也融入集成了問(wèn)答系統(tǒng)。在電商領(lǐng)域,出現(xiàn)的“自動(dòng)問(wèn)答機(jī)器人”。如阿里巴巴旗下的淘寶客服機(jī)器人,網(wǎng)易游戲旗下的游戲問(wèn)題自動(dòng)回復(fù)客服等??梢詫?duì)用戶的問(wèn)題化繁為簡(jiǎn),大大提升了效率。在教育領(lǐng)域,出現(xiàn)的可以提供給孩子各種各樣的百科知識(shí)等的“早教機(jī)器人”,可以替代老師的部分職能,節(jié)省家長(zhǎng)的財(cái)力與精力。在醫(yī)療領(lǐng)域,出現(xiàn)的可以快速根據(jù)臨床表現(xiàn)回答病癥的問(wèn)答系統(tǒng)等。問(wèn)答系統(tǒng)涉及諸多應(yīng)用領(lǐng)域,隨著社會(huì)發(fā)展,如何提升問(wèn)答系統(tǒng)的效率與準(zhǔn)確性也是今后研究的一大熱點(diǎn)問(wèn)題。

        2 基于知識(shí)圖譜的問(wèn)答系統(tǒng)構(gòu)建方法

        KBQA的含義為基于知識(shí)庫(kù)的問(wèn)答,知識(shí)庫(kù)有很多種,文中只討論基于知識(shí)圖譜知識(shí)庫(kù)的問(wèn)答方法。現(xiàn)階段已經(jīng)有大量針對(duì)不同領(lǐng)域的知識(shí)圖譜的問(wèn)答系統(tǒng)的研究,在KBQA的各個(gè)領(lǐng)域也出現(xiàn)了對(duì)其應(yīng)用方法的相關(guān)研究[10-13],這些研究都針對(duì)生活中的實(shí)際應(yīng)用,優(yōu)化解決了生產(chǎn)生活中的諸多問(wèn)題。

        文中對(duì)KBQA的構(gòu)建方法進(jìn)行了梳理,總體上可以劃分為三種方法:(1)基于模板匹配的方法;(2)基于語(yǔ)義解析的方法;(3)基于向量建模的方法。

        2.1 基于知識(shí)圖譜的模板匹配方法

        基于模板匹配的方法是智能問(wèn)答系統(tǒng)中最基本的方法,也是最早提出的方法?;谀0迤ヅ涞姆椒ㄊ窃诙兰o(jì)六十年代提出的,在當(dāng)時(shí)因所有可從網(wǎng)絡(luò)中獲取的數(shù)據(jù)量極少,且缺少結(jié)構(gòu)化的數(shù)據(jù),所以基于模板和規(guī)則的匹配問(wèn)答所面對(duì)的數(shù)據(jù)大多是無(wú)規(guī)則的文檔以及文本。在數(shù)據(jù)的處理上無(wú)法做到統(tǒng)一標(biāo)準(zhǔn)與格式,只能依靠關(guān)鍵字匹配的方式來(lái)返回答案,準(zhǔn)確率并不可觀。直到知識(shí)庫(kù)以及知識(shí)圖譜的出現(xiàn),基于模板匹配方法的處理對(duì)象由散亂的文檔、文本轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化、邏輯嚴(yán)密的知識(shí)圖譜,解決了模板匹配數(shù)據(jù)量少,匹配難度大等缺點(diǎn)。

        基于模板匹配的方法擁有相較于其他方法顯著的優(yōu)點(diǎn),其問(wèn)答成功率高,響應(yīng)速度快。缺點(diǎn)則是需要人工構(gòu)筑大量的模板來(lái)保證和用戶問(wèn)題的匹配,一旦用戶的問(wèn)題中沒(méi)有相對(duì)應(yīng)的模板,則會(huì)導(dǎo)致返回答案的不準(zhǔn)確。這也是制約其發(fā)展的最大問(wèn)題。

        2.1.1 模板匹配方法的處理流程

        模板匹配的方法是將用戶的自然語(yǔ)言轉(zhuǎn)化為三元組形式,根據(jù)三元組尋找與之相匹配的SPARQL查詢模板,再根據(jù)SPARQL查詢模板與知識(shí)庫(kù)中的RDF數(shù)據(jù)相匹配獲得最終的答案。具體流程如圖1所示。

        圖1 基于模板匹配方法的具體流程

        在問(wèn)答系統(tǒng)發(fā)展的前期,使用這樣的流程可以輕松地處理用戶使用指定格式提出的簡(jiǎn)單問(wèn)題。然而在問(wèn)答系統(tǒng)的發(fā)展中,人們已經(jīng)不滿足于系統(tǒng)只能回答簡(jiǎn)單的問(wèn)題,用戶的問(wèn)題趨向于復(fù)雜化,使用更為復(fù)雜的自然語(yǔ)言查詢成為一種急需解決的問(wèn)題。

        2012年Christina Unger等人[14]提出一種經(jīng)典的基于模板匹配的改進(jìn)方法,解決了以往用戶只能用規(guī)定格式的查詢語(yǔ)言查詢的弊端,使用戶可以用自然語(yǔ)言去查詢問(wèn)題。2016年Cui W等人[15]利用機(jī)器學(xué)習(xí)方法對(duì)數(shù)以百萬(wàn)計(jì)的問(wèn)答對(duì)進(jìn)行訓(xùn)練,使系統(tǒng)自動(dòng)生成模板,再通過(guò)后續(xù)的用戶意圖識(shí)別進(jìn)行分類、匹配,最終形成答案。

        2018年Google公司發(fā)布了Bert算法[16],該算法也是截至目前在NLP領(lǐng)域里表現(xiàn)最好的算法之一,在NLP領(lǐng)域里刷新了諸多記錄。在問(wèn)答領(lǐng)域也有學(xué)者融入了Bert模型來(lái)解決現(xiàn)有的問(wèn)題。2019年Aiting Liu等人[17]融入Bert預(yù)訓(xùn)練模型訓(xùn)練系統(tǒng)生成模板,解決了人工創(chuàng)造模板以及算法需要大規(guī)模訓(xùn)練數(shù)據(jù)量的缺點(diǎn),且相較之前最好的方法正確率提高了一個(gè)百分點(diǎn)。

        2.1.2 模板匹配中的意圖識(shí)別

        對(duì)于問(wèn)答系統(tǒng)來(lái)說(shuō),意圖識(shí)別階段是必不可少的環(huán)節(jié)。如果用戶意圖分辨不明確,會(huì)直接導(dǎo)致后續(xù)成功率下降??梢苑秩N方法來(lái)對(duì)用戶的意圖進(jìn)行判定,分別為:(1)基于辭典及模板的規(guī)則方法;(2)基于特征統(tǒng)計(jì)的分類方法;(3)基于神經(jīng)網(wǎng)絡(luò)的方法。每一種方法都有各自的優(yōu)缺點(diǎn)。

        基于辭典及模板的規(guī)則方法需要人為構(gòu)筑領(lǐng)域詞典,對(duì)于限定領(lǐng)域的意圖識(shí)別任務(wù)來(lái)說(shuō),具有相當(dāng)好的效果,正確率非常高,但相應(yīng)地,因?yàn)槠湫枰娜斯こ杀咎撸倚枰喈?dāng)準(zhǔn)確的專業(yè)詞典,導(dǎo)致它的可移植性較差。一旦需要更換領(lǐng)域,就需要重新構(gòu)筑模板及詞典。

        基于特征統(tǒng)計(jì)的分類方法,其主要思路是將既定語(yǔ)料進(jìn)行關(guān)鍵特征的提取,再將語(yǔ)料進(jìn)行分類,因此該方法實(shí)質(zhì)就是分類問(wèn)題,利用訓(xùn)練分類器的方法實(shí)現(xiàn)了意圖分類。常用的模型有樸素貝葉斯模型[18]、支持向量機(jī)模型[19]、邏輯回歸模型等。

        基于神經(jīng)網(wǎng)絡(luò)的方法是在深度學(xué)習(xí)方法成熟的情況下發(fā)展而來(lái)的,現(xiàn)有的深度學(xué)習(xí)框架,如百度框架paddlepaddle等也可以很好地解決意圖分類的問(wèn)題,對(duì)意圖識(shí)別也相繼出現(xiàn)了其他融入深度學(xué)習(xí)的算法來(lái)提升性能[20-23]。這表明在意圖識(shí)別領(lǐng)域融入深度學(xué)習(xí)方法已經(jīng)是大勢(shì)所趨。

        2.2 基于知識(shí)圖譜的語(yǔ)義解析方法

        基于知識(shí)圖譜的語(yǔ)義解析方法是一種不依賴于模板的方法,該方法的思路是對(duì)用戶提出的問(wèn)句進(jìn)行歸一化語(yǔ)義解析,目的是將其轉(zhuǎn)化為一種可以使知識(shí)圖譜理解的表示。再對(duì)知識(shí)圖譜的知識(shí)進(jìn)行推理,轉(zhuǎn)化為一種邏輯形式,根據(jù)邏輯形式查詢知識(shí)庫(kù)得到結(jié)果。

        2.2.1 語(yǔ)義解析方法的處理流程

        基于知識(shí)圖譜的語(yǔ)義解析方法的步驟可以分為三步,即語(yǔ)句解析→形式匹配→答案生成。其中語(yǔ)句解析這一步是為了使計(jì)算機(jī)可以理解用戶輸入的自然語(yǔ)言。對(duì)于用戶輸入的自然語(yǔ)言,句子的結(jié)構(gòu)是由語(yǔ)法及詞匯構(gòu)成的,語(yǔ)句解析的目的是將語(yǔ)法成分以及各詞匯的屬性關(guān)系分離。在對(duì)語(yǔ)句解析的步驟中,根據(jù)層次的深度,將其分為較淺層次的解析和較深層次的解析。

        2.2.2 淺層解析

        淺層解析的第一步簡(jiǎn)單理解就是對(duì)語(yǔ)句的分詞、清洗等操作。使用傳統(tǒng)的LSTM+CRF方法,或是調(diào)用現(xiàn)成的jieba分詞庫(kù)都可以實(shí)現(xiàn)分詞的目的。根據(jù)句子的語(yǔ)法將句子結(jié)構(gòu)解析出來(lái),最終形成的實(shí)際上是一棵語(yǔ)法解析樹(shù),如圖2所示。

        圖2 淺層解析示意圖

        語(yǔ)法解析的方法主要是上下文無(wú)關(guān)法、考慮詞匯的上下文無(wú)關(guān)語(yǔ)法以及基于概率分布的上下文無(wú)關(guān)語(yǔ)法等。這些算法大多針對(duì)英文語(yǔ)料,對(duì)中文語(yǔ)料的適應(yīng)性并不足。王鵬等人[24]根據(jù)中文的結(jié)構(gòu)特點(diǎn),發(fā)現(xiàn)想要在中文領(lǐng)域取得較好的效果,必須考慮中文特性輔助其他算法以提升準(zhǔn)確率。國(guó)內(nèi)很多學(xué)者都在其基礎(chǔ)上針對(duì)中文語(yǔ)料進(jìn)行優(yōu)化,林穎等人[25]提出句法結(jié)構(gòu)共現(xiàn),引入上下文信息的方法改進(jìn)基于概率分布的上下文無(wú)關(guān)語(yǔ)法,突破了中文庫(kù)規(guī)模小的局限性。

        2.2.3 深層解析

        淺層次的解析是將句子分離、解析,而深層次的解析著重點(diǎn)轉(zhuǎn)移到了單詞的含義或是句子的含義上面。其中需要用到的技術(shù)有語(yǔ)義角色標(biāo)注技術(shù)與語(yǔ)義依存解析技術(shù),如圖3所示。

        圖3 深層解析示意圖

        語(yǔ)義角色標(biāo)注的實(shí)質(zhì),是將問(wèn)題中的實(shí)體等與知識(shí)圖譜中的實(shí)體,關(guān)系及屬性相匹配,將單純的語(yǔ)句轉(zhuǎn)化為一句帶有相應(yīng)角色的標(biāo)注。針對(duì)語(yǔ)義角色標(biāo)注技術(shù),國(guó)內(nèi)學(xué)者做了大量研究。劉懷軍等人[26]針對(duì)中文的特點(diǎn),提出了更有效的新的特征及特征組合。丁金濤等人[27]隨后發(fā)現(xiàn)特征及特征組合并不是越多效果越好,效果取決于特征的組合,從而進(jìn)行了優(yōu)化特征優(yōu)化組合的方法研究,且取得了較好的效果。

        當(dāng)句子語(yǔ)法被解析出來(lái)之后,還需要分析句子各單詞之間的相互依存關(guān)系,傳統(tǒng)的方法為依存句法分析(dependency parsing),其分析的是句子之間的句法結(jié)構(gòu),然而傳統(tǒng)的方法對(duì)復(fù)雜問(wèn)句的分析能力不足。劉雄等人[28]為了解決復(fù)雜問(wèn)句的語(yǔ)義解析,在依存句法分析的基礎(chǔ)上提出一種復(fù)合型問(wèn)句的分解方法,提升了問(wèn)句分類的準(zhǔn)確性。

        依存句法分析主要識(shí)別的語(yǔ)法成分的側(cè)重點(diǎn)在句子的“主謂賓”等部分。因?yàn)檫@個(gè)特點(diǎn),這種方法對(duì)于介詞在句子中的權(quán)重作用體現(xiàn)尤為明顯。但是很多時(shí)候如果謂語(yǔ)、介詞等較少,句法依存的方法就會(huì)大打折扣。針對(duì)這一問(wèn)題,杜澤宇等人[29]結(jié)合了哈工大LTP語(yǔ)義依存分析(semantic dependency analysis)替代了傳統(tǒng)的依存句法分析,輔助以word2vec算法進(jìn)行相似度計(jì)算。在電商領(lǐng)域問(wèn)答系統(tǒng)取得了較好的效果。

        2.2.4 檢 索

        對(duì)于語(yǔ)句解析處理完畢之后的自然語(yǔ)言,問(wèn)答系統(tǒng)需要與知識(shí)圖譜里的實(shí)體關(guān)系以及屬性進(jìn)行檢索匹配,輸出格式化的數(shù)據(jù)。這一階段就是檢索階段,其需要利用上一階段生成的語(yǔ)義解析樹(shù)根節(jié)點(diǎn)中邏輯形式,與知識(shí)庫(kù)中的信息進(jìn)行檢索匹配。

        當(dāng)邏輯形式與知識(shí)圖譜中的數(shù)據(jù)匹配完成之后,在答案生成階段,利用查詢語(yǔ)句在知識(shí)庫(kù)中查詢答案并返回答案。常用的查詢語(yǔ)言為Cypher和SPARQL以及SQL等。

        2.3 基于知識(shí)圖譜的向量建模方法

        基于知識(shí)圖譜的向量建模方法是KBQA系統(tǒng)三大基本方法中的最后一種,該方法的核心思想是將問(wèn)題與答案都轉(zhuǎn)化為向量形式。利用轉(zhuǎn)化的向量形式來(lái)使計(jì)算機(jī)自動(dòng)學(xué)習(xí)、自動(dòng)從知識(shí)庫(kù)中尋找與“問(wèn)題向量”相似的“答案向量”。

        2.3.1 向量建模方法的處理流程

        這一階段首要任務(wù)是需要根據(jù)用戶輸入的問(wèn)題,找到其中心詞匯,根據(jù)這個(gè)核心詞匯找到答案庫(kù)中一組候選的答案組。在得到用戶輸入問(wèn)題與其候選答案組之后,需要將用戶輸入的問(wèn)題由高維度降至低維度,將問(wèn)題與答案都映射到低維空間中(即向量形式),得到其分布式表達(dá)。分布式表達(dá)是深度學(xué)習(xí)概念中十分重要的一環(huán),它的含義為利用向量代表實(shí)體數(shù)據(jù)。即詞向量或者詞嵌入(word embedding),用向量形式來(lái)表示一個(gè)詞在計(jì)算機(jī)中的具體含義。

        在得到問(wèn)題與答案的分布式表達(dá)之后,需要將問(wèn)題與答案進(jìn)行匹配,這一階段需要利用數(shù)據(jù)集來(lái)對(duì)分布式表達(dá)進(jìn)行訓(xùn)練,使得其問(wèn)題與答案之間的相似度盡可能高。最后根據(jù)候選答案組中向量表示與用戶輸入問(wèn)題表達(dá)得到分?jǐn)?shù)最高的返回最終答案。具體流程如圖4所示。

        圖4 基于向量建模的流程

        2.3.2 問(wèn)題-答案對(duì)向量化

        在基于向量建模的方法中,最關(guān)鍵的一步是如何將問(wèn)題與答案轉(zhuǎn)化為向量的形式,在向量化研究的過(guò)程中有以下難點(diǎn):(1)如何讓機(jī)器明白人類的語(yǔ)言;(2)如何聯(lián)系上下文進(jìn)行語(yǔ)義表征;(3)如何解決一詞多義問(wèn)題。

        對(duì)于將文本向量化,有多種方法可以實(shí)現(xiàn),早期的向量化實(shí)現(xiàn)過(guò)程中詞袋模型(bag-of-words)的應(yīng)用為主要手段,其中one-hot、TF-IDF、textrank等算法是最簡(jiǎn)單的文本向量化方法,然而這些方法在語(yǔ)義表達(dá)上存在語(yǔ)義鴻溝、語(yǔ)義無(wú)法關(guān)聯(lián)上下文等問(wèn)題。之后相繼出現(xiàn)了Word2vec、FastText、GloVe等算法,結(jié)合了語(yǔ)境問(wèn)題實(shí)現(xiàn)了文本向量化。然而這些算法仍然無(wú)法解決一詞多義的問(wèn)題,為此又出現(xiàn)了基于語(yǔ)言模型的動(dòng)態(tài)表示方法,如ELMo[30]、GPT[31]、BERT,解決了一詞多義的問(wèn)題,即同樣的單詞在不同的語(yǔ)境下會(huì)有不同的向量表示。

        在基于向量建模的方法中,Bordes Antoine等人[32]在2014年提出embedding模型,在不借助任何人工干預(yù)和提取特征的情況下,利用向量建模以及深度學(xué)習(xí)訓(xùn)練問(wèn)題答案對(duì)的方式完成問(wèn)答任務(wù)。實(shí)驗(yàn)效果超越了之前的方法。2015年,Dong L等人[33]考慮到了語(yǔ)言順序?qū)υ~向量向量化的影響,在傳統(tǒng)的向量建模方法中融入了卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行問(wèn)答性能的提升。同年Bordes A等人[34]融入記憶網(wǎng)絡(luò),解決了大樣本多數(shù)據(jù)問(wèn)答系統(tǒng)效果差的缺陷。Zhang Y等人[35]在2016年聯(lián)合了知識(shí)表示學(xué)習(xí)和注意力機(jī)制來(lái)表達(dá)出合適的候選答案,解決了表示答案效果差的問(wèn)題。并在WEBQUESTION數(shù)據(jù)集[36]上表現(xiàn)出很好的效果。2018年Qu Y等人[37]又在傳統(tǒng)的基于向量模型的基礎(chǔ)上,提出一種AR-SMCNN模型,利用了CNN與RNN神經(jīng)網(wǎng)絡(luò)優(yōu)化提取信息的精度,解決了之前忽視自然語(yǔ)言原始信息的問(wèn)題,取得了SimpleQuestion測(cè)評(píng)上的最優(yōu)效果。

        3 基于知識(shí)圖譜的問(wèn)答系統(tǒng)應(yīng)用

        通過(guò)對(duì)市場(chǎng)上已有的基于知識(shí)圖譜的問(wèn)答系統(tǒng)調(diào)研可以發(fā)現(xiàn),其在現(xiàn)實(shí)生活中的應(yīng)用非常廣泛。有很多典型的產(chǎn)品,各個(gè)領(lǐng)域都出現(xiàn)了對(duì)其技術(shù)的應(yīng)用。

        在語(yǔ)音識(shí)別領(lǐng)域應(yīng)用的問(wèn)答系統(tǒng)有“Google now”、微軟小冰、蘋(píng)果公司的“Siri”語(yǔ)音問(wèn)答系統(tǒng)、“Cortana”問(wèn)答系統(tǒng)、百度公司的對(duì)話式人工智能秘書(shū)“度秘”等。這些產(chǎn)品方便用戶通過(guò)語(yǔ)音來(lái)獲得自己想要得到的答案,具有很強(qiáng)的交互性。

        在醫(yī)療領(lǐng)域應(yīng)用的問(wèn)答系統(tǒng)有“左手醫(yī)生”、“白狐智能醫(yī)療問(wèn)答”等產(chǎn)品,為患者自查病癥、醫(yī)生查詢藥方藥材等提供了便利。

        在電商領(lǐng)域應(yīng)用的問(wèn)答系統(tǒng)有“淘寶客服”、“京東客服”、“Amazon”電商網(wǎng)站客服系統(tǒng)等。方便了購(gòu)買者詢問(wèn)產(chǎn)品詳細(xì)情況,同時(shí)節(jié)省了客服的人力,提升了服務(wù)質(zhì)量與速度。

        總體上,基于知識(shí)圖譜的問(wèn)答系統(tǒng)是現(xiàn)在各行各業(yè)應(yīng)用的焦點(diǎn),其中需要的技術(shù)也是學(xué)者們研究的熱點(diǎn)問(wèn)題之一。在基于知識(shí)圖譜的問(wèn)答系統(tǒng)應(yīng)用場(chǎng)景越來(lái)越廣泛的社會(huì)環(huán)境下,如何提升技術(shù)更好地服務(wù)于應(yīng)用,是其發(fā)展的關(guān)鍵。

        4 未來(lái)與展望

        隨著人工智能、自然語(yǔ)言理解等技術(shù)的進(jìn)步,未來(lái)技術(shù)應(yīng)用的發(fā)展趨勢(shì)已趨向于智能化,問(wèn)答系統(tǒng)智能化的程度越高,人們從問(wèn)答系統(tǒng)中獲取到的答案就越準(zhǔn)確。從問(wèn)答系統(tǒng)技術(shù)應(yīng)用的角度來(lái)看,問(wèn)答系統(tǒng)及其衍生的設(shè)施,諸如聊天機(jī)器人、陪伴機(jī)器人等都是未來(lái)社會(huì)不可或缺的部分。問(wèn)答系統(tǒng)在未來(lái)會(huì)取代互聯(lián)網(wǎng)搜索引擎的可能性也非常之大,問(wèn)答系統(tǒng)或許會(huì)成為從互聯(lián)網(wǎng)獲取知識(shí)的新途徑。

        對(duì)于一個(gè)優(yōu)秀的問(wèn)答系統(tǒng)來(lái)說(shuō),最關(guān)鍵的是它如何盡可能理解問(wèn)題和如何獲取高質(zhì)量的知識(shí)來(lái)源。對(duì)于高質(zhì)量的知識(shí)來(lái)源這一問(wèn)題來(lái)說(shuō),知識(shí)圖譜很好地解決了這一個(gè)問(wèn)題,它提供了高度結(jié)構(gòu)化的知識(shí)庫(kù)。而在問(wèn)題理解方面,人類更傾向于使用多類型、無(wú)規(guī)則的自然語(yǔ)言去提出問(wèn)題,而機(jī)器只能識(shí)別結(jié)構(gòu)化的問(wèn)題,如何更好地使機(jī)器理解用戶的問(wèn)題,是今后人工智能大背景下基于知識(shí)圖譜的問(wèn)答系統(tǒng)需要解決的問(wèn)題。

        雖然深度學(xué)習(xí)技術(shù)現(xiàn)在已經(jīng)較為成熟,但是深度學(xué)習(xí)技術(shù)的應(yīng)用也會(huì)帶來(lái)一些問(wèn)題,比如如何提升深度學(xué)習(xí)方法的可解釋性,如何盡可能減少人工成本等,這些都是需要面臨的挑戰(zhàn)?;谥R(shí)圖譜的問(wèn)答還有很大的優(yōu)化提升空間。

        5 結(jié)束語(yǔ)

        總體上,從技術(shù)應(yīng)用層面來(lái)看,基于知識(shí)圖譜的問(wèn)答系統(tǒng)已經(jīng)滲透于各行各業(yè)中,在很多與人們生活息息相關(guān)的領(lǐng)域,如金融、醫(yī)療、交通、刑偵、電商等,都已經(jīng)運(yùn)用得較為成熟。并且在今后的發(fā)展中其應(yīng)用深度會(huì)越來(lái)越深,涉及領(lǐng)域也會(huì)越來(lái)越廣,具有極大的研究?jī)r(jià)值。從研究方法層面上來(lái)看,在工業(yè)實(shí)際應(yīng)用中,使用最多的方法實(shí)際上是基于規(guī)則與模板匹配方法或基于這種方法的變種。因?yàn)槠潆m然受制于模板質(zhì)量與人工成本等因素,但其對(duì)于問(wèn)答極高的正確率仍然使它暫時(shí)成為各大公司開(kāi)發(fā)項(xiàng)目的首選。融入深度學(xué)習(xí)的方法還處在研究改進(jìn)階段,其方法需要較強(qiáng)的約束條件,不具有普適性,無(wú)法大規(guī)模投入工業(yè)開(kāi)發(fā)使用。但在未來(lái)深度學(xué)習(xí)發(fā)展更為成熟以后,因?yàn)槠鋵?duì)復(fù)雜問(wèn)題,多實(shí)體問(wèn)答等問(wèn)題的處理具有的先天優(yōu)勢(shì),在三大基本方法中融入深度學(xué)習(xí)技術(shù)提升問(wèn)答效果也只是時(shí)間問(wèn)題。在現(xiàn)階段的應(yīng)用中各個(gè)方法之間有其共同點(diǎn),也有長(zhǎng)短優(yōu)劣,多種技術(shù)與算法之間取長(zhǎng)補(bǔ)短才是發(fā)展KBQA的關(guān)鍵。

        猜你喜歡
        知識(shí)庫(kù)圖譜語(yǔ)義
        繪一張成長(zhǎng)圖譜
        語(yǔ)言與語(yǔ)義
        基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
        認(rèn)知范疇模糊與語(yǔ)義模糊
        雜草圖譜
        久久青草亚洲AV无码麻豆| 后入到高潮免费观看| 中文乱码字慕人妻熟女人妻| 91在线精品老司机免费播放| 极品粉嫩小仙女高潮喷水视频 | 亚洲精品乱码久久久久久不卡| 国产精品亚洲一区二区在线观看| 欧美精品久久久久久久久| 精品人妻中文字幕一区二区三区| 美丽小蜜桃1一3在线观看| 国产激情综合在线观看| 7777精品久久久大香线蕉| 亚洲色无码中文字幕| 黄色一区二区三区大全观看| 国产人妻熟女高跟丝袜图片| 成人片黄网站色大片免费观看app 亚洲av无码专区亚洲av | 日韩亚洲在线观看视频| 亚洲a∨无码精品色午夜| 无遮挡又黄又刺激又爽的视频| 高清无码精品一区二区三区| 俺来也三区四区高清视频在线观看| 国产精品对白一区二区三区| 日射精情感性色视频| 少妇我被躁爽到高潮在线影片| 亚洲精品一区二区三区国产 | 1000部夫妻午夜免费| 中日韩欧美成人免费播放 | 白白在线视频免费观看嘛| 亚洲日韩一区二区三区| 国产精品无码久久久久免费AV | 精品久久久久久777米琪桃花 | 1717国产精品久久| 国产美女亚洲精品一区| 在线观看国产视频你懂得| 日本高清视频www| 91亚洲国产三上悠亚在线播放| 亚洲一区二区三区福利久久蜜桃| 欧洲熟妇色| 亚洲AV无码一区二区三区人| 手机在线免费看av网站| 亚洲精品无码精品mv在线观看|