亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的問答系統(tǒng)綜述

        2021-01-02 13:23:41偉,王
        科技創(chuàng)新與應(yīng)用 2021年22期
        關(guān)鍵詞:信息檢索圖譜實(shí)體

        蒲 偉,王 恒

        (寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川750000)

        語言是人類生活中不可或缺的一種溝通方式,自然語言是一種表達(dá)直接且簡單的工具,自然語言處理(Natural Language Processing,NLP)是一種機(jī)器語言,可以將人類的交流轉(zhuǎn)換為機(jī)器語言,以便于讓計(jì)算機(jī)理解人類的想法。伴隨著網(wǎng)絡(luò)的發(fā)展,自然語言處理在人工智能方面迅速發(fā)展,被越來越多的人所熟知和運(yùn)用。伴隨著網(wǎng)絡(luò)的飛速增長,促使網(wǎng)絡(luò)信息量不斷增加,人們獲得信息就要更加精確。利用傳統(tǒng)的搜索引擎技術(shù)就很難實(shí)現(xiàn)這些高要求,而智能問答技術(shù)成為解決這個(gè)問題的有效手段。早在20世紀(jì)60年代人工智能研究剛開始的時(shí)候,人們就提出了要讓計(jì)算機(jī)像人一樣用自然語言來回答人們的問題,實(shí)現(xiàn)“人機(jī)對話”,這就是問答系統(tǒng)[1]。智能問答就是指將用戶的需求輸入到計(jì)算機(jī)中利用計(jì)算機(jī)自動生成答案并輸出,問答系統(tǒng)不像傳統(tǒng)的搜索引擎那樣將問題分解成關(guān)鍵字。問答系統(tǒng)在收到用戶的問題后,將問答系統(tǒng)和自然語言處理技術(shù)結(jié)合起來,對問題進(jìn)行解析處理,利用算法和模型,將用戶需要的答案直接輸出,不像搜索引擎輸出的是相關(guān)的網(wǎng)頁。所以智能問答系統(tǒng)和傳統(tǒng)搜索引擎相比可以更有效地為用戶解決問題。在問答系統(tǒng)中,我們可以根據(jù)答案的來源分類,可以分為基于知識庫的問答系統(tǒng),基于文檔的問答系統(tǒng)和答案選擇,按照應(yīng)用的領(lǐng)域不同,我們又可以將問答系統(tǒng)分為基于限定領(lǐng)域的問答系統(tǒng)和開放領(lǐng)域的問答系統(tǒng)。限定域問答系統(tǒng)只能解決限定在某些范圍或者某些范圍的問題,常見的酒店預(yù)訂、網(wǎng)上訂餐等問答系統(tǒng)都是屬于限定域問答系統(tǒng)。開放域問答系統(tǒng)指的是回復(fù)的問題不限定在某些特定范圍。

        1 自然語言處理的發(fā)展

        自然語言處理(Natural Language Processing)是人工智能(AI)的一個(gè)子領(lǐng)域。自然語言處理是研究人與人以及人機(jī)交互的語言問題的一門學(xué)科。其發(fā)展分為三個(gè)階段:20世紀(jì)50年代開始是萌芽期;20世紀(jì)60年代是發(fā)展期;20世紀(jì)90年代是繁榮期。

        早期計(jì)算機(jī)剛剛問世的時(shí)候,英國工程師布斯和美國工程師威弗最先提出了利用計(jì)算機(jī)進(jìn)行翻譯,但是起初機(jī)器翻譯系統(tǒng)的粗糙導(dǎo)致翻譯出來的質(zhì)量非常低,人們慢慢就對機(jī)器翻譯失去了好感,有的人甚至認(rèn)為機(jī)器翻譯是永遠(yuǎn)不可能實(shí)現(xiàn)的,意味著第一次機(jī)器翻譯實(shí)驗(yàn)就失敗了。在20世紀(jì)50年代是計(jì)算機(jī)科學(xué)發(fā)展的基礎(chǔ)時(shí)段,當(dāng)時(shí)提出來的理論都是基于圖靈機(jī)的模型。隨著發(fā)展在基于圖靈機(jī)模型的基礎(chǔ)上提出正則表達(dá)式以及有限自動機(jī)。在1956年,Chomsky提出了一種關(guān)于上下文無關(guān)語法的模式,同年在人工智能誕生之后,自然語言處理迅速融入該領(lǐng)域之中。在快速發(fā)展期,上下文無關(guān)語法的提出使得該領(lǐng)域的研究分為了基于規(guī)則的符號派和基于概率的隨機(jī)派,促使了未來的很多年人們都在研究這兩種方法到底哪種方法更有效。雖然機(jī)器翻譯面臨著各種困難,但是在法國、日本等國家仍然在堅(jiān)持研究機(jī)器翻譯。直到20世紀(jì)70年代的時(shí)候,機(jī)器翻譯的研究者逐漸找到了研究的思路,在機(jī)器翻譯的過程中要使原句的語義和機(jī)器翻譯出來的語義一致,好的機(jī)器翻譯系統(tǒng)就是能夠?qū)⒃涞恼Z義準(zhǔn)確無誤地翻譯出來,從此機(jī)器翻譯就出現(xiàn)了復(fù)蘇發(fā)展的趨勢。至此,機(jī)器翻譯中的語義分析就受到了越來越多研究者的重視。繁榮期最突出的是機(jī)器翻譯的研究走向?qū)嵱没?,市場上出現(xiàn)了非常多的機(jī)器翻譯系統(tǒng),逐步進(jìn)入了商業(yè)化模式并且運(yùn)用在多種行業(yè)。

        2 問答系統(tǒng)研究方向

        2.1 視覺問答

        視覺問答[1]將圖片中提及的問題用自然語言輸出,想要準(zhǔn)確地回答問題,首先需要知道照片所表示的內(nèi)容以及問題的含義,其次還需要了解圖片和文字之間存在的對應(yīng)關(guān)系。

        在視覺問答系統(tǒng)中常見的通過以下兩種方法實(shí)現(xiàn)。Kushal[2]基于貝葉斯方法實(shí)現(xiàn)了視覺問答系統(tǒng),該模型通過對問題和圖片特征建模共現(xiàn)統(tǒng)計(jì)概率,使用貝葉斯模型對問題、圖片和答案進(jìn)行推斷,然后計(jì)算每個(gè)答案的邊緣概率,將概率最高的作為問題的答案。

        在基于深度學(xué)習(xí)的視覺問答系統(tǒng)方法中,有學(xué)者[3-4]將注意力機(jī)制引入視覺問答系統(tǒng)的研究中。通過注意力機(jī)制關(guān)注到圖片部分的重要區(qū)域,在圖片上產(chǎn)生較大的權(quán)重,從而給出更準(zhǔn)確的答案。

        2.2 基于知識圖譜的問答

        基于知識圖譜的問答系統(tǒng)已經(jīng)成為一種訪問大型知識圖譜的流行方式。通過訪問知識圖譜的結(jié)構(gòu)化數(shù)據(jù),其可以使用自然語言來準(zhǔn)確地回答事實(shí)性問題。知識圖譜是一種大規(guī)模的語義網(wǎng)絡(luò)系統(tǒng),可以將一些不同類型的信息鏈接在一起,形成知識圖譜的關(guān)系網(wǎng)絡(luò)結(jié)構(gòu),可以幫助人們直接找到各個(gè)物質(zhì)之間的關(guān)系。目前基于知識圖譜的問答系統(tǒng)已經(jīng)運(yùn)用在多種領(lǐng)域,張楚婷[5]研究并實(shí)現(xiàn)了基于知識圖譜的旅游問答系統(tǒng),在旅游高峰期的時(shí)候可以幫助游客解決一些問題,不再通過人工咨詢的方式獲取信息。幫助游客在游玩的時(shí)候減少一些不必要的時(shí)間損耗?;谥R圖譜的問答系統(tǒng)在教育、醫(yī)療、汽車、農(nóng)業(yè)、金融、電影等領(lǐng)域都得到了充分的研究和應(yīng)用,由于知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu),充分體現(xiàn)了良好的推理能力,在公安情報(bào)分析以及推理、醫(yī)療系統(tǒng)問診以及開藥等系統(tǒng)中都得到了較好的效果。

        在基于知識圖譜的問答系統(tǒng)中,在旅游領(lǐng)域,張楚婷[5]運(yùn)用了基于BiLSTM-CRF的細(xì)粒度問答模型用于候選主實(shí)體以及實(shí)體的選擇,并且在關(guān)系抽取中用了注意力機(jī)制和CNN抽取之間的關(guān)系。在實(shí)體識別和關(guān)系抽取中的準(zhǔn)確率和識別率得到提高。韓馥[6]在張楚婷[5]的基礎(chǔ)上進(jìn)行改進(jìn)用BiLSTM-CNN-CRF模型進(jìn)行實(shí)體識別,進(jìn)一步提高了實(shí)體識別的準(zhǔn)確率和效率。在屬性鏈接上,在CNN和注意力機(jī)制用作關(guān)系識別的基礎(chǔ)上,加入了Droppout方法,目的是防止模型訓(xùn)練過程中擬合數(shù)據(jù)集。在教育方面,李軒[7]將企業(yè)和高校學(xué)生之間聯(lián)系在一起,企業(yè)在招聘的時(shí)候需要不同的人才,基于BiLSTM+CNNCRF的實(shí)體識別模型,對職位信息數(shù)據(jù)、技術(shù)領(lǐng)域以及個(gè)人能力等實(shí)體進(jìn)行抽取,通過序列標(biāo)注問題,利用Keras Embedding模型進(jìn)行詞嵌入矩陣,在實(shí)體識別后進(jìn)行實(shí)體間的關(guān)系抽取,并且搭建一個(gè)基于知識圖譜的教育問答系統(tǒng),可以通過問答系統(tǒng)進(jìn)行人機(jī)交互,學(xué)生能在問答系統(tǒng)中提問,了解不同崗位以及不同的領(lǐng)域需求,可以提前規(guī)劃自己的方向,在明確求職目標(biāo),崗位的工作范疇來提高學(xué)習(xí)效率。在法律領(lǐng)域,黃薇屹[8]提出基于法律領(lǐng)域的知識圖譜問答系統(tǒng),并且引入少量樣本和遷移學(xué)習(xí)模型運(yùn)用在基于知識圖譜的法律問答系統(tǒng)中,在遷移學(xué)習(xí)模型和少量數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)更快的迭代,實(shí)驗(yàn)效果明顯提升。

        目前構(gòu)建知識圖譜的問答系統(tǒng)主要基于以下幾種方法?;谝?guī)則的方法,Mekhaldi[9]使用該方法將問題映射成謂詞然后進(jìn)行結(jié)構(gòu)化查詢,這種方法的優(yōu)點(diǎn)是準(zhǔn)確率較高但是規(guī)則是由人設(shè)計(jì)的,所以泛化能力較差。構(gòu)建模板的問答方法,該方法主要是使用已知模板成分匹配句子中的內(nèi)容。Cui[10]提出了一種基于模板的問題表示方法,針對簡單事實(shí)問答,在大規(guī)模模板自動化生成方面,提出優(yōu)化方案。語義解析的問答方法,基于詞典-文法的語義解析方法,基于神經(jīng)網(wǎng)絡(luò)的方法,基于知識圖譜嵌入學(xué)習(xí)的問答方法及多跳推理的知識圖譜問答等。

        3 相關(guān)理論技術(shù)

        基于不同類型的問答系統(tǒng)在數(shù)據(jù)處理以及技術(shù)實(shí)現(xiàn)方面存在著差異,但是主要技術(shù)有問題預(yù)處理、信息檢索以及答案生成。

        3.1 問題預(yù)處理

        在問答系統(tǒng)工作時(shí),進(jìn)行下一步之前的首要任務(wù)就是對問題進(jìn)行預(yù)處理。問題預(yù)處理包括進(jìn)行分詞、去除停用詞、詞性標(biāo)注以及語法分析等任務(wù)。問答系統(tǒng)的類型不同,在問題類別的判別上就是一項(xiàng)重要的工作,答案的類別就是依據(jù)問題的類別判斷出來的,所以這個(gè)過程對問答系統(tǒng)來說必不可缺。問答系統(tǒng)遇到的問題都是由若干個(gè)詞或者詞組組成,所以要獲得關(guān)鍵詞信息就要對問題進(jìn)行分詞,提取問題中的關(guān)鍵詞;關(guān)鍵詞的提取是問題分析的核心步驟,問答系統(tǒng)中信息檢索就是通過關(guān)鍵字進(jìn)行檢索,所以關(guān)鍵字抽取與信息檢索的準(zhǔn)確度高低有密切的聯(lián)系。

        3.2 信息檢索

        用戶在問答系統(tǒng)中通過提問的方式得到最準(zhǔn)確的答案,主要是通過信息檢索從文檔或者知識庫中檢索出答案。問答系統(tǒng)中信息檢索是必不可少的一步。首先需要了解用戶問句所表示的含義與意圖,利用信息檢索技術(shù)在知識庫中抽取相似的信息作為回復(fù)的答案。在不同類型的問答系統(tǒng)中檢索方式也各不相同;如基于文本類的問答系統(tǒng),主要是對文檔或者相關(guān)文字縮小答案范圍,最后抽取出最精準(zhǔn)的答案;基于問答對的問答系統(tǒng)主要根據(jù)在問答語料庫中匹配相似度較高的句子進(jìn)行檢索;基于知識圖譜的問答系統(tǒng),主要通過實(shí)體鏈接將問句中的實(shí)體和知識圖譜相映射查找相對的實(shí)體信息。

        3.3 答案生成

        問答系統(tǒng)的最后一個(gè)步驟就是答案生成,在基于文本和問題答案對的問答系統(tǒng)中都是通過信息檢索得到數(shù)據(jù),依據(jù)文檔中的信息,抽取出與問句相似的句子作為答案返回給用戶;在基于結(jié)構(gòu)化數(shù)據(jù)類型的問答系統(tǒng)中,主要是通過在答案庫中抽取出來與之對應(yīng)的實(shí)體給用戶。答案生成模塊主要是用候選答案抽取,在文檔或者段落中抽取出可能的答案作為一個(gè)答案集,然后在答案集中通過實(shí)體的類別與問題中關(guān)鍵字或者實(shí)體進(jìn)行比較,計(jì)算各個(gè)實(shí)體之間的權(quán)重,抽取出相似度最高的生成答案,然后將該答案返回給用戶。

        4 結(jié)束語

        隨著數(shù)據(jù)的增加,查找數(shù)據(jù)難度越來越大,用戶越來越需要通過問答系統(tǒng)獲取想要的答案,現(xiàn)階段問答系統(tǒng)剛剛處于起步階段,只能處理一些簡單的問答和推理。大量學(xué)者也在不斷地研究問答系統(tǒng),由于數(shù)據(jù)變多,基于知識圖譜的問答系統(tǒng)研究的相關(guān)技術(shù)不斷突破,應(yīng)用在不同的場景。

        猜你喜歡
        信息檢索圖譜實(shí)體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        主動對接你思維的知識圖譜
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        在线亚洲精品中文字幕美乳色| 可以免费观看的毛片| 99成人无码精品视频| 国产午夜精品综合久久久| 色婷婷av一区二区三区久久| 国产真实强被迫伦姧女在线观看| 亚洲AV电影天堂男人的天堂| 免费福利视频二区三区| 极品一区二区在线视频| 成人午夜视频精品一区| 99精品视频69V精品视频| 人妻哺乳奶头奶水| 国产喷水福利在线视频| 亚洲欧美日韩一区在线观看| 国产精品一区二区三区四区亚洲| 专干老熟女视频在线观看| 乌克兰少妇xxxx做受6| 手机在线中文字幕国产| 二区视频在线免费观看| 鲁一鲁一鲁一鲁一曰综合网| 国产精美视频| 亚洲黄色一插一抽动态图在线看 | 精品无码一区二区三区小说| 免费人妖一区二区三区| 亚洲国产精品无码专区在线观看| 狠狠人妻久久久久久综合| 男女上床视频在线观看| 日韩精品一区二区三区在线视频| 人妻少妇精品视频无码专区| 国产成人午夜福利在线小电影| 日本一道本加勒比东京热| 护士的小嫩嫩好紧好爽| 亚洲国产区男人本色| 男人的av天堂狠狠操| 日韩精品一区二区三区在线视频| 成片免费观看视频大全| 窄裙美女教师在线观看视频| 激情视频在线观看好大| 美女网站免费福利视频| 国产网站视频| 麻豆成人久久精品二区三区91 |