亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向文物類博物館的自動(dòng)問答系統(tǒng)構(gòu)建

        2021-03-07 07:18:18齊特李思洋王亦芃陳甘雪沈嘉軼
        電子技術(shù)與軟件工程 2021年22期
        關(guān)鍵詞:分詞圖譜實(shí)體

        齊特 李思洋 王亦芃 陳甘雪 沈嘉軼

        (北京信息科技大學(xué) 北京市 100020)

        在很多的博物館中,對(duì)于很多文物的介紹并不是很充分,游客很難深入地了解一件文物的相關(guān)信息,比如歷史,價(jià)值,出處等。僅僅靠講解員的講解并不能完全滿足游客的所有需求,同時(shí)單純使用人力對(duì)于文物進(jìn)行講解有著很多的局限性,包括講解不能夠覆蓋所有人,聲音過小,只能固定時(shí)間進(jìn)行講解等。

        智能問答系統(tǒng)是一種類人工服務(wù),可以在一定程度上輔助或幫助一些特定領(lǐng)域的人處理相關(guān)問題,同時(shí)也能提高處理問題的效率。

        針對(duì)以上問題,本項(xiàng)目融合自然語言處理技術(shù)、信息檢索技術(shù)和語義分析,構(gòu)建面向博物館的問答系統(tǒng),能夠回答博物館相關(guān)知識(shí),其次它具有較快的響應(yīng)速度。同時(shí),它也能夠響應(yīng)同時(shí)多次的詢問,為游客提供沉浸式的參觀體驗(yàn),促進(jìn)傳統(tǒng)文化的傳播。本系統(tǒng)采取一問一答的形式,通過處理與分析輸入語句,自動(dòng)生成準(zhǔn)確回復(fù),可以更快速有針對(duì)性地進(jìn)行文物介紹等信息普及,比起傳統(tǒng)的信息播報(bào)及文字閱讀或人工導(dǎo)游式的介紹更為新奇且節(jié)省人力物力,對(duì)于傳統(tǒng)文化故事的普及意義非凡。

        1 相關(guān)工作

        知識(shí)圖譜可以分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。 典型的通用知識(shí)圖譜代表有 Freebase[1]、DBpedia[2]、Yago[3]、百度、谷歌等,主要以三元組事實(shí)型知識(shí)為主,對(duì)知識(shí)抽取的質(zhì)量有一定容忍度。典型的領(lǐng)域知識(shí)圖譜有電商、金融、醫(yī)療等。電商領(lǐng)域以阿里巴巴為例,它的知識(shí)圖譜已經(jīng)達(dá)到百億級(jí)別,可以廣泛支持商品搜索、商品導(dǎo)購、智能問答等。在金融領(lǐng)域,知識(shí)圖譜可以讓投資者和融資者更快速的了解投資行為,把握行情,張德亮針對(duì)金融圖譜缺乏問題,利用爬取到的金融股票及企業(yè)信息等結(jié)構(gòu)化數(shù)據(jù)構(gòu)建了一個(gè)小型金融知識(shí)圖譜[4]。目前知識(shí)圖譜在醫(yī)學(xué)上主要用于臨床治療決策支持、醫(yī)療智能語義搜索和醫(yī)療問答系統(tǒng)[5]等。

        在基于知識(shí)圖譜的問答系統(tǒng)方面,譚剛等人在基于知識(shí)圖譜的問答系統(tǒng)中使用了LSTM 模型來增強(qiáng)知識(shí)圖譜,并使用了啟發(fā)式的候選答案排序方法,最后通過實(shí)驗(yàn)驗(yàn)證了該系統(tǒng)具有較好性能[6];陳金菊等人提出了基于道路法規(guī)知識(shí)圖譜的多輪問答系統(tǒng),可以更好的識(shí)別用戶意圖[7];杜澤宇等人針對(duì)自然語言表達(dá)的復(fù)雜、不規(guī)范以及電商領(lǐng)域問題的特殊,使用知識(shí)圖譜作為數(shù)據(jù)庫支撐,設(shè)計(jì)了一個(gè)問答系統(tǒng),該系統(tǒng)基于電商領(lǐng)域,實(shí)現(xiàn)了問答、推理等功能[8];陳璟浩等人利用“一帶一路”投資相關(guān)信息構(gòu)建了知識(shí)圖譜,并實(shí)現(xiàn)了問答系統(tǒng)中預(yù)處理、問題分類、問題模板匹配以及答案生成功能[9]。上述所建立的問答系統(tǒng)都在各自領(lǐng)域得到了較好的實(shí)現(xiàn),并且在問答系統(tǒng)流程中都融合了領(lǐng)域的特色。在本次項(xiàng)目中,希望構(gòu)建一個(gè)關(guān)于博物館相關(guān)信息的智能問答系統(tǒng),并嘗試使用基于TextCNN匹配和規(guī)則匹配來提高匹配的精度和準(zhǔn)確度。

        2 問答系統(tǒng)設(shè)計(jì)

        2.1 問答系統(tǒng)的架構(gòu)設(shè)計(jì)

        問答系統(tǒng)與傳統(tǒng)的搜索引擎相比較,對(duì)于簡單的模板化問題更快,針對(duì)性更強(qiáng)、準(zhǔn)確率更高,用戶也更容易接受。系統(tǒng)主要包含4 個(gè)部分:數(shù)據(jù)獲取、圖譜構(gòu)建、問題理解、 用戶界面。系統(tǒng)的整體架構(gòu)如圖1所示。

        圖1:文物類博物館問答系統(tǒng)架構(gòu)

        本系統(tǒng)數(shù)據(jù)獲取模塊通過爬蟲技術(shù),基于Scrapy框架獲取網(wǎng)頁有關(guān)數(shù)據(jù)并結(jié)合開放數(shù)據(jù),再通過數(shù)據(jù)處理整理成結(jié)構(gòu)化數(shù)據(jù),使用Neo4j的python驅(qū)動(dòng)py2neo進(jìn)行知識(shí)圖譜的構(gòu)建。問題理解模塊是將問句通過HanLP模型進(jìn)行分詞、詞性標(biāo)注等處理,問題分類并判斷其是否為基于規(guī)則的模板問題,最后根據(jù)問題復(fù)雜程度,將復(fù)雜問題經(jīng)過 word2vec 模型轉(zhuǎn)化為詞向量矩陣,輸入訓(xùn)練好的TextCNN 網(wǎng)絡(luò)模型中,進(jìn)行語義相似度計(jì)算來匹配問題模板并生成答案。簡單問題直接經(jīng)過問題模板的方式生成答案。用戶界面模塊是用戶的問句輸入與系統(tǒng)答案反饋。

        2.2 問答系統(tǒng)的處理流程

        問答系統(tǒng)應(yīng)用的具體流程如圖2所示,首先用戶輸入自然語言問題;接下來判斷問句中是否存在實(shí)體,若不存在實(shí)體,進(jìn)行基于倒排索引字典的實(shí)體校正,若校正失敗,需要用戶重新輸入問題;判斷問句中是否存在屬性,如文物的“長寬高”、“重量”等。若存在屬性可以直接使用基于規(guī)則的問題模板匹配,若不存在則使用基于TextCNN 的問題模板匹配。

        圖2:系統(tǒng)處理流程圖

        最后,將問題模板轉(zhuǎn)化為知識(shí)庫查詢語句,在實(shí)現(xiàn)構(gòu)建的知識(shí)圖譜中進(jìn)行答案檢索。最后輸出答案。

        本系統(tǒng)使用知識(shí)庫中所有實(shí)體和其別名屬性構(gòu)建實(shí)體詞典,使用所有實(shí)體的屬性名稱構(gòu)建屬性詞典,并增加擴(kuò)展詞,如為“后母戊鼎”“青銅方鼎”這一實(shí)體,添加“鼎”、“方鼎”,“大鼎”等別稱; 為“重量”這一屬性,添加“沉”等擴(kuò)展詞。將構(gòu)建的字典用于實(shí)體識(shí)別和屬性識(shí)別后,如輸入的問題為“鼎多沉?”,實(shí)體字典中存在“鼎”這一實(shí)體,屬性字典中存在“沉”這一屬性,即對(duì)于問句的識(shí)別成功。

        3 文物知識(shí)圖譜構(gòu)建

        構(gòu)架知識(shí)圖譜所需的數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲技術(shù)在百度百科、油畫大全網(wǎng)站、故宮博物院官網(wǎng)等網(wǎng)站搜索,本數(shù)據(jù)共涵蓋從公元8世紀(jì)到20世紀(jì)的74位中外藝術(shù)家、326幅藝術(shù)作品、400條個(gè)人及作品介紹。

        三元組構(gòu)建是將數(shù)據(jù)整理成為實(shí)體-關(guān)系類型-實(shí)體的形式,通過關(guān)系字典創(chuàng)建節(jié)點(diǎn)關(guān)系邊建立三元組。在本文構(gòu)建的文物知識(shí)圖譜中,實(shí)體為作品名稱、博物館名稱、創(chuàng)作時(shí)間、作品種類,關(guān)系屬性包括相關(guān)博物館、作者、年代,屬性為長、寬、高、重量等。例如三元組:(萊昂納多·達(dá)·芬奇,MADE_BY,蒙娜麗莎的微笑)。使用Neo4j工具創(chuàng)建,包括實(shí)體、關(guān)系類型、屬性、三元組構(gòu)建、知識(shí)存儲(chǔ)五個(gè)部分,使用Neo4j的python驅(qū)動(dòng)py2neo進(jìn)行知識(shí)圖譜的構(gòu)建[10],如圖3為使用Neo4j圖數(shù)據(jù)庫構(gòu)建的以萊昂納多·達(dá)·芬奇為中心的關(guān)系圖。

        圖3:已構(gòu)建的部分知識(shí)圖譜

        4 問題理解

        4.1 分詞處理

        本項(xiàng)目在目前用于分詞處理的主流工具Jieba,Hanlp進(jìn)行性能測(cè)試,測(cè)試流程如下,首先,人工選擇知乎上關(guān)于文物的問題20個(gè);其次,由人工對(duì)這些材料進(jìn)行標(biāo)注并作為本次測(cè)試的真實(shí)值;最后,使用這兩種分詞工具對(duì)這20條數(shù)據(jù)進(jìn)行處理,統(tǒng)計(jì)其準(zhǔn)確率,選擇其中表現(xiàn)最優(yōu)的分詞工具,作為本次項(xiàng)目中用作分詞處理的工具。通過對(duì)這兩個(gè)工具的測(cè)試得知,HanLP的分詞效果在準(zhǔn)確率強(qiáng)于Jieba,所以將上述構(gòu)建的文物信息的字典導(dǎo)入到HanLP中,讓分詞的準(zhǔn)確率得到保障。兩種分詞工具在測(cè)試中的表現(xiàn)如表1所示。

        表1:兩種分詞工具在測(cè)試中的表現(xiàn)

        4.2 基于TextCNN的問答匹配

        設(shè)該模型的輸入是文本 T = (x1 x2,…,xn) ,含有 n 個(gè)詞,每個(gè)詞語都是一個(gè) k 維的分布式表示,經(jīng)過式(1)的卷積操作:

        其中,+是卷積操作符; xi: i +j 表示對(duì)xi,xi +1,…,xi +j進(jìn)行卷積。

        假設(shè)卷積核 w 的長度是 k,寬度是 h,那么第 i 個(gè)詞語到第i+h-1個(gè)詞語的特征ci 如式(2)所示。

        其中,f 是一個(gè)非線性函數(shù);b是一個(gè)偏移量。經(jīng)過卷積層的卷積操作之后就可以得到每個(gè)詞語在不同窗口大小的特征矩陣 c,如式(3)所示。

        在訓(xùn)練階段,使用 python 工具庫 gensim 中word2vec 模型,將文本轉(zhuǎn)換成 n*k 的詞向量矩陣,其中 k 表示詞向量的維度,n 表示句子最大長度。之后利用 Python 深度學(xué)習(xí)庫 Keras 搭建 TextCNN網(wǎng)絡(luò)模型,并利用數(shù)據(jù)集進(jìn)行訓(xùn)練。TextCNN 模型中,卷積核和詞向量寬度一致,但高度不同,選用高度為3、4、5 的卷積核進(jìn)行操作。在池化層中,抽取每個(gè)特征向量的最大值表示該特征,然后將相同高度卷積核操作后形成的標(biāo)量進(jìn)行組合,形成特征向量。最后在全連接層,使用ReLU作為激活函數(shù),并使用softmax 函數(shù)得到屬于每個(gè)類的概率。整體使用 L2和 dropout 方法,采用梯度下降法進(jìn)行參數(shù)的更新和模型的優(yōu)化。

        在應(yīng)用階段,問句經(jīng)過實(shí)體識(shí)別后,由 word2vec 模型轉(zhuǎn)化為詞向量矩陣,輸入訓(xùn)練完成的 TextCNN 網(wǎng)絡(luò)模型中,即可輸出對(duì)應(yīng)的問題模板,轉(zhuǎn)化為 Cypher 查詢語句進(jìn)行圖數(shù)據(jù)庫的答案查詢。

        4.3 基于規(guī)則的問答匹配

        本次共設(shè)計(jì)的2條主模板,6條附屬模板。設(shè)計(jì)問題模板作為一種主流的問答系統(tǒng)匹配方式,好處在于邏輯簡單,當(dāng)用戶的問題不是很明確時(shí),可以根據(jù)相似度的排名來對(duì)問題進(jìn)行分類。

        問題模板相似度計(jì)算是將用戶輸入的自然語言問句在去除停用詞后與問題模板相對(duì)比,計(jì)算相同字符數(shù)除以總字符數(shù)得分score1—公式(4),字符串與字符串之間的編輯距離得分score2—公式(5),用戶問句向量與模板向量的相似度得分score3—公式(6)。

        式中:sim_num 代表相同字符數(shù),c 代表總字符數(shù)。

        a 和b 代表兩個(gè)字符串的長度,edit(a,b)代表從一個(gè)字符串到另一個(gè)字符串的操作變次數(shù)。

        式中:A 和B 是兩個(gè)n 維向量,余弦值越大就表示越相似。

        求三個(gè)得分的加權(quán)平均值,選擇得分最高的問題模板來查找答案。

        5 系統(tǒng)成果評(píng)價(jià)

        為確定本項(xiàng)目中提出的采用兩種匹配模式的匹配方法所構(gòu)建的問答系統(tǒng)的性能,采取下述實(shí)驗(yàn)方法:

        (1)準(zhǔn)備50個(gè)關(guān)于博物館領(lǐng)域的問題,分別使用兩種匹配模式進(jìn)行問題的回答;

        (2)分別統(tǒng)計(jì)兩次試驗(yàn)中成功識(shí)別實(shí)體的次數(shù),和回答的正確次數(shù)。

        由表2可見,規(guī)則模板存在很多不能識(shí)別的情況,而TextCNN雖然表現(xiàn)更好,比如當(dāng)問題時(shí)“蒙娜麗莎的作者是誰?”,兩種方法都能夠很好回答答案為“達(dá)芬奇”,但是當(dāng)為題變成“蒙娜麗莎是誰畫的?”,規(guī)則模板不能夠識(shí)別出問句中的“?”對(duì)應(yīng)的關(guān)系是作者,而TextCNN則能夠很好的對(duì)問題進(jìn)行識(shí)別。從性能來看,規(guī)則模板的正確率為64%,TextCNN的正確率為82%。

        表2:不同匹配方法性能表現(xiàn)

        6 結(jié)語

        本文詳細(xì)介紹了面向博物館問答系統(tǒng)的構(gòu)建過程和相關(guān)實(shí)現(xiàn)的流程,本系統(tǒng)嘗試采用兩種匹配方式來提高系統(tǒng)的精度,并嘗試使用知識(shí)圖譜可視化的方式來展示文物和作者之間的關(guān)聯(lián)。構(gòu)建的系統(tǒng)能夠在一定程度上解決博物館人手不足,介紹不夠詳細(xì)的問題,同時(shí)也能夠給游客提供所需要的文物方面的介紹。

        猜你喜歡
        分詞圖譜實(shí)體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        結(jié)巴分詞在詞云中的應(yīng)用
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        值得重視的分詞的特殊用法
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        99久久精品午夜一区二区| 国产一区二区三区再现| 中文字幕综合一区二区三区| 国产办公室秘书无码精品99| 韩国无码av片在线观看网站| 久久久久亚洲AV无码专区喷| 日本在线一区二区在线| 久久久久久久久无码精品亚洲日韩| 乱色熟女综合一区二区三区| 午夜一级在线| 超短裙老师在线观看一区二区| 精品久久亚洲中文字幕| 人妻丰满熟妇av无码区不卡| 亚洲黄色一级毛片| av天堂一区二区三区精品| 国产极品少妇一区二区| 中文成人无码精品久久久不卡| 国产激情视频在线观看首页| 国产成人一区二区三区| 国产在线无码不卡影视影院| 大地资源在线播放观看mv| 亚洲欧美国产精品久久久| 国产视频一区二区三区观看| 九色综合九色综合色鬼| 久热香蕉视频| 成人在线视频自拍偷拍| 无码人妻久久久一区二区三区| 99re热视频这里只精品| 亚洲日本在线va中文字幕| 日本免费视频一区二区三区| 亚洲乱码一区av春药高潮| 亚洲美腿丝袜综合一区| 国产精品av免费网站| 国产大屁股视频免费区| 免费观看又污又黄的网站| 亚洲免费无毛av一区二区三区| 成人国产激情自拍视频| 成人三级a视频在线观看| av少妇偷窃癖在线观看| 青青草手机视频免费在线播放| 国产色xx群视频射精|