亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的新疆旅游自動問答系統(tǒng)設(shè)計

        2021-01-14 00:45:42孫晶郭成艷毛臣胡玉葉
        現(xiàn)代信息科技 2021年12期

        孫晶 郭成艷 毛臣 胡玉葉

        摘 ?要:近年來,新疆旅游業(yè)發(fā)展趨勢越來越好,優(yōu)美的風光,豐富的物產(chǎn),受到國內(nèi)外游客的喜愛。由于新疆地大物博,導(dǎo)致多數(shù)游客不能準確找到目的地。建立了一個新疆旅游知識圖譜結(jié)構(gòu)描述和形態(tài)分析的可計算方法體系,提出將自動問答系統(tǒng)運用于新疆旅游。創(chuàng)建新疆旅游知識圖譜并構(gòu)建基于新疆旅游知識圖譜的自動問答平臺,目的是使游客在存放著海量結(jié)構(gòu)化知識的圖譜上快速獲取正確答案,為游客游覽景區(qū)時減少不必要的時間消耗。

        關(guān)鍵詞:知識圖譜;Neo4j數(shù)據(jù)庫;自動問答系統(tǒng);新疆旅游

        中圖分類號:TP182 ? 文獻標識碼:A 文章編號:2096-4706(2021)12-0026-04

        Abstract: In recent years, the development trend of Xinjiang tourism is getting better and better. The beautiful scenery and rich products are loved by tourists at home and abroad. Due to the vast territory and abundant resources in Xinjiang, most tourists can't find their destination accurately. A computable method system for structural description and morphological analysis of Xinjiang tourism knowledge graph is established, and the application of automatic question answering system in Xinjiang tourism is proposed. The purpose of creating Xinjiang tourism knowledge graph and constructing an automatic question answering platform based on Xinjiang tourism knowledge graph is to enable tourists to quickly obtain correct answers on the graph with a large amount of structured knowledge, so as to reduce unnecessary time consumption of tourists when they visiting scenic spots.

        Keywords: knowledge graph; Neo4j database; automatic question answering system; Xinjiang tourism

        0 ?引 ?言

        早期自動問答系統(tǒng)大都針對特定領(lǐng)域構(gòu)建,需要領(lǐng)域?qū)<易珜懘罅款I(lǐng)域相關(guān)的規(guī)則用于問題理解和答案生成,極大地限制了該類自動問答系統(tǒng)的規(guī)模和通用性。20世紀60年代,Green等人提出BASEBALL系統(tǒng),Woods提出使用自然語言檢索NASA數(shù)據(jù)庫,Winograd提出SHRDLU系統(tǒng)。自動問答內(nèi)容系統(tǒng)START是由MIT麻省理工學(xué)院1993年研究開發(fā)并發(fā)布使用的從此自動問答進入開放領(lǐng)域問答時代。Evi是2005年上線的基于知識圖譜(knowledge graph)核心技術(shù)的問答型搜索引擎。斯坦福在2016年發(fā)布了SQUAD數(shù)據(jù)集。2018年3月百度發(fā)布了中文機器閱讀理解數(shù)據(jù)集DuReader,與中國中文信息學(xué)會和中國計算機學(xué)會共同舉辦了“2018機器閱讀理解技術(shù)賽”。新疆豐富的旅游資源吸引著全國的游客來觀光,但仍缺乏一個能夠隨時隨地解答新疆旅游問題的自動問答系統(tǒng)來幫助游客解決心中的疑惑。近年來,隨著人工智能的飛速發(fā)展,自動問答技術(shù)也取得了突飛猛進的發(fā)展,如果將自動問答技術(shù)應(yīng)用于回答旅游愛好者在新疆旅游遇到的問題,新疆旅游將會有更好的發(fā)展前景。

        1 ?知識圖譜

        知識圖譜這個理論是以20世紀50年代末60年代初的語義網(wǎng)絡(luò)(semantic net)為原型提出來的。知識圖譜這個概念Google在2012年提出來的一個新概念。知識圖譜把一個叫做三元組(triple)的數(shù)據(jù)結(jié)構(gòu)作為知識存儲和表示的基本單元?,F(xiàn)在,國際上流行的的知識圖譜有Freebase、DBPedia,YAGO和Satori等等,他們的主要內(nèi)容還是源自于早期一些大型平臺Wikipedia、NNDB、Musicbrainz以及這些平臺的社區(qū)用戶的貢獻。2012年,從Google開始發(fā)布基于知識圖譜的語義搜索和自動問答服務(wù)以后,學(xué)術(shù)屆開始研究知識圖譜的典型應(yīng)用。慢慢的,業(yè)界學(xué)術(shù)研究團隊對垂直知識圖譜進行有針對性的研究,針對某些特定領(lǐng)域特定專業(yè)知識為基礎(chǔ)創(chuàng)建的垂直知識圖譜,其創(chuàng)建過程依賴特定專業(yè)領(lǐng)域的行業(yè)數(shù)據(jù)的依賴度非常高,在知識領(lǐng)域各專業(yè)的全領(lǐng)域覆蓋范圍較窄。當前如何脫離專業(yè)領(lǐng)域數(shù)據(jù)庫使得知識圖譜能夠進行自動獲取和實際應(yīng)用是目前各領(lǐng)域中最重要的兩個課題。

        2 ?知識圖譜語料庫創(chuàng)建

        本文研究多源異構(gòu)方式建立新疆旅游實體生成資源技術(shù),本文研究的數(shù)據(jù)從一開始的設(shè)計由百科網(wǎng)頁中用爬蟲來進行爬取,由于爬蟲的設(shè)計和數(shù)據(jù)清洗技術(shù)熟練度好,所以在后續(xù)的應(yīng)用中沿用了爬蟲爬取百科網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù),在爬蟲過程中主要應(yīng)用傳統(tǒng)方法就是Partial Page Rank策略,該策略的優(yōu)先度設(shè)計為重要程度較高的網(wǎng)頁爬取有限權(quán)重系數(shù)較高。爬取好網(wǎng)頁數(shù)據(jù)后,使用人工數(shù)據(jù)清洗的方法將爬取到的實體、屬性及相互關(guān)系等知識手工摘取出來,然后存儲到文本文件當中,使用程序算法再輔以數(shù)據(jù)提取以三元組的形式儲存到圖數(shù)據(jù)庫中。這種爬蟲框架輔助人工篩選的方式可以非常有效的達到獲取新疆旅游詞條的目的,并且能夠極大的豐富數(shù)據(jù)庫資源。各數(shù)據(jù)資源名詞性對象會生產(chǎn)等實體,各實體間存在的位于和屬于關(guān)系,我們會以<實體1,關(guān)系,實體2>三元組形式進行數(shù)據(jù)庫依存關(guān)系儲存。實體的屬性是我們數(shù)據(jù)庫中每個詞條中特定位置對應(yīng)的,這個詞條中實體屬性的表格能夠自動抽取出實體的屬性,生成<實體,屬性名稱,屬性值>三元組形式進行數(shù)據(jù)庫儲存。本文為了構(gòu)建旅游知識圖譜從結(jié)構(gòu)化知識庫和垂直旅游信息數(shù)據(jù)庫及網(wǎng)站以及百度百科中抽取旅行景點信息,進行旅游領(lǐng)域知識數(shù)據(jù)庫創(chuàng)建。本文研究的新疆旅游知識圖譜數(shù)據(jù)庫只要包括地區(qū)節(jié)點知識圖譜和景點知識圖譜兩部分構(gòu)建的關(guān)鍵技術(shù)。

        3 ?Neo4j數(shù)據(jù)庫

        本文使用Neo4j數(shù)據(jù)庫來創(chuàng)建知識圖譜,實現(xiàn)圖數(shù)據(jù)庫數(shù)據(jù)呈現(xiàn)。Neo4j是近年來非常流行的用于存儲知識圖譜節(jié)點和節(jié)點關(guān)系的NOSQL圖形數(shù)據(jù)庫。作為一個高性能的圖數(shù)據(jù)庫存儲和檢索的圖引擎,該數(shù)據(jù)庫引擎具有常用數(shù)據(jù)庫與專業(yè)數(shù)據(jù)庫所具備的所有成熟特性。使用Neo4j圖數(shù)據(jù)庫的一個優(yōu)勢就是在對數(shù)據(jù)進行存儲的同時也是一個知識圖譜的構(gòu)建過程。通過對前面各種算法抽取的名詞性實體、名詞性實體的屬性以及名詞性實體間依存關(guān)系的存儲,就能夠生成一張知識圖譜。

        我們使用py2neo,python驅(qū)動引擎實現(xiàn)對數(shù)據(jù)庫的一系列操作。對新疆旅游知識圖譜數(shù)據(jù)庫中的區(qū)、市、縣、景點等層級節(jié)點數(shù)據(jù)進行創(chuàng)建、讀取、更新、刪除的操作。然后在已創(chuàng)建的數(shù)據(jù)節(jié)點上創(chuàng)建下轄和位于等數(shù)據(jù)依存關(guān)系。Neo4j數(shù)據(jù)庫呈現(xiàn)的新疆旅游知識圖譜數(shù)據(jù)庫節(jié)點及其依存關(guān)系圖如圖1所示。

        Self.g = Graph(‘http://localhost:7474’,username = ‘neo4j,password=‘neo4j’)

        elif question_type == ‘city_have’:

        sql=[“MATCH ( m:‘縣市’)-[r1:‘下轄’]->(k:‘景區(qū)’) where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

        for query in queries:

        ress = self.g.run(query).data()

        在圖數(shù)據(jù)庫中,圖1中心部分表示的是哈密地級市的縣和市,與縣和市連接的是縣和市中的景區(qū),縣和市中的景區(qū)外側(cè)連接的是新疆維吾爾自治區(qū)對應(yīng)的各個地區(qū),數(shù)據(jù)庫中有地區(qū)位于縣(或市)和縣(或市)下轄地區(qū)兩種關(guān)系,如哈密市位于哈密地級市,哈密地級市下轄哈密市。景區(qū)與縣(或市)同樣也有位于和下轄兩種關(guān)系,如東天山位于哈密市,哈密市下轄東天山。如果想做多種關(guān)系,也可在數(shù)據(jù)庫中進行添加。

        4 ?基于圖數(shù)據(jù)庫的自動問答設(shè)計

        本系統(tǒng)對新疆旅游知識圖譜數(shù)據(jù)庫當中的區(qū)、市、縣、景點以及位置關(guān)系進行抽象,歸納出概念間的體系結(jié)構(gòu),進行本體三元組抽取,構(gòu)建知識圖譜。構(gòu)建知識圖譜圖數(shù)據(jù)庫,對用戶所提取的問題進行命名實體識別、關(guān)系抽取,然后到圖數(shù)據(jù)庫中進行答案匹配,如圖2所示。

        4.1 ?問題解析

        自動問答系統(tǒng)的問題處理流程有:

        (1)提前對問題分類。要對用戶的問句即系統(tǒng)接收到的問題進行分類,如表1所示,提前將旅游中所有可能涉及的問題分為了九大類。

        (2)提取問題的關(guān)鍵詞。對用戶所提問題進行關(guān)鍵詞提取,即地區(qū)名稱和主要問題,如東天山和通信地址,并過濾掉重復(fù)的、無用的信息:

        #問句疑問詞

        self.telephone_number_qwsd= [‘聯(lián)系電話’,‘咨詢電話’,‘電話號碼’,‘電聯(lián)’,‘電話號’]

        Self.leve_qwds=[‘級別’, ‘啥級別’, ‘幾A級’,‘幾a級’, ‘4A級’, ‘4a級’, ‘什么級別’]

        (3)確定問題的類型。將關(guān)鍵詞與問題的分類結(jié)果進行匹配,確定問題的類型。if question_type == ‘a(chǎn)rea_have’:

        sql = [MATCH (m: ‘地區(qū)’)-[r1: ‘下轄’]->(n:‘縣市’)-[r2: ‘下轄’]->(k:‘景區(qū)’)”\

        “where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

        elif question_type == ‘telephone_number’:

        sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

        “m.telephone”.format(i) ?for i in entities]

        elif question_type == ‘AAAA_fare’:

        sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

        “m.name,m.off_season_fare,m.peak_season_fare”.format(i) ?for i in entities]

        4.2 ?答案抽取

        答案抽取作為自動問答系統(tǒng)的收尾步驟,但它卻是最關(guān)鍵的一步,針對用戶的問題類型屬性到數(shù)據(jù)庫中進行二次匹配,生成問題的答案。經(jīng)過答案抽取這一過程后,用戶所提出的問題的答案將以最簡潔易懂的形式回答,如果答案抽取過程不能將正確答案準確的抽取出來,那么將會嚴重影響整個自動問答系統(tǒng)的準確性。在新疆旅游項目中,我們以模式匹配的形式進行答案抽取。

        根據(jù)上文中問題解析的結(jié)果,我們將所確定的問題類型與圖數(shù)據(jù)庫中的數(shù)據(jù)進行匹配,如果匹配成功,將反饋的內(nèi)容生成對應(yīng)的回答:

        '''根據(jù)對應(yīng)的qustion_type,調(diào)用相應(yīng)的回復(fù)模板'''\n",

        if question_type == 'area_have':

        desc = [i['k.name'] for i in answers]

        subject = answers[0]['m.name']

        final_answer = '{0}有如下4A級景點:{1}'.format (subject, ';'.join(list(set(desc))[:]))

        5 ?程序結(jié)果驗證

        最后我們根據(jù)用戶所提問題關(guān)鍵字查找圖數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)反饋結(jié)構(gòu)生成對應(yīng)的回答,生成回答程序驗證結(jié)果如圖3所示。

        6 ?結(jié) ?論

        隨著互聯(lián)網(wǎng)數(shù)據(jù)的海量增長、硬件計算能力的飛速提高以及自然語言處理和深度學(xué)習技術(shù)的長足進步,自動問答方法的應(yīng)用也比以往任何一個歷史時期都更貼近人們的日常生活。本文設(shè)計和構(gòu)建了新疆維吾爾自治區(qū)旅游景點信息的知識圖譜,創(chuàng)建了Neo4j語料庫,針對新疆旅游業(yè)問答系統(tǒng)的不足,設(shè)計了自動問答系統(tǒng),并對自動問答系統(tǒng)中的問題解析和答案抽取方法進行了研究,最后并進行了結(jié)果驗證。將自動問答系統(tǒng)應(yīng)用于新疆旅游領(lǐng)域,可以促進新疆旅游信息的智能化管理發(fā)展,提升服務(wù)水平,這個價值是具有較大影響的。最近這幾年推薦系統(tǒng)不管是研究還是發(fā)展都愈發(fā)的得到社會的關(guān)注,知識圖譜建立的理論以及技術(shù)都愈發(fā)的完善,知識圖譜包含的語義信息可以在很大的程度上對旅游景點相關(guān)信息進行健全,提高推薦系統(tǒng)的性能。

        參考文獻:

        [1] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述 [J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.

        [2] 劉知遠,孫茂松,林衍凱,等.知識表示學(xué)習研究進展 [J].計算機研究與發(fā)展,2016,53(2):247-261.

        [3] 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述 [J].計算機研究與發(fā)展,2016,53(3):582-600.

        [4] ARTZI Y,LEE K,ZETTLEMOYER L. Broad-coverage CCG Semantic Parsing with AMR [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon:Association for Computational Linguistics,2015:1-6.

        [5] LI J H,ZHU M H,LU W,et al. Improving Semantic Parsing with Enriched Synchronous Context-Free Grammars in Statistical Machine Translation [J].ACM transactions on Asian language information processing,2017,16(1):6.1-6.24.

        作者簡介:孫晶(1978—),女,回族,新疆新源縣人,講師,碩士,主要研究方向:機器學(xué)習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;郭成艷(2002—),女,漢族,陜西延安人,本科在讀,主要研究方向:機器學(xué)習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;毛臣(1999—),男,漢族,河南南陽人,本科在讀,主要研究方向:機器學(xué)習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;胡玉葉(2001—),女,漢族,新疆哈密人,本科在讀,主要研究方向:機器學(xué)習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理。

        色哟哟av网站在线观看| 视频一区精品自拍| 又爽又黄又无遮挡网站动态图| 国产激情视频免费在线观看| av在线网站一区二区| 亚洲a级片在线观看| 性欧美大战久久久久久久久 | 一区二区三区午夜视频在线观看| 久久天天躁狠狠躁夜夜爽蜜月| 国产精品第一国产精品| 亚洲综合另类小说色区| 日韩有码在线一区二区三区合集 | 国产亚洲精品av久久| 国产白浆一区二区三区佳柔 | 国产人妖赵恩静在线视频| 亚洲自拍愉拍| 福利在线国产| 免费a级毛片无码a| 无码国产精品一区二区免费模式| 国产情侣真实露脸在线| 日本超级老熟女影音播放| 中文字幕被公侵犯的丰满人妻| 青青青伊人色综合久久亚洲综合| 韩国三级中文字幕hd久久精品| 久久久久久亚洲av无码蜜芽| av高清在线不卡直播| 蜜桃传媒免费在线观看| 女同久久精品国产99国产精| 国产乱子伦视频一区二区三区| 久久亚洲黄色| 四川丰满少妇被弄到高潮 | 国产精品三级国产精品高| 亚洲av影院一区二区三区四区| 大地资源中文第三页| 少妇人妻偷人精品视频| 三级黄片一区二区三区| 国产大片中文字幕| 亚洲色婷婷免费视频高清在线观看| 亚洲日本va午夜在线电影| 在线观看热码亚洲av每日更新| 精品国产综合区久久久久久|