亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        旅游順承事理圖譜的構(gòu)建及應(yīng)用研究

        2022-03-16 00:10:12王翊臻云紅艷李正民
        關(guān)鍵詞:模式匹配數(shù)據(jù)可視化

        王翊臻 云紅艷 李正民

        摘要:為了給用戶提供更直觀、高效、智能的旅游信息檢索方式,基于模式匹配法識(shí)別、抽取顯式順承關(guān)系,構(gòu)建旅游順承事理圖譜,設(shè)計(jì)圖譜應(yīng)用系統(tǒng)。該系統(tǒng)采用B/S架構(gòu),基于Flask框架,能夠完成基于城市、計(jì)劃時(shí)長(zhǎng)的旅游路線查詢。實(shí)驗(yàn)結(jié)果表明,順承關(guān)系抽取準(zhǔn)確率為82.84%,基于D3.js的圖譜可視化查詢能豐富用戶的旅游檢索模式。

        關(guān)鍵詞:事理圖譜;順承關(guān)系抽取;模式匹配;數(shù)據(jù)可視化

        中圖分類號(hào):TP391???????? 文獻(xiàn)標(biāo)志碼:A

        隨著人們生活水平的提高以及中國(guó)旅游業(yè)的迅猛發(fā)展,人們對(duì)旅游需求日益增加,互聯(lián)網(wǎng)上積累的旅游出行領(lǐng)域相關(guān)信息也是越來越多,如知乎上有旅游的相關(guān)問答,攜程等旅游門戶網(wǎng)站提供景點(diǎn)信息和旅游攻略等。但是此類信息來源廣泛且數(shù)據(jù)龐雜,用戶很難快速準(zhǔn)確地獲得所需信息。因此,需要針對(duì)旅游出行建立一種更加直觀、高效的信息檢索方式。語義網(wǎng)絡(luò)(Semantic Networks)于1960年提出,知識(shí)的組成形式先后經(jīng)歷了語義網(wǎng)絡(luò)、本體、萬維網(wǎng)、鏈接數(shù)據(jù)、知識(shí)圖譜等幾個(gè)階段,期間涌現(xiàn)了大量關(guān)于本體和語義技術(shù)的研究與應(yīng)用[1-2]。2012年谷歌團(tuán)隊(duì)提出知識(shí)圖譜的概念,引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。在知識(shí)圖譜的構(gòu)建方面,國(guó)內(nèi)外已經(jīng)有了包括通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜的構(gòu)建在內(nèi)的諸多研究[3-5]。通過構(gòu)建旅游領(lǐng)域知識(shí)圖譜(例如CASIA-KB的中文旅游景點(diǎn)知識(shí)圖譜)能夠?yàn)橛脩暨M(jìn)行信息檢索提供一種更加直觀、高效的方式。但知識(shí)圖譜也存在一定的局限性,知識(shí)圖譜中刻畫的是靜態(tài)的確定性事實(shí),研究的是名詞性實(shí)體、實(shí)體屬性、以及實(shí)體之間關(guān)系,缺乏對(duì)事物的邏輯演化和發(fā)展過程的刻畫能力。近些年在知識(shí)圖譜的基礎(chǔ)上,哈工大劉挺團(tuán)隊(duì)提出了事理圖譜的概念[6-7]。事理圖譜強(qiáng)調(diào)揭示事件之間的邏輯演化,研究對(duì)象主要是謂詞性事件、事件間邏輯關(guān)系,其對(duì)信息檢索結(jié)果的展示更加直觀,更能揭示事物的演化過程。本文通過分析云南省旅游游記和攻略文本,對(duì)其中的顯式順承關(guān)系及事件進(jìn)行抽取,構(gòu)建旅游順承事理圖譜,并在此基礎(chǔ)上實(shí)現(xiàn)事理圖譜可視化查詢功能,以期為用戶提供更好的旅游信息檢索體驗(yàn)。

        1 旅游順承事理圖譜構(gòu)建及應(yīng)用系統(tǒng)框架

        旅游順承事理圖譜構(gòu)建及應(yīng)用系統(tǒng)以Python作為開發(fā)語言,采用B/S架構(gòu),后端服務(wù)由Flask框架提供,前端通過Bootstrap框架構(gòu)建界面,圖譜使用D3.js(http:/d3js.org)完成可視化。如圖1所示,系統(tǒng)采用分層的設(shè)計(jì)結(jié)構(gòu),自頂向下分別是:表示層、業(yè)務(wù)邏輯層、數(shù)據(jù)處理層。

        (1) 表示層:用戶和系統(tǒng)的交互層,包括可視化查詢模塊和智能問答模塊,本文著重描述可視化查詢模塊。查詢分為兩類,分別是基于“目的城市”的查詢和基于“目的城市+計(jì)劃時(shí)長(zhǎng)”的聯(lián)合查詢。根據(jù)查詢的類別,系統(tǒng)將以不同的查詢條件去圖數(shù)據(jù)庫中檢索,最后將結(jié)果以圖譜的形式進(jìn)行可視化展示,同時(shí)輔以文字、圖片等方式對(duì)圖譜進(jìn)行補(bǔ)充說明。

        (2) 業(yè)務(wù)邏輯層:前后端交互的中間層,完成業(yè)務(wù)邏輯的處理。請(qǐng)求解析模塊負(fù)責(zé)對(duì)表示層用戶發(fā)來的post請(qǐng)求進(jìn)行處理,根據(jù)請(qǐng)求參數(shù)調(diào)用不同函數(shù),以不同的條件對(duì)數(shù)據(jù)層進(jìn)行訪問,將獲取到的數(shù)據(jù)以json格式回傳到數(shù)據(jù)封裝模塊。數(shù)據(jù)封裝模塊負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行去重等操作,并按照適合前端展示的形式精簡(jiǎn)數(shù)據(jù)結(jié)構(gòu),將其以json格式回傳給表示層。

        (3) 數(shù)據(jù)處理層:是整個(gè)系統(tǒng)的核心部分,包括數(shù)據(jù)獲取、數(shù)據(jù)解析兩部分。數(shù)據(jù)獲取部分包括數(shù)據(jù)爬取模塊、數(shù)據(jù)源的持久化存儲(chǔ),數(shù)據(jù)解析部分則包括數(shù)據(jù)預(yù)處理模塊、圖譜構(gòu)建模塊、圖譜的持久化存儲(chǔ)。數(shù)據(jù)爬取模塊負(fù)責(zé)訪問攜程網(wǎng)上云南省相關(guān)的網(wǎng)頁集合,爬取其中的游記及攻略文本信息,并作為數(shù)據(jù)源集合持久化存儲(chǔ)在MongoDB數(shù)據(jù)庫中。數(shù)據(jù)預(yù)處理模塊負(fù)責(zé)對(duì)原始文本進(jìn)行清洗、切分等預(yù)處理,去除噪音以減少抽取關(guān)鍵內(nèi)容時(shí)的困難。圖譜構(gòu)建模塊是旅游事理圖譜構(gòu)建的核心,包括如下任務(wù):首先對(duì)于預(yù)處理完畢的文本數(shù)據(jù),基于模式匹配法進(jìn)行顯式順承關(guān)系的識(shí)別與抽取,識(shí)別其中的顯式順承關(guān)系,并抽取關(guān)系子句;然后針對(duì)關(guān)系子句進(jìn)行事件抽取,得到順承事件三元組。事件三元組作為事理圖譜的基礎(chǔ)結(jié)構(gòu),被持久存儲(chǔ)到Neo4j圖數(shù)據(jù)庫中。

        系統(tǒng)各層遵循“高內(nèi)聚低耦合”的原則,以提高系統(tǒng)的穩(wěn)定性和可擴(kuò)展性。此外Flask作為一個(gè)輕量型的框架,非常適用于開發(fā)web服務(wù)的API,且與NoSQL數(shù)據(jù)庫的配合優(yōu)秀。持久化存儲(chǔ)方面,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中實(shí)體與實(shí)體之間的關(guān)系通過外鍵實(shí)現(xiàn),隨著關(guān)系數(shù)量的增加,查詢效率會(huì)大打折扣,因此采用NoSQL[8]類型的MongoDB數(shù)據(jù)庫、Neo4j圖數(shù)據(jù)庫來分別存儲(chǔ)數(shù)據(jù)源集合和圖譜。

        2 旅游順承事理圖譜的構(gòu)建

        2.1 數(shù)據(jù)源及獲取

        (1) 數(shù)據(jù)源:數(shù)據(jù)來源為攜程網(wǎng)(https://you.ctrip.com/)。攜程網(wǎng)的旅游攻略及游記版塊中,包含諸多旅評(píng)人士、資深游客、本地向?qū)У耐扑]玩法及路線,以及普通游客的旅行隨筆。主要爬取云南省相關(guān)的旅游攻略及游記文本作為分析和實(shí)驗(yàn)的源數(shù)據(jù)。

        (2) 數(shù)據(jù)爬?。翰捎肧crapy爬蟲框架爬取數(shù)據(jù)。首先設(shè)定爬取的內(nèi)容Item為網(wǎng)頁地址(url)、文章標(biāo)題(title)、正文內(nèi)容(content);接著Spider向引擎發(fā)送請(qǐng)求,轉(zhuǎn)經(jīng)調(diào)度器向互聯(lián)網(wǎng)發(fā)送請(qǐng)求,抓取數(shù)據(jù);然后采用Xpath語句著重處理<div class=“ctd_content”>標(biāo)簽;最后將獲取的數(shù)據(jù)交給管道,按爬取順序存儲(chǔ)在MongoDB數(shù)據(jù)庫中。爬取的同時(shí)清洗其中空行、亂碼及無效值等。最終共爬取云南省旅游攻略及游記文本32 580篇,篩選其中熱門實(shí)用排名度最高、內(nèi)容邏輯清晰的500篇文章作為實(shí)驗(yàn)文本。

        2.2 數(shù)據(jù)預(yù)處理

        由于爬取到的原始文本行文結(jié)構(gòu)不夠清晰,還需進(jìn)行更細(xì)致的文本預(yù)處理操作。

        (1) 文檔切分:將原始文本切分成多個(gè)“段”,每段對(duì)應(yīng)一個(gè)完整的行程安排??傮w分兩步:①按日程標(biāo)志詞,先切分成以“天”為單位的文本塊;②再按行程標(biāo)志詞,將每“天”細(xì)化切分為以“行程”為單位的“段”。針對(duì)文本存在的標(biāo)志詞不統(tǒng)一問題,即不同文本中標(biāo)志詞的類型、英文大小寫、數(shù)字不同,進(jìn)行格式化操作:對(duì)諸如“DAY1”、“Day1”、“DAY01”、“第一天”、“第1天”等日程標(biāo)志詞,統(tǒng)一格式化為“DAY1”形式;對(duì)諸如“1.”、“1、”、“一、”、“第一站”等行程標(biāo)志詞,統(tǒng)一格式化為“1.”。

        (2) 句子切分:對(duì)(1)中得到的每段“行程”再次進(jìn)行切分,得到單獨(dú)的句子,以“句”作為目前最小粒度單位。對(duì)每段“行程”文本,按“\\n\\r” 等換行符以及“”等結(jié)束標(biāo)點(diǎn)進(jìn)行切分,得到多個(gè)單句,至此文本切分完畢。

        (3) 短句處理及數(shù)據(jù)增強(qiáng):首先處理短句,對(duì)過短的句子(小于5個(gè)漢字字符,或小于12個(gè)英文字符),將其和前一句進(jìn)行合并,避免過短導(dǎo)致意義不明。其次增強(qiáng)數(shù)據(jù),將相鄰的2句話合并到一起,作為1條新的文本數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)集中。同理再對(duì)相鄰的3句話進(jìn)行同樣的操作,從而達(dá)到擴(kuò)充數(shù)據(jù)多樣性的目的。

        2.3 基于模式匹配的顯式順承關(guān)系識(shí)別與抽取

        順承關(guān)系是指兩個(gè)事件在時(shí)間上相繼發(fā)生的偏序關(guān)系[7],包含順承關(guān)系的文本中,各分句表示連續(xù)發(fā)生的事情或動(dòng)作,分句有先后順序。根據(jù)文中是否包含明顯的順承關(guān)系聯(lián)接詞,可以將順承關(guān)系分為顯式和隱式。顯式順承關(guān)系,意味著文本中包含明顯的順承關(guān)系聯(lián)接詞,是文本中較為容易識(shí)別和抽取的一類順承關(guān)系;隱式順承關(guān)系,則是指文本中沒有用以表征順承關(guān)系的聯(lián)接詞,但是暗含在語義中的一類順承關(guān)系。

        順承關(guān)系抽取目前常用的方法包括:基于模式匹配的方法和基于深度學(xué)習(xí)的方法?;谀J狡ヅ浞ǖ捻槼嘘P(guān)系抽取,需要設(shè)計(jì)具有領(lǐng)域適用性的模板和抽取匹配規(guī)則,這種方法抽取準(zhǔn)確率高,但跨域適應(yīng)性差,常用于特定領(lǐng)域的顯式順承關(guān)系的抽取;基于深度學(xué)習(xí)的順承關(guān)系抽取,是將抽取任務(wù)看作事件檢測(cè)和關(guān)系分類兩個(gè)子任務(wù),利用深度神經(jīng)網(wǎng)絡(luò)(如BERT[9])強(qiáng)大的表征學(xué)習(xí)能力,將文本中隱含的事件間關(guān)系識(shí)別并抽取出來。基于深度學(xué)習(xí)的方式使得抽取方法的適應(yīng)性和工作效率都有了很大程度的提高,是近年來隱式關(guān)系抽取的一種主流選擇[10]。但深度學(xué)習(xí)方法依賴于強(qiáng)有力的標(biāo)注數(shù)據(jù)集,在現(xiàn)有語料庫數(shù)據(jù)不足、標(biāo)注不完備的情況下,很難構(gòu)造出一個(gè)沒有先驗(yàn)知識(shí)的高級(jí)深度學(xué)習(xí)模型。因此,本文主要聚焦于旅游領(lǐng)域文本中的顯式順承關(guān)系,基于模式匹配法對(duì)其進(jìn)行識(shí)別與抽取。

        2.3.1 研究思路 旅游領(lǐng)域顯式順承關(guān)系的抽取主要包括順承關(guān)系子句的抽取和子句中事件的抽取[12]。首先根據(jù)句法模式和匹配規(guī)則抽取顯式順承關(guān)系句中的順承前子句和順承后子句,然后將順承前、后子句中的事件分別按“動(dòng)賓結(jié)構(gòu)”這一事件定義抽取出來,最終形成順承事件三元組<事件a,順承,事件b>。顯式順承關(guān)系的抽取框架如圖2所示。

        2.3.2 顯式順承關(guān)系子句抽取 模式匹配法是通過定義在文本中表達(dá)的字符、語法或者語義模式,將模式與文本的匹配作為主要手段,來實(shí)現(xiàn)關(guān)系實(shí)例的抽取[11]。順承關(guān)聯(lián)詞(或順承提示詞,Cue Phrase)則是文本中用來表征順承關(guān)系的關(guān)聯(lián)詞,顯式順承關(guān)系的抽取直接依賴于是否存在順承關(guān)聯(lián)詞。順承關(guān)聯(lián)詞在句中用法的不同,使得句法模式更多樣,句法模式的總結(jié)也是據(jù)此來完成。

        經(jīng)過漢語語言學(xué)者們的整理和研究,目前常作于研究和討論的順承關(guān)聯(lián)詞有15個(gè)[12]:“首先”“先”“然后”“接著”“后來”“從此”“于是”“從而”“最后”“終于”“就”“便”“才”“再”“又”。其用法見表1,其中Si指句子。本文在此基礎(chǔ)上歸納了適用于旅游領(lǐng)域順承關(guān)系抽取的4類順承提示詞,每類提示詞及其對(duì)應(yīng)的順承句法模式見表2,其中Pi表示第i種句法模式。

        為了更加方便和準(zhǔn)確地識(shí)別出順承關(guān)系句,抽取出句中的順承前和順承后子句,設(shè)計(jì)了與上述4種句法模式相對(duì)應(yīng)的抽取匹配規(guī)則:

        (1)規(guī)則1:if wi∈cue1 and wj∈cue2, then Si∈P1,

        before p1={wi+1,…,wj-1} and afterp1={wj+1,…,wn}

        (2)規(guī)則2:if wi∈cue2 and cue1si, then Si∈P2,

        beforep2={w1,…,wi-1} and afterp2={wi+1,…,wn}

        (3)規(guī)則3:if wi∈cue3 and cue1si, then Si∈P3,

        beforep3={w1,…, wi-1} and afterp3={wi+1,…, wn}

        (4)規(guī)則4:if wi∈cue4 and wi-1∈mark∪subject and cue1si, then Si∈P4 ,

        beforep4={w1,…, wi-2} and afterp4={wi+1,…, wn}

        其中,Si表示預(yù)處理后的文本語料集中第i個(gè)句子,wi表示句中第i個(gè)詞,{wm,…,wn}表示句子中從第m個(gè)詞到第n個(gè)詞之間的文本內(nèi)容(包括第m和n個(gè)詞),mark表示句子中的逗號(hào),subject表示句子中的主語,before表示順承前子句,after表示順承后子句。

        2.3.3 顯式順承事件抽取 事理圖譜中的事件,理論上是具有一定抽象程度的泛化事件,表示為抽象、語義完備的謂詞短語或句子[7]。但游記文本內(nèi)容形式多樣,包含作者大量的心理活動(dòng)和情感抒發(fā),且大量句子省略主語,若以標(biāo)準(zhǔn)的“主謂賓”形式進(jìn)行事件抽取,容易造成事件成分缺失,影響抽取效果。因此將旅游順承事理圖譜中的事件定義為“去麗江”這種“謂語觸發(fā)詞+賓語”的形式,亦即動(dòng)賓短語。2.3.2節(jié)抽取到的順承前、后子句此時(shí)仍保持著句子的形態(tài),為了便于順承事理圖譜的構(gòu)造,需要將子句中包含的事件分別抽取出來,組成事件三元組。具體包括兩個(gè)任務(wù)。

        ①分詞:分詞對(duì)于非結(jié)構(gòu)化文本的處理、語義分析等十分重要,是NLP必備的上游任務(wù)之一。本文采用pkuseg(http://github.com/lancopku/pkvseg-phthon)作為分詞工具。pkuseg是北京大學(xué)語言計(jì)算與機(jī)器學(xué)習(xí)研究組研制推出的一套中文分詞工具包,對(duì)于特定領(lǐng)域的個(gè)性化分詞,如醫(yī)藥、旅游、小說等領(lǐng)域,可以提供比jieba(http://github.com/fxsjy/jieba)(結(jié)巴分詞)、THULAC(http://thulac.thun/p.org)(清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室)更高的分詞準(zhǔn)確率。

        ②依存句法分析:依存句法分析是通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。依存句法分析通過識(shí)別分詞后的句子中各詞的詞性,將各詞之間的句法關(guān)系通過依存結(jié)構(gòu)展示出來[13]。采用哈工大研發(fā)的語言技術(shù)平臺(tái)LTP(http://ltp.ai/)來完成依存句法分析相關(guān)操作。

        例如,“第一站先去了納帕海依拉草原,在依拉草原上還能看到遠(yuǎn)處的石卡雪山——石卡雪山是香格里拉附近可以攀登的雪山”是通過模式匹配得到的符合模式P1的顯式順承關(guān)系句;對(duì)其進(jìn)行關(guān)系子句抽取后得到如下的兩個(gè)子句“{ 去 了 納帕海依拉草原 ,在 依拉草原 上 } ——P1——> { 能 看到 遠(yuǎn)處 的 石卡雪山——石卡雪山 是 香格里拉 附近 可以 攀登 的 雪山 }”;對(duì)兩個(gè)子句分別進(jìn)行分詞、依存句法分析(順承后子句的依存句法分析結(jié)果如圖3所示),得到前后子句中包含的VOB(動(dòng)賓關(guān)系)短語如下:前子句{去納帕海依拉草原}、后子句{看到石卡雪山,雪山是};進(jìn)一步做詞性篩選,判斷“謂語觸發(fā)詞+賓語”的詞性是否符合“v+n”(動(dòng)詞+名詞)的關(guān)系,排除“雪山是”,取符合的事件“去納帕海依拉草原”“看到石卡雪山”分別作為前后子句的事件抽取結(jié)果。最終得到順承事件三元組<去納帕海依拉草原,順承,看到石卡雪山>。

        2.3.4 抽取實(shí)驗(yàn)效果與分析 針對(duì)500篇云南省旅游攻略及游記實(shí)驗(yàn)文本,進(jìn)行分詞、分句等預(yù)處理后,得到句子48 739句。根據(jù)2.3.2節(jié)所述的句法模式和抽取規(guī)則,逐句判斷是否含有順承提示詞,對(duì)顯式順承關(guān)系句進(jìn)行關(guān)系子句的抽取以及子句中事件抽取。抽取效果見表3。

        其中匹配句子數(shù)是指與4種模式P1、P2、P3、P4分別相匹配的句子數(shù)目,有效匹配句子數(shù)是指該模式匹配得到的句子中能夠表征順承關(guān)系的句子個(gè)數(shù),有效事件對(duì)數(shù)是指有效匹配的句子經(jīng)過事件抽取后能夠明確表征順承關(guān)系(即符合事件定義及篩選條件)的事件對(duì)的數(shù)目,準(zhǔn)確率=有效事件對(duì)數(shù)/匹配句子數(shù)。實(shí)驗(yàn)結(jié)果表明,本文采用的模式匹配法在云南省旅游攻略及游記文本的順承關(guān)系抽取中平均準(zhǔn)確率為82.84%,效果良好。

        2.4 圖譜的持久化存儲(chǔ)

        經(jīng)過顯式順承關(guān)系識(shí)別與抽取后,得到順承事件三元組<順承事件a,順承,順承事件b>。利用Py2Neo,將三元組存入Neo4j數(shù)據(jù)庫中:①通過網(wǎng)絡(luò)套接字連接到Neo4j數(shù)據(jù)庫;②解析三元組,將三元組中的順承事件a/b、順承關(guān)系數(shù)據(jù)轉(zhuǎn)換成Node及Relationship對(duì)象;③通過create( )函數(shù)將節(jié)點(diǎn)、關(guān)系對(duì)象導(dǎo)入Neo4j中。事件對(duì)兩兩結(jié)合構(gòu)成事件鏈,事件鏈交錯(cuò)相接構(gòu)成整個(gè)圖譜。

        3 基于事理圖譜的可視化查詢功能

        基于構(gòu)建的旅游順承事理圖譜,設(shè)計(jì)實(shí)現(xiàn)可視化查詢模塊,為用戶提供兩種查詢方式,分別是基于“目的城市”的查詢和基于“目的城市+計(jì)劃時(shí)長(zhǎng)”的聯(lián)合查詢,并對(duì)查詢結(jié)果進(jìn)行可視化展示。

        可視化查詢功能的整體流程如圖4所示。用戶在瀏覽器端通過下拉列表選擇確定的城市(必選)、計(jì)劃時(shí)長(zhǎng)(可選),點(diǎn)擊搜索;業(yè)務(wù)邏輯層獲取用戶的請(qǐng)求,經(jīng)由請(qǐng)求解析模塊、數(shù)據(jù)封裝模塊的處理,將從Neo4j數(shù)據(jù)庫查詢得到的結(jié)果以json格式返回給前端;前端利用D3.js,將結(jié)果以圖的形式渲染到界面,直觀展示給用戶,并輔以文字形式的行程推薦及時(shí)間安排對(duì)圖譜進(jìn)行補(bǔ)充描述。

        本文采用D3.js中的力導(dǎo)向圖作為可視化手段。D3.js(或稱D3,指Data-Driven Document,數(shù)據(jù)驅(qū)動(dòng)文檔)是一個(gè)JavaScript庫,本身是一個(gè)DOM操作庫,能夠以操作DOM樹的方式向用戶直觀地展示數(shù)據(jù)信息。D3基于SVG(Scalable Vector Graphics,可縮放矢量圖形)進(jìn)行繪制,提供了大量的圖形生成器,使繪制圖形變得簡(jiǎn)單,圖形縮放時(shí)不會(huì)損失精度。

        基于D3.js的圖譜可視化主要是將查詢結(jié)果中的事件、關(guān)系按照?qǐng)D的形式進(jìn)行繪制和渲染。

        ①創(chuàng)建SVG矢量圖形,作為圖譜可視化結(jié)果的容器;

        ②利用Ajax異步獲取業(yè)務(wù)邏輯層返回的json格式數(shù)據(jù),通過d3.json( )方法將其讀取到內(nèi)存中,節(jié)點(diǎn)屬性包括[id, label, name],邊屬性包括[id, source, target, name];

        ③通過選擇器(selector)選定SVG,設(shè)置節(jié)點(diǎn)的顯示形式為圓(circle)、邊的顯示形式為箭頭(arrow),同時(shí)動(dòng)態(tài)設(shè)置節(jié)點(diǎn)的大小、邊的長(zhǎng)短、箭頭方向。通過tick( )函數(shù)依次計(jì)算所有節(jié)點(diǎn)、邊的位置坐標(biāo),通過mouseenter( )函數(shù)綁定光標(biāo)移入后的高亮及虛化效果;

        ④將繪制結(jié)果渲染到SVG上,并導(dǎo)入div容器中。

        圖5展示的是選擇“麗江”作為“目的城市”、選擇“5~8天”作為“計(jì)劃時(shí)長(zhǎng)”進(jìn)行查詢得到的結(jié)果。圖中左側(cè)為圖譜可視化,右側(cè)為文字描述部分。圖譜以“去#麗江”事件節(jié)點(diǎn)為中心,根據(jù)箭頭走向連通多條完整事件鏈,每條事件鏈表征一個(gè)完整的行程。右側(cè)文字部分是對(duì)圖譜的詳細(xì)補(bǔ)充,給定多個(gè)時(shí)長(zhǎng)為5~8天的日程安排,供用戶參考決策。

        4 結(jié)論

        本文采用模式匹配法,利用設(shè)計(jì)的抽取匹配規(guī)則實(shí)現(xiàn)顯式順承關(guān)系的識(shí)別與抽取,抽取準(zhǔn)確率達(dá)到82.84%;同時(shí)將抽取到的順承關(guān)系、事件,以<事件a,順承,事件b>三元組的形式存入Neo4j圖數(shù)據(jù)庫中作為事理圖譜的基礎(chǔ)結(jié)構(gòu)。在構(gòu)建完成的事理圖譜基礎(chǔ)之上,設(shè)計(jì)實(shí)現(xiàn)旅游順承事理圖譜應(yīng)用系統(tǒng),基于D3.js技術(shù)為用戶提供旅游路線可視化查詢功能,幫助人們更好地梳理和檢索旅游路線,輔助用戶做出決策。

        參考文獻(xiàn)

        [1]云紅艷,賀英,郭振波,等.基于本體和Karma建模的數(shù)據(jù)集成研究與應(yīng)用[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,30(1):60-65.

        [2]于小洋,云紅艷,賀英,等.利用語義技術(shù)實(shí)現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,30(1):79-84.

        [3]蔣秉川,萬剛,許劍,等.多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜構(gòu)建[J].測(cè)繪學(xué)報(bào),2018,47(8):1051-1061.

        [4]林莉,云紅艷,賀英,等.基于企業(yè)知識(shí)圖譜構(gòu)建的可視化研究[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,32(1):55-60.

        [5]AUER S, BIZER C, KOBILAROV G, et al. DBpedia: A nucleus for a web of open data[C]//6th International Semantic Web Conference/2nd Asian Semantic Web Conference, Busan, 2007: 722-735.

        [6]劉挺.從知識(shí)圖譜到事理圖譜[R].上海:中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇,2017.

        [7]丁效.事理圖譜構(gòu)建及應(yīng)用[R].深圳:中國(guó)中文信息學(xué)會(huì),2019.

        [8]CATTELL R. Scalable SQL and NoSQL data stores[J]. ACM SIGMOD Record, 2011, 39(4):12-27.

        [9]DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[DB/OL]. [2021-04-11] https://arxiv.org/abs/1810.04805.

        [10] 王朱君,王石,李雪晴,等.基于深度學(xué)習(xí)的事件因果關(guān)系抽取綜述[J].計(jì)算機(jī)應(yīng)用,2021,41(5):1247-1255.

        [11] 祝寒. 基于事理圖譜的航空安全事故因果關(guān)系研究[D].天津:中國(guó)民航大學(xué),2019.

        [12] 周楊鈺.留學(xué)生漢語順承關(guān)聯(lián)詞的習(xí)得研究[D]. 上海:上海交通大學(xué),2013.

        [13] 李雪紅,郭暉,閆泓濤.基于改進(jìn)依存句法的微博情感分析研究[J].計(jì)算機(jī)與數(shù)字工程,2017,45(3):506-511.

        Research on Construction and Application of Tourism Sequential Eventic Graph

        WANG Yi-zhen,YUN Hong-yan,LI Zheng-min

        (College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)

        Abstract:

        In order to provide users with a more intuitive, efficient and intelligent travel information retrieval method, the explicit sequential relationships were identified and extracted by the pattern matching method. The tourism sequential Eventic Graph was constructed and the graph application system was designed. Using B/S architecture and Flask framework, the system can complete tourism route query based on city and plan-days. The experimental results show that the accuracy rate of sequential relationship extraction is 82.84%. The visual query based on D3.js can enrich users' tourism retrieval model.

        Keywords:

        Eventic Graph; sequential relationship extraction; pattern matching; data visualization

        收稿日期:2021-04-28

        基金項(xiàng)目:

        國(guó)家重點(diǎn)研發(fā)計(jì)劃 (批準(zhǔn)號(hào):2016YFB1001103)資助。

        通信作者:

        云紅艷,女,博士,教授,主要研究方向?yàn)檎Z義Web與本體工程、智能信息系統(tǒng)、大數(shù)據(jù)集成。E-mail:yunhy2001@163.com

        1180501186312

        猜你喜歡
        模式匹配數(shù)據(jù)可視化
        儲(chǔ)氫場(chǎng)景與氫氣儲(chǔ)運(yùn)系統(tǒng)的多維度模式匹配優(yōu)化研究
        基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
        電子制作(2019年13期)2020-01-14 03:15:32
        具有間隙約束的模式匹配的研究進(jìn)展
        OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問題
        移動(dòng)可視化架構(gòu)與關(guān)鍵技術(shù)綜述
        大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
        可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
        我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
        科技傳播(2016年19期)2016-12-27 14:53:29
        基于R語言的大數(shù)據(jù)審計(jì)方法研究
        數(shù)據(jù)可視化在新聞生產(chǎn)中的應(yīng)用研究
        今傳媒(2016年3期)2016-03-28 00:30:43
        蜜桃视频中文字幕一区二区三区 | 亚洲综合偷自成人网第页色| 中国杭州少妇xxxx做受| 久久精品国产熟女亚洲| 欧美高清精品一区二区| 国产肉体xxxx裸体784大胆| 国产精品无码一区二区在线观一| 国产七十六+老熟妇| 国产精品久久人妻无码| 一本一道av中文字幕无码| 精品少妇一区二区三区视频| 国产乱子伦精品免费女| 久久国产精品一区二区| 一区二区二区三区亚洲| 久久一本日韩精品中文字幕屁孩| 女人18片毛片60分钟| 亚洲av网一区二区三区| 中日韩精品视频在线观看| 欧美亚洲精品一区二区| 91情侣在线精品国产免费| 日本一级淫片免费啪啪| 全部亚洲国产一区二区| 国产精品一区二区黄色| 国产精品人妻一区二区三区四| 国产午夜福利片| 老司机在线精品视频网站| 亚洲日本va中文字幕久久| 亚洲国产高清在线视频| 中文字幕一区二区在线看| 美腿丝袜在线一区二区| 精品少妇无码av无码专区| 欧美性群另类交| 欧美亚洲另类自拍偷在线拍| 人妻少妇无乱码中文字幕| 国产影院一区二区在线| 美女视频黄是免费| 六月丁香综合在线视频| 亚洲国产高清在线观看视频| 一区二区三区午夜视频在线观看| 一区二区亚洲熟女偷拍| 国产影片一区二区三区|