亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        武夷山景區(qū)游客在線評論的可視化分析

        2021-05-28 12:37:54吳清壽張祎航羅遠(yuǎn)華
        現(xiàn)代計算機 2021年10期
        關(guān)鍵詞:可視化

        吳清壽,張祎航,羅遠(yuǎn)華

        (武夷學(xué)院數(shù)學(xué)與計算機學(xué)院,武夷山354300)

        0 引言

        在線旅游網(wǎng)站上的游客評論能夠較好地反映旅游目的地的“吃住行娛購游”等旅游六要素的真實情況。對游客在線評論進(jìn)行采集和可視化分析,可以給旅游行業(yè)管理部門,旅游企業(yè)和其他游客提供有益的參考。

        基于評論數(shù)據(jù)的挖掘分析研究中,郭麗環(huán)等人[1]等以廈門地區(qū)酒店的在線評論數(shù)據(jù)為研究對象,分析了游客在酒店選擇上的情感傾向。鮑珊珊等人[2]以國內(nèi)主題公園為研究對象,通過分析游客在線評論,對主題公園的發(fā)展提出了參考意見。王雨文等人[3]等采集了游客對湄洲島景區(qū)的評論內(nèi)容,從多個維度對相關(guān)要素進(jìn)行了滿意度分析。通過詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行各個領(lǐng)域相關(guān)熱點的研究也逐漸成為了一種趨勢,如胡丹妮等人[4]基于詞共現(xiàn)網(wǎng)絡(luò)對國內(nèi)教育教育的專業(yè)建設(shè)現(xiàn)狀進(jìn)行了分析研究,趙麗梅等人[5]等分析了智慧圖書館中的四個主要研究熱點。

        本文以針對武夷山景區(qū)的在線評論數(shù)據(jù)為研究內(nèi)容,利用相關(guān)技術(shù)從評論數(shù)據(jù)中抽取關(guān)鍵詞,之后,利用詞云和詞共現(xiàn)網(wǎng)絡(luò)對高頻關(guān)鍵詞進(jìn)行可視化分析。

        1 數(shù)據(jù)采集

        本研究以攜程網(wǎng)上游客對武夷山景區(qū)的在線評論數(shù)據(jù)為研究對象,采集內(nèi)容包括評論內(nèi)容、旅游目的地名稱和評論時間三個要素,本文主要對指定時間段內(nèi)的評論文本進(jìn)行分析。

        數(shù)據(jù)采集步驟如下:

        (1)從瀏覽器中獲取User-Agent,將爬蟲腳本模擬成真實的瀏覽器請求;

        (2)用Python中的requests庫模擬瀏覽器請求旅游目的地頁面的URL;

        (3)用lxml庫對網(wǎng)站返回的信息進(jìn)行解析,并提取所需數(shù)據(jù);

        (4)把獲取的評論數(shù)據(jù)內(nèi)容寫入文件進(jìn)行保存。

        2 評論數(shù)據(jù)分析技術(shù)

        評論文本需要經(jīng)過系列處理,最后得到每條評論的關(guān)鍵詞。其主要流程包括:中文分詞、停用詞處理、加入自定義詞庫和關(guān)鍵詞抽取等步驟。

        2.1 分詞與停用詞處理

        游客評論數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),首先需要對其進(jìn)行分詞處理。本文采用jieba分詞工具包進(jìn)行分詞。jieba工具包包含多種分詞模式,如精確模式、全模式和搜索引擎模式等。其中,精確模式下,每個字符只會出現(xiàn)在一個詞語中,有利于后續(xù)的詞頻統(tǒng)計和數(shù)據(jù)分析。

        分詞后的數(shù)據(jù)中仍包含一些無助于語義分析的詞語,如“的”、“呢”、“了”等,所以對詞庫進(jìn)行停用詞刪除操作。停用詞庫采用文獻(xiàn)[6]中的詞庫,其包括中文停用詞表、哈工大停用詞表、百度停用詞表和四川大學(xué)機器智能實驗室停用詞庫。

        2.2 自定義詞庫

        jieba庫對于陌生的詞組不能準(zhǔn)確地識別為一個詞,如:“印象大紅袍演出真好看!”,默認(rèn)情況下,分詞結(jié)果為“印象/大紅袍/演出/真/好看!”。這個問題對游客評論數(shù)據(jù)分析有較大的影響。因為武夷山有大紅袍景區(qū)和印象大紅袍劇場,上述的分詞結(jié)果可能會分析為游客對大紅袍景區(qū)的印象為好看,這與游客評論的初衷相悖。

        為解決這個問題,本研究采用了人工標(biāo)注的方法,即對于一些表示評論主體的詞匯,如果jieba無法正確識別,就通過人工標(biāo)注的方法,將完整的詞匯加入到自定義詞庫,并逐步將自定義詞庫加入到j(luò)ieba庫中。通過自定義詞庫,能夠有效地識別出游客評論信息中的主體對象。如將“印象大紅袍”作為一個自定義詞,則最終的分詞結(jié)果為“印象大紅袍/演出/真/好看!”

        2.3 基于TextRank的關(guān)鍵詞抽取

        由上述步驟得到的詞語中仍存在較多的冗余詞匯,需要用TextRank算法進(jìn)一步抽取關(guān)鍵詞,其主要步驟如下:

        (1)首先進(jìn)行評論文本預(yù)處理?;谧远x詞庫和停用詞庫,將文本劃分為預(yù)處理詞庫;

        (2)將預(yù)處理詞庫中的Word添加到圖(Graph)中,作為圖中的一個節(jié)點;

        (3)對處于同一窗口范圍內(nèi)的Word之間建立一條連邊;

        (4)用PageRank算法計算圖中節(jié)點的pr值;

        (5)選取topk個pr值最大的節(jié)點所對應(yīng)的Word作為關(guān)鍵詞。

        其中,PageRank算法[7]計算網(wǎng)絡(luò)中節(jié)點的pr值,pri表示節(jié)點vi在的影響力值,其第t輪迭代的值定義如式(1):

        在無向圖中,Γi表示vi的鄰居節(jié)點集合,N為網(wǎng)絡(luò)中節(jié)點數(shù)量,參數(shù)α設(shè)為0.85。

        3 數(shù)據(jù)分析與可視化

        3.1 高頻詞分析

        本次采集游客評論數(shù)據(jù)30000條,經(jīng)分詞處理后和自定義詞庫處理后,最后得到詞頻最高的關(guān)鍵詞600個,其中,詞頻最高的20個詞如表1所示。

        表1 詞頻最大的20個詞語

        可以看出,游客對于武夷山旅游中印象最深刻的景點就是“竹筏”、“天游峰”、“九曲溪”等主流景點。游客對武夷山旅游的情感也基本是正面的,如“值得”、“震撼”和“喜歡”。

        3.2 基于詞云的高頻詞分析

        為了更加直觀的觀測游客評論喜好,本部分選擇詞頻最大的30個和100個詞語進(jìn)行可視化,可視化工具選擇WordCloud??梢暬Y(jié)果如圖1所示。圖1(a)中的結(jié)果與表1較為接近,顯示“竹筏”和指代“竹筏”的“漂流”是游客關(guān)注的熱點。圖1(b)中展示了更多的信息,如“大王峰”、“水簾洞”和“虎嘯巖”等更小眾的景點也出現(xiàn)在游客的高頻次評論中。同時,可以看到“表演”、“舞臺”、“旋轉(zhuǎn)”等詞語,這些基本都是對印象大紅袍劇場的評價。

        圖1 高頻詞的詞云圖

        3.3 詞共現(xiàn)網(wǎng)絡(luò)

        通過構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),可以更好地展示游客對評價主體的總體認(rèn)知。把一個關(guān)鍵詞(如“九曲溪”)當(dāng)做詞共現(xiàn)網(wǎng)絡(luò)中的一個結(jié)點,以句子為計算單位,構(gòu)建詞共現(xiàn)關(guān)系。詞與詞的共現(xiàn)詞數(shù)是作為兩個節(jié)點的權(quán)重,權(quán)重越大,節(jié)點的語義相關(guān)性越強。此處選擇共現(xiàn)權(quán)重為50和300的關(guān)鍵詞構(gòu)建共現(xiàn)網(wǎng)絡(luò),得到結(jié)果如圖2所示。

        圖2 詞共現(xiàn)網(wǎng)絡(luò)

        圖2中,權(quán)重越小,則滿足條件的連邊越多,節(jié)點間的聯(lián)系越緊密。通過擴(kuò)大權(quán)重,稀疏化節(jié)點的連邊關(guān)系,可以更好地觀測游客評論中共同出現(xiàn)的詞匯情況。如圖2(b)中所示,提到武夷山,更多出現(xiàn)的是武夷山的相關(guān)景點,如“大紅袍”、“玉女峰”等。另外,反映武夷山地理特征的“丹霞地貌”在大量出現(xiàn)在有關(guān)武夷山景區(qū)的相關(guān)評論中。

        4 結(jié)語

        本文介紹了游客評論數(shù)據(jù)的采集、分析和可視化的主要技術(shù)和流程,并對數(shù)據(jù)可視化結(jié)果進(jìn)行了分析。基于詞云的可視化能夠更好地揭示游客的評論重點及對旅游目的地的情感傾向,而基于詞共現(xiàn)網(wǎng)絡(luò)的可視化能夠在更多細(xì)節(jié)上反映出游客對具體旅游要素的觀感。

        在下一步的研究中,將繼續(xù)完善自定義詞庫,以提高中文分詞中的主體識別準(zhǔn)確率。本文的詞共現(xiàn)網(wǎng)絡(luò)分析的主體還不夠精細(xì),要進(jìn)一步完善算法,以期能實現(xiàn)對單一主體的挖掘分析。

        猜你喜歡
        可視化
        無錫市“三項舉措”探索執(zhí)法可視化新路徑
        基于CiteSpace的足三里穴研究可視化分析
        自然資源可視化決策系統(tǒng)
        北京測繪(2022年6期)2022-08-01 09:19:06
        三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統(tǒng)
        北京測繪(2021年7期)2021-07-28 07:01:18
        基于CGAL和OpenGL的海底地形三維可視化
        可視化閱讀:新媒體語境下信息可視化新趨勢
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        中文字幕人妻在线少妇完整版| 日韩成人大屁股内射喷水| 人人妻人人玩人人澡人人爽| 亚洲综合五月天欧美| 久久网站在线免费观看| 真实夫妻露脸爱视频九色网| 亚洲日韩一区精品射精| 国产目拍亚洲精品一区二区| 人妻少妇精品视中文字幕国语| 国产午夜福利小视频在线观看| 成人欧美一区二区三区在线| 97se亚洲国产综合自在线| 久热香蕉av在线爽青青| 黄色大片国产精品久久| 亚洲av日韩av激情亚洲| 又粗又硬又黄又爽的免费视频| 国产精品99精品一区二区三区∴| 中文字幕人妻乱码在线| 少妇无码太爽了在线播放| 欧美亚洲日本国产综合在线| 国产欧美曰韩一区二区三区 | 亚洲天堂av在线免费观看| 久久狠狠爱亚洲综合影院| 永久免费观看的毛片手机视频| 国产精品亚洲A∨无码遮挡| 亚洲中文字幕人成乱码在线| 色狠狠色噜噜av天堂一区| 91精品一区国产高清在线gif| 97久久综合区小说区图片区| 精品人妻一区二区三区视频| 一本色道无码道dvd在线观看| 特黄aa级毛片免费视频播放| 91九色国产在线观看| 日韩人妻不卡一区二区三区| 亚洲男人的天堂在线播放 | 久久中文字幕人妻淑女| 97久久精品亚洲中文字幕无码 | 日本一区人妻蜜桃臀中文字幕| 妺妺窝人体色www婷婷| 精品无码专区久久久水蜜桃| 国产香蕉尹人在线视频你懂的|