吳清壽,張祎航,羅遠(yuǎn)華
(武夷學(xué)院數(shù)學(xué)與計算機學(xué)院,武夷山354300)
在線旅游網(wǎng)站上的游客評論能夠較好地反映旅游目的地的“吃住行娛購游”等旅游六要素的真實情況。對游客在線評論進(jìn)行采集和可視化分析,可以給旅游行業(yè)管理部門,旅游企業(yè)和其他游客提供有益的參考。
基于評論數(shù)據(jù)的挖掘分析研究中,郭麗環(huán)等人[1]等以廈門地區(qū)酒店的在線評論數(shù)據(jù)為研究對象,分析了游客在酒店選擇上的情感傾向。鮑珊珊等人[2]以國內(nèi)主題公園為研究對象,通過分析游客在線評論,對主題公園的發(fā)展提出了參考意見。王雨文等人[3]等采集了游客對湄洲島景區(qū)的評論內(nèi)容,從多個維度對相關(guān)要素進(jìn)行了滿意度分析。通過詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行各個領(lǐng)域相關(guān)熱點的研究也逐漸成為了一種趨勢,如胡丹妮等人[4]基于詞共現(xiàn)網(wǎng)絡(luò)對國內(nèi)教育教育的專業(yè)建設(shè)現(xiàn)狀進(jìn)行了分析研究,趙麗梅等人[5]等分析了智慧圖書館中的四個主要研究熱點。
本文以針對武夷山景區(qū)的在線評論數(shù)據(jù)為研究內(nèi)容,利用相關(guān)技術(shù)從評論數(shù)據(jù)中抽取關(guān)鍵詞,之后,利用詞云和詞共現(xiàn)網(wǎng)絡(luò)對高頻關(guān)鍵詞進(jìn)行可視化分析。
本研究以攜程網(wǎng)上游客對武夷山景區(qū)的在線評論數(shù)據(jù)為研究對象,采集內(nèi)容包括評論內(nèi)容、旅游目的地名稱和評論時間三個要素,本文主要對指定時間段內(nèi)的評論文本進(jìn)行分析。
數(shù)據(jù)采集步驟如下:
(1)從瀏覽器中獲取User-Agent,將爬蟲腳本模擬成真實的瀏覽器請求;
(2)用Python中的requests庫模擬瀏覽器請求旅游目的地頁面的URL;
(3)用lxml庫對網(wǎng)站返回的信息進(jìn)行解析,并提取所需數(shù)據(jù);
(4)把獲取的評論數(shù)據(jù)內(nèi)容寫入文件進(jìn)行保存。
評論文本需要經(jīng)過系列處理,最后得到每條評論的關(guān)鍵詞。其主要流程包括:中文分詞、停用詞處理、加入自定義詞庫和關(guān)鍵詞抽取等步驟。
游客評論數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),首先需要對其進(jìn)行分詞處理。本文采用jieba分詞工具包進(jìn)行分詞。jieba工具包包含多種分詞模式,如精確模式、全模式和搜索引擎模式等。其中,精確模式下,每個字符只會出現(xiàn)在一個詞語中,有利于后續(xù)的詞頻統(tǒng)計和數(shù)據(jù)分析。
分詞后的數(shù)據(jù)中仍包含一些無助于語義分析的詞語,如“的”、“呢”、“了”等,所以對詞庫進(jìn)行停用詞刪除操作。停用詞庫采用文獻(xiàn)[6]中的詞庫,其包括中文停用詞表、哈工大停用詞表、百度停用詞表和四川大學(xué)機器智能實驗室停用詞庫。
jieba庫對于陌生的詞組不能準(zhǔn)確地識別為一個詞,如:“印象大紅袍演出真好看!”,默認(rèn)情況下,分詞結(jié)果為“印象/大紅袍/演出/真/好看!”。這個問題對游客評論數(shù)據(jù)分析有較大的影響。因為武夷山有大紅袍景區(qū)和印象大紅袍劇場,上述的分詞結(jié)果可能會分析為游客對大紅袍景區(qū)的印象為好看,這與游客評論的初衷相悖。
為解決這個問題,本研究采用了人工標(biāo)注的方法,即對于一些表示評論主體的詞匯,如果jieba無法正確識別,就通過人工標(biāo)注的方法,將完整的詞匯加入到自定義詞庫,并逐步將自定義詞庫加入到j(luò)ieba庫中。通過自定義詞庫,能夠有效地識別出游客評論信息中的主體對象。如將“印象大紅袍”作為一個自定義詞,則最終的分詞結(jié)果為“印象大紅袍/演出/真/好看!”
由上述步驟得到的詞語中仍存在較多的冗余詞匯,需要用TextRank算法進(jìn)一步抽取關(guān)鍵詞,其主要步驟如下:
(1)首先進(jìn)行評論文本預(yù)處理?;谧远x詞庫和停用詞庫,將文本劃分為預(yù)處理詞庫;
(2)將預(yù)處理詞庫中的Word添加到圖(Graph)中,作為圖中的一個節(jié)點;
(3)對處于同一窗口范圍內(nèi)的Word之間建立一條連邊;
(4)用PageRank算法計算圖中節(jié)點的pr值;
(5)選取topk個pr值最大的節(jié)點所對應(yīng)的Word作為關(guān)鍵詞。
其中,PageRank算法[7]計算網(wǎng)絡(luò)中節(jié)點的pr值,pri表示節(jié)點vi在的影響力值,其第t輪迭代的值定義如式(1):
在無向圖中,Γi表示vi的鄰居節(jié)點集合,N為網(wǎng)絡(luò)中節(jié)點數(shù)量,參數(shù)α設(shè)為0.85。
本次采集游客評論數(shù)據(jù)30000條,經(jīng)分詞處理后和自定義詞庫處理后,最后得到詞頻最高的關(guān)鍵詞600個,其中,詞頻最高的20個詞如表1所示。
表1 詞頻最大的20個詞語
可以看出,游客對于武夷山旅游中印象最深刻的景點就是“竹筏”、“天游峰”、“九曲溪”等主流景點。游客對武夷山旅游的情感也基本是正面的,如“值得”、“震撼”和“喜歡”。
為了更加直觀的觀測游客評論喜好,本部分選擇詞頻最大的30個和100個詞語進(jìn)行可視化,可視化工具選擇WordCloud??梢暬Y(jié)果如圖1所示。圖1(a)中的結(jié)果與表1較為接近,顯示“竹筏”和指代“竹筏”的“漂流”是游客關(guān)注的熱點。圖1(b)中展示了更多的信息,如“大王峰”、“水簾洞”和“虎嘯巖”等更小眾的景點也出現(xiàn)在游客的高頻次評論中。同時,可以看到“表演”、“舞臺”、“旋轉(zhuǎn)”等詞語,這些基本都是對印象大紅袍劇場的評價。
圖1 高頻詞的詞云圖
通過構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),可以更好地展示游客對評價主體的總體認(rèn)知。把一個關(guān)鍵詞(如“九曲溪”)當(dāng)做詞共現(xiàn)網(wǎng)絡(luò)中的一個結(jié)點,以句子為計算單位,構(gòu)建詞共現(xiàn)關(guān)系。詞與詞的共現(xiàn)詞數(shù)是作為兩個節(jié)點的權(quán)重,權(quán)重越大,節(jié)點的語義相關(guān)性越強。此處選擇共現(xiàn)權(quán)重為50和300的關(guān)鍵詞構(gòu)建共現(xiàn)網(wǎng)絡(luò),得到結(jié)果如圖2所示。
圖2 詞共現(xiàn)網(wǎng)絡(luò)
圖2中,權(quán)重越小,則滿足條件的連邊越多,節(jié)點間的聯(lián)系越緊密。通過擴(kuò)大權(quán)重,稀疏化節(jié)點的連邊關(guān)系,可以更好地觀測游客評論中共同出現(xiàn)的詞匯情況。如圖2(b)中所示,提到武夷山,更多出現(xiàn)的是武夷山的相關(guān)景點,如“大紅袍”、“玉女峰”等。另外,反映武夷山地理特征的“丹霞地貌”在大量出現(xiàn)在有關(guān)武夷山景區(qū)的相關(guān)評論中。
本文介紹了游客評論數(shù)據(jù)的采集、分析和可視化的主要技術(shù)和流程,并對數(shù)據(jù)可視化結(jié)果進(jìn)行了分析。基于詞云的可視化能夠更好地揭示游客的評論重點及對旅游目的地的情感傾向,而基于詞共現(xiàn)網(wǎng)絡(luò)的可視化能夠在更多細(xì)節(jié)上反映出游客對具體旅游要素的觀感。
在下一步的研究中,將繼續(xù)完善自定義詞庫,以提高中文分詞中的主體識別準(zhǔn)確率。本文的詞共現(xiàn)網(wǎng)絡(luò)分析的主體還不夠精細(xì),要進(jìn)一步完善算法,以期能實現(xiàn)對單一主體的挖掘分析。