孫寶生, 敖長林, 王菁霞, 趙明陽
(東北農(nóng)業(yè)大學(xué) 管理科學(xué)與工程系,黑龍江 哈爾濱 150030)
“十二五”以來,我國旅游業(yè)持續(xù)快速發(fā)展,國家旅游局發(fā)布的中國旅游業(yè)統(tǒng)計(jì)公報(bào)顯示,2018年國內(nèi)旅游人數(shù)達(dá)到55.39億人次,約占全球國內(nèi)旅游人次(108.2億)的一半,比去年同期增長10.8%。作為旅游業(yè)發(fā)展最快的旅游形式之一[1],生態(tài)旅游因其具有親近自然、保護(hù)環(huán)境的優(yōu)勢(shì)逐漸成為人們外出旅游的重要選擇[2]。雖然生態(tài)旅游比大眾旅游更注重對(duì)當(dāng)?shù)刈匀缓臀幕谋Wo(hù),但是生態(tài)旅游的快速發(fā)展不可避免的會(huì)給旅游目的地(如自然保護(hù)區(qū))的可持續(xù)發(fā)展帶來嚴(yán)峻的挑戰(zhàn)[3]。如何保證生態(tài)旅游目的地的可持續(xù)發(fā)展成為亟待解決的現(xiàn)實(shí)問題,引起了學(xué)者、旅游地管理者和政策制定者的高度關(guān)注[4],一個(gè)重要的應(yīng)對(duì)措施是對(duì)生態(tài)旅游地的游客滿意度進(jìn)行評(píng)價(jià)研究[5,6]。游客滿意度作為旅游目的地發(fā)展情況的重要標(biāo)準(zhǔn)之一,是衡量旅游地經(jīng)濟(jì)與社會(huì)效益的綜合性指標(biāo),對(duì)游客滿意度進(jìn)行評(píng)價(jià)有助于合理配置旅游資源、改善旅游服務(wù)質(zhì)量以及滿足游客旅游需求等[7]。因此,評(píng)價(jià)生態(tài)旅游目的地的游客滿意度對(duì)旅游地健康可持續(xù)發(fā)展、管理決策以及政策制定具有重要意義。
游客滿意度評(píng)價(jià)研究通常采用傳統(tǒng)的定性、定量或混合方法(如問卷調(diào)查和焦點(diǎn)小組)確定滿意度的維度,并通過Likert測(cè)量量表獲取樣本數(shù)據(jù)[8]。然而,這些傳統(tǒng)方法往往成本高,樣本有限,而且來自幾個(gè)封閉問題的有限信息并不能為更復(fù)雜的分析提供豐富的數(shù)據(jù)[6]。隨著Web 2.0技術(shù)的快速發(fā)展,用戶生成內(nèi)容(user-generated content, UGC)顯著增加,作為UGC數(shù)據(jù)的重要組成部分,在線旅游評(píng)論已經(jīng)被廣泛應(yīng)用于旅游相關(guān)行業(yè),例如旅游目的地和酒店業(yè)[9]。在線旅游評(píng)論具有易獲取、范圍廣、成本低、客觀等特性,是對(duì)傳統(tǒng)調(diào)研數(shù)據(jù)有益拓展。與數(shù)值型問卷數(shù)據(jù)相比,在線旅游評(píng)論屬于文本型數(shù)據(jù),具有大數(shù)據(jù)的特點(diǎn),包含了大量有價(jià)值的信息,超出了傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)方法(如回歸模型)的分析能力[8]。伴隨著大數(shù)據(jù)和自然語言處理技術(shù)的不斷發(fā)展,主題模型、語義關(guān)聯(lián)分析和情感分析等文本挖掘方法逐漸被應(yīng)用于分析在線旅游評(píng)論,以發(fā)現(xiàn)隱藏于數(shù)據(jù)背后的有用信息[9]。
目前,國內(nèi)外學(xué)者對(duì)游客滿意度的評(píng)價(jià)研究已取得較為豐碩的理論與實(shí)踐成果,但基于在線旅游評(píng)論和網(wǎng)絡(luò)文本挖掘技術(shù)的研究成果尚存在以下不足:一是研究對(duì)象主要集中于酒店,關(guān)于旅游目的地的研究較少,特別是關(guān)于生態(tài)旅游地的研究較為罕見;二是采用情感分析方法計(jì)算游客情感值時(shí),通常使用現(xiàn)有的公共情感詞庫,而沒有構(gòu)建適合于旅游領(lǐng)域的情感詞庫,忽視了旅游活動(dòng)的特點(diǎn)。針對(duì)現(xiàn)有不足,本研究的主要貢獻(xiàn)為:首先,基于LDA模型建立生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系;其次,基于20800條在線旅游評(píng)論和BosonNLP詞典,構(gòu)建旅游情感詞庫;在此基礎(chǔ)上,建立情感分析方法與游客滿意度評(píng)價(jià)模型;最后,以開展生態(tài)旅游的扎龍國家級(jí)自然保護(hù)區(qū)為研究案例地,一方面對(duì)現(xiàn)有案例地進(jìn)行拓展,另一方面為扎龍生態(tài)旅游的可持續(xù)發(fā)展提供建議和參考,同時(shí)對(duì)其它生態(tài)旅游地的健康發(fā)展具有一定的借鑒意義。
為科學(xué)評(píng)價(jià)生態(tài)旅游滿意度,本文提出了一種基于在線旅游評(píng)論數(shù)據(jù)和網(wǎng)絡(luò)文本挖掘技術(shù)的分析框架,如圖1所示。首先,使用Python網(wǎng)絡(luò)爬蟲采集在線旅游評(píng)論數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括中文分詞、詞性標(biāo)注等。其次,使用LDA模型進(jìn)行主題識(shí)別,并從所有提取的主題中選擇關(guān)鍵主題作為游客滿意度評(píng)價(jià)指標(biāo)。再次,建立情感分析方法,包括旅游情感詞庫構(gòu)建、語義邏輯規(guī)則建立、規(guī)則短句提取以及規(guī)則短句情感值計(jì)算。一方面,通過構(gòu)建的情感分析方法量化在線旅游評(píng)論數(shù)據(jù)以獲得游客情感;另一方面,基于情感分析結(jié)果計(jì)算各評(píng)價(jià)指標(biāo)的比例權(quán)重,并使用層次分析法(AHP)進(jìn)行權(quán)重修正進(jìn)而得到最終權(quán)重。在此基礎(chǔ)上,結(jié)合各評(píng)價(jià)指標(biāo)和指標(biāo)權(quán)重,構(gòu)建生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系(包括目標(biāo)層、準(zhǔn)則層和評(píng)價(jià)因子層)。最后,建立游客滿意度評(píng)價(jià)(TSE)模型對(duì)生態(tài)旅游游客滿意度進(jìn)行定量評(píng)價(jià),分析影響游客滿意度的優(yōu)勢(shì)與劣勢(shì)因素,并提出發(fā)展策略。
圖1 分析框架
有關(guān)研究表明[8],潛在Dirichlet分布(LDA)模型作為一種主題概率模型,能夠從大量非結(jié)構(gòu)化文本數(shù)據(jù)中有效發(fā)現(xiàn)潛在維度。因此,本文采用LDA模型進(jìn)行影響游客滿意度潛在維度的提取。LDA模型是由Blei等[10]在2003年提出的一種文檔主題生成模型,屬于無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),其包含文檔、主題和詞三層結(jié)構(gòu),因此也被稱作三層貝葉斯概率模型。假設(shè)語料庫D包含K個(gè)主題和M篇文檔,D={W1,W2,W3,…,WM}表示語料庫D中M篇文檔的集合,文檔W=(w1,w2,…,wN)表示由N個(gè)詞組成的序列,wn表示序列中第n個(gè)詞,則LDA模型生成文檔的過程如下所示:
1) 選擇N~Poisson(ξ);
2) 選擇θ~Dirichlet(α);
3) 對(duì)于每個(gè)詞wn:
i)選擇主題zn~Multinomial(θ);
ii)從多項(xiàng)式概率p(wn|zn,β)中選擇詞wn。
步驟1)中,Poisson(ξ)為泊松分布,表示文檔長度N服從泊松分布。步驟2)中,α為Dirichlet分布參數(shù);θ表示k維的Dirichlet隨機(jī)變量,具有以下概率密度:
(1)
公式(1)中,Γ(·)為Gamma函數(shù)。步驟3)中,β為Dirichlet分布參數(shù);由公式(1)和多項(xiàng)式概率p(wn|zn,β)可得到變量θ、主題Z和文檔W的聯(lián)合分布為:
(2)
(3)
最后,將單個(gè)文檔的邊際分布相乘,可得到語料庫D的概率分布:
p(wdn|zdn,β))dθd
(4)
LDA模型的主題數(shù)K、Dirichlet分布參數(shù)α和η為待定參數(shù),本文采用困惑度[10](Perplexity)指標(biāo)確定最優(yōu)主題數(shù)K;采用通用參數(shù)設(shè)置[11]確定α和β,即α=50/K,η=0.01;同時(shí),采用Gibbs采樣算法進(jìn)行模型求解[12]。困惑度計(jì)算公式為:
(5)
相比于通過傳統(tǒng)問卷調(diào)查方法收集的便于量化的Likert量表數(shù)據(jù),在線旅游評(píng)論屬于文本型數(shù)據(jù),量化分析較為困難。隨著自然語言處理(NLP)技術(shù)的發(fā)展,運(yùn)用情感分析方法量化在線旅游評(píng)論,進(jìn)而評(píng)估游客情感已成為旅游研究中一種新的嘗試。情感分析,也稱為觀點(diǎn)挖掘,其目標(biāo)是從文本型數(shù)據(jù)中挖掘或分析出觀點(diǎn)所表達(dá)的正面或負(fù)面情感及情感強(qiáng)度[13],包括基于機(jī)器學(xué)習(xí)算法和基于情感詞典等分析方法。有關(guān)研究表明,機(jī)器學(xué)習(xí)方法無法依據(jù)旅游活動(dòng)的特征進(jìn)行針對(duì)性地解釋,因而并不適用于旅游現(xiàn)象的解析[14],而基于情感詞典的方法具有良好的泛化能力[11]。因此,本文采用基于情感詞典的情感分析方法探究生態(tài)旅游目的地的游客情感,遵循“旅游情感詞庫構(gòu)建—語義邏輯規(guī)則建立與規(guī)則短句提取—規(guī)則短句情感值計(jì)算”的設(shè)計(jì)思路建立情感分析方法。
1.3.1 旅游情感詞庫構(gòu)建
情感詞庫是文本情感分析的基礎(chǔ),主要包括情感詞典,修飾詞典和否定詞典。當(dāng)前研究采用的中文情感詞典主要為知網(wǎng)HowNet詞典[15]、大連理工大學(xué)詞典[11]等,而本研究使用的是BosonNLP詞典。與其它情感詞典相比,BosonNLP詞典[16]是基于微博、新聞、論壇等上百萬篇情感標(biāo)注數(shù)據(jù)構(gòu)建而成,包含114766個(gè)詞匯,并且涵蓋了較多網(wǎng)絡(luò)用語,適合用于分析在線評(píng)論數(shù)據(jù),但是與HowNet詞典一樣[17],BosonNLP詞典同樣忽視了旅游活動(dòng)的特點(diǎn)。因此,本文在BosonNLP詞典的基礎(chǔ)上構(gòu)建了更適用于分析在線旅游評(píng)論的旅游情感詞庫,具體步驟如下:
步驟1旅游情感詞庫數(shù)據(jù)采集
為構(gòu)建一個(gè)泛化能力較強(qiáng)、適合分析包括生態(tài)旅游在內(nèi)的多種旅游類型的旅游情感詞庫,依據(jù)國家旅游局發(fā)布的《旅游景區(qū)質(zhì)量等級(jí)的劃分與評(píng)定》政策中旅游景區(qū)的分類,選取位于東北三省(黑龍江省、吉林省、遼寧省)的風(fēng)景區(qū)、文博院館、寺廟觀堂、旅游度假區(qū)、自然保護(hù)區(qū)、主題公園、森林公園、地質(zhì)公園、動(dòng)物園、植物園等10種類型的旅游景區(qū)作為數(shù)據(jù)采集點(diǎn),同時(shí)選擇國內(nèi)最大、知名度最高的旅游網(wǎng)站-攜程網(wǎng)作為數(shù)據(jù)來源網(wǎng)站[18],利用Python語言編程共采集20800條有效評(píng)論,約106萬字,具體如表1所示。
表1 旅游情感詞庫數(shù)據(jù)說明
步驟2基于TextRank算法的關(guān)鍵詞提取
由于旅游情感詞庫數(shù)據(jù)包含20800條在線旅游評(píng)論,超過100萬字,數(shù)據(jù)規(guī)模較大且噪聲數(shù)據(jù)過多,因此本文采用TextRank算法進(jìn)行關(guān)鍵詞提取以降低數(shù)據(jù)維度、提高數(shù)據(jù)質(zhì)量,共獲得11256個(gè)關(guān)鍵詞。
TextRank算法是一種基于圖的詞排序算法[19],常用于文本挖掘領(lǐng)域,其公式為:
(6)
其中,vi表示評(píng)論中第i個(gè)單詞對(duì)應(yīng)的圖中節(jié)點(diǎn),d表示阻尼系數(shù)(Damping Factor),其通常設(shè)置為0.85,H(vi)表示vi的得分,In(vi)表示vi的入鏈集合,Our(vj)表示vj的出鏈集合,|Our(vj)|表示vj的出鏈數(shù)量。
步驟3情感詞篩選與旅游情感詞庫構(gòu)建
采用現(xiàn)有研究通常使用的人工標(biāo)注的方法[9],對(duì)基于TextRank算法從20800條在線旅游評(píng)論中提取的11256個(gè)關(guān)鍵詞進(jìn)行情感詞篩選,共獲得402個(gè)可用于表達(dá)游客情感的詞匯,通過對(duì)比BosonNLP詞典,新增232個(gè)(正面情感詞121個(gè),負(fù)面情感詞111個(gè))詞匯。在此基礎(chǔ)上,刪除BosonNLP詞典中包含的程度副詞與否定詞,共刪除47個(gè)程度副詞、8個(gè)否定詞,剩余114711個(gè)詞匯,然后將兩部分詞典合并構(gòu)建旅游情感詞典,共包含114943個(gè)(正面情感詞83177個(gè),負(fù)面情感詞31766個(gè))情感詞匯。在修飾詞典與否定詞典構(gòu)建方面,修飾詞典由51個(gè)程度副詞構(gòu)成,分為情感增強(qiáng)詞和情感減弱詞,情感增強(qiáng)詞包含21個(gè)“最”級(jí)別程度副詞以及19個(gè)“較”級(jí)別程度副詞,情感減弱詞包含11個(gè)“稍”級(jí)別程度副詞;否定詞典則由21個(gè)含有否定意義的詞構(gòu)成。旅游情感詞庫部分示例如表2所示。
表2 旅游情感詞庫(部分示例)
1.3.2 語義邏輯規(guī)則構(gòu)建與規(guī)則短句提取
研究表明,情感詞主要是形容詞,但部分名詞或動(dòng)詞也可以表達(dá)情感信息[13],因此基于先驗(yàn)知識(shí)和詞性標(biāo)簽構(gòu)建可能包含觀點(diǎn)情感的語義邏輯規(guī)則,如表3所示,并使用正則表達(dá)式提取已詞性標(biāo)注的在線旅游評(píng)論中符合規(guī)則的短句。正則表達(dá)式是計(jì)算機(jī)科學(xué)領(lǐng)域的一種常用方法,通常用于檢索、匹配和提取符合模式或規(guī)則(如語義邏輯規(guī)則)的文本[13]。
表3 語義邏輯規(guī)則
1.3.3 規(guī)則短句情感值計(jì)算
在參考相關(guān)文獻(xiàn)[17]的基礎(chǔ)上,對(duì)提取的規(guī)則短句進(jìn)行情感值計(jì)算,即將正面和負(fù)面情感詞分別賦值為1和-1,同時(shí)將“最”級(jí)別、“較”級(jí)別和“稍”級(jí)別程度副詞的系數(shù)分別設(shè)置為2、1.5和0.5倍。此外,若規(guī)則短句中否定詞的數(shù)量為奇數(shù),則該規(guī)則短句的整體情感值取反;否則,整體情感值保持不變。
在基于情感分析方法量化在線旅游評(píng)論數(shù)據(jù)獲得游客情感的基礎(chǔ)上,為進(jìn)一步得到通過LDA模型提取的游客滿意度評(píng)價(jià)指標(biāo)的滿意度值,本研究依據(jù)游客滿意度評(píng)價(jià)指標(biāo)體系第3層(評(píng)價(jià)因子層)各評(píng)價(jià)因子的特征將已賦值的規(guī)則短句(即情感短句)進(jìn)行分類,并基于線性加權(quán)原理構(gòu)建游客滿意度評(píng)價(jià)(Tourist Satisfaction Evaluation,TSE)模型,即:
(7)
其中,TStotal表示游客總體滿意度,WBi表示評(píng)價(jià)指標(biāo)體系第2層(準(zhǔn)則層)的準(zhǔn)則Bi的權(quán)重,SBi表示準(zhǔn)則Bi的滿意度,WCij表示準(zhǔn)則Bi中評(píng)價(jià)因子Cij的權(quán)重,SCij表示評(píng)價(jià)因子Cij的滿意度,NCij表示屬于評(píng)價(jià)因子Cij的情感短句的數(shù)量,Xijk表示第k個(gè)屬于評(píng)價(jià)因子Cij的情感短句的情感值,r表示準(zhǔn)則層包含準(zhǔn)則的數(shù)量,m表示評(píng)價(jià)因子層包含評(píng)價(jià)因子的數(shù)量。
本文以扎龍國家級(jí)自然保護(hù)區(qū)為案例地進(jìn)行實(shí)證研究,扎龍是中國最大、世界聞名的濕地生態(tài)系統(tǒng)類型的自然保護(hù)區(qū)[20],位于齊齊哈爾市東南部,1992年被列入中國首批“世界重要濕地名錄”。作為國家4A級(jí)生態(tài)旅游景區(qū),扎龍生態(tài)環(huán)境良好,丹頂鶴等鶴類資源豐富,素有“鶴的故鄉(xiāng)”之稱。2017年,扎龍生態(tài)旅游景區(qū)被評(píng)為國家濕地旅游示范基地。然而,隨著游客數(shù)量的不斷增加、游客需求的日益增長以及游客偏好的不斷變化,扎龍仍面臨著生態(tài)旅游可持續(xù)發(fā)展的挑戰(zhàn)[21]。因此,選擇扎龍自然保護(hù)區(qū)作為實(shí)證研究區(qū)域具有一定的代表性和典型性。
現(xiàn)有文獻(xiàn)主要從單一網(wǎng)站采集研究數(shù)據(jù)[18],為了獲得更加全面的數(shù)據(jù),本文的研究數(shù)據(jù)來自國內(nèi)兩種類型網(wǎng)站:團(tuán)購類和旅游類網(wǎng)站,并根據(jù)以下兩個(gè)原則選擇符合要求的網(wǎng)站作為數(shù)據(jù)來源:1)每一類型中百度搜索指數(shù)排名前十;2)評(píng)論數(shù)量大于100條。根據(jù)以上原則,最終選取了兩個(gè)團(tuán)購類網(wǎng)站以及六個(gè)旅游類網(wǎng)站,并利用Python語言編程采集帶時(shí)間屬性的在線旅游評(píng)論,共計(jì)4847條。為保證數(shù)據(jù)質(zhì)量,首先利用文本去重、刪除缺失值等方法,進(jìn)行數(shù)據(jù)清洗;然后,選取近五年(2014年1月1日~2019年5月10日)的評(píng)論數(shù)據(jù)作為研究數(shù)據(jù),共選取有效數(shù)據(jù)3550條,24萬余字,具體如表4所示。
表4 研究數(shù)據(jù)說明
所有有效的研究數(shù)據(jù)均采用以下三種方法進(jìn)行預(yù)處理:中文分詞、詞性標(biāo)注(POST)和去停用詞。在中文分詞與POST方面,本文采用的是Jieba中文分詞工具,其在準(zhǔn)確率、效率和未登錄詞識(shí)別等方面具有良好效果[9],例如評(píng)論“風(fēng)景非常好,空氣質(zhì)量很棒,放飛丹頂鶴真的是非常壯觀”,Jieba中文分詞與詞性標(biāo)注結(jié)果為“風(fēng)景/n非常/d好/a,/x空氣質(zhì)量/n很棒/a,/x放飛/v丹頂鶴/nr真的/d是/v非常/d壯觀/a”。其中,POST集采用北大POST集作為標(biāo)準(zhǔn)規(guī)范。在去停用詞方面,利用哈爾濱工業(yè)大學(xué)中文停用詞表對(duì)在線旅游評(píng)論數(shù)據(jù)中出現(xiàn)的諸如“了”、“的”、“在”、“和”等停用詞匯進(jìn)行過濾[9]。
2.2.1 生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系
依據(jù)困惑度公式計(jì)算LDA模型主題數(shù)為1到100的困惑度,得到困惑度-主題數(shù)曲線如圖2所示。由圖2可得,隨著主題數(shù)量的增加,困惑度逐漸減小且下降速度變慢,當(dāng)主題數(shù)量大于50時(shí),困惑度趨于平穩(wěn),繼續(xù)增加主題數(shù)量所獲得的收益小于增加主題數(shù)量的投入[22],因此確定LDA模型的最優(yōu)主題數(shù)為50,即K=50。同時(shí),設(shè)置Dirichlet分布參數(shù)α=50/50=1,β=0.01,Gibbs采樣迭代次數(shù)為1000次。
圖2 困惑度-主題數(shù)曲線
通過應(yīng)用LDA模型提取了50個(gè)主題,對(duì)提取的主題進(jìn)行分析發(fā)現(xiàn)部分主題并沒有實(shí)際意義,部分主題與生態(tài)旅游無關(guān)。因此,需要對(duì)主題進(jìn)行篩選并命名。首先由一名研究人員進(jìn)行主題篩選與命名,然后由另外兩名研究人員進(jìn)行確認(rèn),三名研究人員均熟悉生態(tài)旅游。其中,在主題命名方面,采用的是常用的主題命名方法[8,11],即識(shí)別每個(gè)主題所包含的概率值較大的詞的含義以及詞與詞之間的邏輯關(guān)系。通過上述處理過程,最終識(shí)別并命名了11個(gè)與ZNNR生態(tài)旅游相關(guān)且有意義的主題,如表5所示,受篇幅所限,各主題均選取概率值排名前5的詞表示。
表5 LDA模型的主題命名結(jié)果
在此基礎(chǔ)上,將選取的11個(gè)主題作為生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系第3層(評(píng)價(jià)因子層)的11個(gè)評(píng)價(jià)因子;通過對(duì)評(píng)價(jià)因子進(jìn)一步分析,將11個(gè)評(píng)價(jià)因子劃分為3個(gè)類別,即生態(tài)旅游體驗(yàn)、自然資源和文化資源,作為評(píng)價(jià)指標(biāo)體系第2層(準(zhǔn)則層)的3個(gè)準(zhǔn)則;游客總體滿意度則作為評(píng)價(jià)指標(biāo)體系第1層(目標(biāo)層)的唯一目標(biāo)。
在運(yùn)籌學(xué)和管理學(xué)上,層次分析法(AHP)是一種成熟、科學(xué)、系統(tǒng)、有效的權(quán)重確定方法[23],因此本文采用AHP確定評(píng)價(jià)指標(biāo)權(quán)重,即先計(jì)算各評(píng)價(jià)指標(biāo)的比例權(quán)重,然后使用AHP方法進(jìn)行權(quán)重修正,最終獲得通過一致性檢驗(yàn)的修正權(quán)重和層次總排序權(quán)重。具體而言,在計(jì)算比例權(quán)重方面,首先采用正則表達(dá)式提取已詞性標(biāo)注的在線旅游評(píng)論中符合語義邏輯規(guī)則的規(guī)則短句,共計(jì)9944句,如表6所示;其次,依據(jù)規(guī)則短句的情感值計(jì)算方法對(duì)提取的規(guī)則短句賦值,共獲得6804句情感短句,與BosonNLP相比,所構(gòu)建的旅游情感詞庫比BosonNLP多計(jì)算出239句情感短句,說明本文所構(gòu)建的旅游情感詞庫更加有效;在此基礎(chǔ)上,根據(jù)11個(gè)評(píng)價(jià)因子的特征(即11個(gè)主題及其主題詞)采用正則表達(dá)式將6804句情感短句進(jìn)行分類;同時(shí),為確保分類結(jié)果的準(zhǔn)確性,將四名研究人員分成兩組分別進(jìn)行驗(yàn)證并對(duì)驗(yàn)證結(jié)果進(jìn)行一一對(duì)比分析,若兩組驗(yàn)證結(jié)果不一致,則與專家進(jìn)行討論并確定最終分類結(jié)果,具體分類情況如表7所示;最后,依據(jù)情感短句的分類情況計(jì)算各評(píng)價(jià)指標(biāo)的比例權(quán)重。
表6 語法邏輯規(guī)則的情感短句數(shù)量
表7 評(píng)價(jià)因子的情感短句數(shù)量
在計(jì)算修正權(quán)重和層次總排序權(quán)重方面,首先基于比例權(quán)重和Saaty 1~9級(jí)標(biāo)度法[24]構(gòu)造判斷矩陣A、B1、B2和B3,并使用一致性指標(biāo)CI、同階平均隨機(jī)一致性指標(biāo)RI和隨機(jī)一致性比率CR對(duì)判斷矩陣進(jìn)行一致性檢驗(yàn),結(jié)果如表8所示。
表8 一致性檢驗(yàn)結(jié)果
然后,分析各判斷矩陣和層次總排序的CR值發(fā)現(xiàn),均小于0.1,說明判斷矩陣通過一致性檢驗(yàn)[24],具有滿意的一致性。在此基礎(chǔ)上,得到了各評(píng)價(jià)指標(biāo)的修正權(quán)重和層次總排序權(quán)重。最終,本文構(gòu)建了包括1項(xiàng)目標(biāo)、3項(xiàng)準(zhǔn)則和11項(xiàng)評(píng)價(jià)因子的3層生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系,如表9所示。
表9 游客滿意度評(píng)價(jià)指標(biāo)體系
依據(jù)構(gòu)建的生態(tài)旅游游客滿意度評(píng)價(jià)指標(biāo)體系與評(píng)價(jià)模型計(jì)算各評(píng)價(jià)指標(biāo)的滿意度以及總體滿意度,評(píng)價(jià)結(jié)果如圖3所示。生態(tài)旅游游客滿意度的最大區(qū)間為[-2,2],參考Likert 5級(jí)量表的賦值規(guī)則,本文將“-2”、“-1”、“0”、“1”、“2”依次命名為“非常不滿意”、“比較不滿意”、“一般滿意”、“比較滿意”、“非常滿意”。通過分析可以得出,游客總體滿意度為0.614,處于“一般滿意”與“比較滿意”水平之間,為基本滿意水平,表明景區(qū)仍有較大的提升空間。準(zhǔn)則層中,3個(gè)準(zhǔn)則按照滿意度高低依次為人文資源(1.519)、自然資源(1.160)和旅游體驗(yàn)(0.416)。人文資源與自然資源的滿意度均達(dá)到比較滿意水平且遠(yuǎn)高于總體滿意度,而旅游體驗(yàn)的滿意度最低且低于總體滿意度,僅處于一般滿意水平,亟需改善。評(píng)價(jià)因子層中,知名度、自然環(huán)境與空氣質(zhì)量的滿意度較高,而景區(qū)消費(fèi)、景區(qū)交通與觀鶴時(shí)間的滿意度較低。例如評(píng)論“景點(diǎn)門票太貴”、“交通不太方便”以及“就是放鶴時(shí)間太短了”等都是游客的真實(shí)反映。因此,景區(qū)管理者應(yīng)在保持現(xiàn)有人文資源與自然資源的基礎(chǔ)上,正確把握游客偏好并采取合適的管理策略以促進(jìn)生態(tài)旅游滿意度的提升。
圖3 游客滿意度評(píng)價(jià)結(jié)果
本文以扎龍國家級(jí)自然保護(hù)區(qū)為例,基于在線旅游評(píng)論數(shù)據(jù)和網(wǎng)絡(luò)文本挖掘技術(shù),構(gòu)建游客滿意度評(píng)價(jià)指標(biāo)體系和評(píng)價(jià)模型,定量評(píng)價(jià)游客的生態(tài)旅游滿意度。研究結(jié)果表明:游客生態(tài)旅游總體滿意度為0.614,達(dá)到基本滿意水平,仍存在較大提升空間。特別的,通過實(shí)證研究驗(yàn)證了本文所提出的基于在線旅游評(píng)論數(shù)據(jù)和網(wǎng)絡(luò)文本挖掘技術(shù)的分析框架具有一定的可行性與有效性。此外,扎龍景區(qū)可通過加強(qiáng)交通設(shè)施建設(shè)、合理安排觀鶴時(shí)間、有效控制消費(fèi)水平、融合自然資源與人文資源、開展特色生態(tài)旅游等途徑提升游客生態(tài)旅游體驗(yàn)滿意度,進(jìn)而促進(jìn)景區(qū)健康與可持續(xù)發(fā)展。
在線旅游評(píng)論為游客滿意度評(píng)價(jià)的研究提供了新的數(shù)據(jù)來源。相較于傳統(tǒng)問卷和訪談數(shù)據(jù),在線評(píng)論具有易獲取、范圍廣、成本低和客觀性等特點(diǎn),可有效避免因問卷質(zhì)量、研究人員主觀因素和受訪人員理解偏差等引起的數(shù)據(jù)偏差問題[25]。但研究仍存在一些不足,首先在線評(píng)論覆蓋的用戶大部分是受過教育的、年輕的、可接觸到網(wǎng)絡(luò)的人群[17],可能會(huì)產(chǎn)生樣本偏差。其次,本文僅分別收集了約5000條和20000條在線旅游評(píng)論數(shù)據(jù),研究結(jié)果可能與真實(shí)情況存在一定差異,未來研究可從更多網(wǎng)站獲取數(shù)據(jù)來進(jìn)一步驗(yàn)證與拓展本文的研究結(jié)果。最后,旅游相關(guān)網(wǎng)站可能存在虛假評(píng)論的現(xiàn)象,由于攜程網(wǎng)、大眾點(diǎn)評(píng)網(wǎng)等網(wǎng)站已經(jīng)制定了相關(guān)規(guī)則且采取了一定措施以有效避免虛假評(píng)論,同時(shí)考慮到虛假評(píng)論檢測(cè)的困難性[13],因此本文并未對(duì)在線旅游評(píng)論的真實(shí)性進(jìn)行進(jìn)一步的檢測(cè),未來研究可以考慮通過檢測(cè)虛假評(píng)論以提升數(shù)據(jù)質(zhì)量。