夏春陽 宋明順 黃佳
摘 要:在數(shù)字網絡時代,質量管理的意義已經擴展至不僅僅是滿足產品和服務的基本要求,而是更加注重提供超出顧客預期的、令人驚喜的體驗和價值。通過分析在線評論,企業(yè)可以了解顧客的需求和反饋,及時發(fā)現(xiàn)問題,并改進服務,從而提高服務質量,增強顧客滿意度和忠誠度。本文以迪士尼旅游風景區(qū)顧客在線評論為例進行了實證研究,構建了游客體驗質量特征詞庫,結合詞庫構建評論的上下文矩陣提取出詞語向量并進行可視化展示。為探索設立旅游服務質量獎提供參考依據(jù)。
關鍵詞:在線評論,服務質量,旅游業(yè),詞向量
DOI編碼:10.3969/j.issn.1674-5698.2023.06.010
0 引 言
《中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》中有115處提到“質量”,并明確提出“質量強國”的建設目標[1]。同時國家發(fā)展改革委和市場監(jiān)管總局聯(lián)合印發(fā)的《關于新時代服務業(yè)高質量發(fā)展的指導意見》也提出提高服務質量是我國從服務業(yè)大國向服務業(yè)強國邁進的關鍵一步[2]。就旅游而言,一方面,旅游服務業(yè)是中國服務業(yè)的重要組成部分,旅游服務質量的提高將極大地推動服務業(yè)質量的提高。另一方面,服務是旅游業(yè)的本質屬性,服務水平的高低決定旅游業(yè)發(fā)展水平的高低,提高旅游服務質量是建設質量強國的重要組成部分。
文化和旅游部印發(fā)的《文化和旅游部關于加強旅游服務質量監(jiān)管 提升旅游服務質量的指導意見》中“在線旅游”共出現(xiàn)9次[3]。隨著互聯(lián)網的蓬勃發(fā)展,越來越多的旅游消費者通過在線旅游代理商(OTA,Online Travel Agency)在線預定相關旅游服務。大量消費者購物后會在互聯(lián)網上發(fā)表評論,因此網絡上存在著大量關于顧客購物體驗的記錄,這些評論統(tǒng)稱為在線評論[4]。這其中,年輕人成為旅游消費的主力軍[5],在新一代年輕人的帶領下,旅游信息分享行為貫穿整個旅游活動中。與其他行業(yè)相比,旅游企業(yè)尤為重視旅游消費者發(fā)布的關于旅游產品的評論信息,通過收集和分析顧客在各個社交媒體平臺和在線旅游網站上的評論和反饋,旅游企業(yè)可以了解顧客的需求和期望,并及時作出調整和改進來提高顧客體驗質量。
然而,隨著評論數(shù)量的增加,分析這些評論變得越來越困難[6],因此需要一種有效的分析方法。近年來,基于機器學習的文本分析方法逐漸成為研究領域的熱點[7]。其中,基于詞向量的方法由于其有效性和高效性而備受關注?;谠~向量的方法將文本數(shù)據(jù)轉換為數(shù)字向量表示形式,使得計算機可以對其進行分析。通過使用共現(xiàn)矩陣、詞袋模型和主題模型等方法,可以將文本轉換為向量表示形式,從而利用機器學習算法來對文本進行分類、聚類和情感分析等[8]。在旅游業(yè)中,基于詞向量的方法已被用于分析在線評論,以評估旅游產品和服務的質量。這些研究使用基于詞向量的方法來提取評論中的主題、情感和特征,以揭示顧客對旅游產品和服務的看法和評價?;诖?,本文利用游客在線評論,通過提取質量特征詞庫,構建詞向量對游客體驗質量進行分析。
1 游客體驗質量挖掘方法
本研究基于在線評論的游客體驗質量挖掘方法的框架圖如圖1所示。在建立游客質量體驗特征詞庫的基礎上,提取每條評論中的質量特征詞構建詞項-上下文矩陣從而得到詞向量,最后將以詞向量為原始數(shù)據(jù)直觀地投射到三維視圖中進行可視化展示。具體分為以下幾步:(1)數(shù)據(jù)采集與預處理;(2)基于規(guī)則建立旅游質量特征詞庫;(3)結合詞向量進行質量特征詞可視化展示,分析其中顧客體驗不足之處。
1.1 建立游客質量體驗特征詞庫
本文的體驗質量特征詞庫的構建方法主要由兩部分組成:一是基于詞頻進行過濾;二是基于詞性進行自動抽取。基于詞頻的方法是指將出現(xiàn)頻率高的詞語納入到詞庫當中;而基于詞性的方法則是根據(jù)詞性類別進行篩選建立詞庫。其具體步驟如下。
(1)語料庫的搜集:本文的特證詞來源于用戶生成式文本內容,如:在線旅游網站上的游客評論,可以從網站、社交媒體、旅游博客等多個渠道進行收集,以便后續(xù)分析。
(2)數(shù)據(jù)預處理:對于搜集到的文本語料庫,需要進行數(shù)據(jù)預處理,包括刪除過長評論,去除網頁爬取下來的無效html字符和特殊字符,再進行分詞和去除停用詞。此外,還需要對詞語進行詞性標注,以便后續(xù)進行詞性篩選。本文在分詞和詞性標注的過程中,使用成熟的分詞庫和詞性標注庫,分別用到了Python的jieba分詞庫和NLTK庫的詞性標注功能。
(3)詞頻統(tǒng)計:對預處理后的文本進行詞頻統(tǒng)計,統(tǒng)計每個詞在整個語料庫中出現(xiàn)的頻率,并按照出現(xiàn)頻率從高到低排序。
(4)詞性篩選:在詞頻統(tǒng)計結果的基礎上,進行詞性篩選,根據(jù)詞性規(guī)則選擇出其中能夠代表游客體驗質量特征的詞語,如:名詞、形容詞、動詞等。
(5)詞庫構建:最后,結合人工篩選刪除品牌詞和不相關詞等詞語。本文所取研究對象為上海迪士尼度假區(qū)的游客在線評論,因此評論中經常出現(xiàn)“迪士尼”這個品牌詞,雖然出現(xiàn)次數(shù)很多,但是對于分析游客質量體驗并沒有實際意義,因此對類似品牌詞都給予刪除。除此之外,如:“新聞”“政治”等與迪士尼主題無關的詞匯,應該被刪除。
最終,將經過詞頻統(tǒng)計、詞性篩選和結合人工篩選后的詞匯整合到一起,形成游客質量體驗特征詞庫。
1.2 基于詞向量的游客體驗質量分析
基于詞頻和詞性得到的語料特征詞庫仍然沒有考慮到詞語的語義信息。因此本文進一步計算特征詞庫中的詞語詞向量(Word Vector),通過對詞語的向量表示進行計算和分析,可以更好地考慮到詞語之間的語義關系。相較于傳統(tǒng)的游客體驗質量分析方法,基于詞向量的方法不需要手動標注數(shù)據(jù),能夠處理大量的文本數(shù)據(jù),并且能夠更準確地描述游客體驗質量相關的詞匯[9]。
詞向量是將詞語轉變?yōu)橄蛄?,這種向量表示可以很好地捕捉詞匯之間的語義關系,使得相似含義的詞匯在向量空間中距離較近,而不相關的詞匯距離較遠。因此,詞向量可以用來幫助進行游客體驗質量分析,以本文的研究對象迪士尼在線評論語料庫為例,選取部分詞語的二維向量進行展示,它們在二維空間的位置如圖2所示。
可以看出,“值得”和“可玩性”這兩個詞在維度1上非常接近,說明它們在游客體驗中都有著相似的作用。例如:景點提供的活動、設施等能夠提高游客的參與感和樂趣度,讓游客覺得“值得”花時間和金錢去游玩。而“帶娃”和“遛娃”這兩個詞也在維度1上非常接近,這表明景點提供了足夠的娛樂設施和活動,使得游客可以帶著孩子來游玩,同時還能夠享受到愉悅的體驗。
然而,“浪費”這個詞在維度1和維度2上與其他4個詞距離較遠,這意味著有可能它會在游客體驗中產生消極影響,即游客可能會覺得某些方面的體驗是“浪費”時間、金錢或精力的。例如:游客可能會認為景點某些設施過于昂貴,或者景點的某些服務質量不高,讓他們覺得付出的代價不值得。
綜上所述,通過對這些詞向量的分析,我們可以了解游客在景點中的體驗質量,同時也能夠發(fā)現(xiàn)可能存在的問題,并有針對性地改進和提升。
2 研究實證
2.1 數(shù)據(jù)采集與預處理
本文選取迪士尼旅游景區(qū)的在線評論作為研究對象,主要原因有以下幾點:迪士尼樂園作為全球知名的主題公園之一,一直以來都是家庭和孩子們喜愛的旅游目的地。因此,迪士尼旅游風景區(qū)的在線評論記錄不僅數(shù)量眾多,而且其中很大一部分都來自于小孩子和他們的家庭成員,涵蓋了廣泛的游客群體,這使得其成為研究游客體驗質量的理想對象。此外,迪士尼樂園在全球范圍內享有極高的聲譽,其服務質量和游客體驗一直受到廣泛關注,因此對迪士尼旅游風景區(qū)的在線評論進行分析研究,有望為全球主題公園及旅游業(yè)提供參考和借鑒,促進行業(yè)發(fā)展。
針對攜程網站編寫P y t hon 爬蟲代碼共爬取到34,654條評論,時間跨度為2021年9月至2022年10月。通過刪除過長評論(這類評論往往含有推廣,無法有效獲取游客體驗質量信息)和無效評論,最終保留29,327條評論。然后對評論分詞過后的詞語進行篩選,剔除明顯非質量特征的詞語。經觀察發(fā)現(xiàn),用戶評論中的特征詞較為明顯,因此,可利用基于規(guī)則的方法進行篩選,即將詞語的詞性和詞頻屬性作為劃分條件,進行刪除。具體篩選規(guī)則如下。
(1)詞頻過濾。用戶的生成內容具有長尾效應,尾部部分具有大量低頻率的詞語[10],這部分詞語雜亂無章,沒有具體含義,無法代表質量特征,因此通過最直接的方式直接刪除這一部分詞匯。給詞頻閾值設置為3,若某一個詞語的詞頻小于3,則說明該詞未具有有效特征,進行刪除。
(2)詞性過濾。質量特征詞多為名詞、形容詞和動詞,而非質量特征詞的詞性則多為虛詞、代詞、連詞、數(shù)詞、副詞等。根據(jù)詞性規(guī)律,設置刪選規(guī)則,對明顯不符合質量特征的詞語進行篩選。具體篩選規(guī)則如圖3所示。
經過篩選最終得到1,548個質量特征詞,選取部分詞語展示如圖4為質量特征詞云圖。在詞云圖中,詞頻越高的詞語在詞云中會顯示得更大,可以發(fā)現(xiàn)“好”在評論中占有很大位置,意味著顧客更加關注產品和服務的質量,對于產品和服務的好壞會在他們的評價和評論中表現(xiàn)得更為明顯。
基于詞頻和基于詞性的方法都無法完整地體現(xiàn)出詞語的語義信息。而基于詞向量的方法則可以較好地解決這個問題,通過對詞語的向量表示進行計算和分析,可以更好地考慮到詞語之間的語義關系,從而更加準確地進行文本分析、情感分析和主題分析等工作。因此,需要提取每條評論中的體驗質量詞進行詞向量的提取。
2.2 共現(xiàn)矩陣生成
在線評論中蘊含的游客體驗質量信息通常無法簡單地計算,而在自然語言處理中,要使用計算機獲取游客的體驗信息,詞語在文本中的分布是必須計算的,因此有必要引入數(shù)學中的“向量”來計算詞語在文本中的分布,由此引申出了“詞向量”的概念。
語義“ 向量空間模型”(v e ct o rspace model)是指把一個單詞嵌入到一個向量空間中去的模型。因此,把一個單詞表示為一個詞向量通常叫做“詞嵌入”(word embedding)。詞嵌入的方法通常分為基于詞頻的方法和基于預測的方法。而質量特征詞庫中詞語的意義可以簡單地由其與其鄰近的其他單詞出現(xiàn)的頻率來確定[11],基于共現(xiàn)矩陣(co-occurrence matrix)生成詞向量的方法就是一種基于頻率的方法。與共現(xiàn)矩陣相比,其他方法如:預測性方法通常更加依賴于大量的訓練數(shù)據(jù),并且往往需要進行復雜的優(yōu)化過程。因此,在分析游客體驗質量這一領域,本文采用共現(xiàn)矩陣這一更加簡單、有效、泛用性更強的方法進行詞向量提取。
共現(xiàn)矩陣X 的維度為V×V,其中V 是語料庫中詞匯量的大小,經過上一步的語料庫預處理后,本文的V 等于1,548。矩陣中x ij 則表示語料庫中的第i 個詞與第j 個詞同時出現(xiàn)在一條評論中的次數(shù),因此有x ij=x ij,共現(xiàn)矩陣X 是一個對稱矩陣。這種矩陣也可稱為“詞項-上下文矩陣”,因為其包含著詞語之間的上下文信息。在獲取詞語間上下文信息時需要指定一個窗口,若窗口大小為2,那么當統(tǒng)計一條評論中共同出現(xiàn)的詞語頻度時,這個窗口會依次滑動,只統(tǒng)計窗口中心詞語和其左邊2個詞語、右邊2個詞語同時出現(xiàn)的樣本次數(shù)。
圖5 解釋了在滑動窗口大小為2 的前提下如何提取評論中特征詞的共現(xiàn)次數(shù)。以“ 孩子很喜歡但隊伍太長了”這條評論為例,首先進行分詞,依次得到“ 孩子”“ 很”“喜歡”“但”“隊伍”“太”“長”“了”這幾個詞語。當窗口滑動到第一個詞語“孩子”時,其采樣為(孩子,很)、(孩子,喜歡);當滑動到第二個詞語“很”時,其采樣為(很,孩子)、(很、喜歡)、(很、但);依次遍歷評論中的每個詞語,直到窗口滑動到最后一個詞語。
本文選擇的滑動窗口大小為5。遍歷語料庫中的每條評論,構建詞語上下文共現(xiàn)矩陣 ,該矩陣的維度為語料庫中篩選后的詞語數(shù)量。整理成表格形式見表1。
展示共現(xiàn)矩陣的時候以詞頻為依據(jù)進行降序展示,可以看出雖然高頻詞之間的共現(xiàn)次數(shù)較多,但大部分的低頻詞的共現(xiàn)次數(shù)都為0,所以語料庫的共現(xiàn)矩陣通常都是一個稀疏矩陣。為了得到稠密的向量,需要對共現(xiàn)矩陣進行降維。
2.3 詞向量生成與可視化
截斷奇異值分解(TruncatedSVD)是一種常用的降維方法,用于在保留盡可能多的信息的前提下,將高維數(shù)據(jù)降低到低維空間。它的主要思想是對原始數(shù)據(jù)的奇異值分解,然后截取其中較大的奇異值對應的奇異向量組成一個新的矩陣,作為對原始數(shù)據(jù)的近似。TruncatedSVD在自然語言處理中被廣泛應用于文本表示的降維[12],因此使用該方法進行詞向量的生成。設置降維后的維數(shù)為3,取部分高頻詞語降維后的詞向量進行展示(詳見表2)。
截斷奇異值分解模型的方差解釋率達到了97.4 %,說明生成后的向量能很好地的解釋原來的數(shù)據(jù)。將游客體驗質量特征詞映射到三維空間中,在不同的角度下進行觀看,具體如圖6~8所示。
詞語在三維空間中的位置可以反映出它們之間的語義相似性,位置相近的詞語為同時出現(xiàn)在同一條評論中的詞語或在不同評論中出現(xiàn)但上下文關系相近的詞語。結果表明共現(xiàn)模型可以較好地分別游客體驗質量評論中不同方面的評價。同時,可以看出語義相近的詞語在三維空間中的相對距離也較近,本文根據(jù)語義相關性并結合其在三維圖中的相關位置將特征詞劃分為5類主題。
其中,游樂設施、服務水平和餐飲體驗這3個類別,都是關于迪士尼主題公園內的服務和設施的詞語。它們之間有一定的聯(lián)系,都影響著游客的體驗質量。游樂設施是主題公園的核心,服務水平和餐飲體驗則是影響游客感受的重要方面。在圖6中,游樂設施和服務水平主題的詞語距離較近,這說明游樂設施的使用和維護需要一定的服務水平,而服務水平的好壞也會影響游客對游樂設施的評價。另外,餐飲體驗也是影響游客體驗質量的重要因素之一,良好的餐飲體驗能夠給游客提供必要的能量和休息。
其次,人流量控制和周邊環(huán)境這兩個類別,則更多的是圍繞著游客在主題公園周邊的體驗而聚類。人流量控制是指迪士尼主題公園為了保障游客的安全和舒適度,采取的管理和控制措施。人流量控制的好壞會直接影響游客的游玩體驗,如果排隊等待時間過長,人群密集度過高,會讓游客感到疲憊和不舒適。周邊環(huán)境則是指主題公園周邊的街道、建筑、景觀等環(huán)境因素。這些因素可能會對游客的體驗產生重要的影響,比如:周邊環(huán)境的舒適度、安全感和景觀美觀程度等。
由于空間的限制,不能截取所有角度下的三維圖進行展示,但從圖8的角度觀察可知,項目相關詞匯和排隊相關詞匯在這個視角下具有較高的重疊性,游樂項目和游客體驗質量的詞匯如:“排隊”“等待時間”“擁擠”“快速通道”重合在一起 ,需要進一步了解游客在等待過程中可能遇到的問題和體驗質量如何影響他們的整體評價。例如:可以在游客等待時發(fā)放調查問卷或者提供表演來提高用戶體驗質量。
3 結 語
本文以迪士尼游客在線評論作為研究對象,采用了基于詞頻和基于詞性的方法建立了游客的體驗質量特征詞庫,并且使用詞項上下文共現(xiàn)矩陣提取了詞向量,采用SVD降維可視化的方法對詞向量進行了分析和展示。研究發(fā)現(xiàn)了游樂設施、服務水平、人流量控制、餐飲體驗和周邊環(huán)境這5個方面的相關性,并且可以看到詞語在三維空間中的分布和聚類情況。
質量管理是一個廣泛應用的領域,各個行業(yè)都需要進行質量管理。通過該研究的方法,我們可以對其他行業(yè)的質量管理進行分析和探索。例如:對于制造業(yè),可以構建不同工序的關鍵詞庫,對生產流程中的每一個關鍵步驟進行分析,找出影響產品質量的關鍵因素;若針對的是某銀行的服務質量,可以將所收集到的客戶評論進行文本分析,從中提取出有關服務質量的關鍵詞,并使用機器學習算法深入分析客戶評價和反饋,找出與服務質量標準的差距并提出改進措施。特別是與消費者體驗相關的行業(yè),例如:酒店、餐飲、電商等。通過對消費者在線評論的分析,可以深入了解消費者的需求和反饋,及時發(fā)現(xiàn)問題并改進服務,從而提高服務質量,增強顧客滿意度和忠誠度。該方法具有很強的可操作性和實用性,可以為企業(yè)提供指導和參考,幫助其改善服務,提升競爭力。
以人民為中心的發(fā)展理念是我國的發(fā)展基本原則,而在線評論可以為建立以游客為中心的旅游服務質量評價體系提供數(shù)據(jù)支持和理論基礎,從而促進旅游服務質量的提高和游客體驗的改善。但目前我國并沒有關于在線旅游服務質量評價體系的國家標準發(fā)布,應參考如:團體標準T/ISC 0001-2020《酒店在線服務質量評價與等級劃分》[13]完善旅游服務標準化。對探索設立旅游服務質量獎[3],培育建設一批令游客感到滿意的旅游服務質量品牌示范單位和示范區(qū)具有重要作用。滿足人民群眾日益增長的美好生活需要這一根本目的。
參考文獻
中華人民共和國國家發(fā)展和改革委員會. 中華人民共和國國民經濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要[R/OL]. (2021-03-13)[2023-01-23]. http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm.
國家發(fā)展改革委、市場監(jiān)管總局. 關于新時代服務業(yè)高質量發(fā)展的指導意見[EB/OL]. (2019-10-02)[2023-01-10].https://zfxxgk.ndrc.gov.cn/web/iteminfo.jsp?id=16529.
文化和旅游部. 文化和旅游部關于加強旅游服務質量監(jiān)管提升旅游服務質量的指導意見[ E B / O L ] .(2021-05-22)[2023-01-10]. http://www.gov.cn/zhengce/zhengceku/2021-05/22/content_5610396.htm.
XIE K L, ZHANG Z, ZHANG Z. The business value ofonline consumer reviews and management response to hotelperformance[J]. International Journal of Hospitality Management,2014, 43: 1-12.
侯萍. 在線評論視角下面向青年顧客的營銷策略探討[J].商業(yè)經濟研究, 2015, (12): 69-71.
魏娟, 李敏. 信息過載影響消費者決策研究的知識圖譜分析[J]. 管理現(xiàn)代化, 2022, 42(01):156-161.
劉逸, 孟令坤, 保繼剛, 等. 人工計算模型與機器學習模型的情感捕捉效度比較研究——以旅游評論數(shù)據(jù)為例[J]. 南開管理評論, 2021, 24(05): 63-72.
BRAVO-MARQUEZ F, KHANCHANDANI A, PFAHRINGERB. Incremental Word Vectors for Time-Evolving SentimentLexicon Induction[J]. Cognitive Computation, 2021, (5): 1-17.
張海軍, 陳映輝. 語義分析及向量化大數(shù)據(jù)跨站腳本攻擊智檢[J]. 山東大學學報:工學版, 2020, 50(2): 11.
ARNON I, SNIDER N. More than words: Frequency effects formulti-word phrases[J]. Journal of Memory & Language, 2010,62(1): 67-82.
馮志偉. 詞向量及其在自然語言處理中的應用[J]. 外語電化教學, 2019, (1): 3-11.
李卓然, 冶忠林, 趙海興, 等. 基于混合特征建模的圖卷積網絡方法[J]. 計算機應用, 2022, 42(11): 10.
中國互聯(lián)網協(xié)會. 酒店在線服務質量評價與等級劃分: T/ISC 0001—2020[S/OL]. 2020:1-14[2022-12-20]. https://www.isc.org.cn/profile/material/2021/11/11/94477b1b.