亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的旅游目的地印象分析和評價研究

        2025-03-26 00:00:00姚丹丹申峻強胡濤
        電腦知識與技術 2025年5期

        摘要:旅游目的地美譽度是旅游企業(yè)和政府部門關注的熱點。文章數(shù)據(jù)來自“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽的數(shù)據(jù)集。首先分析景區(qū)及酒店數(shù)據(jù),得到Top熱詞及頻率。然后根據(jù)LDA主題模型構成主題詞典,根據(jù)主題詞對每個景區(qū)酒店進行匹配得出概率值,結合熵權法計算綜合得分。使用TF-IDF算法分析景區(qū)及酒店網評的有效性,利用K-means算法對景區(qū)及酒店聚類分析,得到高中低不同檔次群,結合熱詞算法得到每個類別的特征。最后結論表明影響游客滿意度的因素主要有5個方面,分別是服務、位置、設施、衛(wèi)生、性價比,特別是衛(wèi)生環(huán)境影響較大。政府部門和旅游相關企業(yè)可重點在這5個要素方面下功夫,為游客創(chuàng)造舒適的消費體驗,達到吸引游客、提升競爭優(yōu)勢的目的。

        關鍵詞:TF-IDF算法;熵權法;K-Means;旅游目的地;美譽度

        中圖分類號:TP311 文獻標識碼:A

        文章編號:1009-3044(2025)05-0054-04 開放科學(資源服務) 標識碼(OSID) :

        0 引言

        旅游業(yè)已成為國民經濟的重要支柱,提升旅游目的地形象至關重要。提升景點、酒店等旅游景點的知名度,已經成為當?shù)匚穆霉芾聿块T和相關企業(yè)的重要任務,關系到如何穩(wěn)定客流、發(fā)揮同行優(yōu)勢,吸引更多游客進行消費。

        本文主要研究旅游目的地的景區(qū)及酒店的印象分析和評價,通過對數(shù)據(jù)集中的景區(qū)及酒店網評文本分析,圍繞游客印象因素建立模型,提煉特色并綜合評價景區(qū)和酒店。論文按數(shù)據(jù)預處理、數(shù)據(jù)分析、建立模型,得出結論等步驟實現(xiàn)。首先利用Python的數(shù)據(jù)分析函數(shù)和相關模塊,實現(xiàn)數(shù)據(jù)清洗等預處理,然后從景區(qū)酒店的評價、網評的有效性、特色分析等方面展開數(shù)據(jù)挖掘研究。分析影響目的地游客滿意度的因素,向相關部門和公司提出合理化建議,能有效地提高游客滿意度,最終提高目的地的聲譽。

        1 算法介紹

        1.1 TF-IDF 算法

        詞頻是指文本中詞條的頻率。通常來說,某個詞在文檔中出現(xiàn)的詞頻越高,則在文檔中的權重越高,成為關鍵詞的可能性越大[1]。逆向文件頻率[2]:對于一個詞,可以用文檔總數(shù)來除以包含這個詞的文檔數(shù)量,將得到的商取得對數(shù)算出IDF。高權重的TF-IDF 值能剔除常見的詞,保留重要的詞。

        1.2 LDA 主題模型

        文檔主題生成模型[3]由3層結構組成,包括詞、主題和文檔。通過無監(jiān)督的學習方法發(fā)現(xiàn)文本中隱含的主題信息,目的是要以無指導學習的方法從文本中發(fā)現(xiàn)隱含的語義維度。它是一種無監(jiān)督的文檔主題生成模型,認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程,這些主題被集合中的所有文檔所共享,每個文檔有一個特定的主題比例。

        1.3 K-means 聚類

        K均值聚類也被稱為一種快速聚類算法,它基于最小化誤差函數(shù)將數(shù)據(jù)劃分為預定類數(shù)數(shù)量k。該算法通俗易懂,易于處理大量數(shù)據(jù)。

        K-means[4]的算法步驟為:

        1) 從數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心a = a1,a2,...,ak。

        2) 根據(jù)每個聚類對象的均值中心對象,計算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應對象進行劃分。

        3) 重新計算每個有變化聚類的均值中心對象。

        4) 重復上面2、3兩步操作,直到每個聚類不再發(fā)生變化為止。

        2 數(shù)據(jù)分析及挖掘模型構建

        2.1 景區(qū)及酒店的印象分析

        酒店和景區(qū)各50家,酒店評論共25 226條,景區(qū)評論59 107條。利用Python的pandas庫,Jieba分詞等實現(xiàn)數(shù)據(jù)預處理。去除重復評論、英文、數(shù)字及特殊的標點符號后,酒店評論有22 789條數(shù)據(jù),占原數(shù)據(jù)的90.3%,景區(qū)評論有58 411 條數(shù)據(jù),占原數(shù)據(jù)的98.8%,可以進行數(shù)據(jù)挖掘。本文結合中文停用詞列表和百度停用詞列表,從文本中剔除離、都、很、比較等停用詞。景區(qū)、酒店的評論內容用Pandas 中的GroupBy分組函數(shù)進行聚合并讀取進來,在循環(huán)中進行對每一家的評論進行分詞、過濾停用詞、寫入列表final,用Counter 將final 轉化成詞典,用counts.items() 進行詞頻統(tǒng)計,然后根據(jù)詞頻用sorted()進行降序排序,讀取前20熱詞與熱度,寫入以每家酒店、景區(qū)命名的.csv文件。如圖1和圖2所示。從圖中可以看出,A30景區(qū)評論集中在動物和動物園等詞,H13酒店側重在服務和早餐等方面。

        2.2 景區(qū)及酒店的綜合評價

        本模塊通過評論文本進行分詞,利用LDA 主題模型對每個主題的300個主題詞進行輸出,提取主題詞。根據(jù)讀取出的單詞來進行挑選,將挑選出的詞作為景區(qū)主題的詞典。同理,酒店也可以這樣獲得主題詞典。再借助陳天琪等[5]對景區(qū)評價和繆章偉等[6]對酒店評價主題歸納的結果,對景區(qū)及酒店評價的相關主題詞進行了擴充和豐富,分別歸納景區(qū)和酒店的評價維度和具體分類下的主題詞。景區(qū)的主題詞典如表1所示。

        對景區(qū)酒店各個指標進行匹配統(tǒng)計,再與總數(shù)相除得出概率值寫入Excel表格。根據(jù)景區(qū)酒店每個指標的概率對各個酒店景區(qū)進行打分,得分結果在0~5 之間。通過用熵權法,對景區(qū)酒店的得分進行比值歸一化處理,計算各個指標的熵值,計算權系數(shù)得出酒店景區(qū)的指標權重如表2所示。

        因此,可以使用熵權法計算出的權值乘以對應的指標得分計算出綜合得分。計算出的得分結果保留兩位小數(shù),部分結果如表3所示。

        2.3 網評的有效性分析

        經過之前的文本臟數(shù)據(jù)處理,得到了一個較為“干凈”的文本數(shù)據(jù)。文本的有效性[7]是用戶接收評論信息的效率。本文采用sklearn中的TF-IDF算法輔助提取關鍵詞根據(jù)。需要將文檔進行歸并,再利用pan?das實現(xiàn)。然后,通過文本分詞、過濾停用詞,最后利用TF-IDF算法生成一個TF-IDF值得矩陣。 通過每個TF-IDF值來確定每個酒店或景區(qū)評論文本中的關鍵字。根據(jù)TF-IDF的值來進行排序,封裝了一個sort()排序函數(shù),返回前30的熱詞,并保存文檔,如圖3所示。根據(jù)漢明距離算兩個文本的相似度,設定閾值確定是否需要去重。因此可去除文本中的模糊不清、相似的評論。

        2.4 景區(qū)及酒店的特色分析

        2.4.1 聚類分析模型構建

        構建K-Means聚類分析模型[8-10],實現(xiàn)細粒度的酒店及景區(qū)劃分排名,并采用高、中、低3個檔次對它們進行分組,以此種方式進一步減少游客選擇上的麻煩。

        利用sklearn中的函數(shù)完成K-Means的計算。計算的結果如圖4和圖5所示。景區(qū)的聚類雷達圖中景區(qū)群1在服務得分較高,短板在衛(wèi)生。酒店的聚類雷達圖中酒店群2和群3的得分相對平均,群1的其他得分較低,但性價比優(yōu)勢明顯。

        2.4.2 結果分析

        根據(jù)K-Means算法,可以得到3個特征分布清晰的聚類,如表4所示。

        景區(qū)群1屬于檔次比較高,通過計算該組是5個,景區(qū)群3屬于中等檔次,有27家,低檔的景區(qū)群2有18家。可以看出景區(qū)中高檔的占據(jù)大多數(shù)。高檔酒店21家,中檔酒店23家,低檔的只有6家,反映出景區(qū)附近酒店的評價整體較高。從每個景區(qū)酒店分出的每個聚類中都選擇1個對象,并結合關鍵詞表來代表整個類別的特征項,如表5和表6所示。

        分析高層次景區(qū)熱詞表可知,A39景區(qū)以動物園為特色,值得游玩;環(huán)境好,空氣清新;有動物表演,小朋友很開心,適合小朋友游玩。A36景區(qū)以陶藝為特色,帶有歷史風貌;可以了解制作、燒制陶瓷的工藝,有明清的陶瓷以及陶瓷博物館。A25景區(qū)以溫泉為特色,環(huán)境舒適;帶有日式服務,可以吃自助餐。水質干凈,水果不錯。

        分析高層次酒店熱詞表可知,H04 酒店以親子房、樂園游玩為特色,服務好;環(huán)境好,有水上親子間,父母可以跟孩子游玩樂園、游泳;設施好,值得入住。H35酒店以服務好、環(huán)境好為特色,房間干凈,服務好;出現(xiàn)事故,能及時溝通,有應急處理方式,有維權。H39酒店以地理位置好、出行方便為特色,服務好、這家酒店性價比對游客來說適合優(yōu)先考慮;有停車場,有大巴車??浚拷鼨C場,四通八達;提供小吃,衛(wèi)生干凈,靠近步行街可以購物。

        3 總結

        隨著網絡技術的快速發(fā)展和旅游業(yè)信息的高度密集,在線評論平臺上出現(xiàn)了大量以評論和游記等為形式的非結構化數(shù)據(jù),傳統(tǒng)的調研方式已無法滿足如今動輒上萬的數(shù)據(jù)挖掘需求。本文利用LDA模型構建主題詞典,TF-IDF算法分析景區(qū)及酒店網評的有效性,最后利用K-means算法對景區(qū)及酒店進行特色分析。從結論中可以看出景區(qū)的特色、服務更能吸引游客,酒店的地理位置、服務衛(wèi)生等配套設施直接影響顧客滿意度。由于本文的數(shù)據(jù)量有限,挖掘分析和評價的準確度還有待改進。本文的研究結論可為相關部門和公司提出合理化建議,如旅游目的地的酒店需要重視衛(wèi)生環(huán)境的管理,通過科學檢測裝備和手段落實管理指標。通過對游客群體劃分,制訂符合不同群體需求的消費模式,提升酒店和景區(qū)的盈利同時,還能有效地提高游客滿意度,最終提高目的地的美譽度。

        參考文獻:

        [1] 常耀成,張宇翔,王紅,等.特征驅動的關鍵詞提取算法綜述[J].軟件學報,2018,29(7):2046-2070.

        [2] YI LIU, BAO JIGANG, ZHU YILING. Exploring emotion meth?ods of tourism destination evaluation: A big-data approach[J].Geographical Research, 2017,36(6):1091-1105.

        [3] AREFIEVA V,EGGER R,YU J.A machine learning approachto cluster destination image on Instagram[J].Tourism Manage?ment,2021,85:104318.

        [4] 王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012,20(7):21-24.

        [5] 陳天琪,張建春.基于文本挖掘的景區(qū)旅游形象感知研究:以杭州西溪國家濕地公園為例[J].資源開發(fā)與市場,2021,37(6):741-746.

        [6] 繆章偉.酒店顧客滿意度評價體系研究:基于Tripadvisor.com的杭州高星級酒店評論數(shù)據(jù)[D].杭州:浙江工商大學,2019.

        [7] 尹麗,顏欣,田良.基于網絡文本分析的旅游目的地形象感知研究:以三亞市為例[J].特區(qū)經濟,2019(1):100-102.

        [8] 段銳,鄒統(tǒng)釬,梁未哲.大數(shù)據(jù)環(huán)境下的旅游目的地形象研究綜述:數(shù)據(jù)、方法和技術[J].旅游導刊,2023,7(5):66-93.

        [9] 顧漸萍,王遠斌,劉貴文,等.基于文本大數(shù)據(jù)的游客旅游意象感知挖掘研究:以重慶市為例[J].現(xiàn)代城市研究,2019,34(12):117-125.

        [10] IKOTUN A M,EZUGWU A E,ABUALIGAH L,et al.K-meansclustering algorithms:a comprehensive review,variants analy?sis,and advances in the era of big data[J].Information Sciences,2023(622):178-210.

        【通聯(lián)編輯:梁書】

        基金項目:基于數(shù)據(jù)挖掘的旅游目的地印象分析(2024YB012)

        国产视频在线一区二区三区四区| 99精品国产在热久久无码| 国产一卡2卡3卡四卡国色天香| 老男人久久青草AV高清| 亚洲专区在线观看第三页| 视频一区精品自拍| 亚洲综合免费在线视频| 亚洲国产精品中文字幕久久| 极品少妇小泬50pthepon| 亚洲av无码av制服另类专区| 试看男女炮交视频一区二区三区| 岛国av一区二区三区| 漂亮丰满人妻被中出中文字幕| 亚洲成a∨人片在线观看不卡| 亚洲人成无码网站久久99热国产| 成人特黄特色毛片免费看| 亚洲一区二区三区厕所偷拍| 一本色道久久亚洲综合| 欧美69久成人做爰视频| 国产精品无码av天天爽| 亚洲春色AV无码专区在线播放| 黄片亚洲精品在线观看| 久久免费亚洲免费视频| 免费人妻无码不卡中文字幕系| 国产A√无码专区| av网址大全在线播放| 日本国产一区在线观看| 99无码精品二区在线视频| 护士人妻hd中文字幕| 日韩AV有码无码一区二区三区 | 天堂资源中文网| 国产成人啪精品视频免费软件| 日本a在线免费观看| 国产中文字幕一区二区视频 | 暖暖视频在线观看免费| 乱人伦视频69| 色婷婷av一区二区三区丝袜美腿| 日本精品视频二区三区| 羞羞视频在线观看| 熟女人妻丰满熟妇啪啪| 精品熟女视频一区二区三区国产 |