錢姊怡 張金玉 韓秀
摘要:書院在千余年的發(fā)展過程中凝結(jié)和創(chuàng)造了輝煌的書院文化,成為推動(dòng)中國傳統(tǒng)文化普及、創(chuàng)新和發(fā)展的重要力量。本文以徐州書院為例,基于文本挖掘法,建立了LDA模型,對(duì)書院游客網(wǎng)絡(luò)評(píng)價(jià)進(jìn)行情感主題分類,研究游客對(duì)于書院文化旅游的看法和評(píng)價(jià),了解游客直觀感受和潛在需求,提出書院發(fā)展策略。
關(guān)鍵詞:書院文化;書院文旅IP;LDA模型
在文化旅游方面,書院具有極大的開發(fā)價(jià)值。我國歷史上的書院多建立在依山傍水之地,雖然大多建筑在歷史中損壞嚴(yán)重,但仍遺留大量古碑、古樹等?,F(xiàn)今留存的書院經(jīng)過一系列的修繕和恢復(fù),也能成為陶冶情操的旅游勝地。而書院文化對(duì)當(dāng)今社會(huì)仍有極大的學(xué)習(xí)價(jià)值,書院文化的內(nèi)在精神對(duì)當(dāng)今社會(huì)的人極具文化熏陶作用。[1]
一、基于LDA模型對(duì)游客評(píng)價(jià)分類
(一)模型介紹
LDA是一種文檔主題生成模型,是通過 “以一定概率選擇某個(gè)主題,并從這個(gè)主題中以一定的概率選擇某個(gè)詞語”這樣的一個(gè)過程得到。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。它采用了詞袋的方法,每一篇文檔包含詞、主題和文檔三層結(jié)構(gòu)。[2]所謂生成模型是指,認(rèn)為一篇文章的每個(gè)詞文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。
(二)模型構(gòu)建
1.Step1:評(píng)論數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)獲取
本文采用網(wǎng)頁爬取軟件GooSeeker(集搜客)對(duì)當(dāng)下比較受歡迎的網(wǎng)絡(luò)平臺(tái)的游客評(píng)論文本數(shù)據(jù)進(jìn)行爬取,具體的游客網(wǎng)絡(luò)評(píng)論的數(shù)據(jù)構(gòu)成詳見表1。
數(shù)據(jù)獲取首先要選擇定義爬蟲類,包括根據(jù)目標(biāo)爬蟲各自合適的應(yīng)用場(chǎng)景去選擇爬蟲種類,設(shè)置一個(gè)初始url,并生成一個(gè)能夠請(qǐng)求的 “解析”方法,最后在item類里得到了爬取的3 230條信息和15個(gè)相關(guān)主題帖子。
(2)數(shù)據(jù)預(yù)處理
本次預(yù)處理的主要工作是清除噪聲序列和消費(fèi)者隨意發(fā)表的無意義數(shù)據(jù),處理規(guī)則如下:
a.評(píng)論文本內(nèi)容與用戶名均相同的數(shù)據(jù)視為水軍發(fā)表的,予以刪除。
b.評(píng)論內(nèi)容完全為英文字母、數(shù)字和標(biāo)點(diǎn)符號(hào)的,視為隨意發(fā)表的評(píng)論,予以刪除。
c.評(píng)論內(nèi)容中出現(xiàn)重復(fù)的詞語需要進(jìn)行壓縮,避免影響詞語頻數(shù)統(tǒng)計(jì)。
通過數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)中存在的噪聲去除,得到高質(zhì)量、規(guī)范化以及可以進(jìn)行后續(xù)分析的3 030條有效數(shù)據(jù)。
2.Step2:自動(dòng)分詞
為了判斷句子中是否存在情感詞典中相應(yīng)的詞語,需要把句子進(jìn)行自動(dòng)分詞。我們對(duì)比了現(xiàn)有的分詞工具,綜合考慮了分詞的準(zhǔn)確性和在Python平臺(tái)的易用性,最終選擇了 “結(jié)巴中文分詞”作為分詞工具。
3.Step3:訓(xùn)練情感詞典
訓(xùn)練感情詞典是文本挖掘核心的部分,分為四個(gè)部分:積極情感詞典、消極情感詞典、否定詞典以及程度副詞詞典。為了得到更加完整的情感詞典,從網(wǎng)絡(luò)上收集了若干個(gè)情感詞典,并且對(duì)其進(jìn)行整合去重,同時(shí)對(duì)部分詞語進(jìn)行了調(diào)整,以達(dá)到盡可能高的準(zhǔn)確率。[3]除了對(duì)網(wǎng)絡(luò)收集而來的詞典進(jìn)行整合,還有針對(duì)性和目的性地對(duì)詞典進(jìn)行了去雜、更新,加入了某些行業(yè)詞匯,以增加分類中的命中率。由于某些評(píng)論中出現(xiàn)多個(gè)感情詞時(shí)情感詞典的文本情感分類規(guī)則會(huì)較為機(jī)械化,為了使分類結(jié)果更加精確,設(shè)置權(quán)重累加判斷程序。在假設(shè)所有積極詞語、消極詞語的權(quán)重都是相等的、權(quán)值是線性可疊加的以及不區(qū)分感情詞程度的情況下,將每個(gè)積極情感詞語賦予權(quán)重1,將每個(gè)消極情感詞語賦予權(quán)重-1,并且假設(shè)情感值滿足線性疊加原理;接著將句子進(jìn)行分詞,若分詞后的詞語向量包含相應(yīng)的詞語,就加上向前的權(quán)值。其中,否定詞和程度副詞會(huì)有特殊的判別規(guī)則,否定詞會(huì)導(dǎo)致權(quán)值為負(fù),而程度副詞則讓權(quán)值加倍。最后,根據(jù)總權(quán)值的正負(fù)性來判斷句子的情感。
(三)模型結(jié)果
1.書院旅游網(wǎng)絡(luò)評(píng)論情感傾向
將數(shù)據(jù)分為積極和消極兩個(gè)類別,依靠關(guān)鍵詞限定,按照一定的規(guī)則進(jìn)行聚類,再加以判別分析進(jìn)行檢驗(yàn),得到整合結(jié)果詳見表2。
利用Python進(jìn)行信息爬蟲,其中有效信息為65.3%。表中可以看出在積極方面,游客評(píng)論多為 “推薦”“不錯(cuò)”“贊”等,說明其游覽滿意度較高,對(duì)徐州的書院文化評(píng)價(jià)也較高;而觀察消極方面,游客評(píng)論多為 “無趣”“無聊”等,說明書院現(xiàn)有文化活動(dòng)不足以吸引游客,傳統(tǒng)的開放方式對(duì)游客沒有足夠的吸引力,由此可見,書院文化內(nèi)涵需要進(jìn)一步豐富;而 “過時(shí)”“古板”則說明徐州部分書院的發(fā)展不符合現(xiàn)代化需求,需要?jiǎng)?chuàng)新思想。
2.基于口碑指數(shù)對(duì)網(wǎng)絡(luò)評(píng)論分析
為了更科學(xué)地進(jìn)行數(shù)據(jù)可視化分析,我們引入受到廣泛認(rèn)可且簡(jiǎn)單易行的口碑指數(shù)概念。[4]這是通過分析產(chǎn)品的評(píng)論綜合計(jì)算得出的參考數(shù)值,這種方法與大數(shù)據(jù)技術(shù)獲取網(wǎng)絡(luò)輿情數(shù)據(jù)相結(jié)合,與當(dāng)前實(shí)際情況有相當(dāng)吻合度,在前期進(jìn)行數(shù)據(jù)處理且分類嚴(yán)謹(jǐn),可對(duì)徐州的書院文化旅游滿意度進(jìn)行粗略評(píng)估。其計(jì)算公式為:
×100
其中, ζ為口碑指數(shù), Np和Nn分別為正面情感評(píng)論數(shù)和負(fù)面情感評(píng)論數(shù)。書院的口碑指數(shù)為78%,整體口碑情況較好,說明游客對(duì)于徐州書院的總體態(tài)度是比較滿意的,但是仍然存在22%的評(píng)論屬于負(fù)面評(píng)論。上述LDA模型對(duì)于書院游客的觀感進(jìn)行情感分類,此處口碑指數(shù)是對(duì)書院總體口碑情況進(jìn)行綜觀,由此得到游客對(duì)于徐州書院文化旅游的情感傾向和整體評(píng)價(jià)情況。
3.基于詞云分析對(duì)評(píng)價(jià)的數(shù)據(jù)統(tǒng)計(jì)
(1)方法介紹
詞云分析是對(duì)文中出現(xiàn)頻率較高的 “關(guān)鍵詞”予以視覺化的展現(xiàn),通過濾掉大量的低頻低質(zhì)的文本信息,呈現(xiàn)出直觀的文本主旨結(jié)果。詞云分析通常通過爬蟲技術(shù)實(shí)現(xiàn)。[5]
徐州各大書院中,以云龍書院最為著名,為得到更為精準(zhǔn)詳盡的評(píng)論導(dǎo)向,本文爬取各大網(wǎng)絡(luò)平臺(tái)中以 “徐州書院”和 “云龍書院”為關(guān)鍵詞的相關(guān)評(píng)論和相關(guān)文章進(jìn)行文本挖掘。
(2)詞頻統(tǒng)計(jì)&詞云繪制
在中文分詞之后,本文對(duì)分詞結(jié)果進(jìn)行了進(jìn)一步的處理,由于有些詞語是一些沒有意義但是使用頻率又非常高的詞語,本文將 “此外”“如今”“作者”“近年來”“然而”“圖片”“另外”“然后”等詞語刪除,在詞頻統(tǒng)計(jì)的時(shí)候不會(huì)計(jì)入上述詞語。在Python中,建立一個(gè)待刪除的字典A,使用for循環(huán)將文本中的所有含字典A中內(nèi)容的詞語刪除。待分詞數(shù)據(jù)處理好之后,用Python的wordcloud包進(jìn)行詞頻統(tǒng)計(jì)。
詞頻統(tǒng)計(jì)之后,就可以制作詞云。用爬取的網(wǎng)絡(luò)數(shù)據(jù)評(píng)價(jià)得到的結(jié)果并繪制詞云圖,詳見圖1。
通過詞云繪制的結(jié)果,可以對(duì)徐州書院網(wǎng)絡(luò)評(píng)價(jià)進(jìn)行歸納總結(jié):
a.徐州漢文化城市形象已經(jīng)深入人心,在對(duì)書院的評(píng)價(jià)中 “漢文化”“古風(fēng)”“書香氣”等字眼層出不窮,由此可看出徐州城市文化底蘊(yùn)深厚,為大力發(fā)展文化旅游產(chǎn)業(yè)提供發(fā)展契機(jī)。
b.書院講學(xué)文化是一把雙刃劍,一方面,書院講學(xué)能夠?qū)鴮W(xué)文化進(jìn)行傳播和推廣,對(duì)弘揚(yáng)傳統(tǒng)文化有一定的積極作用;另一方面,游客對(duì)于書院的刻板印象難以改變,多數(shù)游客對(duì)于書院僅僅停留在 “國學(xué)文化”“講學(xué)”“古代”等印象中,現(xiàn)代書院的發(fā)展已經(jīng)明顯不同于傳統(tǒng)講學(xué)書院,該刻板印象對(duì)書院的現(xiàn)代化發(fā)展有著一定的阻礙作用。
c.從詞云圖中可以看出 “地標(biāo)”“旅游”等詞重復(fù)出現(xiàn),這說明游客對(duì)于徐州書院的認(rèn)識(shí)上升為 “城市地標(biāo)”,這對(duì)打造書院文化旅游IP具有良好的促進(jìn)作用。
二、書院發(fā)展策略
(一)政府支持和“書院造血”相結(jié)合
政府主要可以從兩方面來支持未來書院的發(fā)展:一是提供資金支持,二是對(duì)書院發(fā)展進(jìn)行指導(dǎo),帶領(lǐng)書院舉辦多元活動(dòng),以便書院的可持續(xù)發(fā)展。
由于書院活動(dòng)大多為公益性活動(dòng),經(jīng)費(fèi)籌集較為困難,政府的資金支持能讓書院有更多的經(jīng)費(fèi)舉辦活動(dòng),更好地推廣書院文化。但以政府的資金支持維護(hù)書院運(yùn)營并不是長(zhǎng)久之計(jì),這就需要書院利用自身文化優(yōu)勢(shì)開發(fā)相關(guān)產(chǎn)業(yè),建設(shè)書院自身 “造血”系統(tǒng)。政府可以通過聯(lián)合各地書院與當(dāng)?shù)貢号e辦多元活動(dòng),幫助書院突破活動(dòng)的局限性。
(二)創(chuàng)新宣傳方式
文旅市場(chǎng)需要進(jìn)一步發(fā)展,需要改變傳統(tǒng)的宣傳方式,積極利用網(wǎng)絡(luò)開展宣傳,同時(shí)開展口碑宣傳,通過游客口口相傳,達(dá)到提高書院文化旅游影響力的目的,增加潛在游客對(duì)徐州書院文化旅游的了解。
未來書院的宣傳方式需要?jiǎng)?chuàng)新性思維,改變書院宣傳缺乏活力的現(xiàn)狀,為書院發(fā)展提供更好的環(huán)境。未來書院的宣傳方式可以從兩方面進(jìn)行:一是基于現(xiàn)有的宣傳方式,對(duì)現(xiàn)有的宣傳平臺(tái)進(jìn)行創(chuàng)新,推送更為新穎且有吸引力的宣傳內(nèi)容,突出書院文化的特點(diǎn),找準(zhǔn)書院文化吸引大眾的創(chuàng)新點(diǎn);二是創(chuàng)新宣傳方式,很好地抓住對(duì)書院文化感興趣的現(xiàn)有及潛在游客。
(三)打造品牌,開發(fā)產(chǎn)業(yè)鏈
書院產(chǎn)業(yè)鏈的延伸開發(fā)是書院未來發(fā)展的長(zhǎng)久之計(jì),能更好地推動(dòng)書院文化的弘揚(yáng)。開發(fā)產(chǎn)業(yè)鏈要從書院本身延伸出去,一是從各書院的自身特點(diǎn)出發(fā),如書院建筑物特點(diǎn)等,將書院特點(diǎn)進(jìn)行產(chǎn)業(yè)化,讓其得到物化、產(chǎn)品化,更好地將書院特點(diǎn)宣傳出去;二是從書院的內(nèi)涵文化出發(fā),將其文化內(nèi)涵進(jìn)行產(chǎn)業(yè)化,例如,可將書院人文故事動(dòng)漫化,能夠讓大眾更好地理解與接受,也起到了相應(yīng)的宣傳作用,從而更好地弘揚(yáng)書院文化。發(fā)展書院文創(chuàng)產(chǎn)品,形成書院文化產(chǎn)業(yè)鏈。
三、結(jié)束語
本文建立了LDA模型,對(duì)書院的網(wǎng)絡(luò)評(píng)價(jià)進(jìn)行情感主題分類,對(duì)游客的評(píng)價(jià)及需求進(jìn)行分析,并提出適合書院未來發(fā)展的策略。書院需創(chuàng)新宣傳方式,打造書院品牌,開發(fā)產(chǎn)業(yè)鏈,運(yùn)用適當(dāng)?shù)姆椒▽⑵涫袌?chǎng)化,生產(chǎn)出相應(yīng)的文化產(chǎn)品。發(fā)展書院文化產(chǎn)業(yè),挖掘書院的文化旅游價(jià)值,既能對(duì)我國的書院文化進(jìn)行傳承,也能為書院創(chuàng)造相應(yīng)的經(jīng)濟(jì)價(jià)值。
參考文獻(xiàn):
[1] 艾會(huì)雨.保定市旅游產(chǎn)業(yè)和文化產(chǎn)業(yè)耦合協(xié)調(diào)發(fā)展研究[D].保定:河北大學(xué),2019.
[2] 張學(xué)民,趙明宇.基于LDA和情感分析的西塘古鎮(zhèn)旅游形象研究[J].河北工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2020,12(3):23-30.
[3] 曹青.基于LDA模型的湖南特色旅游線路設(shè)計(jì)[D].北京:北京工業(yè)大學(xué),2019.
[4] 季鵬飛,王先超,張順香.基于共現(xiàn)概率訓(xùn)練的情感詞典的擴(kuò)充[J].阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2019,36(04):49-53.
[5] 李向宇.基于詞云分析的近5年核心期刊幼兒體育文獻(xiàn)研究現(xiàn)狀[J].運(yùn)動(dòng),2014(05):79-81.