張軍洲,連云凱
(桂林旅游高等??茖W(xué)校 ,廣西 桂林541006)
虛擬社區(qū)在近些年發(fā)展得非常迅速,博客、論壇、YOUTUBE、Wikis、2nd life等都是虛擬社區(qū)發(fā)展的例子,這些技術(shù)的發(fā)展使人們可以和全世界的人們共享自己的經(jīng)驗(yàn)[1]。而虛擬社區(qū)又分為兩大類,一類是以YOUTUBE和2nd life為代表,關(guān)注點(diǎn)在于視覺的經(jīng)驗(yàn)分享,比如視頻和圖片;另一類是以論壇和博客為代表,關(guān)注點(diǎn)是網(wǎng)頁上的文本,文字的內(nèi)容容易獲取、標(biāo)記,進(jìn)而可以綜合分析,使管理者能得到需要的商業(yè)信息。而作為近幾年的一個(gè)熱門產(chǎn)業(yè)——旅游,由于越來越被人們重視,人們總是會(huì)在節(jié)假日安排自己的旅行。由于網(wǎng)絡(luò)的發(fā)展,越來越多的人樂于以博客和論壇的形式發(fā)表自己的旅行經(jīng)驗(yàn)以及對(duì)旅游產(chǎn)品的評(píng)價(jià),所以旅游博客和旅游論壇近幾年也迅速發(fā)展。很多人計(jì)劃旅行時(shí),也會(huì)通過網(wǎng)絡(luò)查看自己計(jì)劃旅游地的外部評(píng)價(jià),從而選擇最優(yōu)的旅行安排。
本文以旅游博客和旅游論壇為著眼點(diǎn),介紹了它們對(duì)傳統(tǒng)旅游產(chǎn)業(yè)的影響,論證了在新的網(wǎng)絡(luò)時(shí)代,如何利用旅游博客和旅游論壇為旅游管理者提供改善旅游產(chǎn)品的方向。
傳統(tǒng)的旅游業(yè)主要通過一些傳統(tǒng)媒體,比如電視、報(bào)紙、雜志,宣傳自己的旅游產(chǎn)品。但是,面對(duì)現(xiàn)在新的網(wǎng)絡(luò)時(shí)代,這些做法已經(jīng)落后,具有明顯的缺點(diǎn):
(1)投資較高。由于傳統(tǒng)媒體資源有限,要達(dá)到廣告效益,投資必然較高。
(2)缺少交互性,較少得到旅游消費(fèi)者的反饋,不能改進(jìn)提高。
(3)旅游管理者不易把握旅游市場(chǎng)發(fā)展的動(dòng)向,不易了解自己的競(jìng)爭(zhēng)對(duì)手。
而通過網(wǎng)絡(luò)的方式則可以明顯得以改善。現(xiàn)在很多旅游管理者已經(jīng)看到這個(gè)趨勢(shì),在網(wǎng)絡(luò)上投入廣告,推廣自己的旅游產(chǎn)品,稍有遠(yuǎn)見的管理者則專門建立自己的旅游網(wǎng)站進(jìn)行宣傳,通過傳統(tǒng)媒體和新媒體的結(jié)合推廣自己的旅游產(chǎn)品。不過,如何利用當(dāng)前發(fā)展迅速的旅游博客和論壇,卻少有人了解。
游客在博客和論壇上所寫的文章,往往會(huì)包含很多信息,比如自己的喜好、期望得到什么樣的服務(wù)、對(duì)已經(jīng)去過的旅游景區(qū)的評(píng)價(jià)、下次他可能會(huì)去哪里旅游、他對(duì)某個(gè)酒店的評(píng)價(jià)等。而且由于網(wǎng)絡(luò)的發(fā)展,虛擬社區(qū)可以使游客非常容易地和全世界的人分享自己的旅行經(jīng)驗(yàn),從而他的文章不僅僅代表了個(gè)人的旅游產(chǎn)品消費(fèi)信息,還能對(duì)其他有同樣旅游動(dòng)機(jī)的消費(fèi)者產(chǎn)生巨大的影響[2-4]。比如,對(duì)一個(gè)酒店負(fù)面的評(píng)價(jià)有可能會(huì)立即減少預(yù)定該酒店的顧客,而關(guān)于某個(gè)餐館的美味菜肴和服務(wù)員的熱情接待的正面評(píng)價(jià),則可能迅速增加這個(gè)餐館的顧客。
因此,旅游管理者應(yīng)該盡快學(xué)會(huì)利用旅游博客和論壇獲取信息,從而使其成為改善和提高旅游產(chǎn)品質(zhì)量的有力工具。旅游管理者使用旅游博客和論壇的優(yōu)勢(shì)如下:
(1)通過分析,可以知道消費(fèi)者是如何評(píng)價(jià)自己的旅游產(chǎn)品的,或者了解消費(fèi)者對(duì)其它旅游產(chǎn)品的評(píng)價(jià),從而做到知已知彼,提高自己的競(jìng)爭(zhēng)力。
(2)通過檢查消費(fèi)者對(duì)某旅游產(chǎn)品正面或負(fù)面的評(píng)價(jià),可以找到自己存在的問題,以改進(jìn)和提高服務(wù)質(zhì)量,提高自己在相關(guān)領(lǐng)域的產(chǎn)品競(jìng)爭(zhēng)力,開發(fā)新的產(chǎn)品服務(wù),對(duì)已有的優(yōu)勢(shì)加強(qiáng)宣傳。
(3)通過分析消費(fèi)者感興趣的內(nèi)容,可以預(yù)測(cè)旅游發(fā)展的趨勢(shì),從而有助于旅游管理者為將來的發(fā)展方向做決策。
由于網(wǎng)絡(luò)博客和論壇快速擴(kuò)張,要分析所有相關(guān)的旅游文章成為一個(gè)巨大的任務(wù),為了達(dá)到分析目的,通常要在一定時(shí)間間隔內(nèi)閱讀分析幾百甚至上千的文章,很明顯,這不是一個(gè)人可以在一天、一周或者一個(gè)月可以完成的任務(wù)。因此,人為的分析博客論壇文章顯然是不可能的。
而與此同時(shí),博客和論壇文章的數(shù)量還在迅速增長,這些文章隨時(shí)都在增加,而且分析工作還在不斷更新,需要每隔一段時(shí)間檢查一次。而這些工作可以使用軟件應(yīng)用程序完成,還可以通過設(shè)置一些參數(shù)來完成不同的功能,而軟件由于依賴于使用者的參數(shù)設(shè)定,所以不會(huì)像人為的那樣,容易根據(jù)先前的經(jīng)驗(yàn)而產(chǎn)生一些帶有偏見的選擇,且軟件應(yīng)用程序可以存儲(chǔ)相應(yīng)的內(nèi)容到自身數(shù)據(jù)庫里,從而避免檢查重復(fù)的數(shù)據(jù)。另外,人工的核查分析代價(jià)非常昂貴,耗費(fèi)時(shí)間和金錢,而軟件應(yīng)用程序從長遠(yuǎn)考慮具有非常高的性價(jià)比。
要從網(wǎng)絡(luò)中大量的旅游博客和論壇文章數(shù)據(jù)中搜索旅游管理者需要的信息,需要使用網(wǎng)絡(luò)搜索引擎,按照搜索條件或者用戶設(shè)定的范圍,對(duì)網(wǎng)頁中的數(shù)據(jù)進(jìn)行搜索,得到相關(guān)的一系列的網(wǎng)址列表,接著利用程序?qū)Λ@得網(wǎng)址的文本內(nèi)容進(jìn)行劃分,去除不相關(guān)的或者很少相關(guān)的網(wǎng)址鏈接,此后,提取相關(guān)文本的內(nèi)容并存儲(chǔ)到文件數(shù)據(jù)庫系統(tǒng),接著利用文本提取算法對(duì)數(shù)據(jù)庫當(dāng)中的文本進(jìn)行分析,抽取需要的句子,簡化分析,獲得文本的關(guān)鍵詞或者合成詞關(guān)鍵詞,生成數(shù)據(jù)表,并鏈接到相應(yīng)的句子和文本當(dāng)中,接著根據(jù)設(shè)定的分類機(jī)制進(jìn)行文件劃分,確定文本的評(píng)價(jià)性質(zhì)是正面的,中性的或者是負(fù)面的,最后產(chǎn)生報(bào)告,給軟件程序使用者。其流程圖如圖1:
圖1 程序模型的流程圖
其中,搜索引擎為一個(gè)聚焦網(wǎng)絡(luò)爬蟲程序[5],它是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。
實(shí)現(xiàn)此軟件模型需要考慮的具體步驟是:
第一步:準(zhǔn)備必要的搜索數(shù)據(jù)。在執(zhí)行自動(dòng)搜索前,用戶要手工定義一些相關(guān)主題、關(guān)鍵詞、URL等希望查詢的信息,其中也可以包含一些用戶想要檢查的指定的論壇和博客。
第二步:運(yùn)行搜索引擎網(wǎng)絡(luò)爬蟲程序。將第一步設(shè)定的主題表(檢查條件)放入到搜索引擎網(wǎng)絡(luò)爬蟲程序中,從而得到相關(guān)的博客和論壇文章內(nèi)容,這一步會(huì)產(chǎn)生大量的URL列表鏈接。
第三步:評(píng)測(cè)搜索到的URL結(jié)果。對(duì)第二步產(chǎn)生的URL列表進(jìn)行檢查,移除用戶認(rèn)為不相關(guān)的或極少相關(guān)的,保留用戶認(rèn)為相關(guān)的。
第四步:提取URL列表里的相關(guān)內(nèi)容。在這一步,網(wǎng)絡(luò)爬蟲從URL列表里提取所有的相關(guān)內(nèi)容,并寫入到文件數(shù)據(jù)庫系統(tǒng)中。
第五步:線性分析。應(yīng)用線性分析,將前面步驟獲得的文件內(nèi)容拆分成句子,所有的句子富含語法信息(有精簡的主謂賓等,句子類型,比如是疑問句,還是陳述句等),句子也將分組成段落。除此之外,將所有的關(guān)鍵詞或者合成關(guān)鍵詞從文章中也提取出來,構(gòu)成一張數(shù)據(jù)表,并鏈接到相應(yīng)的句子和文章中,且文本中只要出現(xiàn)和程序使用者提供的關(guān)鍵詞相同的詞,也標(biāo)記出來,添加到數(shù)據(jù)表當(dāng)中。
第六步:文本分類。基于第五步的數(shù)據(jù)表,將文本根據(jù)不同的分類機(jī)制進(jìn)行分類,比如酒店、景區(qū)、活動(dòng)場(chǎng)所等,把這些分類信息加入到程序模型中,也包含作者、URL、時(shí)間等信息。
第七步:確定各個(gè)文本評(píng)價(jià)結(jié)果的性質(zhì)(正面的,中性的或負(fù)面的),根據(jù)產(chǎn)生的數(shù)據(jù)表中的關(guān)鍵詞或句子的權(quán)值和極性來確定文章的評(píng)價(jià)分類。
第八步:產(chǎn)生報(bào)告,反饋給程序使用者。
要考慮的核心問題是:
(1)文本劃分:如何將文本劃分,去除不相關(guān)的或相關(guān)很少的文本。
可以通過搜索已有的主題詞列表中的關(guān)鍵詞實(shí)現(xiàn),將網(wǎng)頁文本中獲得的關(guān)鍵詞與初始使用者設(shè)定的條件區(qū)域關(guān)鍵詞進(jìn)行匹配,計(jì)算出每個(gè)網(wǎng)頁的相似度,從而得到按相似度排序的一系列網(wǎng)頁,設(shè)定一個(gè)相似度門限閾值,低于此閾值的網(wǎng)頁被去除,高于此閾值的保留,留做進(jìn)一步的分析使用。
(2)文本提取算法[6]:如何提取文章里的核心句子,關(guān)鍵詞,合成關(guān)鍵詞。
當(dāng)前的文本提取算法有很多,比如K-最近鄰分類算法(K_Nearest_neighbor)、樸素貝葉斯分類算法(NB)、支持向量機(jī)算法(SVM)、神經(jīng)網(wǎng)絡(luò)方法、最小平方擬合算法(LLSF)、線性回歸模型算法、決策樹算法(Decision Tree)等。
(3)對(duì)文本總結(jié)評(píng)價(jià)算法實(shí)現(xiàn):如何確定文本的評(píng)價(jià)結(jié)果,比如是正面的、中性的,還是負(fù)面的,評(píng)價(jià)的程度如何等。
通過對(duì)生成的數(shù)據(jù)表中關(guān)鍵詞或者合成關(guān)鍵詞和已有的數(shù)據(jù)字典匹配,賦予極性(POL)和權(quán)值(POW),極性有3種,分別是正面的(Pos)、中性的(Neu)、負(fù)面的(Neg),而權(quán)值是0到1之間的數(shù)字。數(shù)據(jù)字典需要人為的添加并不斷更新而生成,它是保證評(píng)價(jià)結(jié)果準(zhǔn)確性的關(guān)鍵。表1為一個(gè)數(shù)據(jù)字典表的例子。這里需要注意,如果關(guān)鍵詞前面有“很”、“非?!?、“特別”等表達(dá)程度的副詞時(shí),其權(quán)值應(yīng)相應(yīng)地按比例增加。
另外,不同的程序使用者可以按不同的目的選擇自己想要的信息。比如,一個(gè)負(fù)責(zé)酒店服務(wù)質(zhì)量的酒店經(jīng)理,往往會(huì)關(guān)注負(fù)面的評(píng)價(jià)結(jié)果,以找出自己企業(yè)的不足,從而改進(jìn)。因此,他在使用時(shí),可以降低對(duì)正面信息的關(guān)注度,而提高對(duì)負(fù)面信息關(guān)注的參數(shù)設(shè)定。而客戶經(jīng)理也會(huì)關(guān)注負(fù)面評(píng)價(jià),以便能盡快地改進(jìn)服務(wù),市場(chǎng)部經(jīng)理會(huì)比較關(guān)注正面的評(píng)價(jià),用這些數(shù)據(jù)加大網(wǎng)絡(luò)上對(duì)自己旅游產(chǎn)品的宣傳。
表1 數(shù)據(jù)字典表
本文分析了新網(wǎng)絡(luò)時(shí)代旅游博客和論壇對(duì)傳統(tǒng)旅游產(chǎn)業(yè)的影響以及如何使用旅游博客和論壇分析提高旅游產(chǎn)品質(zhì)量,提高自己的競(jìng)爭(zhēng)力,更進(jìn)一步可以預(yù)測(cè)旅游發(fā)展的趨勢(shì),從而有助于旅游管理者為將來的發(fā)展方向做決策。文中給出了軟件程序?qū)崿F(xiàn)的步驟,并分析了其中的核心問題,給出了解決方法。由于本軟件程序由多個(gè)模塊構(gòu)成,下一步的工作是要完成具體各個(gè)子模塊的算法實(shí)現(xiàn),選擇最優(yōu)的算法,以便進(jìn)一步提高此軟件程序的正確性。
[1]Archdale G.Computer reservation systems and public tourism offices[J].Tourism Management,1993:3-14.
[2]李莉,王靜.從“觀望者”到“購買者”:中國旅游電子商務(wù)消費(fèi)者購買決策行為探析[J].旅游學(xué)刊,2008,23(5):49-56.
[3]石建中,康偉,李志剛 .關(guān)于在線旅游企業(yè)網(wǎng)絡(luò)組織的研究 [J].旅游論壇,2011,21(5):48-53.
[4]王玉潔,顏琪,劉承良.旅游電子商務(wù)網(wǎng)站服務(wù)質(zhì)量的感知實(shí)證分析[J].旅游論壇,2009,10(1):28-31.
[5]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述 [J].計(jì)算機(jī)應(yīng)用,2005(9):25.
[6]曹鋒,張代遠(yuǎn).文本分類技術(shù)研究[J].電腦知識(shí)與技術(shù),2009,5(32):9023-9025.