徐潔 范玉順 白冰
摘要:針對旅游文本噪聲多、景點多且展示不直觀的問題,提出一種基于概率主題模型的景點主題模型。模型假設同一篇文檔涉及多個具有相關關系的景點,引入“全局景點”過濾噪聲語義,并利用Gibbs采樣算法估計最大似然函數(shù)的參數(shù),獲取目的地景點的主題分布。實驗通過對景點主題特征進行聚類,評估聚類效果從而間接評價模型訓練效果,并定性分析“全局景點”對模型的作用。實驗結果表明,該模型對旅游文本的建模效果優(yōu)于基準算法TF-IDF與隱含狄利克雷分布(LDA),且“全局景點”的引入對建模效果有明顯的改善作用。最后通過景點關聯(lián)圖的方式對實驗結果進行可視化展示。
關鍵詞:概率主題模型;旅游文本;噪聲;Gibbs采樣;可視化
中圖分類號:TP391
文獻標志碼:A
0引言
Web 2.0技術及在線旅游代理(Online Travel Agent, OTA)的飛速發(fā)展導致旅游數(shù)據(jù)爆炸性增長。如何有效地從海量旅游數(shù)據(jù)中挖掘出有用的信息并以直觀方式進行展示成為當前的迫切需求。
近年來,對旅游數(shù)據(jù)的挖掘工作多集中于對旅游照片及相應元數(shù)據(jù)、標簽的研究,如文獻[1-2]等利用Flickr網(wǎng)站用戶上傳的海量旅游照片及標簽信息對景點進行聚類分析;文獻[3]從Panoramio[4]網(wǎng)站采集照片聚成地標,并為每個地標找到最具代表性的照片與標簽等。隨著文本數(shù)據(jù)挖掘的快速發(fā)展,旅游文本數(shù)據(jù)相關的研究工作方興未艾,相關研究工作通??煞譃閮深悾丛~頻分析法和主題挖掘法。詞頻分析法利用詞頻統(tǒng)計結果進行文本分析,如文獻[5]采用詞頻分析法刻畫目的地旅游感知形象,文獻[6]利用內(nèi)容分析法(Content Analysis, CA)獲取目的地語義網(wǎng)絡分析圖等。該類方法將單詞視為單純的文本符號,無法識別其中的語義信息。主題挖掘法采用或擴展隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)[7],利用潛在主題識別語義信息,從而提高文本數(shù)據(jù)挖掘的效果,如文獻[8-9]提出一種地點主題(Location-Topic, LT)模型用于挖掘目的地的主題分布信息,以文本標簽形式生成目的地概述。然而旅游目的地由景點組成,目的地特征由景點的類型與特征構成,同一文本可能涉及不同景點,這些景點間具有地理位置、主題等關聯(lián)關系(如圖1方框標注),上述方法對地點劃分粒度較大且沒有考慮景點關聯(lián)關系。另外,旅游文本中常包含時間、門票、電話等與景點主題特征相關性不大的信息,即“噪聲語義”(如圖1橢圓標注),多數(shù)主題挖掘方法沒有考慮噪聲語義消除問題,LT模型雖可利用“全局主題”過濾噪聲語義,但模型復雜度較高。為充分利用景點間的關聯(lián)關系,有效消除噪聲語義,本文提出一種簡單的基于概率主題模型的景點主題模型(Scenic spots-Topic Model with Global Scenic spot,GS-STM)以無監(jiān)督地從旅游文本中挖掘景點主題分布信息,并以景點關聯(lián)圖的形式展示旅游目的地的景點類型與主題特征。
1相關工作
1.1概率主題模型
概率主題模型是針對文本中隱含主題的一種建模方法。由于不需要對文檔進行人工標注及可自動分析主題的特點,概率主題模型已被成功運用到多種文本挖掘問題中。它的主要思想是認為文檔是若干主題的混合分布,而每個主題又是一個關于單詞的概率分布。
自提出以來,概率主題模型經(jīng)歷了潛在語義分析(Latent Sematic Analysis, LSA)[11]、概率潛在語義分析(probabilistic Latent Sematic Analysis, pLSA)[12]、LDA、 分層狄利克雷過程(Hierarchical Dirichlet Process, HDP)[13]等階段的發(fā)展,目前以LDA應用最為廣泛。LDA是一種生成模型:對于新文檔中的每個單詞,通過主題的分布隨機得到文檔的某個主題,然后通過該主題中單詞的分布隨機得到一個單詞。
如圖2所示,LDA是典型的有向概率圖模型[14],超參數(shù)α反映了文檔集合中隱含主題間的相對強弱,超參數(shù)β刻畫所有隱含主題自身的概率分布。
1.2可視化模型
可視化技術因具備直觀、易理解的特點被廣泛應用于各個領域,它用二維或三維圖像的方式展現(xiàn)數(shù)據(jù),便于發(fā)現(xiàn)數(shù)據(jù)的分布特征及其中蘊含的模式特征[15]。圖是一種典型的數(shù)據(jù)結構,很多數(shù)據(jù)均可通過圖來表達。
力導向模型(force directed model)是一種基于物理方法的可視化模型。該模型將圖類比為一個虛擬的物理系統(tǒng),圖的各個節(jié)點看作系統(tǒng)中的質點,節(jié)點之間的邊看作節(jié)點間的相互作用力(同時包括引力和斥力)。模型將胡克定律作為基本算法,每次迭代,節(jié)點向所受合力的方向移動,經(jīng)足夠的迭代后,系統(tǒng)達到平衡,此時系統(tǒng)中的能量達到最小,圖的可視化顯示最為美觀。
力導向算法基本過程如下:
1)隨機分布初始節(jié)點位置;
2)分別計算局部區(qū)域內(nèi)邊的引力和斥力所產(chǎn)生的兩端節(jié)點的單位位移;
3)累加步驟2)得到的所有節(jié)點的單位位移;
4)重復步驟2)、3)直到達到理想效果。
2景點主題模型
本章介紹GS-STM,并采用Gibbs采樣[16]算法對模型進行求解,從而獲得景點與主題、主題與單詞之間的概率分布。
從圖4可以看出,三種基于概率主題模型的方法——GS-STM、STM、LDA的DBI值均低于TF-IDF,說明基于概率主題模型的方法能夠有效利用文檔中的語義信息;不同主題數(shù)下,GS-STM、STM的DBI值均高于LDA,說明考慮文檔中多個景點對提升模型建模效果是有效的;而GS-STM的DBI值總是高于STM,說明全局景點的引入能明顯改善模型建模效果。
3.3.2定性分析
分別采用GS-STM、STM對旅游文本進行訓練,結果顯示當主題數(shù)為80時,訓練效果最好。設定主題數(shù)為80,STM得到80個主題,而GS-STM方法得到68個有效主題、12個無效主題。
表2~4分別列出了GS-STM訓練得到的5個“有效主題”“無效主題”及STM得到的5個主題,每個主題顯示5個
最相關單詞和5個最相關景點。
表2中,“有效主題”對應特定景點類型,如“運動”“購物”“電影”等主題。具有地理相關或主題相關關系的景點被列入同一主題,如Topic#38中,“鳥巢”“奧林匹克體育中心”等體育場館被列入同一主題,同時與之地理鄰近且主題相關的“奧林匹克森林公園”等也被列入同一主題。
表3中,從主題最相關單詞角度看,各主題中單詞多為“噪聲語義”,如Topic#32中,“門票”“電話”“世界”等在多數(shù)景點介紹文檔中均有出現(xiàn);從主題最相關景點角度看,各主題中全局景點概率最大,且遠高于其他景點,因而利用全局景點將該類主題設為“無效景點”是合理有效的。
表4中,Topic#8Ⅱ和Topic#19Ⅱ分別對應表5中的“購物”主題和“電影”主題,即Topic#4和Topic#75,對比主題相關單詞構成可見,Topic#8Ⅱ和Topic#19Ⅱ中的“電話”“核心”等單詞并不能準確描述并區(qū)分主題,GS-STM通過全局景點將這些詞歸屬到“無效主題”(Topic#17,Topic#32)中,從而有效減少主題描述單詞中的噪聲語義,使得主題描述單詞更準確有效;Topic#55Ⅱ、Topic#67Ⅱ、Topic#78Ⅱ所示主題中的單詞并不能準確描述相關景點,實為“無效主題”,STM不能識別。
5結語
本文基于概率主題模型提出了一種景點主題模型,用以無監(jiān)督地從海量的旅游文本中挖掘景點類型與主題特征。模型中引入“全局景點”以過濾噪聲語義及無效主題。聚類實驗表明,該模型可利用旅游文本中多景點關聯(lián)關系更準確地捕捉景點主題特征,且“全局景點”的引入能明顯改善模型訓練效果。另外,本文利用復雜網(wǎng)絡圖對模型訓練結果進行可視化展示,形成旅游目的地景點關聯(lián)圖。
由于概率主題模型發(fā)展迅速,本文后續(xù)研究擬基于HDP改進景點主題模型,自動計算主題變量個數(shù),以期進一步提高模型效果。
參考文獻:
[1]KOFLER C, CABALLERO L, MENENDEZ M, et al. Near2me: an authentic and personalized social media-based recommender for travel destinations [C]// WSM 11: Proceedings of the 2011 3rd ACM SIGMM International Workshop on Social Media. New York: ACM, 2011:47-52.
[2]CAO L, LUO J, GALLAGHER A, et al. A worldwide tourism recommendation system based on geotagged Web photos[C]// Proceedings of the 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2010: 2274-2277.
[3]JIANG K, WANG P, YU N. ContextRank: personalized tourism recommendation by exploiting context information of geotagged Web photos [C]// ICIG 11: Proceedings of the 2011 Sixth International Conference on Image and Graphics. Washington, DC: IEEE Computer Society, 2011: 931-937.
[4]Panoramio [EB/OL]. [2015-12-10]. http://www.panoramio.com/.
[5]王媛,許鑫,馮學鋼,等.基于文本挖掘的古鎮(zhèn)旅游形象感知研究——以朱家角為例[J].旅游科學,2013,27(5):86-95. (WANG Y, XU X, FENG X G, et al. Research on tourists percieved image of ancient town using Web text mining methods: a case study of Zhujiajiao [J]. Tourism Science, 2013, 27(5): 86-95.)
[6]方雅賢,宋文琴.基于網(wǎng)絡文本分析旅游目的地形象——以大連為例[J].旅游世界·旅游發(fā)展研究,2014(4):24-31.(FANG Y X, SONG W Q. Research of tourism destination image based on Web text analysis:a case study of Dalian[J]. Journal of Tourism Development, 2014(4):24-31.)
[7]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[8]MA W-Y, WANG C, WANG J, et al. Mining geographic knowledge using a location aware topic model: US, US7853596[P]. 2010-12-14.
http://xueshu.baidu.com/s?wd=paperuri%3A%28f871f2037dbb26c8cbbe6bd3fe4751d5%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fwww.freepatentsonline.com%2F7853596.html&ie=utf-8&sc_us=11965384391652939608
Publication Date: 12/14/2010
Filing Date: 06/21/2007
[9]HAO Q, CAI R, WANG X-J, et al. Generating location overviews with images and tags by mining user-generated travelogues [C]// MM 09: Proceedings of the 2009 17th ACM International Conference on Multimedia.New York: ACM, 2009: 801-804.
[10]HAO Q, CAI R, WANG C, et al. Equip tourists with knowledge mined from travelogues [C]// WWW 10: Proceedings of the 2010 International Conference on World Wide Web. New York: ACM, 2010:401-410.
[11]LANDAUER T K, DUMAIS S T. A solution to Platos problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge [J]. Psychological Review, 1997, 104(2): 211-240.
[12]HOFMANN T. Probabilistic latent semantic analysis [C]// UAI 99: Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1999: 289-296.
[13]TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical Dirichlet processes [J]. Journal of the American Statistical Association, 2006, 101(476):1566-1581.
[14]KOLLER D, FRIEDMAN N. Probabilistic Graphical Models: Principles and Techniques — Adaptive Computation and Machine Learning[M]. Cambridge, MA: MIT Press, 2011: 45-93.
[15]周寧,吳佳鑫,張少龍.基于圖的Web信息可視化探析[J].情報學報,2008,27(5):714-720. (ZHOU N, WU J X, ZHANG S L. Research on graph based Web information visualization [J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(5): 714-720.)
[16]CASELLA G, GEORGE E I. Explaining the Gibbs sampler [J]. American Statistician, 1992, 46(3): 167-174.
[17]百度旅游[EB/OL]. [2015-11-10]. http://lvyou.baidu.com/. (Baidu Travel[EB/OL]. [2015-11-10]. http://lvyou.baidu.com/.)
[18]WU H C, LUK R W P, WONG K F, et al. Interpreting TF-IDF term weights as making relevance decisions [J]. ACM Transactions on Information Systems, 2008, 26(3): Article No. 13.
[19]周志華.機器學習[M].北京.清華大學出版社,2016:198-199. (ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2016: 198-199)
[20]ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents [C]// UAI 04: Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, US: AUAI Press, 2010: 487-494.
[21]文益民,史一帆,蔡國永,等.個性化旅游推薦研究綜述[J].計算機科學,2014.(WEN Y M, SHI Y F, CAI G Y, et al. A survey of personalized travel recommendation[J]. Computer Science, 2014)