史海燕 郭海玲
摘 要:在線旅游信息推薦是目前信息推薦的重要應(yīng)用領(lǐng)域。在對(duì)已有旅游信息推薦方法進(jìn)行梳理的基礎(chǔ)上,提出了一種基于文本挖掘的在線旅游信息推薦方法。該方法從文本信息中提取旅游景點(diǎn)的內(nèi)容特征,基于內(nèi)容特征構(gòu)建用戶偏好模型,基于相似度計(jì)算實(shí)現(xiàn)旅游景點(diǎn)的推薦。實(shí)驗(yàn)表明,提出的方法可以取得較優(yōu)推薦效果。
關(guān)鍵詞:信息推薦;旅游信息;推薦方法
中圖分類號(hào):F2 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.06.013
信息推薦是解決信息超載問題的有效方法之一,也是提供個(gè)性化信息服務(wù)的主要途徑。信息推薦技術(shù)或系統(tǒng)可以幫助用戶從動(dòng)態(tài)變化的信息流中過濾更符合用戶需求的信息,降低用戶的信息獲取成本,減輕用戶信息負(fù)擔(dān),滿足用戶個(gè)性化的信息需求。隨著社會(huì)經(jīng)濟(jì)的發(fā)展,旅游成為人們經(jīng)常開展的活動(dòng)之一,而已有研究表明,網(wǎng)絡(luò)已成為用戶搜索和預(yù)定旅游服務(wù)的主要信息來源。網(wǎng)絡(luò)空間擁有豐富的旅游信息資源,如旅游線路信息、景點(diǎn)評(píng)論信息、游記、旅游攻略信息等,但從紛繁復(fù)雜的信息中提取用于旅游決策的信息需要花費(fèi)大量的時(shí)間和精力,用戶需要有效的方法來解決這一問題,旅游信息推薦成為信息推薦重要的研究與應(yīng)用領(lǐng)域。本文對(duì)國(guó)內(nèi)外在線旅游信息推薦方法進(jìn)行梳理,在此基礎(chǔ)上提出一種基于文本信息挖掘的在線旅游信息推薦方法。
1 國(guó)內(nèi)外在線旅游信息推薦方法
信息推薦的基本方法可以分為基于內(nèi)容的推薦、協(xié)作式推薦和混合式推薦?;趦?nèi)容的推薦需要提取待推薦項(xiàng)目的內(nèi)容特征,在此基礎(chǔ)上構(gòu)建用戶偏好模型,基于用戶偏好模型實(shí)現(xiàn)推薦。協(xié)作式推薦可以分為基于用戶的協(xié)作式推薦和基于項(xiàng)目的協(xié)作式推薦,前者基于相似用戶推薦,后者基于相似項(xiàng)目推薦?;旌鲜酵扑]是將基于內(nèi)容的推薦和協(xié)作式推薦兩種方法進(jìn)行整合。具體到旅游信息推薦領(lǐng)域,根據(jù)推薦對(duì)象的不同,在線旅游信息推薦可以分為三類。
1.1 旅游地點(diǎn)推薦研究
這一類研究面向特定的旅游地點(diǎn)或興趣點(diǎn)進(jìn)行推薦。Xu等利用用戶社交網(wǎng)絡(luò)中照片的地理標(biāo)簽獲取用戶的數(shù)字足跡,基于用戶在特定情境(季節(jié)和天氣)下旅游歷史的主題分布為用戶推薦旅游地點(diǎn)。Clements等基于同時(shí)訪問某一位置的用戶數(shù)量,利用位置在共現(xiàn)空間的高斯密度估計(jì)來聚類相關(guān)的地理標(biāo)簽,以此計(jì)算兩個(gè)旅游地點(diǎn)的相似度,進(jìn)而提供推薦。TREC(Text Retrieval Coference,文本檢索會(huì)議)的情境化建議任務(wù)(Contextual Suggestion Track)利用用戶偏好和時(shí)空情境(后期僅包括空間情境)推薦POI(興趣點(diǎn))。
1.2 旅游套餐推薦
這一類研究面向組合成套的旅游產(chǎn)品進(jìn)行推薦,如旅游公司提供的包含多個(gè)旅游景點(diǎn)、旅游天數(shù)、價(jià)格及配套服務(wù)的旅游套餐產(chǎn)品。Ge等考慮用戶的時(shí)間成本和經(jīng)濟(jì)成本,為用戶推薦旅行套餐。Xie等構(gòu)建的CompRec-Trip系統(tǒng)也是在考慮用戶時(shí)間成本和經(jīng)濟(jì)成本的基礎(chǔ)上提供旅游套餐推薦服務(wù)。Yu等利用基于位置的社交網(wǎng)絡(luò)構(gòu)建用戶和位置的模型,通過協(xié)作式過濾確定用戶的偏好,同時(shí)考慮用戶偏好和時(shí)空約束為用戶推薦旅游套餐。
1.3 旅游線路推薦
這類研究關(guān)注的是旅游地點(diǎn)間的序列關(guān)系。Tsai和Chung考慮用戶偏好和時(shí)間,為用戶提供主題公園路線推薦。Zheng和Xie通過對(duì)用戶歷史GPS軌跡的挖掘?yàn)橛脩籼峁┨囟臻g區(qū)域內(nèi)景點(diǎn)及線路的推薦。
2 基于文本挖掘的旅游景點(diǎn)推薦方法
本文提出的方法是一種基于內(nèi)容的信息推薦方法,推薦的對(duì)象是旅游景點(diǎn)信息。該方法首先從旅游景點(diǎn)的描述文本中提取文本特征,將文本特征作為旅游景點(diǎn)的內(nèi)容特征。其次基于用戶對(duì)旅游景點(diǎn)的評(píng)分?jǐn)?shù)據(jù),計(jì)算用戶對(duì)不同景點(diǎn)特征的興趣度(即偏好程度),在此基礎(chǔ)上建立用戶偏好模型。最后基于用戶偏好與待推薦景點(diǎn)的相似度進(jìn)行排序推薦。
2.1 文本特征的提取
在基于內(nèi)容的信息推薦中,如何提取待推薦項(xiàng)目的內(nèi)容特征是關(guān)鍵問題之一。對(duì)于旅游景點(diǎn)的推薦,已有研究中提取特征的方法大致分為基于類屬特征進(jìn)行提取、基于研究者選擇的特征提取以及基于文本特征的提取。第一種方法是將旅游景點(diǎn)分類,以類目名稱作為旅游景點(diǎn)的內(nèi)容特征,這一方法易于實(shí)現(xiàn),但不能反映單個(gè)景點(diǎn)特有的屬性特征。第二種方法是由研究者選擇特定的屬性作為旅游景點(diǎn)的內(nèi)容特征,如位置、價(jià)位、季節(jié)等,這一方法雖能凸顯景點(diǎn)的屬性特征,但通常研究者所選擇的屬性僅限于少數(shù),因此對(duì)于景點(diǎn)特征的呈現(xiàn)也并不充分。本文擬采用第三種方法,即從旅游景點(diǎn)的描述文本中提取文本特征,將文本特征作為旅游景點(diǎn)的內(nèi)容特征。網(wǎng)絡(luò)空間中分布著大量的旅游景點(diǎn)信息,為提取內(nèi)容特征提供了豐富的語(yǔ)料,也可以從中提取更為多元的內(nèi)容特征。
文本特征的提取有多種方法,如逆文檔頻率(TFIDF)、信息增益、互信息、N-Gram法、卡方統(tǒng)計(jì)等,本文選取逆文檔頻率法。TFIDF作為一種文本特征抽取的基本方法,具有簡(jiǎn)單高效的特點(diǎn),在文本信息處理領(lǐng)域有著廣泛的應(yīng)用,其基本原理為:一個(gè)詞在某一文檔中出現(xiàn)的頻次越多,該詞對(duì)文檔內(nèi)容的貢獻(xiàn)越大,權(quán)值越高;一個(gè)詞在某一文檔集合中出現(xiàn)在越少的文檔中,其對(duì)文檔的區(qū)分能力越強(qiáng),權(quán)值越高。在對(duì)旅游景點(diǎn)的描述文本信息進(jìn)行采集和預(yù)處理后,計(jì)算特征項(xiàng)的TFIDF值,將TFIDF值大于特定閾值的特征項(xiàng)提取為景點(diǎn)的內(nèi)容特征。
2.2 用戶偏好建模
用戶偏好模型(user profile),也稱之為用戶模型(user model)、用戶個(gè)性化模型(user personal profile),通常描述的是用戶興趣和資源特征等概念節(jié)點(diǎn)和節(jié)點(diǎn)間的關(guān)聯(lián)。本文采用向量空間模型表示用戶偏好,具體如下:
興趣度的計(jì)算為這一方法的核心問題。本文將用戶ui對(duì)屬性ak的興趣度sk定義如下:
2.3 相似度計(jì)算
在構(gòu)建了用戶偏好模型后,就可以基于用戶偏好模型進(jìn)行旅游景點(diǎn)的排序推薦。將旅游景點(diǎn)表示為其內(nèi)容特征的向量形式,通過計(jì)算景點(diǎn)向量與用戶偏好模型的相似度即可以實(shí)現(xiàn)排序推薦。相似度的計(jì)算方法有多種形式,本文采取較為常用的余弦公式。
3 實(shí)驗(yàn)及結(jié)果
為驗(yàn)證本文方法的有效性,研究者采集了數(shù)據(jù)并進(jìn)行了計(jì)算機(jī)實(shí)驗(yàn)。首先是實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)備。本實(shí)驗(yàn)所需數(shù)據(jù)包括兩方面:一是旅游景點(diǎn)的描述文本語(yǔ)料庫(kù);二是用戶的評(píng)分?jǐn)?shù)據(jù)。描述文本語(yǔ)料庫(kù)通過自動(dòng)采集與人工采集相結(jié)合的方式構(gòu)建,最終得到5032條旅游景點(diǎn)及相應(yīng)的描述文本。用戶評(píng)分?jǐn)?shù)據(jù)通過問卷調(diào)查的方法獲得,調(diào)查了39位用戶對(duì)100個(gè)旅游景點(diǎn)的偏好信息。實(shí)驗(yàn)基于Windows操作系統(tǒng),利用Python編程實(shí)現(xiàn)文本信息特征提取、用戶偏好模型的構(gòu)建及相似度的計(jì)算。選取查全率、查準(zhǔn)率和F均值作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果顯示,本文提出的基于文本信息挖掘的推薦方法取得了較好推薦效果。
參考文獻(xiàn)
[1]Xu Z.X.,Chen L.,Chen G..Topic based context-aware travel recommendation method exploiting geotagged photos[J].Neurocomputing ,2015 ,155(C):99-107.
[2]Clements M.,Serdyukov P.,Vries A.P.,et al..Personalised travel recommendation based on location co-occurrence[J].Computer Science,2011,June:1-30.
[3]Ge Y.,Liu Q.,Xiong H..,et al..Cost-aware travel tour recommendation[C]//Proceedings of the 11th KDD,San Diego,California,USA,2011:983-991.
[4]Xie M.,Lakshmanan L.V.S.,Wood P.T..CompRec-Trip:A composite recommendation system for travel planning[C]// International Conference on Data Engineering,Hannover,Germany,2011:1352-1355.
[5]Yu Z.,Xu H.,Yang Z.,et al..Personalized travel package with multi-Point-of-Interest recommendation based on crowdsourced user footprints[J].IEEE Transactions on Human-Machine Systems,2015,46(1):1-8.
[6]Tsai C.Y.,Chung S.H..A personalized route recommendation service for theme parks using RFID information and tourist behavior[J].Decision Support Systems ,2012,52(2):514-527.
[7]Zheng Y.,Xie X..Learning travel recommendation from user-generated GPS trajectories[J].CM Transaction on Intelligent Systems and Technologies,2011,2(1):389-396.