蔡清
(平頂山學(xué)院 藝術(shù)設(shè)計(jì)學(xué)院,河南 平頂山 467000)
截至2018年12月,森林旅游呈現(xiàn)出蓬勃發(fā)展的態(tài)勢(shì),其倡導(dǎo)綠色健康理念[1]并且在減緩高血壓[2]、抑郁癥[3]、糖尿病[4]、調(diào)節(jié)情緒[5]等方面所具有一定的功效。因此,針對(duì)不同用戶需求進(jìn)行個(gè)性化的森林旅游景點(diǎn)定制化服務(wù)成為了旅游行業(yè)(特別是在線旅游網(wǎng)站)的新興熱點(diǎn)和贏利點(diǎn)。推薦系統(tǒng)可以通過(guò)分析用戶的歷史行為數(shù)據(jù)來(lái)對(duì)其下一步的行為進(jìn)行預(yù)測(cè),進(jìn)而達(dá)到提供個(gè)性化服務(wù)的目的[6-7]。推薦系統(tǒng)已被廣泛應(yīng)用于各種類(lèi)型的互聯(lián)網(wǎng)服務(wù)中,如淘寶的商品推薦、騰訊視頻的影視推薦等[8-9]。關(guān)于旅游景點(diǎn)推薦的研究,國(guó)內(nèi)外已有相當(dāng)豐碩的研究成果。國(guó)內(nèi)學(xué)者分別從內(nèi)容的推薦[10]、知識(shí)的推薦[11]、域適應(yīng)的推薦[12]、位置感知的推薦[13]、人口統(tǒng)計(jì)的推薦[14]、協(xié)同過(guò)濾的推薦[15]及組合推薦[16]等角度對(duì)個(gè)性化旅游推薦方法進(jìn)行了研究。國(guó)外學(xué)者則從融合地理圖片信息[17]、社交網(wǎng)絡(luò)數(shù)據(jù)[18]等角度對(duì)個(gè)性化旅游景點(diǎn)推薦方法進(jìn)行了深入的研究。但是上述方法在定制個(gè)性化旅游方案時(shí),并未考慮對(duì)備選景點(diǎn)的旅游熱度進(jìn)行預(yù)測(cè)分析,往往導(dǎo)致推薦結(jié)果缺少個(gè)性化、實(shí)時(shí)性的特點(diǎn)[19]。因此,運(yùn)用隱特征分析模型和旅游景點(diǎn)熱度分析模型相融合的個(gè)性化森林旅游景點(diǎn)推薦方法,不僅為游客提供一份專(zhuān)屬的個(gè)性化森林旅游景點(diǎn)推薦列表,而且在推薦準(zhǔn)確度方面有明顯的提升。
數(shù)據(jù)選取自雅虎旗下的圖片分享網(wǎng)站Flickr(https://www.flickr.com/)。Flickr是一家專(zhuān)注于提供免費(fèi)/付費(fèi)服務(wù)的數(shù)碼照片存儲(chǔ)、分享方案網(wǎng)上服務(wù),以及提供社群服務(wù)的互聯(lián)網(wǎng)平臺(tái)。在Flickr網(wǎng)站上,每張圖片中都會(huì)包含標(biāo)題、圖片介紹、用戶ID、上傳時(shí)間和Geo信息等內(nèi)容。因此,常被用來(lái)作為個(gè)性化旅游景點(diǎn)推薦、圖片識(shí)別、旅游線路規(guī)劃等研究的數(shù)據(jù)源。
研究設(shè)計(jì)了融合旅游景點(diǎn)熱度分析模型和隱特征分析模型的個(gè)性化森林旅游景點(diǎn)推薦框架(圖1)。該框架通過(guò)對(duì)用戶旅游偏好數(shù)據(jù)和旅游景點(diǎn)的訪問(wèn)量進(jìn)行分析,預(yù)測(cè)用戶對(duì)未去森林旅游景點(diǎn)感興趣程度,對(duì)下一個(gè)可能要去的森林旅游景點(diǎn)做出實(shí)時(shí)推薦。
圖 1 個(gè)性化森林旅游景點(diǎn)推薦框架圖Figure 1 Framework of personalized forest tourist attractions recommendation
1.2.1 隱特征分析模型
⑴
式中Rk表示測(cè)試集;λ為防止模型過(guò)擬合的正則化參數(shù),具體的求解過(guò)程可參考文獻(xiàn)[6]。
1.2.2 旅游景點(diǎn)熱度分析模型
雖然隱特征分析模型可以達(dá)到評(píng)分預(yù)測(cè)的目的,但是隱特征分析模型沒(méi)有考慮到森林旅游景點(diǎn)隨時(shí)間變化而產(chǎn)生的熱度變化的問(wèn)題。比如某個(gè)森林旅游景點(diǎn)在過(guò)往的某個(gè)時(shí)刻熱度很高,而隨著人們森林旅游習(xí)慣的改變,其不再符合現(xiàn)代森林旅游消費(fèi)的趨勢(shì),那么該森林旅游景點(diǎn)的熱度就會(huì)迅速衰減;相反,某個(gè)以前未被大眾發(fā)現(xiàn)的森林旅游景點(diǎn),通過(guò)互聯(lián)網(wǎng)或其他途徑的宣傳逐漸被人們認(rèn)知了解,該森林旅游景點(diǎn)的熱度可能會(huì)迅速暴漲。因此,提出一種基于用戶評(píng)論時(shí)間的旅游景點(diǎn)熱度分析模型,對(duì)森林旅游景點(diǎn)的實(shí)時(shí)熱度情況進(jìn)行分析打分,以此彌補(bǔ)隱特征分析模型的不足,從而達(dá)到更好的個(gè)性化推薦效果。對(duì)于森林旅游景點(diǎn)i而言,熱度分析模型如下所示:
⑵
式中Ui表示去過(guò)森林旅游景點(diǎn)i的用戶集合;Ki表示森林旅游景點(diǎn)i的度,即為所有去過(guò)森林旅游景點(diǎn)i的用戶數(shù)|Ui|;tji表示用戶j去森林旅游景點(diǎn)i旅游的時(shí)間;t0表示森林旅游景點(diǎn)最早的評(píng)論時(shí)間。
根據(jù)式⑵所定義的熱度分析模型,如果一個(gè)存在很久的森林旅游景點(diǎn)近期旅游人數(shù)突然增加,那么它相對(duì)應(yīng)的熱度值就會(huì)增高;相反,某些過(guò)往游客人數(shù)很高的森林旅游景點(diǎn)近期旅游人數(shù)下降,那么它的整體熱度值也會(huì)降低。
1.2.3 融合旅游景點(diǎn)熱度分析和隱特征分析模型的推薦評(píng)分方法
通過(guò)隱特征分析模型對(duì)用戶評(píng)分行為的預(yù)測(cè),以及旅游景點(diǎn)熱度分析模型對(duì)旅游景點(diǎn)熱度的分析預(yù)測(cè),最終可以得到一個(gè)用戶對(duì)未知景點(diǎn)的綜合性評(píng)分(fu,i),其表達(dá)式如下:
⑶
1.2.4 評(píng)價(jià)方法
對(duì)于森林旅游景點(diǎn)推薦算法性能的評(píng)價(jià),選擇均方根誤差(RMSE)作為衡量推薦算法評(píng)分預(yù)測(cè)性能的指標(biāo)。其中RMSE的值越小,說(shuō)明推薦算法的預(yù)測(cè)評(píng)分性能越好。具體的表達(dá)式[6]如下所示:
⑷
為了對(duì)推薦算法所產(chǎn)生的推薦列表(即Top-K)的性能進(jìn)行分析,可采用準(zhǔn)確率(precision)來(lái)對(duì)其進(jìn)行評(píng)估,其具體的表達(dá)式如下所示[6]:
⑸
式中R(u)表示推薦算法產(chǎn)生的針對(duì)用戶u的推薦列表,T(u)表示用戶u在測(cè)試集Rk當(dāng)中的真實(shí)列表。U表示用戶集合;K表示推薦列表的長(zhǎng)度。
研究使用文獻(xiàn)[17]的方法來(lái)獲得森林旅游景點(diǎn)相關(guān)的數(shù)據(jù)。首先,通過(guò)調(diào)用Fickr API接口來(lái)獲得Ficker相關(guān)數(shù)據(jù)集,F(xiàn)ickr API允許用戶通過(guò)景點(diǎn)名(place_id)來(lái)得到對(duì)應(yīng)的照片數(shù)據(jù)集。其次,通過(guò)照片的id信息可以找到照片的上傳者、評(píng)論內(nèi)容、拍攝時(shí)間等信息。最后,通過(guò)對(duì)照片數(shù)據(jù)集進(jìn)行處理,整合得到研究所需要的森林景點(diǎn)照片集。該數(shù)據(jù)集包含的有用戶信息、景點(diǎn)位置信息以及相對(duì)應(yīng)的評(píng)價(jià)信息。數(shù)據(jù)集總共包含了14.761 2萬(wàn)名用戶對(duì)4.879 4萬(wàn)個(gè)景點(diǎn)的819.607 7萬(wàn)條評(píng)論信息。同時(shí)把數(shù)據(jù)集按照8∶2的比例進(jìn)行劃分,其中80%的數(shù)據(jù)用來(lái)做訓(xùn)練集建立模型,剩余20%的數(shù)據(jù)用來(lái)做測(cè)試集。
隱特征分析模型在不同λ下的RMSE值變化如表1所示。
表1 隱特征分析模型在不同λ下RMSE值變化Table 1 RMSE value of latent feature analysis model under different λ
首先,通過(guò)對(duì)收集到的14.761 2萬(wàn)名用戶對(duì)4.879 4萬(wàn)個(gè)景點(diǎn)的819.607 7萬(wàn)條評(píng)論信息統(tǒng)計(jì)分析,研究發(fā)現(xiàn)平均每位旅客訪問(wèn)的森林旅游景點(diǎn)的個(gè)數(shù)為46.99,每一個(gè)景點(diǎn)被不同旅客訪問(wèn)的平均數(shù)為141.95。從統(tǒng)計(jì)的森林旅游訪問(wèn)數(shù)據(jù)得出,相對(duì)于眾多的森林旅游景點(diǎn),游客所訪問(wèn)的景點(diǎn)只是占了少數(shù),同時(shí)也印證了森林旅游還是有很大的潛力挖掘。面對(duì)眾多的景點(diǎn),游客很容易陷入信息爆炸的困境,而采用以機(jī)器學(xué)習(xí)為代表的推薦算法來(lái)對(duì)用戶智能推送感興趣的未去景點(diǎn)。這樣,顯然是一個(gè)不錯(cuò)的選擇。其次,由于森林旅游數(shù)據(jù)的極度稀疏性(所構(gòu)造的游客-森林景點(diǎn)關(guān)系矩陣的稀疏度為0.1%),傳統(tǒng)的森林旅游推薦方法往往根據(jù)統(tǒng)計(jì)分析方法的進(jìn)行,其原理是簡(jiǎn)單的根據(jù)游客對(duì)景點(diǎn)訪問(wèn)次數(shù)的統(tǒng)計(jì)而做出判斷,即游客訪問(wèn)比較多的景點(diǎn),容易被推薦給未去過(guò)該景點(diǎn)的游客,這樣容易造成熱門(mén)景點(diǎn)的人越來(lái)越多,而其他景點(diǎn)的人數(shù)卻越來(lái)越少。眾所周知,對(duì)于全部的森林景點(diǎn)而言,熱門(mén)景點(diǎn)所占的比例很小,長(zhǎng)期以往難免可能會(huì)導(dǎo)致熱門(mén)森林景點(diǎn)旅游服務(wù)質(zhì)量下降,不利于該景點(diǎn)的長(zhǎng)期健康發(fā)展。區(qū)別于根據(jù)統(tǒng)計(jì)分析的景點(diǎn)推薦方法,根據(jù)隱特征分析模型為代表的機(jī)器學(xué)習(xí)推薦方法,通過(guò)對(duì)高維稀疏的森林景點(diǎn)訪問(wèn)數(shù)據(jù)采用低維映射的方法,在低維空間中解析特征向量來(lái)對(duì)游客未去的森林景點(diǎn)的感興趣程度進(jìn)行預(yù)測(cè)打分。同時(shí)正則化項(xiàng)的加入可以有效解決隱特征分析模型在訓(xùn)練過(guò)程中由于數(shù)據(jù)稀少所導(dǎo)致的過(guò)擬合問(wèn)題。為尋找最優(yōu)的正則化系數(shù),以此達(dá)到更精準(zhǔn)預(yù)測(cè)的效果。在這里采用常用的網(wǎng)格搜索的方法,參考文獻(xiàn)[7]將正則化系數(shù)λ的取值選擇同樣設(shè)定在[2-1,2-10],采用RMSE指標(biāo)對(duì)未去森林景點(diǎn)的評(píng)分預(yù)測(cè)效果進(jìn)行分析(表1和表2)。結(jié)果表明:較少的森林旅游數(shù)據(jù)很容易使隱特征分析模型陷入過(guò)擬合或者欠擬合的狀態(tài),進(jìn)而導(dǎo)致對(duì)森林旅游景點(diǎn)的評(píng)分預(yù)測(cè)精度下降;正則化參數(shù)對(duì)森林旅游景點(diǎn)的評(píng)分預(yù)測(cè)精度和模型的收斂速度都有明顯的調(diào)節(jié)作用;正則化參數(shù)的取值與最終的預(yù)測(cè)精度并不是成簡(jiǎn)單的線性關(guān)系(即正比或者反比關(guān)系),用戶對(duì)森林景點(diǎn)的評(píng)分行為并不能簡(jiǎn)單的采用線性模型來(lái)描述,因?yàn)橛脩艉蜕志包c(diǎn)之間是一個(gè)連續(xù)相互影響的非線性過(guò)程。
表2 隱特征分析模型在不同λ下的最優(yōu)RMSETable 2 Optimal RMSE of latent feature analysis model under different λ
數(shù)據(jù)集收集了14.761 2萬(wàn)名用戶對(duì)4.879 4萬(wàn)個(gè)景點(diǎn)的819.607 7萬(wàn)條評(píng)論,其所構(gòu)成了用戶-森林景點(diǎn)關(guān)系矩陣的大小為147 612×48 794,因此該矩陣是一個(gè)典型的高維、稀疏矩陣。而對(duì)于這類(lèi)高維稀疏矩陣的處理方法,一般都需對(duì)其進(jìn)行降維,在低維空間用稠密向量表示形式進(jìn)行分析。截至2018年12月,傳統(tǒng)的奇異值分解(SVD)在處理這類(lèi)高維稀疏矩陣時(shí),首先要對(duì)稀疏矩陣進(jìn)行補(bǔ)全,用戶-森林景點(diǎn)關(guān)系矩陣是極度稀疏,稀疏度僅為0.1%(即矩陣中99.9%的元素值是缺失的),一旦將用戶-森林景點(diǎn)關(guān)系矩陣補(bǔ)全,其將導(dǎo)致存儲(chǔ)關(guān)系矩陣所需的空間成倍增長(zhǎng),將增加了額外的存儲(chǔ)開(kāi)銷(xiāo)。其次,傳統(tǒng)的SVD分解方法只適用于稠密矩陣,而像用戶-森林景點(diǎn)關(guān)系矩陣一旦補(bǔ)全后,由于矩陣的維度很高,就會(huì)造成計(jì)算復(fù)雜度成倍增加,進(jìn)而導(dǎo)致計(jì)算效率下降,因此不適應(yīng)對(duì)時(shí)效性有要求的個(gè)性化景點(diǎn)推薦。而同樣對(duì)于隱特征分析模型LFM而言,雖然其不需要對(duì)高維稀疏矩陣進(jìn)行補(bǔ)全,但是低維特征空間的維度f(wàn)會(huì)對(duì)模型的計(jì)算時(shí)間和精度造成一定的影響。為了尋找最合理的特征維度,對(duì)LFM在不同的特征維度f(wàn)下的表現(xiàn)進(jìn)行實(shí)驗(yàn),f的取值分別為20、40、60、80和100(表3)。結(jié)果表明:不同的特征縮減維度對(duì)最終的評(píng)分預(yù)測(cè)效果是有影響的。一般而言,特征維度f(wàn)取值越大,表明所考慮到影響用戶-森林景點(diǎn)關(guān)系矩陣中評(píng)分值的因素越多,而這樣的LFM的預(yù)測(cè)效果也會(huì)越來(lái)越高。當(dāng)特征維度取值大于60時(shí),LFM模型的預(yù)測(cè)精度反而在下降(表2)。這說(shuō)明過(guò)多的考慮影響游客對(duì)森林景點(diǎn)打分的因素反而是無(wú)益的。因此,在森林景點(diǎn)推薦時(shí),應(yīng)該考慮比較重要的因素,而不是考慮的因素越多越好。
表3 LFM性能隨不同特征維度的變化情況Table 3 The change of LFM performance with different feature dimensions
雖然LFM模型在森林景點(diǎn)評(píng)分預(yù)測(cè)方面具有很好的效果,但是LFM模型更多的是通過(guò)挖掘游客對(duì)森林景點(diǎn)評(píng)分信息中所隱藏的用戶和景點(diǎn)之間的關(guān)聯(lián)性而對(duì)用戶對(duì)景點(diǎn)的旅游偏好做出預(yù)測(cè),但是其并未考慮到森林旅游所特有的特點(diǎn),即它是一項(xiàng)戶外運(yùn)動(dòng),很大程度上會(huì)受到季節(jié)、天氣等時(shí)間因素的影響。因此,研究提出了旅游景點(diǎn)熱度分析模型來(lái)考慮時(shí)間因素對(duì)景點(diǎn)推薦的影響,分別考慮了當(dāng)推薦列表長(zhǎng)度為10和20時(shí),不同推薦算法的性能表現(xiàn)。在推薦列表長(zhǎng)度為10時(shí),單純采用LFM模型的方法的準(zhǔn)確率為0.01,而采用融合景點(diǎn)熱度分析模型的LFM方法可以使準(zhǔn)確率提高27%。當(dāng)推薦列表長(zhǎng)度為20時(shí),準(zhǔn)確率的提升可以達(dá)到37%。結(jié)果表明:旅游景點(diǎn)推薦算法不僅要注重推薦結(jié)果的準(zhǔn)確性,而且要注重推薦結(jié)果的新穎性。像森林旅游景點(diǎn)推薦這類(lèi)服務(wù),應(yīng)當(dāng)充分考慮到景點(diǎn)受季節(jié)和人們?cè)u(píng)論的影響,而融合景點(diǎn)熱度分析模型的個(gè)性化森林景點(diǎn)推薦方法通過(guò)計(jì)算旅游景點(diǎn)自設(shè)立之初和當(dāng)前時(shí)間(數(shù)據(jù)集中時(shí)間戳)不同用戶對(duì)景點(diǎn)的評(píng)價(jià)次數(shù)來(lái)評(píng)估該景點(diǎn)當(dāng)前或者未來(lái)的旅游熱度,正好充分考慮了森林景點(diǎn)的生命周期對(duì)推薦效果的影響作用,因此可以取得比較好的個(gè)性化森林旅游推薦效果。
針對(duì)森林旅游景點(diǎn)數(shù)據(jù)所特有的稀疏性和高維性,通過(guò)調(diào)整隱特征分析模型的正則化參數(shù)和設(shè)計(jì)合理的特征壓縮維度來(lái)得到很好的解決。同時(shí),針對(duì)大部分個(gè)性化旅游景點(diǎn)推薦算法過(guò)分注重于推薦結(jié)果準(zhǔn)確性的問(wèn)題,通過(guò)融合景點(diǎn)熱度分析模型的方法來(lái)提升推薦算法的新穎性和準(zhǔn)確性。
第一,加強(qiáng)森林旅游個(gè)性化推薦的新穎性。森林旅游景點(diǎn)受時(shí)間因素影響較大,針對(duì)森林旅游旅游景點(diǎn)的個(gè)性化推薦,充分考慮森林旅游景點(diǎn)的生命周期,融合旅游景點(diǎn)熱度分析提升森林旅游景點(diǎn)推薦的新穎性。第二,加強(qiáng)森林旅游個(gè)性化推薦算法的優(yōu)化。在采用根據(jù)機(jī)器學(xué)習(xí)的森林旅游景點(diǎn)個(gè)性化推薦算法研究時(shí),針對(duì)森林景點(diǎn)數(shù)據(jù)的稀疏和高維性,應(yīng)當(dāng)充分考慮模型參數(shù)對(duì)推薦結(jié)果的敏感性,融合網(wǎng)絡(luò)搜索或者啟發(fā)式智能算法等方法來(lái)對(duì)模型的參數(shù)進(jìn)行最優(yōu)化設(shè)計(jì)。
林業(yè)經(jīng)濟(jì)問(wèn)題2020年1期