張國(guó)明,王俊淑,江 南,盛業(yè)華
1. 南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210023; 2. 江蘇省衛(wèi)生統(tǒng)計(jì)信息中心,江蘇 南京 210008; 3. 南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023; 4. 江蘇省地理信息資源開(kāi)發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023
隨著智能手機(jī)的普及,以及Web2.0和定位技術(shù)的發(fā)展,地理位置信息在人們的生活中發(fā)揮越來(lái)越重要的作用。位置服務(wù)(LBS)與在線社交網(wǎng)絡(luò)(OSN)相結(jié)合的基于位置社交網(wǎng)絡(luò)(location-based social network,LBSN)[1]迅速興起。用戶可以在訪問(wèn)關(guān)注點(diǎn)(如超市、餐館、景點(diǎn)、酒店等)的同時(shí)進(jìn)行簽到。利用海量簽到數(shù)據(jù)能夠挖掘用戶的訪問(wèn)偏好,幫助用戶決策,催生了基于位置社交網(wǎng)絡(luò)的個(gè)性化關(guān)注點(diǎn)推薦。關(guān)注點(diǎn)推薦不僅可以幫助用戶探索新的區(qū)域和發(fā)現(xiàn)新的關(guān)注點(diǎn),也可以通過(guò)智能位置服務(wù)為商家增加收入,近幾年來(lái)吸引了學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注[2-4]。
推薦系統(tǒng)是緩解信息過(guò)載的重要方法,得到了廣泛的研究和應(yīng)用[5-8]。與傳統(tǒng)的推薦系統(tǒng)相比,關(guān)注點(diǎn)推薦更加復(fù)雜。除了用戶偏好、地點(diǎn)屬性之外,還需要考慮距離、時(shí)間、社交、類別、流行度等多種信息[9]。相對(duì)于傳統(tǒng)推薦系統(tǒng)中的用戶-物品矩陣,用戶簽到矩陣具有更高的稀疏度[10]。位置信息是LBSN中最重要的一個(gè)特征,目前大部分推薦研究?jī)H利用了位置信息的某個(gè)方面,位置上下文信息沒(méi)有被充分利用。此外,現(xiàn)有關(guān)注點(diǎn)推薦算法對(duì)用戶訪問(wèn)偏好的時(shí)空變化情況考慮不足。針對(duì)上述問(wèn)題,本文提出一種基于霍克斯過(guò)程(Hawkes process)的上下文感知協(xié)同過(guò)濾關(guān)注點(diǎn)推薦算法(HWCF),通過(guò)融合空間聚類信息、空間距離信息和空間序列變換信息等多個(gè)與位置相關(guān)的因素,結(jié)合時(shí)間信息、用戶偏好、關(guān)注點(diǎn)流行度等多種上下文信息,提高推薦性能。
隨著基于位置社交網(wǎng)絡(luò)的快速發(fā)展,關(guān)注點(diǎn)推薦受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。相關(guān)研究方法包括協(xié)同過(guò)濾算法(collaborative filtering,CF)[11]、矩陣分解算法、空間距離分布建模、基于好友關(guān)系、基于文本信息等。不同方法適用于不同的簽到數(shù)據(jù)集,如協(xié)同過(guò)濾算法的適用范圍最廣,它通過(guò)計(jì)算用戶-用戶相似度或關(guān)注點(diǎn)-關(guān)注點(diǎn)相似度進(jìn)行推薦??臻g距離分布建模方法適用于具有精確地理位置的數(shù)據(jù)集,根據(jù)用戶和關(guān)注點(diǎn)之間的距離建模。基于好友關(guān)系的關(guān)注點(diǎn)推薦方法適用于包含用戶好友列表的數(shù)據(jù)集,通過(guò)挖掘用戶與好友之間的相似度進(jìn)行推薦。下面對(duì)主流關(guān)注點(diǎn)推薦算法進(jìn)行闡述。
(1) 協(xié)同過(guò)濾法?,F(xiàn)有的關(guān)注點(diǎn)推薦大部分是基于協(xié)同過(guò)濾算法[11-12]。該方法認(rèn)為愛(ài)好相似的用戶訪問(wèn)的地點(diǎn)也大多相同。協(xié)同過(guò)濾算法分為兩種:基于用戶(user-based)[12-13]的協(xié)同過(guò)濾和基于物品(item-based,將關(guān)注點(diǎn)看作物品)[11]的協(xié)同過(guò)濾,前者計(jì)算用戶之間的相似度,后者計(jì)算關(guān)注點(diǎn)之間的相似度。
(2) 基于地理空間關(guān)系的方法。地理位置是關(guān)注點(diǎn)推薦的重要影響因素,距離用戶位置越近的地點(diǎn)被訪問(wèn)的概率越大[14-15]。根據(jù)用戶簽到地點(diǎn)的距離分布進(jìn)行數(shù)據(jù)建模,結(jié)果表明簽到位置呈現(xiàn)冪律分布或者高斯分布[16-17]。結(jié)合地理空間聚集現(xiàn)象,對(duì)用戶活動(dòng)區(qū)域與關(guān)注點(diǎn)影響區(qū)域建模,可以緩解稀疏性問(wèn)題[18]。文獻(xiàn)[19]利用核密度估計(jì)分析關(guān)注點(diǎn)的二維地理坐標(biāo)對(duì)用戶行為的影響,并結(jié)合用戶社會(huì)關(guān)系提高了推薦性能。
(3) 基于歷史簽到記錄的方法。用戶簽到記錄呈現(xiàn)一定的規(guī)律性,通過(guò)分析用戶歷史簽到記錄,可以預(yù)測(cè)下一個(gè)關(guān)注點(diǎn)[20-24]。如基于一階[22-23]和n階馬爾科夫鏈[24]來(lái)計(jì)算用戶的時(shí)空序列,僅考慮用戶的最后一個(gè)簽到地點(diǎn),來(lái)推測(cè)下一個(gè)可能被訪問(wèn)的關(guān)注點(diǎn)。
(4) 基于社會(huì)關(guān)系的方法。用戶與用戶之間的社交關(guān)系(好友關(guān)系)是基于位置社交網(wǎng)絡(luò)的重要特性,好友比陌生人更有可能分享共同的偏好。如基于好友的協(xié)同過(guò)濾方法[25]利用好友的共同簽到記錄進(jìn)行推薦。但由于用戶之間較少分享關(guān)注點(diǎn)簽到信息,單純利用社會(huì)關(guān)系對(duì)推薦性能提高有限[26]。
(5) 基于文本挖掘的方法。在LBSN中,用戶可以對(duì)關(guān)注點(diǎn)打分和評(píng)論。通過(guò)文本挖掘方法建模用戶對(duì)商家的點(diǎn)評(píng)行為[27-28],能夠更準(zhǔn)確了解用戶的興趣偏好進(jìn)行推薦。
(6) 多因素融合方法??紤]到關(guān)注點(diǎn)推薦受多種因素影響,僅使用單一因素的推薦算法,性能往往不高。大部分研究試圖融合地理空間信息、時(shí)間效應(yīng)、社會(huì)關(guān)系、內(nèi)容信息、流行度等多種因素來(lái)提高推薦效果[28-29]。
為進(jìn)行關(guān)注點(diǎn)推薦,本文使用基于用戶的協(xié)同過(guò)濾算法,根據(jù)用戶的簽到行為計(jì)算用戶之間的相似度。根據(jù)用戶簽到關(guān)注點(diǎn)的地理空間聚集現(xiàn)象[18]分析用戶行為,提取用戶特征進(jìn)行相似度比較。
首先,通過(guò)基于密度的空間聚類算法DBSCAN(density-based spatial clustering of applications with noise)將一定地理范圍之內(nèi)的關(guān)注點(diǎn)聚類為簇。聚類的結(jié)果除了得到簇以外,還會(huì)得到一些不屬于任何簇的噪聲點(diǎn)。然后,根據(jù)用戶Ui對(duì)興趣簇的簽到頻率將用戶Ui的特征表示為
Pi=A0,A1,A2,A3,…,Am(0≤i≤N)
(1)
式中,A0表示用戶Ui在噪聲點(diǎn)的簽到頻率;Ai到Am表示用戶Ui在m個(gè)簇中各自的簽到頻率。用戶Ui在第j個(gè)簇中的簽到頻率被定義為
(2)
它表示用戶Ui的所有n條簽到記錄中,有k條記錄屬于第j號(hào)簇。類似的,用戶Ui在噪聲點(diǎn)的活躍度定義為
(3)
最后,根據(jù)用戶的行為特征,可以計(jì)算出用戶之間的相似度。如果用戶i和用戶j有一些簽到地點(diǎn)屬于相同的簇,例如二者在第q號(hào)簇中均有簽到,則有
(4)
式中,Sij表示用戶i和用戶j的相似度;Q表示用戶i和用戶j都訪問(wèn)過(guò)的簇的集合。索引q必須為正數(shù),因此,噪聲點(diǎn)將不會(huì)被考慮在內(nèi)。根據(jù)式(4)計(jì)算的用戶相似度為每個(gè)用戶找出相似用戶列表,從相似用戶的歷史訪問(wèn)記錄中提取關(guān)注點(diǎn),作為用戶的候選關(guān)注點(diǎn)。
霍克斯過(guò)程是一種點(diǎn)過(guò)程,是1972年由Hawkes提出的一種特殊的線性自激模型[30]。該模型被廣泛應(yīng)用于各種領(lǐng)域的建模,如經(jīng)濟(jì)分析預(yù)測(cè)[31-32]、地震預(yù)測(cè)[33]、社交網(wǎng)絡(luò)建模[34-35]等?;艨怂惯^(guò)程認(rèn)為過(guò)去的事件會(huì)影響未來(lái)事件發(fā)生的概率,過(guò)去事件的激勵(lì)是正的、可加的并隨時(shí)間衰減的。本文將霍克斯過(guò)程引入到用戶簽到記錄的時(shí)空序列關(guān)系分析中,公式如下
(5)
式中,λk(t)表示當(dāng)前事件k(點(diǎn)過(guò)程)的發(fā)生強(qiáng)度(概率);μk≥0表示該自激過(guò)程的基礎(chǔ)強(qiáng)度;αik≥0表示歷史事件i對(duì)當(dāng)前事件k的激勵(lì)程度;δ為歷史事件激勵(lì)的時(shí)間衰減系數(shù);t為當(dāng)前事件k發(fā)生的時(shí)間;ti為歷史事件i發(fā)生的時(shí)間。
利用霍克斯過(guò)程建模關(guān)注點(diǎn)推薦的適應(yīng)性分析。為進(jìn)行關(guān)注點(diǎn)推薦,可以將霍克斯過(guò)程中的事件k定義為:用戶u訪問(wèn)了關(guān)注點(diǎn)lk,其發(fā)生強(qiáng)度為λk(t)。μk可表示為:用戶u訪問(wèn)關(guān)注點(diǎn)lk的基礎(chǔ)概率。αik可表示為:用戶u訪問(wèn)過(guò)關(guān)注點(diǎn)lj這一歷史事件對(duì)用戶訪問(wèn)新關(guān)注點(diǎn)lk的激勵(lì)程度。e-δ(t-ti)表示歷史事件激勵(lì)的時(shí)間衰減程度。每個(gè)用戶可以根據(jù)自己的歷史訪問(wèn)事件,建模個(gè)性化的霍克斯過(guò)程來(lái)估計(jì)訪問(wèn)新關(guān)注點(diǎn)的發(fā)生強(qiáng)度(概率),將發(fā)生強(qiáng)度λk(t)按大小排序后即可得到top-k推薦列表。下面詳細(xì)描述霍克斯過(guò)程相關(guān)參數(shù)的求解過(guò)程。
在關(guān)注點(diǎn)推薦中,用戶對(duì)關(guān)注點(diǎn)的訪問(wèn)概率與用戶到關(guān)注點(diǎn)的距離以及關(guān)注點(diǎn)流行度相關(guān)。本文使用改進(jìn)的哈夫模型對(duì)距離和流行度進(jìn)行建模,計(jì)算用戶訪問(wèn)關(guān)注點(diǎn)的基礎(chǔ)概率。
哈夫模型[36]由美國(guó)零售學(xué)者戴維哈夫提出,該模型將一個(gè)商場(chǎng)對(duì)顧客的吸引力歸功于兩個(gè)因素[37]:①商場(chǎng)的規(guī)模;②商場(chǎng)與消費(fèi)者的地理距離。原始哈夫模型表示如下
(6)
式中,Sj表示商場(chǎng)j的規(guī)模,可以通過(guò)營(yíng)業(yè)面積算出;dij為顧客i到商場(chǎng)j的距離;γ為距離衰減系數(shù)。在日本通商產(chǎn)業(yè)省的修正哈夫模型中,把γ值確定為2[37]。這意味著,用戶訪問(wèn)某商場(chǎng)的概率,與營(yíng)業(yè)面積成正比,與距離的平方成反比。哈夫模型在商場(chǎng)選擇、商業(yè)中心和零售業(yè)布局規(guī)劃、購(gòu)物中心市場(chǎng)份額預(yù)測(cè)中得到了大量應(yīng)用[38-39]。本文對(duì)哈夫模型進(jìn)行改進(jìn),使其適應(yīng)LBSN簽到數(shù)據(jù)集的特點(diǎn),進(jìn)而計(jì)算用戶訪問(wèn)關(guān)注點(diǎn)的基礎(chǔ)概率。
變量2:地理距離變量dij。原哈夫模型需要提供消費(fèi)者和商業(yè)設(shè)施的坐標(biāo)。在簽到數(shù)據(jù)集中,用戶的坐標(biāo)是時(shí)常變化的,將用戶最后一次簽到記錄所在的地理位置設(shè)為用戶當(dāng)前坐標(biāo)。
用半正矢空間距離(Haversine distance)[40]來(lái)計(jì)算用戶位置與候選關(guān)注點(diǎn)兩個(gè)坐標(biāo)在地平線上的距離。得到改進(jìn)后的哈夫模型表示如下
(7)
進(jìn)一步對(duì)哈夫模型通過(guò)sigmod函數(shù)進(jìn)行歸一化處理,得到自激過(guò)程的基礎(chǔ)強(qiáng)度
(8)
歷史事件j對(duì)當(dāng)前事件k的激勵(lì)程度αjk可以通過(guò)關(guān)注點(diǎn)轉(zhuǎn)移圖來(lái)計(jì)算。
定義1:關(guān)注點(diǎn)轉(zhuǎn)移圖[41]。(POI to POI Transition Graph)Graph=(L,E),它包含一系列的頂點(diǎn)L和邊E。每個(gè)頂點(diǎn)li(li∈L)表示一個(gè)關(guān)注點(diǎn),每個(gè)關(guān)注點(diǎn)都有一個(gè)出度,定義為OutDegree(li),它表示從li出發(fā)訪問(wèn)其他關(guān)注點(diǎn)的頻率。每條邊(li,lj)∈E表示從關(guān)注點(diǎn)li到關(guān)注點(diǎn)lj的一次轉(zhuǎn)移,每條邊包含的轉(zhuǎn)移次數(shù)的數(shù)據(jù),定義為EdgeWeight(li,lj)。
關(guān)注點(diǎn)轉(zhuǎn)移圖描述了每個(gè)關(guān)注點(diǎn)轉(zhuǎn)移到其他關(guān)注點(diǎn)及相應(yīng)的數(shù)據(jù),包括邊的轉(zhuǎn)移頻率和頂點(diǎn)的出度,以及一個(gè)關(guān)注點(diǎn)到其他各個(gè)關(guān)注點(diǎn)的訪問(wèn)概率值。
定義2:轉(zhuǎn)移概率。當(dāng)關(guān)注點(diǎn)li的出度不為0時(shí),即OutDegree(li)>0,則li→lj的轉(zhuǎn)移概率定義為T(mén)P(li→lj),計(jì)算如下
TP(li→lj)=
(9)
根據(jù)式(9)即可求得歷史事件j對(duì)當(dāng)前事件k的激勵(lì)程度αik=TP(li→lk)。歷史事件激勵(lì)的時(shí)間衰減系數(shù)δ為自由參數(shù),試驗(yàn)部分將詳細(xì)介紹該參數(shù)的調(diào)整方法并對(duì)其取值進(jìn)行分析。
3.1 數(shù)據(jù)集描述
3.1.1 Gowalla數(shù)據(jù)集
本試驗(yàn)使用的Gowalla數(shù)據(jù)集來(lái)自斯坦福大學(xué)公開(kāi)的大型網(wǎng)絡(luò)數(shù)據(jù)集收集網(wǎng)站(http:∥snap.stanford.edu/data/loc-gowalla.html.)。簽到數(shù)據(jù)Gowalla的源數(shù)據(jù)范圍覆蓋了全世界,每個(gè)地方的數(shù)據(jù)密度不一,不便于數(shù)據(jù)的挖掘工作。試驗(yàn)選取用戶簽到較為密集、數(shù)據(jù)質(zhì)量較高的紐約市曼哈頓區(qū)作為研究區(qū)域。地理范圍為:40.60°N—40.85°N,73.89°W—75.05°W。在Gowalla數(shù)據(jù)集中,紐約市曼哈頓區(qū)共計(jì)簽到75 940次,簽到時(shí)間跨度為2009年2月至2010年10月。該數(shù)據(jù)集中每個(gè)簽到記錄的存儲(chǔ)形式為:用戶ID、關(guān)注點(diǎn)ID、關(guān)注點(diǎn)坐標(biāo)位置、簽到時(shí)間。過(guò)濾掉簽到少于5次的用戶,并保證每個(gè)關(guān)注點(diǎn)至少被訪問(wèn)過(guò)10次。過(guò)濾后的試驗(yàn)數(shù)據(jù)集中包含59 336條簽到記錄,有1612個(gè)用戶共訪問(wèn)了2299個(gè)關(guān)注點(diǎn)。
3.1.2 Foursquare數(shù)據(jù)集
Foursquare是基于用戶地理位置信息的手機(jī)服務(wù)網(wǎng)站,鼓勵(lì)手機(jī)用戶同他人分享自己當(dāng)前所在地理位置等信息。試驗(yàn)使用文獻(xiàn)[42]所提供的Foursquare數(shù)據(jù)集中的日本東京簽到數(shù)據(jù)集,簽到時(shí)間跨度為2012年4月至2013年2月,包含573 703條簽到記錄。該數(shù)據(jù)集的每條簽到記錄存儲(chǔ)形式為:用戶ID、關(guān)注點(diǎn)ID、關(guān)注點(diǎn)類別ID、關(guān)注點(diǎn)類別名稱、關(guān)注點(diǎn)坐標(biāo)位置、簽到時(shí)間,試驗(yàn)沒(méi)有使用關(guān)注點(diǎn)類別相關(guān)信息。過(guò)濾掉簽到少于10次的用戶,并要求每個(gè)關(guān)注點(diǎn)被至少訪問(wèn)過(guò)10次。過(guò)濾后的試驗(yàn)數(shù)據(jù)集中包含357 147條簽到記錄,有2293個(gè)用戶共訪問(wèn)了7866個(gè)關(guān)注點(diǎn)。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)情況如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)
在試驗(yàn)中,根據(jù)每個(gè)用戶簽到記錄的時(shí)間順序選擇前80%的簽到數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,其余20%的簽到數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。根據(jù)算法計(jì)算用戶到候選關(guān)注點(diǎn)的訪問(wèn)概率,并按概率大小排序后得到top-k個(gè)關(guān)注點(diǎn)推薦給用戶。為評(píng)價(jià)推薦效果,采用推薦算法中常用的兩個(gè)標(biāo)準(zhǔn)[43]:準(zhǔn)確率(precision)和召回率(recall)作為評(píng)價(jià)指標(biāo)。
準(zhǔn)確率(precision)定義了推薦算法得出的關(guān)注點(diǎn)與用戶實(shí)際訪問(wèn)的關(guān)注點(diǎn)相符的個(gè)數(shù)在推薦結(jié)果中所占的比例。對(duì)于某個(gè)用戶u,Ru代表推薦算法的結(jié)果(result)集合,Tu代表測(cè)試集中用戶u所實(shí)際簽到(test)的關(guān)注點(diǎn)集合,準(zhǔn)確率表示如下
(10)
召回率定義了推薦算法得出的關(guān)注點(diǎn)集合Ru與用戶實(shí)際訪問(wèn)的關(guān)注點(diǎn)集合Tu中相同的關(guān)注點(diǎn)個(gè)數(shù)在用戶測(cè)試集中所占的比例,召回率表示如下
(11)
為了驗(yàn)證霍克斯過(guò)程模型(HWCF)的推薦效果,試驗(yàn)將與以下算法進(jìn)行對(duì)比:
(1) HFCF。該算法對(duì)應(yīng)本文所提出的霍克斯過(guò)程模型基礎(chǔ)強(qiáng)度部分,利用了關(guān)注點(diǎn)的距離信息和流行度信息。
(2) AMC。該算法對(duì)應(yīng)本文所提出的霍克斯過(guò)程模型時(shí)間影響部分,通過(guò)加和馬爾可夫挖掘用戶歷史簽到記錄的時(shí)序影響。
(3) ASVD++[44]。該算法通過(guò)分解簽到矩陣,挖掘用戶和關(guān)注點(diǎn)的隱含特征,獲取用戶的訪問(wèn)偏好。計(jì)算時(shí)采用隱式評(píng)分,即將簽到次數(shù)通過(guò)函數(shù)f(x)=x/K歸一化到(0,1]范圍內(nèi)作為評(píng)分,K是用戶的最大簽到次數(shù)。
(4) AOBPR[45]。該算法通過(guò)排序?qū)W習(xí)從隱式反饋中挖掘用戶興趣,并向用戶推薦top-k個(gè)關(guān)注點(diǎn),是比較先進(jìn)的排序推薦算法。
(5) LORE[41]。該算法融合了社會(huì)關(guān)系、空間距離、流行度、用戶偏好、時(shí)間信息等多種上下文信息,并取得了比其他模型更好的效果。如CoRe[19]、USG[46]等。Foursquare數(shù)據(jù)集不包含社會(huì)關(guān)系信息, 將使用2.1節(jié)計(jì)算的相似用戶代替朋友關(guān)系。
DBSCAN聚類算法的兩個(gè)參數(shù)鄰域半徑和密度閾值,試驗(yàn)中取值分別為100和2。求解霍克斯過(guò)程模型自激強(qiáng)度的哈夫模型有兩個(gè)參數(shù):距離衰減系數(shù)γ和關(guān)注點(diǎn)流行度的彈性系數(shù)β。γ根據(jù)日本通商產(chǎn)業(yè)省的修正哈夫模型,取值為2,自由參數(shù)β在Gowalla數(shù)據(jù)集中設(shè)為3.5,在Foursquare中設(shè)為5?;艨怂惯^(guò)程模型中歷史事件i對(duì)事件k的激勵(lì)程度αik根據(jù)2.2節(jié)的方法計(jì)算得出。歷史事件激勵(lì)的時(shí)間衰減系數(shù)δ是自由參數(shù),在Gowalla數(shù)據(jù)集中設(shè)為-0.5,在Foursquare中設(shè)為-0.001,δ越小說(shuō)明衰減越低,歷史事件與當(dāng)前事件的時(shí)間差按小時(shí)計(jì)算。
對(duì)于霍克斯過(guò)程模型(HWCF)的兩個(gè)自由參數(shù)β和δ,采用交替調(diào)參的方法來(lái)求取最佳參數(shù):首先固定β,調(diào)整δ使推薦準(zhǔn)確率達(dá)到最好,然后固定δ,調(diào)整β使推薦準(zhǔn)確率達(dá)到最好,一般迭代上述過(guò)程3至5次即可達(dá)到較好的效果。
3.5.1 方法對(duì)比
各推薦算法在Gowalla數(shù)據(jù)集和Foursquare數(shù)據(jù)集上的推薦準(zhǔn)確率和召回率分別如圖1和圖2 所示??梢园l(fā)現(xiàn),準(zhǔn)確率隨k值的增加而下降,召回率隨k值的增加而上升。如果為用戶返回更多的關(guān)注點(diǎn)(即k值較大),就可以從中發(fā)現(xiàn)更多用戶可能訪問(wèn)的關(guān)注點(diǎn),但由于推薦的其余關(guān)注點(diǎn)的訪問(wèn)概率會(huì)隨k值的增加而逐漸降低,導(dǎo)致這些關(guān)注點(diǎn)被用戶訪問(wèn)的可能性也會(huì)減小,并且由于Foursquare數(shù)據(jù)集的測(cè)試數(shù)據(jù)更多,召回率會(huì)更低,從而導(dǎo)致算法差別不明顯。
從圖1和圖2可以看出,霍克斯過(guò)程模型(HWCF)在兩個(gè)試驗(yàn)數(shù)據(jù)集上的推薦效果遠(yuǎn)遠(yuǎn)優(yōu)于基于矩陣分解的算法ASVD++和基于排序?qū)W習(xí)的算法AOBPR。這兩種算法僅考慮了簽到次數(shù),沒(méi)有利用空間和時(shí)間信息。雖然在Gowalla數(shù)據(jù)集中本文算法的top-1推薦性能略低于HFCF算法,但總體來(lái)看,霍克斯過(guò)程模型(HWCF)明顯優(yōu)于僅考慮距離和流行度信息的HFCF算法和僅考慮時(shí)序相關(guān)信息的AMC算法。盡管LORE算法利用了距離、流行度、時(shí)間、社會(huì)關(guān)系等信息,但本文算法取得了更好的效果,尤其在Gowalla數(shù)據(jù)集上的優(yōu)勢(shì)更為明顯。
圖1 Gowalla數(shù)據(jù)集上的top-k推薦性能對(duì)比Fig.1 The performance comparison of top-k recommendation on Gowalla data set
圖2 Foursquare數(shù)據(jù)集上的top-k推薦性能對(duì)比Fig.2 The performance comparison of top-k recommendation on Foursquare data set
3.5.2 參數(shù)影響
本文算法有兩個(gè)自由參數(shù):流行度彈性系數(shù)并β和時(shí)間衰減系數(shù)δ。圖3和圖4分別顯示了Gowalla與Foursquare數(shù)據(jù)集上兩個(gè)參數(shù)的取值對(duì)推薦性能的影響,試驗(yàn)對(duì)比了參數(shù)取值不同時(shí)top-k(k=1,2,3,4,5)推薦的平均準(zhǔn)確率和召回率。
當(dāng)參數(shù)β≤2時(shí)兩個(gè)數(shù)據(jù)集的效果都較差,這是因?yàn)榫嚯x衰減系數(shù)γ被固定為2。在Gowalla數(shù)據(jù)集中,當(dāng)2.5≤β≤4時(shí)效果最好,此后平均準(zhǔn)確率和召回率略有下降;在Foursquare數(shù)據(jù)集中,當(dāng)5≤β≤6時(shí),效果最好,此后變化并不明顯。因此,一般情況下流行度彈性系數(shù)β可選取范圍為3至5,表明用戶簽到概率與關(guān)注點(diǎn)流行度成指數(shù)關(guān)系,這也反映了一些實(shí)際現(xiàn)象,比如知名度高的景點(diǎn)游客數(shù)量可能達(dá)到普通景點(diǎn)游客數(shù)量的幾十倍。
參數(shù)δ在兩個(gè)數(shù)據(jù)集中差異較大。在Gowalla數(shù)據(jù)集中,當(dāng)δ>-0.1時(shí),推薦效果下降明顯,當(dāng)δ=0(無(wú)衰減)時(shí)效果最差,當(dāng)δ≤-0.3 時(shí)差別不大。而在Foursquare數(shù)據(jù)集中,當(dāng)δ=-0.001時(shí)取得最大值,當(dāng)δ=0(無(wú)衰減)時(shí),效果略低于最大值,當(dāng)δ值減小時(shí)推薦效果變化不明顯。這是因?yàn)镕oursquare數(shù)據(jù)集中歷史簽到影響的時(shí)間衰減程度遠(yuǎn)遠(yuǎn)低于Gowalla數(shù)據(jù)集。因此,在時(shí)間衰減越小的數(shù)據(jù)集中,δ取值應(yīng)越小。
針對(duì)關(guān)注點(diǎn)推薦本文提出了基于霍克斯過(guò)程模型的上下文感知協(xié)同過(guò)濾推薦算法HWCF,綜合利用了空間聚類信息、空間距離信息、空間序列變換信息、時(shí)間信息、用戶個(gè)性化歷史偏好、全體用戶偏好、關(guān)注點(diǎn)流行度信息等多個(gè)上下文信息,在一定程度上緩解了數(shù)據(jù)稀疏的問(wèn)題,并在真實(shí)的LBSN數(shù)據(jù)集中進(jìn)行了試驗(yàn)驗(yàn)證。與其他關(guān)注點(diǎn)推薦方法相比,HWCF算法的推薦質(zhì)量有顯著提高。
圖3 Gowalla數(shù)據(jù)集上的參數(shù)β(a)和參數(shù)δ(b)的影響Fig.3 The influence of β and δ on Gowalla data set
圖4 Foursquare數(shù)據(jù)集上的參數(shù)β(a)和參數(shù)δ(b)的影響Fig.4 The influence of β and δ on Foursquare data set
HWCF算法仍有很大改進(jìn)空間,在未來(lái)工作中,將進(jìn)一步融合其他上下文信息,如關(guān)注點(diǎn)類別信息、用戶文本評(píng)論信息、評(píng)分信息、時(shí)間周期規(guī)律等進(jìn)一步提高推薦質(zhì)量。本文提出的霍克斯模型的參數(shù)本質(zhì)上是基于馬爾可夫決策過(guò)程計(jì)算得出的,在線上推薦時(shí),可以嘗試引入深度強(qiáng)化學(xué)習(xí)建模用戶的動(dòng)態(tài)轉(zhuǎn)移概率對(duì)該參數(shù)進(jìn)行優(yōu)化。