歐 丹
(四川信息職業(yè)技術學院消費者行為研究中心,四川 廣元 628000)
智慧旅游[1]的概念最近受到學術界和實踐者的廣泛關注。該概念旨在通過發(fā)展互聯(lián)網(wǎng)、通信、大數(shù)據(jù)等技術為基礎,加快服務創(chuàng)新,改善旅游體驗,增強目的地競爭力。特別是隨著社交網(wǎng)絡不斷發(fā)展,大量用戶在網(wǎng)上分享自己的旅游體驗,照片和視頻在網(wǎng)絡信息中占有很大的比例,并且在不斷添加或更新,這為多媒體、數(shù)據(jù)挖掘以及地理相關的研究和應用提供了新的研究機遇和挑戰(zhàn)[2]。
近幾年來,基于數(shù)據(jù)挖掘的個性化推薦一直是一個熱門研究課題,備受國內外學者廣泛關注。孟祥武等[3]對大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)關鍵技術、效用評價以及應用實踐等進行了概括、比較和分析,并對大數(shù)據(jù)環(huán)境下推薦系統(tǒng)有待深入研究的難點和發(fā)展趨勢進行了展望。李杰等[4]提出了適用于個性化推薦的強關聯(lián)規(guī)則,并給出一種基于矩陣的強關聯(lián)規(guī)則挖掘算法,避免了對冗余規(guī)則的挖掘,從而提高了挖掘效率。徐國虎等[5]分析了大數(shù)據(jù)環(huán)境下的O2O 電商用戶數(shù)據(jù)特征,提出O2O 電商用戶數(shù)據(jù)挖掘框架。劉樹棟等[6]從分析基于位置的社會化網(wǎng)絡的結構特征入手,對基于位置的社會化網(wǎng)絡推薦系統(tǒng)的基本框架、基于不同網(wǎng)絡層次數(shù)據(jù)挖掘的推薦方法及應用類型等進行概括、比較和分析。
然而在旅游推薦的媒體數(shù)據(jù)(例如照片)不僅包含諸如標簽、標題、注釋和描述之類的文本信息,而且還被標記為拍攝照片的時間上下文(即拍攝照片的時間)和空間上下文(即以緯度和經(jīng)度表示的位置)。
為此,主要研究了基于地理標記照片的上下文感知的個性化推薦系統(tǒng),該結構能夠實現(xiàn)地理標記的社交媒體處理語義上有意義的個性化旅游地點推薦的動態(tài)查詢。
在介紹個性化旅游推薦系統(tǒng)之前,先給出一些基本概念和術語。
定義1:(地理標記照片)地理標記照片p可以定義為p=(id,t,g,X,u),其中id為照片的惟一標識。g為地理標記,表示照片的拍攝地理區(qū)域。t為時間戳。u為貢獻照片的用戶標識。每個照片p可以用一組文本標記X進行注釋。
定義2:(照片集合)所有游客貢獻的照片集合可表示為P={P1,P2,…,Pu,…,Pn} ,其中Pu是用戶u提供的照片集合。
定義3:(位置)位置l表示熱點旅游或景點的地理區(qū)域,例如公園、湖泊或博物館等。
定義4:(上下文感知查詢)上下文感知查詢Q定義為Q=(t,w),t表示時間上下文,w表示天氣上下文。
基于數(shù)據(jù)挖掘的個性化旅游推薦系統(tǒng)旨在根據(jù)用戶給定的地理標記照片集合,定位和總結旅游地點,并建立每個用戶的旅游歷史,以獲得其旅游偏好,從而進行上下文感知的個性化查詢,推薦最適合其興趣的旅游地點。
個性化旅游推薦系統(tǒng)架構如圖1 所示。通過利用照片的空間位置來尋找旅游地點,并結合Web 服務提供的信息,對照片進行注釋的文本標記來豐富聚集地點的語義注釋。進一步,利用地理標簽和帶有照片注釋的時間標簽獲得時間上下文信息。同時,通過查詢第三方天氣Web 服務檢索天氣狀況獲得天氣上下文信息。接著,通過繪制用戶和旅游景點之間的關系來模擬用戶的出行偏好。然后,利用這些用戶的偏好來估計用戶之間的相似度。為了提供個性化推薦,研究首先根據(jù)上下文約束過濾位置,然后根據(jù)個性化得分對位置進行排序。
從地理標記照片集合中識別旅游地點是一個典型的聚類問題。給定一組照片P,本研究使用PDBSCAN[7]對照片進行聚類,根據(jù)照片的地理標簽來識別旅游地點。P-DBSCAN 的輸出是一組位置(照片簇)L={l1,l2,…,ln} 。每個元素l={Pl,gl} ,其中Pl是一組地理上聚集的照片,gl表示照片的簇Pl的質心地理坐標。
利用基于空間鄰近度的聚類算法識別出的旅游景點,可以在用戶UI界面上進行可視化顯示。為了給出位置的語義標注,研究提供了一種新方法,該方法使用文本標簽對照片進行注釋,并結合在線Web 服務提供的信息,自動生成每個旅游地點的文本描述。
當完成利用照片的空間鄰近性對照片進行聚類,找到旅游景點,并對景點進行語義標注后,接下來將對位置進行分析,從而建立旅游景點概況和偏好旅游景點數(shù)據(jù)庫。
首先從不同用戶在旅游景點拍攝的照片中識別用戶的位置信息。對于每個位置l∈L,根據(jù)每個用戶u的照片拍攝時間對照片進行排序。時間t時,用戶u在位置l拍攝的照片p記為用戶訪問v。注意,用戶u可在同一v中在同一位置拍攝多張照片。因此,如果同一用戶在同一地點拍攝的2張照片(p2.t-p1.t)的時間戳之差小于訪問持續(xù)時間閾值Tv,則認為這兩張照片屬于同一次訪問。此外,將與照片相關的時間戳中位數(shù)記為用戶的某次訪問時間v.t。
在識別不同用戶對不同地點的訪問后,接著建立了一個地點數(shù)據(jù)庫LDB={l1,l2,…,ln} ,其中每個位置li={Vli,pop(w),pop(t)} ,Vli是不同用戶對位置li的訪問,pop(w)是天氣上下文信息,pop(t)是位置li的時間上下文信息。
為了描述用戶群U對一組位置L的興趣程度,構建了用戶U和位置L之間的鏈接(即訪問集V),這一過程可描述為一個無向圖GUL,定義為式(1)。
式中,U和L分別表示用戶集合和位置集合的節(jié)點。EUL和WUL是U和L之間的邊和邊權重的集合,表示用戶的訪問量和訪問特定位置的次數(shù)。
在給定m個用戶和n個位置的情況下,構造了圖GUL的m×n鄰接矩陣MUL。
式中,vij表示第i個用戶訪問第j個位置的次數(shù)。
在鄰接矩陣MUL中,用戶up的旅游興趣可以記為數(shù)組Rp=
進一步,根據(jù)用戶的旅游偏好計算用戶之間的相似度,并構建用戶相似度矩陣MUU。
式中,sim(up,uq)為用戶up和uq的相似性程度,計算公式如式(4)所示。該值越大意味著兩個用戶在出行偏好方面更為相似。
令某次查詢記為Q=(t,w)。個性化旅游推薦過程可總結如下。首先,需要使用時態(tài)上下文概念抽象時態(tài)上下文t,使用天氣上下文概念抽象天氣上下文w。其次,從滿足查詢中給定的上下文約束的位置數(shù)據(jù)庫檢索目標城市的位置,從而生成一組過濾后的旅游位置L。再次,利用用戶偏好的用戶-位置矩陣MUL和表示用戶之間相似性的MUU進行個性化推薦。從MUU中,系統(tǒng)將檢索訪問過目標城市的N個最相似用戶U′之間的相似度,并利用公式(5)從L中預測每個位置li的偏好。主要采用了協(xié)同過濾算法[8],將推薦用戶一些過去有相似品味和偏好的人喜歡的旅游景點。
接著,使用用戶up和uq之間的相似度sim(up,uq)作為權重來計算每個位置li的排名分數(shù)。因此,up和uq越相似,rqi在li預測中的權重就越大。最后,在計算用戶對L中每個位置li的偏好后,根據(jù)偏好得分對位置進行排序,并返回k個位置作為查詢結果。
為了衡量系統(tǒng)的性能,使用了精確度、召回率、F1 分數(shù)和平均精度(MAP)等指標。
表1 為本文方法與傳統(tǒng)數(shù)據(jù)挖掘Apriori、Eclat、決策樹及邏輯回歸等算法的比較。由表1 可以看出,所有模型都會隨著推薦列表的增加,精確度下降,召回率上升,且本文方法模型優(yōu)于其他方法,實現(xiàn)了53%的F1 和74%的MAP,而最差的是Apriori方法達到了48%的F1和58%的MAP,二者之間MAP相差16 個百分點。
表1 網(wǎng)絡安全驗證包的比較 (單位:%)
本研究進一步考慮了標簽向量的維數(shù)。根據(jù)標簽向量的大小將測試數(shù)據(jù)集分為6 組,每組用相應大小的項集建議進行評估。圖2 為最終測試結果。由圖2 可以看出,本文方法、邏輯回歸和決策樹方法基本上都優(yōu)于Apriori 和Eclat 算法。本文方法最終平均推薦準確率能夠達到80%左右。
研究了數(shù)據(jù)挖掘中個性化旅游推薦問題,并提出利用多媒體、數(shù)據(jù)挖掘以及地理信息相關技術實現(xiàn)滿足時間上下文及空間上下文的個性化旅游推薦系統(tǒng)。此外,還提出了一種根據(jù)用戶的當前情境對旅游地進行過濾,然后以協(xié)同過濾的方式對旅游地進行排序,從而進行個性化推薦的方法。