亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學習方法在興趣點推薦中的應(yīng)用研究綜述

        2022-01-14 03:01:46湯佳欣周孟瑩
        計算機工程 2022年1期
        關(guān)鍵詞:特征用戶方法

        湯佳欣,陳 陽,周孟瑩,王 新

        (1.復旦大學計算機科學技術(shù)學院,上海 201203;2.復旦大學上海市智能信息處理重點實驗室,上海 201203)

        0 概述

        智能手機的普及以及全球定位系統(tǒng)的發(fā)展促進了基于位置的社交網(wǎng)絡(luò)(Location-Based Social Network,LBSN)的進步,如Foursquare、Yelp、Instagram、大眾點評等社交網(wǎng)絡(luò)得到廣泛關(guān)注與應(yīng)用。興趣點(Point of Interest,POI)推薦是LBSN 提供的一項重要服務(wù),其一方面可以方便用戶規(guī)劃行程、快速發(fā)現(xiàn)感興趣的興趣點,另一方面也可以幫助興趣點服務(wù)提供商和廣告商更全面深入地了解用戶偏好,從而發(fā)掘更準確的市場目標群體并引入更有針對性的廣告策略來吸引用戶。

        LBSN 中包含大量用戶和興趣點信息,能夠為挖掘用戶偏好提供支撐。在一個典型的LBSN 中,用戶可以通過在興趣點簽到以記錄其行程,一次簽到(Checkin)可以用一個“<用戶,興趣點,時間戳>”三元組表示。一個用戶的多次簽到記錄可以根據(jù)時間戳排序構(gòu)成其簽到序列,即用戶軌跡。簽到記錄直接反映了用戶對興趣點的偏好。此外,用戶還可以在LBSN 中發(fā)表對興趣點的評價、上傳照片、關(guān)注其他用戶并分享他們對于興趣點的感受、與其他用戶之間形成社交好友關(guān)系等,上述內(nèi)容信息和社交關(guān)系信息也隱含了用戶偏好。因此,興趣點推薦服務(wù)的實現(xiàn)可以依托于從LBSN 的豐富信息中挖掘出的用戶偏好。

        傳統(tǒng)推薦系統(tǒng)中的一些經(jīng)典方法可以直接應(yīng)用于興趣點推薦任務(wù),其中,使用最廣泛的是基于矩陣分解的方法[1-2],其通過分解“用戶-興趣點”簽到矩陣獲取表征用戶和興趣點關(guān)聯(lián)的低維隱特征,但該方法沒有考慮用戶簽到序列特征。另一類方法將簽到序列抽象為Markov 鏈[3-5],僅根據(jù)上一次簽到來決定下一次簽到的推薦,而沒有考慮更早期的歷史簽到中所體現(xiàn)的用戶偏好信息對下一次簽到的影響。此外,上述2 類方法都只使用了用戶簽到數(shù)據(jù),LBSN中的其他信息沒有得到充分有效地利用。隨著人工智能技術(shù)的快速發(fā)展,深度學習已被證實可以有效地從大量數(shù)據(jù)中學習隱藏信息并預測未來狀態(tài)。相比于傳統(tǒng)的機器學習算法,深度學習可以通過模型自動化從數(shù)據(jù)中提取并處理特征。將深度學習應(yīng)用于興趣點推薦系統(tǒng)可以充分利用系統(tǒng)中豐富的特征并挖掘特征之間的復雜關(guān)聯(lián)關(guān)系。

        近年來,興趣點推薦問題已得到廣泛研究,現(xiàn)有一些代表性的研究綜述[6-8]根據(jù)推薦目標將興趣點推薦分為用戶通用興趣點推薦和用戶下一個興趣點推薦;根據(jù)用戶偏好的主要影響因素將其分為地理因素、時間因素、社交因素和內(nèi)容因素所主導的興趣點推薦系統(tǒng);根據(jù)使用的數(shù)據(jù)種類將其分為基于用戶位置、軌跡、活動等興趣點推薦系統(tǒng)。不同于上述綜述對興趣點推薦問題中涉及的要素進行分類,本文聚焦于該問題本身以及深度學習方法在該領(lǐng)域的應(yīng)用,總結(jié)時空序列特征提取方法、內(nèi)容社交特征提取方法、多特征整合方法以及無簽到用戶興趣點信息處理方法在解決興趣點推薦問題時的優(yōu)勢和不足,從特征提取和深度學習方法的角度對興趣點推薦領(lǐng)域的現(xiàn)狀進行總結(jié)并探索未來的研究方向。

        1 興趣點推薦問題

        興趣點推薦需要根據(jù)LBSN 中的大量相關(guān)信息對用戶偏好進行總結(jié)和刻畫,從而給出個性化的興趣點推薦。針對興趣點推薦系統(tǒng)的特性,本文將其所面臨的挑戰(zhàn)總結(jié)為以下4 個方面:

        1)如何從簽到數(shù)據(jù)中提取時空序列特征。用戶的歷史簽到序列是LBSN 中用戶對興趣點偏好最直觀的體現(xiàn),與傳統(tǒng)的“用戶-商品”矩陣相比,簽到序列包含了上下文時空信息,充分挖掘其時空序列特征可以有效改善用戶偏好建模效果。

        2)如何充分利用LBSN 中的信息。除了用戶簽到序列,LBSN 中還包含大量用戶生成內(nèi)容(User-Generated Content,UGC)和社交關(guān)系信息,如用戶發(fā)布的關(guān)于某個興趣點的照片評論、用戶之間的關(guān)注關(guān)系等,這些信息能夠反映用戶的關(guān)注點和興趣偏好,同時也隱含了興趣點的特征,因此,可以被用來進一步改善興趣點推薦的效果。

        3)如何綜合多特征的影響來實現(xiàn)興趣點推薦。興趣點推薦系統(tǒng)中包含大量體現(xiàn)用戶偏好的特征,從特征對象的角度可以分為用戶特征、興趣點特征和外部環(huán)境特征;從用戶偏好主要影響因素的角度可以分為時空因素、內(nèi)容因素、社交關(guān)系因素等。一個有效且有拓展性的模型需要綜合考慮這些特征的共同影響以實現(xiàn)個性化的興趣點推薦。

        4)如何處理“用戶-興趣點”簽到矩陣的稀疏性問題。雖然LBSN 被廣泛使用,但單個用戶訪問過的興趣點數(shù)量相比于全部興趣點而言是極少的。此外,對于新用戶和新注冊的興趣點而言,LBSN 中關(guān)于它們的歷史簽到信息較少?;谝陨显?,“用戶-興趣點”簽到矩陣具有較強的稀疏性,如何挖掘有限的歷史簽到數(shù)據(jù)、利用沒有歷史簽到的用戶興趣點本身的特性,以在一定程度上緩解數(shù)據(jù)稀疏性問題是許多研究工作關(guān)注的焦點。

        基于上述分析,本文從時空序列特征提取、內(nèi)容社交特征提取、多特征整合、無簽到用戶興趣點處理4 個方面,對使用深度學習解決這些問題時的背景和方法進行分析和總結(jié),具體內(nèi)容如圖1 所示。

        圖1 應(yīng)用于興趣點推薦中的深度學習方法分類Fig.1 Classification of deep learning methods applied to POI recommendation

        2 時空序列特征提取

        用戶的歷史簽到數(shù)據(jù)是LBSN 中反映用戶對興趣點偏好最直觀的信息,用戶簽到包括其訪問的興趣點和時間戳,用戶偏好受到時空特征的限制和影響,例如:由于營業(yè)時間限制,一些興趣點只會在特定的時間段被訪問。此外,根據(jù)地理學第一定律[9]可知,興趣點之間的距離遠近在一定程度上決定了它們之間的關(guān)聯(lián)緊密程度。同時,簽到序列往往具有一些序列特征,如某些興趣點之間訪問的連續(xù)性、用戶偏好的一致性、用戶行為的周期性等。推薦系統(tǒng)中傳統(tǒng)的矩陣分解方法沒有考慮簽到數(shù)據(jù)的時空序列特征,文獻[10-12]試圖使用傳統(tǒng)統(tǒng)計和概率學的方法對矩陣分解方法進行改進,如最小化連續(xù)2 次訪問的用戶向量差[10]、最小化候選興趣點向量與用戶歷史訪問過的興趣點向量之差[11]等。但是這些改進只能啟發(fā)式地描述簽到序列的一些顯式宏觀特征,用戶簽到數(shù)據(jù)中隱含的特征和聯(lián)系依然很難被充分挖掘和利用。

        近年來,隨著自然語言處理技術(shù)的快速發(fā)展以及處理序列的神經(jīng)網(wǎng)絡(luò)模型的廣泛使用,深度學習方法被證實在處理序列數(shù)據(jù)上具有很大優(yōu)勢,通過對循環(huán)神經(jīng)元結(jié)構(gòu)的改造、“門”的設(shè)計以及注意力機制的運用,這類方法可以有效地在序列數(shù)據(jù)中刻畫復雜的上下文特征并捕捉用戶的長短期偏好,因此,可以將其應(yīng)用于LBSN 中包含時空信息的簽到序列特征提取。本文主要總結(jié)歸納2 類時空序列特征提取方法:第一類方法使用自然語言處理中獲取詞向量的方法來處理興趣點序列,這類方法更加關(guān)注局部的序列特性,即某些興趣點常在短期內(nèi)被同一用戶訪問的模式,使這些興趣點擁有相近的隱特征向量,在推薦時根據(jù)隱特征向量給出符合用戶歷史偏好的興趣點;第二類方法使用一些常用的處理序列的神經(jīng)網(wǎng)絡(luò)模塊,如循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、注意力機制等,這類方法相比于第一類方法可以獲取歷史興趣點序列的長期特征即用戶的長期偏好,以及興趣點被訪問的前后關(guān)系特征,并充分挖掘利用興趣點簽到的相關(guān)上下文信息,如興趣點地理位置、簽到時間等,因此,該類方法應(yīng)用更加廣泛。

        2.1 詞向量獲取方法

        為獲取簽到序列的序列特征,興趣點推薦系統(tǒng)需要挖掘興趣點之間的潛在關(guān)聯(lián),一類常見的方式是借鑒自然語言處理中獲取詞向量的方法,將每個興趣點類比為一個單詞,將用戶歷史簽到的興趣點序列看作句子,最終刻畫用戶的興趣點訪問模式可以被轉(zhuǎn)化為提取句子的語義特征。常用的詞向量獲取方法Word2vec 模型[13]分為2 種實現(xiàn)方式,即Skipgram 和CBOW(Continuous Bag-of-Words):Skip-gram根據(jù)當前的詞來預測其周圍的詞;CBOW 根據(jù)周圍的詞來預測當前的詞。這2 種模型均可應(yīng)用于興趣點推薦。

        文獻[14]利用Skip-gram 對用戶的簽到興趣點序列進行建模,以獲取每個興趣點的隱特征,Skipgram 在興趣點推薦中的目標方程是最大化興趣點上下文(歷史數(shù)據(jù)中曾經(jīng)在某個興趣點前后被訪問的興趣點)和該興趣點同時出現(xiàn)的概率,該方法在推薦前10 個興趣點時的準確率,比利用非一致性和連續(xù)性的特征來改進矩陣分解的算法[10]提高約0.03。文獻[15]對上述方法進行進一步優(yōu)化,將用戶每一天的簽到序列看作一個單獨的句子,并對興趣點在工作日和周末的簽到進行區(qū)分。文獻[16]使用CBOW,根據(jù)興趣點序列獲取興趣點特征表示。

        2.2 神經(jīng)網(wǎng)絡(luò)方法

        將用戶的興趣點序列類比為句子,在使用詞向量獲取方法從用戶簽到序列中提取興趣點特征表示時,僅考慮興趣點短期被同一用戶訪問的情況,而沒有考慮興趣點之間更復雜的關(guān)聯(lián)關(guān)系,簽到數(shù)據(jù)的具體地理位置信息和時間戳信息沒有得到充分利用。為了更加深入地挖掘帶時空上下文的序列特征,一些處理序列的神經(jīng)網(wǎng)絡(luò)模塊被應(yīng)用于興趣點推薦任務(wù),具體情況總結(jié)如表1 所示。

        表1 處理興趣點序列的神經(jīng)網(wǎng)絡(luò)方法總結(jié)Table 1 Summary of neural network methods for processing POI sequences

        循環(huán)神經(jīng)網(wǎng)絡(luò)[29]是處理帶豐富上下文信息的序列數(shù)據(jù)的有效方法,將基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法引入興趣點推薦可以有效地從簽到序列中提取時空序列特征。由于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在刻畫用戶長期偏好時存在梯度消失的問題,因此基于長短期記憶(Long Short-Term Memory,LSTM)[30]網(wǎng)絡(luò)的方法在相關(guān)工作中被廣泛使用,其可以有效地刻畫用戶的長短期偏好。文獻[17]引入興趣點類別的概念并利用2 個長短期記憶網(wǎng)絡(luò)編碼器分別提取用戶簽到的興趣點類別序列和具體興趣點序列的時間特征,根據(jù)興趣點類別特征進行初步篩選后根據(jù)每個興趣點的特征和用戶特征來實現(xiàn)推薦,通過刻畫不同層次的序列特征能夠有效減小推薦的搜索空間并提高興趣點推薦的準確性。

        傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)僅考慮興趣點之間的順序關(guān)系而沒有考慮復雜上下文信息,如時間信息和地理信息。以最簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)為例,在tk時刻神經(jīng)元輸出的隱向量為:

        htk=f(Mxtk+Chtk-1)

        其中:xtk為tk時刻的輸入,即tk時刻簽到的興趣點特征;htk-1為tk-1時刻神經(jīng)元的輸出;M表示轉(zhuǎn)移矩陣。這種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有較強的可拓展性,可以通過對循環(huán)的神經(jīng)元(即Mxtk+Chtk-1部分)進行改進以融入時空特征,因此,文獻[18-19]改進了上述傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,以挖掘簽到序列時空上下文之間的序列特征。ST-RNN[18]是一種典型的結(jié)合了時空上下文特征的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其將循環(huán)神經(jīng)網(wǎng)絡(luò)中的轉(zhuǎn)移矩陣M替換為與時間、地理距離有關(guān)的轉(zhuǎn)移矩陣的乘積,與時間相關(guān)的矩陣可以描述近期歷史的影響同時考慮時間間隔,與距離相關(guān)的矩陣可以獲取用戶簽到行為的地理特征。相比于原始的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,ST-RNN 在Gowalla 數(shù)據(jù)集上AUC 值[31]提高了約0.03。文獻[20-22]對長短期記憶網(wǎng)絡(luò)進行改進,文獻[20]中作者認為連續(xù)簽到之間的關(guān)聯(lián)性大小會隨著時間間隔和地理距離的增大而減小,而這種關(guān)聯(lián)性對于用戶短期偏好的影響較大,因此,他們將長短期記憶網(wǎng)絡(luò)中的細胞(cell)狀態(tài)拆分為短期狀態(tài)和長期狀態(tài),利用關(guān)于時間間隔和距離的衰減函數(shù)對每次簽到的短期狀態(tài)進行修正,與ST-RNN 相比,該模型在Gowalla 數(shù)據(jù)集上的推薦準確率又提升了約0.02。

        上述研究通過改進循環(huán)神經(jīng)網(wǎng)絡(luò)的循環(huán)神經(jīng)元使得其更加適應(yīng)于興趣點推薦系統(tǒng)中時空序列特征的處理,但這類方法的缺點在于循環(huán)神經(jīng)元無法有區(qū)別地處理簽到序列中不同的簽到,而事實上歷史簽到對未來簽到的影響并不完全隨著時間間隔的增大而衰減。注意力機制是另一類處理序列的神經(jīng)網(wǎng)絡(luò)方法,可提取興趣點序列的時空特征。從地理位置來看,每一對興趣點之間的影響力大小不同。文獻[27]提出一種地理注意力網(wǎng)絡(luò)來刻畫興趣點之間基于位置的關(guān)系,考慮2 個興趣點之間的距離以及他們各自的地理屬性——地理影響力(即該興趣點引導用戶去其他興趣點的能力)和地理被影響力(即該興趣點吸引其他興趣點的訪客的能力),使用候選興趣點的地理被影響力作為注意力機制中的查詢(Query)、該用戶歷史訪問過的興趣點的地理影響力作為鍵(Key),影響力系數(shù)根據(jù)2 個興趣點之間的距離使用RBF 核獲得,最終計算出注意力權(quán)重,模型輸出的對于候選興趣點的用戶偏好為歷史興趣點地理影響力的加權(quán)求和。地理注意力網(wǎng)絡(luò)使得模型的推薦性能在Foursquare 和Gowalla 數(shù)據(jù)集上均獲得了較大提升。

        在處理時序特征時,注意力機制一般與循環(huán)神經(jīng)網(wǎng)絡(luò)或長短期記憶網(wǎng)絡(luò)一起使用,一類方法是使用后者獲取每次簽到的隱特征,再利用注意力機制加權(quán)聚合簽到序列中多次簽到的隱特征;另一類方法則并行使用這2 種方法以從多維度提取簽到序列的特征。文獻[23]為推薦下一次簽到的興趣點,先將用戶簽到序列(將候選興趣點和推薦時間作為序列的最后一個節(jié)點)中每一次簽到的興趣點特征和時空上下文特征輸入長短期記憶網(wǎng)絡(luò)以獲取其隱特征,由于每個歷史簽到對未來簽到興趣點預測的貢獻程度不同,因此該文再利用注意力機制根據(jù)歷史簽到的隱特征和候選興趣點的隱特征計算注意力權(quán)重加權(quán)的決策向量,基于此向量來預測該候選興趣點被訪問的概率,訪問概率最高的候選興趣點將作為推薦結(jié)果。文獻[24]提出一種基于長短期記憶網(wǎng)絡(luò)模塊的編碼器-解碼器模型,以預測下一個被訪問的興趣點,其中,編碼器中的長短期記憶網(wǎng)絡(luò)被用來獲取簽到序列中每個簽到興趣點的隱特征,解碼器同樣利用長短期記憶網(wǎng)絡(luò)根據(jù)編碼器的結(jié)果進一步挖掘簽到興趣點特征,時間注意力機制根據(jù)編碼器輸出的歷史簽到的隱特征和解碼器計算的候選興趣點特征來計算注意力權(quán)重,考慮歷史簽到與候選興趣點之間不同大小的相關(guān)性來獲取更準確的候選興趣點特征并進行推薦預測。不同于上述2 個研究工作,文獻[25]并行地使用注意力機制和長短期記憶網(wǎng)絡(luò)來共同刻畫用戶偏好的整體特征,該文認為用戶簽到行為從短期來看往往呈現(xiàn)出一定的連續(xù)性和一致性,長短期記憶網(wǎng)絡(luò)適用于建模用戶簽到的序列行為以獲取用戶的短期偏好;而從長期來看,用戶偏好在不同的情景和位置下往往具有非一致性,注意力機制可以更有效地刻畫用戶的整體長期偏好。為了刻畫用戶偏好在一天中具體時間段的特征,文獻[17]區(qū)分工作日和周末,并根據(jù)簽到的分布密度將一天分為12 個時間窗口,該文將長短期記憶網(wǎng)絡(luò)輸出的興趣點隱特征劃分到不同的時間窗口中,并利用用戶和窗口中興趣點的隱特征的相關(guān)性計算每個時間窗口的注意力權(quán)重,實驗結(jié)果表明,該方法大幅提升了興趣點推薦的準確性。

        上述相關(guān)工作都是針對用戶的單個簽到序列進行分析并預測下一個簽到興趣點,文獻[26]對多條用戶簽到軌跡進行分析并利用簽到軌跡之間的相關(guān)性預測當前軌跡的下一個興趣點,該文設(shè)計基于歷史的注意力機制模塊,通過計算歷史軌跡和當前軌跡之間的相關(guān)性即注意力權(quán)重,以獲取最相關(guān)的上下文向量并進行興趣點推薦,該模型相比單序列模型可以更有效地挖掘用戶簽到軌跡的多層次周期性和復雜連續(xù)性特征。

        為綜合考慮簽到序列的時空特征,文獻[28]提出一種基于自編碼器(Autoencoder,AE)的模型,使用基于自注意力機制的編碼器從簽到興趣點中提取時間特征,再利用地理距離因素與序列連續(xù)性相結(jié)合的解碼器來處理地理位置信息。

        2.3 相關(guān)工作的不足

        時空特征是興趣點推薦系統(tǒng)中最重要的特征之一,目前大多數(shù)關(guān)于興趣點推薦和位置預測的研究都聚焦于時空特征的提取和分析。大部分的現(xiàn)有工作側(cè)重于利用深度學習模型提取時間序列特征,盡管一些學者引入了時間影響力和時間間隔的概念,但具體的時間點特征目前還沒有被充分挖掘。例如,用戶更傾向于在某些特定日期訪問某些興趣點,或某些興趣點只在某些特定的時間段可被訪問,粗粒度的時間窗口無法描述這些特征。與時間相關(guān)的用戶訪問模式,如多層次的周期性和一致性特征有待進一步挖掘。

        此外,上述相關(guān)工作多是對單個用戶的簽到序列進行建模,盡管每個單序列中都包含了豐富的時空序列特征,但序列之間關(guān)系的挖掘和利用可以進一步提升用戶偏好預測的效果,目前該方面的研究工作較少。由于存在某些相同或相近的興趣點,不同序列可以聯(lián)合進行時空特征提取,通過多序列特征提取來獲取更加全面的時空序列特征。

        3 內(nèi)容社交特征提取

        除了用戶簽到數(shù)據(jù),LBSN 中還包含大量用戶生成內(nèi)容和社交關(guān)系信息,如用戶評論、照片、用戶之間的社交關(guān)系等,這些信息也能夠反映用戶的偏好和興趣點的特征,在數(shù)據(jù)集中包含這類輔助信息時,充分利用這些信息可以有效提升興趣點推薦的效果。

        根據(jù)用戶評論可以分析出用戶訪問某個興趣點時的感受和情緒,用戶上傳的照片不僅可以反映其關(guān)注點和偏好,還可以提供更多關(guān)于興趣點的信息。此外,由于這些數(shù)據(jù)都是公開可見的,它們也會影響其他用戶對該興趣點的預期,進而影響用戶是否會選擇訪問該興趣點,因此,在進行興趣點推薦時需要考慮評論、照片等用戶生成內(nèi)容中包含的語義特征。

        根據(jù)社交網(wǎng)絡(luò)中的同質(zhì)性(Homogeneity)[32],用戶的社交關(guān)系往往也可以反映用戶的偏好,好友之間的偏好存在一定的相似性,好友的評論和信息反饋相比其他陌生用戶更能影響用戶的偏好,因此,社交關(guān)系特征也是興趣點推薦中需要考慮的重要因素。

        本文對LBSN 中除了簽到序列以外的其他信息以及利用這些信息進行興趣點推薦的工作進行總結(jié),具體如表2 所示。

        表2 LBSN 中的內(nèi)容社交信息提取方法Table 2 Methods of content social information extraction in LBSN

        3.1 圖片處理

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[41]近年來被廣泛應(yīng)用于計算機視覺和自然語言處理領(lǐng)域以進行圖片和文本分析處理。文獻[33]通過Instagram API 獲取了Instagram 中大量用戶發(fā)布的圖片數(shù)據(jù),為了提升興趣點推薦的準確性,該文提出了VPOI 模型,利用這些視覺內(nèi)容即照片信息輔助推薦,作者認為用戶發(fā)布的照片的視覺特征符合該用戶的偏好,關(guān)于某個興趣點的照片也反映了該興趣點的特征,因此,可以利用照片的視覺特征指導用戶、興趣點的隱特征學習,該文使用經(jīng)典的圖片分類模型VGG16[42]獲取每張照片的圖嵌入(embedding),并將上述思想與概率矩陣分解的目標方程相結(jié)合,實驗結(jié)果表明,該模型的準確性相比原始概率矩陣分解方法有較大提升。文獻[34]同樣使用了卷積神經(jīng)網(wǎng)絡(luò)來提取LBSN 中的圖片內(nèi)容。

        圖片是某些LBSN 中用戶分享內(nèi)容的重要媒介,但目前在興趣點推薦中應(yīng)用計算機視覺技術(shù)來處理圖片信息的相關(guān)工作較少,一方面是由于大多數(shù)LBSN 數(shù)據(jù)集中圖片數(shù)據(jù)較少,另一方面原因是用戶的偏好基本體現(xiàn)在用戶的簽到行為中,圖片包含的額外信息可能較少。

        3.2 評論分析

        用戶的評論體現(xiàn)了其對某個興趣點的偏好程度,也是對推薦效果的直接反饋。傳統(tǒng)的興趣點推薦系統(tǒng)中用戶歷史偏好主要通過簽到矩陣體現(xiàn),簽到行為是一種對興趣點的二元選擇(訪問或不訪問),不能反映用戶對興趣點的具體偏好程度,此外,用戶對興趣點發(fā)表的負面評論可能比未訪問過該興趣點所反映的偏好程度更低。LBSN 中Foursquare包含豐富的評論信息,以下利用評論內(nèi)容輔助進行興趣點推薦的相關(guān)工作均基于Foursquare 數(shù)據(jù)完成。相關(guān)工作中對于用戶評論的挖掘大多集中在情感分析和主題分析上,最簡單的情感傾向估計方法是根據(jù)評論中的形容詞計算情感分數(shù)[43]或計算評論中的詞匯與強烈情感詞(如excellent、cool、bad 等)的相似性[44],但這種方法在處理否定句式時存在無法準確判斷出情感傾向的可能,并且無法處理描述性的評論。另一部分工作使用主題模型,即LDA(Latent Dirichlet Allocation)模型[45]來估計評論的隱含主題[46],這類方法更適用于描述性的評論,但沒有考慮情感因素。為了綜合分析評論的內(nèi)容,文獻[35-37]引入深度學習卷積神經(jīng)網(wǎng)絡(luò)模型來挖掘用戶評論輔助興趣點推薦,文獻[35]利用Text-CNN 模型[47]對評論進行內(nèi)容情感信息提取,計算用戶對興趣點的情感嵌入,使用該嵌入來調(diào)整用戶興趣點偏好分數(shù),并根據(jù)該分數(shù)排序給出推薦結(jié)果,其有效地提高了興趣點推薦的準確性。

        3.3 社交關(guān)系信息利用

        LBSN 是一種特殊的社交網(wǎng)絡(luò),用戶之間可以建立關(guān)注等社交關(guān)系,也可以由地理位置的相關(guān)性而形成地理鄰居社交關(guān)系,最終構(gòu)成用戶社交關(guān)系圖,有社交關(guān)系的用戶之間的偏好可能會互相影響。文獻[38]利用社交關(guān)系信息來提高興趣點推薦性能,該文為每個用戶構(gòu)建社交簽到圖,圖中的節(jié)點表示該用戶、其好友用戶以及他們簽到過的興趣點,利用圖上的隨機游走可以獲取該用戶歷史未訪問過但好友訪問過的潛在興趣點集合,轉(zhuǎn)移矩陣中的概率取決于2 個用戶之間的相似度和2 個興趣點之間的關(guān)聯(lián)度(即興趣點之間的距離),最終穩(wěn)態(tài)時可獲得用戶的潛在興趣點。該文認為相比沒有被注意到的興趣點,用戶更傾向于訪問這些潛在興趣點。

        圖片和評論數(shù)據(jù)受限于數(shù)據(jù)源,即只有某些特定的LBSN 才提供這些特殊類型的數(shù)據(jù)。大多數(shù)LBSN 數(shù)據(jù)集中都包含豐富的社交信息,對于社交信息的利用主要受限于社交關(guān)系本身對于用戶簽到行為偏好的影響程度。由于用戶的興趣點訪問模式受時空等物理因素的限制,社交關(guān)系對其的影響比傳統(tǒng)社交網(wǎng)絡(luò)小,社交關(guān)系信息更多時候作為興趣點推薦系統(tǒng)實體關(guān)系異構(gòu)圖中用戶節(jié)點之間的邊或應(yīng)用于半監(jiān)督學習中的無監(jiān)督部分。

        3.4 相關(guān)工作的不足

        在興趣點推薦中對于內(nèi)容社交信息的利用和特征提取,一方面受限于可獲取的公開數(shù)據(jù)源較少,常用的公開數(shù)據(jù)集均沒有同時包含這些類型的信息;另一方面,相比于時空類型的數(shù)據(jù)分析和特征提取,目前在興趣點推薦這種特定場景下的計算機視覺和自然語言處理的應(yīng)用研究較少。從研究內(nèi)容的角度來看,現(xiàn)有的對LBSN 中用戶評論的分析多數(shù)局限于情感和主題分析,而寫作風格和語義信息沒有得到充分利用,這些信息不僅隱含用戶性格等特征,往往還直接反映興趣點的優(yōu)劣,充分挖掘這些信息可以促進興趣點推薦系統(tǒng)更全面地刻畫用戶和興趣點的特點,獲得更準確的用戶、興趣點隱特征,進而提升推薦效果;從模型方法的角度來看,目前已有研究只利用了一些經(jīng)典的圖片和文本分類模型方法,更多的深度學習方法,如雙向長短時記憶網(wǎng)絡(luò)與多層注意力網(wǎng)絡(luò)的結(jié)合[48]、雙向長短時記憶網(wǎng)絡(luò)與條件隨機場(Conditional Random Field,CRF)的結(jié)合[49]等,尚未被用于LBSN 中的內(nèi)容特征提取。

        4 多特征整合

        從LBSN 中的歷史簽到、用戶生成內(nèi)容、用戶社交關(guān)系信息等數(shù)據(jù)中可以提取出豐富的特征,用戶對于興趣點的偏好受這些特征共同影響。從對象的角度,這些特征可以分為用戶特征、興趣點特征、外部環(huán)境特征;從影響因素的角度,這些特征可以分為時空特征、序列特征、內(nèi)容語義特征、社交關(guān)系特征等。傳統(tǒng)的協(xié)同過濾方法使用矩陣分解來獲取用戶和興趣點的隱特征向量,這種方法將用戶和興趣點之間的關(guān)系刻畫為隱特征之間的內(nèi)積關(guān)系,缺陷在于其要求用戶和興趣點的隱特征具有相同的維度,限制了用戶興趣點特征提取的效果。此外,線性運算無法全面地刻畫用戶和興趣點之間的復雜關(guān)聯(lián)關(guān)系,難以建模多特征的共同影響。

        神經(jīng)元中非線性激活函數(shù)的設(shè)計以及神經(jīng)元之間的網(wǎng)絡(luò)結(jié)構(gòu),使得神經(jīng)網(wǎng)絡(luò)模型可以刻畫輸入和輸出之間的復雜非線性關(guān)聯(lián)關(guān)系,因此,可以將其用于興趣點推薦中的多特征整合過程。此外,LBSN 中各個實體(如用戶、興趣點等)之間存在不同類型的關(guān)系,構(gòu)建多實體關(guān)系圖并使用圖嵌入的方法,可以在特征整合的過程中有效保留不同實體之間的不同關(guān)系結(jié)構(gòu)特征。

        4.1 多特征的非線性整合

        整合不同特征時需要挖掘不同特征之間的線性及非線性關(guān)聯(lián),其中,線性關(guān)聯(lián)可通過簡單的內(nèi)積方法獲取,而非線性關(guān)聯(lián)通常利用不同的神經(jīng)網(wǎng)絡(luò)模塊提取,最終通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型來結(jié)合線性與非線性關(guān)聯(lián)并獲取不同特征共同作用的結(jié)果。文獻[50]提出基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾模型,其根據(jù)用戶和興趣點的特征計算興趣點推薦分數(shù),該模型將用戶特征和興趣點特征相聯(lián)合,利用多層感知機(Multi-Layer Perceptron,MLP)[51]提取它們之間的非線性關(guān)系,同時并行地使用一個廣義的矩陣分解模塊獲取其線性關(guān)聯(lián),將兩者的結(jié)果相結(jié)合計算得到最終的分數(shù)。類似地,文獻[52]使用深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN)[53]作為一個確定性函數(shù)來提取多特征連結(jié)的深層表示。

        盡管多層感知機和深度信念網(wǎng)絡(luò)可以有效提取特征之間的非線性關(guān)聯(lián),但它們的可解釋性較差,無法獲取不同特征對用戶偏好的貢獻程度。為了實現(xiàn)可解釋的特征整合,文獻[24]使用基于注意力機制的方法,通過分配不同的注意力權(quán)重,使得更重要的特征可以對用戶偏好預測作出更大貢獻,其模型包括兩級注意力模塊,其中,宏觀上下文注意力度量不同特征的重要程度,微觀上下文注意力分配權(quán)重給隱向量中的每個值。

        無論是多層感知機、深度信念網(wǎng)絡(luò)還是注意力機制,它們的優(yōu)勢均在于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和非線性激活函數(shù)的使用,從而可以對特征之間的非線性關(guān)聯(lián)進行充分挖掘,在應(yīng)用時根據(jù)具體的場景要求選擇具體方法,其中,在對可解釋性要求較高的場景中使用注意力機制。

        4.2 多模態(tài)的圖嵌入表示

        圖結(jié)構(gòu)是表示興趣點推薦系統(tǒng)中不同實體之間復雜關(guān)系的有效方式,利用圖結(jié)構(gòu)對不同類型的特征進行整合也是興趣點推薦中一種常用的方法。表3 所示為在興趣點推薦系統(tǒng)中使用圖嵌入表示以整合特征的方法總結(jié)。

        表3 興趣點推薦中的圖嵌入方法總結(jié)Table 3 Summary of graph embedding methods in POI recommendation

        圖2 所示的異構(gòu)圖是LBSN 中一種典型的圖表示,圖中包括4 種類型的節(jié)點,即用戶節(jié)點、興趣點節(jié)點、時間戳節(jié)點、活動節(jié)點。節(jié)點之間的邊具有不同的含義,用戶節(jié)點之間的邊表示社交關(guān)系,興趣點之間的邊表示地理鄰居關(guān)系或連續(xù)訪問的關(guān)系,簽到信息也使用邊表示,即一條連接一個用戶、興趣點、時間戳和活動的超邊表示一次簽到。根據(jù)圖的整體結(jié)構(gòu)特征和圖中每個點自身的特征計算不同類型節(jié)點的嵌入,是另一種整合不同特征的方法。

        圖2 LBSN 的異構(gòu)圖表示Fig.2 Heterogeneous graph representation of LBSN

        由于圖2 的結(jié)構(gòu)較復雜,一些相關(guān)工作從圖2 中提取不同的子圖,如用戶社交關(guān)系圖、興趣點鄰居關(guān)系圖等,分別計算這些相對較簡單的圖中節(jié)點的嵌入再進行相加以得到不同類型節(jié)點的最終嵌入。文獻[39]提出一種圖注意力機制,其結(jié)合用戶社交關(guān)系圖、興趣點鄰居圖(一個興趣點與其地理位置最近的k個興趣點之間有邊相連)和“用戶-興趣點”簽到關(guān)系圖中的上下文信息,該文認為用戶的朋友對該用戶的影響力大小與用戶自身的特征以及朋友關(guān)系特征相關(guān),同時,針對不同的興趣點,朋友對用戶的影響力也不同,因此,模型根據(jù)用戶自身的特征、候選興趣點的特征以及用戶社交關(guān)系圖中其朋友的關(guān)系特征,計算不同朋友節(jié)點的注意力權(quán)重并獲得該用戶的社交特征嵌入。在興趣點鄰居關(guān)系圖中,對于每個興趣點,模型根據(jù)該興趣點與鄰居興趣點之間的距離、目標用戶的特征以及鄰居關(guān)系特征,計算注意力權(quán)重并獲得該興趣點的鄰居特征嵌入。模型中還包括一種雙重注意力網(wǎng)絡(luò)模塊,其在“用戶-興趣點”簽到關(guān)系圖中綜合考慮用戶和興趣點的訪問模式,計算不同興趣點對用戶訪問特征的注意力權(quán)重和不同用戶對興趣點訪問特征的注意力權(quán)重,分別獲得用戶和興趣點的訪問特征嵌入。最終的用戶嵌入為用戶自身特征嵌入、用戶社交特征嵌入和用戶訪問特征嵌入之和,興趣點嵌入為興趣點本身特征嵌入、興趣點鄰居特征嵌入和興趣點訪問特征嵌入之和。這種圖注意力機制的提出使得模型推薦命中率在多個數(shù)據(jù)集上均獲得了提升。文獻[54]設(shè)計一種基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的圖自編碼器,以挖掘興趣點訪問和地理關(guān)系圖,其結(jié)合鄰居興趣點的特征獲得每個興趣點的最終出特征和入特征,多層圖神經(jīng)網(wǎng)絡(luò)的使用可以捕捉到興趣點之間的高階非線性關(guān)聯(lián)關(guān)系。進一步地,其利用圖神經(jīng)網(wǎng)絡(luò)從“用戶-興趣點”訪問圖中根據(jù)興趣點出特征計算出用戶的最終隱特征表示,根據(jù)用戶隱特征和候選興趣點入特征完成推薦。

        上述工作在多個子圖中對特征進行多步圖嵌入計算,在一定程度上可以實現(xiàn)多實體特征整合,但無法充分挖掘LBSN 實體異構(gòu)圖的整體特征。另一類工作直接在整體異構(gòu)圖中計算圖嵌入,克服了前者的缺陷。文獻[56]基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[60]設(shè)計一種時空感知的多層次圖嵌入方法,對于不同類型的邊使用不同的轉(zhuǎn)移矩陣進行信息傳播,并使用多層網(wǎng)絡(luò)進行信息聚合。此外,還通過改進隨機游走的采樣方法以處理多實體異構(gòu)圖。文獻[57]為用戶-興趣點、興趣點之間、用戶之間這3 種邊分別設(shè)計3 種轉(zhuǎn)移概率。文獻[58]針對圖2 設(shè)計一種帶停留的隨機游走機制,除了根據(jù)社交關(guān)系在用戶之間游走采樣之外,還會在某個用戶節(jié)點停留以采樣該用戶的簽到信息,通過不斷迭代最終獲得每個點的嵌入從而完成興趣點推薦。

        近年來,知識圖嵌入方法[61]逐漸成熟,文獻[59]使用知識圖的結(jié)構(gòu)來刻畫興趣點推薦系統(tǒng)中的復雜關(guān)系,模型認為下一個簽到興趣點是由用戶及其所處的時間、地點共同決定的,因此,將一個時間戳和一個地點組合成一個時空上下文“”,并設(shè)計一種基于翻譯的推薦框架來建模用戶、興趣點、時空上下文之間的三元關(guān)系,簽到序列中的一次簽到用“(u,,v)”表示,其中,u和v分別表示用戶和興趣點。根據(jù)這些三元關(guān)系,利用知識圖嵌入方法可以獲取用戶和興趣點在同一個變換空間中的隱向量,最終根據(jù)用戶和候選興趣點的隱向量進行推薦。

        4.3 相關(guān)工作的不足

        現(xiàn)有工作對多個特征進行整合后可以較準確地刻畫用戶的偏好并進行推薦,但特征對于推薦結(jié)果作用的可解釋性目前還未得到充分重視,只有明確每個特征對于推薦結(jié)果的貢獻,興趣點提供商才能更有針對性地改進服務(wù)以吸引用戶。部分現(xiàn)有工作引入注意力機制,通過注意力權(quán)重在一定程度上反映各種特征的重要性,但各種特征之間的相互影響以及各個特征的變化對最終用戶偏好的影響依然不夠明確,相關(guān)工作缺乏對各特征的作用機制進行深入探討。

        此外,由于LBSN 中的實體類型較多,如用戶、興趣點、時間戳等,不同實體之間的關(guān)系較復雜,如社交關(guān)系、鄰居關(guān)系、訪問簽到關(guān)系等,使用包含多種實體、多種關(guān)系的異構(gòu)圖的表示形式可以更有效地描述特征之間的關(guān)系,現(xiàn)有用于興趣點推薦的圖嵌入方法在解決規(guī)模性和異構(gòu)性問題時還存在一些不足。由于LBSN 中用戶和興趣點數(shù)量在快速增長,除了硬件的提升,還需要在模型設(shè)計時考慮空間和時間資源的占用情況。在針對異構(gòu)性的分析處理中,一些工作為了規(guī)避對異構(gòu)圖中不同關(guān)系的處理,通過提取子圖的方法分別處理每種關(guān)系,但一些節(jié)點是由不同類型的邊經(jīng)過多跳連接的,這類方法沒有充分利用節(jié)點之間的間接關(guān)聯(lián),難以全面地刻畫興趣點推薦系統(tǒng)中實體間關(guān)系的結(jié)構(gòu)特征。另一些工作使用基于隨機游走的采樣方法,未考慮多個不同類型相鄰節(jié)點之間影響程度不同的問題。為解決異構(gòu)性問題,不同類型的邊之間的相似性和關(guān)聯(lián)性還有待進一步挖掘。圖卷積網(wǎng)絡(luò)在刻畫每個節(jié)點特征的同時挖掘整張圖的結(jié)構(gòu)特征,此外也可通過設(shè)計轉(zhuǎn)移矩陣來處理不同類型的節(jié)點,目前該方法在興趣點推薦系統(tǒng)中運用較少,在興趣點推薦中使用更高效的圖神經(jīng)網(wǎng)絡(luò)模型,可以使LBSN 多實體異構(gòu)圖中的特征得到更深入地挖掘,進而提升興趣點推薦的效果。

        5 無簽到用戶興趣點處理

        興趣點推薦系統(tǒng)一個值得關(guān)注的特征就是其興趣點數(shù)量規(guī)模巨大,由于時間和地理位置的限制,單個用戶只能訪問其中很少一部分,因此,興趣點推薦系統(tǒng)存在嚴重的數(shù)據(jù)稀疏性問題。能否有效處理正樣本(歷史訪問過的興趣點)和負樣本(歷史未訪問過的興趣點)之間的數(shù)量不平衡性,對于用戶偏好建模的效果至關(guān)重要。一方面需要根據(jù)少量歷史訪問數(shù)據(jù)來從大量未訪問過的候選興趣點中推薦用戶可能感興趣的興趣點;另一方面用戶歷史未訪問過的興趣點也可以借助其自身的地理位置信息以及LBSN 中的社交信息等進行輔助推薦。

        近年來,在深度學習領(lǐng)域,介于監(jiān)督學習和無監(jiān)督學習之間的半監(jiān)督學習引起研究人員的廣泛關(guān)注。利用少量有標簽數(shù)據(jù)和大量無標簽數(shù)據(jù),結(jié)合數(shù)據(jù)分布特征來構(gòu)建模型,可以有效提升模型的準確性,同時降低訓練成本,因此,半監(jiān)督學習被廣泛應(yīng)用于有標簽數(shù)據(jù)不足的場景。在興趣點推薦系統(tǒng)中,歷史簽到數(shù)據(jù)可以被看作有標簽數(shù)據(jù),而歷史未訪問的興趣點是無標簽數(shù)據(jù),雖然有標簽數(shù)據(jù)量較少,但興趣點的時空特征、用戶的社交特征等分布具有一定的規(guī)律性,因此,半監(jiān)督學習的思想可以被應(yīng)用于興趣點推薦任務(wù)中以緩解數(shù)據(jù)稀疏性問題。

        除了直接利用用戶未訪問過的興趣點的分布特征,另一種解決方案是利用生成模型從未訪問的興趣點中篩選出一些與用戶歷史訪問興趣點特征更相似、用戶可能更感興趣的興趣點,即有條件的負采樣(negative sampling)。傳統(tǒng)的負采樣往往是從大量負樣本中隨機選擇的,選出的負樣本和正樣本在數(shù)量上屬于同一數(shù)量級,從而在一定程度上減輕了數(shù)據(jù)不平衡帶來的負面影響,但其無法獲得更重要、更有價值的負樣本。隨著生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[62]的出現(xiàn)和普及,該問題得到了有效地解決,使用生成器獲取更有可能被訪問的興趣點可以提升興趣點推薦的性能。

        5.1 半監(jiān)督學習

        為了充分利用興趣點的地理位置信息和用戶之間的社交關(guān)系以緩解數(shù)據(jù)稀疏性問題,文獻[40]在模型有監(jiān)督的損失函數(shù)之外又引入無監(jiān)督損失部分,從而保存上下文圖中的上下文信息,上下文圖包括基于地理位置的興趣點鄰居圖和基于好友信息的用戶社交圖,模型借鑒了Skip-gram 算法的思想,對于圖中任意一個節(jié)點,最小化根據(jù)其嵌入預測上下文節(jié)點(圖中與該點距離較近的節(jié)點)嵌入的對數(shù)損失,該方法使得擁有相同上下文的2 個節(jié)點擁有相近的嵌入。在模型的每一輪訓練,先采樣歷史簽到數(shù)據(jù)中的用戶和興趣點(即有標簽數(shù)據(jù))來訓練模型的監(jiān)督部分,再利用隨機游走在2 個上下文圖中按一定比例分別采樣出一定數(shù)量的正樣本和負樣本,即節(jié)點和其上下文節(jié)點對、節(jié)點和其非上下文節(jié)點對,以訓練模型的無監(jiān)督部分。實驗結(jié)果表明,相比沒有無監(jiān)督部分的模型,該模型在Gowalla 數(shù)據(jù)集上推薦10 個興趣點時的命中率提高約15%。

        半監(jiān)督學習的核心思想是通過引入無監(jiān)督損失以利用無標簽數(shù)據(jù)本身的特征輔助預測用戶感興趣的興趣點,無監(jiān)督損失一般基于用戶和興趣點之間的關(guān)聯(lián)所隱含的相似性和一致性特征,因此,通常需要利用4.2 節(jié)的LBSN 圖表示,LBSN 本身作為一種特殊社交網(wǎng)絡(luò)的屬性,為半監(jiān)督學習在其中的應(yīng)用提供了基礎(chǔ)。

        5.2 生成對抗網(wǎng)絡(luò)

        除了使用半監(jiān)督學習引入無監(jiān)督損失,直接利用無標簽數(shù)據(jù)本身的分布特征輔助興趣點推薦之外,文獻[63]提出另一種思路,即利用對抗學習模型緩解數(shù)據(jù)稀疏導致的模型欠擬合或過擬合問題并增強模型的魯棒性,文中針對興趣點推薦設(shè)計一種結(jié)合地理特征和生成對抗網(wǎng)絡(luò)的對抗學習模型Geo-ALM,該模型包括一個生成器(Generator)和一個鑒別器(Discriminator):生成器的目標是從未訪問過的興趣點中篩選出與訪問過的興趣點最相似的集合,即采樣出更重要的負樣本;鑒別器的目標是對興趣點進行排序,使得訪問過的興趣點排在未訪問過的興趣點之前,并使用地理特征輔助排序。在訓練時,鑒別器根據(jù)排序正確的概率進行監(jiān)督式訓練,生成器使用強化學習中的策略梯度方法進行訓練,鑒別器排序正確的概率越小,獎勵越大。生成器的使用提高了鑒別器的訓練速度,訓練完成后的鑒別器可以根據(jù)候選興趣點的排序結(jié)果給用戶提供興趣點推薦。實驗結(jié)果表明,相比基準方法,該模型在Foursquare 數(shù)據(jù)集上推薦3 個興趣點時準確率提高約7%。文獻[64]也基于生成對抗網(wǎng)絡(luò)架構(gòu)提出一種APOIR 模型,不同于文獻[63]工作,該模型直接以一種生成模型的方式學習用戶的偏好,即最終的推薦結(jié)果由生成器產(chǎn)生,而不是由鑒別器的排序結(jié)果決定。這里的生成器可以看作推薦器,用來刻畫用戶偏好并推薦用戶可能感興趣的興趣點;鑒別器則用來區(qū)分推薦的興趣點和真實被訪問過的興趣點,其輸出也可看作用戶對一個輸入的興趣點的偏好程度,從而判斷生成器推薦結(jié)果的準確性。在訓練完成后,生成器可以基于用戶偏好的分布推薦更可能被訪問的興趣點。模型訓練的目標方程由2 個最優(yōu)化問題組成:其一針對鑒別器,最大化辨別出的歷史真實訪問過的興趣點和生成器生成的興趣點之間的概率;另一個針對生成器,最大化生成的未訪問過的興趣點被預測為用戶感興趣的興趣點的概率,即最小化鑒別器能分辨出生成器生成的興趣點和真實被訪問的興趣點的概率。在Yelp 數(shù)據(jù)集上進行興趣點推薦,相比不使用對抗學習的基準方法,APOIR模型在推薦5 個興趣點時準確率至少提升10%。

        在候選興趣點數(shù)量較大的情況下,使用生成對抗網(wǎng)絡(luò)可以使得生成器從大量未訪問過的興趣點中篩選出與歷史訪問過的興趣點更相似的興趣點,鑒別器也能更精確地分辨出用戶感興趣的興趣點。相較于傳統(tǒng)的隨機負采樣,生成對抗網(wǎng)絡(luò)不僅可以在每一輪訓練時使用數(shù)量盡可能平衡的正負樣本,還可以使得訓練樣本更具針對性,從而提高訓練速度。

        5.3 相關(guān)工作的不足

        上述現(xiàn)有工作對興趣點推薦準確率的提升,驗證了半監(jiān)督學習和生成對抗模型可以有效緩解興趣點推薦系統(tǒng)中的數(shù)據(jù)稀疏性問題,但這些工作只將這2 種思想引入興趣點推薦任務(wù),未對LBSN 中的其他特征進行充分利用。無監(jiān)督損失和生成器是整個預測模型中相對獨立的模塊,可以針對各個LBSN的特點,將半監(jiān)督學習、生成對抗模型與其他興趣點推薦方法相結(jié)合,以提高模型的推薦效果。例如,基于社交和地理特征相似性的無監(jiān)督損失可以與其他性能更優(yōu)的監(jiān)督學習模型目標方程相結(jié)合,生成對抗網(wǎng)絡(luò)中的鑒別器也可以替換為更高效的基于排序的興趣點推薦模型。

        6 未來研究方向

        根據(jù)上述分析可以得出,深度學習方法的應(yīng)用可以有效解決興趣點推薦系統(tǒng)中存在的問題,但是,目前興趣點推薦的相關(guān)工作依然存在不足,未來可以針對上述4 個方面的不足進行探索。此外,除了本文總結(jié)的興趣點推薦所存在的挑戰(zhàn)之外,深度學習相關(guān)技術(shù)還可用于解決興趣點推薦中一些尚未得到重視的問題,具體如下:

        1)目前大多數(shù)的興趣點推薦相關(guān)工作都著力于提高推薦的準確率,而推薦方法的時空復雜度沒有得到足夠重視。多數(shù)研究都是離線推薦,它們在已有的數(shù)據(jù)集上進行分析和預測,但實際運用這些推薦算法時,在線推薦是不可避免的。由于每時每刻都會有大量的用戶簽到數(shù)據(jù)產(chǎn)生,歷史可用作訓練的數(shù)據(jù)集的規(guī)模較大且增長較快,其中體現(xiàn)出的用戶偏好也會不斷變化,因此,需要不斷更新模型以適應(yīng)這種偏好變化。為在效率和有效性之間進行權(quán)衡,一種折中方案是將訓練和推斷模型拆分為離線和在線2 個部分,離線部分根據(jù)最近收集的數(shù)據(jù)定期重訓練模型,其效率問題是可容忍的;在線部分基于最新的模型實時產(chǎn)生每個用戶的興趣點推薦結(jié)果,其對效率敏感,但這種方案推薦的準確率在一定程度上取決于模型的更新頻率。未來可以考慮利用增量學習(incremental learning)[65]來持續(xù)性地對興趣點推薦模型進行更新[66],增量學習不斷利用新收集的數(shù)據(jù)來擴展模型知識,訓練過程高效且節(jié)省資源,同時模型可以快速捕捉用戶偏好的變化。

        2)冷啟動是興趣點推薦的一個經(jīng)典問題,預測新用戶或新到訪一個地區(qū)的用戶的偏好是一項挑戰(zhàn)。目前已有的興趣點推薦方法往往需要挖掘用戶的歷史數(shù)據(jù),但在一個LBSN 中新用戶的相關(guān)信息較少,不足以反映他們的偏好。隨著智能手機的普及以及各類應(yīng)用數(shù)量的增加,用戶往往會使用多個社交網(wǎng)絡(luò)應(yīng)用,即一個LBSN 中的新用戶很可能是其他社交網(wǎng)絡(luò)的老用戶。因此,可以通過跨站鏈接(cross-site linking)[67]的方式從其他網(wǎng)絡(luò)中獲取更多用戶相關(guān)數(shù)據(jù)以實現(xiàn)興趣點推薦。遷移學習[68]也是一種可以被使用的技術(shù),其根據(jù)2 個任務(wù)之間的相關(guān)性,重利用在一個任務(wù)上訓練的模型去處理另一個任務(wù)。目前僅有很少一些工作[69-70]嘗試使用遷移模型,根據(jù)本地用戶的偏好來推斷新移民或游客的偏好。在未來,一個LBSN 可以從其他LBSN 或傳統(tǒng)社交網(wǎng)絡(luò)中獲取更多反映用戶、興趣點特征以及社交關(guān)系的信息,從而提升興趣點推薦的效果。此外,由于時空特征是興趣點推薦的一個重要影響因子,因此一些交通數(shù)據(jù)可以被用來輔助推薦。

        3)用戶的偏好是動態(tài)變化的,一個LBSN 提供的興趣點推薦服務(wù)不是一次性的服務(wù),興趣點推薦取決于已知的用戶偏好,但同時用戶偏好的變化也會受歷史推薦的影響?,F(xiàn)有工作僅僅最優(yōu)化了當前一次推薦的用戶滿意度而忽視了本次推薦對未來用戶偏好的影響。強化學習[71]可以被引入興趣點推薦以建模用戶偏好的動態(tài)特征,該方法已被廣泛應(yīng)用于其他推薦系統(tǒng),如商品推薦[72]、新聞推薦[73],其主要思路是將推薦系統(tǒng)看作一種追求用戶效用(即獎勵)最大的策略,每次推薦根據(jù)當前狀態(tài)計算出最優(yōu)的動作,即推薦的興趣點,再根據(jù)該行為進行狀態(tài)轉(zhuǎn)化,最終目標是最大化用戶訪問的興趣點序列的效用之和,進而提高綜合推薦效果。對于具體強化學習方法的選擇,由于用戶狀態(tài)的刻畫較復雜,狀態(tài)空間較大,因此推薦系統(tǒng)中一般使用深度強化學習模型,文獻[72-73]均采用基于值函數(shù)的DQN[74]算法。由于候選興趣點數(shù)量較大,動作空間也較大,因此在未來興趣點推薦研究中也可嘗試使用基于策略梯度的深度強化學習算法,如DDPG 算法[75]。為了解決興趣點推薦中由于缺乏用戶對歷史簽到具體評分反饋而導致效用無法判定的問題,可以使用逆強化學習(Inverse Reinforcement Learning,IRL)的方法在構(gòu)建策略的同時獲得獎勵方程[76]。強化學習方法在模型訓練時相較于監(jiān)督學習需要的數(shù)據(jù)量更多,但在在線推薦場景下不會帶來額外的效率損失,其在推薦時考慮用戶的未來長期滿意度,可以有效提升長期使用該LBSN 的用戶的體驗質(zhì)量,進而提高應(yīng)用的用戶粘性。

        7 結(jié)束語

        本文針對興趣點推薦系統(tǒng)的特性,總結(jié)實際場景中興趣點推薦所面臨的挑戰(zhàn),對深度學習方法在該領(lǐng)域的應(yīng)用進行總結(jié)歸納。深度學習的引入有助于興趣點推薦系統(tǒng)更充分地從LBSN 中的歷史簽到數(shù)據(jù)、用戶生成內(nèi)容、社交關(guān)系等信息中提取特征,并獲取多特征對于用戶偏好的綜合影響,也可以在一定程度上緩解數(shù)據(jù)稀疏性問題,從而提升興趣點推薦的效果。但是,深度學習方法應(yīng)用于興趣點推薦時依然存在一定不足,下一步將改進深度學習模型使得其更適用于興趣點推薦任務(wù),此外,引入增量學習、遷移學習、強化學習等方法,以實現(xiàn)更新速度更快、效率更高、用戶體驗質(zhì)量更好的興趣點推薦系統(tǒng)也是今后的研究方向。

        猜你喜歡
        特征用戶方法
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        中文人妻av大区中文不卡| 少妇人妻大乳在线视频不卡| 91精品国产在热久久| 人人人妻人人澡人人爽欧美一区 | 99久久久久国产| 激情人妻中出中文字幕一区| 人妻少妇中文字幕专区| 少妇性l交大片7724com| 欧妇女乱妇女乱视频| 亚洲饱满人妻视频| 精品人妻一区二区三区蜜桃| 久久精品国产亚洲av日韩精品| 精品久久有码中文字幕| аⅴ资源天堂资源库在线| 一卡二卡三卡视频| 亚洲成a人片在线观看高清| 澳门精品一区二区三区| 亚洲 另类 小说 国产精品| 真实国产精品vr专区| 人妻丰满熟妇av无码区不卡 | 97se亚洲国产综合在线| aaaaa级少妇高潮大片免费看| 天堂中文资源在线地址| 午夜在线观看有码无码| 日本一级片一区二区三区| 国产精品久久久久久久| 精品人妻伦九区久久AAA片69| 人妻色中文字幕免费视频| 色佬精品免费在线视频| 大学生粉嫩无套流白浆| 亚洲深深色噜噜狠狠爱网站 | 亚洲av无码乱码国产一区二区| 久久精品亚洲乱码伦伦中文| 亚洲专区一区二区在线观看| 日本高清中文字幕二区在线| 日本一二三区在线观看视频| 变态 另类 欧美 大码 日韩| 国产精品公开免费视频| 亚洲天堂av免费在线| 老鸭窝视频在线观看| 久久久久99精品成人片试看|