萬 梅 曹 琳
1(廣州工商學(xué)院計算科學(xué)與工程系 廣東 廣州 510850) 2(南方醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院 廣東 廣州 510515)
隨著移動互聯(lián)網(wǎng)的普及,人們在許多平臺均成為了社交網(wǎng)絡(luò)的一個成員,并且許多人在多個不同類型的平臺均建立了社交關(guān)系[1]。目前含有社交網(wǎng)絡(luò)的應(yīng)用平臺包括網(wǎng)易云音樂、淘寶網(wǎng)、豆瓣電影和抖音短視頻等[2]。近期網(wǎng)紅經(jīng)濟的發(fā)展也十分迅速,一部分流量明星和網(wǎng)紅擁有巨大的“帶貨”能力,對潛在消費者的購買決定具有極大的影響力。人們在社交網(wǎng)絡(luò)上所表現(xiàn)出的社群特點和興趣聚合特點,促使專家學(xué)者研究利用社交網(wǎng)絡(luò)提高推薦系統(tǒng)的效果,最終最大化商品的銷售量以及服務(wù)的滿意度[3]。
國內(nèi)外的專家學(xué)者已經(jīng)提出了諸多社交網(wǎng)絡(luò)和推薦系統(tǒng)結(jié)合的成功方案。文獻[4]提出了企業(yè)間供應(yīng)關(guān)系和推薦系統(tǒng)的結(jié)合方法,通過分析企業(yè)間的聯(lián)系促進推薦系統(tǒng)的推薦多樣性。文獻[5]首先提取用戶的社交檔案和社區(qū)標簽,再結(jié)合新聞的語義空間向量預(yù)測相似用戶的偏好,該算法在新聞推薦問題上取得了較好的推薦準確率。文獻[6]圍繞社交推薦的特點,設(shè)計實現(xiàn)了一種社交網(wǎng)絡(luò)評分預(yù)測方法,解決了評分預(yù)測中用戶評分主觀性及評分數(shù)據(jù)稀疏帶來的預(yù)測不準確問題。文獻[7]將傳統(tǒng)聚類方法與蛋白質(zhì)網(wǎng)絡(luò)的新特性相結(jié)合,提出了一種競爭-抑制節(jié)點模型,該模型通過數(shù)據(jù)預(yù)處理和特征值競爭抑制機制較好地完成數(shù)據(jù)過濾,從而提高數(shù)據(jù)處理效率并提升最終推薦結(jié)果的精度。文獻[4-7]均基于社交網(wǎng)絡(luò)的靜態(tài)拓撲結(jié)構(gòu),并未考慮社交網(wǎng)絡(luò)動態(tài)演化對用戶偏好的影響。然而,社交網(wǎng)絡(luò)上的信息來源日益增多,且傳播速度極快,因此需要對社交網(wǎng)絡(luò)信息進行實時地動態(tài)分析,才能最大化社交網(wǎng)絡(luò)信息的價值。
考慮社交網(wǎng)絡(luò)動態(tài)演化對用戶偏好的影響,提出一種基于神經(jīng)網(wǎng)絡(luò)嵌入和動態(tài)社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的新聞推薦系統(tǒng)。首先使用神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)方法來學(xué)習(xí)用戶的時域行為特征,使用無監(jiān)督的圖上隨機游走方法學(xué)習(xí)社交網(wǎng)絡(luò)拓撲的結(jié)構(gòu)信息,利用插值法將兩個嵌入向量融合成一個用戶表示向量。然后,利用核映射方法將用戶表示向量映射至低維空間,從而提高相似性計算的效率?;谛吕宋⒉?shù)據(jù)完成了新聞推薦實驗,結(jié)果表明引入用戶時域的行為信息能夠增強推薦系統(tǒng)的性能,并且采用神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)的效果好于傳統(tǒng)基于概率的表示方法。
本文的第一個目標是將社交網(wǎng)絡(luò)的用戶分成不重疊的社群,同一個社群內(nèi)的用戶應(yīng)當對相似的項目內(nèi)容(電影、商品、新聞等)表現(xiàn)出相似的時域行為,并且用戶間存在密集的社交連接。
問題模型可描述為:給定一個用戶集U,問題目標是將U分成不重疊的子集,每個用戶u∈U屬于唯一的子集。將社群分組結(jié)果表示為P={C:C?U,|C|>1},其中?Ci,Cj≠i∈P:Ci∩Cj=?。本文的目標是識別出目標P,P的每個成員Ci對目標項目的時域行為相似。
本文通過三個階段尋找目標P:(1) 基于時域行為的社交網(wǎng)絡(luò)表示學(xué)習(xí);(2) 神經(jīng)網(wǎng)絡(luò)嵌入;(3) 檢測目標社群。
用戶時域行為設(shè)為D=(U,M,T),其中U為用戶集,M為用戶產(chǎn)生的內(nèi)容,例如:商品評價、評分等,T為一個時間段。將社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)建模為有向圖,記為Γ=(Y,A),其節(jié)點為Y中的用戶,邊為每對用戶的社交關(guān)系,如:(u,v)∈A表示u“關(guān)注”v的關(guān)系。
從兩個信息源建立用戶表示:(1) 基于時域社交行為D=(U,M,T)的時域信息嵌入;(2) 基于社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)Γ=(Y,A)的社交連接嵌入。首先,從用戶的時域行為學(xué)習(xí)用戶的向量表示W(wǎng)D,時域行為相似的用戶在向量空間應(yīng)當更加靠近。提出一種嵌入學(xué)習(xí)方法,通過最大化兩個用戶間相似性,保證兩個用戶在向量空間內(nèi)靠近。然后,從社交網(wǎng)絡(luò)的鄰居節(jié)點學(xué)習(xí)用戶的網(wǎng)絡(luò)拓撲表示W(wǎng)G,采用無監(jiān)督的圖上隨機游走[8]方法學(xué)習(xí)拓撲結(jié)構(gòu),學(xué)習(xí)的向量空間幾何關(guān)系反映了原社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。從時域社交行為和社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)所學(xué)習(xí)的向量表示之間彼此獨立,然后將這兩個單模表示通過線性插值結(jié)合成一個多模表示。
將用戶時域行為表示為三元組格式D=(U,M,T),其中U為用戶集,M為U產(chǎn)生的內(nèi)容,T為一個時間段。從M中檢測出時間段T內(nèi)的偏好項目集Z,將用戶u∈U在時間段1≤t≤T內(nèi)對項目z∈Z的偏好表示為一個時間序列,記為Xuz=[xuz,1,xuz,2,…,xuz,T],其中xuz,t∈P表示用戶u在時間t對項目z的偏好。將所有用戶的項目偏好時間序列組成一個三維結(jié)構(gòu),記為Ξ={xuz,t:u∈U,z∈Z, 1≤t≤T}。
圖1給出了3個用戶對于5個項目的興趣度演化實例圖,圖中用戶2和用戶1在第1~10天對項目4表現(xiàn)出相似的時域行為,用戶2和用戶3在第5~7天對項目3表現(xiàn)出相似的時域行為。
圖1 3個用戶對于5個項目的興趣度演化實例
本文的多元時間序列能夠準確捕捉用戶對指定項目的興趣演化過程。該方法包含兩個步驟:(1) 使用LDA[9]搜索時間段T內(nèi)的項目集Z;(2) 使用文獻[10]的偏好模型計算每個用戶在時間t對項目z∈Z的偏好,記為xuz,t。具體處理方法為:將指定用戶發(fā)布的所有評價收集到一個文檔中,所有用戶的評價集合組成文檔語料庫。采用LDA主題模型技術(shù)處理該語料庫,獲得一個主題集Z。在本文的推薦系統(tǒng)中,LDA模型的主題對應(yīng)推薦系統(tǒng)的項目,主題z∈Z是一個多項式分布,描述了每個項對主題z的貢獻程度。
1) 時域行為模型。為了學(xué)習(xí)所有用戶的神經(jīng)嵌入表示,每個用戶需要被定義在其他用戶的上下文。首先將評分、評價內(nèi)容以及時域行為上相似的用戶作為一對用戶,然后通過嵌入方法維持每對用戶的相似性信息,使兩個偏好相似的用戶在向量空間內(nèi)靠近。
根據(jù)兩個用戶之間的同質(zhì)性和偏好相似區(qū)域的數(shù)量定義嵌入學(xué)習(xí)的目標函數(shù),目標函數(shù)將偏好相似區(qū)域多的用戶分入一個社群,將偏好相似區(qū)域少的用戶分為不同的社群。將兩個用戶間的偏好相似區(qū)域作為神經(jīng)嵌入學(xué)習(xí)的上下文。
定義1偏好相似區(qū)域。將偏好時間序列X的子空間R定義為偏好相似區(qū)域,需滿足以下兩個條件:(1) 子空間內(nèi)的每個值具有相等的同質(zhì)性;(2) 不存在其他的相似區(qū)域R′,使R?R′,即R為最大化的相似區(qū)域。將滿足條件的子空間R記為P。
搜索偏好相似區(qū)域P的步驟為如下:(1) 搜索用戶在時間t的偏好項目,獲得一個二維的向量Pt, 1≤t≤T;(2) 合并所有時間t的向量,產(chǎn)生最終的P。
2) 基于時域行為的嵌入學(xué)習(xí)。將嵌入學(xué)習(xí)問題建模為基于用戶上下文的相似用戶最大似然問題,將與目標用戶偏好相似區(qū)域Ρ相似的用戶集作為目標用戶的上下文。因此,兩個用戶在彼此上下文出現(xiàn)次數(shù)越多,那么他們之間相似度越高。采用連續(xù)詞袋模型(CBOW)[11]對用戶進行嵌入學(xué)習(xí)。
定義2基于時間行為的嵌入學(xué)習(xí)。假設(shè)偏好相似區(qū)域的集合為P,嵌入函數(shù)f:Y→Pd將每個用戶u∈Y映射到一個d維空間[0,1]d,其中d<<|Y|。映射的目標是優(yōu)化以下表達式:
(1)
為了簡化分析,假設(shè)用戶在偏好相似區(qū)域內(nèi)是條件獨立的,可得以下關(guān)系:
(2)
采用圖2所示的網(wǎng)絡(luò)結(jié)構(gòu)對用戶進行嵌入學(xué)習(xí)。
圖2 嵌入學(xué)習(xí)用戶表示的網(wǎng)絡(luò)結(jié)構(gòu)
相似偏好區(qū)域的計算式為:
R={u,v,…}×{zi,zj,…}×{i,j,…}
(3)
式中:R為相似偏好區(qū)域;u為目標用戶;v表示用戶上下文;z表示項目;i和j為項目編號。
(4)
結(jié)合式(2)和式(3)可將式(1)簡化為:
(5)
式(4)的計算復(fù)雜度和Y的規(guī)模成正比例關(guān)系,顯然不適合大規(guī)模社交網(wǎng)絡(luò)的應(yīng)用場景,因此采用分層的Softmax技術(shù)[12]來近似完全Softmax計算以提高計算效率,將隱藏層到輸出層的連接矩陣變換為一個二叉哈夫曼樹,用戶作為葉節(jié)點。每個用戶u在樹中對應(yīng)一條搜索路徑u1→u2…→uh(u),其中h(u)為u的深度。采用哈夫曼樹能夠?qū)r間復(fù)雜度從O(|U|)加快到O(log|U|)。分層Softmax條件概率Pr(u|v)的計算式為:
(6)
使用反向傳播和梯度下降法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。訓(xùn)練達到收斂之后獲得一對偏好相似的用戶,設(shè)為u,v∈U,這兩個用戶的嵌入向量表示Vu和Vv在時域空間D=(U,M,T)內(nèi)相似。
設(shè)社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu)為Γ=(Y,A),其中Y為用戶集,A為用戶間的連接集,通過嵌入學(xué)習(xí)獲得用戶在社交網(wǎng)絡(luò)中的局部結(jié)構(gòu)表示。
(1) 鄰居上下文模型。如果兩個用戶的相似鄰居越多,那么這兩個用戶屬于同一個社區(qū)的可能性越大,因此這兩個用戶在嵌入空間內(nèi)也應(yīng)當靠近。實際社交網(wǎng)絡(luò)的社區(qū)內(nèi)存在一些等價結(jié)構(gòu),因此采用隨機游走對目標用戶的鄰居進行隨機采樣,提高搜索過程的效率。
定義3網(wǎng)絡(luò)鄰居。用戶u∈U的鄰居集設(shè)為Nu。從根節(jié)點u開始在網(wǎng)絡(luò)Γ=(Y,A)進行長度為l的隨機游走,隨機變量為[x1:l],如果(v,w)∈A,那么根據(jù)概率分布Pr(xl=w|xl-1=v)從xl-1的鄰居中選擇一個用戶xl;否則將隨機變量置0。
采用二階隨機游走方法,其返回參數(shù)為p,進出參數(shù)為q,偏游走方法定義為:
(7)
式中:d()表示加權(quán)圖中兩個用戶間最短路徑的距離。p值越高,更傾向于探索未知區(qū)域,q值越高,更傾向于局部開發(fā)。
(2) 基于網(wǎng)絡(luò)拓撲的嵌入學(xué)習(xí)。獲得所有用戶的鄰居之后,通過優(yōu)化相同游走用戶的條件概率,對每個用戶進行嵌入學(xué)習(xí)。
定義4基于網(wǎng)絡(luò)拓撲的嵌入學(xué)習(xí)。設(shè)鄰居集為N=Uu∈YNu,嵌入函數(shù)g:U→Rd將每個用戶v∈U映射到d維空間[0, 1]d,d<<|U|,對以下的目標函數(shù)進行優(yōu)化:
(8)
采用圖2所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。隱藏層H的大小為d,輸入層到隱藏層的連接表示為矩陣Wg,矩陣大小為|Y|×d,每行表示一個用戶向量。輸入層I為獨熱編碼的向量,隱藏層神經(jīng)元為線性映射函數(shù);H=WTI。給定一個用戶v,H是Wg中v行的轉(zhuǎn)置向量,表示為Vv。隱藏層到輸出層的連接矩陣W′g大小為d×|Y|。通過Softmax函數(shù)近似用戶u的概率,其計算式為:
(9)
式中:V′u為u在矩陣W′g中的列。采用隨機梯度下降法和反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)輸出基于社交網(wǎng)絡(luò)拓撲的嵌入向量表示W(wǎng)g。
上文從時域社交行為D=(U,M,T)和網(wǎng)絡(luò)拓撲結(jié)構(gòu)Γ=(Y,A)分別獲得嵌入學(xué)習(xí)表示W(wǎng)D和Wg,然后通過插值函數(shù)h(WD,Wg)將兩個向量融合為一個向量。本文的插值函數(shù)定義為:
h(WD,Wg)=αWD+(1+α)Wg
(10)
式中:α表示權(quán)重系數(shù),用于控制不同向量的重要性。
基于嵌入學(xué)習(xí)的用戶表示屬于高維向量,因此需要將表示向量映射至低維空間。首先計算兩個表示向量之間的最短路徑,然后運用高斯核將向量映射到一個全局的相似性空間內(nèi)。
使用稀疏線性編碼將嵌入向量映射到低維空間。首先,計算每對向量幾何距離Gvi,將每個用戶的距離集表示為一個向量G∈Rn×n,G=[Gv1,Gv2,…,Gvn],其中n為節(jié)點數(shù)量。然后,運用以下的高斯核函數(shù)將映射距離向量,其結(jié)果作為相似性評分:
(11)
式中:σs為衰減率;⊙為一個點積運算。假設(shè)每個社群的內(nèi)部連接密集,外部連接稀疏,所以社群內(nèi)的最短路徑數(shù)量應(yīng)當少于不同社群內(nèi)的最短路徑。假設(shè)節(jié)點vi和其他節(jié)點的相似性為:
(12)
式中:αi=[αi(1),αi(2),…,αi(n)]為相似性系數(shù)向量,αi(j)是節(jié)點vi到節(jié)點vj的相似性;sj為式(11)計算的相似性向量。
然后使用l1正則項的稀疏線性分解尋找最優(yōu)的相似性系數(shù)向量,其目標函數(shù)為:
(13)
(14)
式中:D為線性系數(shù)的低維映射結(jié)果。
假設(shè)局部高密度區(qū)域的中心是每個區(qū)域的核心。首先,計算每個節(jié)點的全局影響值,然后,基于影響值識別社群的意見領(lǐng)袖。節(jié)點vi的影響值計算式為:
(15)
式中:di為D的第i行。式(15)同時考慮了網(wǎng)絡(luò)的密度和幾何距離,從時域和網(wǎng)絡(luò)拓撲兩個上下文識別局部的核心。將子空間內(nèi)影響值最大的節(jié)點作為候選核心,節(jié)點vi的子空間定義為:
sub(vi)={vj|?j=1,2,…,n,j≠i,D(i,j)>β}
(16)
式中:β定義了每個節(jié)點的影響范圍。
算法1所示是子空間核心的識別算法,每個核心均為該子空間內(nèi)影響值最高的節(jié)點。然后利用每個子空間的核心進行協(xié)同過濾推薦處理。
算法1子空間核心的識別算法
輸入:β,D,S。
輸出:子空間核心cc。
1.Pt= 計算節(jié)點的全局影響值;
//式(15)
2.cc= NULL;
//初始化cc變量
3.for eachifrom 1 toN
4.subspace(vi)=vi的節(jié)點;
//式(16)
5. for each 節(jié)點vjinsubspace(vi)
6.tag=TRUE;
7. ifinfluence(vj)>influence(vi) then
//影響力比較
8.tag=FALSE;
9. end if
10. if (tag== TRUE) then
11.cc=cc∪{vi};
12. end if
13.end for
1) 實驗數(shù)據(jù)集采集。利用公開的新浪微博數(shù)據(jù)集MicroblogPCU(下載網(wǎng)址:archive.ics.uci.edu/ml/datasets/microblogPCU)采集實驗的數(shù)據(jù)集,原MicroblogPCU的目標是探索微博中的spammers(發(fā)送垃圾信息的人),對該程序進行修改,忽略MicroblogPCU程序中數(shù)據(jù)集屬性列表(weibo_user.csv)的屬性“is_spammer”,利用關(guān)鍵詞搜索屬性“topic”相同的用戶列表,采集本文實驗所需的benchmark數(shù)據(jù)集。
Benchmark數(shù)據(jù)集的采集方法為:利用LDA算法[9]搜索用戶的偏好項目,將LDA算法的偏好項目數(shù)量設(shè)為30。為每個用戶計算每日的項目偏好時間序列,過濾其中值始終小于0.1的用戶。最終的Benchmark數(shù)據(jù)集共包含140 000個用戶在2019.7.20—2019.8.20期間發(fā)布的3 000 000條微博。每條微博的信息包括微博內(nèi)容、用戶ID和發(fā)布時間。圖3提取了三個微博用戶對國產(chǎn)動畫電影《哪吒之魔童降世》的熱度變化情況。
圖3 三個用戶對項目的興趣變化曲線
2) 模型建立和參數(shù)設(shè)置。在時域行為的嵌入學(xué)習(xí)中,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為0.025,每個epoch衰減為0.002,共設(shè)200個epoch。訓(xùn)練的窗口大小為2,設(shè)置三個向量大?。篸={100,200,300}。
在社交網(wǎng)絡(luò)拓撲的嵌入學(xué)習(xí)中,因為圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks, GCN)具有較低的時間復(fù)雜度O(|A|),并且能夠處理冷啟動的用戶,所以選擇GCN作為嵌入學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。每個節(jié)點完成5個長度分別為40和80的隨機游走,訓(xùn)練的窗口大小為5。學(xué)習(xí)率和epoch數(shù)量分別為0.002和200,隨機游走的參數(shù)p和q均設(shè)為缺省值1。
插值嵌入程序的參數(shù)α設(shè)為0.1,0.2,…,1。通過試錯實驗決定子空間核心識別程序的β參數(shù),發(fā)現(xiàn)β<0.3的性能差于β≥0.3,并且β≥0.3時性能差異較小,因此將子空間核心識別程序的參數(shù)β設(shè)為0.3。
3) 對比方法選擇。本文算法的特點包括:① 引入用戶時域行為增強推薦系統(tǒng)的性能;② 通過神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)用戶的表示。為了驗證上述兩點的有效性,選擇了以下的對比方法。
(1) 基于社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推薦系統(tǒng)[14]。該方法不包含對用戶時域行為的分析和利用,將其簡記為LDA。該方法可驗證第①個特點的有效性。
(2) 基于多元時間序列的推薦系統(tǒng)[15]。該方法利用概率模型將用戶的時域行為建模為多元時間序列,將其簡記為TLUCI。該方法可驗證第②個特點的有效性。
(3) 基于用戶時域演化和社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)的推薦系統(tǒng)[16]。該方法利用概率模型建模用戶的行為歷史,將其簡記為MFG,其參數(shù)候選項目數(shù)量分別設(shè)為10、20、30。該方法可綜合驗證本文方法的有效性。
新聞推薦實驗的步驟為:(1) 分割每個時間t(0~32)的社群,搜索每個時間的總項目列表;(2) 通過協(xié)同過濾為每個用戶產(chǎn)生相應(yīng)的推薦列表。
采用兩個常用指標評價新聞排列系統(tǒng)的推薦性能,分別為精度P-k和平均倒數(shù)排名(Mean Reciprocal Rank, MRR)[17]。P-k評估了推薦項目的準確性,MRR評估了推薦列表的排列效果。
P-k的計算式為:
(17)
式中:tu為top-k推薦列表中用戶u相關(guān)的新聞數(shù)量,P-1表示top-1列表的推薦精度,P-10表示top-10列表的推薦精度。
MRR的計算式為:
(18)
式中:ranku是用戶u第1個相關(guān)新聞內(nèi)容的排列位置。
圖4是不同推薦系統(tǒng)的平均推薦結(jié)果,圖中NR(News Recommendation)為本文算法的簡稱。LDA的推薦精度和MRR均較低,可看出用戶的時域信息對于推薦性能具有較大的貢獻。MFG在候選項目數(shù)量為20時獲得了較高的推薦性能,其效果好于TLUCI,但是當候選項目數(shù)量為10和30時,其性能衰減的幅度較大,因此該算法受參數(shù)影響較大。NR系統(tǒng)在向量長度為200時取得了最佳的推薦效果,而且向量長度為100和300時也并未出現(xiàn)大幅度的性能衰減。
(a) P-1精度結(jié)果
(b) P-10精度結(jié)果
(c) MRR的實驗結(jié)果圖4 新聞推薦的平均實驗結(jié)果
隨之測試了圖上隨機游走對于NR推薦性能的影響,將游走長度l分別設(shè)為40和80,嵌入學(xué)習(xí)的向量長度設(shè)為200。圖5是不同推薦模型的性能關(guān)于插值嵌入程序參數(shù)α的變化曲線,圖中NR40和NR80分別對應(yīng)l為40和80的推薦系統(tǒng),NR0為僅包含時域行為(不包含社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息)的NR推薦系統(tǒng)。從結(jié)果發(fā)現(xiàn)隨機游走的長度越長,所提取的社交網(wǎng)絡(luò)拓撲信息越準確,其推薦性能越好。通過設(shè)置合適的α值,NR40和NR80的推薦性能均能夠明顯好于NR0,因此,驗證了結(jié)合時域行為信息和社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息的效果好于單獨采用時域行為信息的模型。
(a) P-1精度結(jié)果
(b) P-10精度結(jié)果
(c) MRR的實驗結(jié)果圖5 新聞推薦的平均實驗結(jié)果
本文使用嵌入學(xué)習(xí)方法學(xué)習(xí)用戶的時域行為,使用嵌入學(xué)習(xí)方法學(xué)習(xí)社交網(wǎng)絡(luò)拓撲的結(jié)構(gòu)信息。然后,利用核映射方法將用戶表示向量映射至低維空間,從而提高相似性計算的效率。基于新浪微博的新聞推薦實驗結(jié)果表明,引入用戶時域行為能夠增強推薦系統(tǒng)的性能,并且采用神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)的效果好于傳統(tǒng)基于概率的表示方法。
由于圖上隨機游走和神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)的時間復(fù)雜度較高,因此本文方法僅支持以天為單位的應(yīng)用場景,如新聞應(yīng)用和音樂播放器的“每日推薦”等。本文方法難以支持推薦頻率高、演化速度快的應(yīng)用場景,未來將對圖上隨機游走和神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí)進行優(yōu)化,在時間效率和推薦精度之間實現(xiàn)平衡。