摘要: 針對現(xiàn)有序列推薦模型忽略用戶的長期偏好和短期偏好, 導致推薦模型不能充分發(fā)揮作用, 推薦效果不佳的問題, 提出一種基于用戶長短期偏好的個性化推薦模型. 首先,
針對長期偏好序列長且不連續(xù)的特點, 采用BERT(bidirectional encoder representations from transformers)
對長期偏好建模; 針對短期偏好序列短且與用戶交互的間隔時間較短, 具有易變性, 采用垂直水平卷積網(wǎng)絡(luò)對短期偏好建模; 在得
到用戶的長期偏好和短期偏好后, 利用激活函數(shù)進行動態(tài)建模, 然后利用門控循環(huán)網(wǎng)絡(luò)對長短期偏好進行平衡. 其次, 針對用戶在日常交互中的誤碰行為, 采用稀疏注意力網(wǎng)絡(luò)進行建
模, 在對長短期偏好建模前使用稀疏注意力網(wǎng)絡(luò)進行用戶行為序列處理; 用戶特征偏好對推薦結(jié)果也會有影響, 使用帶有偏置編碼的多頭注意力機制對用戶特征進行提取. 最后, 將
各部分得到的結(jié)果輸入到全連接層得到最后的輸出結(jié)果. 為驗證本文模型的可行性, 在數(shù)據(jù)集Yelp和MovieLens-1M上進行實驗, 實驗結(jié)果表明該模型優(yōu)于其他基線模型.
關(guān)鍵詞: 序列推薦; 長期偏好; 短期偏好; 稀疏注意力網(wǎng)絡(luò);" 垂直水平卷積網(wǎng)絡(luò)
中圖分類號: TP391" 文獻標志碼: A" 文章編號: 1671-5489(2024)03-0615-14
Personalized Recommendations Based onUsers’ Long- and Short-Term Preferences
YE Rong, SHAO Jianfei, SHAO Jianlong
(Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China)
收稿日期: 2023-06-02.
第一作者簡介: 葉" 榕(1998—), 女, 漢族, 碩士研究生, 從事推薦系統(tǒng)與自然語言處理的研究, E-mail: 771740131@qq.com.
通信作者簡介: 邵劍飛(1970—), 男, 漢族, 碩士, 副教授, 從事數(shù)據(jù)挖掘與自然語言處理的研究, E-mail: 1515346516@qq.com.
基金項目: 國家自然科學基金(批準號: 61732005).
Abstract: Aiming at the problem that the existing sequence recommendation model ignored the users’ long\|term preference and short-term preference,
resulting in the recommendation model not being able to" fully play its role and the recommendation effect being poor, we proposed a personalized recommendation model based on the users’
long\| and short-term preferences. Firstly, for the characteristics of long and discontinuous long-term preference sequences, BERT (bidirectional encoder representations from transformers)
was used to model the long-term preference, for
the short-term preference sequences and the short interval time between interaction with the user, which was volatile, vertical and horizontal convolutional networks were used to model
the short-term preference, after obtaining the users’ long-term preference and short-term preference, activation functions were used to model dynamically, and then a gated recurrent network
was used to balance the long\| and short-term preferences. Secondly, for the users’ mis-touching behavior in daily interaction, sparse attention network was used for modeling, and sparse attention network was used
to process the users’ behavioral sequences before modeling the long\| and short-term preferences. User feature preferences also had an impact on the recommendation results, and user features were
extracted by using a multi-head attention mechanism with bias coding. Finally, the results obtained from each part were input into the fully connected layer to obtain the final output result. In order to verify the feasibility of
the proposed model, experiments were conducted on Yelp and MovieLens-1M datasets, and the results show that the proposed model outperforms other baseline models.
Keywords: sequential recommendation; long-term preference; short-term preference; sparse attention network;" vertical and horizontal convolutional network
推薦系統(tǒng)(recomm-ender systems, RS)能很好地幫助用戶緩解信息過載帶來的問題, 已廣泛應(yīng)用于網(wǎng)絡(luò)購物(如淘寶、 天貓、 京東等)[1]、 電影(如貓眼、 淘票票等)
[2-3]、 音樂(如QQ音樂、 網(wǎng)易云等)、 新聞閱讀(如今日頭條)[4]等領(lǐng)域. 目前使用較多的推薦系統(tǒng)主要分為兩類: 一般推薦系統(tǒng)和序列推薦系統(tǒng). 一般推薦的
目的是了解用戶的長期偏好. 基于因式分解的協(xié)同過濾[5]是該領(lǐng)域應(yīng)用最廣的技術(shù), 其建模方式大多數(shù)是根據(jù)用戶與物品之間的交互建模, 而這種交互可能是顯式的或隱式的, 建模后得到的結(jié)果常趨于靜態(tài).
Top-N推薦[6-7]力求基于用戶與物品之間的歷史交互模擬用戶對物品的偏好, 在建模過程中只依賴于靜態(tài)交互, 而忽略了順序依賴關(guān)系, 將用戶與項
目的所有交互視為同等重要. 而用戶的行為意圖并非一成不變, 在一段時間內(nèi)用戶的行為意圖會受需求、 環(huán)境等因素的影響. 為滿足現(xiàn)實需求, 近年來,
序列推薦因其在捕獲用戶與物品間順序關(guān)系方面的優(yōu)勢而得到廣泛關(guān)注. 序列推薦彌補了一般推薦的不足.
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)[8-9]在自然語言處理(NLP)方面性能優(yōu)異, 該方法目前已
成為順序推薦的主流模型[10-13]. 這些方法具有短期記憶, 因此會推薦與用戶近期行為更相關(guān)的項目.
雖然上述模型對用戶長短期偏好進行建模取得了較好的效果, 但它們沒有對長短期偏好分別有針對性的建模, 對行為序列中的誤點行為也未進行有效處理, 從而影響了最后的推薦效果.
基于上述問題, 本文提出一種融合稀疏網(wǎng)絡(luò)與垂直水平卷積網(wǎng)絡(luò)對用戶長短期偏好建模的序列推薦方法, 命名為FDSRec. 本文的貢獻如下:
1) 提出了融合稀疏網(wǎng)絡(luò)與垂直水平卷積網(wǎng)絡(luò)對用戶長短期偏好建模的序列推薦方法. 針對長期偏好, 交互序列較長, 普通循環(huán)神經(jīng)網(wǎng)絡(luò)在多次迭代后會出現(xiàn)梯度消失和梯度爆炸問
題, 因此無法處理長依賴問題, 采用BERT(bidirectional encoder representations from transformers)對歷史交互序列建模; 針對短期偏好變化快, 單
一編碼方式無法有效獲取有效信息的問題, 采用垂直水平卷積網(wǎng)絡(luò)建模.
2) 針對用戶的交互序列中會產(chǎn)生一些誤點行為, 導致一些干擾因素, 采用稀疏網(wǎng)絡(luò)進行建模; 同時將α-entmax函數(shù)應(yīng)用到其中, 以減弱用戶在誤點時產(chǎn)生無關(guān)信息帶來的影響.
3) 針對建模過程中的長期偏好與短期偏好平衡問題, 采用門控循環(huán)單元解決該問題, 將產(chǎn)生的長期偏好和短期偏好進行處理, 給予不同的權(quán)重, 進而產(chǎn)生精確的推薦結(jié)果.
4) 采用融合偏置編碼的多頭注意力機制進行特征提取. 位置編碼的出發(fā)點在于關(guān)注了序列的位置順序, 偏置編碼將其中的位置信息和與之有關(guān)的其他信息進行結(jié)合, 構(gòu)成一種新的表
示輸入模型, 該模型具有學習能力. 基于此, 本文采用融合偏置編碼進行特征提取, 融合偏置編碼后的模型關(guān)注了序列之間的順序關(guān)系, 在得到序列的位置關(guān)系與順序
關(guān)系后, 將二者融合能更好地進行特征提取.
5) 在兩個真實的公開數(shù)據(jù)集上進行實驗, 實驗結(jié)果表明FDSRec方法優(yōu)于其他基線模型.
1" 相關(guān)工作
傳統(tǒng)的機器學習方法可用于序列推薦, 基于Markov鏈(Markov chain, MC)的方法將用戶的行為序列映射到Markov鏈中, 根據(jù)用戶的行為序列對用戶的下一個行為進行預(yù)測
[14]. Rendle等[15]提出了FPMC(factorizing personalized Markov chains)模型, 通過一種基
于一階Markov鏈和矩陣分解進行結(jié)合, 然后捕獲序列模式和用戶的長短期偏好, 并據(jù)此進行推薦. 但基于Markov鏈的方法通常側(cè)重于相鄰序列之間的依賴關(guān)系, 從而導致基于Mark
ov鏈的推薦方法不能捕獲長期偏好. 此外, 這些方法不能有效模擬用戶興趣的動態(tài)變化.
由于深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展, 近年來, 許多研究人員提出了許多基于RNN的方法對用戶交互序列中的序列模型進行建模. 文獻[8]提出了一種基于門控循環(huán)單元(gated recurrent unit, GRU)
的序列推薦模型(GRU for recommendation, GRU4Rec), 該模型可通過單個門控單元同時控制遺忘因子和更新狀態(tài)單元的決定, 用于預(yù)測下一個用戶的目的. 但該模型只能進行單向的信息提取, 對信息
的更新有一定的限制. Tang等[16]提出了一種卷積序列嵌入推薦模型(convolutional sequence embedding recommendation model, Caser), 該模型從序列中提取若干個連續(xù)的項作為
輸入嵌入到神經(jīng)網(wǎng)絡(luò)中, 使用水平卷積層和垂直卷積層捕獲序列的局部特征, 再通過全連接層得到更高級別的特征. 但卷積網(wǎng)絡(luò)只對當前特征進行提取, 忽視了之前特征對推薦結(jié)果
的影響. Chen等[17]和Huang等[18]采用記憶網(wǎng)絡(luò)改進順序推薦. STAMP(short-term attention/memory priority)利用多層感知器(MLP)網(wǎng)絡(luò)捕捉用戶的一般興趣和當前興趣[19].
注意力機制在建模序列數(shù)據(jù)中應(yīng)用廣泛, 如機器翻譯[20-21]和文本分類. 近期一些工作嘗試采用注意力機制提高推薦性能和可解釋性
[22-23]. 如Li等[22]將注意力機制并入GRU以捕獲用戶的順序行為和基于會話推薦中的主要目的. 文獻[24]設(shè)計了一種基于自
注意力的序列推薦模型(self-attention based sequential model, SASRec), 在每個時間步自適應(yīng)地為之前的物品賦予權(quán)重, 但該方法仍是一個單項的模型, 使用一個偶然的注意
掩模, 依賴用戶這一時刻之前的交互序列, 并用其下一時刻作為標簽對模型訓練, 可能會導致模型偏差. 相比之下, BERT4Rec模型能實現(xiàn)雙向編碼, 該模型針對短期序列有較好的效果.
本文根據(jù)不同長度的序列進行有針對性建模. 針對長期偏好序列, 采用BERT對長期偏好建模. 因為BERT在文本和機器翻譯領(lǐng)域都取得了較好效果, 普洪飛等[25]將BERT應(yīng)用在序
列推薦中. BERT在建模時使用雙向編碼的方式對用戶行為序列進行編碼, 可利用雙向編碼的能力挖掘隱藏的信息. 此外, 可以實現(xiàn)快速的并行方式, 準確率也較傳統(tǒng)模型有
提高. 針對短期偏好, 采用Caser進行建模, Caser主要由兩部分組成, 能對單個目標項和后續(xù)目標都產(chǎn)生一定的作用, 捕獲用戶最近活動的動態(tài)模式.
1.1" BERT模型
BERT模型[26]是一個基于預(yù)訓練的模型, 與傳統(tǒng)模型的不同之處在于該模型采用了新方法, 能生成一個深度的雙向語言表征, 且能充分利用上下文信息
, 在實際應(yīng)用中也取得了較好效果.
BERT模型由多個Transformer層重疊而成, Transformer的內(nèi)部結(jié)構(gòu)如圖1所示.
Transformer層主要由Encoder和Decoder組成, 在每層中還有其他小層. 在Encoder層中
包含一個自注意力網(wǎng)絡(luò)層和一個前饋神經(jīng)網(wǎng)絡(luò); 而Decoder層比Encoder層多一層注意力層. 其定義如下:
在網(wǎng)絡(luò)中的query(Q)和key-value(K)通過自注意力機制映射到某個輸出的
過程, 經(jīng)過該過程輸出的向量即為根據(jù)query和key計算得到的權(quán)重作用于value(V)的權(quán)重和. 多頭注意力將信息進行融合, 然后進行輸出:
MultiHead(Q,K,V)=Concat(Head1,Head2,…,Headh)WO,(1)
Headi=Attention(QWQi,KWKi,VWVi).(2)
1.2" 門控循環(huán)網(wǎng)絡(luò)
序列推薦中時間序列的時間步距離較大從而影響信息的捕捉. 而門控循環(huán)神經(jīng)網(wǎng)絡(luò)有特殊的結(jié)構(gòu), 能通過門
控制信息的流動進而解決該問題. 其中, GRU[27]是一種較常用的門控循環(huán)神經(jīng)網(wǎng)絡(luò), 其內(nèi)部結(jié)構(gòu)如圖2所示.
門控循環(huán)單元定義如下:
ht=ht-1+g(xt,ht-1;θ),(3)
ht=zt⊙ht-1+" (1-zt)⊙g(xt,ht-1;θ), zt∈(0,1),(4)
zt=σ(Wzxt+Uzht-1+bz),(5)
t=tanh(Whxt+Uh(rt⊙ht-1)+bh),(6)
rt=σ(Wrxt+Urht-1+br),(7)
ht=zt⊙ht-1+(1-zt)⊙t,(8)
其中ht為網(wǎng)絡(luò)的更新狀態(tài), zt為更新門, t為當前時刻的候選狀態(tài), rt為重置門, Wz,Uz,Wh,Uh,Wr,Ur為權(quán)重參數(shù).
1.3" 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[28]是一個由卷積層和子采樣層構(gòu)成的特征抽取器, 其主要由三部分組成: 輸入層(input)、 特征提取層和
輸出層(output). 其中特征提取層又包含三層, 分別是卷積層、 池化層和全連接層. CNN的基本結(jié)構(gòu)如圖3所示.
卷積神經(jīng)網(wǎng)絡(luò)的作用較多: 它能將音頻之類的文件轉(zhuǎn)化為圖像, 實現(xiàn)信息的可視化; 還可以很好地處理各種目標, 例如文本處理、 視頻處理等.
在現(xiàn)實生活中很多
信息不僅是一維的簡單信息, 若要更好地獲取信息就要采取不同的方式. CNN的卷積濾波器在捕獲局部特征以進行圖像識別[29-30]和自然語言處理
[31]方面獲得了成功. 由于CNN的特點擴大了其使用范圍, Tang等[16]提出了一種Caser模型, 該模型利用CNN的特點對RNN建模時對相鄰但不相關(guān)的
用戶-物品交互而產(chǎn)生錯誤依賴的特點進行改進. CNN在序列推薦中提取特征的步驟如圖4所示.
2" 本文方法
2.1" 相關(guān)問題概述
為便于描述, 對用戶集合和項目集合使用統(tǒng)一的符號表示, 用U表示用戶集合, 用I表示項目集合. 在用戶與項目產(chǎn)生交互時, 用Su表示交互序列.
對每個用戶u∈U, Su∈I, Su={S(1),S(2),…,S(T)}, 其中T顯示了相互作用序列的長度和相互作用的數(shù)量. 此外, 交互過程中產(chǎn)生的相互作用包含用戶和項目本身的特征
. 本文的目的是通過模擬用戶與項目之間的互動序列預(yù)測用戶后續(xù)感興趣的內(nèi)容.
2.2" 模型描述
本文的總體模型如圖5所示. 由圖5可見, 整個模型分為四部分, 分別為稀疏網(wǎng)絡(luò)層、 長短期偏好建模層、 用戶項目特征提取層和輸出層.
2.3" 稀疏網(wǎng)絡(luò)層
將用戶與項目在交互過程中產(chǎn)生的交互序列表示為Su. 在整個模型框架圖中, 稀疏注意力網(wǎng)絡(luò)為最底層模型, 即產(chǎn)生的交互序列先要輸入到該層網(wǎng)絡(luò)模型中進行處
理. 在用戶與項目的交互過程中會產(chǎn)生噪聲, 例如用戶的誤點行為, 這些干擾項目會對最后的推薦結(jié)果產(chǎn)生影響. 在傳統(tǒng)模型中,
是將交互序列在建模過程中進行去噪, 但效果不佳. 本文采取在進行用戶長短期偏好建模前便進行交互序列的去噪處理. 針對交互序列中產(chǎn)生的噪聲, 本文采用稀疏注意力網(wǎng)絡(luò)對交互序
列進行一個過濾. 在稀疏網(wǎng)絡(luò)有兩個值得借鑒的點: 一是在該網(wǎng)絡(luò)中通過去噪處理后能得到一個目標項目可提高在后續(xù)興趣提取中的準確性; 二是在該網(wǎng)絡(luò)中
引入了α-entmax函數(shù), 與常用的Softmax函數(shù)相比, 該函數(shù)具有選擇性、 更緊湊、 注意力更集中的優(yōu)點.
在稀疏注意力網(wǎng)絡(luò)中的操作如下:
1) 嵌入層. 將用戶與項目交互產(chǎn)生的交互序列Su轉(zhuǎn)換為兩個向量:
ci=concat(xi,pi),(9)
={c1,c2,…,ct,cs},(10)
其中: xi∈
瘙 綆 d為項目的嵌入; pi∈
瘙 綆 d為位置的嵌入; ci∈
瘙 綆 2d為項目和位置的串聯(lián)嵌入;
cs由xs和ps組成, 能包含特殊信息的索引及待預(yù)測項目的位置, 從而更準確地進行預(yù)測.
2) 目標嵌入學習. 在嵌入層處理后輸出的結(jié)果為, 然后將輸出結(jié)果輸入到目標嵌入學習層, 進行噪聲
過濾. 在預(yù)測項目之前需對無關(guān)信息進行處理, 從而減少無關(guān)信息的干擾, 提高預(yù)測結(jié)果.
先用帶有稀疏變化的網(wǎng)絡(luò)捕獲交互序列中的依賴關(guān)系:
=α-entmaxQKT2dV,(11)
α=σ(Wαcs+bα)+1,(12)
Q=f(WQ+bQ),(13)
sparsemax(x)=argmin‖p-x‖2," p∈Δd-1,(14)
α-entmax(x)=argmax pTx+
HTα(p)," p∈Δd-1,(15)
HTα(p)=1α(α-1)∑j(pj-pαj)," α≠1,(16)
HTα(p)=Hs(p)," α=1,(17)
E=SAN(),(18)
其中Q為查詢的表示, K為關(guān)鍵矩陣, V為所參加項目的值矩陣, Wα∈
瘙 綆 2d×2d為加權(quán)矩陣, b∈
瘙 綆 為偏置值, σ為激活函數(shù)Sigmiod, α為[0,1]之間的一個變量, WQ∈
瘙 綆 2d×2d為加權(quán)矩陣, bQ∈
瘙 綆 2d為偏置向量, f(·)為激活函數(shù)ReLU, E為最終輸出. 本文下面將其輸出表示為etarget.
上述過程可簡述為: 將用戶與項目交互過程中產(chǎn)生的交互序列Su進行向量嵌入, 分別為項目嵌入和位置嵌入, 兩者嵌入后將其相加輸入到MLP中并使用α-entma
x函數(shù), 最后輸出目標項目的向量etarget.
2.4" 長短期偏好建模
2.4.1" 長期偏好建模
長期偏好是從用戶長期的交互序列中學習到用戶的一個相對穩(wěn)定的、 長期的偏好. 用戶的長期偏好通常不容易改變, 一般包含在用戶與項目交互序列的整個過程中. 因此, 長期
偏好具有序列過長且不連續(xù)的特點, 使得長期偏好的建模較困難. 普通的網(wǎng)絡(luò)無法在長期序列中捕獲交互序列之間的相互依賴關(guān)系, 于是提出了基于神經(jīng)網(wǎng)絡(luò)的模型
. 序列交互數(shù)據(jù)具有獨特的特點, 在處理序列數(shù)據(jù)方面循環(huán)神經(jīng)網(wǎng)絡(luò)有獨特的優(yōu)勢, 因此其被廣泛應(yīng)用于序列推薦建模. 但由于RNN本身的獨特性, 在建模過程中需要非常深的網(wǎng)絡(luò)
進行計算, 而網(wǎng)絡(luò)過深會產(chǎn)生梯度消失和梯度爆炸的問題. 基于長短時記憶的網(wǎng)絡(luò)(long short-term memory, LSTM)和基于GRU的
網(wǎng)絡(luò)成為解決該問題的有效途徑. 其中, LSTM在序列建模時效果很好[32-33], GRU是基于LSTM的改進, 不僅結(jié)構(gòu)更簡單, 且效率也更高.
本文采用BERT對長期偏好建模[34], 如圖5所示. 對用戶與項目交互的時間排序的序列Su進行編碼后經(jīng)過項目嵌入輸出為項目向量e, 將輸出的項目向量e再輸入到BERT模型中, 得到輸出后與稀疏注意力網(wǎng)絡(luò)得到的目標向量一起輸入激活函數(shù)模塊
[35]中, 可以自適應(yīng)地進行權(quán)重的分配, 通過這種方法可減弱動態(tài)興趣變化對推薦的影響, 此時便能得到用戶偏好的長期偏好L. 激活函數(shù)定義為
aLi=exp{MqtWLetarget}∑Tt=1exp{MqtWLetarget},(19)
L=∑Tt=1aLiMqt,(20)
其中T為交互序列的長度, WL為d×d的權(quán)重參數(shù), aLi為權(quán)重, L為長期偏好的輸出.
2.4.2" 短期偏好建模
用戶的偏好不僅有長期偏好, 還有短期偏好. 用戶的長期偏好可通過交互的歷史序列推斷, 但這不能表示用戶近期的偏好. 用戶的短期偏好主要描述了用戶當前的偏好,
想要全方位的預(yù)測用戶的偏好, 就不能只單純考慮用戶的長期偏好, 特別是在數(shù)據(jù)稀疏的情況下, 用戶的短期偏好對最終預(yù)測也十分重要. 因此, 本文采用垂直水平卷積網(wǎng)絡(luò)對短期偏好建模.
垂直水平卷積網(wǎng)絡(luò)的原模型為Caser模型[16], 該模型將最近的項目序列嵌入在時空的圖像中, 并用卷積濾波器研究序列模型作為圖像的局部性質(zhì)[29-31]
. 嵌入層、 卷積層和全連接層為Caser模型的3個主要部分. 本文只使用該模型中的卷積層, 它采用卷積神經(jīng)網(wǎng)絡(luò)捕獲用戶最近活動的動態(tài)模式. 該模型的卷積層主要由
兩部分組成: 水平卷積網(wǎng)絡(luò)和垂直卷積網(wǎng)絡(luò), 它們分別用于發(fā)現(xiàn)聯(lián)級和點級的序列模式, 聯(lián)級模式是指多個先前操作對后續(xù)目標的影響, 點級模式是指歷史序列中單個項目對目標
項目的影響. 卷積層包含垂直卷積和水平卷積, 兩種不同的網(wǎng)絡(luò)用不同的方式對信息進行提取.
垂直水平卷積網(wǎng)絡(luò)是卷積序列嵌入推薦中的一個模型, 這樣在使用垂直水平卷積網(wǎng)絡(luò)建模時就能對用戶的興趣偏好有一個更全面的建模. 操作過程如下.
1) 水平卷積網(wǎng)絡(luò). 水平卷積層中有n個水平卷積Fk∈
瘙 綆 h×d, 其中1≤k≤n, h∈{1,2,…,L}為卷積的高度. 例如, 當L=4時, 可以選擇有n=8個卷積核, 兩個
卷積核對應(yīng){1,2,3,4}中的每個h. 卷積核從上到下滑動, 并與第i項E的所有水平維度相互作用. 交互作用后即給定第i個卷積值:
cki=φc(Ei∶i+h-1⊙Fk),(21)
其中: ⊙表示內(nèi)積算子; φc(·)表示卷積層的激活函數(shù), 該值是Fk與由第i行到第(i-h+1)行形成的子矩陣Ei∶i-h+1之間的內(nèi)積. Fk的卷積即為一個向量:
ck=(ck1,ck2,ck3,…,ckL-h+1).(22)
得到向量后對ck進行最大池化操作, 從這個特定的卷積產(chǎn)生的值中獲取一個最大值. 獲取最大值的操作是卷積層提取的最重要特征. 因此, 對該層的
n個卷積的輸出值為
o={max(c1),max(c2),…,max(cn)}.(23)
水平卷積通過嵌入e與每個連續(xù)的h項相互作用. 嵌入和卷積學習都是為最小化編碼
目標項預(yù)測誤差的目標函數(shù). 通過各種滑動卷積核能拾取重要的信號. 因此, 可以訓練水平卷積捕獲具有多個聯(lián)合大小的聯(lián)合級別模式.
2) 垂直卷積網(wǎng)絡(luò). 垂直卷積網(wǎng)絡(luò)與水平卷積網(wǎng)絡(luò)的原理相同, 但垂直卷積網(wǎng)絡(luò)中卷積核的滑動方式是從左向右滑動, 產(chǎn)生的垂直卷積結(jié)果為
ck=∑Ll=1kl·El,(24)
其中El是E的第l行. 因此, 若要聚合項目的潛在表示, 可用垂直卷積聚合先前項目的嵌入, 再用垂直卷積進行加權(quán)和[34]得到點級序列模式.
上述過程可簡述為: 與長期偏好前期建模過程相同, 將經(jīng)過項目嵌入后得到的項目向量輸入到垂直水平卷積網(wǎng)絡(luò)中, 得到輸出后, 將輸出與目標嵌入向量etarget同時輸
入激活函數(shù)中得到短期偏好的輸出St-1, St-1表示用戶的短期行為集合, 即用戶最近(當前)的需求.
2.4.3" 長短期偏好平衡
在現(xiàn)實生活中, 針對不同用戶偏好采用不同方法進行建模能得到更全面的預(yù)測推薦. 在得到二者的建模結(jié)果后如何采用一個合適的方
式對長短期偏好進行平衡也是不可避免的問題. 一般的處理方式是進行兩部分的線性連接或加權(quán)求和, 但這些處理方式一般都是處于一種理想狀態(tài)——所有用戶的偏好都在
歷史序列中. 但現(xiàn)實生活中用戶的意圖受很多因素的影響, 最重要的一點就是長短期的偏好對用戶的影響不一樣. 因此, 本文選擇門控循環(huán)網(wǎng)絡(luò)平衡長短期的偏好,
門控循環(huán)網(wǎng)絡(luò)能控制具體信息的保留與丟棄, 同時還能解決梯度消失和梯度爆炸的問題, 本文門控循環(huán)網(wǎng)絡(luò)自適應(yīng)平衡長短期偏好的權(quán)重, 定義如下:
Rt=σ(LtWxr+St-1Whr+br),(25)
Zt=σ(LtWxz+St-1Whz+bz),(26)
G=tanh(LtWxh+RtHt-1)Whh+bh,(27)
M=G*Lt+(1-G)St-1,(28)
其中*為元素乘積, σ為Sigmoid激活函數(shù), Whr,Whz,Wxh為權(quán)重參數(shù), br,bz,bh為偏置參數(shù), Rt為重置門, Zt為更新門, M為平衡長短期偏好后的最終輸出.
上述過程可簡述為: 在經(jīng)過稀疏網(wǎng)絡(luò)得到etarget后, 與得到的長期偏好Lt和短期偏好St-1分別輸入到激活函數(shù)中進行平衡; 將平
衡后的結(jié)果同時輸入到門控循環(huán)網(wǎng)絡(luò)中進行長短期偏好平衡, 自適應(yīng)地給予權(quán)重, 能更好地對長短期偏好進行提取, 得到平衡長短期偏好后的最終輸出為M.
2.5" 用戶項目特征提取
在實際生活中的選擇會受多種因素影響, 其中項目特征就是一個不可忽視的影響因子. 例如, 對于商品的選擇有不同的質(zhì)量、 價格等, 不同的人會根據(jù)自己的需求進
行不同的選擇, 有的人可能較重視價格, 有的人可能較重視質(zhì)量等. 看電影是日常生活中一種較常見的活動, 在選擇電影時, 不同的人會根據(jù)電影的類型、 電影的主演、 上線
的時間選擇. 這些因素即為項目的特征, 它對用戶的選擇影響也較大, 所以也是一個不能忽視的問題.
本文采用帶有偏置編碼的多頭注意力機制對項目特征進行提取. 在傳統(tǒng)建模過程中采用
位置編碼, 但如果想精確獲取項目的特征偏好, 還需要捕獲交互的順序關(guān)系及其中存在的偏差, 故采用偏置編碼的方式進行特征初步提取. 操作過程如下.
1) 偏置編碼. 采用加入偏置編碼的自注意力對項目特征向量進行提?。?/p>
BE(k,t,c)=WKk+WTt+WC
c," BE∈
瘙 綆 K×T×dmodel,(29)
其中: WK∈
瘙 綆 K為交互的偏置向量, k為會話的索引; WT
∈
瘙 綆 T為會話中位置的偏置向量, t為會話中行為的索引; WC∈
瘙 綆 dmodel為行為嵌入中單元位置的偏置向量, c為行為嵌入中單元的索
引. 在添加偏置編碼后, 用戶行為會話S發(fā)生改變:
Su=Su+BE.(30)
對項目特征向量添加偏置編碼后輸入多頭注意力機制進行特征提取, 然后依次經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)、 殘差網(wǎng)絡(luò)和歸一化后輸出項目特征N.
2) 多頭注意力機制:
Headh=attention(SkhWQ,SkhWK,SkhWV),(31)
Headh=SotfmaxQkhWSWKTSTkh
dmodelSkhWV,(32)
其中WQ,WK,WV為線性矩陣, Skh∈
瘙 綆 T×dh是Qk的第h個頭.
3) 前饋神經(jīng)網(wǎng)絡(luò):
N=FNN(concat(Head1,…,HeadH)WO),(33)
N=Avg(NSK),(34)
其中: WO為線性矩陣; FNN(·)為前饋神經(jīng)網(wǎng)絡(luò); Avg(·)為平均池數(shù), 不同會話的自注意力機制共享權(quán)重; N為用戶第k次會話項目特征.
上述過程可簡述為: 項目特征向量與帶有偏置編碼的自注意力網(wǎng)絡(luò)進行嵌入后輸入到多頭注意
力機制中, 此時的輸出結(jié)果即為提取的項目特征; 為得到更穩(wěn)定精確的結(jié)果, 將其輸入到殘差網(wǎng)絡(luò)和歸一化網(wǎng)絡(luò)中, 得到最后的項目特征N.
2.6" 輸出層
對用戶長短期偏好和項目特征偏好建模后, 將建模得到的結(jié)果長短期偏好M和項目特征偏好N進行拼接, 輸入全連接層, 最后輸出對用戶偏好的預(yù)測:
Y=concat(M,N).(35)
3" 實驗及分析
3.1" 實驗設(shè)置
3.1.1" 數(shù)據(jù)集
本文在兩個公開的數(shù)據(jù)集上進行實驗, 這兩個數(shù)據(jù)集分別是電影領(lǐng)域的MovieLens[36]和大眾點評的Yelp. MovieLens是一個被廣泛使用的電影推薦基準數(shù)據(jù)集
[37], 該數(shù)據(jù)集包含多個電影評分數(shù)據(jù)集. 本文實驗采用MovieLens\|1M版本. Yelp是美國一個著名的商戶點評網(wǎng)站, 該網(wǎng)站有許多不同領(lǐng)域的商
家, 如餐館、 購物中心、 酒店、 旅游等. 在Yelp網(wǎng)站, 用戶除可以交流購物體驗外, 還可以對商家進行一個整體評價, 以便其他用戶在選擇時有一個參考. 實驗數(shù)據(jù)集信息列于表1.
表1" 數(shù)據(jù)集信息Table 1" Information of dataset
數(shù)據(jù)集用戶數(shù)量物品數(shù)量交互記錄數(shù)量平均長度稀疏程度/%
MovieLens-1M6 0403 9001 000 209165.6095.16
Yelp23 69527 927284 1041299.95
3.1.2" 實驗環(huán)境及參數(shù)
本文實驗采用的操作系統(tǒng)是Windows11, 顯卡型號是RTX 3090(24 GB), 14 vCPU Intel(R) Xeon(R) Gold 6330 CPU @ 2.00 GHz, Python版本為3.8, 深度學習框架為PyTorch 1.10.0,
在Pycharm環(huán)境下進行實驗. 在數(shù)據(jù)集MovieLens-1M下設(shè)置學習率為0.000 01, 數(shù)據(jù)集Yelp下設(shè)置學習率為0.000 01. 實驗參數(shù)設(shè)置如下:
訓練的最大輪數(shù)為500, 批訓練大小為258, 嵌入向量維度為64, 垂直水平卷積層數(shù)為16, MLP層數(shù)為1, 注意力頭數(shù)為2, 優(yōu)化器選為Adam, 學習率設(shè)為0.000 01, 池化類型為Mean, 丟失率為0.2.
3.1.3" 評價指標
在推薦系統(tǒng)中, 目前的評價指標多達十余種, 本文采用其中幾種評價指標進行模型評估, 以捕獲用戶偏好. 實驗中將數(shù)據(jù)集劃分為訓練集、 驗證集和測試集, 其比例
為8∶1∶1[38-40]. 采用的評價指標為召回率(Recall@K)、 平均倒數(shù)排名(MRR@K)和歸一化折損累積增益(NDCG@K)[7,15,21,39], 其中K是每次推薦的項目數(shù), 本文將其取為5,10.
1) 召回率(Recall)[34]表示正確預(yù)測出正樣本占實際樣本的概率:
Recall=TPTP+FN,(36)
其中TP,F(xiàn)N是混淆矩陣中的元素. 在混淆矩陣中, 每行表示待預(yù)測物品的實際值, 每列表示待預(yù)測物品的預(yù)測值. TP表示真正例, 指正樣本被判定為正例的數(shù)目; FN表示
假反例, 指正樣本被判定為負例的數(shù)目.
2) 平均倒數(shù)排名(MRR)是根據(jù)正確檢索在所有檢索結(jié)果中的排名評估檢索系統(tǒng)的性能:
MRR=1Q∑Qq=11rankq.(37)
3) 歸一化折損累積增益(NDCG)是將每個推薦結(jié)果相關(guān)性的得分值累加后作為整個推薦系統(tǒng)列表的得分. NDCG在評價過程中考慮更多的是所推薦的項目是否
出現(xiàn)在用戶更容易關(guān)注到的位置, 該評價指標更多強調(diào)是推薦列表的順序性:
NDCG=∑Kk=12relk-1log2(k+1).(38)
3.2" 實驗結(jié)果及分析
3.2.1" 對比模型
為驗證本文方法的有效性, 將其與以下具有表示性的基線模型進行比較.
1) POP: 該模型根據(jù)互動次數(shù)判斷物品受歡迎的程度.
2) Caser[16]: 該模型采用水平和垂直兩種方式的卷積神經(jīng)網(wǎng)絡(luò)建模, 進行順序推薦.
3) BERT4Rec[34]: 該模型是一個端到端的推薦模型, 將用戶的歷史行為建模為一個序列.
4) GRU4Rec[9]: 該模型使用基于rank loss的GRU對用戶序列進行建模, 實現(xiàn)基于會話的推薦.
5) SASRec[24]: 該模型將Transformer的優(yōu)勢用到序列推薦以捕獲用戶的順序行為.
6) NextItNet[31-32]: 該模型由多個卷積層堆疊而成, 可在不依賴池化操作的情況下有效增加感受野, 具有在歷史序列中進行長范圍依賴的建模能力.
3.2.2" 結(jié)果分析
為證明本文模型的有效性, 將本文方法與其他對比方法在MovieLens-1M和Yelp兩個公共數(shù)據(jù)集基于評價指標NDCG@5,NDCG@10,Recall@5,Recall@10和MRR@5,
MRR@10進行性能比較, 實驗結(jié)果列于表2.
由表2可見:
1) 在兩個數(shù)據(jù)集上, 基于順序推薦的方法(如GRU4Rec,SASRec和本文模型)優(yōu)于非序列推薦(如POP), 表明順序因素在推薦中具有重要作用.
2) 基于深度學習的方法(Caser,BERT4Rec,GRU4Rec,SASRec,NextItNet和本文模型)通常優(yōu)于傳統(tǒng)的方法(POP). 因為深度學習方法強大的特征提取能力可
捕獲序列中復(fù)雜的關(guān)系, 面對大量的數(shù)據(jù), 深度學習基于GPU的訓練方法加快了訓練時間, 在數(shù)據(jù)集Yelp中交互為30萬條, 數(shù)據(jù)集MovieLens-1M交互為100多萬條.
3) 基于雙向編碼的模型(BERT4Rec,本文模型)優(yōu)于單項編碼的模型(GRU4Rec,Caser), 在數(shù)據(jù)集MovieLens-1M上BERT4Rec均高于Caser和GRU4Rec, 但在數(shù)據(jù)集Yelp上
優(yōu)勢則不明顯甚至弱于Caser和GRU4Rec, 這可能是因為數(shù)據(jù)集Yelp相比于數(shù)據(jù)集MovieLens-1M有數(shù)據(jù)稀疏問題, 而BERT4Rec因其雙向架構(gòu)的特點對長序列較有優(yōu)勢,
而本文模型在兩個數(shù)據(jù)集上均顯示出優(yōu)勢, 說明基于雙向編碼的模型優(yōu)于單項編碼的模型.
4) 特征信息的提取有助于推薦性能的提升, 本文選取的對比模型中均無對特征信息的提取, 與本文模型相比最后推薦精度在評價指標上存在一定差距, 證明了本文進行特征提取的有效性.
5) 本文模型與Caser,GRU4Rec,SASRec相比性能更好, 在這3個模型中采用不同的方式對短期偏好建模, 在短期偏好建模中有一定優(yōu)勢, 但對整體長短
期的偏好建模效果卻不理想, 因此本文采用長期、 短期偏好分別建模, 實驗結(jié)果證明了本文方法的可行性.
6) 本文模型與BERT4Rec,NextItNet相比, BERT4Rec采用雙向編碼方式, 能關(guān)注到長序列的偏好, NextItNet模型使用自我注意力度量學習提取特征, 網(wǎng)絡(luò)結(jié)構(gòu)由多個卷積層堆
疊而成, 可在不依賴于池化操作的情況下有效增加感受野, 具備在歷史序列中進行長范
圍依賴的建模能力, 但卻忽略了短期偏好的建模, 使模型整體性能較低. 本文采用長期、 短期分別建模, 實驗結(jié)果證明了本文方法的可行性.
實驗結(jié)果表明, 本文模型在數(shù)據(jù)集MovieLens-1M和Yelp上性能有很大提升, 驗證了本文模型的有效性, 也證明長短期偏好建模的重要性.
3.2.3" 消融實驗
消融實驗的目的是驗證本文方法的有效性和創(chuàng)新性, 本文在相同數(shù)據(jù)集下通過去除各種模塊, 對實驗結(jié)果進行對比驗證, 實驗結(jié)果列于表3.
由表3可見:
1) 在數(shù)據(jù)集Yelp上的實驗結(jié)果效果略比數(shù)據(jù)集MovieLens-1M上的效果好.
2) 去除稀疏網(wǎng)絡(luò)模塊時, 在數(shù)據(jù)集MovieLens-1M上評價指標NDCG@10,Recall@10,MRR@10分別下降了1.78,1.06,1.54個百分點; 在數(shù)據(jù)集Yelp上評價指標NDCG@10,Recall@10,MRR@
10分別下降了1.51,1.57,1.11個百分點. 在兩個數(shù)據(jù)集上評價指標均呈下降趨勢, 可見稀疏網(wǎng)絡(luò)模塊的重要性.
3) 去除α-entmax函數(shù)時, 在數(shù)據(jù)集MovieLens-1M上評價指標NDCG@10,Recall@10, MRR@10分別下降了1.1,0.72,1.27個百分點; 在數(shù)據(jù)集Yelp上評價指標NDCG@10,Recall@10, MRR@10
分別下降了0.99,1.05,0.87個百分點. 可見α-entmax函數(shù)在稀疏網(wǎng)絡(luò)中的重要性, 進而證明稀疏模塊對本文模型的有效性.
4) 去除垂直水平卷積模塊時, 在數(shù)據(jù)集MovieLens-1M上評價指標NDCG@10,Recall@10,MRR@10分別下降了1.91,1.83,1.76個百分點; 在數(shù)據(jù)集Yelp上評價指標NDCG@10,Recall@10,
MRR@10分別下降了2.16,2.09,2.49個百分點. 由實驗數(shù)據(jù)可見, 垂直水平卷積模塊在整體模型中占有重要地位, 無論是在數(shù)據(jù)集MovieLens-1M上還是在數(shù)據(jù)集Yelp上, 去掉該模
塊后影響比其他模塊更大, 從而驗證了在長短期偏好建模時將長期偏好與短期偏好分別建模的重要性, 也驗證了該模塊的有效性.
5) 去除偏置編碼的多頭注意力網(wǎng)絡(luò)時, 在數(shù)據(jù)集MovieLens-1M上評價指標NDCG@10,Recall@10,MRR@10分別下降了0.1,0.54,0.31個百分點; 在數(shù)據(jù)集Yelp上評價指標NDCG@10,Reca
ll@10,MRR@10分別下降了0.24,0.53,0.41個百分點. 由實驗數(shù)據(jù)可見, 該模塊對整體模型的影響相對較小, 但也起到了部分提升作用. 該模型中使用的偏置編碼僅在位置編碼上
進行微小調(diào)整, 并未犧牲速度作為代價換取效率的提升, 驗證了該模塊的有效性.
3.2.4" 參數(shù)對模型的影響
在實際應(yīng)用中, 推薦系統(tǒng)不可能是一個單獨存在的個體, 推薦系統(tǒng)常與人們所處的大環(huán)境有不可避免的交互. 此外, 推薦系統(tǒng)本身也不是孤立的, 所構(gòu)成推薦系統(tǒng)的每一部分
都會對其產(chǎn)生影響, 例如用戶因素、 項目因素、 數(shù)據(jù)因素、 算法策略因素等. 這里主要分析參數(shù)在實驗中的影響. 在實驗中, 會有很多因素影響模型最后的效率, 但參
數(shù)對模型的影響是本文研究的主要對象. 本文取序列最大長度分別為5,10,20,30,50,70作為主要研究對象, 實驗結(jié)果列于表4. 圖6為本文模型在不同交互長度下的對比實驗結(jié)果.
由表4可見, 在數(shù)據(jù)集Yelp上的整體效果比數(shù)據(jù)集MovieLens-1M上的效果稍好; 在數(shù)據(jù)集Yelp上, 當交互序列長度為50時, 本文模型性能最優(yōu); 在數(shù)據(jù)集MovieLens-1M上, 當交互長度為30時, 本文模型性能最
優(yōu). 在兩個數(shù)據(jù)集上, 交互序列為5時本文模型性能最差, 可見如果僅考慮短期偏好, 則無法取得準確的推薦
. 當交互序列為70時, 本文模型在兩個數(shù)據(jù)集上都有一個評價指標最高, 但其他評價指標不是最優(yōu), 原因
是在過長的交互序列中會存在噪聲干擾, 進而影響推薦效果. 而本文考慮二者之間的平衡, 能均衡長短期的偏好.
綜上所述, 針對現(xiàn)有序列推薦模型忽略用戶的長期偏好和短期偏好, 導致推薦模型不能充分發(fā)揮作用, 推薦效果不佳的問題, 本文提出了一種融合稀疏網(wǎng)絡(luò)與垂直水平卷積網(wǎng)絡(luò)對用戶長短期偏好建模的序列推薦方法.
在本文模型中將α-entmax函數(shù)應(yīng)用到對序列信息的篩選, 去掉了無用信息對推薦結(jié)果的影響; 將垂直水平卷積網(wǎng)絡(luò)應(yīng)用到長短期偏好建模, 從不同維度進行偏好處理, 能更全面地考
慮建模的影響因素; 將偏置編碼應(yīng)用到特征提取, 重視用戶特征偏好對推薦結(jié)果的影響. 最后, 將本文模型與基線模型進行對比, 證明其性能優(yōu)異. 此外, 進行消融實驗驗
證了所用模塊對性能提升的重要性. 實驗結(jié)果表明本文模型優(yōu)于其他對比模型.
參考文獻
[1]" ZHOU G R, ZHU X Q, SONG C R, et al. Deep Interest Network for Click-through Rate Prediction [C]//Proceedings of the 24th A
CM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM, 2018: 1059-1068.
[2]" COVINGTON P, ADAMS J, SARGIN E. Deep Neural Network
s for Youtube Recommendations [C]//Proceedings of the 10th ACM Conference on Recommender Systems. New York: ACM, 2016: 191-198.
[3]" LI Y Q, LIU M, YIN J H, et al. Routing Micro-videos via a Temporal Graph-Guided
Recommendation System [C]//Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2019: 1464-1472.
[4]" AN M X, WU F Z, WU C H, et al. Neural News Recommendation with Long- and Short-Term
User Representations [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2019: 336-345.
[5]" SARWAR B, KARYPIS G, KONSTAN J, et al. Item-Based Collaborative Filtering Rec
ommendation Algorithms [C]//Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001: 285-295.
[6]" HU Y F, KOREN Y, VOLINSKY C. Collaborative Filtering for Implicit Feedback Dat
asets [C]//2008 Eighth IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2008: 263-272.
[7]" PAN R, ZHOU Y H, CAO B, et al. One-Class Collaborat
eve Filtering [C]//2008 Eighth IEEE International Conference on Data Mining. Piscataway, NJ: IEEE, 2008: 502-511.
[8]" HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-Based Recommendations with Recurrent Neural Networks [EB/OL].
(2015-11-21)[2022-02-15]. https://arxiv.org/abs/1511.06939.
[9]" JANNACH D, LUDEWIG M. When Recurrent Neural Networks Meet the Neighborhood f
or Session-Based Recommendation [C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. New York: ACM, 2017: 306-310.
[10]" WU C Y, AHMED A, BEUTEL A, et al. Recurrent Recommender Networks [C]//Proc
eedings of the Tenth ACM International Conference on Web Search and Data Mining. New York: ACM, 2017: 495-503.
[11] "YING H C, ZHUANG F Z, ZHANG F Z, et al. Sequential Recommender System Based on
Hierarchical Attention Network [C]//International Joint Conference on Artificial Intelligence. New York: ACM, 2018: 3926-3932.
[12]" ZHONG E H, LIU N, SHI Y, et al. Building Discrimina
teve User Profiles for Large-Scale Content Recommenddation [C]//Proceedings of the 21th ACM SIGKDD Int
ernational Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 2277-2286.
[13]" ZHOU G, MOU N, FAN Y, et al. Deep Interest Evolution Network for Click-thro
ugh Rate Prediction [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2019: 5941-5948.
[14]" CHENG C, YANG H Q, L M R, et al. Where You Like to Go Next: Successiv
e Point-of-Interest Recommendation [C]//Twenty-Third International Joint Conference on Artificial Intelligence. New York: ACM, 2013: 2605-2611.
[15]" RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L. Factorizing Personalized Marko
v Chains for Next-Basket Recommendation [C]//Proceedings of the 19th International Conference on World Wide Web. New York: ACM, 2010: 811-820.
[16]" TANG J X, WANG K. Personalized Top-n Sequential Recommendation via Convo
lutional Sequence Embedding [C]//Proceedings of the Eleventh ACM International Confe
rence on Web Search and Data Mining. New York: ACM, 2018: 565-573.
[17]" CHEN X, XU H T, ZHANG Y F, et al. Sequential Recommendation with User Memory Net
works [C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. New York: ACM, 2018: 108-116.
[18]" HUANG J, ZHAO W X, DOU H J, et al. Improving Sequential Recommendat
ion with Knowledge-Enhanced Memory Networks [C]//Proceedings of SIGIR. New York: ACM, 2018: 505-514.
[19]" YU J J, ZHU T Y. Combining Long-Term and Short-Term User Interest for Person
alized Hashtag Recommendation [J]. Frontiers of Computer Science, 2015, 9(4): 608-622.
[20]" DZMITRY B, KYUNGHYUN C, YOSHUA B. Neural Machine Tra
nslation by Jointly Learning to Align and Translate [EB/OL]. (2014-09-01)[2023-01-15]. https://arxiv.org/abs/1409.0473.
[21]" WANG H, WANG N Y, YEUNG D Y. Collaborative Deep Learning for Recommender Syste
ms [C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1235-1244.
[22]" LI" J, REN P J, CHEN Z M, et al. Neural Attentiv
e Session-Based Recommendation [C]//Proceedings of CIKM. New York: ACM, 2017: 1419-1428.
[23]" LIU Q, ZENG Y F, MOKHOSI R, et al." STAMP: Short-Te
rm Attention/Memory Priority Model for Session-Based Recommendation [C]//Proceedings of KDD. New York: ACM, 2018: 1831-1839.
[24]" KANG W C, McAULEY J. Self-attentive Sequential Recommendation [C]//2018
IEEE International Conference on Data Mining (ICDM). Piscataway, NJ: IEEE, 2018: 197-206.
[25]" 普洪飛, 邵劍飛, 張小為, 等. 融合動態(tài)興趣偏好與特征信息的序列推薦 [J]. 云南大
學學報(自然科學版), 2022, 44(4): 708-717. (PU H F, SHAO J F, ZHANG X W, et al.
Sequential Recommendation by Fusing Dynamic Interest Preference and Feature
Information [J]. Journal of Yunnan University (Natural Science Edition), 2022, 44(4): 708-717.)
[26]" 胡勝利, 林凱. 融合時間上下文與長短期偏好的序列推薦模型 [J]. 湖北民族大學學報
(自然科學版), 2022, 40(3): 328-335. (HU S L, LIN K. Sequential Recommendation Model Integrating Temporal Context an
d Long- and Short-Term Preferences [J]. Journal of Hubei University for Nationalities (Natural Science Edition), 2022, 40(3): 328-335.)
[27]" HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-Based Recommendation
s with Recurrent Neural Networks [EB/OL]. (2015-11-21)[2023-02-11]. https://arxiv.org/abs/1511.06939.
[28]" ZHENG L, NOROOZI V, YU P S. Joint Deep Modeling of Users and Items Using Rev
iews for Recommendation [C]//Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. New York: ACM, 2017: 425-434.
[29]" KARPATHY A, TODERICI G, SHETTY S, et al. Large-Scale Video Classification wi
th Convolutional Neural Networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 1725-1732.
[30]" SMIRNOV E A, TIMOSHENKO D M, ANDRIANOV S N. Comparison of Regularization Meth
ods for Imagenet-Classification with Deep Convolutional Neural Networks [J]. Aasri Procedia, 2014, 6: 89-94.
[31]" KIM Y. Convolutional Neural Networks for Sentence Classification [EB/OL].
(2014-08-25)[2023-02-10]. https://arxiv.org/abs/1408.5882.
[32]" DE SOUZA P M G, FERREIRA F, DA CUNHA A M. News Session-Based Rec
ommendations Using Deep Neural Networks [C]//Proceedings of the 3rd Workshop on Deep Learning for Recommender Systems. New York: ACM, 2018: 15-23.
[33]" ZHAO C C, YOU J G, WEN X X, et al. Deep Bilstm Networks for Sequential Recommendation [J]. Entropy, 2020, 22(8): 870-1-870-14.
[34]" SUN F, LIU J, WU J, et al. BERT4Rec: Sequential Recommendation with Bidirec
tional Encoder Representations from Transformer [C]//Proceedings of the 28th
ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1441-1450.
[35]" 孫淑娟, 過弋, 錢夢薇. 融合上下文信息的個性化序列推薦深度學習模型 [J]. 小型微型計算機系統(tǒng), 2021, 42(6): 1121-1128. (
SUN S J, GUO Y, QIAN M W. Deep Learning Model Based on Contextualized Personalized Sequence Recommendation [J].
Journal of Chinese Computer System, 2021, 42(6): 1121-1128.)
[36]" HARPER F M, KONSTAN J A. The MovieLens Datasets [C]//ACM Transactions on
Interactive Intelligent Systems. New York: ACM, 2015: 1-19.
[37]" CHO E, MYERS S A, LESKOVEC J. Friendship and Mobi
lity: User Movement in Location-Based Social Networks [C]//Proceedings of t
he 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 1082-1090.
[38]" LIU D R, LAI C H, LEE W J. A Hybrid of Sequential
Rules and Collaborative Filtering for Product Recommendation [J]. Information Sciences, 2009, 179(20): 3505-3519.
[39]" YUAN Q, CONG G, SUN A X. Graph-Based Point-of-Interest Recommendation with
Geographical and Temporal Influences [C]//Proceedings of the 23rd ACM Intern
ational Conference on Conference on Information and Knowledge Management. New York: ACM, 2014: 659-668.
[40]" ZHAO S L, ZHAO T, YANG H Q, et al. STELLAR: Spatial-Temporal Latent Ranking
for Successive Point-of-Interest Recommendation [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI, 2016: 315-321.
(責任編輯: 韓" 嘯)