朱昆 劉姜 倪楓 朱佳怡
摘?要:
針對傳統(tǒng)的上下文電影推薦模型只采用文本數(shù)據(jù),從單模態(tài)數(shù)據(jù)獲取的信息有限,無法充分解決數(shù)據(jù)稀疏性帶來的問題,提出了一種融合文本和圖像數(shù)據(jù)的多模態(tài)電影推薦模型(VLPMF)。首先,VLPMF集成了長短期記憶網(wǎng)絡(LSTM)和概率矩陣分解(PMF)。其次,將VGG16提取的圖像特征以概率的角度結合到PMF中并構建融合層,將文本特征和圖像特征融合后得出預測評分。最后,在Movielens\|1M、Movielens\|10M和亞馬孫AIV數(shù)據(jù)集上進行對比實驗,結果表明,VLPMF模型的均方根誤差比對比實驗中最優(yōu)模型的均方根誤差分別降低了1.26百分點、1.51百分點和4.30百分點。
關鍵詞:推薦系統(tǒng);圖像內容;深度卷積神經(jīng)網(wǎng)絡;概率矩陣分解模型
中圖分類號:TP391??文獻標志碼:A
0?引言(Introduction)
在互聯(lián)網(wǎng)時代,為了有效地為用戶挖掘有用的信息,推薦系統(tǒng)被普遍應用在多個領域[1\|4],同時也成為緩解信息過載問題的研究熱點。由于數(shù)據(jù)稀疏,傳統(tǒng)推薦算法的性能受到很大的限制[5]。因此,解決評分數(shù)據(jù)稀疏性問題對于提高推薦系統(tǒng)的性能具有重要意義。
傳統(tǒng)的推薦算法通常只考慮評分,若評分矩陣稀疏,則會對算法的性能造成負面影響[6]。為了提高推薦算法的性能,部分研究在推薦系統(tǒng)的推薦模型中使用電影屬性、電影評論等輔助信息[7]。但是,單模態(tài)文本數(shù)據(jù)所含信息有限,無法有效應對數(shù)據(jù)稀疏帶來的問題。
實際上,圖像信息對于用戶偏好具有巨大的影響力,對于推薦系統(tǒng)的性能提升起著至關重要的作用。本文提出的VLPMF,將文本和圖像特征進行了充分融合,為推薦系統(tǒng)準確度的提升帶來了顯著的效果。
1?相關研究(Related?research)
隨著深度學習的迅速發(fā)展,深度學習算法可以有效獲取輔助信息的深度表示,提高推薦評分預測的準確率,因此被廣泛應用于推薦系統(tǒng)[8]。WANG等[9]提出一種利用協(xié)同主題建模的方法(Collaborative?Topic?Regression,CTR),利用文本信息和評分信息對傳統(tǒng)的矩陣分解模型(Probabilistic?Matrix?Factorization,PMF)[10]進行改進,有效地提高了推薦的精度和覆蓋率。WANG等[11]提出了一種基于協(xié)同深度學習的推薦模型(Collaborative?Deep?Learning,?CDL),采用多層神經(jīng)網(wǎng)絡對用戶和物品的特征進行建模,將PMF與堆疊去噪自編碼器SDAE結合起來提高推薦性能。KIM等[12]提出了卷積矩陣因子分解模型ConvMF?(Convolution?Matrix?Factorization),將CNN(Convolutional?Neural?Network)和PMF相結合,以提取文本的上下文信息特征,從而解決了CNN無法直接應用于推薦算法的問題。然而,上述上下文感知推薦算法只能實現(xiàn)有限的性能改進,因為它們只考慮了文本信息。
深度學習在計算機視覺領域(Computer?Vision,?CV)的快速發(fā)展,解決了圖像和電影視覺特征提取的問題,利用CNN可以從圖像和電影視覺中提取深度特征,例如經(jīng)典的深度網(wǎng)絡模型AlexNet、VGG等。因此,本文提出一種基于概率矩陣分解的推薦算法模型VLPMF,分別利用LSTM和VGG16對電影描述文本和電影海報進行特征提取,然后基于PMF模型將提取的文本和視覺特征融合到推薦系統(tǒng)中,提高評分預測精度。然后,在3個真實的數(shù)據(jù)集上以均方根平均誤差為指標,驗證了VLPMF模型的性能。結果表明,VLPMF在評分預測精度方面明顯優(yōu)于CDL、ConvMF等模型,并且信息越稀疏,模型的優(yōu)勢越明顯。因此,本文的研究為電影推薦系統(tǒng)中利用視覺內容信息提升推薦性能提供了一種有效的方案。
2?多模態(tài)推薦模型設計(Multimodal?recommendation?model?design)
2.1?LPMF文本提取模型
本文提出的矩陣分解方法LPMF模型(圖1),采用了用于文本分類的LSTM模型進行文本特征提取,為了獲得更完整的文本上下文信息,將結構整合到卷積層中,進一步提高詞表示的質量。提取的特征作為項目潛在模型中高斯分布均值的一部分,綜合了LSTM和PMF的優(yōu)點。
在LPMF模型中,LSTM結構是在項目的描述文檔中生成項目的特征隱向量。項目描述文檔先經(jīng)過詞嵌入模型如Glove預處理,將其轉變?yōu)樵~向量矩陣。將項目描述文檔的長度看作l,用向量維度為p的不同向量表示每個單詞。這樣,描述文檔矩陣[WTHX]D[WTBX]=Euclid?Math?TwoRA@
p×l可以用不同的單詞向量拼接得到:
把嵌入層的描述文檔矩陣[WTHX]D[WTBX]當作輸入,經(jīng)過LSTM后得到上下文特征信息,i時刻的上下文特征信息ci的提取公式如下:
其中:wi是i時刻的輸入,b是偏置項。描述文檔的特征向量可由[WTHX]C[WTBX]表示:
首先經(jīng)過連接層輸出:
其次接入Dropot層對部分神經(jīng)單元的輸出進行丟棄處理,最后得到輸出y,經(jīng)過輸出層后得到項目的隱語義特征向量[WTHX]v:
其中:Wv為輸出層權重,bv為偏置值。最終經(jīng)過LSTM結構將項目描述文檔轉化為每個項目文檔的隱向量,對于文本特征提取,LSTM體系結構可以表示如下:
其中:W表示所有權重,Xj是項目j的描述文檔,φj是電影j的文檔隱向量。
2.2?LPMF的概率模型
本文提出的LPMF的概率模型通過連接LSTM和PMF可以充分利用項目描述文檔和進行評分,從概率的角度看,觀測得分矩陣的條件分布如下:
其中:?X[WTBZ]為電影的描述文檔集(如用戶評論或電影描述),LSTM網(wǎng)絡將在?X[WTBZ]中提取到的文檔隱向量替換PMF中高斯分布的均值,Xj代表電影j的描述。
2.3?視覺特征提取
本文采用VGG16模型進行海報的視覺特征提取。VGG16模型由13個卷積層、5個池化層、3個全連接層和1個Softmax層組成,?VGG16模型的架構如圖2所示。
為了提高視覺特征提取的性能,采用遷移學習技術將VGG16模型應用在ImageNet數(shù)據(jù)集上進行預訓練,將其訓練得到的原始參數(shù)應用到海報的視覺特征提取中。為了將視覺特征應用于本文研究的電影推薦問題中,將這些特征納入電影推薦系統(tǒng)中,以提高推薦系統(tǒng)的準確性和推薦效果。本文將VGG16模型提取的視覺特征歸納為
其中:Yj表示電影j的圖像(海報),j表示電影j的視覺特征。
2.4?VLPMF模型
為了進一步提高推薦算法的性能,本文提出VLPMF模型,旨在融合文本類型和圖像類型的數(shù)據(jù),該模型包括3個核心部分:LSTM文本提取模塊、基于VGG16模型的圖像提取模塊及PMF模塊。VLPMF模型在LPMF模型的基礎上結合了圖像特征提取模塊,其模型框架如圖3所示。
在上述模塊中,分別介紹了文本特征和視覺特征的提取,VLPMF模型將電影的文本特征和相應的視覺特征分別融合為綜合特征,并通過投影層將綜合特征投射到特定的維度,隨后采用一種概率角度的方法將綜合特征向量連接到PMF中,從而得到項目特征向量的條件分布。具體來說,在PMF的基礎上,針對項目特征向量的條件分布,通過以下方法強化條件分布。
3?實驗分析(Experimental?analysis)
3.1?數(shù)據(jù)集
為了驗證本文提出的推薦系統(tǒng)模型的性能,在常用的Movielens\|1M(ML\|1M)、Movielens\|10M(ML\|10M)和亞馬孫AIV數(shù)據(jù)集上對其進行了實驗。由于這些數(shù)據(jù)集缺乏輔助信息,因此本文在IMBD網(wǎng)站利用網(wǎng)絡爬蟲分別獲取Movielens的電影描述文檔、AIV的用戶評論和對應的電影海報。表1給出了數(shù)據(jù)集的具體情況,表明每個數(shù)據(jù)集的稀疏性問題都是極其嚴重的。
3.2?實驗設置
在文本特征提取方面,首先采用先前訓練完畢的Glove預訓練詞向量模型,設置其詞嵌入維度為200,為了避免過擬合,將Dropout設置為0.5時,效果較佳。在視覺特征提取方面,將VGG16模型應用在ImageNet數(shù)據(jù)集上進行預訓練。將預訓練中批量大小和丟失率分別設置為128和0.5。其次將VGG16提取的圖像數(shù)據(jù)特征與獲得的文本特征向量進行融合,因此每部電影j的綜合特征都是由文本特征和視覺特征組成的。最后將綜合特征向量放入投影層,并將其維數(shù)固定為50,再選擇維數(shù)相同的用戶潛在向量。使用網(wǎng)格搜尋法求出每個模型的超參數(shù)(λ?U[WTBX],λ?V[WTBZ])的最佳值,表2展示了在ML\|1M、ML\|10M和AIV數(shù)據(jù)集上,在不同模型性能最優(yōu)時參數(shù)λ?U[WTBX]和λ?V[WTBZ]的取值。
3.3?評估標準
為了評估本文提出模型在不同數(shù)據(jù)集上的表現(xiàn),隨機將3個數(shù)據(jù)集劃分為3個部分:80%的訓練集、10%的驗證集和10%的測試集,使用測試集評估模型的性能和泛化能力,并計算測試集上的均方根誤差(RMSE),將其作為模型性能的最終評估指標。
3.4?對比實驗
為了驗證實驗模型的推薦性能,本文選用以下模型進行性能對比。
(1)PMF[10]:一種基于概率模型的推薦算法,只應用到評分數(shù)據(jù),通過分解用戶\|物品評分矩陣為兩個低維度潛在特征向量,學習用戶和物品的潛在特征向量,并通過最大似然估計方法優(yōu)化模型的參數(shù)。
(2)CTR[9]:一種利用協(xié)同主題建模的方法,采用文本信息和評分信息對PMF進行改進,有效地提高模型的推薦精度和覆蓋率。
(3)CDL[11]:一種基于協(xié)同深度學習的推薦算法,采用多層神經(jīng)網(wǎng)絡對用戶和物品的特征進行建模,將PMF與堆疊去噪自編碼器SDAE結合。
(4)ConvMF[12]:一種基于卷積神經(jīng)網(wǎng)絡的推薦算法,采用CNN學習用戶和物品的特征表示,同時將特征表示集成到PMF中進行推薦。
(5)LPMF:本文提出的一種結合長短期記憶網(wǎng)絡LSTM和概率矩陣分解PMF的模型,能夠深度提取文本隱語義特征。
(6)VLPMF:本文提出的一種基于概率矩陣分解的推薦算法模型,分別利用LSTM和CNN對描述文本和海報進行特征提取,然后基于PMF模型將提取的文本和多級視覺特征融合到推薦系統(tǒng)中,提高了評分預測精度。
3.5?實驗結果及分析
3.5.1?模型性能分析
表3顯示了LPMF、VLPMF和其他對比模型在3個測試集上的RMSE。從表3中可以看出,相比最優(yōu)基準模型ConvMF,結合了文本和圖像特征的VLPMF,其RMSE指標在ML\|1M數(shù)據(jù)集上提高了1.26百分點、在ML\|10M數(shù)據(jù)集上提高了1.51百分點,在AIV數(shù)據(jù)集上提高了4.30百分點。
通過進一步觀察可以得到,在評分數(shù)據(jù)相對密集的ML\|1M數(shù)據(jù)集(密度為4.641?0%)上,相比于僅利用評分數(shù)據(jù)的PMF,CTR和CDL模型的RMSE提升效果并不明顯,然而與使用CNN結構提取上下文信息的ConvMF模型相比,RMSE大幅降低,說明在評分數(shù)據(jù)密集的情況下,能夠提升上下文信息的捕獲性能,就能大幅提升推薦的精確度。
隨后,通過將LPMF和ConvMF對比可知,LPMF的性能表現(xiàn)更加優(yōu)異,說明LSTM模型在文本信息提取方面更有效。從LPMF和VLPMF模型的實驗結果來看,由于VLPMF考慮了視覺特征,豐富了核心信息,因此表現(xiàn)出更優(yōu)越的性能,表明將視覺特征集成到推薦系統(tǒng)中,可以在上下文推薦方面發(fā)揮積極作用。
3.5.2?稀疏度分析
在評價評分數(shù)據(jù)集時,數(shù)據(jù)密度是一個很重要的指標。本文研究了密度較小的AIV數(shù)據(jù)集(密度為0.030?0%)上VLPMF模型的改進結果,發(fā)現(xiàn)其優(yōu)于在ML\|1M和ML\|10M數(shù)據(jù)集上的表現(xiàn)。此外,數(shù)據(jù)密度越小,VLPMF模型性能提升效果越明顯,說明VLPMF模型結合了文本特征和視覺特征,有效緩解了數(shù)據(jù)稀疏的問題。為了進一步驗證VLPMF模型在不同的數(shù)據(jù)稀疏情況下的優(yōu)越性,以ML\|1M數(shù)據(jù)集為例,將其隨機劃分為不同稀疏度的訓練集做進一步的實驗,實驗結果如表4所示。
從表4中可以得出,VLPMF模型在不同的數(shù)據(jù)稀疏度條件下的表現(xiàn)均優(yōu)于其他模型,特別是當數(shù)據(jù)稀疏度從3.98%下降到0.95%的過程中,VLPMF模型相比于最優(yōu)基準模型ConvMF,性能提升率從1.2%提升到2.97%,表明數(shù)據(jù)特別稀疏時,能同時提取文檔信息和圖像信息的VLPMF模型的均方根誤差比僅提取文本信息的ConvMF模型要小。此外,數(shù)據(jù)越稀疏,VLPMF模型的性能提升越大。圖4展現(xiàn)出不同模型在不同的數(shù)據(jù)稀疏度條件下的實驗結果。
4?結論(Conclusion)
本文通過結合文本信息和圖片信息提高推薦數(shù)算法的穩(wěn)定性,探究了如何在保持推薦精度的前提下,利用描述文本信息(例如評論、電影描述等)和海報信息解決數(shù)據(jù)稀疏的問題,提出了基于概率矩陣分解的推薦模型VLPMF。該模型利用LSTM結構捕獲文本模態(tài)信息的上下文的語義信息;對于圖像數(shù)據(jù),使用VGG16模型對電影海報進行特征提取,然后將兩個模塊中所獲得的特征信息統(tǒng)一為綜合特征向量,并從概率的角度將其應用到概率矩陣分解模型PMF中。在3種常用數(shù)據(jù)集上的實驗結果發(fā)現(xiàn),VLPMF的RMSR優(yōu)于對比模型,并且數(shù)據(jù)越稀疏,模型的優(yōu)越性更突出。
參考文獻(References)
[1]?賈凡,康舒雅,江為強,等.?基于相似性的多用戶漏洞推薦算法[J].?清華大學學報(自然科學版),2023,63(9):1399\|1407.
[2]?李樹青,黃金旺,馬丹丹,等.?基于顯隱式信息融合和單類協(xié)同過濾方法的主題詞推薦[J].?圖書情報工作,2023,67(3):72\|84.
[3]?HWANGBO?H,KIM?Y?S,CHA?K?J.?Recommendation?system?development?for?fashion?retail?e\|commerce[J].?Electronic?commerce?research?and?applications,2018,28(C):94\|101.
[4]?張明星,張驍雄,劉姍姍,等.?利用知識圖譜的推薦系統(tǒng)研究綜述[J].?計算機工程與應用,2023,59(4):30\|42.
[5]?劉會,張璇,楊兵,等.?用于社交推薦的增強影響擴散模型[J].?計算機學報,2023,46(3):626\|642.
[6]?趙夢媛,黃曉雯,桑基韜,等.?對話推薦算法研究綜述[J].?軟件學報,2022,33(12):4616\|4643.
[7]?WANG?J?Z,HUANG?P?P,ZHAO?H,et?al.?Billion\|scale?commodity?embedding?for?E\|commerce?recommendation?in?alibaba[C]∥GUO?Y,F(xiàn)AROOQ?F.?Proceedings?of?the?24th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?&?Data?Mining.?New?York:ACM,2018:839\|848.
[8]?李浩君,呂韻,汪旭輝,等.?融入情感分析的多層交互深度推薦模型研究[J].?數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(3):43\|57.
[9]?WANG?C,BLEI?D?M.?Collaborative?topic?modeling?for?recommending?scientific?articles[C]∥APTE?C,GHOSH?J,SMYTH?P.?Proceedings?of?the?17th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?and?Data?Mining.?New?York:ACM,2011:448\|456.
[10]?SALAKHUTDINOV?R,MNIH?A.?Probabilistic?matrix?factorization[C]∥PLATT?J?C,KOLLER?D,SINGER?Y,ROWEIS?S?T.?Proceedings?of?the?20th?International?Conference?on?Neural?Information?Processing?Systems.?New?York:ACM,2008:1257\|1264.
[11]?WANG?H,WANG?N,YEUNG?D.?Collaborative?deep?learning?for?recommender?systems[C]∥CAO?L?B,ZHANG?C?Q.?Proceedings?of?the?21th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?and?Data?Mining.?New?York:ACM,2015:1235\|1244.
[12]?KIM?D,PARK?C,OH?J,et?al.?Convolutional?matrix?factorization?for?document?context\|aware?recommendation[C]∥SEN?S,GEYER?W.?Proceedings?of?the?10th?ACM?Conference?on?Recommender?Systems.?New?York:ACM,2016:233\|240.
作者簡介:
朱?昆(1997\|),男,碩士。研究領域:推薦系統(tǒng),深度學習。
劉?姜(1983\|),女,博士。副教授,研究領域:符號計算,機器學習。
倪?楓(1982\|),男,博士。副教授,研究領域:系統(tǒng)分析與集成。
朱佳怡(2000\|),女,本科生。研究領域:機器學習。