方 寶,王 亮
(沈陽化工大學 計算機科學與技術學院,遼寧 沈陽 110020)
為了能夠從數據海洋中準確而快速地找到用戶感興趣的內容,推薦系統(tǒng)應運而生,該系統(tǒng)可以通過學習、分析、計算、比較數據進行特征識別,從而滿足用戶需求[1-2]。而基于知識圖譜的推薦通過引入高質量的輔助信息來緩解用戶項目交互的稀疏性問題和冷啟動問題。
現有的基于知識圖譜的推薦方法在很大程度上忽略了多模態(tài)信息,例如在去觀看電影的時候,用戶傾向于觀看預告片或閱讀一些相關的電影評論;當在美團外賣平臺點餐的時候,顧客也會關注菜品的圖片和餐館的評論。因此,有必要將這些多模態(tài)信息引入到知識圖譜中。將視覺或文本信息引入到知識圖譜中,將其視為實體或者實體的一個屬性,多模態(tài)知識圖譜是獲取外部多模態(tài)知識的一種更通用的方式,而不需要給出視覺或文本信息的專家定義。多模態(tài)特征融合的隱語義模型[3](Deep Latent Factor Model with Fusion of Multimodal Features,FLFM)能夠有效地融合物品文字描述信息和物品圖像信息,提升推薦系統(tǒng)的評分預測效果。
用戶與項目之間存在著潛在關聯(lián),而知識圖譜正是通過挖掘出這種潛在關聯(lián)來實現對用戶的精準推薦。Wang等人[4]提出DKN模型,這個模型針對新聞推薦,將新聞標題詞匯和知識圖譜中的實體進行鏈接,針對每一個實體詞匯都能搜索到跟它有關聯(lián)的實體表示。高仰等人[5]提出了融合了短期偏好和知識圖譜的推薦算法,李世寶等人[6]提出了KGCN-PN模型,基于對知識圖譜中每個實體的共同鄰居數目來對共同鄰居進行排序采樣,然后融合實體自身信息和接收域信息,最后預測用戶與實體交互的概率。另外,知識圖譜結合推薦系統(tǒng)的模型還有RippNet[7]和KGCN[8]等。
多模態(tài)知識圖譜是利用多模態(tài)知識來更好地增強推薦系統(tǒng)。孫睿[9]提出了多模態(tài)知識圖譜注意網絡(MKGAT),通過使用多模態(tài)注意技術在多模態(tài)知識圖譜上進行信息傳播,然后使用生成的聚合嵌入表示進行推薦。Wang等人[10]提出了SI-MKR模型,基于交替訓練和知識圖譜表示的增強多模態(tài)推薦系統(tǒng),在MKR模型的基礎上增加了計算用戶和項目的矢量表示。
知識圖譜G是由實體-關系-實體元組組成,用(h,r,t)三元組表示。其中:h,t∈ε表示三元組的頭節(jié)點和尾節(jié)點;r∈R表示關系;ε和R表示知識圖譜中的實體和關系集合。
多模態(tài)知識圖譜在傳統(tǒng)的知識圖譜上加入了多模態(tài)實體(例如文本和圖像)作為知識圖譜的第一類實體。以圖1為例展示一個多模態(tài)知識圖譜,在一個電影實體上面增加了一個文本實體和一個圖像實體,它描述了該實體的一些文本描述信息和視覺信息。
圖1 多模態(tài)知識圖譜示例
多模態(tài)信息特征融合的隱語義模型(FLFM)是將項目的文本信息特征和圖像信息特征結合成為項目的特征表示,它由特征抽取單元和特征融合單元組成。而MKR模型采用多任務學習的技術,能夠很好地將知識圖譜學習任務和推薦任務結合在一起訓練。傳統(tǒng)的MKR模型是由推薦模塊、知識圖譜嵌入模塊和交叉壓縮單元這三個模塊組成。
本文采用的基于多模態(tài)特征融合的MKR模型即FLFMMKR如圖2所示。
圖2 FLFM-MKR模型
(1)多模態(tài)特征抽取模塊
由于目標文本數據具有單一結構的文本句子,所以采用Text CNN模型對文本信息進行特征抽取。卷積神經網絡的優(yōu)點是每次迭代所需要更新的參數更少,從而提高了計算能力,與其他方法相比,速度更快。然后采用卷積神經網絡抽取圖像的局部特征以及全局特征。卷積神經網絡的隱藏層包括卷積層、池化層和全連接層。我們可以根據輸入的不同,選擇疊加使用這三層來提取抽象特征。
(2)多模態(tài)特征融合模塊
通過兩個映射函數hI和hT抽取單元中的圖像特征I1和文本特征T1,然后將它們映射到同一個特征空間中,如圖3所示。
圖3 多模態(tài)特征融合示意圖
增加如下兩個約束:
網絡文學到底是一種具有革命性、標志性的新文學,還是一種舊文學的延續(xù)?這是網絡文學界和傳統(tǒng)文學界一個很重要的分歧。特別是金庸先生的離世,引發(fā)了全社會的緬懷,而對網絡作家來說,更是失去了精神上的父親。中國作協(xié)網絡文學研究院副院長夏烈認為,以金庸為代表的港臺通俗小說潮,實際上是當下網絡類型文學之前的一個最近的大眾文學原點,直接啟迪和滋養(yǎng)了20年來的中國網絡小說。他將中國文學的大傳統(tǒng)和現代百余年文學的小傳統(tǒng)融合轉化,創(chuàng)造了一條生機勃勃的道路,從這個意義上說,他是中華文脈的重要傳承者,同時也是“五四”新文學的兒子,是傳統(tǒng)和現代交合下的一個典范。
約束一:同一部電影的文本描述信息特征向量和視頻圖像特征向量經過映射后在公共特征空間中的距離越近越好。
約束二:不同電影的文本描述信息特征向量和視頻圖像特征向量經過映射后在公共特征空間的距離越遠越好。
然后使用三重態(tài)損失函數來定義多模態(tài)特征融合模塊的損失函數。
式中:max(0,a)表示最大值函數;d為向量空間內的距離;a是用來調節(jié)約束強度的參數,值越大,表示損失函數的約束越強,不同項目間的區(qū)分度越大。
最后,經過多模態(tài)特征抽取模塊和多模態(tài)特征融合模塊,得到項目V1的文本特征向量T1和圖像特征向量I1,則項目的特征向量表示為:
(3)交叉壓縮單元
對于一個項目V和對應的知識圖譜里的實體h,構建交叉矩陣C∈Rd×d,其中d表示維度。
式中w、b分別表示為交叉壓縮單元權重和偏置參數,調整該參數則能夠同時學習推薦任務和知識圖譜任務。
(4)損失函數
模型由RS單元、KGE單元和它們之間的交叉壓縮單元組成。整個系統(tǒng)的損失函數由這三部分組成:推薦單元的損失函數、KGE單元的損失函數和正則化項。
式中λ1和λ2是平衡參數。
本文采用的是電影數據集MovieLens,該數據集被廣泛用于評估推薦系統(tǒng)。見表1所列,我們使用MovieLens-1M數據集,標記為1表示用戶對電影進行過評價,標記為0則表示未評價。本文將從TMDB6抓取相應的電影描述作為MovieLens知識圖譜的文本實體,抓取的電影預告片作為知識圖譜的圖像實體。
表1 實驗數據集
在實驗中,首先將數據集過濾,然后將數據集和測試集的比例按照8∶2來劃分,采用AUC和ACC來評估模型的CTR預測性能。對于實驗中的數據,將向量的維度設置為8,正則化項系數λ1和λ2均設置為10-8,使用初始化器初始化模型參數,用Adam優(yōu)化器優(yōu)化模型,將學習率設置為0.02。
設置參數后對模型進行訓練,得到結果如圖4所示。
圖4 CTR預測AUC和ACC對比圖
從圖4中可以看出,提出的多模態(tài)特征融合與MKR模型結合的FLFM-MKR模型在AUC和ACC指標上均取得了好的結果。通過表1中的數據可知,FLFM-MKR模型在AUC上的表現比MKR提高了1.9%,比SI-MKR模型提高了0.6%;在ACC上的表現比MKR模型提高了1.0%,比SI-MKR模型提高了0.5%。由此可見,將多模態(tài)信息引入知識圖譜推薦算法要優(yōu)于傳統(tǒng)的知識圖譜推薦算法,將多模態(tài)信息進行特征融合表示項目特征相比單一模態(tài)表示項目特征的性能得到了提升。因此,通過融合多模態(tài)信息能夠更好地為用戶推薦其感興趣的物品。
本文針對知識圖譜推薦算法,在前人的研究基礎上,提出了一種基于FLFM-MKR的多模態(tài)特征融合的多任務學習推薦算法。在對多模態(tài)信息特征處理部分,采用Text CNN提取電影中的文本描述特征,采用CNN提取圖像特征;然后通過增加兩個約束將提取出的文本特征信息和圖像特征信息映射到同一特征空間進行融合形成項目的特征。在推薦部分,采用多任務學習機制,同時訓練知識圖譜模塊和推薦模塊,最后綜合地向用戶推薦。但是由于多模態(tài)數據比較稀疏,所以在CTR預測上的提升并不是很大,如何能夠更加高效地利用知識圖譜和更有效地處理稀疏數據成為今后研究的重點。