賀雋文 邵偉 衛(wèi)剛
摘要:推薦系統(tǒng)中對(duì)多模態(tài)的數(shù)據(jù)處理方式是業(yè)界長(zhǎng)期關(guān)注的重點(diǎn),基于各類數(shù)據(jù)的特點(diǎn)設(shè)計(jì)模型,可以有效利用信息,從而提升推薦效率。文章針對(duì)新聞推薦系統(tǒng)提出SIA-Transformer結(jié)構(gòu),在傳統(tǒng)Transformer的基礎(chǔ)上結(jié)合了新聞的邊信息。通過(guò)多組內(nèi)積的形式,將單詞特征與邊信息特征在多頭注意力層中進(jìn)行交叉,提高了邊信息利用率的同時(shí),也豐富了文本特征提取的語(yǔ)義,使得基于SIA-Transformer的新聞文本特征提取方法獲取到更多信息,從而提高了推薦的效果。文章基于微軟MSN開(kāi)放的大型新聞數(shù)據(jù)集MIND進(jìn)行了實(shí)驗(yàn),驗(yàn)證了模型的效果。
關(guān)鍵詞:新聞推薦系統(tǒng);邊信息;多模態(tài);深度學(xué)習(xí)
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)01-0004-03
1 概述
隨著消費(fèi)互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)的馬太效應(yīng)帶來(lái)了嚴(yán)重的信息過(guò)載問(wèn)題,推薦系統(tǒng)在互聯(lián)網(wǎng)平臺(tái)解決信息過(guò)載問(wèn)題的過(guò)程中發(fā)揮了巨大作用。以新聞推薦系統(tǒng)為例,通常需要基于新聞內(nèi)容、用戶信息以及用戶的歷史行為等特征,使用自然語(yǔ)言處理、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等技術(shù),精準(zhǔn)地將新聞推送給用戶。面對(duì)多模態(tài)的數(shù)據(jù),如離散型和連續(xù)型數(shù)據(jù)、文本和圖像數(shù)據(jù)、圖數(shù)據(jù)等,業(yè)界的常用做法是針對(duì)不同類型的數(shù)據(jù),分別獨(dú)立地提取數(shù)據(jù)特征。當(dāng)獨(dú)立處理各模態(tài)數(shù)據(jù)時(shí),缺乏各模態(tài)數(shù)據(jù)之間的交互與監(jiān)督,因此難以提取到各模態(tài)數(shù)據(jù)之間的關(guān)聯(lián),導(dǎo)致信息的損耗。
個(gè)性化新聞推薦系統(tǒng)中通常包含新聞模型與用戶模型兩大模塊,前者是基于內(nèi)容理解技術(shù)提取新聞的內(nèi)容和特點(diǎn),后者則是基于用戶信息與歷史點(diǎn)擊行為來(lái)建模用戶的興趣愛(ài)好?;趨f(xié)同過(guò)濾的推薦算法主要是根據(jù)用戶與商品交互記錄來(lái)進(jìn)行推薦,本質(zhì)上是基于用戶/商品相似度的統(tǒng)計(jì)方法。在新聞推薦系統(tǒng)中,由于新聞商品往往具有較強(qiáng)的時(shí)效性,因此會(huì)面臨嚴(yán)重的商品冷啟動(dòng)問(wèn)題。對(duì)標(biāo)題、摘要等文本信息和主題、類別等邊信息的利用則是緩解商品冷啟動(dòng)問(wèn)題的主要辦法,也是新聞推薦系統(tǒng)中優(yōu)化文本特征提取的動(dòng)機(jī)。
1.1 相關(guān)工作
現(xiàn)有主流的基于深度學(xué)習(xí)的新聞推薦系統(tǒng)通常使用自動(dòng)編碼器、CNN[1](卷積神經(jīng)網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、Transformer來(lái)進(jìn)行文本特征的提取。
Okura[2]等引入帶有弱監(jiān)督的自動(dòng)編碼器實(shí)現(xiàn)文本特征提取,Zhang等[3]進(jìn)一步使用改進(jìn)的自動(dòng)編碼器SDAE(stacked denoising auto-encoder) 作為文本特征提取器。An等[4]提出使用CNN網(wǎng)絡(luò)來(lái)提取新聞標(biāo)題及類別中的文本特征,并在用戶興趣建模中使用GRU(Gated Recurrent Unit) 處理用戶歷史點(diǎn)擊的新聞稿件特征,從而實(shí)現(xiàn)對(duì)用戶的長(zhǎng)短期興趣的建模。Lee[5]等則使用BIGRU(Bi-directional Gated Recurrent Unit) 來(lái)進(jìn)行文本特征提取。Wu等[6]在用戶興趣建模中引入注意力機(jī)制,從而更好地聚合用戶的歷史點(diǎn)擊新聞特征。Wu等[8]則使用Transformer作為文本的特征提取器。
部分模型將邊信息引入了新聞商品的文本特征提取流程中,取得了更好的效果,如Wang等[7]在文本提取過(guò)程中引入邊信息,將新聞的類別特征也視作文本與標(biāo)題中的文本拼接后再輸入3D卷積網(wǎng)絡(luò)。但此方法融合邊信息的方式過(guò)于簡(jiǎn)單,且僅利用了文本類的邊信息。因此,面對(duì)不同類型的邊信息,對(duì)現(xiàn)有文本提取網(wǎng)絡(luò)進(jìn)行優(yōu)化改進(jìn),從而在文本特征提取過(guò)程中最大程度地發(fā)揮邊信息的約束與監(jiān)督作用,是本文的改進(jìn)重點(diǎn)。
2 模型結(jié)構(gòu)
2.1 SIA-Transformer框架
如圖1所示,SIA-Transformer基于傳統(tǒng)Transformer網(wǎng)絡(luò)的編碼層,在其基礎(chǔ)上將邊信息引入到最核心的多頭注意力層中,邊信息類型可以包括文本信息(如用戶評(píng)論、新聞?lì)悇e),圖片信息(如新聞封面、知識(shí)圖譜等),統(tǒng)一以embedding的形式輸入到多頭注意力層中。
2.2 邊信息融合
2.3 邊信息注意力權(quán)重
傳統(tǒng)Transformer認(rèn)為,每個(gè)單詞的特征表示由其他單詞的V向量根據(jù)注意力權(quán)重聚合而成,注意力權(quán)重則通過(guò)由目標(biāo)單詞的Q向量點(diǎn)乘其他單詞的K向量,再通過(guò)softmax歸一化后得到。
考慮到在不同類別的新聞文本當(dāng)中,對(duì)相同單詞的關(guān)注程度是不相同的,因此本文將邊信息引入到多頭注意力層中注意力權(quán)重的計(jì)算過(guò)程中,改良后的注意力權(quán)重計(jì)算方式如圖2所示。
2.4 邊信息融合特征
3 實(shí)驗(yàn)結(jié)果與分析
本文選用微軟MSN大規(guī)模數(shù)據(jù)集MIND,通過(guò)對(duì)比不同模型中分別使用傳統(tǒng)Transformer與SIA-Transformer作為文本特征提取器的效果,驗(yàn)證本文中方法的有效性。實(shí)驗(yàn)中使用新聞的一級(jí)與二級(jí)類別作為邊信息,選用AUC作為模型效果指標(biāo),以經(jīng)典新聞推薦模型NPA和LSTUR作為基線模型的對(duì)比結(jié)果,如表1所示。
通過(guò)實(shí)驗(yàn)結(jié)果可以看到,在NPA及LSTUR中,相較于Transformer,以SIA-Transformer作為文本特征提取器,使得auc指標(biāo)在驗(yàn)證集上均取得了正向收益,說(shuō)明了模型的有效性。
4 結(jié)束語(yǔ)
本文中提出的SIA-Transformer作為新聞推薦系統(tǒng)中的文本特征提取器,通過(guò)引入邊信息到多頭注意力層中,使得邊信息能夠更充分地約束與指引文本特征的提取,使得提取的單詞特征向量具有更準(zhǔn)確與豐富的語(yǔ)義,在實(shí)驗(yàn)中取得了較好的效果。
同時(shí),本文中的方法也存在一些問(wèn)題與待改進(jìn)的方向。首先,本文中只使用了新聞的一級(jí)與二級(jí)類別邊信息,還有待于擴(kuò)展到其他模態(tài)的邊信息,從而獲取到更多的信息增益,如圖像信息、知識(shí)圖譜實(shí)體映射關(guān)系等。另外,本文中邊信息作用于注意力權(quán)重及特征融合的方式較為簡(jiǎn)單,更復(fù)雜與精巧的設(shè)計(jì)可以在將來(lái)的研究中再進(jìn)一步探索。最后,提取文本特征的方法除了在Transformer的基礎(chǔ)上進(jìn)行改進(jìn)以外,還可以考慮自然語(yǔ)言處理領(lǐng)域的其他最新成果,如Bert模型,如何將其他自然語(yǔ)言處理領(lǐng)域的最新成果與新聞推薦的任務(wù)結(jié)合起來(lái)優(yōu)化模型,從而獲取到更好的推薦效果,也是未來(lái)的研究方向之一。
參考文獻(xiàn):
[1] Zhang Y, Wallace B C. A sensitivity analysis of (and practitioners guide to) convolutional neural networks for sentence classification[C]//Proceedings of the Eighth International Joint Conference on Natural Language Processing.Taipei:Asian Federation of Natural Language Processing,2017:253-263.
[2] Okura S,Tagami Y,Ono S,et al.Embedding-based news recommendation for millions of users[C]// Halifax,NS,Canada:Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2017. New York:ACM,2017:1933-1942.
[3] Zhang F Z,Yuan N J,Lian D F,et al.Collaborative knowledge base embedding for recommender systems[C]// San Francisco,California,USA:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016. New York:ACM,2016:353-362.
[4] An Mingxiao,Wu Fangzhao,Wu Chuhan,et al.Neural News Recommendation with Long- and Short-term User Representations[J].ACL,2019(1):336-345.
[5] Lee D,Oh B,Seo S,et al.News recommendation with topic-enriched knowledge graphs[C]// Virtual Event,Ireland:Proceedings of the 29th ACM International Conference on Information & Knowledge Management,2020. New York:ACM,2020:695-704.
[6] Wu C H,Wu F Z,An M X,et al.Neural news recommendation with attentive multi-view learning[J].CoRR,2019,abs/1907.05576:3863-3869.
[7] Wang H Y,Wu F Z,Liu Z,et al.Fine-grained interest matching for neural news recommendation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Online.Stroudsburg,PA,USA:Association for Computational Linguistics,2020:836-845.
[8] Wu C H,Wu F Z,Huang Y F,et al.Neural news recommendation with negative feedback[J].CCF Transactions on Pervasive Computing and Interaction,2020,2(3):178-188.
【通聯(lián)編輯:唐一東】