田 萱,丁 琪,廖子慧,孫國(guó)棟
1.北京林業(yè)大學(xué) 信息學(xué)院,北京100083
2.國(guó)家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京100083
+通信作者E-mail:tianxuan@bjfu.edu.cn
新聞推薦(news recommendation,NR)是一種緩解新聞信息過(guò)載的有效方式,能幫助用戶從眾多的新聞資源中篩選并推送其可能感興趣的新聞[1-2]。目前,各大新聞APP如今日頭條和新聞網(wǎng)站如MSN News等都在其商業(yè)系統(tǒng)中嵌入了推薦算法,以提供千人千面的新聞推薦,提升用戶體驗(yàn)。例如今日頭條從新聞內(nèi)容特征、用戶個(gè)人特征與所處環(huán)境特征三個(gè)維度構(gòu)建新聞推薦算法,并成功應(yīng)用于其平臺(tái)[3-4]。相比于商品、電影、音樂(lè)等其他推薦,NR 具有新聞時(shí)效性強(qiáng)、語(yǔ)義信息豐富、用戶興趣變化多樣等特點(diǎn),在用戶整體偏好建模、用戶時(shí)序興趣建模、新聞建模等子任務(wù)方面面臨著挑戰(zhàn)。近年來(lái)NR 成為國(guó)內(nèi)外眾多科研機(jī)構(gòu)研究的熱點(diǎn),獲得了信息檢索、數(shù)據(jù)挖掘和人工智能等領(lǐng)域國(guó)內(nèi)外學(xué)術(shù)會(huì)議的高度關(guān)注[5-6]。
深度學(xué)習(xí)(deep learning,DL)是一種表征學(xué)習(xí)(representation learning)方法[7],已廣泛應(yīng)用于自然語(yǔ)言處理、圖像處理和語(yǔ)音識(shí)別等領(lǐng)域?;谏疃葘W(xué)習(xí)的新聞推薦(deep learning based news recommendation,DNR)研究與日俱增,成為當(dāng)前推薦系統(tǒng)研究領(lǐng)域熱點(diǎn)之一。目前已經(jīng)有多篇相關(guān)綜述性論文涉及調(diào)研DNR 技術(shù),如文獻(xiàn)[8-9]從深度學(xué)習(xí)技術(shù)角度剖析了推薦算法,多處提及到前沿的DNR 技術(shù);文獻(xiàn)[10-11]從個(gè)性化新聞推薦框架角度介紹了幾種基于深度學(xué)習(xí)的新聞推薦模型等。然而,這些文獻(xiàn)都缺乏對(duì)DNR 的系統(tǒng)性、全面性分析,未能表達(dá)出深度學(xué)習(xí)模型針對(duì)新聞推薦任務(wù)的設(shè)計(jì)特色和方法特征。本文的主要貢獻(xiàn)在于從深度學(xué)習(xí)技術(shù)角度全面、系統(tǒng)論述DNR 研究進(jìn)展,尤其著重從新聞推薦的核心對(duì)象——用戶和新聞出發(fā)剖析深度學(xué)習(xí)技術(shù)建模特色和處理特征。
按照建模思路的不同,將DNR 方法分為“兩段式”方法、“融合式”方法和“協(xié)同式”方法三類,分別進(jìn)行介紹,其中,“兩段式”方法強(qiáng)調(diào)按照“先新聞、后興趣”的思路,分步建立推薦模型;“融合式”方法是將新聞和用戶信息混合在一起,同時(shí)學(xué)習(xí)新聞和用戶特征;“協(xié)同式”方法則是不止利用了用戶自己的新聞點(diǎn)擊行為,還考慮了相鄰用戶與新聞的交互。在每一類方法里,或根據(jù)建模過(guò)程中的具體子任務(wù)不同,亦或根據(jù)其基于的數(shù)據(jù)組織結(jié)構(gòu)不同,從“建模新聞”“建模用戶整體偏好”“建模用戶時(shí)序興趣”“用戶-新聞二分圖”等多個(gè)角度分別剖析不同DNR技術(shù)的建模特點(diǎn)和設(shè)計(jì)特色。其分類如圖1 所示。
Fig.1 Taxonomy of deep learning based news recommendation圖1 基于深度學(xué)習(xí)的新聞推薦方法分類
如今,網(wǎng)絡(luò)新聞成為獲取實(shí)時(shí)資訊最流行的方式,用戶可以通過(guò)專業(yè)的新聞網(wǎng)站閱讀新聞,也可以通過(guò)其他的社會(huì)化網(wǎng)絡(luò)服務(wù)渠道(如Twitter、微博等)瀏覽新聞資訊。NR 的任務(wù)是從眾多新聞資訊中為用戶推送出其可能感興趣的新聞資源,有效過(guò)濾無(wú)關(guān)新聞,盡可能滿足不同用戶對(duì)新聞資訊的需求,提高用戶閱讀質(zhì)量。當(dāng)前,網(wǎng)絡(luò)傳播具有傳播廣泛、即時(shí)性強(qiáng)、信息量大和交互靈活等特點(diǎn),以網(wǎng)絡(luò)傳播為主的新聞推薦面臨著新聞數(shù)量爆炸增長(zhǎng)、新聞時(shí)效性強(qiáng)、語(yǔ)義信息豐富[12]和用戶興趣動(dòng)態(tài)變化等挑戰(zhàn)。早期新聞推薦方法等往往采用手工構(gòu)造特征,依賴于貝葉斯模型[13]等淺層模型進(jìn)行預(yù)測(cè),無(wú)法提取新聞及用戶的深層次特征,限制了NR的有效性及可擴(kuò)展性。
DL 是機(jī)器學(xué)習(xí)中一種基于數(shù)據(jù)表征學(xué)習(xí)的方法,在自然語(yǔ)言處理、語(yǔ)音識(shí)別、圖像處理等領(lǐng)域廣泛使用。新聞推薦中,DL 技術(shù)能夠通過(guò)學(xué)習(xí)非線性網(wǎng)絡(luò)結(jié)構(gòu),表征新聞和用戶相關(guān)的海量數(shù)據(jù)[9],提取新聞內(nèi)容和用戶興趣的深層次特征[14],可應(yīng)對(duì)NR 面臨的新聞數(shù)目巨大和用戶興趣動(dòng)態(tài)變化[15]等挑戰(zhàn),有效提高推薦的準(zhǔn)確率。此外,DL 技術(shù)能夠融合蘊(yùn)含豐富用戶興趣的多源異構(gòu)輔助性信息,學(xué)習(xí)不同數(shù)據(jù)的統(tǒng)一表示[16],緩解新聞推薦中冷啟動(dòng)、數(shù)據(jù)稀疏等問(wèn)題。主流的DL 模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、注意力機(jī)制模型(attention model,AM)等。CNN 因其有效捕獲局部和全局特征的能力,能夠在NR 領(lǐng)域更好地提取新聞文本特征和用戶特征,受到諸多研究者青睞。RNN 因其遞歸處理歷史信息和建模歷史記憶的特點(diǎn),特別適合處理序列數(shù)據(jù),是建模新聞推薦中隨時(shí)間變化用戶興趣的有效手段。AM 能夠?qū)W習(xí)不同部分的相對(duì)重要程度[17],可以在建模過(guò)程中對(duì)新聞和用戶的特征進(jìn)行動(dòng)態(tài)調(diào)整,在DNR 領(lǐng)域研究中逐漸成為焦點(diǎn)。還有一些DL技術(shù)也逐漸在NR 領(lǐng)域得到應(yīng)用,如圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCN)、自動(dòng)編碼器(auto-encoder,AE)以及多層感知機(jī)(multi-layer perceptron,MLP)等。目前DNR 研究已經(jīng)成為NR 領(lǐng)域的研究熱點(diǎn)之一,許多國(guó)內(nèi)外大學(xué)和研究機(jī)構(gòu)如美國(guó)的麻省理工大學(xué)、微軟亞研院、清華大學(xué)、北京郵電大學(xué)、上海交通大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)等對(duì)DNR開(kāi)展了廣泛深入研究。近幾年的信息檢索、數(shù)據(jù)挖掘、人工智能等相關(guān)國(guó)際會(huì)議(如SIGIR(International Conference on Research and Development in Information Retrieval)、SIGKDD(ACM Knowledge Discovery and Data Mining)、WWW(International World Wide Web Conference)、CIKM(ACM International Conference on Information and Knowledge Management)、AAAI(AAAI Conference on Artificial Intelligence)、IJCAI(International Joint Conference on Artificial Intelligence)等)和推薦系統(tǒng)大會(huì)(RecSys(ACM Recommender Systems Conference))中,DNR 相關(guān)論文數(shù)量逐年提升。
總結(jié)梳理基于深度學(xué)習(xí)的新聞推薦一般流程,可將其概括為數(shù)據(jù)采集、新聞推薦和結(jié)果評(píng)估三個(gè)步驟,如圖2 所示。其中,深度學(xué)習(xí)模型是DNR 的核心。事實(shí)上,目前研究中,少數(shù)DNR 方法使用單一深度學(xué)習(xí)技術(shù),大部分則混合運(yùn)用多種深度學(xué)習(xí)技術(shù)設(shè)計(jì)NR,幫助有效提升推薦效果。例如DADM(dynamic attention deep model)模型[18]結(jié)合了CNN 和AM,既利用CNN 提取新聞內(nèi)容特征和種類特征,獲取新聞的高質(zhì)量表示,又利用AM 調(diào)整不同時(shí)刻下不同新聞的重要性權(quán)重,綜合考慮新聞被選擇的概率;DeepJoNN(deep joint neural networks)模型[19]則結(jié)合了CNN 和RNN,構(gòu)造了基于字符的多維輸入CNN,建模了帶有讀者興趣意圖的新聞內(nèi)容特征,提升了推薦系統(tǒng)的推薦精準(zhǔn)性。
Fig.2 Workflow of deep learning based news recommendation圖2 基于深度學(xué)習(xí)的新聞推薦的一般流程
DNR 方法通常將NR 算法與DL 相結(jié)合,利用DL技術(shù)對(duì)新聞數(shù)據(jù)和用戶數(shù)據(jù)進(jìn)行特征提取。為便于剖析介紹,按照?qǐng)D1 所示,本文將DNR 方法劃分為3類:“兩段式”方法、“融合式”方法和“協(xié)同式”方法。在每類方法中,將根據(jù)建模過(guò)程中的具體子任務(wù)或其基于的數(shù)據(jù)組織結(jié)構(gòu)進(jìn)行更細(xì)致劃分。表1 對(duì)這3類方法從方法特點(diǎn)、優(yōu)點(diǎn)和缺點(diǎn)等幾個(gè)方面進(jìn)行了分析與比較。下面將對(duì)每類方法進(jìn)行詳細(xì)分析介紹。
Table 1 Comparison of 3 DNR methods表1 3 種DNR 方法對(duì)比
在基于深度學(xué)習(xí)的新聞推薦方法中,多數(shù)方法是先提取每篇新聞的特征,再在此基礎(chǔ)上學(xué)習(xí)用戶興趣表示,其中,大部分的工作將每篇新聞建模為一個(gè)獨(dú)立統(tǒng)一的向量。這種“先新聞,后用戶”的分步建模思路,本文將其總結(jié)為“兩段式”新聞推薦方法。根據(jù)其建模子任務(wù)不同,本文從建模新聞、建模用戶整體偏好、建模用戶時(shí)序興趣和建模用戶混合興趣來(lái)分別介紹。其中,“建模用戶整體偏好”和“建模用戶時(shí)序興趣”為兩種常見(jiàn)的DNR 應(yīng)用任務(wù),其區(qū)別在于,前者在利用用戶新聞點(diǎn)擊歷史等信息建模用戶興趣時(shí)不強(qiáng)調(diào)其時(shí)間順序,而后者更注重通過(guò)用戶點(diǎn)擊歷史的時(shí)序信息捕捉用戶興趣隨時(shí)間的變化。
2.1.1 建模新聞
精準(zhǔn)地建模新聞是NR 中的一項(xiàng)重要任務(wù)。一些工作采用單一的深度學(xué)習(xí)技術(shù)對(duì)新聞建模,獲得新聞的語(yǔ)義表示。CNN 是一種從新聞文本中提取特征的常見(jiàn)方法。例如,文獻(xiàn)[20]提出的新聞推薦深度學(xué)習(xí)元架構(gòu)CHAMELEON,其內(nèi)容表征模塊基于CNN從單詞級(jí)別對(duì)新聞文本內(nèi)容進(jìn)行卷積計(jì)算,生成新聞內(nèi)容嵌入表示;文獻(xiàn)[21]模型DAINN(dynamic attention-integrated neural network)中,同樣利用CNN從新聞文本內(nèi)容的詞級(jí)表示中提取語(yǔ)義信息。為豐富語(yǔ)義信息,一些工作不只選用了一種新聞數(shù)據(jù)來(lái)建模新聞。文獻(xiàn)[18]為新聞編輯從業(yè)者設(shè)計(jì)出一個(gè)專業(yè)的新聞篩選推薦系統(tǒng),針對(duì)新聞編輯在篩選新聞時(shí)較多依賴新聞文字質(zhì)量而較少注重關(guān)鍵詞、主題等元數(shù)據(jù)造成的新聞篩選標(biāo)準(zhǔn)不明確的問(wèn)題,提出利用新聞文本內(nèi)容、新聞?lì)悇e兩種數(shù)據(jù)來(lái)建模新聞,預(yù)測(cè)新聞的篩選標(biāo)準(zhǔn),其框架如圖3 所示。在該框架中,一方面采用含有1 個(gè)卷積層和總共1 050 個(gè)卷積核的CNN 模型捕獲單詞序列中的潛在語(yǔ)義模式來(lái)表示文本內(nèi)容;另一方面使用one-hot向量表示新聞?lì)悇e等元數(shù)據(jù)信息,最后將兩者拼接起來(lái)預(yù)測(cè)新聞篩選的概率。此外,該模型將CNN 構(gòu)建于字符之上,提高了對(duì)不同語(yǔ)言的泛化能力。但由于字符中語(yǔ)義信息不足,會(huì)使得字符級(jí)CNN提取的新聞?wù)Z義特征不夠豐富,且輸入序列的增長(zhǎng)可能導(dǎo)致計(jì)算成本的增加。
Fig.3 CNN architecture for news recommendation prediction圖3 用于新聞推薦預(yù)測(cè)的CNN 架構(gòu)
文獻(xiàn)[22]在考慮新聞標(biāo)題的同時(shí),還將比新聞標(biāo)題信息量更豐富的新聞概要(profile,是從新聞中提取的實(shí)體及實(shí)體類型)納入新聞數(shù)據(jù)信息,提出了一種深度注意力神經(jīng)網(wǎng)絡(luò)(deep attention neural network,DAN)。為了學(xué)習(xí)新聞特征表示,DAN 中設(shè)計(jì)了由兩個(gè)并行卷積神經(jīng)網(wǎng)絡(luò)組成的PCNN(parallel CNN)組件,結(jié)構(gòu)如圖4 所示。PCNN 分別以單詞級(jí)別的新聞標(biāo)題和概要作為輸入,學(xué)習(xí)新聞的標(biāo)題級(jí)和概要級(jí)(profile-level)表示,并拼接在一起作為最終的新聞特征表示。因有更多數(shù)據(jù)特征支撐,帶有PCNN 組件的模型比單純依靠新聞標(biāo)題的模型更具競(jìng)爭(zhēng)力。從以上工作可以看出,CNN 在建模新聞的任務(wù)中被廣泛應(yīng)用,但由于CNN 固定感受野的限制,不利于較長(zhǎng)新聞詞語(yǔ)序列的建模。
Fig.4 Architecture of PCNN圖4 PCNN 結(jié)構(gòu)
除了CNN 外,自動(dòng)編碼器(AE)也常被用來(lái)學(xué)習(xí)新聞或用戶表示。AE 是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,具有典型的輸入-隱含-輸出三層神經(jīng)網(wǎng)絡(luò),旨在通過(guò)一個(gè)編碼和一個(gè)解碼過(guò)程來(lái)重構(gòu)輸入數(shù)據(jù),學(xué)習(xí)數(shù)據(jù)的深層表示。在DNR 領(lǐng)域,AE 在應(yīng)用過(guò)程中往往被加入高斯噪音,升級(jí)為降噪自動(dòng)編碼器(denoising auto-encoder,DAE),在重構(gòu)輸入數(shù)據(jù)過(guò)程中通過(guò)去除噪聲來(lái)學(xué)習(xí)對(duì)輸入數(shù)據(jù)更泛化的表達(dá)能力。文獻(xiàn)[23]通過(guò)改進(jìn)的降噪自編碼器建立新聞的分布式表示。具體來(lái)說(shuō),該文獻(xiàn)對(duì)DAE 的損失函數(shù)進(jìn)行優(yōu)化,加入了弱監(jiān)督信息,提高了模型對(duì)差距的表達(dá)能力,解決了基于詞的方法中“無(wú)法識(shí)別相似詞”的問(wèn)題,使得模型能夠更為精確學(xué)習(xí)新聞間的差異與相似性。但由于DAE 不考慮新聞中詞語(yǔ)的順序信息,可能會(huì)限制該方法獲得準(zhǔn)確語(yǔ)義表示的能力。
還有一些工作探索多種深度學(xué)習(xí)技術(shù)的混合使用來(lái)提高準(zhǔn)確建模新聞的能力。文獻(xiàn)[24]提出一種帶有個(gè)性化注意力機(jī)制的新聞推薦模型NPA(neural news recommendation with personalized attention),在其新聞編碼器中,先利用CNN 處理新聞標(biāo)題單詞序列,通過(guò)捕獲新聞標(biāo)題中單詞的局部上下文學(xué)習(xí)單詞的語(yǔ)義表示;再基于不同的單詞在表示新聞時(shí)具有不同信息量這一思想,設(shè)計(jì)出個(gè)性化的AM 來(lái)為不同的用戶識(shí)別重要的單詞,其模塊結(jié)構(gòu)如圖5 所示。圖中,首先用戶ID 經(jīng)過(guò)全連接層生成用戶偏好查詢向量(preference query),其次根據(jù)偏好查詢向量和單詞表示向量[c1,c2,…,cM]計(jì)算出每個(gè)單詞的注意力權(quán)重α,將新聞標(biāo)題單詞表示向量依據(jù)注意力權(quán)重加權(quán)處理得到新聞特征r,最后新聞特征r作為該模塊的輸出,用于最后點(diǎn)擊預(yù)測(cè)計(jì)算的輸入。該模型根據(jù)用戶特征動(dòng)態(tài)地關(guān)注新聞中重要的單詞,增強(qiáng)了新聞的表示學(xué)習(xí)能力。該模型可能存在的問(wèn)題在于,僅利用了新聞標(biāo)題這一種新聞信息,丟失了如新聞主體中豐富的語(yǔ)義信息,導(dǎo)致新聞?wù)Z義表示不夠全面。
Fig.5 Architecture of personalized attention module in NPA approach圖5 NPA 方法中的個(gè)性化注意力模塊結(jié)構(gòu)
文獻(xiàn)[25]提出的LSTUR(both long-and short-term user representations)模型,同樣采用CNN 與AM 相結(jié)合的方式提取新聞標(biāo)題特征,不同的是,LSTUR 增加了新聞主題和子主題信息,從二者的ID 嵌入中學(xué)習(xí)表征,并將標(biāo)題、主題和子主題的表示作拼接得到最終的新聞表示。其結(jié)構(gòu)如圖6 所示。文獻(xiàn)[26]提出一種基于AM 的多視角學(xué)習(xí)模型NAML(neural news recommendation with attentive multi-view learning),除了在建模新聞標(biāo)題和主體時(shí)采用NPA 模型的CNN 與AM 結(jié)合的方法外,還將標(biāo)題、主體、類別等不同的新聞數(shù)據(jù)視為不同的新聞視角,利用AM 學(xué)習(xí)不同視角在建模不同新聞時(shí)所具有的不同重要程度(即注意力權(quán)重),得到最終的新聞表示,有效提升了個(gè)性化新聞推薦的性能。另外,以上兩個(gè)模型的局限性可能在于,簡(jiǎn)單的顯式主題或類別信息或許不足以細(xì)致地描述新聞主題,特別是當(dāng)新聞同屬于兩個(gè)或多個(gè)不同主題時(shí),因此,可以通過(guò)挖掘潛在的主題信息以提高新聞表示的準(zhǔn)確性。
CNN 擅長(zhǎng)提取局部特征,卻無(wú)法捕捉長(zhǎng)距離的單詞交互,并且同一新聞中一個(gè)單詞可能和多個(gè)單詞之間存在交互,多頭自注意力機(jī)制(multi-head selfattention,MHSA)能夠更好地建模上述情況。文獻(xiàn)[27]提出一種基于多頭自注意力機(jī)制的神經(jīng)新聞推薦方法(neural news recommendation with multi-head self-attention,NRMS)。在其新聞編碼器中,使用MHSA從新聞標(biāo)題中建模單詞之間的交互來(lái)學(xué)習(xí)單詞的上下文表示,并使用AM 選擇重要的詞語(yǔ)來(lái)學(xué)習(xí)更具有信息量的新聞表示。文獻(xiàn)[28]提出的CPRS(click preference and reading satisfaction for news recommendation)模型中的文本編碼器,同樣采用了MHSA 與AM 相結(jié)合的方式獲得更準(zhǔn)確的文本表示,結(jié)構(gòu)如圖7 所示。不同之處在于,CPRS 不僅使用了新聞標(biāo)題,還使用了新聞主體內(nèi)容,并且對(duì)二者分別進(jìn)行編碼。MHSA 不僅能夠捕捉新聞中長(zhǎng)距離的詞與詞之間的關(guān)聯(lián),還能建模一個(gè)詞與多個(gè)詞之間的語(yǔ)義交互,增強(qiáng)了新聞特征表達(dá)能力。
Fig.6 Architecture of news encoder in LSTUR圖6 模型LSTUR 中的新聞編碼器架構(gòu)
Fig.7 Architecture of text encoder in CPRS圖7 模型CPRS 中的文本編碼器架構(gòu)
新聞?wù)Z言具有高度濃縮的特點(diǎn),包含大量的知識(shí)與實(shí)體,僅從語(yǔ)義層面學(xué)習(xí)新聞表示,無(wú)法充分發(fā)現(xiàn)新聞之間潛在的知識(shí)層面的聯(lián)系。近年來(lái),知識(shí)圖譜(knowledge graph,KG)被廣泛應(yīng)用于機(jī)器閱讀[29]、文本分類[30]和單詞表示[31]等領(lǐng)域。受KG 的啟發(fā),文獻(xiàn)[32]提出一種基于深度知識(shí)感知的新聞推薦系統(tǒng)DKN(deep knowledge-aware network),基于CNN 利用知識(shí)圖譜實(shí)現(xiàn)新聞推薦。DKN 的關(guān)鍵組件是一個(gè)多通道且單詞與實(shí)體對(duì)齊的知識(shí)感知卷積神經(jīng)網(wǎng)絡(luò)(knowledge-aware convolutional neural network,KCNN)。實(shí)現(xiàn)過(guò)程中,它融合語(yǔ)義層面和知識(shí)層面的表示,將單詞、實(shí)體、實(shí)體的上下文作為CNN 的多個(gè)通道輸入,并在卷積期間維持其對(duì)齊關(guān)系,其結(jié)構(gòu)如圖8 所示。KCNN 的實(shí)體和單詞的對(duì)齊機(jī)制融合了異構(gòu)的信息源,可以更好捕捉新聞之間的隱含關(guān)系,合理擴(kuò)展推薦結(jié)果,提高推薦性能,相較于僅使用單詞的單通道CNN 結(jié)構(gòu),其F1 和AUC(area under the ROC curve)分別提高了2.7 個(gè)百分點(diǎn)和2.2 個(gè)百分點(diǎn)。不足的是,該方法僅利用了新聞標(biāo)題,沒(méi)有充分利用新聞主體等中包含豐富語(yǔ)義的實(shí)體。此外,新聞中更新迅速的人名等未登錄詞,在知識(shí)圖譜中可能缺乏對(duì)應(yīng)的知識(shí),也會(huì)限制模型的推薦效果。
在DKN 的基礎(chǔ)上,文獻(xiàn)[33]利用自注意力機(jī)制構(gòu)建語(yǔ)義級(jí)和知識(shí)級(jí)的新聞表示,其架構(gòu)中含有詞級(jí)自注意力模塊和項(xiàng)目級(jí)自注意力模塊。其中,詞級(jí)自注意力模塊將新聞標(biāo)簽、外部知識(shí)圖譜中的實(shí)體及其上下文作為輸入來(lái)計(jì)算新聞的語(yǔ)義級(jí)和知識(shí)級(jí)表示。其具體操作是,根據(jù)標(biāo)簽和新聞的相關(guān)性,選擇n個(gè)單詞作為每篇新聞的關(guān)鍵詞,通過(guò)這些關(guān)鍵詞從知識(shí)圖譜中選擇出關(guān)鍵實(shí)體和關(guān)鍵上下文擴(kuò)充關(guān)鍵詞;然后將這些關(guān)鍵詞輸入到該詞級(jí)自注意力模塊,聚合新聞中其他單詞,獲得詞級(jí)新聞表示。作者采用同樣的方法獲得了實(shí)體級(jí)新聞表示和上下文級(jí)新聞表示。項(xiàng)目級(jí)自注意力模塊將以上三個(gè)層級(jí)(單詞級(jí)、實(shí)體級(jí)以及上下文級(jí))的表示進(jìn)行加權(quán)融合,以獲得更準(zhǔn)確的新聞表示。
Fig.8 Architecture of KCNN圖8 KCNN 結(jié)構(gòu)
圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)是一種從圖數(shù)據(jù)結(jié)構(gòu)中提取特征的深度學(xué)習(xí)方法,因其強(qiáng)大的特征表達(dá)能力受到廣泛關(guān)注,并在圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域得到應(yīng)用,它可以聚合每個(gè)中心節(jié)點(diǎn)及其相鄰節(jié)點(diǎn)的信息來(lái)增強(qiáng)節(jié)點(diǎn)的特征表達(dá)[34]。文獻(xiàn)[35]提出了一種上下文感知圖架構(gòu)CAGE(context-aware graph embedding for session-based news recommendation),不僅利用CNN 從新聞中提取文本級(jí)新聞特征,利用知識(shí)圖譜提取語(yǔ)義級(jí)新聞特征豐富新聞?wù)Z義,而且提出構(gòu)建文章級(jí)的圖,以利用文章之間的鄰域結(jié)構(gòu)信息豐富新聞特征。具體而言,將文章作為圖的節(jié)點(diǎn),將文章之間的兩兩相似度值作為邊的權(quán)值,移除相似度較小的邊以得到一個(gè)稀疏圖,并利用多層的GCN 進(jìn)一步提煉新聞表示。文獻(xiàn)[36]同樣采用了知識(shí)圖譜與圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)方法,提出了一個(gè)基于主題的知識(shí)圖推薦系統(tǒng)TEKGR(topic-enriched knowledge graph recommendation system)。TEKGR 設(shè)計(jì)了3 個(gè)編碼器,從語(yǔ)義和知識(shí)兩個(gè)角度來(lái)處理新聞標(biāo)題獲得新聞表示,結(jié)構(gòu)如圖9 所示。其中,詞級(jí)新聞編碼器依次通過(guò)詞嵌入層、雙向門控循環(huán)單元(bidirectional gated recurrent units,Bi-GRU)層和注意力層來(lái)關(guān)注對(duì)于表征新聞重要的單詞,并學(xué)習(xí)新聞表示;知識(shí)編碼器從新聞標(biāo)題中的實(shí)體概念出發(fā),利用知識(shí)圖譜中的關(guān)系事實(shí)來(lái)提取新聞標(biāo)題的主題向量;知識(shí)圖譜級(jí)新聞編碼器通過(guò)在實(shí)體之間添加來(lái)自知識(shí)編碼器的主題關(guān)系向量構(gòu)造子圖,并應(yīng)用GNN 得到新聞嵌入向量。該模型挖掘了實(shí)體之間的主題關(guān)系與實(shí)體的上下文特征,提高了新聞建模的準(zhǔn)確度。該模型局限性在于沒(méi)有充分利用除新聞標(biāo)題外的其他新聞信息,忽視了可以為標(biāo)題實(shí)體提供上下文語(yǔ)境的新聞主體內(nèi)容等,新聞特征表達(dá)能力不夠豐富。
Fig.9 Architecture of KG-based news modeling layer in TEKGR圖9 TEKGR 模型中的基于知識(shí)圖譜的新聞建模層結(jié)構(gòu)
在“兩段式”新聞推薦方法的建模新聞方面,各研究工作以獲得精確的新聞表示為目標(biāo)采取了多樣的建模方式。一部分工作借助CNN 強(qiáng)大的局部特征提取能力,有效捕獲新聞標(biāo)題、概要等單詞序列的語(yǔ)義特征,提升了模型在AUC 和F1 上的性能,且由于CNN 網(wǎng)絡(luò)的可并行學(xué)習(xí)性使得模型有較快的運(yùn)算速度,但CNN 固定的感受野可能限制了新聞詞語(yǔ)序列的長(zhǎng)度。一部分工作利用AM 可學(xué)習(xí)不同數(shù)據(jù)重要性程度的能力,關(guān)注新聞中更具有信息量的單詞,提升了新聞表示的重點(diǎn)性或個(gè)性化程度,其推薦結(jié)果在AUC 或MRR(mean reciprocal rank)上有明顯提升。一部分工作使用MHSA 建模長(zhǎng)距離的依賴,增強(qiáng)了對(duì)單詞之間長(zhǎng)距離的交互的學(xué)習(xí)能力。一部分工作引入知識(shí)圖譜來(lái)獲取新聞的外部知識(shí)特征,提高了新聞表示的豐富性,增加了模型在AUC 或NDCG(normalized discounted cumulative gain)上的性能,但新聞中快速產(chǎn)生的新實(shí)體可能無(wú)法及時(shí)被知識(shí)圖譜所包含。還有部分工作進(jìn)一步采用GCN 技術(shù)引入鄰域新聞信息,增強(qiáng)了新聞特征表達(dá)。表2 總結(jié)了在建模新聞方面不同模型的關(guān)鍵技術(shù)、選取的數(shù)據(jù)種類、數(shù)據(jù)粒度、方法特點(diǎn)、優(yōu)點(diǎn)和局限性等(一些工作只介紹其使用文本型數(shù)據(jù)而未明確指出所用數(shù)據(jù)種類,本文將其歸類為文本內(nèi)容)。
2.1.2 建模用戶
NR 中的用戶興趣含有多樣性與變化性等特點(diǎn),使得準(zhǔn)確的用戶建模具有一定挑戰(zhàn)。本文將“兩段式”新聞推薦方法的建模用戶部分分為“建模用戶整體偏好”“建模用戶時(shí)序興趣”和“建模用戶混合興趣”三類進(jìn)行介紹。其中,“建模用戶整體偏好”將用戶的新聞點(diǎn)擊歷史當(dāng)作集合,建模用戶興趣時(shí)不強(qiáng)調(diào)其時(shí)間順序;“建模用戶時(shí)序興趣”將用戶的點(diǎn)擊歷史當(dāng)作時(shí)間序列,更注重應(yīng)用時(shí)序信息捕捉用戶興趣隨時(shí)間的變化;“建模用戶混合興趣”則兼顧以上兩種建模興趣角度。
2.1.2.1 建模用戶整體偏好
用戶整體偏好是用戶過(guò)往一段時(shí)間的整體興趣,強(qiáng)調(diào)興趣的整體性、重點(diǎn)性,往往是對(duì)用戶長(zhǎng)期興趣的建模。通常來(lái)講,聚合用戶的新聞點(diǎn)擊歷史可以得到用戶的整體偏好,然而并非每一篇點(diǎn)擊新聞對(duì)建模用戶興趣都具有相同的重要性,因此,很多工作采用AM 機(jī)制以學(xué)習(xí)用戶不同點(diǎn)擊新聞的重要性權(quán)重。DKN[32]模型、TEKGR[36]模型和文獻(xiàn)[33]所提模型均使用AM 來(lái)表征推薦候選新聞對(duì)用戶點(diǎn)擊歷史新聞的影響。以DKN 為例,具體過(guò)程如圖10 所示,在獲得每條輸入新聞的表示向量的基礎(chǔ)上,通過(guò)AM 機(jī)制計(jì)算候選新聞向量與每條點(diǎn)擊新聞向量之間的注意力權(quán)重,最后使用該權(quán)重動(dòng)態(tài)聚合(按照權(quán)重加權(quán))用戶的點(diǎn)擊歷史計(jì)算出用戶興趣表示作為推薦依據(jù)。NPA(neural news recommendation with personalized attention)[24]模型同樣使用了AM 機(jī)制建模用戶整體偏好,但與DKN 不同的是,其AM 的查詢向量(query vector)并非是候選新聞表示而是用戶的ID 嵌入。其作者認(rèn)為同一篇新聞在建模不同用戶時(shí)具有不同信息量,故設(shè)計(jì)了一個(gè)個(gè)性化的注意力網(wǎng)絡(luò),基于用戶ID 嵌入來(lái)對(duì)該用戶所點(diǎn)擊的新聞賦予不同權(quán)重,以此獲得用戶興趣的最終表示。該類模型利用AM 加權(quán)聚合用戶的點(diǎn)擊歷史,使得偏好的重點(diǎn)性得以突出,提高了用戶興趣建模的準(zhǔn)確性。不過(guò)該方法沒(méi)有對(duì)點(diǎn)擊新聞之間的潛在聯(lián)系進(jìn)行建模,其推薦效果還有提升的潛力。
Fig.10 Architecture of DKN approach圖10 DKN 方法的架構(gòu)
除了關(guān)注同一用戶不同點(diǎn)擊新聞的重要性差異外,同一用戶的歷史點(diǎn)擊新聞之間也可能存在關(guān)聯(lián)性,并且一篇新聞可能和多篇新聞相關(guān),關(guān)注新聞之間的關(guān)聯(lián)性同樣有助于挖掘用戶興趣。NRMS模型[27]在用戶編碼器中使用多頭自注意力機(jī)制捕捉新聞之間的長(zhǎng)距離依賴關(guān)系,以增強(qiáng)用戶的特征表達(dá),其模型結(jié)構(gòu)如圖11 所示。每篇新聞的表示是由多個(gè)獨(dú)立自注意頭輸出的表示拼接而成,針對(duì)不同的新聞在建模用戶時(shí)可能具有不同的信息量,采用注意力機(jī)制選擇重要的新聞來(lái)學(xué)習(xí)用戶表示。相較于DKN 模型,該模型在AUC 上增加了4.03%,提高了推薦模型的推薦結(jié)果排序能力。但該方法還缺乏對(duì)多種新聞信息的有效整合,沒(méi)有充分挖掘各種新聞信息的語(yǔ)義表示。
以上工作均基于用戶對(duì)新聞的點(diǎn)擊行為建模用戶興趣,而CPRS[28]提出從用戶對(duì)新聞標(biāo)題的點(diǎn)擊行為和對(duì)新聞內(nèi)容的閱讀行為兩方面建模用戶整體偏好,以避免“用戶被標(biāo)題吸引而點(diǎn)擊但對(duì)內(nèi)容并不感興趣”的情況。具體而言,提出了一個(gè)個(gè)性化的閱讀速度度量標(biāo)準(zhǔn)來(lái)衡量用戶對(duì)新聞內(nèi)容的滿意程度,該度量標(biāo)準(zhǔn)是基于用戶的閱讀停留時(shí)間、新聞內(nèi)容長(zhǎng)度和歷史平均新聞閱讀速度來(lái)計(jì)算的。CPRS 從用戶閱讀過(guò)的新聞內(nèi)容和對(duì)新聞的滿意度中學(xué)習(xí)用戶表示,以此來(lái)建模用戶對(duì)新聞內(nèi)容的興趣,其模型結(jié)構(gòu)如圖12 所示。模型構(gòu)建了內(nèi)容注意力網(wǎng)絡(luò),挑選重要的新聞內(nèi)容來(lái)學(xué)習(xí)新聞內(nèi)容表示,同時(shí)構(gòu)建了滿意度注意力網(wǎng)絡(luò)識(shí)別用戶滿意的新聞內(nèi)容,其查詢向量為個(gè)性化的閱讀速度;此外,還構(gòu)建標(biāo)題注意力網(wǎng)絡(luò)從用戶點(diǎn)擊過(guò)的新聞標(biāo)題中建模用戶對(duì)新聞標(biāo)題的偏好,并構(gòu)建行為注意力網(wǎng)絡(luò)將這兩種用戶表示結(jié)合成統(tǒng)一的用戶興趣表示用于新聞推薦。閱讀行為的引入和AM 的靈活運(yùn)用使得對(duì)用戶興趣的建模更加全面而準(zhǔn)確,有助于向用戶推薦內(nèi)容滿意的新聞。然而,公開(kāi)的數(shù)據(jù)集中幾乎沒(méi)有用戶閱讀停留時(shí)間此類相關(guān)數(shù)據(jù),限制了模型的可復(fù)現(xiàn)性。
Fig.11 Architecture of NRMS approach圖11 NRMS 方法的架構(gòu)
Fig.12 Architecture of CPRS approach圖12 CPRS 方法的架構(gòu)
在工業(yè)實(shí)踐中,商業(yè)化的新聞推薦系統(tǒng)通常從多個(gè)渠道/服務(wù)(新聞閱讀、網(wǎng)頁(yè)瀏覽、網(wǎng)頁(yè)搜索)中收集數(shù)據(jù)以豐富用戶特征,不同用戶在不同渠道中有不同的活躍度分布,不同渠道存在差異需要根據(jù)內(nèi)容特征來(lái)選擇。多層感知機(jī)(multi-layer perception,MLP)也是一種提取用戶或新聞特征的常用方法,它是一種基礎(chǔ)的深度神經(jīng)網(wǎng)絡(luò),近年來(lái)被廣泛應(yīng)用于推薦領(lǐng)域[37-38],相比于CNN、GCN、DAE 等網(wǎng)絡(luò)在特征表示能力上的強(qiáng)大,MLP 的特征表示更為簡(jiǎn)單高效。文獻(xiàn)[39]提出的深度融合模型(deep fusion model,DFM)使用了MLP 和AM 兩種技術(shù)提高建模用戶興趣的能力。DFM 利用多個(gè)不同深度的MLP 網(wǎng)絡(luò)來(lái)并行學(xué)習(xí)不同渠道中的用戶表示,并向最終的激活層提供不同層次的組合特征,以此提高對(duì)用戶的表示學(xué)習(xí)能力。AM 模塊主要負(fù)責(zé)將從不同渠道中得到的用戶表示按照學(xué)習(xí)到的注意力權(quán)重進(jìn)行加權(quán)以獲得最終的用戶表示,其AM 的查詢向量為用戶所處的位置、時(shí)間等上下文信息。該模型通過(guò)AM 機(jī)制融合借鑒了其他渠道信息,在Bing News 數(shù)據(jù)集上的AUC 高達(dá)0.838 6,不僅可幫助提高推薦準(zhǔn)確率,還有助于解決NRS 中的用戶冷啟動(dòng)問(wèn)題。由于需要大量用戶個(gè)人信息與時(shí)空環(huán)境信息,該模型適用于需要用戶登錄的場(chǎng)景或移動(dòng)場(chǎng)景。不過(guò)該模型在很大程度上依賴于手工特征工程,需要大量的領(lǐng)域知識(shí)。
從本小節(jié)以上工作可以看出,現(xiàn)有建模用戶整體偏好的工作一般將每個(gè)用戶表示為單一向量,然后匹配候選新聞向量,但這在推薦時(shí)可能會(huì)丟失細(xì)粒度信息,因?yàn)橐恍┲匾Z(yǔ)義特征往往隱含在不同粒度的新聞文本片段中。文獻(xiàn)[40]提出一種基于細(xì)粒度興趣匹配的新聞推薦方法FIM(fine-grained interest matching network),沒(méi)有將用戶點(diǎn)擊過(guò)的所有歷史新聞聚合成一個(gè)統(tǒng)一的向量,而是通過(guò)層級(jí)擴(kuò)張卷積(hierarchical dilated convolution,HDC)構(gòu)造新聞的多級(jí)表示,然后在每個(gè)語(yǔ)義層次上對(duì)每個(gè)瀏覽新聞和候選新聞進(jìn)行細(xì)粒度匹配,結(jié)構(gòu)如圖13 所示。HDC逐步從詞匯、短語(yǔ)、句子等不同粒度上的局部相關(guān)性和長(zhǎng)期依賴性中獲得新聞的語(yǔ)義特征;再基于多層級(jí)的新聞表示為每個(gè)歷史-候選對(duì)構(gòu)建不同粒度的文本段(特征)相似度矩陣,得到多通道的匹配度矩陣;最后使用3D-CNN 提取高階顯著特征來(lái)預(yù)測(cè)用戶對(duì)候選新聞的點(diǎn)擊概率。這種細(xì)粒度的興趣匹配方法細(xì)化了用戶興趣特征,提高了推薦結(jié)果的準(zhǔn)確性。另外,F(xiàn)IM 雖然沒(méi)有將新聞或用戶建模為一個(gè)單一的向量,但依然符合“先新聞,后用戶”的“兩段式”建模方法。
Fig.13 Architecture of FIM approach圖13 FIM 方法的架構(gòu)
此類“建模用戶整體偏好”的推薦方法,能夠很好地建模興趣的整體性與重點(diǎn)性,并依賴于用戶整體興趣偏好對(duì)候選新聞進(jìn)行推薦,忽略了用戶點(diǎn)擊新聞的順序信息的影響。事實(shí)上,用戶點(diǎn)擊歷史的順序信息能夠更好地反映用戶在一段時(shí)間內(nèi)興趣的變化和多樣性,有助于更精確地對(duì)用戶偏好建模。
2.1.2.2 建模用戶時(shí)序興趣
用戶時(shí)序興趣是指隨時(shí)間動(dòng)態(tài)變化的用戶興趣,對(duì)其建模的關(guān)鍵在于捕捉用戶新聞點(diǎn)擊歷史中的時(shí)序信息,抓住用戶興趣隨時(shí)間變化的特征。循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)單元中存在內(nèi)部隱藏狀態(tài),可以記錄和保存歷史信息,特別適用于對(duì)序列數(shù)據(jù)建模。但普通的RNN 結(jié)構(gòu)普遍存在梯度消失問(wèn)題,難以解決數(shù)據(jù)長(zhǎng)期依賴(long-term dependency)[41]關(guān)系的學(xué)習(xí)問(wèn)題,因此RNN 的變種,如長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和門控循環(huán)單元(gated recurrent unit,GRU)等應(yīng)用廣泛。文獻(xiàn)[42]將用戶點(diǎn)擊歷史按照30 min 無(wú)活動(dòng)間隔劃分為多個(gè)會(huì)話(session),嘗試從兩個(gè)角度建立LSTM 來(lái)捕捉動(dòng)態(tài)變化的用戶興趣,過(guò)濾候選新聞。其中一種是基于會(huì)話的LSTM,將用戶當(dāng)前會(huì)話中的點(diǎn)擊歷史作為輸入,捕獲用戶的即時(shí)興趣,根據(jù)其過(guò)濾新發(fā)布的新聞;另一種是基于歷史的LSTM,將用戶過(guò)去一段的點(diǎn)擊歷史作為輸入,捕獲用戶的短期興趣,根據(jù)其過(guò)濾新發(fā)布的新聞。最后,針對(duì)這些通過(guò)LSTM 獲得的候選新聞,依據(jù)其新聞?lì)悇e與用戶長(zhǎng)期偏好新聞?lì)悇e間的相似性進(jìn)行重新排序得到推薦結(jié)果。文獻(xiàn)[23]和文獻(xiàn)[35]的CAGE 模型均采用GRU 建模用戶時(shí)序興趣,利用GRU 捕捉用戶和新聞之間的順序交互能夠更好地建模用戶動(dòng)態(tài)變化的興趣,并且不會(huì)發(fā)生LSTM 可能出現(xiàn)的梯度爆炸問(wèn)題。以文獻(xiàn)[23]為例,GRU 的輸入為用戶瀏覽文章的序列,輸出為當(dāng)前用戶興趣狀態(tài),其中,當(dāng)前用戶興趣狀態(tài)ut是該用戶上一狀態(tài)ut-1和瀏覽狀態(tài)aut決定的,結(jié)構(gòu)如圖14所示。另外,該模型在考慮大用戶群背景下利用內(nèi)積操作將用戶表示和新聞表示進(jìn)行匹配完成推薦,在真實(shí)的百萬(wàn)級(jí)用戶新聞推薦上獲得了較好效果,在工業(yè)級(jí)應(yīng)用方面具有一定的借鑒意義。該模型的局限性在于,由于GRU 比較費(fèi)時(shí),可能會(huì)限制獲得用戶興趣表示的速度。
為區(qū)分歷史新聞序列中新聞的不同重要性,文獻(xiàn)[43]在利用LSTM 建模用戶的基礎(chǔ)上加入了AM,提出了一種使用雙向LSTM 模型的混合循環(huán)注意機(jī)(hybrid recurrent attention machine,HRAM)。HRAM使用雙向LSTM(bidirectional LSTM,Bi-LSTM)構(gòu)建用戶歷史組件,在學(xué)習(xí)了每篇新聞的分布式表示基礎(chǔ)上,以順序方式將用戶的點(diǎn)擊歷史數(shù)據(jù)提供給基于注意力的遞歸層,其結(jié)構(gòu)如圖15 所示。這種Bi-LSTM 和AM 相結(jié)合的方法有效捕獲了用戶點(diǎn)擊順序中隱藏的大量興趣信息,并據(jù)此區(qū)分新聞的重要程度,從而理解和適應(yīng)用戶不斷變化的興趣,提高了推薦精度。
Fig.14 A user’s browsing and clicking history of literature[23]圖14 文獻(xiàn)[23]中一個(gè)用戶的瀏覽和點(diǎn)擊交互歷史
Fig.15 User-history component using attention-based recurrent neural network圖15 使用基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)的用戶歷史組件
2.1.2.3 建模用戶混合興趣
以上兩種建模興趣方式只學(xué)習(xí)用戶興趣的單一表現(xiàn)形式,可能無(wú)法充分捕獲用戶特征。“建模用戶混合興趣”的用戶建模方式中同時(shí)包含對(duì)用戶整體偏好與時(shí)序興趣的建模,既考慮用戶的長(zhǎng)期興趣,又考慮用戶興趣的動(dòng)態(tài)變化。文獻(xiàn)[22]提出的DAN 模型不僅引入了一個(gè)ANN(attention neural network)組件基于點(diǎn)擊歷史集合來(lái)學(xué)習(xí)用戶興趣嵌入(即整體偏好),還設(shè)計(jì)了一個(gè)ARNN(attention-based RNN)組件來(lái)捕捉用戶點(diǎn)擊歷史中的潛在順序特征,學(xué)習(xí)用戶歷史序列嵌入(即時(shí)序興趣)。其架構(gòu)如圖16 所示?;谟脩裘看吸c(diǎn)擊都受其之前新聞選擇的影響這一假設(shè),作者將ARNN 組件設(shè)計(jì)為一種基于AM 的RNN,在LSTM 的每個(gè)狀態(tài)上都加入AM,以獲得不同點(diǎn)擊時(shí)間下豐富的序列特征,最終這些來(lái)自不同時(shí)間的特性被集成為用戶點(diǎn)擊歷史的順序特性表示。最后,將用戶興趣嵌入與用戶歷史序列嵌入作拼接并經(jīng)過(guò)全連接網(wǎng)絡(luò)得到用戶嵌入,即最終的用戶興趣表示。該模型在Adressa-1week 和Adressa-10week 兩個(gè)公共數(shù)據(jù)集上的結(jié)果表明,同時(shí)考慮用戶整體偏好與時(shí)序興趣的模型相較于只考慮整體偏好的模型其F1 分別提高0.89%與3.27%,其AUC 分別提高3.77%與0.80%。
Fig.16 Architecture of DAN approach圖16 DAN 方法的架構(gòu)
LSTUR 模型[25]也是一種同時(shí)學(xué)習(xí)用戶整體偏好表示和時(shí)序興趣表示的新聞推薦模型。該方法基于GRU 設(shè)計(jì)出兩種融合用戶整體偏好和時(shí)序興趣的推薦框架:一種是使用用戶整體偏好表示(由用戶ID 嵌入得到)初始化GRU 網(wǎng)絡(luò)隱藏層狀態(tài),并將GRU 網(wǎng)絡(luò)用于學(xué)習(xí)用戶時(shí)序興趣作為最終用戶表示進(jìn)行推薦,如圖17(a)所示;另一種是將用戶整體偏好表示和GRU 生成的時(shí)序興趣表示拼接成最終用戶表示進(jìn)行推薦,如圖17(b)所示。兩種方法中,前者推薦結(jié)果更加準(zhǔn)確而后者性能更加穩(wěn)定。相較于基于AM或LSTM 的推薦框架,基于序列的GRU 因其能夠捕捉用戶的新聞閱讀模式,具有更少的參數(shù)、更小的過(guò)擬合風(fēng)險(xiǎn)使得推薦性能得以提升,兩種方法的AUC、MRR 和NDCG 相較于其基線算法均至少提高1%。不過(guò),該模型僅使用用戶ID 的嵌入向量來(lái)建模用戶整體偏好,缺乏對(duì)用戶的長(zhǎng)期歷史等信息的利用,在一定程度上限制了其對(duì)用戶整體偏好建模的能力。
不同于以上利用RNN 系列神經(jīng)網(wǎng)絡(luò)來(lái)建模用戶混合興趣的方法,SASKR(self-attention sequential knowledge-aware recommendation)[44]設(shè)計(jì)了一個(gè)帶多頭自注意力機(jī)制(MHSA)的編碼-解碼結(jié)構(gòu),還利用了蘊(yùn)含豐富信息的知識(shí)圖譜。其結(jié)構(gòu)如圖18 所示,在建模用戶時(shí)序興趣方面,利用MHSA 對(duì)用戶的點(diǎn)擊序列進(jìn)行編碼,再利用MHSA 解碼計(jì)算候選新聞基于用戶時(shí)序興趣的推薦得分。作者還建模了用戶整體偏好的擴(kuò)展,利用知識(shí)圖譜,將點(diǎn)擊歷史新聞中的實(shí)體在知識(shí)圖譜上進(jìn)行一跳擴(kuò)展,形成上下文實(shí)體矩陣,再利用注意力機(jī)制計(jì)算候選新聞基于知識(shí)的推薦得分。并將二者加權(quán)融合得到最終得分。該文獻(xiàn)基于MHSA 有效提取了時(shí)序興趣特征,并利用知識(shí)圖譜挖掘新聞之間的深層聯(lián)系,對(duì)用戶整體偏好進(jìn)行擴(kuò)展,提高了推薦的合理多樣性和可擴(kuò)展性。但在實(shí)際應(yīng)用過(guò)程中,由于新聞的高時(shí)效性產(chǎn)生大量未登錄詞,很多新實(shí)體無(wú)法及時(shí)更新在知識(shí)圖譜中,或者在實(shí)體鏈接等過(guò)程中出現(xiàn)差錯(cuò),可能導(dǎo)致推薦效果的下降。
和其他模型不同的是,DAINN 模型[21]除了融合用戶整體偏好、用戶時(shí)序興趣外,還引入大眾興趣共同建模用戶興趣表示。大眾興趣由同時(shí)間段內(nèi)近鄰用戶的點(diǎn)擊新聞做平均池化(mean pooling)來(lái)提取,以減少由用戶誤點(diǎn)歷史記錄帶來(lái)的錯(cuò)誤興趣,同時(shí)緩解用戶冷啟動(dòng)問(wèn)題。在獲取用戶時(shí)序興趣方面,DAINN 模型與之前的模型不同在于,引入了用戶所處的時(shí)空因素來(lái)建模。具體而言,以周(week)為時(shí)間單位將用戶在t時(shí)刻的點(diǎn)擊行為分解為某天(day of week)、某小時(shí)(hour of day)、地點(diǎn)(location)三方面的時(shí)空特征,將這三種特征的融合嵌入表示與用戶歷史點(diǎn)擊新聞的嵌入表示拼接起來(lái),利用DNN 網(wǎng)絡(luò)計(jì)算注意力影響權(quán)重,再依照注意力權(quán)重對(duì)用戶歷史點(diǎn)擊新聞做加權(quán)計(jì)算,最終形成用戶在t時(shí)刻的時(shí)序興趣表示。而在用戶整體偏好建模方面,DAINN 利用主題模型學(xué)習(xí)用戶的興趣主題分布,聚合用戶點(diǎn)擊行為的主題分布作為用戶的興趣主題,計(jì)算用戶的興趣主題與點(diǎn)擊新聞的相似度得到聯(lián)合向量作為用戶整體興趣。最后將大眾興趣、用戶時(shí)序興趣與用戶整體偏好做拼接,并輸入GRU 網(wǎng)絡(luò)來(lái)動(dòng)態(tài)描述用戶興趣的發(fā)展。DAINN 將大眾興趣引進(jìn)模型,糾正了建模存在的興趣誤差;同時(shí)將用戶所處的時(shí)空環(huán)境因素融入模型中,使得模型對(duì)用戶的興趣變化更加敏感。此外,該模型適合于強(qiáng)調(diào)時(shí)空環(huán)境變化的移動(dòng)推薦場(chǎng)景。
Fig.17 Two frameworks of LSTUR approach圖17 LSTUR 方法的兩種架構(gòu)
Fig.18 Architecture of SASKR approach圖18 SASKR 方法的架構(gòu)
在“兩段式”新聞推薦方法的建模用戶方面,各研究工作以獲得準(zhǔn)確的用戶興趣表示為目標(biāo)采用了多種建模角度與建模技術(shù)。一部分工作建模用戶整體偏好,其模型中多含有AM,它可以根據(jù)用戶的需求特點(diǎn)動(dòng)態(tài)關(guān)注對(duì)其重要的新聞數(shù)據(jù),從而適應(yīng)不同用戶的偏好,有效提高用戶表示學(xué)習(xí)的準(zhǔn)確性,相較于無(wú)AM 的模型而言,引入AM 能使推薦結(jié)果在AUC 或F1 指標(biāo)上有明顯提升。一部分工作建模用戶時(shí)序興趣,多利用RNN 系列的深度學(xué)習(xí)技術(shù)適合處理時(shí)間序列的特性,學(xué)習(xí)用戶新聞點(diǎn)擊順序中隱藏的大量興趣信息,捕獲用戶興趣動(dòng)態(tài)變化,但由于RNN 的不可并行性導(dǎo)致其運(yùn)行速度較CNN 更慢。一部分工作建模用戶混合興趣,綜合考慮用戶整體偏好和時(shí)序興趣,或加入如大眾興趣等其他因素做調(diào)整,其AUC 指標(biāo)值會(huì)有所增加。表3對(duì)比總結(jié)了在建模用戶方面不同模型的關(guān)鍵技術(shù)和特點(diǎn)優(yōu)勢(shì)等。
總體而言,DNR 中的“兩段式”方法具有“先新聞,后興趣”的分步建模的特點(diǎn),一般可得到獨(dú)立的新聞表示向量與用戶興趣表示向量,是對(duì)新聞特征與用戶興趣特征的顯式建模,因而可解釋性更強(qiáng)。但是,大多數(shù)方法采用文章級(jí)匹配方式,可能會(huì)丟失隱藏在更細(xì)粒度新聞片段中的語(yǔ)義特征與興趣特征,且往往僅基于用戶自己的點(diǎn)擊新聞,傾向于推薦與用戶點(diǎn)擊過(guò)的新聞內(nèi)容相似的新聞,推薦結(jié)果缺乏新穎性。
在基于深度學(xué)習(xí)的新聞推薦中,一部分方法并不先為每一篇建立單獨(dú)的新聞表征,而是將新聞和用戶信息融合在一起,同時(shí)學(xué)習(xí)新聞和用戶特征。本文將之總結(jié)為“融合式”新聞推薦方法。
2018 年,文獻(xiàn)[19]提出的DeepJoNN 模型,將新聞和用戶相關(guān)的多維數(shù)據(jù)(包括新聞?lì)悇e、關(guān)鍵字和實(shí)體、新聞ID 和用戶ID 等)融入到同一矩陣中同時(shí)學(xué)習(xí)特征。具體而言,該模型把新聞?lì)悇e、關(guān)鍵字、實(shí)體、用戶ID 等信息分別編碼為向量,將多個(gè)向量垂直堆疊形成字符級(jí)嵌入矩陣,再將該矩陣作為CNN 的輸入對(duì)新聞和用戶聯(lián)合建模;模型還將CNN 和LSTM 通過(guò)上下分層的形式相耦合,以同時(shí)學(xué)習(xí)新聞上下文特征和點(diǎn)擊流中的時(shí)序模式,并預(yù)測(cè)用戶的下一次點(diǎn)擊行為,結(jié)構(gòu)如圖19 所示。其評(píng)價(jià)指標(biāo)R與MRR 在新聞數(shù)據(jù)集Adressa 和音樂(lè)數(shù)據(jù)集Last.fm上均有提升,證明該模型具有一定的普適性。此外,該模型僅使用了新聞?lì)悇e、關(guān)鍵字、實(shí)體等粗粒度的信息,缺乏對(duì)更加全面細(xì)致的新聞?wù)Z義信息的挖掘利用。
Table 3 Comparison of typical models on user modeling in“two-stage”DNR表3 “兩段式”新聞推薦方法中各代表模型在建模用戶方面的對(duì)比
文獻(xiàn)[45]將用于視頻動(dòng)作識(shí)別領(lǐng)域的3-D CNN(3-D convolutional neural network)模型[46]引入新聞推薦方法中,將用戶和新聞信息融合到一個(gè)3-D CNN中,建模用戶時(shí)序興趣,其結(jié)構(gòu)如圖20 所示。作者并沒(méi)有先對(duì)每篇?dú)v史新聞建立單獨(dú)特征向量,而是借助3-D CNN 可通過(guò)3D 卷積操作在時(shí)間和空間兩個(gè)維度上提取特征的特點(diǎn),將同一用戶的點(diǎn)擊歷史與候選新聞融合在一個(gè)3-D CNN 網(wǎng)絡(luò)中進(jìn)行特征分析,通過(guò)計(jì)算用戶點(diǎn)擊歷史中每篇文章的每個(gè)單詞與候選新聞中每個(gè)單詞的相似度,得到一個(gè)三維相似度張量。基于該相似度張量進(jìn)行3D 卷積以提取用戶隨時(shí)間變化的閱讀興趣,其中捕獲用戶興趣歷史的時(shí)間窗口大小可由卷積核大小決定??傮w來(lái)看,該模型使用單詞之間的語(yǔ)義相似度作為3-D CNN 的輸入,建模用戶動(dòng)態(tài)變化的時(shí)序興趣,推薦效果在命中率(hit ratio,HR)和歸一化折扣累計(jì)效益(normalized discounted cumulative gain,NDCG)上有所提升。
Fig.19 Architecture of DeepJoNN approach圖19 DeepJoNN 方法的架構(gòu)
Fig.20 Architecture of 3-D CNN in literature[45]圖20 文獻(xiàn)[45]中的3-D CNN 結(jié)構(gòu)
文獻(xiàn)[47]在文獻(xiàn)[45]的基礎(chǔ)上,增加了一個(gè)2-D CNN(2-dimensional convolutional neural network),提出一種Weave&Rec 框架來(lái)進(jìn)行新聞推薦,將用戶點(diǎn)擊歷史與候選新聞分開(kāi)建模,其結(jié)構(gòu)如圖21 所示。與上文相同,作者并沒(méi)有先對(duì)每篇?dú)v史新聞建立單獨(dú)特征向量,而是直接將用戶所有點(diǎn)擊歷史作為3-D CNN 的輸入,并經(jīng)過(guò)3D 卷積與池化的交替處理,其中3D 矩陣由多個(gè)2D 矩陣堆疊而成,每個(gè)2D 矩陣為一篇點(diǎn)擊歷史新聞的前50 個(gè)單詞word2vec 向量表示組成;候選新聞則被輸入2-D CNN,并經(jīng)過(guò)2D 卷積與池化的交替處理。最后兩部分結(jié)果經(jīng)過(guò)內(nèi)積運(yùn)算和一個(gè)全連接層的計(jì)算輸出預(yù)測(cè)評(píng)分。該模型中3-D CNN 可以同時(shí)學(xué)習(xí)空間信息(新聞特征)和時(shí)序信息(用戶點(diǎn)擊歷史中的順序特征),捕捉用戶興趣的動(dòng)態(tài)變化,最終得到較高質(zhì)量的推薦效果。
總的來(lái)說(shuō),在“融合式”新聞推薦方法中,各研究工作將新聞和用戶信息混合在一起建模,并不先將每篇新聞建模為一個(gè)整體的向量表征,故一般沒(méi)有獨(dú)立的新聞表示向量?!叭诤鲜健狈椒ㄖ苯釉诟?xì)的數(shù)據(jù)粒度(如新聞?lì)悇e、內(nèi)容單詞)上同時(shí)學(xué)習(xí)新聞和用戶特征,使得興趣更加細(xì)化,但相比于“兩段式”方法,其沒(méi)有得到明確的新聞表示與用戶表示,因此可解釋性更弱,且同樣具有推薦結(jié)果缺乏新穎性的局限性。一些工作將新聞和用戶相關(guān)數(shù)據(jù)編碼為多個(gè)向量并堆疊形成字符級(jí)CNN,其實(shí)驗(yàn)結(jié)果中R和MRR 在多個(gè)數(shù)據(jù)集上均有提升;一些工作使用用戶歷史新聞單詞和候選新聞單詞之間的語(yǔ)義相似度作為3-D CNN 的輸入,其推薦效果在HR 和NDCG 上有所提升。表4 對(duì)比總結(jié)了“融合式”新聞推薦方法中不同模型的關(guān)鍵技術(shù)、數(shù)據(jù)種類、數(shù)據(jù)粒度、方法特點(diǎn)、優(yōu)點(diǎn)和局限性等。
在基于深度學(xué)習(xí)的新聞推薦方法中,一些方法不僅從用戶自身的點(diǎn)擊行為挖掘興趣,還將其他用戶與新聞之間的交互納入模型,即考慮了相鄰用戶(或新聞)之間的關(guān)聯(lián)性。本文將此類基于深度學(xué)習(xí)的新聞推薦總結(jié)為“協(xié)同式”新聞推薦方法。根據(jù)其基于的數(shù)據(jù)組織結(jié)構(gòu)不同,本節(jié)將按照基于用戶-新聞矩陣和基于用戶-新聞二分圖(bipartite graph)兩種類型分別介紹。
2.3.1 基于用戶-新聞矩陣
用戶-新聞矩陣是描述用戶與新聞之間的交互矩陣,用戶對(duì)新聞的點(diǎn)擊等行為代表用戶與該新聞存在交互,反之無(wú)交互,用0 填充。由于用戶只能與有限數(shù)量的新聞進(jìn)行交互,因此原始的用戶-新聞矩陣往往非常稀疏。文獻(xiàn)[48]基于用戶-新聞矩陣?yán)脳J浇翟胱詣?dòng)編碼器(stacked denoising auto-encoder,SDAE)實(shí)現(xiàn)了新聞推薦。SDAE 由多層稀疏式AE 組成,具有較強(qiáng)的特征提取能力。模型使用SDAE 從原始稀疏的用戶-項(xiàng)目矩陣中提取有用的低維特征對(duì)用戶建模,之后將提取的特征采用余弦相似度方法計(jì)算用戶之間的相似性得到用戶top-N推薦,實(shí)驗(yàn)結(jié)果中準(zhǔn)確率(precision,P)有顯著提升。該方法對(duì)于新聞與用戶特征提取上展示出更強(qiáng)的能力,提取的特征更具有魯棒性,能在一定程度上避免噪聲影響,有助于提高新聞推薦準(zhǔn)確率。但該方法僅基于用戶-新聞矩陣,忽略了對(duì)新聞的文本內(nèi)容等信息的利用,而由于新聞具有高時(shí)效性,新聞條目經(jīng)常被替換,因此該方法無(wú)法解決冷啟動(dòng)問(wèn)題。
2.3.2 基于用戶-新聞二分圖
用戶-新聞二分圖是一種描述不同用戶與新聞之間交互行為的圖結(jié)構(gòu),如圖21 左圖所示,在新聞推薦中,用戶是一類節(jié)點(diǎn),新聞是一類節(jié)點(diǎn),利用由用戶節(jié)點(diǎn)和新聞節(jié)點(diǎn)組成的二分圖,可以通過(guò)相鄰用戶為目標(biāo)用戶推薦可能感興趣的新聞。將用戶-新聞二分圖展開(kāi)后可得到用戶-新聞高階連接圖(如圖22 右圖所示),利用高階連接關(guān)系能夠得到更多的潛伏在用戶和新聞的交互中的協(xié)作信號(hào)(collaborative signal)。
Table 4 Comparison of typical models in“fusion”DNR表4 “融合式”新聞推薦方法中各代表模型對(duì)比
Fig.21 Illustration of user-news interaction graph and high-order connectivity圖21 用戶-新聞交互二分圖和高階連接圖示
文獻(xiàn)[49]為揭示導(dǎo)致一個(gè)用戶點(diǎn)擊不同新聞的潛在偏好因素,在用戶-新聞二分圖上提出一種帶有無(wú)監(jiān)督偏好解離合的圖神經(jīng)新聞推薦方法(graph neural news recommendation with unsupervised preference disentanglement,GNUD)。GNUD 結(jié)構(gòu)如圖22 所示,通過(guò)沿圖的信息傳播將高階連接關(guān)系編碼到用戶和新聞的表示中,利用鄰域路由機(jī)制(neighborhood routing mechanism)對(duì)表示中的潛在偏好因素進(jìn)行解離合[50](即識(shí)別和解離隱藏在數(shù)據(jù)中的不同潛在解釋因素),并設(shè)計(jì)了一個(gè)偏好正則器來(lái)幫助提高新聞和用戶解離合表示的質(zhì)量。GNUD 不僅可動(dòng)態(tài)識(shí)別可能導(dǎo)致用戶點(diǎn)擊某新聞的潛在偏好因素,而且可相應(yīng)地將新聞分配到一個(gè)可卷積特定該因素特征的子空間,有利于提高特征表示的表達(dá)性和可解釋性。另外,該模型沿用了DAN 中的PCNN 方法基于新聞標(biāo)題和新聞概要學(xué)習(xí)新聞?wù)Z義表示,在考慮用戶-新聞之間的協(xié)作信息的同時(shí)還兼顧了新聞內(nèi)容信息。
Fig.22 Architecture of GNUD approach圖22 GNUD 方法的結(jié)構(gòu)
和文獻(xiàn)[49]類似,文獻(xiàn)[51]同樣通過(guò)引入用戶與新聞之間的高階連接性來(lái)增強(qiáng)用戶和新聞的學(xué)習(xí)表示,提出了一個(gè)用戶新聞推薦的圖增強(qiáng)表示學(xué)習(xí)方法(graph enhanced representation learning for news recommendation,GERL)。GERL 包括一個(gè)單跳交互學(xué)習(xí)模塊和一個(gè)兩跳圖學(xué)習(xí)模塊,如圖23 所示。在單跳交互學(xué)習(xí)模塊中,通過(guò)transformer架構(gòu)形成新聞?wù)Z義表示,其中的多頭自注意力網(wǎng)絡(luò)可以對(duì)標(biāo)題中的長(zhǎng)距與短距單詞依賴進(jìn)行編碼;它還通過(guò)聚合用戶點(diǎn)擊的新聞來(lái)學(xué)習(xí)用戶的表示。在兩跳圖學(xué)習(xí)模塊中,通過(guò)圖注意力網(wǎng)絡(luò)(graph attention network,GAN)聚合用戶和新聞的鄰居嵌入,增強(qiáng)了用戶和新聞的特征的表達(dá)能力,提高了推薦的準(zhǔn)確性。不過(guò),用戶的興趣往往隨著時(shí)間產(chǎn)生變化,GERL 和GNUD 均沒(méi)有考慮用戶-新聞交互的順序信息,其推薦的性能還有待提升。
Fig.23 Architecture of GERL approach圖23 GERL 方法的結(jié)構(gòu)
總的來(lái)說(shuō),“協(xié)同式”新聞推薦方法主要利用相鄰用戶與新聞之間的交互,對(duì)用戶和新聞特征進(jìn)行增強(qiáng)?;蚧谟脩?新聞矩陣,使用深度學(xué)習(xí)技術(shù)來(lái)增強(qiáng)其特征的魯棒性,其推薦結(jié)果在P和R指標(biāo)上有顯著提升;或基于用戶-新聞二分圖,編碼用戶與新聞交互背后的高階關(guān)系,以豐富用戶和新聞特征表示,提升了AUC 的數(shù)值結(jié)果?!皡f(xié)同式”方法因其納入了其他用戶與新聞的交互關(guān)系,使得推薦結(jié)果相較于以上兩種方法更具有新穎性,但是目前大部分的“協(xié)同式”方法都缺少用戶點(diǎn)擊歷史中順序信息的利用,難以建模用戶興趣的動(dòng)態(tài)變化。表5 對(duì)比總結(jié)了“協(xié)同式”新聞推薦方法中不同模型的關(guān)鍵技術(shù)、數(shù)據(jù)種類、數(shù)據(jù)粒度、方法特點(diǎn)、優(yōu)點(diǎn)和局限性等。
進(jìn)行新聞推薦實(shí)驗(yàn)時(shí)要獲得公平、客觀的評(píng)價(jià),其充分條件在于使用合理的數(shù)據(jù)集和統(tǒng)一的評(píng)價(jià)指標(biāo)。本章主要介紹一些在DNR 實(shí)驗(yàn)中常用的數(shù)據(jù)集、基線算法以及衡量算法性能的指標(biāo)。
DNR 整個(gè)過(guò)程由收集數(shù)據(jù)開(kāi)始,需要采集的數(shù)據(jù)主要包括新聞相關(guān)數(shù)據(jù)(新聞的標(biāo)題、類別、摘要、正文等)和用戶相關(guān)數(shù)據(jù)(用戶的點(diǎn)擊歷史、用戶的時(shí)間信息、位置信息等)。研究者們通常會(huì)根據(jù)自身的實(shí)驗(yàn)條件及實(shí)驗(yàn)環(huán)境選擇一些公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在表6 中整理統(tǒng)計(jì)了近幾年DNR 研究中出現(xiàn)過(guò)的公開(kāi)數(shù)據(jù)集。
在新聞推薦研究中經(jīng)常使用的公共數(shù)據(jù)集主要包括:
(1)Adressa[52]。由挪威Adresseavisen新聞出版社和挪威科技大學(xué)共同發(fā)布,采集自www.adresseavisen.no 新聞網(wǎng)站。該數(shù)據(jù)集包含Adressa 1G 和Adressa 16G兩個(gè)版本,其中,Adressa 1G包含2017年1月1日—1 月7 日共1 周內(nèi)的11 207 篇新聞、561 733 個(gè)用戶和2 286 835條閱讀記錄,Adressa 16G 包含2017年1月1日—3月31日共3個(gè)月內(nèi)的48 486篇新聞、3 083 438個(gè)用戶和27 223 576 條閱讀記錄。
(2)Plista[53]。發(fā)布于RecSys2013 新聞推薦挑戰(zhàn)賽,該數(shù)據(jù)集包含德國(guó)13 個(gè)新聞門戶網(wǎng)站在2013 年6 月1 日—6 月30 日內(nèi)的1 095 323 篇新聞、14 897 978個(gè)用戶和84 210 795 條閱讀記錄。
(3)Last.fm[54]。由西班牙馬德里自治大學(xué)的信息檢索小組創(chuàng)建,發(fā)布于第二屆推薦系統(tǒng)信息異構(gòu)與融合國(guó)際研討會(huì)(The 2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems)。Last.fm 數(shù)據(jù)集采集自同名社交音樂(lè)平臺(tái),主要用于音樂(lè)推薦,在新聞推薦研究中也常被研究者用于評(píng)估新聞推薦方法的通用性。數(shù)據(jù)集中包含1 892 個(gè)用戶、17 632 個(gè) 藝術(shù)家和92 834 條 收聽(tīng)記錄。此外,該數(shù)據(jù)集還含有用戶社交網(wǎng)絡(luò)信息。
(4)MovieLens[55]。由美國(guó)明尼蘇達(dá)大學(xué)的Group-Lens 研究小組發(fā)布的電影評(píng)分?jǐn)?shù)據(jù)集,常被用來(lái)評(píng)估新聞推薦方法的通用性。該數(shù)據(jù)集常用的版本為MovieLens 1M、MovieLens 10M 和MovieLens 20M,其中,MovieLens 1M 包含3 952 部電影、6 040 個(gè)用戶和1 000 209 個(gè)評(píng)分(用戶對(duì)其看過(guò)的電影進(jìn)行1~5分評(píng)價(jià));MovieLens 10M 包含10 681 部電影、71 567個(gè)用戶和10 000 054個(gè)評(píng)分;MovieLens 20M包含27 278部電影、138 493 個(gè)用戶和20 000 263 個(gè)評(píng)分。
Table 5 Comparison of typical models in“collaboration”DNR表5 “協(xié)同式”新聞推薦方法中各代表模型對(duì)比
Table 6 Statistics of common public datasets of NR表6 常用于新聞推薦的公開(kāi)數(shù)據(jù)集統(tǒng)計(jì)信息
(5)MIND[24-26,56]。采集自微軟新聞網(wǎng)站的匿名行為日志的大型新聞推薦數(shù)據(jù)集。它包含MIND 和MIND-small 兩個(gè)版本,其中,MIND 含有161 031 篇新聞、1 000 000 個(gè)用戶和24 155 470 條行為日志,每篇新聞中包含標(biāo)題、摘要、正文、類別和實(shí)體,每個(gè)行為日志中點(diǎn)擊事件、未點(diǎn)擊事件和該行為日志前的歷史點(diǎn)擊新聞;輕量級(jí)的MIND-small 則包含93 698篇新聞、50 000 個(gè)用戶和230 117 條行為日志。
最近幾年也有一些新聞推薦研究團(tuán)隊(duì)提供了數(shù)據(jù)集用于自己團(tuán)隊(duì)內(nèi)部評(píng)測(cè),包括:
(1)Bing News[32,39]。采集自Bing News 在線新聞網(wǎng)站,每條閱讀記錄主要包含時(shí)間戳、用戶ID、新聞URL、新聞標(biāo)題和點(diǎn)擊次數(shù)等屬性。該數(shù)據(jù)集一般為微軟亞洲研究院研究團(tuán)隊(duì)所使用。
(2)NAVER News[42]。采集自韓國(guó)最大的搜索引擎和門戶網(wǎng)站NAVER,包括8 620 854 個(gè)用戶和5 759 377 篇新聞,其中每條閱讀記錄包括其用戶加密登錄ID、會(huì)話ID、時(shí)間戳、新聞文章ID 等屬性。該數(shù)據(jù)集一般為韓國(guó)NAVER 公司研究團(tuán)隊(duì)所使用。
(3)Yahoo! JAPAN[23]。采集自Yahoo! JAPAN 的移動(dòng)端主頁(yè),包括約2 000 000 篇新聞、約12 000 000個(gè)用戶和約100 000 000 個(gè)閱讀記錄。該數(shù)據(jù)集一般為日本雅虎公司研究團(tuán)隊(duì)所使用。
基線(baseline)算法是研究論文中用于實(shí)驗(yàn)結(jié)果對(duì)比的前人算法。將DNR 領(lǐng)域常用的基線分為兩類,如表7 所示,一類是傳統(tǒng)的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的新聞推薦方法,如POP(popular-based method)、ItemKNN、BPR(Bayesian personalized ranking)、LibFM等。另一類是基于深度學(xué)習(xí)的新聞推薦方法如DSSM(deep structured semantic models)、Wide&Deep、DeepFM(a factorization-machine based neural network)、You-TubeNet、RA-DSSM(recurrent attention deep structured semantic models)、HRNN、NeuMF(neural matrix factorization)等。
隨著推薦技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,當(dāng)前NR 領(lǐng)域中評(píng)價(jià)指標(biāo)包含準(zhǔn)確度、多樣性、新穎性和滿意度等多種。其中,準(zhǔn)確度用來(lái)衡量推薦算法在多大程度上能夠準(zhǔn)確預(yù)測(cè)用戶對(duì)新聞的感興趣程度,是衡量推薦算法最基礎(chǔ)的指標(biāo)[67]。事實(shí)上,由于多樣性、新穎度的計(jì)算公式較為簡(jiǎn)單粗糙,而滿意度往往需要通過(guò)用戶在線調(diào)查獲得,故而目前大多數(shù)研究方法都以提升算法準(zhǔn)確度為研究目標(biāo)。目前NR 領(lǐng)域常用的實(shí)驗(yàn)性能評(píng)價(jià)指標(biāo)包括:準(zhǔn)確率(precision,P)、召回率(recall,R)、準(zhǔn)確率和召回率調(diào)和平均值F1、ROC(receiver operating characteristic)、曲線下的面積(AUC)、命中率(HR)、平均倒數(shù)排名(MRR)和歸一化折扣累計(jì)效益(NDCG)等。其中,準(zhǔn)確率P表示用戶對(duì)推薦結(jié)果的點(diǎn)擊概率;召回率R表示用戶感興趣的新聞被推薦的概率,往往與準(zhǔn)確率P呈負(fù)相關(guān)性;F1 能夠綜合推薦結(jié)果的準(zhǔn)確率P和召回率R提供更全面的評(píng)估。AUC 表示一個(gè)推薦系統(tǒng)能夠在多大程度上將用戶感興趣的新聞與不感興趣的新聞區(qū)分出來(lái)[68],可綜合衡量算法的整體表現(xiàn),不僅適合有明確“喜歡/不喜歡”評(píng)價(jià)機(jī)制的推薦系統(tǒng),也適合沒(méi)有明確喜好閾值的推薦系統(tǒng)(如5 分制評(píng)價(jià))。HR@n用于直觀衡量測(cè)試新聞是否存在于推薦列表的前n名中。MRR 和NDCG 均為衡量推薦列表中排序準(zhǔn)確度的指標(biāo),目的都是通過(guò)考察推薦結(jié)果的排序位置來(lái)檢驗(yàn)用戶的體驗(yàn)程度,區(qū)別在于兩者的計(jì)算方式不同——MRR 是通過(guò)累加相關(guān)結(jié)果的排序位置倒數(shù)而得,而NDCG 則是按照l(shuí)og 調(diào)和級(jí)數(shù)形式進(jìn)行計(jì)算。在實(shí)際研究中,為了能更公正有效地分析推薦效果,通常采用兩種或兩種以上的評(píng)價(jià)指標(biāo)綜合分析推薦算法的表現(xiàn),例如將R和MRR 組合評(píng)價(jià)[19,42],將AUC、MRR 和NDCG 組合評(píng)價(jià)[23]等。
Table 7 Common baselines for DNR表7 DNR 中常用的基線算法
如今,深度學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用到新聞推薦領(lǐng)域。本文主要對(duì)基于深度學(xué)習(xí)的新聞推薦方法研究現(xiàn)狀進(jìn)行了分類、梳理和總結(jié)。根據(jù)對(duì)新聞和用戶的建模思路不同,本文將基于深度學(xué)習(xí)的新聞推薦方法(DNR)分為“兩段式”“融合式”和“協(xié)同式”三類,對(duì)每類方法的代表性算法進(jìn)行了研究、分析和對(duì)比,并概括總結(jié)了每類方法的技術(shù)特點(diǎn)和優(yōu)缺點(diǎn)。在現(xiàn)有研究成果的基礎(chǔ)上,總結(jié)DNR 研究領(lǐng)域的重點(diǎn)問(wèn)題和發(fā)展趨勢(shì),認(rèn)為該領(lǐng)域還存在以下一些具有挑戰(zhàn)性的研究方向:
(1)精準(zhǔn)的用戶建模
精準(zhǔn)的用戶建模一直是DNR 領(lǐng)域的挑戰(zhàn),探索如何對(duì)用戶興趣建模并實(shí)現(xiàn)更為準(zhǔn)確的推薦一直是一個(gè)富有挑戰(zhàn)的研究焦點(diǎn)。已有的新聞推薦方法往往僅依賴用戶的新聞點(diǎn)擊歷史對(duì)用戶建模,但這種單一類型的用戶表示難以較為全面地提取用戶興趣特征。除新聞點(diǎn)擊歷史外,用戶的搜索引擎搜索歷史和網(wǎng)頁(yè)瀏覽歷史等多種信息中也包含了豐富的用戶興趣,可以作為用戶興趣建模的輔助信息,如文獻(xiàn)[39]利用AM,對(duì)從新聞閱讀、網(wǎng)頁(yè)瀏覽等多個(gè)渠道收集的用戶數(shù)據(jù)進(jìn)行融合,豐富用戶特征。因此,如何綜合多種用戶行為數(shù)據(jù)進(jìn)行用戶興趣建模是一個(gè)具有挑戰(zhàn)性的問(wèn)題。此外,用戶的興趣具有動(dòng)態(tài)變化的特點(diǎn),用戶不僅對(duì)一些方面具有長(zhǎng)期偏好,還對(duì)另一些方面具有短期興趣。這種短期興趣往往和用戶所處的時(shí)間空間等上下文因素相關(guān),特別是移動(dòng)新聞推薦中,NR 過(guò)程與用戶所在的地理位置以及用戶的運(yùn)動(dòng)軌跡有重要聯(lián)系[69]。文獻(xiàn)[21]利用AM 將用戶閱讀新聞時(shí)的時(shí)間、地點(diǎn)融入用戶特征,獲得用戶興趣表示。因此,如何對(duì)用戶的長(zhǎng)期偏好和短期興趣精準(zhǔn)刻畫(huà)以及如何協(xié)同二者進(jìn)行新聞推薦同樣是值得深入研究的方向。
(2)基于圖結(jié)構(gòu)的新聞推薦
圖結(jié)構(gòu)是一種非線性的復(fù)雜數(shù)據(jù)結(jié)構(gòu),在NR 領(lǐng)域,圖結(jié)構(gòu)通常被用來(lái)建立多個(gè)用戶與多個(gè)新聞之間的交互關(guān)系,圖結(jié)構(gòu)中所反映的用戶與新聞之間的高階連接性蘊(yùn)含著豐富的特征信息。近來(lái),圖神經(jīng)網(wǎng)絡(luò)在圖結(jié)構(gòu)上的學(xué)習(xí)能力逐漸凸顯,它能夠自然地將節(jié)點(diǎn)信息和拓?fù)浣Y(jié)構(gòu)集成起來(lái),有效建模節(jié)點(diǎn)之間的依存關(guān)系。在DNR 中,圖神經(jīng)網(wǎng)絡(luò)在建模用戶與新聞之間的高階連接性上具有強(qiáng)大能力。文獻(xiàn)[51]設(shè)計(jì)了兩跳圖學(xué)習(xí)模塊,通過(guò)圖注意力網(wǎng)絡(luò)聚合用戶和新聞的鄰居嵌入,增強(qiáng)用戶和新聞的表示。文獻(xiàn)[49]在用戶-新聞二分圖的基礎(chǔ)上,對(duì)用戶的潛在偏好因素解離合,提高了表示的表達(dá)性和可解釋性。事實(shí)上,圖結(jié)構(gòu)能夠融合推薦系統(tǒng)中的多源異構(gòu)數(shù)據(jù),特別有助于個(gè)性化推薦。目前有關(guān)基于圖結(jié)構(gòu)的NR 研究還比較少,如何基于圖結(jié)構(gòu)結(jié)合DL 技術(shù)并將其有效應(yīng)用于NR 也是目前研究人員亟需解決的問(wèn)題。
(3)新聞推薦中的虛假新聞傳播
由于在線新聞傳播相較于傳統(tǒng)新聞成本較低,因此一些虛假新聞或低質(zhì)量新聞大量涌入了讀者視野。假新聞的傳播會(huì)對(duì)個(gè)人和社會(huì)產(chǎn)生嚴(yán)重的負(fù)面影響[70],破壞新聞生態(tài)系統(tǒng)。假新聞的存在也嚴(yán)重影響了NR 的推薦效果,一方面,假新聞增加了新聞文章數(shù)量,使得原有真實(shí)新聞?dòng)侄嗔艘恍凹佟钡陌姹?,增加了NR 的計(jì)算成本;另一方面,假新聞含有比較明顯的錯(cuò)誤信息,若推薦此類新聞,將極大降低讀者對(duì)NR 的推薦滿意度。當(dāng)前,已有一些研究人員開(kāi)展虛假新聞檢測(cè)研究和新聞質(zhì)量識(shí)別研究。文獻(xiàn)[71]提出一個(gè)基于RNN 的虛假新聞檢測(cè)模型,能夠自動(dòng)化預(yù)測(cè)虛假新聞。文獻(xiàn)[72]基于GRU 研究了假新聞文章、假新聞創(chuàng)作者和假新聞主題之間的關(guān)系,實(shí)現(xiàn)了一個(gè)虛假新聞檢測(cè)模型。文獻(xiàn)[73]基于用戶的閱讀率和停留時(shí)間等行為自動(dòng)識(shí)別新聞的質(zhì)量。由于檢測(cè)假新聞所需的信息通常不可用或不充分,假新聞往往被在線用戶廣泛分享,檢測(cè)假新聞仍然是新聞推薦中一個(gè)重要但又具有挑戰(zhàn)性的問(wèn)題。
(4)新聞推薦中的隱私和安全
互聯(lián)網(wǎng)是一個(gè)復(fù)雜的環(huán)境,在對(duì)用戶進(jìn)行新聞推薦時(shí)候應(yīng)為用戶考慮兩點(diǎn):一是要確保NR 向用戶推薦的新聞或者新聞鏈接是安全的;二是要確保用戶的個(gè)人隱私,并且需要在盡可能少利用用戶隱私數(shù)據(jù)的情況下做出準(zhǔn)確、合理的推薦。NR 需要建立相應(yīng)的隱私保護(hù)機(jī)制,為用戶提供用戶個(gè)人信息安全保障以及保密措施,提高用戶對(duì)推薦系統(tǒng)的信任度與好感度。文獻(xiàn)[74]指出針對(duì)敏感數(shù)據(jù)信息的保護(hù)貫穿于網(wǎng)絡(luò)中每個(gè)層次,可以通過(guò)修改或隱藏原始信息的局部或全局敏感數(shù)據(jù)來(lái)保護(hù)隱私,還可以通過(guò)加密技術(shù)對(duì)信息進(jìn)行保護(hù)。目前由于網(wǎng)絡(luò)發(fā)展迅速,用戶接受信息的途徑日益增多,如短信、鏈接、網(wǎng)頁(yè)彈窗等,如何在新聞推薦中全面考慮隱私安全保護(hù)機(jī)制并建立異常情況解決方案,也是研究者需要努力的方向。
(5)新聞推薦中的可解釋性
推薦的可解釋性是指向用戶或系統(tǒng)設(shè)計(jì)者提供解釋,使之知道為什么推薦這些項(xiàng)目,這有助于提高推薦系統(tǒng)的有效性、說(shuō)服力和用戶滿意度[75],也有助于幫助研究者探索模型的內(nèi)部機(jī)理。深度學(xué)習(xí)以其強(qiáng)大的表征作用廣泛應(yīng)用于新聞推薦系統(tǒng)并切實(shí)提高了推薦準(zhǔn)確性,然而深度學(xué)習(xí)中的深層神經(jīng)網(wǎng)絡(luò)被普遍認(rèn)為是高度不可解釋的,因此,可解釋的新聞推薦似乎是一項(xiàng)艱巨的任務(wù)。近年來(lái)受到廣泛關(guān)注的AM 在一定程度上為該問(wèn)題提供了解決方法,其中的解釋性主要來(lái)自于注意力權(quán)重分配。如文獻(xiàn)[76]從商品評(píng)級(jí)和用戶評(píng)論中共同學(xué)習(xí)商品和用戶信息,將評(píng)論詞的注意力權(quán)重作為推薦的解釋。新聞推薦模型NPA[24]中,對(duì)詞語(yǔ)和新聞級(jí)別的注意力權(quán)重做了高亮的可視化展示,可在未來(lái)進(jìn)一步形成推薦的解釋。另外,知識(shí)庫(kù)中包含了豐富的用戶和項(xiàng)目信息,可以幫助推薦生成更直觀、更有針對(duì)性的解釋。如文獻(xiàn)[77]提出的Ripple 網(wǎng)絡(luò),是一種將知識(shí)圖譜整合到推薦系統(tǒng)中的端到端架構(gòu),其解釋可以通過(guò)在知識(shí)圖譜上查找用戶和推薦項(xiàng)的路徑來(lái)提供。在DNR 領(lǐng)域,關(guān)于對(duì)推薦結(jié)果做出解釋的工作還非常少,可以依賴已經(jīng)能夠使模型對(duì)重要因素進(jìn)行突出強(qiáng)調(diào)的AM 機(jī)制和包含豐富外部知識(shí)的知識(shí)圖譜,使新聞推薦達(dá)到可解釋水平。
(6)更統(tǒng)一的評(píng)估方法
對(duì)NR 進(jìn)行有效評(píng)估是一個(gè)重要課題,一個(gè)統(tǒng)一的評(píng)估方法能夠更加客觀而合理地對(duì)推薦結(jié)果進(jìn)行評(píng)價(jià)。然而,現(xiàn)有NR 研究中數(shù)據(jù)集的來(lái)源較為散亂,缺少一套廣泛接受的標(biāo)準(zhǔn)化評(píng)估數(shù)據(jù)集,導(dǎo)致不同研究的評(píng)估差別較大。另外,大部分評(píng)價(jià)指標(biāo)只重視準(zhǔn)確度,忽略了推薦結(jié)果的驚喜度、覆蓋率等特性,能否將這些指標(biāo)結(jié)合提出一個(gè)綜合性的評(píng)價(jià)指標(biāo),也是NR 中需要繼續(xù)深入研究的問(wèn)題。