亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的內(nèi)容推薦算法研究綜述

        2021-07-26 11:54:36劉華玲張國祥
        計算機工程 2021年7期
        關(guān)鍵詞:物品神經(jīng)網(wǎng)絡(luò)深度

        劉華玲,馬 俊,張國祥

        (上海對外經(jīng)貿(mào)大學(xué)統(tǒng)計與信息學(xué)院,上海201620)

        0 概述

        信息網(wǎng)絡(luò)的迅速發(fā)展使得數(shù)據(jù)規(guī)模呈現(xiàn)爆發(fā)式增長,各種應(yīng)用軟件(如電子商務(wù)平臺等)對數(shù)據(jù)的依賴性越來越強[1]。但是,數(shù)據(jù)的增量超過了平臺或系統(tǒng)的承受范圍,這種現(xiàn)象被稱為“信息過載”問題[2]。文獻[3]提出的Tapestry 方法對數(shù)據(jù)進行篩查過濾,初步緩解了該問題,象征著推薦系統(tǒng)(Recommender System,RS)雛形的形成。1997年,RESNICK 等[4]對推薦系統(tǒng)做出了結(jié)構(gòu)化的定義,標志著推薦系統(tǒng)的發(fā)展進入萌芽階段。早期的推薦系統(tǒng)主要應(yīng)用于信息檢索領(lǐng)域,在工業(yè)界并沒有得到廣泛關(guān)注。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)的生成速度異常迅猛,推薦系統(tǒng)逐漸在購物、影音等領(lǐng)域得到了廣泛的應(yīng)用。直至今日,推薦系統(tǒng)在學(xué)術(shù)界和工業(yè)界都有著極高的研究價值與應(yīng)用意義。

        推薦系統(tǒng)作為為用戶提供建議或推薦商品的軟件工具技術(shù),旨在滿足用戶需求的同時推薦用戶感興趣的物品[4-6],比如“淘寶”的個性化商品推薦、抖音(TikTok)的個性化短視頻推薦、“今日頭條”的新聞資訊推薦等。根據(jù)推薦系統(tǒng)的相關(guān)研究,推薦系統(tǒng)的發(fā)展可以分為協(xié)同過濾算法的提出、推薦算法的商業(yè)化應(yīng)用、推薦算法的深度研究熱潮等3 個階段[7],分別象征著推薦系統(tǒng)從萌芽走向成熟的3 個歷程。其中,推薦系統(tǒng)能夠快速發(fā)展的優(yōu)勢體現(xiàn)在它提高了用戶和系統(tǒng)之間的黏性以及信息利用率,使其具有較高的商用價值。例如,亞馬遜(Amazon)將推薦系統(tǒng)應(yīng)用于商品電子商務(wù)系統(tǒng)[8],為其帶來了20%~30%的額外營業(yè)額。

        近年來,應(yīng)用軟件的數(shù)量呈現(xiàn)爆發(fā)式增長,滋生了越來越多的多源異構(gòu)數(shù)據(jù)。這些數(shù)據(jù)來源多樣、結(jié)構(gòu)復(fù)雜,傳統(tǒng)機器學(xué)習(xí)方法無法有效地提取其中的表征。面臨數(shù)據(jù)帶來的一系列問題,深度學(xué)習(xí)對多源異構(gòu)數(shù)據(jù)表征的充分學(xué)習(xí)獲得了廣泛的關(guān)注,迅速成為研究熱點之一。深度學(xué)習(xí)作為前沿技術(shù),泛指端到端的非線性可微模型。其優(yōu)勢主要體現(xiàn)在非線性轉(zhuǎn)換、深層特征學(xué)習(xí)、高彈性及可用性等3 個方面。在學(xué)術(shù)研究層面,深度學(xué)習(xí)的快速發(fā)展激發(fā)了學(xué)者對推薦領(lǐng)域?qū)W術(shù)研究的興趣,逐漸出現(xiàn)了Wide&Deep[9]、CDL[10]、AutoRec[11]等經(jīng)典的深度推薦模型。在工業(yè)應(yīng)用層面,基于深度學(xué)習(xí)應(yīng)用的推薦算法不斷改進與創(chuàng)新[12-14],為各領(lǐng)域的產(chǎn)品提供商業(yè)化服務(wù)。

        現(xiàn)有研究大部分集中于協(xié)同過濾[2]的相關(guān)內(nèi)容,較少關(guān)注于內(nèi)容推薦的研究。本文研究內(nèi)容推薦的現(xiàn)狀,介紹基于內(nèi)容的推薦思路,闡述常用的深度學(xué)習(xí)技術(shù),從技術(shù)應(yīng)用的角度對近年來的深度推薦算法進行綜述,分析各模型之間的優(yōu)缺點,在此基礎(chǔ)上給出深度學(xué)習(xí)在推薦領(lǐng)域的未來研究方向。

        1 基于內(nèi)容的推薦方法

        2005年,ADOMAVICIUS 等[15]提出了推薦系統(tǒng)的形式化定義,將推薦算法分為基于內(nèi)容的推薦、協(xié)同過濾推薦、混合推薦等3 類?;趦?nèi)容的推薦顧名思義是將內(nèi)容相似的物品進行推薦的一種方法;協(xié)同過濾推薦可以分為基于近鄰和基于模型的推薦方法,是利用用戶物品交互數(shù)據(jù)(比如評分數(shù)據(jù))實現(xiàn)推薦(預(yù)測)的推薦方法;混合推薦是通過組合不同的模型彌補模型之間的缺點來提高整個系統(tǒng)推薦性能的一種方法[16]。本節(jié)主要從推薦的算法思路、優(yōu)劣勢等角度闡述基于內(nèi)容的推薦方法。

        基于內(nèi)容的推薦方法的提出源于信息檢索的研究[17]。由于信息檢索的快速發(fā)展以及郵件等應(yīng)用的普遍性,基于內(nèi)容的推薦方式在信息檢索中得到了廣泛應(yīng)用?;趦?nèi)容的推薦方法主要包含物品的內(nèi)容特征描述與用戶畫像(興趣愛好)2 類數(shù)據(jù)。在傳統(tǒng)信息檢索領(lǐng)域中,如何有效地構(gòu)建用戶畫像是推薦方法快速發(fā)展的關(guān)鍵要素[18]。在此背景下,推薦系統(tǒng)可定義為從數(shù)據(jù)庫中尋找與用戶畫像相似度最高的物品推薦給用戶的一個應(yīng)用技術(shù)。例如在音樂推薦中,每一首歌都存在多種標簽信息,相似的音樂會存在很多一樣的標簽信息,系統(tǒng)分析用戶的歷史聽歌記錄,可以得到一個基于音樂的用戶畫像,從而從音樂庫中尋找符合用戶畫像的相似音樂推薦給目標用戶。

        基于內(nèi)容的推薦方法的具體實現(xiàn)步驟如下:

        步驟1構(gòu)建用戶物品畫像。物品畫像是物品的一系列內(nèi)容特征的結(jié)構(gòu)化表示r(i),例如電影的分類信息包含標題、主題曲、主演、導(dǎo)演等信息;而用戶畫像是根據(jù)已知用戶的歷史興趣得到的用戶特征結(jié)構(gòu)化表示r(u),比如行為偏好、喜歡的物品類型、活躍程度等信息[19]。

        步驟2根據(jù)用戶畫像從數(shù)據(jù)庫中尋找用戶偏好的前N個相似(TOP-N)物品item 進行推薦。形式化表達公式如下:

        其中:sim(r(u)×r(i))表示相似度。如果存在新物品,首先需要通過專業(yè)生產(chǎn)內(nèi)容(Professional Generated Content,PGC)構(gòu)建物品畫像,然后基于物品畫像計算物品間的相似度,為每個物品產(chǎn)生TOP-N的相似物品推薦。圖1所示為基于內(nèi)容的推薦框架。

        圖1 基于內(nèi)容的推薦框架Fig.1 Content-based recommendation framework

        基于內(nèi)容的推薦方法可以高效地篩選更有價值的信息,其主要優(yōu)點有:1)推薦效率高;2)推薦結(jié)果精準直觀;3)不需要用戶的評價等其他信息;4)不存在數(shù)據(jù)稀疏性問題;5)沒有物品冷啟動問題。隨著物品數(shù)量增加、用戶偏好和數(shù)據(jù)來源復(fù)雜化,基于內(nèi)容的推薦方法也出現(xiàn)了很多難以解決的問題,主要包含物品特征多且難以提取、推薦內(nèi)容太過單一、新用戶冷啟動等問題。

        此外,協(xié)同過濾算法以及混合推薦方法在推薦領(lǐng)域同樣具有非常高的研究價值,近年來誕生了較多的優(yōu)秀研究成果[20-22],本文不再展開論述。

        2 深度學(xué)習(xí)技術(shù)

        深度學(xué)習(xí)作為機器學(xué)習(xí)的子領(lǐng)域,旨在學(xué)習(xí)數(shù)據(jù)中的深層特征,即從數(shù)據(jù)中學(xué)習(xí)多層次的表征和抽象。從深度學(xué)習(xí)的定義角度出發(fā),如果一個神經(jīng)可微的端到端架構(gòu)使用隨機梯度下降(Stochastic Gradient Descent,SGD)法來優(yōu)化可微目標函數(shù),那么這種結(jié)構(gòu)可以稱為深度學(xué)習(xí)。近年來,深度學(xué)習(xí)在有監(jiān)督和無監(jiān)督的學(xué)習(xí)任務(wù)中都有著較好的性能提升[23],在表征學(xué)習(xí)中得到了廣泛的應(yīng)用。本節(jié)主要描述常用的深度學(xué)習(xí)技術(shù)以及深度學(xué)習(xí)應(yīng)用的優(yōu)勢。

        2.1 常用深度學(xué)習(xí)技術(shù)

        隨著深度學(xué)習(xí)研究的深入,涌現(xiàn)出從簡單到復(fù)雜的多類型深度學(xué)習(xí)技術(shù)[24]。本節(jié)主要介紹在推薦領(lǐng)域中常用的4 類深度學(xué)習(xí)技術(shù),如表1所示。

        表1 典型深度學(xué)習(xí)技術(shù)介紹Table 1 Introduction of typical deep learning techniques

        2.2 深度學(xué)習(xí)的應(yīng)用優(yōu)勢

        傳統(tǒng)推薦方法已經(jīng)在電子商務(wù)、影音推薦等多領(lǐng)域中得到了廣泛的應(yīng)用,但是基于淺層模型的內(nèi)容推薦以及協(xié)同過濾算法仍然存在數(shù)據(jù)稀疏性[25-26]、冷啟動[27]等常見問題。在數(shù)據(jù)學(xué)習(xí)方面,淺層模型的學(xué)習(xí)能力遠不及深度學(xué)習(xí)強大。深度學(xué)習(xí)技術(shù)運用其復(fù)雜的非線性結(jié)構(gòu)在推薦等多領(lǐng)域中學(xué)習(xí)數(shù)據(jù)的深層表征,提升了推薦性能。比如在處理文本數(shù)據(jù)[28-29]、圖像數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)時,卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)成為了必不可少的利器。HE 等[30]利用多層感知機(MLP)學(xué)習(xí)特征交互,相比于矩陣分解(Matrix Factorization,MF)有更好的性能提升。在當前的研究環(huán)境中,深度學(xué)習(xí)的發(fā)展已經(jīng)與推薦系統(tǒng)緊密相關(guān)。

        綜上,本節(jié)介紹了深度學(xué)習(xí)在推薦領(lǐng)域的算法優(yōu)勢:

        1)非線性轉(zhuǎn)換。相比于傳統(tǒng)線性模型,深度學(xué)習(xí)技術(shù)擁有強大的非線性轉(zhuǎn)換能力,比如深度網(wǎng)絡(luò)中常用的激活函數(shù)relu、sigmoid、tanh 等。這種非線性轉(zhuǎn)換能力有利于模型學(xué)習(xí)到用戶和物品更加復(fù)雜的特征關(guān)聯(lián)信息[31-32]。

        2)深層特征學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)能夠有效地學(xué)習(xí)到輸入數(shù)據(jù)的深層特征。在現(xiàn)實世界中,每個用戶或物品都是一個包含多種信息的數(shù)據(jù)體。利用這些信息可以幫助系統(tǒng)更好地學(xué)習(xí)用戶或物品,從而提供更好的推薦結(jié)果。使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的優(yōu)勢具體體現(xiàn)在以下2 個方面:(1)由于實現(xiàn)了自動特征處理,因此免去了傳統(tǒng)的人工特征處理所需要花費的精力和人力;(2)這種網(wǎng)絡(luò)結(jié)構(gòu)可以幫助推薦系統(tǒng)學(xué)習(xí)多源異構(gòu)數(shù)據(jù),比如圖像、音頻、視頻等數(shù)據(jù)。

        3)高彈性及可用性。隨著對深度學(xué)習(xí)的深入研究,越來越多的深度學(xué)習(xí)開源平臺被提出,如Tensorflow、PyTorch 等。依賴深度學(xué)習(xí)開源平臺的支持,深度學(xué)習(xí)模型的應(yīng)用有了更多的拓展性和實現(xiàn)空間。深度學(xué)習(xí)技術(shù)的模塊化也使得模型實現(xiàn)變得更加靈活。

        3 基于深度學(xué)習(xí)的內(nèi)容推薦方法

        本節(jié)從深度學(xué)習(xí)技術(shù)的應(yīng)用展開闡述,介紹深度學(xué)習(xí)下的推薦算法研究成果。隨著應(yīng)用軟件的激增,數(shù)據(jù)呈現(xiàn)多源異構(gòu),傳統(tǒng)機器學(xué)習(xí)的表征學(xué)習(xí)性能不佳,深度學(xué)習(xí)逐步代替?zhèn)鹘y(tǒng)機器學(xué)習(xí)實現(xiàn)深層表征學(xué)習(xí)。在推薦領(lǐng)域中,除了將深度學(xué)習(xí)模型直接應(yīng)用于推薦系統(tǒng)外,傳統(tǒng)的推薦算法(如矩陣分解、因子分解機)結(jié)合深度學(xué)習(xí)算法,也可以表示為神經(jīng)可微的端到端架構(gòu)[30,37],并在Tensorflow、PyTorch 等深度學(xué)習(xí)開源平臺中有效地進行訓(xùn)練。本節(jié)是本文的核心,主要探究并梳理基于內(nèi)容的深度學(xué)習(xí)推薦方法。在特征學(xué)習(xí)中,基于內(nèi)容的推薦方法主要依賴于文本、評論等內(nèi)容數(shù)據(jù),需要對內(nèi)容進行瑣碎的預(yù)處理(關(guān)鍵詞提取、主題建模等);而在深度學(xué)習(xí)中可以直接通過端到端的結(jié)構(gòu)學(xué)習(xí)所有內(nèi)容特征。

        基于深度學(xué)習(xí)的內(nèi)容推薦框架如圖2所示。

        圖2 基于深度學(xué)習(xí)的內(nèi)容推薦框架Fig.2 Deep learning based content recommendation framework

        3.1 基于多層感知機的應(yīng)用

        多層感知機(MLP)作為一種簡明有效的網(wǎng)絡(luò),能夠有效地優(yōu)化目標函數(shù),提高模型準確率[32],在推薦系統(tǒng)等多領(lǐng)域中得到了廣泛的應(yīng)用。

        Wide&Deep 模型[9]是Google 公司為了實現(xiàn)應(yīng)用軟件推薦提出的一種經(jīng)典模型。該模型可以分成Wide 模型和Deep 模型2 個部分:

        1)Wide 模型是一個簡單的單層線性模型,直接學(xué)習(xí)數(shù)據(jù)的交叉特征,主要實現(xiàn)模型的記憶能力。該層模型的學(xué)習(xí)公式如式(2)所示:

        2)Deep 模型是一個多層神經(jīng)網(wǎng)絡(luò)(MLP),將稀疏數(shù)據(jù)轉(zhuǎn)換為稠密向量,輸入網(wǎng)絡(luò)中學(xué)習(xí)特征的深層表示,主要實現(xiàn)模型的泛化能力。每一層的激活公式如式(3)所示:

        其中:l表示第l層;f(·)表示激活函數(shù);和b(l)為權(quán)重參數(shù)和偏置參數(shù)。

        由于2 個模型的完全獨立性,因此可以通過并行操作提高模型的訓(xùn)練效率。Wide&Deep 模型的預(yù)測公式如式(4)所示:

        其中:σ(·)為sigmoid 激活函數(shù);為預(yù)測的評價標簽;a(lf)為最后一層激活函數(shù)的輸出;bias 是常量。

        圖3所示為該模型的網(wǎng)絡(luò)結(jié)構(gòu)。后續(xù)提到的DeepFM[38]模型,就是將Wide 模型替換為FM 模型實現(xiàn)的。

        圖3 Wide&Deep 模型結(jié)構(gòu)Fig.3 Wide&Deep model structure

        Wide&Deep 模型雖然具有一個優(yōu)秀的雙塔式學(xué)習(xí)結(jié)構(gòu),但是需要復(fù)雜的人工特征工程,且在現(xiàn)實場景中存在學(xué)習(xí)效率低等問題。因此,CHEN 等[39]基于Wide&Deep 模型提出了針對工業(yè)級數(shù)據(jù)的局部連接Wide&Deep 模型。在該模型中,CHEN 等應(yīng)用高效的局部連接神經(jīng)網(wǎng)絡(luò)替換全連接神經(jīng)網(wǎng)絡(luò)來提高模型學(xué)習(xí)效率。為了進一步提高推薦性能,ALASHKAR 等[40]提出了基于MLP 的推薦模型。該模型構(gòu)建了2 個相同的神經(jīng)網(wǎng)絡(luò)分別訓(xùn)練樣本集和專業(yè)知識庫。實驗結(jié)果表明,專業(yè)知識可以更有效地引導(dǎo)推薦,提高推薦效率和準確率,但是專業(yè)知識的獲取高度依賴于人工干涉。在千萬量級乃至更多的數(shù)據(jù)中直接進行推薦,效率低而且準確率不高,常常需要兩階段實現(xiàn)推薦過程。COVINGTON 等[12]將MLP 應(yīng)用于實現(xiàn)YouTube 的推薦,主要將系統(tǒng)劃分成候選集生成和候選集排序。候選集生成主要將所有的電影數(shù)據(jù)進行篩選,獲得一個成百上千量級的候選集(子集)。候選集排序則是基于候選集數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的用戶物品特征向量進行最近鄰相似度計算得到TOP-N的推薦結(jié)果。相比于候選集生成,候選集排序利用了更多的特征信息,在前者的基礎(chǔ)上結(jié)合神經(jīng)網(wǎng)絡(luò)、邏輯回歸等技術(shù)預(yù)測更加準確的電影評分。

        相比于傳統(tǒng)機器學(xué)習(xí),深度學(xué)習(xí)能夠高效地學(xué)習(xí)特征之間的交叉信息。DeepFM(Deep Factorization Machine)模型[38]是一種端到端的集成學(xué)習(xí)模型,能夠同時學(xué)習(xí)高維和低維交叉特征,包含了因子分解機(Factorization Machine,F(xiàn)M)和MLP 2 個模型。其中,F(xiàn)M 模型學(xué)習(xí)線性的低維特征交互信息,MLP 模型學(xué)習(xí)非線性的高維特征交互信息。相比于Wide&Deep 的模型架構(gòu),DeepFM 模型并不需要瑣碎的人工特征工程,利用FM 模型實現(xiàn)了Wide 模型的功能。圖4 為DeepFM 的模型架構(gòu),常應(yīng)用于點擊率(Click-Through Rate,CTR)預(yù)測。

        圖4 DeepFM 模型結(jié)構(gòu)Fig.4 DeepFM model structure

        除此之外,ZHANG 等[41]提出的FM 支撐神經(jīng)網(wǎng)絡(luò)(Factorization Machine Supported Neural Network,F(xiàn)NN)和QU 等[42]提出的基于產(chǎn)品的神經(jīng)網(wǎng)絡(luò)(Product-based Neural Network,PNN)也是點擊率預(yù)測場景下的經(jīng)典深度模型。表2 對上述模型進行了對比分析,可以發(fā)現(xiàn)DeepFM 模型在同時學(xué)習(xí)高維和低維特征時避免了對時間損耗較高的操作。但是,該模型的學(xué)習(xí)效率在高流量下仍然表現(xiàn)不佳,且對高維特征的學(xué)習(xí)方式較為單一。

        表2 CTR 預(yù)測的深度模型比較Table 2 Comparison of deep models for CTR prediction

        基于DeepFM 模型,LIAN 等[43]提出了xDeepMF 模型,進一步學(xué)習(xí)數(shù)據(jù)中的顯式和隱式特征交互信息。HE 等[37]直接利用MLP 實現(xiàn)特征的二階交叉學(xué)習(xí),并且使用Dropout 方法和BN(Batch Normalization)層來防止過擬合,提高模型的泛化能力。

        在推薦領(lǐng)域中,不同視角的數(shù)據(jù)可以輔助提高模型推薦效果。MV-DNN(Multi-View-Deep Neural Network)模型[44]是一種基于多視角的推薦算法,主要分為2 個部分:1)學(xué)習(xí)用戶或物品的隱表示;2)計算用戶與物品之間的相似度。用戶隱表示是基于用戶信息(評論、點評、標簽、喜愛偏好等)構(gòu)建的用戶向量;多視角構(gòu)建物品隱表示是通過構(gòu)建包含美食領(lǐng)域、運動領(lǐng)域等N個視角,然后從這N個視角得到N個物品向量。MV-DNN 的學(xué)習(xí)誤差函數(shù)如式(5)所示:

        其中:γ為平滑系數(shù);a表示樣本索引;Yu表示用戶u的向量;Rda表示樣本的輸入;cos(Yu,Ya,j)表示用戶u和j視角下的相似度計算,最終得到TOP-N的推薦結(jié)果。

        ELKAHKY 等[44]基于交叉領(lǐng)域提出的MV-DNN模型存在如下局限性:假設(shè)用戶在不同領(lǐng)域下的喜好偏愛相似,那么MV-DNN 是一種推薦性能極佳的推薦方法。因此,MV-DNN 模型需要利用先驗知識來佐證不同領(lǐng)域之間的相關(guān)性,才能進行有效的推薦。MV-DNN 的模型結(jié)構(gòu)如圖5所示。

        圖5 MV-DNN 模型結(jié)構(gòu)Fig.5 MV-DNN model structure

        3.2 基于自動編碼器的應(yīng)用

        自動編碼器(AE)是一種學(xué)習(xí)低維特征表示的有效工具,可以學(xué)習(xí)更豐富的特征信息,在推薦系統(tǒng)中得到了廣泛的應(yīng)用。在推薦領(lǐng)域,自動編碼器和協(xié)同過濾方法的結(jié)合應(yīng)用可以有效地緩解數(shù)據(jù)稀疏問題。

        協(xié)同深度學(xué)習(xí)(Collaborative Deep Learning,CDL)模型[10]是一個經(jīng)典的混合推薦模型,有效地結(jié)合了堆棧降噪自動編碼器(Stacked Denoising Auto-Encoder,SDAE)和概率矩陣分解(Probabilistic Matrix Factorization,PMF)方法。SDAE 在整個模型中負責整合輔助內(nèi)容信息,與PMF 的結(jié)合有效地平衡了輔助信息和交互數(shù)據(jù)的影響,提高了模型的推薦準確率。該模型較好地緩解了協(xié)同過濾中的稀疏問題,且彌補了自動編碼器和協(xié)同過濾之間的差距。但是,模型的實現(xiàn)環(huán)境嚴峻,對輔助信息的依賴使模型的負載面臨挑戰(zhàn)?;谏鲜瞿P?,ZHANG 等[45]提出了協(xié)同知識庫嵌入(Collaborative Knowledge Base Embedding,CKE)模型。圖6所示為CKE 的模型結(jié)構(gòu),該模型融合了3 種類型的輔助信息。為了充分學(xué)習(xí)輔助信息特征,模型分別運用了貝葉斯嵌入模型(TransR)學(xué)習(xí)結(jié)構(gòu)信息的向量表示、貝葉斯堆棧降噪自編碼器(SDAE)學(xué)習(xí)文本信息的向量表示、貝葉斯堆棧卷積自編碼器(Stacked Convolutional Auto-Encoder,SCAE)學(xué)習(xí)圖像信息的向量表示。

        圖6 CKE 模型結(jié)構(gòu)Fig.6 CKE model structure

        此外,有研究人員[46-47]利用結(jié)構(gòu)信息實現(xiàn)推薦。WANG 等[48]學(xué)習(xí)文本信息集成協(xié)同過濾算法來實現(xiàn)推薦。HE 等[49]將圖像特征應(yīng)用于矩陣分解推薦模型中。相比于上述研究,CKE 模型同時學(xué)習(xí)多模態(tài)數(shù)據(jù)的特征表示,在推薦性能上有顯著的提升。但是,該模型運用了更豐富的多模態(tài)輔助信息,使模型的訓(xùn)練過程非常耗時。

        3.3 基于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)在推薦系統(tǒng)中主要用于特征提取,在處理非結(jié)構(gòu)、多源異構(gòu)數(shù)據(jù)時具有較高的應(yīng)用價值。

        深度協(xié)同神經(jīng)網(wǎng)絡(luò)(Deep Cooperative Neural Network,DeepCoNN)模型[29]是一個基于CNN 構(gòu)建用戶、物品隱表示的推薦模型。該模型構(gòu)建了2 個平行CNN 來學(xué)習(xí)豐富的語義信息,緩解了數(shù)據(jù)稀疏性問題,同時利用詞嵌入技術(shù)構(gòu)建文本向量,保留了文本的序列信息。2 個平行CNN 分別學(xué)習(xí)用戶特征和物品特征,并將輸出結(jié)果作為預(yù)測層的輸入。預(yù)測層首先使用了FM 模型來學(xué)習(xí)特征交互信息,然后實現(xiàn)評分的預(yù)測。該模型存在2 個比較明顯的缺陷:對文本數(shù)據(jù)的要求較高與冷啟動問題。CATHERINE 等[50]基于DeepCoNN 模型增加了一個隱含層來表征目標用戶的用戶-目標-物品數(shù)據(jù)序列,解決了DeepCoNN 模型在測試集中過分依賴文本數(shù)據(jù)的問題。KIM等[51]提出的卷積矩陣分解(Convolutional Matrix Factorization,ConvMF)模型具有與CDL 類似的模型結(jié)構(gòu),而該模型使用CNN 來學(xué)習(xí)高維特征隱表示。相比于CDL 模型,ConvMF 模型借助卷積核計算和詞嵌入技術(shù)能夠提取更加準確的文本特征,從而提高模型的推薦準確率。為了進一步獲取時序信息特征,ZHANG 等[52]提出了基于混合CNN 和RNN 的推文話題推薦模型,對包含相關(guān)圖文的推特(Twitter)進行分析。該模型通過CNN 提取圖片信息特征,根據(jù)LSTM(Long Short-Term Memory)網(wǎng)絡(luò)學(xué)習(xí)Twitter 中的內(nèi)容信息特征,利用注意力機制平衡內(nèi)容信息和圖像信息對模型的權(quán)重價值?;趩蝹€模型的特征學(xué)習(xí)模型在推薦結(jié)果準確率上表現(xiàn)不佳,而多模型的組合應(yīng)用不僅提高了模型準確率,而且在一定程度上提高了模型的可解釋性。

        近年來,傳統(tǒng)機器學(xué)習(xí)算法與深度學(xué)習(xí)算法相結(jié)合提高了深度學(xué)習(xí)模型的可解釋性,而且在模型性能方面也有不錯的提升。ROSEWELT 等[53]將新的嵌入特征選擇方法和決策樹相結(jié)合應(yīng)用于內(nèi)容推薦系統(tǒng)中,該決策樹是一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)分類器的模糊決策樹。該模型在獲得優(yōu)化的特征子集后,首先在CNN 和決策樹的學(xué)習(xí)過程中識別出準確的內(nèi)容信息,然后為用戶推薦準確的物品內(nèi)容。

        3.4 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是學(xué)習(xí)數(shù)據(jù)時序關(guān)系的有效工具。在推薦領(lǐng)域中,RNN 主要用于捕獲用戶的長期偏好演化表征和短期偏好表征。

        DAI 等[54]提出共同演化模型,能夠捕捉用戶和物品的演化隱表示。在該模型中,用戶和物品之間的歷史交互信息是驅(qū)使用戶偏好和物品狀態(tài)發(fā)生變化的關(guān)鍵數(shù)據(jù)。基于此,作者利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)學(xué)習(xí)用戶和物品的動態(tài)特征表示,但是單個RNN 在學(xué)習(xí)更復(fù)雜的演化表征時性能不佳。為了更好地學(xué)習(xí)動態(tài)表征,WU 等[55]提出了循環(huán)推薦網(wǎng)絡(luò)(RRN)模型。該模型作為基于RNN 的非參推薦模型,使用了2 個LSTM 網(wǎng)絡(luò)分別學(xué)習(xí)用戶偏好的時序變化和物品的季節(jié)性演變。為了考慮用戶的長期偏好和物品的靜態(tài)屬性,該模型同時學(xué)習(xí)了用戶和物品的靜態(tài)隱表示。具體預(yù)測公式如下:

        其中:uut表示用戶的動態(tài)特征向量;vit表示物品的動態(tài)特征向量;uu表示用戶靜態(tài)向量;vi表示物品靜態(tài)向量。

        門控循環(huán)單元(GRU)[56]是一種RNN 的拓展技術(shù),在學(xué)習(xí)句法結(jié)構(gòu)上有更顯著的效果,因此在推薦領(lǐng)域中得到了廣泛的應(yīng)用。BANSAL 等[57]使用GRU 對文本序列進行編碼,構(gòu)建潛因子模型,緩解了冷啟動問題。此外,作者使用多任務(wù)正則化預(yù)防過擬合問題,緩解了數(shù)據(jù)稀疏性。LI 等[58]構(gòu)建了一個多任務(wù)學(xué)習(xí)結(jié)構(gòu)NRT,在實現(xiàn)評分預(yù)測的同時為用戶生成建議信息。該模型的優(yōu)勢表現(xiàn)為以下2 點:1)模型中的文本生成機制提高了系統(tǒng)可解釋性;2)多任務(wù)學(xué)習(xí)結(jié)構(gòu)使整個模型能夠在端到端的結(jié)構(gòu)中高效地進行訓(xùn)練。

        在內(nèi)容推薦中,RNN 是數(shù)據(jù)分析的關(guān)鍵工具,結(jié)合多任務(wù)學(xué)習(xí)等優(yōu)秀結(jié)構(gòu)可以更好地挖掘數(shù)據(jù)特征,被廣泛應(yīng)用于音樂推薦、視頻推薦等即時推薦場景。

        表3所示為6 種典型推薦模型的對比分析。

        表3 典型推薦模型的對比分析Table 3 Comparative analysis of typical recommendation models

        3.5 其他研究成果

        上文從4 個角度介紹了深度學(xué)習(xí)的應(yīng)用現(xiàn)狀,此外,還有許多不同深度學(xué)習(xí)模型的應(yīng)用研究成果。從2007年至今,每年RecSys 會議的召開持續(xù)為學(xué)術(shù)界和工業(yè)界貢獻了最新的研究成果。

        CHEN 等[59]為了提高推薦系統(tǒng)可解釋性,提出一種基于共同注意力機制的多任務(wù)學(xué)習(xí)模型(CAML)。該模型設(shè)計了一種編碼-選擇-解碼架構(gòu),包含了編碼器、多指針共同注意選擇器、多任務(wù)解碼器等3 個部分。編碼器負責學(xué)習(xí)用戶或物品信息的向量表示;多指針共同注意選擇器通過分層注意力模型學(xué)習(xí)用戶和物品的交互關(guān)鍵信息特征;多任務(wù)解碼器負責預(yù)測評分,同時為用戶提供個性化解釋。CAML 方法中提及的多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)模型[57]已經(jīng)被廣泛應(yīng)用于推薦應(yīng)用程序中,但是在現(xiàn)實應(yīng)用場景下,多任務(wù)之間存在復(fù)雜的相關(guān)性,影響了MTL的推薦性能?;诖耍琓ANG等[60]提出一種新型共享結(jié)構(gòu)設(shè)計的漸進分層提?。≒LE)模型。該模型采用漸進式路由機制逐步提取和分離更深層的語義知識,從而提高了跨任務(wù)的學(xué)習(xí)效率。該模型可以應(yīng)用于多種場景中,已經(jīng)被成功部署到騰訊(Tencent)的在線視頻推薦系統(tǒng)中。

        在內(nèi)容推薦中,上下文一直是推薦系統(tǒng)的研究熱點之一,比如在線音樂領(lǐng)域,音樂之間的相關(guān)性高度依賴于上下文。HANSEN 等[61]基于上下文對用戶的偏好進行建模,提出了CoSeRNN(Contextual and Sequential Recurrent Neural Network)模型。該模型以每一次對話(session)將用戶偏好建模成嵌入序列,在session 開始時增加用戶歷史行為和上下文預(yù)測用戶偏好。然后將預(yù)測結(jié)果用于下游任務(wù),通過近似最近鄰搜索算法[62],高效地生成與上下文相關(guān)的即時推薦。在語境信息中,常常存在人氣偏見,為了消除偏見信息,ZHOU 等[63]提出一種新型的雙頭注意力融合自動編碼器(TAFA)模型。該模型同時學(xué)習(xí)用戶評論信息和用戶隱式反饋的深層特征,包含了偏好編碼器、評論編碼器、早融合、后融合模型、雙頭解碼器等。偏好編碼器負責學(xué)習(xí)用戶物品的歷史交互特征;評論編碼器負責挖掘評論中的語境信息;早融合模型負責將隱式反饋數(shù)據(jù)融入到提取的評論信息中,形成基于語境的評論用戶向量,然后基于注意力機制將該向量與偏好用戶向量進行融合,使得重要評論的選擇不僅僅依賴于評論內(nèi)容;后融合模型通過跨模態(tài)注意力機制融合評論用戶向量和偏好用戶向量;雙頭解碼器部分主要利用了噪聲對比估計(NCE)方法[64]來區(qū)分觀察到的數(shù)據(jù)和人工產(chǎn)生的噪聲數(shù)據(jù),增加觀察信息交互的可能性,同時降低基于人氣的噪聲分布數(shù)據(jù)。該模型使用的多階段融合模塊,對比AutoRec[11]、CDAE[65]、VAE-CF[66]等一系列基于自動編碼器的模型,取得了更優(yōu)的推薦效果。

        4 未來研究方向

        近年來的研究為深度學(xué)習(xí)在推薦系統(tǒng)的應(yīng)用奠定了堅實的基礎(chǔ),推薦系統(tǒng)的研究不再局限于準確率等指標問題,而是關(guān)心實際應(yīng)用場景的推薦效果[67-69]。本節(jié)概述基于深度學(xué)習(xí)內(nèi)容推薦的8 個有前景的研究方向:

        1)用戶和物品輔助信息的聯(lián)合表征學(xué)習(xí)。隨著大數(shù)據(jù)應(yīng)用的普遍,基于用戶或物品的輔助信息表現(xiàn)為多源異構(gòu)化。推薦算法利用這類信息來學(xué)習(xí)物品的特性和用戶的偏好,可以實現(xiàn)更加準確的推薦。此外,深度學(xué)習(xí)處理多源異構(gòu)數(shù)據(jù)的獨特能力,為推薦具有視覺、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)提供了更多的機會?;诖?,如何設(shè)計一個有效利用其他數(shù)據(jù)模式進行聯(lián)合表征學(xué)習(xí)的神經(jīng)體系結(jié)構(gòu)[10,45,70]成為提高推薦性能的一個未來研究方向。

        2)深度模型的可解釋性。在推薦系統(tǒng)的應(yīng)用發(fā)展中,推薦不僅是提供一個結(jié)果,還需要一些合適的理由,而深度學(xué)習(xí)表現(xiàn)為一種端到端的學(xué)習(xí)結(jié)構(gòu),缺少復(fù)雜的推理過程,很難對推薦的結(jié)果給出合理的解釋。因此,如何提高深度神經(jīng)網(wǎng)絡(luò)的可解釋性是一項艱巨的任務(wù)。提高模型的可解釋性的重要意義主要體現(xiàn)于2 個方面:(1)通過更準確的推薦結(jié)果,加強用戶的滿意度,提高用戶對系統(tǒng)的信任程度;(2)使模型變得更加透明,便于研究人員持續(xù)優(yōu)化模型[48]。近年來,注意力機制為推薦算法的研究開拓了新的方向[71],被廣泛應(yīng)用于MLP、CNN、RNN 等深度學(xué)習(xí)模型中。注意力機制下的推薦模型[72-74]不僅提高了模型的推薦性能,而且提高了其可解釋性。文獻[73]提出了一種針對評論進行推理的注意力結(jié)構(gòu),并表示不同的推薦情境需要構(gòu)建不同的推理模式。文獻[74]針對元路徑構(gòu)建了一個神經(jīng)注意力模型,通過用戶和物品在元路徑的交互,增強了模型對于用戶和物品表征學(xué)習(xí)能力,提高了模型可解釋性。一個模型的可解釋能力高度依賴于對內(nèi)容信息的提取,以內(nèi)容信息進行推理構(gòu)建注意力機制是未來研究的一個熱點之一。

        3)交叉領(lǐng)域的應(yīng)用。目前,大型公司都會為用戶提供多元化的產(chǎn)品或服務(wù),比如“字節(jié)跳動”為用戶提供短視頻服務(wù)、新聞服務(wù)、影音服務(wù)等;用戶可以在“淘寶”購買衣物、食物、電子設(shè)備等。單一領(lǐng)域的推薦效果無法綜合其他領(lǐng)域的用戶偏好,進一步加劇了數(shù)據(jù)稀疏性和冷啟動問題[75]。因此,交叉領(lǐng)域的推薦系統(tǒng)可以利用多領(lǐng)域的輔助數(shù)據(jù)提高目標領(lǐng)域的推薦性能。交叉領(lǐng)域推薦的研究方向之一為知識轉(zhuǎn)換,旨在將其他領(lǐng)域的知識用于改進目標領(lǐng)域的學(xué)習(xí)效果[76-77]。由于深度學(xué)習(xí)擅長學(xué)習(xí)數(shù)據(jù)的深層表示,能夠捕捉不同領(lǐng)域數(shù)據(jù)的泛化和差異,并呈現(xiàn)出更優(yōu)的推薦效果,因此交叉領(lǐng)域的推薦方法應(yīng)用是未來推薦系統(tǒng)發(fā)展的研究熱點之一。

        4)在線推薦。隨著用戶需求復(fù)雜化,基于用戶歷史偏好的離線推薦限制了即時推薦場景下的推薦性能[13]。用戶的需求時刻發(fā)生變化,使在線推薦成為了推薦系統(tǒng)的重要研究方向之一。近年來,基于在線推薦的研究成果頻出,文獻[78]基于音樂推薦提出了基于Bandits 的在線推薦模型。文獻[14]基于在線學(xué)習(xí)環(huán)境提出了Cascade Hybrid 方法,提高了內(nèi)容相關(guān)性排名準確率,且結(jié)果多樣化。

        5)多任務(wù)學(xué)習(xí)。在計算機視覺、自然語言處理等領(lǐng)域,多任務(wù)學(xué)習(xí)已得到了廣泛的應(yīng)用[23,79]。在推薦領(lǐng)域中,多項研究成果[57,59-60,80]成功地將多任務(wù)學(xué)習(xí)結(jié)構(gòu)應(yīng)用于深度學(xué)習(xí)中,相比單任務(wù)學(xué)習(xí)取得了不錯的性能提升。多任務(wù)學(xué)習(xí)的應(yīng)用在深度推薦模型中的優(yōu)勢表現(xiàn)為:(1)可以防止過擬合;(2)提高模型可解釋性;(3)解決推薦系統(tǒng)中的數(shù)據(jù)稀疏問題。

        6)更深層的神經(jīng)網(wǎng)絡(luò)。從以往的研究[12,30,65]可以發(fā)現(xiàn),大部分的深度推薦模型都是在神經(jīng)網(wǎng)絡(luò)層數(shù)為3 層、4 層時趨于穩(wěn)定。在推薦任務(wù)中,大部分淺層網(wǎng)絡(luò)的表現(xiàn)性能優(yōu)于深層網(wǎng)絡(luò)。因此,在探究基于深度學(xué)習(xí)的推薦系統(tǒng)背景下,越多的網(wǎng)絡(luò)層數(shù)是否能夠帶來真正的性能提升,而如何有效地訓(xùn)練更深層次的網(wǎng)絡(luò)結(jié)構(gòu)是一項艱巨的任務(wù)。

        7)強化學(xué)習(xí)的應(yīng)用。近年來,Bandits 算法[58]等強化學(xué)習(xí)的應(yīng)用能夠有效地解決冷啟動問題和探索開發(fā)(EE)問題,已經(jīng)被廣泛地應(yīng)用于推薦領(lǐng)域。強化學(xué)習(xí)技術(shù)與在線推薦、上下文推薦等方法的結(jié)合應(yīng)用已經(jīng)展現(xiàn)出優(yōu)越的推薦性能[81-82]。深度學(xué)習(xí)提高了強化學(xué)習(xí)的實用性,并使其能夠?qū)o助信息進行建模來設(shè)計實時推薦策略。

        8)深度推薦模型的可拓展性。大數(shù)據(jù)時代下的數(shù)據(jù)量不斷迭代增加,對現(xiàn)實世界的應(yīng)用提出了挑戰(zhàn)[83]。在推薦領(lǐng)域中,推薦模型的實用性至關(guān)重要,時間復(fù)雜度也是選擇模型的主要考慮因素之一。隨著GPU 計算能力的提高,深度學(xué)習(xí)在大數(shù)據(jù)分析中是非常重要的一種有效工具。為了提高模型的可拓展性,有3 個方向值得進一步研究:(1)如何針對非平穩(wěn)和流式數(shù)據(jù)的增量學(xué)習(xí);(2)如何提高高維向量和多模態(tài)數(shù)據(jù)的計算效率;(3)如何平衡模型的復(fù)雜性、拓展性、參數(shù)的指數(shù)增長等問題。

        5 結(jié)束語

        深度學(xué)習(xí)憑借其強大的表征學(xué)習(xí)模式為推薦算法的研究與發(fā)展提供了新的解決方案。本文基于深度學(xué)習(xí)的應(yīng)用闡述深度推薦算法的研究進展,對多種經(jīng)典的推薦算法進行對比分析,并給出未來研究展望。深度學(xué)習(xí)相比傳統(tǒng)推薦模型具有非線性轉(zhuǎn)換、深層特征學(xué)習(xí)等優(yōu)勢,能夠有效地挖掘圖像等多源異構(gòu)數(shù)據(jù),在實際應(yīng)用中具備較好的數(shù)據(jù)擬合和泛化能力,但存在可解釋性較弱、學(xué)習(xí)效率低下等問題,而傳統(tǒng)推薦模型在某些數(shù)據(jù)集上也能取得較好的性能評價,在實際場景下具有較好的推薦解釋能力和時間復(fù)雜度。因此,后續(xù)將針對模型的可解釋性、學(xué)習(xí)效率、可拓展性等問題進行深入研究,促進深度推薦算法在聯(lián)合特征學(xué)習(xí)、多任務(wù)學(xué)習(xí)、交叉領(lǐng)域?qū)W習(xí)等場景的應(yīng)用與發(fā)展。

        猜你喜歡
        物品神經(jīng)網(wǎng)絡(luò)深度
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        深度理解一元一次方程
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        誰動了凡·高的物品
        深度觀察
        深度觀察
        深度觀察
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        中文字幕精品久久久久人妻红杏1| 黄片视频免费观看蜜桃| 成人无码av一区二区| 躁躁躁日日躁| av无码一区二区三| 中文字幕熟女激情50路| 国色天香中文字幕在线视频| 日本高清在线播放一区二区| 久久天天躁夜夜躁狠狠85麻豆| 香蕉久久福利院| 乱人伦中文字幕在线不卡网站| 日本午夜a级理论片在线播放| 五月色丁香婷婷网蜜臀av| 欧美疯狂做受xxxx高潮小说| 久久99精品久久久久九色| 亚洲免费在线视频播放| 激情伊人五月天久久综合| 欧美在线视频免费观看| 人妻av午夜综合福利视频| 蜜桃臀av一区二区三区| 久久综合狠狠色综合伊人| 中文乱码人妻系列一区二区 | 麻豆高清免费国产一区| 精品久久亚洲一级α| 最新69国产精品视频| 67194熟妇人妻欧美日韩| 国产精品久久久久久52avav| 99综合精品久久| 少妇激情高潮视频网站| 麻豆╳╳╳乱女另类| 日韩免费小视频| 白白在线免费观看视频| 又色又爽又黄的视频软件app| 精品国产黑色丝袜高跟鞋| 久久久婷婷综合亚洲av| 日本在线一区二区三区不卡| 性无码专区无码| 亚洲国产成人久久一区www妖精| 一区二区三区夜夜久久| 十四以下岁毛片带血a级| 日本大片免费观看完整视频|