亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的深度Q網(wǎng)絡(luò)結(jié)構(gòu)的商品推薦模型

        2020-09-29 06:56:30梁少晴
        計(jì)算機(jī)應(yīng)用 2020年9期
        關(guān)鍵詞:特征用戶實(shí)驗(yàn)

        傅 魁,梁少晴,李 冰

        (武漢理工大學(xué)經(jīng)濟(jì)學(xué)院,武漢 430070)

        0 引言

        云計(jì)算和大數(shù)據(jù)等網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展引發(fā)了網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),海量數(shù)據(jù)帶來的“信息過載”問題使得人們對(duì)有價(jià)值信息的選擇變得尤為困難,個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生。以協(xié)同過濾推薦技術(shù)、基于內(nèi)容的推薦技術(shù)和混合推薦技術(shù)為代表的傳統(tǒng)推薦技術(shù)應(yīng)用于電子商務(wù)推薦中仍存在數(shù)據(jù)稀疏、新用戶冷啟動(dòng)、大數(shù)據(jù)處理與算法可擴(kuò)性和特征識(shí)別差等問題[1-3],因此,研究人員開始嘗試將深度學(xué)習(xí)引入推薦領(lǐng)域來解決上述問題,以提高模型的可用性和普適性。

        Wang 等[4]提出了一種基于協(xié)同深度學(xué)習(xí)(Collaborative Deep Learning,CDL)的推薦方法,該方法利用貝葉斯棧式降噪自編碼器來學(xué)習(xí)商品內(nèi)容的特征表示,并結(jié)合矩陣分解模型來預(yù)測(cè)用戶的商品評(píng)分?jǐn)?shù)據(jù)。該方法緩解了傳統(tǒng)推薦技術(shù)中的數(shù)據(jù)稀疏問題,但其只考慮了顯式反饋(對(duì)商品的評(píng)分?jǐn)?shù)據(jù))表達(dá)的用戶對(duì)商品的喜好程度,而忽略了隱式反饋(對(duì)商品的點(diǎn)擊、購(gòu)買和略過等數(shù)據(jù))表達(dá)的用戶對(duì)商品的“不確定”的喜好程度。針對(duì)上述問題,研究人員對(duì)CDL 模型進(jìn)行了改進(jìn),Wei等[5]提出了融合TimeSVD++[6]和棧式降噪自編碼器(Stacked Denoising AutoEncoder,SDAE)的混合推薦模型,其中TimeSVD++是一種可以融合時(shí)間感知的隱因子模型。與CDL相比,該模型不僅利用了隱式反饋包含的用戶偏好信息,而且還可以捕獲商品信息和用戶偏好隨時(shí)間的變化特征,解決用戶偏好動(dòng)態(tài)變化問題,提高推薦的精度與準(zhǔn)確性。將深度學(xué)習(xí)應(yīng)用到推薦領(lǐng)域最終提高了模型的可用性和普適性[7-12],但是這些模型仍存在3 個(gè)問題:首先沒有對(duì)隱式反饋進(jìn)行再次區(qū)分,將隱式反饋分為正反饋(對(duì)商品的點(diǎn)擊、購(gòu)買等行為)和負(fù)反饋(對(duì)商品的略過行為),準(zhǔn)確表明用戶對(duì)商品是喜愛還是無視的態(tài)度;其次都是利用用戶歷史數(shù)據(jù)中頻繁出現(xiàn)的特征進(jìn)行學(xué)習(xí)并推薦,導(dǎo)致推薦商品相似性極高,容易使用戶感到疲倦;最后都只考慮了當(dāng)下回報(bào)而忽略了未來可能存在的回報(bào)。

        深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)的特征提取功能與強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)學(xué)習(xí)決策功能結(jié)合起來[13],為復(fù)雜場(chǎng)景中大規(guī)模數(shù)據(jù)特征的自動(dòng)提取帶來了希望,因此一些研究人員開始將DRL 應(yīng)用到推薦領(lǐng)域[14-17],并取得了不錯(cuò)的效果。但目前在筆者的知識(shí)范圍內(nèi),將DRL 應(yīng)用到商品推薦領(lǐng)域的研究極少,而且現(xiàn)有的模型沒有綜合性解決用戶偏好動(dòng)態(tài)變化、正負(fù)反饋包含的用戶對(duì)商品喜好的表達(dá)、未來回報(bào)率和推薦商品多樣性等問題,忽略了各要素之間的聯(lián)動(dòng)影響。針對(duì)上述問題,本文構(gòu)建了基于改進(jìn)的深度Q網(wǎng)絡(luò)(Improved Deep Q Network,IDQN)網(wǎng)絡(luò)結(jié)構(gòu)的商品推薦模型,該模型主要改進(jìn)如下:

        1)考慮正負(fù)反饋所代表的用戶對(duì)商品喜好的表達(dá)和商品購(gòu)買的時(shí)序性問題,結(jié)合競(jìng)爭(zhēng)架構(gòu)和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對(duì)深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)進(jìn)行改進(jìn),設(shè)計(jì)了IDQN 結(jié)構(gòu)幫助系統(tǒng)更好地理解用戶;

        2)將DQN 算法應(yīng)用于商品推薦中,同時(shí)考慮模型的當(dāng)下回報(bào)和未來回報(bào),準(zhǔn)確把握用戶偏好的動(dòng)態(tài)變化;

        3)使用DBGD(Dueling Bandit Gradient Descent)作為模型的探索方法,在不影響推薦系統(tǒng)短期性能的同時(shí),增加推薦商品的多樣性;

        4)充分利用隱式反饋(點(diǎn)擊查看、添加購(gòu)物車、購(gòu)買和略過等)中包含的用戶信息對(duì)模型進(jìn)行優(yōu)化和更新。

        本文設(shè)計(jì)的IDQN 在競(jìng)爭(zhēng)架構(gòu)的DQN 基礎(chǔ)之上進(jìn)行改進(jìn),能夠?qū)χ岛瘮?shù)進(jìn)行更快、更準(zhǔn)確的估計(jì)。將狀態(tài)和動(dòng)作共同決定的值函數(shù)用LSTM 結(jié)構(gòu)代替卷積層結(jié)構(gòu),而由狀態(tài)單獨(dú)決定的值函數(shù)中卷積結(jié)構(gòu)保持不變,可以很好地處理商品購(gòu)買的時(shí)序性問題。根據(jù)正負(fù)反饋特征將同時(shí)基于狀態(tài)和動(dòng)作的值函數(shù)的輸出拆分成兩個(gè)部分,解決了正負(fù)反饋不均衡的問題,使正反饋數(shù)據(jù)不至于被負(fù)反饋數(shù)據(jù)淹沒,合理利用正負(fù)反饋數(shù)據(jù)來對(duì)模型進(jìn)行訓(xùn)練和更新。在構(gòu)建回報(bào)函數(shù)時(shí)借鑒DDQN(Double Deep Q Network)算法中改進(jìn)的目標(biāo)Q 值,消除了過高估計(jì)Q 值的問題,考慮當(dāng)下回報(bào)和未來回報(bào)仿真模擬用戶偏好動(dòng)態(tài)變化的過程。采用DBGD 算法對(duì)模型的探索策略進(jìn)行設(shè)計(jì),避免了算法模型的過擬合,加快了模型的收斂和最優(yōu)解的尋找速度,保證了系統(tǒng)的穩(wěn)定性。

        線下實(shí)驗(yàn)結(jié)果證明,基于IDQN 結(jié)構(gòu)的商品推薦模型的準(zhǔn)確率、召回率、平均準(zhǔn)確率(Mean Average Precision,MAP)和歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain,NDCG)與經(jīng)典模型中的最好表現(xiàn)相比,分別提高了69.8%、89.81%、95.00%、67.57%;線上實(shí)驗(yàn)結(jié)果還表明本文設(shè)計(jì)的DBGD 探索函數(shù)能與用戶進(jìn)行最佳交互,使得推薦的商品相似性更低,更具有多樣性。

        1 DQN

        隨著DRL 的不斷發(fā)展,DQN 算法的研究中也出現(xiàn)了很多經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),本章首先以2013 年Mnih 等[18]第一次提出的DQN 模型為例,對(duì)DQN 結(jié)構(gòu)進(jìn)行分析,指出DQN 結(jié)構(gòu)用于商品推薦中的優(yōu)缺點(diǎn)。

        如圖1 所示,DQN 結(jié)構(gòu)除了輸入層和輸出層外,是由3 個(gè)卷積層和2個(gè)全連接層構(gòu)成的5層深度神經(jīng)網(wǎng)絡(luò)。

        圖1 DQN結(jié)構(gòu)Fig.1 DQN structure

        DQN 在特征識(shí)別上取得了很好的效果,從DQN 結(jié)構(gòu)中可以發(fā)現(xiàn)傳統(tǒng)DQN的優(yōu)點(diǎn)如下:

        1)采用局部感知和權(quán)值共享相結(jié)合的形式,大大減少了網(wǎng)絡(luò)中需要進(jìn)行訓(xùn)練的參數(shù)數(shù)量,使原本復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)變得簡(jiǎn)單,同時(shí)加快了訓(xùn)練速度;

        2)保留了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中的卷積層,而沒有采用池化層,這樣做的原因是為了使輸入特征在位置上保持不變。

        除上述優(yōu)點(diǎn)外,將DQN 應(yīng)用于商品推薦中存在的問題如下:

        1)DQN 將CNN 提取出的抽象特征經(jīng)過全連接層后直接輸出對(duì)應(yīng)動(dòng)作的Q 值,默認(rèn)狀態(tài)動(dòng)作值函數(shù)大小是與所有狀態(tài)和動(dòng)作都相關(guān)的,降低了智能體在策略評(píng)估過程中正確識(shí)別行為的響應(yīng)速度。

        2)DQN 結(jié)構(gòu)除了輸入層和輸出層外,采用了3 個(gè)卷積層和2 個(gè)全連接層構(gòu)成的5 層深度神經(jīng)網(wǎng)絡(luò),然而CNN 無法對(duì)時(shí)序性數(shù)據(jù)建模,因此DQN 無法對(duì)時(shí)序性數(shù)據(jù)進(jìn)行充分的信息挖掘。

        3)DQN 結(jié)構(gòu)只能接受固定大小的數(shù)據(jù)輸入,無法對(duì)正負(fù)反饋進(jìn)行有效的區(qū)別性訓(xùn)練。

        2 基于IDQN結(jié)構(gòu)的商品推薦模型

        本章中關(guān)于商品推薦問題可以定義為:假設(shè)用戶u 向推薦系統(tǒng)發(fā)出瀏覽商品的請(qǐng)求,推薦代理G收到請(qǐng)求后,將用戶u的相關(guān)信息和待推薦商品池P輸入模型中,根據(jù)模型算法選出一組top-k商品列表L 進(jìn)行推薦,用戶u 將對(duì)推薦列表L 給予相關(guān)反饋B。表1 對(duì)上述問題描述里和下文中將出現(xiàn)的符號(hào)進(jìn)行定義。

        下面將詳細(xì)介紹基于IDQN 結(jié)構(gòu)的商品推薦模型與其他模型的不同之處,主要分為IDQN 深度神經(jīng)網(wǎng)絡(luò)、模型回報(bào)函數(shù)的構(gòu)建、探索策略的設(shè)計(jì)、模型整體框架與算法原理。

        表1 推薦模型符號(hào)定義Tab.1 Definition of recommendation model symbols

        2.1 IDQN深度神經(jīng)網(wǎng)絡(luò)

        在對(duì)用戶-商品交互數(shù)據(jù)的分析中有兩點(diǎn)重要的發(fā)現(xiàn):一是用戶負(fù)反饋能夠在一定程度上幫助過濾用戶不喜歡的商品;二是用戶購(gòu)買商品具有時(shí)序性特征。因此,首先根據(jù)用戶-商品交互行為構(gòu)建具有時(shí)序特征的正負(fù)反饋數(shù)據(jù)集;然后針對(duì)DQN 自身存在的問題提出了使用收斂速度更快更準(zhǔn)確的基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu),并針對(duì)用戶購(gòu)買商品時(shí)序性問題對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),得到了改進(jìn)的基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu);最后將用戶正負(fù)反饋考慮到改進(jìn)的基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu)中,最終得到了融合用戶正負(fù)反饋的改進(jìn)的DQN結(jié)構(gòu)模型。

        2.1.1 基于用戶正負(fù)反饋的用戶-商品交互特征設(shè)計(jì)

        定義1用戶正負(fù)反饋中,將當(dāng)前的用戶反饋表示為s。s+={i1,i2,…,iN}表示用戶最近點(diǎn)擊查看、添加購(gòu)物車或購(gòu)買過的N個(gè)商品特征集合,即用戶正反饋信息的集合。s-={j1,j2,…,jM}表示用戶最近略過的M個(gè)商品特征集合,即用戶負(fù)反饋信息的集合。s=(s+,s-),其中,s+和s-中添加商品的順序是按照時(shí)間順序排列的。

        定義2用戶-商品交互情況中,當(dāng)推薦系統(tǒng)將商品a在s=(s+,s-)的狀態(tài)下推薦給用戶時(shí),如圖2所示:若用戶對(duì)推薦商品a的行為為略過,那么正反饋保持不變=s+,同時(shí)更新負(fù)反饋={j1,j2,…,jM,a};若用戶對(duì)商品的行為為點(diǎn)擊查看、添加購(gòu)物車或購(gòu)買,那么負(fù)反饋保持不變=s-,同時(shí)更新正反饋={i1,i2,…,iN,a};此時(shí)的用戶-商品交互特征表示為s′=(,)。

        圖2 正負(fù)反饋數(shù)據(jù)分類Fig.2 Classification of positive and negative feedback data

        2.1.2 面向商品購(gòu)買時(shí)序性的DQN結(jié)構(gòu)

        在商品推薦過程的某些狀態(tài)下,值函數(shù)的大小與動(dòng)作無關(guān)。針對(duì)這一問題本文采用一種基于競(jìng)爭(zhēng)架構(gòu)的DQN,競(jìng)爭(zhēng)網(wǎng)絡(luò)(如圖3所示)是將CNN中卷積層提取的抽象特征進(jìn)行分流:一條分流是只依賴于狀態(tài)的值函數(shù),即狀態(tài)價(jià)值函數(shù);另一條分流代表同時(shí)依賴于狀態(tài)和動(dòng)作的值函數(shù),即動(dòng)作優(yōu)勢(shì)函數(shù)。實(shí)驗(yàn)表明,當(dāng)智能體在一定策略下不斷采取不同行為,但對(duì)應(yīng)函數(shù)值卻相同的情況下,基于競(jìng)爭(zhēng)架構(gòu)的DQN 模型能夠?qū)χ岛瘮?shù)進(jìn)行更快、更準(zhǔn)確的估計(jì)。

        圖3 基于競(jìng)爭(zhēng)架構(gòu)的DQN結(jié)構(gòu)Fig.3 Structure of DQN based on competitive architecture

        定義3競(jìng)爭(zhēng)網(wǎng)絡(luò)優(yōu)勢(shì)評(píng)估函數(shù)為:

        其中:Qπ(s,a)為狀態(tài)動(dòng)作值函數(shù),表示在狀態(tài)s下根據(jù)策略π選擇動(dòng)作a所獲的期望回報(bào)值;Vπ(s)為狀態(tài)價(jià)值函數(shù),表示狀態(tài)s下根據(jù)策略π產(chǎn)生的所有動(dòng)作的價(jià)值的期望值;Aπ(s,a)表示狀態(tài)s下選擇動(dòng)作a的優(yōu)勢(shì)。

        定義4競(jìng)爭(zhēng)網(wǎng)絡(luò)輸出值函數(shù)為:

        其中:V(s;θ,β)表示輸出狀態(tài)價(jià)值函數(shù);A(s,a;θ,α)表示輸出動(dòng)作優(yōu)勢(shì)函數(shù);θ、α、β分別表示對(duì)輸入層進(jìn)行特征處理的網(wǎng)絡(luò)神經(jīng)元參數(shù)以及狀態(tài)價(jià)值函數(shù)和狀態(tài)函數(shù)的參數(shù)。

        由于用戶的商品購(gòu)買行為具有一定的時(shí)序性,針對(duì)這一特征本文對(duì)基于競(jìng)爭(zhēng)架構(gòu)的DQN結(jié)構(gòu)進(jìn)行了以下改進(jìn):

        1)在基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu)中由于CNN 并不能對(duì)時(shí)序數(shù)據(jù)進(jìn)行處理,而LSTM 在時(shí)序數(shù)據(jù)的處理上表現(xiàn)出了較好的效果,因此將卷積層換成LSTM結(jié)構(gòu)。

        2)商品推薦模型的輸入數(shù)據(jù)主要包括用戶特征、上下文特征、商品特征和用戶-商品交互特征,在狀態(tài)s下選擇動(dòng)作a的回報(bào)總和與所有輸入特征相關(guān),但是用戶自身特征具有的價(jià)值由用戶特征和上下文特征單獨(dú)決定,因此改進(jìn)的模型中將狀態(tài)和動(dòng)作共同決定的值函數(shù)用LSTM 結(jié)構(gòu)代替CNN 中的卷積層結(jié)構(gòu),而由狀態(tài)單獨(dú)決定的值函數(shù)中卷積結(jié)構(gòu)保持不變,改進(jìn)后的模型結(jié)構(gòu)如圖4所示。

        圖4 面向商品購(gòu)買時(shí)序性的DQN結(jié)構(gòu)Fig.4 DQN structure for commodity purchase time-series feature

        2.1.3 IDQN深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        本節(jié)將用戶正負(fù)反饋考慮到改進(jìn)的基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu)中,最終得到了如圖5 所示融合用戶正負(fù)反饋的改進(jìn)的DQN結(jié)構(gòu)(即IDQN結(jié)構(gòu))。

        圖5 IDQN結(jié)構(gòu)Fig.5 IDQN structure

        如圖5 所示,該結(jié)構(gòu)根據(jù)正負(fù)反饋特征將同時(shí)基于狀態(tài)和動(dòng)作的值函數(shù)的輸入拆分成兩部分,將除負(fù)反饋特征外的所有特征輸入LSTM1 層中,將除正反饋特征外的所有特征輸入LSTM1′層中,分別經(jīng)過LSTM2 和LSTM2′后,一起進(jìn)入全連接層FC1 和FC2,最終輸出狀態(tài)動(dòng)作值函數(shù)Q2。用戶特征和上下文特征更加體現(xiàn)用戶本身的價(jià)值,因此單獨(dú)放進(jìn)基于狀態(tài)的動(dòng)作優(yōu)勢(shì)值函數(shù)中,通過兩層卷積層和兩層全連接層后輸出動(dòng)作優(yōu)勢(shì)值函數(shù)Q1。

        定義5IDQN最終值函數(shù)為:

        其中:V(s;θ,β)表示狀態(tài)動(dòng)作值函數(shù);A(s,a;θ,α)表示動(dòng)作優(yōu)勢(shì)值函數(shù);s表示當(dāng)前狀態(tài),a表示在狀態(tài)s下的動(dòng)作選擇,θ、α、β分別代表狀態(tài)動(dòng)作值函數(shù)、動(dòng)作優(yōu)勢(shì)值函數(shù)的參數(shù)。狀態(tài)動(dòng)作值函數(shù)和動(dòng)作優(yōu)勢(shì)值函數(shù)的結(jié)合是通過聚合操作進(jìn)行的。

        2.2 模型的回報(bào)函數(shù)構(gòu)建

        大量研究表明,用戶購(gòu)買行為的偏好處于動(dòng)態(tài)變化之中。為了提高模型的準(zhǔn)確率,本文在回報(bào)函數(shù)構(gòu)建時(shí)不僅考慮當(dāng)下回報(bào),同時(shí)考慮未來回報(bào)。

        定義6在狀態(tài)s下遵循策略π直到情況結(jié)束,推薦代理G累積獲得的回報(bào)函數(shù)為:

        其中:狀態(tài)s主要由用戶特征和上下文特征來表示,動(dòng)作a主要由商品特征、商品-用戶交互特征共同決定,rimmediate表示當(dāng)下回報(bào),rfuture表示未來回報(bào),γ∈[0,1]用來衡量未來回報(bào)對(duì)累積獎(jiǎng)賞的影響。

        在DQN 模型中,使用了一個(gè)獨(dú)立的網(wǎng)絡(luò)來對(duì)目標(biāo)Q 值進(jìn)行計(jì)算,容易引起學(xué)習(xí)過程中過高估計(jì)Q值的問題。本文采取DDQN算法中改進(jìn)的目標(biāo)Q值,使用兩套參數(shù)對(duì)Q網(wǎng)絡(luò)值進(jìn)行訓(xùn)練和學(xué)習(xí):W和W-,其中W用來對(duì)最大Q值對(duì)應(yīng)的動(dòng)作進(jìn)行選擇,W-用來計(jì)算最優(yōu)動(dòng)作所對(duì)應(yīng)的Q值。W和W-兩套參數(shù)的引入,將策略評(píng)估和動(dòng)作選擇分離開,使過高估計(jì)Q值的問題得到了緩解,DDQN算法的目標(biāo)Q值推導(dǎo)過程如下:

        其中:ra,t+1表示推薦代理G選擇動(dòng)作a時(shí)的當(dāng)下回報(bào),Wt和表示不同的兩組參數(shù),在這個(gè)公式中,推薦代理G將根據(jù)給定的動(dòng)作a推測(cè)下一狀態(tài)sa,t+1?;诖?,給定一組候選動(dòng)作{a′},根據(jù)參數(shù)Wt選擇給出最大未來回報(bào)的動(dòng)作a′。在此之后,基于W-計(jì)算給定狀態(tài)sa,t+1的預(yù)計(jì)未來回報(bào)。每隔一段時(shí)間,Wt和將進(jìn)行參數(shù)交換,通過這一過程,該模型消除了過高估計(jì)Q值的問題,并能夠做出同時(shí)考慮當(dāng)下和未來回報(bào)的決策。

        網(wǎng)絡(luò)參數(shù)的更新主要是通過最小化當(dāng)前網(wǎng)絡(luò)Q值和目標(biāo)網(wǎng)絡(luò)Q值之間的均方誤差來進(jìn)行的,誤差函數(shù)如下:

        2.3 探索策略設(shè)計(jì)

        強(qiáng)化學(xué)習(xí)主要以動(dòng)態(tài)試錯(cuò)機(jī)制不斷與環(huán)境進(jìn)行交互,學(xué)習(xí)如何獲得最優(yōu)行為策略。因此,在與環(huán)境的交互過程中,agent不僅需要考慮值函數(shù)最大的動(dòng)作,即利用(Exploitation),還需要盡可能多地選擇不同的動(dòng)作,以找到最優(yōu)的策略,即探索(Exploration)。目前主要有三種探索策略被應(yīng)用于強(qiáng)化學(xué)習(xí)中,分別是ε-greedy算法、Boltzmanm 算法和DBGD算法。其中DBGD算法將原參數(shù)保持不變,在原參數(shù)的基礎(chǔ)上進(jìn)行微小的變動(dòng)獲得新的參數(shù),通過新參數(shù)和原參數(shù)推薦效果的比較,對(duì)原參數(shù)進(jìn)行更新,既提高了算法的收斂速度,又保證了系統(tǒng)的穩(wěn)定性。因此,本文主要采用DBGD算法對(duì)探索策略進(jìn)行設(shè)計(jì)。

        在基于DBGD算法的探索策略設(shè)計(jì)中,推薦代理G將使用Exploitation 網(wǎng)絡(luò)生成推薦列表L,同時(shí)使用Exploration 網(wǎng)絡(luò)生成推薦列表L',然后將L和L'中推薦概率最高的前50%的商品分別取出交錯(cuò)排列為用戶進(jìn)行推薦[19],同時(shí)獲得用戶反饋。若用戶反饋表示Exploration 網(wǎng)絡(luò)生成的推薦商品更符合用戶心意,則Exploitation 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)向Exploration 網(wǎng)絡(luò)參數(shù)方向更新,若用戶反饋表示Exploitation 網(wǎng)絡(luò)生成的推薦商品更符合用戶心意,則Exploitation網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)保持不變。

        定義7Exploration網(wǎng)絡(luò)的參數(shù)表示公式如下:

        其中:ΔW=α·rand(-1,1)·W,|ΔW|越大,表示探索程度越大,α為探索系數(shù),rand(-1,1)表示從-1~1隨機(jī)取一個(gè)參數(shù),W表示當(dāng)前網(wǎng)絡(luò)參數(shù)。

        定義8Exploitation網(wǎng)絡(luò)更新公式如下:

        其中:β表示更新系數(shù)。采用DBGD 算法對(duì)模型中的探索策略進(jìn)行設(shè)計(jì),避免了一般探索過程中短期時(shí)間內(nèi)推薦模型性能下降的問題,將探索過程向好的方向引導(dǎo),加快了模型的收斂和最優(yōu)解的尋找速度。

        2.4 模型的整體框架與算法構(gòu)建

        結(jié)合上述研究方法以及本文的研究思路,提出了圖6 所示的基于IDQN結(jié)構(gòu)的商品推薦模型的框架。

        圖6 系統(tǒng)框架Fig.6 System framework

        如圖6 所示,該框架包括兩個(gè)部分:線下訓(xùn)練模塊和線上更新模塊。線下訓(xùn)練模塊主要利用用戶和商品間的交互日志訓(xùn)練得到離線模型,交互日志內(nèi)容包括用戶對(duì)商品的點(diǎn)擊、購(gòu)買等行為。線上更新模塊主要對(duì)前期訓(xùn)練的網(wǎng)絡(luò)進(jìn)行更新。具體交互流程如下:

        1)輸入:模型的輸入主要是用戶特征、商品特征、用戶-商品交互特征和上下文特征。

        2)策略:模型的策略部分主要采用了DQN 算法,同時(shí)采用DBGD 方法作為算法模型的探索,模型的網(wǎng)絡(luò)結(jié)構(gòu)為IDQN結(jié)構(gòu)。

        3)輸出:當(dāng)用戶u 向系統(tǒng)發(fā)出瀏覽商品請(qǐng)求時(shí),將用戶u的特征和待推薦商品池P 中待推薦商品的特征輸入到推薦代理G 中,推薦代理G 將根據(jù)輸入信息生成一個(gè)top-k商品推薦列表L。

        4)用戶反饋:當(dāng)用戶u 接收到推薦列表L 的時(shí)候,會(huì)對(duì)L中的商品做出反饋,得到反饋結(jié)果B。

        5)模型的單步更新:在每一步后,用戶u 的特征集、生成的推薦列表L、用戶u 對(duì)推薦列表L 的反饋B,生成數(shù)據(jù)集{u,L,B}。推薦代理G將會(huì)根據(jù)主要推薦網(wǎng)絡(luò)Q和基于探索的推薦網(wǎng)絡(luò)Q~的表現(xiàn)情況進(jìn)行模型的更新。

        6)模型的多步更新:模型采用了經(jīng)驗(yàn)回放技術(shù),每隔N步推薦代理G將會(huì)根據(jù)之前存儲(chǔ)在經(jīng)驗(yàn)池中的數(shù)據(jù)來更新主要推薦網(wǎng)絡(luò)Q,多步更新主要是為了減少樣本間的相關(guān)性,提高模型訓(xùn)練的準(zhǔn)確率。

        7)重復(fù)進(jìn)行1)~6)的過程。

        在IDQN 結(jié)構(gòu)的基礎(chǔ)上,使用DQN 算法,結(jié)合其經(jīng)驗(yàn)回放技術(shù),構(gòu)建如下基于IDQN結(jié)構(gòu)的商品推薦算法:

        3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)描述

        本文實(shí)驗(yàn)數(shù)據(jù)分為線下實(shí)驗(yàn)數(shù)據(jù)和線上實(shí)驗(yàn)數(shù)據(jù)。線下實(shí)驗(yàn)數(shù)據(jù)主要使用Retailrocket 推薦系統(tǒng)數(shù)據(jù)集(Kaggle 網(wǎng)站頂級(jí)數(shù)據(jù)集),該數(shù)據(jù)集采集了真實(shí)電子商務(wù)交易網(wǎng)站中的推薦數(shù)據(jù);線上實(shí)驗(yàn)數(shù)據(jù)主要在“什么值得買”app 上進(jìn)行采集(下文統(tǒng)一用“線上推薦數(shù)據(jù)集”表示)。

        經(jīng)過數(shù)據(jù)預(yù)處理后,Retailrocket 推薦系統(tǒng)數(shù)據(jù)集中可用數(shù)據(jù)如表2 所示。為了模擬真實(shí)的商品推薦過程,在線下訓(xùn)練數(shù)據(jù)中,對(duì)于每個(gè)用戶,將其購(gòu)買記錄按照購(gòu)買時(shí)間排序,取前80%作為訓(xùn)練集,后20%作為測(cè)試集。

        下面將分別對(duì)Retailrocket 推薦系統(tǒng)數(shù)據(jù)集和線上推薦數(shù)據(jù)集中的數(shù)據(jù)按照用戶請(qǐng)求訪問推薦商品的次數(shù)、商品被推薦的次數(shù)、用戶與商品交互時(shí)間進(jìn)行統(tǒng)計(jì)和分析。

        1)用戶請(qǐng)求訪問推薦商品的次數(shù)和商品被推薦的次數(shù)統(tǒng)計(jì)。

        將上述數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后可以得到每個(gè)用戶請(qǐng)求訪問推薦商品的次數(shù)和每個(gè)商品被推薦的次數(shù),如圖7所示。

        如圖7為用戶和商品的基本數(shù)據(jù)統(tǒng)計(jì)圖,通過對(duì)圖7觀察發(fā)現(xiàn),這兩組數(shù)據(jù)集均呈現(xiàn)傾斜狀態(tài),說明用戶訪問商品的次數(shù)具有長(zhǎng)尾分布特征,即大部分用戶訪問次數(shù)少于500,而每個(gè)商品被推薦的次數(shù)也存在長(zhǎng)尾分布特征,大部分商品被推薦的次數(shù)少于100。

        2)用戶與商品交互時(shí)間統(tǒng)計(jì)。

        如圖8所示,圖(a)和圖(b)分別為Retailrocket推薦系統(tǒng)數(shù)據(jù)集和線上推薦數(shù)據(jù)集中用戶和商品交互時(shí)間統(tǒng)計(jì)圖,其中,0:00 到6:00 點(diǎn)用戶行為發(fā)生次數(shù)呈下降趨勢(shì),7:00 到16:00呈上升趨勢(shì),17:00到24:00首先出現(xiàn)下降趨勢(shì),然后經(jīng)過一個(gè)小的波動(dòng)后趨于平穩(wěn),這一趨勢(shì)基本符合正常人的作息時(shí)間。

        圖7 用戶和商品基本數(shù)據(jù)統(tǒng)計(jì)Fig.7 Basic data statistics of users and commodities

        圖8 用戶和商品交互時(shí)間統(tǒng)計(jì)Fig.8 Interaction time statistics of users and commodities

        3.2 實(shí)驗(yàn)方案設(shè)計(jì)與評(píng)價(jià)指標(biāo)

        3.2.1 對(duì)比基準(zhǔn)模型

        為了驗(yàn)證本文所提出的基于IDQN 結(jié)構(gòu)的商品推薦模型在推薦精度和商品多樣性等方面優(yōu)于目前已有的優(yōu)秀的線上推薦模型,本文選取因子分解機(jī)(Factorization Machine,F(xiàn)M)模型[20]、W&D(Wide & Deep learning)模型[21]和協(xié)同過濾(Collaborative Filtering,CF)模型作為對(duì)照模型。

        3.2.2 模型評(píng)價(jià)指標(biāo)

        為了對(duì)比各模型的推薦效果,本文分別選取了準(zhǔn)確率(Precision)[22]、召回率(Recall)[22]、MAP[22]、NDCG[23]和商品多樣性(Intra-list Similarity,ILS)[24]這5 組指標(biāo)作為模型的評(píng)估標(biāo)準(zhǔn)。其中模型是針對(duì)341 032個(gè)用戶分別進(jìn)行推薦預(yù)測(cè),得到的指標(biāo)值是所有用戶預(yù)測(cè)結(jié)果的平均值。

        3.2.3 實(shí)驗(yàn)方案設(shè)計(jì)

        本文主要設(shè)置了1 個(gè)實(shí)驗(yàn)組和12 個(gè)對(duì)照組,具體內(nèi)容和區(qū)別如表3 所示。在網(wǎng)絡(luò)結(jié)構(gòu)中T-DQN 表示傳統(tǒng)DQN 結(jié)構(gòu),DN 表示基于競(jìng)爭(zhēng)架構(gòu)的DQN 結(jié)構(gòu),NF 表示考慮用戶負(fù)反饋的DQN 結(jié)構(gòu),PT 表示考慮用戶購(gòu)買時(shí)序性的DQN 結(jié)構(gòu),在探索函數(shù)中EG指ε-greedy算法,BM指Boltzmanm算法。

        其中,實(shí)驗(yàn)組完全按照本文基于IDQN結(jié)構(gòu)的商品推薦模型設(shè)計(jì)思路進(jìn)行。對(duì)照實(shí)驗(yàn)共設(shè)置了12組,第1組到第7組主要是為了測(cè)試本文在傳統(tǒng)DQN結(jié)構(gòu)的基礎(chǔ)上進(jìn)行的3個(gè)方面的改進(jìn)是否使推薦的準(zhǔn)確率、召回率、MAP 和NDCG 得到提升,其中這3 個(gè)方面的改進(jìn)分別為DN、NF 和PT;第8 組和第9組主要為了測(cè)試DBGD 探索策略性能的優(yōu)劣,分別采用EG 和BM這兩種常用的探索策略作為對(duì)照,模型的評(píng)價(jià)指標(biāo)除了準(zhǔn)確率、召回率、MAP、NDCG 之外,更重要的是商品推薦多樣性是否有所增強(qiáng);第10組~第12組為對(duì)比基準(zhǔn)模型,用于驗(yàn)證本文提出的模型是否優(yōu)于這些推薦領(lǐng)域中的經(jīng)典模型。

        表3 實(shí)驗(yàn)方案設(shè)計(jì)Tab.3 Experimental scheme design

        3.3 實(shí)驗(yàn)結(jié)果分析

        3.3.1 實(shí)驗(yàn)設(shè)置

        本文采用Grid Search 方法來確定模型的參數(shù),從而找到準(zhǔn)確率最高的參數(shù)組合,表4 是通過網(wǎng)格搜索法確定的最優(yōu)參數(shù)組合。

        3.3.2 模型評(píng)價(jià)指標(biāo)

        線下實(shí)驗(yàn)主要是依據(jù)離線數(shù)據(jù)進(jìn)行的,離線數(shù)據(jù)是靜態(tài)的,無法對(duì)探索策略的性能進(jìn)行測(cè)試,因此在線下實(shí)驗(yàn)中不考慮探索策略對(duì)推薦商品多樣性的影響,只考慮不同模型在Precision、Recall、MAP和NDCG上的區(qū)別。

        本文對(duì)實(shí)驗(yàn)設(shè)計(jì)方案中的1個(gè)實(shí)驗(yàn)組和12個(gè)對(duì)照組分別進(jìn)行了線下實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表5 所示,實(shí)驗(yàn)的圖形展示如圖9所示。

        表4 參數(shù)設(shè)置表Tab.4 Parameter setting

        表5 線下推薦實(shí)驗(yàn)的推薦效果Tab.5 Recommendation effects of offline recommendation experiments

        實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)組的推薦效果在整體上明顯優(yōu)于其余12 個(gè)對(duì)照組,證明基于IDQN 結(jié)構(gòu)的商品推薦模型具有更好的推薦效果,其中,Precision@5推薦準(zhǔn)確率最高,Recall@10召回率最高。在推薦準(zhǔn)確率上,實(shí)驗(yàn)組和對(duì)照組1~7 中表現(xiàn)最差的為Precision@5 中的對(duì)照組4,推薦準(zhǔn)確率為0.098 6,在經(jīng)典推薦模型中表現(xiàn)最好的為Precision@10 中的W&D,推薦準(zhǔn)確率為0.064 7,準(zhǔn)確率提高了52.40%,本文提出的模型即實(shí)驗(yàn)組,推薦準(zhǔn)確率在Precision@20 中表現(xiàn)最差,推薦準(zhǔn)確率為0.167 2,與W&D 相比,推薦準(zhǔn)確率提高了158.42%;在推薦召回率上,實(shí)驗(yàn)組和對(duì)照組1~7 中表現(xiàn)最差的為Recall@20中的對(duì)照組1,推薦召回率為0.110 9,在經(jīng)典推薦模型中表現(xiàn)最好的為Recall@10 中的FM,推薦召回率為0.102 1,召回率提高了8.62%,實(shí)驗(yàn)組推薦召回率表現(xiàn)最差的Recall@5,推薦召回率為0.193 8,與W&D 相比,推薦召回率提高了89.81%;在推薦MAP 值上,實(shí)驗(yàn)組和對(duì)照組1~7 中表現(xiàn)最差的為對(duì)照組2,MAP值為0.070 6,在經(jīng)典推薦模型中表現(xiàn)最好的為W&D,MAP 值為0.050 1,MAP 值提高了40.92%,本文提出的模型即實(shí)驗(yàn)組,MAP 值為0.097 7,與W&D 相比,MAP 值提高了95.00%;在NDCG 值上,實(shí)驗(yàn)組和對(duì)照組1~7 中表現(xiàn)最差的為對(duì)照組2,NDCG 值為0.170 2,在經(jīng)典推薦模型中表現(xiàn) 最 好 的 為W&D,NDCG 值 為0.151 7,NDCG 值 提 高 了12.20%,本文提出的模型即實(shí)驗(yàn)組,NDCG 值為0.254 2,與W&D相比,NDCG值提高了67.57%。

        綜上可以發(fā)現(xiàn),在推薦準(zhǔn)確率、召回率、MAP和NDCG上,實(shí)驗(yàn)組和對(duì)照組1~7中表現(xiàn)最差的與經(jīng)典模型中表現(xiàn)最好的相比,精度分別提高了52.40%、8.62%、40.92%、12.20%,證明了將DQN 模型應(yīng)用于商品推薦中的有效性和可行性,將本文提出的模型與經(jīng)典模型中表現(xiàn)最好的相比,精度分別提高了158.42%、89.81%、95.00%、67.57%,驗(yàn)證了本文提出的模型在商品推薦中具有更好的推薦效果。

        圖9 線下推薦實(shí)驗(yàn)結(jié)果比較Fig.9 Comparison of offline recommendation experimental results

        3.3.3 線上實(shí)驗(yàn)及結(jié)果分析

        線上實(shí)驗(yàn)部分主要是將該模型放到電子商務(wù)推薦平臺(tái)上,進(jìn)行一定時(shí)長(zhǎng)的線上測(cè)試。在線上實(shí)驗(yàn)中不僅要考慮推薦效果(準(zhǔn)確率/召回率/MAP/NDCG),更重要的是要考慮商品推薦的多樣性。本文設(shè)計(jì)的基于DBGD 算法的探索策略,能夠通過這一策略為用戶推薦新穎且感興趣的商品,而推薦效果和商品多樣性這兩個(gè)評(píng)價(jià)指標(biāo)能夠較好地反映這一問題。

        1)推薦效果。

        本文對(duì)實(shí)驗(yàn)設(shè)計(jì)方案中的1個(gè)實(shí)驗(yàn)組和12個(gè)對(duì)照組分別進(jìn)行了線上實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表6 所示,實(shí)驗(yàn)的圖形展示如圖10所示。

        表6 線上推薦實(shí)驗(yàn)推薦效果Tab.6 Recommendation effects of online recommendation experiments

        實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)組的推薦效果在整體上明顯優(yōu)于其余12 個(gè)對(duì)照組,證明本文提出的基于IDQN 的網(wǎng)絡(luò)結(jié)構(gòu)的商品推薦模型具有更好的推薦效果。根據(jù)實(shí)驗(yàn)設(shè)計(jì)方案得知,實(shí)驗(yàn)組、對(duì)照組8和9分別使用DBGD、EG、BM作為探索函數(shù),在離線實(shí)驗(yàn)環(huán)境下,由于候選商品的集合有限,無法充分利用探索算法與用戶進(jìn)行最佳的交互,而在線上推薦中可以明顯看出實(shí)驗(yàn)組相較于對(duì)照組8~9 具有更好的推薦效果,因此驗(yàn)證了本文設(shè)計(jì)的DBGD探索函數(shù)的可行性和優(yōu)越性。

        2)商品多樣性。

        本文分別對(duì)1 個(gè)實(shí)驗(yàn)組和12 個(gè)對(duì)照組進(jìn)行了線上測(cè)試,得出了推薦商品多樣性的結(jié)果,商品多樣性由指標(biāo)ILS 表示,而ILS 主要用來衡量推薦商品之間的相似性,因此ILS 值越小,表明推薦商品相似性越低,即推薦的商品更具多樣性。實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表7所示,實(shí)驗(yàn)的圖形展示如圖11所示。

        圖10 線上推薦實(shí)驗(yàn)結(jié)果比較Fig.10 Comparison of online recommendation experimental results

        表7 線上推薦實(shí)驗(yàn)商品多樣性Tab.7 Commodity diversity of online recommendation experiments

        圖11 推薦商品多樣性Fig.11 Diversity of recommended commodities

        其中實(shí)驗(yàn)組和對(duì)照組1~7 使用DBGD 作為探索函數(shù),對(duì)照組8 采用EG 作為探索函數(shù),對(duì)照組9 使用BM 作為探索函數(shù)。從推薦商品多樣性的結(jié)果中可以看出,實(shí)驗(yàn)組和對(duì)照組1~7 的ILS 值明顯低于對(duì)照組8~9,同時(shí)遠(yuǎn)遠(yuǎn)低于對(duì)比基準(zhǔn)模型,表明使用本文提出的DBGD 算法作為商品推薦模型的探索函數(shù)增加了商品推薦的多樣性。

        4 結(jié)語(yǔ)

        本文在前人研究的基礎(chǔ)上,針對(duì)商品推薦中存在的用戶正負(fù)反饋問題和商品購(gòu)買時(shí)序性問題,對(duì)傳統(tǒng)DQN 模型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析和改進(jìn),構(gòu)建了一個(gè)基于IDQN 結(jié)構(gòu)的商品推薦模型,該模型針對(duì)用戶興趣動(dòng)態(tài)變化問題使用強(qiáng)化學(xué)習(xí)的試錯(cuò)機(jī)制進(jìn)行在線學(xué)習(xí),學(xué)習(xí)以最大化智能體從環(huán)境中獲得的累積回報(bào)為目標(biāo),同時(shí)采用“利用+探索”的策略對(duì)商品進(jìn)行推薦,對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出的模型無論是在推薦效果還是在推薦商品多樣性上都優(yōu)于現(xiàn)有的推薦模型。

        本文首次嘗試將改進(jìn)的DQN 應(yīng)用于商品推薦領(lǐng)域,同時(shí)對(duì)探索函數(shù)進(jìn)行了針對(duì)性改進(jìn),增加了算法的穩(wěn)定性,使推薦效果有了較大提高。但是由于時(shí)間和精力有限,本文在研究中還存在以下四個(gè)方面的缺點(diǎn)和不足:1)實(shí)驗(yàn)數(shù)據(jù)量不足,商品-用戶數(shù)據(jù)較少;2)線下實(shí)驗(yàn)數(shù)據(jù)集單一,只有一個(gè)Retailrocket推薦系統(tǒng)數(shù)據(jù)集,需要擴(kuò)充數(shù)據(jù)集;3)線上實(shí)驗(yàn)時(shí)間不足,由于推薦平臺(tái)的限制,本文線上實(shí)驗(yàn)時(shí)間僅為兩周;4)在用戶反饋中沒有將用戶行為進(jìn)行區(qū)分,一般來說,略過、點(diǎn)擊查看、加入購(gòu)物車和購(gòu)買依次表現(xiàn)了用戶對(duì)商品喜好程度的增加,而本文在用戶反饋中沒有對(duì)用戶行為進(jìn)行區(qū)分。

        猜你喜歡
        特征用戶實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        久久久久女人精品毛片| 一区二区三区av在线| 国产精品亚洲а∨无码播放| 四虎影视免费永久在线观看| 亚洲аv天堂无码| 亚洲综合一区二区三区蜜臀av| 精品人妻av一区二区三区麻豆| 亚洲熟妇自偷自拍另欧美| 五月天精品视频在线观看| 天天摸天天做天天爽天天舒服| 日本师生三片在线观看| 成人一区二区免费中文字幕视频| 国产精品无套内射迪丽热巴| 中文亚洲AV片在线观看无码| 日韩av一区二区三区精品久久| 国产三级精品三级| 蜜臀av免费一区二区三区| 国产免费的视频一区二区| 中文字幕久久久人妻人区| 精品久久香蕉国产线看观看亚洲| 午夜成人理论无码电影在线播放| 国产黑色丝袜在线观看网站91| 亚洲高清在线天堂精品| 免费观看激色视频网站| 亚洲VA中文字幕欧美VA丝袜| 久久99国产精品久久99密桃| 日本熟妇人妻xxxx| 区久久aaa片69亚洲| 中文字幕人妻丝袜成熟乱| 青青草手机在线观看视频在线观看| 国产熟妇另类久久久久| 久久这里只有精品9| 亚洲精品综合久久国产二区| 久久精品国产字幕高潮| 欧洲-级毛片内射| 久久免费网站91色网站| 熟女中文字幕一区二区三区| 亚洲aⅴ在线无码播放毛片一线天| 亚洲色偷拍一区二区三区| 国产av剧情精品麻豆| 蜜臀性色av免费|