亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向群組用戶時(shí)序行為的動態(tài)推薦算法

        2021-01-21 03:22:54蔡瑞初郝志峰
        計(jì)算機(jī)應(yīng)用 2021年1期
        關(guān)鍵詞:群組物品矩陣

        溫 雯,劉 芳*,蔡瑞初,郝志峰,2

        (1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510000;2.佛山科學(xué)技術(shù)學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院,廣東佛山 528000)

        0 引言

        近年來,互聯(lián)網(wǎng)上的信息資源不斷豐富,人們對線上信息的依賴程度越來越高。在這種時(shí)代背景下,用戶在面對大量信息時(shí)也越來越難以獲得自己真正感興趣的部分,如何定位用戶感興趣的信息、并將其展示(曝光)給用戶也成為信息系統(tǒng)所需面臨的一個(gè)挑戰(zhàn)。因此,通過對用戶的歷史行為數(shù)據(jù)建模,從而主動為用戶推薦偏好內(nèi)容的個(gè)性化推薦系統(tǒng)[1]具有重要且現(xiàn)實(shí)的應(yīng)用意義。近年來,推薦系統(tǒng)已經(jīng)成功應(yīng)用到了諸多領(lǐng)域,最常見的應(yīng)用落地場景有:在線視頻[2]、社交網(wǎng)絡(luò)[3-5]、在線音樂[6]、電子商務(wù)[7]等。

        傳統(tǒng)的推薦系統(tǒng)通過分析用戶的歷史時(shí)序行為,挖掘用戶的個(gè)性化需求,從而將一些商品個(gè)性化推薦給相應(yīng)的用戶,幫助用戶找到自己想要但難以被發(fā)現(xiàn)的商品[8],目前應(yīng)用最廣泛的是基于協(xié)同過濾(Collaborative Filtering,CF)算法[9-11]的推薦系統(tǒng)。然而,在現(xiàn)實(shí)生活中,用戶的歷史行為往往是復(fù)雜多變的。譬如,對于互聯(lián)網(wǎng)在線購物數(shù)據(jù)而言,用戶的行為記錄包括購買、瀏覽、收藏等,這些行為數(shù)據(jù)構(gòu)成了用戶的曝光數(shù)據(jù),即用戶已經(jīng)了解或看到了這些商品;而用戶購買過的物品可以表明用戶的個(gè)人喜好,因此構(gòu)成用戶點(diǎn)擊數(shù)據(jù)。即通過用戶對商品的購買行為可以分析用戶是否喜愛該商品或該商品是否只是曝光給了用戶,但對于用戶未瀏覽或購買的商品,并不能直接表明用戶不喜歡這些商品,有可能是因?yàn)橛脩魪奈绰犝f過這些商品[12-13]。而僅基于用戶歷史點(diǎn)擊行為數(shù)據(jù)建模的推薦算法并未考慮到這一點(diǎn),且用戶的興趣往往是隨著時(shí)間動態(tài)變化的,因此推薦結(jié)果往往會產(chǎn)生偏差。

        此外,對于互聯(lián)網(wǎng)在線電視節(jié)目點(diǎn)播系統(tǒng)和網(wǎng)上購物系統(tǒng)來說,一個(gè)用戶ID所產(chǎn)生的觀看/購買歷史記錄背后可能隱含了多個(gè)家庭成員的觀看/購買記錄,而往往家庭成員之間的喜好不盡相同,即系統(tǒng)所采集的數(shù)據(jù)是用戶群組的數(shù)據(jù),且每個(gè)成員的喜好也會隨時(shí)間而動態(tài)變化,但目前的推薦算法并未考慮這一情況。

        本文針對以上問題提出一種面向群組用戶時(shí)序行為的動態(tài)偏好推薦方法,由于經(jīng)典的推薦算法直接對用戶的點(diǎn)擊數(shù)據(jù)建模,這種建模方法會使得系統(tǒng)側(cè)重于推薦用戶經(jīng)常點(diǎn)擊的物品而忽視了曝光數(shù)據(jù)對系統(tǒng)結(jié)果造成的偏差影響。因此本文利用因果推斷(Causal Inference,CI)[14]中的逆傾向加權(quán)方法(Inverse Propensity Weighting,IPW),將數(shù)據(jù)以其流行度的倒數(shù)輸入模型進(jìn)行加權(quán)訓(xùn)練,使得訓(xùn)練時(shí)所有物品相當(dāng)于處于一個(gè)以同等概率曝光的公平狀態(tài),盡可能減小經(jīng)常對用戶曝光的物品對推薦系統(tǒng)產(chǎn)生的偏差。

        本文的主要工作和貢獻(xiàn)如下:

        1)本文提出了一種面向群組用戶時(shí)序行為的動態(tài)偏好推薦方法,通過融合數(shù)據(jù)集中時(shí)間序列的特性和隱含群組的信息,為用戶作動態(tài)時(shí)序推薦;

        2)構(gòu)建出某一時(shí)刻下群組角色的多項(xiàng)式分布概率矩陣,得到該時(shí)刻下的用戶角色,按時(shí)間為用戶作精準(zhǔn)推薦;

        3)針對曝光模型設(shè)計(jì)了兩種計(jì)算流行度的方法,并采用逆傾向加權(quán)思想將流行度融入訓(xùn)練過程中,使得流行度較高的物品不會產(chǎn)生太大的權(quán)重,平衡樣本狀態(tài);

        4)在網(wǎng)絡(luò)電視節(jié)目IPTV 數(shù)據(jù)集和阿里巴巴網(wǎng)上購物云主題(Cloud theme)兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,本文提出的時(shí)序推薦算法可以切實(shí)有效地為群組用戶做出推薦。

        1 相關(guān)工作

        與本文相關(guān)的工作主要包括以下2 個(gè)方面:1)基于矩陣分解的推薦算法;2)面向時(shí)間序列的推薦算法。

        1.1 基于矩陣分解的推薦算法

        傳統(tǒng)矩陣分解[15-16]的基本思想是將推薦系統(tǒng)中所有用戶和物品映射到一個(gè)共享的潛在因子空間(Latent Factor Space),然后分別使用用戶潛在偏好特征向量(User Latent Feature Vector)和物品潛在屬性特征向量(Item Latent Feature Vector)代表對應(yīng)的用戶和物品,因此用戶-物品之間的關(guān)聯(lián)矩陣可被建模成兩個(gè)潛在特征向量的內(nèi)積。早期基于矩陣分解的算法[17-18]主要針對用戶的顯式反饋信息建模,即直接利用用戶對物品的評分來預(yù)測用戶的偏好,然而這種只關(guān)注可觀測到的正向反饋信息的做法在真實(shí)的Top-K推薦場景下會導(dǎo)致比較差的效果,且應(yīng)用場景受限。

        此外,Salakhutdinov 等[19]在2007 年提出的概率矩陣分解(Probabilistic Matrix Factorization,PMF)模型中假設(shè)用戶評分矩陣中的元素是由用戶潛在偏好向量和節(jié)目潛在屬性向量的內(nèi)積決定的,并服從正態(tài)分布,該算法能有效解決大型數(shù)據(jù)集中用戶行為稀疏的問題。文獻(xiàn)[11]中針對隱式反饋數(shù)據(jù)提出加權(quán)矩陣分解(Weighted Matrix Factorization,WMF)模型,通過對樣本引入置信度來確定用戶喜好該物品的程度,實(shí)驗(yàn)表明該模型尤其在數(shù)字電視數(shù)據(jù)集上效果顯著。Lee 等[16]1999年在Nature上提出了一種新的矩陣分解思想——非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)算法,它假設(shè)用戶評分矩陣分解出來的小矩陣應(yīng)該滿足非負(fù)約束,使得分解出來的結(jié)果更能符合現(xiàn)實(shí)世界的解釋,譬如圖像數(shù)據(jù)中不可能存在負(fù)數(shù)的像素值,在文檔統(tǒng)計(jì)中,詞頻為負(fù)也無法解釋。文獻(xiàn)[20]中提出一種DBPMF(Deep Bias Probabilistic Matrix Factorization)模型,利用深度卷積網(wǎng)絡(luò)提取用戶/物品的特征并將其融入PMF 中,以此來跟進(jìn)用戶的評分行為和物品的流行度變化,建立在線協(xié)同過濾系統(tǒng)。文獻(xiàn)[21]中采用一種非采樣的方法提出了 ENMF(Efficient Neural Matrix Factorization)模型,通過推導(dǎo)的三種優(yōu)化方法來有效學(xué)習(xí)數(shù)據(jù)中的模型參數(shù),減小了計(jì)算復(fù)雜度,改善了由于采用負(fù)采樣方法的傳統(tǒng)模型而產(chǎn)生的計(jì)算消耗和魯棒性問題。另外,Liang 等[13]在傳統(tǒng)矩陣分解的基礎(chǔ)上就用戶是否對物品曝光這一問題進(jìn)行建模,將曝光因子建模成一個(gè)隱變量,根據(jù)用戶行為數(shù)據(jù)推斷其值,并利用不同數(shù)據(jù)中的附加信息(如文檔主題、街道位置)建模,提出了一種ExpoMF(Exposure Matrix Factorization)模型。同時(shí),Liang 等[12]提出IPW-MF(Inverse Propensity Weighted Matrix Factorization)模型,它對用戶的曝光數(shù)據(jù)和點(diǎn)擊數(shù)據(jù)分別建模成曝光模型和點(diǎn)擊模型,其中曝光模型又分別根據(jù)物品流行度和用戶搜索情況具體化為流行度模型和泊松模型,并在模型訓(xùn)練中引入因果推斷中的逆傾向評分加權(quán)方法,消除由于曝光數(shù)據(jù)產(chǎn)生的推薦偏差。該算法最接近本文的工作,不同的是本文在曝光模型部分采用的是流行度模型,并根據(jù)問題設(shè)計(jì)了兩種計(jì)算流行度的方式,最后依據(jù)時(shí)序數(shù)據(jù)的特性按時(shí)間為用戶做出Top-K推薦。

        傳統(tǒng)的矩陣分解推薦算法雖基于用戶的歷史點(diǎn)擊行為數(shù)據(jù)可以預(yù)測特定用戶對某物品的喜好,但其面臨著用戶數(shù)據(jù)稀疏、冷啟動等問題。而改進(jìn)的矩陣分解模型雖然可以解決數(shù)據(jù)稀疏、縮短訓(xùn)練時(shí)間等問題,但其在設(shè)計(jì)時(shí)沒有主動地考慮到用戶興趣是隨時(shí)間變化的,針對這一不足之處,本文探究了在時(shí)間序列上應(yīng)用矩陣分解方法為用戶做動態(tài)推薦的問題。

        1.2 面向時(shí)間序列的推薦算法

        近年來,工業(yè)界和學(xué)者們逐漸將目光投向了時(shí)間序列上的推薦算法研究。如Koren[18]在矩陣分解的基礎(chǔ)上對時(shí)間進(jìn)行建模,提出將SVD++模型與時(shí)間參數(shù)聯(lián)合起來建模成TimeSVD++,該方法能有效挖掘用戶喜好的局部變化,并準(zhǔn)確地預(yù)測電影評分。文獻(xiàn)[22]中提出一種在線進(jìn)化協(xié)同過濾方法來捕捉用戶興趣隨時(shí)間的動態(tài)變化,達(dá)到實(shí)時(shí)推薦的效果。此外,文獻(xiàn)[23]基于用戶評分的時(shí)序信息同時(shí)構(gòu)建用戶和物品的近鄰關(guān)系,并將兩者融入到PMF 中,提出基于用戶時(shí)序行為的推薦算法(SequentialMF)。文獻(xiàn)[24]提出一種ISLF(Interest Shift and Latent Factors combination model),將用戶興趣轉(zhuǎn)移(Interest Shift)與潛在因子方法結(jié)合起來,通過考慮用戶長短期興趣變化從而捕捉用戶真正的偏好。Liu 等[25]為給用戶作時(shí)序推薦引入了馬爾可夫模型(Markov Model)來找出用戶評分行為的周期性特征,提升了計(jì)算效率。文獻(xiàn)[26]首次將泊松分解框架和泊松過程聯(lián)系起來提出一種RPF(Recurrent Poisson Factorization)框架,通過推斷用戶隨時(shí)間動態(tài)變化的興趣愛好從而在合適的時(shí)間為其推薦合適的物品,并針對不同的問題場景提出了三個(gè)RPF的變體框架。以上基于時(shí)間序列的推薦算法雖然考慮到了用戶興趣是隨時(shí)間動態(tài)變化的這一問題,但它們都是針對用戶行為由單一角色產(chǎn)生這一場景下的,沒有考慮到在現(xiàn)實(shí)場景中,一個(gè)用戶ID 所呈現(xiàn)的行為記錄可能是由一個(gè)家庭的多個(gè)成員所產(chǎn)生的。

        同時(shí)隨著深度學(xué)習(xí)[27-28]的興起,眾多時(shí)間序列的研究都逐漸偏向使用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測用戶行為[29-32],并能取得不錯(cuò)的效果,但是對于本文研究的問題來說,單一時(shí)間片的單用戶數(shù)據(jù)具有較大的稀疏性,而深度學(xué)習(xí)的方法對于數(shù)據(jù)量要求很高,因此不能獲得較好的學(xué)習(xí)效果,其次深度學(xué)習(xí)的過程缺乏一定的可解釋性。

        據(jù)了解,目前的研究工作中,還沒有關(guān)注到個(gè)體用戶背后的隱變量,即用戶背后存在的群組角色不定,可能會在不同的時(shí)刻產(chǎn)生不同的興趣,本文工作正是考慮到了以上問題并結(jié)合時(shí)間序列的特點(diǎn)針對此類群組用戶為其做出合適的物品推薦。

        2 問題描述

        本章首先給出問題定義,然后對群組用戶下的推薦問題進(jìn)行形式化描述并約定相關(guān)符號。

        2.1 問題定義

        本文的目標(biāo)是利用曝光數(shù)據(jù)判別出隱藏在用戶背后的群組角色,然后研究用戶在一天24 個(gè)時(shí)刻下的時(shí)序行為,最后按時(shí)間為用戶做出推薦。相關(guān)術(shù)語和問題定義如下。

        定義1定義用戶行為是隨時(shí)間t變化的,本文研究用戶一天24 個(gè)時(shí)刻下的行為,因此本文中所用到的時(shí)刻均是指間隔1 h 的時(shí)間段,例如t=0 時(shí)刻表示0:00—1:00(包括0:00 時(shí)刻)的時(shí)間段。

        定義2定義第d天、第t時(shí)刻下用戶u的行為觀測數(shù)據(jù)集D(u,t)包括曝光數(shù)據(jù)aui(t)和點(diǎn)擊數(shù)據(jù)yui(t),即D(u,t)={aui(t),yui(t)},其中曝光數(shù)據(jù)aui(t)表示用戶u看過或了解物品i,yui(t)表示用戶u點(diǎn)擊了物品i。且用戶u只能在物品i已曝光的條件下點(diǎn)擊它,即p(yui(t)=1|aui(t)=0)=0。

        定義3定義用戶背后隱藏了多個(gè)群組角色uw(u,t),(w=1,2,…),w為角色類型,譬如可以是家庭中常見的角色類型:兒童、青少年、成年人、老人等。本文依據(jù)實(shí)驗(yàn)數(shù)據(jù)集特性,按照不同物品訪問的群體(群組角色)不同對物品進(jìn)行劃分,且為符合現(xiàn)實(shí)情況和便于說明,將群組角色定義為三類并給定對應(yīng)的標(biāo)簽:兒童、成年人、老人。在不同時(shí)刻下,產(chǎn)生用戶點(diǎn)擊行為的角色類型是隨時(shí)間變化的。

        問題定義給定任意用戶u∈{1,2,…,U}以及用戶在前m天不同時(shí)刻下的行為觀測數(shù)據(jù)集D(u,t)、用戶角色uw(u,t),本文的任務(wù)是通過構(gòu)建學(xué)習(xí)模型獲得用戶隨時(shí)間變化的偏好預(yù)測函數(shù),從而能夠?qū)+1 天之后的用戶行為進(jìn)行Top-K推薦。

        2.2 相關(guān)符號

        為了能更好地闡述本算法的模型,本節(jié)給出本文中所用的相關(guān)符號及其含義,如表1所示。

        表1 相關(guān)符號及含義Tab.1 Related symbols and their definitions

        3 面向群組用戶時(shí)序行為的動態(tài)偏好推薦

        3.1 模型描述

        本文主要研究用戶群組角色隨時(shí)間而變化的情況下,如何結(jié)合用戶的曝光數(shù)據(jù)及點(diǎn)擊行為記錄對用戶偏好進(jìn)行準(zhǔn)確預(yù)測,即不同時(shí)刻下用戶背后的群組角色是隨時(shí)間變化的隱變量,本文將用戶每天的行為記錄看成一天24 個(gè)時(shí)刻下的周期行為。首先根據(jù)用戶的曝光行為數(shù)據(jù)構(gòu)造出曝光模型,這里本文采用的是流行度模型,得到當(dāng)前時(shí)刻下的群組角色,然后在物品已曝光的條件下,用戶偏好由傳統(tǒng)的矩陣分解模型推測得出。

        矩陣分解是假設(shè)在一個(gè)推薦系統(tǒng)中存在用戶u∈{1,2,…,U}和物品i∈{1,2,…,I},對于給定的用戶點(diǎn)擊行為矩陣Yui∈RU×I,yui表示用戶u對物品i的點(diǎn)擊,θu表示用戶u的潛在偏好向量θu∈Rk,βi表示物品i的潛在屬性向量βi∈Rk,其中k為向量維度,求解出用戶潛在偏好特征矩陣Θu和物品潛在屬性特征矩陣Bi,使得兩者之積盡可能擬合Yui。一般可利用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)法迭代計(jì)算式(1)的局部最優(yōu)解θu和βi:

        其中:D表示用戶的所有觀測數(shù)據(jù),即用戶的歷史行為記錄,表示模型的正則化項(xiàng),λ為超參,用于控制模型的正則化程度。yui>0 表示用戶u對物品i的真實(shí)喜好程度表示系統(tǒng)預(yù)測的用戶u對物品i的喜好程度。

        和經(jīng)典的矩陣分解方法[19]一樣,假設(shè)隨時(shí)間變化的用戶潛在偏好向量θu(t)和物品潛在屬性向量βi(t)、用戶是否點(diǎn)擊已曝光物品yui|aui=1 的情況均服從正態(tài)分布,物品i是否對用戶u曝光服從伯努利分布,具體如下:

        雷貝拉唑?yàn)楸讲⑦溥蝾惢衔铮堑诙|(zhì)子泵抑制劑,通過特異性地抑制胃壁細(xì)胞H+、K+‐ATP酶系統(tǒng)而阻斷胃酸分泌的最后步驟。臨床上注射用雷貝拉唑鈉主要用于口服療法不適用的胃、十二指腸潰瘍出血,并可使基礎(chǔ)胃酸分泌和刺激狀態(tài)下的胃酸分泌均受抑制[1]。注射用雷貝拉唑鈉的臨床前藥理學(xué)的研究報(bào)道較少,有關(guān)臨床應(yīng)用以及檢測方法的居多。本研究主要考察注射用雷貝拉唑鈉對不同潰瘍模型大鼠的抑制作用,包括對吲哚美辛引起的胃潰瘍、醋酸性胃潰瘍、大鼠反流性食管炎以及半胱胺型十二指腸潰瘍的影響。

        其中:δ0表示t時(shí)刻下未對用戶u曝光的物品i,被用戶點(diǎn)擊了的概率為0或未被用戶點(diǎn)擊的概率為1,即p(yui(t)=1|aui(t)=0)=0 或p(yui(t)=0|aui(t)=0)=1。(λθ,λβ,λy)為引入的超參,μui(t)為物品i在用戶中的流行度,結(jié)合本文的實(shí)際研究問題,本文將討論兩種方式來構(gòu)建物品的流行度模型。

        對于偏好預(yù)測的點(diǎn)擊模型,由于此時(shí)用戶的觀測數(shù)據(jù)集并不是直接來自于點(diǎn)擊數(shù)據(jù),因此利用傳統(tǒng)的貝葉斯后驗(yàn)推斷會由于曝光模型所決定的數(shù)據(jù)分布導(dǎo)致系統(tǒng)的推斷結(jié)果產(chǎn)生偏差,即經(jīng)常對用戶曝光的物品會產(chǎn)生太大的權(quán)重,而較少對用戶曝光的物品甚至沒有權(quán)重,最后可能導(dǎo)致用戶只能看到自己已經(jīng)看過的東西,而未看過的東西一直不會被看到,久而久之,用戶就會陷入一個(gè)“信息繭房”,看不到自己真正感興趣的信息。

        為了解決以上問題,本文借鑒了因果推斷[14]中的逆傾向評分加權(quán)思想,從觀測集中采樣物品并以其流行度的倒數(shù)對其進(jìn)行加權(quán)訓(xùn)練,使得在推斷用戶偏好時(shí)流行度高的物品權(quán)重減小,流行度低的物品權(quán)重增大,所有物品處于一個(gè)相對公平的環(huán)境里被均衡采樣,從而實(shí)現(xiàn)為用戶精準(zhǔn)推薦的目的。

        3.2 流行度模型

        首先根據(jù)用戶的可觀測數(shù)據(jù)構(gòu)造曝光模型,本文采用的是流行度模型。對于式(2)中的定義aui(t)~Bernoulli(μui(t)),一般做法是通過統(tǒng)計(jì)每個(gè)物品i被多少個(gè)用戶看見的比例來獲得最大似然估計(jì)即傾向評分值的計(jì)算為:

        但本文中所要解決的問題是隱含多個(gè)群組角色的用戶興趣隨時(shí)間變化的動態(tài)推薦問題,因此結(jié)合問題本文具體設(shè)計(jì)了以下兩種求解傾向評分值的思路。

        思路1 (Ours.v1)。物品i對用戶u的曝光是隨時(shí)間變化的。由于隱含在用戶背后的群組角色是隨時(shí)間變化的,例如對于電視點(diǎn)播數(shù)據(jù)集來說,早上7:00 可能是老年人在看早間新聞,晚上19:00 可能是兒童在看動畫節(jié)目。因此物品在不同時(shí)刻對于不同的群組角色曝光情況肯定是不同的,此時(shí)傾向評分值的計(jì)算為:

        其中:Uw(u,t)的計(jì)算方法與式(4)中一樣,μi_w為當(dāng)前t時(shí)刻下的物品在所屬物品集中的流行度矩陣,求得為|U|×24×|I|大小的矩陣。

        3.3 用戶偏好推斷

        在曝光的條件下,利用傳統(tǒng)的矩陣分解方法構(gòu)造點(diǎn)擊模型去得到用戶隨時(shí)間變化的潛在偏好因子θu(t)和物品潛在屬性因子βi(t),從而根據(jù)推斷出用戶的偏好。

        具體來說,利用逆傾向評分加權(quán)方法的矩陣分解模型的目標(biāo)函數(shù)為:

        首先計(jì)算用戶潛在偏好因子θu(t)。假設(shè)物品潛在屬性矩陣是一個(gè)隨時(shí)間變化的大小為|I|×k的矩陣β(t),其中k為向量維度,|I|為物品數(shù)目;對于每個(gè)用戶u定義一個(gè)隨時(shí)間變化的大小為|I|×|I|的對角矩陣Pu(t),其中Pu(t)=y(u)=yui表示用戶u的所有喜好,即用戶的點(diǎn)擊項(xiàng)。通過最小化損失函數(shù)(6)可得:

        同樣地,假設(shè)用戶潛在偏好矩陣是一個(gè)隨時(shí)間變化的大小為|U|×k的矩陣θ(t),對于每個(gè)物品i定義一個(gè)隨時(shí)間變化的大小為|U|×|U|的對角矩陣Pi(t),其中Pi(t)=yui表示用戶u的所有喜好。同樣可得物品潛在屬性因子為:

        通過不斷迭代模型得到θu(t)、βi(t)的值后,取的值按從大到小排在前K位對應(yīng)的物品為用戶做出推薦。

        3.4 學(xué)習(xí)算法及時(shí)間復(fù)雜度分析

        本節(jié)給出目標(biāo)函數(shù)優(yōu)化的完整算法流程,并分析該優(yōu)化算法的時(shí)間復(fù)雜度,其中該算法的復(fù)雜度主要在目標(biāo)函數(shù)參數(shù)更新的計(jì)算過程中。算法流程如算法1所示。

        算法1 目標(biāo)函數(shù)優(yōu)化算法。

        輸入 每個(gè)時(shí)刻下的點(diǎn)擊矩陣{Yui(t):?(u,i) ∈D(u,t)},潛在向量維度k,正則化參數(shù)λθ、λβ,利用式(4)或(5)計(jì)算出的傾向評分值。

        輸出 隨時(shí)間變化的用戶潛在偏好因子θ1:U(t)和物品潛在屬性因子β1:I(t)。

        在等式(7)中,βT(t)的計(jì)算對于每個(gè)用戶的時(shí)間復(fù)雜度為O(k2× |I|),將會耗費(fèi)大量的計(jì)算時(shí)間。為了加速優(yōu)化過程,本文采用WMF 中的方法,利用βT(t)βT(t)β(t) +βT(t)(1/Pu(t) -I)β(t),因此βT(t)β(t)的計(jì)算將獨(dú)立于用戶可以預(yù)先計(jì)算出來,而第二項(xiàng)βT(t)(1/Pu(t) -I)β(t)中的(1/Pu(t) -I)將只涉及到y(tǒng)ui=1的項(xiàng),因此時(shí)間復(fù)雜度與數(shù)據(jù)集中的用戶已點(diǎn)擊物品數(shù)成正比。式(7)中的y(u)同樣只與數(shù)據(jù)集中的用戶已點(diǎn)擊物品數(shù)相關(guān)。因此,式(7)中對于每個(gè)用戶的時(shí)間復(fù)雜度為O(k2|I|yui=1+k3+k|I|yui=1)=O(k2|I|yui=1+k3),其中O(k3)假設(shè)為式(7)中βT(t)β(t) +λθIk)-1的逆運(yùn)算復(fù)雜度。則對于數(shù)據(jù)集中的所有用戶數(shù)|U|的總的復(fù)雜度為O(k2|I|+k3|U|),其中可知,該算法的時(shí)間復(fù)雜度與輸入的用戶數(shù)和物品數(shù)成正比,其中向量維度k的值在本文實(shí)驗(yàn)中設(shè)置為50。同樣可知式(8)中物品潛在因子參數(shù)βi(t)的總的計(jì)算時(shí)間復(fù)雜度為

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 度量標(biāo)準(zhǔn)

        本文采用推薦系統(tǒng)中普遍適用的Recall、MAP(Mean Average Precision)、NDCG(Normalized Discounted Cumulative Gain)來評判模型性能。Recall衡量的是用戶推薦列表中的喜好物品數(shù)占測試集中用戶所有喜好的物品數(shù)比例;MAP 計(jì)算的是每個(gè)用戶的平均精度均值(Average Precision,AP),它考慮了推薦物品的位置,位置越靠前,MAP 值越高,推薦越精準(zhǔn);NDCG 是一個(gè)位置敏感型指標(biāo),推薦列表中用戶喜歡的物品位置越靠前,獲得的增益越大,推薦效果越好。假設(shè)Ru表示用戶u的Top-K推薦物品列表,Tu表示測試集中用戶u所有偏好的物品列表,d對應(yīng)推薦列表中的物品。計(jì)算公式如下:

        其中:I(x)是一個(gè)指示函數(shù),當(dāng)x>0 時(shí),I(x)=1,反之為0。表示用戶u的推薦列表中的第n個(gè)位置的物品。Pu(n)表示用戶u在前n個(gè)物品上的準(zhǔn)確度。Z是常數(shù),其值為理想狀態(tài)下的DCG@K。

        4.2 數(shù)據(jù)集

        為了驗(yàn)證不同類型的數(shù)據(jù)對算法性能的影響,本文將在IPTV和Cloud theme[34]2個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)和對比分析。下面從數(shù)據(jù)集大小和數(shù)據(jù)特點(diǎn)等方面分別介紹這2個(gè)數(shù)據(jù)集。

        IPTV 數(shù)據(jù)集為國內(nèi)某運(yùn)營商網(wǎng)絡(luò)電視節(jié)目點(diǎn)播數(shù)據(jù)集,其結(jié)構(gòu)為用戶從2015 年10 月7 日到2015 年11 月9 日的歷史播放節(jié)目記錄,原始的數(shù)據(jù)中總共包含了18 萬多個(gè)用戶的5 398多萬條觀看記錄,篩選出每天都有播放記錄的活躍用戶并進(jìn)一步定義用戶觀看時(shí)長小于1 min 的播放記錄為曝光但未點(diǎn)擊的情況即(yui(t)=0|aui(t)=1),最終得到了2 920 個(gè)用戶,32 341個(gè)節(jié)目,2 227 811個(gè)曝光項(xiàng)的數(shù)據(jù)集。

        Cloud theme 數(shù)據(jù)集為淘寶app 中云主題產(chǎn)品的用戶點(diǎn)擊數(shù)據(jù),數(shù)據(jù)集包含了70 多萬個(gè)用戶在大促期間6 天的140 多萬條用戶點(diǎn)擊日志,涵蓋355 個(gè)不同場景,同時(shí)提供了商品與主題的對應(yīng)關(guān)系、用戶在大促前1 個(gè)月的購買日志。同樣地,通過設(shè)置每個(gè)物品至少被10 個(gè)用戶點(diǎn)擊過,每個(gè)用戶至少點(diǎn)擊了3 個(gè)物品的篩選條件后,得到3 812 個(gè)用戶、25 382 個(gè)商品、52 282個(gè)曝光項(xiàng)。兩個(gè)數(shù)據(jù)集的具體統(tǒng)計(jì)信息如表2。

        表2 數(shù)據(jù)集統(tǒng)計(jì)信息Tab.2 Statistics of datasets

        其中,在構(gòu)造流行度模型的思路2 中針對所有物品按照所屬的群組角色對應(yīng)劃分成3 個(gè)不同的物品子集問題中,對于IPTV 數(shù)據(jù)集而言,由于原數(shù)據(jù)集給出了每個(gè)節(jié)目的類型標(biāo)簽,因此可按照不同的節(jié)目類型訪問的群體(群組角色)不同對節(jié)目進(jìn)行劃分,為了便于區(qū)分、說明,本文統(tǒng)一將節(jié)目劃分為三類并給定對應(yīng)的標(biāo)簽:兒童、成人、老人。劃分后的結(jié)果如表3。

        表3 IPTV數(shù)據(jù)集的子集統(tǒng)計(jì)Tab.3 Subset statistics of IPTV dataset

        對于Cloud theme 數(shù)據(jù)集,因?yàn)樵瓟?shù)據(jù)集提供了每個(gè)物品所屬的主題標(biāo)簽,因此可以依據(jù)給出的主題標(biāo)簽聚合劃分成只有三類主題的物品子集,為了便于區(qū)分,同樣對三類主題給定兒童、成人、老人的標(biāo)簽。劃分后的結(jié)果如表4。

        表4 Cloud theme數(shù)據(jù)集的子集統(tǒng)計(jì)Tab.4 Subset statistics of Cloud theme dataset

        4.3 實(shí)驗(yàn)和結(jié)果

        4.3.1 實(shí)驗(yàn)設(shè)置

        本文使用以上兩個(gè)數(shù)據(jù)集來驗(yàn)證提出的模型的可行性。對于每個(gè)數(shù)據(jù)集,將用戶的觀看/購買行為記錄按日期順序從小到大排列并以8∶2 的比例劃分訓(xùn)練集和測試集,然后從訓(xùn)練集中隨機(jī)抽取10%的數(shù)據(jù)作為驗(yàn)證集,并確保測試集中的用戶和節(jié)目/物品為訓(xùn)練集和驗(yàn)證集中出現(xiàn)過的項(xiàng)。在所有的實(shí)驗(yàn)中,潛在向量的維度設(shè)為50,在模型訓(xùn)練的過程中,使用交替最小二乘法來訓(xùn)練模型參數(shù),正則化參數(shù)(λθ,λβ)通過網(wǎng)格化搜索依次從[e-5,e-4,…,e4,e5]中組合確定。

        4.3.2 對比方法

        本文采用了以下相關(guān)方法進(jìn)行對比。

        1)MF[15]。經(jīng)典的矩陣分解方法,將用戶沒有的行為當(dāng)作缺失值,并基于相似度矩陣填充缺失值。

        2)NMF[16]。一種約定分解的小矩陣中所有元素均為非負(fù)數(shù)的矩陣分解方法。

        3)IPW-MF[12]。本文進(jìn)行改進(jìn)的原對比方法,該方法在構(gòu)造曝光模型中計(jì)算的是物品在整個(gè)數(shù)據(jù)集所有用戶中的流行度。

        4.3.3 結(jié)果及分析

        本節(jié)給出模型在兩個(gè)數(shù)據(jù)集上按一天24 個(gè)時(shí)刻進(jìn)行Top-K推薦的實(shí)驗(yàn)結(jié)果。為符合日常推薦情景,本文取Recall@20、NDCG@20、MAP@20 作為最后的性能評價(jià)。結(jié)果如圖1~2所示。

        圖1 5種矩陣分解方法在IPTV數(shù)據(jù)集上的性能比較Fig.1 Performance comparison of five matrix factorization methods on IPTV dataset

        圖2 5種矩陣分解方法在Cloud theme數(shù)據(jù)集上的性能比較Fig.2 Performance comparison of five matrix factorization methods on Cloud theme dataset

        根據(jù)圖1 中的結(jié)果可以分析出:對于稀疏程度不高的IPTV 數(shù)據(jù)集來說,本文所提的模型(Ours.v1 & Ours.v2)在NDCG@20(圖1(c))和MAP@20(圖1(b))評價(jià)指標(biāo)上明顯優(yōu)于其他3 個(gè)模型;在Recall@20(圖1(a))上,Ours.v1 效果依然明顯優(yōu)于其他方法,Ours.v2在前8個(gè)時(shí)刻召回率略低于IPWMF,但在后16個(gè)時(shí)刻上高于IPW-MF;同時(shí)對于MF和NMF來說,本文的兩個(gè)模型在3 個(gè)指標(biāo)上遠(yuǎn)遠(yuǎn)高于MF 和NMF,說明在MF 基礎(chǔ)上對數(shù)據(jù)采用逆傾向評分加權(quán)值的方法去訓(xùn)練的方案是可行的,且整體上Ours.v1的效果要優(yōu)于Ours.v2。

        在Cloud theme 數(shù)據(jù)集上,由于該數(shù)據(jù)集稀疏度較高,因此各模型的性能指標(biāo)相對較低。在召回率Recall@20(圖2(a))的指標(biāo)上,本文的方法優(yōu)勝的時(shí)刻占大多數(shù)(Our.v1 有14 個(gè)時(shí)刻上的效果優(yōu)于3 種對比方法,Ours.v2 有16 個(gè)時(shí)刻上的效果優(yōu)于對比方法);在NDCG@20(圖2(c))上,本文的兩種方法明顯優(yōu)于IPW-MF 和MF,但有3 個(gè)時(shí)刻(t=9,14,18)兩種方法的指標(biāo)略低于NMF;在準(zhǔn)確度MAP@20(圖2(b))上,Ours.v2 與Ours.v1 的效果不相上下,且Ours.v2 有8 個(gè)時(shí)刻上的效果都要明顯優(yōu)于另外的4 種方法,同時(shí)NMF 有3 個(gè)時(shí)刻(t=9,14,18)準(zhǔn)確度略高于本文的方法,可能是因?yàn)檫@3個(gè)時(shí)刻下的用戶行為數(shù)據(jù)相對較多,導(dǎo)致了NMF 模型效果的提升。整體上看,模型效果的優(yōu)先級為:Ours.v2 >Ours.v1>NMF>MF>IPW-MF。

        另外本研究也在WMF[11]和ENMF[21]上做了一系列對比實(shí)驗(yàn),結(jié)果顯示在IPTV 數(shù)據(jù)集上,兩個(gè)模型效果略高于本文的兩個(gè)模型;但在Cloud theme 數(shù)據(jù)集中,本文的模型效果優(yōu)于WMF 和ENMF,經(jīng)猜想可能是因?yàn)檫@兩個(gè)模型不太適合處理稀疏程度高的數(shù)據(jù)。

        5 結(jié)語

        本文提出了一種面向群組用戶時(shí)序行為的動態(tài)偏好推薦方法,通過考慮用戶行為的時(shí)序信息,針對隱含多個(gè)類型角色行為的用戶采用基于矩陣分解的算法思想,設(shè)計(jì)兩種計(jì)算物品流行度的思路,并利用因果推斷中的逆傾向加權(quán)方法將基于流行度的曝光模型與矩陣分解模型結(jié)合起來,使得經(jīng)常對用戶曝光的物品權(quán)重減小,讓所有訓(xùn)練數(shù)據(jù)處于一個(gè)平衡的狀態(tài)。同時(shí)本文構(gòu)建的推薦系統(tǒng)可以捕捉到用戶的興趣行為隨時(shí)間的動態(tài)變化,實(shí)現(xiàn)了推薦的動態(tài)性,通過在兩個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文的模型在召回率和時(shí)間效率上優(yōu)于其他對比方法,因此本文的方法是切實(shí)可行的。

        此外,本文對于基于用戶行為的時(shí)序推薦工作提供了一個(gè)新的思路,即可以探索隱藏在用戶背后的群組角色問題,因此未來的研究將關(guān)注模型自動學(xué)習(xí)群組用戶中各類型角色的權(quán)重方向上,并利用數(shù)據(jù)中的用戶行為周期和觀看時(shí)長等附加信息構(gòu)造一個(gè)更加精準(zhǔn)高效的推薦系統(tǒng)。

        猜你喜歡
        群組物品矩陣
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        誰動了凡·高的物品
        關(guān)系圖特征在敏感群組挖掘中的應(yīng)用研究
        電子測試(2018年14期)2018-09-26 06:04:10
        初等行變換與初等列變換并用求逆矩陣
        基于統(tǒng)計(jì)模型的空間群組目標(biāo)空間位置計(jì)算研究
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        找物品
        麻豆国产精品久久天堂| 依依成人精品视频在线观看| 亚洲国产精品美女久久| 国产精品久久久久9999小说| 狠狠色噜噜狠狠狠狠7777米奇| 中文字幕福利视频| 国产伪娘人妖在线观看| 国产自拍91精品视频| 免费看又色又爽又黄的国产软件| 婷婷丁香五月中文字幕| 色老头一区二区三区| av毛片一区二区少妇颜射| 亚洲中文av中文字幕艳妇| 国产伦理一区二区| 91热这里只有精品| 国产成人色污在线观看| 少妇人妻中文久久综合| 国产精品欧美一区二区三区| 欧美亚洲综合激情在线| 亚洲精品99久91在线| 一级r片内射视频播放免费| 色多多a级毛片免费看| 色爱无码A V 综合区| 亚洲国产精品av麻豆一区| 久久午夜福利无码1000合集| 欧美丰满大屁股ass| 国内精品久久久久影院蜜芽| 亚洲天堂av黄色在线观看| 国产成人av综合色| 97成人碰碰久久人人超级碰oo| 日韩欧美国产自由二区| 午夜视频在线观看国产| 欧美激情肉欲高潮视频| 欧美喷潮久久久xxxxx| 久久精品日本美女视频| 亚洲av免费不卡在线观看| 狠狠色噜噜狠狠狠狠米奇777| 国产精品1区2区| 美国黄色av一区二区| 国产丝袜美女一区二区三区 | 中文字幕乱码亚洲美女精品一区|