亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于降噪自編碼器的隱式反饋推薦算法*

2020-09-03 11:22:14楊豐瑞李前洋羅思煩

計(jì)算機(jī)工程與科學(xué) 2020年8期

楊豐瑞，李前洋，羅思煩

(1.重慶郵電大學(xué)通信與信息工程學(xué)院，重慶 400065；2.重慶郵電大學(xué)通信新技術(shù)應(yīng)用研究中心，重慶 400065；3.重慶重郵信科(集團(tuán))股份有限公司，重慶 401121)

1 引言

現(xiàn)有的推薦算法大多利用顯式的評(píng)級(jí)信息進(jìn)行推薦[1,2]，實(shí)際上大部分平臺(tái)上的用戶(hù)都只產(chǎn)生隱式的交互信息[3]，例如用戶(hù)瀏覽和點(diǎn)擊，這使得傳統(tǒng)的基于評(píng)分預(yù)測(cè)的推薦算法不能滿(mǎn)足這類(lèi)平臺(tái)的需要[4]。近年來(lái)基于用戶(hù)隱式歷史反饋信息的推薦算法受到了學(xué)術(shù)界的廣泛關(guān)注。隨著電商平臺(tái)、新聞媒體和在線(xiàn)社交網(wǎng)絡(luò)的迅速發(fā)展，相關(guān)學(xué)者提出了許多基于隱式反饋的推薦方法。例如，Rendle等[5]提出了一種貝葉斯個(gè)性化排序BPR(Bayesian Personalized Ranking from implicit feedback)算法，用于指導(dǎo)基于隱式反饋的top-N推薦排序關(guān)系的學(xué)習(xí)。在文獻(xiàn)[6]中，Du等通過(guò)增加一個(gè)社會(huì)正則化項(xiàng)來(lái)擴(kuò)展貝葉斯個(gè)性化排名，算法同時(shí)對(duì)用戶(hù)對(duì)商品的偏好及其社會(huì)關(guān)系進(jìn)行建模，獲得了更好的推薦質(zhì)量。Pan等[7]在此基礎(chǔ)上進(jìn)一步提出了GBPR (Group-based BPR)算法，這是一種將用戶(hù)對(duì)項(xiàng)目的偏好分組進(jìn)行聚合的方法，以減少建模的不確定性，提高推薦的準(zhǔn)確性。Zhao等[8]提出了SBPR(leveraging Social connections to improve Personalized Ranking for collaborative filtering)算法，通過(guò)在學(xué)習(xí)過(guò)程中考慮社會(huì)關(guān)系來(lái)改進(jìn)BPR算法，進(jìn)一步提高了推薦性能。最近，協(xié)同去噪的自動(dòng)編碼器CDAE(Collaborative Denoising Auto-Encoders for Top-N recommender systems)被提出[9]，利用去噪的自動(dòng)編碼器(Denoising Autoencoder)技術(shù)，研究人員獲得了更好的推薦效果。

盡管現(xiàn)有研究提出了多種利用用戶(hù)隱式交互信息進(jìn)行推薦的算法，但這些算法仍然存在2個(gè)關(guān)鍵問(wèn)題。首先，這些工作大多利用二值社交信任數(shù)據(jù)，使得算法易受數(shù)據(jù)稀疏的影響。其次，已有研究也未在深層次上融合用戶(hù)隱式反饋信息和社交信息。基于此，本文提出了綜合挖掘社交信任關(guān)系的算法，并利用深度學(xué)習(xí)充分衡量社交數(shù)據(jù)的影響。主要內(nèi)容如下：

(1)提出了一種從社交信任數(shù)據(jù)中充分挖掘用戶(hù)之間信任強(qiáng)度的方法，對(duì)用戶(hù)進(jìn)行了更精確的信任度量。

(2)利用降噪自編碼器深度融合社交信息，充分衡量潛在信任數(shù)據(jù)的影響力。

(3)在開(kāi)源數(shù)據(jù)集上證明了本文算法相比于現(xiàn)有隱式反饋推薦算法在推薦性能上有所提升。

2 基于降噪自編碼器的隱式反饋推薦算法

本文對(duì)信任數(shù)據(jù)進(jìn)行用戶(hù)信任和用戶(hù)受信2方面綜合考量，分別計(jì)算相應(yīng)的用戶(hù)信任度，得到更精確的用戶(hù)信任值，最后利用降噪自編碼器挖掘信任數(shù)據(jù)隱式的關(guān)聯(lián)信息，進(jìn)一步提高top-N推薦質(zhì)量。

2.1 矩陣分解

設(shè)從一個(gè)包含m個(gè)節(jié)點(diǎn)的社交網(wǎng)絡(luò)中提取的信任矩陣為T(mén)=[Tik]m×m，其中Tik表示用戶(hù)i和用戶(hù)k之間的信任度，通常為從實(shí)際數(shù)據(jù)集中獲得的二值信息。在利用用戶(hù)隱含信任信息方面，相關(guān)學(xué)者提出了一些高效的方法。其中Ma等[10]利用矩陣分解技術(shù)分解用戶(hù)信任矩陣，從整體上計(jì)算用戶(hù)的社交信任特征，有效地挖掘了用戶(hù)之間的隱含信任關(guān)系，但也沒(méi)有進(jìn)一步利用用戶(hù)社交信任特征計(jì)算用戶(hù)的信任相似度。Yang等[11]進(jìn)一步從用戶(hù)信任和受信的角度挖掘用戶(hù)的信任特征，但同樣沒(méi)有利用這些特征計(jì)算更精確的用戶(hù)信任相似度。為了從整體信任關(guān)系上挖掘用戶(hù)的隱含信任信息，本文在前人工作的基礎(chǔ)上，充分利用用戶(hù)受信和信任特征計(jì)算隱含的用戶(hù)信任相似度，并以此來(lái)表征用戶(hù)之間的信任強(qiáng)度。

利用矩陣分解將信任矩陣中的每個(gè)用戶(hù)i分解為2個(gè)不同的潛在特征向量，分別用Bi和Wi表示用戶(hù)i的信任特征向量和被信任的d維特征向量。Bi和Wi分別表征了信任他人和被他人信任的行為，可以用Bi與Wk的內(nèi)積表示信任值Tik。特征矩陣B∈Rd×m和W∈Rd×m可以通過(guò)最小化以下?lián)p失函數(shù)得到：

(1)

2.2 信任關(guān)系隱含相似度

用戶(hù)在進(jìn)行選擇的過(guò)程中會(huì)相互影響，是否選擇將依賴(lài)于用戶(hù)的信任者的意見(jiàn)，同時(shí)用戶(hù)的決定將不可避免地影響信任的人的選擇。綜合而言，最終所觀察到的用戶(hù)選擇結(jié)果實(shí)際上是在用戶(hù)之間的相互影響下產(chǎn)生的。本文使用矩陣分解技術(shù)，將信任矩陣區(qū)分為從用戶(hù)信任和受信2個(gè)角度出發(fā)，分別計(jì)算用戶(hù)之間的信任相似度，綜合信任和受信任2方面的信息，全面提升推薦算法的準(zhǔn)確性。

同時(shí)做為信任者時(shí)，用戶(hù)u和用戶(hù)v的隱式相似度為：

(2)

同時(shí)作為被信任者時(shí)，用戶(hù)u和用戶(hù)v的隱式相似度為：

(3)

用戶(hù)主動(dòng)選擇信任者和被他人信任是不同的用戶(hù)信任行為，都能用來(lái)揭示用戶(hù)之間的信任關(guān)系，本文從這2方面著手，充分挖掘隱含的信任交互。另外，通過(guò)矩陣分解還能從整體上考慮用戶(hù)之間的關(guān)聯(lián)，最終得出更加精確的信任強(qiáng)度。

2.3 信任關(guān)系強(qiáng)度估計(jì)

(4)

從式(4)可以看出，本文提出的信任關(guān)系相似度綜合考慮了信任矩陣橫向和縱向2方面的信息，充分挖掘了信任關(guān)系數(shù)據(jù)，即使用戶(hù)沒(méi)有共同的信任者，也能從共同的被信任者處獲得關(guān)聯(lián)信息，有效改善了數(shù)據(jù)稀疏的影響。另外，相似度是通過(guò)整體得出的，能綜合考慮全局關(guān)聯(lián)。

2.4 算法流程

基于社交趨同性的假設(shè)，社交網(wǎng)絡(luò)中相關(guān)的人的交互偏好信息，相互影響對(duì)方的決策[12,13]。為此，本文提出一種充分挖掘信任數(shù)據(jù)隱式相似度的推薦算法，從信任和受信2方面考量用戶(hù)間的信任關(guān)系，得到了更精確的信任值度量和推薦算法。受啟發(fā)于Ma等[10]利用矩陣分解技術(shù)共享用戶(hù)社交特征和項(xiàng)目偏好特征來(lái)提高推薦質(zhì)量的研究，本節(jié)提出利用降噪自編碼器在更深層次上共享用戶(hù)社交特征和項(xiàng)目偏好特征的新方法，并以此來(lái)提高隱式反饋推薦質(zhì)量。

本節(jié)介紹的算法流程如圖1所示，利用用戶(hù)間同時(shí)作為信任者時(shí)的隱含相似度SB和同時(shí)作為被信任者時(shí)的隱含相似度SW，得出用戶(hù)更精確的信任關(guān)系數(shù)據(jù)，最后利用降噪自編碼器進(jìn)行深度決策。

Figure 1 Process of algorithm圖1 算法流程

本文算法中，用戶(hù)項(xiàng)目隱式反饋信息和用戶(hù)間的信任信息通過(guò)降噪自編碼器在中間層進(jìn)行深度融合，最后通過(guò)重構(gòu)輸入進(jìn)行最終預(yù)測(cè)表決。首先使用編碼器層將輸入映射到低維空間，該編碼層由式(5)表示：

(5)

(6)

(7)

其中,l(·)為計(jì)算重構(gòu)誤差的損失函數(shù)，λT為防止過(guò)擬合的參數(shù)，α為衰減參數(shù)，Ω(·)為正則化項(xiàng)，定義如式(8)所示：

(8)

為了充分考量輔助數(shù)據(jù)的影響，在式(7)中引入了衰減參數(shù)α來(lái)控制信任數(shù)據(jù)的影響力。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)

為了驗(yàn)證本文算法的有效性，在2個(gè)開(kāi)源數(shù)據(jù)集Epinions和Ciao上進(jìn)行驗(yàn)證。2個(gè)數(shù)據(jù)集的統(tǒng)計(jì)如表1所示。

Table 1 Datasets statistics表1 數(shù)據(jù)集統(tǒng)計(jì)

為了保持同主流算法的一致性，本文將數(shù)據(jù)集中評(píng)分值大于或等于4的數(shù)據(jù)保留，其它值歸零處理，得到隱式反饋數(shù)據(jù)?；陔[式反饋的推薦算法的衡量基準(zhǔn)是top-排序準(zhǔn)確度，因此實(shí)驗(yàn)為每個(gè)用戶(hù)提供了一個(gè)項(xiàng)目列表，其中有N個(gè)項(xiàng)目在訓(xùn)練數(shù)據(jù)中沒(méi)有被評(píng)分，以滿(mǎn)足用戶(hù)的潛在需求。實(shí)驗(yàn)采用基于排序的度量平均精度MAP(Mean Average Precision)和標(biāo)準(zhǔn)化折現(xiàn)累積增益NDCG(Normalized Discounted Cumulative Gain)2個(gè)指標(biāo)來(lái)衡量推薦性能。

(9)

為了更好地評(píng)估推薦項(xiàng)目在所有位置上的精度，給予用戶(hù)在測(cè)試數(shù)據(jù)中采用的項(xiàng)目更高的權(quán)重。定義AP@N為前N個(gè)推薦項(xiàng)目的精度的加權(quán)平均值：

(10)

其中，Precision@k為k個(gè)推薦項(xiàng)目的精度，rel(k)=1表示采用了第k個(gè)項(xiàng)目。最后，MAP@N為在所有用戶(hù)的AP@N的平均值。

對(duì)于每個(gè)用戶(hù)，折現(xiàn)累積增益DCG(Discounted Cumulative Gain)為：

(11)

在進(jìn)行測(cè)試之前，每一個(gè)用戶(hù)都有一個(gè)理想推薦列表，根據(jù)理想推薦列表計(jì)算得出的DCG稱(chēng)為IDCG，使用它對(duì)DCG進(jìn)行歸一化處理，最后取所有用戶(hù)的平均值得到NDCG指標(biāo)：

(12)

其中,U表示參與測(cè)試的所有用戶(hù)的集合。

3.2 實(shí)驗(yàn)過(guò)程與結(jié)果分析

本文實(shí)驗(yàn)總共進(jìn)行了5次交叉驗(yàn)證。每個(gè)數(shù)據(jù)集被分成5份，每次取4份用于訓(xùn)練，其余的用于測(cè)試。實(shí)驗(yàn)進(jìn)行5次，以保證每份數(shù)據(jù)都能被用于測(cè)試。取平均值作為最終的實(shí)驗(yàn)結(jié)果。本文采用隨機(jī)梯度下降法優(yōu)化損失函數(shù)。

本文選擇幾種主流的算法來(lái)進(jìn)行評(píng)估比較，包括BPR[5]、SBPR[8]和CDAE[9]算法，其中BPR是一種常用的基本算法，它通過(guò)學(xué)習(xí)每個(gè)用戶(hù)的交互和未交互項(xiàng)目的兩兩關(guān)系來(lái)進(jìn)行推薦。SBPR是一種簡(jiǎn)單而廣泛使用的推薦排序算法，它考慮了用戶(hù)與社交好友選擇的產(chǎn)品之間的直接關(guān)聯(lián)，有效利用了社交關(guān)系對(duì)于項(xiàng)目推薦的影響。CDAE利用疊加去噪自編碼技術(shù)，建立了一種深度學(xué)習(xí)推薦模型，該工作進(jìn)一步將用戶(hù)的特殊偏好注入到隱藏層中，以提高性能。不同算法的參數(shù)如表2所示。

Table 2 Parameter setting of different algorithms表2 不同算法參數(shù)設(shè)置

表3顯示了本文算法和對(duì)比算法在MAP@10和NDCG@10指標(biāo)上的最佳結(jié)果。這些指標(biāo)的值越大，表示算法性能越好。

Table 3 Performance comparison of different algorithms表3 不同算法性能比較(k=10)

從表3中可以看出，本文算法的推薦性能相比于其它幾種主流的推薦算法在推薦性能上有較大的改善。在k=10的情況下，本文算法的推薦性能相比于性能最優(yōu)的CDAE算法在MAP@10指標(biāo)上分別提高了6.7%和7.4%。

為了充分評(píng)估本文所提算法對(duì)冷啟動(dòng)用戶(hù)的推薦效果，本文對(duì)不同評(píng)分的用戶(hù)進(jìn)行了驗(yàn)證。從圖2和圖3中可以看出，本文算法在不同評(píng)分的用戶(hù)中的表現(xiàn)優(yōu)于其他算法，這表明本文算法在數(shù)據(jù)稀疏和密集的情況下都有更好的推薦性能。另外，還可以看到隨著數(shù)據(jù)密度的增加，算法的性能逐漸變優(yōu)，這是由于高密度的數(shù)據(jù)集能使自編碼器獲取更多的非線(xiàn)性信息，有助于改善推薦性能。

Figure 2 Experimental results on Ciao datasets with different sparsities圖2 不同稀疏度的Ciao數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

Figure 3 Experimental results on Epinions dataset with different sparsities圖3 不同稀疏度的Epinions數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

參數(shù)α的主要作用是平衡用戶(hù)信任數(shù)據(jù)的影響，如圖4和圖5所示，其中α=0和α=1分別表示網(wǎng)絡(luò)只根據(jù)用戶(hù)隱式反饋和信任數(shù)據(jù)進(jìn)行預(yù)測(cè)，其效果皆不是最佳。本文算法在Epinions數(shù)據(jù)集和Ciao數(shù)據(jù)集上的最佳α值分別為0.8和0.6。當(dāng)α取值過(guò)小時(shí)，信任數(shù)據(jù)作用過(guò)小，由于評(píng)分?jǐn)?shù)據(jù)稀疏性，導(dǎo)致誤差大；當(dāng)α取值過(guò)大時(shí)，信任數(shù)據(jù)影響過(guò)大，產(chǎn)生了多余的干擾，也會(huì)導(dǎo)致誤差過(guò)大。

Figure 4 Effect of α on recommended performance on Ciao dataset圖4 Ciao數(shù)據(jù)集上α值對(duì)推薦性能的影響

Figure 5 Effect of α on recommended performance on Epinions dataset圖5 Epioions數(shù)據(jù)集上α值對(duì)推薦性能的影響

4 結(jié)束語(yǔ)

本文針對(duì)隱式反饋推薦問(wèn)題，提出了基于降噪自編碼器的隱式反饋推薦算法，從多方面考量用戶(hù)之間的信任值大小，提高了算法處理數(shù)據(jù)稀疏問(wèn)題的能力，并利用降噪自編碼器深度融合社交信任信息，進(jìn)一步改善了推薦性能。實(shí)驗(yàn)結(jié)果表明，該算法是有效的。隨著數(shù)據(jù)采集技術(shù)的發(fā)展，推薦系統(tǒng)已經(jīng)搜集到豐富的多源信息，設(shè)計(jì)可擴(kuò)展性高的協(xié)同過(guò)濾模型，將更多額外信息有效融入推薦模型中將是下一步研究重點(diǎn)。同時(shí)，未來(lái)還將考慮用戶(hù)的興趣隨時(shí)間發(fā)生變化的情況，圍繞如何感知、建模展開(kāi)研究。