亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于互信息的魯棒跨域推薦系統(tǒng)

2022-07-06 08:02劉昱康于學(xué)軍

貴州大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年4期

劉昱康　于學(xué)軍

摘要：由于大量新用戶和新產(chǎn)品的出現(xiàn)，跨域推薦系統(tǒng)已經(jīng)成為解決推薦系統(tǒng)冷啟動(dòng)問題的關(guān)鍵。然而，現(xiàn)有的跨域推薦系統(tǒng)都假設(shè)其訓(xùn)練數(shù)據(jù)中不存在任何的錯(cuò)誤標(biāo)注，但是在現(xiàn)實(shí)情況下，該假設(shè)很難得到滿足，這就導(dǎo)致了跨域推薦系統(tǒng)在相當(dāng)多的真實(shí)推薦場景下的表現(xiàn)很難令人滿意。為了減少現(xiàn)實(shí)情況下錯(cuò)誤標(biāo)注對跨域推薦系統(tǒng)的影響，提高真實(shí)推薦場景下跨域推薦系統(tǒng)推薦結(jié)果的準(zhǔn)確性，本文提出了一種基于互信息的魯棒跨域推薦系統(tǒng)，該推薦系統(tǒng)由域分離網(wǎng)絡(luò)和互信息魯棒風(fēng)險(xiǎn)兩個(gè)模塊構(gòu)成。域分離網(wǎng)絡(luò)模塊很好地解決了源域與目標(biāo)域差異的問題;在互信息魯棒風(fēng)險(xiǎn)模塊中，提出了一個(gè)基于互信息的風(fēng)險(xiǎn)函數(shù)來過濾掉數(shù)據(jù)中的錯(cuò)誤標(biāo)注，使用該風(fēng)險(xiǎn)函數(shù)所訓(xùn)練出的跨域推薦系統(tǒng)可以很好地處理訓(xùn)練數(shù)據(jù)中存在的錯(cuò)誤信息，使跨域推薦系統(tǒng)能更好地應(yīng)用在各種真實(shí)的推薦場景下。本文采用對比試驗(yàn)的方法，在真實(shí)的數(shù)據(jù)集上將所提出的方法與幾種現(xiàn)有的推薦方法進(jìn)行了比較，試驗(yàn)表明，現(xiàn)有的推薦方法在現(xiàn)實(shí)情況下很難不受到錯(cuò)誤標(biāo)注的影響，而本文提出的方法很好地應(yīng)對了錯(cuò)誤標(biāo)注的影響，具有更優(yōu)越的性能。

關(guān)鍵詞：推薦系統(tǒng);新用戶;冷啟動(dòng)問題;魯棒性;互信息

中圖分類號：TP181文獻(xiàn)標(biāo)志碼：A

為了解決大數(shù)據(jù)時(shí)代的數(shù)據(jù)過載問題，推薦系統(tǒng)在近些年已經(jīng)被學(xué)術(shù)界廣泛關(guān)注而且也在現(xiàn)實(shí)生活中獲得了大量的部署。為了更好給新用戶推薦新產(chǎn)品（即解決推薦系統(tǒng)中的冷啟動(dòng)問題）[1]，研究者們提出了跨域推薦系統(tǒng)使用多用戶領(lǐng)域（一般稱為源域）的數(shù)據(jù)去解決少用戶領(lǐng)域（一般稱為目標(biāo)域）的推薦問題[2-3]。現(xiàn)有的跨域推薦系統(tǒng)主要分為兩種類型[4]：第一種類型通過將來自多個(gè)域的數(shù)據(jù)集以通用的格式（例如，一個(gè)通用的評分矩陣[5]）組合起來去聚合知識，他們會(huì)假設(shè)“用戶-產(chǎn)品”的數(shù)據(jù)格式是固定的[2，6-9];第二種類型通過遷移的知識來鏈接領(lǐng)域，這一系列研究僅限于基于矩陣分解的協(xié)同過濾方法，因?yàn)樵诓煌蚩缬蚬蚕淼囊粋€(gè)潛在因素允許知識轉(zhuǎn)移[10-12]。無論是以上哪一種跨域推薦系統(tǒng)，他們都假設(shè)源域中的知識是正確的，不含有任何錯(cuò)誤信息的。然而這個(gè)假設(shè)在現(xiàn)實(shí)推薦場景中很難被滿足。假設(shè)源域的數(shù)據(jù)來自于用戶點(diǎn)擊記錄，如果用戶勿點(diǎn)擊了一個(gè)產(chǎn)品，那么該用戶點(diǎn)擊記錄數(shù)據(jù)中就存在了錯(cuò)誤信息，繼而打破了現(xiàn)有方法的假設(shè)，導(dǎo)致現(xiàn)有方法的效果出現(xiàn)了大幅下降。

本文發(fā)現(xiàn)這種錯(cuò)誤信息會(huì)極大得降低跨域推薦系統(tǒng)的性能，使其無法在現(xiàn)實(shí)場景中使用。為了解決這個(gè)問題，本文提出了一個(gè)基于互信息的魯棒跨域推薦系統(tǒng)——互信息魯棒域分離網(wǎng)絡(luò)。在該系統(tǒng)中，一個(gè)基于互信息的風(fēng)險(xiǎn)函數(shù)被提出來去自動(dòng)過濾數(shù)據(jù)中存在的錯(cuò)誤標(biāo)注。該風(fēng)險(xiǎn)函數(shù)是香農(nóng)互信息的廣義版本，它保留了香農(nóng)互信息的所有屬性，包括非負(fù)性、對稱性和信息單調(diào)性，并且還具有相對不變性。使用該風(fēng)險(xiǎn)函數(shù)所訓(xùn)練出的跨域推薦系統(tǒng)可以很好地處理訓(xùn)練數(shù)據(jù)中存在的錯(cuò)誤信息。同時(shí)，本文采用了真實(shí)的數(shù)據(jù)集驗(yàn)證了互信息魯棒域分離網(wǎng)絡(luò)的有效性。結(jié)果表明，當(dāng)源域含有錯(cuò)誤信息時(shí)，該網(wǎng)絡(luò)依然可以很好地解決推薦系統(tǒng)中的冷啟動(dòng)問題。

1跨域推薦系統(tǒng)的定義與所用符號

在跨域推薦系統(tǒng)中，有兩個(gè)基礎(chǔ)空間，它們分別是特征空間X以及標(biāo)簽空間Y，其中X是d維歐式空間的一個(gè)子集，而Y是由標(biāo)簽1，2，…，L組成。不同的標(biāo)簽代表被推薦的不同產(chǎn)品，而空間X中元素x則代表了用戶。在跨域推薦系統(tǒng)中，有兩個(gè)不同的數(shù)據(jù)集，分別是源域S及目標(biāo)域T：

由于被研究的問題屬于跨域推薦系統(tǒng)范疇，因此，源域和目標(biāo)域是由不同的分布生成的。另外，在現(xiàn)實(shí)的應(yīng)用中，得到充足的源域真實(shí)標(biāo)簽也是一件極其困難的事。一般來說，在源域數(shù)據(jù)的標(biāo)簽中會(huì)混入噪音標(biāo)簽（錯(cuò)誤標(biāo)簽）。因此，在標(biāo)簽噪音跨域推薦系統(tǒng)中，僅有帶噪音的源域數(shù)據(jù) S_n是可得的：

2模型介紹

本文提出了一個(gè)新的模型去解決標(biāo)簽噪音跨域推薦系統(tǒng)問題。本文提出的方法被命名為互信息魯棒域分離網(wǎng)絡(luò)（mutual information robust domain separation networks，MIRDSN）。MIRDSN 是基于兩個(gè)基礎(chǔ)模塊：第一個(gè)模塊是被稱作域分離網(wǎng)絡(luò)（domain separation networks，DSN），DSN的主要目的是解決源域及目標(biāo)域的域差異問題;第二個(gè)模塊被稱做互信息魯棒風(fēng)險(xiǎn)（mutual information robust risk，MIRR），MIRR的主要目的是緩解源域里標(biāo)簽噪音所引起的分類誤差。

2.1域分離網(wǎng)絡(luò)

2.3最終的優(yōu)化函數(shù)

3試驗(yàn)結(jié)果與分析

3.1數(shù)據(jù)集介紹

本文選取了兩個(gè)來自于雅虎的數(shù)據(jù)集作為本次試驗(yàn)的數(shù)據(jù)。兩個(gè)數(shù)據(jù)集分別為視頻點(diǎn)播服務(wù)（VIDEO）和新聞閱讀（NEWS）的瀏覽日志。而試驗(yàn)的主要目的就是向從未使用過VIDEO和NEWS的用戶進(jìn)行推薦。

在VIDEO數(shù)據(jù)集中，每個(gè)數(shù)據(jù)的特征為一個(gè)用戶的歷史觀看記錄，每個(gè)數(shù)據(jù)的標(biāo)簽為該用戶最新觀看的視頻;在NEWS數(shù)據(jù)集中，有用戶的歷史閱讀記錄，但沒有每個(gè)用戶的視頻觀看記錄。即VIDEO數(shù)據(jù)集是一個(gè)被標(biāo)注過的源域;NEWS數(shù)據(jù)集是一個(gè)為被標(biāo)注過的目標(biāo)域。為了測試所提出的模型的效果，本文找到了38 250個(gè)同時(shí)點(diǎn)播過視頻或?yàn)g覽過新聞的用戶，即有了一個(gè)有標(biāo)簽的目標(biāo)域用于測試本文所提出的推薦系統(tǒng)。VIDEO和NEWS數(shù)據(jù)集各含有約1 000萬條數(shù)據(jù)。在VIDEO和NEWS數(shù)據(jù)集中，它們都含有一些文本特征。在VIDEO數(shù)據(jù)集中，本文使用標(biāo)題、分類、簡介和演員信息作為額外特征，在NEWS數(shù)據(jù)集中，標(biāo)題和分類被當(dāng)作額外特征。由于VIDEO和NEWS數(shù)據(jù)集中沒有指出哪些數(shù)據(jù)是完全正確的，為了模仿噪音環(huán)境，本文采用對稱噪音的生成方式來生成在噪音環(huán)境下的VIDEO數(shù)據(jù)。

3.2對比方法

本文選擇了其它4種推薦算法作為對比算法，來印證本文所提出的方法是否具有更優(yōu)秀的性能。最受歡迎法（most popular item，POP）直接推薦了訓(xùn)練數(shù)據(jù)中被觀看最多的視頻，和POP方法比較，可以知道MIRDSN是否做到了個(gè)性化的推薦。Domain Separation NetworksDSN為經(jīng)典遷移學(xué)習(xí)方法?？缬蚓仃嚪纸夥ǎ╟ross-domain matrix factorization，CdMF）為經(jīng)典協(xié)同過濾方法，本次試驗(yàn)將VIDEO-NEWS數(shù)據(jù)集轉(zhuǎn)化為用戶-視頻的點(diǎn)擊矩陣，然后輸入該矩陣給CdMF方法來獲得推薦結(jié)果。神經(jīng)網(wǎng)絡(luò)（neural networks，NN）為非遷移方法，NN只會(huì)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和樣本重構(gòu)風(fēng)險(xiǎn)而不考慮最小化域之間的分布差異。33207F7F-5A67-453B-9785-0D27C4D9F5DC

3.3試驗(yàn)設(shè)置

3.4試驗(yàn)結(jié)果與分析

4結(jié)束語

本文考慮了標(biāo)簽噪音跨域推薦系統(tǒng)問題。該問題主要解決了推薦系統(tǒng)中的兩個(gè)核心問題：1）推薦系統(tǒng)中測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集來自不同分布;2）推薦系統(tǒng)中訓(xùn)練數(shù)據(jù)集包含了錯(cuò)誤標(biāo)簽。為了解決標(biāo)簽噪音跨域推薦系統(tǒng)問題，本文提出了互信息魯棒域分離網(wǎng)絡(luò)模型。該模型主要由兩部分組成：域分離網(wǎng)絡(luò)和互信息魯棒風(fēng)險(xiǎn)。域分離網(wǎng)絡(luò)解決了測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集分布差異的問題?；バ畔Ⅳ敯麸L(fēng)險(xiǎn)緩解了訓(xùn)練數(shù)據(jù)集中的標(biāo)簽噪音問題。本文通過試驗(yàn)驗(yàn)證了所提模型的有效性。試驗(yàn)表明，互信息魯棒域分離網(wǎng)絡(luò)在噪音環(huán)境下可以很好地達(dá)到理想的推薦效果。參考文獻(xiàn)：

[1]ZHAO C， LI C L， XIAO R， et al. CATN： cross-domain recommendation for cold-start users via aspect transfer network[C]//SIGIR 2020. New York： ACM， 2020：229-238.

[2] ZHU F， WANG Y， CHEN C C， et al. Cross-domain recommendation： challenges， progress， and prospects[C]//IJCIA 2021. UK： IJCIA，2021：4721-4728.

[3] SAHU A， DWIVEDI P. Knowledge transfer by domain-independent user latent factor for cross-domain recommender systems[J].Future Generation Computer Systems， 2020，108：320-333.

[4] WANG C， NIEPERT M， LI H. RecSys-DAN： discriminative adversarial networks for cross-domain recomme der systems[J].IEEE Transactions on Neural Networks and Learning Systems，2020，31（8）：2731-2740.

[5] LONI B， SHI Y， LARSON M， et al. Cross-domain collaborative filtering with factorization machines[C]//ECIR 2014. Berlin： Springer Verlag， 2014：656-661.

[6] ABEL F， HERDER E， HOUBEN G， et al. Cross-system user modeling and personalization on the social web[J].User Modeling and User-Adapted Interaction，2013，23（2）：169-209.

[7] SHANG J， SHUN M X， COLLINS-THOMPSON K. Demographic inference via knowledge transfer in cross-domain recommender systems[C]//ICDM 2018. New York： IEEE， 2018：1218-1223.

[8] LOW Y C， AGARWAL D， SMOLA A. Multiple domain user personalization[C]//SIGKDD 2011. New York： ACM， 2011：123-131.

[9] NAKATSUJI M， FUJIWARA Y， TANAKA A， et al. Recommendations over domain specific user graphs[C]// ECAI 2010. Amsterdam： IOS Press， 2010：607-612.

[10]IWATA T， TAKEUCHI K. Cross-domain recommendation without shared users or items by sharing latent vector distributions[C]//AISTATA 2015. Brookline： Microtome Publishing， 2015： 379-387.

[11]LIAN J X， ZHUANG F Z， XIE X， et al. CCCFNet： a content-boosted collaborative filtering neural network for cross domain recommender systems[C]//WWW 2017. New York： ACM， 2017： 817-818.

[12]ELKAHKY A， SONG Y， HE X D. A multi-view deep learning approach for cross-domain user modeling in recommendation systems[C]//WWW 2015. New York： ACM， 2015： 278-288.

[13]BOUSMALIS K， TRIGEORGIS G， SILBERMAN N， et al. Domain separation networks[C]//NeurlPS 2016. LA Jolla： NIPS， 2016： 343-351.33207F7F-5A67-453B-9785-0D27C4D9F5DC

[14]KANAGAWA H，KOBAYASHI H，SHIMIZU N，et al. Cross-domain recommendation via deep domain adaptation[C]//ECIR 2019. Berlin： Springer Verlag， 2019： 20-29.

[15]GANIN Y， USTINOVA E， AJAKAN H， et al. Domain-adversarial training of neural networks[J].Journal of Machine Learning Research，2016，17（59）：1-35.

[16]GRETTON A， BORGWARDT K， RASCH M， et al. A kernel two-sample test[J].Journal of Machine Learning Research，2012，13（3）：723-773.

[17]LONG M S， WANG J M， Ding G G， et al. Adaptation regularization： a general framework for transfer learning[J].IEEE Transactions on Knowledge and Data Engineering，2014，26（5）：1076-1089.

[18]XU Y L， CAO P，KONG Y Q， et al. L_DMI： a novel information-theoretic loss function for training deep nets robust to label noise[C]//NeurlPS 2019. LA Jolla： NIPS， 2019： 6222-6233.

[19]CLEVERT D， UNTERTHINER T， HOCHREITER S. Fast and accurate deep network learning by exponential linear units （ELUS）[C]//ICLR 2016.

[19]JIANG L， ZHOU Z Y， LEUNG T， et al. Mentornet： learning data-driven curriculum for very deep neural networks on corrupted labels[C]//ICML 2018. San Diego： JMLR， 2018：2304-2313.

（責(zé)任編輯：于慧梅）

A Robust Cross-domain Recommender System Based

on Mutual-Information Theory

LIU Yukang， YU Xuejun*

（Department of Information，Beijing University of Technology，Beijing 100124，China）Abstract： Due to the emergence of a large number of new users and new products， cross-domain recommendation system has become the key to solve the cold-start problem of recommendation system. However， the current cross-domain recommendation systems assume that there is no error label in their training data， which is difficult to be satisfied in reality， leading to the underperformance of cross-domain recommendation systems in many real recommendation scenarios. To reduce the impact of error label on cross-domain recommendation system in reality and improve the accuracy of push-out results of cross-domain recommendation system in real recommendation scenarios， this paper， based on mutual information， proposes a robust cross-domain recommendation system consisting of two modules： domain separation network and mutual information robust risk. The domain separation network module solves the problem of difference between source domain and target domain. Then in the mutual information robust risk module， this paper proposes a risk function based on mutual information to filter out the error annotation in the data. The cross-domain recommendation system trained by the risk function can well deal with the error information in the training data and be better applied in various real recommendation scenarios. In this paper， the proposed method is compared with several existing recommendation methods on the real data set by using the method of comparative experiment. It is verified that it is difficult to avoid the influence of error label in reality， and the proposed method does have better performance.

Key words： recommender system; new users; cold-start problem; robustness; mutual information

于學(xué)軍（1972—）：女，北京人，博士，副教授。所屬研究所：智能媒體研究所，研究方向是軟件工程方法、軟件架構(gòu)以及可信云，可信軟件測試等。在多種軟件定制開發(fā)方面具有較為豐富的經(jīng)驗(yàn)，作為負(fù)責(zé)人主持了信息系統(tǒng)開發(fā)項(xiàng)目20余項(xiàng)，發(fā)表軟件開發(fā)相關(guān)論文30余篇。任應(yīng)用軟件產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)中心和中國軟件質(zhì)量網(wǎng)特聘專家、北京市財(cái)政局信息系統(tǒng)建設(shè)項(xiàng)目財(cái)評專家。33207F7F-5A67-453B-9785-0D27C4D9F5DC