亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Top-K推薦中的多樣性研究

2017-10-13 05:58:53邢小璐復(fù)旦大學(xué)公共績(jī)效與信息化中心實(shí)驗(yàn)室上海200126

微型電腦應(yīng)用 2017年9期

邢小璐(復(fù)旦大學(xué) 公共績(jī)效與信息化中心實(shí)驗(yàn)室，上海 200126)

Top-K推薦中的多樣性研究

邢小璐
(復(fù)旦大學(xué) 公共績(jī)效與信息化中心實(shí)驗(yàn)室，上海 200126)

隨著電子商務(wù)產(chǎn)業(yè)的不斷發(fā)展，推薦系統(tǒng)越來(lái)越多走入人們的生活，其中Top-K推薦能夠推薦一個(gè)商品列表供用戶(hù)選擇，在商業(yè)推薦中越來(lái)越多地扮演重要角色。對(duì)于Top-K推薦而言，多樣性的提高可以使推薦列表不再重復(fù)、單調(diào)，給用戶(hù)多樣化的選擇空間，更容易適應(yīng)用戶(hù)需求。傳統(tǒng)的Top-K推薦方法大多在預(yù)測(cè)評(píng)分方法的基礎(chǔ)上進(jìn)行優(yōu)化改良，本文通過(guò)MovieLens數(shù)據(jù)集上的統(tǒng)計(jì)調(diào)查，說(shuō)明基于用戶(hù)興趣分布會(huì)比基于預(yù)測(cè)評(píng)分擁有更優(yōu)的效果。本文還提出兩個(gè)獲取用戶(hù)興趣分布的思路，供后續(xù)研究參考。

推薦系統(tǒng)；多樣性； Top-k推薦

Abstract： With the continuous development of e-commerce industry, recommender systems go more and more into people's lives. Top-K recommendation could recommend a list of items for the user to choose, and more and more plays an important role in the commercial recommendation. For Top-K recommendation, the increase in diversity can make the recommendation lists no longer repeat and monotonous. It provides users a variety of choices, convinience to adapt to users' needs. The traditional Top-K recommendation methods are mostly optimized on the basis of the rate prediction methods. Through the statistical survey on the MovieLens dataset, this paper shows that the user interest distributions will have better effect than the predictive rate. This paper also proposes two ideas for obtaining user interest distributions which may be used in later research.

Keywords： Recommendation； Diversity； Top-k

0 引言

推薦系統(tǒng)即通過(guò)對(duì)海量的用戶(hù)歷史購(gòu)物信息進(jìn)行學(xué)習(xí)，了解用戶(hù)的興趣特點(diǎn)和購(gòu)買(mǎi)傾向，向用戶(hù)推薦用戶(hù)感興趣的信息和商品。近年來(lái)，隨著電子商務(wù)產(chǎn)業(yè)的不斷發(fā)展，網(wǎng)絡(luò)上商品或者說(shuō)消費(fèi)品的種類(lèi)和數(shù)量不斷增長(zhǎng)，用戶(hù)往往要在篩選大量商品信息的過(guò)程中浪費(fèi)許多精力和時(shí)間，為了解決這個(gè)問(wèn)題，許多購(gòu)物網(wǎng)站、信息提供網(wǎng)站以及社交網(wǎng)站，諸如淘寶網(wǎng)、豆瓣網(wǎng)、微博，都建立了完善的推薦系統(tǒng)，用來(lái)為用戶(hù)提供完全個(gè)性化的決策支持和信息服務(wù)。推薦系統(tǒng)已經(jīng)在方方面面滲透入了人們的生活。

傳統(tǒng)的推薦系統(tǒng)通常通過(guò)應(yīng)用一些標(biāo)準(zhǔn)推薦算法，向用戶(hù)推薦具有最高預(yù)測(cè)評(píng)分的商品。常見(jiàn)的方法有基于內(nèi)容的方法，協(xié)同過(guò)濾(CF)[1]，矩陣奇異值分解(SVD)[2]等。這些方法通過(guò)對(duì)用戶(hù)的歷史評(píng)分?jǐn)?shù)據(jù)建模，得到用戶(hù)對(duì)其未評(píng)分商品的預(yù)測(cè)評(píng)分，從而對(duì)用戶(hù)進(jìn)行推薦。在這些方法當(dāng)中，預(yù)測(cè)評(píng)分的精準(zhǔn)度決定了這些方法的優(yōu)劣。一般來(lái)說(shuō)，用均方根誤差(RMSE)對(duì)預(yù)測(cè)評(píng)分的精準(zhǔn)度進(jìn)行評(píng)估，RMSE較低的方法被認(rèn)為具有更好的效果。

然而，傳統(tǒng)的推薦系統(tǒng)雖然在推薦單個(gè)商品上已經(jīng)達(dá)到很好的效果，但當(dāng)推薦的為一整個(gè)商品列表，即進(jìn)行Top-K推薦時(shí)，傳統(tǒng)推薦方法得到的推薦商品列表具有單調(diào)性以及重復(fù)性，很難真正滿(mǎn)足用戶(hù)的需求。尤其當(dāng)用戶(hù)為興趣廣泛且模糊的用戶(hù)類(lèi)型時(shí)，這種缺陷更加明顯。于是，最近的許多研究[3-5]更加注重在Top-K推薦中提高商品列表的多樣性，來(lái)覆蓋用戶(hù)多樣的興趣，從而達(dá)到更好的推薦效果。在評(píng)估這類(lèi)Top-K推薦方法時(shí)，與單個(gè)商品不同，不僅需要評(píng)估推薦商品列表的精準(zhǔn)度(Precision)和召回率(Recall)，同時(shí)也要對(duì)列表的多樣性(Diversity)進(jìn)行評(píng)估。

1 國(guó)內(nèi)外Top-K推薦多樣化研究

近年來(lái)，已經(jīng)出現(xiàn)了許多使推薦列表或搜索結(jié)果多樣化以增加用戶(hù)滿(mǎn)意度的研究。這些研究提高多樣性的方式主要分為以下兩類(lèi)：

2 MovieLens數(shù)據(jù)集上的統(tǒng)計(jì)調(diào)研

最近的許多Top-K推薦方法主要基于傳統(tǒng)推薦方法得到的推薦列表對(duì)多樣性進(jìn)行改進(jìn)。一般來(lái)說(shuō)，它們定義一個(gè)目標(biāo)函數(shù)，在商品列表的精準(zhǔn)度和多樣性間進(jìn)行平衡。1998年提出的MMR方法[6]是大多數(shù)這類(lèi)方法的基礎(chǔ)，其通過(guò)貪心算法每一步迭代選取當(dāng)前能夠最大化列表精準(zhǔn)度和多樣性的商品，最終得到一個(gè)同時(shí)兼顧精準(zhǔn)度以及多樣性的商品列表。然而，這些方法的基礎(chǔ)仍是傳統(tǒng)推薦方法的預(yù)測(cè)評(píng)分方法，其預(yù)測(cè)評(píng)分并不能精準(zhǔn)地代表用戶(hù)的興趣傾向，這使得在Top-K推薦當(dāng)中，這些推薦方法的效果仍有上升的空間。我們接下來(lái)通過(guò)一個(gè)在MovieLens數(shù)據(jù)集上的統(tǒng)計(jì)調(diào)研來(lái)說(shuō)明這個(gè)問(wèn)題。在公開(kāi)數(shù)據(jù)集MovieLens上關(guān)于電影主題的一個(gè)統(tǒng)計(jì)結(jié)果。MovieLens數(shù)據(jù)集中包含了一組從20世紀(jì)90年末到21世紀(jì)初由MovieLens用戶(hù)提供的電影評(píng)分?jǐn)?shù)據(jù)，其中包括電影評(píng)分、電影元數(shù)據(jù)(風(fēng)格、主題和年代)以及用戶(hù)信息(年齡、郵編、性別和職業(yè)等)。如圖1所示。

圖1 MovieLens數(shù)據(jù)集主題數(shù)據(jù)統(tǒng)計(jì)

圖1中橫坐標(biāo)為MovieLens數(shù)據(jù)集中的顯性主題，我們對(duì)各主題所占比例以及主題所受到的各等級(jí)評(píng)分所占的比例進(jìn)行統(tǒng)計(jì)。其中“Topic Popularity”表示數(shù)據(jù)集中每個(gè)主題所占比例，我們可以認(rèn)為這是該主題的流行度，“Rated (x) Proportion”表示每個(gè)主題中評(píng)分為x的比例。我們很容易可以發(fā)現(xiàn)，流行的電影主題不一定會(huì)獲得高的評(píng)分。例如，“Comedy”主題的電影具有最高的人氣，但是在對(duì)該主題電影的評(píng)分當(dāng)中，評(píng)分和的比例只有接近。此外，諸如“Film-Noir”和“Documentary”的高評(píng)分主題，它們也同時(shí)具有幾乎最低的流行度。這些觀察結(jié)果可以表明，用戶(hù)的興趣與其對(duì)商品的評(píng)分并不密切相關(guān)，也就是說(shuō)，用戶(hù)會(huì)傾向于選擇的商品不一定是能得到高評(píng)分的商品。

因此，我們認(rèn)為相對(duì)于傳統(tǒng)Top-K推薦方法中基于預(yù)測(cè)評(píng)分對(duì)商品進(jìn)行排序的做法，基于用戶(hù)興趣分布來(lái)進(jìn)行Top-K推薦才是更好的選擇。

3 獲取用戶(hù)興趣分布的兩種思路

本文提出兩種獲得用戶(hù)興趣分布的思路。它們都能直接獲取用戶(hù)興趣分布，而不是預(yù)測(cè)用戶(hù)對(duì)商品的評(píng)分，更加適用于進(jìn)行Top-K推薦的推薦方法。

1.1 LDA主題模型：

在自然語(yǔ)言處理當(dāng)中，LDA主題模型用來(lái)得到“文章-主題”和“主題-詞”這兩個(gè)概率分布，通過(guò)這兩個(gè)概率分布，可以實(shí)現(xiàn)如自動(dòng)摘要、主題生成、文章分類(lèi)等功能。其核心式如下式：

p(w|d)=p(w|t)*p(t|d)

其中d、w、t分別為文章、詞、主題。我們可以看到，在LDA中，文章d中的每一個(gè)詞w，都被看作是以p(t|d)的概率先選擇一個(gè)主題t，再以p(d|t)的概率從主題t相關(guān)的詞中選擇一個(gè)詞w。

而近年來(lái)一些推薦算法[11]將LDA主題模型應(yīng)用于推薦領(lǐng)域，他們往往通過(guò)對(duì)商品的文本信息如介紹、評(píng)論等進(jìn)行類(lèi)似于自然語(yǔ)言處理中的LDA建模，得到“用戶(hù)-主題”和“主題-商品”的分布。在這些研究當(dāng)中，用戶(hù)被看作先以一定概率選擇一個(gè)主題，然后再?gòu)闹黝}相關(guān)的商品中以一定概率選擇一個(gè)商品。不同于常規(guī)推薦系統(tǒng)致力于預(yù)測(cè)用戶(hù)對(duì)商品的評(píng)分，通過(guò)LDA建模得到的這兩個(gè)概率分布，可以容易地計(jì)算出用戶(hù)選擇商品的概率，即用戶(hù)興趣分布。

1.2 隨機(jī)游走方法：

一些推薦方法[12]將用戶(hù)對(duì)商品的評(píng)分矩陣轉(zhuǎn)化成圖的形式，并在圖上進(jìn)行隨機(jī)游走(Random Walk)的實(shí)驗(yàn)。其核心思想來(lái)源于google的PageRank算法。如圖2所示。

圖2 評(píng)分關(guān)系圖

一般做法是將用戶(hù)和商品作為圖中節(jié)點(diǎn)，用戶(hù)對(duì)商品的評(píng)分關(guān)系作為圖中的邊，某些研究還將評(píng)分作為邊的權(quán)重。以此評(píng)分關(guān)系圖為基礎(chǔ)，每次選取一個(gè)用戶(hù)u，虛擬其在圖上隨機(jī)游走N輪的過(guò)程，統(tǒng)計(jì)該用戶(hù)u到達(dá)各個(gè)商品節(jié)點(diǎn)的次數(shù)Ci，則用戶(hù)u選商品i的概率可以近似看作Ci/N。多次實(shí)驗(yàn)取均值，就可以得到用戶(hù)u的興趣分布。

4 總結(jié)

目前推薦系統(tǒng)研究中的一個(gè)重要方向是提高Top-K推薦的多樣性。本文對(duì)推薦系統(tǒng)及Top-k推薦的現(xiàn)狀進(jìn)行介紹，然后通過(guò)一個(gè)在通用數(shù)據(jù)集MovieLens上的統(tǒng)計(jì)調(diào)研，說(shuō)明了在Top-K推薦當(dāng)中基于用戶(hù)興趣分布會(huì)比基于預(yù)測(cè)評(píng)分更加適用，并提出兩個(gè)獲取用戶(hù)興趣分布的思路，分別為L(zhǎng)DA主題模型和隨機(jī)游走方法，希望能給后續(xù)研究帶來(lái)啟發(fā)。

[1] Koren Y, Bell R. Advances in Collaborative Filtering. Recommender Systems Handbook[M].2011: 145-186.

[2] Koren Y. The Bellkor Solution to the Netflix Grand Prize[J]. Netflix prize documentation, 2009(81): 1-10.

[3] Mi Zhang, Neil Hurley. Avoiding Monotony: Improving the Diversity of Recommendation Lists[R]. Lausanne, Switzerland, October, 2008:23-25.

[4] Zhou T, Kuscsik Z, Liu J G, et al. Solving the Apparent Diversity-accuracy Dilemma of Recommender Systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107: 4511-4515.

[5] Qin Lijing,Zhu Xiaoyan. Promoting Diversity in Recommendation by Entropy Regularizer[J]. IJCAI, 2013, 2698-2704.

[6] Jaime G. Carbonell, Jade Goldstein. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries[C]. SIGIR 1998, Melbourne, Australia,

[7] Tommaso Di Noia, Vito Claudio Ostuni, Jessica Rosati, et al. An Analysis of Users' Propensity Toward Diversity in Recommendations[C]. Eighth ACM Conference on Recommender Systems, Silicon Valley, 2014.

[8] Rodrygo L T. Santos, Craig Macdonald, IadhOunis. Exploiting Query Reformulations for Web Search Result Diversification[C]. Raleigh, 2010.

[9] A. Ashkan, B. Kveton, S. Berkovsky, et al. Optimal Greedy Diversity for Recommendation[C]. Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence, 2015,1742-1748.

[10] Van Dang, W. Bruce Croft. Diversity by Proportionality: An Election-based Approach to Search Result Diversification[C]. SIGIR12, Portland, 2012: 12-16.

[11] Deepak Agarwal, Bee Chung Chen. FLDA: Matrix Factorization through Latent Dirichlet Allocation[C]. WSDM 2010.

[12] Zhang Y, Wu J, Zhuang Y. Random Walk Models for Top-N Recommendation task[J]. Journal of Zhejiang University (SCIENCE A), 2009，10(7):927-936.

ResearchonDiversityinTop-krecommendation

Xing Xiaolu
(Pudong New Area, Shanghai 201203, China)

TG4

2017.04.15)

邢小璐(1991-)，男，軟件工程師。研究方向：數(shù)據(jù)挖掘，推薦系統(tǒng)。

1007-757X(2017)09-0044-03