程蕊蕊,陳慧萍
(河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州213022)
基于新聞推薦的用戶興趣模型研究?
程蕊蕊,陳慧萍
(河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州213022)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,涌現(xiàn)出一大批新聞?lì)惥W(wǎng)站,人們也逐漸開(kāi)始通過(guò)網(wǎng)絡(luò)獲取新聞消息,因此針對(duì)不同用戶推薦個(gè)性化的新聞內(nèi)容將會(huì)極大地幫助網(wǎng)站增加用戶粘性。為了提高新聞推薦的準(zhǔn)確性,建立一種用戶綜合興趣模型,首先根據(jù)用戶瀏覽網(wǎng)頁(yè)的行為習(xí)慣建立相應(yīng)的用戶穩(wěn)定興趣模型;然后根據(jù)新聞的時(shí)效性和主流性,提出以新聞新鮮度為基礎(chǔ)的試探性推薦方法,建立用戶的臨時(shí)興趣模型;最后,將這兩種模型通過(guò)加權(quán)進(jìn)行組合以建立用戶綜合興趣模型。實(shí)驗(yàn)結(jié)果證明,提出的方法能從大量最新發(fā)布的新聞中推薦最符合用戶閱讀偏好的特定新聞文章。
用戶粘性;新聞推薦;興趣模型;瀏覽習(xí)慣;時(shí)效性;新鮮度
隨著新聞?lì)惥W(wǎng)站和各類社交網(wǎng)絡(luò)的飛速發(fā)展,互聯(lián)網(wǎng)上的新聞信息爆炸式增長(zhǎng),面對(duì)海量變化的網(wǎng)絡(luò)新聞,用戶面臨的選擇越來(lái)越多,在這樣的環(huán)境下,如何能夠更好的為用戶推薦比較符合用戶興趣的新聞列表,成為網(wǎng)絡(luò)新聞檢索領(lǐng)域的一項(xiàng)重要內(nèi)容。用戶閱讀新聞時(shí)一般是通過(guò)導(dǎo)航找到新聞列表分類,在新聞列表分類中尋找自己感興趣的新聞,或者是通過(guò)在搜索引擎中輸入關(guān)鍵詞或新聞?wù)M(jìn)行直接搜索。而面向個(gè)性化服務(wù)的新聞推薦是根據(jù)每個(gè)用戶的個(gè)性化興趣主動(dòng)推薦符合用戶瀏覽習(xí)慣的新聞界面和新聞信息。因此,建立合適的用戶興趣模型是進(jìn)行個(gè)性化推薦的核心。
根據(jù)用戶喜好推薦新聞給用戶,長(zhǎng)期以來(lái)一直是推薦系統(tǒng)研究領(lǐng)域最受歡迎的。如通過(guò)在Twitter上用戶的實(shí)時(shí)微博活動(dòng),建立用戶個(gè)性化模型,進(jìn)而實(shí)現(xiàn)個(gè)性化新聞推薦[1]。根據(jù)用戶點(diǎn)擊行為發(fā)現(xiàn)用戶的興趣,進(jìn)而推薦用戶感興趣的新聞內(nèi)容[2-3]。盡管現(xiàn)存的推薦系統(tǒng)有了突破性進(jìn)步,并且有很多學(xué)者對(duì)推薦系統(tǒng)中的推薦算法做了大量改進(jìn)[4-6]來(lái)提高推薦效率。但針對(duì)新聞推薦仍有一些因素制約向用戶推薦的效率,它包括:①新聞的生命周期很短;②初次使用系統(tǒng)的用戶帶來(lái)的挑戰(zhàn),并且,最開(kāi)始的時(shí)候,無(wú)法得知他們的興趣;③推薦與用戶喜好無(wú)關(guān)的新聞時(shí),難以確定應(yīng)該推薦哪些新聞;④盡管與用戶的興趣無(wú)關(guān),用戶依然會(huì)對(duì)重大主流新聞感興趣。本文針對(duì)新聞推薦中無(wú)法得知初次使用系統(tǒng)的用戶興趣,根據(jù)文獻(xiàn)[7-8]中提到的每個(gè)用戶瀏覽網(wǎng)頁(yè)有行為和習(xí)慣能夠反應(yīng)用戶的興趣特征,來(lái)對(duì)用戶興趣愛(ài)好進(jìn)行分析,建立穩(wěn)定的興趣模型,并針對(duì)新聞生命周期短,用戶對(duì)重大主流新聞感興趣的因素,提出基于新鮮度的主流新聞試探性推薦,建立臨時(shí)興趣模型,從而在一定程度上提高了新聞推薦效率。
用戶興趣獲取一般是通過(guò)分析用戶以前瀏覽網(wǎng)頁(yè)的行為獲得的,雖然能較為準(zhǔn)確的獲得用戶的興趣類別,但是對(duì)于突發(fā)性強(qiáng)、不易預(yù)測(cè)、很受關(guān)注的新聞來(lái)說(shuō),僅通過(guò)這種方法來(lái)獲取用戶興趣,不能很準(zhǔn)確地預(yù)測(cè)用戶關(guān)注的新聞?lì)悇e。
基于新聞推薦的用戶興趣的獲得需要考慮兩方面內(nèi)容:①用戶的穩(wěn)定興趣,即用戶一段時(shí)間內(nèi)的興趣,不會(huì)輕易改變,主要是通過(guò)對(duì)用戶一段時(shí)間內(nèi)瀏覽新聞網(wǎng)頁(yè)的行為習(xí)慣分析,捕捉用戶的興趣,而能夠反應(yīng)用戶興趣的行為主要有評(píng)價(jià)、分享、保存、發(fā)送鏈接;②用戶臨時(shí)興趣,即用戶只是在短時(shí)間感興趣的項(xiàng)目,是不斷變化的。本文通過(guò)對(duì)最近發(fā)生的重大主流新聞進(jìn)行試探性推薦來(lái)預(yù)測(cè),如果是用戶感興趣的新聞?lì)悇e,就直接進(jìn)行推薦,對(duì)于不屬于用戶感興趣的新聞,根據(jù)新聞的新鮮度進(jìn)行內(nèi)容不斷更新的推薦,由用戶接受與否來(lái)預(yù)測(cè)用戶對(duì)新聞的喜愛(ài)與否,從而構(gòu)成用戶的臨時(shí)興趣。最后,將穩(wěn)定興趣和臨時(shí)興趣結(jié)合構(gòu)成用戶的綜合興趣模型(見(jiàn)圖1)。
根據(jù)新聞推薦中用戶興趣的獲取,基于新聞推薦的用戶興趣建模要建立穩(wěn)定興趣模型和臨時(shí)興趣模型,最后將這兩種模型結(jié)合起來(lái)構(gòu)成用戶綜合興趣模型。
圖1 用戶興趣獲取
3.1 用戶穩(wěn)定興趣模型
用戶的穩(wěn)定興趣模型采用空間向量模型表示,假設(shè)新聞的分類集為:NW={NW1,NW2,...NWm},其中NWi是第i類新聞(1≤i≤m)。用戶的興趣向量模型可以表示為:
其中ID是用戶標(biāo)識(shí),w1,w2,w3是相應(yīng)新聞分類的興趣度,即用戶對(duì)某類新聞喜愛(ài)的程度。
能夠反應(yīng)用戶興趣特征的瀏覽行為有很多,但起關(guān)鍵作用的的主要有—評(píng)價(jià)(EV),分享(SH),保存(SV),發(fā)送文章鏈接(SD)等,將它們定義如下:
定義1:若用戶對(duì)瀏覽過(guò)的網(wǎng)頁(yè)給予評(píng)價(jià),則將瀏覽某種類別所有新聞評(píng)分的平均值記為EV,規(guī)定0≤EV≤1,EV越大表示用戶的評(píng)價(jià)越高;
定義2:若用戶對(duì)瀏覽過(guò)的網(wǎng)頁(yè)進(jìn)行分享,記為SH,規(guī)定SH=1,表示用戶分享該網(wǎng)頁(yè),SH=0,表示用戶沒(méi)有分享,SHi表示用戶分享第i類新聞網(wǎng)頁(yè)的次數(shù);
定義3:若用戶對(duì)瀏覽過(guò)的網(wǎng)頁(yè)進(jìn)行保存,則將保存第i類新聞網(wǎng)頁(yè)的總數(shù)量記為SVi;
定義4:若用戶發(fā)送瀏覽過(guò)的網(wǎng)頁(yè)鏈接,則將發(fā)送第i類新聞網(wǎng)頁(yè)的總次數(shù)記為SDi。
用戶的興趣度可以通過(guò)用戶對(duì)網(wǎng)頁(yè)的評(píng)價(jià)(EV)、分享(SH)次數(shù)、保存(SV)、發(fā)送鏈接(SD)的次數(shù)來(lái)評(píng)估,這些行為與用戶的興趣度成正比例,用戶對(duì)第i類新聞的興趣度可以表示為:
其中a,b,c,d是權(quán)重常量,且a+b+c+d=1,SH0,SV0,SD0是SH、SV和SD進(jìn)行歸一化處理后的結(jié)果。歸一化計(jì)算公式如下:
根據(jù)公式(2)-(5),計(jì)算各個(gè)新聞?lì)悇e的興趣度,得出用戶興趣度高的新聞?lì)悇e,即可得到用戶的興趣,建立用戶的穩(wěn)定興趣(Stable Interest)模型,其中NWi是用戶感興趣的新聞?lì)悇e。
3.2 用戶臨時(shí)興趣模型
由于新聞時(shí)效性強(qiáng),更新速度快,用戶對(duì)新聞?lì)悇e的關(guān)注有一部分是不斷變化的,主要是根據(jù)新聞系統(tǒng)向用戶推薦重大主流新聞,用戶是否接受來(lái)判斷的。在對(duì)用戶進(jìn)行推薦時(shí),要考慮到新聞的新鮮度,處理好時(shí)間和新聞的關(guān)系,及時(shí)有效地將用戶關(guān)注的主題相關(guān)新聞的最新?tīng)顟B(tài)推薦給用戶,根據(jù)用戶的接受程度來(lái)建立用戶的臨時(shí)興趣模型(見(jiàn)圖2)。
圖2 新聞推薦的臨時(shí)興趣
3.3 加權(quán)后的用戶綜合興趣模型
在個(gè)性化新聞推薦中,最重要的是推薦給用戶有重要性的、最近發(fā)生的、用戶又不反感的內(nèi)容。根據(jù)用戶瀏覽網(wǎng)頁(yè)的行為習(xí)慣雖然能推薦給用戶符合其興趣特征的新聞內(nèi)容,但是對(duì)于新聞推薦來(lái)說(shuō)不夠全面,而只推薦主流新聞忽略用戶的興趣偏好則會(huì)造成用戶使用不滿意。因此需要同時(shí)考慮用戶的穩(wěn)定興趣和臨時(shí)興趣,將最符合用戶當(dāng)前閱讀偏好的新聞推薦給用戶,不僅能提高推薦系統(tǒng)的質(zhì)量,還能最大程度滿足用戶的需求。用戶的綜合興趣要將穩(wěn)定興趣和臨時(shí)興趣結(jié)合起來(lái)。用戶的興趣模型為:
α是用戶穩(wěn)定興趣在興趣中的權(quán)重,β是用戶臨時(shí)興趣在興趣中的權(quán)重,且α+β=1。
實(shí)驗(yàn)數(shù)據(jù)是來(lái)自微博上用戶瀏覽閱讀的新聞內(nèi)容?;谛侣勍扑]的用戶興趣研究中,重要的是要能推薦給用戶接受的新聞內(nèi)容,本文用查準(zhǔn)率驗(yàn)證提出的方法。
在計(jì)算用戶的綜合興趣時(shí),出于新聞重要性,更新速度快的特征考慮,圖3是本文令α=0.5,β=0.5時(shí)的模型查準(zhǔn)率比較。
圖3 用戶興趣模型比較
由結(jié)果可以看出,基于新聞推薦的用戶興趣模型在對(duì)用戶進(jìn)行新聞推薦時(shí),更能將準(zhǔn)確的新聞內(nèi)容推薦給用戶。隨著推薦的新聞數(shù)目的增加,這種優(yōu)勢(shì)更明顯。
提出了一種基于新聞推薦的用戶興趣研究方法。不僅考慮用戶瀏覽網(wǎng)頁(yè)的行為習(xí)慣,來(lái)獲得用戶的穩(wěn)定興趣,而且通過(guò)對(duì)用戶推薦重大主流新聞,發(fā)現(xiàn)用戶關(guān)注主流新聞的臨時(shí)興趣,再結(jié)合穩(wěn)定興趣和臨時(shí)興趣建立用戶的綜合興趣,此方法在新聞推薦系統(tǒng)中能更全面的將用戶感興趣的主流新聞推薦給用戶。雖然文中的方法對(duì)于新聞推薦系統(tǒng)有一定的提高,但是隨著移動(dòng)網(wǎng)絡(luò)新聞?dòng)脩舻脑黾?,用戶?duì)新聞的偏好不僅依賴于主題和內(nèi)容,也依賴于用戶現(xiàn)在的背景,如用戶現(xiàn)在的地理位置、時(shí)間、社會(huì)環(huán)境和外部事件等。下一步的研究工作要將這些因素考慮進(jìn)來(lái),以更高的精確度提高推薦系統(tǒng)的質(zhì)量。
[1] Abel F,Gao Q,Houben G J,et al.Analyzing usermodeling on twitter for personalized news recommendations[M].//User Modeling,Adaption and Personalization. Springer Berlin Heidelberg,2011:1-12.
[2] Liu J,Dolan P,Pedersen E R.Personalized news recommendation based on click behavior[C].//Proceedings of the 15th international conference on Intelligent user interfaces.ACM,2010:31-40.
[3] Phelan O,McCarthy K,Smyth B.Using twitter to recommend real-time topical news[C].//Proceedings of the third ACM conference on Recommender systems.ACM,2009:385-388.
[4] Sarwar B,Karypis G,Konstan J,etal.Item-based collaborative filtering recommendation algorithms[C].//Proceedings of the 10th international conference on World Wide Web.ACM,2001:285-295.
[5] Chang Y,Shen J,Chen T.A Data Mining-Based Method for the Incremental Update of Supporting Personalized Information Filtering[J].JOURNAL OF INFORMATION SCIENCE AND ENGINEERING,2008,24(1):129-142.
[6] Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:A frequent-pattern tree approach[J].Data mining and knowledge discovery,2004,8(1):53-87.
[7] 付關(guān)友,朱征宇.個(gè)性化服務(wù)中基于行為分析的用戶興趣建模[J].計(jì)算機(jī)工程與科學(xué),2006,27(12):76-78.
Fu G,Zhu ZY.A User InterestModel Based on the Analysis of User Behaviorsfor Personalization[J].COMPUTER ENGINEERING&SCIENCE,2006,27(12):76-78.
[8] 楊繼萍,王躍,高雪松.個(gè)性化流媒體服務(wù)中基于行為分析的用戶興趣建模[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(8):247-250.
Yang J P,Wang Y,Gao X S.User Interest Modeling for Personalized Streaming Media Services Based on Behavior Analysis[J].Computer Applications and Software,2011,28(8):247-250.
[9] 于洪,李轉(zhuǎn)運(yùn).基于遺忘曲線的協(xié)同過(guò)濾推薦算法[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,46(5):520-527.
Yu H,Li Z Y.A collaborative filtering recommendation algorithm based on forgetting curve[J].JOURNAL OF NANJING UNIVERSITY(NATURAL SCIENCES),2010, 46(5):520-527.
Study on User Interest Model Based on News Recommendation
Cheng Ruirui,Chen Huiping
(College of Internet of Things Engineering,Hohai University,Changzhou 213022,China)
With the rapid development of the Internet,a large number of news websites were emerged and people gradually use the Internet to get news,so,introducing the personalized contents according to the users'different requirementswill help newswebsites increase user stickiness.In order to improve the accuracy of news recommendation,this paper establishes a comprehensive user interest model.First,a stable user interest model is established based on user browsing habits.Then,the freshness-based tentative recommendations are described on the basis of news timeliness and mainstream to get the user's temporary interest model.Finally,these two models are combined to establish a comprehensive user interestmodel.The experimental results prove that the proposed method can recommend specific news articleswhich bestmeets the user's reading preferences from a large number of the latest published news.
User stickiness;News recommendation;Interest model;Browsing habits;Timeliness;Freshness
10.3969/j.issn.1002-2279.2015.05.016
TP301
A
1002-2279(2015)05-0061-04
國(guó)家自然科學(xué)基金資助項(xiàng)目(61100045;61273170)
程蕊蕊(1986-),女,河南平頂山市人,碩士研究生,主研方向:數(shù)據(jù)挖掘。
2015-03-16