亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVD++與標簽的跨域推薦模型

        2018-04-19 08:03:14邢長征
        計算機工程 2018年4期
        關(guān)鍵詞:跨域標簽領域

        邢長征,

        (遼寧工程技術(shù)大學 電子與信息工程學院,遼寧 葫蘆島 125105)

        0 概述

        推薦系統(tǒng)根據(jù)用戶的喜好(興趣和目標)來確定用戶感興趣的潛在項目[1]。大部分的推薦系統(tǒng)都是根據(jù)單一領域中的用戶和項目歷史數(shù)據(jù)來進行推薦的,例如Netflix、Last.fm、Barnes & Noble網(wǎng)站對電影、音樂以及書籍的推薦,但由于用戶不僅僅對單一領域的事物感興趣,因此單領域推薦已經(jīng)不能準確地預測用戶的興趣。針對單領域推薦模型在數(shù)據(jù)稀疏和冷啟動情況下推薦效果較差的問題,大型電子商務網(wǎng)站Amazon和eBay通過多個領域來獲取用戶的反饋信息,從而產(chǎn)生了跨域推薦系統(tǒng)。跨領域推薦系統(tǒng)中的跨域推薦模型[2]是利用不同源數(shù)據(jù)域來對目標數(shù)據(jù)域[3-4]信息進行預測的?,F(xiàn)如今各大網(wǎng)站利用標簽信息來體現(xiàn)用戶喜好和項目特征,而用戶在給不同領域(如電影、音樂、書籍等領域)的項目添加標簽時,可以使用通用詞匯作為標簽[5]。因此,標簽可以作為連接不同領域的橋梁并且用來克服基于內(nèi)容推薦時特征信息復雜性和不均勻性的不足[6-7]。目前,將跨域推薦模型融入標簽因素來進行評分預測時,仍存在以下問題:UserItemTags模型[8]當用戶沒有給特定項目添加標簽時預測誤差變大,ItemRelTags[8]只是加入了項目的標簽信息,并沒有考慮用戶標簽信息,導致無法利用用戶過去選擇的標簽來預測用戶的喜好。

        為提高預測準確度,本文構(gòu)建一個新的跨域推薦模型。在使用SVD++模型評分數(shù)據(jù)預測的基礎上,添加用戶和項目歷史標簽信息,并利用標簽使用次數(shù)、熱門標簽和項目的懲罰系數(shù)刻畫并預測用戶喜好。

        1 相關(guān)研究

        1.1 基于矩陣分解的推薦模型

        1.1.1 隱因式分解模型

        隱因式分解模型(Latent Factor Model,LFM)是推薦系統(tǒng)領域的熱點研究話題之一,其核心思想是通過隱含特征聯(lián)系用戶興趣和物品[9]。具體過程分為3個部分:將物品映射到隱含分類,確定用戶對隱含分類的興趣,選擇用戶感興趣的分類中的物品推薦給用戶[10]。LFM通過式(1)計算用戶u對物品i的興趣:

        (1)

        其中,pu,k和qi,k是模型的參數(shù),pu,k代表用戶u的興趣是第k個隱類的權(quán)重,qi,k代表第k個隱類屬于物品i的權(quán)重,K是隱類的個數(shù)。兩者的乘積再對k積分就得到用戶u對商品i的偏好程度。

        將式(1)表示為向量乘積的形式,即為:

        (2)

        考慮到在真實的模型中,每個用戶評分的基準線不同,每個商品得到評分的基準線也不同,引入?yún)?shù)μ表示訓練集中所有記錄的評分的全局平均數(shù);引入?yún)?shù)bu,即用戶偏置項,這一項表示用戶的評分習慣中和物品沒有關(guān)系的那種因素;引入?yún)?shù)bi,即物品偏置項,表示物品接受的評分中和用戶沒有什么關(guān)系的因素。因此,式(2)變?yōu)橐韵滦问?

        (3)

        1.1.2 SVD++模型

        LFM模型中并沒有顯式地考慮用戶的歷史行為對用戶評分預測的影響,為此Koren在Netflix Prize比賽中構(gòu)建一個模型,將用戶歷史評分的物品加入到LFM模型中。該模型被稱為SVD++[10-12],具體如下:

        將基于項目的協(xié)同過濾算法(ItemCF)[13]的預測計算式改為:

        (4)

        (5)

        將前面的隱因式分解模型(LFM)和上面的模型相加,從而得到:

        (6)

        文獻[10]提出為了不避免太多參數(shù)造成過擬合,可以令x=q,從而得到最終的SVD++模型,用式(7)表示SVD++模型:

        (7)

        1.2 基于標簽的跨域推薦模型

        用戶使用社交標簽對信息進行分類[14],可自由組織、管理和搜索所需的資源。這種易使用性使標簽成為信息分類與索引的重要方式,既能反映出用戶的興趣愛好,又能體現(xiàn)資源特征,并且對稀疏數(shù)據(jù)和新資源推薦質(zhì)量的提升有所幫助。在跨域推薦過程中,在其中一個領域中使用的標簽,完全可以被重新用于另一個領域[15]。因此,可以在跨域推薦模型中利用標簽信息作為連接不同領域的橋梁。

        1.2.1 UserItemTags模型

        UserItemTags[8]模型是一個通過標簽體現(xiàn)用戶興趣偏好和資源特征信息的模型,在預測評分時利用了目標用戶使用過的標簽。使用此模型時假設用戶沒有對項目進行評分而只是添加了標簽,然后利用這些標簽來更好地預測用戶對項目的評分。運用此模型進行推薦的一個經(jīng)典案例是Delicious的社交書簽網(wǎng)站,用戶可以標記書簽,但可以不對項目進行評分[8]。UserItemTags使用下式預測評分:

        (8)

        其中,Tu表示用戶u給項目i添加的標簽集合。

        UserItemTags模型缺點為:當項目沒有被用戶添加標簽時推薦預測性能會大幅度降低。

        1.2.2 ItemRelTags模型

        ItemRelTags[8]模型中沒有涉及目標用戶對目標項目添加的標簽,而是使用了任意用戶對目標項目添加的所有標簽,這樣就可以克服UserItemTags的局限性:目標用戶在沒有對某一項目添加標簽的情況下無法進行評分預測。事實上,ItemRelTags模型只需要所有用戶對項目i添加有關(guān)標簽集合TR(i)。這里評估標簽的相關(guān)性使用Wilcoxon秩和檢驗方法來決定每個標簽的去留[8]。此外,假設標簽對于任何用戶都具有相同影響。由于在模型中用戶給目標項目添加相關(guān)標簽,因此相同的標記會出現(xiàn)多次。如果一個項目被添加同一個標簽很多次,這就說明這個標簽可以很好地反映此項目的特征。因此,該模型添加了標簽的使用頻率nt。ItemRelTags模型的計算式如下:

        (9)

        其中,TR(i)是整個標簽集合中和項目i有關(guān)的標簽,nt是用戶給項目i添加標簽t的次數(shù)。該模型的優(yōu)點是即使是沒有對項目做任何標簽的新用戶也可以為其做出評分預測。但其只是考慮特定項目的歷史標簽并沒有考慮目標用戶的歷史標簽,在這種情況下,可以通過用戶在過去選擇的標簽來豐富用戶的喜好。

        2 TagSVD++跨域推薦模型

        上文介紹的隱因式分解和SVD++模型雖然在推薦領域中流行度較高,但只能在單一領域中進行推薦,這樣就會在冷啟動情況下出現(xiàn)推薦準確度下降的問題。根據(jù)用戶不只對單一領域感興趣的現(xiàn)狀,本文構(gòu)建跨域推薦模型,用不同領域共有的標簽信息作為連接不同領域的紐帶,在多個領域信息中進行推薦預測,提升了預測的性能[16]。目前跨域推薦模型存在的不足是:利用UserItemTags模型進行預測,用戶沒有為項目添加標簽時,模型預測效果沒有原始模型隱因式分解(LFM)模型預測精準;ItemRelTags模型并沒有考慮特定用戶的歷史標簽來豐富用戶的喜好。

        本文構(gòu)建基于SVD++改進標簽跨域推薦模型TagSVD++。該模型繼承了SVD++中利用評分信息間接表示用戶喜好和項目特征的特點,同時又加入了用戶以及項目的歷史標簽信息和標簽使用頻率,并通過熱門標簽懲罰系數(shù)來增強模型推薦效果的準確性和新穎性。

        步驟1求相似的標簽。

        針對新用戶或者新物品標簽集合中標簽數(shù)量較少的情況,需要對標簽集合進行擴展,標簽擴展的本質(zhì)是對每個標簽找到和它相似的標簽,也就是計算標簽之間的相似度。首先通過式(10)余弦相似度公式計算標簽b和b′之間的相似度:

        (10)

        然后對標簽集合排序,參考文獻[17]中將排序結(jié)果中前20個標簽作為用戶相關(guān)的標簽。

        步驟2構(gòu)造模型。

        本文模型構(gòu)建過程如圖1所示。

        圖1 模型構(gòu)建過程

        模型公式表示為:

        (11)

        步驟3損失函數(shù)計算。

        類似于SVD++模型,需要求得式(11),通過用戶實際評分和預測評分之間損失函數(shù)的最小值來找到最合適的參數(shù)。

        (12)

        步驟4使用隨機梯度下降法[18]求損失函數(shù)最小值。

        最小化上述的損失函數(shù),利用隨機梯度下降模型來計算。該模型是最優(yōu)化理論里最基礎的優(yōu)化模

        型,通過求參數(shù)的偏導數(shù)找到最速下降的方向,然后通過迭代法不斷地優(yōu)化參數(shù)。根據(jù)隨機梯度下降法,需要將參數(shù)沿著最速下降方向向前推進,因此,得到如式(13)~式(16)所示的遞推公式。

        (13)

        (14)

        (15)

        (16)

        (17)

        (18)

        (19)

        (20)

        利用遞推公式進行迭代直至值不再發(fā)生變化則迭代結(jié)束,從而利用隨機梯度下降法求得使損失函數(shù)最小的各個參數(shù):學習速率α和正則化參數(shù)λ。表1列出了跨域模型對標簽信息的利用情況,其中√代表包括,×表示不包括。

        表1 跨域模型比較

        3 實驗

        3.1 實驗數(shù)據(jù)及預處理

        3.1.1 數(shù)據(jù)集

        為了模擬跨域數(shù)據(jù)集,本文使用2個來自不同領域公開可下載的數(shù)據(jù)集:MovieLens數(shù)據(jù)集和LibraryThings數(shù)據(jù)集。2個數(shù)據(jù)集評分范圍均為1分~5分,每0.5分為一級,評分代表用戶的偏好程度。實驗數(shù)據(jù)集規(guī)模如表2所示,原始數(shù)據(jù)集的典型示例如表3和表4所示。

        表2 實驗數(shù)據(jù)集規(guī)模

        表3 MovieLens數(shù)據(jù)集典型示例

        表4 LibraryThings原始數(shù)據(jù)集典型示例

        3.1.2 標簽剪修

        對標簽進行修剪:1)去除用戶對項目添加的表示情緒的標簽,比如“不好笑”,但是“不好笑”不能認為是用戶的興趣;2)去除詞頻很高的停止詞;3)去除因詞根不同造成的同義詞;4)去除因分隔符造成的同義詞。

        3.2 評估方法

        評估模型模型時,首先將MovieLens作為源數(shù)據(jù)域,LibraryThings作為目標數(shù)據(jù)域,然后反之也是如此。將目標數(shù)據(jù)域平均分為沒有重疊的10份,在每一份數(shù)據(jù)中,10%的數(shù)據(jù)為測試集來評估方法的性能。剩下的90%數(shù)據(jù)做為訓練數(shù)據(jù)集,在訓練數(shù)據(jù)集中有20%的驗證數(shù)據(jù)集,用來尋找模型的最優(yōu)參數(shù),其中包括學習速率α、正則化參數(shù)λ和隱特征個數(shù)k。而訓練數(shù)據(jù)中剩下的80%數(shù)據(jù)結(jié)合源數(shù)據(jù)域來建立模型。為了測評目標數(shù)據(jù)域中用戶評分的稀疏程度對模型性能的影響,將訓練數(shù)據(jù)平均分為10份,依次取1份,2份,……,10份作為訓練數(shù)據(jù)來訓練模型以此來模擬用戶評分數(shù)據(jù)不同的稀疏程度[15]。因為數(shù)據(jù)集中整個評分系統(tǒng)是以0.5分為一等級建立的,所以采用平均絕對誤差(Mean Absolute Error,MAE)即來進行預測可以降低預測結(jié)果的誤差[15]。MAE采用絕對值計算預測誤差,其定義為:

        (21)

        3.3 實驗結(jié)果與分析

        各模型的平均最優(yōu)參數(shù)如表5和表6所示。

        表5 LibraryThings(源數(shù)據(jù)域)各模型平均最優(yōu)參數(shù)

        表6 MovieLens(源數(shù)據(jù)域)各模型平均最優(yōu)參數(shù)

        將LibraryThings數(shù)據(jù)集作為源數(shù)據(jù)集,將MovieLens數(shù)據(jù)集作為目標數(shù)據(jù)集,實驗結(jié)果如圖2所示??梢钥闯?LFM、SVD++單領域推薦模型的誤差遠遠大于跨領域的推薦模型,而在跨域推薦模型中TagSVD++模型的預測誤差都遠小于其他幾個模型,即使只有10%的評分數(shù)據(jù)(冷啟動)存在的情況下。隨著目標域評分量的增多平均絕對誤差也在不斷變小。

        圖2 平均絕對誤差比較1

        將MovieLens數(shù)據(jù)集作為源數(shù)據(jù)集,將LibraryThings數(shù)據(jù)集作為目標數(shù)據(jù)集,實驗結(jié)果如圖3所示。與前一種情況類似,跨域推薦模型推薦誤差遠遠小于單域推薦模型,而在跨域推薦模型中TagSVD++推薦準確度又遠遠高于另外4個模型。而由圖2和圖1可以看出,第2種情況下所有的模型的預測誤差都大于第1種情況,這是因為MovieLens數(shù)據(jù)域數(shù)據(jù)量大于LibraryThings數(shù)據(jù)域的數(shù)據(jù)量。因此,較少的訓練數(shù)據(jù)會導致預測精準度的下降。

        圖3 平均絕對誤差比較2

        經(jīng)過20次重復試驗求得到的每組結(jié)果的標準差,如表7和表8所示??梢钥闯?TagSVD++在各個數(shù)據(jù)稀疏度下標準差都小于其他模型。這說明TagSVD++模型的預測結(jié)果不僅誤差較其他算法小,而且預測結(jié)果穩(wěn)定,可以被用來很好地預測用戶的評分。

        表7 LibraryThings(源數(shù)據(jù)域)各模型標準差

        表8 MovieLens(源數(shù)據(jù)域)各模型標準差

        4 結(jié)束語

        目前利用標簽信息來連接2個不同領域已經(jīng)成為一種可靠有效的方式,即使在冷啟動的情況下,本文建立的TagSVD++模型也能把源數(shù)據(jù)域中的信息更有效地傳遞給目標域。實驗結(jié)果表明,該模型利用標簽信息與用戶和項目的融合,可有效提高用戶興趣和項目特征的預測精度。下一步將在不同領域中存在相同標簽數(shù)量較少或者沒有的條件下連接2個領域,并研究不同領域中相同標簽存在語義差異的情況。

        [1] ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state of-the-art and possible[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.

        [2] LI B.Cross-domain collaborative filtering:a brief survey[C]//Proceedings of IEEE International Conference on Tools with Artificial Intelligence.Washington D.C.,USA:IEEE Press,2011:1085-1086.

        [3] GAO S,LUO H,CHEN D,et al.Cross-domain recom-mendation via cluster-level latent factor model[C]//Proceedings of European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin,Germany:Springer,2013:161-176.

        [4] LI B,YANG Q,XUE X.Can movies and books collaborate? cross-domain collaborative for sparsity reduction[C]//Proceedings of the 21st International Joint Conference on Artificial Intelligence.Berlin,Germany:Springer,2009:2052-2057.

        [5] CREMONESI P,TRIPODI A,TURRIN R.Cross-domain recommender systems[C]//Proceedings of IEEE International Conference on Data Mining Workshops.Washington D.C.,USA:IEEE Press,2011:496-503.

        [6] ENRICH M,BRAUNHOFER M,RICCI F.Cold-start management with cross-domain collaborative filtering and tags[C]//Proceedings of the 14th International Conference on E-commerce and Web Technologies.Berlin,Germany:Springer,2013:101-112.

        [7] SHI Y,LARSON M,HANJALIC A.Tags as bridges between domains:improving recommendation with tag induced cross-domain collaborative filtering[C]//Proceedings of the 19th International Conference on User Modeling Adaption and Personalization.Berlin,Germany:Springer,2011:305-316.

        [8] ENRICH M,BRAUNHOFER M,RICCI F.Cold-start management with cross-domain collaborative filtering and tags[M].Berlin,Germany:Springer,2014:36-37.

        [9] FUNK S.Netflix update:try this at home[EB/OL].(2006-12-11).http://sifter.org/~simon/journal/20061211.html.

        [10] KOREN Y,BELL R,VOLINSKY C.Matrix factorization techniques for recommender systems[J].IEEE Computer,2009,43(8):30-37.

        [11] KOREN Y.Factorization meets the neighborhood :a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM Press,2008:426-434.

        [12] KOREN Y,BELL R.Advances in collaborative filtering[M]//RICCI F,ROKACH L,SHAPIRA B.Recommender Systems Handbook.Berlin,Germany:Springer,2011:145-186.

        [13] GREG L,BRENT S,JEREMY Y.Amazon.com recommenda-tions:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-79.

        [14] 張 斌,張 引,高克寧.融合關(guān)系與內(nèi)容分析的社會標簽推薦[J].軟件學報,2012,23(3):476-488.

        [15] CANTADOR F I.Cross-domain recommender systems:a survey of the state of the art[C]//Proceedings of the 2nd Spanish Conference on Information Retrieval.Washington D.C.,USA:IEEE Press,2012:187-198.

        [16] SHI Y,LARSON M,HANJALIC A.Exploiting social tags for cross-domain collaborative filtering[C]//Proceedings of UMAP’11.Berlin,Germany:Springer,2011:2-18.

        [17] 項 亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012:108-109.

        [18] WANG B B,WANG Y X.Some properties relating to stochastic gradient descent methods[J].Journal of Mathematics,2011,31(6):1041-1044.

        猜你喜歡
        跨域標簽領域
        跨域異構(gòu)體系對抗聯(lián)合仿真試驗平臺
        基于多標簽協(xié)同學習的跨域行人重識別
        為群眾辦實事,嶗山區(qū)打出“跨域通辦”組合拳
        讀報參考(2022年1期)2022-04-25 00:01:16
        G-SRv6 Policy在跨域端到端組網(wǎng)中的應用
        科學家(2021年24期)2021-04-25 13:25:34
        領域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        新常態(tài)下推動多層次多領域依法治理初探
        成熟丰满熟妇高潮xxxxx视频| 亚洲成年网站在线777| 亚洲欧美另类自拍| 妺妺窝人体色www聚色窝韩国| 国产在线视频h| 亚洲一区二区av偷偷| 人妻少妇精品视频专区二区三区| 日本一区二区在线播放| 成年免费视频黄网站zxgk| 欲妇荡岳丰满少妇岳| 欧美午夜精品久久久久久浪潮| 加勒比东京热久久综合| 国产一区二区三区精品乱码不卡| 男人吃奶摸下挵进去啪啪软件| 免费人成激情视频在线观看冫| 色婷婷五月综合亚洲小说| 精品国产免费久久久久久| 色偷偷亚洲第一综合网| 一区二区三区在线观看精品视频 | 久久久无码人妻精品无码| 日韩中文字幕中文有码| 国产在线精品亚洲视频在线| 成人一区二区人妻少妇| 老妇高潮潮喷到猛进猛出| 欧美老熟妇乱xxxxx| 日本最新免费二区三区| 国产成人亚洲日韩欧美| 黑人巨大精品欧美在线观看| 噜噜噜色97| 亚洲国产精品美女久久久 | 国产高清女主播在线观看| av日韩高清一区二区| 国产色xx群视频射精| 亚洲国产精品无码久久电影| 中文字幕久无码免费久久| 色婷婷丁香综合激情| 久久精品国产自产对白一区| 亚洲综合网站久久久| 精品无码国产一区二区三区av | 狠狠躁狠狠躁东京热无码专区| 国产一级r片内射视频播放 |