亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種負(fù)樣本改進(jìn)的LDA主題模型推薦算法

        2018-04-19 01:24:46何靈敏
        關(guān)鍵詞:用戶模型

        張 航,何靈敏

        (中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)

        隨著互聯(lián)網(wǎng)的普及和信息技術(shù)突飛猛進(jìn)的發(fā)展,信息的過(guò)度豐富給信息篩選帶來(lái)了巨大的挑戰(zhàn).推薦系統(tǒng)的出現(xiàn)為用戶提供了一種解決信息過(guò)載的工具.推薦系統(tǒng)根據(jù)用戶的歷史行為信息挖掘出用戶感興趣的內(nèi)容,從而為用戶推薦其感興趣的內(nèi)容.傳統(tǒng)的推薦算法主要可以分為3大類:基于內(nèi)容的推薦算法[1]、協(xié)同過(guò)濾推薦算法[2]以及混合推薦算法[3].協(xié)同過(guò)濾算法是目前應(yīng)用最廣泛的推薦算法,根據(jù)推薦方式的不同,協(xié)同過(guò)濾算法分為基于鄰域的協(xié)同過(guò)濾算法和基于矩陣分解的協(xié)同過(guò)濾算法.基于鄰域的協(xié)同過(guò)濾算法主要包括基于用戶[4]和基于物品[5]的協(xié)同過(guò)濾.其基本的原理是基于相似性,通過(guò)度量共同評(píng)分向量的相似度來(lái)尋找相似的用戶和物品.基于矩陣分解[6]的協(xié)同過(guò)濾算法是一種從評(píng)分矩陣中提取用戶和物品的隱含向量的降維方法,該方法通過(guò)將原始的高維評(píng)分矩陣分解為兩個(gè)低維矩陣乘積的形式,把用戶和物品映射到同一個(gè)f維的隱空間.用戶對(duì)物品的預(yù)測(cè)評(píng)分可以表示為兩個(gè)矩陣的乘積的形式.

        在實(shí)際的應(yīng)用中,由于大多數(shù)用戶只對(duì)少數(shù)物品評(píng)分,所以即便兩名用戶的興趣相似,他們的共同評(píng)分物品也可能會(huì)很少.數(shù)據(jù)的稀疏性對(duì)傳統(tǒng)的推薦方法提出了嚴(yán)峻的挑戰(zhàn).針對(duì)稀疏性的問(wèn)題,文獻(xiàn)[7-8]提出將LDA主題模型與協(xié)同過(guò)濾融合的方法,混合后的模型可以在一定程度上解決數(shù)據(jù)稀疏性的問(wèn)題,文獻(xiàn)[9]提出了一種基于情感分析和LDA主題模型的方法.LDA主題模型是一種概率混合模型[10],通過(guò)對(duì)詞匯間接地進(jìn)行模糊聚類發(fā)現(xiàn)大型語(yǔ)料中的潛在主題,把文檔從高維空間映射到低維主題空間,進(jìn)而可以在低維主題空間中計(jì)算文檔的相似性.

        為了進(jìn)一步提高LDA主題模型推薦算法的推薦質(zhì)量,本文提出了一種基于負(fù)樣本進(jìn)行學(xué)習(xí)的方法negLDA.通常的推薦算法只考慮了用戶對(duì)物品的正面情緒,在現(xiàn)實(shí)情況中往往用戶對(duì)于物品既有正面情緒又有負(fù)面情緒.比如對(duì)于某部電影而言,用戶喜歡其中的懸疑部分但是不喜歡其中的情感部分,用戶對(duì)于電影的評(píng)價(jià)是由正面情緒和負(fù)面情緒綜合構(gòu)成的.因此,本文引入了負(fù)樣本進(jìn)行學(xué)習(xí),從而可以得到一個(gè)用戶對(duì)所有物品的負(fù)面打分,然后用正樣本學(xué)習(xí)得到的正面打分與負(fù)面打分來(lái)綜合評(píng)價(jià)用戶對(duì)物品的喜愛(ài)程度.

        1 改進(jìn)優(yōu)化

        1.1 LDA主題模型

        主題模型是用來(lái)發(fā)現(xiàn)文檔所屬主題并對(duì)其進(jìn)行歸類的算法,它屬于一種非監(jiān)督機(jī)器學(xué)習(xí)方法,能夠用來(lái)識(shí)別大規(guī)模文檔集和語(yǔ)料庫(kù)中潛在隱藏的主題信息.由于不同的單詞可能隱含了相同的主題,因此比較兩篇文檔的相似性不能只是單純地比較共現(xiàn)單詞的數(shù)目,而是比較兩篇文檔當(dāng)中所隱含的主題之間的相似性.Blei等人在文獻(xiàn)[10]中提出的潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是主題模型中最經(jīng)典的一種方法.LDA主題模型由圖1可知是一個(gè)三層的貝葉斯模型,包含文檔層、單詞層、主題層.LDA主題模型使用概率分布表示層與層之間的關(guān)系,將文本表示成多個(gè)主題的概率分布,將主題表示為多個(gè)單詞的概率分布.可以這樣認(rèn)為,一篇文章中每個(gè)詞都是通過(guò)“以一定的概率選擇了某個(gè)主題,并從這個(gè)主題中以一定的概率選擇了某個(gè)詞語(yǔ)”這樣一個(gè)過(guò)程得到的.通過(guò)隱含的特征來(lái)聯(lián)系用戶感興趣的物品,我們也可以這樣來(lái)理解用戶的評(píng)分矩陣,將用戶感興趣的物品看成是詞匯,用戶的評(píng)分看成是詞頻,用戶對(duì)物品的所有評(píng)分就可以轉(zhuǎn)變成一篇偽文檔.這樣一來(lái)我們就可以使用LDA來(lái)對(duì)物品間接地進(jìn)行模糊聚類,從用戶的評(píng)分矩陣中發(fā)現(xiàn)潛在的主題,通過(guò)潛在的主題對(duì)用戶和用戶感興趣的物品進(jìn)行連接.

        如果將LDA主題模型的思想應(yīng)用到用戶-物品評(píng)分矩陣R,將每種物品i看成是一個(gè)單詞w,每個(gè)用戶u看成是一篇由物品組成的偽文檔du,某個(gè)用戶u對(duì)物品i的評(píng)分ru,i就等同于物品i在偽文檔du中出現(xiàn)的次數(shù),那么就能夠?qū)⒂脩舻脑u(píng)分矩陣轉(zhuǎn)換成偽文檔集合.然后,我們利用LDA挖掘偽文檔集合中的潛在主題,通過(guò)潛在主題把用戶和物品之間進(jìn)行聯(lián)系.每個(gè)主題z對(duì)應(yīng)用戶的物品集合I上的一種多項(xiàng)式分布φz,每個(gè)用戶u擁有一種潛在主題上的多項(xiàng)式分布Qu.用戶對(duì)物品的評(píng)分可以這樣進(jìn)行描述:用戶u首先根據(jù)自己的興趣Qu選擇一個(gè)主題z,然后根據(jù)該主題所對(duì)應(yīng)物品的多項(xiàng)式分布φz選擇一個(gè)物品,不斷地將這個(gè)過(guò)程進(jìn)行重復(fù),用戶u對(duì)物品i選擇次數(shù)越多,那就代表著用戶對(duì)這個(gè)物品的評(píng)分ru,i就越大.LDA的圖模型可以表示成圖1所示,在圖1中,α和β為狄利克雷參數(shù),一般通過(guò)先驗(yàn)給出.U、Z、Iu分別表示用戶集合、主題集合和用戶u的物品集合.

        圖1 LDA的圖模型表示Figure 1 LDA graph model representation

        1.2 基于負(fù)樣本改進(jìn)的LDA算法

        為了進(jìn)一步改進(jìn)LDA主題模型推薦算法的性能,本文引入了負(fù)樣本進(jìn)行學(xué)習(xí).通過(guò)負(fù)樣本的學(xué)習(xí)可以挖掘出用戶對(duì)物品的負(fù)面情緒,相當(dāng)于可以得到用戶對(duì)所有物品的負(fù)面打分;而正樣本的學(xué)習(xí)可以得到正面打分,用兩者綜合評(píng)價(jià)用戶對(duì)物品的喜愛(ài)程度.如何選取好的負(fù)樣本是本文工作的難點(diǎn).本文給出了以下三種方法:隨機(jī)采樣、矩陣分解、物品相似度.

        1.2.1隨機(jī)采樣

        將用戶未購(gòu)買(評(píng)論)過(guò)的物品表示為集合Q,從集合Q當(dāng)中隨機(jī)抽取一定數(shù)目的樣本作為負(fù)樣本.在實(shí)際的數(shù)據(jù)中,正樣本通常是很稀少的,用戶購(gòu)買(評(píng)論)過(guò)的物品只占全部物品的極少一部分,隨機(jī)采樣得到的負(fù)樣本未必是用戶不喜歡的物品.

        1.2.2矩陣分解

        (1)

        在式(1)中DS表示訓(xùn)練集,wu表示用戶u的特征向量,hi表示物品i的特征向量,ru,i表示用戶u對(duì)物品i的評(píng)分,λ為正則化系數(shù),引入正則化項(xiàng)是為了防止過(guò)擬合.通過(guò)矩陣分解可以預(yù)測(cè)用戶對(duì)于未購(gòu)買(評(píng)論)物品的評(píng)分,基于評(píng)分排序可以為每個(gè)用戶得到一個(gè)推薦列表,從推薦列表的尾部選取一定數(shù)目的樣本作為負(fù)樣本.

        1.2.3物品的相似度

        相似度的計(jì)算是傳統(tǒng)的協(xié)同過(guò)濾推薦算法的關(guān)鍵步驟.最常用的方法分別是余弦相似度、Pearson相關(guān)性以及修正的余弦相似性.實(shí)驗(yàn)結(jié)果表明,利用Pearson相關(guān)性計(jì)算物品的相似度得到的實(shí)驗(yàn)效果比其他兩種方法更好.在后面的實(shí)驗(yàn)中,本文將利用Pearson相關(guān)性計(jì)算物品之間的相似度.

        通過(guò)這三種方法中的一種就可以采樣出用于學(xué)習(xí)的負(fù)樣本:即用戶不喜歡的電影(或者是物品).通過(guò)對(duì)這些負(fù)樣本的學(xué)習(xí)可以提取出用戶的負(fù)面情感.例如:某用戶不喜歡血腥驚悚類的電影,當(dāng)在對(duì)其進(jìn)行推薦的時(shí)候,如果一部電影含有這樣的元素就要對(duì)這部電影進(jìn)行減分處理.而正樣本的學(xué)習(xí)可以提取用戶的正面情感,例如某用戶喜歡幽默類的電影,當(dāng)在對(duì)其進(jìn)行推薦的時(shí)候就要相應(yīng)地進(jìn)行加分處理.通過(guò)這樣正反兩方面的學(xué)習(xí)就可以更加立體地衡量出用戶對(duì)電影(或其他物品)的喜歡程度.從而進(jìn)行更加精確的推薦.

        2 實(shí) 驗(yàn)

        在實(shí)驗(yàn)部分我們比較了negLAD和LDA[11]、pLSA[12]、BPR[13]等經(jīng)典算法,我們?cè)u(píng)估算法的性能在三個(gè)不同的數(shù)據(jù)集上:MoviesLens-100k、MovieLens-1M、FilmTrust.三個(gè)數(shù)據(jù)集均為電影評(píng)分?jǐn)?shù)據(jù),MoviesLens-100k包括943名用戶對(duì)1 682部電影的10 000個(gè)評(píng)分,MovieLens-1M包括6 040個(gè)用戶對(duì)大概3 900部電影的1 000 209條評(píng)分?jǐn)?shù)據(jù),評(píng)分范圍為1~5分.FilmTrust包括1 508個(gè)用戶對(duì)2 071部電影共35 497條評(píng)分記錄,評(píng)分范圍為0.5~4.0分.為了防止訓(xùn)練過(guò)擬合,實(shí)驗(yàn)時(shí)采用五折交叉驗(yàn)證法,即將數(shù)據(jù)集均等地劃分為5份,取其中4份為訓(xùn)練集,剩下的1份為測(cè)試集.分別進(jìn)行五次實(shí)驗(yàn),五次實(shí)驗(yàn)所得的平均值即為實(shí)驗(yàn)結(jié)果.

        我們分別用每種算法為每個(gè)用戶推薦top10的物品(預(yù)測(cè)得分最高的10個(gè)物品),然后計(jì)算推薦的精準(zhǔn)率(Precision,P)、召回率(Recall,R)以及排序指標(biāo)AUC[13],比較所有算法的各種指標(biāo).文獻(xiàn)[13]給出了AUC的定義,前兩個(gè)指標(biāo)的計(jì)算方法為:

        (2)

        公式(2)中TP表示推薦結(jié)果和測(cè)試集中都有的商品數(shù)量,F(xiàn)P表示推薦結(jié)果有但測(cè)試集中沒(méi)有的商品數(shù)量,F(xiàn)N表示推薦結(jié)果沒(méi)有但測(cè)試集中有的商品數(shù)量.

        通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)基于物品相似度的負(fù)樣本采樣能夠獲得最好的實(shí)驗(yàn)結(jié)果,因此本文選用了基于物品相似度的方法來(lái)采樣負(fù)樣本.而且負(fù)樣本和正樣本比例、負(fù)面得分所占的權(quán)重等因素均會(huì)影響negLDA算法的性能.表1、表2、表3分別給出了針對(duì)不同數(shù)據(jù)集在合適的參數(shù)(本文取正負(fù)樣本比例1∶3,負(fù)面得分所占權(quán)重取1~10)下經(jīng)過(guò)足夠多的迭代步數(shù)(確保收斂)四種算法的表現(xiàn).

        表1 MovieLens-100K數(shù)據(jù)集

        表2 MovieLens-1M數(shù)據(jù)集

        表3 Filmtrust數(shù)據(jù)集

        3 總 結(jié)

        從表中可以看出,改進(jìn)后的算法在三個(gè)數(shù)據(jù)集上相比其他算法在精確率、召回率、AUC上都有所改進(jìn).本文提出的算法通過(guò)引入負(fù)樣本來(lái)對(duì)商品進(jìn)行負(fù)面打分,彌補(bǔ)了以往的算法只考慮用戶的正面情緒的不足.在下一步的工作當(dāng)中,我們將對(duì)負(fù)樣本的采樣方法做進(jìn)一步的改進(jìn),以期得到更好的負(fù)樣本,進(jìn)一步提高推薦的質(zhì)量.

        【參考文獻(xiàn)】

        [1]PAZZANI M J, BILLSUS D. Content-based recommendation systems[C]//ProcoftheAdaptiveWeb. Heidelberg, Berlin: Springer-Verlag, 2007:325-341.

        [2]BALTRUNAS L, RICCI F. Experimental evaluation of context-dependent collaborative filtering using item splitting[J].UserModelingandUser-AdaptedInteraction, 2014,24(1, 2):7-34.

        [3]CHEN W, NIU Z, ZHAO X, LI Y. A hybrid recommendation algorithm adapted in e-learning environments[J].WorldWideWeb, 2014,17(2):271-284.

        [4]SARWAR B M, KARYPIS G, KONSTAN J A, et al.Analysis of recommendation algorithms for ecommerce[C]//Procedingsofthe2ndACMConferenceonElectronicCommerce. New York: ACM Press, 2000:158-167.

        [5]SARWAR B M, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Procedingofthe10thInternationalConferenceonWorldWideWeb. New York: ACM Press, 2001:285-295.

        [6]KOREN Y, BEL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J].Computer, 2009,42(8):30-37

        [7]黃璐,林川杰,何軍,等.融合主題模型和協(xié)同過(guò)濾的多樣化移動(dòng)應(yīng)用推薦[J].軟件學(xué)報(bào),2017,28(3):708-720.

        HUANG L, LIN C J, HE J, et al.Diversifled mobile app recommendation combining topic model and collaborative filtering[J].JournalofSoftware,2017,28(3):708-720.

        [8]高娜,楊明.嵌入LDA主題模型的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)科學(xué),2016,43(3):57-61.

        GAO N, YANG M. Topic model embedded in collaborative filtering recommendation algorithm[J].ComputerScience, 2016,43(3):57-61.

        [9]彭敏,席俊杰,代心媛,等.基于情感分析和LDA主題模型的協(xié)同過(guò)濾推薦算法[J].中文信息學(xué)報(bào),2017,31(2):194-203.

        PENG M, XI J J, DAI X Y. et al. Collaborative filtering recommendation based on sentiment analysis and LDA topic model[J].JournalofChineseinformationprocessing, 2017,

        31(2):194-203.

        [10]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet alocation[J].Journalofmachinelearningresearch,2003,3:993-1022.

        [11]HEINRICH G. Parameter estimation for text analysis[R].Germany: University of Leipzig, 2008.

        [12]HOFMANN T. Latent semantic models for collaborative filtering[J].ACMTransactionsonInformationSystems,2004,22(1):89-115.

        [13]RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proceedingsofthe25thConferenceonUncertaintyinArtificialIntelligence(UAI09). Arlington, Virginia, USA: AUAI Press, 2009:452-461.

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        日韩极品视频免费观看| 思思99热| 国产大片在线观看三级| 白白色发布会在线观看免费| 麻豆激情视频在线观看| 91色老久久偷偷精品蜜臀懂色 | 亚洲天堂av高清在线| 日产乱码一二三区别免费l | 杨幂AV污网站在线一区二区| 精品黄色av一区二区三区| 综合亚洲二区三区四区在线| av免费网址在线观看| 精品熟女少妇av免费观看| www.av在线.com| 中文字幕人妻互换av| 99精品国产丝袜在线拍国语| 欧美一片二片午夜福利在线快| 亚洲人成在线播放a偷伦| 人妻少妇艳情视频中文字幕| 午夜射精日本三级| 久久无码人妻一区二区三区午夜| 激情五月天伊人久久| 超短裙老师在线观看一区二区| 国内揄拍国内精品人妻久久| 小蜜被两老头吸奶头在线观看| 国产成人影院一区二区| 日韩丝袜人妻中文字幕| 看日本全黄色免费a级| 国产麻豆md传媒视频| 少妇高潮惨叫喷水在线观看| 亚洲 美腿 欧美 偷拍| 国产一区二区黄色网页| 国产午夜精品一区二区| 色综合久久丁香婷婷| 免费人成网在线观看品观网 | 日韩国产欧美视频| 女优视频一区二区三区在线观看| 黄片视频免费观看蜜桃| 永久免费av无码入口国语片| 调教在线播放黄| 亚洲性av少妇中文字幕|