亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法研究

        2019-12-11 11:25:50文曉棠吳少?gòu)?qiáng)
        現(xiàn)代計(jì)算機(jī) 2019年30期
        關(guān)鍵詞:排序用戶

        文曉棠,吳少?gòu)?qiáng)

        (廣東財(cái)經(jīng)大學(xué)華商學(xué)院,廣州510000)

        0 引言

        當(dāng)今,數(shù)據(jù)量成指數(shù)級(jí)別增長(zhǎng),并且速度還在不斷攀升。面對(duì)如此龐大的數(shù)據(jù)海洋,如何從海量數(shù)據(jù)中獲取最想要的信息,這是一件很消耗時(shí)間和精力的事情。如今的搜索引擎很強(qiáng)大,根據(jù)輸入的關(guān)鍵字在全球海量數(shù)據(jù)中尋找到匹配度高的內(nèi)容,這在一定程度上解放了人類,但這一行為需要人們主動(dòng)的發(fā)起,并且未考慮到每個(gè)人單獨(dú)具備的特點(diǎn)。為了進(jìn)一步解決這一問題,學(xué)者們提出了各具特點(diǎn)的推薦算法,根據(jù)每個(gè)人產(chǎn)生的行為記錄推斷其獨(dú)特的興趣并向其推送個(gè)性化信息。當(dāng)下,推薦系統(tǒng)在部分領(lǐng)域比較常見,如電商平臺(tái)、多媒體傳播平臺(tái)等。但在知識(shí)共享平臺(tái),推薦用戶感興趣的內(nèi)容這一塊還有待提升,因此在個(gè)性化知識(shí)推薦方面很有必要尋找解決方案。

        推薦算法[1]分為以下幾種:基于內(nèi)容、協(xié)同過濾和混合推薦等算法。Goldberg等人[2]第一次引入?yún)f(xié)同過濾思想。Resnick等人[3]提出基于評(píng)分的協(xié)同過濾推薦算法,通過收集用戶評(píng)分以獲取其偏好,基于聚類算法分析用戶相似性,完成推薦。Huang[4]運(yùn)用Deep Structured Semantic Models(DSSM)模型構(gòu)建一個(gè)基于位置感知的個(gè)性化新聞推薦模型。

        上述推薦算法中,協(xié)同過濾算法是當(dāng)前應(yīng)用最為廣泛的算法,該算法有一類為矩陣因式分解,通過FunkSVD算法或者其他改進(jìn)算法等對(duì)矩陣進(jìn)行分解,得到兩個(gè)矩陣因子,從而用來預(yù)測(cè)用戶對(duì)于未知項(xiàng)目的評(píng)分,但其評(píng)分是全局評(píng)分優(yōu)化,不能單獨(dú)對(duì)用戶興趣點(diǎn)排序,從而不能從大量數(shù)據(jù)中選取興趣點(diǎn)較高的少量推薦項(xiàng)。

        為了解決上述問題,本文將貝葉斯個(gè)性化排序和基于內(nèi)容推薦結(jié)合,提出一種混合的推薦算法。主要貢獻(xiàn)概括如下:

        (1)基于矩陣分解的貝葉斯個(gè)性化排序算法,對(duì)三元組訓(xùn)練集進(jìn)行訓(xùn)練,達(dá)到收斂,再通過計(jì)算用戶個(gè)人感興趣關(guān)鍵字與文章關(guān)鍵字匹對(duì)程度,來預(yù)測(cè)用戶對(duì)該文章的感興趣程度,兩種算法充分發(fā)揮各自長(zhǎng)處,形成混合的個(gè)性化知識(shí)推薦算法,以此來提高整體的推薦效果。

        (2)在技術(shù)博文論壇,使用Kaggle上的公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得顯著推薦效果。

        (3)基于混合的個(gè)性化知識(shí)推薦算法,設(shè)計(jì)個(gè)性化知識(shí)推薦模型,可使算法用于實(shí)踐,具有較高實(shí)用價(jià)值。

        1 相關(guān)算法

        1. 1 貝葉斯個(gè)性化排序算法(BPR)

        該算法是一種排序推薦算法,按照用戶對(duì)物品的感興趣程度進(jìn)行排序,再選擇優(yōu)先級(jí)最高的物品推薦給用戶。

        在該算法中,訓(xùn)練數(shù)據(jù)集為數(shù)據(jù)對(duì)即<u,i,j>,表示的是用戶u對(duì)于物品i比物品j更感興趣。且該算法基于貝葉斯個(gè)性化排序,因此用戶之間的喜好行為是相互獨(dú)立的,用戶對(duì)不同物品的偏好也相互獨(dú)立。同時(shí),BPR也基于矩陣分解模型,對(duì)于用戶集與物品集形成的預(yù)測(cè)排序矩陣,通過優(yōu)化分解得到矩陣

        優(yōu)化目標(biāo)則為找到合適的矩陣因子V和W使得Xˉ和X最為相似。其中,V和W,通過最大后驗(yàn)估計(jì)優(yōu)化P(V,W|>u),其中>u代表的是用戶u對(duì)于物品的偏好關(guān)系。通過貝葉斯公式即可得到:

        對(duì)該公式進(jìn)一步分解之后,通過梯度上升法,最終使得V和W都收斂,模型即訓(xùn)練完成。最后使用V和W 矩陣因子求得預(yù)測(cè)值:xˉui=Vu?Wi,并選擇排序值最高的n個(gè)進(jìn)行推薦。

        1. 2 基于內(nèi)容推薦算法(CBR)

        基于內(nèi)容推薦算法使用的數(shù)據(jù)包括用戶興趣關(guān)鍵字,及文章關(guān)鍵字。為了計(jì)算文章內(nèi)容的關(guān)鍵字,需要對(duì)文章進(jìn)行分詞等文本預(yù)處理,之后可以計(jì)算這些詞語的重要性。

        本文基于TF-IDF算法[5]來評(píng)估詞語在文章中的重要性,本研究中將每篇文章文本處理后的詞語看作關(guān)鍵詞的集合,即1篇文章有n關(guān)鍵詞c1,c2,…,cn,其中1篇特定文章中詞頻分別是tf1,tf2,…,tfn。TF計(jì)算公式如下:

        ni,j是關(guān)鍵詞在所在文章dj中的出現(xiàn)次數(shù),分母是所在文章dj中所有詞語出現(xiàn)次數(shù)之和。

        若關(guān)鍵詞c在Dc中首篇文章出現(xiàn),Dc的值越大,詞語c在文章中區(qū)別于其他文章的作用就越小。如“大數(shù)據(jù)”在很多文章中出現(xiàn),出現(xiàn)頻率非常高,但它在文章中的區(qū)分度貢獻(xiàn)小。因此,可以給文章中的關(guān)鍵詞賦予一定的權(quán)重,如果它很少在文章中出現(xiàn),通過比較可以容易找到相似文章,在文章中用于區(qū)別其他文章作用就大,其權(quán)重也就越大,反之權(quán)重越小。

        本文使用IDF逆向文本頻率指數(shù)計(jì)算文章中關(guān)鍵詞的權(quán)重,計(jì)算公式如下:

        |D|表示語料庫(kù)中文章總數(shù)

        |{j:t∈dj}|表示包含詞語 ti的文章數(shù)目,若該詞語不在語料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為0,故一般情況下使用 1+|{j:t∈dj}|

        假設(shè)文章數(shù)量D=1000篇,若“大數(shù)據(jù)”在所有文章中均出現(xiàn),則其 idf=log(1000/1000)=0,若“人工智能”在20篇文章中出現(xiàn),則其 idf=log(1000/20)=1.69897。

        綜上所述,使用上述TF-IDF=tfi*idif的值可以評(píng)價(jià)某個(gè)關(guān)鍵詞在某篇首次出現(xiàn)的文章中的重要程度。計(jì)算某篇首次出現(xiàn)的文章所有組成的tf*idf和sim,可以評(píng)價(jià)文章之間的相似性。計(jì)算相似度公式如下:

        依據(jù)上述公式,可以把用戶感興趣的詞語形成關(guān)鍵詞集合,然后在所有文章中計(jì)算這些關(guān)鍵詞的tf*idf的和,從而找出相似度高的文章。

        至于用戶的喜好關(guān)鍵詞集合,則由其以往的行為記錄逐漸生成,同樣可以使用TF-IDF算法處理用戶閱讀過的內(nèi)容,從而形成用戶喜好關(guān)鍵詞集合。

        2 混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法

        本文提出的混合算法主要基于上述兩種算法,對(duì)技術(shù)博文進(jìn)行個(gè)性化知識(shí)推薦。在該算法中,收集的用戶信息包括用戶對(duì)文章的評(píng)論、是否贊同、訪問次數(shù)和訪問時(shí)長(zhǎng)等。對(duì)于收集到的信息會(huì)進(jìn)行加權(quán)求得用戶對(duì)文章的評(píng)分,形成評(píng)分矩陣S。

        考慮相關(guān)性問題以及矩陣稀疏等問題,可使用聚集算法,形成用戶集群。或者通過計(jì)算用戶之間的相似度,直接取前n個(gè)鄰居。相似度的計(jì)算可通過余弦相似度公式。

        使用本算法設(shè)計(jì)的個(gè)性化知識(shí)推薦模型如圖1所示。

        圖1混合貝葉斯個(gè)性化排序與內(nèi)容的個(gè)性化知識(shí)推薦模型圖

        本混合推薦算法的核心過程如下:

        S1:獲取最近一段時(shí)間內(nèi)用戶所產(chǎn)生的行為記錄,包括評(píng)論、是否贊同、訪問次數(shù)和訪問時(shí)長(zhǎng)等。

        S2:通過評(píng)分函數(shù)計(jì)算用戶對(duì)文章的評(píng)分,并最終形成評(píng)分矩陣,行表示用戶,列表示文章,并通過該矩陣抽取得到<u,i,j>三元組訓(xùn)練集。

        S3:貝葉斯個(gè)性化排行對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,最終達(dá)到收斂,并通過模型對(duì)未交互過的文章進(jìn)行預(yù)測(cè),得到感興趣的文章排序列表。

        S4:使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果進(jìn)行部分糾正,計(jì)算用戶感興趣關(guān)鍵字與推薦文章的關(guān)鍵字的匹配分值,如果相似度高則對(duì)推薦結(jié)果進(jìn)行增強(qiáng),否則對(duì)其進(jìn)行削弱,得到最后的推薦結(jié)果。

        其中,對(duì)于新注冊(cè)用戶,由于沒有過去所產(chǎn)生的行為記錄,無法得知其興趣愛好并對(duì)其推薦,則可使用熱點(diǎn)推薦以及全局基線方法為其進(jìn)行推薦。同時(shí),應(yīng)用系統(tǒng)同時(shí)會(huì)定期對(duì)用戶關(guān)鍵字進(jìn)行削弱,并更新文章關(guān)鍵字。

        3 實(shí)驗(yàn)結(jié)果與分析

        3. 1 數(shù)據(jù)集

        使用Kaggle公開數(shù)據(jù)集中的數(shù)據(jù),主要是用戶與文章交互的記錄。統(tǒng)計(jì)包括文章2987篇,用戶1895名。記錄形式如圖2所示。

        圖2數(shù)據(jù)集記錄形式

        行為記錄的數(shù)量時(shí)間分布圖如圖3,可將某個(gè)日期之前的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,后續(xù)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集。

        圖3行為記錄數(shù)量時(shí)間分布圖

        其中,行為包括:查看、喜歡、收藏、評(píng)論、訂閱作者。各種類型行為統(tǒng)計(jì)數(shù)如表1。

        表1用戶行為-統(tǒng)計(jì)數(shù)量表

        3. 2 實(shí)驗(yàn)結(jié)果

        首次通過余弦相似度求得鄰居后,分別將鄰居對(duì)某篇文章的評(píng)分乘以相似度值,后求和,得出對(duì)文章的預(yù)測(cè)評(píng)分。但效果不佳。

        將數(shù)據(jù)轉(zhuǎn)換為評(píng)分矩陣,并進(jìn)行歸一化處理。將模型通過訓(xùn)練后,部分預(yù)測(cè)排序值與真實(shí)數(shù)據(jù)評(píng)分的對(duì)比如圖4-圖5。

        圖4初始推薦predict值

        從實(shí)驗(yàn)結(jié)果可以看出,貝葉斯個(gè)性化排序推薦算法推薦效果比較明顯,均方誤差也達(dá)到了較小的程度。但實(shí)驗(yàn)未能完全實(shí)踐上使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果優(yōu)化,理論上若完全實(shí)現(xiàn)混合算法,推薦效果要遠(yuǎn)優(yōu)于實(shí)驗(yàn)結(jié)果,這是筆者需要進(jìn)行的下一步工作。

        圖5貝葉斯個(gè)性化排序算法predict值

        圖6均方誤差

        3. 3 總結(jié)

        使用混合推薦算法,在一般規(guī)模的數(shù)據(jù)上,表現(xiàn)出較好的推薦效果。不過還有很多可以改進(jìn)的地方。當(dāng)數(shù)據(jù)規(guī)模達(dá)到一定程度時(shí),便需要將推薦系統(tǒng)部署在集群計(jì)算平臺(tái),以此來加快模型的訓(xùn)練等。并且在超大數(shù)據(jù)規(guī)模上,深度學(xué)習(xí)構(gòu)建的模型可能占據(jù)更大的優(yōu)勢(shì)。通過深度學(xué)習(xí)構(gòu)建神經(jīng)網(wǎng)絡(luò)對(duì)技術(shù)博文進(jìn)行推薦還有待研究,并且對(duì)用戶的評(píng)論也可進(jìn)行相應(yīng)的情感分析來輔助推薦。

        猜你喜歡
        排序用戶
        排排序
        排序不等式
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        Camera360:拍出5億用戶
        100萬用戶
        国产a v无码专区亚洲av| 在线播放av不卡国产日韩| 午夜精品久久久久久久99热| а√天堂资源8在线官网在线| 国产一区二区三区韩国| 女同重口味一区二区在线| 色爱情人网站| 末发育娇小性色xxxxx视频| 久久久久久一级毛片免费无遮挡| 亚洲av熟女天堂久久天堂| 日本妇人成熟免费2020| 国产美女自慰在线观看| 国产精品国产三级在线高清观看| 国产在线a免费观看不卡| 久久天堂av综合合色| 久久久亚洲色| 久久久久久国产福利网站| 日韩人妻免费视频一专区| 亚洲伊人一本大道中文字幕| 欧洲亚洲综合| 一区二区亚洲精美视频| 久久成人国产精品一区二区| 无遮无挡爽爽免费视频| 欧美日韩高清一本大道免费 | 国产欧美另类精品久久久| 亚洲福利一区二区不卡| 国产精品天干天干| 4444亚洲人成无码网在线观看 | 亚洲av三级黄色在线观看| 欧美一性一乱一交一视频| 99福利网| 亚洲一区二区三区av天堂| 久久亚洲精品国产亚洲老地址| 真实国产乱啪福利露脸| 精品国产日韩无 影视| 日本不卡的一区二区三区中文字幕| 麻豆精品国产精华精华液好用吗| 久久综合亚洲色社区| 青草草视频在线观看华人免费| 久久久久亚洲精品无码蜜桃| 日韩爱爱网站|