亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶行為的電影推薦算法改進(jìn)研究

        2022-10-11 07:37:02馬帥
        電子設(shè)計(jì)工程 2022年19期
        關(guān)鍵詞:用戶

        馬帥

        (武漢郵電科學(xué)研究院研究生院,湖北武漢 430000)

        互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展帶來(lái)了日常在線用戶數(shù)與日俱增的紅利,但隨之而來(lái)的互聯(lián)網(wǎng)信息數(shù)據(jù)過(guò)載問(wèn)題也日益顯著[1-2]。大量復(fù)雜的數(shù)據(jù)導(dǎo)致用戶難以便捷地鎖定與自身匹配的數(shù)字物品,信息的利用率反而呈現(xiàn)負(fù)相關(guān)。在競(jìng)爭(zhēng)激烈的互聯(lián)網(wǎng)領(lǐng)域,推薦算法的研究就成了高效利用海量數(shù)據(jù)和提升用戶體驗(yàn)度的主陣地。當(dāng)前各類推薦算法研究都取得了一定的進(jìn)展[3-5],隨著數(shù)據(jù)變得越來(lái)越復(fù)雜和多樣,越來(lái)越多的非結(jié)構(gòu)化因素需要被考慮到推薦算法中。該文研究了多種推薦算法的改進(jìn)方法[6-9],考慮到當(dāng)前信息復(fù)雜度高和不規(guī)則,因此該文利用物品特征標(biāo)簽,在協(xié)同過(guò)濾算法的基礎(chǔ)上進(jìn)行改進(jìn),提高信息利用率、算法準(zhǔn)確率和召回率。通過(guò)對(duì)比傳統(tǒng)基于物品的協(xié)同過(guò)濾算法和文獻(xiàn)[10]研究的個(gè)性化推薦算法進(jìn)行算法優(yōu)化驗(yàn)證。

        1 協(xié)同過(guò)濾算法相關(guān)技術(shù)

        1.1 協(xié)同過(guò)濾算法

        目前各類商業(yè)領(lǐng)域中推薦效果較為理想的算法當(dāng)屬協(xié)同過(guò)濾算法,各大應(yīng)用領(lǐng)域也都有符合自身特點(diǎn)的改進(jìn)型協(xié)同過(guò)濾算法[11-13]。協(xié)同過(guò)濾算法的目標(biāo)是基于當(dāng)前用戶的歷史偏好以及其他偏好相似用戶的意見(jiàn)來(lái)為當(dāng)前用戶推薦新物品或者預(yù)測(cè)當(dāng)前用戶對(duì)特定物品的偏好[14-15]。協(xié)同過(guò)濾算法從用戶行為日志中提取用戶與物品之間的行為關(guān)系,通過(guò)算法解析這些關(guān)系得到相似用戶或者相似物品,生成用戶喜好列表,對(duì)該列表進(jìn)行過(guò)濾、去重、排序后,推薦前N個(gè)內(nèi)容給用戶。

        基于用戶的協(xié)同過(guò)濾算法和基于物品的協(xié)同過(guò)濾算法是兩種常見(jiàn)的協(xié)同過(guò)濾算法,接下來(lái)將進(jìn)行介紹。

        1.2 基于用戶的協(xié)同過(guò)濾算法

        該算法的核心思想:對(duì)于用戶的操作行為,比如不同用戶對(duì)同一物品的評(píng)分行為,采用相似度量方法計(jì)算兩個(gè)用戶之間的相似性,得到一個(gè)相似用戶的集合。對(duì)集合中的用戶進(jìn)行相似度值的排序,篩選出前K個(gè)相似度最高的用戶作為鄰居,在對(duì)自己喜好物品進(jìn)行去重后,將鄰居的喜好物品推薦給用戶,其推薦原理圖如圖1 所示。

        圖1 基于用戶的協(xié)同過(guò)濾算法原理圖

        時(shí)效性是基于用戶的協(xié)同過(guò)濾算法的一大特點(diǎn),對(duì)短時(shí)間內(nèi)刷新度高的場(chǎng)景可以表現(xiàn)出很好的適應(yīng)性。因?yàn)榛谟脩舻膮f(xié)同過(guò)濾算法是通過(guò)計(jì)算用戶之間的相似度進(jìn)行結(jié)果推薦,所以當(dāng)用戶規(guī)模過(guò)大時(shí),用戶相似度矩陣計(jì)算所產(chǎn)生的計(jì)算成本就會(huì)很高。而用戶規(guī)模過(guò)小則會(huì)導(dǎo)致稀疏性,無(wú)法進(jìn)行有效的相似度計(jì)算?;谟脩舻膮f(xié)同過(guò)濾算法的拓展性與用戶規(guī)模有關(guān)[16]。

        1.3 基于物品的協(xié)同過(guò)濾算法

        該算法的核心思想:基于用戶-物品行為數(shù)據(jù),先計(jì)算出物品之間的相似度,為每一個(gè)有過(guò)操作行為的物品計(jì)算出一個(gè)相似物品的集合。然后合并成當(dāng)前用戶喜好物品相似集合,構(gòu)造出推薦集合。將推薦值降序排列,選取其中TOP-N個(gè)作為推薦結(jié)果。其推薦原理圖如圖2 所示。

        圖2 基于物品的協(xié)同過(guò)濾算法原理圖

        基于物品的協(xié)同過(guò)濾算法無(wú)需計(jì)算用戶相似度,所以對(duì)于用戶規(guī)模沒(méi)有限制,而且推薦結(jié)果個(gè)性化,可以直接基于用戶喜好程度進(jìn)行推薦,更具有針對(duì)性。因?yàn)樵撍惴ɑ谟脩魝€(gè)人的歷史行為,所以只要用戶對(duì)產(chǎn)品有過(guò)關(guān)聯(lián)數(shù)據(jù),就可以進(jìn)行推薦操作,但是在數(shù)據(jù)缺少的情況下,該算法無(wú)法生成用戶喜好模型,而且當(dāng)前用戶行為信息復(fù)雜且無(wú)規(guī)則,如何將信息進(jìn)行有效利用提升推薦效果成為此算法的局限所在。

        2 融合特征標(biāo)簽的推薦算法

        2.1 問(wèn)題描述

        該文旨在通過(guò)融合特征標(biāo)簽對(duì)基于物品的協(xié)同過(guò)濾算法加以改進(jìn),來(lái)解決當(dāng)前推薦算法的不足。融合特征標(biāo)簽推薦算法問(wèn)題描述為:用戶集合U={u1,u2,…,un},電影集合P={p1,p2,…,pn},標(biāo)簽集合T={t1,t2,…,tn}以及用戶對(duì)電影評(píng)分集合A={a1,a2,…,an},通過(guò)用戶評(píng)分集合和電影標(biāo)簽集合,構(gòu)建用戶-標(biāo)簽矩陣,也就是標(biāo)簽版用戶喜好模型。然后結(jié)合影片相似度模型,計(jì)算出用戶對(duì)電影預(yù)測(cè)評(píng)分vi,s,降序排列用戶對(duì)影片預(yù)測(cè)評(píng)分集合Rij后得到推薦結(jié)果。

        2.2 構(gòu)建用戶喜好模型

        每個(gè)用戶感興趣的電影都不同,同一個(gè)標(biāo)簽對(duì)于不同的用戶而言,有著不一樣的重要性。用戶喜好的電影可以有多個(gè)標(biāo)簽,一個(gè)標(biāo)簽也可以同時(shí)存在于多部電影中。例如一部電影可以有“科幻”“動(dòng)作”“冒險(xiǎn)”等特征標(biāo)簽,用戶u可能對(duì)i部影片感興趣,第i部影片可能擁有g(shù)個(gè)特征標(biāo)簽,相關(guān)的用戶-標(biāo)簽矩陣如表1 所示。

        表1 用戶-標(biāo)簽矩陣

        因此可以作出這樣的假設(shè):如果用戶行為中關(guān)聯(lián)到的某個(gè)標(biāo)簽的次數(shù)越多,則該用戶對(duì)此類標(biāo)簽的喜好程度越深。用戶喜好模型描述的是用戶對(duì)影片的關(guān)注程度,其值用M(Tg,un)來(lái)表示,根據(jù)假設(shè),該值計(jì)算方式如式(1)所示:

        2.3 構(gòu)建影片相似度模型

        影片相似度模型描述的是兩部影片之間的相似程度。該值越接近1,則說(shuō)明兩部影片之間的相似程度越高。假設(shè)如果一部影片與用戶操作過(guò)的影片相似程度越接近1,則說(shuō)明該影片對(duì)于此用戶存在越高的推薦價(jià)值。因?yàn)橐c實(shí)驗(yàn)數(shù)據(jù)集的格式相匹配,推薦算法選用余弦相似度計(jì)算方式,如式(2)所示:

        其中,wn,c是用戶有過(guò)操作行為的影片特征向量,wn,s是需求進(jìn)行相似度計(jì)算的影片特征向量。

        2.4 推薦評(píng)分計(jì)算

        進(jìn)行推薦評(píng)分計(jì)算時(shí),因?yàn)橐紤]到用戶興趣變化程度,所以只針對(duì)用戶前x個(gè)操作行為進(jìn)行評(píng)分計(jì)算。文中采用的評(píng)分計(jì)算公式如式(3)所示:

        對(duì)于每一位用戶,將得到的影片評(píng)分列表進(jìn)行去重過(guò)濾降序排序后,取TOP-N個(gè)就得到了推薦列表。

        融合特征標(biāo)簽的推薦算法流程描述如下所示:

        輸入:用戶集合U,電影集合P,電影標(biāo)簽集合T,用戶對(duì)電影評(píng)分集合A。

        輸出:用戶對(duì)影片的推薦評(píng)分Vi,s。

        1)對(duì)輸入數(shù)據(jù)進(jìn)行初步計(jì)算,得到用戶總數(shù)n,影片總數(shù)m,標(biāo)簽總數(shù)ts和用戶標(biāo)簽總數(shù)等。

        2)根據(jù)1)中的數(shù)據(jù)建立用戶-標(biāo)簽矩陣。

        3)根據(jù)式(2)建立影片相似度模型。

        4)根據(jù)式(3)對(duì)影片進(jìn)行推薦評(píng)分預(yù)測(cè)。

        5)對(duì)計(jì)算得到的用戶推薦評(píng)分預(yù)測(cè)進(jìn)行過(guò)濾去重。

        6)降序排列Rij生成用戶推薦影片列表。

        3 實(shí)驗(yàn)及分析

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)自著名的數(shù)據(jù)集網(wǎng)站Movielens,數(shù)據(jù)集包含用戶數(shù)據(jù)、電影數(shù)據(jù)和評(píng)分?jǐn)?shù)據(jù)。用戶數(shù)據(jù)包含用戶ID、性別、年齡、職業(yè)字段。電影數(shù)據(jù)包含電影ID、標(biāo)題及上映年份、電影特征標(biāo)簽。評(píng)分?jǐn)?shù)據(jù)包含用戶ID、電影ID、分值和時(shí)間戳。

        本次使用的數(shù)據(jù)集大小為100 kB、1 MB、10 MB,用戶數(shù)量分別有943 個(gè)、6 040 個(gè)、71 567 個(gè)、電影數(shù)量分別有1 682 個(gè)、3 900 個(gè)、10 681 個(gè)、評(píng)價(jià)數(shù)量分別有1 000 條、1 000 209 條、10 000 054 條。實(shí)驗(yàn)選取75%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余的25%數(shù)據(jù)則作為測(cè)試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)用于訓(xùn)練預(yù)測(cè)模型,將預(yù)測(cè)模型應(yīng)用到測(cè)試數(shù)據(jù)中,將預(yù)測(cè)的評(píng)分與真實(shí)值進(jìn)行比較,誤差越小,評(píng)分預(yù)測(cè)效果越好,反之越差。

        3.2 推薦算法評(píng)價(jià)指標(biāo)

        推薦算法設(shè)計(jì)的優(yōu)良需要進(jìn)行對(duì)比,實(shí)驗(yàn)選用三種經(jīng)典推薦算法指標(biāo)來(lái)進(jìn)行對(duì)比評(píng)價(jià):用戶覆蓋率(User-Coverage)、召回率(Recall)、準(zhǔn)確率(Precision)。用戶覆蓋率用來(lái)表示推薦算法能夠進(jìn)行個(gè)性化推薦的用戶占比,該值越接近1,說(shuō)明算法推薦結(jié)果涉及用戶越多,用戶信息利用率越高。準(zhǔn)確率是推薦算法給用戶的推薦列表和用戶實(shí)際選擇的影片占比。召回率是用戶實(shí)際選擇影片和推薦算法給用戶推薦列表交集后,占用戶實(shí)際選擇的影片比例。三個(gè)指標(biāo)公式分別如下所示:

        3.3 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證和分析該文算法的推薦效果,將選取另外兩種推薦算法與其進(jìn)行對(duì)照實(shí)驗(yàn):

        1)文獻(xiàn)[10]中將共同評(píng)價(jià)兩部電影的用戶數(shù)進(jìn)行縮放,并以此在相似度計(jì)算中構(gòu)建了同一電影不同用戶的評(píng)分模型完成結(jié)果推薦,在文中將其視為(Common Evaluate Movie of User,CEMU)。

        2)基于物品的協(xié)同過(guò)濾算法(IMCF)。

        在進(jìn)行對(duì)比實(shí)驗(yàn)中,將以數(shù)據(jù)集長(zhǎng)度m、最終推薦結(jié)果長(zhǎng)度n為兩個(gè)關(guān)鍵變量進(jìn)行對(duì)比分析。

        3.3.1 用戶覆蓋率對(duì)比

        該次實(shí)驗(yàn)m的大小為1 MB,n=20。在構(gòu)建用戶-標(biāo)簽矩陣后,通過(guò)算法得到用戶評(píng)分預(yù)測(cè),再進(jìn)行過(guò)濾去重,得到了能夠獲得推薦列表的用戶比例,實(shí)驗(yàn)結(jié)果如表2 所示。

        表2 用戶覆蓋率

        通過(guò)表2 內(nèi)容可知,傳統(tǒng)的基于物品的協(xié)同過(guò)濾算法的用戶覆蓋率較低,接近40%的用戶未得到有效的推薦結(jié)果,對(duì)用戶行為數(shù)據(jù)的信息利用率低。在相似度算法中加入同一電影不同用戶的評(píng)分模型后,用戶覆蓋率得到了顯著的提高,達(dá)到81.38%。而該文的算法在用戶覆蓋率方面達(dá)到86.52%,用戶覆蓋率的提高說(shuō)明在算法中融入了標(biāo)簽后,可以為更多用戶構(gòu)建出符合用戶側(cè)的喜好模型,使得絕大多數(shù)用戶都可以得到與自身行為喜好相關(guān)的推薦結(jié)果;證明了物品特征標(biāo)簽中蘊(yùn)含著大量且有效的信息,可以幫助推薦算法解決數(shù)據(jù)稀疏的不足,挖掘分析利用這些信息可以大幅的提高互聯(lián)網(wǎng)應(yīng)用和用戶使用的效率。

        3.3.2 探究不同數(shù)據(jù)集長(zhǎng)度下的實(shí)驗(yàn)結(jié)果

        該實(shí)驗(yàn)中設(shè)n=20,實(shí)驗(yàn)結(jié)果如圖3 和圖4 所示。

        圖3 m取不同值時(shí)的準(zhǔn)確率

        圖4 m取不同值時(shí)的召回率

        由圖3 可知,三種算法準(zhǔn)確率隨著數(shù)據(jù)集量增加而增加,在數(shù)據(jù)集為10 MB 時(shí)三種算法準(zhǔn)確率達(dá)到最高。由圖4 可知,在三種算法中,融合標(biāo)簽特征算法的召回率最高,而且三種算法的召回率均隨著數(shù)據(jù)集量的增加而提高。融合特征標(biāo)簽后的推薦算法在準(zhǔn)確率和召回率方面均優(yōu)于兩種對(duì)比算法,特征標(biāo)簽可以在一定程度上解決用戶行為信息過(guò)少而無(wú)法建立符合用戶行為喜好的特征模型。

        3.3.3 探究不同推薦列表長(zhǎng)度下的實(shí)驗(yàn)結(jié)果

        在實(shí)驗(yàn)3.3.2 的實(shí)驗(yàn)結(jié)果之上,實(shí)驗(yàn)將m取固定值為1 MB,實(shí)驗(yàn)結(jié)果如圖5 和圖6 所示。

        由圖5 可知,隨著推薦列表長(zhǎng)度的不斷增加,算法的準(zhǔn)確率不斷提升,并在推薦列表長(zhǎng)度為20 時(shí)達(dá)到最高點(diǎn),之后略有降低。由圖6 可知,算法的召回率隨著推薦列表長(zhǎng)度的增加而提高,在推薦列表長(zhǎng)度為20 后,增速逐漸平緩。

        圖5 n取不同值時(shí)的準(zhǔn)確率

        圖6 n取不同值時(shí)的召回率

        實(shí)驗(yàn)結(jié)果表明,融合標(biāo)簽特征的推薦算法在準(zhǔn)確率和召回率方面有一定提升,且算法的準(zhǔn)確率和召回率分別在n=20 和n=25 時(shí)最佳。綜合以上實(shí)驗(yàn)數(shù)據(jù)分析,融合了特征標(biāo)簽的推薦算法可以深入地挖掘用戶的行為信息,得到更加精準(zhǔn)的用戶行為模型,并且在設(shè)定適合的推薦列表長(zhǎng)度后可以提高推薦效果,能夠有效提高算法對(duì)信息的利用率和準(zhǔn)確性。

        4 結(jié)論

        該文提出了一種結(jié)合物品特征標(biāo)簽的推薦算法,在算法中構(gòu)建用戶-特征標(biāo)簽矩陣來(lái)解決用戶行為無(wú)規(guī)律,行為信息數(shù)據(jù)不規(guī)則等問(wèn)題。經(jīng)過(guò)實(shí)驗(yàn)分析表明,同傳統(tǒng)的推薦算法和另外一種個(gè)性化推薦算法相比,印證了特征標(biāo)簽中包含著豐富且準(zhǔn)確的用戶喜好信息,利用此信息搭建完整精準(zhǔn)的用戶喜好模型,可以提升推薦算法用戶覆蓋率,并使算法的準(zhǔn)確率和召回率都有所提高。接下來(lái)的工作中將針對(duì)該文算法中面對(duì)推薦列表長(zhǎng)度過(guò)長(zhǎng)而導(dǎo)致推薦結(jié)果準(zhǔn)確率下降的問(wèn)題進(jìn)行優(yōu)化解決,將考慮對(duì)相似度算法進(jìn)行權(quán)重的重新分配,探索出更加穩(wěn)定和高效真實(shí)的推薦算法。

        猜你喜歡
        用戶
        雅閣國(guó)內(nèi)用戶交付突破300萬(wàn)輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛(ài),請(qǐng)稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬(wàn)用戶
        亚洲国产精品一区二区www| 国产一级淫片免费播放电影| 国产真人无遮挡免费视频| 国产精品无码久久久一区蜜臀| 成人综合久久精品色婷婷| 免费观看国产激情视频在线观看| 国产内射一级一片内射高清视频1 成人av一区二区三区四区 | 国产精品一区二区黑丝| 免费a级毛片18禁网站| 门卫又粗又大又长好爽| 精品香蕉久久久爽爽| 亚洲成AV人片在一线观看| 白白色最新福利视频二| 伊人精品久久久久中文字幕| 无码h黄动漫在线播放网站| 免费成人福利视频| 国产精品欧美亚洲韩国日本| 狼人精品剧情av在线观看| 日本一区二区三区免费播放| 国产精品亚洲综合一区在线观看| av无码特黄一级| 国产盗摄一区二区三区av| 国产69精品麻豆久久| 又粗又大又硬毛片免费看| 日本大片免费观看完整视频 | 91免费国产| 中文字幕高清不卡视频二区| 免费av片在线观看网址| 中文字幕人妻熟女人妻洋洋| 在线播放国产一区二区三区| 高清国产日韩欧美| 91热视频在线观看| 最新在线观看免费的a站国产| 新婚人妻不戴套国产精品| 黑人上司粗大拔不出来电影| 美日韩毛片| 日韩日本国产一区二区| 日韩人妻少妇一区二区三区| 无码av天堂一区二区三区| 亚洲精品成人网久久久久久| av免费网站在线免费观看|