亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的深度興趣網(wǎng)絡(luò)推薦系統(tǒng)研究

        2023-08-21 10:51:07趙華銳于瓅
        現(xiàn)代信息科技 2023年12期
        關(guān)鍵詞:推薦系統(tǒng)

        趙華銳 于瓅

        摘? 要:針對(duì)推薦系統(tǒng)中用戶興趣度標(biāo)簽消失問(wèn)題,在排序?qū)犹岢鲆环N改進(jìn)的深度興趣網(wǎng)絡(luò)模型。首先,將深度興趣網(wǎng)絡(luò)模型應(yīng)用于視頻推薦領(lǐng)域,并在改進(jìn)的模型中加入平衡因子,有效地解決了在訓(xùn)練過(guò)程中用戶興趣度標(biāo)簽消失問(wèn)題。其次針對(duì)推薦系統(tǒng)整體召回率問(wèn)題,在召回層提出一種混合推薦模型。使用Item2vec模型和貝葉斯個(gè)性化排序模型組合成一種混合推薦模型。實(shí)驗(yàn)結(jié)果顯示:改進(jìn)后的深度興趣網(wǎng)絡(luò)和混合模型應(yīng)用在視頻推薦系統(tǒng)中很好地提高了推薦效果。

        關(guān)鍵詞:深度興趣網(wǎng)絡(luò);混合模型;Item2vec;推薦系統(tǒng)

        中圖分類號(hào):TP391.3;TP183 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)12-0081-04

        Research on Recommendation System Based on Advanced Deep Interest Network

        ZHAO Huarui, YU Li

        (School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)

        Abstract: Aiming at the disappearance of user interest tags in recommendation systems, an improved deep interest network model is proposed in the ranking layer. Firstly, the deep interest network model is applied to the field of video recommendation, and a balance factor is added to the improved model to effectively solve the problem of disappearance of user interest tags in the training process. Secondly, to solve the problem of overall recall rate of the recommendation system, a hybrid recommendation model is proposed in the recall layer. The Item2vec model and Bayesian personalized sorting model are combined to form a hybrid recommendation model. The experimental results show that the improved deep interest network and hybrid model greatly improve the recommendation effect in the video recommendation system.

        Keywords: deep interest network; hybrid model; Item2vec; recommendation system

        0? 引? 言

        在信息爆炸式增長(zhǎng)的時(shí)代,人們很難從豐富而復(fù)雜的信息中獲取真正感興趣的信息。如何快速且精準(zhǔn)地從大量信息中獲得自己想要的信息就成了關(guān)鍵。隨著推薦系統(tǒng)的出現(xiàn),尤其是個(gè)性化推薦成功地解決了該問(wèn)題。

        當(dāng)前,推薦算法已從傳統(tǒng)推薦模型過(guò)渡到深度推薦模型,尤其是近幾年,隨著Wide&Deep[1],深度因子分解機(jī)(Deep Factorization Machine, DeepFM)[2],深度興趣網(wǎng)絡(luò)(Deep Interest Network, DIN)[3]等多種深度推薦模型的提出,以深度學(xué)習(xí)為基礎(chǔ)的推薦模型逐漸成了主流,并在各領(lǐng)域都取得了很好的推薦效果。

        本文立足于視頻推薦領(lǐng)域,以電影資源推薦為例,在排序?qū)訉?duì)深度興趣網(wǎng)絡(luò)模型改進(jìn),在召回層設(shè)計(jì)一種混合推薦模型,并結(jié)合大數(shù)據(jù)處理模塊實(shí)現(xiàn)對(duì)推薦系統(tǒng)的整體設(shè)計(jì)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的推薦模型與常用的幾種模型相比,在精確率、召回率等評(píng)價(jià)指標(biāo)上具有明顯提升,總體的推薦準(zhǔn)確性較好。

        1? 推薦系統(tǒng)設(shè)計(jì)原理

        本文設(shè)計(jì)的推薦系統(tǒng)嚴(yán)格遵循模塊化設(shè)計(jì)原則,各模塊之間相互獨(dú)立、耦合程度較低,便于后期的維護(hù)以及二次開(kāi)發(fā)。推薦系統(tǒng)整體架構(gòu)如圖1所示。

        推薦系統(tǒng)各模塊可分為數(shù)據(jù)處理層、存儲(chǔ)層、框架層、應(yīng)用層。各層主要功能如下。

        1.1? 數(shù)據(jù)處理層

        主要負(fù)責(zé)處理客戶端的實(shí)時(shí)數(shù)據(jù)。本文采用Flume分布式的日志收集系統(tǒng),對(duì)用戶的行為日志進(jìn)行采集,并采用Flink[4]和Kafka[5]流處理工具對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式處理。

        1.2? 存儲(chǔ)層

        主要負(fù)責(zé)存儲(chǔ)所有的歷史數(shù)據(jù)和線上實(shí)時(shí)數(shù)據(jù)。本文設(shè)計(jì)的推薦系統(tǒng)采用的是分級(jí)存儲(chǔ)方式,更好地解決了模型線上服務(wù)相應(yīng)的實(shí)時(shí)性以及海量用戶和物品數(shù)據(jù)的存儲(chǔ)問(wèn)題。由于Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System, HDFS)特點(diǎn)是容量巨大但訪問(wèn)速度較慢,因此HDFS用來(lái)存儲(chǔ)所有的歷史數(shù)據(jù),并采用Spark技術(shù)可以保證在離線狀態(tài)下對(duì)特征進(jìn)行批量處理;采用MySQL關(guān)系型數(shù)據(jù)庫(kù),用來(lái)存儲(chǔ)用戶注冊(cè)登錄的信息等,可作為網(wǎng)站的后端數(shù)據(jù)庫(kù);針對(duì)客戶端的實(shí)時(shí)數(shù)據(jù),采用Redis內(nèi)存型數(shù)據(jù)庫(kù),保證其訪問(wèn)速度,能夠最快地加載線上服務(wù)所需要的數(shù)據(jù);采用Elasticsearch分布式搜索引擎,提供視頻相關(guān)信息資源的全文檢索功能。

        1.3? 框架層

        主要采用TensorFlow平臺(tái)完成搭建深度學(xué)習(xí)模型,并進(jìn)行離線的訓(xùn)練。采用Spark Mllib技術(shù)實(shí)現(xiàn)對(duì)物品Embedding特征處理,進(jìn)而完成快速的召回過(guò)程,而深度興趣網(wǎng)絡(luò)模型則是用來(lái)對(duì)召回的物品進(jìn)行精準(zhǔn)排序,產(chǎn)生最終的推薦列表。針對(duì)模型的線上服務(wù),采用TensorFlow Server,后端可以請(qǐng)求并獲取到候選物品的推斷結(jié)果,并通過(guò)模型給出的評(píng)分完成對(duì)當(dāng)前候選物品的排序,應(yīng)用于最終的推薦列表。

        1.4? 應(yīng)用層

        主要負(fù)責(zé)前端頁(yè)面和后端管理。包括用戶的登錄注冊(cè)頁(yè)面、視頻詳情頁(yè)面、用戶的個(gè)人中心頁(yè)面以及全文搜索頁(yè)面;后端管理包括用戶信息管理、視頻信息管理、推薦服務(wù)管理以及日志管理。

        2? 推薦算法模型

        推薦系統(tǒng)中通常把推薦模型分為召回層和排序?qū)?。召回層主要?fù)責(zé)將海量的候選物品迅速地縮小到幾百甚至幾十量級(jí),因此要求模型結(jié)構(gòu)較為簡(jiǎn)單;排序?qū)又饕?fù)責(zé)對(duì)召回后的物品進(jìn)行精準(zhǔn)的排序,且使用較為復(fù)雜的模型對(duì)特征進(jìn)一步挖掘。

        2.1? 召回層模型

        本文在召回層提出一種混合推薦模型,即Item2vec[6]模型和貝葉斯個(gè)性化排序(Bayesian Personalized Ranking, BPR)[7]模型。

        Item2vec模型源于自然語(yǔ)言處理領(lǐng)域的Word2vec模型,其本質(zhì)就是把詞序列轉(zhuǎn)換成用戶的瀏覽、評(píng)論、購(gòu)買等序列,因此在視頻推薦領(lǐng)域,可以將用戶已觀看序列或已評(píng)分序列生成用戶感興趣的推薦序列。假設(shè)Item2vec模型中有一用戶u,長(zhǎng)度為t,其歷史記錄為ω1, ω2, ω3, …, ωt,可以得到其優(yōu)化目標(biāo)為:

        Item2vec模型可以將特征向量轉(zhuǎn)換成如圖2所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最后需要的Embedding就是向量W對(duì)應(yīng)的每一個(gè)行向量。

        BPR模型本質(zhì)是一種排序算法,其核心思想是按照用戶對(duì)物品的興趣度進(jìn)行排序,然后根據(jù)優(yōu)先級(jí)的高低,將符合條件的物品推薦給用戶。在該模型中,訓(xùn)練數(shù)據(jù)集形式通常表示為三元組< u, i, j >,指用戶u對(duì)物品i和對(duì)物品j的感興趣程度。由于BPR模型的特性,用戶之間的偏好是相互獨(dú)立的,用戶對(duì)不同物品的偏好程度也相互獨(dú)立。根據(jù)貝葉斯公式可以得到:

        式(2)中,V和W為矩陣因子,通過(guò)最大后驗(yàn)估計(jì)對(duì)概率P進(jìn)行優(yōu)化。其中,>u表示用戶u對(duì)物品的偏好。對(duì)式(2)進(jìn)一步分解,通過(guò)梯度上升法使得矩陣因子收斂,最后可以求得預(yù)測(cè)值xui = VuWi,從而選擇排序值較高的幾個(gè)物品推薦給用戶。

        綜合Item2vec模型和BPR模型,本文設(shè)計(jì)出一種混合推薦模型,如圖3所示。

        在混合模型中,Item2vec具有Embedding特征降維、神經(jīng)網(wǎng)絡(luò)復(fù)雜度低等特點(diǎn),可以有效地提高視頻推薦場(chǎng)景中物品相似度計(jì)算,BPR模型具有相互獨(dú)立性的特點(diǎn)。因此該混合模型能更好地對(duì)用戶興趣度進(jìn)行計(jì)算,并最終在召回層實(shí)現(xiàn)高效率的推薦。

        2.2? 排序?qū)幽P?/p>

        深度興趣網(wǎng)絡(luò)模型是阿里巴巴公司提出并應(yīng)用于廣告領(lǐng)域,DIN模型的主要特點(diǎn)是在傳統(tǒng)深度模型的基礎(chǔ)上融入attention注意力機(jī)制,通過(guò)計(jì)算用戶的歷史行為記錄與候選物品之間的相關(guān)程度,獲得注意力得分,進(jìn)而實(shí)現(xiàn)個(gè)性化的推薦目的。針對(duì)用戶興趣度標(biāo)簽消失問(wèn)題(即用戶對(duì)一部或幾部影片的評(píng)分過(guò)低,同時(shí)該影片的類型屬于用戶的興趣標(biāo)簽,上述問(wèn)題易引發(fā)模型的錯(cuò)誤判斷從而使用戶感興趣的標(biāo)簽消失),本文對(duì)DIN模型的改進(jìn)具體如下。

        1)為了使DIN模型適用于視頻推薦場(chǎng)景,輸入數(shù)據(jù)的特征分別為Movies ID、Rating、Category ID,它們分別代表某電影的編號(hào)、電影對(duì)應(yīng)的評(píng)分、電影所屬的類別。

        2)使用PreLU和Sigmoid作為激活函數(shù)。

        3)對(duì)所有輸入特征進(jìn)行初步的篩選,將可能導(dǎo)致用戶興趣度標(biāo)簽消失的特征集取出,單獨(dú)并為一類再輸入到網(wǎng)絡(luò)中。

        4)基于上述操作篩選出的特征集,在計(jì)算用戶相似度時(shí)加入一個(gè)平衡因子λ,用于調(diào)節(jié)用戶的興趣度標(biāo)簽。原用戶興趣度計(jì)算為:

        式(3)中,{e1, e2, e3, …, ek}表示用戶u的所有歷史行為,vA表示為候選物品的特征。加入平衡因子λ之后,用戶興趣度計(jì)算為:

        改進(jìn)后的深度興趣網(wǎng)絡(luò)模型如圖4所示,用戶對(duì)影片的評(píng)分通過(guò)Sigmoid函數(shù)做二分類處理,評(píng)分大于等于3的記為1,小于3的記為0。改進(jìn)后的深度興趣網(wǎng)絡(luò)模型通過(guò)注意力機(jī)制計(jì)算用戶的評(píng)分序列,最終可得到注意力權(quán)重值。

        3? 實(shí)驗(yàn)與分析

        3.1? 實(shí)驗(yàn)配置

        實(shí)驗(yàn)采用64位Windows 10操作系統(tǒng),8核16線程,16 GB內(nèi)存,處理器為Intel Core i7-8550U。

        3.2? 數(shù)據(jù)集

        數(shù)據(jù)集采用美國(guó)明尼蘇達(dá)大學(xué)Grouplens研究組開(kāi)源的Movielens-1M數(shù)據(jù)集,該數(shù)據(jù)集包含用戶數(shù)6 040個(gè),項(xiàng)目數(shù)4 000個(gè),評(píng)分?jǐn)?shù)1 000 209個(gè),每個(gè)用戶至少對(duì)15部以上的影片進(jìn)行評(píng)分。

        3.3? 評(píng)價(jià)指標(biāo)

        本文采用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy),PR AUC和ROC AUC。其中準(zhǔn)確率指的是分類正確的樣本數(shù)占總樣本數(shù)的比例,P表示精確率(Precision),R表示召回率(Recall)。準(zhǔn)確率的公式可以表示為:

        其中TP表示真正例,F(xiàn)P表示假正例,F(xiàn)N表示假負(fù)例,TN表示真負(fù)例。

        精確率指的是分類正確的正樣本數(shù)占所有被模型判定為正的樣本數(shù)的比例,精確率的公式可以表示為:

        召回率指的是分類正確的正樣本數(shù)占真的正樣本數(shù)的比例,召回率的公式可以表示為:

        ROC(Receiver Operating Characteristic curve)稱為“接受者操作特性曲線”,可以反映在幾種不同標(biāo)準(zhǔn)下所得到的結(jié)果,本文中ROC曲線的橫坐標(biāo)表示FP(假正例),縱坐標(biāo)表示TP(真正例)。AUC表示位于ROC曲線下方的部分面積大小,AUC的取值在0到1之間,通常值越大表示性能越好。

        3.4? 實(shí)驗(yàn)結(jié)果與分析

        在相同配置環(huán)境下,對(duì)比原來(lái)的DIN模型與改進(jìn)后的DIN模型,結(jié)果如表1所示,對(duì)比結(jié)果表明:改進(jìn)后的DIN模型在多個(gè)評(píng)價(jià)指標(biāo)上具有明顯的提升。

        本文將改進(jìn)后的深度興趣網(wǎng)絡(luò)模型與4種常用的深度推薦模型進(jìn)行對(duì)照實(shí)驗(yàn),對(duì)比的深度模型分別為Wide&Deep模型,多層感知機(jī)(Multi-Layer Perceptron, MLP)模型,神經(jīng)協(xié)同過(guò)濾(Neural Collaborative Filtering, Netural CF)模型以及DeepFM模型。采用上述的評(píng)價(jià)指標(biāo),準(zhǔn)確率,精確率和召回率測(cè)試模型效果,實(shí)驗(yàn)結(jié)果如表2所示。

        根據(jù)表2可知,MLP即多層感知機(jī)模型,該模型損失值最高,準(zhǔn)確率最低,它通常使用反向傳播算法計(jì)算代價(jià)函數(shù)的最優(yōu)化問(wèn)題。Netural CF即傳統(tǒng)的協(xié)同過(guò)濾算法通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),傳統(tǒng)的協(xié)同過(guò)濾算法是基于矩陣分解的線性結(jié)果,而結(jié)合了神經(jīng)網(wǎng)絡(luò)模型可以實(shí)現(xiàn)非線性的效果,因此性能有了一定提升,但總體效果依舊不理想。DeepFM與Wide&Deep模型均達(dá)到了理想的評(píng)價(jià)指標(biāo),而本文改進(jìn)的DIN模型相比上述兩種模型,總體上都有較好的提升,這是因?yàn)槌薉IN模型本身融入了注意力機(jī)制,而且在計(jì)算用戶興趣度問(wèn)題上做了相應(yīng)的優(yōu)化,盡可能避免了用戶興趣標(biāo)簽消失。

        3.5? 最優(yōu)化參數(shù)

        通過(guò)上述各模型的對(duì)比數(shù)據(jù),改進(jìn)后的DIN模型基本達(dá)到了預(yù)期效果。因此,為了讓推薦系統(tǒng)最終的推薦效果能達(dá)到最優(yōu),需要在參數(shù)默認(rèn)設(shè)置的情況下,對(duì)局部參數(shù)進(jìn)行調(diào)優(yōu)。

        如圖5所示,實(shí)驗(yàn)中分析了當(dāng)TOP-K取值不同時(shí),各模型在評(píng)價(jià)指標(biāo)上的數(shù)據(jù),結(jié)果表明:當(dāng)TOP-K值設(shè)置為15時(shí),改進(jìn)的DIN模型可以達(dá)到當(dāng)前最優(yōu)的效果。

        如表3所示,當(dāng)TOP-K取值為15時(shí),平衡因子最優(yōu)取值為0.5。

        4? 結(jié)? 論

        本文通過(guò)對(duì)深度興趣網(wǎng)絡(luò)的改進(jìn)與優(yōu)化,以及在召回層設(shè)計(jì)使用了混合推薦模型,并結(jié)合主流的大數(shù)據(jù)處理平臺(tái)應(yīng)用于視頻推薦系統(tǒng)。通過(guò)與不同深度推薦模型的對(duì)照實(shí)驗(yàn),表明本文模型在離線測(cè)試環(huán)境下取得了較好的推薦效果,在準(zhǔn)確率、精確率、損失值等評(píng)價(jià)指標(biāo)上都有一定的提升。其中,在推薦系統(tǒng)整體架構(gòu)中,給出了具體的實(shí)施方案,并詳細(xì)地介紹了各模塊的功能與內(nèi)在聯(lián)系;在召回層和排序?qū)拥耐扑]模型中,同樣給出了具體的改進(jìn)和設(shè)計(jì)方案。通過(guò)本文的研究,對(duì)于設(shè)計(jì)與優(yōu)化視頻領(lǐng)域的推薦系統(tǒng)具有較好的參考意義。當(dāng)然,本文研究依然存在一些不足,如選用數(shù)據(jù)集的量級(jí)不大,對(duì)比的推薦模型較少等局限性,后續(xù)還需要進(jìn)一步針對(duì)上述缺陷進(jìn)行研究,后續(xù)在工業(yè)應(yīng)用中還需考慮在線的模型測(cè)試,進(jìn)而能夠取得更全面真實(shí)的推薦效果。

        參考文獻(xiàn):

        [1] CHENG H T,KOC L,HARMSEN J,et al. Wide & deep learning for Recommender Systems [C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems.Boston:Association for Computing Machinery,2016:7-10.

        [2] SU R,HUANG Y X,ZHANG D,et al. SRDFM:Siamese Response Deep Factorization Machine to improve anti-cancer drug recommendation [J].Briefings in Bioinformatics,2022,23(2):bbab534.

        [3] ZHOU G R,SONG C R,ZHU X Q,et al. Deep Interest Network for Click-Through Rate Prediction [J/OL].arXiv:1706.06978 [stat.ML].(2017-06-21).https://arxiv.org/abs/1706.06978v3.

        [4] 趙潤(rùn)發(fā),婁淵勝,葉楓,等.基于Flink的工業(yè)大數(shù)據(jù)平臺(tái)研究與應(yīng)用 [J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(3):886-894.

        [5] 張文彬,王春梅,王靜,等.基于Spark的有效載荷參數(shù)解析處理方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(2):587-591.

        [6] 劉文竹,黃勃,高永彬,等.Item2vec與改進(jìn)DDPG相融合的推薦算法 [J].武漢大學(xué)學(xué)報(bào):理學(xué)版,2019,65(3):297-302.

        [7] 申艷梅,姜冰倩,敖山,等.基于遺忘函數(shù)的均值貝葉斯個(gè)性化排序算法研究 [J].計(jì)算機(jī)應(yīng)用研究,2021,38(5):1350-1354+1370.

        作者簡(jiǎn)介:趙華銳(1993—),男,漢族,江蘇鹽城人,碩士研究生在讀,研究方向:推薦系統(tǒng);通訊作者:于瓅(1973—),女,漢族,安徽淮南人,教授,博士,研究方向:數(shù)據(jù)挖掘、區(qū)塊鏈。

        猜你喜歡
        推薦系統(tǒng)
        數(shù)據(jù)挖掘在選課推薦中的研究
        軟件(2016年4期)2017-01-20 10:09:33
        基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
        基于個(gè)性化的協(xié)同過(guò)濾圖書(shū)推薦算法研究
        個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
        淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
        關(guān)于協(xié)同過(guò)濾推薦算法的研究文獻(xiàn)綜述
        商(2016年29期)2016-10-29 15:22:08
        一種基于自適應(yīng)近鄰選擇的協(xié)同過(guò)濾推薦算法
        UGC標(biāo)簽推薦系統(tǒng)的一種新的標(biāo)簽清理方法
        商(2016年15期)2016-06-17 17:39:50
        網(wǎng)上商品推薦系統(tǒng)設(shè)計(jì)研究
        基于消費(fèi)者視角的在線推薦系統(tǒng)研究綜述
        性一交一乱一伧国产女士spa | 成年美女黄的视频网站| 94久久国产乱子伦精品免费| av中文字幕不卡无码| 国产一区二区在线观看视频免费 | 亚洲精品中文字幕不卡| 国产极品视觉盛宴| 国产va免费精品高清在线观看| 学生妹亚洲一区二区| 国产日韩欧美网站| av福利资源在线观看| 黄片国产一区二区三区| 成人国成人国产suv| 每天更新的免费av片在线观看| 天天射色综合| 亚洲第一页视频在线观看 | 久久亚洲中文字幕精品熟| 国产精品v片在线观看不卡| 亚洲一区欧美二区| 亚洲精品一区二区三区国产| 国产99一区二区三区四区| 亚洲av综合av国产av中文| 人妻av乱片av出轨| 国精品无码一区二区三区在线看| 国产精品天堂在线观看 | 亚洲成av人片在线观看www | 国产97在线 | 中文| 亚洲成a∨人片在线观看无码| 久久熟女少妇一区二区三区| 国产成人av在线免播放观看新 | 日本熟妇hdsex视频| 可以免费在线看黄的网站| 偷拍与自偷拍亚洲精品| 视频一区视频二区制服丝袜| 亚洲av无码之日韩精品| 国产成人AV乱码免费观看| av日韩高清一区二区| 欧美成人免费全部| 在线看片国产免费不卡| 国产精品亚洲一区二区三区在线 | 国产欧美日韩专区|