亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型研究

        2023-12-05 08:14:36樊艷清紀(jì)佳琪
        現(xiàn)代計算機(jī) 2023年18期
        關(guān)鍵詞:物品語義神經(jīng)網(wǎng)絡(luò)

        樊艷清,紀(jì)佳琪

        (1. 河北民族師范學(xué)院信息中心,承德 067000;2. 河北民族師范學(xué)院數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,承德 067000;3. 河北省文化旅游大數(shù)據(jù)技術(shù)創(chuàng)新中心,承德 067000)

        0 引言

        推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、新聞、音樂、電影、短視頻等領(lǐng)域,已成為互聯(lián)網(wǎng)應(yīng)用必不可少的關(guān)鍵技術(shù)之一。以電子商務(wù)領(lǐng)域?yàn)槔?,其與實(shí)體店不同,電子商務(wù)門戶網(wǎng)站能夠售賣數(shù)以百萬計的產(chǎn)品。用戶不可能在有限的時間內(nèi)篩選所有商品,推薦系統(tǒng)可以使目標(biāo)用戶快速發(fā)現(xiàn)自己想購買的物品,因此用戶越來越依賴于推薦系統(tǒng)給他們推薦喜歡的商品。推薦系統(tǒng)不僅給用戶購物帶來好的用戶體驗(yàn),也增加了商家的收入。

        在推薦系統(tǒng)剛出現(xiàn)時,使用了經(jīng)典的基于信息檢索的方法,如基于內(nèi)容的過濾[1]。然而,這些技術(shù)依賴于專家知識,并且只能應(yīng)用于某一特定行業(yè),如應(yīng)用于圖書的推薦系統(tǒng)就很難應(yīng)用于電影推薦,因此很難建立一個通用的模型。這導(dǎo)致了它并沒有得到廣泛的應(yīng)用,取而代之并得到廣泛應(yīng)用的其中一種方法是協(xié)同過濾推薦模型[2]。協(xié)同過濾推薦模型可以分為幾個分支,最初是采用基于鄰域的方法,它直觀、易于理解和實(shí)現(xiàn),但缺乏準(zhǔn)確性;第二種方法是基于分類的方法,這會產(chǎn)生稍好的結(jié)果,但很難解釋;第三種方法,也是目前較流行的方法,即基于隱語義模型(latent factor model),這種方法更為抽象,需要對數(shù)學(xué)有很好的理解才能進(jìn)行解釋,但推薦效果更為準(zhǔn)確[3]。

        近些年,深度學(xué)習(xí)由于其具有強(qiáng)大的特征提取能力,已被廣泛應(yīng)用到計算機(jī)科學(xué)的各個方面:自然語言處理、語音處理、計算機(jī)視覺等[4],其在信息檢索方面也有一些應(yīng)用?;谏疃葘W(xué)習(xí)的成功,本文提出了一種基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型。淺層的隱語義模型是基于矩陣分解的方法,本文在基本隱語義模型的基礎(chǔ)上把其擴(kuò)展到更深的版本,使用深度學(xué)習(xí)方法,把矩陣分解擴(kuò)展為深度矩陣分解版本。

        1 相關(guān)工作

        1.1 基于鄰域的模型

        基于鄰域的模型最初想法來源于人們在電子商務(wù)活動中的規(guī)律,它發(fā)現(xiàn)用戶u一定與某些用戶具有相同的喜好,因此可以根據(jù)相似用戶的喜好給用戶u做推薦。在這些相似用戶中,會給每個用戶分配不同的權(quán)重,相似度越高權(quán)重也就越大。這些相似用戶對物品I的評分再乘以他們對應(yīng)的權(quán)重就是用戶u對物品i的喜好程度。以上描述可以形式化地表示如下:

        其中:u表示需要推薦物品的用戶,表示用戶u對物品i的預(yù)測評分(即預(yù)測的喜好程度)。我們找到用戶u的所有近鄰v,然后用每個近鄰的權(quán)重wv乘以這個近鄰對物品i的評分,最后把所有結(jié)果進(jìn)行加和就可以得到。這種鄰域模型又稱為基于用戶的協(xié)同過濾推薦模型[5]。

        以上是從用戶的角度來看待協(xié)同過濾,我們也可以從物品的角度來看待協(xié)同過濾,從而產(chǎn)生了基于物品的協(xié)同過濾模型[6]?;谖锲返膮f(xié)同過濾算法不需要尋找相似用戶,而是尋找相似物品,給用戶推薦那些和他們之前喜歡的物品相似的物品。其具體過程是用戶u對物品i的預(yù)測評分是用戶u對所有與物品i相似物品的評分乘上這些物品的權(quán)重后加和得到的。

        1.2 隱語義模型

        隱語義模型是一種基于物品過濾推薦模型的推廣,隱語義模型[7]認(rèn)為每個用戶可以用用戶的屬性表示,每個物品也可以用物品的屬性表示,而這些屬性是什么事先并不知道,因此這些屬性稱為隱屬性,即隱語義。對于具有m個用戶,k個隱語義的用戶隱矩陣Pm×k和具有n個物品,k個隱語義的物品隱矩陣Qk×n,用戶對物品預(yù)測評分矩陣(即隱語義模型)的計算方式如圖1所示。

        圖1 隱語義模型

        圖1的計算過程可以形式化表示如下:

        對用戶隱語義矩陣Pm×k和物品隱語義矩陣Qk×n實(shí)際是求解如下的優(yōu)化問題。

        其中:R是實(shí)際評分矩陣,‖ · ‖2是2范式的正則化項,用來防止過擬合問題,λ是正則化參數(shù)。

        1.3 基于深度學(xué)習(xí)的推薦模型

        受限玻爾茲曼機(jī)[8]作為深層信念網(wǎng)絡(luò)的構(gòu)建塊得到了一定發(fā)展,最初也使用它來解決協(xié)同過濾問題。然而,由于其輸入需限制為1或0,因此受限玻爾茲曼機(jī)在基于上下文的協(xié)同過濾場景中并未得到廣泛使用。修正的高斯-伯努利受限玻爾茲曼機(jī)也不適用于此類輸入,因?yàn)樗谕B續(xù)值輸入在0到1之間。

        近年來,基于自動編碼器的協(xié)同過濾技術(shù)顯示出良好的效果[9],它們依賴于一個神經(jīng)網(wǎng)絡(luò),其輸出與輸入相同。用于協(xié)同過濾時輸入(和輸出)存在缺失值,當(dāng)數(shù)據(jù)中存在此類缺失條目時,相應(yīng)的網(wǎng)絡(luò)權(quán)重不會更新。一旦訓(xùn)練完成,編碼器的表示與解碼器相乘,得到完整的評分矩陣。通過與隱語義模型的相似性分析,可以把網(wǎng)絡(luò)權(quán)重看作是用戶隱語義表示或物品隱語義表示。深度堆疊式自動編碼器也可以用于協(xié)同過濾,一般說來它和自動編碼器的輸入和輸出一樣,淺層和深層自動編碼器的唯一區(qū)別在于后者有更多層的編碼器和解碼器,然而實(shí)踐證明過深的層次對效果的提升幫助不大。

        還有一些基于深度學(xué)習(xí)的協(xié)同過濾模型的研究都是啟發(fā)性的[10]。如向深度神經(jīng)網(wǎng)絡(luò)中的輸入一般是用戶和物品的ID 及用戶對物品的評分,輸出是用戶對物品評分的預(yù)測值。此類模型最大的缺陷是用戶和物品的ID 不包含彼此的任何有用信息(如用戶或物品的屬性特征、用戶對物品的評價特征等)。因此,這些基于深度學(xué)習(xí)的協(xié)同過濾模型對預(yù)測評分的準(zhǔn)確性有限。

        2 基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型

        2.1 神經(jīng)網(wǎng)絡(luò)表示隱語義

        在隱語義模型中,某一用戶可以用k維隱向量表示(P矩陣中的一行),某一物品也可以用k維隱向量表示(Q矩陣中的一列)。本文中,我們可以把這種隱向量的表示方式轉(zhuǎn)換成一種神經(jīng)網(wǎng)絡(luò)的表示方式,即把用戶隱向量的表示轉(zhuǎn)換成物品隱向量到用戶對物品評分的一種神經(jīng)網(wǎng)絡(luò)連接,如圖2 所示。該神經(jīng)網(wǎng)絡(luò)的輸入是所有用戶對物品j的評分,用rj表示,輸出是物品j的隱向量表示,用qj表示。這樣就把隱語義模型的最初表示形式轉(zhuǎn)換成了神經(jīng)網(wǎng)絡(luò)的表示形式,接下來就可以對網(wǎng)絡(luò)進(jìn)行擴(kuò)展,使其成為一個深度神經(jīng)網(wǎng)絡(luò)模型。在深度學(xué)習(xí)體系結(jié)構(gòu)中,來自上一層的隱語義表示可以充當(dāng)?shù)较乱粚拥妮斎搿1疚木鸵陨鲜龇绞教岢隽嘶谏疃葘W(xué)習(xí)的隱語義協(xié)同過濾推薦模型。

        圖2 神經(jīng)網(wǎng)絡(luò)表示隱向量

        2.2 深度隱語義模型

        基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型如圖3所示,圖3中的隱藏層可以擴(kuò)展到更深層次。理論上講,隨著網(wǎng)絡(luò)的加深,會提取到更深層次的隱語義表示。比如當(dāng)我們選擇一本書或一部電影時,對于普通的隱語義模型來說只有一少部分隱語義會影響用戶的選擇(對于一本書來說影響的因素可能是作者、類型、出版社;對于一部電影來說,可能是明星、導(dǎo)演、題材)。然而對于深度隱語義來說,不僅能夠捕捉到上述的隱語義,還能夠捕捉到其他更深層次的特征。例如,更深層次的神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)可能捕捉到用戶的性格特征:內(nèi)向、外向、中性等,也可能捕捉到物品的一些深層次特征,這些特征的捕獲不需要人為干預(yù),深度神經(jīng)網(wǎng)絡(luò)會根據(jù)不同的數(shù)據(jù)集自動完成。基于這些更抽象的特征,本文的模型比其他的模型具有更優(yōu)的魯棒性和準(zhǔn)確性?;诖耍覀冊敿?xì)介紹本文提出模型的具體形式化表示。

        圖3 基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型

        如1.2 節(jié)所述,在標(biāo)準(zhǔn)的隱語義模型中,評分矩陣可以看作是用戶隱矩陣和物品隱矩陣的乘積。

        本文的深度隱語義模型中,我們將多層的用戶隱語義和一個物品隱語義進(jìn)行結(jié)合,假設(shè)有2個用戶隱語義,則可以表示為

        其中:P1和P2是2 層用戶隱語義矩陣,Q是物品隱語義矩陣。因此該模型很容易擴(kuò)展到N層用戶隱語義,如公式所示。

        由于R是評分矩陣,在實(shí)際數(shù)據(jù)集中,矩陣中的很多值都是缺失的,因此我們把缺失值的位置都填充為零,可以形式化表示為公式。

        其中:·表示點(diǎn)乘,I是只包含0 或1 的矩陣。結(jié)合公式(6)就可以形成本文的深度隱語義模型,見公式。

        因此,我們需要優(yōu)化求解如下?lián)p失函數(shù):

        本文使用投影梯度法對上述問題進(jìn)行求解,從而形成了本文的算法框架。

        上述算法的關(guān)鍵是如何迭代求解Rk+1,Pk+11,Pk+12,Pk+13,…,Pk+1N,Qk+1,由于是在非凸集上進(jìn)行求解,所以很難直接得到全局最小值。因此,本文提出了對約束進(jìn)行交替投影的方法[11],以得出該問題的近似解。每個變量都將以Gauss-Seidel[12]的方式依次處理,然后投影到其關(guān)聯(lián)的約束集上。具體形式化的表示如下:

        公式中的Projection+表示在正方向上的投影,也就是說如果值出現(xiàn)負(fù)數(shù)我們會把它置為0(使用ReLU 函數(shù)即可完成)。然后可以應(yīng)用矩陣P在線性約束R上的投影R=A∪B的一般性質(zhì),如下:

        公式中的+號表示偽逆矩陣(pseudo-inverse),因此公式(10)的具體展開計算見公式(12)。

        結(jié)合算法(1)和公式(12)就完成了模型參數(shù)的求解,在后續(xù)的實(shí)驗(yàn)中該算法也能較好地收斂。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        本文使用Movielens 提供的3 個電影評分?jǐn)?shù)據(jù)集對模型進(jìn)行評估。

        (1)movie-100K:該數(shù)據(jù)集包含了943 個用戶對1682部電影的一萬個評分。

        (2)movie-1M:該數(shù)據(jù)集包含了6040 個用戶對3900部電影的一百萬個評分。

        (3)movie-10M:該數(shù)據(jù)集包含了71567 個用戶對10681部電影的一千萬個評分。

        這些數(shù)據(jù)集官方在提供時已經(jīng)劃分好了訓(xùn)練集和測試集,本實(shí)驗(yàn)中我們使用5折交叉驗(yàn)證得到實(shí)驗(yàn)結(jié)果。

        3.2 模型收斂性

        圖4 顯示模型在movie-100K 上損失值的變化趨勢,從圖4可以看到,損失值很快下降到最低點(diǎn),說明模型的收斂速度較快。我們在其他兩個數(shù)據(jù)集上也得到了相同的實(shí)驗(yàn)結(jié)果,由于篇幅關(guān)系,本文不再另行給出。

        圖4 訓(xùn)練損失值變化趨勢

        3.3 超參數(shù)選擇

        本文提出的模型主要有兩個超參數(shù),一個是神經(jīng)網(wǎng)絡(luò)的層數(shù),另一個是投影梯度法的步長γ值。一般說來,神經(jīng)網(wǎng)絡(luò)的層數(shù)和數(shù)據(jù)量有一定的關(guān)系。如果數(shù)據(jù)量過少,網(wǎng)絡(luò)層數(shù)過多時很容易造成模型過擬合,通過本文的實(shí)驗(yàn)數(shù)據(jù)(表1~表3)可以看出,當(dāng)網(wǎng)絡(luò)隱藏層數(shù)大于3時,效果并沒有提升。由于每層的神經(jīng)元個數(shù)設(shè)置多少并沒有統(tǒng)一的理論支撐,本文也是根據(jù)以往的經(jīng)驗(yàn)采取逐層減半的方法。首先我們只設(shè)置1個隱藏層,這個隱藏層的神經(jīng)元個數(shù)分別設(shè)置為[8,16,32,64,…,128,256],在三個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖5所示,從圖5我們可以看出當(dāng)神經(jīng)元個數(shù)為128 時,模型的效果最好。這個結(jié)果決定了我們后續(xù)增加隱藏層時每層神經(jīng)元個數(shù)的設(shè)置。比如,當(dāng)有2 個隱藏層時,我們把隱藏層的神經(jīng)元個數(shù)分別設(shè)置為64-32;當(dāng)有3個隱藏層時,每個隱藏層神經(jīng)元個數(shù)分別設(shè)置為64-32-16;當(dāng)有4 個隱藏層時,每個隱藏層神經(jīng)元個數(shù)分別設(shè)置為64-32-16-8。實(shí)驗(yàn)中發(fā)現(xiàn)當(dāng)隱藏層為4時,效果不僅沒有提升反而略有下降。

        表1 在數(shù)據(jù)集movie-100K上的實(shí)驗(yàn)結(jié)果

        表2 在數(shù)據(jù)集movie-1M上的實(shí)驗(yàn)結(jié)果

        表3 在數(shù)據(jù)集movie-10M上的實(shí)驗(yàn)結(jié)果

        圖5 不同隱藏層數(shù)在三個數(shù)據(jù)集上MAE值

        接下來我們需要設(shè)置投影梯度法的步長γ。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)當(dāng)γ的值在0.01~0.8 之間時,對最終的結(jié)果影響不大,但是在這個范圍外,算法效果會下降。因此我們隨機(jī)在上述范圍內(nèi)固定了一個γ值為0.1。

        3.4 結(jié)果比較

        本文選取了一些基于深度學(xué)習(xí)的經(jīng)典推薦模型作為比較對象,分別是(1)collaborative deep learning(CDL)、(2)marginalized deep autoencoder(MDA)和(3)deep matrix factorization(DMF)。本文選取了精確度(Precision)和召回率(Recall)作為模型的評價指標(biāo),其中Precision@N表示推薦數(shù)量為N時模型的精確度。在三個數(shù)據(jù)集上各模型的實(shí)驗(yàn)結(jié)果見表1~表3。

        從實(shí)驗(yàn)結(jié)果可以看出,本文提出的模型整體效果要比其他模型效果好,雖然隱語義模型和深度學(xué)習(xí)模型對于推薦結(jié)果的解釋性較差,但是實(shí)驗(yàn)結(jié)果說明隱語義模型結(jié)合深度神經(jīng)網(wǎng)絡(luò)能夠更好地提取特征,從而提升推薦結(jié)果的性能。從模型自身對比來看,當(dāng)本文模型隱藏層數(shù)逐步增加到3 層時,推薦的效果也逐步增高;但是當(dāng)隱藏層數(shù)達(dá)到4層時,推薦效果不增反降,這主要因?yàn)閷訑?shù)增加造成學(xué)習(xí)的參數(shù)增加,過多的參數(shù)會造成模型過擬合。

        4 結(jié)語

        本文介紹了基于深度學(xué)習(xí)的隱語義協(xié)同過濾推薦模型,通過把淺層隱語義模型和深度學(xué)習(xí)技術(shù)相結(jié)合,形成了深度隱語義模型。通過使用交替投影的方法對模型進(jìn)行了優(yōu)化,并且模型收斂較快。與其他深度模型對比,實(shí)驗(yàn)結(jié)果表明,本文提出模型的Precision和Recall都高于其他深度模型。近年來張量分解、因子分解在機(jī)器學(xué)習(xí)中越來越重要,由于張量維度更高,能表示更多維度的用戶或物品特征,因此在未來的工作中,我們將研究把多級張量分解和深度學(xué)習(xí)進(jìn)行結(jié)合來完成推薦。

        猜你喜歡
        物品語義神經(jīng)網(wǎng)絡(luò)
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        語言與語義
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        誰動了凡·高的物品
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        找物品
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        国产一极内射視颍一| 无码电影在线观看一区二区三区| 五月婷一本到五月天| 免费在线日韩| 干出白浆视频在线观看| 少妇被粗大进猛进出处故事| 久久久亚洲av成人网站| 天天做天天爱天天综合网| 国产精品亚洲A∨天堂不卡| 国产av一区二区三区国产福利 | 日韩精品一区二区亚洲观看av| 亚洲爆乳无码专区www| 亚洲 自拍 另类小说综合图区 | 亚洲97成人精品久久久| 免费亚洲老熟熟女熟女熟女| 天堂国产一区二区三区| 乱人伦中文无码视频| 国产成人免费一区二区三区| 中文字幕一区二区三区6| 国产无遮挡aaa片爽爽| 色拍自拍亚洲综合图区| 狠狠色噜噜狠狠狠97影音先锋| 日韩人妻av不卡一区二区三区| 亚洲中文字幕一区二区在线| 无码人妻aⅴ一区二区三区| 久久精品人人做人人爽| 色999欧美日韩| 中文字幕亚洲视频三区| 女同同志熟女人妻二区| 亚洲av午夜国产精品无码中文字| 2022Av天堂在线无码| 精品蜜臀国产av一区二区| 色天使久久综合网天天| 黄瓜视频在线观看| 东北无码熟妇人妻AV在线 | 亚洲乱码av中文一区二区第八页| 欧美日韩精品乱国产| 美女自卫慰黄网站| 日日爽日日操| 91中文字幕精品一区二区| 日韩一级黄色片一区二区三区|