亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于半自動(dòng)編碼器的協(xié)同過濾推薦算法

        2021-03-18 08:03:30張浩博
        計(jì)算機(jī)工程 2021年3期
        關(guān)鍵詞:編碼器特征提取物品

        張浩博,薛 峰,劉 凱

        (合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601)

        0 概述

        隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)級(jí)增長(zhǎng),如何從海量信息中分析和挖掘潛在有價(jià)值的知識(shí)或者規(guī)律,幫助用戶找到感興趣的信息意義重大。由于主動(dòng)搜索用戶感興趣內(nèi)容的方式局限性較大,因此推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)能夠快速地從海量信息中過濾出符合用戶需求的內(nèi)容并主動(dòng)推送給用戶,已被廣泛應(yīng)用于電子商務(wù)推薦、個(gè)性化廣告推薦、新聞推薦等諸多領(lǐng)域。

        推薦系統(tǒng)主要分為基于協(xié)同過濾的推薦系統(tǒng)和基于內(nèi)容的推薦系統(tǒng)兩類[1-2]?;趨f(xié)同過濾的推薦系統(tǒng)利用用戶過去對(duì)物品的評(píng)分或交互歷史進(jìn)行推薦。基于內(nèi)容的推薦系統(tǒng)則是為每一個(gè)用戶和物品生成一個(gè)畫像,然后向用戶推薦與其畫像最相似的物品集合?;趨f(xié)同過濾的推薦算法由于具有較好的推薦效果而受到學(xué)者的廣泛關(guān)注。矩陣分解(Matrix Factorization,MF)算法[3-4]是基于協(xié)同過濾的推薦算法中的主流算法,其利用用戶物品交互矩陣來學(xué)習(xí)用戶和物品特征的隱含向量。然而,在實(shí)際應(yīng)用中,用戶物品交互矩陣通常會(huì)非常稀疏,從而導(dǎo)致矩陣分解算法的推薦效果不理想,同時(shí)矩陣分解算法還存在冷啟動(dòng)問題[5],不適用于新用戶和新物品的推薦。為解決上述問題,文獻(xiàn)[6-8]提出方法將用戶或物品的一些輔助信息融入矩陣分解模型。這些輔助信息包括用戶人口統(tǒng)計(jì)學(xué)信息、物品類別、用戶評(píng)論等信息,但是這些方法只是將輔助信息作為附加項(xiàng),在模型訓(xùn)練過程中并沒有與矩陣分解算法中的用戶、物品隱含向量進(jìn)行聯(lián)合更新。此外,由于輔助信息也比較稀疏,如果提取的輔助信息特征質(zhì)量較差,則會(huì)影響矩陣分解算法效果,因此學(xué)者們嘗試研究性能更好的特征提取模型來得到更具表達(dá)力的用戶物品隱含向量。

        近年來,深度學(xué)習(xí)技術(shù)[9-10]在自然語言處理、圖像識(shí)別等領(lǐng)域取得了巨大成功,其能從大量數(shù)據(jù)中發(fā)現(xiàn)其中的隱含特征,已有很多學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用于推薦系統(tǒng)。文獻(xiàn)[11-12]通過受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)、多層感知機(jī)(Multi-Layer Perceptron,MLP)等將深度神經(jīng)網(wǎng)絡(luò)直接應(yīng)用于協(xié)同過濾算法,但其沒有利用輔助信息進(jìn)一步提升推薦效果。文獻(xiàn)[13]提出基于自編碼器的協(xié)同過濾算法AutoRec,該算法是較早將自編碼器應(yīng)用于推薦系統(tǒng)的算法,此后涌現(xiàn)出一系列基于自編碼器的算法,如文獻(xiàn)[14]通過自編碼器提取物品特征并將其融入矩陣分解模型的物品隱向量中。該算法雖然提升了推薦效果,但會(huì)受限于提取出的物品特征質(zhì)量。文獻(xiàn)[15]提出基于半自動(dòng)編碼器的混合推薦算法,將用戶交互歷史與用戶輔助信息向量拼接后通過半自動(dòng)編碼器進(jìn)行重構(gòu)以得到缺失評(píng)分。雖然該算法使用半自動(dòng)編碼器進(jìn)行推薦,但是推薦效果提升不明顯。文獻(xiàn)[16]提出基于邊際降噪自編碼器的混合協(xié)同過濾推薦算法,雖然該算法將輔助信息特征提取融入矩陣分解模型,但其沒有利用用戶和物品的交互歷史,推薦效果還有較大的提升空間。由文獻(xiàn)[14-16]研究結(jié)果可知:通過深度學(xué)習(xí)技術(shù)提取用戶和物品輔助信息,并結(jié)合矩陣分解模型進(jìn)行聯(lián)合學(xué)習(xí)具有更好的推薦效果。本文提出一種基于半自動(dòng)編碼器的協(xié)同過濾推薦算法Semi-Autoencoder MF,該算法利用半自動(dòng)編碼器提取用戶和物品的輔助信息特征,然后將提取出的特征融入矩陣分解模型,使得半自動(dòng)編碼器與矩陣分解模型進(jìn)行聯(lián)合更新以提升推薦效果。

        1 相關(guān)工作

        1.1 基于矩陣分解的協(xié)同過濾推薦算法

        矩陣分解算法是運(yùn)用最廣泛的協(xié)同過濾推薦算法之一,由于在Netflix[17]主辦的推薦系統(tǒng)比賽中取得優(yōu)異成績(jī)而備受關(guān)注。廣義上,矩陣分解是指將一個(gè)矩陣分解成兩個(gè)或多個(gè)矩陣的乘積。在推薦系統(tǒng)中,矩陣分解是指將高維的用戶物品交互矩陣分解成兩個(gè)低維的用戶矩陣和物品矩陣的乘積,如式(1)所示:

        其中,R∈Rm×n表示用戶物品交互矩陣,U∈Rm×d表示用戶矩陣,V∈Rd×n表示物品矩陣,m表示用戶數(shù),n表示物品數(shù),d表示隱式特征的維數(shù)表示用戶對(duì)物品的預(yù)測(cè)評(píng)分矩陣。

        基于上述基礎(chǔ)矩陣分解模型衍生出一系列矩陣分解的變種算法。例如,文獻(xiàn)[18]提出一種融合偏置的奇異值分解(Biased Singular Value Decomposition,Biased SVD)算法,在基礎(chǔ)矩陣分解模型上增加了偏置項(xiàng)進(jìn)一步提高SVD 模型的預(yù)測(cè)精度。該文作者認(rèn)為傳統(tǒng)矩陣分解模型將所有用戶和物品無差別對(duì)待,不符合實(shí)際情況。以電影推薦為例,若某些用戶非常挑剔,則對(duì)大部分電影的評(píng)分均偏低,此時(shí)就需要引入偏置項(xiàng)來消除這些因素的負(fù)面影響。Biased SVD 模型的預(yù)測(cè)評(píng)分計(jì)算如式(2)所示:

        1.2 半自動(dòng)編碼器

        自動(dòng)編碼器通常要求輸入層和輸出層的向量維度相等,但是當(dāng)輸入層和輸出層的向量維度不等時(shí),自動(dòng)編碼器就有更加靈活的結(jié)構(gòu)。受此啟發(fā),文獻(xiàn)[15]提出半自動(dòng)編碼器結(jié)構(gòu),如圖1 所示。

        圖1 半自動(dòng)編碼器結(jié)構(gòu)Fig.1 Structure of semi-autoencoder

        基礎(chǔ)的半自動(dòng)編碼器結(jié)構(gòu)與自動(dòng)編碼器結(jié)構(gòu)類似,也包括輸入層x∈RS、隱藏層h∈RH以及輸出層x′∈RD,其中S、H、D分別表示輸入層、隱藏層、輸出層的向量維數(shù)且滿足H

        其中,V∈RH×S和V1∈RD×H表示權(quán)重矩陣,b∈RH和b1∈RD表示偏置項(xiàng)。當(dāng)計(jì)算損失函數(shù)時(shí),半動(dòng)編碼器旨在優(yōu)化x′與sub(x)的誤差。半自動(dòng)編碼器結(jié)構(gòu)具有以下優(yōu)勢(shì):1)通過采樣輸入的不同子集來靈活地獲得輸入向量的多種表示;2)由于輸入維數(shù)大于輸出維數(shù),因此可在輸入層中添加一些輔助信息。

        2 基于半自動(dòng)編碼器的協(xié)同過濾推薦

        2.1 算法原理

        由于用戶和物品由很多特征組成,因此這些特征在某種程度上可看作是矩陣分解模型中的隱式向量在其他特征空間中的表示。以電影為例,一部電影有類別、上映年份、演員、導(dǎo)演等結(jié)構(gòu)化特征,還可能有電影海報(bào)、電影片段等視覺特征。這些多樣的特征對(duì)用戶和物品的實(shí)體表示會(huì)有不同的影響,并且可以映射到用戶或物品的隱式向量上。本文的目標(biāo)就是設(shè)計(jì)一種能夠?qū)⒂脩艉臀锲返亩鄻犹卣髋c矩陣分解相關(guān)聯(lián)的方法,從而充分利用矩陣分解模型和輔助信息各自的優(yōu)勢(shì)來達(dá)到更好的推薦效果。由于半自動(dòng)編碼器能夠有效提取輸入向量的特征,因此本文提出基于半自動(dòng)編碼器的協(xié)同過濾推薦算法。

        2.2 算法模型

        本文提出基于半自編碼器的協(xié)同過濾推薦算法Semi-Autoencoder MF,其模型結(jié)構(gòu)如圖2 所示。

        圖2 Semi-Autoencoder MF 模型結(jié)構(gòu)Fig.2 Structure of Semi-Autoencoder MF model

        在圖2 中,用戶與物品的相關(guān)輔助信息分別通過兩個(gè)半自動(dòng)編碼器提取兩個(gè)中間特征,然后利用映射矩陣映射到矩陣分解模型的用戶或物品的隱式向量中,通過不斷縮小預(yù)測(cè)評(píng)分和真實(shí)評(píng)分之間的誤差進(jìn)行模型訓(xùn)練。由于模型的用戶和物品特征提取部分是對(duì)稱的,因此本文主要介紹用戶特征提取部分的具體過程。

        假設(shè)向量ui表示用戶i對(duì)所有物品的評(píng)分,向量vj表示所有用戶對(duì)物品j的評(píng)分,xi表示用戶i的輔助信息,yj表示物品j的輔助信息。

        1)將評(píng)分向量ui和用戶輔助向量xi拼接得到向量s,將其作為半自動(dòng)編碼器的輸入層。

        2)向量s經(jīng)過半自動(dòng)編碼器進(jìn)行編碼得到中間層向量h,然后由h重構(gòu)輸入層的用戶對(duì)物品的歷史評(píng)分子集得到輸出層,這部分的損失函數(shù)如式(7)所示:

        3)使用一個(gè)映射矩陣M1將中間層h映射到用戶的隱含向量上,這樣在模型訓(xùn)練時(shí)可通過反向傳播算法帶動(dòng)半自動(dòng)編碼器的更新,從而使得半自動(dòng)編碼器的特征與矩陣分解模型相關(guān)聯(lián),實(shí)現(xiàn)聯(lián)合更新。使用映射矩陣實(shí)現(xiàn)聯(lián)合更新的優(yōu)勢(shì)在于聯(lián)合更新能同時(shí)根據(jù)半自動(dòng)編碼器的特征提取損失函數(shù)和矩陣分解損失函數(shù)進(jìn)行模型訓(xùn)練,取得更好的訓(xùn)練效果。

        將物品特征提取步驟添加至用戶特征提取過程中,就能得到本文Semi-Autoencoder MF 模型的完整結(jié)構(gòu)。Semi-Autoencoder MF 模型的損失函數(shù)定義如式(8)所示:

        在式(8)中,等式右邊的第1 項(xiàng)代表矩陣分解模型的損失函數(shù),第2 項(xiàng)和第3 項(xiàng)分別代表使用半自動(dòng)編碼器提取用戶特征和物品特征的損失函數(shù),第4 項(xiàng)和第5 項(xiàng)是將提取的用戶和物品特征分別映射到矩陣分解模型的隱式向量上的損失函數(shù),第6項(xiàng)代表正則項(xiàng)。由于各函數(shù)都為凸函數(shù),因此式(8)會(huì)收斂于全局最優(yōu)解。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集與設(shè)置

        為驗(yàn)證本文算法的有效性,選取MovieLens-100K和Book-Crossing兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。MovieLens-100K和Book-Crossing 是評(píng)估協(xié)同過濾推薦算法的常用數(shù)據(jù)集,其中,MovieLens-100K 數(shù)據(jù)集的評(píng)分值為[1,5]的整數(shù),Book-Crossing 數(shù)據(jù)集的評(píng)分值為[0,10]的整數(shù)。這兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示。

        表1 MovieLens-100K 和Book-Crossing 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistical information of MovieLens-100K and Book-Crossing datasets

        本文從用戶和物品的輔助信息中提取相關(guān)特征,輔助信息的具體構(gòu)成如表2 所示。對(duì)于MovieLens-100K 數(shù)據(jù)集,本文將用戶輔助信息和物品輔助信息分別編碼成30 維和39 維的multi-hot 向量;對(duì)于Book-Crossing 數(shù)據(jù)集,本文將用戶輔助信息和物品輔助信息分別編碼成10 維和32 維的multihot 向量。本文分別隨機(jī)采樣原始數(shù)據(jù)集的80%和90%數(shù)據(jù)項(xiàng)作為訓(xùn)練集,剩余數(shù)據(jù)項(xiàng)作為測(cè)試集。同時(shí),使用均方根誤差(Root Mean Square Error,RMSE)作為評(píng)價(jià)指標(biāo)評(píng)估推薦效果。

        表2 MovieLens-100K 和Book-Crossing 數(shù)據(jù)集的輔助信息Table 2 Auxiliary information of MovieLens-100K and Book-Crossing datasets

        3.2 算法性能對(duì)比

        為驗(yàn)證Semi-Autoencoder MF 算法的有效性,將其與以下推薦算法進(jìn)行對(duì)比:

        1)Biased SVD[18]:該算法是在基礎(chǔ)MF 算法上融合偏置項(xiàng),提升了推薦準(zhǔn)確性。

        2)概率矩陣分解(Probabilistic Matrix Factorization,PMF)[19]:該算法是在基礎(chǔ)MF 算法上引入概率模型做了進(jìn)一步優(yōu)化,其假設(shè)用戶和物品的隱含向量與用戶對(duì)物品的評(píng)分服從高斯分布。

        3)SVD++[20]:該算法是Biased SVD 的變種算法,在Biased SVD 模型中融入隱式信息,通過用戶交互物品表示用戶偏好。

        4)U-AutoRec[13]:該算法是基于自動(dòng)編碼器結(jié)構(gòu)范式的新型協(xié)同過濾推薦算法,其將添加隨機(jī)噪聲的評(píng)分矩陣的每一列作為輸入層,然后重構(gòu)此列進(jìn)而得到評(píng)分矩陣中的缺失值。

        5)DCF[16]:該算法是一種基于概率矩陣分解和邊際降噪自編碼器的混合推薦算法。

        在Semi-Autoencoder MF 算法與上述推薦算法的對(duì)比過程中,為保證公平性,基于用戶和物品隱含向量的協(xié)同過濾推薦算法(PMF、Biased SVD、SVD++、U-AutoRec 和DCF)中的隱含向量維度均設(shè)為20,每個(gè)實(shí)驗(yàn)重復(fù)5 次后取平均值作為最終實(shí)驗(yàn)結(jié)果。表3 和表4 分別為6 種算法在2 個(gè)數(shù)據(jù)集上采用80%和90%數(shù)據(jù)項(xiàng)的訓(xùn)練集的實(shí)驗(yàn)結(jié)果。

        表3 6 種算法在MovieLens-100K 數(shù)據(jù)集上的RMSE 比較Table 3 RMSE comparison of six algorithms on MovieLens-100K dataset

        表4 6 種算法在Book-Crossing 數(shù)據(jù)集上的RMSE 對(duì)比Table 4 RMSE comparison of six algorithms on the Book-Crossing dataset

        由表3 和表4 的實(shí)驗(yàn)結(jié)果可以看出:1)Semi-Autoencoder MF 和 DCF 比 PMF、Biased SVD、SVD++和U-AutoRec 的推薦效果更好,這說明將輔助信息融入矩陣分解模型能提升推薦性能;2)Semi-Autoencoder MF 比DCF 推薦效果更好,這說明使用半自動(dòng)編碼器提取用戶和物品的輔助信息特征并融入矩陣分解模型中有助于提升推薦效果。

        3.3 超參數(shù)對(duì)算法性能的影響分析

        3.3.1 不同隱含向量維度的實(shí)驗(yàn)結(jié)果

        為驗(yàn)證隱含向量維度對(duì)性能的影響,本文對(duì)比Semi-Autoencoder MF 和相關(guān)對(duì)比算法在不同隱含向量維度下的實(shí)驗(yàn)結(jié)果。本文將隱含向量維度分別設(shè)置為10、20、40 和80,在MovieLens-100K 和Book-Crossing 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖3、圖4 所示。

        圖3 在MovieLens-100K 數(shù)據(jù)集上不同隱含向量維度的RMSE 對(duì)比Fig.3 RMSE comparison of different hidden vector dimensions on the MovieLens-100K dataset

        圖4 在Book-Crossing 數(shù)據(jù)集上不同隱含向量維度的RMSE 對(duì)比Fig.4 RMSE comparison of different hidden vector dimensions on the Book-Crossing dataset

        由圖3、圖4可以看出,隨著隱含向量維度的增大,各種算法的RMSE 都呈現(xiàn)下降趨勢(shì),而Semi-Autoencoder MF算法在有關(guān)隱含向量維度實(shí)驗(yàn)中的RMSE都優(yōu)于其他對(duì)比算法,充分說明了其性能的優(yōu)越性。

        3.3.2 不同β值的實(shí)驗(yàn)結(jié)果

        Semi-Autoencoder MF 模型主要由矩陣分解部分及用戶和物品特征提取部分組成。β值在Semi-Autoencoder MF 模型中的作用是調(diào)節(jié)用戶、物品特征提取部分的損失函數(shù)對(duì)整個(gè)模型損失函數(shù)的影響。為觀察特征提取部分對(duì)推薦性能的影響,本文對(duì)不同β值下的Semi-Autoencoder MF 算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖5、圖6 所示。由圖5、圖6 可以看出,不同β值對(duì)實(shí)驗(yàn)結(jié)果具有不同影響。當(dāng)β=0 時(shí),Semi-Autoencoder MF 模型就退化為普通矩陣分解模型。在MovieLens-100K 數(shù)據(jù)集上,當(dāng)β=0.1 時(shí)Semi-Autoencoder MF 算法性能最佳,在Book-Crossing 數(shù)據(jù)集上,當(dāng)β=0.05 時(shí)Semi-Autoencoder MF 算法性能最佳。

        圖5 在MovieLens-100K 數(shù)據(jù)集上不同β 值的RMSE 對(duì)比Fig.5 RMSE comparison of different β values on the MovieLens-100K dataset

        圖6 在Book-Crossing 數(shù)據(jù)集上不同β 值的RMSE 對(duì)比Fig.6 RMSE comparison of different β values on the Book-Crossing dataset

        4 結(jié)束語

        本文提出一種基于半自動(dòng)編碼器的協(xié)同過濾推薦算法Semi-Autoencoder MF。利用半自動(dòng)編碼器良好的特征提取能力對(duì)用戶和物品的輔助信息進(jìn)行特征提取,將半自動(dòng)編碼器和矩陣分解模型通過反向傳播算法進(jìn)行聯(lián)合更新。在MovieLens-100K 和Book-Crossing 公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了Semi-Autoencoder MF 算法的有效性。后續(xù)可將視覺、文本等領(lǐng)域的模態(tài)特征融入Semi-Autoencoder MF 算法中,進(jìn)一步提升推薦效果。

        猜你喜歡
        編碼器特征提取物品
        稱物品
        “雙十一”,你搶到了想要的物品嗎?
        誰動(dòng)了凡·高的物品
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于FPGA的同步機(jī)軸角編碼器
        Bagging RCSP腦電特征提取算法
        基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        找物品
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        狠狠躁夜夜躁人人躁婷婷视频| 日本一区二区三区精品不卡| 亚州av高清不卡一区二区| 国产成人精品久久亚洲高清不卡 | 亚洲高清中文字幕精品不卡 | 无码人妻精品一区二区在线视频| 国产a级午夜毛片| 一本久久a久久精品综合| 激情在线一区二区三区视频| 日韩欧美成人免费观看| 在线观看免费人成视频| 色中文字幕视频在线观看| 国产91色综合久久免费| 日韩人妻无码精品久久久不卡| 欧美一区波多野结衣第一页| 国产一区二区三区影片| 人妻少妇中文字幕久久| 国产熟妇按摩3p高潮大叫| 国产91在线免费| 久久最黄性生活又爽又黄特级片 | 国产h视频在线观看| 亚洲国产18成人中文字幕久久久久无码av| 一区二区高清视频在线观看| 丰满少妇在线播放bd| 中国丰满熟妇xxxx性| 免费看一级a女人自慰免费| 亚洲一区二区视频免费看| 人成午夜大片免费视频77777| 日本不卡在线视频二区三区| 亚洲成AV人片在一线观看| 日本最新视频一区二区| 无码成人一区二区| 国产精品高潮无码毛片| 中文字幕人妻激情在线视频| 国产精品区一区二区三在线播放 | 一区二区午夜视频在线观看| 日本人妻免费在线播放| 精品日产卡一卡二卡国色天香| 国产精品成人av在线观看| 亚洲国产免费公开在线视频| 亚洲国产精品成人av网|