亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于文本卷積神經(jīng)網(wǎng)絡(luò)的推薦算法

        2020-10-16 04:35:24王月海豆震澤
        計(jì)算機(jī)與現(xiàn)代化 2020年10期
        關(guān)鍵詞:特征用戶(hù)

        楊 輝,王月海,豆震澤

        (北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

        0 引 言

        隨著云時(shí)代的到來(lái),電子商務(wù)、在線新聞和社交媒體數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),據(jù)IDC預(yù)測(cè),到2020年全球?qū)碛?5 ZB的數(shù)據(jù)量[1]。這些海量的數(shù)據(jù)給人類(lèi)社會(huì)帶來(lái)了變革性的發(fā)展,但同時(shí)帶來(lái)了“信息過(guò)載”和“長(zhǎng)尾效應(yīng)”問(wèn)題,如何從這些紛繁復(fù)雜的數(shù)據(jù)中獲取有價(jià)值的信息,成為當(dāng)今大數(shù)據(jù)處理的難題。推薦系統(tǒng)作為解決這些問(wèn)題的方法之一發(fā)揮著關(guān)鍵的作用,但同時(shí)也面臨一些問(wèn)題,比如用戶(hù)對(duì)物品評(píng)級(jí)稀疏性的不斷增加,以及如何去處理這些海量數(shù)據(jù),這些都是影響推薦系統(tǒng)質(zhì)量的主要因素。

        協(xié)同過(guò)濾是推薦算法中最成功的算法之一,特別是基于模型的協(xié)同過(guò)濾算法因?yàn)槠淇蓴U(kuò)展性強(qiáng)、精確、可以比較好地處理稀疏問(wèn)題而得到大量的研究[2]。

        傳統(tǒng)的矩陣模型是協(xié)同過(guò)濾算法中的一種比較常見(jiàn)的建模方法。它是將原來(lái)的評(píng)分矩陣,近似地分解成2個(gè)小矩陣的乘積,將用戶(hù)和物品的特征分別映射到各自的潛在空間中。在實(shí)際推薦中不再使用原來(lái)的大矩陣分析,而是用這2個(gè)帶有用戶(hù)特征和物品特征的小矩陣進(jìn)行推薦。因?yàn)榫仃嚪纸饽P偷暮?jiǎn)單和可拓展性,其得到了廣泛的研究。隨之涌現(xiàn)出了大量相關(guān)的算法,如比較經(jīng)典的LFM算法,因?yàn)樗灰笞兂?個(gè)矩陣,從而避開(kāi)了需要填充稀疏性矩陣的問(wèn)題。雖然此方法比較簡(jiǎn)潔,但效果一般,原因是考慮的信息太少,無(wú)法學(xué)習(xí)到用戶(hù)與項(xiàng)目間的深層次特征。之后Koren等人考慮到用戶(hù)評(píng)分偏好問(wèn)題,比如一些用戶(hù)習(xí)慣性打低分,這些錯(cuò)誤的偏好會(huì)對(duì)推薦的準(zhǔn)確度有很大影響?;诖?,Koren等人[3-4]在原來(lái)的矩陣上增加了用戶(hù)和用戶(hù)的偏置項(xiàng),即BiasSVD。但針對(duì)LFM算法出現(xiàn)的問(wèn)題仍沒(méi)有得到有效的解決,數(shù)據(jù)的高稀疏性和海量數(shù)據(jù)處理仍是推薦系統(tǒng)需迫切解決的難題。

        近年來(lái),神經(jīng)網(wǎng)絡(luò)被大量運(yùn)用于自然語(yǔ)言處理[5-6]、圖像處理[7]、語(yǔ)音識(shí)別[8]中,并取得了卓著的效果。深度學(xué)習(xí)不僅具有自學(xué)習(xí)的能力,而且具有強(qiáng)大的特征提取和組合能力,因而可以解決傳統(tǒng)矩陣分解的一些問(wèn)題,比如稀疏性、維度風(fēng)險(xiǎn)、計(jì)算量、不能有效提取特征信息、可解釋性等。基于此,深度學(xué)習(xí)被廣泛運(yùn)用到推薦系統(tǒng)中,成為近些年研究的熱點(diǎn)。

        為了解決數(shù)據(jù)高稀疏問(wèn)題,一些推薦算法考慮加入輔助信息來(lái)提高評(píng)級(jí)精確度。例如文獻(xiàn)[9]提出一種神經(jīng)協(xié)同過(guò)濾模型(NCF),加入用戶(hù)和物品ID信息。文獻(xiàn)[10]提出一種深度協(xié)同推薦,把項(xiàng)目?jī)?nèi)容和用戶(hù)行為信息結(jié)合起來(lái),通過(guò)使用深度學(xué)習(xí)技術(shù)深層次表達(dá)用戶(hù)特征,以此解決文本稀疏的問(wèn)題。文獻(xiàn)[11]提出卷積矩陣分解推薦模型,利用卷積網(wǎng)絡(luò)來(lái)提取文本中的信息。文獻(xiàn)[12]將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到推薦系統(tǒng)中,文獻(xiàn)[13]用長(zhǎng)短期記憶網(wǎng)絡(luò)來(lái)記憶以前特征,達(dá)到精準(zhǔn)推薦。

        卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于圖像分類(lèi)、目標(biāo)識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域[14],并取得了很好的效果。同樣地,在推薦領(lǐng)域,也需要一種復(fù)雜度不高、能夠高效地處理海量數(shù)據(jù)的網(wǎng)絡(luò),所以本文采用文本卷積神經(jīng)網(wǎng)絡(luò)來(lái)改進(jìn)Netflix推薦大賽冠軍Koren等人[3-4]的BiasSVD模型。本文將針對(duì)此算法做出改進(jìn),結(jié)合深度學(xué)習(xí)具有強(qiáng)大的從樣本中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力,以及能夠從多源異構(gòu)數(shù)據(jù)中進(jìn)行自動(dòng)學(xué)習(xí)的能力,采用詞嵌入結(jié)合前饋神經(jīng)網(wǎng)絡(luò)的方法和文本卷積神經(jīng)網(wǎng)絡(luò)組合來(lái)提取用戶(hù)和物品特征,最后采用神經(jīng)網(wǎng)絡(luò)并聯(lián)方式輸出預(yù)測(cè)評(píng)分項(xiàng)。本文算法經(jīng)實(shí)驗(yàn)表明在面臨極其稀疏的數(shù)據(jù)集,表現(xiàn)也比其它協(xié)同過(guò)濾算法要好,而且由于利用了用戶(hù)對(duì)物品的交互信息,從而有了可解釋性。本文算法在MovieLens-1M和MovieLens-10M數(shù)據(jù)集上進(jìn)行的廣泛對(duì)比評(píng)估表明,在RMSE和MAE指標(biāo)上有了很大的提升。

        本文工作主要如下:

        1)提出詞嵌入結(jié)合前饋神經(jīng)網(wǎng)絡(luò)方式和文本卷積神經(jīng)網(wǎng)絡(luò)組合來(lái)提取用戶(hù)和物品的描述信息和交互信息,可提高提取特征的能力。

        2)對(duì)BiasSVD算法進(jìn)行改進(jìn),成功地將該算法對(duì)用戶(hù)評(píng)分偏好的處理方式和本文算法結(jié)合起來(lái),可提高評(píng)級(jí)預(yù)測(cè)的精度。

        3)在MovieLens-1M和MovieLens-10M這2個(gè)真實(shí)的公開(kāi)數(shù)據(jù)集上做算法對(duì)比實(shí)驗(yàn),驗(yàn)證算法的可靠性。

        1 方法描述

        1.1 BiasSVD算法

        矩陣分解是通過(guò)物品評(píng)分矩陣來(lái)推斷表征用戶(hù)和物品特征的,因?yàn)橛脩?hù)和物品特征之間具有高度一致性,所以能夠進(jìn)行推薦。這些矩陣分解的方法能夠迅速流行起來(lái)源于它們有良好的可擴(kuò)展性和比較精確的特性,而且也為很多建模的實(shí)際情況提供了很大的靈活性。矩陣分解模型將用戶(hù)和項(xiàng)目特征映射到維度為ω的聯(lián)合潛在因子模型,設(shè)對(duì)每個(gè)項(xiàng)目i相關(guān)聯(lián)的向量qi∈Rω,每個(gè)用戶(hù)u相關(guān)聯(lián)的向量pu∈Rf,qi表示項(xiàng)目擁有的特性,消極的或積極的,而pu表示用戶(hù)對(duì)這些項(xiàng)目的感興趣程度,rui表示用戶(hù)對(duì)項(xiàng)目的評(píng)分,則其預(yù)測(cè)值為:

        (1)

        這個(gè)模型源于SVD,當(dāng)在處理稀疏的評(píng)分矩陣時(shí),傳統(tǒng)矩陣分解帶來(lái)不確定性,即會(huì)出現(xiàn)很大偏差,所以在計(jì)算時(shí)往往需要對(duì)評(píng)分矩陣進(jìn)行填充。然而遇到大量數(shù)據(jù)時(shí)這種方法既費(fèi)時(shí)又不容易實(shí)現(xiàn),而且處理較少項(xiàng)目時(shí)還容易過(guò)擬合,所以出現(xiàn)了改進(jìn)版本:

        (2)

        其中,l表示數(shù)據(jù)集,λ為控制正則化程度的參數(shù),采用隨機(jī)梯度下降優(yōu)化參數(shù):

        誤差項(xiàng):

        (3)

        按梯度下降對(duì)qi和pu進(jìn)行優(yōu)化:

        qi←qi+γ(euipu-λqi)

        (4)

        pu←pu+γ(euiqi-λpu)

        (5)

        其中,γ為學(xué)習(xí)速率。因?yàn)榇嬖谟脩?hù)偏好問(wèn)題,這些因素的存在都嚴(yán)重影響了最后結(jié)果的精確性。例如,假設(shè)所有電影的平均評(píng)分為3.2分,即式(6)中的μ,小明是個(gè)挑剔的人,他傾向于對(duì)電影的評(píng)分要比電影平均評(píng)分低0.5分,即式(6)中的bu,而《泰坦尼克號(hào)》是一部很好的電影,它的評(píng)分要比平均評(píng)分高1.3分,那么bui=3.2-0.5+1.3=4,因此估計(jì)小明對(duì)《泰坦尼克號(hào)》的評(píng)分為4分。所以就有了顯式隔離項(xiàng):

        bui=μ+bi+bu

        (6)

        其中,μ表示全局偏移量或平均評(píng)分,bi表示與項(xiàng)目有關(guān)的偏移項(xiàng),bu表示與用戶(hù)有關(guān)的偏移項(xiàng)。所以式(2)可以改寫(xiě)為:

        (7)

        由于偏差往往能捕捉到大部分觀測(cè)到的信號(hào),因此它們的精確建模至關(guān)重要。因此,其他研究提供了更精細(xì)的偏見(jiàn)模型[3-4]。

        1.2 深度學(xué)習(xí)與BiasSVD算法的結(jié)合

        圖1 本文算法模型流程圖

        (8)

        最后經(jīng)過(guò)Adam算法優(yōu)化:

        (9)

        得到電影特征矩陣和用戶(hù)特征矩陣后用Top-N[16]推薦。

        2 實(shí)驗(yàn)分析

        2.1 數(shù)據(jù)分析

        本文實(shí)驗(yàn)采用MovieLens數(shù)據(jù)集,MovieLens數(shù)據(jù)集包含多個(gè)用戶(hù)對(duì)多部電影的評(píng)級(jí)數(shù)據(jù),也包括電影元數(shù)據(jù)信息和用戶(hù)屬性信息。這個(gè)數(shù)據(jù)集經(jīng)常用來(lái)做推薦系統(tǒng),機(jī)器學(xué)習(xí)算法的測(cè)試數(shù)據(jù)集,尤其在推薦系統(tǒng)領(lǐng)域,很多推薦算法文獻(xiàn)都是基于這個(gè)數(shù)據(jù)集的[2-4,17-20]。

        表1與表2分別給出了MovieLens數(shù)據(jù)集MovieLens-1M和MovieLens-10M的數(shù)據(jù)分布。

        表2 MovieLens-10M數(shù)據(jù)集情況

        如圖2所示,在對(duì)MovieLens整個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析時(shí),發(fā)現(xiàn)用戶(hù)評(píng)分隨著年齡的增長(zhǎng)呈現(xiàn)遞增趨勢(shì),這表明在此數(shù)據(jù)集上年齡越大對(duì)電影的評(píng)分標(biāo)準(zhǔn)越低。為了使算法對(duì)用戶(hù)的情感分析更加精準(zhǔn),所以在提取特征時(shí)加上了年齡因素這個(gè)隱性特征。

        圖2 用戶(hù)年齡—評(píng)分情況

        如圖3所示,在對(duì)電影年代和用戶(hù)評(píng)分之間進(jìn)行統(tǒng)計(jì)分析時(shí),發(fā)現(xiàn)用戶(hù)評(píng)分隨著電影年代的遞增呈現(xiàn)遞減趨勢(shì),這表明在MovieLens整個(gè)數(shù)據(jù)集上大量用戶(hù)可能更青睞于年代久一點(diǎn)的電影。這些都是影響用戶(hù)評(píng)分的因素,所以在對(duì)算法進(jìn)行評(píng)估時(shí)也加上了這一隱性特征。

        圖3 電影年代—評(píng)分情況

        2.2 評(píng)價(jià)指標(biāo)

        本節(jié)給出評(píng)價(jià)指標(biāo):均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)經(jīng)常被各種推薦系統(tǒng)用來(lái)評(píng)價(jià)系統(tǒng)優(yōu)良的指標(biāo)[2-3,11,17-19,21-23],百度、Netflix、阿里巴巴等公司舉辦的推薦系統(tǒng)大賽也用此指標(biāo)。

        (10)

        MAE測(cè)量的是預(yù)測(cè)值和實(shí)際值之間的差值的絕對(duì)值。

        (11)

        2.3 實(shí)驗(yàn)結(jié)果與分析

        將本文算法與7種常用的算法進(jìn)行比較,這7種算法分別是:

        2)SVD++。Koren[3]在2010年將顯式反饋和隱式反饋集成到一個(gè)模型中,在當(dāng)時(shí)實(shí)現(xiàn)了最先進(jìn)的性能。

        3)CDL (Collaborative Deep Learning)。Wang等人[10]在2015年發(fā)現(xiàn)利用輔助信息可解決用戶(hù)對(duì)評(píng)分矩陣的稀疏問(wèn)題,而協(xié)作主題回歸表現(xiàn)得更好。

        4)MLP (Multi-layered Perceptron)。He等人[9]在2017年將基于多層感知機(jī)網(wǎng)絡(luò)加上ReLU激活函數(shù),用于推薦。

        5)ConvMF (Convolutional MF)。Kim等人[11]在2016年將卷積神經(jīng)網(wǎng)絡(luò)(CNN)集成到概率矩陣分解的算法。

        6)NeuMF (Neural Matrix Factorization)。He等人[9]在2017年結(jié)合多層感知機(jī)MLP和廣義矩陣分解GMF得到的算法。

        7)LSTM模型。Yu等人[2]在2019年利用LSTM(長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò))增強(qiáng)系統(tǒng)的可靠性。

        由表3可以得到,在MovieLens-1M數(shù)據(jù)集上本文算法的RMSE較最先進(jìn)的LSTM算法提升約19.75%以上,MAE約提升17.82%以上。表中提升比例的計(jì)算方法為:(LSTM算法值-本文算法值)/LSTM算法值。

        表3 MovieLens-1M數(shù)據(jù)集上各算法的RMSE與MAE

        在表4中本文對(duì)用戶(hù)與物品的交互信息tags做了處理,結(jié)果本文算法較LSTM算法的RMSE約提升35.6%以上,MAE約提升47.4%以上,可以得出用戶(hù)與物品的交互信息在給用戶(hù)推薦時(shí)起到非常重要的作用。

        表4 MovieLens-10M數(shù)據(jù)集上各算法的RMSE和MAE

        由表3與表4可以看出ConvMF算法表現(xiàn)較好,且與本文算法較為類(lèi)似,也比較易于實(shí)現(xiàn),故在圖4中將本文的改進(jìn)算法與ConvMF算法在MovieLens-1M數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。其中Epochs在深度學(xué)習(xí)中表示全數(shù)據(jù)集迭代次數(shù)。

        圖4 本文算法與ConvMF算法在MovieLens-1M數(shù)據(jù)集上

        由圖4可以明顯地看出,在預(yù)測(cè)觀眾喜好的準(zhǔn)確性上,本文對(duì)BiasSVD算法改進(jìn)的算法要明顯優(yōu)于ConvMF算法。

        為了使實(shí)驗(yàn)結(jié)果更具說(shuō)服力,本文分別對(duì)神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)與學(xué)習(xí)速率進(jìn)行了實(shí)驗(yàn),如圖5與圖6所示。

        圖5 本文算法在不同數(shù)據(jù)集上不同迭代次數(shù)時(shí)

        圖6 本文算法在不同數(shù)據(jù)集上不同學(xué)習(xí)速率時(shí)

        在圖5與圖6中可以看到學(xué)習(xí)速率對(duì)算法的影響明顯,MovieLens-1M和MovieLens-10M數(shù)據(jù)集分別在學(xué)習(xí)速率為0.00001和0.001時(shí)達(dá)到最佳。

        通過(guò)大量實(shí)驗(yàn)驗(yàn)證,可以看到本文的算法在MovieLens-1M數(shù)據(jù)集上相較效果最好的LSTM算法的RMSE提升約19.75%以上,MAE提升約17.82%以上,在MovieLens-10M數(shù)據(jù)集上RMSE提升約35.6%以上,MAE提升約47.4%以上。綜上,可以得到,本文的算法在對(duì)用戶(hù)情感、喜好的理解程度比效果最好的ConvMF算法與LSTM算法要深,更能滿足用戶(hù)的需求。

        3 結(jié)束語(yǔ)

        傳統(tǒng)的矩陣分解算法因?yàn)橹皇呛?jiǎn)單地將物品與用戶(hù)矩陣作內(nèi)積,不能有效地提取用戶(hù)與物品特征,卷積矩陣分解ConvMF與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM先后對(duì)其改進(jìn),但對(duì)用戶(hù)與物品文檔上下文理解不夠,導(dǎo)致評(píng)級(jí)預(yù)測(cè)精度較差,本文提出用詞嵌入結(jié)合前饋神經(jīng)網(wǎng)絡(luò)和文本卷積神經(jīng)網(wǎng)絡(luò)組合來(lái)提取特征的方法對(duì)BiasSVD算法進(jìn)行改進(jìn)。在MovieLens的2個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)本文算法評(píng)級(jí)預(yù)測(cè)更加準(zhǔn)確,驗(yàn)證了用戶(hù)對(duì)物品的交互信息更加能反映用戶(hù)的喜好,所以基于深度學(xué)習(xí)的用戶(hù)和物品信息的提取仍然值得深入研究。

        猜你喜歡
        特征用戶(hù)
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        Camera360:拍出5億用戶(hù)
        100萬(wàn)用戶(hù)
        97SE亚洲国产综合自在线不卡| 国产人妖伦理视频在线观看| 日韩精品视频在线观看无| 国产美女精品视频线免费播放软件| 国产男女猛烈无遮挡免费网站 | 天天干夜夜躁| 国产成人久久精品二区三区| 国产人妖xxxx做受视频| 亚洲精品成人一区二区三区| 人妻少妇-嫩草影院| 久久综合久久鬼色| 亚洲高清有码在线观看| 免费蜜桃视频在线观看| 日本真人边吃奶边做爽电影| 久久男人av资源网站无码| 中文字幕第一页亚洲观看| 亚洲国产一区二区,毛片| 在线观看av片永久免费| 处破痛哭a√18成年片免费| 久久久高清免费视频| 日本a爱视频二区三区| 亚洲一区二区三区四区五区六| 国产三级在线观看播放视频| 久久青草亚洲AV无码麻豆| 亚洲女人毛茸茸的视频| 人妻精品久久久久中文字幕69| 无码精品人妻一区二区三区影院| 国产毛片网| 亚洲日本视频一区二区三区| 一区二区黄色素人黄色| 日韩 亚洲 制服 欧美 综合| 免费国产裸体美女视频全黄 | 在办公室被c到呻吟的动态图| 欧美艳星nikki激情办公室| 国产激情在观看| 在线观看国产自拍视频| 中文字幕人妻熟女人妻| 夜色阁亚洲一区二区三区 | 中文字幕亚洲精品一二三区 | 亚洲av无码日韩av无码网站冲| 99久久综合精品五月天|