亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于難分樣本挖掘的對抗自編碼器推薦系統(tǒng)

        2021-01-07 04:56:10孫靜宇
        計(jì)算機(jī)測量與控制 2020年12期
        關(guān)鍵詞:編碼器重構(gòu)神經(jīng)網(wǎng)絡(luò)

        魏 東,孫靜宇,海 洋

        (太原理工大學(xué) 軟件學(xué)院,太原 030024)

        0 引言

        傳統(tǒng)的推薦算法大致可分為3類:基于內(nèi)容推薦、協(xié)同過濾推薦和混合推薦[1]。其中協(xié)同過濾算法因其在處理非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)越性,在時(shí)下的推薦系統(tǒng)中得到廣泛應(yīng)用和關(guān)注。經(jīng)過學(xué)術(shù)界和工業(yè)界多年的探索和研究,推薦算法經(jīng)歷了從傳統(tǒng)的矩陣分解等方法到現(xiàn)今的與深度學(xué)習(xí)技術(shù)結(jié)合的發(fā)展歷程。

        深度學(xué)習(xí)旨在模擬、建立人腦進(jìn)行分析學(xué)習(xí)活動(dòng)的神經(jīng)網(wǎng)絡(luò),其模型是一種深層非線性網(wǎng)絡(luò),可以獲取比傳統(tǒng)算法更深層次的數(shù)據(jù)本質(zhì)特征。近些年,深度學(xué)習(xí)在圖像處理[2]、語音識別[3]以及自然語言處理[4]等領(lǐng)域都取得了很多成果[5],成為了人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),同時(shí)也為推薦系統(tǒng)的研究帶來了新的機(jī)遇?;谏疃葘W(xué)習(xí)的推薦系統(tǒng)通常將各類用戶和項(xiàng)目相關(guān)的數(shù)據(jù)作為輸入,利用深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和訓(xùn)練,最終自動(dòng)為用戶輸出個(gè)性化的推薦結(jié)果[6]。

        本文提出了一種結(jié)合難分樣本挖掘(HEM,hard example mining)和對抗自編碼器[7](AAE,adversarial autoencoder)的深度推薦模型(HEM-AAE)。難分樣本挖掘采用三元損失算法對項(xiàng)目進(jìn)行分類,以此來解決評分?jǐn)?shù)據(jù)分布不平衡和稀疏性問題。將不同類別的項(xiàng)目輸入對抗自編碼器的訓(xùn)練過程,可以從兩方面優(yōu)化推薦模型。在此基礎(chǔ)上通過訓(xùn)練好的模型預(yù)測目標(biāo)用戶的項(xiàng)目評分,使用TOP-N算法選擇預(yù)測評分最高的項(xiàng)目推薦給用戶。

        1 難分樣本挖掘

        推薦系統(tǒng)研究中常用數(shù)據(jù)集數(shù)據(jù)分布不平衡,稀疏問題較嚴(yán)重,影響了推薦系統(tǒng)性能穩(wěn)定性。雖然評分范圍固定,但是用戶評分基于個(gè)人主觀認(rèn)知,用戶評分標(biāo)準(zhǔn)、偏好不同加劇了數(shù)據(jù)樣本復(fù)雜性。所以用戶偏好挖掘尤為重要,故本文引入均模型(Mean Model)對數(shù)據(jù)集做難分樣本挖掘(Hard Negative Mining)預(yù)處理[10]。

        1.1 均模型

        由于推薦系統(tǒng)中的常用數(shù)據(jù)集稀疏性較高,對計(jì)算機(jī)資源消耗較大,故引入均模型[16]。均模型生成過程類似于排序二叉樹,可以在保留數(shù)據(jù)統(tǒng)計(jì)學(xué)特征的情況下極大緩解數(shù)據(jù)稀疏性,如圖1所示。

        圖1 均模型結(jié)構(gòu)示意圖

        假設(shè)項(xiàng)目評分向量I={r1,r2,,rm},經(jīng)過變換,得到此向量的均模型表示為:

        IMM={t0,(t10,t11), (t20,t21,t22,t23), (t30,t31,),}

        (1)

        其中:t0為均模型的根節(jié)點(diǎn),(t10,t11)為均模型第二層的第一和第二個(gè)元素,tlk表示第l層的第k-1個(gè)結(jié)點(diǎn)。結(jié)點(diǎn)生成過程如公式(2):

        tlk=Tl(Il)

        (2)

        其中:Tl(*)為第l層的轉(zhuǎn)換公式(3):

        (3)

        當(dāng)k為奇數(shù)時(shí),Il={ri∈I|ri>t(l-1)g};k為偶數(shù)時(shí),Il={ri∈I|ri≤t(l-1)g},g的值為:g=|k/2|。在實(shí)際應(yīng)用中,可以根據(jù)需求靈活調(diào)整均模型規(guī)模,一般只需三層即可。

        1.2 三元損失算法

        (4)

        其中:α是一個(gè)常量,表示正負(fù)樣本對訓(xùn)練的邊界值。難分樣本挖掘代價(jià)函數(shù)如公式(5)所示:

        (5)

        代價(jià)函數(shù)采用歐氏距離度量評分向量間距離,故公式(5)恒大于零,當(dāng)[*]大于0時(shí),規(guī)定其為損失函數(shù)的損失之;[*]小于0時(shí),規(guī)定損失值為0。

        2 基于難分樣本挖掘的變分自編碼器

        HEM-AAE系統(tǒng)框架如圖2所示。

        圖2 基于HEM-AAE的推薦系統(tǒng)框架

        其中AAE由自編碼器[8](AE,autoencoder)和生成式對抗網(wǎng)絡(luò)[9](GAN,generative adversarial networks)兩部分組成。自編碼器主要由編碼模型encoder和解碼模型decoder構(gòu)成;對抗網(wǎng)絡(luò)由生成模型G和判別模型D構(gòu)成。首先,采用三元組損失算法對數(shù)據(jù)集進(jìn)行難分樣本挖掘,經(jīng)過分類的正、負(fù)樣本放入樣本候選池;再將正樣本和負(fù)樣本分別作為自編碼器encoder和對抗網(wǎng)絡(luò)生成模型G的輸入,分別產(chǎn)生正樣本隱表示和偽造正樣本隱表示;自編碼器的decoder根據(jù)encoder生成的正樣本隱表示重構(gòu)用戶評分;判別模型D辨別正樣本隱表示和偽造正樣本隱表示。

        2.1 自編碼器

        自編碼器是一種使用誤差反向傳播算法(BP,back propagation)進(jìn)行訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)可簡化為如圖3所示[11]。

        圖3 自編碼器結(jié)構(gòu)圖

        自編碼器神經(jīng)網(wǎng)絡(luò)由輸入層encoder,隱藏層和輸出層decoder構(gòu)成。通常隱藏層的維度遠(yuǎn)小于輸入層,輸出層的作用是重構(gòu)輸入層,使用重構(gòu)誤差(x,x′)來表示重構(gòu)的接近程度。其流程如圖4所示。

        圖4 自編碼器神經(jīng)網(wǎng)絡(luò)流程圖

        其中encoder將輸入INPUT進(jìn)行壓縮表示,decoder再將壓縮表示進(jìn)行還原。其數(shù)學(xué)表達(dá)式如式(5),φ和ε分別表示encoder和decoder。

        φ,ε=argminφ,εL(X,ε(φ(X)))

        (5)

        數(shù)據(jù)降維和特征提取被認(rèn)為是自編碼器的兩個(gè)主要實(shí)際應(yīng)用。使用適當(dāng)?shù)木S度和稀疏性約束,自編碼器可以得到比主成分分析或其他類似技術(shù)更好的數(shù)據(jù)投影。

        2.2 對抗自編碼器

        如果只通過最小化重構(gòu)誤差來訓(xùn)練模型,自編碼器極有可能學(xué)習(xí)到一個(gè)恒等函數(shù)[1],因此本文引入對抗自編碼器進(jìn)行“對抗”訓(xùn)練。如圖1所示,對抗自編碼器模型由自編碼器和對抗網(wǎng)絡(luò)兩部分組成。訓(xùn)練過程分為也可劃分為兩階段:重構(gòu)階段和正則化階段。本文中,對抗網(wǎng)絡(luò)的生成器G與自編碼器的編碼模型encoder使用同一個(gè)網(wǎng)絡(luò)。在重構(gòu)階段,自編碼器更新編碼模型encoder和解碼模型decoder以最小化重構(gòu)誤差。在正則化階段,判別器D辨別正樣本隱表示z+和生成器G生成的的負(fù)樣本隱表示z-,根據(jù)判別結(jié)果,交替更新生成器G和判別器D。對抗自編碼器的訓(xùn)練有兩個(gè)目標(biāo):最小化重構(gòu)誤差和達(dá)到對抗網(wǎng)絡(luò)的相對平衡,其損失函數(shù)如式(6):

        LAAE=ReonstructionLoss+AdversarialTraining

        (6)

        自編碼器的重構(gòu)輸出[12]如式(7)所示:

        h(r;θ)=f(W·g(Vr+μ)+b)

        (7)

        其中:g(*)使隱藏層的激活函數(shù),f(*)是輸出層的激活函,θ={W,V,μ,b},權(quán)重W∈Rm×k,V∈Rk×m,偏置μ∈Rk,b∈Rm。輸出層對應(yīng)位置元素被認(rèn)為是預(yù)測值,即:

        (8)

        損失函數(shù)如公式(9):

        (9)

        生成模型G使用負(fù)樣本作為輸入產(chǎn)生偽造正樣本,對判別器D進(jìn)行反向激勵(lì),使得判別器可以更好地識別正樣本;經(jīng)過優(yōu)化的判別器同時(shí)有利于優(yōu)化生成器,生成更好的偽造正樣本。對抗網(wǎng)絡(luò)的訓(xùn)練采用交替優(yōu)化方法,即固定G的參數(shù)以更新D的參數(shù),然后固定D的參數(shù)去更新G的參數(shù)。Goodfellow等[9]指出,將生成器G固定,可求得唯一的最優(yōu)判別器:

        固定判別器D,在pg=pdata時(shí),D*=0.5,此時(shí)生成器G達(dá)到最優(yōu),即判別器無法區(qū)分真實(shí)樣本和偽造樣本[17]。損失函數(shù)如公式(10):

        Ed~pφ(m|un)[ln(1-D(m|un))])

        (10)

        其中:m為訓(xùn)練集樣本,U表示用戶集合,un表示第n個(gè)用戶,φ和δ分別表示生成器G和判別器D的參數(shù)。首先更新判別器,使其最大化正確判別正樣本隱向量和偽造正樣本隱向量,如式(11)所示:

        Em+~ptrue,mg~Gφ(mg|un)[ln(1-Dδ(mg,m-|un))])

        (11)

        其中:m+,m-分別代表正樣本和負(fù)樣本,mg代表由G生成的偽造正樣本。與判別器D相反,生成器G最小化判別器D的正確判別概率。故生成模型G的優(yōu)化函數(shù)如式(12),M表示樣本集合。

        (12)

        在HEM-AAE中,對抗網(wǎng)絡(luò)和自編碼器均使用Adam優(yōu)化算法[13],即自適應(yīng)時(shí)刻估計(jì)方法進(jìn)行優(yōu)化訓(xùn)練。Adam優(yōu)化算法是一種一階優(yōu)化算法。與隨機(jī)梯度下降法等優(yōu)化方法最大的區(qū)別在于:通過計(jì)算梯度的一階和二階矩估計(jì),Adam算法為每個(gè)參數(shù)設(shè)計(jì)了獨(dú)立的學(xué)習(xí)率。更新過程如式(13)~(17):

        mt=β1*mt-1+(1-μ)*gt

        (13)

        (14)

        (15)

        (16)

        (17)

        表1 Adam算法參數(shù)的選取

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集

        HEM-AAE的encoder、decoder、生成器G和判別器D均采用單層神經(jīng)網(wǎng)絡(luò),隱藏層神經(jīng)元個(gè)數(shù)視不同數(shù)據(jù)集而不同(詳見3.2節(jié)),所有神經(jīng)網(wǎng)絡(luò)都使用Sigmoid激活函數(shù)。運(yùn)用Python編程語言,通過深度學(xué)習(xí)框架Tensorflow進(jìn)行神經(jīng)網(wǎng)絡(luò)的搭建;實(shí)驗(yàn)中的操作系統(tǒng)為Ubuntu 18.04 Lts,在NVIDIA GTX 1060 6G顯卡上運(yùn)行。

        本文采用GroupLens公開數(shù)據(jù)集MovieLens-100K、MovieLens-1M[18]來評估HEM-AAE的性能。只使用用戶ID,電影ID和評分信息,其中的每個(gè)用戶都有20個(gè)以上的評分記錄。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。實(shí)驗(yàn)共進(jìn)行5次,每次隨機(jī)選取數(shù)據(jù)集中的80%作為訓(xùn)練集,20%作為測試集,綜合5次實(shí)驗(yàn)結(jié)果的平均值得出結(jié)論。

        表2 MovieLens數(shù)據(jù)集統(tǒng)計(jì)信息

        3.2 隱藏層規(guī)模對算法的影響

        本節(jié)通過設(shè)置不同個(gè)數(shù)的隱藏層神經(jīng)單元來研究推薦準(zhǔn)確度受隱藏層規(guī)模對于HEM-AAE模型性能的影響,神經(jīng)元個(gè)數(shù)分別為[10, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600],測試結(jié)果如圖5所示。

        圖5 隱藏層規(guī)模對HEM-AAE性能的影響

        基于測試結(jié)果可以發(fā)現(xiàn):數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)規(guī)模越大,最佳神經(jīng)元值也越大。隨著神經(jīng)元個(gè)數(shù)的增加,平均絕對誤差迅速減小,但當(dāng)其超過某個(gè)值后,誤差又開始增大。對于不同的數(shù)據(jù)集,神經(jīng)元個(gè)數(shù)需要經(jīng)過調(diào)試找到最佳值。規(guī)模越大的網(wǎng)絡(luò)過擬合的風(fēng)險(xiǎn)也越大,所以并不是越大越好?;跍y試結(jié)果,分別為數(shù)據(jù)集MovieLens-100K、MovieLens-1M選定的隱層神經(jīng)元個(gè)數(shù)為100和400。

        3.3 性能評價(jià)指標(biāo)

        本文預(yù)測的是目標(biāo)用戶對待定預(yù)測產(chǎn)品的明確的評分,選用平均絕對誤差(MAE,mean absolute error)、準(zhǔn)確率(precision)和NDCG(normalized discounted cumulative gain)。

        檢測預(yù)測準(zhǔn)確度,MAE越小,說明算法的預(yù)測準(zhǔn)確度越高。定義如下:

        (18)

        準(zhǔn)確率表示推薦算法的準(zhǔn)確性,值越高說明推薦的準(zhǔn)確性越高,對于用戶u在生成的推薦的準(zhǔn)確率公式為:

        (19)

        其中:R(u)是訓(xùn)練完畢后為用戶u做出的推薦結(jié)果,T(u)是用戶u在測試集上的真實(shí)結(jié)果。

        NDCG是一種衡量推薦算法產(chǎn)生的推薦結(jié)果的排序質(zhì)量的評價(jià)指標(biāo),該指標(biāo)考慮到元素之間的相關(guān)性,值越高說明推薦結(jié)果的排序質(zhì)量越好。對于推薦結(jié)果中的第i個(gè)結(jié)果qi,其NDCG值為:

        (20)

        本文選擇對比的算法有包括:

        1)PMF[14]:概率矩陣分解是將用戶物品評價(jià)矩陣分解為用戶因子和物品因子,其中假設(shè)用戶和物品的隱向量服從高斯分布。正則化參數(shù)λu,λv設(shè)置為0.01和0.002時(shí),PMF推薦性能最好。

        2)PCMM[15],使用據(jù)模型將整體用戶集聚類成多個(gè)用戶子集,然后在整體上和局部上計(jì)算相似度,利用整合后的相似度預(yù)測評分。

        3)IRGAN[16],信息檢索生成對抗網(wǎng)絡(luò)是首個(gè)基于生成對抗學(xué)習(xí)模型的推薦系統(tǒng)。

        4)DeepFM[11],由深度神經(jīng)網(wǎng)絡(luò)和因子分解機(jī)組成,可以同時(shí)提取到低階組合特征與高階組合特征。

        3.4 結(jié)果比較與分析

        具體實(shí)驗(yàn)結(jié)果如表3、表4和表5所示,由表中實(shí)驗(yàn)數(shù)據(jù)可知,HEM-AAE在各項(xiàng)數(shù)據(jù)上都相較于PMF、PCMM和IRGAN都有明顯提升。

        表3 各算法/模型在不同數(shù)據(jù)集上的MAE

        如表3所示,在評分預(yù)測平均絕對誤差方面,在兩個(gè)數(shù)據(jù)集中的測試中HEM-AAE的推薦質(zhì)量都有很大提高。表4實(shí)驗(yàn)結(jié)果和表5實(shí)驗(yàn)結(jié)果類似,分別是各算法/模型在MovieLens-100K和MovieLens-1M數(shù)據(jù)集上的準(zhǔn)確率和NDCG指標(biāo),可以看出HEM-AAE各項(xiàng)推薦性能指標(biāo)顯著提升,各算法/模型推薦性能降序序列:HEM-AAE> IRGAN> PCMM> PMF。

        表4 各算法/模型推薦性能比較(MovieLens-100K)

        表5 各算法/模型推薦性能比較(MovieLens-100K)

        4 結(jié)束語

        從實(shí)驗(yàn)結(jié)果來看,本文提出的HEM-AAE推薦模型有效提高了推薦精度。但是對于新用戶在沒有任何行為記錄時(shí),無法進(jìn)行推薦,冷啟動(dòng)問題依然存在。其次由于神經(jīng)網(wǎng)絡(luò)是一個(gè)黑盒子過程,無法合理解釋在反向傳播的過程中的具體細(xì)節(jié),所以此算法缺乏一定的可解釋性。本文使用的為單層神經(jīng)網(wǎng)絡(luò),對計(jì)算性能要求相對較小,而在工業(yè)界實(shí)際操作中,數(shù)據(jù)體量遠(yuǎn)遠(yuǎn)大于本文實(shí)驗(yàn)數(shù)據(jù),所以后期要在分布式集群上進(jìn)行數(shù)據(jù)運(yùn)算,這樣也可以獲得更準(zhǔn)確的結(jié)果。

        猜你喜歡
        編碼器重構(gòu)神經(jīng)網(wǎng)絡(luò)
        長城敘事的重構(gòu)
        攝影世界(2022年1期)2022-01-21 10:50:14
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        北方大陸 重構(gòu)未來
        基于FPGA的同步機(jī)軸角編碼器
        北京的重構(gòu)與再造
        商周刊(2017年6期)2017-08-22 03:42:36
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        論中止行為及其對中止犯的重構(gòu)
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
        電子器件(2015年5期)2015-12-29 08:42:24
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        91社区视频在线观看| 久久精品国产亚洲av果冻传媒| 色妞色视频一区二区三区四区| 人人妻人人澡人人爽欧美一区九九| 国产一女三男3p免费视频| 最近高清中文在线字幕观看| 亚洲国产精品悠悠久久琪琪| 国产一区二区三区特黄| 丰满少妇被啪啪到高潮迷轩| 亚洲精品色婷婷在线影院| 日本成本人三级在线观看 | 久久伊人影院| 色噜噜狠狠色综合欧洲| 日本久久一级二级三级| 国产精品熟女视频一区二区三区| 欧美激情乱人伦| 色拍自拍亚洲综合图区| 91av精品视频| 第九色区Aⅴ天堂| 日本熟妇中出高潮视频| 亚洲国产精品无码aaa片| 无码一区二区三区亚洲人妻| 日韩精品无码一区二区三区免费| 91精品久久久久含羞草| 蜜桃视频一区视频二区| 又黄又刺激的网站久久| 图片区小说区激情区偷拍区| 免费一区在线观看| 亚洲最黄视频一区二区| 亚洲av香蕉一区二区三区av| 免费无码精品黄av电影| 久久精品女人天堂av| 国产精品黄色片在线观看| 日韩伦理av一区二区三区| 亚洲av毛片在线免费观看| 又嫩又硬又黄又爽的视频| 国产欧美日韩在线观看| 人妻少妇精品无码系列| 一区二区三区高清视频在线| 无码人妻一区二区三区在线| 洗澡被公强奷30分钟视频|