亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力膠囊的深度因子分解機模型

        2021-11-14 08:23:16顧亦然姚朱鵬楊海根
        通信學報 2021年10期
        關(guān)鍵詞:正則物品注意力

        顧亦然,姚朱鵬,楊海根

        (1.南京郵電大學自動化學院、人工智能學院,江蘇 南京 210023;2.南京郵電大學智慧校園研究中心,江蘇 南京 210023;3.南京郵電大學寬帶無線通信技術(shù)教育部工程研究中心,江蘇 南京 210003)

        1 引言

        隨著互聯(lián)網(wǎng)時代的到來,計算機技術(shù)的高速發(fā)展使人們進入了一個信息爆炸的時代。面對海量的信息,用戶往往會花費大量的時間和精力去尋找自己所感興趣的物品,這就產(chǎn)生了信息過載問題,即實際存在的信息遠遠大于用戶所需要的。推薦系統(tǒng)通過用戶標簽、歷史行為、共同好友等因素對用戶進行推薦,從而增加用戶體驗。點擊率(CTR,click through rate)預測是推薦系統(tǒng)中最熱門的分支。推薦系統(tǒng)通過預測用戶點擊待推薦物品的概率,對待推薦列表進行排序,將預測概率最高的物品推薦給用戶,達到個性化推薦的目的。

        隨著信息越來越多,系統(tǒng)數(shù)據(jù)量也越來越大,傳統(tǒng)的廣義線性推薦模型由于訓練開銷大、特征交叉能力不足、學習能力弱等劣勢,逐漸無法勝任高準確率的推薦任務。為了提高CTR 模型的預測準確率,深度學習模型開始成為推薦模型的主流,主要以多層感知器(MLP,multi-layer perceptron)為核心。深度學習早期,研究人員主要通過改變神經(jīng)網(wǎng)絡的結(jié)構(gòu),構(gòu)建特點各異的推薦模型。Sedhain 等[1]設計了一種單隱層神經(jīng)網(wǎng)絡,將自編碼器和協(xié)同過濾相結(jié)合,利用協(xié)同過濾中的共現(xiàn)矩陣,學習用戶和物品的低維向量表示,進行預測評分。但是該模型結(jié)構(gòu)較為簡單,學習能力不足。He 等[2]提出了將深度神經(jīng)網(wǎng)絡與協(xié)同過濾相結(jié)合,該模型利用用戶向量和物品向量的Embedding 特征進行特征交叉來代替矩陣分解,解決矩陣分解易欠擬合的問題,但該模型是以協(xié)同過濾為核心的,所以特征選取較少,模型表達能力不足。Shan 等[3]提出的Deep Crossing模型是MLP&Embedding 的典型應用,多層殘差網(wǎng)絡進行多維度的特征組合,但是由于其純高階的結(jié)構(gòu)比較單一,無法滿足現(xiàn)實中復雜的推薦任務。

        CTR 預測任務中主要有2 種特征交互模式:淺層交互和深層交互[4]。淺層交互指的是那些明顯能看出有關(guān)聯(lián)的特征交互,比如下雨和雨傘、飲料和杯子等。而深層交互指的是那些并不容易看出來且需要進行深層次的分析才能找出關(guān)聯(lián)的特征交互,比如下雨和減肥。在現(xiàn)實的推薦系統(tǒng)中,用戶特征和物品特征往往十分復雜多樣,特征與特征之間的關(guān)聯(lián)也很難做到完美組合,為了提高模型的泛化能力,需要同時考慮淺層交互和深層交互[5]。對此,Guo 等[6]提出了深度因子分解機(DeepFM,deep factorization machine)模型,該模型可自動進行低維特征組合,同時對高維特征進行提取,但該模型所分配的特征權(quán)重是固定的,在進行推薦時并未考慮用戶的歷史行為對用戶興趣的差異性影響,事實上消解了大量有價值的特征信息。例如,應用場景是預測一位20 歲的女性用戶是否購買一款香水,那么“性別=女并且購買歷史中包含口紅”這一特征遠比“性別=女且年齡=20”重要,模型應該賦予前者特征更大的權(quán)重,與無關(guān)特征的交互會引入噪聲甚至降低模型性能。

        基于上述分析,本文設計了一種新型的注意力得分機制——注意力膠囊,通過給予不同交叉特征不同的分配權(quán)重,解決了不同特征交叉所產(chǎn)生的噪聲問題?;诖?,本文提出了一種融合注意力膠囊的深度因子分解機(AxDFM,deep factorization machine based on attention capsule)模型。本文的主要工作如下。

        1) 設計了一種新型的注意力得分機制,解決了DeepFM 模型存在的噪聲問題,在保證模型泛化能力和訓練速度的基礎上,充分挖掘了不同歷史行為對用戶興趣的差異性影響。

        2) 在訓練過程中加入自適應正則化式,以減少大規(guī)模訓練時產(chǎn)生的過擬合影響。

        3) 在Avazu 和Criteo 這2 個公開數(shù)據(jù)集上與主流推薦模型進行比較,驗證了所提方法的可行性與有效性。

        2 AxDFM 模型介紹

        2.1 Embedding 特征表示

        CTR 預測的主要任務是給用戶推薦其可能感興趣的物品,用戶在進入推薦系統(tǒng)前,并沒有表明自己的喜好。所以,在建立CTR 模型時,需要從用戶的個人信息和歷史行為中提取用戶的興趣特征[7]。因此,用戶的個人信息以及用戶歷史行為數(shù)據(jù)的特征表示就顯得十分重要,特征表示是CTR建模的基本要素。

        推薦系統(tǒng)的輸入往往具有很多屬性特征,其中甚至有部分特征是缺失的,為了能夠全面地表示這些特征,one-hot 編碼可對其進行表示,但one-hot編碼極其稀疏,直接進行訓練產(chǎn)生的開銷太大。因此,Embedding 層被用于對one-hot 編碼進行降維稠密化,由高維稀疏向量轉(zhuǎn)換為低維稠密向量。Embedding 的過程本質(zhì)上是一層全連接的神經(jīng)網(wǎng)絡。Embedding 網(wǎng)絡結(jié)構(gòu)如圖1 所示,輸入為一個五維one-hot 編碼向量,接入神經(jīng)網(wǎng)絡與一個三維Embedding 層連接,虛線所代表的權(quán)重即為該one-hot 編碼對應的Embedding 值。

        圖1 Embedding 網(wǎng)絡結(jié)構(gòu)

        2.2 DeepFM

        DeepFM 是一個典型的并行融合網(wǎng)絡結(jié)構(gòu),由因子分解機(FM,factorization machine)和深度神經(jīng)網(wǎng)絡(DNN,deep neural network)構(gòu)成,兩者共享用戶和物品的Embedding 層向量。FM 部分負責特征的一階二階自動組合,通過學習低階特征,使模型具有較強的記憶能力。DNN 部分負責高階特征提取,使模型具有較強的泛化能力[8]。整個模型的輸出如式(1)所示。

        其中,(0,1)y′∈是CTR 的預測概率;yFM是FM 部分的輸出;yDNN是DNN 部分的輸出。

        FM 模型是Rendle[9]提出的因子分解機,主要解決了數(shù)據(jù)稀疏和復雜度上兩大缺陷。FM 利用2 個向量內(nèi)積取代了單一的權(quán)重系數(shù),為每一個特征學習到一個隱向量,特征之間的特征組合權(quán)重即為特征的隱向量內(nèi)積。FM 的提出使即使2 個特征之間即便沒有交互數(shù)據(jù),也可以計算兩者的相關(guān)程度,即

        在DeepFM 中,對于每個特征i,都有重要程度wi和隱向量Vi這2 個參數(shù),其中,wi主要用來衡量特征的一階重要性;Vi則用來進行特征組合,用于FM 的二階計算和DNN 的高階特征組合。FM 模塊結(jié)構(gòu)如圖2 所示,其中,F(xiàn)ield 為相同性質(zhì)特征場,是DeepFM 特征表示的基礎。

        圖2 FM 模塊結(jié)構(gòu)

        FM 模塊的輸出為

        DNN 部分是一個全連接的前饋神經(jīng)網(wǎng)絡,用來學習用戶與物品間的高階特征組合,DNN 模塊結(jié)構(gòu)如圖3 所示。

        圖3 DNN 模塊結(jié)構(gòu)

        網(wǎng)絡原始輸入是高維稀疏的one-hot 編碼,經(jīng)Embedding 層轉(zhuǎn)化為低維稠密向量,使網(wǎng)絡能夠訓練。Embedding 層輸出為

        其中,m表示特征域的個數(shù),ei代表第i個特征域的Embedding 向量。將a(0)輸入DNN 中,則DNN的正向傳播過程為

        其中,l是層數(shù),σ是激活函數(shù),是第l層的輸出,是模型權(quán)重,是偏置。DNN 模塊的最終輸出為

        2.3 AxDFM 模型

        用戶的歷史行為在CTR 預測中起著至關(guān)重要的作用。DeepFM 在對用戶進行興趣表示時,將用戶的歷史行為特征組上的所有Embedding 向量連接起來,得到一個固定長度的表示向量,如式(4)所示。對于一個給定的用戶,由于采用了平均池化,使用戶興趣表示具有一致性與不變性,無論候選物品是什么,該表示向量均不會變化,即缺乏興趣表達能力,無法挖掘歷史行為對用戶興趣的差異性影響,消解了大量有價值的信息。例如,男生喜歡買球衣球鞋,也喜歡買鼠標耳機,甚至還為自己女朋友購買過香水口紅。在實際生活中,當男生在購買鍵盤的時候,并不需要考慮香水口紅這個偏好特征,而男生購買鍵盤的行為受鼠標耳機的影響遠比其余兩組特征大。此時,香水口紅特征不僅沒有對推薦結(jié)果產(chǎn)生正向影響,反而消解了鼠標耳機特征的正向影響,變成了推薦系統(tǒng)中的噪聲,降低了模型性能。

        在上述例子中,整個購買過程如下:候選商品鍵盤通過對該用戶的購買行為進行軟搜索,發(fā)現(xiàn)該用戶購買過鼠標耳機,從而觸及了他相關(guān)的興趣。換而言之,與候選物品相關(guān)的歷史行為對于用戶的點擊與否有著很大的貢獻。考慮到注意力機制可以提升模型的重點內(nèi)容的學習能力和降低無關(guān)特征影響的特性,本文針對用戶行為與候選物品的關(guān)系程度設計了一種新型的注意力得分機制——注意力膠囊。將注意力膠囊引入DeepFM 模型中,AxDFM 模型可以在表示向量維度有限的情況下,產(chǎn)生一個可變的、動態(tài)的表示向量來對用戶興趣進行表示,即利用候選物品在歷史行為中的不同激活程度自適應地改變DNN 的輸入Embedding向量。

        用戶的每一個歷史行為都會與候選物品進行權(quán)重計算,以自適應地計算候選物品的用戶興趣表示向量,注意力膠囊的網(wǎng)絡結(jié)構(gòu)如圖4 所示,具體計算式如式(7)所示。

        圖4 注意力膠囊網(wǎng)絡結(jié)構(gòu)

        其中,vA是候選物品A的Embedding 向量,g()是一個前饋網(wǎng)絡,weightj是激活權(quán)重。

        注意力膠囊的輸入為歷史行為和候選物品的Embedding 向量。引入兩者的外積(有助于相關(guān)性建模),將三者進行組合拼接,利用一個3 × 3卷積核對其進行卷積,將得到的輸出連接單全連接層得到權(quán)重大小。本文提出的注意力膠囊拋棄了傳統(tǒng)注意力機制中的Softmax 層[10],使得到的權(quán)重和并不為1,即。通過放棄Softmax 的規(guī)范化來保留物品的激活程度,即權(quán)重和越大,物品與歷史行為相關(guān)程度就越大,增強了模型的興趣表達能力。

        AxDFM 網(wǎng)絡結(jié)構(gòu)如圖 5 所示,通過在Embedding 層后加入注意力膠囊,使用戶的歷史點擊行為與候選物品進行權(quán)重計算,得到每個點擊行為與候選物品的權(quán)重,在形成表示向量時能夠更加突出候選物品與歷史行為中所相關(guān)的物品,可以自適應地生成動態(tài)表示向量,從而達到在有限的維度下,增強模型興趣表達能力的目的。

        圖5 AxDFM 網(wǎng)絡結(jié)構(gòu)

        2.4 自適應正則化

        在模型訓練過程中,由于訓練數(shù)據(jù)、權(quán)重參數(shù)過多,過擬合不可避免。過擬合是指模型在訓練集上表現(xiàn)良好,在測試集上卻表現(xiàn)一般,甚至會隨著時間的推移模型效果越來越差,使模型泛化能力較弱[11],如圖6 所示。

        圖6 過擬合

        為了減小過擬合的影響,最簡單有效的方法是在損失函數(shù)后添加正則化項,對高階權(quán)重部分進行懲罰,即

        其中,X為輸入樣本,y為對應標簽,w為權(quán)重系數(shù),L()為損失函數(shù),λ為正則化系數(shù),f(w) 為懲罰項。

        CTR 預測中往往具有輸入稀疏且維度高的特點,在這樣一個龐大的網(wǎng)絡上直接應用傳統(tǒng)的正則化方法顯然不現(xiàn)實。以隨機梯度下降法(SGD,stochastic gradient descent)為例,在沒有進行正則化前,只需更新輸入特征中不為0 的特征所對應的參數(shù)。然而,當增加了L2 正則化后,需要計算全部參數(shù)的L2 范數(shù),這極大地增加了訓練的開銷,降低了模型的效率。對此,本文使用了一種自適應的正則化式,只計算不為0 的輸入特征所對應參數(shù)的L2 范數(shù),如式(9)所示,判斷函數(shù)如式(10)所示。

        其中,W為整個輸入字典,K為特征維度,S為大小為N的訓練集,x為網(wǎng)絡的輸入,y∈{0,1}為點擊標簽(0 代表未點擊,1 代表點擊),wj為第j個向量,I表示第i個樣本是否有j這個特征,nj為整個樣本中j特征的出現(xiàn)次數(shù),B表示樣本分割的小批量數(shù)。

        本文采用的優(yōu)化算法為小批量梯度下降(MBGD,mini batch gradient descent)法[12],總樣本數(shù)可以拆分為多個小批量樣本,于是式(9)可以轉(zhuǎn)換為

        其中,Bm表示第m個小批量。

        訓練的損失函數(shù)采用對數(shù)似然損失函數(shù),如式(12)所示。

        其中,y為樣本的真實標簽,p(x)為預測輸入x被點擊的概率。

        將式(11)和式(12)代入式(8),可以得到本文最終采用的正則化后的損失函數(shù)為

        其中,損失函數(shù)的輸出區(qū)間為[0,+∞),其值越小,代表模型的分類工作越好。由于y是每個樣本的標簽(0、1 標簽),p(x)(p(x) ∈[0,1])是模型對其的預測概率,因此對于每個樣本而言,預測值越接近樣本標簽,損失函數(shù)值越接近于0,即模型預測越準確。

        3 實驗設計

        3.1 實驗環(huán)境

        本文在Window10 環(huán)境下進行實驗,代碼語言為Python3.7,深度學習框架為TensorFlow-GPU 2.1.2,CUDA 版本為11.2.152,cuDNN 版本為7.6.5,運行內(nèi)存為16 GB,GPU 為NVIDIA RTX 3070,處理器為Intel(R) Core(TM) i5-10600KF CPU。

        3.2 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集為Kaggle CTR 大賽上所使用的兩個公開數(shù)據(jù)集,即Avazu 和Criteo。

        Avazu 包含了真實的用戶點擊行為數(shù)據(jù),按時間順序排列,其中訓練集是10 天的點擊數(shù)據(jù),測試集是一天的點擊數(shù)據(jù)。數(shù)據(jù)集擁有4 000 萬行數(shù)據(jù),23 個特征域(包含用戶屬性特征、設備特征、廣告屬性特征以及匿名特征)。

        Criteo 是Criteo 公司的真實數(shù)據(jù),按時間順序排列,其中訓練集是7 天的點擊數(shù)據(jù),測試集是緊跟著訓練集后一天的點擊數(shù)據(jù)。數(shù)據(jù)集擁有4 500 萬行數(shù)據(jù)(包含點擊標簽)、13 個數(shù)值特征和26 個匿名分類特征。

        3.3 評價標準

        CTR 預測本質(zhì)上來說是一個二分類問題,即判定用戶是否會點擊。針對二分類問題,機器學習有一個應用非常廣泛的指標——AUC(area under the curve)。AUC 是ROC(receiver operating characteristic)曲線所圍成的面積,范圍為[0,1]。對于隨機抽取的一對正負樣本,本質(zhì)上來說AUC 是把正樣本預測為1 的概率大于把負樣本預測為1 的概率的概率,即

        其中,Pture是將正樣本預測為1 的概率,Pfalse是將負樣本預測為1 的概率。

        AUC 值是一個概率值,AUC>0.5 時,將正樣本預測為1 的概率比把負樣本預測為1 的概率大,說明模型有一定的分類能力。在[0,1]的范圍內(nèi),AUC 越大代表模型性能越好。AUC 計算式為

        然而,在實際CTR 預測中,由于用戶的個性化程度較高,不同用戶間的排序結(jié)果對于評價模型性能的意義不大。對此,本文采用了GAUC(group area under the curve)[13],對每個用戶的AUC 進行加權(quán)平均,可以減小不同用戶間的排序結(jié)果失真的影響,具體如下

        其中,timei表示給用戶i展示物品的次數(shù)。

        采用RelaImpr 衡量模型性能提升百分比,即

        其中,GAUCmeasured_model為對比模型的GAUC 值,GAUCbase_mdoel為基準模型的GAUC 值。

        采用浮點運算數(shù)(FLOPS,floating-point operations per second)表示GPU 計算量,來衡量算法/模型的復雜度。

        此外,為了準確評估及對比模型性能,本文采用對數(shù)似然損失函數(shù)值Loss 這一指標,如式(13)所示。一般而言,Loss 接近于0,模型的分類性能越好。

        3.4 實驗結(jié)果

        3.4.1模型性能對比

        為了驗證本文所提的融合注意力膠囊的深度因子分解機模型的可靠性,本節(jié)在GAUC、RelaImpr和Loss 這3 個指標上,將所提模型和以下模型進行了比較。

        LR(logistic regression)[14]:傳統(tǒng)線性模型。

        DeepCrossing[3]:采用多層殘差網(wǎng)絡實現(xiàn)MLP,利用帶殘差連接的多層全連接神經(jīng)網(wǎng)絡捕捉到更多的非線性特征和組合特征。

        DeepFM[6]:由FM 和DNN 兩部分構(gòu)成,分別進行低階與高階特征組合。

        AFM(attentional factorization machines)[15]:在NFM 基礎上引入注意力機制,在NFM 的特征交叉池化層與輸出層之間加入一層基于注意力機制的池化層,用以區(qū)分特征之間的不同重要性。

        DeepFM_Multi-head:在DeepFM 模型中加入多頭注意力機制[16],將本文提出的注意力膠囊與多頭注意力機制進行對比。

        xDeepFM(extreme deep factorization machine)[17]:提出了一種新的壓縮交叉網(wǎng)絡,以顯示方式進行向量級的特征交互,可以隱式學習任意的低階與高階特征組合。

        所提AxDFM 模型的主要參數(shù)設置如下:深度神經(jīng)網(wǎng)絡部分采用三層全連接層,網(wǎng)絡結(jié)構(gòu)為200-200-2;優(yōu)化器為MBGD;batch-size 設置為512;激活函數(shù)選取Dice,可根據(jù)數(shù)據(jù)分布靈活調(diào)整階躍變化點;Embedding-size 設置為40;學習率設置為0.001;Epoch 設置為10;注意力膠囊層維度設置為48;正則化式采用自適應正則化函數(shù),正則化系數(shù)為0.01。

        為減小過擬合的影響,實驗中剔除一些無關(guān)標簽(Avazu 中的device_ip 和device_type,Criteo 中的C20和C22)。表1顯示了在數(shù)據(jù)集Criteo和Avazu上,選取前100 萬份數(shù)據(jù),本文提出的AxDFM 模型和其他6 種模型的對比(其中LR 是線性模型,其余均為深度學習模型),實驗重復10 次,GAUC取10 次的平均值,RelaImpr 反映了模型相較于DeepFM 的提升。從表1 可以得到以下結(jié)論。

        表1 不同模型在數(shù)據(jù)集Criteo 和Avazu 上的對比

        1) 所有的深度學習模型的結(jié)果均優(yōu)于LR 模型。LR 模型是這7 種模型里唯一不考慮特征組合的模型,其性能表現(xiàn)最差,由此可以證明學習特征組合可以提高CTR 預測模型的性能,也證明了深度學習的可行性。

        2) 純高階特征組合模型不如低階-高階特征組合模型。DeepCrossing 模型是經(jīng)典的高階特征組合的深度模型,在性能表現(xiàn)上不如低階-高階特征組合模型。

        3) 注意力機制的加入可以提高模型性能。AFM、DeepFM_Multi-head 和本文的提出的AxDFM引入了注意力機制,三者表現(xiàn)均優(yōu)于其基礎模型。

        不同模型訓練過程中的損失函數(shù)曲線如圖7 所示。從圖7 中可以看出,LR 特征學習能力較弱,故數(shù)值較大;加入多頭注意力機制的DeepFM_Multi-head 在高階特征映射時易導致學習精度誤差,故產(chǎn)生了一個較大波動;AxDFM 收斂速度較快,Loss 較其余6 種模型保持著較低的水平,收斂值約為0.446 4,整體表現(xiàn)最優(yōu)。

        圖7 損失函數(shù)曲線

        綜上所述,AxDFM 通過引入注意力膠囊計算候選物品和用戶歷史行為的權(quán)重,突出了用戶歷史行為對候選物品的影響,增強了模型的興趣表達能力,提高了CTR 預測的準確性和可靠性。

        3.4.2模型復雜度對比

        由于本文提出的AxDFM 模型的時間成本主要在深度神經(jīng)網(wǎng)絡中,因此,本節(jié)實驗主要對比包含深度神經(jīng)網(wǎng)絡的模型。MFLOPS 為百萬次的浮點運算,Time 為不同模型訓練100 萬條數(shù)據(jù)的時間,具體實驗結(jié)果如表2 所示。

        綜合表1 和表2 可以看出,AxDFM 在增加5.2%的訓練開銷后,獲得了最大7.81%的模型性能提升。xDeepFM 由于引入了壓縮交叉單元,使模型復雜度大大提升,訓練開銷也隨之增大。雖然xDeepFM在Avazu 數(shù)據(jù)集上的GAUC 略優(yōu)于AxDFM,但前者復雜度過高。綜合考慮模型復雜度和性能提升,AxDFM 在這5 種模型中表現(xiàn)最優(yōu)。

        表2 不同模型的復雜度和運行時間對比

        3.4.3正則化式對比

        在實際CTR 中,模型的輸入是極高維與極稀疏的,且樣本數(shù)是億級的,如果不經(jīng)過正則化處理,模型性能將在一次完整迭代后迅速下降。因此,針對正則化式,本文在完整的Criteo 數(shù)據(jù)集上進行了實驗,選取AxDFM 作為基準實驗模型,正則化參數(shù)設置為0.01,并且與以下幾種正則化式進行對比,證明所提出自適應正則化式的可行性。

        L1 正則化:L1 正則化式為權(quán)值絕對值之和。

        L2 正則化:L2 正則化式為權(quán)值絕對值平方和。

        Dropout[18]:隨機丟棄樣本中50%的特征。

        圖8 為不同正則化式在Criteo 數(shù)據(jù)集上的Loss和GAUC 對比。不加正則化式的模型在每迭代一次之后,模型的Loss 和GAUC 迅速下降,過擬合發(fā)生。L1 和L2 正則化雖然能在一定程度上緩解過擬合,隨著迭代次數(shù)的增加,模型的性能受過擬合的影響程度增大。Dropout 雖然可以防止快速過擬合,但是Dropout 收斂速度較慢。本文的自適應正則化方法表現(xiàn)最好,在有效防止過擬合的同時,還保持著一定的收斂速率。

        圖8 不同正則化式在Criteo 上的AxDFM 模型性能對比

        圖9 為不同正則化式在Criteo 數(shù)據(jù)集中前1 000 萬份數(shù)據(jù)的訓練時間對比。從圖9 可以看出,不加正則化式的訓練時間最短,AxDFM 次之。L1 和L2正則化都需要對所有權(quán)重進行計算,訓練時間顯著增加。Dropout 雖然隨機丟棄了50%的樣本,但是只是讓神經(jīng)元失活,即變?yōu)?,并且由于訓練網(wǎng)絡的每個單元要添加一道概率流程,收斂到全局最優(yōu)的時間變長,因此訓練時間大大增加。

        圖9 不同正則化式訓練時間對比

        綜上所述,自適應正則化模型相比于無正則化模型,在增加8.4%的時間基礎上(其余分別為13.9%、13.4%和83.5%),極大地減少了過擬合的影響,提升了模型的分類能力。與其他正則式相比,AxDFM 在有效防止過擬合的同時,還保持著較快的收斂速率。

        4 結(jié)束語

        本文設計了一種新型的注意力得分機制——注意力膠囊,提出了一種融合注意力膠囊的深度因子分解機模型。注意力膠囊的引入使該模型不僅可以對輸入特征同時進行低階與高階組合,還可以根據(jù)不同的候選物品生成不同的興趣表示向量,在保證了模型的記憶與泛化能力的同時,大大提高了模型的興趣表達能力,挖掘了不同歷史行為對興趣的差異性影響。此外,利用自適應正則化式,使模型在訓練過程中有效地減少了過擬合的影響,并保證了訓練效率。在2 個公開數(shù)據(jù)集上進行了對比實驗,驗證了AxDFM 的可行性與有效性。在未來的研究中,考慮不必將用戶所有的行為記錄壓縮進一個向量,只選取部分行為記錄從而進一步減少模型訓練時間。

        猜你喜歡
        正則物品注意力
        稱物品
        讓注意力“飛”回來
        “雙十一”,你搶到了想要的物品嗎?
        誰動了凡·高的物品
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類似于VNL環(huán)的環(huán)
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        找物品
        有限秩的可解群的正則自同構(gòu)
        蜜桃av观看亚洲一区二区| 精品国产午夜理论片不卡| 亚洲av无码成人精品区在线观看| 日本少妇按摩高潮玩弄| 一区二区三区免费自拍偷拍视频| 精品久久亚洲一级α| 久久精品国产亚洲av专区| 99国产精品久久99久久久| 亚洲精品一区久久久久久| 国产成人免费a在线视频| 精品人妻夜夜爽一区二区| 熟女人妻中文字幕av| 影音先锋男人站| 无码中文av有码中文av| 97超碰国产一区二区三区| 亚洲av无码乱码国产麻豆| 曰批免费视频播放免费直播 | 日本中文字幕不卡在线一区二区| 在线一区二区三区免费视频观看| 日本一区二区在线免费视频| 伊人久久精品久久亚洲一区| 一级一级毛片无码免费视频 | 精品福利一区二区三区免费视频 | 伊人久久大香线蕉在观看| 国产精品久久久看三级| 大尺度无遮挡激烈床震网站| 少妇人妻偷人精品视频| 在线亚洲AV不卡一区二区| 99久久婷婷国产精品网| 国产成人精品a视频| 日韩亚洲欧美中文高清在线| 国产一级r片内射视频播放| 成人自慰女黄网站免费大全| 日韩在线一区二区三区免费视频| 男人的天堂av网站一区二区| 特级国产一区二区三区| 国产色xx群视频射精| 毛片网站视频| 日本视频一区二区三区三州| 久久婷婷五月综合97色直播| 亚洲中文字幕无码久久2020|