亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的特征重要性因子分解機(jī)研究

        2022-06-23 01:08:40鄒明峻胡銳光
        無線互聯(lián)科技 2022年7期
        關(guān)鍵詞:注意力權(quán)重向量

        廖 永,鄒明峻,胡銳光

        (廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006)

        0 引言

        目前廣告點(diǎn)擊率預(yù)測(cè)主要有傳統(tǒng)模型和基于深度學(xué)習(xí)的模型。傳統(tǒng)的模型一般以因子分解機(jī)(Factorization Machine,FM)為主[1],該方法利用矩陣分解的思想將交互矩陣分解為兩個(gè)隱向量?jī)?nèi)積,使得在高維稀疏的特征下權(quán)重參數(shù)仍然能夠被估計(jì),并能夠泛化到未被觀察的特征。但由于在同一特征向量在不同的特征組合情況下所表示的意義應(yīng)該有所不同。因此,域因子分解機(jī)(Field Factorization Machine,FFM)在FM 的基礎(chǔ)上提出了“域”的概念來細(xì)化不同域下同一特征的隱向量表示[2]。隨著注意力機(jī)制在圖像和自然語言處理領(lǐng)域取得的重大成功,Xiao J 等[3]將注意力機(jī)制引入到FM 中,提出了注意力因子分解機(jī)(Attention Factorization Machine,AFM),加入注意力網(wǎng)絡(luò)計(jì)算二階特征組合的注意力權(quán)重,以區(qū)分不同特征組合的重要性。

        隨著計(jì)算資源和深度學(xué)習(xí)的發(fā)展,研究者們提出了很多基于深度學(xué)習(xí)的模型。ONN,PNN,NFM 等模型采用的傳統(tǒng)模型和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)前后相接的方式[4-6],先用傳統(tǒng)模型訓(xùn)練得到低階組合特征,然后將組合特征輸入到DNN 得到高階組合特征進(jìn)行預(yù)測(cè).Wide&Deep,DeepFM,DCN等模型采用雙路的方式進(jìn)行預(yù)測(cè)[7-9],通過傳統(tǒng)模型得到低階特征,增強(qiáng)模型的“記憶能力”。通過DNN 模型得到高階特征,提高模型的泛化能力。

        以往的FM 及其變形模型并沒有考慮到對(duì)于不同的預(yù)測(cè)目標(biāo)來說特征有強(qiáng)弱之分,也就是特征的重要性。針對(duì)FM 模型二階組合特征的重要性問題,本文提出了一種特征重要性因子分解機(jī)FIFM 的廣告點(diǎn)擊率預(yù)估模型。從特征的重要性,即對(duì)預(yù)測(cè)目標(biāo)來說特征有強(qiáng)弱之分的角度,使用擠壓提取網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENET)的擠壓提取模塊和多頭注意力模塊動(dòng)態(tài)地提取輸入特征向量的重要性[10],從而區(qū)別有效的特征組合,增強(qiáng)因子分解機(jī)的學(xué)習(xí)能力。此外,結(jié)合DNN 和FIFM 分別獲得高階特征和低階特征,進(jìn)一步提高點(diǎn)擊通過率(Click-Through-Rate,CTR)預(yù)測(cè)的準(zhǔn)確率。

        1 特征重要性因子分解機(jī)

        通過目前對(duì)比前沿的廣告點(diǎn)擊率預(yù)測(cè)模型,可以發(fā)現(xiàn)已有的算法大多數(shù)是將經(jīng)過Embedding 后的向量輸入到因子分解機(jī)中以內(nèi)積或哈達(dá)瑪積的形式進(jìn)行特征組合,但這種方法并沒有關(guān)注到特征的重要性,將所有特征都視為同等重要。但對(duì)于每一個(gè)不同的預(yù)測(cè)目標(biāo)而言,特征的重要程度都是不一樣的。因此本文從特征重要性的角度對(duì)因子分解機(jī)模型進(jìn)行改進(jìn)。

        FIFM 的核心思想在于通過壓縮提取模塊和多頭注意力模塊從不同的特征粒度計(jì)算輸入特征向量的權(quán)重,并與輸入向量結(jié)合重新表示成帶權(quán)重的特征向量,從而在因子分解機(jī)中進(jìn)行特征組合時(shí)得到有效的組合特征。通過對(duì)輸入特征進(jìn)行加權(quán)預(yù)處理,在因子分解機(jī)中進(jìn)行組合時(shí),組合特征會(huì)變得“強(qiáng)者更強(qiáng),弱者更弱”,減少無關(guān)特征對(duì)預(yù)測(cè)目標(biāo)的干擾,提高模型的預(yù)測(cè)準(zhǔn)確率。

        1.1 輸入層和嵌入層

        模型結(jié)構(gòu)圖如圖1 所示,為了清楚起見,省略了LR部分。FIFM 主要包括以下部分:輸出層(Input Layer)、嵌入層(Embedding Layer)、雙通道權(quán)重計(jì)算層(Dual channel weight calculation Layer)、權(quán) 重 結(jié) 合 層(Combination Layer)、加權(quán)層(Reweighting Layer)、預(yù)測(cè)層(FM Layer)、輸出層(Output Layer)。其中嵌入層是對(duì)稀疏的輸入數(shù)據(jù)通過嵌入矩陣映射成稠密向量表示。

        嵌入層的輸入為原始特征的獨(dú)熱編碼表示δ=[δ1,δ2,…,δf],輸出是稠密的嵌入向量V=[v1,v2,…,vf],其中f 表示特征域的個(gè)數(shù)。獨(dú)熱編碼和嵌入映射的數(shù)學(xué)表示如公式(1)和(2)所示。

        1.2 雙通道權(quán)重計(jì)算層

        1.2.1 bit-wise 權(quán)重

        不同的特征對(duì)預(yù)測(cè)目標(biāo)的重要程度是有所區(qū)別的,如預(yù)測(cè)一條游戲廣告是否會(huì)被用戶點(diǎn)擊時(shí),通常愛好特征比性別特征具有更高的重要性。因此,本文利用SENET 的擠壓提取模塊,計(jì)算Embedding 向量的特征重要性,得到bit-wise 權(quán)重。如圖2 所示,圖中步驟①和②分別表示特征壓縮,計(jì)算特征重要性下面是這兩個(gè)的詳細(xì)過程描述:

        圖2 擠壓提取模塊

        (1) 特征擠壓:通過對(duì)嵌入向量進(jìn)行池化操作,得到嵌入向量的全局分布和統(tǒng)計(jì)信息,通常采用最大池化或者平均池化。將嵌入向量E=[e1,e2,…,ef]轉(zhuǎn)化為向量U=[u1,u2,…,uf],ui表示第i 個(gè)特征向量的全局信息數(shù)值,也就是特征向量的重要信息。在這里采用效果較好的平均池化操作,其計(jì)算方式如公式(3)所示:

        (2) 計(jì)算特征重要性:這一步的目的是利用統(tǒng)計(jì)信息向量U=[u1,u2,…,uf]計(jì)算出嵌入向量E=[e1,e2,…,ef]的特征重要性權(quán)重Obit=[o1,o2,…,of]。計(jì)算方法如圖3 所示,將向量U 輸入到兩個(gè)全連接層得到權(quán)重向量Obit。其中,第一個(gè)全連接層的作用是對(duì)統(tǒng)計(jì)信息進(jìn)行特征交叉的降維層,第二個(gè)全連接層的作用是將權(quán)重向量大小映射成f 的升維層。數(shù)學(xué)表示如公式(4)所示。

        圖3 特征重要性計(jì)算原理

        其中,W1∈Rf×(f/r) 表示第一個(gè)隱藏層的權(quán)重參數(shù),表示第一個(gè)隱藏層的權(quán)重參數(shù),σ1,σ2分別代表第一層,第二層的激活函數(shù),r 是全連接層的維度減少率。

        1.2.2 vector 權(quán)重

        為了計(jì)算vector-wise 的特征權(quán)重,需要把k×f 維的嵌入矩陣E 變換為f×k 維的矩陣Evec,如公式(5)所示。然后再將矩陣輸入到多頭注意力層計(jì)算特征的注意力權(quán)重。

        多頭注意力層包括注意力空間映射,自注意力計(jì)算,多頭注意力及殘差網(wǎng)絡(luò)融合,權(quán)重計(jì)算四個(gè)部分。下面將詳細(xì)介紹這四個(gè)部分內(nèi)容。

        (1)多頭注意力空間映射。如公式(6)~(8)所示,這個(gè)步驟是將矩陣Evec通過矩陣WQi,WKi,WVi分別映射Q(Query),K(Key),V(value)空間得到新的矩陣表示Qi,Ki,Vi,i 表示第i 個(gè)注意力空間。

        (2)自注意力計(jì)算。通過內(nèi)積計(jì)算矩陣Qi,Ki的相關(guān)性并進(jìn)行歸一化計(jì)算,得到注意力分?jǐn)?shù),然后對(duì)矩陣Vi進(jìn)行加權(quán),得到矩陣Evec在單個(gè)注意力空間下的表示Headi,dk表示注意力因子的大小。其計(jì)算過程如公式(9)所示。值得注意的是,歸一化操作也是一種捕獲全局信息的方法,能夠得到某一特征占所有特征的重要性權(quán)重。

        (3)多頭注意力及殘差網(wǎng)絡(luò)融合。如公式(10)~(11)所示,通過拼接n 個(gè)head,得到矩陣Evec在多頭注意力加權(quán)下的表示。為了保留原始輸入的信息,將向量U 經(jīng)過殘差矩陣WRi得到矩陣Ri。類似地,得到多頭注意力下的原始信息如公式(12)所示。

        (4)權(quán)重計(jì)算。將MultiHead(U)和Resdual(U)輸入到激活函數(shù)Relu 得到vector-wise 權(quán)重。計(jì)算方法如公式(13)所示。

        1.3 結(jié)合層

        在bit-wise 和vector-wise 權(quán)重結(jié)合之前,需要把通過轉(zhuǎn)換矩陣Svec和Sbit進(jìn)行降維操作,轉(zhuǎn)化為權(quán)重向量,然后進(jìn)行加和得到最終的權(quán)重向量wx。計(jì)算過程如公式(14)~(16)所示。

        其中,wvec∈?D1,wbit∈?D2,D1=f×dv×n,D2=dv。Svec∈?D1×h,Sbit∈?D2×h,f 是特征域的個(gè)數(shù),dv是嵌入向量的長(zhǎng)度,n 是注意力的頭數(shù)。

        1.4 加權(quán)層

        將結(jié)合層得到的權(quán)重對(duì)原始嵌入向量E=[e1,e2,…,ef]進(jìn)行加權(quán),得到新的嵌入向量表示VX=[vx1,vx2,…,vxf],如公式(17)所示。其中,mx,i表示權(quán)重向量mx中的第i 個(gè)標(biāo)量。

        1.5 因子分解機(jī)層

        在因子分解機(jī)層,將新的Embedding 向量表示作為輸入在這層中進(jìn)行二階特征組合,使得特征組合更合理,即得到與預(yù)測(cè)目標(biāo)相關(guān)性更大的組合特征。其計(jì)算過程如公式(18)所示。

        1.6 輸出層

        FIFM 的輸出層將LR 部分和FM 部分求和用于最終預(yù)測(cè)。此處LR 部分使用的是經(jīng)過重要性加權(quán)的嵌入向量VX=[vx1,vx2,…,vxf]。結(jié)合公式(18),得到FIFM 模型輸出的整體公式如公式(19)所示。其中,w0是全局偏置。

        2 實(shí)驗(yàn)及性能評(píng)價(jià)

        本節(jié)介紹實(shí)驗(yàn)的相關(guān)細(xì)節(jié),通過在兩個(gè)廣告數(shù)據(jù)集Criteo 和 Avazu 上對(duì)進(jìn)行實(shí)驗(yàn),對(duì)FIFM 模型進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)內(nèi)容包括:

        (1)DIFM 與基線模型對(duì)比;

        (2)Deep DIFM 與具有DNN 模塊的基線模型對(duì)比;

        (3)超參數(shù)設(shè)置對(duì)模型性能的影響。

        2.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)

        2.1.1 數(shù)據(jù)集

        Criteo 和 Avazu 是kaggle 平臺(tái)上兩個(gè)公開的廣告數(shù)據(jù)集,近年來也成為廣告點(diǎn)擊量預(yù)測(cè)模型的基準(zhǔn)評(píng)測(cè)數(shù)據(jù)集。Criteo 包含了4 500 萬用戶點(diǎn)擊廣告的數(shù)據(jù)樣本,該數(shù)據(jù)集有26 個(gè)脫敏類別特征和13 個(gè)連續(xù)數(shù)值特征。Avazu 包含了4 000 萬用戶點(diǎn)擊記錄,有24 個(gè)特征字段。本文實(shí)驗(yàn)對(duì)兩個(gè)數(shù)據(jù)集均采用8 ∶2 比例劃分:即80%用于訓(xùn)練,20%用于測(cè)試。實(shí)驗(yàn)采用AUC和Logloss 作為評(píng)價(jià)指標(biāo)[11-12]。

        2.1.2 實(shí)驗(yàn)超參數(shù)設(shè)置

        實(shí)驗(yàn)采用Tensor flow 實(shí)現(xiàn)了所有模型,Criteo 和Avazu 的嵌入向量的維度分別設(shè)置為16 和40,使用衰減學(xué)習(xí)率,初始值為0.1,衰減率為0.9,SENET 中的兩個(gè)非線性全連接層使用Relu 作為激活函數(shù),所用到的DNN 網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)為512,Drop Out Ratio 為 0.5,使用Adam 作為優(yōu)化器[13]。

        2.2 對(duì)比實(shí)驗(yàn)?zāi)P驮O(shè)置

        為了驗(yàn)證FIFM 單模型和融合DNN 網(wǎng)絡(luò)的性能,本文將實(shí)驗(yàn)分為2 組,shallow 組和Deep 組,并且把基線對(duì)比模型分為兩組。Shallow 組基線模型包括LR,FM,AFM,IFM。Deep 組基線模型包括Wide&Deep,Deep FM,DCN。對(duì)于Deep 組模型,所有模型統(tǒng)一設(shè)置激活函數(shù)為Relu,輸出節(jié)點(diǎn)的激活函數(shù)為Sigmoid,優(yōu)化器采用Adam。

        2.3 FIFM 模型與基線模型性能對(duì)比

        表1 和表2 給出了Shallow 組和Deep 組的對(duì)比模型在Criteo 和Avazu 兩個(gè)數(shù)據(jù)集上性能表現(xiàn)。FIFM 相比LR,FM,AFM 和IFM 模型提升了3.3%,2%,1.5%,0.9%。在Deep 組并聯(lián)融合了DNN 網(wǎng)絡(luò)進(jìn)行高階特征后,Deep FIFM 同樣優(yōu)于其他對(duì)比模型。可見,對(duì)輸入特征進(jìn)行重要性加權(quán)處理,既可以實(shí)現(xiàn)特征的有效組合,同時(shí)也有利于讓DNN 得到更充分的高階組合特征信息。使得組合特征與實(shí)際目標(biāo)特征更相近,提高了CTR 預(yù)測(cè)的準(zhǔn)確率。

        表1 Shallow 組模型的性能對(duì)比

        表2 Deep 組模型的性能對(duì)比

        2.4 超參數(shù)對(duì)模型性能的影響

        如表3 所示,以8 步長(zhǎng),逐步調(diào)整Embedding 向量的大小,觀察模型在兩個(gè)數(shù)據(jù)集上的效果,可以看到當(dāng)Embedding 大小為16 時(shí),模型在Criteo 數(shù)據(jù)集表現(xiàn)最好;當(dāng)Embedding 大小為40 時(shí),模型在Avazu 數(shù)據(jù)集表現(xiàn)最好,此時(shí),Embedding 向量能夠較好地表示原始特征。所以,Ebedding 向量的大小并不是越大越好。

        表3 嵌入向量維度對(duì)FIFM 性能影響

        3 結(jié)語

        本文從特征重要性的角度出發(fā),將擠壓提取網(wǎng)絡(luò)和注意力機(jī)制應(yīng)用到特征預(yù)處理中,能夠根據(jù)不同的輸入樣例自適應(yīng)地學(xué)習(xí)特征組合。通過聚合特征的全局信息,并從bit-wise 和vector-wise 不同的細(xì)粒度為特征計(jì)算權(quán)重,學(xué)習(xí)特征的動(dòng)態(tài)感知因子。通過在兩個(gè)真實(shí)數(shù)據(jù)集上驗(yàn)證模型的效果,證明FIFM 和Deep FIFM 的性能優(yōu)于其他基線模型,提升了廣告點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確率。

        本文主要從廣告特征交叉的角度進(jìn)行模型設(shè)計(jì),但沒有考慮到廣告的位置信息以及用戶歷史交互行為信息。未來可以使用位置編碼和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)處理這部分的特征信息,進(jìn)一步提升模型性能。

        猜你喜歡
        注意力權(quán)重向量
        向量的分解
        讓注意力“飛”回來
        聚焦“向量與三角”創(chuàng)新題
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        日本乱子人伦在线视频| 伊人加勒比在线观看视频| 日本精品久久久久中文字幕| 永久免费看啪啪网址入口| 亚洲AV永久青草无码性色av| 国产成人高清精品亚洲一区| 国产熟女一区二区三区不卡| 国产男女猛烈无遮挡免费网站| 中国精品久久精品三级| 自拍视频国产在线观看| 人妖一区二区三区视频| 久久久久亚洲av成人网人人网站| 日韩AV不卡六区七区| 国产麻豆精品久久一二三| 精品少妇一区二区三区免费| 青草内射中出高潮| 手机在线精品视频| 中文字幕久久人妻av| 国产内射爽爽大片| 内射无码专区久久亚洲| 亚洲精品国产老熟女久久| 丝袜美腿在线播放一区二区| 国产成人精品无码一区二区三区| 精品国产乱码久久久久久口爆网站| 欧美精品高清在线xxxx| 中文字幕乱码亚洲在线| 精品无码国产一区二区三区av| 国内精品大秀视频日韩精品| 日韩精品中文字幕免费人妻| av一区二区三区在线| 色婷婷综合久久久久中文| 无码人妻丝袜在线视频| 香港三级日本三韩级人妇久久| 18黑白丝水手服自慰喷水网站| av鲁丝一区鲁丝二区| 国产午夜在线观看视频| 国产高清在线精品一区app| 欧美亚洲精品一区二区| 精品理论一区二区三区| 国产午夜视频在线观看.| 永久免费观看国产裸体美女|