亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于歷史行為與高低階特征的點擊率預(yù)估模型

        2023-05-29 10:19:38凱,沈
        軟件導(dǎo)刊 2023年5期
        關(guān)鍵詞:物品注意力向量

        王 凱,沈 艷

        (成都信息工程大學(xué) 計算機(jī)學(xué)院,四川 成都 610025)

        0 引言

        推薦系統(tǒng)可在信息過載的情況下為用戶快速高效地推薦想要的信息。點擊率(Click Through Rate,CTR)預(yù)估是推薦系統(tǒng)的重要組成部分,其是基于用戶信息、物品信息和其他信息預(yù)測用戶對指定目標(biāo)物品產(chǎn)生點擊或不點擊的行為。通常情況下,CTR 預(yù)估模型基于傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)建,以邏輯回歸[1]和因子分解機(jī)(Factorization Machine,F(xiàn)M)[2]為代表,在數(shù)據(jù)稀疏和用戶冷啟動的情況下,模型很難學(xué)習(xí)到有用的信息并作出預(yù)測,極大地影響了預(yù)測準(zhǔn)確性,而且在面對非結(jié)構(gòu)化數(shù)據(jù),如圖像、視頻等時也不能從中提取特征信息。近年來,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于各個行業(yè),作為廣告、搜索、推薦業(yè)務(wù)核心的 CTR 預(yù)估模型也借助深度學(xué)習(xí)技術(shù)獲得了質(zhì)的提升。

        1 相關(guān)研究

        CTR 預(yù)估模型要處理的特征信息包括用戶特征、待預(yù)測物品特征、上下文特征和用戶的歷史行為4 類特征數(shù)據(jù),這4 類特征的提取會極大地影響預(yù)測準(zhǔn)確性。與傳統(tǒng)機(jī)器學(xué)習(xí)模型相比,基于深度學(xué)習(xí)的CTR 預(yù)估模型可在數(shù)據(jù)稀疏的情況下挖掘出復(fù)雜的特征信息,并根據(jù)實際業(yè)務(wù)進(jìn)行結(jié)構(gòu)調(diào)整,從而更加符合現(xiàn)實推薦場景[3]。例如,文獻(xiàn)[4]提出的Deep Crossing 模型采用Embedding+MLP(Multilayer Perceptron)結(jié)構(gòu),使用多層神經(jīng)網(wǎng)絡(luò)對特征進(jìn)行深度交叉,加強(qiáng)了特征提取能力;文獻(xiàn)[5]提出Wide & Deep Learning 模型,其結(jié)合線性模型的記憶能力和 深度神經(jīng)網(wǎng)絡(luò)模型的泛化能力,提升了模型整體性能,并成功應(yīng)用至 Google Play 的APP 推薦業(yè)務(wù);文獻(xiàn)[6]分別提出Deep-FM 模型,結(jié)合了推薦系統(tǒng)的FM 和深度神經(jīng)網(wǎng)絡(luò)中的特征學(xué)習(xí)能力,相比于Wide&Deep Learning 模型,DeepFM 模型只需要原始特征,不需要特征工程;文獻(xiàn)[7]在DeepFM 的基礎(chǔ)上利用分層注意力機(jī)制處理來自不同層次的特征,在使用神經(jīng)網(wǎng)絡(luò)提取高階特征的同時提取低階特征模塊,然而并沒有引入用戶的歷史行為特征;文獻(xiàn)[8]使用注意力機(jī)制捕獲待預(yù)測的目標(biāo)物品與用戶歷史行為之間的聯(lián)系,文獻(xiàn)[9]則考慮到歷史行為背后的時序信息,使用門循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Units,GRU)對用戶歷史行為進(jìn)行特征提取,但忽視了歷史行為內(nèi)部之間的聯(lián)系,從而造成歷史行為特征提取能力不足,同時也沒有考慮低階特征的構(gòu)建;文獻(xiàn)[10]首先使用自注意力機(jī)制處理歷史行為特征,在此基礎(chǔ)上采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取特征,雖然加強(qiáng)了高階特征提取能力,但沒有構(gòu)建低階特征;文獻(xiàn)[11]在DeepFM 的基礎(chǔ)上增加了一個高階顯示特征交叉模塊,以彌補(bǔ)FM 只能進(jìn)行二階特征組合的不足,但其沒有考慮不同特征對預(yù)測結(jié)果的影響,也忽略了用戶的歷史行為;文獻(xiàn)[12]提出AFM 模型,即在FM 模型的預(yù)測層與特征交叉層之間加入注意力網(wǎng)絡(luò),通過該網(wǎng)絡(luò)計算出每個特征的權(quán)重并利用Softmax 函數(shù)進(jìn)行加權(quán)求和得到最終特征向量;文獻(xiàn)[13]首次將Transformer[14]引入到推薦模型中,基于用戶歷史進(jìn)行推薦,但沒有提取其他特征;文獻(xiàn)[15]利用Transformer 提取用戶歷史行為特征,同時將其他特征與歷史行為特征進(jìn)行組合后預(yù)測;文獻(xiàn)[16]在提取用戶歷史行為信息的基礎(chǔ)上將用戶特征、上下文特征等特征納入進(jìn)來,并且使用注意力計算不同特征對預(yù)測結(jié)果的影響程度;文獻(xiàn)[17]將用戶序列分為長期和短期行為,使用Transformer 提取長短期行為特征,在最后一層融合兩種特征進(jìn)行預(yù)測;文獻(xiàn)[18]認(rèn)為Transformer 的復(fù)雜結(jié)構(gòu)在推薦領(lǐng)域中會帶來過擬合的風(fēng)險,因此對Transformer 進(jìn)行改進(jìn),使用濾波算法代替Transformer 中的多頭注意力層,提升了序列推薦性能,但忽視了低階特征對預(yù)測的貢獻(xiàn)。

        為克服現(xiàn)有模型對用戶歷史行為特征能力提取不足、忽視低階特征構(gòu)建、不同特征缺乏有效融合的問題,本文提出一種CTR 預(yù)估模型TDFA(TransDeepFM-Attention-Based)。該模型使用Transformer 網(wǎng)絡(luò)對歷史行為序列進(jìn)行特征提取,考慮到歷史行為中每個項目與預(yù)測目標(biāo)的關(guān)聯(lián)程度,使用注意力機(jī)制計算歷史中每個行為與預(yù)測目標(biāo)的相關(guān)性,并通過加權(quán)求和得到用戶的歷史行為特征;然后將用戶歷史行為特征與其他特征輸入多層神經(jīng)網(wǎng)絡(luò)獲取高階特征,同時采用FM 模塊獲取低階特征;最終在以上基礎(chǔ)上通過添加全局注意力層計算得到高、低階特征權(quán)重值,獲取CTR 預(yù)估值。TDFA 模型綜合考慮了用戶歷史行為和高低階特征信息,并且使用注意力機(jī)制有效融合高低階特征,提升了預(yù)測準(zhǔn)確性。

        2 TDFA模型

        2.1 CTR預(yù)估問題定義

        CTR 預(yù)估模型的輸入數(shù)據(jù)可分為4 類,即用戶信息User_profile、待預(yù)測物品信息Item_info、上下文信息Context和用戶歷史行為序列User_history。用戶信息指人口屬性描述,如年齡、性別、職業(yè)等;物品信息包括id、類別等;上下文信息指環(huán)境特征,如時間、天氣、節(jié)日等;用戶歷史行為則是一個由物品信息構(gòu)成的序列。CTR 預(yù)估問題可定義為:

        通過輸入4 類特征輸出預(yù)測值,并將物品的預(yù)測值排序后取top-k 個物品作為該用戶的推薦列表。

        2.2 模型結(jié)構(gòu)

        本文提出的TDFA 模型結(jié)構(gòu)如圖1 所示,分為5 層結(jié)構(gòu)。第一層為輸入層,第二層為嵌入層;第三層為特征提取層,該層分為高階特征部分和低階特征部分,其中高階特征部分包含Transformer 網(wǎng)絡(luò)、局部注意力層、拼接層和全連接層,低階特征為FM 模塊;兩部分得到的輸出在第4層全局注意力層結(jié)合后輸入到第5層的輸出層中進(jìn)行CTR預(yù)測。

        2.2.1 輸入層

        模型的輸入數(shù)據(jù)由用戶社會屬性、上下文信息、目標(biāo)物品信息和用戶歷史行為數(shù)據(jù)組成,這4 部分?jǐn)?shù)據(jù)又分為數(shù)值型數(shù)據(jù)和類別型數(shù)據(jù)兩類。采用one-hot 或multi-hot編碼將數(shù)據(jù)轉(zhuǎn)換為向量[18]。以用戶屬性數(shù)據(jù)為例,用戶屬性數(shù)據(jù)包含年齡、性別、職業(yè)等特征域,每個特征域用一個向量v*表示,則用戶特征可表示為:

        Fig.1 Overall structure of the TDFA model圖1 TDFA模型整體結(jié)構(gòu)

        例如性別特征中男女為類別型數(shù)據(jù),采用one-hot 編碼將男編碼為[1,0]、女編碼為[0,1]。如果特征v*為數(shù)值型數(shù)據(jù),如年齡,則將其離散化處理成類別型數(shù)據(jù),然后轉(zhuǎn)換為one-hot 向量,在輸入層分別可以得到用戶特征向量Vuser,目標(biāo)物品向量Vtarget_item,上下文特征Vcontext和用戶歷史行為序列Vhistory_item=[vh1,vh2,vh3,…,vhn],其中vhn表示該用戶點擊(觀看、購買等交互行為)過的物品向量。

        2.2.2 嵌入層

        One-hot 編碼的特點是向量長度為該特征域下所有特征的數(shù)目。以特征域職業(yè)為例,如果職業(yè)分為老師、醫(yī)生、程序員、公務(wù)員和其他人員5 類,那么one-hot 向量即為五維,對應(yīng)特征位標(biāo)1,其余位置標(biāo)為0。因此,通過輸入層進(jìn)行one-hot 編碼處理得到的特征向量的主要問題是向量維度過大,特征數(shù)據(jù)高度稀疏,這將造成模型欠擬合。嵌入層的作用就是將高維稀疏的特征向量轉(zhuǎn)換為低維稠密的嵌入向量,其轉(zhuǎn)換規(guī)則為:

        式中,v*為one-hot 或multi-one 向量,M*為嵌入層為該特征學(xué)習(xí)到的一個權(quán)重矩陣M*∈Rn×d。通過嵌入矩陣M*的轉(zhuǎn)換,n維向量v*轉(zhuǎn)換為d維的嵌入向量e*,d<<n。例如特征域下有老師、醫(yī)生、程序員3 類,嵌入向量維度為2維,假設(shè)特征為老師,one-hot 處理后得到[1,0,0],經(jīng)過嵌入層轉(zhuǎn)換為[0.3,0.7],如圖2所示。

        因此,由輸入層得到的4 類特征Vuser、Vtarget_item、Vcontext、Vhistory_item經(jīng)過嵌入層后可表示為:

        Fig.2 Example of embedding vector圖2 嵌入向量舉例

        2.2.3 特征提取層

        (1)Transformer 網(wǎng)絡(luò)。在CTR 預(yù)估領(lǐng)域中,用戶的興趣隱藏在該用戶的歷史行為中且用戶的歷史行為是一個時間序列,序列中的每個物品代表了該用戶的購買或觀看行為。例如在電商網(wǎng)站的購買行為中,某用戶購買鍵盤后,那么該用戶接下來購買鼠標(biāo)、內(nèi)存條的概率明顯大于購買其他類型商品的概率,對這樣的序列信息進(jìn)行挖掘可以使模型學(xué)習(xí)到用戶從購買某物品到購買另一物品背后隱藏的動機(jī),使系統(tǒng)推薦更加準(zhǔn)確。Transformer 網(wǎng)絡(luò)起源于機(jī)器翻譯領(lǐng)域,可以學(xué)習(xí)到單詞與單詞之間互相包含的聯(lián)系。將Transformer 引入推薦系統(tǒng),可以加強(qiáng)對用戶歷史行為特征的提取能力。本文中Transformer 網(wǎng)絡(luò)由位置編碼、多頭自注意力、殘差&層歸一化和一維卷積網(wǎng)絡(luò)(Conv1D)組成,結(jié)構(gòu)由圖3所示。

        不同于循環(huán)神經(jīng)網(wǎng)絡(luò)的順序輸入,Transformer 是并行處理輸入信息的,這就導(dǎo)致Transformer 丟棄了序列中的順序信息,因此本文采用時間表示序列前后順序,將時間差分桶化后作為特征同樣轉(zhuǎn)換為Embedding 向量,拼接到用戶的歷史序列中,表示為:

        Fig.3 Transformer structure圖3 Transformer結(jié)構(gòu)

        式中,eh表示物品向量,et表示時間向量,將eh與et拼接后得到帶有時間信息的向量eht。

        注意力的計算公式為:

        式中,Q表示查詢向量,K表示關(guān)鍵字向量,V表示值向量。Q、K、V的計算過程如下:將用戶歷史行為Eh通過線性投影得到對應(yīng)的權(quán)重矩陣WQ、WK、WV,則查詢向量Q=EhWQ,K=EhWK,V=EhWV??s放因子d表示輸入向量的維度。

        多頭注意力機(jī)制是將權(quán)重矩陣WQ、WK、WV按照頭數(shù)(head)分為x套,這樣對于Eh就有x套Q、K、V向量,每套參數(shù)各自進(jìn)行式(6)的注意力計算,共計算x次,最后將x次的計算結(jié)果進(jìn)行拼接。多頭注意力的計算公式為:

        式中,(1≤i≤x)表示第套參數(shù),WO為可學(xué)習(xí)的參數(shù)矩陣。多頭注意層的輸出采用s表示。

        層歸一化操作有利于穩(wěn)定和加速神經(jīng)網(wǎng)絡(luò);殘差網(wǎng)絡(luò)的核心思想是通過加入一個殘差連接將原始低階的特征輸入到高階,能保留原始序列特征。殘差和層歸一化表示為:

        式中,正則化(Dropout)用于緩解神經(jīng)網(wǎng)絡(luò)過擬合問題。

        多頭注意力網(wǎng)絡(luò)是對輸入特征數(shù)據(jù)進(jìn)行線性變換。為增強(qiáng)模型的非線性變換能力,將多頭注意力層的輸出送入兩層一維卷積網(wǎng)絡(luò)(Conv1D),同時添加殘差和層歸一化,公式為:

        式中,W1、b1和W2、b2分別為兩層卷積網(wǎng)絡(luò)的權(quán)重系數(shù)和偏置項。

        至此,用戶歷史行為序列Eh經(jīng)過Transformer 網(wǎng)絡(luò)后轉(zhuǎn)換為Fh=[t1,t2,t3,…,tn]。

        (2)局部注意力層。在推薦場景中,并不是用戶歷史序列中的每個項目都與待推薦的項目有關(guān),注意力機(jī)制可以基于待推薦的目標(biāo)物品為歷史序列中的每個物品分配一個權(quán)重。通過一個全連接層計算出Fh每個歷史項目的初始權(quán)重,使用Softmax 函數(shù)進(jìn)行處理得到最終權(quán)重值,計算過程如圖4所示。

        Fig.4 Final weight calculation process圖4 最終權(quán)重計算過程

        首先將目標(biāo)項目與歷史序列Fh中的每個項目通過式(11)進(jìn)行拼接:

        將式(11)的結(jié)果送入全連接層,使用PReLU 激活函數(shù)進(jìn)行處理,表示為:

        式中,Wt和bt分別為權(quán)重系數(shù)和偏置項。然后使用Softmax 函數(shù)對式(12)結(jié)果進(jìn)行處理,表示為:

        最后對用戶歷史序列進(jìn)行加權(quán)求和,得到最終用戶歷史特征向量H,表示為:

        (3)拼接層。在該層中將用戶特征euser、目標(biāo)物品特征etarget_item、上下文特征econtext與經(jīng)過Transformer 和局部注意力層得到的用戶歷史特征H進(jìn)行拼接,表示為:

        (4)全連接層。通過全連接層對特征向量中的各個維度進(jìn)行充分交叉組合,挖掘出更多非線性特征和復(fù)雜的交叉特征信息,使模型具有更強(qiáng)的表達(dá)能力。堆疊多個全連接層的計算公式為:

        式中,yl為第l層的輸出,yl-1為第l-1 層的輸出,Wl為該層的全連接層權(quán)重系數(shù)矩陣,bl為該層的偏置向量。全連接層共k層,每層均使用PreLU 激活函數(shù),最終經(jīng)過全連接層的輸出表示為ydnn。

        (5)FM。FM 用于解決二階特征交叉問題,本文模型包含一階線性特征部分和二階特征交叉部分,表示為:

        具體來說,F(xiàn)M 為每個特征都學(xué)習(xí)到了一個隱向量v,在進(jìn)行特征交叉時使用兩個特征對應(yīng)的隱向量內(nèi)積作為交叉特征的權(quán)重。DeepFM 模型中的FM 部分與deep 部分共享特征的嵌入層,即將式(17)中的vi·vj替換為對應(yīng)特征的嵌入向量點積ei·ej,表示為:

        2.2.4 全局注意力層

        目前已經(jīng)得到通過多個全連接層輸出的高階特征向量ydnn,以及通過FM 模塊得到的一階線性特征和二階交叉特征的組合特征向量yfm。Wide&Deep 和DeepFM 模型已經(jīng)證明了融合高低階特征可以提高模型的預(yù)測準(zhǔn)確度,但是DeepFM 模型同等看待兩個子模塊,而高階特征和低階特征對預(yù)測的影響程度是不同的。為此,本文添加注意力層為兩種特征賦予權(quán)重,以衡量在預(yù)測不同目標(biāo)物品時高低階特征影響的重要程度。將ydnn和yfm送入全連接層,使用tanh 激活函數(shù)計算出每個分量的注意力得分α1、α2,然后使用Softmax 函數(shù)進(jìn)行處理,最后將兩個輸入分量進(jìn)行加權(quán)融合得到全局特征Y,計算公式如下:

        2.2.5 輸出層

        Sigmoid 函數(shù)的值域在0~1 之間,與CTR 的物理意義相符合。全局特征Y仍然是特征向量,只使用一個神經(jīng)元。沒有激活函數(shù)的全連接層(Dense)將Y轉(zhuǎn)換為一個標(biāo)量Y'(見式(22)),然后輸入到Sigmoid 函數(shù)中,得到模型對于目標(biāo)物品預(yù)測的CTR(見式(23))。

        2.3 模型訓(xùn)練的損失函數(shù)

        損失函數(shù)表示真實值與預(yù)測值的差距,模型訓(xùn)練的目標(biāo)是最小化損失函數(shù)值。本文模型訓(xùn)練采用推薦系統(tǒng)和CTR 預(yù)估模型常用的對數(shù)似然函數(shù),表示為:

        式中,y∈{0,1},表示真實標(biāo)簽值,在本次實驗的訓(xùn)練樣本中,標(biāo)簽1 表示點擊,0 表示未點擊;y'∈(0,1),表示模型預(yù)測的CTR 值。

        3 實驗方法與結(jié)果分析

        3.1 實驗環(huán)境

        本次實驗編程語言使用Python3.8 和Tensorflow2.2 框架,在操作系統(tǒng)為Windows10、內(nèi)存16G、顯卡型號為GTX 1050Ti的計算機(jī)上進(jìn)行實驗。

        3.2 數(shù)據(jù)集和評估指標(biāo)

        亞馬遜產(chǎn)品數(shù)據(jù)集包含亞馬遜各類商品數(shù)據(jù),有19萬個用戶、6 萬個商品、800 多個類別。選取該數(shù)據(jù)集下的電子數(shù)據(jù)子集,分為reviews_Electronics 和meta_Electronics兩個文件,其中reviews_Electronics 記錄了用戶的評價信息,包括評論者id、商品id、產(chǎn)品評級等信息,meta_Electronics 記錄了商品信息,包括商品id、類別等信息。用戶的所有行為都是有順序的,可以通過前k-1 個商品的點擊情況預(yù)測用戶是否會點擊第k個商品。在本次實驗中,為了得到更多特征,對用戶的點擊時間進(jìn)行處理后得到月份、季節(jié)等上下文特征。Electronics 數(shù)據(jù)集只有用戶的點擊數(shù)據(jù),為引入負(fù)樣本,將某用戶點擊過的物品從全部物品集中剔除后,隨機(jī)選取與用戶點擊過的物品數(shù)量相等的物品作為負(fù)樣本,使數(shù)據(jù)集正負(fù)樣本比例達(dá)到1∶1。經(jīng)過處理之后得到239.48 萬條訓(xùn)練集、41.91 萬條驗證集和17.96 萬條測試集。

        Movielens-1M 是一個廣泛應(yīng)用于推薦模型訓(xùn)練的數(shù)據(jù)集,包含6 040 個用戶對3 883 部電影共100 萬條評分記錄,評分范圍為1~5。為適應(yīng)CTR 預(yù)估問題,將4 分及以上劃分為正樣本,4 分以下劃為負(fù)樣本。與Electronics 數(shù)據(jù)集一樣,將前k-1 個觀影記錄作為歷史序列,用于預(yù)測第k個電影的CTR。處理之后得到69.59 萬條訓(xùn)練數(shù)、20.88 萬條驗證數(shù)據(jù)和8.95萬條測試數(shù)據(jù)。

        淘寶用戶行為數(shù)據(jù)集是阿里巴巴提供的一個淘寶用戶行為數(shù)據(jù)集,包含2017 年11 月25 日-12 月3 日有行為的約100萬隨機(jī)用戶的所有行為,包括點擊、購買、加購、喜歡,本實驗僅使用點擊行為。受計算資源限制,本文僅選取id前10萬用戶的點擊記錄。經(jīng)過處理后得到1 227.74萬條訓(xùn)練數(shù)據(jù)、368.3萬條驗證數(shù)據(jù)和157.85萬條測試數(shù)據(jù)。

        數(shù)據(jù)集總體統(tǒng)計信息如表1所示。

        Table 1 Dataset overall statistics information表 1 數(shù)據(jù)集總體統(tǒng)計信息

        使用AUC(Area Under Roc Curve)[19]和LogLoss(交叉熵?fù)p失)[20]兩個指標(biāo)評估模型性能,其中AUC 為CTR 預(yù)估模型的常用評價指標(biāo),其值為處于ROC 曲線(Receiver Operating Characteristic Curve)下方面積的大小,AUC 值越大表示模型性能越佳;LogLoss 表示真實值與預(yù)測值之間的差距,其值越小表示模型預(yù)測性能越佳。

        3.3 參數(shù)設(shè)置

        TDFA 模型參數(shù)如表2 所示,其中dim 表示Embedding向量維度大小,在{16,32,64,128}中選擇;seq_len 表示用戶歷史序列長度,超過此長度截取,不足時添加0 來補(bǔ)充,在{20,50,100}中選擇;lr 為學(xué)習(xí)率,dropout 為丟棄率,mlp_shape 為全連接層的層數(shù)和每層包含的神經(jīng)元個數(shù);Transformer 中的head_num 和blocks 分別表示多頭注意力的頭數(shù)和Transformer 堆疊的次數(shù)。為防止過擬合,采用L2正則化。在3 種數(shù)據(jù)集上進(jìn)行實驗時采用統(tǒng)一參數(shù)設(shè)置。

        Table 2 Experimental parameter settings of TDFA model表 2 TDFA模型實驗參數(shù)設(shè)置

        3.4 實驗結(jié)果與分析

        為了評估TDFA 模型的性能,采用DNN[4]、DeepFM[6]、DIN[8]、DIEN[9]、MIAN[16]模型與之進(jìn)行比較。同時,為了驗證Transformer 在序列建模中的優(yōu)越性,設(shè)計與傳統(tǒng)序列網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、長短期記憶人工神經(jīng)網(wǎng)絡(luò)LSTM、GRU 的比較實驗,即采用RNN 替換Transformer 部分并將模型命名為RDFA,采用LSTM 替換Transformer 命名為LDFA,采用GRU 替換Transformer 命名為GDFA。實驗結(jié)果見表3—表5 所示??梢钥闯觯琓DFA 模型在3 個數(shù)據(jù)集上的AUC 和Logloss 指標(biāo)均優(yōu)于其他模型。在Electronics 數(shù)據(jù)集上,與DeepFM、DIN、DIEN、MIAN 模型相比,TDFA 模型的AUC 平均提升了1.16%,Logloss 平均降低了5.4%;在Movielens-1M 數(shù)據(jù)集上,TDFA 模型的AUC 平均提升了1.51%,Logloss 平均降低了3.51%;在淘寶數(shù)據(jù)集上,TDFA模型的AUC 平均提升了1.10%,Logloss 平均降低了3.73%。此外,使用RNN、GRU 和LSTM 代替Transformer 時,模型性能下降明顯,證明了Transformer 在序列行為上強(qiáng)大的表征能力,優(yōu)于傳統(tǒng)循環(huán)網(wǎng)絡(luò)。

        Table 3 Performance of each model on the Electronics dataset表3 各模型在Electronics數(shù)據(jù)集上的表現(xiàn)

        Table 4 Performance of each model on the Movielens-1m dataset表4 各模型在Movielens-1m數(shù)據(jù)集上的表現(xiàn)

        Table 5 Performance of each model on Taobao dataset表5 各模型在淘寶數(shù)據(jù)集上的表現(xiàn)

        為了證明TDFA 模型關(guān)鍵部分設(shè)計的有效性,分別采用去除全局注意力層、去除FM 模塊、去除Transformer 模塊等方式在3 個數(shù)據(jù)集上進(jìn)行消融實驗,結(jié)果如表6 所示。可以看出,在去掉全局注意力層時,AUC 指標(biāo)分別下降0.52%、1.08%、0.11%,這是由于高低階特征對預(yù)測結(jié)果的影響程度是不一樣的,使用注意力機(jī)制為兩種特征分配權(quán)重可有效融合兩種特征,提升模型的預(yù)測精度;在去掉FM模塊時,AUC 分別下降1.26%、1.58%、1.48%,這是由于經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理的特征消解了原始特征中的有效信息,弱化了模型的記憶能力,使用FM 模塊獲取低階特征信息可以作為深度模型的有效補(bǔ)充,提升預(yù)測準(zhǔn)確度;在去掉Transfomer 模塊時,AUC 指標(biāo)下降比較明顯,分別下降了3.21%、2.71%、4.43%,這是由于如果去除了Transformer,即摒棄了用戶歷史行為這一重要特征信息,會明顯降低模型性能。以上實驗證明了模型各個關(guān)鍵部件對預(yù)測的有效性。

        Table 6 Ablation experiment results表6 消融實驗結(jié)果

        4 結(jié)語

        針對以往推薦模型中對用戶歷史行為特征提取能力不足、忽略低階特征交叉的問題,本文提出TDFA 模型。該模型首先使用自注意力方法獲取用戶歷史行為之間的關(guān)系;然后將歷史行為與預(yù)測目標(biāo)進(jìn)行關(guān)聯(lián)得到用戶歷史行為特征,將用戶歷史行為特征與其他特征一起送入多層神經(jīng)網(wǎng)絡(luò)得到高階特征,同時增加FM 模塊提取低階特征,添加全局注意力為高低階特征分配權(quán)重;最后在3 個公開數(shù)據(jù)集上證明了TDFA 模型的優(yōu)越性。后續(xù)計劃將用戶歷史行為區(qū)分為長期和短期行為分別進(jìn)行研究,同時加強(qiáng)用戶歷史行為的特征提取能力或增加子模塊提取更多特征交叉信息,以獲得更加精準(zhǔn)的推薦模型。

        猜你喜歡
        物品注意力向量
        稱物品
        向量的分解
        讓注意力“飛”回來
        聚焦“向量與三角”創(chuàng)新題
        “雙十一”,你搶到了想要的物品嗎?
        誰動了凡·高的物品
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        青青草手机在线免费视频| 日韩AV无码乱伦丝袜一区| 九九99久久精品在免费线97| 久久精品国产亚洲av热九九热| 少妇性l交大片免费快色| 青草草视频在线观看华人免费| 六月婷婷亚洲性色av蜜桃| 免费人妻精品区一区二区三| 亚洲一区二区三区色偷偷| av网站大全免费在线观看| 精品久久久久久综合日本| 人妻少妇中文字幕乱码| 国产真实老熟女无套内射| 激情偷乱人伦小说视频在线| 香蕉成人啪国产精品视频综合网 | 论理视频二区三区四区在线观看 | 日本中文字幕官网亚洲| 国产饥渴的富婆一凶二区| 国产精品亚洲lv粉色| 纯爱无遮挡h肉动漫在线播放| 日韩欧美亚洲综合久久影院d3| 51精品视频一区二区三区| 精品理论一区二区三区| 人妻体体内射精一区中文字幕 | 日本办公室三级在线观看| 精品国品一二三产品区别在线观看| 97色伦综合在线欧美视频| 色猫咪免费人成网站在线观看| 日日摸夜夜添夜夜添一区二区| 国产福利小视频91| 亚洲三区av在线播放| 久久99精品国产麻豆| 国产亚洲日韩在线一区二区三区| 日日摸夜夜添无码无码av| 亚洲国产精品久久久久婷婷软件| 婷婷色精品一区二区激情| 人妻夜夜爽天天爽| 亚洲人成网站77777在线观看 | 特黄特色的大片观看免费视频| 日韩欧美国产丝袜视频| 国产真实二区一区在线亚洲|