亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測模型

        2022-05-10 08:45:38蔣興渝黃賢英陳雨晶
        關(guān)鍵詞:殘差向量重要性

        蔣興渝,黃賢英,陳雨晶,徐 福

        (重慶理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,重慶 400054)

        1 引 言

        在廣告行業(yè)中,當(dāng)下流行的計費(fèi)模式之一是廣告主向廣告發(fā)布商按照每產(chǎn)生一次點(diǎn)擊進(jìn)行計費(fèi)(Cost Per Click).在這種模式下,提升點(diǎn)擊率預(yù)測的準(zhǔn)確度,不但會影響廣告主和廣告目標(biāo)客戶對廣告發(fā)布商的認(rèn)可度,而且很大程度上影響了廣告發(fā)布商的收入,因此提升CTR預(yù)測準(zhǔn)確率已經(jīng)成為大規(guī)模廣告推薦的關(guān)鍵任務(wù).

        目前學(xué)術(shù)和工業(yè)界針對該任務(wù)提出的預(yù)測模型主要可以分為兩類:傳統(tǒng)預(yù)測模型和基于深度學(xué)習(xí)的預(yù)測模型.其中傳統(tǒng)模型如:協(xié)同過濾(Collaborative Filtering,CF)[1]通過設(shè)立用戶和物品的共同評分矩陣進(jìn)行預(yù)測,邏輯回歸(Logistic Regression,LR)[2]學(xué)習(xí)每個用戶、商品特征的參數(shù)得到預(yù)測結(jié)果,Polynomial-2(Poly2)[3]在LR的基礎(chǔ)上通過特征之間的交互矩陣參數(shù)解決了特征交互問題,基于梯度提升樹模型(Gradient Boost Decision Tree,GBDT)[4]考慮了特征之間的熵關(guān)系,以及利用矩陣分解為每個特征設(shè)置隱向量來進(jìn)行交互的基于因子分解機(jī)(Factorization Machine,F(xiàn)M)[5]和改進(jìn)FM利用特征域使特征交互更準(zhǔn)確的域感知因子分解機(jī)(Field Factorization Machine,F(xiàn)FM)[6],除此之外還有FaceBook發(fā)布的GBDT+LR[7]組合模型.由于這類模型提出的時期較早,只考慮了對低階特征的學(xué)習(xí),未能使用深度神經(jīng)網(wǎng)絡(luò)挖掘低階特征的高階信息,限制了模型的預(yù)測能力.

        近年來隨著深度學(xué)習(xí)在各個領(lǐng)域上取得的重大成功,業(yè)內(nèi)學(xué)者和工程師提出了許多基于深度學(xué)習(xí)的CTR模型,因此利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)預(yù)測廣告點(diǎn)擊率已然成為該行業(yè)的研究趨勢.隨之出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的因子分解機(jī)(Factorization-Machine Supported Neural Networks,F(xiàn)NN)[8],Wide&Deep(WDL)[9],深度因子分解機(jī)(Factorization-machine based neural network,DeepFM)[10],xDeepFM[11]等.這類模型的重點(diǎn)是通過神經(jīng)網(wǎng)絡(luò)對高階特征之間的關(guān)系進(jìn)行擬合,從而提升模型的預(yù)測準(zhǔn)確率,卻忽略了提取低階特征時不同特征交互所含的重要性不同等問題,限制了深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的高階特征表達(dá).對于特征交互重要性問題,AFM[12]提出將注意力機(jī)制引入到特征交叉模塊,使其能夠顯式地學(xué)習(xí)出每種交互特征的重要性,但這種方式?jīng)]有考慮到特征交互時引入的干擾信息并且只考慮了特征兩兩交互的情況,因此預(yù)測準(zhǔn)確度的提升十分有限.

        針對以往模型提取特征重要性的不足[10-13],僅僅使用復(fù)雜的深度網(wǎng)絡(luò)模型不但會增加計算資源的消耗,存在網(wǎng)絡(luò)退化、梯度爆炸、梯度消失等隱患,而且難以從具有干擾的特征信息里學(xué)習(xí)到更多有效交互特征.為此,本文提出了一種特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測模型(Feature Importance Dynamic Extraction Supported Gating-Residual Network,F(xiàn)IDE).該模型的基本思想是:在提取的特征重要性之前增加門控機(jī)制(Gating Mechanism)對特征信息進(jìn)行篩選避免引入干擾信息;為了獲得多個特征之間交互的重要性,遷移使用了一種來自圖像的特征重要性提取方法SENet[14]計算特征重要性交互并將其與原始一階特征融合;然后通過雙線性方法對融合特征進(jìn)一步交互,最后利用門控和殘差(Residual)[15]結(jié)合方法構(gòu)建出更深的網(wǎng)絡(luò)獲得更高階的特征交互.

        本文的主要貢獻(xiàn)如下:

        1)提出一種特征重要性動態(tài)提取的CTR預(yù)測模型FIDE.巧妙地結(jié)合了SENet、門控機(jī)制和殘差方法,用于特征重要性的提取.

        2)提出的FIDE在提取特征重要性的過程中,考慮了特征中的干擾信息,通過門控機(jī)制實(shí)現(xiàn)了特征重要性的動態(tài)篩選;

        3)提出的FIDE在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時通過使用殘差和門控機(jī)制,動態(tài)獲取特征高階信息,一定程度上抑制了隨著網(wǎng)絡(luò)層數(shù)的加深出現(xiàn)的網(wǎng)絡(luò)退化和梯度問題.

        2 相關(guān)工作

        在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的發(fā)展對其它計算機(jī)視覺任務(wù)如目標(biāo)檢測[16]和語義分割[17]都起到推動作用,而卷積核作為卷積神經(jīng)網(wǎng)絡(luò)的核心,通常被認(rèn)為是在局部感受野上,將空間(Spatial)信息和特征維度(Channel-Wise)信息進(jìn)行聚合的信息聚合體.在SENet提出之前的卷積操作[18,19]主要是將輸入特征的所有Channel進(jìn)行融合,未能考慮Channel之間的關(guān)系,而SENet的創(chuàng)新在于使模型可以自動學(xué)習(xí)到不同Channel的重要程度.為此,SENet提出了Squeeze-and-Excitation(SE)模塊,該模塊對每個Channel獨(dú)立使用全局平均池化,然后使用兩個非線性的全連接(Fully Connected,F(xiàn)C)層捕獲非線性的跨通道交互作用,并通過一個擠壓函數(shù)生成每個Channel的權(quán)值,最后將提取到的權(quán)值與原始數(shù)據(jù)融合得到具有重要性表示的特征.事實(shí)證明SENet在圖像分類任務(wù)中能夠高效地解決問題,并在當(dāng)年ILSVRC分類任務(wù)中獲得第一名.基于該方法在特征重要性提取上的優(yōu)勢[20-23],本文提出的FIDE通過SENet多特征向量交互信息擠壓來學(xué)習(xí)特征的重要性,使原始特征和重要性特征能夠融合.

        近年來門控機(jī)制在自然語言處理(Natural Language Processing,NLP)任務(wù)中被廣泛應(yīng)用,例如LSTM[24]通過增加隱變量細(xì)胞狀態(tài)(Cell State)記錄信息解決了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[25]的梯度問題,除此之外GRU[26]通過重置門(Reset Gate)和更新門(Update Gate)分別捕捉時間序列里短期和長期的依賴關(guān)系.ABSA-GCN[27]則證明了,門控機(jī)制具有篩選特征的功能,門控機(jī)制相當(dāng)于一個調(diào)節(jié)閥,可以控制流入的信息流量的流入程度,因此通過門控機(jī)制可以自適應(yīng)地使不同粒度的潛在特征用于不同的處理流程.基于門控機(jī)制的特征自適應(yīng)選擇能力,本文在數(shù)據(jù)輸入SENet前利用了門控機(jī)制過濾出重要性信息,使SENet能夠?qū)⒌玫降男畔⒂糜谥匾蕴崛?

        深度學(xué)習(xí)的重點(diǎn)在于其能夠?qū)?shù)據(jù)特征進(jìn)行學(xué)習(xí)抽象,直觀上可以認(rèn)為是在非線性激活函數(shù)的條件下,通過增加網(wǎng)絡(luò)層數(shù)獲得更大的假設(shè)空間,以此更有可能獲得最優(yōu)解.但在實(shí)際應(yīng)用中,更深的神經(jīng)網(wǎng)絡(luò)往往會遇到梯度消失、梯度爆炸以及網(wǎng)絡(luò)退化問題.出現(xiàn)問題的原因在于神經(jīng)網(wǎng)絡(luò)難以在最優(yōu)解層之后的網(wǎng)絡(luò)層中擬合出恒等映射,使得預(yù)測結(jié)果反而偏離了最優(yōu)解,針對這一問題,殘差網(wǎng)絡(luò)通過殘差單元以跳層的形式實(shí)現(xiàn)連接,使得模型可以在獲得最優(yōu)解之后進(jìn)行恒等映射,實(shí)驗(yàn)表明[15],殘差網(wǎng)絡(luò)解決了深度神經(jīng)網(wǎng)絡(luò)的退化問題,并在ImageNet和CIFAR-10等圖像任務(wù)上取得了較大的提升,同等層數(shù)條件下相比前饋神經(jīng)網(wǎng)絡(luò),殘差網(wǎng)絡(luò)收斂速度更快.除此之外,去除個別神經(jīng)網(wǎng)絡(luò)層,殘差網(wǎng)絡(luò)的表現(xiàn)不會受到顯著影響,這一點(diǎn)上與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)有較大差異.受這一思想的影響,在NLP領(lǐng)域,谷歌提出的Transformer[28]的編碼器和解碼器中,每一個子模塊使用了殘差連接用于保留特征信息和防止梯度問題.與文獻(xiàn)[15,28,29]不同的是,本文針對的CTR任務(wù)在使用殘差結(jié)構(gòu)擬合數(shù)據(jù)特征時,能夠在前幾層就獲得最優(yōu)解,這是由于公開數(shù)據(jù)集中特征組相比圖像少,限制了更多預(yù)測的可能性.

        本文以廣告點(diǎn)擊數(shù)據(jù)作為研究對象,在SENet的基礎(chǔ)上采用門控機(jī)制動態(tài)篩選出細(xì)粒度特征重要性,并通過SE模塊進(jìn)一步擠壓提取特征重要性,同時還考慮了原始特征所含的有效信息,結(jié)合兩者得到了含有特征重要性的數(shù)據(jù)表示,最后將其和原始數(shù)據(jù)都進(jìn)行雙線性交互后送入隱藏門控殘差網(wǎng)絡(luò)計算出預(yù)測結(jié)果.本文提出的FIDE主要解決的問題是:以往預(yù)測模型中忽略的特征重要性提取和提取特征時數(shù)據(jù)中的干擾問題,將在第4節(jié)通過實(shí)驗(yàn)證明其能夠解決以上問題并達(dá)到更好的預(yù)測效果.

        3 特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測模型

        本文提出的FIDE目的在于能夠通過細(xì)粒度方式動態(tài)地提取特征重要性和去除數(shù)據(jù)中的干擾.模型結(jié)構(gòu)如圖1所示,為了清楚起見,省略了可以簡單合并的LR[2]部分.FIDE主要包含以下部分:Embedding嵌入層(Embedding Layer),門控SE層(Gating Mechanism and SE Layer,GM-SE Layer),雙線性交互層(Bilinear-Interaction Layer),組合層(Combination Layer),隱藏門控殘差網(wǎng)絡(luò)(Hidden Gating-Residual Network,HGR-DNN),輸出層(Output Layer).其中嵌入層與DeepFM相同,對類別輸入特征采用稀疏特征表示,并將稀疏特征嵌入稠密向量中.門控SE層可以將嵌入層的輸出通過門控機(jī)制得到向量,并利用SE進(jìn)一步擠壓提取獲得特征重要性表示,這有助于增強(qiáng)特征的可分辨性,提升模型對重要特征的學(xué)習(xí)效率.接下來的雙線性交互層分別學(xué)習(xí)原始嵌入特征和具有重要性分辨的嵌入特征的二階特征交互.隨后將這些交互特征通過組合層連接,輸入到隱藏門控殘差網(wǎng)絡(luò)中,最后由隱藏門控殘差網(wǎng)絡(luò)輸出預(yù)測得分.

        圖1 特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測模型

        3.1 Embedding嵌入層

        CTR預(yù)測任務(wù)中,數(shù)據(jù)中的特征通常分為類別特征和數(shù)值特征.由于類別特征不能直接用于數(shù)值計算,因此需要通過獨(dú)熱編碼將類別特征,轉(zhuǎn)換為二進(jìn)制向量表示,以便機(jī)器學(xué)習(xí)算法的處理.例如,在寵物食品廣告中,可以將狗的性別特征按雌雄分別編碼為二維向量[1,0]和[0,1].體型特征按照超大型、大型、中型、小型分別表示為4維向量[0,0,0,1]、[0,0,1,0]、[0,1,0,0]、[1,0,0,0]、[1,0,0,0].但在實(shí)際情況下,類別特征的獨(dú)熱編碼通常是高維且稀疏的.如果直接用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練這樣的高維稀疏特征向量,將帶來難以忍受的計算復(fù)雜度并且會降低模型的泛化能力.因此在輸入深度網(wǎng)絡(luò)訓(xùn)練前,需要將高維稀疏特征向量通過Embedding嵌入層映射為低維稠密向量,這種方法在基于深度學(xué)習(xí)的CTR預(yù)測模型中被廣泛應(yīng)用[8-11].例如一只小型雌性狗的獨(dú)熱編碼為[1,0,0,0,0,1],假設(shè)將這個6維稀疏獨(dú)熱編碼通過一個兩層神經(jīng)網(wǎng)絡(luò),映射為4維的稠密嵌入向量[0.64,0.36,0.4,0.6],其中前兩維[0.64,0.36]表示體型特征,后兩維[0.4,0.6]表示性別特征,這種映射操作可以減少后續(xù)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元數(shù)量和計算開銷.值得注意的是,不同特征對應(yīng)的嵌入向量維度可以有差別.

        嵌入層的輸入為原始數(shù)據(jù)特征的稀疏獨(dú)熱編碼表示,輸出是稠密的原始嵌入向量E=[e1,e2,…,ef],其中f表示特征域的個數(shù),這里的域可以包含多個特征,例如狗的品種特征:博美、牧羊犬、哈士奇、斗牛犬等都屬于品種這一個特征域,ei∈Rk表示第i個域的嵌入向量,k表示嵌入向量的維度.

        3.2 門控SE層

        不同特征對目標(biāo)任務(wù)的重要性是不同的,例如預(yù)測一條化妝品廣告是否能夠被點(diǎn)擊時,通常性別特征比愛好特征具有更高的重要性.由此利用SENet在特征重要性提取上的優(yōu)勢,使模型能夠更加關(guān)注特征的重要性.但SENet在提取特征重要性過程中,對所有特征進(jìn)行擠壓提取,忽略了特征中的干擾問題,又由于門控機(jī)制在NLP領(lǐng)域應(yīng)用中取得的成果[23-27],本文將門控機(jī)制與SENet結(jié)合.使得模型可以通過門控SE層動態(tài)學(xué)習(xí)重要特征的權(quán)重并減少非重要特征的權(quán)重.

        門控SE層的輸入是由嵌入層輸出的嵌入向量E.首先嵌入向量E經(jīng)過門控機(jī)制獲得嵌入向量的門控重要性向量GE=[ge1,ge2,…,gei,…,gef],隨后將向量GE經(jīng)過SE擠壓提取得到特征重要性向量S=[s1,s2,…,si,…,sf],然后將特征交互重要性向量S與原始嵌入向量E融合得到自適應(yīng)重要性嵌入向量C=[c1,c2,…,ci,…,cf],其中g(shù)ei∈Rk表示第i個嵌入向量的門控重要性向量,si∈R表示第i個嵌入向量的交互重要性,ci∈R表示第i個嵌入向量的自適應(yīng)重要性嵌入向量,f表示特征域的個數(shù),k表示嵌入向量的維度.

        門控SE層由4個步驟組成,如圖2所示,圖中fg(·)、fsq(·)、fex(·,W)和fimportance(·,·)分別表示門控過濾、特征擠壓、特征重要性提取以及特征重要性融合步驟.以下是這4個步驟的詳細(xì)過程描述:

        圖2 門控SE層

        1)門控過濾:這一步可以去除原始嵌入向量中的干擾信息,并為原始嵌入向量賦予重要性.門控過濾首先為每個嵌入向量ei計算出特征門控重要性gi,其計算過程如式(1):

        gi=σg(wi·ei)

        (1)

        其中ei∈Rk表示原始嵌入向量,wi表示第i個嵌入向量的重要性學(xué)習(xí)參數(shù),i=1,2,…,f,σg表示門控過濾激活函數(shù).

        然后將過濾后的特征門控重要性gi與相應(yīng)的原始嵌入向量ei融合,生成門控重要性向量gei,計算過程如式(2):

        gei=fg(ei)=ei?gi

        (2)

        其中ei∈Rk表示第i個原始嵌入向量,gi表示第i個門控重要性,i=1,2,…,f,?表示Hadamard積或元素級矩陣計算.

        通常公式(1)中利用門控機(jī)制輸出得到的門控重要性是一種標(biāo)量特征重要性表示,本文為了更細(xì)粒度地獲取嵌入向量重要性,考慮了另一種矢量特征重要性表示,兩種表示的計算如圖3所示.當(dāng)門控重要性gi為標(biāo)量特征重要性gis∈R時,嵌入向量的重要性學(xué)習(xí)參數(shù)wi∈Rk×1,門控重要性gi為矢量特征重要性giv∈Rk時,嵌入向量的重要性學(xué)習(xí)參數(shù)wi∈Rk×k,k是嵌入向量的維度.

        圖3 標(biāo)量與矢量特征重要性表示計算

        從圖3可以看出,標(biāo)量特征重要性gis是一個值,并按照這個值為對應(yīng)的嵌入向量的每個維度特征賦予相同的特征重要性.矢量特征重要性giv則是一個k維的向量,它可以為每個維度特征賦予不同的特征重要性.兩種重要性表示方法的性能比較將在實(shí)驗(yàn)4.4節(jié)進(jìn)行討論.

        2)特征擠壓:這一步用于獲取每個門控重要性向量的摘要統(tǒng)計信息,常用方法是通過最大池化或平均池化,將門控重要性向量GE=[ge1,ge2,…,gei,…,gef]轉(zhuǎn)化為摘要統(tǒng)計信息U=[u1,u2,…,ui,…,uf],本文通過實(shí)驗(yàn),發(fā)現(xiàn)在CTR預(yù)測任務(wù)中,平均池化效果優(yōu)于最大池化,其計算方法如式(3)所示:

        (3)

        3)特征重要性提取:這一步的目的是通過特征擠壓得到的摘要統(tǒng)計信息U計算出嵌入向量的交互重要性向量S.具體操作是利用兩個非線性的全連接層實(shí)現(xiàn),第一層是一個學(xué)習(xí)參數(shù)為W1,減少率(Reduction Ratio)為r的降維層,第二層是一個學(xué)習(xí)參數(shù)為W2的升維層,計算過程如公式(4)所示:

        S=fex(U,W)=σ2(W2σ1(W1U))

        (4)

        其中第1層學(xué)習(xí)參數(shù)W1∈Rf×(f/r),第2層學(xué)習(xí)參數(shù)W2∈R(f/r)×f,σ1、σ2分別代表第1層、第2層激活函數(shù),r是全連接層的維度減少率.

        4)特征重要性融合:門控SE層的最后一步是特征重要性融合,這一步將原始嵌入向量E和嵌入向量的交互重要性S融合,輸出得到的自適應(yīng)重要性嵌入向量C.具體計算過程如公式(5)所示:

        C=fimportance(S,E)=[s1·e1,…,sf·ef]=[c1,…,cf]

        (5)

        其中,si∈R,ei∈Rk,ci∈Rk,i表示第i個特征域,i=1,2,…,f,k表示嵌入向量的維度.

        3.3 雙線性交互層

        特征之間的信息關(guān)聯(lián)對模型預(yù)測準(zhǔn)確率有著較大影響,例如一條流行服飾的廣告中,服飾的品類和款式往往決定了廣告能否吸引用戶觀看,直接影響了廣告的點(diǎn)擊率.傳統(tǒng)的特征交互方法有內(nèi)積、外積、Hadamard積等.但這類方法遺漏了特征交互時的重要性選擇,并且特征之間的交互結(jié)果往往會因交互特征而異.因此本文提出使用一種更細(xì)粒度的自適應(yīng)特征交互方法——雙線性交互[31].其計算方式如公式(6)所示:

        qij=ciW⊙cj

        (6)

        其中ci,cj∈Rk分別表示第i,j個自適應(yīng)重要性嵌入向量,i,j=1,2,…,f,W為交互參數(shù),⊙代表對應(yīng)元素相乘.由于交互方式的不同,公式(6)中的雙線性交互參數(shù)W又分為:全域共享交互Wall,域私有交互Wi,域?qū)俳换ij.3種交互方式分別如公式(7)-公式(9)所示:

        全域共享交互:

        qij=ciWall⊙cj

        (7)

        其中Wall∈Rk×k是一個所有自適應(yīng)重要性嵌入向量ci,cj∈Rk的共享參數(shù)矩陣.

        域私有交互:

        qij=ciWi⊙cj

        (8)

        其中Wi是第i個自適應(yīng)重要性嵌入向量的參數(shù)矩陣,在域私有交互的計算方式下,共有f個這樣的參數(shù)矩陣,f為域的個數(shù).

        域?qū)俳换ィ?/p>

        qij=ciWij⊙cj

        (9)

        其中Wij是第i個自適應(yīng)重要性嵌入向量與第j個自適應(yīng)重要性嵌入向量的參數(shù)矩陣,在域?qū)俳换サ挠嬎惴绞较?,共有f(f-1)/2個Wij參數(shù)矩陣,f為域的個數(shù).

        如圖1所示,雙線性交互層對輸入的原始嵌入向量E和自適應(yīng)重要性嵌入向量C都進(jìn)行了雙線性交互,目的是提取兩種不同向量的自身向量之間的關(guān)聯(lián)交互信息.雙線性交互層的輸出是由原始嵌入向量得到的原始交互P=[p1,…,pi,…,pn]和由自適應(yīng)重要性嵌入向量C得到的自適應(yīng)重要性交互Q=[q1,…,qi,…,qn],其中pi,qi∈Rk,k是嵌入向量的維度,n∈Rf(f-1)/2是向量之間交互個數(shù).針對三種交互方式的對預(yù)測性能的貢獻(xiàn),將在實(shí)驗(yàn)4.5節(jié)進(jìn)行討論.

        3.4 組合層

        組合層的輸入是原始交互P和自適應(yīng)重要性交互Q,輸出是將兩者進(jìn)行拼接后的組合交互V.其組合過程如公式(10)所示:

        V=[P,Q]=[p1,…,pn,q1,…,qn]=[v1,…,v2n]

        (10)

        如果直接組合交互V里的每個元素相加求和,然后通過Sigmoid函數(shù)輸出預(yù)測值,則可以得到一個未經(jīng)過深度網(wǎng)絡(luò)計算的淺層部分(Shallow Part)模型FIDEshallow.

        3.5 隱藏門控殘差網(wǎng)絡(luò)

        以往的CTR預(yù)測模型使用的深度網(wǎng)絡(luò)往往層數(shù)不深(通常在3-5層左右),由于網(wǎng)絡(luò)退化和梯度等問題,未能完全利用深度網(wǎng)絡(luò)擬合數(shù)據(jù)的優(yōu)勢.本文結(jié)合門控和殘差方法提出的隱藏門控殘差網(wǎng)絡(luò)(HGR-DNN),該網(wǎng)絡(luò)由如圖4所示的多層堆疊形成.HGR-DNN的輸入是組合交互V拉平后的表示V0,V(l),表示隱藏門控殘差網(wǎng)絡(luò)第l層的輸出.計算公式如式(11)、式(12)所示:

        圖4 一層隱藏門控殘差網(wǎng)絡(luò)

        V(l)=V(l-1)?σv(W(l)V(l-1)′)

        (11)

        (12)

        3.6 輸出層

        輸出層將LR計算部分、HGR-DNN輸出的V(l)求和用于最終預(yù)測.此處LR部分所用的原始嵌入向量E=[e1,e2,…,ef],是通過稀疏獨(dú)熱編碼通過兩層神經(jīng)網(wǎng)絡(luò)映射得到的,因此計算它的梯度更新受到LR部分和V(l)的共同影響,對應(yīng)的原始編碼可以通過稠密嵌入向量和稀疏高維編碼之間的神經(jīng)網(wǎng)絡(luò)參數(shù)逆向計算得到.

        綜上所述,F(xiàn)IDE模型輸出的整體公式如式(13):

        (13)

        (14)

        算法1.特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測算法.

        輸入:學(xué)習(xí)率α,樣本批量大小M,Embedding嵌入層參數(shù)θG,門控SE層中門控過濾、特征擠壓、特征重要性提取以及特征重要性融合步驟參數(shù)分別為θge,θsq,θex,θimportance,雙線性交互參數(shù)θBi,深度神經(jīng)網(wǎng)絡(luò)參數(shù)θHGR-DNN.

        輸出:完成訓(xùn)練的網(wǎng)絡(luò)fFIDE.

        1.從數(shù)據(jù)集中隨機(jī)讀取M個樣本X={x1,x2,…,xm}

        2.E←fθe(X) /*其中fθe(·)為Embedding嵌入層函數(shù)表示*/

        3.GE←fθge(E)/*其中fθge(·)為門控SE層中的門控過濾步驟函數(shù)表示,如公式(1)(2)所示*/

        4.U←fθsq(GE)/*其中fθsq(·)為門控SE層中的特征擠壓步驟函數(shù)表示,如公式(3)所示*/

        5.S←fθex(U,W)/*其中fθex(·,W)為門控SE層中的特征重要性提取步驟函數(shù)表示,如公式(4)所示,W為該步驟的兩層神經(jīng)網(wǎng)絡(luò)參數(shù)*/

        6.C←fimportance(S,E)/*其中fimportance(·,·)為門控SE層中的特征重要性融合步驟函數(shù)表示,如公式(5)所示*/

        7.P←fBi(E),Q←fBi(C)/*其中fBi(·)為雙線性交互層函數(shù)表示,如公式(6)-公式(9)所示*/

        8.V←fcombination(P,Q)/*其中fcombination(·,·)為組合層函數(shù)表示,如公式(10)所示*/

        11.重復(fù)步驟1至步驟10直至網(wǎng)絡(luò)收斂

        4 實(shí)驗(yàn)及性能評價

        本節(jié)將介紹實(shí)驗(yàn)數(shù)據(jù)以及評價參數(shù)設(shè)置,通過在兩個真實(shí)的公開廣告數(shù)據(jù)集Criteo(1)Criteo:http://labs.criteo.com/downloads/download-terabyte-click-logs/和Avazu(2)Avazu:http://www.kaggle.com/c/avazu-ctr-prediction/上進(jìn)行的實(shí)驗(yàn),對FIDE模型的預(yù)測性能進(jìn)行評價.實(shí)驗(yàn)內(nèi)容包括:

        1)FIDE與目前最高水平的BaseLine(基線)對比

        2)門控嵌入層對模型性能的提升

        3)不同雙線性交互方式對模型性能的影響

        4)HGR-DNN對模型性能的提升

        5)超參數(shù)設(shè)置對模型性能的影響

        4.1 實(shí)驗(yàn)數(shù)據(jù)及評價指標(biāo)

        4.1.1 數(shù)據(jù)集

        Criteo數(shù)據(jù)集近年來被廣泛應(yīng)用于對CTR任務(wù)模型性能的評價.它包含了約4500萬真實(shí)用戶點(diǎn)擊反饋數(shù)據(jù),Criteo數(shù)據(jù)集的特征由26個脫敏分類特征和13個連續(xù)數(shù)值特征組成.本文實(shí)驗(yàn)將數(shù)據(jù)集隨機(jī)分為兩部分:90%用于訓(xùn)練,其余用于測試.Avazu數(shù)據(jù)集由不同日期的廣告點(diǎn)擊按時間順序組成.該數(shù)據(jù)集包含約4000萬真實(shí)世界的用戶點(diǎn)擊記錄,每個廣告點(diǎn)擊有24個特征.本文實(shí)驗(yàn)將其隨機(jī)分為兩部分:80%用于訓(xùn)練,其余部分用于測試.自2014年以來,學(xué)術(shù)界一直使用Criteo和Avazu數(shù)據(jù)集來衡量CTR預(yù)測模型的性能[30-32].

        4.1.2 評價指標(biāo)

        本文實(shí)驗(yàn)以AUC[33]和LogLoss[34]為評價指標(biāo).

        AUC作為一個評價分類問題的廣泛使用的指標(biāo),它的優(yōu)點(diǎn)在于受正負(fù)樣本比例影響較小.從數(shù)學(xué)上來說,AUC是受試者操作曲線(Receiver operating characteristic,ROC)的下面積,其上限為1.此外,也有研究證明AUC是對CTR預(yù)測任務(wù)的一個良好評價標(biāo)準(zhǔn)[35].在實(shí)驗(yàn)中,AUC值越大,模型的預(yù)測性能越好.

        LogLoss是二分類問題中廣泛使用的評價標(biāo)準(zhǔn),用來表示預(yù)測值與真實(shí)值之間的差距.LogLoss的下限為0時表示預(yù)測值與真實(shí)值完全匹配.在實(shí)驗(yàn)中,較小的LogLoss值表示預(yù)測模型具有更好的性能.

        4.1.3 實(shí)驗(yàn)超參數(shù)設(shè)置

        本文在實(shí)驗(yàn)中利用Tensorflow(3)TensorFlow:https://www.tensorflow.org/實(shí)現(xiàn)了所需模型.實(shí)驗(yàn)中的嵌入門機(jī)制層在使用Criteo數(shù)據(jù)集時,嵌入向量的維度設(shè)置為20;在Avazu數(shù)據(jù)集上,嵌入向量的維度設(shè)置為50.本文使用Adam[36]作為實(shí)驗(yàn)優(yōu)化方法,對于Criteo數(shù)據(jù)集,

        最小Batch-Size為1024;對于Avazu數(shù)據(jù)集,最小Batch-Size為512.Criteo數(shù)據(jù)集的每層神經(jīng)元數(shù)為512,Avazu數(shù)據(jù)集的每層神經(jīng)元數(shù)為1024.統(tǒng)一設(shè)置學(xué)習(xí)率為0.0001,Drop Out Ratio為0.5,HGR-DNN的層數(shù)為5層.

        4.2 對比試驗(yàn)?zāi)P驮O(shè)置

        為了驗(yàn)證FIDE僅使用Shallow Part模型和使用Deep Part模型的性能,本文將實(shí)驗(yàn)分為兩組:Shallow組和Deep組.實(shí)驗(yàn)還將基線對比模型分為兩個部分:淺基線模型和深基線模型.淺基線模型包括LR[2],F(xiàn)M[5],GBDT+LR[7]而深基線模型包括FNN[8],WDL[9],DeepFM[10],xDeepFM[11].對于深基線模型,為了簡化對比試驗(yàn),統(tǒng)一設(shè)置每個隱層節(jié)點(diǎn)的激活函數(shù)為ReLU,輸出節(jié)點(diǎn)的激活函數(shù)為Sigmoid,最優(yōu)參數(shù)求解都采用Adam.值得注意的是,通常認(rèn)為AUC提高1‰也是有意義的,因?yàn)槿绻镜挠脩羧簲?shù)量非常大,它將為公司收入帶來大幅度的增長[10-13].

        4.3 FIDE模型與基線模型性能對比

        本小節(jié)分別在表1和表2中總結(jié)了Shallow組和Deep組在Criteo和Avazu測試集上的整體性能.表1展示了Shallow組模型在Criteo和Avazu數(shù)據(jù)集上的結(jié)果,F(xiàn)IDE-Shallow-ALL表示淺層FIDE模型,尾稱ALL表示實(shí)驗(yàn)中模型各個層和步驟都選用最優(yōu)方法,觀察實(shí)驗(yàn)結(jié)果可以看出FIDE-Shallow-ALL的性能始終優(yōu)于其他模型.

        表1 Shallow組模型性能對比

        為了進(jìn)一步提升模型性能,將FIDE Shallow部分和HGR-DNN進(jìn)行串聯(lián)組成的FIDE-Deep-ALL性能如表2所示,通過觀察Shallow組與Deep組模型性能比較可以看出,與HGR-DNN組合的模型確實(shí)提升了特征的高階交互學(xué)習(xí)能力.Deep的深度學(xué)習(xí)模型性能基本優(yōu)于Shallow組.在與其他Deep組模型比較中,F(xiàn)IDE-Deep-ALL相比FNN、WDL、DeepFM和xDeepFM的AUC提升了0.5%、0.35%、0.29%、0.23%,這說明FIDE-Deep-ALL相比其它最高水平模型具有優(yōu)越性.側(cè)面體現(xiàn)了FIDE-Deep的結(jié)構(gòu)設(shè)計確實(shí)可以挖掘出更多對于CTR預(yù)測有價值的信息,同時也表示通過HGR-DNN獲得隱含的高階特征有助于Shallow部分獲得更多的表達(dá)能力.

        表2 Deep組模型的性能對比

        4.4 門控嵌入層對模型性能的提升

        本小節(jié)通過將門控過濾機(jī)制插入基線模型的對比實(shí)驗(yàn)發(fā)現(xiàn)門控機(jī)制在Criteo和Avazu數(shù)據(jù)集上能夠提升模型性能.如表3所示,帶有g(shù)e下標(biāo)的模型表示插入了門控機(jī)制,反之則沒有,△符號代表模型提升數(shù)值.從實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),具有嵌入門控機(jī)制的LR、FM在預(yù)測性能上有較大提升,這是因?yàn)樵糒R、FM沒有顯式或隱式地調(diào)整模型特征的方式.除此之外,門控機(jī)制同樣為DeepFM、xDeepFM以及FIDE提供了一定的精度提升.這些結(jié)果表明,從特征中細(xì)粒度地選擇顯著的潛在信息能夠有效增強(qiáng)模型能力并使基線模型獲得更好的性能.

        表3 插入門控機(jī)制的模型性能對比

        此外本文還針對門控過濾中的矢量和標(biāo)量重要性表示方法,在FIDE的基礎(chǔ)上設(shè)計了另一組實(shí)驗(yàn)進(jìn)行研究.實(shí)驗(yàn)結(jié)果如表4所示,其中sc下標(biāo)代表標(biāo)量重要性表示,ve下標(biāo)代表矢量重要性表示.

        表4 兩種重要性表示方法性能對比

        從表4中可以看出,雖然矢量重要性表示方法可以減少學(xué)習(xí)參數(shù)數(shù)量,但同時會降低模型性能.在Avazu數(shù)據(jù)集上,不同表示方法對模型性能提升有限.實(shí)驗(yàn)結(jié)果表明門控機(jī)制的不同重要性表示方法,需要根據(jù)數(shù)據(jù)任務(wù)的不同靈活選擇.總體而言,在本文的實(shí)驗(yàn)中選擇矢量重要性表示方法能取得更好的效果.

        4.5 不同雙線性交互方式對模型性能的影響

        本文對全域共享、域私有以及域?qū)俳换シ绞皆跍\層和深層模型分別進(jìn)行了實(shí)驗(yàn),結(jié)果如表5所示.其中下標(biāo)share表示全域共享,private表示域私有,exclusive表示域?qū)?

        表5 3種交互方式性能對比

        從表5可以發(fā)現(xiàn):對于淺層模型在Criteo數(shù)據(jù)集上和全域共享相比,域?qū)俜绞娇梢蕴嵘?.17%,深度模型域?qū)俜绞奖热蚬蚕硖嵘?.9%;在Avazu數(shù)據(jù)集上,域私有方式會取得更好的效果.由此可以總結(jié)出:不同類型的雙線性交互層的性能取決于數(shù)據(jù)集.在Criteo數(shù)據(jù)集選擇域?qū)俜绞?,在Avazu數(shù)據(jù)集選擇域私有方式進(jìn)行預(yù)測能取得更優(yōu)效果.

        4.6 HGR-DNN對模型性能的提升

        表6將DeepFM、xDeepFM和FIDE使用傳統(tǒng)DNN和HGR-DNN效果進(jìn)行了對比,通過實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)通過使用HGR-DNN代替?zhèn)鹘y(tǒng)DNN能夠增強(qiáng)基線模型效果,提升模型對Criteo和Avazu數(shù)據(jù)集的預(yù)測性能.

        表6 HGR-DNN對模型性能影響

        其中下標(biāo)d和h分別表示模型Deep Part使用的DNN和HGR-DNN網(wǎng)絡(luò).盡管HGR-DNN網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,但是通過三種模型基線的對比證明了這是提高基線模型性能的有效方法.實(shí)驗(yàn)結(jié)果表明,其可幫助模型隱式地更有效地捕獲高階特征交互的優(yōu)勢,使得隱藏的門控殘差方式效果優(yōu)于以往的CTR預(yù)測任務(wù)中的網(wǎng)絡(luò).

        4.7 超參數(shù)對模型性能的影響

        本小節(jié)將對FIDE模型的一些超參數(shù)進(jìn)行研究,重點(diǎn)放在嵌入層和HGR-DNN.具體而言,將修改以下參數(shù):1)嵌入維度;2)HGR-DNN每層神經(jīng)元數(shù)量;3)HGR-DNN層數(shù).除非特別說明,否則默認(rèn)參數(shù)遵照4.1.3小節(jié)進(jìn)行設(shè)置.

        1)嵌入維度對模型預(yù)測性能的影響

        嵌入維度的變化會影響嵌入層和DNN部分中的參數(shù)數(shù)量.實(shí)驗(yàn)對比了嵌入維度對FIDE預(yù)測性能的影響,希望能夠得出合適的嵌入維度,從而獲得更優(yōu)的模型性能.本文將嵌入維度大小按照步長為5,逐步從5調(diào)整為60并在表7總結(jié)了實(shí)驗(yàn)結(jié)果.通過實(shí)驗(yàn)結(jié)果觀察到了以下信息:隨著嵌入維度的增加直到維度為50,F(xiàn)IDE的性能在Avazu數(shù)據(jù)集上獲得實(shí)質(zhì)性提升;嵌入維度從20之后,隨著嵌入維度的增大,F(xiàn)IDE對于Criteo數(shù)據(jù)集的預(yù)測性能反而下降.原因是Avazu數(shù)據(jù)集特征數(shù)量小于Criteo數(shù)據(jù)集,因此FIDE模型在Avazu數(shù)據(jù)集上的優(yōu)化難度相對簡單.

        表7 嵌入維度對FIDE性能影響

        2)DNN每層神經(jīng)元的數(shù)量對預(yù)測性能影響

        為了簡化實(shí)驗(yàn)步驟,統(tǒng)一將每個全連接層的神經(jīng)元數(shù)量按如下順序設(shè)置:{64,128,256,512,1024,2048,4096},實(shí)驗(yàn)結(jié)果如表8所示.通過觀察可以發(fā)現(xiàn),增加每層神經(jīng)元的數(shù)量在一定程度上可以提升模型的預(yù)測性能,但由于同時提升了學(xué)習(xí)參數(shù)的復(fù)雜度,因此在訓(xùn)練模型時需要考慮神經(jīng)元數(shù)量.觀察實(shí)驗(yàn)結(jié)果可以看出,剛開始逐步增加每個全連接層神經(jīng)元數(shù)量時AUC指標(biāo)逐漸增加,LogLoss指標(biāo)逐漸降低,對于Criteo數(shù)據(jù)集,神經(jīng)元數(shù)量在512時,AUC達(dá)到最優(yōu)值,之后逐步增加神經(jīng)元數(shù)量時AUC指標(biāo)不再有明顯提升,反而會有所降低.在Avazu數(shù)據(jù)集上的結(jié)果顯示,每層神經(jīng)元數(shù)量的最優(yōu)值設(shè)置為1024,之后AUC指標(biāo)同樣不再有明顯提升.這是因?yàn)殡S著神經(jīng)元數(shù)量的提升,模型可以學(xué)習(xí)到更多高階隱含信息,從而提升模型預(yù)測精度.但是當(dāng)神經(jīng)元數(shù)量達(dá)到一定閾值時,再增加神經(jīng)元數(shù)量可能會導(dǎo)致模型過于復(fù)雜,甚至可能出現(xiàn)過擬合情況,因此需要合理選擇每層神經(jīng)元數(shù)量.

        表8 不同神經(jīng)元數(shù)量對FIDE性能影響

        3)HGR-DNN深度對FIDE性能的影響

        實(shí)驗(yàn)使用的HGR-DNN網(wǎng)絡(luò)層數(shù)設(shè)置從0到8,當(dāng)層數(shù)設(shè)置為0時,F(xiàn)IDE模型由深FIDE退化為淺FIDE.實(shí)驗(yàn)結(jié)果如表9所示.雖然本文利用殘差和門控方法抑制了網(wǎng)絡(luò)退化和梯度問題,但在網(wǎng)絡(luò)層數(shù)已經(jīng)能計算出最優(yōu)解的前提下,繼續(xù)增加層數(shù)只會增加模型的復(fù)雜性.可以從表9中觀察到,增加層數(shù)在一開始可以提升模型的性能,但隨著層數(shù)持續(xù)增加,模型性能無法繼續(xù)提升.因此對于Criteo和Avazu數(shù)據(jù)集把網(wǎng)絡(luò)層的數(shù)量設(shè)置為5(傳統(tǒng)的CTR任務(wù)中DNN的層數(shù)通常小于等于3)是一個合理的選擇.

        表9 不同網(wǎng)絡(luò)層數(shù)量對模型性能的影響

        4.8 討 論

        本文在Criteo和Avazu數(shù)據(jù)集上使用了多個最高水平的基線模型(LR、FM、DeepFM、xDeepFM等)和FIDE進(jìn)行實(shí)驗(yàn)對比.由于FIDE在預(yù)測性能上優(yōu)于其它基線模型,在此基礎(chǔ)上進(jìn)行了更加全面的實(shí)驗(yàn),包括各個層和步驟以及超參數(shù).實(shí)驗(yàn)結(jié)果表明:1)門控機(jī)制的確能夠?qū)δP托阅苡幸欢ㄌ嵘?)不同的雙線性交互方式對模型性能有一定積極影響,具體使用哪種交互方式取決于數(shù)據(jù)的不同;3)HGR-DNN在增加模型的深度的同時,對預(yù)測精度有著促進(jìn)作用;4)合理的超參數(shù)設(shè)置對模型性能有一定積極影響.總體而言,F(xiàn)IDE有效地提高了CTR預(yù)測任務(wù)的準(zhǔn)確率.

        5 結(jié) 語

        近年來關(guān)于CTR預(yù)測任務(wù)發(fā)表的文章中,引入深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一種通用方法.為了提升點(diǎn)擊率預(yù)測效果,本文提出了一種特征重要性動態(tài)提取的廣告點(diǎn)擊率預(yù)測模型(FIDE),旨在動態(tài)自適應(yīng)地獲取細(xì)粒度的特征重要性.該模型利用了SENet、門控機(jī)制和殘差的優(yōu)勢,通過在兩個真實(shí)廣告公司數(shù)據(jù)集上的大量實(shí)驗(yàn)對基線模型和FIDE的預(yù)測數(shù)據(jù)對比,證明了其性能優(yōu)于其它模型,有效地提升了CTR預(yù)測模型正確預(yù)測廣告點(diǎn)擊率的能力.

        本文主要關(guān)注點(diǎn)在于特征工程,缺少對CTR樣本數(shù)據(jù)的考慮.針對CTR數(shù)據(jù)正負(fù)樣本不均衡的情況,未來可以嘗試使用生成式對抗網(wǎng)絡(luò)輔助生成樣本.

        猜你喜歡
        殘差向量重要性
        基于雙向GRU與殘差擬合的車輛跟馳建模
        向量的分解
        “0”的重要性
        聚焦“向量與三角”創(chuàng)新題
        論七分飽之重要性
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        向量垂直在解析幾何中的應(yīng)用
        讀《邊疆的重要性》有感
        欧美日韩国产成人综合在线影院| 豆国产96在线 | 亚洲| 久久亚洲精品成人无码| 国产自偷亚洲精品页65页| 国产乱人伦偷精品视频免| 亚洲女同性恋在线播放专区| 国产在线观看91一区二区三区| 一本久久伊人热热精品中文字幕| 日日摸夜夜添夜夜添无码免费视频 | 少妇特殊按摩高潮不断| 亚洲激情综合中文字幕| 人妻精品久久无码区| 激情97综合亚洲色婷婷五| 欧美日一本| 亚洲综合一区二区三区久久| 亚洲爆乳无码精品aaa片蜜桃| 少妇高清精品毛片在线视频| 91白浆在线视频| 精品国产麻豆免费人成网站| 久久免费看黄a级毛片| 久久人妻内射无码一区三区| 免费人成在线观看播放国产| 99精品又硬又爽又粗少妇毛片 | 91国产视频自拍在线观看| 日本h片中文字幕在线| 国产又爽又粗又猛的视频| 亚洲不卡无码高清视频| 国产女主播大秀在线观看| 老妇高潮潮喷到猛进猛出| 无码人妻丰满熟妇区毛片| 天堂av一区二区在线观看| 丝袜美腿亚洲综合在线播放| 亚洲av综合av国产av中文| 粗了大了 整进去好爽视频| 午夜av内射一区二区三区红桃视| 野花视频在线观看免费| 又大又紧又粉嫩18p少妇 | 久久aⅴ人妻少妇嫩草影院| 色www亚洲| 精品国产三区在线观看| 久热re这里精品视频在线6|