亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多層次特征交互的點(diǎn)擊率預(yù)測模型

2022-09-01 10:10:10鄭嘉偉王粉花1b嚴(yán)由齊

實(shí)驗(yàn)室研究與探索 2022年5期

關(guān)鍵詞：特征模型

鄭嘉偉，王粉花，1b，2，趙波，嚴(yán)由齊

（1.北京科技大學(xué)a.自動(dòng)化學(xué)院；b.人工智能研究院，北京 100083；2.北京市工業(yè)波譜成像工程中心，北京 100083）

0 引言

點(diǎn)擊率（Click-throughRate，CTR）預(yù)測是推薦系統(tǒng)［1］、廣告系統(tǒng)［2］的重要組成模塊，其本質(zhì)上是一個(gè)二分類任務(wù)，直接使用原始數(shù)據(jù)很難達(dá)到最佳的預(yù)測效果，需要從原始數(shù)據(jù)中提取信息并進(jìn)行變換組合，構(gòu)建出新的特征，這些組合特征融合了多個(gè)原始特征的信息，又被稱為交叉特征或者高階特征。利用機(jī)器學(xué)習(xí)的方式從原始的特征中自動(dòng)學(xué)習(xí)特征組合，最常用的方法就是因子分解機(jī)［3］（Factorization Machines，F(xiàn)M），該模型把特征嵌入到一個(gè)隱空間中，通過嵌入向量的內(nèi)積對特征間的相互作用進(jìn)行建模，能夠有效降低高維數(shù)據(jù)稀疏性，并且對噪聲和冗余不敏感，擁有良好的可擴(kuò)展性［4］。然而，為了讓模型結(jié)構(gòu)降低難度，一般只使用其二階的特征交互，雖然在許多預(yù)測任務(wù)中取得了成功，但性能會(huì)受到二階特征交互的限制［5］。

近年來，深度學(xué)習(xí)技術(shù)發(fā)展迅速，其對隱特征的學(xué)習(xí)能力非常出色，并且在圖像處理、自然語言處理以及語音識別領(lǐng)域已有應(yīng)用，許多學(xué)者開始將深度學(xué)習(xí)技術(shù)引入點(diǎn)擊率預(yù)測模型當(dāng)中。其中，Zhang 等［6］提出結(jié)合因子分解機(jī)和深度神經(jīng)網(wǎng)絡(luò)的模型（Factorization Machine Supported Neural Network，F(xiàn)NN），將輸入特征經(jīng)過因子分解機(jī)處理之后再輸入多層全連接層，從而生成更高階的特征組合，提高了模型的學(xué)習(xí)能力。Qu等［7］提出一種基于向量點(diǎn)擊（Product）的模型（Product-based Neural Network，PNN），在嵌入層和全連接層之間進(jìn)行product操作，從而更好地學(xué)習(xí)不同域特征之間的相關(guān)性。He 等［8］提出稀疏預(yù)測分析的神經(jīng)因子分解機(jī)（Neural Factorization Machine，NFM），使用雙線性交互結(jié)構(gòu)來對二階交叉信息進(jìn)行處理，使交叉特征的信息能更好的被DNN結(jié)構(gòu)學(xué)習(xí)，提高了對稀疏數(shù)據(jù)處理的能力。

但是，F(xiàn)NN、PNN和NFM都只考慮了高階特征，缺乏對低階特征信息的利用。對此，Cheng 等［9］提出了一種融合淺層模型和深層模型進(jìn)行聯(lián)合訓(xùn)練的框架Wide＆Deep，綜合利用淺層模型的記憶能力和深層模型的泛化能力，實(shí)現(xiàn)單模型對推薦系統(tǒng)準(zhǔn)確性和擴(kuò)展性的兼顧。Guo 等［10］基于Wide ＆ Deep 模型進(jìn)一步提出了一種將FM 和深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）相結(jié)合的模型Deep FM，和Wide ＆Deep模型不同點(diǎn)在于將Wide 模型部分由LR 替換為FM，并且共享原始輸入特征。Wang 等［11］提出了一種利用很少的參數(shù)去高效地顯式學(xué)習(xí)特征的高階交互關(guān)系的深度交叉模型DeepCross，將Wide 部分替換為由特殊網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)的交叉網(wǎng)絡(luò)，自動(dòng)進(jìn)行高階特征的交叉組合，并學(xué)習(xí)對應(yīng)權(quán)重，不需耗費(fèi)大量成本去人工組合特征。Lian 等［12］提出一種可以同時(shí)顯式和隱式的學(xué)習(xí)高階特征向量之間的交互模型xDeepFM（eXtreme Deep Factorization Machine），以向量為最細(xì)粒度學(xué)習(xí)相關(guān)性，高階特征學(xué)習(xí)效果更好。然而，該模型對CIN和DNN子模型只是簡單的并列，沒有在子模型的結(jié)合方式和輸入數(shù)據(jù)的預(yù)處理上做其他工作，對低階特征信息利用不充分，且訓(xùn)練參數(shù)過多。

本文基于xDeepFM 模型提出一種多層次特征交互的深度因子分解機(jī)（Multi Level Deep Factorization Machine，mDeepFM）。相比于xDeepFM，mDeepFM 在全特征學(xué)習(xí)和性能評測中均表現(xiàn)更優(yōu)。

1 mDeepFM模型

mDeepFM模型如圖1 所示，主要包含特征嵌入層、壓縮交互網(wǎng)絡(luò)、二階特征交互層、全連接層、預(yù)測層幾部分。相比xDeepFM，特征信息經(jīng)過特征嵌入層處理之后，沒有直接輸入DNN，而是先經(jīng)過二階特征交互層，特征向量對位相乘再求和池化處理，輸入DNN模塊之前達(dá)到降維效果，減少了該模型學(xué)習(xí)的參數(shù)量，降低了DNN的訓(xùn)練難度，從而提高了訓(xùn)練速度。同時(shí)將嵌入層的信息輸入壓縮特征交互網(wǎng)絡(luò)，進(jìn)行顯式特征交互，得到更加豐富的特征信息。

圖1 mDeepFM模型框架圖

1.1 特征嵌入層

特征嵌入層是將高維稀疏特征向量轉(zhuǎn)換為低維稠密向量，再輸入深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，計(jì)算用戶和物品的嵌入向量相似度，可將嵌入技術(shù)作為推薦系統(tǒng)的召回策略之一。

將輸入特征分類聚集為多個(gè)域，特征嵌入層會(huì)將不同域的稀疏向量進(jìn)行獨(dú)熱編碼后映射到低維向量，減少數(shù)據(jù)稀疏性并降低輸入維度［13］。從輸入層到嵌入層的子網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。將任意長度的輸入域向量轉(zhuǎn)換成相同的連續(xù)數(shù)值型向量，特征嵌入層的輸出結(jié)果是一個(gè)水平拼接的向量，如下式所示：

圖2 特征嵌入映射圖

式中：n表示域的個(gè)數(shù)；ei表示第i個(gè)域的嵌入向量。

1.2 壓縮交互網(wǎng)絡(luò)

壓縮交互網(wǎng)絡(luò)（Compressed Intereaction Network，CIN）的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。網(wǎng)絡(luò)中的第l層隱藏層計(jì)算過程如下式所示：

圖3 壓縮交互網(wǎng)絡(luò)架構(gòu)圖

1.3 二階特征交互層

二階特征交互層將n個(gè)域中的向量兩兩對位相乘，得到n×（n-1）／2 個(gè)向量，將這些向量相加得到一個(gè)低維的向量，這部分無任何參數(shù)需要學(xué)習(xí)。圖4為一個(gè)3 維的向量二階交互過程，嵌入層的輸出向量在進(jìn)入DNN 之前，先進(jìn)入二階特征交互模塊進(jìn)行處理，將嵌入向量進(jìn)行兩兩交叉運(yùn)算，然后將所有向量通過一個(gè)求和池化進(jìn)行對位元素求和，即：

圖4 二階特征交互圖

式中：vi和vj分別代表第i個(gè)和第j個(gè)向量的權(quán)重；?表示兩個(gè)向量的元素積，即（ei?ej）k＝eikejk，可以看出輸出的是一個(gè)k維向量。數(shù)據(jù)在輸入到全連接層之前進(jìn)行降維，降低了DNN 部分的學(xué)習(xí)難度，同時(shí)提高模型的訓(xùn)練速度。

1.4 全連接層

模型中的DNN部分是將二階特征交互層的輸出向量作為輸入，經(jīng)過多層全連接神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)高階的特征交互。其前向過程如下式所示：

式中：l是隱藏層的編號；σ為非線性激活函是第l層隱藏層的輸出向量。

1.5 預(yù)測層

在預(yù)測層將邏輯回歸、壓縮交互層和全連接神經(jīng)網(wǎng)絡(luò)集成到一個(gè)框架，輸出方程如下式所示：

式中：σ是Sigmoid 函數(shù)；x代表沒有經(jīng)過特征嵌入層處理的原始特征值；ydnn、ycin分別是全連接神經(jīng)網(wǎng)絡(luò)和壓縮交互網(wǎng)絡(luò)的輸出值；Wlinear、Wdnn和Wcin分別是線性回歸、全連接神經(jīng)網(wǎng)絡(luò)和壓縮交互網(wǎng)絡(luò)的參數(shù)模型；bdnn和b分別是全連接層和預(yù)測層的偏置參數(shù)。

2 預(yù)處理和防止過擬合方法

2.1 獨(dú)熱編碼映射

在輸入的原始數(shù)據(jù)中通常會(huì)有多種分類特征，這些特征的特點(diǎn)是離散化且無序，在點(diǎn)擊率預(yù)測中進(jìn)行特征相似度計(jì)算是非常有必要的，所以對這些特征進(jìn)行獨(dú)熱（One-hot）編碼，但是有的類別數(shù)量較多，獨(dú)熱編碼后會(huì)非常稀疏，造成維度爆炸的現(xiàn)象增加計(jì)算難度，因此，有學(xué)者在獨(dú)熱編碼過程中引入了一個(gè)最大支持維度參數(shù)M［14］，例如，某個(gè)哈希類型的數(shù)據(jù)與頻數(shù)的字典映射關(guān)系，

式中：xi是第i個(gè)不同的哈希值；Ni為哈希值對應(yīng)的頻數(shù)；K是哈希值的總數(shù)。如果K≤M，那么只需將xi對應(yīng)的索引在獨(dú)熱編碼中取值為1；如果K＞M，則需要對頻數(shù)Ni進(jìn)行二次編碼，創(chuàng)建一個(gè)新的映射表，直到維度小于M。

2.2 早停法

深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中很容易出現(xiàn)過擬合現(xiàn)象。為了讓模型的泛化能力達(dá)到最優(yōu)，防止訓(xùn)練過程中出現(xiàn)過擬合，本文在訓(xùn)練過程中引入了早停法［15］。

如圖5 所示，訓(xùn)練集誤差和測試集誤差在某一時(shí)刻趨勢發(fā)生了變化，訓(xùn)練集誤差還在下降，而測試集誤差開始上升，當(dāng)模型在測試集上的效果開始變差時(shí)停止訓(xùn)練，就能避免繼續(xù)訓(xùn)練導(dǎo)致的過擬合問題。

圖5 理想狀態(tài)下訓(xùn)練集和測試集誤差

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)中采用TITAN Xp×2 進(jìn)行運(yùn)算加速，操作系統(tǒng)為64 位Ubuntu16.04，基于python3.6.7 的深度學(xué)習(xí)框架Tensorflow1.14.0 完成程序編程，基礎(chǔ)學(xué)習(xí)率為0.001，優(yōu)化方法為Adam，嵌入維度為10，批量大小為256。對于DNN，DCN，Wide＆Deep，DeepFM，xDeepFM以及mDeepFM 用系數(shù)為0.000 1的L2 正則去約束模型，并選擇文獻(xiàn)［12］中最優(yōu)的結(jié)構(gòu)和參數(shù)設(shè)定。訓(xùn)練epoch 的選擇采用了早停法，自動(dòng)選擇最佳迭代次數(shù)。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文在Criteo和Avazu兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行測試。其中，Criteo 數(shù)據(jù)集是Criteo 公司提供的關(guān)于用戶-廣告的歷史點(diǎn)擊行為的真實(shí)數(shù)據(jù)集，該數(shù)據(jù)集中包括了4 500 萬用戶點(diǎn)擊事件記錄，有13 個(gè)連續(xù)特征和26 個(gè)分類特征；Avazu 數(shù)據(jù)集是Avazu 公司提供的關(guān)于用戶-廣告的歷史點(diǎn)擊行為的真實(shí)數(shù)據(jù)集，該數(shù)據(jù)集包括了6 000 萬用戶點(diǎn)擊事件記錄，有8 個(gè)連續(xù)特征和14 個(gè)分類特征，兩個(gè)數(shù)據(jù)集都根據(jù)9∶1的比例劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。

3.3 評價(jià)指標(biāo)

本文使用二分類問題中最流行的兩種評價(jià)指標(biāo)：邏輯回歸損失（Logloss）和ROC 特征曲線下的面積（AUC），值得注意的是AUC 即使提升0.001，對CTR預(yù)測任務(wù)都有重要意義，點(diǎn)擊率的提升能直接影響業(yè)務(wù)收益。

Logloss針對的是單個(gè)樣本的預(yù)測值，計(jì)算結(jié)果為預(yù)測概率和真實(shí)值之間的二元交叉熵，其能夠體現(xiàn)出預(yù)測值與真實(shí)值之間的差距。Logloss定義為

式中：N是總體的樣本數(shù)量；y（i）和分別為測試集上第i個(gè)樣本的真實(shí)標(biāo)簽和模型預(yù)測為正樣本的概率。

隨機(jī)抽取一對樣本，包含一個(gè)正樣本一個(gè)負(fù)樣本，模型把正樣本排到負(fù)樣本上面的概率即為AUC。它能體現(xiàn)出樣本間的相對關(guān)系，不會(huì)被具體的概率值變化擾動(dòng)。AUC的定義如下：

式中：M為正樣本個(gè)數(shù)；N為負(fù)樣本個(gè)數(shù)；ranki表示每個(gè)樣本為正樣本概率的大小排序。

3.4 實(shí)驗(yàn)結(jié)果與分析

（1）二階特征交互層有效性驗(yàn)證。為了驗(yàn)證二階特征交互層的有效性，將mDeepFM模型去掉線性回歸和壓縮交互網(wǎng)絡(luò)，只保留二階特征交互層和DNN退化為Bi+DNN結(jié)構(gòu)，并和FM與DNN進(jìn)行對比。表1 分別展示了3 個(gè)不同模型在Criteo 和Avauz數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果，其中二階特征交互層加全連接神經(jīng)網(wǎng)絡(luò)的效果在兩項(xiàng)指標(biāo)上都達(dá)到最優(yōu)，說明這種結(jié)構(gòu)在特征交互中是非常有效的。由于FM只考慮二階特征的交互，DNN只進(jìn)行了高階特征交互，而Bi +DNN 的結(jié)構(gòu)則同時(shí)兼顧了低階和高階特征信息的融合，因此在包含大量稀疏和稠密特征的真實(shí)數(shù)據(jù)集上表現(xiàn)最好。而FM的效果最差，則說明了真實(shí)數(shù)據(jù)集中只進(jìn)行二階特征交互是不夠的，有必要進(jìn)行高階特征交互。DNN的效果雖然有所提升，但同時(shí)忽略了特征的低階信息，所以效果不如同時(shí)融合多層次特征信息的Bi +DNN結(jié)構(gòu)。綜上實(shí)驗(yàn)結(jié)果表明，在真實(shí)數(shù)據(jù)上進(jìn)行多層次的特征交互非常必要。

表1 二階特征交互層有效性驗(yàn)證實(shí)驗(yàn)結(jié)果

（2）DNN 層數(shù)對模型影響測試。對xDeepFM 和mDeepFM的DNN 部分選擇不同層數(shù)做對比實(shí)驗(yàn)，驗(yàn)證更深層次的隱式特征提取能否進(jìn)一步提高性能。本文分別對兩個(gè)模型的DNN部分選擇1 層、2 層和3 層進(jìn)行對比，xDeepFM-和mDeepFM-i 分別表示模型中有i層全連接層。結(jié)果如圖6 所示，DNN 的全連接層越多，效果越差；當(dāng)DNN為1 層時(shí)，兩個(gè)模型的效果都達(dá)到最優(yōu)。同時(shí)結(jié)果顯示，當(dāng)DNN 層數(shù)相同時(shí)，mDeepFM模型效果仍然優(yōu)于xDeepFM。根據(jù)本實(shí)驗(yàn)的結(jié)果可知，更深的全連接層不能提高性能，反而會(huì)使性能降低，在異構(gòu)組合模型中二階特征交互層和1 層全連接層結(jié)合的效果優(yōu)于兩層全連接層。由于模型采用的是線性回歸、壓縮交互網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)3部分組成，壓縮交互網(wǎng)絡(luò)已經(jīng)具備了高階特征交互的能力，如果DNN 部分使用更多的全連接層，會(huì)導(dǎo)致系統(tǒng)過擬合，從而導(dǎo)致性能下降。因此，要根據(jù)不同的場景選擇合適的全連接層。

圖6 不同DNN層數(shù)的性能對比

（3）本模型與其他主流模型性能對比評測。將mDeepFM模型與其他幾種主流模型在Criteo 和Avauz數(shù)據(jù)集上進(jìn)行比較，結(jié)果如表2 所示。可見，LR 模型效果最差，這說明如果僅僅使用最簡單的記憶模型會(huì)受到數(shù)據(jù)稀疏性的影響，缺乏泛化能力，只能學(xué)習(xí)到數(shù)據(jù)集中存在的特征，無法進(jìn)行特征組合學(xué)習(xí)高階特征，其他的模型則能夠進(jìn)行特征交互具有一定的泛化能力。

同時(shí)從表2 可以看出，xDeepFM 模型的效果比其他主流的點(diǎn)擊率預(yù)測模型更優(yōu)，本文提出的模型效果相比xDeepFM模型又有進(jìn)一步的提升：在Criteo 數(shù)據(jù)集上Logloss 達(dá)到了0.472 7，AUC 達(dá)到了0.775 8；在Avauz數(shù)據(jù)集上Logloss 達(dá)到了0.384 5，AUC 達(dá)到了0.764 1，和其他模型相比兩項(xiàng)指標(biāo)均達(dá)到了最優(yōu)。實(shí)驗(yàn)結(jié)果表明，mDeepFM能夠有效完成在真實(shí)數(shù)據(jù)集上的點(diǎn)擊率預(yù)測任務(wù)，異構(gòu)組合模型的點(diǎn)擊率預(yù)測效果優(yōu)于單一結(jié)構(gòu)模型，多層次的特征交互對特征信息的利用更加有效。

表2 mDeepFM與其他模型對比

4 結(jié)語

本文提出一種基于多層次特征交互的點(diǎn)擊率預(yù)測模型，結(jié)合了高階特征的隱式和顯式兩種學(xué)習(xí)方法，在特征嵌入層和全連接神經(jīng)網(wǎng)絡(luò)之間加入二階特征交互層，對低階和高階特征的線性和非線性組合進(jìn)一步融合，可以讓神經(jīng)網(wǎng)絡(luò)模型在低層次上學(xué)到更豐富的特征信息，在稀疏數(shù)據(jù)集和稠密數(shù)據(jù)集上都能對特征進(jìn)行有效的自動(dòng)組合，增強(qiáng)了模型的特征組合能力。同時(shí)為了避免訓(xùn)練過程中出現(xiàn)過擬合引入了早停法，并在特征預(yù)處理過程中引入最大支持的維度參數(shù)，避免稀疏特征在獨(dú)熱編碼時(shí)發(fā)生維度爆炸現(xiàn)象。通過這些改進(jìn)模型可以學(xué)到信息更加豐富的特征組合，并提高點(diǎn)擊率預(yù)測的性能。在兩個(gè)真實(shí)數(shù)據(jù)集Criteo 和Avazu上進(jìn)行驗(yàn)證，結(jié)果表明，本文提出的模型在真實(shí)數(shù)據(jù)集上的點(diǎn)擊率預(yù)測任務(wù)中非常有效，其性能均優(yōu)于xDeepFM和其他幾個(gè)主流特征交互模型。