沈?qū)W利,韓倩雯
(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)
互聯(lián)網(wǎng)+的迅速發(fā)展帶動(dòng)了互聯(lián)網(wǎng)廣告等行業(yè)的興起。精準(zhǔn)地預(yù)測(cè)廣告的投放對(duì)互聯(lián)網(wǎng)廣告等行業(yè)至關(guān)重要。點(diǎn)擊率(Click-Through Rate,CTR)預(yù)測(cè)作為廣告投放的重要手段之一,在互聯(lián)網(wǎng)廣告領(lǐng)域發(fā)揮著重要作用。CTR 預(yù)測(cè)通過估計(jì)用戶在特定上下文中點(diǎn)擊推薦的概率,從而做出推薦決策[1-2]。由于表示學(xué)習(xí)在計(jì)算機(jī)視覺和自然語(yǔ)言處理方面的優(yōu)異性能,深度學(xué)習(xí)技術(shù)引起越來(lái)越多的關(guān)注。許多公司提出各種深度CTR 模型,并將其部署在商業(yè)系統(tǒng)中,例如華為公司提出的基于深度學(xué)習(xí)的因子分解機(jī)模型(DeepFM)、阿里巴巴公司提出的深度興趣進(jìn)化網(wǎng)絡(luò)(Deep Interest Evolution Network,DIEN)和Google Play 公司提出的非線性變換的廣義線性模型(Wide&Deep)[3-5]。
現(xiàn)有深度CTR 預(yù)測(cè)模型大多遵循嵌入和特征交互(Feature Interaction,F(xiàn)I)范式[6]。鑒于特征交互在CTR 預(yù)測(cè)中的重要性,目前研究人員的工作主要集中于設(shè)計(jì)FI 模塊中的網(wǎng)絡(luò)架構(gòu),以更好地捕獲顯式或隱式特征交互信息。嵌入模塊在極大程度上影響了深度CTR 模型性能,一方面,嵌入模塊是FI 模塊的基礎(chǔ),直接影響FI 模塊的有效性[7];另一方面,深度CTR 模型的參數(shù)主要集中在嵌入模塊中,影響了模型的運(yùn)行速度[8]。
在深度CTR 模型中,嵌入層可分為傳統(tǒng)嵌入層和場(chǎng)感知嵌入層。文獻(xiàn)[9]提出一種基于乘積的神經(jīng)網(wǎng)絡(luò)(Product-based Neural Network,PNN)模型,其嵌入部分采用傳統(tǒng)嵌入技術(shù),存在低維特征表示不足的問題,但通過高階特征交互,可以提高預(yù)測(cè)準(zhǔn)確率。文獻(xiàn)[10]提出一種基于操作感知神經(jīng)網(wǎng)絡(luò)(Operation-aware Neural Network,ONN)的模型,采用場(chǎng)感知嵌入技術(shù)豐富特征表示,缺點(diǎn)在于會(huì)產(chǎn)生大量無(wú)用參數(shù)信息。相較于以上兩個(gè)模型重點(diǎn)關(guān)注高階特征交互信息的現(xiàn)象,為結(jié)合記憶和泛化的優(yōu)勢(shì),文獻(xiàn)[3]和文獻(xiàn)[5]同時(shí)訓(xùn)練低階線性模型和高階非線性深度神經(jīng)網(wǎng)絡(luò)兩部分。
注意力機(jī)制能夠通過對(duì)特征進(jìn)行加權(quán),有效過濾無(wú)用信息,加快收斂速度,在現(xiàn)有經(jīng)典模型中取得了很好的效果。文獻(xiàn)[11]通過研究引入注意力的因子分解機(jī)模型(Attentional Factorization Machines,AFM)發(fā)現(xiàn),注意力模塊的引入可以將輸入的無(wú)信息特征濾除,對(duì)準(zhǔn)確率的提高有積極影響。文獻(xiàn)[12]提出一種自動(dòng)特征結(jié)合的點(diǎn)擊率預(yù)測(cè)模型AutoInt,將FM 模型與多頭自注意力機(jī)制相結(jié)合,使模型能夠自動(dòng)學(xué)習(xí)豐富的特征表示,提高模型的可解釋性。文獻(xiàn)[13]設(shè)計(jì)了帶有對(duì)數(shù)轉(zhuǎn)換層的自適應(yīng)因子化網(wǎng)絡(luò)(Adaptive Factorization Network,AFN)模型,該轉(zhuǎn)換層將特征組合中每個(gè)特征的功率轉(zhuǎn)換為要學(xué)習(xí)的系數(shù)。文獻(xiàn)[14]介紹了基于注意力機(jī)制的乘積神經(jīng)網(wǎng)絡(luò)模型,通過組合AFM 和PNN 模型的優(yōu)點(diǎn),對(duì)特征交互后的信息進(jìn)行重要性評(píng)估,提高了模型預(yù)測(cè)準(zhǔn)確率,證明了注意力機(jī)制與深度學(xué)習(xí)CTR 模型相結(jié)合的有效性。
本文提出一種場(chǎng)感知注意嵌入神經(jīng)網(wǎng)絡(luò)(Fieldaware Attention Embedding Neural Network,F(xiàn)AENN)模型,通過引入?yún)?shù)較少的自注意力機(jī)制對(duì)嵌入模塊映射的特征向量進(jìn)行重要性評(píng)估,在特征交互前突出有效信息,并基于低階和高階交互特征相結(jié)合的思路,融合模型各類特征信息,提高模型預(yù)測(cè)準(zhǔn)確率。
在點(diǎn)擊率預(yù)測(cè)問題中,輸入特征通常是稀疏的,具有巨大的維數(shù)且沒有明顯的空間或時(shí)間相關(guān)性。一個(gè)常見的方法是將多字段分類數(shù)據(jù)轉(zhuǎn)換為高維稀疏特征空間,通過One-Hot 編碼,在原始特征的基礎(chǔ)上開發(fā)一個(gè)嵌入層輸入,并將其壓縮為低維密集實(shí)值向量,通過共享的潛在空間進(jìn)行表現(xiàn)。離散化特征直接分配單獨(dú)的編號(hào),連續(xù)型特征需要經(jīng)過One-Hot 編碼成數(shù)值型,其中每個(gè)特征表示為一個(gè)One-Hot 編碼向量,編碼產(chǎn)生的所有特征值只能是0 或1。One-Hot編碼效率低且不能很好地表示特征之間的相關(guān)性,但通過引入嵌入層可以將高維稀疏向量降維。
為更好地處理數(shù)據(jù),使用嵌入技術(shù)將所有數(shù)據(jù)統(tǒng)一為分類特征。如果假設(shè)有m個(gè)特征,xi代表第i個(gè)特征的One-Hot 編碼向量,輸入特征拼接成的特征向量x為[x1,x2,…,xm],那么每個(gè)訓(xùn)練樣本可以表示為(x,y),其中y∈{0,1},y表 示用戶是否執(zhí)行了正反饋,即點(diǎn)擊的概率。
傳統(tǒng)嵌入技術(shù)是將特征集下的每個(gè)特征向量對(duì)應(yīng)一個(gè)映射,該過程的表達(dá)式如下:
其中:vi是第i個(gè)特征的嵌入矩陣;xi是一個(gè)獨(dú)熱編碼向量。傳統(tǒng)嵌入矩陣層EM可表示如下:
圖1 所示為傳統(tǒng)嵌入的示意圖,可以看到,當(dāng)傳統(tǒng)嵌入技術(shù)中每個(gè)特征對(duì)應(yīng)其他特征時(shí),權(quán)重相同,缺少有效信息表達(dá),故文獻(xiàn)[15]提出了場(chǎng)感知嵌入,其架構(gòu)如圖2 所示,將每一個(gè)特征對(duì)應(yīng)多個(gè)映射。
圖1 傳統(tǒng)嵌入示意圖Fig.1 Schematic diagram of traditional embedding
圖2 場(chǎng)感知嵌入示意圖Fig.2 Schematic diagram of field-aware embedding
以第i特征進(jìn)行第l次運(yùn)算為例,字段i的二維k×n嵌入矩陣用[vi,1,vi,2,…,vi,j]表示,vi,j∈Rk指的是字段i的第j個(gè)嵌入向量,n是字段的數(shù)量,k是嵌入向量的大小。由于存在n個(gè)場(chǎng),每個(gè)場(chǎng)對(duì)應(yīng)一個(gè)嵌入矩陣,嵌入矩陣層EM1是一個(gè)尺寸為k×n×n的三維矩陣,表達(dá)式如式(3)所示:
特征交互是指特征之間的深度交叉組合,學(xué)習(xí)特征交互是解決點(diǎn)擊率預(yù)測(cè)的關(guān)鍵問題。為提高模型的準(zhǔn)確率,可以采用直接合并或異構(gòu)的內(nèi)容數(shù)據(jù)。交互后的數(shù)據(jù)特征一般會(huì)從多個(gè)維度呈現(xiàn)多種信息,因此特征之間的相互組合意義重大。特征交互的關(guān)系解釋形式分為“且”關(guān)系和“加”關(guān)系。以兩個(gè)特征的交互為例,一種是“且”關(guān)系,即性別為女且會(huì)打乒乓球的人群,另一種是“加”關(guān)系,即性別為女和會(huì)打乒乓球的人群,前者特征交互的意義比后者更好。具體來(lái)說(shuō),文獻(xiàn)[9]的product 操作就是討論這種“且”關(guān)系,能更好地捕捉特征之間的交互。文獻(xiàn)[16]提出一種基于注意力機(jī)制的深度興趣網(wǎng)絡(luò)(Attential Deep Interest Network,ADIN)模型,采用拼接的方式,即“和”關(guān)系。
注意力機(jī)制[17]是源于對(duì)人類視覺的研究,能夠通過減少噪聲數(shù)據(jù)的副作用,從原始特征中提取有效信息。文獻(xiàn)[18]是Google 研究團(tuán)隊(duì)針對(duì)注意力機(jī)制種類的總結(jié),自注意力機(jī)制(Self-Attentive Mechanism,SAM)是注意力模型的一種特殊形式,通過學(xué)習(xí)自身內(nèi)部結(jié)構(gòu)直接計(jì)算依賴關(guān)系,能夠更好地解決特征龐大且無(wú)側(cè)重點(diǎn)的問題。
文獻(xiàn)[19]將注意力機(jī)制應(yīng)用在點(diǎn)擊率預(yù)測(cè)中,動(dòng)態(tài)地學(xué)習(xí)特征重要性和細(xì)粒度的特征相互作用,對(duì)比DeepFM 模型取得了較高的準(zhǔn)確率。文獻(xiàn)[20]提出深度興趣網(wǎng)絡(luò)(Deep Interest Network,DIN)模型,通過在特征交互后使用注意力機(jī)制,自適應(yīng)地從歷史行為中學(xué)習(xí)用戶的興趣表示,取得了很好的預(yù)測(cè)效果。文獻(xiàn)[21]通過深度興趣網(wǎng)絡(luò)對(duì)興趣特征進(jìn)行自適應(yīng)學(xué)習(xí),提升了模型的表達(dá)能力。
注意力模塊的引入可以將輸入的無(wú)信息特征濾除,對(duì)提高預(yù)測(cè)準(zhǔn)確率有積極影響。然而,模型通常采用在特征交互后加入注意力的方式,認(rèn)為不同的交互特征的重要性不同,通過模型學(xué)習(xí)每種交互特征的權(quán)重,從而提高模型性能。文獻(xiàn)[22]認(rèn)為特征交互前的特征信息同樣重要,本文將通過實(shí)驗(yàn)來(lái)驗(yàn)證該結(jié)論。
FAENN 模型是一種端到端的深度點(diǎn)擊率預(yù)測(cè)模型,模型結(jié)構(gòu)如圖3 所示。該模型由3 個(gè)部分構(gòu)成,包括注意力嵌入層、低階特征交互層和高階特征交互層。首先,注意力嵌入層通過引入自注意力機(jī)制,對(duì)場(chǎng)感知嵌入向量進(jìn)行重要性分析,并輸出注意力嵌入特征向量。其次,低階特征交互層通過注意力場(chǎng)感知嵌入建模一階線性特征和二階交互特征,并通過訓(xùn)練得到預(yù)測(cè)值。然后,高階特征交互層將二階特征交互的輸出作為輸入,利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練高階交互特征,得到高階預(yù)測(cè)值。最后,將上述預(yù)測(cè)值通過Sigmoid 函數(shù)訓(xùn)練,得到最終的預(yù)測(cè)值。
圖3 FAENN 模型結(jié)構(gòu)Fig.3 FAENN model structure
注意力嵌入層的目的是將稀疏特征向量映射到低維稠密的潛在向量中,以減小維數(shù)。本文將注意力機(jī)制引入嵌入層,學(xué)習(xí)潛在向量中每個(gè)特征的重要性,以提高模型的性能和有效性。其過程是將one-hot 嵌入向量作為輸入,對(duì)每個(gè)特征進(jìn)行多個(gè)嵌入表示,得到場(chǎng)感知嵌入矩陣,隨后對(duì)場(chǎng)感知嵌入矩陣進(jìn)行權(quán)重關(guān)注,輸出新的注意力嵌入矩陣。
場(chǎng)感知嵌入部分是將one-hot 編碼后的序列進(jìn)行多個(gè)“復(fù)制”操作,即將每個(gè)特征對(duì)應(yīng)多個(gè)特征向量表示,使數(shù)據(jù)從高維稀疏特征映射到低維表示。即對(duì)向量構(gòu)造一個(gè)映射τ,其中o是第i個(gè)特征的第k次復(fù)制操作,表達(dá)式如下:
其中:o(c,i)表示第i個(gè)特征進(jìn)行復(fù)制操作。將輸出嵌入特征記為ef,假設(shè)有m個(gè)特征ef,其表達(dá)式如式(5)所示:
模型在學(xué)習(xí)過程中對(duì)數(shù)值統(tǒng)計(jì)分布差異大的特征向量不敏感,導(dǎo)致模型整體收斂速度和性能降低。自注意力模塊的計(jì)算重點(diǎn)是關(guān)注特征提取前的特征信息,相對(duì)于的內(nèi)部聯(lián)系進(jìn)行訓(xùn)練,重點(diǎn)關(guān)注特征內(nèi)部的聯(lián)系,突出有效信息并加快收斂速度,能夠解決特征過多,重點(diǎn)信息被忽略的問題。
與傳統(tǒng)的注意力機(jī)制不同,本文根據(jù)場(chǎng)嵌入的模式,有針對(duì)性地對(duì)注意力機(jī)制進(jìn)行改進(jìn)。縮放點(diǎn)積注意力的計(jì)算式如式(6)所示:
本文模型所使用的注意力機(jī)制采用縮放點(diǎn)積方式,結(jié)構(gòu)如圖4 所示。
圖4 自注意力機(jī)制Fig.4 Self-attention mechanism
低階特征交互層主要是對(duì)一階線性特征和二階交互特征進(jìn)行訓(xùn)練。其中,一階線性特征分為對(duì)原始特征提取和對(duì)嵌入特征提取兩部分。
原始特征提取部分能夠?qū)ne-hot 嵌入向量進(jìn)行概率分析。其中,x表示輸入特征向量;w表示訓(xùn)練過程中學(xué)習(xí)的參數(shù),表達(dá)式如式(7)所示:
嵌入特征提取部分中的注意力嵌入層關(guān)注嵌入特征向量的重要性,使每個(gè)特征對(duì)應(yīng)的特征向量獲得獨(dú)立的重要性信息。在模型整體中,注意力嵌入層引入一階特征信息的重要性權(quán)重,用于豐富模型提取的特征信息,從而為獲得更準(zhǔn)確的高階特征組合表示做鋪墊。得到注意力嵌入層A的表達(dá)式如式(8)所示:
二階特征交互部分通過分解2 個(gè)潛在向量乘積,解決特征向量乘積后特征出現(xiàn)非常稀疏的情況,本模型使用內(nèi)積操作學(xué)習(xí)二階特征交互。
用[p1,2p1,3,…,pm-1,m]表示二階特征交互if。其中,pi,j是第i個(gè)特征和第j個(gè)特征之間內(nèi)積運(yùn)算的值,其表達(dá)式如式(9)所示:
用o(p,i,j)表示第i個(gè)特征和第j個(gè)特征的內(nèi)積操作,該過程的示意圖如圖5 所示。
圖5 內(nèi)積操作示意圖Fig.5 Schematic diagram of inner product
將嵌入特征ef和交互特征if作為低階隱性特征,并單獨(dú)進(jìn)行概率預(yù)測(cè),得到Y(jié)FAEM,其表達(dá)式如式(10)所示:
高階特征交互層采用多層感知機(jī)[23],使用多層神經(jīng)網(wǎng)絡(luò)提取高階特征和進(jìn)行預(yù)測(cè)。首先連接ef和if構(gòu)成該層的輸出,并提供給全連接層,該過程的表達(dá)式如式(11)所示:
對(duì)共享的特征交互層f進(jìn)行批量歸一化,其結(jié)果表示如下:
其中:BN 是指進(jìn)行貝葉斯批處理規(guī)范化,用來(lái)加速模型訓(xùn)練;l1和l2表示對(duì)應(yīng)的深度神經(jīng)網(wǎng)絡(luò)層。本文在每個(gè)深度神經(jīng)網(wǎng)絡(luò)層中添加批處理規(guī)范化,并使用校正后的線性單位Relu 進(jìn)行處理,采用Sigmoid函數(shù)完成概率預(yù)測(cè)的任務(wù),其表達(dá)式如式(15)所示:
損失函數(shù)如式(16)所示:
通過將低階特征交互部分與高階特征交互部分相結(jié)合,得到最后的預(yù)測(cè)結(jié)果,表達(dá)式如式(17)所示:
本文實(shí)驗(yàn)的硬件設(shè)備處理器為Intel?CoreTMi7-8700@3.2 GHz,顯卡為GeForce RTX 2080Ti 11 GB,32 GB 運(yùn)行內(nèi)存,通過Python3.7 編程語(yǔ)言實(shí)現(xiàn),采用Tensorflow1.15 深度學(xué)習(xí)框架。
為證明本文模型的有效性,將現(xiàn)有模型與本文模型在2 個(gè)公開的經(jīng)典數(shù)據(jù)集Criteo[24]和Avazu[25]上進(jìn)行對(duì)比。Criteo 數(shù)據(jù)集是既有分類特征又有數(shù)字特征,而Avazu 數(shù)據(jù)集只有分類特征。Criteo 數(shù)據(jù)集中的數(shù)字特征經(jīng)過離散化,可被視為分類特征。預(yù)處理后的Criteo 數(shù)據(jù)集包含39 個(gè)字段,1 040 123 個(gè)特征;Avazu 數(shù)據(jù)集包含22 個(gè)字段,254 644 個(gè)特征。兩個(gè)數(shù)據(jù)集被進(jìn)一步以80%和20%的比例分別劃分為訓(xùn)練集和測(cè)試集。
采用曲線下面積(Area Under Curve,AUC)和對(duì)數(shù)損失函數(shù)(Logloss)兩種指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。AUC 值上限為1,值越大表示準(zhǔn)確率越高,模型性能越好,表達(dá)式如式(18)所示:
Logloss 適用于二分類任務(wù)指標(biāo),能對(duì)分類器的準(zhǔn)確率進(jìn)行量化。Logloss 用于測(cè)量2 個(gè)分部之間的距離,值越小,表示模型性能越好,對(duì)數(shù)損失函數(shù)的計(jì)算式如下所示:
其中:yi表示第i個(gè)廣告樣本的實(shí)際點(diǎn)擊率;pi表示第i個(gè)廣告樣本的預(yù)測(cè)點(diǎn)擊率。
實(shí)驗(yàn)從3 個(gè)方面進(jìn)行分析,包括模型與其他基線模型的效率對(duì)比,特征信息關(guān)注位置對(duì)模型性能的影響,以及各種超參數(shù)對(duì)模型訓(xùn)練結(jié)果的影響。
3.3.1 經(jīng)典模型對(duì)比
為保持實(shí)驗(yàn)的公平性,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)設(shè)置上采用相同的嵌入維數(shù)10。由于非線性隱藏層太多容易導(dǎo)致過擬合,本文深度神經(jīng)網(wǎng)絡(luò)部分的隱藏層深度選用3 層,每層神經(jīng)元的數(shù)量均為400 個(gè),即隱藏大小為[400,400,400]。此外,激活函數(shù)均采用Relu,優(yōu)化器使用Adam,學(xué)習(xí)率設(shè)置為0.000 1,訓(xùn)練批次大小設(shè)置為1 000。
本節(jié)將本文模型與現(xiàn)有推薦系統(tǒng)中的經(jīng)典模型FM、FFM、AFM、PNN、DeepFM 和ONN 進(jìn)行比較,其中FAEM 是以本文模型為基礎(chǔ)的淺層模型,結(jié)果如表1 所示。
表1 不同淺層模型在不同數(shù)據(jù)集下的結(jié)果對(duì)比Table 1 Comparison of results of different low models under different datasets
由表1 可知,在淺層模型下,AFM 模型的AUC值高于FM 模型,這證明注意力機(jī)制的引入對(duì)特征重要性的提取是有效的。FFM 模型的AUC 值高于FM和AFM 模型,這表明豐富特征表達(dá)比關(guān)注模型權(quán)重的效果更好。此外,F(xiàn)AEM 模型的AUC 值始終高于其他3 個(gè)模型,證明了在場(chǎng)感知嵌入層進(jìn)行特征關(guān)注對(duì)提高模型性能有積極作用。
表2 是不同深層模型的對(duì)比結(jié)果,由表2 可知,在引入高階特征交互的情況下,DeepFM 模型相較于PNN 模型的AUC 值更高,這證明同時(shí)關(guān)注低階和高階特征交互的效果更好。對(duì)比PNN 模型與ONN 模型的實(shí)驗(yàn)結(jié)果可知,ONN 模型明顯好于PNN 模型,這是因?yàn)镺NN 模型中的嵌入部分和特征交互中豐富的特征表達(dá)發(fā)揮了積極作用。由表2 還可知,F(xiàn)AENN 模型的Logloss 值和AUC 值在對(duì)比模型中均最優(yōu),這表明對(duì)嵌入層特征的重要性進(jìn)行評(píng)價(jià)能提高模型的性能。
表2 不同深層模型在不同數(shù)據(jù)集下的結(jié)果對(duì)比Table 2 Comparison of results of different deep models under different datasets
在2 個(gè)數(shù)據(jù)集上對(duì)不同深度點(diǎn)擊率預(yù)測(cè)模型的訓(xùn)練時(shí)間進(jìn)行比較,可以發(fā)現(xiàn)將自注意力機(jī)制引入到深度點(diǎn)擊率模型,能有效提升模型性能。不同模型的訓(xùn)練時(shí)間如圖6 所示,可以看出,在深度點(diǎn)擊率預(yù)測(cè)模型中,采用場(chǎng)感知嵌入的點(diǎn)擊率預(yù)測(cè)模型的訓(xùn)練時(shí)間較傳統(tǒng)嵌入模型訓(xùn)練時(shí)間更長(zhǎng),但加入注意力機(jī)制后,訓(xùn)練時(shí)間有所降低,這說(shuō)明注意力機(jī)制能加快模型的收斂速度。
圖6 不同模型的訓(xùn)練時(shí)間對(duì)比Fig.6 Comparison of training times of different models
3.3.2 注意力機(jī)制放置位置的對(duì)比
本節(jié)對(duì)注意力機(jī)制放置在特征交互前后的位置進(jìn)行研究,以Criteo 數(shù)據(jù)集隨機(jī)選取100 000 條數(shù)據(jù)為例,其中模型的-n 表示對(duì)特征重要性進(jìn)行關(guān)注,-v1 表示在特征交互前對(duì)特征重要性進(jìn)行評(píng)估,-v2表示在特征提取后對(duì)特征權(quán)重進(jìn)行評(píng)估,-v1v2 表示模型在特征交互前后都對(duì)特征權(quán)重進(jìn)行關(guān)注,實(shí)驗(yàn)結(jié)果如圖7 所示。
圖7 不同模型在Criteo 數(shù)據(jù)集下的結(jié)果對(duì)比Fig.7 Comparison of results of different models in Criteo dataset
從準(zhǔn)確率的角度來(lái)看,加入自注意力機(jī)制的模型FAENN-v1,F(xiàn)AENN-v2 和FAENN-v1v2 準(zhǔn)確率比未加入自注意力機(jī)制的模型FAENN-n 準(zhǔn)確率分別高出0.7、0.1 和0.3 個(gè)百分點(diǎn),說(shuō)明對(duì)特征進(jìn)行權(quán)重關(guān)注對(duì)提升模型的性能產(chǎn)生了積極作用。在特征交互前對(duì)特征進(jìn)行關(guān)注,其準(zhǔn)確率優(yōu)于其他兩種權(quán)重關(guān)注方式,產(chǎn)生此現(xiàn)象的原因可能與嵌入層表示方式有關(guān),場(chǎng)感知嵌入相較于傳統(tǒng)嵌入具有更多的特征表示,在特征交互前進(jìn)行特征重要性評(píng)估更合理。
從時(shí)間效率的角度來(lái)看,與未引入自注意力機(jī)制的模型訓(xùn)練時(shí)間相比,在特征交互前進(jìn)行特征關(guān)注的模型訓(xùn)練時(shí)間下降了1.5個(gè)百分點(diǎn),且FAENN-v1模型訓(xùn)練時(shí)間與FAENN-v2、FAENN-v1v2 模型相比分別減少了6.6 和7.3 個(gè)百分點(diǎn),這證明在特征交互前引入注意力機(jī)制能加快訓(xùn)練速度。
從復(fù)雜度的角度來(lái)看,模型在特征交互前是對(duì)kn個(gè)特征向量進(jìn)行注意力加權(quán),在特征交互后是對(duì)兩兩相乘的交叉特征即k2n2個(gè)特征進(jìn)行加權(quán)。由此可知,在特征交互前進(jìn)行重要性關(guān)注的復(fù)雜度更小,即更高效。
3.3.3 超參數(shù)對(duì)模型準(zhǔn)確率的影響
本節(jié)主要研究超參數(shù)對(duì)FAENN 模型準(zhǔn)確率的影響。
1)嵌入維數(shù)對(duì)模型準(zhǔn)確率的影響。如圖8 所示,在Criteo 數(shù)據(jù)集下,適當(dāng)增加嵌入維度能夠提高模型預(yù)測(cè)準(zhǔn)確率,但當(dāng)嵌入維度超過8 時(shí),AUC 值逐漸下降,繼續(xù)增加維數(shù)會(huì)導(dǎo)致過擬合現(xiàn)象發(fā)生。因此,新模型嵌入維度選為8 更合適。
圖8 不同嵌入維度下的AUC 值對(duì)比Fig.8 Comparison of AUC values under different embedded dimensions
2)激活函數(shù)對(duì)模型準(zhǔn)確率的影響。由圖9 可知,在Criteo 數(shù)據(jù)集下,在人工神經(jīng)網(wǎng)絡(luò)模型中集成應(yīng)用激活函數(shù)可以更高效精準(zhǔn)地處理非線性函數(shù)。通過對(duì)比不同激活函數(shù)可知,Relu 在模型中表現(xiàn)最好,更適合本文模型。
圖9 不同激活函數(shù)下的AUC 值比較Fig.9 AUC value under different activation functions
3)優(yōu)化器對(duì)模型準(zhǔn)確率的影響。由圖10 可知,在Criteo 數(shù)據(jù)集下,當(dāng)點(diǎn)擊預(yù)測(cè)模型的損失函數(shù)設(shè)定完成時(shí),就需要選擇預(yù)測(cè)模型的優(yōu)化器來(lái)優(yōu)化預(yù)測(cè)模型的相關(guān)參數(shù),以保證預(yù)測(cè)模型的損失最小。對(duì)4 個(gè)優(yōu)化器實(shí)驗(yàn)進(jìn)行對(duì)比發(fā)現(xiàn),Adam 優(yōu)化器在模型中的AUC 值更高,因此更適合FAENN 模型。
圖10 不同優(yōu)化器下的AUC 值對(duì)比Fig.10 Comparison of AUC values under different optimizers
本文面向點(diǎn)擊率預(yù)測(cè)任務(wù),提出一種場(chǎng)感知注意嵌入神經(jīng)網(wǎng)絡(luò)模型,在場(chǎng)感知嵌入的深度點(diǎn)擊模型中引入自注意力機(jī)制,以豐富特征表示。通過自動(dòng)學(xué)習(xí)濾除無(wú)用信息,并突出有效信息,提高點(diǎn)擊率預(yù)測(cè)模型的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文模型相比于FM、FFM、AFM 等模型有較高的預(yù)測(cè)準(zhǔn)確率。下一步將通過研究顯式特征交互,豐富模型的特征表達(dá),提高場(chǎng)感知點(diǎn)擊率預(yù)測(cè)模型的可解釋性。