曾旺旺 胡洋 陳俊文 廖澤宇 阮謝林
摘要:作為在線廣告推送中極為重要的環(huán)節(jié),準(zhǔn)確的點(diǎn)擊率預(yù)測(cè)(Click-Through Rate,CTR)不僅能提升用戶(hù)體驗(yàn),更能增加經(jīng)濟(jì)收益,減少資源浪費(fèi)。目前,基于深度學(xué)習(xí)的CTR預(yù)測(cè)模型雖然取得了一定成績(jī),但在高低階特征交互學(xué)習(xí)方面存在不兼顧、不充分以及模型可解釋性不強(qiáng)等問(wèn)題。為解決上述問(wèn)題,文章提出的模型基于壓縮交互網(wǎng)絡(luò)對(duì)高階交互特征進(jìn)行顯式學(xué)習(xí),增強(qiáng)可解釋性。同時(shí)采用ECA-net網(wǎng)絡(luò)與雙線性層組合的方式,對(duì)一階特征進(jìn)行加權(quán)學(xué)習(xí),對(duì)二階特征進(jìn)行更加細(xì)粒度的特征交互,實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更細(xì)粒度的高階交互特征,兼顧高低階特征學(xué)習(xí),獲取更加全面的潛在特征相關(guān)性。在Criteo和Avazu兩個(gè)公開(kāi)的大數(shù)據(jù)集上實(shí)驗(yàn)發(fā)現(xiàn),與已提出的相關(guān)模型相比較,新模型在性能方面均有所提升。
關(guān)鍵詞:點(diǎn)擊率;高低階特征交互;壓縮交互網(wǎng)絡(luò);細(xì)粒度
中圖分類(lèi)號(hào):TP39文獻(xiàn)標(biāo)志碼:A
0 引言
2023年1月12日發(fā)布的《2022中國(guó)互聯(lián)網(wǎng)廣告數(shù)據(jù)報(bào)告》顯示,2022年,國(guó)內(nèi)互聯(lián)網(wǎng)廣告市場(chǎng)規(guī)模已達(dá)5 088億元,規(guī)模巨大。通過(guò)提升廣告點(diǎn)擊率(Click-Through-Rate,CTR)預(yù)測(cè)模型的準(zhǔn)確性,實(shí)現(xiàn)更加準(zhǔn)確的廣告推送,不僅能大大節(jié)約成本,提升廣告商收益,更能夠提升用戶(hù)體驗(yàn)感,有效獲取感興趣廣告。為此,關(guān)于提升CTR預(yù)測(cè)模型準(zhǔn)確率問(wèn)題也引起了業(yè)界廣泛研究。
目前,對(duì)預(yù)測(cè)模型的研究可分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的線性模型和基于深度學(xué)習(xí)的非線性模型。線性模型雖然易于實(shí)現(xiàn)、可解釋性強(qiáng),但無(wú)法學(xué)習(xí)高階交互特征,獲取更加全面的特征間潛在相關(guān)性,如邏輯回歸(Logistic Regression, LR)、因子分解機(jī)(Factorization Machines, FM)等模型[1-2]。與線性模型相比,非線性模型雖然在性能上有所提升,但在高低階數(shù)特征交互方面未做到全面兼顧、對(duì)不同一階特征未按重要程度進(jìn)行區(qū)分,導(dǎo)致模型在準(zhǔn)確性方面還存在較大的提升空間,如Autoint,MaskNet等模型[3-4]。
1 模型設(shè)計(jì)及原理
針對(duì)現(xiàn)已提出的模型所存在的問(wèn)題,本文提出了一種兼顧高低階特征學(xué)習(xí),能夠顯式地學(xué)習(xí)高階交互特征,具有較強(qiáng)可解釋性的點(diǎn)擊率預(yù)測(cè)模型,模型結(jié)構(gòu)如圖1所示。模型主要包括:FM層、Embedding Layer(嵌入層)、Compressed Interaction Network Layer(CIN層)、Effificient Channel Attention Layer(ECA-net層)、Bilinear Interaction Layer(雙線性層)、Combination Layer(全連接層)以及Multilayer Perceptron Layer(多層感知機(jī)層)。其中,F(xiàn)M層主要針對(duì)每個(gè)特征引入一個(gè)對(duì)應(yīng)的隱向量,在進(jìn)行二階特征交互時(shí)兩個(gè)特征的隱向量進(jìn)行內(nèi)積求得交互特征的權(quán)重,因此,F(xiàn)M層在面對(duì)稀疏特征及冷啟動(dòng)問(wèn)題時(shí)具有非常好的效果,并且與模型結(jié)構(gòu)圖中右邊部分構(gòu)成雙塔模型并行聯(lián)合訓(xùn)練,計(jì)算公式如下。
2 數(shù)據(jù)集介紹
針對(duì)所提出的預(yù)測(cè)模型,本文將采用Criteo和Avazu兩個(gè)學(xué)術(shù)界、工業(yè)界常用于對(duì)CTR模型進(jìn)行實(shí)驗(yàn)的廣告數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。為能夠更加有效地說(shuō)明模型在實(shí)際應(yīng)用場(chǎng)景中面對(duì)海量數(shù)據(jù)的情況,本文將采用上述兩個(gè)數(shù)據(jù)集的全部數(shù)據(jù)用于實(shí)驗(yàn)。其中,Criteo數(shù)據(jù)集包含26個(gè)脫敏分類(lèi)特征、13個(gè)連續(xù)數(shù)值特征,共計(jì)約4 500萬(wàn)條真實(shí)用戶(hù)數(shù)據(jù)。在實(shí)驗(yàn)過(guò)程中分為兩部分,其中,90%用訓(xùn)練、10%用于測(cè)試;Avazu數(shù)據(jù)集包含24個(gè)特征,共計(jì)4 000萬(wàn)條真實(shí)用戶(hù)數(shù)據(jù),其中,80%用訓(xùn)練、20%用于測(cè)試。
3 實(shí)驗(yàn)參數(shù)設(shè)置與分析
3.1 參數(shù)設(shè)置
本實(shí)驗(yàn)硬件設(shè)備中處理器使用的是Intel(R) Xeon(R) platinum 8350C CPU @2.60 GHz,顯卡是RTX A5000(24 G),運(yùn)行內(nèi)存43 GB。實(shí)驗(yàn)?zāi)P驮赑ython 3.8下進(jìn)行編程,在PyTorch 1.9.0版本下的深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)。對(duì)于所有的對(duì)比模型中具有相同網(wǎng)絡(luò)結(jié)構(gòu)的將采用統(tǒng)一參數(shù),其中,多層感知機(jī)層網(wǎng)絡(luò)層數(shù)均為3,每層間的激活函數(shù)為ReLu,學(xué)習(xí)率為0.001,優(yōu)化器采用Adma。由于采用的數(shù)據(jù)集較大,在訓(xùn)練過(guò)程中Criteo數(shù)據(jù)集batch-size設(shè)置為10 000,Avazu數(shù)據(jù)集batch-size設(shè)置為5 000。
3.2 實(shí)驗(yàn)分析
實(shí)驗(yàn)將從基于淺層模型情況下與基于深層模型下的實(shí)驗(yàn)結(jié)果兩個(gè)方面進(jìn)行分析。
3.2.1 淺層模型性能對(duì)比
本節(jié)將所提出的模型在消去多層感知機(jī)層后作為CTR淺層模型與LR,F(xiàn)M,AFM等淺層模型(Low-order Model)進(jìn)行對(duì)比,結(jié)果如表1所示。
在CTR預(yù)測(cè)領(lǐng)域中,AUC值提升0.001也是非常具有價(jià)值的,在實(shí)際應(yīng)用場(chǎng)景中面對(duì)海量數(shù)據(jù)將帶來(lái)巨大經(jīng)濟(jì)效益[5-6]。從表1中可以發(fā)現(xiàn),在Criteo數(shù)據(jù)中本文所提出的模型在淺層模型(Ours-sh)下的性能比其他淺層模型的性能都要好。
3.2.2 深層模型性能對(duì)比
為進(jìn)一步說(shuō)明模型在深層網(wǎng)絡(luò)下的效果,本文所提出的模型將與其他基于深度神經(jīng)網(wǎng)絡(luò)下所提出的深層模型(High-order Model)進(jìn)行比較,結(jié)果如表2所示。
從表1、表2的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文所提出的模型無(wú)論是在淺層模型下還是在深層模型下,性能都要比其他對(duì)比模型性能要好。這表明本文所提的雙塔加雙線并行訓(xùn)練的模型在提升模型性能方面是有效的,CIN層與ECA-net、雙線性層及多層感知機(jī)所構(gòu)成的雙線訓(xùn)練分支在提取高階特征的潛在相關(guān)性方面具有一定的效果。
4 結(jié)語(yǔ)
為進(jìn)一步提升CTR預(yù)測(cè)模型的準(zhǔn)確性,本文所提出的預(yù)測(cè)模型在關(guān)注一階特征重要性的基礎(chǔ)上細(xì)化特征粒度,通過(guò)顯隱性高階特征并行學(xué)習(xí)的方式學(xué)習(xí)更加全面、細(xì)微的特征間的關(guān)聯(lián)性。實(shí)驗(yàn)證明,該模型在預(yù)測(cè)在線廣告是否被點(diǎn)擊的準(zhǔn)確性等方面有較好的表現(xiàn)。
參考文獻(xiàn)
[1]KUMAR R,NAIK S M,NAIK V D,et al.Predicting clicks:CTR estimation of advertisements using logistic regression classifier:Advance Computing Conference[C].New York,NY:IEEE,2015.
[2]RENDLE S.Factorization machines:2010 IEEE International Conference on Data Mining[C].New York,NY:IEEE,2010.
[3]SONG W,SHI C,XIAO Z,et al.Autoint:automatic feature interaction learning via self-attentive neural networks:Proceedings of the 28th ACM International Conference on Information and Knowledge Management[C].New York,NY:ACM,2019.
[4]WANG Z Q,SHE Q Y,ZHANG J L.MaskNet:introducing feature-wise multiplication to CTR ranking models by instance-guided mask[J].ArXiv,2021:2102.07619.
[5]HUANG T,ZHANG Z,ZHANG J.FiBiNET:combining feature importance and bilinear feature interaction for click-through rate prediction:Proceedings of the 13th ACM Conference on Recommender Systems[C].New York,NY:ACM,2019.
[6]蔣興渝,黃賢英,陳雨晶,等.特征重要性動(dòng)態(tài)提取的廣告點(diǎn)擊率預(yù)測(cè)模型[J].小型微型計(jì)算機(jī)系統(tǒng),2022(5):976-984.
(編輯沈 強(qiáng))