覃朝勇, 謝佳麟, 胡查娟
(1.廣西大學(xué)工商管理學(xué)院, 廣西南寧530004;2.廣西大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院, 廣西南寧530004)
隨著科技的進(jìn)步和大數(shù)據(jù)的發(fā)展,以互聯(lián)網(wǎng)為媒介的在線廣告已成為當(dāng)前廣告投放的主流模式,點(diǎn)擊率(click-through rate,CTR)預(yù)測(cè)是其中的一個(gè)重要研究主題。由于單次活動(dòng)中可提供的廣告位數(shù)量有限,因此廣告商往往根據(jù)點(diǎn)擊率(CTR)預(yù)測(cè)結(jié)果選擇最有價(jià)值的廣告進(jìn)行投放。點(diǎn)擊率模型預(yù)測(cè)結(jié)果的準(zhǔn)確性將會(huì)影響用戶對(duì)推薦商品的滿意度,進(jìn)而影響廣告商收入以及之后的營(yíng)銷策略。目前,CTR預(yù)測(cè)已廣泛應(yīng)用于各種在線廣告系統(tǒng),如贊助搜索[1]、展示廣告[2]等。總之,準(zhǔn)確預(yù)測(cè)點(diǎn)擊率對(duì)廣告商而言至關(guān)重要。
研究者們通常將用戶響應(yīng)問(wèn)題視為二分類問(wèn)題,即以用戶是否點(diǎn)擊或購(gòu)買某一廣告為分類標(biāo)簽,并根據(jù)用戶特征信息、歷史信息和廣告特征向量對(duì)該廣告的點(diǎn)擊或購(gòu)買情況進(jìn)行分類估計(jì)。圖1給出了點(diǎn)擊率預(yù)測(cè)任務(wù)的圖解。點(diǎn)擊率預(yù)測(cè)任務(wù)是當(dāng)特定廣告展示給用戶時(shí),根據(jù)廣告信息估計(jì)用戶點(diǎn)擊該廣告的概率,即P=P(click|ad)。
圖1 CTR預(yù)測(cè)模型圖解Fig.1 An illustration of the CTR prediction model
以點(diǎn)擊率為用戶響應(yīng)的主要預(yù)測(cè)指標(biāo),可將用戶響應(yīng)預(yù)測(cè)模型大致分為傳統(tǒng)的預(yù)測(cè)模型和基于深度學(xué)習(xí)的預(yù)測(cè)模型兩類。
傳統(tǒng)研究思路一般將點(diǎn)擊率預(yù)測(cè)問(wèn)題建模為回歸問(wèn)題,并基于實(shí)際數(shù)據(jù)建立回歸模型。Richardson等[3]利用Logistic回歸模型(logistical regression, LR)擬合廣告特征數(shù)據(jù),預(yù)測(cè)搜索廣告的點(diǎn)擊率,并采用隨機(jī)梯度下降算法更新參數(shù)。Graepel等[4]則利用貝葉斯Probit回歸模型,將權(quán)重建模成隨機(jī)變量,并假定該變量服從正態(tài)分布,再通過(guò)模型學(xué)習(xí)更新后驗(yàn)權(quán)重,預(yù)測(cè)搜索廣告的點(diǎn)擊率。但是這些基于回歸方法擬合的模型結(jié)構(gòu)較為簡(jiǎn)單,通常需要通過(guò)大量手動(dòng)特征工程來(lái)間接提高模型的表達(dá)能力。同時(shí),回歸模型一般無(wú)法有效處理海量數(shù)據(jù),其學(xué)習(xí)能力有限,無(wú)法有效捕捉廣告信息中的非線性特征,難以消除點(diǎn)擊率預(yù)測(cè)問(wèn)題中的數(shù)據(jù)稀疏和過(guò)擬合等問(wèn)題。因此,以GBDT+LR[5]為代表的兩階段模型和以因子分解機(jī)(factorization machine, FM)[6-7]為代表的端到端的隱向量學(xué)習(xí)模型被應(yīng)用到預(yù)測(cè)當(dāng)中。He等[5]利用梯度提升決策樹自動(dòng)地進(jìn)行特征交叉,然后把交叉特征輸入到回歸模型中進(jìn)行訓(xùn)練。Rendle等[6-7]提出的因子分解機(jī)模型則是一種基于矩陣分解的機(jī)器學(xué)習(xí)算法,該算法可以解決大規(guī)模稀疏數(shù)據(jù)的特征組合問(wèn)題。為解決刪失數(shù)據(jù)預(yù)測(cè)結(jié)果的有偏問(wèn)題,Zhang等[8]從生存模型中推導(dǎo)出一種具有競(jìng)價(jià)意識(shí)的梯度下降算法,以實(shí)現(xiàn)邏輯回歸和因子分解機(jī)以及神經(jīng)網(wǎng)絡(luò)模型的無(wú)偏預(yù)測(cè)。
基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型被引入到點(diǎn)擊率預(yù)測(cè)領(lǐng)域[9],Zhang等[10]首次利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)預(yù)測(cè)點(diǎn)擊率,并提出了基于因子分解機(jī)的神經(jīng)網(wǎng)絡(luò)模型(factorization machine-supported neural network,FNN1)。該模型為兩階段模型:第一階段的任務(wù)是采用因子分解機(jī)模型提取原始特征向量;第二階段的任務(wù)是將前一階段中提取的特征向量輸入到前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,FNN2)中,以預(yù)測(cè)最終的點(diǎn)擊率。該模型(FNN1)給出了關(guān)于解決點(diǎn)擊率預(yù)測(cè)模型構(gòu)建的新思路,既含有兩階段模型思想,又結(jié)合了端到端的學(xué)習(xí)模式。Cheng等[11]提出了廣度和深度模型(Wide &Deep),該模型將以LR為代表的傳統(tǒng)線性模型稱作廣度(Wide)模型,將深度神經(jīng)網(wǎng)絡(luò)模型(DNN)稱作深度(Deep)模型,并將廣度模型和深度模型整合在一起,統(tǒng)一訓(xùn)練,同時(shí)擁有2種模型的優(yōu)點(diǎn),為之后的模型優(yōu)化提供了思路,并逐漸形成2個(gè)獨(dú)立的研究體系,即在廣度上不斷挖掘更多特征表達(dá)以提高模型記憶能力的特征工程[12]和在深度上不斷提高網(wǎng)絡(luò)復(fù)雜度以增強(qiáng)模型泛化能力的深度學(xué)習(xí)[13-15]。此后,一系列基于廣度和深度的優(yōu)化模型相繼被提出并應(yīng)用到點(diǎn)擊率預(yù)測(cè)任務(wù)上來(lái)。如深度因子分解機(jī)(Deep FM)[16]、深度交叉網(wǎng)絡(luò)(deep &cross network,DCN)[17]、多視圖特征轉(zhuǎn)換(multiview feature transfer,MTF)[18]、深度遞歸交互網(wǎng)絡(luò)(deep recursive interactive network,DRIN)[19]等。此外,注意力機(jī)制也被逐漸引入到點(diǎn)擊率預(yù)測(cè)當(dāng)中[20-23],并相繼形成諸如注意力因子分解機(jī)(attentional factorization machine,AFM)[24]、深度興趣網(wǎng)絡(luò)(deep interest network,DIN)[25]、深度興趣進(jìn)化網(wǎng)絡(luò)(deep interest evolution network,DIEN)[26]、動(dòng)態(tài)興趣感知網(wǎng)絡(luò)(dynamic interest perception network,DIPN)[27]等模型。Liu等[28]在Deep FM和Wide &Deep模型的基礎(chǔ)上,進(jìn)一步設(shè)計(jì)了一個(gè)新的聯(lián)合學(xué)習(xí)模型。該模型結(jié)合了2個(gè)不同的殘差網(wǎng)絡(luò)來(lái)自動(dòng)探索特征交互,并引入了一個(gè)神經(jīng)注意網(wǎng)絡(luò)來(lái)學(xué)習(xí)來(lái)自不同領(lǐng)域特征的每個(gè)二階交互的重要性。Liu等[29]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的卷積點(diǎn)擊預(yù)測(cè)模型(convolutional click prediction model,CCPM),提取局部來(lái)自具有不同元素的輸入實(shí)例的全局關(guān)鍵特征,可用于單個(gè)廣告印象和順序廣告印象。楊妍婷等[30]提出一種基于增強(qiáng)型因子分解向量輸入神經(jīng)網(wǎng)絡(luò)(enhanced factorization machine supported neural network,EFNN)的預(yù)測(cè)模型,在基于因子分解機(jī)的神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上增加了新特征生成層,對(duì)數(shù)據(jù)進(jìn)行通道變換后引入Inception結(jié)構(gòu)進(jìn)行卷積,將生成的新特征和原始特征結(jié)合。
以上模型都是在曝光數(shù)據(jù)集上處理數(shù)據(jù),忽視了實(shí)際模型應(yīng)用時(shí)需要針對(duì)曝光情況未知的全體數(shù)據(jù)集處理數(shù)據(jù),同時(shí)這些模型也沒(méi)有充分考慮廣告數(shù)據(jù)不平衡的特點(diǎn),從而導(dǎo)致廣告信息利用不足[31]。為了緩解曝光偏差問(wèn)題,Yuan等[32]提出了一種新的反事實(shí)點(diǎn)擊率預(yù)測(cè)框架,通過(guò)降低傾向分?jǐn)?shù)擴(kuò)展雙重魯棒模型,即無(wú)傾向雙魯棒方法(propensity-free doubly robust method,PFDR),但該模型并不能緩解樣本不平衡問(wèn)題。為了緩解樣本不平衡問(wèn)題,Xie等[33]提出了一種魯棒集成局部?jī)?nèi)核嵌入(robust integrated local kernel embedding,RILKE)模型,并將無(wú)監(jiān)督轉(zhuǎn)移學(xué)習(xí)引入到RILKE中,形成一種改進(jìn)的新模型,即魯棒轉(zhuǎn)移集成局部?jī)?nèi)核嵌入式(robust transition integrated local kernel embedding,RTILKE),但該模型沒(méi)有考慮曝光偏差問(wèn)題。
現(xiàn)有預(yù)測(cè)方法,如邏輯回歸[4]、因子分解機(jī)[34]和深度學(xué)習(xí)方法[35-39]等,大都只專注于在曝光空間中挖掘用戶點(diǎn)擊興趣,忽視了未曝光樣本情況。廣告被用戶點(diǎn)擊的前提是其被用戶看到,但未曝光廣告并不代表用戶不感興趣[3],比如投放的是一個(gè)從未曝光的新廣告。Yuan等[32]通過(guò)實(shí)驗(yàn)論證了處理未曝光數(shù)據(jù)的重要性,并指出由于曝光和未曝光樣本分布不一致,因此忽略了未曝光數(shù)據(jù)可能會(huì)導(dǎo)致強(qiáng)烈的偏差和不準(zhǔn)確的預(yù)測(cè)。此外,曝光數(shù)據(jù)相對(duì)所有競(jìng)價(jià)數(shù)據(jù)而言是少量的,而已曝光數(shù)據(jù)集中也只有小部分樣本會(huì)被點(diǎn)擊。樣本的不平衡問(wèn)題也是CTR預(yù)測(cè)中的重要問(wèn)題。總之,CTR預(yù)測(cè)面臨2個(gè)挑戰(zhàn):①曝光偏差導(dǎo)致預(yù)測(cè)結(jié)果不可靠;②樣本不平衡導(dǎo)致預(yù)測(cè)精度低。
為了解決上述問(wèn)題,課題組從曝光和點(diǎn)擊的依賴關(guān)系出發(fā),結(jié)合現(xiàn)有反事實(shí)學(xué)習(xí)方法,提出了一種全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊率聯(lián)合估計(jì)模型(whole space multi-task neural network, WMN)。WMN模型首先構(gòu)建了一個(gè)多任務(wù)的主體框架,將全體廣告請(qǐng)求空間視為包括曝光空間和未曝光空間的全空間,通過(guò)神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)不同任務(wù)目標(biāo),并改進(jìn)了模型的損失函數(shù)實(shí)現(xiàn)無(wú)偏預(yù)測(cè)。
本節(jié)將詳細(xì)描述點(diǎn)擊率預(yù)測(cè)中的預(yù)測(cè)偏差問(wèn)題,并證明該偏差的存在。針對(duì)該問(wèn)題提出一個(gè)點(diǎn)擊率聯(lián)合估計(jì)模型,以消除偏差,并用理論證明了該模型估計(jì)的無(wú)偏性。
本文中使用的符號(hào)說(shuō)明見(jiàn)表1。
表1 符號(hào)說(shuō)明Tab.1 Summary of symbols and descriptions
CTR預(yù)測(cè)常被描述為關(guān)于二分類數(shù)據(jù)的建模問(wèn)題,即
P=P(click|ad)。
(1)
(2)
設(shè)全空間S內(nèi),對(duì)每個(gè)廣告xi,其對(duì)應(yīng)的市場(chǎng)價(jià)格為zi,廣告商預(yù)期競(jìng)價(jià)為bi,可得曝光空間為Sw={(xi,yi)|zi 圖2 全空間、曝光空間與點(diǎn)擊空間Fig.2 Whole space, exposure space and click space 從圖2可以看出,對(duì)實(shí)際樣本數(shù)據(jù)而言,點(diǎn)擊空間是包含在曝光空間中的,而全空間遠(yuǎn)大于點(diǎn)擊空間和曝光空間,因此,現(xiàn)有的點(diǎn)擊率模型f(·)一般在曝光空間Sw上直接預(yù)測(cè)點(diǎn)擊率,即 f(·)=P(y=1|xw),xw∈Xw。 (3) 模型簡(jiǎn)化為 (4) CTR預(yù)測(cè)問(wèn)題便轉(zhuǎn)化為模型參數(shù)求解的優(yōu)化問(wèn)題,即 (5) l(a,b)=alogb+(1-a)log(1-b), (6) 因此,全樣本空間上的預(yù)測(cè)偏差為 (7) 曝光空間上預(yù)測(cè)偏差的期望為 (8) 根據(jù)模型偏差的定義,即由所有的可能訓(xùn)練數(shù)據(jù)集訓(xùn)練出的所有模型的輸出平均值與模型的期望輸出值之間的差異,最終模型f(·)偏差為 (9) 即只在曝光空間上預(yù)測(cè)點(diǎn)擊率的模型均存在曝光偏差。 本文給出解決曝光偏差和樣本不平衡問(wèn)題的方法,構(gòu)建一種全空間內(nèi)多任務(wù)神經(jīng)網(wǎng)絡(luò)聯(lián)合估計(jì)模型(WMN)。在理論上證明該模型的無(wú)偏性。根據(jù)廣告流程反饋中由曝光到點(diǎn)擊的順序模式,可得出貝葉斯概率聯(lián)結(jié)公式,即 (10) 基于此,本文中提出的WMN模型組成如圖3所示。從圖3可以看出,WMN模型整體是一個(gè)多任務(wù)框架結(jié)構(gòu),主要涉及3個(gè)任務(wù),即CTR預(yù)測(cè)任務(wù)、WIR預(yù)測(cè)任務(wù)和WICTR預(yù)測(cè)任務(wù)。這3個(gè)任務(wù)中,WIR任務(wù)和CTR任務(wù)采用并聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)連接,WICTR任務(wù)與這2個(gè)任務(wù)采用級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)連接。而CTR任務(wù)是模型的主任務(wù),WIR任務(wù)和WICTR任務(wù)作為模型的輔助任務(wù)幫助準(zhǔn)確預(yù)測(cè)點(diǎn)擊率。從結(jié)構(gòu)上看,該模型主要由底層模塊(shared bottom layer)和頂層模塊(tasks of CTR, WIR and WICTR)組成,其中底端網(wǎng)絡(luò)的輸入為經(jīng)過(guò)特征嵌入層、交互層等作用后的廣告特征信息,整個(gè)底層網(wǎng)絡(luò)通過(guò)共享參數(shù)嵌入擴(kuò)展訓(xùn)練空間,經(jīng)過(guò)底層訓(xùn)練后得到初步的數(shù)據(jù)特征表示,之后分別輸出到2個(gè)獨(dú)立的任務(wù)網(wǎng)絡(luò)(CTR和WIR)中,并且根據(jù)概率公式得到WICTR,而WIR和WICTR都將作為輔助任務(wù)幫助改進(jìn)模型整體的損失函數(shù),最終的CTR模型可以學(xué)習(xí)數(shù)據(jù)中更為復(fù)雜且準(zhǔn)確的高階特征表示,并得到無(wú)偏的輸出結(jié)果,提高點(diǎn)擊率預(yù)測(cè)任務(wù)的準(zhǔn)確性。 圖3 全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)模型示例圖Fig.3 An illustration of the whole space multi-task neural network model 根據(jù)公式(10),可以推導(dǎo)出P(yi=1|xi,bi)和P(yi=0|xi,bi)的表達(dá)式,即 P(yi=1|xi,bi)=P(yi=1,z =P(yi=1|xi,z =θiWz(bi|xi,ω), (11) P(yi=0|xi,bi)=P(yi=0,z =P(yi=0|xi,z =(1-θi)Wz(bi|xi,ω)+(1-Wz(bi|xi,ω))。 (12) 則樣本的經(jīng)驗(yàn)似然函數(shù)為 (13) 式中:I1={i|yi=1},I0={i|yi=0};ω為權(quán)重。 似然函數(shù)是一種關(guān)于統(tǒng)計(jì)模型參數(shù)的函數(shù),一般在求解模型參數(shù)時(shí)可以采用最大似然估計(jì)的方法求解。最大期望算法(expectation maximization, EM)是一種可以有效尋找概率模型參數(shù)最大似然估計(jì)的迭代算法,主要針對(duì)需要依賴于無(wú)法觀測(cè)的隱變量的概率模型。然后將對(duì)數(shù)似然函數(shù)作為損失函數(shù),并利用EM算法改進(jìn)多任務(wù)學(xué)習(xí)模型的損失函數(shù),得到最終的聯(lián)合點(diǎn)擊率模型(WMN)。下面用EM算法幫助尋找參數(shù)的最大似然估計(jì)。 E步:對(duì)給定樣本,i∈I1,αi=1;i∈I0,設(shè) (14) M步:最終損失函數(shù)為 (15) 可以發(fā)現(xiàn),模型最終的損失函數(shù)由兩部分組成,前者反應(yīng)了點(diǎn)擊的損失,后者是曝光的情況。同時(shí),該損失函數(shù)區(qū)分了不同分布的樣本,并對(duì)不同的樣本賦予了不同的權(quán)重,有助于緩解樣本不平衡的問(wèn)題。 下面將證明該方法的無(wú)偏性。證明過(guò)程如下: 已知全空間為S和曝光空間Sw={(xi,yi)|zi (16) BiasWMN=|Sw[EWMN]-E| =0。 (17) 結(jié)合式(9)、(14)、(17)可知,在不考慮其他誤差的情況下,其他模型的估計(jì)偏差不為0,而該模型的誤差為0,因此該模型可以實(shí)現(xiàn)無(wú)偏估計(jì),證畢。 為了驗(yàn)證模型的有效性,在品友數(shù)據(jù)集上進(jìn)行測(cè)試實(shí)驗(yàn)。 2.1.1 數(shù)據(jù)集與預(yù)處理 使用ipinyou在2013年全球RTB算法競(jìng)賽中提供的數(shù)據(jù)集,也是目前RTB學(xué)術(shù)研究領(lǐng)域較常使用的數(shù)據(jù)集之一。該數(shù)據(jù)集包含2013年10 d內(nèi)的9個(gè)不同廣告活動(dòng),涉及6 475萬(wàn)次競(jìng)價(jià)、1 950萬(wàn)次印象、1 479萬(wàn)次點(diǎn)擊和1 253次轉(zhuǎn)換。對(duì)于每個(gè)活動(dòng),前7 d的數(shù)據(jù)用作訓(xùn)練數(shù)據(jù),其余用作測(cè)試數(shù)據(jù)。其中訓(xùn)練數(shù)據(jù)按9∶1劃分訓(xùn)練集與驗(yàn)證集,驗(yàn)證集將用于選取模型中的超參數(shù)。 原始數(shù)據(jù)集由競(jìng)價(jià)、印象、點(diǎn)擊和轉(zhuǎn)化4種不同類型的日志組成,且都按行記錄。經(jīng)過(guò)初步處理后,每個(gè)記錄的數(shù)據(jù)形式可表示為四元組(x,y,b,z),其中x表示具有相應(yīng)廣告信息的每個(gè)競(jìng)價(jià)請(qǐng)求的高維特征向量,y為二分類的用戶反饋(即點(diǎn)擊與否),b是針對(duì)該廣告的競(jìng)價(jià),z是相應(yīng)的市場(chǎng)價(jià)格,即為了贏得競(jìng)價(jià)而出價(jià)的最低價(jià)格。 2.1.2 評(píng)估指標(biāo) 為了驗(yàn)證模型有效性并確??杀刃?在此沿用之前學(xué)者常用的比較指標(biāo),即使用ROC曲線下的面積(AUC)作為模型的評(píng)估指標(biāo)。AUC值越大,點(diǎn)擊率預(yù)測(cè)模型性能越好,該評(píng)估指標(biāo)在正負(fù)樣本比例不平衡下也適用。 2.1.3 對(duì)比模型 該模型將與以下現(xiàn)有先進(jìn)的點(diǎn)擊率預(yù)測(cè)模型進(jìn)行對(duì)比。 ①LR[10]:LR模型是基礎(chǔ)的用于擬合二分類數(shù)據(jù)的線性回歸模型。 ②FM[13]:FM模型是一種可以解決大規(guī)模稀疏數(shù)據(jù)的特征組合問(wèn)題的模型。 ③FNN[9]:FNN模型首先采用FM模型預(yù)訓(xùn)練得到原始特征的低維特征表示,然后將預(yù)訓(xùn)練后得到的特征表示向量直接輸入到前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)一步學(xué)習(xí)高階的組合特征信息。 ④DeepFM[15]:DeepFM模型由深度學(xué)習(xí)模型和FM模型組合而得,深度學(xué)習(xí)模型學(xué)習(xí)特征深度,FM模型學(xué)習(xí)特征廣度,可以端到端地訓(xùn)練模型。 ⑤DCN[16]:Deep&Cross模型采用一個(gè)自定義的交互層來(lái)顯式地學(xué)習(xí)高階組合特征信息,并與前饋神經(jīng)網(wǎng)絡(luò)結(jié)合進(jìn)行預(yù)測(cè)。 ⑥AFM[6]:AFM模型主要用來(lái)學(xué)習(xí)不同組合特征的重要性,有區(qū)分地對(duì)組合特征進(jìn)行預(yù)測(cè)。 為了驗(yàn)證廣告數(shù)據(jù)存在的樣本不平衡問(wèn)題,更好地體現(xiàn)該模型的有效性,對(duì)原始樣本中的假陰性樣本(全樣本集中那些未被曝光導(dǎo)致無(wú)法點(diǎn)擊的樣本)采用以下2種處理方式:直接剔除(Naive)和標(biāo)記為負(fù)樣本(Base)。 ①Naive:將假陰性樣本從訓(xùn)練集中剔除,這樣得到的結(jié)果實(shí)際上就是在曝光樣本集中訓(xùn)練的結(jié)果。 ②Base:對(duì)假陰性樣本不做處理,即在全空間中將假陰性樣本默認(rèn)為負(fù)樣本處理。 若實(shí)際樣本的分布是一致的,這2種處理方式所得結(jié)果應(yīng)當(dāng)也是一樣的,通過(guò)同一模型在這2種不同的處理上所得結(jié)果的不同,側(cè)面說(shuō)明樣本不平衡問(wèn)題的存在。 數(shù)值實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境為Anaconda3 2020.3(Python 3.8.4 64-bit) tensorflow2.3.0。該文將所提出的點(diǎn)擊率模型與現(xiàn)有的經(jīng)典模型進(jìn)行對(duì)比,其實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2中可以得出如下結(jié)論: 表2 點(diǎn)擊率預(yù)測(cè)模型在不同廣告商數(shù)據(jù)集上的性能Tab.2 Performance of click-through rate prediction model on different advertiser data sets ①在所有預(yù)測(cè)模型中,Naive處理方式后的結(jié)果與Base處理后的結(jié)果整體有明顯差別,但因數(shù)據(jù)集的不同而有不同的趨勢(shì)。在ID為1 458、2 259數(shù)據(jù)集中,相同模型的Naive處理結(jié)果優(yōu)于Base處理結(jié)果;而ID為3 427的數(shù)據(jù)集中則相反。這是因?yàn)閿?shù)據(jù)集的不同性質(zhì)而導(dǎo)致的,但2種處理方式下各模型的整體變化趨勢(shì)也反映了曝光數(shù)據(jù)處理的必要性。 ②所提模型在各數(shù)據(jù)集上的AUC均高于其余各模型。在ID為1 458數(shù)據(jù)集中,WMN的性能相對(duì)于DeepFM、FNN、AFM、DCN分別提高0.56%、0.42%、1.67%、1.31%,在ID為2 259數(shù)據(jù)集中,WMN的性能相對(duì)于DeepFM、FNN、AFM、DCN分別提高12.04%、2.21%、1.38%、7.43%,在ID為3 427數(shù)據(jù)集中,WMN的性能相對(duì)于DeepFM、FNN、AFM、DCN分別提高1.86%、2.05%、4.19%、3.09%。所提模型的Logloss值也優(yōu)于大多對(duì)比模型。 為了解決點(diǎn)擊率預(yù)測(cè)中的曝光偏差和樣本不平衡問(wèn)題,本文中提出了全空間多任務(wù)神經(jīng)網(wǎng)絡(luò)的點(diǎn)擊率聯(lián)合估計(jì)模型(WMN)。該模型以一個(gè)多任務(wù)框架為主體,并將多任務(wù)框架與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,在底層利用共享機(jī)制在2個(gè)任務(wù)中傳遞參數(shù),解決曝光偏差問(wèn)題;頂層則由2個(gè)并行的任務(wù)(WIR和CTR)與一個(gè)級(jí)聯(lián)的任務(wù)(WICTR)組成,其中WIR和CTR任務(wù)允許網(wǎng)絡(luò)同時(shí)學(xué)習(xí)點(diǎn)擊和曝光信息,WICTR作為輔助任務(wù)幫助改進(jìn)損失函數(shù)。在公開的數(shù)據(jù)集上進(jìn)行的數(shù)值實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了所提出模型的性能表現(xiàn)優(yōu)于現(xiàn)有的預(yù)測(cè)模型。 本文構(gòu)建的多任務(wù)神經(jīng)網(wǎng)絡(luò)模型雖然在一定程度上提升了預(yù)測(cè)性能,但其主要依據(jù)廣告數(shù)據(jù)中的已有特征信息進(jìn)行建模,并未針對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行檢測(cè)。此外,該模型還可以進(jìn)一步完善用戶興趣的捕捉機(jī)制,以及將模型適用在高階特征、時(shí)序等領(lǐng)域方面。1.2 點(diǎn)擊率聯(lián)合估計(jì)模型
1.3 無(wú)偏性證明
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)設(shè)計(jì)
2.2 實(shí)驗(yàn)結(jié)果分析
3 結(jié)語(yǔ)