顏金堯 ,張海龍 ,蘇毓敏
(1.中國傳媒大學(xué)媒體融合與傳播國家重點(diǎn)實(shí)驗(yàn)室,北京 100024;2.北京沃東天駿信息技術(shù)有限公司,北京 100176)
計(jì)算廣告又稱為互聯(lián)網(wǎng)廣告,指的是在線媒體上投放的廣告[1]。其伴隨互聯(lián)網(wǎng)的生長而在短短幾十年內(nèi)發(fā)展壯大,已經(jīng)形成了以精準(zhǔn)投放為目標(biāo),以競價(jià)拍賣為手段,以計(jì)算模型為驅(qū)動(dòng)的蓬勃發(fā)展的產(chǎn)業(yè)聯(lián)盟。
計(jì)算廣告脫胎于以免費(fèi)模式提供服務(wù)的互聯(lián)網(wǎng)?;ヂ?lián)網(wǎng)概念的核心是連接每一個(gè)用戶。從其誕生至今,每一款互聯(lián)網(wǎng)產(chǎn)品的最初目標(biāo)都是用免費(fèi)使用的模式盡可能快速的獲取大量用戶,并在產(chǎn)品的成熟期尋求產(chǎn)品的變現(xiàn)渠道。這一過程中,傳統(tǒng)媒體廣告被引入并借助互聯(lián)網(wǎng)能快速直達(dá)用戶的特性迅速成長為互聯(lián)網(wǎng)公司變現(xiàn)的核心渠道——計(jì)算廣告。For‐rester 研究公司預(yù)測到2021年,美國的移動(dòng)和社交廣告規(guī)模將達(dá)到505億美元[13]。
最初的計(jì)算廣告是類似于傳統(tǒng)媒體廣告的展示廣告。互聯(lián)網(wǎng)產(chǎn)品公司通過直接售賣展示廣告位的方式獲取收益。很快,互聯(lián)網(wǎng)廣告運(yùn)營者意識(shí)到互聯(lián)網(wǎng)不同于傳統(tǒng)媒體的特點(diǎn):可以精準(zhǔn)地向不同用戶展示不同的信息。于是,為了提高廣告位的報(bào)價(jià),他們提出能向不同受眾群展示不同類型廣告的廣告推送模式——定向廣告。這一模式的改變標(biāo)志著計(jì)算廣告概念的出現(xiàn)。但是最初的定向廣告并不能對(duì)廣告流量進(jìn)行非常細(xì)致的劃分,也就無法使廣告平臺(tái)獲取到最大的收益。而且在重要的一類計(jì)算廣告——搜索廣告中,廣告從一開始就達(dá)到了非常精準(zhǔn)的投送程度,因此直接采用了競價(jià)的售賣方式。鑒于以上兩點(diǎn),競價(jià)廣告模式逐漸成為了計(jì)算廣告的核心模式。
在競價(jià)廣告中,廣告投送方按照自身人群需求在廣告需求方平臺(tái)(Demand Side Platform,DSP)上實(shí)時(shí)采買廣告流量,稱為實(shí)時(shí)競價(jià)。由于實(shí)時(shí)競價(jià)模式通常采用按展示/點(diǎn)擊次數(shù)付費(fèi)的方式,因此為了獲取最高的收益,DSP 需要盡可能準(zhǔn)確地估計(jì)每一次展示的期望價(jià)值。尤其是在競價(jià)廣告的排序階段,其需要高效的計(jì)算廣告的千次展示期望收入(Expected Cost per Mile,eCPM)并進(jìn)行排序。eCPM 的計(jì)算主要依賴于點(diǎn)擊率(Click Through Rate,CTR)或者轉(zhuǎn)化率(Conversion Rate,CVR)估計(jì),這就需要用到離線計(jì)算得到的CTR/CVR預(yù)測模型。
在計(jì)算廣告中,點(diǎn)擊率/轉(zhuǎn)化率預(yù)測是最重要的技術(shù)之一,主要用在對(duì)檢索出的候選廣告計(jì)算eCPM并進(jìn)行排序。點(diǎn)擊率是指展示廣告被點(diǎn)擊的概率,而轉(zhuǎn)化率是指廣告投放者投放廣告的目的最終發(fā)生的概率。準(zhǔn)確的預(yù)測候選廣告的點(diǎn)擊率/轉(zhuǎn)化率將為DSP帶來巨大的收益。同時(shí),由于DSP平臺(tái)擁有豐富的用戶上下文信息以及歷史數(shù)據(jù)信息,這使得對(duì)點(diǎn)擊率/轉(zhuǎn)化率預(yù)測任務(wù)進(jìn)行準(zhǔn)確建模成為了可能。研究人員通常基于用戶與廣告的屬性信息、上下文信息以及歷史行為信息,采用機(jī)器學(xué)習(xí)的方法將點(diǎn)擊率/轉(zhuǎn)化率預(yù)測任務(wù)轉(zhuǎn)化成分類或者回歸任務(wù)建模。近年來,對(duì)CTR/CVR 預(yù)測問題的研究已經(jīng)取得了非常大的進(jìn)展,但其依然面臨以下幾個(gè)方面的問題[3?4]。
(1)準(zhǔn)確性問題。準(zhǔn)確的估計(jì)候選廣告的點(diǎn)擊率/轉(zhuǎn)化率非常重要。但用戶點(diǎn)擊或者轉(zhuǎn)化的行為受到非常多因素的影響,比如展示廣告的形式、推送的時(shí)間、用戶的興趣、社會(huì)關(guān)系影響等。
(2)數(shù)據(jù)稀疏問題。數(shù)據(jù)稀疏問題是指由于缺乏足夠的有效樣本數(shù)據(jù)而導(dǎo)致的預(yù)測精度低的問題。通常在訓(xùn)練數(shù)據(jù)集中,用戶直接交互過的正樣本廣告數(shù)據(jù)非常少,大量的數(shù)據(jù)是用戶沒有交互過的負(fù)樣本數(shù)據(jù)。這直接導(dǎo)致模型很難學(xué)習(xí)到用戶和廣告的隱興趣特征。
(3)樣本不均衡問題。通常廣告的點(diǎn)擊率只有千分之幾,因而訓(xùn)練數(shù)據(jù)存在嚴(yán)重的正負(fù)樣本不均衡,這將降低預(yù)測模型的準(zhǔn)確性。
(4)冷啟動(dòng)問題。廣告平臺(tái)的新用戶或者新廣告通常沒有任何歷史交互信息,這會(huì)導(dǎo)致模型不能為他們提供準(zhǔn)確的預(yù)測。
(5)轉(zhuǎn)化時(shí)延問題。由于實(shí)際商業(yè)場景中,用戶點(diǎn)擊到下單的時(shí)間從幾秒到幾周不等,現(xiàn)存技術(shù)往往無法跟蹤下單延遲,造成模型預(yù)估不準(zhǔn)確。
點(diǎn)擊率/轉(zhuǎn)化率預(yù)測模型預(yù)測的是交互概率,因此就可以采用機(jī)器學(xué)習(xí)領(lǐng)域的評(píng)價(jià)指標(biāo),比如準(zhǔn)確率(Precision)、召回率(Recall)或者F1值進(jìn)行評(píng)價(jià)[1]。同其它機(jī)器學(xué)習(xí)模型一樣,為了更全面的衡量模型在所有場景下的綜合泛化能力,研究人員更喜歡使用準(zhǔn)確率/召回率曲線(Precision/Recall Curve,PR)和接收者操作特性曲線(Receiver Operating Characteristic Curve,ROC)來評(píng)價(jià)模型的綜合性能。研究人員通過選取不同的正負(fù)標(biāo)簽劃分閾值就可以繪制出PR 曲線和ROC曲線。ROC曲線相比PR曲線的優(yōu)點(diǎn)是其曲線下的面積具有明確的物理意義,其能夠在一定程度上表示模型對(duì)正負(fù)樣本事件預(yù)測值排序的正確性。這個(gè)ROC 曲線下的面積被稱為AUC(Area Under Curve),是評(píng)價(jià)點(diǎn)擊率/轉(zhuǎn)化率預(yù)測模型時(shí)常用的量化指標(biāo)。
早期的PC 端廣告在形式上和實(shí)體廣告相近,形式雜亂,占據(jù)空間與時(shí)間,很容易造成用戶反感,所以計(jì)算廣告中CTR/CVR 的預(yù)估效果不理想。而在移動(dòng)互聯(lián)網(wǎng)時(shí)代,特別是信息流廣告引入后,廣告效果更多的取決于廣告內(nèi)容與用戶特征的匹配度,研究人員因而可以更準(zhǔn)確的預(yù)測CTR/CVR。本節(jié)我們將概述CTR/CVR預(yù)測問題的研究進(jìn)展。
2.1.1 點(diǎn)擊率預(yù)測模型概述
經(jīng)典的CTR 預(yù)估算法是邏輯回歸(Logistic Re‐gression,LR)算法[3]。LR 算法模型簡單,收斂速度快,能夠較好的對(duì)二值問題進(jìn)行分類,在早期廣泛應(yīng)用于CTR 預(yù)估領(lǐng)域。但是CTR 預(yù)估中的特征數(shù)據(jù)復(fù)雜,是一個(gè)典型的非線性預(yù)測任務(wù)。LR 模型無法提取兩階及以上的特征組合,所以將其用于CTR預(yù)估的效果不理想。為了提升模型效果,LR 模型通常使用人工提取的高階特征。但是人工提取特征需要研究者具有豐富的特征組合經(jīng)驗(yàn),成本高昂,生成的模型還不具備泛化能力。
FM(Factorization Machines)模型[5]借鑒了協(xié)同過濾中的矩陣分解思想,將二階組合特征的參數(shù)矩陣分解為特征隱向量的點(diǎn)積。經(jīng)過矩陣分解與二次項(xiàng)化簡后,F(xiàn)M 模型可以應(yīng)用于特征高度稀疏且樣本量巨大的場景。FFM(Field?aware Factorization Machines)模型[6]通過引入場域的思想對(duì)FM 模型進(jìn)行了有效改善。微軟提出了結(jié)合GBDT(Gradient Boosting Deci‐sion Tree)與LR 算法的廣告點(diǎn)擊率預(yù)估融合模型[7]。模型將GBDT 提取的高階組合特征結(jié)果輸入LR 模型,在提升融合模型非線性表示能力的同時(shí),還可以處理大規(guī)模稀疏數(shù)據(jù)。
雖然以上的融合模型取得了較好的效果,但都是基于淺層模型,非線性表達(dá)能力不強(qiáng)。研究人員開始將注意力轉(zhuǎn)向近年來大放異彩的深度學(xué)習(xí)(Deep Neural Network,DNN)模型。DNN 模型在圖像識(shí)別、計(jì)算機(jī)視覺、自然語言處理領(lǐng)域的成果證明其可以自動(dòng)提取高維的非線性組合特征,這種特性使其也可以應(yīng)用于點(diǎn)擊率預(yù)估。Wide&Deep 模型[8]融合了DNN模型中Wide 結(jié)構(gòu)與Deep 結(jié)構(gòu),從而結(jié)合了淺層模型與深層模型的優(yōu)勢。DeepFM模型[9]對(duì)Wide&Deep模型做了改進(jìn),將Wide 結(jié)構(gòu)替換成了FM 模型,并與Deep結(jié)構(gòu)的輸出連接后輸出到sigmoid層。文獻(xiàn)[10]提出了Deep&Cross模型。模型分為并行連接的Deep模型和Cross 模型。其中Cross 模型可以自動(dòng)進(jìn)行相關(guān)特征的交叉組合。以上深度學(xué)習(xí)模型主要通過變換模型結(jié)構(gòu),來更好的提取低階特征以及高階組合特征,從而提高點(diǎn)擊率預(yù)估的準(zhǔn)確性。
注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯領(lǐng)域取得了顯著的效果[11]。它通過控制權(quán)重矩陣,能夠依據(jù)上下文內(nèi)容對(duì)下一步的輸出做出不同計(jì)算。阿里巴巴的DIN 模型[12]就通過引入注意力機(jī)制來提升模型預(yù)測性能。DIN 模型指出用戶點(diǎn)擊廣告時(shí)的行為與用戶近期的興趣特征有非常強(qiáng)烈的關(guān)系。根據(jù)用戶的興趣進(jìn)行廣告展示能夠提高廣告被點(diǎn)擊的概率。DIN模型使用注意力機(jī)制改進(jìn)了DNN 的池化層結(jié)構(gòu),改進(jìn)后的池化層能夠根據(jù)用戶對(duì)某類廣告的興趣產(chǎn)生不同的特征向量輸出,從而增強(qiáng)了模型對(duì)用戶興趣特征的表示能力。但DIN 模型的局限性是沒有認(rèn)識(shí)到用戶的興趣是動(dòng)態(tài)變化的,其會(huì)隨著時(shí)間的流逝而改變。
2.1.2 轉(zhuǎn)化率預(yù)測模型概述
在計(jì)算廣告中,和CTR 預(yù)測類似,CVR 預(yù)測的地位也非常重要,是學(xué)術(shù)界和工業(yè)界的研究人員持續(xù)深入探索的重點(diǎn)課題。早期的CVR 預(yù)測方法主要是使用淺層模型。例如,基于邏輯回歸或者決策樹的模型,后期發(fā)展到FM 或者FFM 模型。然而,在獲取高維非線性的用戶行為數(shù)據(jù)方面,這些淺層模型的表達(dá)能力明顯不足。深度學(xué)習(xí)框架的提出較好地解決了這個(gè)問題,如DCN、Wide&Deep以及DeepFM 等方法,通過加大網(wǎng)絡(luò)的深度,擴(kuò)展了早期的淺層模型方法,強(qiáng)化了模型的表達(dá)能力。
最近,阿里媽媽定向廣告團(tuán)隊(duì)提出的ESMM 模型[2]采用深度學(xué)習(xí)框架直接從曝光中提取轉(zhuǎn)化信號(hào),試圖解決CVR 預(yù)估中的樣本不均衡問題和數(shù)據(jù)稀疏問題。ESMM 模型設(shè)計(jì)了“雙塔”形式的模型結(jié)構(gòu)。一塔是CTR預(yù)估模型,可以利用數(shù)據(jù)量巨大的曝光數(shù)據(jù)集進(jìn)行參數(shù)訓(xùn)練;另一塔是CVR 預(yù)估模型,完成目標(biāo)模型本身的參數(shù)訓(xùn)練。兩個(gè)模型共享查詢表層,使得CTR 訓(xùn)練更新的嵌入表示能夠?yàn)镃VR 訓(xùn)練所利用,極大地緩解了CVR 模型數(shù)據(jù)稀疏無法充分訓(xùn)練的問題。同時(shí)由于訓(xùn)練數(shù)據(jù)是在曝光樣本集上進(jìn)行,對(duì)于樣本不均衡問題也有一定的緩解。但是在這些工作中,用戶的歷史行為轉(zhuǎn)化為低緯度的嵌入特征,使得用戶的歷史行為特征沒有被充分利用。
在工業(yè)界的真實(shí)CVR 預(yù)測的場景中,有一個(gè)非常大的特點(diǎn)和挑戰(zhàn):用戶點(diǎn)擊和轉(zhuǎn)化(下單)行為之間的時(shí)間延遲很大,可能從幾秒到幾周不等。例如,當(dāng)用戶在電子商務(wù)網(wǎng)站點(diǎn)擊廣告時(shí),她可能只是將產(chǎn)品添加到購物車中,在幾天后才會(huì)下單。這種轉(zhuǎn)化反饋的延遲會(huì)產(chǎn)生大量的“假負(fù)”樣本,即正樣本(最終會(huì)轉(zhuǎn)化的樣本)可能被視為負(fù)樣本(沒有轉(zhuǎn)化的樣本)?!凹儇?fù)”樣本的存在加劇了轉(zhuǎn)化樣本的稀疏性和CVR預(yù)估的錯(cuò)誤率。2014年KDD 會(huì)議上提出的延遲反饋模型(Delayed Feedback Model,DFM)[14]是對(duì)展示廣告中延遲反饋問題的首次研究,具有里程碑式的重要意義。論文將用戶點(diǎn)擊與購買之間的時(shí)間延遲簡單地假設(shè)為指數(shù)分布,通過建立一個(gè)指數(shù)概率模型來幫助計(jì)算未轉(zhuǎn)化的樣本。經(jīng)過一系列的數(shù)學(xué)推導(dǎo),論文將時(shí)延公式與CVR 預(yù)測公式合并為統(tǒng)一的損失函數(shù),并通過EM 算法框架給出了可以分別優(yōu)化各自參數(shù)集的可用損失函數(shù)形式。在這篇論文的基礎(chǔ)上延伸出許多的改進(jìn)論文,一類改進(jìn)工作是提出其他復(fù)雜分布,另一類改進(jìn)是通過優(yōu)化非參數(shù)模型來學(xué)習(xí)延遲分布。這些論文都對(duì)CVR 預(yù)測任務(wù)中時(shí)延問題的解決做出了貢獻(xiàn)。
2.2.1 點(diǎn)擊率預(yù)測模型研究進(jìn)展
受到深度學(xué)習(xí)中注意力機(jī)制以及DIN 模型的啟發(fā),我們提出了一種能動(dòng)態(tài)感知用戶興趣變化的點(diǎn)擊率預(yù)估模型——DIPN[15]。DIPN 利用用戶歷史展示廣告記錄計(jì)算出用戶對(duì)候選廣告的興趣度,并將興趣度融入特征向量注意力權(quán)重的計(jì)算中。為了更好的從歷史點(diǎn)擊記錄這一時(shí)序數(shù)據(jù)中提取用戶的隱特征,DIPN還引入了GRU層。
DIPN 模型架構(gòu)圖如圖1 所示。在DIPN 中,輸入的歷史行為數(shù)據(jù)是歷史展示廣告記錄。該歷史記錄是指該用戶曾經(jīng)瀏覽過的展示廣告,包括點(diǎn)擊以及未點(diǎn)擊的廣告。用戶屬性、展示歷史、候選廣告、上下文等特征一起輸入模型。DIPN 首先根據(jù)歷史展示廣告與候選廣告,使用興趣度算法計(jì)算出用戶對(duì)候選廣告的興趣度。興趣度的模擬曲線如圖2所示,其中,正值表示用戶喜歡此類廣告,負(fù)值表示用戶排斥此類廣告。然后DIPN 從歷史展示廣告中提取出歷史點(diǎn)擊記錄并進(jìn)行嵌入向量表示。嵌入表示之后,DIPN 先使用GRU 層提取歷史點(diǎn)擊廣告序列的隱藏特征,然后GRU 層的隱狀態(tài)輸出向量和候選廣告向量一起輸入到后面的注意力網(wǎng)絡(luò)層。其中,在計(jì)算注意力權(quán)重時(shí),為了融合前面提出的用戶興趣度,我們提出了d?Softmax函數(shù)進(jìn)行權(quán)重的計(jì)算。d?Softmax函數(shù)的公式如式1 所示,其中變量d 表示興趣度算法計(jì)算出的用戶興趣度,xi是注意力層全連接網(wǎng)絡(luò)輸出的特征向量的第i 個(gè)元素。當(dāng)d=1時(shí),d?Softmax 函數(shù)退化成Softmax 函數(shù)。注意力層輸出的固定維度的特征表示向量最終輸入后面的全連接網(wǎng)絡(luò)以進(jìn)一步提取用戶的隱特征。DIPN 最后通過sigmoid 激活函數(shù)輸出用戶點(diǎn)擊候選廣告的概率。
圖1 DIPN架構(gòu)圖
圖2 興趣度擬合曲線
2.2.2 轉(zhuǎn)化率預(yù)測模型研究進(jìn)展
TS?DL模型[16]是我們在IJCAI2020上提出的CVR預(yù)測模型,主要目標(biāo)是解決CVR 預(yù)測問題中的數(shù)據(jù)稀疏問題與時(shí)延問題。在CVR 預(yù)估模型中,為了解決時(shí)延問題,現(xiàn)有工作主要集中在捕獲廣告點(diǎn)擊和轉(zhuǎn)化之間的預(yù)期延遲分布上。例如,引入一個(gè)指數(shù)概率模型來幫助確定未轉(zhuǎn)化的樣本,或者在不假設(shè)參數(shù)分布的情況下估計(jì)時(shí)間延遲。這些工作都可以被歸類為靜態(tài)時(shí)延模型,即當(dāng)點(diǎn)擊事件發(fā)生時(shí),時(shí)延分布就是確定不變的。
然而,隨著更多的點(diǎn)擊信息在廣告點(diǎn)擊后被觀測和收集,廣告轉(zhuǎn)化的時(shí)間延遲分布應(yīng)該是動(dòng)態(tài)的。例如,用戶在沒有購買商品的情況下,點(diǎn)擊了候選商品幾天后,可能會(huì)瀏覽一系列相關(guān)商品,這實(shí)際上反映了用戶最近強(qiáng)烈的購買意愿。這個(gè)簡單但真實(shí)的示例反映了購買行為時(shí)延的動(dòng)態(tài)轉(zhuǎn)化概率。現(xiàn)有的靜態(tài)時(shí)延模型無法從用戶行為數(shù)據(jù)中獲取豐富多樣的信息。因此,為了解決時(shí)延問題,我們利用豐富的點(diǎn)擊后行為數(shù)據(jù),通過學(xué)習(xí)動(dòng)態(tài)風(fēng)險(xiǎn)函數(shù)來校準(zhǔn)時(shí)延模型,使時(shí)延分布更符合實(shí)際情況。具體來說,我們根據(jù)通過雙層GRU 機(jī)制提取用戶點(diǎn)擊后行為所展現(xiàn)的興趣信息,利用生存分析建模動(dòng)態(tài)地學(xué)習(xí)生存模型中的風(fēng)險(xiǎn)率的向量表示,根據(jù)風(fēng)險(xiǎn)率實(shí)現(xiàn)靈活合理的時(shí)間延遲建模,最后產(chǎn)生可以用來校準(zhǔn)轉(zhuǎn)化率模型的延遲天數(shù)表示特征向量,用于輔助進(jìn)行CVR 預(yù)測。另外,為了更好地提取用戶行為中隱藏的個(gè)性化興趣,我們提出一種新的基于內(nèi)部自注意力機(jī)制(inner/self?attention)的CVR 預(yù)測模型,分別利用self?attention 來捕獲所有用戶與廣告交互的全局/高級(jí)轉(zhuǎn)化興趣模式,與利用inner?attention 選擇與候選廣告項(xiàng)相關(guān)的最重要的點(diǎn)擊信息。從而在數(shù)據(jù)稀疏的情況下仍然能夠較好地捕捉用戶興趣,提高CVR 預(yù)測的準(zhǔn)確性。TS?DL 模型的架構(gòu)圖如圖3所示。
圖3 TS?DL模型架構(gòu)圖
DIPN 模型使用了豐富的用戶歷史行為數(shù)據(jù)。在本實(shí)驗(yàn)中,模型數(shù)據(jù)集選擇“2019年華為DIGX算法大賽”提供的數(shù)據(jù)集。該數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)平臺(tái)為TensorFlow v1.14 及Python3.7,處理器 選 擇Intel Core i7?6800K,顯 卡 為NVIDIA GTX 1080Ti。實(shí)驗(yàn)的對(duì)比模型包括LR 模型、DEEPFM 模型以及DIN 模型。另外,為了分析本文提出的DIPN模型各部分的性能,我們又設(shè)計(jì)了DIPN 的兩個(gè)變體模型——DIN?A 和DIN?G。DIN?A 模型是指將DIPN中的GRU 層去掉后形成的模型,而DIN?G 是指將DIPN 中的興趣度算法去掉后形成的模型。如圖4 和表2展示了部分實(shí)驗(yàn)結(jié)果。更多其他實(shí)驗(yàn)結(jié)果已經(jīng)發(fā)表到論文[15]中。圖4 顯示了在16次迭代過程中模型在測試集上的AUC 值變化曲線。表2 顯示了訓(xùn)練過程中模型的最優(yōu)AUC 值。從實(shí)驗(yàn)結(jié)果可以看出,LR 模型的AUC 值最低,但是收斂速度最快。這證明LR 模型易于訓(xùn)練,但是不能有效的提取高階非線性特征。其中所有深度網(wǎng)絡(luò)模型的結(jié)果都明顯超越了LR 模型,這說明深度網(wǎng)絡(luò)模型學(xué)習(xí)非線性特征的能力較強(qiáng)。DIN 模型展現(xiàn)了比深度模型更好的AUC 性能,這證明注意力機(jī)制可以提升特征向量的表達(dá)能力。同時(shí),DIN?A 和DIN?G 模型的AUC 性能超過了DIN 模型,這證明興趣度算法和GRU 層能夠提升模型對(duì)用戶興趣特征的學(xué)習(xí)或者表達(dá)能力。
表2 各模型的最優(yōu)AUC結(jié)果
圖4 16次迭代中AUC值變化
實(shí)驗(yàn)結(jié)果表明,GRU層可以從歷史點(diǎn)擊廣告序列中提取隱含的用戶興趣特征;注意力機(jī)制能夠增強(qiáng)用戶興趣特征向量的表達(dá)能力;興趣度特征通過d?Soft‐max 函數(shù)可以縮放注意力權(quán)重,從而進(jìn)一步提高興趣特征向量的表達(dá)能力。通過結(jié)合以上三個(gè)部分,我們提出的DIPN模型取得了最好的AUC性能。
由于上面各模型架構(gòu)不同,它們在訓(xùn)練時(shí)的復(fù)雜度和收斂時(shí)間也不同。我們將模型AUC 值達(dá)到最大值的90%定義為開始收斂并粗略統(tǒng)計(jì)了模型的訓(xùn)練收斂時(shí)間,相關(guān)統(tǒng)計(jì)結(jié)果如圖5 所示。表中的統(tǒng)計(jì)結(jié)果只具有數(shù)量級(jí)精度。從圖5 可以看到,對(duì)比LR 模型,深度網(wǎng)絡(luò)模型具有更長的收斂時(shí)間。此外,加入GRU層會(huì)顯著增加訓(xùn)練的收斂時(shí)間。但是,通過引入興趣度算法和d?Softmax 函數(shù),DIPN 和DIN?A 模型具有更短的收斂時(shí)間。
圖5 模型的收斂時(shí)間統(tǒng)計(jì)
我們在IJCAI2020的論文[16]中對(duì)提出的用于CVR預(yù)測的TS?DL模型進(jìn)行了評(píng)估。評(píng)估結(jié)果表明TS?DL 模型實(shí)現(xiàn)的時(shí)間延遲建??梢杂脕硇?zhǔn)轉(zhuǎn)化率預(yù)測,其中的內(nèi)部自注意力機(jī)制(inner/self?atten‐tion),在數(shù)據(jù)稀疏的情況下仍然能夠較好地捕捉用戶興趣,提高CVR預(yù)測的準(zhǔn)確性7.0%+,效果顯著。
本文先介紹了計(jì)算廣告中點(diǎn)擊率與轉(zhuǎn)化率的預(yù)測問題,然后梳理了現(xiàn)階段的研究進(jìn)展并指出存在的問題。文章最后介紹了我們在本領(lǐng)域的最新研究成果。在點(diǎn)擊率預(yù)測模型上,我們從建模用戶的動(dòng)態(tài)興趣出發(fā),使用注意力機(jī)制與興趣度算法搭建了DIPN模型。模型能夠?qū)τ脩舻膭?dòng)態(tài)興趣進(jìn)行跟蹤建模,從而提升預(yù)測的準(zhǔn)確性。在轉(zhuǎn)化率預(yù)測模型上,我們通過捕獲廣告點(diǎn)擊和轉(zhuǎn)化之間的預(yù)期延遲分布,解決CVR 預(yù)測問題中的數(shù)據(jù)稀疏問題與時(shí)延問題??梢园l(fā)現(xiàn),對(duì)點(diǎn)擊率/轉(zhuǎn)化率預(yù)測問題的建模正在朝著融合更多特征信息的深層網(wǎng)絡(luò)方向前進(jìn)。一方面,可以在特征信息中加入更多輔助信息,比如加入社交網(wǎng)絡(luò)信息。另一方面,還需要提高模型預(yù)測結(jié)果的可解釋性,增強(qiáng)用戶的使用體驗(yàn)。