王會(huì)娟
摘 要: 實(shí)時(shí)競(jìng)價(jià)中,準(zhǔn)確預(yù)測(cè)展示機(jī)會(huì)的中標(biāo)價(jià)能有效指導(dǎo)代表廣告主利益的需求方平臺(tái)制定競(jìng)價(jià)決策和分配廣告預(yù)算,從而優(yōu)化廣告活動(dòng)績(jī)效。目前的主流方法是在全部樣本上訓(xùn)練單一預(yù)測(cè)模型,忽略了不同樣本之間的差異。論文提出了基于展示機(jī)會(huì)細(xì)分的中標(biāo)價(jià)預(yù)測(cè)方法。根據(jù)展示機(jī)會(huì)對(duì)應(yīng)的用戶、媒體、廣告特征,該方法首先通過(guò)聚類將展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄細(xì)分成多個(gè)子集,針對(duì)每個(gè)子集,分別訓(xùn)練預(yù)測(cè)模型并進(jìn)行合理組合,從而提升其預(yù)測(cè)性能?;谡鎸?shí)的實(shí)時(shí)競(jìng)價(jià)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),與主流方法進(jìn)行對(duì)比分析,驗(yàn)證了該方法的有效性。
關(guān)鍵詞: 中標(biāo)價(jià)預(yù)測(cè);展示機(jī)會(huì)細(xì)分;實(shí)時(shí)競(jìng)價(jià)
中圖分類號(hào):F 713.8
文獻(xiàn)標(biāo)志碼: A
Abstract: In real-time bidding, predicting the winning price of an impression opportunity accurately can effectively guide the Demand-side Platform , which represents the advertisers benefits, to make the bidding decision and allocate advertising budget, so as to optimize the performance of advertising campaigns. The mainstream methods are to train a single prediction model on all data samples, ignoring the differences between different samples. A winning price prediction method based on impression opportunity segmentation is proposed. According to the user features, publisher features and advertising features of impression opportunities, the method divides the historical bidding records of impression opportunities into several subsets by clustering. The prediction models are trained respectively for each subset, and combined reasonably to improve the prediction performance. Simulation experiments on real-time bidding datasets and a comparative analysis with mainstream methods have verified the effectiveness of the proposed method.
Key words: winning price prediction; impression opportunity segmentation; real-time bidding
實(shí)時(shí)競(jìng)價(jià)中的關(guān)鍵參與方包括廣告主(Advertiser)、媒體(Publisher)、用戶(User)、需求方平臺(tái)(Demand-Side Platform, DSP)、供應(yīng)方平臺(tái)(Sell-Side Platform, SSP)、廣告交易平臺(tái)(Ad Exchange, Adx)以及數(shù)據(jù)管理平臺(tái)(Data management platform, DMP)等。SSP幫助媒體(廣告展示機(jī)會(huì)的擁有者,例如各種網(wǎng)站)出售廣告展示機(jī)會(huì),DSP代表廣告主參與實(shí)時(shí)競(jìng)價(jià)購(gòu)買展示機(jī)會(huì)用于廣告投放。當(dāng)網(wǎng)絡(luò)用戶訪問(wèn)網(wǎng)頁(yè)時(shí),網(wǎng)頁(yè)上的廣告位要展示的內(nèi)容還未確定,SSP將此次展示機(jī)會(huì)及相關(guān)特征通過(guò)Adx發(fā)送給DSP,并發(fā)起競(jìng)價(jià)請(qǐng)求;DSP根據(jù)展示機(jī)會(huì)的相關(guān)特征評(píng)估其對(duì)廣告主的價(jià)值并決定是否參與競(jìng)價(jià),如果參與,則將出價(jià)和廣告創(chuàng)意發(fā)送給Adx;Adx采用二價(jià)拍賣機(jī)制決定獲勝方,通知獲勝方支付費(fèi)用,并將獲勝方的廣告投放到廣告位上;最終,用戶看到展示廣告。
實(shí)時(shí)競(jìng)價(jià)中投放展示廣告按照展示付費(fèi),因此贏得展示機(jī)會(huì)來(lái)投放廣告需要付出成本,付出的成本就是贏得此次展示機(jī)會(huì)的中標(biāo)價(jià)。廣告活動(dòng)有預(yù)算約束,中標(biāo)價(jià)作為贏得廣告展示機(jī)會(huì)的成本,是DSP代表廣告主制定競(jìng)價(jià)決策時(shí)的重要影響因素。此外,中標(biāo)價(jià)也能反映展示機(jī)會(huì)的市場(chǎng)價(jià)值以及市場(chǎng)競(jìng)爭(zhēng)的激烈程度。因此,準(zhǔn)確預(yù)測(cè)展示機(jī)會(huì)的中標(biāo)價(jià),能有效指導(dǎo)DSP制定競(jìng)價(jià)策略和分配廣告預(yù)算。展示機(jī)會(huì)的中標(biāo)價(jià)是歸并數(shù)據(jù)(censored data),現(xiàn)有研究大多是對(duì)數(shù)學(xué)模型進(jìn)行改進(jìn),再使用全部訓(xùn)練樣本訓(xùn)練單一的預(yù)測(cè)模型??紤]到不同展示機(jī)會(huì)的價(jià)值差異,本文將具有相似特征的展示機(jī)會(huì)聚類,進(jìn)行細(xì)粒度建模,并將子模型的預(yù)測(cè)結(jié)果合理組合,提升了預(yù)測(cè)效果。
1 文獻(xiàn)綜述
實(shí)時(shí)競(jìng)價(jià)中展示機(jī)會(huì)的中標(biāo)價(jià)預(yù)測(cè)通常是從DSP的角度,使用展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄訓(xùn)練模型,預(yù)測(cè)新的展示機(jī)會(huì)的中標(biāo)價(jià)或中標(biāo)價(jià)分布。Ghosh等(2009)為了在給定預(yù)算下贏得一定數(shù)量的展示機(jī)會(huì),假設(shè)每次展示機(jī)會(huì)的中標(biāo)價(jià)是獨(dú)立同分布的,采用探索和利用的思路,先學(xué)習(xí)中標(biāo)價(jià)分布,再根據(jù)得到的經(jīng)驗(yàn)分布進(jìn)行出價(jià)。Li等(2014)認(rèn)為為了以最低的成本獲取最匹配的廣告展示機(jī)會(huì),需求方平臺(tái)必須準(zhǔn)確估計(jì)中標(biāo)率和中標(biāo)價(jià)。他們首先用邏輯回歸模型對(duì)中標(biāo)率進(jìn)行建模,然后將中標(biāo)率模型的導(dǎo)數(shù)作為中標(biāo)價(jià)的分布,并計(jì)算中標(biāo)價(jià)分布的期望值作為中標(biāo)價(jià)的估計(jì)。以上研究是從數(shù)學(xué)模型的角度出發(fā),沒(méi)有深入考慮展示機(jī)會(huì)的中標(biāo)價(jià)與具體特征之間的關(guān)系。Wu等(2015)最早根據(jù)每次展示機(jī)會(huì)的數(shù)據(jù)特征直接預(yù)測(cè)其中標(biāo)價(jià)。他們考慮到中標(biāo)價(jià)是歸并數(shù)據(jù),預(yù)測(cè)出每次參與競(jìng)價(jià)的獲勝概率作為權(quán)重,將線性回歸模型和經(jīng)典歸并回歸模型(Tobit模型)結(jié)合起來(lái),實(shí)現(xiàn)了比線性回歸模型更好的預(yù)測(cè)效果。Tobit模型是基于正態(tài)假設(shè)的,Zhu等(2017)通過(guò)對(duì)中標(biāo)價(jià)分布的觀察,使用伽馬分布代替正態(tài)分布,對(duì)歸并回歸模型進(jìn)行改進(jìn)。隨著深度學(xué)習(xí)的發(fā)展,Wu等(2018)提出一個(gè)通用的框架。在該框架下,可以假設(shè)中標(biāo)價(jià)服從各種不同的分布進(jìn)行建模,并采用深度學(xué)習(xí)方法求解參數(shù)。以上研究考慮到了數(shù)據(jù)特征對(duì)展示機(jī)會(huì)中標(biāo)價(jià)的影響,但基于數(shù)據(jù)特征在全部樣本上建立單一中標(biāo)價(jià)預(yù)測(cè)模型,使用單個(gè)權(quán)重衡量某個(gè)特征對(duì)所有樣本的影響有些片面。
實(shí)時(shí)競(jìng)價(jià)過(guò)程中會(huì)產(chǎn)生海量數(shù)據(jù),在全部樣本數(shù)據(jù)上訓(xùn)練單個(gè)模型是粗粒度的建模,大量樣本共享同一個(gè)建模結(jié)果,難以保證預(yù)測(cè)效果。細(xì)粒度的建模通常能提升預(yù)測(cè)效果。Cui等(2011)研究了廣告活動(dòng)中標(biāo)價(jià)的分布。他們首先根據(jù)每個(gè)廣告活動(dòng)的定向特征取值的不同組合,對(duì)展示機(jī)會(huì)的歷史記錄進(jìn)行分類,在子數(shù)據(jù)集上實(shí)現(xiàn)細(xì)粒度的中標(biāo)價(jià)分布估計(jì),最后利用混合對(duì)數(shù)正態(tài)分布對(duì)細(xì)粒度的估計(jì)情況進(jìn)行聚合,得到廣告活動(dòng)的中標(biāo)價(jià)分布。Lee等(2012)根據(jù)用戶、媒體和廣告等三方面不同層次的特征組合將數(shù)據(jù)分組,構(gòu)建弱估計(jì)器,并使用邏輯回歸模型將弱估計(jì)器組合起來(lái)預(yù)測(cè)展示廣告的轉(zhuǎn)化率。潘書(shū)敏等(2017)根據(jù)用戶特征將廣告點(diǎn)擊記錄通過(guò)聚類劃分為多個(gè)子數(shù)據(jù)集,在每個(gè)子集上訓(xùn)練邏輯回歸模型,將子模型的預(yù)測(cè)結(jié)果進(jìn)行組合,提高了廣告點(diǎn)擊率預(yù)測(cè)效果。這種先通過(guò)分類或聚類將數(shù)據(jù)細(xì)分,再進(jìn)行細(xì)粒度建模和預(yù)測(cè)的思路在其他領(lǐng)域也被廣泛應(yīng)用。董毅等(2010)提出了基于支持向量機(jī)的先分類、再回歸的預(yù)測(cè)方法,在糧食產(chǎn)量預(yù)測(cè)中實(shí)現(xiàn)了很好的預(yù)測(cè)效果。夏利等(2014)提出了基于k均值聚類和支持向量機(jī)的先聚類再回歸的預(yù)測(cè)方法,并應(yīng)用于機(jī)場(chǎng)噪聲預(yù)測(cè),提升了預(yù)測(cè)精度。
在前人研究的基礎(chǔ)上,本文從DSP的角度進(jìn)行中標(biāo)價(jià)預(yù)測(cè)研究。在實(shí)時(shí)競(jìng)價(jià)中,展示機(jī)會(huì)的中標(biāo)價(jià)不僅受用戶特征影響,還受到媒體和廣告等方面特征的影響。本文以特征對(duì)展示機(jī)會(huì)中標(biāo)價(jià)的影響為著眼點(diǎn),根據(jù)用戶、媒體和廣告等方面的特征,使用聚類算法對(duì)展示機(jī)會(huì)進(jìn)行細(xì)分,再在子數(shù)據(jù)集上進(jìn)行細(xì)粒度的回歸模型訓(xùn)練,最后將子模型的預(yù)測(cè)結(jié)果組合起來(lái),提升了預(yù)測(cè)效果。
2 展示機(jī)會(huì)的中標(biāo)價(jià)
歸并數(shù)據(jù)是指對(duì)于每一次觀測(cè),都能觀測(cè)到解釋變量X的取值,但由于某些經(jīng)濟(jì)機(jī)制或自然機(jī)制,有時(shí)能觀測(cè)到被解釋變量Y的取值,有時(shí)無(wú)法觀測(cè)Y的取值,只知道Y大于某個(gè)數(shù)或者小于某個(gè)數(shù)。由于數(shù)據(jù)的特殊性,常見(jiàn)的機(jī)器學(xué)習(xí)算法不適用于歸并數(shù)據(jù),通常使用Tobit模型對(duì)歸并數(shù)據(jù)進(jìn)行回歸和預(yù)測(cè)。
實(shí)時(shí)競(jìng)價(jià)采用二價(jià)拍賣機(jī)制,參與競(jìng)價(jià)的DSP若想贏得某次展示機(jī)會(huì),需要預(yù)測(cè)競(jìng)爭(zhēng)對(duì)手們的最高出價(jià)。對(duì)DSP而言,它的中標(biāo)價(jià)(winning price)就是競(jìng)價(jià)過(guò)程中競(jìng)爭(zhēng)對(duì)手們的最高出價(jià)。對(duì)DSP而言,若在某次競(jìng)價(jià)中獲勝,則贏得此次廣告展示機(jī)會(huì),并支付中標(biāo)價(jià)給媒體;若某次競(jìng)價(jià)失敗,只能知道中標(biāo)價(jià)大于等于自己的出價(jià)。因此,從DSP的角度看,展示機(jī)會(huì)的中標(biāo)價(jià)是歸并數(shù)據(jù)。例如,在針對(duì)某次展示機(jī)會(huì)的競(jìng)價(jià)中,共有A、B、C三家DSP參與。A、B、C的出價(jià)分別是50、100和150,那么A和B的中標(biāo)價(jià)都是150,因?yàn)樗鼈兊母?jìng)爭(zhēng)對(duì)手的最高出價(jià)是150。對(duì)C來(lái)說(shuō),中標(biāo)價(jià)是100,因?yàn)樗母?jìng)爭(zhēng)對(duì)手的最高出價(jià)是100。最終,C贏得展示機(jī)會(huì),支付100給媒體;而A和B競(jìng)價(jià)失敗,無(wú)法獲知競(jìng)爭(zhēng)對(duì)手的最高出價(jià),因此也不知道此次競(jìng)價(jià)中自己的中標(biāo)價(jià)。
2.1 真實(shí)中標(biāo)價(jià)
本文借鑒Wu等(2015)對(duì)展示機(jī)會(huì)中標(biāo)價(jià)的設(shè)定,在此進(jìn)行簡(jiǎn)要說(shuō)明。假設(shè)在某次展示機(jī)會(huì)競(jìng)價(jià)中,共有J家DSP參與,記作D1,… ,DJ。不失一般性地,本文站在D1的立場(chǎng)展開(kāi)研究。表1是研究中涉及的變量及說(shuō)明。
3 基于展示機(jī)會(huì)細(xì)分的中標(biāo)價(jià)預(yù)測(cè)
3.1 模型構(gòu)建思想
中標(biāo)價(jià)預(yù)測(cè)是從DSP的角度,使用展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄訓(xùn)練模型,預(yù)測(cè)新展示機(jī)會(huì)的中標(biāo)價(jià)。每次展示機(jī)會(huì)都有用戶、媒體、廣告等方面的多個(gè)特征,展示機(jī)會(huì)的中標(biāo)價(jià)與這些特征密切相關(guān)。用戶多、活躍度大的知名媒體廣告價(jià)值高,用戶少的媒體廣告價(jià)值低;消費(fèi)能力強(qiáng)、興趣廣泛的用戶更可能點(diǎn)擊或購(gòu)買,因此有更高的廣告價(jià)值。媒體和用戶的廣告價(jià)值越高,對(duì)應(yīng)的展示機(jī)會(huì)的中標(biāo)價(jià)也就越高。此外,展示機(jī)會(huì)對(duì)應(yīng)的廣告位在媒體頁(yè)面上的位置越好,越容易引起用戶關(guān)注,中標(biāo)價(jià)也就越高。在全部歷史競(jìng)價(jià)記錄上,訓(xùn)練單個(gè)預(yù)測(cè)模型是粗粒度的建模方法,忽略了不同用戶、不同媒體、不同廣告間的價(jià)值差異,大量樣本共享同一個(gè)建模結(jié)果,模型的預(yù)測(cè)精度比較低。因此,應(yīng)該根據(jù)特征相似性將歷史記錄細(xì)分成不同子集,實(shí)現(xiàn)細(xì)粒度的建模。
基于上述分析,本文的模型設(shè)計(jì)思路如圖1所示。對(duì)于歷史競(jìng)價(jià)記錄,提取用戶、媒體、廣告等方面的特征,通過(guò)聚類進(jìn)行展示機(jī)會(huì)細(xì)分,每個(gè)子數(shù)據(jù)集內(nèi)部的展示機(jī)會(huì)相似性較大,不同子數(shù)據(jù)集中的展示機(jī)會(huì)差異性較大。在聚類得到的各子數(shù)據(jù)集上,分別訓(xùn)練Tobit模型作為子預(yù)測(cè)模型。新的廣告展示機(jī)會(huì)到來(lái)時(shí),使用各子模型預(yù)測(cè)其中標(biāo)價(jià),并計(jì)算新展示機(jī)會(huì)被劃分到各子數(shù)據(jù)集的概率作為權(quán)重,加權(quán)平均得到最終的預(yù)測(cè)結(jié)果。
由于展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄數(shù)據(jù)量大,包含的數(shù)據(jù)特征多,本文采用高斯混合模型刻畫(huà)歷史競(jìng)價(jià)記錄的分布。使用高斯混合模型,將展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄根據(jù)用戶、媒體、廣告等方面的特征劃分為k個(gè)子數(shù)據(jù)集,在每個(gè)子集上,訓(xùn)練一個(gè)Tobit模型作為子預(yù)測(cè)模型。對(duì)于新到來(lái)的展示機(jī)會(huì),提取特征放入k個(gè)子預(yù)測(cè)模型中,得到k個(gè)中標(biāo)價(jià)預(yù)測(cè)值。為了得到中標(biāo)價(jià)預(yù)測(cè)的最終結(jié)果,需要將k個(gè)中標(biāo)價(jià)預(yù)測(cè)值進(jìn)行合理組合。通過(guò)聚類,同一個(gè)子數(shù)據(jù)集內(nèi)部的展示機(jī)會(huì)相似度較大,不同子數(shù)據(jù)集中展示機(jī)會(huì)的差異較大。通過(guò)高斯混合模型聚類得到的k個(gè)子數(shù)據(jù)集各自對(duì)應(yīng)一個(gè)混合成分,根據(jù)公式(9),可以計(jì)算新的展示機(jī)會(huì)由每個(gè)混合成分采樣生成的后驗(yàn)概率,本文用這個(gè)后驗(yàn)概率表示新的展示機(jī)會(huì)與每個(gè)子數(shù)據(jù)集中展示機(jī)會(huì)的相似度。在線性模型中,展示機(jī)會(huì)間的特征相似度越大,中標(biāo)價(jià)越接近,因此不同子模型的預(yù)測(cè)結(jié)果在最終結(jié)果中所占比重取決于新展示機(jī)會(huì)與每個(gè)子數(shù)據(jù)集中展示機(jī)會(huì)的相似度?;谠摷僭O(shè),本文用計(jì)算的后驗(yàn)概率作為權(quán)重,對(duì)k個(gè)中標(biāo)價(jià)預(yù)測(cè)值進(jìn)行加權(quán)平均,作為最終的預(yù)測(cè)結(jié)果。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)及數(shù)據(jù)特征處理
4.1.1 實(shí)驗(yàn)數(shù)據(jù)介紹
由于商業(yè)隱私,廣告實(shí)時(shí)競(jìng)價(jià)方面的公開(kāi)數(shù)據(jù)集很少。2013年,知名DSP廠商iPinYou發(fā)布了一批真實(shí)的實(shí)時(shí)競(jìng)價(jià)數(shù)據(jù),包含三個(gè)不同時(shí)期的展示機(jī)會(huì)歷史競(jìng)價(jià)記錄、展示記錄、用戶點(diǎn)擊記錄和轉(zhuǎn)化記錄。每一條數(shù)據(jù)記錄有用戶、媒體、廣告等方面的多個(gè)特征。這是實(shí)時(shí)競(jìng)價(jià)領(lǐng)域內(nèi)較為權(quán)威的公開(kāi)數(shù)據(jù)集,很多學(xué)者使用該數(shù)據(jù)集進(jìn)行了相關(guān)研究。
iPinYou發(fā)布的競(jìng)價(jià)數(shù)據(jù)中,第二時(shí)期數(shù)據(jù)(2013年6月6日至6月12日)包含的數(shù)據(jù)特征最為完整,因此本文實(shí)驗(yàn)采用第二時(shí)期的數(shù)據(jù)。iPinYou是一家DSP,其競(jìng)價(jià)數(shù)據(jù)集中的中標(biāo)價(jià)是歸并數(shù)據(jù),競(jìng)價(jià)失敗的數(shù)據(jù)記錄觀測(cè)不到真實(shí)中標(biāo)價(jià),只能觀測(cè)到真實(shí)中標(biāo)價(jià)的下界,即自己的出價(jià)。然而為了評(píng)估模型預(yù)測(cè)效果,本文需要用到測(cè)試數(shù)據(jù)集中每一條競(jìng)價(jià)記錄的真實(shí)中標(biāo)價(jià)。因此參考過(guò)往研究(Wu等,2015;Zhu等,2017),本文基于歷史競(jìng)價(jià)記錄中所有的獲勝記錄,通過(guò)模擬出價(jià)生成一批數(shù)據(jù)記錄用于仿真實(shí)驗(yàn),具體過(guò)程如下:
(1)選取所有獲勝的歷史競(jìng)價(jià)記錄,記作數(shù)據(jù)集W。
(2)將數(shù)據(jù)集W中每一條記錄的出價(jià)乘以縮放因子0.5,得到新的出價(jià)。
(3)將數(shù)據(jù)集W中每一條記錄新的出價(jià)與中標(biāo)價(jià)對(duì)比,若新的出價(jià)大于中標(biāo)價(jià),標(biāo)記為獲勝記錄,否則標(biāo)記為失敗記錄。對(duì)每一條記錄進(jìn)行處理,得到用來(lái)訓(xùn)練模型和評(píng)估預(yù)測(cè)效果的仿真數(shù)據(jù)集。
4.1.2 數(shù)據(jù)特征處理
實(shí)驗(yàn)使用的數(shù)據(jù)特征見(jiàn)表2,Hour表示該次競(jìng)價(jià)發(fā)生于一天中哪個(gè)小時(shí);Operationsystem是指用戶訪問(wèn)媒體網(wǎng)站時(shí)使用的操作系統(tǒng);Adslotwidth和Adslotheight表示廣告位的寬度和高度,各自取特定的幾個(gè)整數(shù)值,因此本文將這兩個(gè)特征看作離散型特征;UserTags是用戶標(biāo)簽集合,每個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)用戶特征,例如標(biāo)簽“10063”代表“個(gè)人關(guān)注娛樂(lè)”,本文進(jìn)行實(shí)驗(yàn)前將UserTags字段劃分開(kāi),得到43個(gè)用戶特征;其余數(shù)據(jù)特征的含義詳見(jiàn)Liao等(2014)。
由于模型的訓(xùn)練需要數(shù)值型數(shù)據(jù)作為輸入,因此需要將離散型特征轉(zhuǎn)化為數(shù)值型數(shù)據(jù)。對(duì)于除Domain之外的離散型特征,本文采用獨(dú)熱編碼進(jìn)行處理。獨(dú)熱編碼是機(jī)器學(xué)習(xí)中常用的離散型特征處理方式,它能將有N種取值的離散型特征轉(zhuǎn)化為N維二進(jìn)制特征。由于Domain這一離散型特征的可能取值過(guò)多,采用獨(dú)熱編碼處理會(huì)導(dǎo)致數(shù)據(jù)維度過(guò)高,給預(yù)測(cè)模型的訓(xùn)練帶來(lái)困難,因此本文采用業(yè)界常用的頻數(shù)編碼方式對(duì)Domain字段進(jìn)行處理。對(duì)Hour這一連續(xù)型特征,本文采用最大最小歸一化進(jìn)行處理。
4.2 實(shí)驗(yàn)設(shè)計(jì)與評(píng)估指標(biāo)
為了評(píng)估本文方法的有效性,本文選取了中標(biāo)價(jià)預(yù)測(cè)的兩種主流方法進(jìn)行對(duì)照實(shí)驗(yàn),分別是Tobit模型以及Wu等(2015)提出的混合歸并回歸模型。實(shí)驗(yàn)數(shù)據(jù)中包含5個(gè)廣告活動(dòng),分別屬于不同行業(yè),因此本文對(duì)每個(gè)廣告活動(dòng)分別進(jìn)行模型訓(xùn)練和評(píng)估。在線廣告競(jìng)價(jià)相關(guān)研究中(Gummadi等,2011;Chen等,2011;Zhang等,2014),普遍假設(shè)每次展示機(jī)會(huì)的特征向量都是從同一個(gè)分布中獨(dú)立生成的。因此,針對(duì)每個(gè)廣告活動(dòng)的仿真數(shù)據(jù)集,本文隨機(jī)抽取2/3作為訓(xùn)練集,使用剩余的1/3作為測(cè)試集。實(shí)驗(yàn)使用均方誤差MSE作為預(yù)測(cè)效果的評(píng)估指標(biāo),均方誤差是預(yù)測(cè)值和真實(shí)值對(duì)應(yīng)誤差的平方和的均值。
本文所提出的基于展示機(jī)會(huì)細(xì)分的中標(biāo)價(jià)預(yù)測(cè)方法在模型訓(xùn)練階段確定聚類個(gè)數(shù)時(shí),針對(duì)每個(gè)廣告活動(dòng)的訓(xùn)練數(shù)據(jù)集,以2到12作為聚類個(gè)數(shù)進(jìn)行聚類,計(jì)算對(duì)應(yīng)的貝葉斯信息準(zhǔn)則BIC作為聚類效果的評(píng)價(jià)指標(biāo)進(jìn)行比較,選定每個(gè)廣告活動(dòng)的聚類個(gè)數(shù)。
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 中標(biāo)價(jià)隨特征變化規(guī)律
本文以實(shí)驗(yàn)數(shù)據(jù)中的廣告活動(dòng)3386為例,說(shuō)明中標(biāo)價(jià)隨不同特征的變化規(guī)律。圖2展示了每個(gè)小時(shí)內(nèi)展示機(jī)會(huì)中標(biāo)價(jià)的平均值,7:00—23:00展示機(jī)會(huì)中標(biāo)價(jià)的平均值明顯高于1:00—6:00。圖3展示了中標(biāo)價(jià)平均值隨用戶特征的變化規(guī)律。對(duì)于同一個(gè)用戶特征而言,是否具有該特征會(huì)影響相應(yīng)展示機(jī)會(huì)的中標(biāo)價(jià);對(duì)于不同用戶特征而言,具有不同用戶特征的展示機(jī)會(huì)的中標(biāo)價(jià)平均值也不同。此外,當(dāng)展示機(jī)會(huì)處于頁(yè)面第一屏(即頭版頭條)時(shí),中標(biāo)價(jià)的平均值為108.01,遠(yuǎn)高于處于頁(yè)面其他位置時(shí)的中標(biāo)價(jià)平均值75.79。以上結(jié)果表明展示機(jī)會(huì)的中標(biāo)價(jià)受到特征取值的密切影響,因此根據(jù)特征對(duì)展示機(jī)會(huì)進(jìn)行相似性劃分,在相似樣本集上進(jìn)行訓(xùn)練和預(yù)測(cè),將有助于提高中標(biāo)價(jià)預(yù)測(cè)的準(zhǔn)確率。
4.3.2 不同方法的預(yù)測(cè)結(jié)果分析
表3展示了每個(gè)廣告活動(dòng)對(duì)照實(shí)驗(yàn)上三種方法預(yù)測(cè)的均方誤差以及本文方法相比于兩種對(duì)比方法的誤差降低百分比。其中,本文方法是指本文提出的基于展示機(jī)會(huì)細(xì)分的中標(biāo)價(jià)預(yù)測(cè)方法,Mixed是指Wu等(2015)提出的混合歸并回歸模型?;旌蠚w并回歸模型組合了線性回歸模型和Tobit模型的預(yù)測(cè)結(jié)果,其中訓(xùn)練線性回歸模型只使用獲勝的歷史競(jìng)價(jià)記錄,訓(xùn)練Tobit模型使用全部歷史競(jìng)價(jià)記錄。
從表3可知,在五個(gè)廣告活動(dòng)的對(duì)照實(shí)驗(yàn)上,本文方法都實(shí)現(xiàn)了最小的預(yù)測(cè)誤差。對(duì)每一組對(duì)照實(shí)驗(yàn)上本文方法和兩種對(duì)比方法的預(yù)測(cè)結(jié)果進(jìn)行配對(duì)樣本t檢驗(yàn),P值都為0,說(shuō)明預(yù)測(cè)誤差的降低在統(tǒng)計(jì)學(xué)意義上是顯著的。混合歸并回歸模型的預(yù)測(cè)誤差最大,這是由于本文實(shí)驗(yàn)使用的仿真數(shù)據(jù)集中競(jìng)價(jià)失敗記錄占有一定比例,并且失敗記錄的中標(biāo)價(jià)往往顯著高于獲勝記錄的中標(biāo)價(jià)。本文方法在每組對(duì)照實(shí)驗(yàn)上的預(yù)測(cè)效果都優(yōu)于單一Tobit模型,這表明先對(duì)展示機(jī)會(huì)通過(guò)聚類進(jìn)行細(xì)分,再在相似樣本集上訓(xùn)練模型進(jìn)行預(yù)測(cè),能夠有效提升預(yù)測(cè)效果。
5 結(jié)語(yǔ)
實(shí)時(shí)競(jìng)價(jià)是互聯(lián)網(wǎng)展示廣告主流的交易方式。從DSP的角度,預(yù)測(cè)展示機(jī)會(huì)的中標(biāo)價(jià)作為每次參與競(jìng)價(jià)的成本參考,對(duì)于設(shè)計(jì)更高效的競(jìng)價(jià)策略、實(shí)現(xiàn)更好的廣告活動(dòng)績(jī)效具有重要意義。本文考慮到特征的不同取值對(duì)展示機(jī)會(huì)中標(biāo)價(jià)的影響,基于特征相似度將展示機(jī)會(huì)的歷史競(jìng)價(jià)記錄聚類細(xì)分成多個(gè)子集,以Tobit模型為子模型,實(shí)現(xiàn)細(xì)粒度建模和預(yù)測(cè),以此提升展示機(jī)會(huì)中標(biāo)價(jià)的預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,本文方法相比于單一Tobit模型和混合歸并回歸模型實(shí)現(xiàn)了更好的預(yù)測(cè)效果。
參考文獻(xiàn):
[1] GHOSH A, RUBINSTEIN B I P, VASSILVITSKII S, et al. Adaptive bidding for display advertising[C]// International Conference on World Wide Web. ACM, 2009: 251-260.
[2] LI X, GUAN D. Programmatic buying bidding strategies with win rate and winning price estimation in real time mobile advertising[C]// Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer International Publishing, 2014: 447-460.
[3] WU C H, YEH M Y, CHEN M S. Predicting winning price in real time bidding with censored data[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2015: 1305-1314.
[4] ZHU W Y, SHIH W Y, LEE Y H, et al. A gamma-based regression for winning price estimation in real-time bidding advertising[C]// 2017 IEEE International Conference on Big Data (Big Data). IEEE, 2017: 1610-1619.
[5] WU W, YEH M Y, CHEN M S. Deep censored learning of the winning price in the real time bidding [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 2526-2535.
[6] CUI Y, ZHANG R, LI W, et al. Bid landscape forecasting in online ad exchange marketplace[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2011: 265-273.
[7] LEE K C, ORTEN B, DASDAN A, et al. Estimating conversion rate in display advertising from past performance data[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Ming. ACM, 2012: 768-776.
[8] 潘書(shū)敏, 顏娜, 謝瑾奎. 基于用戶相似度和特征分化的廣告點(diǎn)擊率預(yù)測(cè)研究[J]. 計(jì)算機(jī)科學(xué), 2017, 44(2): 283-289.
[9] 董毅, 程偉, 張燕平,等. 基于SVM的先分類再回歸方法及其在產(chǎn)量預(yù)測(cè)中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(9): 2310-2313.
[10] 夏利, 王建東, 張霞,等. 聚類再回歸方法在機(jī)場(chǎng)噪聲時(shí)間序列預(yù)測(cè)中的應(yīng)用[J]. 數(shù)據(jù)采集與處理, 2014, 29(1): 152-156.
[11] 陳強(qiáng). 高級(jí)計(jì)量經(jīng)濟(jì)學(xué)及Stata應(yīng)用[M]. 2版. 北京: 高等教育出版社, 2014: 239.
[12] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016: 206-211.
[13] LIAO H, PENG L, LIU Z, et al. IPinYou global RTB bidding algorithm competition dataset[J]. ACM, 2014.
[14] GUMMADI R, KEY P B, PROUTIERE A. Optimal bidding strategies in dynamic auctions with budget constraints[J]. IEEE, 2011: 588.
[15] CHEN Y, BERKHIN P, ANDERSON B, et al. Real-time bidding algorithms for performance-based display ad allocation[C]// Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Ming. ACM, 2011: 1307.
[16] ZHANG W, YUAN S, WANG J. Optimal real-time bidding for display advertising[C]// In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2014: 1077-1086.