周親 吳運(yùn)辰 吳俊坤
摘 要:本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測xDeepFM模型。研究發(fā)現(xiàn):xDeepFM模型對預(yù)估準(zhǔn)確率提升明顯;用戶畫像系統(tǒng)可以很好的解決深度模型對高維稀疏特征的學(xué)習(xí)問題,有效提高預(yù)估準(zhǔn)確率。
關(guān)鍵詞:互聯(lián)網(wǎng)廣告;用戶畫像;xDeepFM模型;點(diǎn)擊率預(yù)測
中圖分類號:TP274 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003-6970.2021.02.052
本文著錄格式:周親,吳運(yùn)辰,吳俊坤.基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測模型研究[J].軟件,2021,42(02):171-174
Research on Prediction Model of Internet Advertising Click through Rate Based on User Portrait
ZHOU Qin, WU Yunchen, WU Junkun
(School of economics, Nanjing University of Posts and telecommunications, Nanjing? Jiangsu? 210023)
【Absrtact】:This paper uses the click log stream provided by an e-commerce company to build the xDeepFM model of Internet advertising click rate prediction based on user portrait. The results show that: xDeepFM model can significantly improve the prediction accuracy; user portrait system can solve the problem of learning high-dimensional sparse features from depth model, and effectively improve the prediction accuracy.
【Key words】:internet advertising;user portrait;xDeepFM model;click through rate prediction
0引言
21世紀(jì)以來,隨著智能手機(jī)與互聯(lián)網(wǎng)技術(shù)的逐漸成熟,互聯(lián)網(wǎng)廣告成為日常生活中最常見的廣告形式。同時,互聯(lián)網(wǎng)廣告以其精準(zhǔn)度高、互動性強(qiáng)以及營銷成本相對較低等顯著特性,成為互聯(lián)網(wǎng)公司最為穩(wěn)定的一種營收模式。
廣告點(diǎn)擊率是衡量互聯(lián)網(wǎng)廣告投放效果的重要指標(biāo)?;ヂ?lián)網(wǎng)公司想要用戶愿意點(diǎn)擊彈跳出來的廣告,就要投放符合其“胃口”的廣告。因此需要使用更精確科學(xué)的模型對廣告點(diǎn)擊率進(jìn)行預(yù)估,準(zhǔn)確的估算廣告被前端用戶點(diǎn)擊的可能性,幫助廣告供應(yīng)方在有限的預(yù)算下獲得更多的點(diǎn)擊機(jī)會,從而帶來更大的收益。在此背景下本文使用某電商公司提供的廣告點(diǎn)擊日志流,構(gòu)建基于用戶畫像的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測xDeepFM模型,進(jìn)行深入研究。
1研究現(xiàn)狀
1.1關(guān)于用戶畫像的研究現(xiàn)狀
目前普遍接受的用戶畫像(Persona)的定義是由交互設(shè)計之父Alan Cooper提出的,他認(rèn)為用戶畫像是真實用戶的虛擬代表,是根據(jù)一系列用戶的真實數(shù)據(jù)而挖掘出的目標(biāo)用戶模型[1]。
用戶畫像被應(yīng)用于各個行業(yè)。在營銷方面,王冬羽[2]將用戶畫像系統(tǒng)的分為用戶靜態(tài)信息畫像和用戶動態(tài)信息畫像,設(shè)計了用戶畫像系統(tǒng),有效提高了用戶流量、增加了新用戶數(shù);在圖書館應(yīng)用方面,都藍(lán)[3]通過精確的構(gòu)建用戶畫像,幫助圖書館更加直觀地了解到讀者閱讀傾向,便于館員開展精準(zhǔn)化閱讀推廣服務(wù)。
1.2關(guān)于廣告點(diǎn)擊率的研究現(xiàn)狀
點(diǎn)擊率(CTR)是指某一內(nèi)容被點(diǎn)擊次數(shù)與被展示次數(shù)的比,一般用于描述內(nèi)容被用戶點(diǎn)擊的概率[4]。目前CTR預(yù)估研究方向主要分為兩個類別,即模型選擇層面和特征提取層面。從模型選擇層面來說:吳文偉[5]基于分布式邏輯回歸模型進(jìn)行分析,最終使廣告點(diǎn)擊率系統(tǒng)的訓(xùn)練速度得以明顯提升;Rendl等[6]提出一種能夠自動進(jìn)行特征組合的模型——因子分解機(jī)。從特征提取層面來說:華盛頓大學(xué)教授Domingos[7]曾說,使用什么特征是很多機(jī)器學(xué)習(xí)項目成敗的關(guān)鍵因素。周永[8]基于真實廣告點(diǎn)擊數(shù)據(jù)發(fā)現(xiàn),基于GBDT特征優(yōu)化技術(shù)的LR模型能有效提高傳統(tǒng)LR模型的預(yù)測準(zhǔn)確率;宋益多[9]通過LDA模型輸出用戶査詢的主題詞向量,最后基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測模型進(jìn)行分析。
2數(shù)據(jù)說明及預(yù)處理
2.1數(shù)據(jù)說明
本文所述的廣告點(diǎn)擊率預(yù)估方法來源于實驗室合作項目,數(shù)據(jù)來源自某電商公司提供的廣告點(diǎn)擊日志流,可以基于該組數(shù)據(jù)來衡量網(wǎng)站上廣告的吸引程度。本文數(shù)據(jù)具體時間范圍2020年3月1日至2020年3月8日共計八天。為保證用戶的相關(guān)隱私,所有數(shù)據(jù)均做脫敏處理。本文選取了日志流中的三個數(shù)據(jù)集進(jìn)行后續(xù)廣告點(diǎn)擊率預(yù)測模型擬合,如表1所示。
首先,在該電商網(wǎng)站上隨機(jī)抽樣114萬用戶近8天(2020.3.1-2020.3.8)內(nèi)的點(diǎn)擊日志,并選取合適的維度,共計2600萬記錄,構(gòu)成樣本骨架數(shù)據(jù)集,數(shù)據(jù)集內(nèi)的字段說明如表2。
其次在該電商網(wǎng)站上提取樣本骨架數(shù)據(jù)表中包含的廣告基本信息,數(shù)據(jù)集內(nèi)的字段說明如表3。
再提取樣本骨架數(shù)據(jù)表中114萬用戶的基本信息,構(gòu)成用戶信息表,字段信息如表4。
2.2數(shù)據(jù)預(yù)處理
通過對數(shù)據(jù)隨機(jī)抽取查看發(fā)現(xiàn),可能由于電商平臺數(shù)據(jù)存儲的失敗、存儲器破壞或者歷史局限問題,數(shù)據(jù)中存在缺失值和異常值。為進(jìn)一步分析數(shù)據(jù)并保證數(shù)據(jù)的完整性和可靠性,使用多重插補(bǔ)方法對數(shù)據(jù)預(yù)處理。
3 xDeepFM模型求解
3.1特征編碼
數(shù)據(jù)集通過數(shù)據(jù)預(yù)處理后依舊是比較臟亂,因為數(shù)據(jù)中存在各種非數(shù)字特殊符號,比如中文等,而實際上機(jī)器學(xué)習(xí)模型需要的數(shù)據(jù)是數(shù)字型的,只有數(shù)字類型才能進(jìn)行計算。因此,對于各種特殊的特征值,需要通過one-hot編碼對其進(jìn)行量化。
3.2 xDeepFM模型參數(shù)優(yōu)化
xDeepFM要學(xué)習(xí)的參數(shù)主要包括線性FM部分的系數(shù)、Embedding層的系數(shù)、CIN中各層的系數(shù)和DNN中各層的系數(shù),通過反向傳播算法即可求解各個系數(shù)。但是傳統(tǒng)的求解使用梯度下降進(jìn)行參數(shù)權(quán)重更新,每一輪迭代都需要使用全部的數(shù)據(jù)來計算平均損失函數(shù),對于本文大數(shù)據(jù)集的情況,計算效率較差,考慮相關(guān)優(yōu)化方法進(jìn)行求解,隨機(jī)梯度下降使用單個數(shù)據(jù)點(diǎn)的損失來代替整個數(shù)據(jù)記得平均損失,可以很好地解決梯度下降帶來的計算問題,但是容易帶來模型不收斂問題,同時使用單個數(shù)據(jù)點(diǎn)的損失來衡量平均損失也存在一定的誤差;小批量梯度下降使用一批數(shù)據(jù)來計算平均損失,代替整個數(shù)據(jù)集的平均損失,是計算速度和計算準(zhǔn)確性之間的折中方法,因此,本文使用小批量梯度下降進(jìn)行參數(shù)求解。
最終模型的預(yù)測結(jié)果還與模型各預(yù)設(shè)參數(shù)相關(guān),如學(xué)習(xí)率、batch_size、batch_norm、layer_size、layer_shape等,不同參數(shù)的調(diào)優(yōu)過程是一個NP問題,一般使用網(wǎng)格搜索來進(jìn)行最優(yōu)化,根據(jù)各參數(shù)的不同設(shè)定,可以求得模型的AUC值,最終選取擬合效果最好的參數(shù)組合來構(gòu)建模型如表5。
3.3預(yù)測結(jié)果檢驗與分析
使用網(wǎng)格搜索求得的超參數(shù)組合進(jìn)行模型訓(xùn)練,損失函數(shù)變化圖像如圖1所示。可以看出,在訓(xùn)練的初始階段,損失函數(shù)跳躍嚴(yán)重,無法收斂,而在經(jīng)過7000多輪迭代后,損失函數(shù)趨于平緩,最終穩(wěn)定在一個固定的值附近,代表模型收斂。
訓(xùn)練完畢,使用tensorboard對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行可視化導(dǎo)出,可以看到最終的網(wǎng)絡(luò)構(gòu)架如圖2所示。這表明使用訓(xùn)練好的xDeepFM模型,在測試集上進(jìn)行預(yù)測,通過ROC曲線計算AUC值以及召回率來衡量模型的擬合優(yōu)度,最終計算得到AUC為0.8532,召回率為0.9217,模型擬合較好,針對廣告點(diǎn)擊率預(yù)測具有實質(zhì)性作用。
3.4模型優(yōu)化:用戶畫像系統(tǒng)
已經(jīng)構(gòu)建的xDeepFM模型能夠很好的擬合互聯(lián)網(wǎng)廣告點(diǎn)擊問題的特征,同時可以預(yù)測用戶對于不同類型廣告的喜好程度、點(diǎn)擊概率,但是依然存在可優(yōu)化點(diǎn),例如原始特征中“User_id”這一字段為高維稀疏特征(兩千七百萬維),xDeepFM無法處理這一特征,如果直接對該特征進(jìn)行熱獨(dú)編碼處理、使用,經(jīng)過DNN模塊的特征交互,會使得最終學(xué)習(xí)的模型過于關(guān)注重復(fù)出現(xiàn)的User_id,弱化一般User_id的權(quán)重,在實際場景中,某個User_id反復(fù)出現(xiàn)并點(diǎn)擊互聯(lián)網(wǎng)廣告,很可能是刷流量等作弊行為,因此將其視為無效特征,不予使用。但是,不使用用戶唯一標(biāo)識特征會帶來新的問題,這就意味著放棄用戶歷史數(shù)據(jù),也就是放棄xDeepFM模型對用戶的記憶能力,這在實際生產(chǎn)環(huán)境中是難以取舍的問題,另一方面,不使用用戶標(biāo)識特征會帶來嚴(yán)重的冷啟動問題。
為解決上述問題,考慮使用歷史數(shù)據(jù)構(gòu)建用戶畫像系統(tǒng),用戶畫像系統(tǒng)使用用戶歷史行為數(shù)據(jù),如用戶歷史點(diǎn)擊廣告類型、用戶IP位置、點(diǎn)擊終端等特征,可以構(gòu)建性別、年齡、興趣標(biāo)簽,基于用戶畫像系統(tǒng)的結(jié)果,可以將每一個User_id映射到對應(yīng)的用戶類別中,最終作為新的特征添加到模型的輸入變量中,用戶畫像系統(tǒng)的輸出經(jīng)過熱獨(dú)編碼處理會變成低維變量,滿足xDeepFM模型學(xué)習(xí)的基礎(chǔ),不會帶來維度災(zāi)難、聚焦問題,同時可以充分使用已有數(shù)據(jù),保留模型對用戶行為的記憶能力。
用戶畫像系統(tǒng)可以作用于互聯(lián)網(wǎng)廣告點(diǎn)擊的召回階段,也可以作用于特征生成階段,本文將用戶畫像應(yīng)用于特征生成階段,衍生出新的特征進(jìn)行后續(xù)學(xué)習(xí),使用用戶畫像系統(tǒng)后的ROC曲線如圖3所示。根據(jù)模型訓(xùn)練、預(yù)估結(jié)果發(fā)現(xiàn),在相同的訓(xùn)練集、測試集上,用戶畫像系統(tǒng)可以使模型性能得到進(jìn)一步提升,主要體現(xiàn)在AUC和Recall上,其中AUC提高5-6個百分點(diǎn),Recall提高1個百分點(diǎn)。因此,可以得出結(jié)論:用戶畫像系統(tǒng)能夠優(yōu)化xDeepFM模型,提高模型的擬合優(yōu)度,從而提升廣告點(diǎn)擊預(yù)測的準(zhǔn)確率。
4結(jié)論
通過對本文所選的互聯(lián)網(wǎng)廣告數(shù)據(jù)的建模分析發(fā)現(xiàn):(1)相對于其他模型(如邏輯回歸、神經(jīng)網(wǎng)絡(luò)等),xDeepFM模型有其特有的優(yōu)勢;(2)xDeepFM模型中的CIN架構(gòu)可以學(xué)習(xí)數(shù)據(jù)集中的歷史關(guān)系,其中的DNN架構(gòu)可以自動化學(xué)習(xí)特征高階(二階及以上)交互關(guān)系,均對預(yù)估準(zhǔn)確率提升明顯;(3)基于海量用戶數(shù)據(jù)所構(gòu)成的用戶畫像系統(tǒng),可以完美解決深度模型對高維稀疏特征的學(xué)習(xí)問題,有效緩解過擬合,提高模型的擬合優(yōu)度,同時可以提供模型的記憶能力,緩解冷啟動問題、提高預(yù)估準(zhǔn)確率。
參考文獻(xiàn)
[1] 徐芳,應(yīng)潔茹.國內(nèi)外用戶畫像研究綜述[J].圖書館學(xué)研究,2020(12):7-16.
[2] 王冬羽.基于移動互聯(lián)網(wǎng)行為分析的用戶畫像系統(tǒng)設(shè)計[D].成都:成都理工大學(xué),2017.
[3] 都藍(lán).基于用戶畫像的高校圖書館年度閱讀報告研究[J].圖書館雜志,2019,38(4):27-33+40.
[4] 劉冶,劉荻,王硯文,等.基于多源融合特征提取的在線廣告預(yù)測模型[J].計算機(jī)工程,2019,45(1):178-185+191.
[5] 吳文偉.基于分布式邏輯回歸模型的廣告點(diǎn)擊率預(yù)估系統(tǒng)[D].北京:北京交通大學(xué),2018.
[6] Rendle S.Factorization Machines[C].Proceedings of the 2010 IEEE International Conference on Data Mining. Washington DC:IEEE Computer Society,2010:995-1000.
[7] Pedro Domingos.A few useful things to know about machine learning[J].Communications of the ACM,2012,
55(10):78-87.
[8] 周永.基于特征學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2014.
[9] 宋益多.基于用戶特征的搜索廣告點(diǎn)擊率預(yù)測研究[D].哈爾濱:哈爾濱工程大學(xué),2016.