李育芬
摘 要:隨著廣告市場的蓬勃發(fā)展,企業(yè)對(duì)于廣告點(diǎn)擊率的預(yù)測就比較重視,這對(duì)企業(yè)自身的產(chǎn)品銷售戰(zhàn)略的調(diào)整就有著重要意義。本文主要就機(jī)器學(xué)習(xí)的廣告點(diǎn)擊率預(yù)測方法,從理論層面進(jìn)行深入研究,希望能為實(shí)際廣告點(diǎn)擊率預(yù)測有所裨益。
關(guān)鍵詞:廣告點(diǎn)擊率;預(yù)測方法;機(jī)器學(xué)習(xí)
引言
互聯(lián)網(wǎng)廣告在互聯(lián)網(wǎng)領(lǐng)域中的發(fā)展比較迅速,和傳統(tǒng)的媒體相比較而言,互聯(lián)網(wǎng)廣告的傳播速度比較快,作為全新的廣告媒體,就成為中小企業(yè)擴(kuò)展知名度的最佳選擇。而中小企業(yè)的產(chǎn)品銷售中,為能精準(zhǔn)的銷售產(chǎn)品和調(diào)整產(chǎn)品銷售方案,在廣告點(diǎn)擊率的預(yù)測環(huán)節(jié)就變得比較重要,要通過科學(xué)的方法加以預(yù)測。
一、廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法及預(yù)測原理
(一)廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法
互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展過程中,一些企業(yè)利用互聯(lián)網(wǎng)信息傳播迅速的優(yōu)勢進(jìn)行投放廣告,主要就是為了擴(kuò)大廣告的推廣度,而廣告點(diǎn)擊的預(yù)測就顯得比較重要,這是消費(fèi)者對(duì)廣告的關(guān)注度以及吸引度的一種呈現(xiàn),對(duì)企業(yè)產(chǎn)品的銷售發(fā)展有著重大意義。廣告點(diǎn)擊率預(yù)測中機(jī)器學(xué)習(xí)方法的應(yīng)用是比較重要的,其中的淺層機(jī)器學(xué)習(xí)模型就是比較基礎(chǔ)的,其中就涵蓋著諸多的模型類型,如分解機(jī)模型,這是在推薦系統(tǒng)領(lǐng)域當(dāng)中進(jìn)行應(yīng)用的,是非線性的模型,能在非線性特征問題中加以應(yīng)用,發(fā)揮其自身的優(yōu)勢[1]。還有是GBDT模型,這是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中的一個(gè)重要學(xué)習(xí)方法,在訓(xùn)練集上能采用同一分類算法多次分類,從而得到系列弱分類器,在最終的組合弱分類器基礎(chǔ)上得到強(qiáng)分類器。廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法當(dāng)中的深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)法也是比較重要的,其學(xué)習(xí)能力比較強(qiáng),強(qiáng)調(diào)多層隱藏層,有著比較強(qiáng)大的數(shù)據(jù)擬合能力。再有就是梯度優(yōu)化算法,這是廣告點(diǎn)擊率預(yù)估的最佳模型優(yōu)化算法,有基于一階梯度優(yōu)化算法和基于二階梯度擬牛頓優(yōu)化算法。
(二)廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法預(yù)測原理
廣告的投放之后進(jìn)行收費(fèi),主要是按照點(diǎn)擊收費(fèi),這也是比較常見的收費(fèi)方法。所以點(diǎn)擊預(yù)估就成為廣告系統(tǒng)的一個(gè)重點(diǎn)內(nèi)容,這對(duì)廣告系統(tǒng)也會(huì)產(chǎn)生影響。在進(jìn)行廣告點(diǎn)擊預(yù)測的過程中,就需要通過統(tǒng)計(jì)方法的應(yīng)用,或者是通過基于機(jī)器學(xué)習(xí)的方法加以應(yīng)用,對(duì)于數(shù)據(jù)量小的通過統(tǒng)計(jì)方法就能預(yù)估,而對(duì)于數(shù)據(jù)量比較大的,每個(gè)樣本按照特征對(duì)應(yīng)點(diǎn)擊率就需要機(jī)器學(xué)習(xí)法加以應(yīng)用[2]。廣告的點(diǎn)擊率預(yù)估常常會(huì)建模成二分類問題模型,給定廣告以及用戶信息和其他的上下文信息,進(jìn)行預(yù)測是不是有一次點(diǎn)擊率,模型的輸入是日志,會(huì)記錄用戶對(duì)展現(xiàn)以及點(diǎn)擊行為。機(jī)器學(xué)習(xí)方法的預(yù)測模型中廣告日志的形式呈現(xiàn),可通過以下圖表進(jìn)行參考。通過從圖表中就能發(fā)現(xiàn),每行就是日志內(nèi)容,QuERY就是用戶所給出的查詢?cè)~,而Ad就是所展現(xiàn)的廣告,Bidword就是廣告所買的拍賣詞,飄紅就是查詢?cè)~和廣告匹配詞。通過這些廣告日志的信息就能實(shí)施機(jī)器的學(xué)習(xí)訓(xùn)練,在對(duì)某查詢?cè)~和展現(xiàn)某廣告時(shí)候有沒有點(diǎn)擊進(jìn)行學(xué)習(xí),對(duì)其點(diǎn)擊的概率進(jìn)行計(jì)算。
二、廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法預(yù)測實(shí)驗(yàn)及效果
基于機(jī)器學(xué)習(xí)的廣告點(diǎn)擊率預(yù)測方法的實(shí)際應(yīng)用過程中,就要充分注重按照相應(yīng)的步驟進(jìn)行操作。首先是廣告平臺(tái)對(duì)用戶展示的廣告歷史點(diǎn)擊行為進(jìn)行收集,然后從日志系統(tǒng)中對(duì)用戶瀏覽的網(wǎng)站以及網(wǎng)頁內(nèi)容和時(shí)間等進(jìn)行記錄,這些日志的數(shù)據(jù)在經(jīng)過;餓數(shù)據(jù)清洗以及特征處理后進(jìn)行轉(zhuǎn)變成適當(dāng)?shù)哪P停ㄟ^相應(yīng)的數(shù)字表示點(diǎn)擊和未點(diǎn)擊,這樣就能獲得廣告點(diǎn)擊率模型輸入數(shù)據(jù)[3]。通過機(jī)器學(xué)習(xí)算法的應(yīng)用來學(xué)習(xí)數(shù)據(jù)和訓(xùn)練處模型,在新廣告請(qǐng)求的時(shí)候,就會(huì)通過相應(yīng)數(shù)據(jù)輸入到模型當(dāng)中,對(duì)廣告的點(diǎn)擊概率就能進(jìn)行計(jì)算。在機(jī)器學(xué)習(xí)的時(shí)候,特征工程是比較重要的,收到用戶點(diǎn)擊日志數(shù)據(jù)后,數(shù)據(jù)還不能直接學(xué)習(xí),要進(jìn)行對(duì)原始數(shù)據(jù)的有用信息通過數(shù)字加以表示,然后才能進(jìn)行學(xué)習(xí)。對(duì)原始數(shù)據(jù)的表示形式比較多樣,有通過取統(tǒng)計(jì)值的方式,也有通過one-hot編碼的方式進(jìn)行表示[4]。
由于篇幅有限對(duì)于廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)法的實(shí)驗(yàn),僅以深層神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)為例簡單敘述,所使用的深層神經(jīng)網(wǎng)絡(luò)模型應(yīng)用中,要先明確硬件配置,內(nèi)存是144G,硬盤是1.5T,操作系統(tǒng)是CentOS-5.4,通過隨機(jī)初始化函數(shù)權(quán)值初始化后,隨機(jī)值算法就會(huì)產(chǎn)生高斯分布隨機(jī)數(shù)程序生成,然后進(jìn)行設(shè)置參數(shù)在終端輸入命令。通過深層神經(jīng)網(wǎng)絡(luò)模型激活函數(shù)的方式,就能對(duì)廣告點(diǎn)擊率進(jìn)行做出預(yù)測計(jì)算[5]。通過對(duì)此次廣告點(diǎn)擊預(yù)測機(jī)器學(xué)習(xí)方法的測試實(shí)驗(yàn)?zāi)軌蚩吹?,能有效的輔助實(shí)際中廣告點(diǎn)擊預(yù)測的工作,為企業(yè)的產(chǎn)品策略的實(shí)施提供了良好的支持。
結(jié)語
綜上所述,提高廣告點(diǎn)擊預(yù)測的準(zhǔn)確度,就要充分注重先進(jìn)的方法應(yīng)用,而基于機(jī)器學(xué)習(xí)的廣告點(diǎn)擊率預(yù)測方法的應(yīng)用,就有助于實(shí)踐工作的開展。隨著技術(shù)的進(jìn)一步發(fā)展,對(duì)于廣告點(diǎn)擊率預(yù)測機(jī)器學(xué)習(xí)方法也會(huì)愈來愈先進(jìn),屆時(shí)就會(huì)對(duì)企業(yè)的發(fā)展起到更大的作用,提高企業(yè)的市場競爭力。希望能通過此次對(duì)廣告點(diǎn)擊預(yù)測方法的應(yīng)用,為實(shí)際的工作提供相應(yīng)的參考。
參考文獻(xiàn):
[1]董書超.基于邏輯回歸模型的廣告點(diǎn)擊率預(yù)估系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué)2016
[2]余仕敏.基于遞歸神經(jīng)網(wǎng)絡(luò)的廣告點(diǎn)擊率預(yù)估[D].浙江理工大學(xué) 2016
[3]代成雷.基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測[D].浙江大學(xué) 2016
[4]李思琴.基于深度學(xué)習(xí)的搜索廣告點(diǎn)擊率預(yù)測方法研究[D].哈爾濱工業(yè)大學(xué) 2015
[5]邵迪.在線廣告中高層特征表示及點(diǎn)擊率預(yù)測方法研究[D].哈爾濱工業(yè)大學(xué) 2014endprint