福建農業(yè)職業(yè)技術學院 吳忠斌
關于計算廣告相關算法的解析
福建農業(yè)職業(yè)技術學院 吳忠斌
通過對計算廣告中相關算法的解釋與分析,明確了DSP優(yōu)化傳統(tǒng)交互流程及其要點,展現了DSP工作流量,并對計算廣告的相關算法進行了綜合闡述,提出了對計算廣告過程中可以采用的幾種算法策略,供相關技術研究人員參考.
計算廣告;DSP;算法
計算廣告已經成為一門新興的多學科的交叉學科,與大型搜索、文本分析、信息檢索、機器學習、分類、優(yōu)化和微觀經濟學等諸多學科緊密融合.計算廣告就是以追求廣告投放的綜合收益最大化為目標,重點解決用戶與廣告匹配的相關性和廣告的競價模型的問題.隨著海量用戶數據的挖掘、實時大數據計算(流計算)、用戶與廣告特征提取與匹配、語義網絡的構建不斷發(fā)展,計算廣告的運作系統(tǒng)以廣告算法、廣告、語境、受眾為內容,采取基于文本分析、用戶分析、用戶參與的計算廣告.
從原來Ad Network交互流程到目前主要模式為RTB模式的演變,原來從媒體來的每一個廣告請求,通常都會獲得展現機會,現在不一定了.原來用戶沒點擊,Ad Network不用出錢(當時采用CPC結算),現在則需要出錢(現在采用CMP結算).原來穩(wěn)賺不賠,現在做不好就虧本.媒體壟斷優(yōu)勢沒有了,競爭者變多了,廣告主可能變少了.不用去和各家媒體一一談合作了.DSP(Demand Side Platform)作為需求方平臺,負責接受投放需求,找人群數據,實現投放競價等功能的那么一個中央管理控制平臺.DMP(Data Management Platform)作為數據管理平臺,負責數據匯集和按需要與DSP進行數據交換.而站在廣告主的角度來看,運用投放新技術幫助廣告主選擇合適的展現,并對展現出價(CMP)的DSP比Ad Network更能代表自己的利益,可以提出更多個性化的投放要求.并且更容易在投放中定制化地使用廣告主自己的數據和第三方數據.
以往的互聯網廣告投放方式不同,DSP模式的主要特征是精準定位目標人群,先按照投放需求來圈定目標受眾,如在某地區(qū)的某個年齡段喜歡奢侈品平均消費多少金額.還需要設置投放條件,如某客戶使用PC或移動終端每次點擊廣告的單價不超過2分錢.然后這些條件就交到了DSP系統(tǒng)那,DSP會跟DMP溝通,找出條件匹配的人群,并根據競爭程度(實時競價),可使用的媒體資源等實際環(huán)境,來進行廣告投放.其涉及到了RTB(Realtime bidding),即實時競價.多個廣告主的目標用戶經常是重疊的,投放資源也需要去搶,就會產生競價,在同一時間進行PK.DSP的優(yōu)化效果可能比Ad Network更好,但是,做不好的話也可能更差.誠然,前置和后置精準相結合才能夠實現相對靠譜的精準投放,技術并不能完全決定投放,用戶行為的不穩(wěn)定性導致了前置數據的不夠精確,需要通過后置數據進行修正,所以,海量數據很重要.從媒體主的角度來看,收益理論上會增加,但在早期市場競爭不激烈時,收益可能降低.計算廣告的核心問題,是為一系列用戶與環(huán)境的組合找到最合適的廣告投放策略以優(yōu)化整體廣告活動的利潤.必須說明的是,廣告問題優(yōu)化是一組展示的效果,而非孤立的某一次展示的效果.這是由于廣告活動中普遍存在著量的約束,在這一約束下進行利潤優(yōu)化,其最優(yōu)解往往與每次展示獨立決策時有很大的不同.另外,在某些廣告產品中,系統(tǒng)并不一定能拿到確定的用戶或上下文唯一標識,但這并不意味著完全無法進行計算優(yōu)化,并且優(yōu)化的結果是"廣告投放策略"而不一定是具體的廣告.
想了解算法,就必須先了解DSP的工作流程(如圖1所示).
圖1 DSP工作流程
1)廣告主的數據(Action Data).DMP公司在廣告主的網站上埋點(通常是放上一個1X1的不可見像素),這樣當網民訪問廣告主的網站時,DMP公司會得到該信息.在廣告主授權下,DMP公司把該數據傳給DSP.
2)媒體的數據(Mapping Data).DSP還會和第三方網站合作(如新浪、網易).在它們的網站上也埋點,或者向DMP公司購買網民行為數據,這樣就可以追蹤到網民在這些網站上的行為.網民在每個網站上留下的Cookie不一樣,需要做Cookie Mapping.
其一,離線計算每個Campaign的目標投放用戶集;
其二,廣告主(或賬戶操作人員)可以通過配置來管理這些目標投放用戶集.
1)當Ad Exchange(廣告交換)把請求發(fā)過來的時候,DSP會得到以下2條信息:一個是當前廣告位的信息;另一個是當前用戶的Cookie和基本信息.
2)DSP需要在100ms內,根據對當前用戶的理解,并且考慮當前廣告位,依據自己的Bidding算法來決定:一是否要對這次展現機會進行競價;二是投放哪個Campaign的廣告;三是出價是多少.
如果出價最高,贏得了展現機會,則DSP返回創(chuàng)意,網民就會在該廣告位看到該創(chuàng)意(圖片、文字、Flash).
1)Ad Exchange向DSP反饋該DSP競價成功的展現是否造成點擊或轉化.
2)根據這些數據統(tǒng)計點擊率(CTP)、轉化率(CVR)、每個轉化平均成本(CPA)等各種指標,匯總成報表展示給廣告主.
對于上述過程中的算法,其運算過程大致如下:
找到每個Campaign的目標投放用戶集.
1)基于標簽的做法(與Ad Network差異不大).
DSP對所有能追蹤到的網民,根據其行為為每個網民打上各種標簽(User Profiling).
廣告主(或賬戶操作員)對每個Campaign選擇一系列標簽,從而確定自己的目標投放用戶集.
2)基于重定向的做法.
重定向的方式很多,如KT重定向、Cookie重定向.Cookie重定向就是記錄曾經訪問過廣告主網站的Cookie,然后廣告主只對這些Cookie進行投放.
3)基于Look-alike模型的做法(以M6D)的做法為例)
對每個Campaign,建立模型預估用戶發(fā)生轉化的概率P(c|u).正例是在廣告主網站發(fā)生轉化的用戶,反之為負例,P(c|u)由兩級模型來構建.
根據每個用戶的P(c|u)將用戶劃分到不同的Segments.
不同Segments的P(c|u)范圍也不一樣,平均每個Campaign有10~50個Segments.廣告主根據自己的需求,決定開啟或關閉某些Segments.
當Ad Exchange發(fā)送競價請求時,攜帶了網民Cookie信息和廣告位信息.
1)檢索.DSP先根據Cookie找到所有目標投放用戶集中包含該Cookie的Campaign.
2)過濾.篩掉那些達到預算限制的Campaign,以及對當前用戶達到展次數上限的Campaign.
3)出價.對每個Campaign計算出一個出價.
4)內部競價.選擇出價最高的Campaign,并把出價返回給Ad Exchange.
在線上生產環(huán)境中進行實際競價時,通常需要對競價模型的參數做調整.主要原因有兩點:一是線上的數據分布與線下用的訓練數據的分布不一樣,需要對參數做調整;二是線上的環(huán)境是動態(tài)變化的,參數也應隨之變化.
其常見的算法有兩種:
1)預測
預測對象:流量,即預估未來的流量大小;在不同的出價下,能贏得展現的概率分布,體現競爭對手的出價情況.
預測范圍:全流量下的預估;不同定向條件下的預估.
2)反饋控制
以消費控制為例,計算公式為:
注:式中λ為參數.
上式控制每個時間間隔的消費一致,但實際應用中通常不是一致的:
注:式中f(t,T)為t-1到t時間段的消費控制目標.
1)目標用戶選擇.其作用就是找到每個Cappaign的目標投放用戶集,通常采用3種算法:基于標簽的做法(與Ad Network差異不大);基于重定向的做法;基于Look-alike模弄的做法.
2)出價.可以實現實時競價過程,采用基于價值的出價算法.
3)調整出價.主要用于實時調整出價策略,采用預測和反饋控制的算法.
現在,全球進入信息世界的數字化時代,廣告成了全世界互聯網行業(yè)的大部分收入.不了解計算廣告,也不太容易真正理解大數據,因為大數據最早的應用在線廣告,也是獲得規(guī)?;癄I收的應用.面對日益增多大數據的廣告信息,對于技術從業(yè)研究者來說,應從行業(yè)的、宏觀的視角著手,進而掌握相應的思考方法和技術,根據相應不同的動態(tài),采用不同的相關算法,而不是糾結于"點擊率模型應該用什么比較好"這樣的問題.當前,國家政府部門已經確立人工智能領域發(fā)展的一個的重點方向,將會從認知和模擬自然世界,向認知和響應社會現象進發(fā).在傳統(tǒng)的語音識別、人臉識別這樣的人工智能應用中,對一個基本確定的、變化不快的數據空間進行建模;在計算廣告這樣的應用中,人們面對的是有千萬網民的反饋形成的、快速變化的數據空間.在此情況下,并沒有確定的ground truth,也無法通過均勻地對總體空間進行采樣構建魯棒的訓練集,并且更為嚴重的是,由于建模的是人的行為,而人的行為又極大程度地受到系統(tǒng)輸出的影響.
總之,計算廣告學的最終目的是在特定語境下特定用戶和相應的廣告之間找到"最佳匹配". 而"最佳匹配"面臨的挑戰(zhàn)可能導致在復雜約束條件下的大規(guī)模優(yōu)化和搜索問題.因此,計算廣告的相關算法就顯得尤其重要,利用大數據數據或者事實說話才是根本.所以說,不了解計算廣告,就不可能深入地了解互聯網,也不太容易真正理解大數據.技術從業(yè)者需要從行業(yè)、宏觀的角度認識這個領域,進而掌握相應的思考方法和技術,包括商業(yè)產品的思路和工作方法,信息檢索、機器學習、最優(yōu)化、博弈論等基礎數學工具,以及Hadoop、Spark和其他開源工具為核心的大數據基礎設施等.
[1]劉鵬,王超.計算廣告:互聯網商業(yè)變現的市場與技術[M].北京:人民郵電出版社,2015.
[2]朱志北,李斌等.基于LDA的互聯網廣告點擊率預測研究[J].計算機應用研究,2016(04).
[3]嚴嶺.展示廣告中點擊率預估問題研究[D].上海:上海交通大學,2015.
[4]劉慶振,趙磊.計算廣告學:智能媒體時代的廣告研究新思維[M].北京:人民日報出版社,2017.
吳忠斌(1969-),男,漢族,福建邵武人,福建農業(yè)職業(yè)技術學院講師,工程碩士(計算機科學方向),研究方向:計算機應用.