喬 慧,郭肖旺,張昕偉(內(nèi)蒙古化工職業(yè)學(xué)院,內(nèi)蒙古 呼和浩特 010070)
隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,移動廣告市場取得了巨大飛躍,在美國排名前50位的廣告主中,有80%的廣告主計劃在未來12~18個月的時間內(nèi)增加其在移動廣告領(lǐng)域的支出預(yù)算。因此如何建立起一個擁有更高用戶參與度和更多流量的移動在線平臺成為當(dāng)前面臨亟待解決的問題。
目前,智能手機(jī)、平板電腦等移動設(shè)備應(yīng)用廣泛,移動智能終端設(shè)備的使用量迅速上升。但是,很多移動廣告的推送和表現(xiàn)形式生硬呆板,嚴(yán)重影響了用戶的體驗,阻礙了廣告投放的效益。隨著技術(shù)的發(fā)展,出現(xiàn)了更加豐富多樣的展現(xiàn)形式,伴隨著終端應(yīng)用的社交化、多媒體化,廣告主更加重視移動應(yīng)用平臺的廣告投放。移動終端的反饋速度、互動社交、隨時隨地和精準(zhǔn)的特點都是其他媒體無法比擬的,移動應(yīng)用平臺廣告提供了個性化、多樣化的營銷廣告模式。
本文著重研究基于位置和內(nèi)容定向的廣告投放技術(shù),提出了一種新的基于內(nèi)容定向和位置信息的廣告投放模型[1],主要包括:(1)針對用戶移動終端所在地理位置,判別與此地理位置相關(guān)的廣告;(2)對于同一個廣告,提供與此相關(guān)的多個地理位置,由此可為每個應(yīng)用頁面和廣告都分配一個地理范圍,提高地理信息匹配的準(zhǔn)確性;(3)根據(jù)移動用戶應(yīng)用軟件使用習(xí)慣和內(nèi)容,研究基于內(nèi)容定向的精準(zhǔn)投放算法,可以有效提高匹配準(zhǔn)確性。本文對上述方法進(jìn)行研究,并設(shè)計出高效精準(zhǔn)的移動應(yīng)用平臺廣告投放系統(tǒng),能有效提高廣告投放功能。
廣告投放的目的是根據(jù)廣告主的需求對用戶進(jìn)行廣告推送,定向廣告是廣告投放應(yīng)用的一項關(guān)鍵技術(shù)。定向廣告投放包括內(nèi)容定向和行為定向,其目的就是將特定的廣告投放給特定的人群。移動應(yīng)用廣告投放是指根據(jù)用戶使用移動應(yīng)用的習(xí)慣,確定廣告的受眾對象,對用戶進(jìn)行群體劃分,并根據(jù)用戶群體特點進(jìn)行高效精準(zhǔn)的廣告投放。
本文結(jié)合內(nèi)容定向和地理位置構(gòu)建高效精準(zhǔn)的移動應(yīng)用平臺廣告投放系統(tǒng)。
貝葉斯理論的含義是通過已知事件信息預(yù)測未知事件的發(fā)生概率[2]。將貝葉斯理論運(yùn)用到廣告投放的過濾算法中,假設(shè)某些字詞經(jīng)常出現(xiàn)在用戶使用的應(yīng)用軟件中,這些文字作為已知文字,當(dāng)廣告中含有這些字詞時,用戶對此廣告感興趣的概率就較高。
(1)已知文字信息的貝葉斯數(shù)據(jù)創(chuàng)建
首先收集用戶經(jīng)常在移動應(yīng)用平臺瀏覽和使用的數(shù)據(jù)(非隱私數(shù)據(jù)),通過貝葉斯算法提取這些數(shù)據(jù)中的關(guān)鍵字樣本,樣本字符串包括文字或符號標(biāo)志(如IP地址,域名等)。收集關(guān)鍵字和符號,建立已知文字信息樣本數(shù)據(jù)庫。
(2)貝葉斯概率數(shù)據(jù)庫創(chuàng)建
根據(jù)用戶瀏覽信息,對每個已知文字符號在用戶最近瀏覽和使用的應(yīng)用軟件中出現(xiàn)的概率進(jìn)行統(tǒng)計,并由貝葉斯公式計算出在廣告文字中出現(xiàn)某些文字符號的概率,得出該廣告為用戶感興趣廣告的概率。例如:在1 000個采集樣本中“裙子”出現(xiàn)了80次,而在其他不經(jīng)常訪問的頁面中這個詞出現(xiàn)了5次,則其對應(yīng)的感興趣的概率為 0.888 9(備注:[80/1 000]/[5/1 000+80/1 000])。
(3)創(chuàng)建個性化的貝葉斯庫
由于不同用戶的偏好是不同的,例如,年輕的女性用戶經(jīng)常訪問購物應(yīng)用,關(guān)注社交應(yīng)用的購物和時尚主題等,則“衣服”等關(guān)鍵詞出現(xiàn)的幾率很高,但是男性則多訪問新聞、游戲等應(yīng)用。如果不區(qū)分用戶群,使用統(tǒng)一的關(guān)鍵詞過濾,就會產(chǎn)生很多誤判,影響廣告投放的效率。因此,在貝葉斯算法過濾的基礎(chǔ)上,建立貝葉斯已知文字信息數(shù)據(jù)庫的同時,按照用戶群體進(jìn)行貝葉斯庫的統(tǒng)計和創(chuàng)建。這樣感興趣廣告的識別率將更高,同時也使得誤判率變得很低。
貝葉斯過濾算法[3]的主要思想是在已知的大量用戶信息中,包含一些特征串(token),這些特征串可以簡單地理解為一個完整的單詞,但實際上它不僅僅限于單詞,它們出現(xiàn)在用戶瀏覽信息中的頻率特別高,而在一些其他應(yīng)用中,另一些特征串出現(xiàn)的頻率也很高。一般而言,對于同一個特征串出現(xiàn)在不同用戶群體中的概率是不同的。因此,對于出現(xiàn)的每一個特征串,都會生成一個用戶群體感興趣指示性概率。這樣就可以判斷文本消息的整體“用戶感興趣概率”。
貝葉斯方法過濾廣告的基本原理為:
(1)收集大量的不同用戶群體的信息,建立用戶感興趣的廣告集合和用戶不感興趣的廣告集合。
(2)提取用戶信息中的關(guān)鍵字和獨立文字作為令牌串,并統(tǒng)計其出現(xiàn)次數(shù)(字頻)。
(3)對每個集合設(shè)立一個哈希表,哈希表中存儲令牌串與字頻之間的映射關(guān)系。感興趣集合的哈希表為hashtable_yes,不感興趣的集合對應(yīng)哈希表hashtable_no。
(4)令牌串概率P=(令牌串的字頻)/(令牌串所在哈希表的長度),由此統(tǒng)計出每個哈希表中令牌串的出現(xiàn)比率。
(5)綜合考慮感興趣集合和不感興趣集合的哈希表,當(dāng)用戶訪問一個應(yīng)用時,推斷用戶感興趣廣告的集合,并判斷某個廣告為用戶感興趣廣告的概率。數(shù)學(xué)表達(dá)式為:
A事件為用戶感興趣廣告;t1,t2,…,tn為令牌串,則P(A/ti)表示在廣告中出現(xiàn)令牌串ti時,該廣告為用戶所感興趣廣告的概率。
設(shè)P1(ti)=(ti在hashtable_yes中的值)
P2(ti)=(ti在 hashtable_no 中的值),則:
(6)通過設(shè)立新的哈希表 hashtable_probability來存儲TOKEN令牌串ti到P(A/ti)之間的映射關(guān)系。
(7)根據(jù)建立哈希表來預(yù)測用戶對該新廣告感興趣的概率。
當(dāng)新生成一個廣告時,通過步驟(2)生成令牌串來查詢哈希表以得到其鍵值。
假設(shè)該廣告生成了N個令牌串:t1,t2,…,tn,哈希表中對應(yīng)的取值為 P1,P2,…,Pn,P(A/t1,t2,…,tn)表示多個令牌串t1,t2,…,tn同時出現(xiàn)在該廣告中的概率。則用戶對該廣告感興趣的概率公式如下:
當(dāng)P(A/t1,t2,…,tn)超過預(yù)定閾值時,就可以判斷該廣告為感興趣的廣告。
基于地理位置信息的廣告投放算法,結(jié)合內(nèi)容定向,通過獲取用戶所在的地理位置,計算廣告與地理位置的相似度,通過獲取用戶所瀏覽信息中的地理位置,并通過文本處理來計算用戶移動應(yīng)用內(nèi)容與廣告的內(nèi)容相似度。最后,結(jié)合地理相似度和廣告相似度來計算用戶應(yīng)用信息與廣告之間的最終相似度,并根據(jù)排序挑選出最匹配的應(yīng)用信息與廣告[4]。
算法處理步驟如下:
(1)根據(jù)用戶移動終端所獲得的地理位置,確定移動應(yīng)用與地理位置的相關(guān)度。
(2)分別對移動應(yīng)用(移動瀏覽器網(wǎng)頁)等文本和廣告文本做如下處理:
①通過貝葉斯技術(shù)選取用戶移動應(yīng)用內(nèi)容的特征,確定用戶瀏覽關(guān)注的應(yīng)用信息關(guān)鍵詞;
②對關(guān)鍵詞做語義擴(kuò)展,包括同義詞與近義詞;
③估算關(guān)鍵詞的特征權(quán)重;
④抽取用戶所在地理位置,擴(kuò)展地理位置特征,分配地理范圍;
⑤根據(jù)地理位置特征,調(diào)整地理位置與用戶瀏覽內(nèi)容主題的相關(guān)度。
(3)根據(jù)用戶的地理位置和廣告的地理范圍,計算地理相似度。
(4)計算用戶所瀏覽內(nèi)容與廣告內(nèi)容的相似度。
(5)將內(nèi)容相似度和地理相似度線性組合,計算廣告與用戶關(guān)注信息的最終相似度。
(1)功能性需求分析
①投放計劃模塊:該模塊主要用于實時接收廣告投放計劃,并根據(jù)投放計劃的變更情況,動態(tài)地對服務(wù)器中的廣告訂單項目進(jìn)行增、刪、改、暫停和啟用,從而完成對廣告投放的控制。
②廣告投放模塊:主要用于接收來自不同移動應(yīng)用終端的廣告請求,并對這些請求參數(shù)進(jìn)行分析,根據(jù)貝葉斯理論查找用戶感興趣的廣告并發(fā)送給移動終端,同時能夠處理大量的終端請求。
③投放分析模塊:該模塊主要用于接收來自終端的廣告投放報告,并將廣告投放的詳細(xì)數(shù)據(jù)信息存入日志庫中。
④管理員可以將廣告投放服務(wù)器注冊到指定的管理中心及日志服務(wù)器上,從而使管理中心取得對該廣告投放服務(wù)器的投放控制權(quán),日志服務(wù)器可以從該廣告投放服務(wù)器中獲取對應(yīng)的投放詳細(xì)報告和日志。
⑤投放配置模塊:為了實現(xiàn)熱切換,廣告投放模塊需要能夠動態(tài)獲取相關(guān)配置文件。
(2)穩(wěn)定性需求分析
①投放模塊不能下發(fā)可能會導(dǎo)致移動應(yīng)用終端異常的信息。
②數(shù)據(jù)同步過程中,要能夠正常處理客戶端的廣告請求,并保證平滑地完成數(shù)據(jù)同步。
③當(dāng)廣告投放模塊出現(xiàn)問題時,需要能夠馬上完成下線工作,并通過Email或短信通知管理人員。
④異常自動修補(bǔ):通過收集相關(guān)地域定向信息,實現(xiàn)對請求異常的自動修補(bǔ)。
(3)可擴(kuò)展性需求
①當(dāng)業(yè)務(wù)流程出現(xiàn)變化時,系統(tǒng)應(yīng)能通過簡便方法實現(xiàn)業(yè)務(wù)節(jié)點的增刪。
②投放配置模塊應(yīng)能靈活地實現(xiàn)對不同客戶渠道的流程配置。
在移動應(yīng)用平臺廣告投放系統(tǒng)中,視圖層包括輸入和輸出兩方面信息:(1)輸入:用戶瀏覽移動應(yīng)用和移動終端網(wǎng)頁的信息;(2)輸出:即系統(tǒng)通過搜集用戶瀏覽的內(nèi)容進(jìn)行數(shù)據(jù)挖掘,確定與用戶興趣點最相關(guān)的精準(zhǔn)廣告投放,并通過視圖層進(jìn)行展示。
控制層是系統(tǒng)的核心,完成用戶瀏覽數(shù)據(jù)搜集,以及用戶特征模型的建立/更新、用戶的分類及廣告投放等功能。
底層模型層提供數(shù)據(jù)保存服務(wù),主要包括用戶數(shù)據(jù)表,廣告表及信息表等庫表和視圖數(shù)據(jù)。系統(tǒng)架構(gòu)設(shè)計如圖1所示。
圖1 廣告投放系統(tǒng)架構(gòu)
系統(tǒng)首先通過搜集移動客戶端用戶的瀏覽信息,并采用貝葉斯技術(shù)對用戶瀏覽的內(nèi)容進(jìn)行分類,之后將用戶特征信息保存到用戶檔案中。此時根據(jù)用戶所屬群體,判斷用戶的IP和其他信息,創(chuàng)建用戶檔案[5]。
根據(jù)用戶特征,對用戶和廣告進(jìn)行相似性分析,得到位置相似度和內(nèi)容相似度,計算用戶信息與廣告的總體相似得分,最后選擇最匹配的廣告進(jìn)行投放。系統(tǒng)處理流程如圖2所示。
圖2 系統(tǒng)處理流程
本文針對移動應(yīng)用廣告投放技術(shù)進(jìn)行研究,著重研究了基于位置和內(nèi)容定向的移動互聯(lián)網(wǎng)廣告投放技術(shù),構(gòu)建出高效精準(zhǔn)的移動應(yīng)用平臺廣告投放系統(tǒng)。從而為移動廣告主帶來更加豐厚的廣告效益,從而產(chǎn)生更大的經(jīng)濟(jì)價值。
[1]OGILVY D.Confessions of an advertising man[M].New York:South bank Publishing,2004.
[2]戴浩.圖像存儲與傳輸系統(tǒng)在 iPad上的設(shè)計與實現(xiàn)[J].微型機(jī)與應(yīng)用,2013,32(19):25-27.
[3]王利民.貝葉斯學(xué)習(xí)理論中若干問題的研究[D].吉林:吉林大學(xué),2005.
[4]黃秀蓮.我國手機(jī)廣告發(fā)展現(xiàn)狀及前景預(yù)測研究[D].廈門:廈門大學(xué),2008.
[5]郭泉成,劉鈺,劉紅,等.基于WAMP的遠(yuǎn)程醫(yī)療咨詢系統(tǒng)的設(shè)計與實現(xiàn)[J].微型機(jī)與應(yīng)用,2013,32(19):13-16.