胡曉紅,王 紅,任衍具,周 瑩
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院,濟(jì)南 250358; 2.山東省分布式計(jì)算軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250014;3.山東師范大學(xué) 生命科學(xué)研究院,濟(jì)南 250358; 4.山東師范大學(xué) 心理學(xué)院,濟(jì)南 250358)(*通信作者電子郵箱wanghong106@163.com)
隨著信息技術(shù)的飛速發(fā)展,網(wǎng)頁因其信息量大、操作方便等優(yōu)點(diǎn)在人們?nèi)粘I钪姓紦?jù)了至關(guān)重要的位置,使人們的生活方式和企業(yè)營銷策略等發(fā)生了巨大變化。而互聯(lián)網(wǎng)廣告作為網(wǎng)頁的重要衍生產(chǎn)品也成為現(xiàn)代市場營銷的主要組成成分,因此,互聯(lián)網(wǎng)廣告效果研究對改進(jìn)網(wǎng)頁界面設(shè)計(jì)、提高“三方”利潤,以及增強(qiáng)用戶體驗(yàn)等方面具有重要指導(dǎo)意義。
但是,內(nèi)、外部的一些差異將會導(dǎo)致用戶對廣告、網(wǎng)頁內(nèi)容的接受程度、關(guān)注程度不一致,比如用戶認(rèn)知風(fēng)格這種自身內(nèi)部差異,以及廣告布局、相關(guān)性這些外部差異。而現(xiàn)在的網(wǎng)絡(luò)廣告研究工作都是基于無差異假設(shè)的,很少注意到這些因素對廣告效果造成的影響。
并且,雖然計(jì)算機(jī)視覺技術(shù)日益成熟,研究人員可以根據(jù)各種圖像特征對圖像進(jìn)行壓縮、識別、顯著性提取等方面的工作,但這些研究工作主要集中在自然圖像領(lǐng)域,網(wǎng)頁領(lǐng)域相關(guān)方面的研究很少。而網(wǎng)絡(luò)廣告處于網(wǎng)頁之中,網(wǎng)頁與自然圖像最大的不同在于,網(wǎng)頁包含的刺激物種類更多,且網(wǎng)頁信息是分段獲取的,廣告的形式、位置更是多種多樣,因此用傳統(tǒng)的自然圖像中的顯著性或注意力模型來處理網(wǎng)頁及網(wǎng)頁內(nèi)的廣告信息效果不好。
此外,衡量廣告質(zhì)量的指標(biāo)對提高廣告效益具有重要影響。普遍情況下,人們采用點(diǎn)擊率、轉(zhuǎn)換率等衡量指標(biāo),但像點(diǎn)擊率這種衡量指標(biāo)最大的缺點(diǎn)忽略了那些用戶可能注意到但沒有付出具體行為的廣告,而轉(zhuǎn)化率則將用戶對網(wǎng)頁的瀏覽和廣告的瀏覽混為一談。因此目前流行的衡量旗幟廣告?zhèn)鞑バЧ姆椒ㄇ吠?這驅(qū)使著我們找到一種新的指標(biāo),能夠真實(shí)反映用戶對網(wǎng)頁廣告的注意力程度。
因此可以看到這樣幾個(gè)事實(shí):信息時(shí)代,人們的日常生活消費(fèi)早已離不開網(wǎng)頁這一主要信息獲取方式;用戶對廣告和網(wǎng)頁內(nèi)容的了解方式與決策會因內(nèi)、外差異受到影響;廣告的衡量標(biāo)準(zhǔn)欠妥,對廣告的推廣與品牌延伸具有消極影響;大多數(shù)研究人員將計(jì)算機(jī)視覺的重點(diǎn)放在自然圖像上,而對網(wǎng)頁的研究很少;眼動技術(shù)發(fā)展迅速,獲取眼動信息變得容易,且眼動信息更加真實(shí)。
本文旨在根據(jù)以上事實(shí),通過“點(diǎn)、線、面”的思維方式進(jìn)行分析,主要工作在以下四個(gè)方面:
1)收集具有用戶認(rèn)知風(fēng)格與記憶力標(biāo)簽的大規(guī)模眼動行為數(shù)據(jù)集。
2)研究用戶在整個(gè)網(wǎng)頁上的注意力分布情況。對網(wǎng)頁進(jìn)行興趣區(qū)域劃分,針對廣告布局的結(jié)果分析驗(yàn)證了廣告的吸引力效應(yīng),并率先提出增強(qiáng)效應(yīng)和抑制效應(yīng);針對認(rèn)知風(fēng)格的結(jié)果分析得到認(rèn)知相同性與認(rèn)知差異性。
3)分析認(rèn)知風(fēng)格和廣告布局不同時(shí),最常見的行為模式。利用頻繁模式挖掘算法挖掘興趣區(qū)域點(diǎn)擊行為的關(guān)聯(lián)規(guī)則,并提出DFBP(Directional Frequent Browsing Patterns)算法定向挖掘用戶最常見的瀏覽模式。
4)提出將廣告記憶力作為衡量廣告質(zhì)量的新標(biāo)準(zhǔn)。本文通過多模態(tài)特征融合的方式,利用頻繁模式改進(jìn)Random Forest算法,構(gòu)建廣告記憶力模型,用于替代傳統(tǒng)的評估指標(biāo)預(yù)測廣告效果,更加科學(xué)、可信。
針對互聯(lián)網(wǎng)廣告的研究大多集中于在線廣告的精準(zhǔn)投放、競價(jià)系統(tǒng)與點(diǎn)擊率預(yù)估等方面[1-3],甚少涉及到廣告效果分析以及用戶注意力。研究學(xué)者主要采用數(shù)學(xué)模型或者實(shí)驗(yàn)評估的方法進(jìn)行論證。陳磊等[4]通過分析用戶對廣告的交互行為,總結(jié)與熱門查詢詞相關(guān)的廣告效果并排除用戶對廣告的排斥現(xiàn)象。王家卓等[5]對比廣告鏈接和非廣告鏈接的點(diǎn)擊率,驗(yàn)證Jansen針對搜索引擎結(jié)果頁(Search Engine Result Page, SERP)上贊助商鏈接和非贊助商鏈接相關(guān)性的7條假設(shè),并得出不同結(jié)論。
然而,對用戶自身差異如認(rèn)知風(fēng)格這種用戶特征對于廣告效果影響的相關(guān)研究甚少。不同的認(rèn)知風(fēng)格使得用戶在加工信息(包括接收、存儲、轉(zhuǎn)化、提取和使用)時(shí)習(xí)慣采用的方式不同。Wedel等[6]就曾指出個(gè)體認(rèn)知差異對產(chǎn)品回憶和品牌好感的影響,但該研究只使用傳統(tǒng)實(shí)驗(yàn)場景,而非專業(yè)設(shè)備記錄分析。因此,本文將引入場依存型(field dependence)和場獨(dú)立型(field independence)這兩個(gè)認(rèn)知風(fēng)格,用于區(qū)分用戶在信息加工過程中是否容易受環(huán)境信息的影響。通過認(rèn)知風(fēng)格對用戶分類,了解不同類型用戶的瀏覽模式和關(guān)注熱點(diǎn)區(qū)域,這不僅可以實(shí)現(xiàn)用戶和網(wǎng)頁間更好的互動效果,同時(shí)可以最大化利益,具有重要的研究意義和商業(yè)價(jià)值。
并且,雖然大多數(shù)研究都以點(diǎn)擊率、轉(zhuǎn)化率為金標(biāo)準(zhǔn),但這種標(biāo)準(zhǔn)只專注于用戶有意識的行為信息。消費(fèi)者經(jīng)常伴有無意識性的注意,這使得單純使用點(diǎn)擊率、轉(zhuǎn)換率等行為性的衡量標(biāo)準(zhǔn)變得不再有效,競價(jià)系統(tǒng)也不再科學(xué)。因此,通過對用戶生理自然反映來測量注意力的方式變得更有說服力[7]。因此研究人員通過顯著性模型或注意力模型預(yù)測人們在場景中關(guān)注的位置。這項(xiàng)工作不僅為設(shè)計(jì)人員提供了理論指導(dǎo),并提高了人機(jī)交互的體驗(yàn)。Itti等[8]于1998年里程碑式地率先提出利用生物的中央周邊濾波器結(jié)構(gòu),通過融合多通道顯著性的方法組合低級特征,檢測效果很好,但計(jì)算量大。隨后,基于各種不同框架的顯著性模型被提出。例如:Bruce等[9]結(jié)合信息論的知識提出AIM(Attention by Information Maximization)模型,張孝臨等[10]在Itti模型[8]的基礎(chǔ)上融合馬爾可夫鏈,以及基于貝葉斯模型[11]或者圖論[12]的顯著性模型檢測算法等。
但是分析可知,多數(shù)研究人員都將眼動數(shù)據(jù)作為基線,以接近人眼數(shù)據(jù)為理想結(jié)果。盡管研究工作進(jìn)展迅速,但是各項(xiàng)研究水平距離真實(shí)效果仍有不小的差距,而且研究工作集中在自然圖像方面,在網(wǎng)頁領(lǐng)域相關(guān)研究較少,相應(yīng)的表現(xiàn)似乎也并不優(yōu)秀。Shen等[13]在2014年Webpage Saliency中sAUC(square Area Under Curve)達(dá)到0.720 6,雖然后續(xù)不少研究對此進(jìn)行改進(jìn),效果卻并未有很大的提升。
而現(xiàn)階段眼動追蹤技術(shù)發(fā)展迅速,已經(jīng)擺脫繁重的機(jī)械設(shè)備,傳統(tǒng)的研究內(nèi)容也將從純理論中解放出來?,F(xiàn)在,可以直接通過眼動設(shè)備獲取用戶信息,預(yù)測用戶的行為模式,提高渲染力。Wedel等[14]通過實(shí)驗(yàn)表明廣告重復(fù)出現(xiàn)時(shí)掃描路徑基本不發(fā)生改變。而從第一次到第三次呈現(xiàn),注視時(shí)間幾乎以50%的速度遞減。Drèze等[15]研究知識經(jīng)驗(yàn)對個(gè)體注意力的影響,研究顯示,廣告注意方式會隨著個(gè)體經(jīng)驗(yàn)的不同而不同。Chen等[16-17]通過眼動數(shù)據(jù)和鼠標(biāo)數(shù)據(jù)相結(jié)合,預(yù)測用戶對搜索結(jié)果的滿意度。
因此,可以直接使用眼動儀獲取眼動數(shù)據(jù),研究用戶的注意力等隱式信息,探索用戶的簡單無標(biāo)記行為,深入了解用戶心理行為,真實(shí)地反映互聯(lián)網(wǎng)用戶的興趣區(qū)域及興趣度,提高廣告質(zhì)量,使研究信息更加完善,更加直觀了解不同類型受眾的瀏覽模式,這對廣告和品牌延伸效果具有重要的指導(dǎo)意義,并且能提高輸出質(zhì)量。
由于本文增加了對用戶認(rèn)知風(fēng)格的劃分,但現(xiàn)有的公開數(shù)據(jù)集僅有眼動數(shù)據(jù),所以我們進(jìn)行了較大規(guī)模的數(shù)據(jù)采集工作。
通過招募的方式隨機(jī)抽取本校各專業(yè)本科生63名(18~21歲,平均19.7歲)自愿參加實(shí)驗(yàn)。所有被試裸眼或矯正視力均在1.0以上,無色盲色弱等眼疾患者,符合實(shí)驗(yàn)要求。完成實(shí)驗(yàn)后,均可獲得少量報(bào)酬。
實(shí)驗(yàn)所采用的是德國普升科技有限公司研發(fā)的SMI RED眼動儀(Version2.4),其采樣頻率為120 Hz。記錄和分析過程使用其自帶的IViewX、Experiment Center和BeGaze,實(shí)驗(yàn)數(shù)據(jù)的處理和分析使用Matlab及IBM SPSS Statistics。
實(shí)驗(yàn)材料分為兩部分:一部分為認(rèn)知風(fēng)格劃分所需圖形材料,另一部分為網(wǎng)頁材料。
為了將被試按照不同風(fēng)格劃分開來,本文采取目前研究中采用較多的鑲嵌圖形測驗(yàn)(Embedded Figure Test, EFT)。
隨機(jī)選取了七種不同類型的物品,如奢侈品、門票、家用電器等,覆蓋范圍廣泛;模擬用戶日常生活中選擇的心態(tài),每種類型有兩種不同品牌;搜索引擎選擇百度,因?yàn)樗仁侨蜃畲蟮闹形乃阉饕?并且與大多數(shù)中文搜索引擎排版基本相同。為保證實(shí)驗(yàn)效果更加真實(shí),讓被試盡可能像往常一樣自由瀏覽,如點(diǎn)擊和滾動屏幕。為了較好地控制實(shí)驗(yàn)變量,保證被試看到的某一類型的SERP是一樣的,從搜索引擎中爬取所要網(wǎng)頁,作為實(shí)驗(yàn)網(wǎng)頁素材,并只保留所要研究位置的商業(yè)推廣。實(shí)驗(yàn)過程中,通過眼動儀記錄被試的眼動信息,通過網(wǎng)頁中嵌入的JavaScript代碼獲取用戶的鼠標(biāo)信息。采用2(認(rèn)知風(fēng)格)×14(搜索任務(wù))×3(廣告位置)的設(shè)計(jì)。
實(shí)驗(yàn)分成三部分:
1)認(rèn)知風(fēng)格劃分。測驗(yàn)要求被試者在較復(fù)雜的圖形中找到并描繪出隱藏在其中的一個(gè)指定的簡單圖形,該測驗(yàn)一共25道題目,題型由易到難程度遞增。
2)網(wǎng)頁瀏覽。實(shí)驗(yàn)開始前,先進(jìn)行標(biāo)準(zhǔn)校正,當(dāng)被試達(dá)標(biāo)則開始正式實(shí)驗(yàn)。用戶根據(jù)屏幕中的提示,了解接下來需要進(jìn)行的商品類型。如:屏幕提示產(chǎn)品類型是手機(jī),這意味著用戶將要以一位手機(jī)購買者的心態(tài)瀏覽某手機(jī)品牌的SERP。瀏覽過程與日常瀏覽網(wǎng)頁一樣。當(dāng)遇到感興趣的地方,用戶可以點(diǎn)擊該條目。為防止用戶疲勞,每位用戶最多隨機(jī)展示6個(gè)SERP,用戶可以根據(jù)自身狀態(tài)隨時(shí)停止實(shí)驗(yàn)進(jìn)程。
3)廣告記憶力劃分。每個(gè)網(wǎng)頁關(guān)閉后,進(jìn)行廣告再認(rèn)測試,以檢查被試對廣告的記憶情況。記憶程度分四個(gè)等級:“A:肯定看到”“B:似乎已經(jīng)看到”“C:似乎沒有看到”和“D:肯定沒有看到”。
本次實(shí)驗(yàn)共采集到323條數(shù)據(jù),其中因?yàn)楸辉嚥灰?guī)范操作丟失4條,共計(jì)319條。根據(jù)研究目的,主要統(tǒng)計(jì)了認(rèn)知風(fēng)格、問卷統(tǒng)計(jì)和廣告位置三個(gè)變量的分布情況,具體如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)匯總表
表2~3展示了用戶注意力在SERP上的大致分布情況。按照搜索引擎的普通設(shè)定,網(wǎng)頁內(nèi)含有10個(gè)結(jié)果鏈接(即10個(gè)條目)、廣告以及右側(cè)相關(guān)推薦。由于僅有部分用戶投入少量注意力在右側(cè)相關(guān)推薦區(qū)域內(nèi),因此右側(cè)相關(guān)推薦區(qū)域不再細(xì)分。所以每個(gè)SERP將被劃分成12個(gè)興趣區(qū)域(Area of Interest, AOI),分別為1~10、AD和R,其中:數(shù)字1~10分別表示10個(gè)條目所在興趣區(qū)域;AD表示廣告所在興趣區(qū)域;R表示右側(cè)相關(guān)推薦所在興趣區(qū)域。此處設(shè)定的指標(biāo)為用戶在該興趣區(qū)域的注視時(shí)效(用戶在該區(qū)域的總注視時(shí)間與用戶瀏覽整個(gè)網(wǎng)頁時(shí)間的比值),通過它可以間接觀察用戶的注意力情況。其中,C0和C1分別表示認(rèn)知風(fēng)格為場依賴型與場獨(dú)立型,L1、L2和L3分別表示廣告位于主體上方、下方和右側(cè)。詳情見圖1。
圖1 興趣區(qū)域分割圖
表2為不同興趣區(qū)域用戶的注視時(shí)效分布情況。C0和C1表示僅按照認(rèn)知風(fēng)格分類用戶注意力的原始結(jié)果,并將此作為對比基線。雖然右側(cè)是多部分組合而成,不方便分辨,但也可以看出一些較明顯判斷的結(jié)論,如:用戶在1~10號位10個(gè)條目上的注意力是按其自上而下的排列順序依次減少;廣告部分相對吸引力較強(qiáng);用戶注意力改變情況和整體布局相關(guān)等。
(1)
其中:FT指注視時(shí)效;u為注視時(shí)效改變量差的均值。
3.2.1 吸引力效應(yīng)
觀察表2中廣告興趣區(qū)(AD)的注視時(shí)效。通過該列中每個(gè)列元素與該元素對應(yīng)行的其他興趣區(qū)域的注視時(shí)效對比,可以明顯看出,在基線和L1、L2位置時(shí),用戶在廣告區(qū)域注視時(shí)間普遍要比1~10號位注視時(shí)間長,注意力更多,且右側(cè)相關(guān)推薦也呈現(xiàn)大比重現(xiàn)象。這說明,L1、L2位置的廣告對用戶有較強(qiáng)的吸引力。L3位置由于處于非主體區(qū)域(10個(gè)條目右側(cè)),得到用戶的關(guān)注度偏少。用戶對廣告具有一定的抵觸心理,部分用戶在瀏覽過程中甚至直接忽略該部分內(nèi)容,因此此處吸引力較弱。
比較相同布局下不同認(rèn)知風(fēng)格對廣告的注意力,可以看出,場獨(dú)立型認(rèn)知風(fēng)格對廣告的注視時(shí)間更多。
3.2.2 增強(qiáng)效應(yīng)與抑制效應(yīng)
當(dāng)廣告出現(xiàn)在10個(gè)條目上方,即L1位置時(shí),此時(shí)1~10號興趣區(qū)域內(nèi)的注意力與基線相比明顯減少。也就是說,廣告位于L1位置,抑制用戶在1~10號位興趣區(qū)域內(nèi)的注意力投入。但廣告和右側(cè)相關(guān)推薦呈現(xiàn)出注意力增強(qiáng)的效果。反觀當(dāng)廣告位于L2、L3位置時(shí),10個(gè)條目上的注意力分布呈現(xiàn)出增強(qiáng)效應(yīng),而廣告與右側(cè)相關(guān)推薦則表現(xiàn)出抑制效應(yīng)。這說明廣告位置不同對用戶的注意力分布具有一定影響的。
不難思考其現(xiàn)實(shí)意義。當(dāng)廣告位于L1位置,即10個(gè)條目上方時(shí),由于廣告對用戶具有吸引力效應(yīng),且廣告首先被用戶觀察到,因此用戶很容易將更多的注意力放在廣告上。而一般廣告具有較豐富圖片和文字信息,觀看過廣告后對產(chǎn)品已有大致了解,因此,接下來部分注意力將相應(yīng)減少。而當(dāng)廣告位于L2位置,即10個(gè)條目下方時(shí),用戶需要通過條目的閱讀來了解產(chǎn)品,當(dāng)瀏覽過程到L2時(shí),用戶對產(chǎn)品已然熟悉,所以對廣告的注意力將大幅度減少。而L3位置,因?yàn)檫@部分的廣告在本身就不主體區(qū)域,加上用戶對廣告的抵制心理,自然注意力放在主要搜索結(jié)果上的更多一些,廣告上的注意力也呈現(xiàn)減少現(xiàn)象,但并不是很明顯。
為了進(jìn)一步了解認(rèn)知風(fēng)格對注意力的影響,本文采取最小顯著性差異(Least-Significant Difference, LSD)法檢驗(yàn),目的是對每種情況下注視時(shí)效的均值逐對進(jìn)行比較,以判斷具體哪些水平間存在顯著差異。具體內(nèi)容見表3。
3.3.1 認(rèn)知相同性
從表3可看出:廣告興趣區(qū)域所對應(yīng)的整列均表現(xiàn)出在p<0.01的條件下,用戶注視時(shí)效差異顯著。也就是說無論是哪種認(rèn)知風(fēng)格,廣告位置不同,都會對用戶在廣告區(qū)域的注意力造成顯著改變。因此可以得出結(jié)論:廣告位置不同時(shí),兩種認(rèn)知風(fēng)格對廣告的注意力分布影響均表現(xiàn)出顯著差異。
表2 不同興趣區(qū)域注視時(shí)效匯總 %
表3 注視時(shí)效的多重均值檢驗(yàn)結(jié)果 %
注:“*”表示0.01
3.3.2 認(rèn)知差異性
采用LSD檢驗(yàn)判斷具體是哪些水平間存在顯著差異。統(tǒng)計(jì)不區(qū)分認(rèn)知風(fēng)格時(shí),不同位置之間均值差MD(I-J)顯著的共有13處,其中按照認(rèn)知風(fēng)格劃分后,場依賴型均值差顯著的共有7處,場獨(dú)立型共有11處。可以認(rèn)為,場獨(dú)立型認(rèn)知用戶受廣告位置改變而產(chǎn)生的注意力改變更為顯著,由此可以看出,認(rèn)知風(fēng)格不同對用戶注意力的分布具有顯著的影響;并且通過兩兩對比發(fā)現(xiàn),L1處布局與其他兩處布局,注意力分布差異較大;廣告放置于L2、L3位置時(shí),注意力分布差距較小。
通過表2~3的統(tǒng)計(jì)匯總,可以看出廣告位置不同和認(rèn)知風(fēng)格不同對用戶注意力造成的影響是不同的。廣告具有圖片、文字甚至視頻等多種刺激物,且言簡意賅,因此廣告對于用戶具有一定的吸引力效應(yīng)。但有趣的是,當(dāng)廣告位于主體右側(cè)時(shí),吸引力效應(yīng)較弱,這和人們對于廣告的抵觸心理和日常習(xí)慣相關(guān)。右側(cè)廣告過于突出,且用戶一般專注于自己所要了解的內(nèi)容,因此注意較少。
而廣告位置的不同,使得用戶對整個(gè)結(jié)果頁的注意力的分布情況有明顯改變,表現(xiàn)為廣告位于L1位置時(shí)的增強(qiáng)效應(yīng)和L2、L3位置時(shí)的抑制效應(yīng)。當(dāng)廣告位于上方,用戶注意力明顯被廣告集中,導(dǎo)致用戶對主體的注意力明顯減少。而當(dāng)廣告位置換到主體下方時(shí),用戶對主體內(nèi)容的注意力程度明顯上升。
針對用戶種類的不同進(jìn)一步進(jìn)行劃分后還發(fā)現(xiàn),即使認(rèn)知風(fēng)格不同,廣告位置的改變都對用戶注意力產(chǎn)生顯著影響,將此定義為認(rèn)知相同性。而通過LSD檢驗(yàn),發(fā)現(xiàn)場獨(dú)立型認(rèn)知用戶對廣告位置改變更為敏感,這種變化使得他們對整個(gè)瀏覽結(jié)果的注意力分布都與基線產(chǎn)生較大差異。結(jié)合3.2.1節(jié)中所提到的吸引力效應(yīng),不難看出,當(dāng)廣告位于主體上方時(shí),廣告對用戶的吸引力過大,用戶可以通過廣告其豐富的刺激物對所搜索內(nèi)容進(jìn)行了解,下方主體內(nèi)容的注意力相對減少。
通過采集鼠標(biāo)行為信息可以得到眾多特征,其中大部分特征都與眼動信息中的特征具有強(qiáng)相關(guān)性;且但相對于鼠標(biāo)信息,眼動信息更科學(xué)、真實(shí)、即時(shí),所以這里只選取具有較強(qiáng)代表性的點(diǎn)擊特征。
點(diǎn)擊行為相對于其他信息,具有更強(qiáng)的決策性,相對應(yīng)地,用戶的注意力度也更大。因此,用戶的點(diǎn)擊行為是一個(gè)很好的細(xì)粒度反饋,這對了解不同用戶在不同布局下的決策行為具有重要作用。
圖2 不同認(rèn)知下點(diǎn)擊行為的關(guān)聯(lián)規(guī)則
圖3 不同布局下點(diǎn)擊行為的關(guān)聯(lián)規(guī)則
圖2和圖3分別表示Apriori算法下計(jì)算出的搜索引擎結(jié)果頁上各個(gè)興趣區(qū)域的點(diǎn)擊行為與不同認(rèn)知風(fēng)格、廣告位置的關(guān)聯(lián)規(guī)則(minSup=0.03,minConf=0.4)。為了方便展示,本文將關(guān)聯(lián)規(guī)則中項(xiàng)目之間的連接可視化為一個(gè)有向圖。首先,需要生成規(guī)則前因和后項(xiàng)的鄰接矩陣,該矩陣為稀疏矩陣,矩陣?yán)锏脑刂禐榍耙蚝秃箜?xiàng)間的關(guān)聯(lián)度。然后,使關(guān)聯(lián)規(guī)則中的前因作為有向圖的前驅(qū),關(guān)聯(lián)規(guī)則中的后項(xiàng)作為有向圖中相應(yīng)前因的后件。以圖2中虛線連接線為例,表示{7}{2}→{Independence},{7}→{Independence},{7}{2}→{Dependence}都是滿足閾值的關(guān)聯(lián)規(guī)則。
分析圖2,場獨(dú)立型認(rèn)知風(fēng)格點(diǎn)擊行為的頻繁項(xiàng)集中項(xiàng)的維度要明顯大于場依賴型認(rèn)知風(fēng)格。這說明場獨(dú)立型用戶在瀏覽網(wǎng)頁時(shí),主觀能動性較強(qiáng),不拘泥于一定范圍,整體意識性強(qiáng);場依賴型用戶在此過程中有相對固定的瀏覽區(qū)域,模式也相對固定。
從圖3可以看出:廣告位于L1和L3位置時(shí)頻繁項(xiàng)集中項(xiàng)的維度要明顯大于廣告位于L2;L1處的布局格式影響到的項(xiàng)最多,對廣告的影響力也較大;L2處的布局格式影響到的項(xiàng)最少,但對廣告的影響力較大。這與第3章中的結(jié)論相呼應(yīng)。
盡管通過前面的研究已經(jīng)足夠了解不同認(rèn)知風(fēng)格的用戶在不同布局下的注意力分布情況,但這些信息是無時(shí)序性的,屬于結(jié)果型信息。時(shí)序信息對了解用戶行為進(jìn)程具有重要意義,研究與設(shè)計(jì)人員可以通過用戶的時(shí)序型信息,預(yù)測用戶的關(guān)注點(diǎn)并作出相應(yīng)的決策,提升個(gè)性化效果。本文按照用戶注視點(diǎn)進(jìn)入興趣區(qū)域的時(shí)間進(jìn)行排序并分析。
針對研究的問題,即想要了解的是用戶在不同布局下,瀏覽模式的不同。眾所周知的是用戶的大體瀏覽模式為自上而下,且上部有兩種廣告布局,相互影響較大。因此瀏覽的初始階段對于研究用戶的普遍行為模式是非常重要的。本文提出一種新穎的、定向定長的,適用于當(dāng)前數(shù)據(jù)與研究需求的頻繁瀏覽模式算法——DFBP。
算法1 DFBP算法。
輸出 頻繁瀏覽模式Q及其得分F。
為所有數(shù)據(jù)添加三個(gè)屬性:被采納長度l=(l1,l2,…,lp)以及與之相對應(yīng)的支持度S=(s1,s2,…,sp),初始化l1=0,s1=0;
Fori=1 totDo
Forj=1 tolen(Gt) Do
計(jì)算序列首元素的支持度sj,若sj
剩余序列按照首元素值進(jìn)行分類,創(chuàng)建相應(yīng)的隊(duì)列G1,G2,…,Gt,將序列按類別進(jìn)入不同隊(duì)列;
刪除每個(gè)序列首元素;
更新序列的l和s屬性,其中l(wèi)j+1=lj+1,sj+1=s;
End For
End For
Fori=1 toNDo
maxFi=0
Forj=1 topDo
Fj=lj*sj
IFFj>maxFi
maxFi=Fj;
End For
IFli為l前8項(xiàng)之一
則該序列非頻繁序列;
ELSE
輸出頻繁瀏覽模式Qi及其得分maxFi;
End For
表4為三種布局下用戶最常見的五種瀏覽模式。觀察L1布局下的瀏覽序列,發(fā)現(xiàn)用戶瀏覽初期如果檢測到廣告時(shí),將優(yōu)先檢測廣告,然后按序?yàn)g覽;如果用戶初期未檢測廣告,將按順序?yàn)g覽條目。L2布局時(shí)廣告位于下方,用戶自然按順序?yàn)g覽。L3布局時(shí)廣告位于右側(cè),用戶通常按照習(xí)慣先觀察條目,但通常右側(cè)廣告圖片大、顏色鮮艷,刺激力度大,所以在1、2號條目后,用戶注意力將被右側(cè)廣告吸引。觀察三種不同布局可以看出,不同布局下用戶瀏覽模式大致是呈現(xiàn)自上而下型;并且還可以發(fā)現(xiàn),很多時(shí)候用戶首先注視到的區(qū)域?yàn)?號位條目,之后反溯到1號位。結(jié)合實(shí)際,這種情況應(yīng)該是由于用戶在使用電腦進(jìn)行搜索、瀏覽時(shí),打開新網(wǎng)頁會有一定的時(shí)間間隔,而這段間隔會使用戶視線重置到屏幕中間區(qū)域,加之用戶通過日常積累了解到結(jié)果主要在頁面左側(cè)排列,因此用戶首先注視2號位的條目,了解后用戶將重新按序閱讀過程。
表4 頻繁的瀏覽模式
點(diǎn)擊率是網(wǎng)絡(luò)廣告最基本的評價(jià)指標(biāo),但是隨著網(wǎng)絡(luò)廣告的增多,以及人們對網(wǎng)絡(luò)廣告了解的深入,網(wǎng)民不會盲目點(diǎn)擊廣告, 除非個(gè)別富有創(chuàng)意和吸引力的廣告,也有可能網(wǎng)民瀏覽廣告后已經(jīng)形成一定的印象而無須點(diǎn)擊廣告或者保存鏈接的網(wǎng)址,甚至以后經(jīng)常直接到該網(wǎng)站訪問等。因此,平均不到1%的點(diǎn)擊率已經(jīng)不能充分反映網(wǎng)絡(luò)廣告的真正效果。據(jù)現(xiàn)在的統(tǒng)計(jì)數(shù)字顯示:網(wǎng)絡(luò)廣告平均點(diǎn)擊率已從30%降低到0.5%以下。
所以對于品牌廣告來說,廣告的成功不僅取決于是否點(diǎn)擊或者閱讀廣告后是否購買該商品,而更多地應(yīng)該表現(xiàn)為用戶是否注意到并記住該商品,形成品牌效應(yīng),創(chuàng)造獨(dú)特良好的品牌或產(chǎn)品形象,提升較長時(shí)期內(nèi)的離線轉(zhuǎn)化率。因此,用戶在瀏覽結(jié)束后對廣告的記憶力度應(yīng)當(dāng)是衡量廣告效果的一項(xiàng)重要標(biāo)準(zhǔn)。這樣研究用戶對廣告的記憶力度便具有了極其重要的意義。
本次實(shí)驗(yàn)共收集到四種類型的信息:鼠標(biāo)行為信息作為顯式信息,眼動信息作為隱式信息,廣告自身信息(如,尺寸、位置),以及用戶信息(如:認(rèn)知風(fēng)格、廣告記憶力)。除記憶力劃分信息將作為類標(biāo)簽,其余信息均可作為模型特征。
經(jīng)過分析發(fā)現(xiàn),鼠標(biāo)信息中絕大多數(shù)信息與眼動信息具有正相關(guān)性。相比而言,眼動信息更真實(shí),但點(diǎn)擊率是網(wǎng)絡(luò)廣告最基本的評價(jià)指標(biāo),也是反映網(wǎng)絡(luò)廣告最直接、最有說服力的量化指標(biāo),所以這里拋棄除點(diǎn)擊數(shù)據(jù)外的其他鼠標(biāo)特征。
表5為本次實(shí)驗(yàn)初期提取出的會對用戶觀測度造成影響的29個(gè)特征。
表5 記憶力模型特征
為了消除因用戶個(gè)人閱讀風(fēng)格,網(wǎng)頁類型不同帶來的差異,將對部分特征進(jìn)行歸一化。例如將眼睛在廣告區(qū)域內(nèi)的注視時(shí)間修改為:
(2)
其中:結(jié)束時(shí)間為用戶瀏覽完一個(gè)網(wǎng)頁所需要的時(shí)間。
為了使眼動特征能夠更容易處理、使用,并能夠顯示出重要的特征,去除噪聲,本文使用主成分分析(Principal Component Analysis, PCA)算法提取眼動特征中最具有代表性的主成分因子。眼動特征分為兩個(gè)集合,為了能夠更好地區(qū)分不同集合的效應(yīng),將兩個(gè)集合分開降維。
降維前對數(shù)據(jù)進(jìn)行適應(yīng)性分析,這里選擇KMO(Kaiser Meyer Olkin)檢驗(yàn),檢驗(yàn)結(jié)果均大于0.6,表示實(shí)驗(yàn)數(shù)據(jù)適用PCA降維。
圖4~5為SERP和廣告體的眼動特征經(jīng)PCA降維后的結(jié)果,這里指定特征值大于1,圖中實(shí)心點(diǎn)的即為滿足條件的綜合特征。可以看出SERP眼動特征集經(jīng)過PCA降維后提取出4個(gè)主因子,而廣告體SERP眼動特征集經(jīng)過降維后提取出3個(gè)主因子,累計(jì)貢獻(xiàn)分別為95.4%和85.6%。
圖4 SERP內(nèi)眼動特征PCA碎石圖
為了驗(yàn)證降維工作的有效性,對比降維和不降維條件下的預(yù)測結(jié)果。本文降維后特征因子的選取條件是特征值大于1,對應(yīng)表格中降維(4+3)的模式(兩個(gè)特征子集分別提取了4個(gè)和3個(gè)主因子)。同時(shí)為了證明這種選取方法的有效性,尤其是在廣告體眼動特征集中提取出的主因子差別不夠明顯的情況下,進(jìn)一步計(jì)算了不同數(shù)量主因子的預(yù)測結(jié)果對比,這里僅以降維(4+4)為例。表6給出降維、不降維以及降維選擇不同數(shù)量主因子條件下預(yù)測結(jié)果的對比情況。
平均絕對誤差(Mean Absolute Error, MAE)是絕對誤差的平均值,平均絕對誤差能更好地反映預(yù)測值誤差的實(shí)際情況。均方誤差(Mean Squared Error,MSE)是指參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值,它可以評價(jià)數(shù)據(jù)的變化程度。MAE和MSE的值越小,說明預(yù)測模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好的穩(wěn)定性。
圖5 廣告體內(nèi)眼動特征PCA碎石圖
方法準(zhǔn)確率準(zhǔn)確率MAE召回率召回率MAE原始0.9260450.0297940.8944930.057832降維(4+3)0.9196140.0284640.8980950.007448降維(4+4)0.9067520.0280510.9058850.040134
可以看出,雖然原始方法的準(zhǔn)確性最高,但與本文的降維方法相比差距很小,不足1個(gè)百分點(diǎn)。而且使用降維方法后,不僅召回率有所提升,結(jié)果的穩(wěn)定性也有可觀的提升,召回率的MAE值更是明顯下降了5個(gè)百分點(diǎn)。對比不同數(shù)量主因子條件下的預(yù)測結(jié)果,降維(4+4)的準(zhǔn)確率表現(xiàn)不好,與前兩者差距均超過1個(gè)百分點(diǎn),降維(4+4)的召回率相比本文采用的降維(4+3)提升僅0.8個(gè)百分點(diǎn),但召回率MAE值卻高出3.3個(gè)百分點(diǎn)。因此,綜合考慮,本文使用PCA的特征降維方法,以及主成分因子的選取方式不僅有較高的準(zhǔn)確率又有較強(qiáng)的穩(wěn)定性和良好的說服性。
本文對訓(xùn)練數(shù)據(jù)使用了一系列先進(jìn)的方法,包括支持向量機(jī)(Support Vector Machine, SVM)、多層神經(jīng)網(wǎng)絡(luò)(Multi-layer Perceptron, MLP)、分類回歸樹(Classification and Regression Tree, CRT)等。由于Random Forest既相對穩(wěn)定又能夠降低過擬合程度,有很好的預(yù)測記憶力度,因此最終決定使用Random Forest。此外,針對4.2節(jié)中得到的頻繁序列,由于這種序列模式為大多數(shù)用戶所遵循,那么這種序列所對應(yīng)的數(shù)據(jù)也將是大多數(shù)人所遵循的,因此這里對原始算法進(jìn)行改進(jìn)。
本文將用戶對于廣告的記憶力分為四個(gè)等級,程度遞減。為方便表達(dá),對四個(gè)記憶力等級進(jìn)行量化:
影響量化等級的特征即為自變量,表示為:X=(x1,x2,…,xn)。
算法2 記憶力模型。
輸入D={(x1,y1)(x2,y2)…(xm,ym)},numTrees,depth,Rate。
輸出Y。
1) DFBP(D,S,L)
2)B=Divide(D,Q)
//篩選出數(shù)據(jù)集D中包含頻繁瀏覽模式的數(shù)據(jù)
3) RandomForest rfA=new RandomForest()
rfA.buildForest(A,numTrees,Rate,depth)
For allxiinADo
End For
4) RandomForest rfB=new RandomForest();
rfB.buildForest(B,numTrees,Rate,depth);
For allxiinBDo
End For
5)Y=[]
6) For allXiinADo
If(Xi∈Q)
End For
7) ReturnY
當(dāng)本文所需求的數(shù)據(jù)信息不可通過網(wǎng)絡(luò)獲取,并且沒有相關(guān)廣告記憶力的模型可以對比時(shí),各項(xiàng)指標(biāo)最好的度量對比就是多種算法的算數(shù)平均值,因此本文將此作為基線。圖6展示了實(shí)驗(yàn)時(shí)采取的各種分類方法中較為經(jīng)典的幾種分類方法下預(yù)測記憶力度的準(zhǔn)確性對比,圖中虛線表示平均值綜合圖6和表7可以看出:首先,使用Random Forest預(yù)測記憶力度準(zhǔn)確性最好,并且穩(wěn)定性很好,用它描述實(shí)驗(yàn)數(shù)據(jù)精度高。因?yàn)镽andom Forest是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,對于一個(gè)輸入樣本,N棵樹會有N個(gè)分類結(jié)果,而隨機(jī)森林集成了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。其次,無論使用哪種分類方法,通過本文提出的改進(jìn)策略之后預(yù)測準(zhǔn)確率都要比原始結(jié)果好,尤其是對于原始結(jié)果低于平均值的情況時(shí),改進(jìn)后準(zhǔn)確率上升程度更大,更明顯。
圖6 不同方法下準(zhǔn)確率對比
方法召回率的MAE召回率的MSEC5.0Bayesian NetworkSVMMLPRandom Forest原始0.0223109930.002650413改進(jìn)0.0254883030.004070724原始0.0576310010.017586608改進(jìn)0.0979307210.054570005原始0.0215368350.002083815改進(jìn)0.0216781790.002597258原始0.0541083080.015281281改進(jìn)0.0576310010.018577781原始0.0294641180.003561261改進(jìn)0.0284640000.004837989
本文旨在根據(jù)不同認(rèn)知、不同布局會使用戶對廣告和網(wǎng)頁內(nèi)容的信息處理與決策受到影響,廣告的衡量標(biāo)準(zhǔn)欠妥等實(shí)際問題進(jìn)行解決。
通過研究用戶在整個(gè)網(wǎng)頁上的注意力分布情況,了解用戶注意力分布是如何受到用戶的認(rèn)知風(fēng)格這種自身特征及廣告布局這種外界因素影響而變化的。不僅驗(yàn)證了廣告的吸引力效應(yīng),并率先提出增強(qiáng)效應(yīng)和抑制效應(yīng)以及認(rèn)知相同性與認(rèn)知差異性;除此結(jié)果型信息外,探究用戶行為的時(shí)序信息,利用頻繁模式算法挖掘認(rèn)知風(fēng)格和廣告布局不同時(shí),興趣區(qū)域點(diǎn)擊行為的關(guān)聯(lián)規(guī)則,并提出DFBP算法定向挖掘用戶最常見的瀏覽模式。最后,首次提出衡量廣告質(zhì)量的一項(xiàng)新指標(biāo)——廣告記憶力,通過多模態(tài)征融合的方式,利用頻繁模式改進(jìn)Random Forest算法來構(gòu)建廣告記憶力模型,預(yù)測用戶對廣告的記憶力度。這種標(biāo)準(zhǔn)彌補(bǔ)了點(diǎn)擊率中忽略掉的注意力,也彌補(bǔ)了轉(zhuǎn)換率中網(wǎng)頁內(nèi)容和廣告難以區(qū)分的缺點(diǎn)。
綜合分析,本文對于改進(jìn)SERP界面設(shè)計(jì)、提高互聯(lián)網(wǎng)廣告的質(zhì)量、優(yōu)化廣告分配效果、增加用戶的興趣度、獲得更好的交感體驗(yàn)具有重要指導(dǎo)意義。
參考文獻(xiàn)(References)
[1] ANIMESH A, RAMACHANDRAN V, VISWANATHAN S. An empirical investigation of the performance of online sponsored search markets[C]// ICEC 2007: Proceedings of the Ninth International Conference on Electronic Commerce. New York: ACM, 2007: 153-160.
[2] SHAN L, LIN L, SUN C, et al. Predicting ad click-through rates via feature-based fully coupled interaction tensor factorization[J]. Electronic Commerce Research & Applications, 2016, 16(C): 30-42.
[3] RIBEIRO-NETO B, CRISTO M, GOLGHER P B, et al. Impedance coupling in content-targeted advertising[C]// SIGIR 2005: Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 496-503.
[4] 陳磊, 劉奕群, 茹立云, 等. 基于用戶日志挖掘的搜索引擎廣告效果分析[J]. 中文信息學(xué)報(bào), 2008, 22(6): 92-97.(CHEN L, LIU Y Q, RU L Y, et al. Effectiveness of online sponsored search based on user log analysis[J]. Journal of Chinese Information Processing, 2008, 22(6): 92-97.)
[5] 王家卓, 劉奕群, 馬少平, 等. 基于用戶行為的競價(jià)廣告效果分析[J]. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(1): 133-138.(WANG J Z, LIU Y Q, MA S P, et al. Sponsored search performance analysis based on user behavior information[J]. Journal of Computer Research and Development, 2011, 48(1): 133-138.)
[6] WEDEL M, PIETERS R. Eye fixations on advertisements and memory for brands: a model and findings[J]. Marketing Science, 2000, 19(4):297-312.
[7] KERFOOT W C, KELLOGG D, STRICKLER R J R, et al. Visual Observations of Live Zooplankters: Evasion, Escape, and Chemical Defenses[M]. Lebanon, New Hampshire, USA: University Press of New England, 1980.
[8] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[9] BRUCE N D, TSOTSOS J K. Saliency, attention, and visual search: an information theoretic approach[J]. Journal of Vision, 2009, 9(3): 5.1.
[10] 張孝臨, 趙宏偉, 王慧, 等. 基于對比敏感度和馬爾可夫鏈的注意信息提取算法[J]. 電子學(xué)報(bào), 2010, 38(增刊1): 213-217.(ZHANG X L, ZHAO H W, WANG H, et al. Extracting attention information algorithm based on contrast sensitivity and Markov chain[J]. Acta Electronica Sinica, 2010, 38(S1): 213-217.)
[11] ZHANG L, TONG MH, MARKS T K, et al. SUN: a Bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008, 8(7): 32-32.
[12] HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]// NIPS 2006: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 545-552.
[13] SHEN C, ZHAO Q. Webpage saliency[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 33-46.
[14] WEDEL M, PIETERS R. Eye fixations on advertisements and memory for brands: a model and findings[J]. Marketing Science, 2000, 19(4): 297-312.
[16] CHEN Y, LIU Y, ZHOU K, et al. Does vertical bring more satisfaction? Predicting search satisfaction in a heterogeneous environment[C]// CIKM 2015: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1581-1590.
[17] LIU Y, CHEN Y, TANG J, et al. Different users, different opinions: predicting search satisfaction with mouse movement information[C]// SIGIR 2015: Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2015: 493-502.
This work is partially supported by the National Natural Science Foundation of China (61672329), the Shandong Provincial Science and Technology Program (2014GGX101026), the Shandong Province Education Science Planning Program (ZK1437B010), the Graduate Scientific Research Innovation Fund of Shandong Normal University (SCX201747).