亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web挖掘在網(wǎng)絡(luò)廣告點(diǎn)擊欺詐檢測(cè)中的應(yīng)用

        2012-07-25 06:49:30李愛春滕少華
        關(guān)鍵詞:網(wǎng)絡(luò)廣告離群欺詐

        李愛春,滕少華

        (廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州510006)

        0 引 言

        互聯(lián)網(wǎng)經(jīng)濟(jì)的蓬勃發(fā)展也使網(wǎng)絡(luò)廣告市場(chǎng)一直保持著高度增長(zhǎng)的態(tài)勢(shì),網(wǎng)絡(luò)廣告已經(jīng)成為一種新的市場(chǎng)推廣手段。點(diǎn)擊欺詐 (click fraud)[1]存在于網(wǎng)絡(luò)廣告的按點(diǎn)擊付費(fèi)模式中,它的產(chǎn)生和泛濫極大地危害了互聯(lián)網(wǎng)廣告業(yè)的健康發(fā)展,所以對(duì)檢測(cè)網(wǎng)絡(luò)廣告中的點(diǎn)擊欺詐行為的研究意義重大。

        在國(guó)內(nèi)外,Web挖掘應(yīng)用在點(diǎn)擊欺詐的開放性研究較少,國(guó)內(nèi)文獻(xiàn)中從技術(shù)上檢測(cè)廣告欺詐行為的介紹極少,文獻(xiàn) [2]給出一種基于圖形驗(yàn)證碼的預(yù)防點(diǎn)擊欺詐策略,該策略能屏蔽類似于木馬點(diǎn)擊器多次重復(fù)點(diǎn)擊的欺詐行為,但是人工輸入驗(yàn)證碼勢(shì)必會(huì)影響廣告效果,而且這種方法不能杜絕人為的點(diǎn)擊欺詐。其它的一些研究涉及廣告定制、個(gè)性化廣告等Web內(nèi)容挖掘。對(duì)于Web使用上的挖掘主要還局限于學(xué)習(xí)和探索階段,而企業(yè)內(nèi)部的研究一般處于保密狀態(tài)。文獻(xiàn) [3]對(duì) Web用戶行為的點(diǎn)擊流挖掘進(jìn)行了系統(tǒng)的介紹,同時(shí)提出了具體的應(yīng)用模型。文獻(xiàn) [4]提出進(jìn)行計(jì)費(fèi)模式創(chuàng)新和引入第三方來檢測(cè)點(diǎn)擊欺詐,但按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式,讓網(wǎng)絡(luò)廣告經(jīng)營(yíng)者短時(shí)間內(nèi)放棄按點(diǎn)擊付費(fèi)模式,并向第三方開放點(diǎn)擊流數(shù)據(jù)顯然是不現(xiàn)實(shí)的。

        Mehmed Kantardzic[5]等人開發(fā)一個(gè) CCFDP 系統(tǒng)來實(shí)時(shí)檢測(cè)點(diǎn)擊欺詐。但點(diǎn)擊欺詐的檢測(cè)需要考慮時(shí)效性,如果放在實(shí)時(shí)的點(diǎn)擊流中去檢測(cè),勢(shì)必會(huì)影響廣告的展示速度和效果。本文提出一種新的解決辦法,處理步驟分兩步,第一步在廣告展示并點(diǎn)擊之后,根據(jù)用戶評(píng)估參考分和本次點(diǎn)擊的數(shù)據(jù)做出相應(yīng)的操作,然后再初步評(píng)估該點(diǎn)擊,并給予初步評(píng)估分 (0-1之間,越靠近1表示越有可能是點(diǎn)擊欺詐),然后回饋到用戶初步評(píng)估參考分;第二步在服務(wù)器空閑時(shí)對(duì)初步評(píng)估分和用戶評(píng)估參考分進(jìn)行校對(duì),本次評(píng)估會(huì)把歷史點(diǎn)擊流放進(jìn)來進(jìn)行二次分析和預(yù)測(cè)。試驗(yàn)結(jié)果表明,基于這些Web挖掘算法的點(diǎn)擊欺詐檢測(cè)模型是有效可行的。

        圖1 網(wǎng)絡(luò)廣告三角色關(guān)系及流程

        1 相關(guān)工作

        1.1 相關(guān)知識(shí)介紹

        市場(chǎng)營(yíng)銷人員通過在線廣告宣傳自己的產(chǎn)品時(shí),也要為這些網(wǎng)絡(luò)廣告支付相應(yīng)的廣告費(fèi)用。這些廣告分為按點(diǎn)擊付費(fèi)(cost per click,CPC)、按展示付費(fèi) (cost per ThousandImpression,CPM)、按銷售付費(fèi) (cost per sales,CPS)等,其中按點(diǎn)擊付費(fèi)廣告是目前互聯(lián)網(wǎng)界最簡(jiǎn)單易行且最為流行的廣告計(jì)費(fèi)方式[2]。它以每次網(wǎng)頁(yè)上的廣告被點(diǎn)擊并連接到相關(guān)網(wǎng)站或者詳細(xì)內(nèi)容頁(yè)面為基準(zhǔn)的網(wǎng)絡(luò)廣告收費(fèi)模式[1]。點(diǎn)擊欺詐主要存在于按點(diǎn)擊付費(fèi) (CPC)模式中。

        點(diǎn)擊欺詐是指以某種金錢或者商業(yè)目的為出發(fā)點(diǎn),對(duì)網(wǎng)絡(luò)廣告進(jìn)行惡意點(diǎn)擊并達(dá)到消耗廣告費(fèi)用和抬高成本的目的的行為。簡(jiǎn)單來說,當(dāng)網(wǎng)絡(luò)出版商點(diǎn)擊其網(wǎng)站上的廣告提高他們的收入,或企業(yè)點(diǎn)擊競(jìng)爭(zhēng)對(duì)手的廣告來蠶食對(duì)方的廣告預(yù)算時(shí),就構(gòu)成了點(diǎn)擊欺詐。網(wǎng)絡(luò)廣告收入是當(dāng)今世界各國(guó)基于互聯(lián)網(wǎng)企業(yè)的主要收入來源,點(diǎn)擊欺詐損害了虛擬世界的誠(chéng)信基石及互聯(lián)網(wǎng)發(fā)展的經(jīng)濟(jì)基石。

        網(wǎng)絡(luò)廣告投放模式有關(guān)鍵字廣告、主題廣告等,兩者沒太大區(qū)別,關(guān)鍵字廣告顯示在搜索引擎上,它根據(jù)用戶搜索內(nèi)容顯示相應(yīng)的廣告,由于是直接投放在自己的搜索引擎上,更易分析點(diǎn)擊前的行為,這給判斷點(diǎn)擊欺詐帶來很大的便利;主題廣告顯示在普通的Web頁(yè)面上,這對(duì)檢測(cè)點(diǎn)擊欺詐增加了難度。本文研究的模型側(cè)重于后者。

        Web挖掘[6]是從 Web頁(yè)面和 Web用戶訪問活動(dòng)中發(fā)現(xiàn)、抽取有用的模式和隱藏的信息,是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來的一門新興學(xué)科。Web挖掘按照處理對(duì)象不同一般可分為三大類[7]:Web內(nèi)容挖掘 (web content mining)、Web結(jié)構(gòu)挖掘 (web construct mining)和Web使用挖掘 (web usage mining)。本文對(duì)點(diǎn)擊流主要進(jìn)行Web使用挖掘。

        1.2 網(wǎng)絡(luò)廣告流程

        主題廣告中的網(wǎng)站廣告聯(lián)盟、網(wǎng)站主、廣告主是分開的。圖1給出了三者及檢測(cè)點(diǎn)擊欺詐模塊的關(guān)系及流程圖。

        1.3 點(diǎn)擊欺詐動(dòng)機(jī)

        點(diǎn)擊欺詐動(dòng)機(jī)具有多樣性:

        (1)網(wǎng)站主通過各種方式點(diǎn)擊自己網(wǎng)站上的廣告來獲得廣告?zhèn)蚪稹?/p>

        (2)廣告主的競(jìng)爭(zhēng)者通過消耗完對(duì)手的廣告預(yù)算來提升自己的廣告排名。

        (3)廣告聯(lián)盟為了獲得每次點(diǎn)擊的廣告?zhèn)蚪稹?/p>

        其中 (1),(2)最為常見,方式也具有多樣性,他們通過人為或者特制的軟件程序惡意點(diǎn)擊,更有甚者組織一群人互點(diǎn)彼此的廣告。

        2 檢測(cè)體系

        2.1 體系概述

        將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用到檢測(cè)體系中,圖2給出了該體系的檢測(cè)過程。

        圖2 檢測(cè)體系流程

        2.2 模塊介紹

        從圖2可以看出,本文提出的檢測(cè)體系分為5個(gè)模塊:數(shù)據(jù)采集,初步評(píng)估,評(píng)估修正,數(shù)據(jù)倉(cāng)庫(kù)和信息反饋:

        (1)數(shù)據(jù)采集:我們的數(shù)據(jù)集是通過嵌入在網(wǎng)絡(luò)廣告中的JavaScript腳本來收集的,然后存到關(guān)系數(shù)據(jù)庫(kù)中。總屬性共41個(gè),其中比較重要的屬性如表1所示。

        表1 點(diǎn)擊流數(shù)據(jù)集的關(guān)鍵屬性

        (2)初步評(píng)估:網(wǎng)頁(yè)瀏覽者點(diǎn)擊廣告后必須很快做出響應(yīng),所以在服務(wù)器端的請(qǐng)求時(shí)間不能過長(zhǎng),這就要求廣告的響應(yīng)不能在點(diǎn)擊流初步評(píng)估之后再執(zhí)行。本文采用一種獨(dú)特的方式來解決這一問題:我們做出響應(yīng)是根據(jù)之前的用戶評(píng)估參考分來判斷的。用戶評(píng)估參考分受之前的每次點(diǎn)擊流初步評(píng)估和評(píng)估校對(duì)影響。這樣就解決了廣告響應(yīng)速度的限制,使得廣告響應(yīng)和本次點(diǎn)擊流初步評(píng)估同步進(jìn)行。對(duì)于數(shù)據(jù)預(yù)處理,當(dāng)前的研究已有不少的解決辦法[8-9]。

        (3)評(píng)估修正:修正過程可按天、周、月或者在給網(wǎng)站主結(jié)算前進(jìn)行,由于有一定量的點(diǎn)擊數(shù)據(jù),Web挖掘才更有意義,該挖掘過程包括兩種數(shù)據(jù)集:已修正數(shù)據(jù)集(歷史數(shù)據(jù)集)、未修正數(shù)據(jù)集。

        (4)數(shù)據(jù)倉(cāng)庫(kù):主要存放著歷史數(shù)據(jù)集。在對(duì)點(diǎn)擊流進(jìn)行評(píng)估修正后根據(jù)相關(guān)策略存放到該數(shù)據(jù)倉(cāng)庫(kù)中,以備后期的數(shù)據(jù)挖掘操作。

        (5)信息反饋:當(dāng)作完評(píng)估修正后,修正結(jié)果會(huì)及時(shí)的反饋到廣告聯(lián)盟、廣告主、網(wǎng)站主那里。比如對(duì)于網(wǎng)站主存在嚴(yán)重點(diǎn)擊欺詐行為的,修正結(jié)果將會(huì)封鎖網(wǎng)站主賬號(hào),并告知廣告聯(lián)盟,同時(shí)根據(jù)數(shù)據(jù)向廣告主返回相應(yīng)的廣告費(fèi)用。

        3 檢 測(cè)

        3.1 點(diǎn)擊流初步評(píng)估

        一個(gè)點(diǎn)擊流的初步評(píng)估影響因子很多。每個(gè)影響因子都有自己的權(quán)值wi(0≤wi≤1)和屬性分值ri(0≤ri≤1),最終加權(quán)成一個(gè)總的評(píng)估分S

        關(guān)鍵評(píng)估因子介紹如下:

        無效值分析:根據(jù)常識(shí)Click_X(屬性意義見表1,下同)<1、Click_Y<1、Click_X>2000、Click_Y>2000、Viewtime<1等為無效點(diǎn)擊 (有點(diǎn)擊欺詐的可能性)。

        點(diǎn)擊率:點(diǎn)擊率是點(diǎn)擊次數(shù)與總瀏覽次數(shù)的比值。一般來說,如果不是惡意點(diǎn)擊,無意點(diǎn)擊造成的點(diǎn)擊率不會(huì)太高。

        點(diǎn)擊坐標(biāo)分析:點(diǎn)擊坐標(biāo)的分布一般都有一個(gè)熱圖區(qū)域,這跟視覺學(xué)有關(guān)系,如果一個(gè)站內(nèi)有很多點(diǎn)擊偏離這個(gè)點(diǎn)擊熱圖就有可能存在點(diǎn)擊欺詐。

        顯示分辨率分析:其中包括它的寬度Screen_w、高度Screen_h(yuǎn)和色度Screen_s范圍,比如一個(gè)站經(jīng)常出現(xiàn)16位色度的屬性就有必要懷疑了。

        點(diǎn)擊覆蓋率/獨(dú)立IP分布[1]:?jiǎn)蝹€(gè)IP的點(diǎn)擊覆蓋率(點(diǎn)擊/瀏覽)分布超過了3倍的系統(tǒng)誤差范圍內(nèi)則有作弊嫌疑。

        屬性組相似性分析:如果一段時(shí)間內(nèi),referer,siteurl,ip段,Click_X,Click_y等屬性值高度相似,則有點(diǎn)擊欺詐的可能。

        點(diǎn)擊覆蓋率/IP/時(shí)間分析[1]:根據(jù)時(shí)間序列對(duì)點(diǎn)擊率進(jìn)行分析,如果在某一段時(shí)間上有明顯的峰值,那么這將意味著有潛在的點(diǎn)擊欺詐的可能。

        時(shí)間差分析/頁(yè)面打開時(shí)間[1]:網(wǎng)頁(yè)下載的時(shí)間和廣告點(diǎn)擊時(shí)間應(yīng)該是一個(gè)平緩的分布情況即泊松分布 (Possion distribution),而每次點(diǎn)擊之間的時(shí)間差應(yīng)該是一個(gè)泊松分布。

        IP和timezone對(duì)應(yīng)關(guān)系:大量IP和時(shí)區(qū)不一致的點(diǎn)擊就有使用代理等方式點(diǎn)擊的嫌疑。

        針對(duì)http agent的分析[1]:通過 Http agent的時(shí)間序列進(jìn)行分析,當(dāng)峰值超過3方差時(shí)就有很大的嫌疑。

        針對(duì)http referral的分析:通過http referral的時(shí)間序列進(jìn)行分析。

        3.2 點(diǎn)擊流評(píng)估分修正

        評(píng)估分修正主要是對(duì)點(diǎn)擊流再次檢測(cè),并根據(jù)檢測(cè)結(jié)果修正初步評(píng)估分。

        3.2.1 基于密度的局部離群點(diǎn)檢測(cè)

        此過程主要是離群點(diǎn)檢測(cè),這些離群點(diǎn)存在很大可能的欺詐性,要具體分析。根據(jù)我們對(duì)點(diǎn)擊流數(shù)據(jù)集綜合分析,各點(diǎn)擊流屬性值有局部聚合的現(xiàn)象,所以我們采用“基于密度的局部離群點(diǎn)檢測(cè)[10]”方法來進(jìn)行離群點(diǎn)挖掘。

        離群點(diǎn)檢測(cè)是為了消除噪聲或發(fā)現(xiàn)潛在的、有意義的知識(shí)[11]。局部離群點(diǎn)[12]的檢測(cè)需要解決局部鄰域的確定和對(duì)象與鄰域的比較計(jì)算這兩個(gè)子問題。圖3所示為簡(jiǎn)單的數(shù)據(jù)集和,該集和有兩個(gè)明顯的簇,即C1.C2,另外兩個(gè)對(duì)象o1,o2明顯是離群噪聲點(diǎn)。然而如果通過一般的基于距離的離群點(diǎn)檢測(cè),僅能發(fā)現(xiàn)o1是合理的離群噪聲點(diǎn)。如果將o2判為離群點(diǎn),那么C1中所有點(diǎn)都會(huì)同樣被認(rèn)為是離群點(diǎn)[13]。

        圖3 包含兩個(gè)離群噪聲點(diǎn)的數(shù)據(jù)集合[10]

        這樣就引出了局部離群點(diǎn)的概念。如果一個(gè)對(duì)象相對(duì)于它的局部鄰域,特別是相對(duì)于鄰域密度,它是遠(yuǎn)離的,那么該對(duì)象是局部離群點(diǎn)。顯然,局部離群點(diǎn)是指在數(shù)據(jù)集中與其鄰域表現(xiàn)不一致或大大地偏離其鄰域的數(shù)據(jù)點(diǎn)。

        點(diǎn)擊流數(shù)據(jù)集中的任一對(duì)象p的k距離 (k-distance)是p到它的最近鄰的最大距離,記作k-distance(p)。對(duì)象p的k距離鄰域 (k-distance neighborhood)記作 Nk-distance(p)(p)。它包含所有距離不大于p的k距離的對(duì)象[11]。

        對(duì)象p關(guān)于對(duì)象o(其中o在p的k最近鄰中)的可達(dá)距離[11]定義為

        p的局部可達(dá)密度 (lrdk(p))是基于p的k最近鄰點(diǎn)的平均可達(dá)密度的倒數(shù)[11]。其數(shù)學(xué)表達(dá)式為

        p的局部離群點(diǎn)因子 (LOF)表征了我們稱p為離群點(diǎn)的程度[11]。其數(shù)學(xué)表達(dá)式為

        3.2.2 多元線性回歸分析

        此過程主要是通過歷史數(shù)據(jù)集對(duì)未修正的數(shù)據(jù)集進(jìn)行預(yù)測(cè)分析,并通過對(duì)比初步評(píng)估分進(jìn)行修正用戶的評(píng)估參考分。對(duì)Web用戶行為的預(yù)測(cè)可以使用馬爾可夫模型結(jié)合有向圖來提高其預(yù)測(cè)準(zhǔn)確度[14]。也可以運(yùn)用基于差別矩陣的粗糙集提取Web日志中的關(guān)聯(lián)規(guī)則,并將生成的關(guān)聯(lián)規(guī)則集用于用戶行為的預(yù)測(cè)[15]。由于評(píng)估分的影響因子不止一個(gè),通過分析和必要的實(shí)驗(yàn),我們最終選擇多元線性回歸分析[16]進(jìn)行預(yù)測(cè)。

        當(dāng)影響因變量Y的自變量X不止1個(gè)時(shí),Y和X間的線性回歸方程為

        式中:α,β1…βm——回歸系數(shù);ε——隨機(jī)誤差。通常假定ε遵從正態(tài)分布:ε~N(0,σ2)。

        設(shè) {(Yi,Yi1,…,Xim),i=1,…,m}為觀測(cè)值,回歸分析的首要任務(wù)是利用他們來估計(jì)α,β1…βm和σ,它們的最小二乘估計(jì)記作α,b1,…,bm和σ,求估計(jì)值b1,…,bm需要解下面的線性方程組

        求得b1,…,bm后,計(jì)算:a=珚Y-b1珚X1-…-bmXm,由計(jì)算得出的α,b1,…,bm和σ就可以建立回歸方程了[11]。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集選取

        為了更好地檢測(cè)點(diǎn)擊欺詐,該腳本在收集點(diǎn)擊流數(shù)據(jù)時(shí)不進(jìn)行任何處理,直接傳送到服務(wù)器。服務(wù)器端根據(jù)原始數(shù)據(jù)進(jìn)行初步評(píng)估。

        截至到2010年7月25收集點(diǎn)擊流數(shù)據(jù)共計(jì)242 298條,這些數(shù)據(jù)全部作為訓(xùn)練數(shù)據(jù)。為了更突出實(shí)驗(yàn)的可靠性,我們測(cè)試數(shù)據(jù)集是通過自己模擬點(diǎn)擊欺詐者通過人為和計(jì)算機(jī)程序兩種方式來驗(yàn)證。

        4.2 實(shí)驗(yàn)結(jié)果

        在人為方式上,我們模擬點(diǎn)擊欺詐者分時(shí)段,換IP地址,隨機(jī)訪問網(wǎng)站內(nèi)容并點(diǎn)擊廣告。在計(jì)算機(jī)自動(dòng)程序上我們使用網(wǎng)上比較流行的廣告點(diǎn)擊軟件來測(cè)試。

        4.2.1 點(diǎn)擊流初步評(píng)估

        在人為方式上,我們模擬點(diǎn)擊頻率f(分鐘)為:10、20、40、80、160。檢測(cè)時(shí)間t(分鐘)為:120、240、480、960。我們實(shí)驗(yàn)的規(guī)則是:在每個(gè)f隨機(jī)時(shí)間內(nèi)瀏覽網(wǎng)頁(yè)并隨機(jī)點(diǎn)擊廣告;在t時(shí)間時(shí)記錄各個(gè)模擬點(diǎn)擊頻率的評(píng)估分s。

        我們首先模擬的是個(gè)人點(diǎn)擊欺詐行為,此過程IP、上網(wǎng)地點(diǎn)等環(huán)境變動(dòng)不大。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 模擬個(gè)人點(diǎn)擊欺詐行為評(píng)估結(jié)果

        從表2可以看出點(diǎn)擊欺詐者點(diǎn)擊的越頻繁,評(píng)估分s增的就越快,點(diǎn)擊頻率f為160是看似效果不太理想,其實(shí)是因?yàn)閒較大,在t的時(shí)間內(nèi)收集到的點(diǎn)擊流數(shù)據(jù)較少,如果實(shí)驗(yàn)結(jié)果按照收集點(diǎn)擊次數(shù)來統(tǒng)計(jì)就能看到它的檢測(cè)效果是不差的。

        接下來我們模擬的是IP、上網(wǎng)地點(diǎn)等環(huán)境都是變化的,這樣的檢測(cè)更具有代表性,比如通過代理、組群互點(diǎn)等方式來進(jìn)行點(diǎn)擊欺詐。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 模擬更具代表性的點(diǎn)擊欺詐評(píng)估結(jié)果

        從表3可以看出,檢測(cè)結(jié)果還是非常樂觀的,在檢測(cè)8個(gè)小時(shí)后5組里就有3組評(píng)估分超過了0.5,后面的由于收集的點(diǎn)擊流數(shù)據(jù)少評(píng)估分還不夠明顯。

        在計(jì)算機(jī)自動(dòng)程式上,我們通過比較市場(chǎng)上存在的作弊程序,選了個(gè)比較流行的點(diǎn)擊欺詐軟件來進(jìn)行實(shí)驗(yàn)。由于此類作弊軟件易于操作,一般設(shè)置好參數(shù)就行了。我們對(duì)實(shí)驗(yàn)參數(shù)調(diào)整如下:每隨機(jī)瀏覽網(wǎng)頁(yè)1000次點(diǎn)擊廣告的最大次數(shù)n為:5、20、50、100、200。檢測(cè)時(shí)間T (小時(shí))為:8、16、24、48。

        我們的檢測(cè)結(jié)果如表4所示。

        表4 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐評(píng)估結(jié)果

        從表4可以看出點(diǎn)擊率越高,效果越明顯,主要是因?yàn)槭占降狞c(diǎn)擊次數(shù)較多,點(diǎn)擊數(shù)據(jù)更有規(guī)律。4.2.2 點(diǎn)擊流評(píng)估校對(duì)

        在人為方式上,對(duì)模擬個(gè)人點(diǎn)擊欺詐行為的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表5所示。

        表5 模擬個(gè)人點(diǎn)擊欺詐校對(duì)結(jié)果

        對(duì)第二種人為模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表6所示。

        表6 模擬更具代表性的點(diǎn)擊欺詐校對(duì)結(jié)果

        對(duì)計(jì)算機(jī)自動(dòng)程式模擬方式的評(píng)估校對(duì)實(shí)驗(yàn)結(jié)果如表7所示。

        表7 計(jì)算機(jī)自動(dòng)程式點(diǎn)擊欺詐校對(duì)結(jié)果

        從表5~表7可以看出,檢測(cè)結(jié)果更好地參考了歷史數(shù)據(jù)集,經(jīng)過對(duì)初步評(píng)估的校對(duì),使評(píng)估分更接近于真實(shí)。當(dāng)然本實(shí)驗(yàn)也有不如意的地方,比如沒有正常點(diǎn)擊數(shù)據(jù)流的參與、實(shí)驗(yàn)周期短等因素不能使結(jié)果更具有說服力。

        5 結(jié)束語(yǔ)

        本文介紹了點(diǎn)擊欺詐和Web挖掘相關(guān)的知識(shí),分析了國(guó)內(nèi)外解決的辦法和局限,在此基礎(chǔ)上提出了一種基于Web挖掘的檢測(cè)點(diǎn)擊欺詐的方法,能在不影響廣告時(shí)效性的基礎(chǔ)上,提升檢測(cè)點(diǎn)擊欺詐行為的效果,同時(shí)通過Web挖掘相關(guān)算法的運(yùn)用使檢測(cè)結(jié)果更為準(zhǔn)確。

        本文介紹的方法不足之處是通過腳本來收集點(diǎn)擊流信息,對(duì)于那些不支持該腳本的瀏覽器,或者用戶故意禁用該腳本則導(dǎo)致廣告無法顯示,點(diǎn)擊流無法收集等問題。同時(shí)在用戶識(shí)別上僅僅是通過點(diǎn)擊流屬性,沒有對(duì)cookie、session和服務(wù)器端的數(shù)據(jù)流進(jìn)行統(tǒng)一驗(yàn)證,這也是我下一步要做的事情。同時(shí)下一步的工作還有:設(shè)計(jì)一種方案去收集瀏覽者點(diǎn)擊進(jìn)入廣告主網(wǎng)站那邊后的瀏覽行為,這種瀏覽行為更能反映出瀏覽者是否是自愿點(diǎn)擊過來的,這對(duì)判斷點(diǎn)擊欺詐是很有用的。

        [1]SHU Zhengyong.The study on click fraud of commercial search engine [D].Dalian:Thesis For Master Degree of Liaoning Normal University,2008 (in Chinese).[舒正勇.商業(yè)搜索引擎的點(diǎn)擊欺詐問題研究 [D].大連:遼寧師范大學(xué)碩士學(xué)位論文,2008.]

        [2]YUAN Jian,ZHANG Jinsong.Effective strategy to prevent clickfraud [J].Journal of Computer Application,2009,29 (7):1790-1792 (in Chinese).[袁健,張勁松.一種有效預(yù)防點(diǎn)擊欺詐的策略 [J].計(jì)算機(jī)應(yīng)用,2009,29 (7):1790-1792.]

        [3]SU Jiangyu.Web user behavior mining base on click-stream[D].Guangzhou:Thesis For Master Degree of Guangdong University of Technology,2010 (in Chinese).[蘇疆煜.基于點(diǎn)擊流Web用戶行為挖掘 [D].廣州:廣東工業(yè)大學(xué)碩士學(xué)位論文,2010.]

        [4]GAO Zhijian.Radical measure of click fraud use a third party[J].Productivity Research,2007,22 (18):72-73 (in Chinese).[高志堅(jiān).引入第三方監(jiān)測(cè)根治點(diǎn)擊欺詐 [J].生產(chǎn)力研究,2007,22 (18):72-73.]

        [5]Mehmed Kantardzic,Chamila Walgampaya,Brent Wenerstrom,et al.Mproving click fraud detection by real time data fusion [C].Proc of IEEE International Symposium on Signal Processing and Information Technology,2008.

        [6]ZHANG Rong.Research on technology of web mining [J].Computer Engineering,2006,32 (15):4-6 (in Chinese).[張蓉.Web挖掘技術(shù)研究 [J].計(jì)算機(jī)工程,2006,32 (15):4-6.]

        [7]SUN Tao.Targeting of user behavior of online advertising system [D].Shanghai:Thesis For Master Degree of Fudan University,2008(in Chinese).[孫濤.網(wǎng)絡(luò)廣告系統(tǒng)的用戶行為定向研究 [D].上海:復(fù)旦大學(xué)碩士學(xué)位論文,2008.]

        [8]FAN Yuankang,HU Xueguang,XIA Qishou,et al.Advanced data preprocessing technology for web log [J].Computer Engineering,2009,35 (10):73-74 (in Chinese). [方元康,胡學(xué)鋼,夏啟壽,等.改進(jìn)的Web日志數(shù)據(jù)預(yù)處理技術(shù) [J].計(jì)算機(jī)工程,2009,35 (10):73-74.]

        [9]ZHANG Bo,WU Lili,ZHOU Min.The analysis of user behavior based on web usage mining [J].Computer Science,2006,33 (8):213-214 (in Chinese).[張波,巫莉莉,周敏.基于Web使用挖掘的用戶行為分析 [J].計(jì)算機(jī)科學(xué),2006,33 (8):213-214.]

        [10]XU Xiang,LIU Jianwei,LUO Xionglin.Research on outlier mining [J].Application Research of Computers,2009,26(1):34-40 (in Chinese). [徐翔,劉建偉,羅雄麟.離群點(diǎn)挖掘研究 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (1):34-40.]

        [11]HAN Jiawei,Micheline K.Data mining:Concepts and techniques [M].2nd ed.San Francisco:Morgan Kaufmann Publishers,2006.

        [12]ZHAO Zhanying,CHENG Changsheng.On improved algorithm for local outlier mining based on cluster analysis and its implementation [J].Computer Applications and Software,2010,27 (11):255-258 (in Chinese). [趙站營(yíng),成長(zhǎng)生.基于聚類分析局部離群點(diǎn)挖掘改進(jìn)算法的研究與實(shí)現(xiàn) [J].計(jì)算機(jī)應(yīng)用與軟件,2010,27 (11):255-258.]

        [13]ZHANG Yi,LIU Xumin,GUAN Yong.Density-based detection for outliers and noises [J].Journal of Computer Applications,2010,30 (3):802-805 (in Chinese).[張毅,劉旭敏,關(guān)永.基于密度的離群噪聲點(diǎn)檢測(cè) [J].計(jì)算機(jī)應(yīng)用,2010,30 (3):802-805.]

        [14]GAO Weihua,XIE Kanglin.New model and related algorithm for the prediction of web user’s directions [J].Computer Applications and Software,2007,24 (3):142-144 (in Chinese).[高衛(wèi)華,謝康林.Web用戶行為預(yù)測(cè)的一種新模型及 算 法 [J].計(jì) 算 機(jī) 應(yīng) 用 與 軟 件,2007,24 (3):142-144.]

        [15]LI Xuejun,LI Longshu,XU Yi.Research on web user’s behavior prediction base on rough set [J].Computer Engineering and Applications,2008,44 (13):134-136 (in Chinese).[李學(xué)俊,李龍澍,徐怡.基于粗糙集的Web用戶行為預(yù)測(cè)研究 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (13):134-136.]

        [16]FAN Jixiang,ZHANG Hong.Application of BP neural network and multi-variable linear regression in rate prediction[J].Computer Engineering and Applications,2007,42(23):203-204.

        猜你喜歡
        網(wǎng)絡(luò)廣告離群欺詐
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        警惕國(guó)際貿(mào)易欺詐
        基于手機(jī)用戶認(rèn)知視角的“雙十一”期間網(wǎng)絡(luò)廣告效果研究
        新聞傳播(2016年1期)2016-07-12 09:25:08
        網(wǎng)購(gòu)遭欺詐 維權(quán)有種法
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        網(wǎng)絡(luò)廣告的價(jià)值分析
        新聞傳播(2015年10期)2015-07-18 11:05:39
        網(wǎng)絡(luò)廣告的特點(diǎn)及發(fā)展對(duì)策研究
        新聞傳播(2015年3期)2015-07-12 12:22:28
        離群的小雞
        應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
        中国农村妇女hdxxxx| 少妇精品偷拍高潮少妇在线观看| 久久99精品国产麻豆| 亚洲日韩欧美一区、二区| 国产精品久久婷婷六月丁香| 亚洲国产精品久久九色| 久久精品伊人久久精品| 亚洲性无码av中文字幕| 成人免费一区二区三区| 国内精品人妻无码久久久影院94| 国产成人精品中文字幕| 按摩师玩弄少妇到高潮hd| 国产在线观看视频一区二区三区| 秘书边打电话边被躁bd视频| 午夜家庭影院| 国产99久久精品一区| 丝袜美腿高清在线观看 | 99久久综合精品五月天| 久久国产品野战| 国产精品一品二区三区| 东北少妇不戴套对白第一次| 久久无码av三级| 青青操国产在线| 亚洲av粉嫩性色av| 亚洲人不卡另类日韩精品| 亚洲av高清在线观看一区二区| 熟女人妻在线视频| 久久99热精品免费观看欧美| 国产不卡在线播放一区二区三区| 日日躁夜夜躁狠狠躁| 欧美日韩精品一区二区在线视频| 日本高清一区二区三区视频| 激情精品一区二区三区| 国产乱人视频在线播放| 娇柔白嫩呻吟人妻尤物| 亚洲av午夜福利精品一区不卡| 国产精品亚洲lv粉色| 最近2019年好看中文字幕视频| 亚洲中文字幕无码爆乳| 亚洲一区二区三区av在线免费| 精品人妻在线一区二区三区在线|