亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WEB日志數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)

        2008-12-31 00:00:00楊清蓮
        商場現(xiàn)代化 2008年11期

        [摘 要] Web日志挖掘是Web數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)最重要的應(yīng)用方面。而數(shù)據(jù)預(yù)處理在Web日志挖掘過程中起著至關(guān)重要的作用。文中深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),提出了一種數(shù)據(jù)預(yù)處理算法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

        [關(guān)鍵詞] Web日志挖掘 數(shù)據(jù)預(yù)處理 算法

        一、引言

        在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘,即通過挖掘服務(wù)器的日志文件,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場的。

        Web日志挖掘主要分為三個(gè)步驟:

        1.數(shù)據(jù)預(yù)處理

        根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存。

        2.模式識(shí)別

        運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。

        3.模式分析

        進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來的過程。

        其中,數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提。本文深入探討了數(shù)據(jù)預(yù)處理各環(huán)節(jié)的主要任務(wù),并提出了新的數(shù)據(jù)預(yù)處理算法,實(shí)現(xiàn)之。

        二、Web日志預(yù)處理過程

        Web服務(wù)器日志中的內(nèi)容非常豐富,而且用戶訪問和服務(wù)器資源不是一對(duì)一的關(guān)系,比如,服務(wù)器端日志可能記載了一個(gè)用戶可以在多個(gè)客戶端提交請(qǐng)求,多個(gè)用戶也可以在一個(gè)客戶端提交請(qǐng)求。因此,在實(shí)施數(shù)據(jù)挖掘之前,首先必須對(duì)Web log 文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、會(huì)話識(shí)別、頁面過濾、路徑補(bǔ)充等一系列的工作。

        1.數(shù)據(jù)清洗

        是指刪除Web日志中與數(shù)據(jù)挖掘不相關(guān)的冗余項(xiàng),同時(shí)將有用的Web日志記錄信息轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)格式。

        2.用戶識(shí)別

        是指從日志中的每一條記錄中識(shí)別出相應(yīng)的用戶。

        3.會(huì)話識(shí)別

        就是將用戶的訪問記錄劃分成單個(gè)的會(huì)話,不同用戶訪問的頁面屬于不同的會(huì)話。

        4.路徑補(bǔ)充

        根據(jù)引用日志和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)提供的信息對(duì)用戶訪問路徑進(jìn)行完善,推斷出用戶從訪問緩存中訪問的頁面信息。

        三、數(shù)據(jù)預(yù)處理算法實(shí)現(xiàn)

        1.概念定義

        進(jìn)行操作的數(shù)據(jù)源是服務(wù)器端的日志文件?,F(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來表示如下:

        定義1:服務(wù)器日志中的一個(gè)頁面視圖L可用如下的符號(hào)定義:

        L=[A∶V]

        V=

        A={a1,a2,…,ak}

        每一個(gè)頁面視圖包括一個(gè)頁面的定義vi(通常為這個(gè)頁面Url),參考頁面文件ri(通常為這個(gè)頁面的Referer),訪問時(shí)間ti(通常為這個(gè)頁面的Data或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。

        定義2:日志中的記錄經(jīng)過預(yù)處理過以后,所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問的數(shù)據(jù)定義如下:

        設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個(gè)記錄L均適合上面定義的記錄的格式,這里L(fēng)∈L。每一個(gè)L包括客戶端IP地址L.IP,客戶端瀏覽器L.agent,客戶端訪問的頁面的Url為L.url,訪問頁面時(shí)間L.time 等。則用戶的一次會(huì)話或叫事務(wù)t為下式:

        t=

        這里滿足:1≤k≤m,ltk∈L,ltk.ip=ipt,ltk.agent=agentt

        2.具體的算法實(shí)現(xiàn)

        (1)數(shù)據(jù)清理,簡單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,消除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。

        (2)首先將原日志文件劃分成相同的IP和Agent的用戶訪問的序列集的形式,集合中的每一個(gè)序列形如Hi={f1,f2,…,fn},每一個(gè)Hi執(zhí)行算法(3)。

        (3)將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。

        ①主程序

        輸入:經(jīng)過清洗過的日志記錄L。

        輸出:用戶會(huì)話文件

        對(duì)于每一個(gè)Hi={f1,fn,……fn}是一個(gè)時(shí)間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁面視圖,Url,Referer,訪問時(shí)間Time。

        定義T為一個(gè)時(shí)間戳:

        for each unique IP/Agent Pair do

        for each lj do

        if((tj-tj-1)>T)∨rj∈Hthen

        f Timeout()then

        i++;

        Add lj to Hi

        else

        assign=Distance(H,rj)

        add rj to Hassign // Hassign是包含rj頁面視圖的序列集中,rj距離最短的那個(gè)序列集

        end.

        ②Timeout()函數(shù)

        此函數(shù)完成的主要功能是測試包含lj的請(qǐng)求頁的rj頁,在Hi中是否已經(jīng)過時(shí)了,也就是是否已經(jīng)大于T。如果大于T返回真,否則返回假。

        value=true;

        For each Hi∈H do

        If lj∈H

        If(tj-tj-1)∈T

        value=1

        end

        return value

        ③Distance(H,rj)函數(shù)

        Distance(H,rj)函數(shù)主要是計(jì)算頁面的距離函數(shù),當(dāng)一個(gè)日志記錄視圖的參考頁面rj為不同的Hi所包含時(shí),確定該頁面文件是屬于那一個(gè)序列集。

        對(duì)于每一個(gè)Hi={f1,f2,…,fn}是一個(gè)時(shí)間序列的日志紀(jì)錄集,設(shè)f是一個(gè)日志記錄文件:

        set min=∞ // 設(shè)置頁面距離;

        for each Hi H do

        if rj Hi

        di=Hi.size()-Hi.index(),//計(jì)算頁面距離;Hi.size()序列集的總頁數(shù)Hi.index()該請(qǐng)求頁在序列集中的位置;

        ti=hi.tn-Hi.tj

        if(di

        assign=i

        min=di

        else

        if(di=min)

        if(ti=tassign)

        assign=i

        tin=tj

        return assign

        end

        四、實(shí)驗(yàn)結(jié)果

        本文引用南京工業(yè)大學(xué)網(wǎng)絡(luò)中心的2005年5月24日的日志文件542條日志記錄作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)驗(yàn)結(jié)果如下:

        1.日志數(shù)據(jù)

        #Fields:date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent)sc-status sc-substatus sc-win32-status

        2005~05~24 00:19:13 202.119.248.87 GET/styles/default.css-80-218.13.136.59 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0;+Poco+0.31;+TencentTraveler+) 200 0 0

        ……….

        2005~05~24 23:54:12 202.119.248.87 GET/images/weather/0.gif-80-218.58.78.114 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+Maxthon) 200 0 0

        2.運(yùn)行結(jié)果

        經(jīng)過數(shù)據(jù)預(yù)處理,共有77個(gè)不同的IP用戶,共包括111段會(huì)話。實(shí)驗(yàn)證明,此算法效果良好。

        3.運(yùn)行界面剪切如下:

        五、結(jié)論

        由于日志文件不同于傳統(tǒng)的數(shù)據(jù)庫文件,所以其預(yù)處理方法也有明顯的差別。本文深入討論了對(duì)Web日志文件進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別、用戶會(huì)話識(shí)別、路徑補(bǔ)充等預(yù)處理方法,并實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,本算法能很好的分割服務(wù)器日志為單獨(dú)的用戶和用戶會(huì)話模式。

        參考文獻(xiàn):

        [1]KamdafT JoshiA:On Creating Adaptive Web Servers Using Weblog Mining [EB/OL].http//:/citeseer.nj.nec.com/kamdar00creating.html.2002

        [2]Bucbber AG,Anandss,MulvennaMD,et al.Discovering Internet Marketing Intelligence Through Weblog Mining [EB/OL].http://citeseer.nj.nec.com/244461.html,1998

        [3]張健沛 劉建東 楊 靜:基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):191~193

        “本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”

        欧美激情区| 国产欧美精品一区二区三区四区| yw尤物av无码国产在线观看| 成年女人永久免费看片| 中国免费av网| 人妻少妇被粗大爽视频| 人妻少妇精品无码专区| 亚洲精品毛片一区二区三区 | 男女裸交无遮挡啪啪激情试看| 久久国产精彩视频| av资源吧首页在线观看| 色婷婷久久亚洲综合看片| 无码精品久久久久久人妻中字| 精品国产群3p在线观看| 国产啪啪视频在线观看| 亚洲夫妻性生活免费视频| 性一交一乱一乱一视频| 成人无码视频在线观看网站| 99亚洲女人私处高清视频| 99久久精品免费看国产一区二区三区| 午夜一区欧美二区高清三区| 亚洲中文欧美日韩在线| 毛片在线视频成人亚洲| 亚洲精品tv久久久久久久久久| 日韩精品大片在线观看| 国产av一区网址大全| 亚洲成人中文字幕在线视频 | 日韩吃奶摸下aa片免费观看| 在线观看网址你懂的| 熟女不卡精品久久av| 久久久国产精品va麻豆| 久久tv中文字幕首页| av亚洲在线一区二区| 日韩精品久久中文字幕| 东北寡妇特级毛片免费| avtt一区| 日韩一区二区三区精品视频| 久久er99热精品一区二区| 尤物无码一区| 你懂的视频网站亚洲视频| 亚洲国产天堂久久综合|