亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web日志挖掘技術(shù)的應(yīng)用研究

        2011-06-12 08:55:26胡宏智王華
        關(guān)鍵詞:訪問者日志頁面

        胡宏智 王華

        安徽工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 安徽 243032

        0 前言

        隨著Web站點(diǎn)規(guī)模的擴(kuò)大和復(fù)雜程度的提高,訪問者對Web站點(diǎn)的要求也越來越高,要求它具有個(gè)性化,智能性。因此,簡單的統(tǒng)計(jì)訪問者所在的地區(qū),統(tǒng)計(jì)站點(diǎn)的訪問次數(shù)已經(jīng)不能滿足。Web日志挖掘是對用戶在訪問網(wǎng)站時(shí)留下的訪問記錄進(jìn)行數(shù)據(jù)挖掘,利用數(shù)據(jù)挖掘的方法可以在海量的日志數(shù)據(jù)中自動快速的發(fā)現(xiàn)用戶的訪問模式,其結(jié)果可以用于改善網(wǎng)站的拓?fù)浣Y(jié)構(gòu),發(fā)現(xiàn)相似客戶群體,開展個(gè)性化的信息服務(wù)和有針對性的電子商務(wù)活動。

        1 數(shù)據(jù)預(yù)處理

        從Web服務(wù)器收集到的日志不能直接用于數(shù)據(jù)挖掘,還必須進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理一般分為數(shù)據(jù)清理、用戶識別、回話識別、路徑補(bǔ)充這幾個(gè)過程。

        1.1 數(shù)據(jù)清理

        數(shù)據(jù)清理的目的是清除從服務(wù)器得到的日志中的不相關(guān)的數(shù)據(jù),縮小被挖掘的數(shù)據(jù)對象的范圍。本文使用的日志數(shù)據(jù)集與以往的日志數(shù)據(jù)集有所有不同,如圖1所示,數(shù)據(jù)集中的字段都是挖掘所需要的,但是每一個(gè)記錄都含有若干條記錄,其中是以“|||”分割的,利用SQL語句可以把這些記錄分離開,從而形成一條一條的記錄,得到的數(shù)據(jù)集就可以用于下一步的數(shù)據(jù)挖掘。如圖2所示。

        圖1 日志數(shù)據(jù)集1

        圖2 日志數(shù)據(jù)集2

        數(shù)據(jù)清理的核心SQL語句:

        select rowNum,d*,d2.* from cont c,table(str2list(c.ip,c.time,'|||')) d,table(str2list(c.page,c.lailu,'|||')) d2 where d.id = d2.id and d.str is not null

        1.2 用戶識別

        如果數(shù)據(jù)挖掘的目的是進(jìn)行用戶訪問模式的挖掘或?qū)τ脩暨M(jìn)行聚類分析,那么用戶識別這一步驟相當(dāng)重要。通常我們用一下的方式來識別用戶:不同的IP地址代表不同的用戶;當(dāng)IP地址相同時(shí),默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶;當(dāng)IP地址相同時(shí),用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,此時(shí)要根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)來識別用戶,即用戶要訪問的頁面不能從已訪問的頁面到達(dá)則為一個(gè)新用戶。

        1.3 用戶會話識別

        會話識別的目的就是將用戶的所有訪問序列分成多個(gè)單獨(dú)的用戶一次訪問序列。一般的方法是利用超時(shí),如果連續(xù)兩個(gè)頁面的請求時(shí)間間隔超過給定的閾值,則認(rèn)為用戶開始了一個(gè)新的會話。根據(jù)統(tǒng)計(jì)數(shù)據(jù),時(shí)間閾值通常取25.5分鐘。

        1.4 路徑補(bǔ)充

        在識別用戶會話過程中的另一個(gè)問題是確定訪問日志中是否有重要的請求沒有被記錄。這就需要路徑補(bǔ)充這一個(gè)步驟,解決的方法類似于用戶識別中的方法。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“后退”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查引用日志確定當(dāng)前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個(gè)頁面都包含與當(dāng)前請求頁的鏈接,則將請求時(shí)間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話路徑中。

        2 Web日志挖掘算法研究

        2.1 關(guān)聯(lián)分析

        關(guān)聯(lián)分析用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則是形如X→Y 即滿足X中條件的數(shù)據(jù)庫元組也滿足Y條件。我們用支持度和置信度來作為關(guān)聯(lián)規(guī)則興趣度的客觀度量。關(guān)聯(lián)規(guī)則 X→Y的支持度表示滿足規(guī)則的樣本的百分比,用概率P(X∪Y)表示,其中,X∪Y表示同時(shí)包含X和Y的事務(wù),即項(xiàng)集X和Y的并。關(guān)聯(lián)規(guī)則X→Y的置信度用條件概率P(X|Y)即包含X的事務(wù)也包含Y的概率來表示。

        2.2 聚類分析

        聚類分析是將物理或抽象的對象組成的集合分組成為由類似的對象組成的多個(gè)簇,使得處于相同簇中的對象具有最大的相似性,而處于不同簇的對象具有最大的差異性的方法及過程。通過聚類,能夠找出數(shù)據(jù)屬性之間潛在的相互關(guān)系。聚類分析的過程如圖3所示。

        圖3 聚類分析

        2.3 遺傳算法

        遺傳算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。生物的進(jìn)化是一個(gè)奇妙的優(yōu)化過程,它通過選擇淘汰,突然變異,基因遺傳等規(guī)律產(chǎn)生適應(yīng)環(huán)境變化的優(yōu)良物種。遺傳算法是根據(jù)生物進(jìn)化思想而啟發(fā)得出的一種全局優(yōu)化算法。

        3 Web日志挖掘的應(yīng)用

        Web日志挖掘的應(yīng)用主要有以下幾個(gè)方面:

        (1)提供個(gè)性化服務(wù):根據(jù)用戶訪問頁面的模式,從中提煉出用戶感興趣的頁面,針對特定的用戶組放置不同的內(nèi)容,向每位用戶提供個(gè)性化界面。

        (2)改進(jìn)站點(diǎn)的拓?fù)浣Y(jié)構(gòu):依據(jù)訪問者的頻繁訪問路徑,把訪問者頻繁訪問的頁面直接關(guān)聯(lián)起來。

        (3)推薦系統(tǒng):這對于電子商務(wù)網(wǎng)站來說非常有幫助,通過挖掘日志數(shù)據(jù)集,分析訪問者感興趣的頁面和商品,推薦相關(guān)頁面和商品。

        4 結(jié)束語

        Web日志挖掘的應(yīng)用越來越廣,通過研究日志數(shù)據(jù),可以得到很多潛在的有意義的信息,不論是對網(wǎng)站的訪問者還是網(wǎng)站的經(jīng)營者都有很大的幫助。本文闡述了Web日志挖掘的相關(guān)算法,今后的工作是努力改進(jìn)算法,提高數(shù)據(jù)挖掘的效率和準(zhǔn)確性。

        [1]楊怡玲,尤晉元.SWLMS:一個(gè)日志挖掘系統(tǒng).上海交通大學(xué)學(xué)報(bào).1999.

        [2]呂佳.Web日志挖掘技術(shù)應(yīng)用研究.重慶師范大學(xué)學(xué)報(bào).(自然科學(xué)版).2006.

        [3]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

        [4]韓家煒.Web數(shù)據(jù)挖掘研究.計(jì)算機(jī)研究與發(fā)展.2001.

        [5]陳新中,李巖,楊炳儒.Web日志挖掘技術(shù)進(jìn)展.系統(tǒng)工程與電子技術(shù).2003.

        猜你喜歡
        訪問者日志頁面
        大狗熊在睡覺
        刷新生活的頁面
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學(xué)日志
        人物專訪的技巧性分析
        采寫編(2016年1期)2016-06-03 07:57:40
        “造訪”與“到訪”
        一種基于粗集和SVM的Web日志挖掘模型
        同一Word文檔 縱橫頁面并存
        恭喜劉偉成為本刊網(wǎng)站第3萬位訪問者
        久久精品国产亚洲av桥本有菜| 手机久草视频福利在线观看| 国产在线精品观看一区二区三区| 国产精品亚洲一区二区三区16 | 国产精品久久久看三级| 日本二区三区在线免费| 精品国产一区二区三区av免费 | 久久精品亚洲中文字幕无码网站| 精品熟女少妇免费久久| 日本女优在线观看一区二区三区 | 2019nv天堂香蕉在线观看| 欧美黑人又粗又硬xxxxx喷水| 伊伊人成亚洲综合人网7777| 亚洲精品一二区| 色婷婷一区二区三区四| 亚洲第一女人av| 无码国产午夜福利片在线观看| 成人日韩av不卡在线观看| 亚洲一区二区三区在线| 国产人妖在线观看一区二区三区| 在线观看人成视频免费| 亚洲精品无人区| 后入内射欧美99二区视频| 免费看国产成年无码av| 中文字幕一区二区区免| 999zyz玖玖资源站永久| 久久人人爽人人爽人人片av麻烦| 亚洲VR永久无码一区| 亚洲成av人片极品少妇| 中文字幕人妻第一区| 欧美自拍区| 国产精品美女自在线观看| 第一次处破女18分钟高清| 国产乱子伦在线观看| 在线精品无码一区二区三区| 中文乱码字幕人妻熟女人妻| 国内精品少妇高潮视频| 午夜裸体性播放| 中文亚洲日韩欧美| 手机在线看片在线日韩av| 日本黑人亚洲一区二区|