亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web日志的數(shù)據(jù)挖掘技術(shù)在Web機(jī)器人識(shí)別中的研究

        2015-07-10 22:04:22王利源
        卷宗 2015年1期
        關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

        摘 要:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)人們未知的、感興趣的、隱藏的知識(shí)。數(shù)據(jù)挖掘Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘。由于Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),因此,作為Web使用挖掘的一個(gè)分支,Web日志數(shù)據(jù)數(shù)據(jù)挖掘,具有獨(dú)特的理論和實(shí)踐意義。本文利用決策樹分類法,對Web服務(wù)器上保存的Web日志進(jìn)行數(shù)據(jù)挖掘,通過對日志中所保存的信息進(jìn)行分析,總結(jié)出正常用戶和Web機(jī)器人訪問網(wǎng)頁的模式特點(diǎn)。

        關(guān)鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;決策樹

        0.引言

        Web服務(wù)器通常保存了對Web頁面的一次訪問的日志項(xiàng)(Web日志)。它包括了所請求的URL,發(fā)出請求的IP地址和時(shí)間戳。對于Web服務(wù)器,其上保存了大量的Web訪問日志記錄。對熱點(diǎn)的Web站點(diǎn)每天可以記錄下數(shù)以百兆的記錄,這些為數(shù)據(jù)挖掘提供了有關(guān)Web動(dòng)態(tài)的豐富的信息,因此研究復(fù)雜的Web日志挖掘技術(shù)是十分重要的。Web數(shù)據(jù)挖掘技術(shù),從Web日志中提取有用的模式,這些模式能夠揭示站點(diǎn)訪問者的某些特性[1]。

        1.決策樹的建立

        Web機(jī)器人(Web爬行者)是一個(gè)軟件程序,它可以跟蹤嵌入網(wǎng)頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網(wǎng)頁必須的文檔。在應(yīng)用Web挖掘技術(shù)分析人類的瀏覽習(xí)慣之前,必須過濾掉Web機(jī)器人的訪問。

        決策樹是一種構(gòu)建分類模型的非參數(shù)方法,它不要求任何先驗(yàn)建設(shè),不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。是目前應(yīng)用最廣泛的歸納推理算法之一,非常適合對Web日志的數(shù)據(jù)挖掘。

        圖1.Web會(huì)話

        輸入數(shù)據(jù)取自Web 服務(wù)器日志。它的一個(gè)樣本如圖1所示,每行對應(yīng)于Web客戶(正常訪客或Web機(jī)器人)的一個(gè)頁面訪問請求。

        Web日志記錄的字段包括客戶端IP地址、請求時(shí)間、訪問的資源、傳輸字節(jié)數(shù)等[3]。Web會(huì)話是客戶在一次網(wǎng)址訪問期間發(fā)出的請求序列,每個(gè)Web會(huì)話都可以用一個(gè)有向圖來建模,其中結(jié)點(diǎn)對應(yīng)于網(wǎng)頁,有向邊對用與鏈接網(wǎng)頁的超鏈接[4],如圖1。

        圖2.Web機(jī)器人檢測決策樹模型

        表2. Web機(jī)器人檢測的會(huì)話屬性

        屬性名 描述

        TotalPages 一次 Web會(huì)話提取的頁面總數(shù)

        ImagePages 一次Web會(huì)話提取的圖像頁總數(shù)

        TotalTime 網(wǎng)站訪問者所用時(shí)間

        RepeatedAccess 一次Web會(huì)話多次請求同一頁面

        ErrorRequest 請求網(wǎng)頁錯(cuò)誤

        GET 使用GET方式提出請求的百分比

        POST 使用POST方式提出的請求百分比

        HEAD 使用HEAD方式提出的請求百分比

        Breadth Web遍歷的寬度

        Depth Web遍歷的深度

        MultiIP 使用多個(gè)IP地址的會(huì)話

        MultiAgent 使用多個(gè)代理的會(huì)話

        為了對Web會(huì)話進(jìn)行分類,需要構(gòu)造描述每次會(huì)話特性的特征。表2列出了Web機(jī)器人檢測任務(wù)使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網(wǎng)站入口點(diǎn)的超銜數(shù)量度量,寬度屬性度量Web圖的寬度。如圖2,假設(shè)主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會(huì)話的深度等于2;Web會(huì)話的寬度等于2。

        用于分類的數(shù)據(jù)集包含3916個(gè)記錄,Web機(jī)器人(class 0)和人類用戶(class 1)會(huì)話的個(gè)數(shù)相等,10%的數(shù)據(jù)用于訓(xùn)練,而90%的數(shù)據(jù)用于檢驗(yàn)。生成的決策樹模型顯示,如圖2所示。該決策樹在訓(xùn)練集上的差錯(cuò)率為3.8%,在檢驗(yàn)集上的差錯(cuò)率為5.3%。

        3 結(jié)果分析

        該模型表明可以從以下4個(gè)方面區(qū)分出Web機(jī)器人和人類用戶:

        Web機(jī)器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。

        與人類用戶不同,Web機(jī)器人很少訪問與Web文檔相關(guān)的圖片頁。

        Web機(jī)器人的會(huì)話的長度趨于較長,包含了大量請求頁面。

        Web機(jī)器人更可能對相同的文檔發(fā)出重復(fù)的請求,因?yàn)槿祟愑脩粼L問的網(wǎng)頁常常會(huì)被瀏覽器保存。

        參考文獻(xiàn)

        [1] 張娥,鄭斐峰,馮耕中. Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J]. 計(jì)算機(jī)應(yīng)用研究. 2004(02)

        [2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

        [3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計(jì)算機(jī)研究與發(fā)展. 2001(03)

        [4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識(shí)別[J]. 小型微型計(jì)算機(jī)系統(tǒng). 2000(05)

        作者簡介

        王利源,男,遼寧省營口市,現(xiàn)就讀于:沈陽理工大學(xué)。

        指導(dǎo)教師:沈陽理工大學(xué),杜炎(教授)

        猜你喜歡
        決策樹數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于改進(jìn)決策樹的故障診斷方法研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于決策樹的出租車乘客出行目的識(shí)別
        基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
        電測與儀表(2016年2期)2016-04-12 00:24:40
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        国产av精品久久一区二区| 亚洲一区二区三区av无码| 亚洲av日韩aⅴ无码色老头| 国产丝袜在线精品丝袜| 2019年92午夜视频福利| 国产精品亚洲一区二区杨幂| 亚洲AV小说在线观看| 国产一区二区三区porn| 一级呦女专区毛片| 国产av普通话对白国语| 亚洲综合精品一区二区| 成人免费播放视频影院| 精品国产午夜肉伦伦影院| 特黄做受又粗又长又大又硬| 越猛烈欧美xx00动态图| 国产尤物AV尤物在线看| 欧美1区二区三区公司| 日本在线一区二区三区四区| 中国男男女在线免费av| 欧美老肥婆牲交videos| 一本一道av无码中文字幕﹣百度| 少妇人妻偷人精品一区二区| 日本高清中文字幕一区二区三区| 日韩AV无码一区二区三| 亚洲av综合色区在线观看| 日韩一区二区中文天堂| 久久久99精品免费视频| 白丝兔女郎m开腿sm调教室| 日韩无套内射视频6| 欧美人成在线播放网站免费| 日本国主产一区二区三区在线观看| 国产精品久久婷婷免费观看| 极品老师腿张开粉嫩小泬| 天美传媒一区二区| AV成人午夜无码一区二区| 肉丝高跟国产精品啪啪| 亚洲一区亚洲二区视频在线| 最新国产毛2卡3卡4卡| av潮喷大喷水系列无码| 成人毛片18女人毛片免费| 99日本亚洲黄色三级高清网站|