摘 要:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)人們未知的、感興趣的、隱藏的知識(shí)。數(shù)據(jù)挖掘Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘。由于Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),因此,作為Web使用挖掘的一個(gè)分支,Web日志數(shù)據(jù)數(shù)據(jù)挖掘,具有獨(dú)特的理論和實(shí)踐意義。本文利用決策樹分類法,對Web服務(wù)器上保存的Web日志進(jìn)行數(shù)據(jù)挖掘,通過對日志中所保存的信息進(jìn)行分析,總結(jié)出正常用戶和Web機(jī)器人訪問網(wǎng)頁的模式特點(diǎn)。
關(guān)鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;決策樹
0.引言
Web服務(wù)器通常保存了對Web頁面的一次訪問的日志項(xiàng)(Web日志)。它包括了所請求的URL,發(fā)出請求的IP地址和時(shí)間戳。對于Web服務(wù)器,其上保存了大量的Web訪問日志記錄。對熱點(diǎn)的Web站點(diǎn)每天可以記錄下數(shù)以百兆的記錄,這些為數(shù)據(jù)挖掘提供了有關(guān)Web動(dòng)態(tài)的豐富的信息,因此研究復(fù)雜的Web日志挖掘技術(shù)是十分重要的。Web數(shù)據(jù)挖掘技術(shù),從Web日志中提取有用的模式,這些模式能夠揭示站點(diǎn)訪問者的某些特性[1]。
1.決策樹的建立
Web機(jī)器人(Web爬行者)是一個(gè)軟件程序,它可以跟蹤嵌入網(wǎng)頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網(wǎng)頁必須的文檔。在應(yīng)用Web挖掘技術(shù)分析人類的瀏覽習(xí)慣之前,必須過濾掉Web機(jī)器人的訪問。
決策樹是一種構(gòu)建分類模型的非參數(shù)方法,它不要求任何先驗(yàn)建設(shè),不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。是目前應(yīng)用最廣泛的歸納推理算法之一,非常適合對Web日志的數(shù)據(jù)挖掘。
圖1.Web會(huì)話
輸入數(shù)據(jù)取自Web 服務(wù)器日志。它的一個(gè)樣本如圖1所示,每行對應(yīng)于Web客戶(正常訪客或Web機(jī)器人)的一個(gè)頁面訪問請求。
Web日志記錄的字段包括客戶端IP地址、請求時(shí)間、訪問的資源、傳輸字節(jié)數(shù)等[3]。Web會(huì)話是客戶在一次網(wǎng)址訪問期間發(fā)出的請求序列,每個(gè)Web會(huì)話都可以用一個(gè)有向圖來建模,其中結(jié)點(diǎn)對應(yīng)于網(wǎng)頁,有向邊對用與鏈接網(wǎng)頁的超鏈接[4],如圖1。
圖2.Web機(jī)器人檢測決策樹模型
表2. Web機(jī)器人檢測的會(huì)話屬性
屬性名 描述
TotalPages 一次 Web會(huì)話提取的頁面總數(shù)
ImagePages 一次Web會(huì)話提取的圖像頁總數(shù)
TotalTime 網(wǎng)站訪問者所用時(shí)間
RepeatedAccess 一次Web會(huì)話多次請求同一頁面
ErrorRequest 請求網(wǎng)頁錯(cuò)誤
GET 使用GET方式提出請求的百分比
POST 使用POST方式提出的請求百分比
HEAD 使用HEAD方式提出的請求百分比
Breadth Web遍歷的寬度
Depth Web遍歷的深度
MultiIP 使用多個(gè)IP地址的會(huì)話
MultiAgent 使用多個(gè)代理的會(huì)話
為了對Web會(huì)話進(jìn)行分類,需要構(gòu)造描述每次會(huì)話特性的特征。表2列出了Web機(jī)器人檢測任務(wù)使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網(wǎng)站入口點(diǎn)的超銜數(shù)量度量,寬度屬性度量Web圖的寬度。如圖2,假設(shè)主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會(huì)話的深度等于2;Web會(huì)話的寬度等于2。
用于分類的數(shù)據(jù)集包含3916個(gè)記錄,Web機(jī)器人(class 0)和人類用戶(class 1)會(huì)話的個(gè)數(shù)相等,10%的數(shù)據(jù)用于訓(xùn)練,而90%的數(shù)據(jù)用于檢驗(yàn)。生成的決策樹模型顯示,如圖2所示。該決策樹在訓(xùn)練集上的差錯(cuò)率為3.8%,在檢驗(yàn)集上的差錯(cuò)率為5.3%。
3 結(jié)果分析
該模型表明可以從以下4個(gè)方面區(qū)分出Web機(jī)器人和人類用戶:
Web機(jī)器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。
與人類用戶不同,Web機(jī)器人很少訪問與Web文檔相關(guān)的圖片頁。
Web機(jī)器人的會(huì)話的長度趨于較長,包含了大量請求頁面。
Web機(jī)器人更可能對相同的文檔發(fā)出重復(fù)的請求,因?yàn)槿祟愑脩粼L問的網(wǎng)頁常常會(huì)被瀏覽器保存。
參考文獻(xiàn)
[1] 張娥,鄭斐峰,馮耕中. Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J]. 計(jì)算機(jī)應(yīng)用研究. 2004(02)
[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006
[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計(jì)算機(jī)研究與發(fā)展. 2001(03)
[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識(shí)別[J]. 小型微型計(jì)算機(jī)系統(tǒng). 2000(05)
作者簡介
王利源,男,遼寧省營口市,現(xiàn)就讀于:沈陽理工大學(xué)。
指導(dǎo)教師:沈陽理工大學(xué),杜炎(教授)