亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高校圖書館Web日志挖掘的分析與研究*

        2010-05-03 07:40:56程思祥雷
        圖書館學刊 2010年5期
        關鍵詞:頁面數據挖掘用戶

        程思祥雷 鳴

        (1.長江大學圖書館;2.長江大學計算機科學學院,湖北 荊州 434023)

        1 引言

        隨著Internet技術的發(fā)展,網絡資源飛速增長,如何有效利用這些豐富的資源成為人們普遍關注的問題。數據挖掘技術和Internet應用研究的結合構成了當今比較活躍的一個研究領域——Web數據挖掘。要從海量的Web數據中獲取有價值的潛在模式和隱含信息必須依靠Web數據挖掘技術。

        與Web數據異質、分布、動態(tài)、無統一結構的特點不同,Web服務器日志結構比較完善,用戶訪問Web站點后會留下完整的記錄。Web日志挖掘通過挖掘Web日志記錄來發(fā)現用戶訪問Web頁面的模式、挖掘有用模式和預測用戶瀏覽行為[1]。

        目前Web日志挖掘可分為兩種方法[2]:①將Web服務器上的數據映射到關系數據庫,選擇合適的數據挖掘技術處理;②利用特殊的預處理技術直接處理日志數據,采用標準的數據挖掘技術來進行訪問數據的挖掘。

        2 W eb日志分析流程

        2.1 數據選擇

        分析對象是長江大學圖書館的主頁服務器日志數據,自2009年10月26日到2009年11月19日,日志文件共25個,大小為262M,共有1619085條記錄。

        Web服務器日志文件(Web Server Log File)記錄了用戶訪問該站點時每個頁面的請求信息。日志記錄的格式主要分為兩種[3]:通用型日志格式(Common Log Format,CLF)和擴展型日志格式(Extended Log Format,ELF)。筆者使用的數據屬于W3C擴展日志格式,ELF日志文件包括兩種記錄類型:指令型記錄(以“#”開頭)和數據記錄。

        ELF確定的日志格式被定義為一個域的集合,而不是定義一種固定的格式。很多域前面需要加上前綴。下面列出W3C擴展日志格式的可用域前綴[4]:

        c-:客戶端;s-:服務器端;r-:遠程服務器端;cs-:客戶端到服務器端;sc-:服務器端到客戶端;sr-:服務器端到遠程服務器端;rs-:遠程服務器端到服務器端;x-:應用。這些前綴與域指令行中的域標識符相結合,用于說明何種數據將寫入日志。

        表1 W eb日志記錄的部分主要信息

        下面是一個Web服務器日志文件ELF格式的例子:

        #Software:Microsoft Internet Information Services 5.0

        #Version:1.0

        #Date:2009-10-26 00:00:49

        #Fields:date time c-ip cs-username s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status cs(User-Agent)2009-10-26 00:00:49 10.10.90.29-10.203.1.13 80 GET/index.asp-200 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)

        2.2 數據預處理

        數據預處理是數據挖掘前期很重要的工作,其結果的好壞直接影響了挖掘結果。數據預處理的工作量占整個數據挖掘過程的50%左右[5]。Web日志預處理的目的是針對上一階段產生的數據進行初步整理,剔除日志中對挖掘過程無用的屬性和數據,并將Web日志中的數據轉換為挖掘算法可識別的形式。

        數據清理可采用以下3種方式:①根據日志文件的時間,如只需要對上周日志文件進行挖掘;②根據所訪問的文件類型,如只需要對.asp文件進行挖掘;③根據使用者請求和算法類型選取屬性列,如只需要對訪問路徑進行挖掘。

        數據縮減可采用以下兩種方式:縱向縮減(行縮減)和橫向縮減(列縮減)。對于不同的挖掘需求可采用不同的縮減方式,如縱向縮減可通過URI資源的擴展名、用戶動作、狀態(tài)碼進行縮減。進行流量分析時,可采用橫向縮減的方式,如保留用戶訪問時間、用戶請求的URI資源等字段,這里必須保留URL為圖形文件的記錄。進行聚類分析時,可保留用戶訪問時間、用戶IP、用戶請求訪問的URL、用戶所使用的代理等字段??v向縮減可減少記錄條數,橫向縮減僅減少屬性列,對記錄條數無影響,這兩種縮減方式都不會降低日志清理的精度。進行數據縮減可減少算法掃描日志的時間,提高挖掘效率。

        目前較為有效的用戶識別方法有:①基于用戶瀏覽器和操作系統的差異。②基于引用頁進行判斷[6]。這里我們認為不同IP地址代表不同用戶;若IP地址相同,用戶瀏覽器或操作系統不同,也認為是相同的用戶;若用戶請求的某頁面沒有請求過也認為這是一個新的用戶。

        進行會話識別最簡單的方法是使用時間戳(timeout),常用的是30分鐘,L.Catledge和J.Pitkow由實驗得出timeout值設為25.5分鐘更好[3]。如果用戶訪問頁面時間差超過了timeout,則認為用戶開始了一個新的會話。

        2.3 數據轉換

        根據挖掘目標和數據特征,選擇合適的挖掘算法模型。Web日志數據挖掘中常用的技術有:統計分析、路徑分析、關聯規(guī)則挖掘、序列模式挖掘、聚類分析、分類學習等。

        2.4 數據挖掘

        根據應用的要求,選擇合適的數據挖掘算法及模型參數,建立數據挖掘模型,從數據中提取所需的知識,并以一定的形式展現出來。如決策樹結構、關聯規(guī)則集等。

        2.5 結果分析

        對挖掘結果進行解釋與評估。將挖掘的知識以用戶可以理解的方式(如圖表)呈現給用戶,并對所得的結構進行解釋,包括對知識的一致性檢查,模型的驗證,識別知識的真正有趣模式。進行Web站點流量統計,需要對源數據進行分析,統計網站響應狀態(tài)、請求成功的IP地址、具體頁面的訪問流量、訪問成功的頁面、訪問出錯的頁面等,可畫出訪問時間——訪問人數折線圖,初步了解用戶訪問的時間分布情況,按照用戶訪問方式統計,了解用戶大多會進行什么操作。

        3 結果分析

        根據原始數據可統計出以下部分結果:

        3.1 根據網站響應狀態(tài)

        分布圖如圖2所示。

        3.2 根據用戶訪問方式

        分布圖如圖3所示。

        3.3 請求成功的IP地址統計

        請求成功的記錄數為1403516條,請求成功的IP地址數有10475條。圖4中僅列出訪問量前10位的請求成功的IP地址。

        以縱向縮減為例,原始數據大小為262M,共有1619085條記錄。

        對.gif、.jpg、.jpeg、.ico、.cgi、.css、.js這 7 種擴展名篩選后,記錄條數縮減為211146條。按GET請求記錄縮減后,記錄條數為210043條。將狀態(tài)碼為4和5開頭的記錄刪除后,記錄條數為185291條。按下載文件篩選后有1727條記錄。

        圖5中僅列出訪問量前10位的頁面。

        4 結語

        以長江大學圖書館主頁服務器Web日志文件為例,分析了Web日志挖掘中的關鍵步驟——數據預處理技術,并針對數據清理、數據縮減、用戶識別進行闡述。Web日志分析可進行時段分析,統計出一天中哪些時段、每周哪天、每月哪天甚至每年哪個時段的訪問人數及具體停留時間,進而分析出訪問人群的上網習慣等相關信息;可進行來源統計,統計出用戶到達目標網頁所經過的路徑,幫助管理者修改、縮短訪問路徑,提高訪問效率;可進行客戶端分析,網站設計者可根據統計出的訪問群瀏覽器和操作系統使用情況,有針對性地對某種瀏覽器或操作系統進行開發(fā);可進行受訪頁分析,統計第一個被訪問的網頁和最后離開網站的網頁,分析通常訪問者從哪個頁面進入網站,從哪個頁面退出網站,設計者可通過這些數據改善網站結構。

        Web日志挖掘是Web挖掘領域一個重要的研究方向。它對于發(fā)現用戶瀏覽網站的行為規(guī)律,改善頁面之間的超鏈接結構,提高整個Web系統性能等方面都具有十分重要的意義。

        [1] Pitkow J.Insearch of reliable usage data on the WWW[C].In:Proc of 6th Int’T WorldWideWeb Conf.SantaClara.California,1997.

        [2] 王麗娜.Web日志挖掘的研究和實現[C].鄭州大學,2005.

        [3] 童恒慶,梅清.Web日志挖掘數據預處理研究.現代計算機:專業(yè)版,2004(3).

        [4] 夏成文,韓堅華,梁乘銘.Web日志挖掘數據預處理研究.微型電腦應用,2007(10).

        [5] Doru Tanasa,Brigitte Trousse.Advanced Data Preprocessing for Intersites Web Usage Mining[J].IEEE Intelligent Systems,March/April 2004:59-65.

        [6] 趙紅玲,宋瀚濤.Web日志挖掘中數據預處理的研究[J].計算機應用研究,2004.

        猜你喜歡
        頁面數據挖掘用戶
        大狗熊在睡覺
        刷新生活的頁面
        探討人工智能與數據挖掘發(fā)展趨勢
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數據挖掘云服務及應用
        如何獲取一億海外用戶
        基于GPGPU的離散數據挖掘研究
        中文字幕久区久久中文字幕| 亚洲日韩乱码中文无码蜜桃臀| YW亚洲AV无码乱码在线观看| 精品一区二区三区不老少妇| 日本一区二区三区四区高清不卡| 公和我做好爽添厨房中文字幕| 国产精品熟妇视频国产偷人| 蜜芽尤物原创AV在线播放| 国产熟女白浆精品视频二| 极品少妇hdxx麻豆hdxx| 无码三级在线看中文字幕完整版| 在线成人tv天堂中文字幕| 成人国产av精品麻豆网址| 男人扒开女人双腿猛进视频| 国产70老熟女重口小伙子| 中文字幕av无码一区二区三区电影| 国产一区二区中文字幕在线观看| 国产又大又硬又粗| 精品国产制服丝袜高跟| 丰满少妇人妻无码超清| 熟女人妻在线中文字幕| 国产精品久久久久aaaa| 日本成人久久| 一区二区三区在线观看视频| 一二三四五区av蜜桃| 久久久午夜精品福利内容| 国产女人91精品嗷嗷嗷嗷| 久久老熟女一区二区三区| 午夜时刻免费入口| 精品国产a∨无码一区二区三区 | 精品无码日韩一区二区三区不卡| 一本大道久久精品 东京热| 白嫩少妇在线喷水18禁| 久久精品中文字幕无码绿巨人| 中文字幕无码家庭乱欲| 久久综合一本中文字幕| 一本色道久久亚洲加勒比| 无遮无挡爽爽免费毛片| 亚洲熟女av超清一区二区三区| 视频女同久久久一区二区| 午夜精品久久久久久毛片|