亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        企業(yè)網站的Web使用挖掘

        2008-12-31 00:00:00張春明
        電腦知識與技術 2008年30期

        摘要:本文從介紹企業(yè)網站的web使用挖掘的意義入手,著重分析了web使用挖掘的數(shù)據(jù)源,探討了Web使用挖掘的常用技術,以及Web 使用挖掘的過程,企業(yè)網站的Web使用挖掘應具備的功能。

        關鍵詞:企業(yè)網站;web使用挖掘;數(shù)據(jù)源;信息獲取

        中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)30-0534-02

        Web Usage Mining ofEnterprises Web Site

        ZHANG Chun-ming

        (Liaoning University of International Business and Economics,Dalian 116052, China)

        Abstract: This paper introduces the significance for web usage mining of enterprise web site, Analysis sata source of web usage mining, discussesthe frequent technology,process and function of web usage mining.

        Key words: enterprises Web site, Web usage mining, data source, Web crawling

        1 企業(yè)網站的Web 使用挖掘的意義

        對企業(yè)網站的Web使用信息進行挖掘已經不是對服務器的簡單統(tǒng)計(如頁面訪問次數(shù),日平均訪問人數(shù),最受歡迎頁面等信息)因其已經不能滿足企業(yè)網站設計人員對站點結構和內容優(yōu)化的需求。通過分析企業(yè)網站的日志文件,可以發(fā)現(xiàn)用戶訪問頁面的特征、頁面被用戶訪問的規(guī)律、用戶頻繁訪問的頁組等,以便其合理、有效地優(yōu)化站點的結構和內容,最終為用戶提供一個方便快捷的信息獲取環(huán)境和交易環(huán)境。

        2 企業(yè)網站的Web 使用挖掘的數(shù)據(jù)源

        Web使用挖掘通過分析用戶在網上沖浪的過程或行為所產生的數(shù)據(jù),來發(fā)現(xiàn)用戶訪問Web的行為模式。

        Web使用挖掘所挖掘的數(shù)據(jù)除了來自Web日志文件,還有其他的數(shù)據(jù)來源,例如:用戶實時訪問信息、代理服務器日志、瀏覽器日志、用戶數(shù)據(jù)、注冊數(shù)據(jù)、用戶會話或交易、Cookies、書簽數(shù)據(jù)以及任何用戶同Web進行交互所產生的其他數(shù)據(jù)。

        3 企業(yè)網站的Web 使用挖掘的常用技術

        3.1 路經分析

        路徑分析(Path Analysis)就是要從圖中確定最頻繁的路徑訪問模式或大的參考序列。我們可以用許多不同類型的圖形來進行路徑分析,因為圖形表達了各網頁間定義的關系。最常見的一種是表示網站物理布局的網站結構圖,它把網頁當作結點,把頁面間的超文本鏈接當作連接的邊。還可以根據(jù)網頁類型來生成其他圖形,在這類圖形中,邊代表頁面間的相似度,或者在邊上給出使用該超鏈接的人數(shù)。

        3.2 關聯(lián)規(guī)則

        關聯(lián)規(guī)則(Association Rules)最早是由Agrawal 等人提出的,最初提出的動機是針對購物籃分析問題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則,這些規(guī)則刻畫了顧客購買行為模式,可以用來指導商家科學地安排進貨、庫存以及貨架設計等。

        3.3 序列模式

        序列模式(Sequential Patterns) 在時間戳有序的事務集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。

        序列模式挖掘最早是由Agrawal等人提出的,它的最初動機是想通過帶有交易時間屬性的交易數(shù)據(jù)庫中發(fā)現(xiàn)頻繁項目序列以發(fā)現(xiàn)某一段時間內客戶的購買活動規(guī)律。近年來序列模式挖掘已經成為數(shù)據(jù)挖掘的一個重要方面。

        3.4 分類聚類

        分類算法首先建立一個模型,通過對訓練數(shù)據(jù)的分析,給出預定數(shù)據(jù)類集或概念集的特征描述,然后抽取未知數(shù)據(jù)對象的自身特性,根據(jù)模型中的定義,將其劃分到相對應的類別中。

        聚類(Clustering)是將數(shù)據(jù)對象分組成為多個類或簇(Cluster),在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。相異度是根據(jù)描述對象的屬性值來計算的[。

        3.5 信息獲取技術

        信息獲取是指從網絡收集數(shù)據(jù)的過程。它是進行后續(xù)信息處理、信息服務的基礎。在大規(guī)模內容計算中,信息獲取分為主動獲取和被動獲取。被動獲取通常是將設備介入網絡的特定部位進行獲取。而主動獲取主要是指基于Web(萬維網-World Wide Web)的信息采集(Web Crawling, 簡稱WC),即根據(jù)Web協(xié)議,直接從Web上采集或下載信息。

        Web信息采集技術可以分成:基于整個Web的信息采集(Scalable WC),增量式Web信息采集(Incremental WC),基于主題的Web信息采集(Focused WC),基于用戶個性化的Web信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),遷移的信息采集(Relocatable WC)等等。實際系統(tǒng)往往是以上幾個采集技術的組合。

        4 企業(yè)網站的Web 使用挖掘的過程

        企業(yè)網站的Web使用挖掘是通過挖掘用戶訪問企業(yè)網站時留下的訪問數(shù)據(jù)進行用戶模式發(fā)現(xiàn)和分析的過程。企業(yè)網站的Web使用挖掘的過程一般分為三個階段:數(shù)據(jù)預處理階段、模式發(fā)現(xiàn)階段和模式分析與應用階段。

        Web使用挖掘過程中輸入的數(shù)據(jù)包括服務器日志和遠程代理日志等日志文件。數(shù)據(jù)預處理階段包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充和事務識別等過程。模式發(fā)現(xiàn)階段的任務是對會話或事務數(shù)據(jù)集合運用數(shù)據(jù)挖掘的相關算法進行挖掘,從而發(fā)現(xiàn)隱藏的模式信息。模式分析與應用階段的任務是對挖掘出來的模式進行分析,獲得有用的規(guī)則和知識。

        4.1 數(shù)據(jù)預處理階段

        Web使用挖掘的數(shù)據(jù)預處理階段包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充和事務識別和格式化數(shù)據(jù)等過程。

        4.2 模式發(fā)現(xiàn)階段

        Web使用挖掘經過數(shù)據(jù)預處理階段后,就生成了會話或事務數(shù)據(jù)庫。模式發(fā)現(xiàn)階段也稱為挖掘算法實施階段,它是運用各種技術和算法從預處理后得到的數(shù)據(jù)中挖掘和發(fā)現(xiàn)用戶使用Web的各種潛在的規(guī)律和模式的過程。相關技術必須針對Web使用挖掘領域的特點做出相應的修改和完善才能進行移植。模式發(fā)現(xiàn)階段使用的各種技術和算法有:統(tǒng)計分析(Statistical Analysis)、序列模式(Sequential Pattern)、關聯(lián)規(guī)則(Association Rule)、聚類(Clustering)、分類(Classification)和依賴建模(Dependency Modeling)等方法。

        4.3 模式分析與應用階段

        模式分析與應用階段是整個Web使用挖掘過程的最后一步。此階段的目的是過濾掉模式發(fā)現(xiàn)階段產生的“不感興趣”的規(guī)則和模式。由于Web使用挖掘在大多數(shù)情況下屬于無偏向學習,它可以挖掘出所有的模式和規(guī)則,但是我們不能排除其中有些模式是常識性的、普通的或最終用戶不感興趣的。

        5 企業(yè)網站的Web使用挖掘的功能

        5.1 實現(xiàn)用戶建模

        用戶建模(Modelling Users)是指根據(jù)用戶對一個Web頁面的訪問情況模型化訪問者的自身特性。在識別出訪問者的特性后就可以開展針對性的服務,訪問者建模是個性化服務的基礎和核心。個性化服務技術能夠充分提高站點的服務質量和訪問效率,以吸引更多的訪問者。

        5.2 發(fā)現(xiàn)導航模式

        發(fā)現(xiàn)導航模式(Discovering Navigation Patterns)是Web使用挖掘的一個重要的研究領域。用戶的導航模式是指群體用戶對Web 站點內的頁面的瀏覽順序模式。

        5.3 改進企業(yè)網站訪問效率

        利用Web使用挖掘可以在許多方面改進Web站點的訪問效率(System Improvement Site Modification)。

        5.4 提供個性化服務

        隨著互聯(lián)網的普及和電子商務的發(fā)展,企業(yè)網站的電子商務系統(tǒng)在為用戶提供越來越多選擇的同時,其結構也變得更加復雜,用戶經常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品。在日趨激烈的競爭環(huán)境下,個性化服務是包括電子商務在內的企業(yè)網站提供商爭取更多用戶、防止用戶流失以及實現(xiàn)市場目標的重要手段。

        5.5 商業(yè)智能的發(fā)現(xiàn)

        通過對過去的使用信息特征的挖掘,發(fā)現(xiàn)新的商業(yè)智能,用于指導改進服務和擴展新的盈利點。通過結合日志數(shù)據(jù)和市場數(shù)據(jù)可以和CRM結合,在諸如顧客吸引(Customer Attractin)、顧客保留(Customer Retention)、跨區(qū)銷售(Cross Sales)、顧客離開(Customer Departure)等市場活動中找到相應的最佳對策。

        5.6 用戶移動模式發(fā)現(xiàn)

        利用web使用挖掘進行用戶移動模式發(fā)現(xiàn)可以分為如下三個步驟:

        1) 數(shù)據(jù)收集階段:從各個服務器的日志集合中判斷最大的移動序列和移動對的出現(xiàn)次數(shù)。

        2) 挖掘階段:從第一步的結果集中的每w個最大移動序列中判斷大項移動序列??紤]到新近的移動模式,設w為一個回顧因子,一個可調整的窗口。

        3) 產生模式階段:根據(jù)第二步得到的大項移動序列,判斷用戶的移動模式。

        參考文獻:

        [1] 夏慶,馬元元,孫志輝.路徑遍歷模式挖掘方法的改進.蘭州人學學報(自然科學版),1999,35:370-371.

        [2] 郭巖,白碩.Web使用挖掘綜述[J].計算機科學,2005,32(1).4-8.

        [3] 李盛韜,基于主題的WEB信息采集技術研究,2002年,中科院計算所碩士學位論文.

        [4]. Luotonen.The common log file format.http://www.w3.org/pub/www/,1995.

        [5] G.Adomavicius, A.Tuzhilin. User profiling in personalization applications through rule discovery and validation. Proceedings of the 5th International Conference on Data Mining and Knowledge Discovery, New York. ACM Press,1999.377-381.

        [6] Srivastava J, Cooley R. Discovery and Applications of Usage Patterns from Web Usage Mining[J].SIG KDD Explorations,ACM SIGKDD,2001,2(3).32-45,22.

        [7] JCooley R, Mobasher B. Data preparation for mining world wide web browsing patterns[J].The Journal of Knowledge and Information Systems,1999,1(1):5-20.

        欧美一级特黄AAAAAA片在线看| 一区二区三区在线蜜桃| 成人黄色片久久久大全| 亚洲国产精品成人久久久| 色欲综合一区二区三区| 国产精品无圣光一区二区| 精品国产高清a毛片无毒不卡 | 国产一区二区中文字幕在线观看 | 日本韩无专砖码高清| 久久无码高潮喷水免费看| 经典女同一区二区三区| 亚洲一区二区刺激的视频| 中文字幕乱码熟妇五十中出| 男人无码视频在线观看| 久草国产手机视频在线观看| 日产分东风日产还有什么日产| 色综合久久无码五十路人妻| 男女爽爽无遮挡午夜视频| 在线精品无码一区二区三区| 国产一区二区av在线观看| 亚洲最大成人网站| 免费无码毛片一区二区三区a片| 99综合精品久久| 亚洲一区二区三区在线看| 人人超碰人人爱超碰国产| 野花社区www高清视频| 国产视频不卡在线| 精品人妻日韩中文字幕| 欧美成人秋霞久久aa片| 国产成人www免费人成看片 | 中文字幕亚洲无线码在一区| 亚洲色AV天天天天天天| 亚洲乱码中文字幕一线区| 亚洲成av人影院| 最新无码国产在线播放| 日韩人妻大奶子生活片| 久久久国产精品va麻豆| 精品无码久久久久久久动漫| 国产精品日本一区二区三区| 国产精品无套一区二区久久 | 日韩精品中文字幕 一区|