亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web日志挖掘數(shù)據(jù)預(yù)處理的研究

        2009-10-26 09:35:10馬世軍
        新媒體研究 2009年13期
        關(guān)鍵詞:頁面數(shù)據(jù)挖掘用戶

        姚 建 馬世軍 喬 文

        [摘要]Web日志挖掘技術(shù)是Web數(shù)據(jù)挖掘中最重要的應(yīng)用。通過對(duì)挖掘服務(wù)器日志文件的分析和研究,可以對(duì)網(wǎng)站的組織結(jié)構(gòu)及其性能進(jìn)行改進(jìn),增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的讀者群體。數(shù)據(jù)預(yù)處理關(guān)系到Web日志挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、格式化數(shù)據(jù)。

        [關(guān)鍵詞]數(shù)據(jù)挖掘Web日志挖掘數(shù)據(jù)預(yù)處理

        中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0710035-01

        一、引言

        目前,基于Web日志的數(shù)據(jù)挖掘研究大致分為3類:以分析系統(tǒng)性能為目標(biāo),以改進(jìn)系統(tǒng)設(shè)計(jì)為目標(biāo),以理解用戶意圖為目標(biāo)。Web日志挖掘主要分為3個(gè)步驟:

        1.數(shù)據(jù)預(yù)處理。根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取,分解,合并,最后轉(zhuǎn)換為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進(jìn)一步處理。

        2.模式識(shí)別。運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。

        3.模式分析。進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來。數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。他是從大量的數(shù)據(jù)屬性中提取出對(duì)目標(biāo)有重要影響的屬性來降低原始數(shù)據(jù)的維數(shù),或者是處理一些不好的數(shù)據(jù),從而改善實(shí)例數(shù)據(jù)的質(zhì)量和提高數(shù)據(jù)挖掘的速度。

        二、Web日志文件

        Web日志文件是Web服務(wù)器上用以記錄用戶訪問頁面情況的文件。日志記錄最主要的記錄了什么人在什么時(shí)候?yàn)g覽了哪些內(nèi)容、網(wǎng)站的流量和訪問者信息等。不同Web服務(wù)器產(chǎn)品的日志記錄格式不同,但通常日志文件都包括訪問者IP或者域名、瀏覽器類型、操作系統(tǒng)訪問時(shí)間、訪問方式(GET/POST)、訪問頁面協(xié)議、錯(cuò)誤代碼以及傳輸?shù)淖止?jié)數(shù)等信息。

        表2.1訪問日志、引用日志、代理日志的例子

        訪問日志一般包括:IP地址、請(qǐng)求時(shí)間、方法(如GET,POST)、被請(qǐng)求文件的URL、HTTP版本號(hào)、返回碼、傳輸字節(jié)數(shù)。表2.1的訪問日志表示從IP地址為202.117.1.2來的用戶請(qǐng)求傳輸文件resource.html,使用的傳輸協(xié)議是HTTP1.1。用戶也許并沒有登錄在IP地址為202.117.1.2的機(jī)器上,可能只是把這臺(tái)機(jī)器當(dāng)作代理服務(wù)器或網(wǎng)關(guān)。本次請(qǐng)求成功傳輸782字節(jié),200為返回碼。

        引用日志記錄了用戶發(fā)出當(dāng)前請(qǐng)求時(shí)所在頁面的URL,表2.1的引用日志表示用戶當(dāng)前請(qǐng)求頁面“resource.html”,用戶發(fā)出這個(gè)請(qǐng)求是通過點(diǎn)擊http://cjc.lytu.edu.cn/flink/left.htm頁面上的某個(gè)超鏈接或者瀏覽器自動(dòng)下載這個(gè)頁面所包含的附屬文件。

        代理日志記錄用戶使用的操作系統(tǒng)以及瀏覽器類型引用日志。表2.1的代理日志表示客戶端的操作系統(tǒng)為WindowsNT,瀏覽器為微軟的IE5.01。

        三、Web日志數(shù)據(jù)預(yù)處理過程

        由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)是雜亂的,Web日志預(yù)處理是在Web日志挖掘前,對(duì)Web日志所記錄的數(shù)據(jù)進(jìn)行清理、過濾以及重新組合的過程。Web日志預(yù)處理的目的是剔除日志中對(duì)挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的保存形式。

        1.數(shù)據(jù)清理。數(shù)據(jù)預(yù)處理的首要任務(wù)就是數(shù)據(jù)清理。數(shù)據(jù)清理就是去掉Web日志中一些不能反映用戶行為的記錄,Web日志挖掘的目的是獲得用戶的行為模式,并不關(guān)心那些用戶沒有直接請(qǐng)求的文件。只有當(dāng)服務(wù)器日志表示的數(shù)據(jù)能夠準(zhǔn)確的反映用戶訪問Web站點(diǎn)的情況時(shí),經(jīng)過挖掘得到的模式規(guī)則才是真正有用的。

        2.用戶識(shí)別。接下來,唯一的用戶必須被標(biāo)識(shí)出來,也就是說要識(shí)別出來具體的用戶。這一任務(wù)因?yàn)楸镜鼐彺?、公司防火墻和代理服?wù)器的存在變得復(fù)雜。依賴用戶的合作是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進(jìn)行。一般最常被Web日志挖掘工具使用的技術(shù)就是基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識(shí)別用戶。

        3.會(huì)話識(shí)別。對(duì)于上一步標(biāo)識(shí)出的用戶所有的訪問序列,它們可能超越了很長的時(shí)間段,因此可能用戶在這個(gè)時(shí)間段內(nèi)不止一次訪問了該網(wǎng)站。會(huì)話識(shí)別的目的就是將用戶的所有訪問序列分成多個(gè)單獨(dú)的用戶一次訪問序列。為了獲得這個(gè)劃分,一個(gè)最簡單的方法就是定義一個(gè)時(shí)間段,如果用戶請(qǐng)求的相鄰的任意兩個(gè)頁面之間的訪問時(shí)間間隔超過了這個(gè)時(shí)間段,則認(rèn)為用戶又開始了一個(gè)新的會(huì)話,許多商業(yè)數(shù)據(jù)挖掘軟件將缺省超時(shí)值確定為30分鐘,超時(shí)的界限可以根據(jù)站點(diǎn)的使用統(tǒng)計(jì)反饋的結(jié)果進(jìn)行調(diào)節(jié),直到可以更準(zhǔn)確地識(shí)別會(huì)話。

        4.路徑補(bǔ)充。檢查引用日志確定當(dāng)前請(qǐng)求來自哪一頁,如果在用戶的歷史記錄上有多個(gè)頁面都包含與當(dāng)前請(qǐng)求頁的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁的頁面作為當(dāng)前請(qǐng)求的來源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請(qǐng)求添加到用戶的會(huì)話文件中。

        5.事務(wù)識(shí)別。事務(wù)識(shí)別是對(duì)用戶會(huì)話進(jìn)行語義分組分割后事務(wù)的具體意義是:用戶為獲得一項(xiàng)有意義的信息所點(diǎn)擊的頁面序列。

        6.格式化數(shù)據(jù)。一旦得到一組事務(wù)集后,我們需要處理結(jié)果表示城市和挖掘需要的形式。例如,時(shí)間屬性對(duì)于關(guān)聯(lián)規(guī)則挖掘是沒有什么作用的,我們可以忽略元組中的時(shí)間屬性,而把它格式化成適合于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的形式。上面已經(jīng)詳細(xì)介紹了Web日志數(shù)據(jù)預(yù)處理的過程及采用的技術(shù),在實(shí)際的應(yīng)用中,可以根據(jù)挖掘任務(wù)的需要,對(duì)數(shù)據(jù)預(yù)處理過程進(jìn)行簡化或者細(xì)化。

        四、結(jié)束語

        數(shù)據(jù)的預(yù)處理工作是至關(guān)重要的一步。他既要保證信息無失真的轉(zhuǎn)換,又要保證過濾刪除掉某些對(duì)以后挖掘無影響的數(shù)據(jù)。針對(duì)一般的Web日志挖掘,提出了一種通用的Web日志挖掘的數(shù)據(jù)預(yù)處理模型,他可以針對(duì)不同類型的Web日志挖掘,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理工作。

        參考文獻(xiàn):

        [1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:電子工業(yè)出版社,2004:36-39.

        [2]段曉峰、熊忠陽,網(wǎng)站日志的數(shù)據(jù)挖掘[D].重慶:重慶大學(xué),2003.

        猜你喜歡
        頁面數(shù)據(jù)挖掘用戶
        大狗熊在睡覺
        刷新生活的頁面
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        如何獲取一億海外用戶
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        免费看美女被靠的网站| 美利坚合众国亚洲视频| 老熟女富婆激情刺激对白| 日本护士xxxx视频| 自拍偷自拍亚洲精品播放| 超碰观看| 亚洲女厕偷拍一区二区| 亚洲av网一区二区三区| 亚洲xxxx做受欧美| 人妻无码人妻有码不卡| 亚洲熟女天堂av一区二区三区| 亚洲综合天堂av网站在线观看| 欧美野外疯狂做受xxxx高潮| 国产成人免费一区二区三区| 日本顶级片一区二区三区| 国产在线无码一区二区三区视频| 欧美大肥婆大肥bbbbb| 国产激情在观看| 国产在线观看免费不卡视频| 99re6在线视频精品免费下载| 国产精品无码av一区二区三区| 国产偷2018在线观看午夜| 一区二区国产视频在线| 妺妺窝人体色777777| 手机在线看永久av片免费| 亚洲综合色婷婷久久| 日本午夜艺术一区二区| 先锋中文字幕在线资源| 亚洲AV无码一区二区三区日日强| 久久人妻少妇中文字幕| 国产在线一区二区三区乱码| 免费观看的a级毛片的网站| 国产精品大屁股1区二区三区| 亚洲五码av在线观看| 一本久久综合亚洲鲁鲁五月天 | 久久久精品亚洲一区二区国产av| 亚洲人成电影在线播放| 少妇无码av无码去区钱| 男人一插就想射的原因| 国产亚洲美女精品久久久2020| 麻豆精品久久久久久久99蜜桃 |