亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用初探

        2011-09-19 08:46:30肖宏飛
        關(guān)鍵詞:瀏覽者日志頁(yè)面

        肖宏飛

        (滁州職業(yè)技術(shù)學(xué)院,安徽滁州239000)

        Web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用初探

        肖宏飛

        (滁州職業(yè)技術(shù)學(xué)院,安徽滁州239000)

        本文分析了傳統(tǒng)網(wǎng)站系統(tǒng)的現(xiàn)狀及其弊端,針對(duì)這些問題提出使用web日志挖掘技術(shù),對(duì)網(wǎng)站瀏覽者的行為進(jìn)行分析,并在此基礎(chǔ)上對(duì)瀏覽者訪問網(wǎng)站的行為進(jìn)行預(yù)測(cè),從而為瀏覽者提供個(gè)性化的訪問頁(yè)面,提供訪問者的檢索效率,同時(shí)根據(jù)對(duì)瀏覽者訪問記錄的web日志挖掘結(jié)果,改進(jìn)網(wǎng)站結(jié)構(gòu)及功能設(shè)計(jì)。

        web日志挖掘;個(gè)性化;網(wǎng)站改進(jìn)

        一、概述

        隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的廣泛應(yīng)用,網(wǎng)站的數(shù)量已經(jīng)數(shù)以億計(jì),各式各樣的網(wǎng)站系統(tǒng)也層出不窮,其功能也越來越多,但大多數(shù)網(wǎng)站系統(tǒng)卻不能真正完全適應(yīng)瀏覽者的要求。其原因主要是忽視了瀏覽者日志這一重要信息,沒有給出針對(duì)日志信息的個(gè)性化服務(wù),降低了瀏覽者的訪問速率。

        所謂的個(gè)性化網(wǎng)站服務(wù),就是一種有針對(duì)性的網(wǎng)站服務(wù)方式,根據(jù)用戶瀏覽習(xí)慣來設(shè)定,依據(jù)web日志對(duì)瀏覽者的興趣愛好、瀏覽習(xí)慣、關(guān)注資訊等相關(guān)資源,向用戶提供和推薦相關(guān)信息,以滿足用戶的需求。從整體上說,個(gè)性化網(wǎng)站服務(wù)打破了傳統(tǒng)的讓用戶來適應(yīng)網(wǎng)站系統(tǒng)的模式,能充分利用各種網(wǎng)絡(luò)資源優(yōu)勢(shì),主動(dòng)開展以滿足用戶個(gè)性化需求為目的的全方位的web服務(wù)。個(gè)性化網(wǎng)站服務(wù)是一種網(wǎng)絡(luò)信息服務(wù)的方式,開展網(wǎng)站個(gè)性化服務(wù)是提供信息檢索和信息資源有效使用的重要手段,突出了網(wǎng)站信息服務(wù)的主動(dòng)性,開拓了網(wǎng)站信息服務(wù)的新思路。

        二、w eb日志挖掘介紹

        隨著internet的飛速發(fā)展,大量的數(shù)據(jù)囤積在互聯(lián)網(wǎng)上,在數(shù)據(jù)背后隱含著重要的知識(shí)。如何從互聯(lián)網(wǎng)數(shù)據(jù)中提取有用的信息,已成為當(dāng)今計(jì)算機(jī)技術(shù)研究的一個(gè)熱點(diǎn)課題。按照挖掘?qū)ο蟮牟煌?,一般將web挖掘分為3大類:web內(nèi)容挖掘、web結(jié)構(gòu)挖掘和web日志挖掘。

        Web日志挖掘是對(duì)用戶訪問web時(shí)在服務(wù)器上面留下的訪問日志進(jìn)行挖掘,即對(duì)用戶訪問web站點(diǎn)的存取方式進(jìn)行挖掘,發(fā)現(xiàn)用戶的訪問模式和興趣愛好等信息和知識(shí)。挖掘的目的是在海量的網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)、快速地發(fā)現(xiàn)用戶的訪問模式,如訪問路徑、檢索信息、用戶聚類等。分析和探索web日志記錄中的規(guī)律,可以識(shí)別網(wǎng)站的潛在用戶,增強(qiáng)對(duì)用戶的信息服務(wù)質(zhì)量,并通過對(duì)web日志的分析改進(jìn)網(wǎng)站結(jié)構(gòu)。web日志挖掘過程如下圖1所示。

        圖1 w eb日志挖掘過程

        三、web日志挖掘在個(gè)性化網(wǎng)站中的應(yīng)用

        下面以一個(gè)《網(wǎng)站動(dòng)畫設(shè)計(jì)》課程網(wǎng)站為例來說明web日志挖掘的應(yīng)用。該網(wǎng)站主要欄目有:教學(xué)課件、實(shí)例視頻、教學(xué)大綱、作品展示、素材下載、在線答疑等,訪問者主要為滁州職業(yè)技術(shù)學(xué)院信息工程系08級(jí)圖形圖像專業(yè)學(xué)生,網(wǎng)站采用學(xué)號(hào)注冊(cè)方式進(jìn)行訪問。根據(jù)學(xué)員的訪問記錄,在學(xué)員下次再訪問該網(wǎng)站時(shí),推薦學(xué)員感興趣的知識(shí)點(diǎn)和相關(guān)資訊,以滿足不同興趣、不同訪問目的的學(xué)員的需求,從而實(shí)現(xiàn)主動(dòng)推薦的目的。網(wǎng)站結(jié)構(gòu)如下圖2所示。

        圖2 《網(wǎng)站動(dòng)畫設(shè)計(jì)》網(wǎng)站結(jié)構(gòu)圖

        (一)數(shù)據(jù)收集及預(yù)處理

        瀏覽者在訪問網(wǎng)站時(shí)會(huì)留下很多信息,如訪問IP、訪問時(shí)間、離開時(shí)間、所請(qǐng)求URL資源、訪問的HTTP狀態(tài)碼、客戶端瀏覽軟件等。在網(wǎng)站服務(wù)器上的原始的web日志中,不是所有的訪問日志記錄對(duì)于web日志使用數(shù)據(jù)挖掘都是有用的,進(jìn)行web日志挖掘只需要對(duì)包含有用信息的日志記錄進(jìn)行挖掘,因此要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理是Web日志挖掘的重要環(huán)節(jié),其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式,預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過程,使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充四個(gè)步驟。

        1、數(shù)據(jù)凈化

        所謂數(shù)據(jù)凈化,是指將等待處理的web日志數(shù)據(jù)導(dǎo)入到相關(guān)的關(guān)系數(shù)據(jù)表中,刪除web日志數(shù)據(jù)中不正確的值或者缺失值等信息,同時(shí)把與web日志挖掘無關(guān)的變量和數(shù)據(jù)進(jìn)行清理,達(dá)到簡(jiǎn)化數(shù)據(jù)挖掘過程的目的。在本例中我們只保留了用戶名、時(shí)間、瀏覽地址等信息。

        2、用戶識(shí)別

        用戶識(shí)別,是將瀏覽者和訪問頁(yè)面相關(guān)聯(lián)的過程。從web日志數(shù)據(jù)信息中找出每個(gè)瀏覽者的訪問信息,避免web日志挖掘的重復(fù)性。目前,由于本地緩存、代理服務(wù)器和防火墻的存在,使得識(shí)別用戶的過程變得復(fù)雜。由于學(xué)院內(nèi)部采用統(tǒng)一代理IP上網(wǎng),所以所有學(xué)員的IP地址都是一樣的,由于網(wǎng)站采用學(xué)號(hào)注冊(cè)登錄,因此識(shí)別學(xué)員信息非常簡(jiǎn)單。通過表1我們可以直觀的得出有三個(gè)學(xué)員在訪問。訪問路徑分別是首頁(yè)-視頻-習(xí)題-首頁(yè)-資源,首頁(yè)-在線答疑-首頁(yè)-資源和首頁(yè)-習(xí)題-首頁(yè)-資源。如下表1所示。

        表1 原始日志信息(截取部分信息)

        3、會(huì)話識(shí)別

        會(huì)話識(shí)別是指同一個(gè)瀏覽者在一段時(shí)間內(nèi)連續(xù)請(qǐng)求訪問的頁(yè)面進(jìn)行分析所得到的用戶會(huì)話。例如,時(shí)間跨度超過了規(guī)定的界限,則認(rèn)為是新的會(huì)話開始。會(huì)話識(shí)別的目的是將用戶的訪問序列分成單個(gè)的訪問序列,以便為web數(shù)據(jù)挖掘打下基礎(chǔ)。通過表1我們可以可將會(huì)話分為首頁(yè)-視頻-習(xí)題、首頁(yè)-在線答疑、首頁(yè)-習(xí)題-首頁(yè)-資源和首頁(yè)-資源四個(gè)會(huì)話。

        4、補(bǔ)充路徑

        補(bǔ)充路徑,指通過web日志數(shù)據(jù)推斷出讀取緩存網(wǎng)頁(yè)的情況。由于客戶端緩存和代理服務(wù)器緩存,使得服務(wù)器的日志通常會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。用戶瀏覽頁(yè)面時(shí)很可能使用瀏覽器的前進(jìn)和后退按鈕,或者使用一個(gè)曾經(jīng)點(diǎn)擊過的鏈接,導(dǎo)致當(dāng)前請(qǐng)求的頁(yè)面與上一次請(qǐng)求的頁(yè)面直接沒有超級(jí)鏈接。此時(shí)應(yīng)該根據(jù)用戶訪問路徑的前后頁(yè)進(jìn)行推斷,檢查引用web日志確定當(dāng)前請(qǐng)求來自哪一個(gè)頁(yè)面,并將遺漏的頁(yè)面補(bǔ)充在路徑里。通過表1的分析我們可以得出,資源頁(yè)面和習(xí)題頁(yè)面不能相互直接達(dá)到,而是通過了首頁(yè)作為中轉(zhuǎn),形成完整的用戶會(huì)話。

        (二)模式識(shí)別

        模式識(shí)別,是對(duì)預(yù)處理后的web日志數(shù)據(jù)用數(shù)據(jù)挖掘算法來分析處理數(shù)據(jù),也就是對(duì)用戶的每一次訪問序列集合進(jìn)行語(yǔ)義分組,分割成多個(gè)邏輯單元,為每個(gè)用戶建立有意義的數(shù)據(jù)聚集,然后把處理結(jié)果轉(zhuǎn)化為適合web日志挖掘所需的形式。

        (三)模式分析與應(yīng)用

        模式分析的目的在于使用各種數(shù)據(jù)挖掘技術(shù),發(fā)掘出隱藏在數(shù)據(jù)背后的規(guī)律和通用的模式。通過對(duì)原始數(shù)據(jù)做分析,找出用戶的瀏覽規(guī)律,為網(wǎng)站的規(guī)劃和網(wǎng)站結(jié)構(gòu)的調(diào)整提供具體理論依據(jù)。通過對(duì)圖2和表1的分析,我們可以看到,學(xué)員在訪問視頻頁(yè)面的同時(shí),大部分會(huì)同時(shí)訪問習(xí)題頁(yè)面,這樣我們就可以在學(xué)員下次打開視頻頁(yè)面的時(shí)候,同時(shí)推薦相應(yīng)的習(xí)題資源,以便更好的為學(xué)員的學(xué)習(xí)開展針對(duì)性的教學(xué)。

        四、結(jié)束語(yǔ)

        現(xiàn)在web日志挖掘已經(jīng)成為網(wǎng)絡(luò)研究、數(shù)據(jù)挖掘、個(gè)性化推薦等領(lǐng)域的熱點(diǎn)問題。研究web日志挖掘?qū)τ趦?yōu)化web站點(diǎn)、個(gè)性化學(xué)習(xí)、信息檢索等領(lǐng)域,都有著十分重要的意義。本文簡(jiǎn)要的介紹了web日志挖掘?qū)τ趥€(gè)性化網(wǎng)站建設(shè)中的應(yīng)用。如何將這些技術(shù)深入、完善,并盡快運(yùn)用到網(wǎng)絡(luò)中,還需要進(jìn)一步的研究。

        [1]王麗娜.Web日志挖掘技術(shù)研究.光盤技術(shù)[J].2008,(4).

        [2]高哲,魏海平,王福威,趙曉碧.基于Web日志挖掘的Web文檔聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,(9).

        [3]Richard J.Roiger,Michael W.Geatz.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2003.

        [4]李珊,袁方.基于Web日志挖掘的頁(yè)面興趣度方法的改進(jìn)[J].計(jì)算機(jī)時(shí)代,2007,(3).

        TP393.18

        A

        1671-5993(2011)01-0065-02

        2010-03-08

        肖宏飛(1983-),男,安徽蚌埠人,合肥工業(yè)大學(xué)在讀研究生,滁州職業(yè)技術(shù)學(xué)院教師。

        猜你喜歡
        瀏覽者日志頁(yè)面
        大狗熊在睡覺
        刷新生活的頁(yè)面
        一名老黨員的工作日志
        淺析網(wǎng)頁(yè)設(shè)計(jì)中色彩的運(yùn)用
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        新媒體界面設(shè)計(jì)中視覺傳達(dá)的效率問題研究
        游學(xué)日志
        淺析教學(xué)網(wǎng)站中視覺傳達(dá)設(shè)計(jì)的體現(xiàn)
        大眾文藝(2014年5期)2014-03-12 02:09:59
        一種基于粗集和SVM的Web日志挖掘模型
        Flash動(dòng)畫設(shè)計(jì)在網(wǎng)站中的應(yīng)用
        成年男人裸j照无遮挡无码| 亚洲熟妇少妇任你躁在线观看无码 | 亚洲福利天堂网福利在线观看| 免费看黄在线永久观看| 亚洲av综合国产av日韩| 久久午夜夜伦鲁鲁片免费无码| 99久久综合精品五月天| 中文字幕一区二区va| 国产农村妇女精品一区| 色偷偷噜噜噜亚洲男人| 亚洲av无码片在线播放| 日本大片在线一区二区三区| 久久精品中文少妇内射| 强行无套内谢大学生初次| 欧美亚洲国产人妖系列视| 热综合一本伊人久久精品| 亚洲va中文字幕无码一二三区| 亚洲旡码a∨一区二区三区| 中文无码日韩欧免费视频| 日本高清一区二区不卡| 亚洲 欧美 国产 制服 动漫| 熟妇与小伙子matur老熟妇e | 国产女主播视频一区二区三区| 人妻少妇不满足中文字幕| 日韩一卡2卡3卡4卡新区亚洲| 女高中生自慰污免费网站| 国产激情在线观看视频网址| 狠狠摸狠狠澡| 精品性高朝久久久久久久| 亚洲av色香蕉一区二区蜜桃| 最好看的亚洲中文字幕| 中文亚洲欧美日韩无线码 | 亚洲av无码国产剧情| h动漫尤物视频| 91精品国产综合久久久蜜| 无码国模国产在线观看| 中文字幕一区二区三区在线不卡| 美腿丝袜视频在线观看| 免费国产成人肉肉视频大全| 日韩另类在线| 亚洲大胆视频在线观看|