亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Apriori算法的Web日志挖掘研究

        2013-12-31 00:00:00鐘園園雷麗娟
        電腦迷 2013年11期

        摘 要 本文對(duì)日志挖掘過程中的數(shù)據(jù)預(yù)處理和模式發(fā)現(xiàn)進(jìn)行了深入的討論,總結(jié)了用戶的頻繁訪問路徑,得到了比較理想的結(jié)果。

        關(guān)鍵詞 Web日志挖掘研究 Apriori算法 訪問路徑

        中圖分類號(hào):TP393.07 文獻(xiàn)標(biāo)識(shí)碼:A

        0 引言

        在Web數(shù)據(jù)挖掘中,Web日志挖掘是一個(gè)尤為重要的研究課題,通過Web日志挖掘,可以充分利用Web服務(wù)器上大量的日志文件,從中發(fā)現(xiàn)用戶訪問網(wǎng)站頁面的模型和訪問習(xí)慣,為電子商務(wù)網(wǎng)站管理員優(yōu)化網(wǎng)站頁面結(jié)構(gòu)提供依據(jù),從而為用戶訪問網(wǎng)站時(shí)提供便捷服務(wù)。

        1 Web日志數(shù)據(jù)分布

        Web日志挖掘的數(shù)據(jù)來源主要包括:Web日志、站點(diǎn)拓?fù)浣Y(jié)構(gòu)、站點(diǎn)文件、與站點(diǎn)服務(wù)相關(guān)的數(shù)據(jù)庫數(shù)據(jù)以及其他一些信息等。目前,Web日志挖掘的主要數(shù)據(jù)來源是Web服務(wù)器日志,它完整且詳細(xì)地記錄了網(wǎng)站訪問者的瀏覽行為。

        2 Web日志挖掘的處理過程

        它是通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。

        Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、等一切用戶與站點(diǎn)之間可能的交互記錄。

        3 關(guān)聯(lián)規(guī)則Apriori算法及改進(jìn)

        4 Web日志挖掘系統(tǒng)設(shè)計(jì)及應(yīng)用

        4.1 系統(tǒng)的設(shè)計(jì)思想

        結(jié)合前文討論的Web日志挖掘關(guān)鍵技術(shù)、方法,應(yīng)用改進(jìn)的Apriori算法,開發(fā)一個(gè)Web訪問日志挖掘的測(cè)試系統(tǒng):

        (1)項(xiàng):網(wǎng)站中的每個(gè)頁面為一項(xiàng);

        (2)事務(wù):每個(gè)客戶端IP地址,在會(huì)話持續(xù)時(shí)間的閾值(設(shè)置為30分鐘)范圍內(nèi)訪問的頁面為一條事務(wù);

        (3)事務(wù)數(shù)據(jù)庫的定義:同一天所有客戶端訪問的頁面的集合。

        根據(jù)客戶端IP地址對(duì)會(huì)話識(shí)別過的頁面進(jìn)行處理,將IP地址和該IP地址對(duì)應(yīng)的頁面的集合作為一條事務(wù),根據(jù)用戶輸入的最小支持度和最小可信度,構(gòu)造頻繁項(xiàng)集和產(chǎn)生規(guī)則并將所有的規(guī)則顯示在表格中。

        4.2 開發(fā)環(huán)境的選擇

        系統(tǒng)的開發(fā)語言采用微軟公司推出的開發(fā)Win32應(yīng)用程序的、面向?qū)ο蟮目梢暬晒ぞ遃isual C++6.0。

        后臺(tái)數(shù)據(jù)庫使用微軟公司推出的基于Windows的桌面關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的Access。

        4.3 Web服務(wù)器日志處理

        將Web日志挖掘系統(tǒng)應(yīng)用于學(xué)院網(wǎng)絡(luò)中心的“招生信息網(wǎng)”上,從訪問日志中挖掘出用戶的頻繁訪問路徑?;谶@一目的,結(jié)合實(shí)驗(yàn)條件和自身的技術(shù)水平,對(duì)日志文件數(shù)據(jù)的預(yù)處理主要做了如下工作:

        數(shù)據(jù)清理階段:將日志文件導(dǎo)入數(shù)據(jù)庫后,通過使用SQL把數(shù)據(jù)庫中無關(guān)的數(shù)據(jù)消除,是數(shù)據(jù)庫保持干凈,有利于程序的運(yùn)作。

        用戶識(shí)別階段:IP優(yōu)先考慮,即IP不同代表不同的用戶。

        會(huì)話識(shí)別階段:同一IP地址(該IP可能是用戶的,也可能是代理服務(wù)器的)在一個(gè)時(shí)間段內(nèi)可能會(huì)不只一次訪問網(wǎng)站,需要把同一IP地址用戶的所有訪問序列分割成多個(gè)單獨(dú)的用戶一次訪問的序列,本文采用通用的會(huì)話持續(xù)時(shí)間閾值(=30分鐘)的啟發(fā)式會(huì)話識(shí)別方法。對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理后,生成對(duì)應(yīng)的日志數(shù)據(jù)庫文件Weblog.mdb。

        4.4 Web日志挖掘

        結(jié)果分析:Web日志挖掘?qū)嶒?yàn)結(jié)果表明,訪問招生網(wǎng)主頁的有六成訪問者訪問留言版信息,有五成多的人員訪問專業(yè)設(shè)置頁面和招生信息,依次類推。

        參考文獻(xiàn)

        [1] 孔昊,周長勝.Web日志挖掘預(yù)處理研究[J].北京機(jī)械工業(yè)學(xué)院學(xué)報(bào),2005(04).

        久久免费精品日本久久中文字幕 | 人妻被猛烈进入中文字幕| 国产精品6| 国产精品一区成人亚洲| 亚洲中文字幕乱码一二三| 久久亚洲日韩精品一区二区三区| 日本大尺度吃奶呻吟视频| 色拍拍在线精品视频| 99日本亚洲黄色三级高清网站| 亚洲高清一区二区精品| av剧情演绎福利对白| 高h小月被几个老头调教| 男人进去女人爽免费视频| 四川老熟女下面又黑又肥| 免费无码中文字幕A级毛片| 狠狠亚洲超碰狼人久久老人| 蜜桃高清视频在线看免费1| 久久久久久久久毛片精品| 国产精品户露av在线户外直播| 国产360激情盗摄一区在线观看| 国产精品亚洲av一区二区三区| 中国男男女在线免费av| 老师开裆丝袜喷水视频| 狠狠色综合网站久久久久久久| AⅤ无码精品视频| 杨幂一区二区系列在线| 99精品国产在热久久无码| 91国视频| 白白色青青草视频免费观看| 亚洲av永久无码精品网站| 日本护士吞精囗交gif| 欧美亚洲尤物久久综合精品| 国产视频一区二区三区免费| 全免费a级毛片免费看无码| av无码免费永久在线观看| 国产丰满乱子伦无码专| 国产精品亚洲av高清二区| 激情第一区仑乱| 欧洲色综合| 成人无码激情视频在线观看| 日本一区二区三区四区啪啪啪|