亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Apriori算法的Web日志挖掘研究

2013-12-31 00:00:00鐘園園雷麗娟

電腦迷 2013年11期

摘要本文對(duì)日志挖掘過程中的數(shù)據(jù)預(yù)處理和模式發(fā)現(xiàn)進(jìn)行了深入的討論，總結(jié)了用戶的頻繁訪問路徑，得到了比較理想的結(jié)果。

關(guān)鍵詞 Web日志挖掘研究 Apriori算法訪問路徑

中圖分類號(hào)：TP393.07 文獻(xiàn)標(biāo)識(shí)碼：A

0 引言

在Web數(shù)據(jù)挖掘中，Web日志挖掘是一個(gè)尤為重要的研究課題，通過Web日志挖掘，可以充分利用Web服務(wù)器上大量的日志文件，從中發(fā)現(xiàn)用戶訪問網(wǎng)站頁面的模型和訪問習(xí)慣，為電子商務(wù)網(wǎng)站管理員優(yōu)化網(wǎng)站頁面結(jié)構(gòu)提供依據(jù)，從而為用戶訪問網(wǎng)站時(shí)提供便捷服務(wù)。

1 Web日志數(shù)據(jù)分布

Web日志挖掘的數(shù)據(jù)來源主要包括：Web日志、站點(diǎn)拓?fù)浣Y(jié)構(gòu)、站點(diǎn)文件、與站點(diǎn)服務(wù)相關(guān)的數(shù)據(jù)庫數(shù)據(jù)以及其他一些信息等。目前，Web日志挖掘的主要數(shù)據(jù)來源是Web服務(wù)器日志，它完整且詳細(xì)地記錄了網(wǎng)站訪問者的瀏覽行為。

2 Web日志挖掘的處理過程

它是通過挖掘相關(guān)的Web日志記錄，來發(fā)現(xiàn)用戶訪問Web頁面的模式，通過分析日志記錄中的規(guī)律，可以識(shí)別用戶的喜好、滿意度，可以發(fā)現(xiàn)潛在用戶，增強(qiáng)站點(diǎn)的服務(wù)競爭力。

Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外，還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、等一切用戶與站點(diǎn)之間可能的交互記錄。

3 關(guān)聯(lián)規(guī)則Apriori算法及改進(jìn)

4 Web日志挖掘系統(tǒng)設(shè)計(jì)及應(yīng)用

4.1 系統(tǒng)的設(shè)計(jì)思想

結(jié)合前文討論的Web日志挖掘關(guān)鍵技術(shù)、方法，應(yīng)用改進(jìn)的Apriori算法，開發(fā)一個(gè)Web訪問日志挖掘的測(cè)試系統(tǒng)：

（1）項(xiàng)：網(wǎng)站中的每個(gè)頁面為一項(xiàng)；

（2）事務(wù)：每個(gè)客戶端IP地址，在會(huì)話持續(xù)時(shí)間的閾值（設(shè)置為30分鐘）范圍內(nèi)訪問的頁面為一條事務(wù)；

（3）事務(wù)數(shù)據(jù)庫的定義：同一天所有客戶端訪問的頁面的集合。

根據(jù)客戶端IP地址對(duì)會(huì)話識(shí)別過的頁面進(jìn)行處理，將IP地址和該IP地址對(duì)應(yīng)的頁面的集合作為一條事務(wù)，根據(jù)用戶輸入的最小支持度和最小可信度，構(gòu)造頻繁項(xiàng)集和產(chǎn)生規(guī)則并將所有的規(guī)則顯示在表格中。

4.2 開發(fā)環(huán)境的選擇

系統(tǒng)的開發(fā)語言采用微軟公司推出的開發(fā)Win32應(yīng)用程序的、面向?qū)ο蟮目梢暬晒ぞ遃isual C++6.0。

后臺(tái)數(shù)據(jù)庫使用微軟公司推出的基于Windows的桌面關(guān)系數(shù)據(jù)庫管理系統(tǒng)（RDBMS）的Access。

4.3 Web服務(wù)器日志處理

將Web日志挖掘系統(tǒng)應(yīng)用于學(xué)院網(wǎng)絡(luò)中心的“招生信息網(wǎng)”上，從訪問日志中挖掘出用戶的頻繁訪問路徑?；谶@一目的，結(jié)合實(shí)驗(yàn)條件和自身的技術(shù)水平，對(duì)日志文件數(shù)據(jù)的預(yù)處理主要做了如下工作：

數(shù)據(jù)清理階段：將日志文件導(dǎo)入數(shù)據(jù)庫后，通過使用SQL把數(shù)據(jù)庫中無關(guān)的數(shù)據(jù)消除，是數(shù)據(jù)庫保持干凈，有利于程序的運(yùn)作。

用戶識(shí)別階段：IP優(yōu)先考慮，即IP不同代表不同的用戶。

會(huì)話識(shí)別階段：同一IP地址（該IP可能是用戶的，也可能是代理服務(wù)器的）在一個(gè)時(shí)間段內(nèi)可能會(huì)不只一次訪問網(wǎng)站，需要把同一IP地址用戶的所有訪問序列分割成多個(gè)單獨(dú)的用戶一次訪問的序列，本文采用通用的會(huì)話持續(xù)時(shí)間閾值（=30分鐘）的啟發(fā)式會(huì)話識(shí)別方法。對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理后，生成對(duì)應(yīng)的日志數(shù)據(jù)庫文件Weblog.mdb。

4.4 Web日志挖掘

結(jié)果分析：Web日志挖掘?qū)嶒?yàn)結(jié)果表明，訪問招生網(wǎng)主頁的有六成訪問者訪問留言版信息，有五成多的人員訪問專業(yè)設(shè)置頁面和招生信息，依次類推。

參考文獻(xiàn)

[1] 孔昊，周長勝.Web日志挖掘預(yù)處理研究[J].北京機(jī)械工業(yè)學(xué)院學(xué)報(bào)，2005（04）.

電腦迷2013年11期

電腦迷的其它文章: 基于臨床檢驗(yàn)過程的質(zhì)量控制分析; 基于多元智能理論下的閱讀教學(xué); 基于化學(xué)綠色環(huán)保實(shí)驗(yàn)理念的培養(yǎng); 淺議農(nóng)村集體資產(chǎn)改制工作; 高職藝術(shù)設(shè)計(jì)類專業(yè)創(chuàng)新型人才培養(yǎng)模式的探索與實(shí)踐; 淺議高職英語教學(xué)中的英語國家文化意識(shí)培養(yǎng)