摘 要 在數(shù)據(jù)挖掘系統(tǒng)中引用web服務,使復雜的算法庫開發(fā)簡單化,為動態(tài)管理算法庫帶來了便利。基于web的數(shù)據(jù)挖掘系統(tǒng)使任何語言都能夠?qū)?shù)據(jù)挖掘算法封裝到web中,與程序設(shè)計的語言分離,最大化的實現(xiàn)了算法設(shè)計的自由性。因此,基于web的數(shù)據(jù)挖掘系統(tǒng)具有非常重要的作用。
關(guān)鍵詞 web 數(shù)據(jù)挖掘 系統(tǒng) 設(shè)計
中圖分類號:TP311.13 文獻標識碼:A
Web數(shù)據(jù)挖掘由于其優(yōu)良的特性,被廣泛的應用于電子商務和企業(yè)的決策中。目前,企業(yè)管理客戶的主要方式就是通過web管理,企業(yè)針對客戶的訪問情況和訪問歷史,為不同的客戶提供不同的個性化服務。Web還可以用作企業(yè)與客戶間的交流工具,企業(yè)通過web實時與客戶進行互動,以及時了解客戶的喜好。Web由于具有較低的成本,在企業(yè)的推廣中應用也很廣泛。企業(yè)面臨的最大問題是如何從web大量的信息庫中提取有利于企業(yè)發(fā)展的信息。
1數(shù)據(jù)挖掘系統(tǒng)的概述
Web數(shù)據(jù)挖掘是指用數(shù)據(jù)挖掘的方法對用戶訪問信息、web頁面內(nèi)容、電子商務交易信息、用戶注冊信息、站點拓撲結(jié)構(gòu)等方面的數(shù)據(jù)進行挖掘和分析,并找出有用的信息的過程。人們可以利用web挖掘發(fā)現(xiàn)有用的信息、為客戶提供個性化的服務、改善站點的設(shè)計等等,web挖掘的方法可以分為結(jié)構(gòu)挖掘、內(nèi)容挖掘、使用挖掘三種方式。其中,web結(jié)構(gòu)挖掘指的是從web的鏈接關(guān)系和組織結(jié)構(gòu)中對知識進行推導的過程。Web中包含的有用的信息不僅僅是頁面上的內(nèi)容,其結(jié)構(gòu)中也包含著大量有用的信息,需要對其結(jié)構(gòu)進行推導才能發(fā)現(xiàn)。Web內(nèi)容挖掘指的是對web頁面的內(nèi)容進行挖掘以找到有用的信息。Web使用挖掘指的是對客戶在web服務器上進行訪問的記錄通過web日志等方法進行挖掘。
2web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計
Web數(shù)據(jù)挖掘表現(xiàn)出顯著的優(yōu)勢,因此,基于web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計也必然能夠更好滿足企業(yè)推廣一個用需求,而在設(shè)計數(shù)據(jù)挖掘系統(tǒng)的過程中也應當充分考慮每一個步驟,以確保設(shè)計的合理性。
3數(shù)據(jù)收集
Web數(shù)據(jù)挖掘需要挖掘的數(shù)據(jù)主要分兩方面,即用戶的活動使用信息以及web頁面上包含的頁面拓撲結(jié)構(gòu)和文檔。用戶的活動使用信息主要表現(xiàn)為用戶在企業(yè)網(wǎng)站的數(shù)據(jù)庫的在線注冊、交易信息、電子郵件查詢、響應數(shù)據(jù)和活動信息,通常是記錄的形式。Web頁面上包含的頁面拓撲結(jié)構(gòu)和文檔主要表現(xiàn)為web服務器的Cookies、日志文件和Error Logs。通常web服務器的日志文件中包括用戶瀏覽網(wǎng)頁的順序和鏈接的點擊順序,例如用戶使用的時間和日期、請求的類型和狀態(tài)、主機的地址以及發(fā)送的字節(jié)數(shù)等。數(shù)據(jù)的收集過程就是從web服務器日志文件中提取有用的信息并對客戶的活動信息進行分析的過程,產(chǎn)生的數(shù)據(jù)最終用來構(gòu)建數(shù)據(jù)倉庫。
4數(shù)據(jù)處理
點擊流是數(shù)據(jù)挖掘的重要信息,但由于其數(shù)據(jù)繁多,對數(shù)據(jù)挖掘工作者也是一種挑戰(zhàn)。使點擊流的數(shù)據(jù)進入數(shù)據(jù)庫主要通過幾個方面的數(shù)據(jù)統(tǒng)計,即客戶端、應用服務器、數(shù)據(jù)倉庫、web服務器四個方面??蛻舳耸侵赣脩敉ㄟ^智能工具或瀏覽器等各種方式瀏覽企業(yè)的頁面所產(chǎn)生的點擊數(shù)據(jù),構(gòu)建數(shù)據(jù)庫的過程就是對web服務器的數(shù)據(jù)進行預處理并轉(zhuǎn)移到數(shù)據(jù)倉庫和程序服務器中的數(shù)據(jù)分析過程。由于數(shù)據(jù)的量較大,要在大量的數(shù)據(jù)中提取有用的信息十分困難,因此,對數(shù)據(jù)進行預處理非常重要。對數(shù)據(jù)預處理的方法有字符大小寫的轉(zhuǎn)換和類型轉(zhuǎn)換等,通過這些工具完成數(shù)據(jù)的轉(zhuǎn)換,實現(xiàn)數(shù)據(jù)的預處理。數(shù)據(jù)處理的過程需要注意的問題有:首先,數(shù)據(jù)倉庫必須采用大規(guī)模的并行處理機,以滿足大量用戶的需求。其次,數(shù)據(jù)轉(zhuǎn)移的速率要高,可通過提高集成度或使用一些數(shù)據(jù)移動軟件的方法提高數(shù)據(jù)的轉(zhuǎn)移速率。
5挖掘模式
企業(yè)開發(fā)數(shù)據(jù)挖掘系統(tǒng)的主要目的就是應用數(shù)據(jù)挖掘的算法對數(shù)據(jù)倉庫的數(shù)據(jù)集進行分析和挖掘,提取出有用的信息和模式為企業(yè)的決策提供依據(jù)。因此,選擇一種有效的挖掘模式具有重要的意義,下面有幾種可供選擇的模式,第一,對用戶的訪問記錄利用路徑分析的方法進行分析。路徑分析利用的是web的日志文件中用戶的訪問記錄,并把用戶的訪問路徑按時間的先后進行排序。第二,對頻繁的頁面集利用關(guān)聯(lián)規(guī)則分析的方法進行分析,如對于兩本不同的書A和B中的頁面1和2,利用關(guān)聯(lián)規(guī)則分析的方法得出(1,2)是頻繁頁面集,當用戶瀏覽書A的頁面1時,將書B的頁面2加以緩存,從而提高web的緩存性能。第三,對相似的客戶和頁面利用聚類分析的方法進行分析。聚類分析包括客戶聚類和頁面聚類,主要分析具有相似性的客戶,對其相似的愛好提供個性化的服務。第四,對可能存在的潛在客戶利用分類和預測的方法進行挖掘。分類和預測方法是指通過對客戶的購買商品和訪問特征對客戶加以分類,從而為潛在的客戶開展促銷活動并對銷售情況進行預測。
6結(jié)束語
Web數(shù)據(jù)挖掘系統(tǒng)是目前較熱門的研究課題,具有廣闊的應用和發(fā)展空間,市場潛力巨大?;趙eb的數(shù)據(jù)挖掘系統(tǒng)與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)相比具有能夠使數(shù)據(jù)、接口和算法分離的優(yōu)點,簡化了算法庫的開發(fā)。web數(shù)據(jù)挖掘系統(tǒng)主要研究的內(nèi)容包括數(shù)據(jù)的預處理、收集和技術(shù)的開發(fā)。目前我國的數(shù)據(jù)挖掘技術(shù)與發(fā)達國家相比還有一定差距,仍需不斷的發(fā)展和完善。
參考文獻
[1] 李新金.Web使用挖掘在網(wǎng)絡學習平臺中的應用研究[J].浙江師范大學.2012,05(6):18.
[2] 劉天壘.基于Web的農(nóng)業(yè)數(shù)據(jù)挖掘系統(tǒng)的研究與實現(xiàn)[J].中國農(nóng)業(yè)科學院.2012,10(4):11.