李仕楊
摘要:隨著數(shù)據(jù)庫技術(shù)及萬維網(wǎng)(WWW)技術(shù)的迅速發(fā)展,大量形式各異的復(fù)雜類型數(shù)據(jù)不斷涌現(xiàn)。因此數(shù)據(jù)挖掘面臨重要課題是針對復(fù)雜類型數(shù)據(jù)的挖掘,其中Web數(shù)據(jù)尤為重要。本文通過分析Web數(shù)據(jù)挖掘的特點及分類,針對常用技術(shù)和主要應(yīng)用方向進行探討,以其充分發(fā)揮web數(shù)據(jù)挖掘的作用,服務(wù)信息化社會。
關(guān)鍵詞:web;數(shù)據(jù)挖掘;信息服務(wù);常用技術(shù)
1 Web數(shù)據(jù)挖掘的特點
萬維網(wǎng)目前是一個巨大的、分布廣泛的和全球性的信息服務(wù)中心,它涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,Web挖掘不僅僅是數(shù)據(jù)挖掘算法在Web數(shù)據(jù)上的應(yīng)用,同傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)相比,Web數(shù)據(jù)具有其特殊性,其特點就是數(shù)據(jù)沒有嚴格的結(jié)構(gòu)模式,含有不同格式的數(shù)據(jù)(文本、聲音、圖像等),面向顯示的Html文本無法區(qū)分數(shù)據(jù)類型,并且存在大量的冗余和噪聲,同時Web是一個動態(tài)性極強的信息源,所以面向Web的數(shù)據(jù)挖掘研究極具挑戰(zhàn)性。
2 Web數(shù)據(jù)挖掘的分類
2.1 web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和一個頁面內(nèi)部的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web結(jié)構(gòu)可以用有向圖表示,頁面對應(yīng)圖中的點,超級鏈接對應(yīng)圖中的邊。通過把Web表示成有向圖,可以得到從一個站點的主頁到它任意一個定點的最短路徑,Robot沿最短路徑瀏覽Web站點,就可以以較小的代價發(fā)現(xiàn)較多的文檔。HITS、PageRank,以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進算法等,主要用于模擬Web站點的拓撲結(jié)構(gòu),計算Web頁面的等級和Web頁面之間的關(guān)聯(lián)度,典型的例子是CleverSystem和Google等。
2.2 Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從Web上的文件內(nèi)容及其描述信息中獲取潛在的、有價值的知識或模式的過程,它分為Web文本挖掘和Web多媒體挖掘。Web文本挖掘可以對Web上大量的文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進行趨勢分析等。Web多媒體挖掘主要是指通過對Web上的音頻、視頻數(shù)據(jù)和圖像進行預(yù)處理,應(yīng)用挖掘技術(shù)對其中潛在的、有意義的信息和模式進行挖掘的過程。
2.3 Web訪問挖掘
對于一個網(wǎng)站而言,網(wǎng)頁瀏覽量、點擊數(shù)、獨立IP訪問數(shù)等參數(shù)是反映這個網(wǎng)站用戶訪問情況的重要指標,通過對網(wǎng)站LOG文件的分析,可以獲得網(wǎng)站訪問情況的詳細統(tǒng)計數(shù)據(jù)。針對這些統(tǒng)計數(shù)據(jù)進行的數(shù)據(jù)挖掘,屬于靜態(tài)的Web訪問記錄的數(shù)據(jù)挖掘,可以有效地提高網(wǎng)站的服務(wù)。例如:通過分析訪問者的來源,可以使一個網(wǎng)站有針對性地提供內(nèi)容;通過分析每天各個時段訪問者人數(shù)的變化,網(wǎng)站可以調(diào)整每天內(nèi)容更新的時間。
3 Web數(shù)據(jù)挖掘的常用技術(shù)
Web數(shù)據(jù)挖掘中常用的技術(shù)有數(shù)據(jù)挖掘領(lǐng)域常用的分類聚類技術(shù)、關(guān)聯(lián)規(guī)則技術(shù) 序列模式技術(shù)和Web特有的路徑分析技術(shù)等。
3.1 分類聚類技術(shù)
數(shù)據(jù)分類技術(shù)可以通過挖掘數(shù)據(jù)中的某些共同特性從而對數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)捕獲的Web訪問用戶的個人信息或共同的訪問模式得出訪問某一服務(wù)器文件的用戶特征。常用的數(shù)據(jù)分類技術(shù)有:判定樹歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、基于案例的推理、遺傳算法、粗糙集方法和模糊集方法。
聚類是一個將物理或者抽象對象的集合分組成由類似的對象組成的多個類或簇的過程。聚類分析技術(shù)能用于對Web上的文檔進行分類,已發(fā)現(xiàn)信息。聚類分析能作為一個獨立的工具來獲得數(shù)據(jù)分布的情況,觀察每個簇的特點,集中對某些簇做進一步的分析。常用的聚類算法大體上可以劃分為幾類:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。
3.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則。在Web挖掘中,關(guān)聯(lián)規(guī)則挖掘就是要挖掘出用戶在一個訪問會話期間從服務(wù)器上訪問的頁面或文件之間的聯(lián)系,這些頁面之間可能并不存在直接的引用關(guān)系。最常用的算法是Aprior算法,它從事務(wù)數(shù)據(jù)庫中挖掘出最大頻繁訪問項集,這個項集就是關(guān)聯(lián)規(guī)則挖掘出來的用戶訪問模式。
3.3 時間序列模式挖掘技術(shù)
時間序列模式數(shù)據(jù)挖掘就是要挖掘出交易集之間的有時間序列的模式。在網(wǎng)站服務(wù)器日志里,用戶的訪問是以一段時間為單位記載的。經(jīng)過數(shù)據(jù)凈化和事件交易確認得到一個間斷的時間序列,這些序列所反映的用戶行為有助于幫助商家印證其產(chǎn)品所處的生命周期階段。
3.4 路徑分析技術(shù)
用路徑分析技術(shù)進行Web數(shù)據(jù)挖掘時,最常用的是圖。因為Web可以用一個有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超鏈接集合。頁面抽象為圖中的頂點,而頁面之間的超鏈接抽象為圖中的有向邊。頂點V的入邊表示對V的引用,出邊表示V引用了其它的頁面。
4 Web數(shù)據(jù)挖掘的主要應(yīng)用
4.1 Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用
Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認目標市場、改進決策獲得更大的競爭優(yōu)勢提供幫助,從中可得到商家用于特定消費群體或個體進行定向營銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個方面:首先,客戶分類和客戶聚類。對Web的客戶訪問信息進行挖掘。對客戶進行分類分析。應(yīng)用聚類分析對客戶進行分組,并且分析組中客戶的共同特征,這樣就可以讓商家更好了解自己的客戶,向客戶提供更有針對性的服務(wù)。其次是找到潛在的客戶。在對Web的客戶訪問信息的挖掘中,利用分類技術(shù)可在因特網(wǎng)上找到未來的潛在客戶。最后保留客戶的駐留時間。對于客戶而言,在網(wǎng)上每個銷售商對于客戶來說都是樣的,如何盡量使客戶在自己的網(wǎng)上駐留更長的時間,這樣對于商家才能有更多客戶和更大的利潤空間。
4.2 Web數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用
教育網(wǎng)絡(luò)化的趨勢不僅為學生提供了便利的學習方式和廣泛的選擇,也為學校提供了更加深入了解學生需求信息和學生行為特征的可能性。由于受教育對象個體之間存在著極大的差異性,網(wǎng)絡(luò)教學也必須是一種適應(yīng)個別化學習需求的個性化教學。這種個性化教學的提供。是通過將傳統(tǒng)的數(shù)據(jù)挖掘M Web結(jié)合起來。進行Web數(shù)據(jù)挖掘,即從Web文檔和Web活動中抽取學生感興趣的潛在的有用模式和隱藏的信息,作為對學生提供個性化教學服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點結(jié)構(gòu)。提高站點效率,更好地為網(wǎng)絡(luò)教育服務(wù)。
4.3 在網(wǎng)站設(shè)計中的應(yīng)用
在網(wǎng)站設(shè)計方面中的應(yīng)用,主要是通過對網(wǎng)站內(nèi)容的挖掘。特別是對文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息。如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;通過對用戶訪問日志記錄信息的挖掘,把握用戶感興趣的信息。從而有助于開展網(wǎng)站信息推送服務(wù)以及個人信息的定制服務(wù),吸引更多的用戶。
結(jié)束語。社會的發(fā)展離不開信息的傳播與使用,在數(shù)據(jù)急劇增長的情況下,如何高效的檢索到用戶需要的信息顯得更加重要。Internet作為世界上最大的信息庫,分布于世界各地數(shù)以億計的網(wǎng)頁以及站點,為Web挖掘大發(fā)展提供了前提條件。 隨著Internet的進一步發(fā)展,Web挖掘在信息的準確檢索、個性化的信息服務(wù)、開展有針對性的電子商務(wù)、構(gòu)建智能化的web站點起到重要作用,Web挖掘技術(shù)在實際生活中也會越來越重要。
參考文獻
[1]毛國君等著.數(shù)據(jù)挖掘原理與算法,2005,7.
[2]范明等譯.數(shù)據(jù)挖掘--概念與技術(shù)[M].機械工業(yè)出版社.2004.
[3]李琳等.基于web的數(shù)據(jù)挖掘技術(shù).自動化與儀表.2007,2.