摘要:Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)新興方向。文章介紹了Web數(shù)據(jù)挖掘的概念、流程,融合前人的眾多研究,重點(diǎn)分析了Web數(shù)據(jù)挖掘的分類及其功能,并對其未來的發(fā)展提出了自己的看法。
關(guān)鍵詞:Web;數(shù)據(jù)挖掘;內(nèi)容挖掘;結(jié)構(gòu)挖掘;使用挖掘;應(yīng)用
一、引言
相對于傳統(tǒng)數(shù)據(jù)挖掘中結(jié)構(gòu)化的數(shù)據(jù),Web上的數(shù)據(jù)是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。由于半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息用數(shù)據(jù)模型不能清楚地表示,Web的用戶群也表現(xiàn)出多樣性的特點(diǎn),因此,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多。同時(shí),基于Internet的服務(wù)也如雨后春筍般產(chǎn)生并發(fā)展起來。如網(wǎng)上銀行、搜索引擎等。企業(yè)急需由Internet這個(gè)巨大的信息源中分析客戶行為,尋找商機(jī)。
在上面兩個(gè)需求的推動(dòng)下,產(chǎn)生了一個(gè)新的研究領(lǐng)域——Web數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來,是數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用。
二、Web數(shù)據(jù)挖掘概述
(一)Web數(shù)據(jù)挖掘的概念
Web數(shù)據(jù)挖掘就是利用數(shù)據(jù)挖掘技術(shù)從Web文檔和服務(wù)中自動(dòng)發(fā)現(xiàn)和抽取信息(Web mining is the use of data mining techniques to automatically discover and extract information from Web documents and services)。
Web數(shù)據(jù)挖掘是在分析大量數(shù)據(jù)的基礎(chǔ)上,做出歸納性的推理,預(yù)測客戶行為,幫助企業(yè)的決策者調(diào)整市場策略、減少風(fēng)險(xiǎn)并做出正確決策的過程。研究覆蓋了多個(gè)領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。
(二)Web數(shù)據(jù)的特點(diǎn)
1、數(shù)據(jù)量大。Internet將分布于世界各地的數(shù)量巨大的電腦連接起來,每個(gè)電腦上都存有豐富的數(shù)據(jù),這些數(shù)據(jù)涉及不同的行業(yè)和領(lǐng)域,這其中還有很多的用戶行為數(shù)據(jù),所以Web數(shù)據(jù)量非常巨大。
2、半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。傳統(tǒng)數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)該模型具體描述特定的數(shù)據(jù),比如關(guān)系型的數(shù)據(jù)庫,有統(tǒng)一的格式:按一定序列編排的二維表格結(jié)構(gòu),其中存儲(chǔ)的數(shù)據(jù)是完全結(jié)構(gòu)化的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述。每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性,但因自述層次的存在,從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),即半結(jié)構(gòu)化數(shù)據(jù)。
3、異構(gòu)數(shù)據(jù)庫環(huán)境。從數(shù)據(jù)庫研究的角度來看,Web網(wǎng)站上的所有信息也可以看作是一個(gè)比普通數(shù)據(jù)庫更大、更復(fù)雜的數(shù)據(jù)庫。每一個(gè)Web站點(diǎn)都可以看作是一個(gè)數(shù)據(jù)源,由于各站點(diǎn)是相互獨(dú)立的,之間除了可以互相訪問之外并沒有任何關(guān)系,所以每個(gè)站點(diǎn)之間的信息及信息組織方式都是不相同的,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要對這些數(shù)據(jù)進(jìn)行分析,必須要解決各站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,提供給用戶一個(gè)統(tǒng)一的視圖,才可能從巨大的數(shù)據(jù)資源中獲取有用的信息。
4、動(dòng)態(tài)性極強(qiáng)。相對于數(shù)據(jù)倉庫的數(shù)據(jù)而言,Web的數(shù)據(jù)量似乎過于龐大,而且其中的信息還在不斷的更新。這幾乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉庫來復(fù)制、存儲(chǔ)和集成Web上的所有數(shù)據(jù)。
三、Web數(shù)據(jù)挖掘的分類
Web包括三種類型的數(shù)據(jù):Web頁面數(shù)據(jù)、Web結(jié)構(gòu)數(shù)據(jù)、Web日志文件。根據(jù)數(shù)據(jù)挖掘?qū)ο蟮牟煌梢詫eb數(shù)據(jù)挖掘分為內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用挖掘三類,其具體分類見圖1。
(一)Web內(nèi)容挖掘
1、文本挖掘。對非結(jié)構(gòu)戶文本進(jìn)行的Web挖掘,稱為文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域。對文本數(shù)據(jù)進(jìn)行挖掘的文檔分類和模型質(zhì)量評價(jià)方法與傳統(tǒng)的數(shù)據(jù)挖掘方法相類似,分類算法主要應(yīng)用樸素貝葉斯。對模型的質(zhì)量評價(jià)主要有分類的正確率、準(zhǔn)確率和信息估值。
2、多媒體挖掘。多媒體數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域,是從多媒體數(shù)據(jù)庫中提取隱藏的知識、多媒體數(shù)據(jù)關(guān)聯(lián)、或者是其他沒有直接儲(chǔ)存在多媒體數(shù)據(jù)庫中的模式。多媒體挖掘首先進(jìn)行特征提取,然后再應(yīng)用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行進(jìn)一步的信息挖掘。廣義的多媒體數(shù)據(jù)挖掘既包括對圖像、視頻和聲音的挖掘,也包括對文本數(shù)據(jù)的挖掘。
(二)Web結(jié)構(gòu)挖掘
整個(gè)Web空間里,有用的知識不僅包含在Web頁面的內(nèi)容之中,而且也包含在Web頁面的結(jié)構(gòu)之中。Web結(jié)構(gòu)挖掘是指挖掘Web潛在鏈接結(jié)構(gòu)模式,即通過分析頁面鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式,在此基礎(chǔ)上對頁面進(jìn)行分類和聚類,從而找到權(quán)威頁面。文檔之間的超鏈接體現(xiàn)了文檔之間的邏輯關(guān)系,與文檔所處的位置無關(guān),一個(gè)Web站點(diǎn)內(nèi)的文檔完全可以包含指向其他站點(diǎn)的鏈接,這是站間鏈接,與之對應(yīng),位于同一個(gè)站點(diǎn)的鏈接就是內(nèi)部鏈接。Web結(jié)構(gòu)挖掘是對Web頁面超鏈接關(guān)系,文檔內(nèi)部結(jié)構(gòu),文檔URL中的目錄途徑結(jié)構(gòu)的挖掘,所以Web結(jié)構(gòu)挖掘又可以分為超鏈接挖掘、內(nèi)容挖掘和URL挖掘。
(三)Web使用挖掘
現(xiàn)代許多商務(wù)以及交易都是通過Internet或Web來實(shí)現(xiàn)的,從而每天在服務(wù)器方都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)通常是由服務(wù)器自動(dòng)產(chǎn)生并將其存放在服務(wù)器日志文件中,除此之外還有很多用戶信息如用戶的注冊信息。盡管Internet作為一個(gè)信息資源是繁雜、異質(zhì)和龐大的,然而從局部上來說,在每一個(gè)提供信息資源的服務(wù)器上都有一個(gè)結(jié)構(gòu)化較好的記錄集,即Web訪問日志。Web使用挖掘就是運(yùn)用數(shù)據(jù)挖掘技術(shù)在這些資源中發(fā)現(xiàn)使用模式的一個(gè)過程,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)。Web使用挖掘可以分為一般的訪問模式跟蹤和定制使用跟蹤。一般的訪問模式跟蹤通過分析Web訪問日志來理解訪問模式,利用這些分析可以清楚地給出較好的Web結(jié)構(gòu)及資源提供者的分組情況,把數(shù)據(jù)挖掘技術(shù)應(yīng)用與Web訪問日志可以獲取有趣的訪問模式,這些訪問模式有助于網(wǎng)站的重構(gòu)。定制使用跟蹤可以分析個(gè)人的傾向,它的主要目的是為每個(gè)用戶定制符合其個(gè)人特色的Web站點(diǎn)。根據(jù)個(gè)人喜好,可以在顯示的信息,網(wǎng)站的結(jié)構(gòu)及資源的格式等方面動(dòng)態(tài)地進(jìn)行定制。
(四)三種Web數(shù)據(jù)挖掘的比較(見表1)
四、Web數(shù)據(jù)挖掘的功能
(一)系統(tǒng)提升
系統(tǒng)提升又分兩個(gè)方面,一是網(wǎng)站自身的提升,二是網(wǎng)絡(luò)性能的提升。
網(wǎng)站自身的提升是指根據(jù)實(shí)際用戶的瀏覽情況,調(diào)整網(wǎng)站的網(wǎng)頁的連接結(jié)構(gòu)和內(nèi)容,更好的服務(wù)用戶。比如當(dāng)通過數(shù)據(jù)分析發(fā)現(xiàn)大多數(shù)的用戶在訪問本站時(shí)都是經(jīng)過路徑A=>B=>C=>D來訪問的,則可以將頁面A、D直接鏈接在一起,方便用戶訪問。
網(wǎng)絡(luò)性能的提升是指應(yīng)用緩存技術(shù)加快網(wǎng)絡(luò)信息傳輸,從proxy的訪問信息中可以分析用戶的訪問模式,從而可以預(yù)測用戶的Page訪問,提高Web Caching的性能。比如大多數(shù)用戶的訪問習(xí)慣為A=>B=>C,A=>B=>D,則當(dāng)用戶從A訪問到B時(shí)就可以將C、D調(diào)入緩存,等待用戶訪問。
(二)個(gè)性化定制
個(gè)性化定制是指根據(jù)發(fā)現(xiàn)的用戶喜好,動(dòng)態(tài)地為用戶定制觀看的內(nèi)容或提供瀏覽建議。例如網(wǎng)上的零售系統(tǒng)捕捉到大量采購過程的細(xì)節(jié),提供了深入分析的可能。從用戶的每次瀏覽的頁面可以發(fā)現(xiàn)他的興趣愛好,這樣商家可以為該用戶定制觀看的內(nèi)容或提供瀏覽建議,這樣可以方便用戶的瀏覽和查詢,增強(qiáng)顧客的忠誠度。同時(shí)商家可以對廣告的最佳擺放位置做出決策,從來提高廣告的效用,促進(jìn)網(wǎng)上銷售。
五、發(fā)展方向
Web數(shù)據(jù)挖掘有眾多應(yīng)用,有兩項(xiàng)是上文已經(jīng)提及的Web數(shù)據(jù)挖掘的功能,已經(jīng)投入應(yīng)用,也就是提升系統(tǒng)和為顧客提供個(gè)性化定制服務(wù)。本文另外將提出兩個(gè)Web數(shù)據(jù)挖掘應(yīng)用未來的發(fā)展方向。第一種是改造和構(gòu)造新的算法,把原有舊的數(shù)據(jù)源(例如Web Log)和新的數(shù)據(jù)(Business Data)結(jié)合起來,用以發(fā)現(xiàn)新的使用模式。舊的數(shù)據(jù)源是指日志能服務(wù)器自動(dòng)記錄下來的信息,而基于電子商務(wù)的迅速發(fā)展,新增了海量的商務(wù)數(shù)據(jù),包括用戶的購買記錄,點(diǎn)擊記錄等等,如果將舊的數(shù)據(jù)源與新的數(shù)據(jù)源相結(jié)合,一定可以發(fā)現(xiàn)新的使用模式,從來發(fā)現(xiàn)新的電子商務(wù)模式。第二種是提供完整的應(yīng)用功能。也就是集數(shù)據(jù)收集、清理和轉(zhuǎn)換,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)挖掘,個(gè)人定制,市場分析和決策于一體,將這么多功能整合以一種商業(yè)服務(wù)的方式提供,一定能受到眾多商家的青睞。因?yàn)橛缮碳易约喝プ鰯?shù)據(jù)挖掘,技術(shù)不過關(guān),成本太高,如果由專業(yè)的第三方來提供這樣的服務(wù),由專業(yè)人士幫助商家進(jìn)行數(shù)據(jù)挖掘,可以有效地節(jié)約資源。
六、結(jié)束語
本文討論了Web數(shù)據(jù)挖掘的概念、流程,詳細(xì)描述了Web數(shù)據(jù)挖掘的分類和功能,并對其未來的發(fā)展提出了一些想法。Web數(shù)據(jù)挖掘是隨著Internet、數(shù)據(jù)挖掘興起的一門新的綜合性技術(shù),是一個(gè)交叉的研究領(lǐng)域,國內(nèi)外在這一研究領(lǐng)域還沒有形成比較成熟的理論和同意的體系,因此Web數(shù)據(jù)挖掘具有極大的挑戰(zhàn)和巨大的開發(fā)潛力,其研究有著很好的商業(yè)和實(shí)用價(jià)值,這也是一個(gè)新的挑戰(zhàn)。
參考文獻(xiàn):
1、馬保國,侯存軍,王文豐,錢方正.Web數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2005(34).
2、麥曉冬,余海冰.Web數(shù)據(jù)挖掘綜述[J].科技咨詢導(dǎo)報(bào),2007(14).
3、高巖,胡靜濤.Web數(shù)據(jù)挖掘的原理、方法及用途[J].現(xiàn)代圖書情報(bào)技術(shù),2002(51).
4、李健.Web的數(shù)據(jù)挖掘[J].數(shù)據(jù)庫及信息管理,2006(20).
5、劉明剛,吳繼娟.基于Web數(shù)據(jù)挖掘研究[J].信息科學(xué),2006(63).
(作者單位:南京大學(xué)商學(xué)院電子商務(wù)系)