摘要:萬維網(wǎng)是一個巨大的、分布廣泛的、全球性的信息服務(wù)中心,它包含了豐富的信息資源。Web挖掘可以快速有效地從互聯(lián)網(wǎng)上獲取所需要的信息。該文從Web數(shù)據(jù)挖掘的基本概念出發(fā),結(jié)合Web數(shù)據(jù)的特點(diǎn)介紹了Web數(shù)據(jù)挖掘的類型、過程和技術(shù),并對Web挖掘的應(yīng)用前景進(jìn)行了展望。
關(guān)鍵詞:Web數(shù)據(jù)挖掘;挖掘過程;挖掘技術(shù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)15-3852-02
The Summary of Web Mining Technology
PAN Zheng-gao1,2
(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)
Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.
Key words:Web Mining; Mining Course; Mining Technology
1 引言
隨著Internet的發(fā)展,Web信息迅速膨脹,如何從海量的Web信息中快速和準(zhǔn)確地獲取有用信息已經(jīng)成為近幾年數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)。Web上的數(shù)據(jù)與其他的數(shù)據(jù)相比較存在著明顯的特點(diǎn),這些特點(diǎn)使得Web挖掘在方法和技術(shù)方面與傳統(tǒng)的數(shù)據(jù)挖掘有著顯著的不同。
2 Web數(shù)據(jù)挖掘的概念
Web數(shù)據(jù)挖掘(Web Mining),簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的研究領(lǐng)域。一般,對Web數(shù)據(jù)挖掘定義如下:Web數(shù)據(jù)挖掘是指Web從文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式P。如果將C看作輸入,P看作輸出,則Web挖掘的過程就是從輸入到輸出的一個映射[2]。
Web挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的非平凡過程。Web挖掘是數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究相結(jié)合的產(chǎn)物,其涉及的技術(shù)覆蓋了多個研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等。
3 Web數(shù)據(jù)的特點(diǎn)[3]
1) 異構(gòu)數(shù)據(jù)庫環(huán)境。Web上的每一個站點(diǎn)就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫。
2) 分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務(wù)器上,形成了分布式數(shù)據(jù)源。
3) 半結(jié)構(gòu)化。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),稱之為半結(jié)構(gòu)化數(shù)據(jù)。
4) 動態(tài)性強(qiáng)。Web是一個動態(tài)性極強(qiáng)的信息源,信息不斷地快速更新,各站點(diǎn)的鏈接信息和訪問記錄的更新非常頻繁。
5) 多樣復(fù)雜性。Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。
4 Web數(shù)據(jù)挖掘的分類
Web挖掘技術(shù)根據(jù)挖掘的方向一般分為三類:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄的挖掘。
4.1 Web內(nèi)容挖掘(WCM,Web Content Mining)
Web內(nèi)容挖掘是指從大量的Web數(shù)據(jù)中發(fā)現(xiàn)信息、抽取知識的過程。這些Web數(shù)據(jù)的形式有Web頁面、Web頁面上各種鏈接所指向的內(nèi)容以及網(wǎng)絡(luò)數(shù)據(jù)庫里的數(shù)據(jù)等。從內(nèi)容方面,Web內(nèi)容挖掘可分為Web文本挖掘和Web多媒體挖掘,它們的不同在于提取的特征不同。從方法上,Web內(nèi)容挖掘可分為數(shù)據(jù)庫方法和信息抽取方法。
4.2 Web結(jié)構(gòu)挖掘(WSM,Web Structure Mining)
Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)、Web文檔結(jié)構(gòu)與其鏈接關(guān)系中挖掘潛在的知識和模式。通過對Web結(jié)構(gòu)的分析,可以發(fā)現(xiàn)頁面結(jié)構(gòu)和鏈接關(guān)系中所蘊(yùn)涵的有用模式;也可以對頁面及其鏈接進(jìn)行分類和聚類,發(fā)現(xiàn)權(quán)威頁面。有關(guān)這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進(jìn)的HITS(將內(nèi)容信息加入到鏈接結(jié)構(gòu)中去)、Hub/authority(Kleinberg,1998)[4]。
4.3 Web使用挖掘(WUM,Web Usage Mining)
Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務(wù)的質(zhì)量,改進(jìn)Web服務(wù)器的系統(tǒng)性能和結(jié)構(gòu)。
5 Web數(shù)據(jù)挖掘過程
Web數(shù)據(jù)挖掘過程是一個完整的KDD過程,但是與傳統(tǒng)的數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖1所示,包括如下四個過程:
1) 查找資源:根據(jù)挖掘目的,從Web資源中提取相關(guān)數(shù)據(jù),構(gòu)成目標(biāo)數(shù)據(jù)集,Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取。其任務(wù)是從目標(biāo)Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。
2) 數(shù)據(jù)預(yù)處理:在進(jìn)行Web挖掘之前對“雜質(zhì)”數(shù)據(jù)進(jìn)行過濾,例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預(yù)處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預(yù)處理主要包括站點(diǎn)識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。
3) 模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術(shù)包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。
4) 模式分析:利用合適的工具和技術(shù)對挖掘出來的模式進(jìn)行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識。
6 常用的數(shù)據(jù)挖掘技術(shù)
6.1 路徑分析技術(shù)
我們通常采用圖的方法來分析Web頁面之間的路徑關(guān)系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點(diǎn),而頁面間的超鏈接定義為圖中的有向邊。頂點(diǎn)v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進(jìn)行改進(jìn)站點(diǎn)的結(jié)構(gòu)。如70%的用戶訪問/company/product時,是從/company開始,經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點(diǎn)擊率。
6.2 關(guān)聯(lián)規(guī)則技術(shù)
關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個訪問期限(Session),從服務(wù)器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Reference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關(guān)。同時點(diǎn)擊的用戶越多,其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當(dāng)當(dāng)電子書店就采用了這一模式用以推薦相關(guān)書目。當(dāng)你選擇某本圖書時,系統(tǒng)會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想,推出信息推薦服務(wù)“Peer to Peer”。
6.3 序列模式挖掘技術(shù)
序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式,便于預(yù)測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動態(tài)地創(chuàng)立特定的有針對性的頁面,以滿足訪問者的特定需求。
6.4 聚類分類技術(shù)
分類規(guī)則可挖掘出某些共同的特性,而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進(jìn)行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對符合某一訪問規(guī)律特征的用戶進(jìn)行用戶特征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機(jī)關(guān)的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫中聚集出具有相似特性的用戶群。在Web事務(wù)日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在:在找出用戶共同興趣后,進(jìn)行合作式信息推薦,共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動態(tài)地改變一個特殊的站點(diǎn)等。
7 Web挖掘的研究熱點(diǎn)[6]
在未來一段時間內(nèi),Web挖掘研究的焦點(diǎn)可能會集中到以下幾個方面:
1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標(biāo)是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業(yè)搜索請求,實(shí)現(xiàn)自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。
2) Web數(shù)據(jù)的特征描述與監(jiān)控。如何表示W(wǎng)eb文本內(nèi)容的特征數(shù)據(jù),如何表示和識別Web中的圖像、flash等多媒體數(shù)據(jù),進(jìn)而進(jìn)行網(wǎng)頁分類、內(nèi)容跟蹤、過濾和報警等,對于不良網(wǎng)站的監(jiān)控等有著積極意義。
3) Web數(shù)據(jù)的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結(jié)構(gòu)化數(shù)據(jù)模型表示網(wǎng)頁;如何抽取動態(tài)網(wǎng)頁中的數(shù)據(jù);如何在分布的Web中獲取信息;如何在指定網(wǎng)頁中快速定位所需的數(shù)據(jù)區(qū);如何利用數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)查詢和存儲Web內(nèi)容等。
4) Web數(shù)據(jù)流挖掘。Web日志、cookie、點(diǎn)擊流等流式數(shù)據(jù)量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數(shù)據(jù);如何有效標(biāo)識用戶、設(shè)置用戶會話時間等。
5) 安全與非法訪問檢測。如何評價Web數(shù)據(jù)信息本身的可靠和安全性;如何對Web內(nèi)容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數(shù)據(jù)和異常行為,從而構(gòu)建安全的網(wǎng)絡(luò)環(huán)境。
6) 個性化與安全隱患。如何跟蹤、學(xué)習(xí)和表達(dá)多變的用戶興趣及行為模式,在個性化服務(wù)中過濾信息,實(shí)現(xiàn)商業(yè)應(yīng)用,在提醒個性化服務(wù)時不侵犯用戶隱私等都是亟待決的問題。
7) 基于Web的模式分析技術(shù)和工具。如何將Web挖掘的結(jié)果在瀏覽器中可視化地表達(dá),包括統(tǒng)計、關(guān)聯(lián)、聚類、分類等工具開發(fā)等。
8) Web挖掘的算法改進(jìn)與質(zhì)量評估。由于Web數(shù)據(jù)本身的特點(diǎn),使得Web挖掘不能照搬數(shù)據(jù)挖掘的理論和技術(shù),而需要對現(xiàn)有的算法等方面都進(jìn)行改進(jìn)。Web挖掘算法和挖掘系統(tǒng)的性能通常需要大量用戶的反饋,實(shí)際運(yùn)行測試,因而缺乏有效的評價模式。
9) Web挖掘在社會領(lǐng)域的應(yīng)用。Web已經(jīng)是人類社會活動的一面鏡子,如何在Web中發(fā)現(xiàn)社會現(xiàn)象、問題和熱點(diǎn)的規(guī)律,為社會學(xué)家、經(jīng)濟(jì)學(xué)家、教育學(xué)者提供有價值的知識。
此外,分布式Web挖掘、語義Web挖掘、無線網(wǎng)絡(luò)下的Web挖掘、Web2.0時代的Web挖掘、多語言環(huán)境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術(shù)應(yīng)用于具體領(lǐng)域的研究將持續(xù)受到關(guān)注,例如,銀行證券、企業(yè)ERP、醫(yī)療衛(wèi)生、農(nóng)業(yè)、電子商務(wù)、網(wǎng)絡(luò)教學(xué)、BLOG等。
8結(jié)束語
Web挖掘技術(shù)是一個新興的研究領(lǐng)域,對它的研究和應(yīng)用正在成為一個熱點(diǎn)。伴隨著Internet的快速發(fā)展,Web挖掘技術(shù)的研究和發(fā)展將會迎來更好的契機(jī)。
參考文獻(xiàn):
[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).
[2]王玉珍.Web數(shù)據(jù)挖掘的分析與探索[J].計算機(jī)發(fā)展與應(yīng)用,2003;(4).
[3]張藝雪.Web上的數(shù)據(jù)挖掘及應(yīng)用[J].信息科技,2007;(3)115-116.
[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.
[5]Jaideep Srivastava, Robert Cooley, Mukund Deshpande, Pang-Ning Tan, Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J].SIGKDD Explorations, Vol. 1, Issue 2, 2000.
[6] 胡學(xué)鋼 . Web挖掘研究綜述[J]. 計算機(jī)應(yīng)用研究, 2007,24 (6).