[摘 要] Web數(shù)據(jù)挖掘已經(jīng)成為當(dāng)前廣泛研究的課題。目前許多網(wǎng)站都是用HTML構(gòu)建的,給Web數(shù)據(jù)挖掘帶來了諸多困難,XML的出現(xiàn)為Web數(shù)據(jù)挖掘帶來了便利。本文介紹了Web數(shù)據(jù)挖掘的概念和遇到的困難,分析了XML在Web數(shù)據(jù)挖掘中的應(yīng)用。
[關(guān)鍵詞] Web數(shù)據(jù)挖掘 XML 半結(jié)構(gòu)化數(shù)據(jù)
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。Web上有大量的數(shù)據(jù)信息,怎樣對(duì)這些數(shù)據(jù)進(jìn)行挖掘以實(shí)現(xiàn)復(fù)雜的應(yīng)用,已成為現(xiàn)今數(shù)據(jù)庫技術(shù)的研究熱點(diǎn)。
一、Web數(shù)據(jù)挖掘的概念
Web數(shù)據(jù)挖掘是一項(xiàng)涉及Web技術(shù)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語言學(xué)等多學(xué)科的綜合技術(shù),不同的研究人員從不同的角度出發(fā),對(duì)Web數(shù)據(jù)挖掘有著不同的理解。研究搜索引擎的人著重于Web頁面的文本數(shù)據(jù)的分析;而設(shè)計(jì)Web站點(diǎn)結(jié)構(gòu)的人,則著重于用戶對(duì)Web站點(diǎn)訪問模式的研究。具體來說,Web數(shù)據(jù)挖掘是指通過一定的算法,從大量的、不完全的隨機(jī)的Web數(shù)據(jù)中抽取模式、提取知識(shí)的過程,其實(shí)質(zhì)是一種從數(shù)據(jù)庫中學(xué)習(xí)的方法,可以彌補(bǔ)數(shù)據(jù)檢索的不足。
二、Web數(shù)據(jù)挖掘面臨的困難
從數(shù)據(jù)準(zhǔn)備階段來看,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多,主要體現(xiàn)在以下兩個(gè)方面:
1.異構(gòu)數(shù)據(jù)庫環(huán)境。從數(shù)據(jù)庫研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個(gè)大而復(fù)雜的數(shù)據(jù)庫。Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都是異構(gòu)的,而且每個(gè)站點(diǎn)之間的信息和組織都不一樣,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先,要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來,提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決web上的數(shù)據(jù)查詢問題,因?yàn)槿绻荒苡行У氐玫剿璧臄?shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析、集成,處理就無從談起。
2.半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的不同,傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型,可以根據(jù)模型來描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而,Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,使其成為一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn) 。
三、XML在Web數(shù)據(jù)挖掘中的應(yīng)用
XML是一種標(biāo)記語言,具有簡(jiǎn)單、開放、高效可擴(kuò)充和標(biāo)準(zhǔn)國際化等特點(diǎn)。它可被看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,能很容易地與關(guān)系數(shù)據(jù)庫中的屬性一一對(duì)應(yīng),實(shí)施精確的查詢與模型抽取,方便地實(shí)現(xiàn)數(shù)據(jù)挖掘。XML在Web數(shù)據(jù)挖掘中的應(yīng)用分析如下:
1.實(shí)現(xiàn)異構(gòu)數(shù)據(jù)集成管理。XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型。用戶可以很容易地將其和關(guān)系數(shù)據(jù)庫中的屬性一一對(duì)應(yīng),實(shí)施精確地記錄、查詢與模型抽取。因此,XML解決了每一個(gè)站點(diǎn)之間信息和組織都不一樣的問題,使不同站點(diǎn)上的非結(jié)構(gòu)性數(shù)據(jù)可以很容易地規(guī)范到一個(gè)既定數(shù)據(jù)庫上。軟件代理商可以在中間層的服務(wù)器上,對(duì)從后端數(shù)據(jù)庫和其他應(yīng)用獲取的數(shù)據(jù)進(jìn)行集成。
2.將負(fù)載處理從web服務(wù)器轉(zhuǎn)到web客戶端。一般來說,數(shù)據(jù)處理階段是數(shù)據(jù)挖掘的重要環(huán)節(jié),Web挖掘也不例外,大量的數(shù)據(jù)預(yù)處理工作都需要服務(wù)器端完成。按照傳統(tǒng)的C/S模式來開發(fā),客戶向服務(wù)器發(fā)出不同的請(qǐng)求,服務(wù)器分別予以響應(yīng),這不僅加重服務(wù)器本身的負(fù)荷,而且網(wǎng)絡(luò)管理員還需事先調(diào)查各種不同的用戶需求開發(fā)出相應(yīng)的程序。假如用戶的需求繁雜而多變,將所有業(yè)務(wù)邏輯集中在服務(wù)器端顯然不合適。因?yàn)榉?wù)器端編程人員可能來不及滿足眾多的應(yīng)用需求,也無法適應(yīng)需求的變化,雙方都很被動(dòng)。而XML將數(shù)據(jù)處理的主動(dòng)權(quán)交給了客戶,服務(wù)器端所要做的工作只是盡可能準(zhǔn)確、完善地將數(shù)據(jù)封裝成XML文件后發(fā)送給客戶??蛻舳烁鶕?jù)自己的需求選擇和制作不同的應(yīng)用程序以解析所接收的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行編輯和處理。XML自帶的解釋執(zhí)行系統(tǒng)在接收到數(shù)據(jù)的同時(shí)也理解了數(shù)據(jù)的邏輯結(jié)構(gòu)和含義,因而使分布式計(jì)算成為可能。
3.促進(jìn)數(shù)據(jù)交換。在Web數(shù)據(jù)挖掘過程中,用戶經(jīng)常需要在不同結(jié)構(gòu)的數(shù)據(jù)源之間進(jìn)行業(yè)務(wù)數(shù)據(jù)傳遞?;赬ML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要內(nèi)部描述就能被交換和處理。利用XML,用戶可以方便地進(jìn)行本地計(jì)算和處理。XML格式的數(shù)據(jù)發(fā)送給客戶后,客戶可以用應(yīng)用軟件方便地解析數(shù)據(jù),以及對(duì)數(shù)據(jù)進(jìn)行編輯和再處理,使用者可以用不同的方法處理數(shù)據(jù),而不僅僅是顯示它,XML文檔對(duì)象模式(DOM)允許用腳本或其他編程語言處理Web數(shù)據(jù),數(shù)據(jù)計(jì)算不需要回到服務(wù)器就能進(jìn)行??傊谶@類應(yīng)用中XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是XML并沒有定義文件中具體數(shù)據(jù)規(guī)范,而是在數(shù)據(jù)中附加標(biāo)志來表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義,這使得XML成為一種程序能自動(dòng)理解的規(guī)范。
4.根據(jù)用戶需求裁減信息內(nèi)容。傳統(tǒng)HTML主要描述數(shù)據(jù)的外觀,而XML可以描述數(shù)據(jù)的類別。由于數(shù)據(jù)顯示與內(nèi)容分開,XML允許為數(shù)據(jù)指定不同顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來。XML還可以對(duì)所取得的信息進(jìn)行裁減和編輯以適應(yīng)不同的用戶需求:它采用簡(jiǎn)單靈活的格式分離使用者觀察數(shù)據(jù)的界面,將同樣的數(shù)據(jù)以不同瀏覽形式提供給不同用戶。與其他數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是在數(shù)據(jù)中附加標(biāo)志來表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義,這使XML成為一種程序能自動(dòng)理解的規(guī)范。
四、結(jié)束語
由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式廣泛普及,Web數(shù)據(jù)挖掘?qū)?huì)變得高效與輕松。
參考文獻(xiàn):
[1]Han Jiawei, Micheline K:數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001,290~294
[2]王澤彬 金 飛 李 夏 王 冠:Web數(shù)據(jù)挖掘技術(shù)及實(shí)現(xiàn). 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2005.Vol.37.No.10